CN115146589B - 文本处理方法、装置、介质以及电子设备 - Google Patents

文本处理方法、装置、介质以及电子设备 Download PDF

Info

Publication number
CN115146589B
CN115146589B CN202110335142.3A CN202110335142A CN115146589B CN 115146589 B CN115146589 B CN 115146589B CN 202110335142 A CN202110335142 A CN 202110335142A CN 115146589 B CN115146589 B CN 115146589B
Authority
CN
China
Prior art keywords
vectors
vocabulary
probability
processing
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110335142.3A
Other languages
English (en)
Other versions
CN115146589A (zh
Inventor
王博远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110335142.3A priority Critical patent/CN115146589B/zh
Publication of CN115146589A publication Critical patent/CN115146589A/zh
Application granted granted Critical
Publication of CN115146589B publication Critical patent/CN115146589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及自然语言处理技术领域,提供了一种文本处理方法、装置、介质以及电子设备。该方法包括:获取至少两个待识别敏感词,并对至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;对至少两个词汇向量进行文本预测处理得到预测概率,并对至少两个词汇向量进行语义相似度计算得到语义相似度;对至少两个词汇向量进行词汇融合处理得到融合概率,并对至少两个词汇向量进行敏感词识别处理确定至少两个待识别敏感词中的待定敏感词和待定敏感词的敏感系数;对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算得到敏感词改写概率,并根据敏感词改写概率确定待定敏感词为改写敏感词。本公开提升了敏感词的识别速度和准确度。

Description

文本处理方法、装置、介质以及电子设备
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种文本处理方法、文本处理装置、计算机可读介质以及电子设备。
背景技术
互联网平台中的多数信息都以文本内容的方式呈现。那么,对文本内容的监管显得尤为重要。而在对文本内容监管时,对文本内容的识别方法通常依赖于自行构建的敏感词表。
但是,构建敏感词表不仅浪费人力和时间,也无法适应文本内容在互联网平台上日新月异的变化,并且准确度和效率都不高。
鉴于此,本领域亟需开发一种新的文本处理方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的技术背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本处理方法、文本处理装置、计算机可读介质以及电子设备,进而至少在一定程度上克服准确度低和浪费人力及时间的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供一种文本处理方法,该方法包括:
获取至少两个待识别敏感词,并对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;
对所述至少两个词汇向量进行文本预测处理得到预测概率,并对所述至少两个词汇向量进行语义相似度计算得到语义相似度;
对所述至少两个词汇向量进行词汇融合处理得到融合概率,并对所述至少两个词汇向量进行敏感词识别处理确定所述至少两个待识别敏感词中的待定敏感词和所述待定敏感词的敏感系数;
对所述预测概率、所述语义相似度、所述融合概率和所述敏感系数进行敏感词改写计算得到敏感词改写概率,并根据所述敏感词改写概率确定所述待定敏感词为改写敏感词。
根据本公开实施例的一个方面,提供一种文本处理装置,该装置包括:
联合处理模块,被配置为获取至少两个待识别敏感词,并对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;
通顺确定模块,被配置为对所述至少两个词汇向量进行文本预测处理得到预测概率,并对所述至少两个词汇向量进行语义相似度计算得到语义相似度;
识别处理模块,被配置为对所述至少两个词汇向量进行词汇融合处理得到融合概率,并对所述至少两个词汇向量进行敏感词识别处理确定所述至少两个待识别敏感词中的待定敏感词和所述待定敏感词的敏感系数;
词汇识别模块,被配置为对所述预测概率、所述语义相似度、所述融合概率和所述敏感系数进行敏感词改写计算得到敏感词改写概率,并根据所述敏感词改写概率确定所述待定敏感词为改写敏感词。
在本公开的一些实施例中,基于以上技术方案,所述通顺处理模块,包括:语义转换子模块,被配置为对所述至少两个词汇向量进行语义向量转换处理得到至少两个语义向量;
相似计算子模块,被配置为对所述至少两个语义向量进行语义相似度计算得到语义相似度。
在本公开的一些实施例中,基于以上技术方案,所述文本处理装置,还包括:关联向量模块,被配置为确定与所述至少两个待识别敏感词相关的关联向量,并对所述至少两个语义向量和所述关联向量进行语义相似度计算得到关联相似度;
相似损失模块,被配置为对所述语义相似度和所述关联相似度进行相似度损失计算得到相似度损失值,并根据所述相似度损失值对所述至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量。
在本公开的一些实施例中,基于以上技术方案,所述文本处理装置,还包括:辅助识别模块,被配置为对所述至少两个词汇向量进行词性识别处理得到与所述至少两个词汇向量对应的文本词性,并对所述至少两个词汇向量进行实体识别处理得到实体识别结果;
词汇鉴别子模块,被配置为根据所述文本词性和所述实体识别结果对所述改写敏感词进行敏感词鉴别处理得到敏感词鉴别结果。
在本公开的一些实施例中,基于以上技术方案,所述文本处理装置,还包括:概率损失模块,被配置为对所述预测概率进行预测损失计算得到预测概率损失值,并对所述融合概率进行融合损失计算得到融合概率损失值;
系数损失模块,被配置为对所述敏感系数进行系数损失计算得到敏感系数损失值,并获取所述相似度损失值;
损失融合模块,被配置为对所述预测概率损失值、所述相似度损失值、所述融合概率损失值和所述敏感系数损失值进行损失值融合处理得到目标损失值,并根据所述目标损失值对所述至少两个待识别敏感词进行多任务联合处理得到更新后的所述至少两个词汇向量。
在本公开的一些实施例中,基于以上技术方案,所述损失融合模块,包括:鉴别损失子模块,被配置为对所述文本词性进行词性损失计算得到文本词性损失值,并对所述实体识别结果进行识别损失计算得到实体识别损失值;
损失汇总子模块,被配置为对所述预测概率损失值、所述相似度损失值、所述融合概率损失值、所述敏感系数损失值、所述文本词性损失值和所述实体识别损失值进行损失值融合处理得到目标损失值。
在本公开的一些实施例中,基于以上技术方案,所述联合处理模块,包括:向量生成子模块,被配置为对所述至少两个待识别敏感词进行文本向量化处理得到至少两个编码向量;
任务联合子模块,被配置为对所述至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
在本公开的一些实施例中,基于以上技术方案,所述向量生成子模块,包括:词汇确定单元,被配置为对所述至少两个待识别敏感词进行词汇遍历处理确定目标敏感词,并获取所述目标敏感词的上一敏感词的编码向量;
编码向量单元,被配置为对所述目标敏感词和所述上一敏感词的编码向量进行文本向量化处理得到所述目标敏感词的编码向量,以得到所述至少两个待识别敏感词的至少两个编码向量。
在本公开的一些实施例中,基于以上技术方案,所述任务联合子模块,包括:联合参数单元,被配置为获取与所述至少两个编码向量对应的联合参数,并利用所述联合参数对所述至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
在本公开的一些实施例中,基于以上技术方案,所述识别处理模块,包括:词汇特征子模块,被配置为对所述至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对所述词汇特征向量进行词汇卷积处理得到词汇卷积向量;
维度变更子模块,被配置为对所述词汇卷积向量进行特征压缩处理得到词汇压缩向量,并对所述词汇压缩向量进行维度变更处理得到融合概率。
在本公开的一些实施例中,基于以上技术方案,所述通顺处理模块,包括:概率向量子模块,被配置为获取与所述至少两个待识别敏感词对应的词汇个数,并对所述至少两个词汇向量进行维度改变处理得到概率向量,所述概率向量的维度等于所述词汇个数;
概率筛选子模块,被配置为对所述概率向量进行概率筛选处理得到概率筛选结果,并根据所述概率筛选结果在所述概率向量中确定预测概率。
在本公开的一些实施例中,基于以上技术方案,所述词汇识别模块,包括:阈值比较子模块,被配置为获取与所述敏感词改写概率对应的敏感词概率阈值,并对所述敏感词改写概率和所述敏感词概率阈值进行比较得到阈值比较结果;
词汇确定子模块,被配置为若所述阈值比较结果为所述敏感词改写概率大于所述敏感词概率阈值,确定所述待定敏感词为改写敏感词。
根据本公开实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的文本处理方法。
根据本公开实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的文本处理方法。
在本公开实施例提供的技术方案中,一方面,对至少两个待识别敏感词进行多任务联合处理,发挥了多任务联合处理方式相互帮助和信息共享的优势,保障了改写敏感词的识别准确度;另一方面,利用多任务联合处理生成的词汇向量能够同时进行文本预测处理、语义相似度计算、词汇融合处理和敏感词识别处理多个任务,从语句通顺判定和敏感词确定两个角度进行改写敏感词识别,提升了改写敏感词的识别速度和识别效率,降低了改写敏感词的识别成本,并且能够快速适应互联网上日新月异的敏感词变化。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性地示出了应用本公开技术方案的示例性系统的架构示意图;
图2示意性地示出了本公开的一些实施例中一种文本处理方法的步骤流程图;
图3示意性地示出了在本公开的一些实施例中多任务联合处理的方法的步骤流程图;
图4示意性地示出了在本公开的一些实施例中文本向量化处理的方法的步骤流程图;
图5示意性地示出了在本公开的一些实施例中文本预测处理的方法的步骤流程图;
图6示意性地示出了在本公开的一些实施例中语义相似度计算的方法的步骤流程图;
图7示意性地示出了在本公开的一些实施例中更新语义向量的方法的步骤流程图;
图8示意性地示出了在本公开的一些实施例中词汇融合处理的方法的步骤流程图;
图9示意性地示出了在本公开的一些实施例中确定改写敏感词的方法的步骤流程图;
图10示意性地示出了在本公开的一些实施例中敏感词鉴别处理的方法的步骤流程图;
图11示意性地示出了在本公开的一些实施例中多任务联合处理更新的方法的步骤流程图;
图12示意性地示出了在本公开的一些实施例中损失值融合处理的方法的步骤流程图;
图13示意性地示出了在本公开的一些实施例中文本处理方法的的整体步骤流程图;
图14示意性地示出了在本公开的一些实施例在应用场景下文本处理方法的整体框架图;
图15示意性地示出了在本公开的一些实施例在应用场景下文人预测任务模型的框架图;
图16示意性地示出了在本公开的一些实施例在应用场景下语义相似度任务模型的框架图;
图17示意性地示出了在本公开的一些实施例在应用场景下词汇融合任务模型的框架图;
图18示意性地示出了在本公开的一些实施例在应用场景下敏感词识别任务模型的框架图;
图19示意性地示出了在本公开的一些实施例在应用场景下词性识别任务模型的框架图;
图20示意性地示出了在本公开的一些实施例在应用场景下实体识别任务模型的框架图;
图21示意性地示出了在本公开的一些实施例中的一种文本处理装置的结构框图;
图22示意性地示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本领域的相关技术中,通常的敏感词识别技术只能依赖于敏感词表实现。
第一种技术是一种基于字面匹配和敏感词表的识别方法。
该方法可以通过数据挖掘或者专家标注的方式制作一个敏感词表,然后通过把待处理文本中的每一个词与词表进行字面匹配,以找到敏感词。当该词与词表匹配上时,确定该词语为敏感词,并确定包含该词语的句子为敏感句子。
这种方式需要人工构建敏感词表,并不断进行实时补充和更新,否则无法适应互联网上不断发展和更新的敏感词,十分浪费人力和时间。
并且,敏感词表匹配的做法导致该敏感词表没有覆盖到的词语是无法被检测出来的。例如,敏感词表中有“吸毒”,但是没有“吸溜冰”,那么如果遇到“吸溜冰”这个词,则无法被检测出来,十分被动。
第二种技术是一种基于敏感词表和语义相似度匹配的方法。
这种方法也需要通过数据挖掘或者专家标注的方式制作一个敏感词表。然后,通过把待处理文本中的每一个词与该敏感词表进行语义相似度计算。如果句子中的某个词与敏感词表中的词的语义相似度高,那么可以确定该词为敏感词。
但是,这种方法也需要人工构建人工词表,浪费人力和时间。
并且,基于语义相似度的匹配无法做到完全准确。很多相似度高的词其实可能不是一个意思,并不能被认为是一个词。例如,很多语义相似度计算过程中显示“吸毒”和“吸烟”的相似度很高,但是这无法认定两个词是同一个意思,或者同一件事情。
第三种方法是基于敏感词表和拼音替换的识别技术。
该方法同样需要通过数据挖掘或者专家标注的方式制作出敏感词表。然后,通过把待处理文本中的每一个词跟词表做拼音相似度计算。如果句子中的某个词与敏感词表中的拼音相似度高,那么这个词就会被识别为敏感词。例如,“换钢笔”和“换港币”的拼音相似度高,可以识别出“换钢笔”为敏感词。
显然,这种方式由于要构建敏感词表也会浪费人力和时间。并且,这种方法的覆盖面小,也无法保证同音词即为同义词,准确率低。
而将三种识别技术结合使用时,仍然无法避免构建敏感词表带来的效率低下,以及浪费人力成本和时间成本的问题。
除此之外,当用户输入敏感词的时候,为了规避这些技术的识别,还会对敏感词进行一定程度的改写。
举例而言,将“换港币”改写成“换钢笔”,将“吸毒”改写成“溜冰”这种黑话,依靠这些识别技术是无法识别出这些改写后的敏感词的。
那么,在这种情况下,利用相关技术中的敏感词识别方法显然更是无法准确识别,更不存在对人力成本和识别效率的问题讨论了。
基于以上方案存在的问题,本公开提供了一种新的基于人工智能技术以及云技术的文本处理方法、文本处理装置、计算机可读介质以及电子设备。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体的,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
具体的,大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
利用了人工智能技术中的自然语言处理和机器学习技术,以及利用云技术中的大数据技术的文本处理方法能够保障改写敏感词的识别准确度,提升改写敏感词的识别速度和识别效率,降低改写敏感词的识别成本,并且能够快速适应互联网上日新月异的敏感词变化。
图1示出了应用本公开技术方案的示例性系统架构示意图。
如图1所示,系统架构100可以包括终端110、网络120、服务器端130。其中,终端110和服务器端130通过网络120连接。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,终端110首先获取至少两个待识别敏感词,并对至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量。
然后,对至少两个词汇向量进行文本预测处理得到预测概率,并对至少两个词汇向量进行语义相似度计算得到语义相似度。
同时,对至少两个词汇向量进行词汇融合处理得到融合概率,并对至少两个词汇向量进行敏感词识别处理确定至少两个待识别敏感词中的待定敏感词和待定敏感词的敏感次数。
最后,对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算得到敏感词改写概率,并根据敏感词改写概率确定待定敏感词为改写敏感词。
另外,本公开实施例中的文本处理方法可以应用于终端,也可以应用于服务器端,本公开对此不做特殊限定。本公开实施例主要以文本处理方法应用于终端110来举例说明。
下面结合具体实施方式对本公开提供的文本处理方法、文本处理装置、计算机可读介质以及电子设备做出详细说明。
图2示意性地示出了本公开的一些实施例中文本处理方法的步骤流程图,如图2所示,文本处理方法主要可以包括以下步骤:
步骤S210.获取至少两个待识别敏感词,并对至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量。
步骤S220.对至少两个词汇向量进行文本预测处理得到预测概率,并对至少两个词汇向量进行语义相似度计算得到语义相似度。
步骤S230.对至少两个词汇向量进行词汇融合处理得到融合概率,并对至少两个词汇向量进行敏感词识别处理确定至少两个待识别敏感词中的待定敏感词和待定敏感词的敏感系数。
步骤S240.对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算得到敏感词改写概率,并根据敏感词改写概率确定待定敏感词为改写敏感词。
在本公开的示例性实施例中,一方面,对至少两个待识别敏感词进行多任务联合处理,发挥了多任务联合处理方式相互帮助和信息共享的优势,保障了改写敏感词的识别准确度;另一方面,利用多任务联合处理后的词汇向量同时进行文本预测处理、语义相似度计算、词汇融合处理和敏感词识别处理多个任务,从语句通顺判定和敏感词确定两个角度进行改写敏感词识别,提升了改写敏感词的识别速度和识别效率,降低了改写敏感词的识别成本,并且能够快速适应互联网上日新月异的敏感词变化。
下面对文本处理方法的各个步骤进行详细说明。
在步骤S210中,获取至少两个待识别敏感词,并对至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量。
在本公开的示例性实施例中,至少两个待识别敏感词可以是从一个语句中进行分词处理得到的。其中,对该语句进行分词处理的方式包括基于规则分词和基于统计分词。
其中,基于规则分词是通过预先构建词典按照匹配方式进行分词切分。该词典可以是多元文法N-gram(汉语语言模型)词典,并按照分词策略将语句与预先构建的多元文法N-gram词典进行匹配得到每个词汇的可能切分结果,然后采用基于多元文法N-gram词典的最短路径方法计算出最终的待识别敏感词。
基于统计分词是利用经过标注的语料训练构建的分类器来进行分词处理。分类器可以是利用机器学习或深度学习算法进行训练构建的。这类算法通过可以采用隐含马尔柯夫模型(Hidden Markov Model,简称HMM)、条件随机场算法(conditional random fieldalgorithm,简称CRF)和深度学习等。
除此之外,也可以直接通过调用多种不同的分词工具作为分词模型,分别调用类型不同的分词工具对语句进行分词处理得到待识别敏感词。该语句也可以称为粗分语料。调用类型不同的分词工具对语句进行初步分词处理得到与不同的分词工具对应的多个初始分词,将多个初始分词合并成初始分词集合。此时,初始分词集合所包含的初始分词数据较多,可以通过对每个初始分词进行投票缩减初始分词的数量。其中,投票过程可以是按照分词工具统计得到的。举例而言,对于某个初始分词,三种分词工具均可以从原始文本中切分得到该初始分词,此时该初始分词作为分词字符串。如果三种分词工具对于该初始分词的分词结果不一致,直接丢弃该初始分词;如果两种分词工具对该初始分词的分词结果一致,另一种分词工具的分词结果不一致,可以确定该初始分词为待识别敏感词。
当使用多种分词工具进行分词时,通过投票方式可以初步缩小初始分词集合中初始分词的数量,保证分词字符串的有效性。
其中,分词工具可以采用开源中文分词工具,例如结巴中文分词、Hanlp分词器、哈工大语言技术平台(Language Technology Platform,简称LTP)、由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包(THU Lexial Analyzer forChinese,简称THULAC)、斯坦福分词器、自然语言处理与信息检索共享平台NLPIR等。这些分词工具分别具备各自的分词特点。举例而言,调用的多种分词工具分别可以是LTP、THULAV和NLPIR三种分词工具对语句进行分词处理。
LTP的分词模块基于CRF模型进行训练和解码,它在观测序列的基础上对目标序列进行建模,采用的数据来源是1998年1-6月人民日报中的数据。通过获取文件路径分词接口进行初始化,调用分词接口对语句进行分词处理得到至少两个待识别敏感词。
THULAC工具包自带模型训练原始语料,但是需要授权。THULAC工具包的中文分词和词性标注功能具有能力强、准确率高的特点。它可以通过配置接口参数,调用分词语句来对语句进行分词处理得到至少两个待识别敏感词。
NLPIR工具是一个全链条的分析工具,可以对语句进行分词。在具体分词过程中,需要导入预先构建的词典,通过调用词典来进行初次切分得到切分结果。进一步的,再使用概率统计方法和简单规则消除歧义词语,并利用词频信息识别未登录词语,经过消除歧义和识别未登录词后得到至少两个待识别敏感词。
在获取到从一个语句中进行分词处理得到的至少两个待识别敏感词之后,可以对该至少两个待识别敏感词进行多任务联合处理。
在可选的实施例中,图3示出了多任务联合处理的方法的步骤流程图,如图3所示,该方法至少包括以下步骤:在步骤S310中,对至少两个待识别敏感词进行文本向量化处理得到至少两个编码向量。
值得说明的是,对至少两个待识别敏感词进行文本向量化处理可以采用RNN(Recurrent Neural Network,循环神经网络)实现。
RNN是一种节点定向连接成环的人工神经网络,其内部状态可以展示动态序列行为,且不同于前馈神经网络的是,多层的RNN可以利用内部的记忆来处理任意时序的输入序列,使其能够更容易处理如不分段的手写识别和语音识别等。
其中,RNN作为一种可处理变长数据的神经网络,可以将任意长度的历史信息编码到一个隐藏层(hidden layer),即神经网络的中间输出,表征输入的某种隐含表现形式,通常为一个向量或矩阵。
尤其是随着近几年RNN使用LSTM(Long Short-Term Memory,长短期记忆网络)和GRU(Gated Recurrent Unit,门控循环单元)的广泛使用,RNN被成功用来解决自然语言处理的技术问题,如机器翻译、序列预测和语音信号处理等。
具体的,由于传统RNN并未考虑到随着展开层数的增加,网络深度会变得很深,导致反向梯度传播出现异常,如梯度弥散和梯度爆炸等。为了解决该问题,可以使用LSTM模型和GRU模型。
其中,LSTM模型是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是一种特殊的循环神经网络。LSTM是一种含有LSTM区块(blocks)的一种类神经网络,该LSTM区块可以是智能网络单元,可以处理不定时间长度的数据。并且,LSTM区块中有一个门能够解决输入是否重要到能被记住及能不能被输出。
GRU是新一代RNN,与LSTM非常相似。GRU不使用单元状态,而是使用隐藏状态来传输信息。它也只有两个门,一个重置门(reset gate)和一个更新门(update gate)。该重置门可以决定哪些信息要丢弃和添加哪些信息系,更新门是用来决定要忘记多少过去的信息的门。
实际应用中,可以根据实际情况和需求选择LSTM模型或GRU模型对至少两个待识别敏感词进行文本向量化处理。
举例而言,当数据量较大时,可以选用LSTM模型,数据量相对较小时,可以选用GRU模型。除此之外,也可以根据其他依据进行选择,本示例性实施例对此不做特殊限定。而当采取RNN模型对至少两个待识别敏感词进行文本向量化处理时,处理方式如图4所示。
在可选的实施例中,图4示出了文本向量化处理的方法的步骤流程图,如图4所示,该方法至少包括以下步骤:在步骤S410中,对至少两个待识别敏感词进行词汇遍历处理确定目标敏感词,并获取目标敏感词的上一敏感词的编码向量。
对至少两个待识别敏感词进行词汇遍历处理即为从至少两个待识别敏感词中的第一个取词至最后一个,按照从前往后的顺序选择待识别敏感词作为目标敏感词。
举例而言,当该目标敏感词为至少两个待识别敏感词中的第二个时,获取到该目标敏感词的上一个敏感词,即第一个待识别敏感词的隐含状态向量作为编码向量。其中,该隐含状态向量是利用RNN模型对第一个待识别敏感词进行文本向量化处理得到的。当该目标敏感词为至少两个待识别敏感词中的第三个时,确定第二个待识别敏感词为上一敏感词,并获取第二个待识别敏感词的隐含状态向量作为编码向量,以此类推,直至获取到至少两个待识别敏感词中的最后一个待识别敏感词的上一敏感词的编码向量为止。
值得说明的是,当目标敏感词为至少两个待识别敏感词中的第一个时,可以根据经验预设一初始值作为对应的编码向量,也可以是随机生成的初始值,本示例性实施例对此不做特殊限定。
在步骤S420中,对目标敏感词和上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量,以得到至少两个待识别敏感词的至少两个编码向量。
举例而言,当目标敏感词为第二个待识别敏感词时,还获取到第一个待识别敏感词,即上一敏感词的编码向量。进一步的,对该第二个待识别敏感词和该上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量。
具体的,该文本向量化处理可以是利用RNN模型对目标敏感词和编码向量进行加权计算得到隐含状态向量,即目标敏感词的编码向量。
在得到第二个待识别敏感词的编码向量之后,然后依次选择第三个待识别敏感词、第四个待识别敏感词、……、最后一个待识别敏感词作为目标敏感词,得到各个待识别敏感词的编码向量,以作为最终确定的至少两个待识别敏感词的至少两个编码向量。
值得说明的是,第一个待识别敏感词为目标敏感词时,可以对根据经验预设的初始值或随机生成的初始值进行文本向量化处理得到对应的编码向量。
在本示例性实施例中,通过词汇遍历处理和文本向量化处理可以得到各个待识别敏感词的编码向量,能够将各个待识别敏感词的关键信息进行整合,避免了关键信息遗失的情况发生,以进一步保障后续文本预测和相似度计算等多任务的准确性。
在步骤S320中,对至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
在得到待识别敏感词的编码向量之后,可以对编码向量进行多任务联合处理。
值得说明的是,在步骤S310中的词汇遍历处理是多个任务均进行的。亦即,当有4个自然语言处理任务时,该步骤S310中的词汇遍历处理过程可以执行4次,或者是执行1次,但有4份处理结果,即编码向量,以支持后续的多任务联合处理和文本预测、相似度计算等。
其中,多任务联合处理是通过多任务学习(Multi-Task Learning)框架实现的。多任务学习框架是在一个大的模型中,设计多个子任务,而这些子任务在做好自己任务的同时,还可以辅助其他任务的执行,发挥信息共享的优势。
举例而言,基于图像的人脸识别任务与基于图像的猴子脸识别任务有想通的地方,做好其中一个任务可以帮助到另一个任务。
在可选的实施例中,获取与至少两个编码向量对应的联合参数,并利用联合参数对至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
具体的,采用一个共享的全连接层,并通过该共享的全连接层对至少两个编码向量进行全连接处理,以实现对至少两个编码向量的多任务联合处理。
全连接处理可以是在深度学习网络的全连接层实现的。全连接处理可以是将每一个节点都与上一层的所有节点相连的处理,亦即把至少两个编码向量的特征综合起来。
更进一步的,为了达到全连接层共享的目的,可以对该全连接层的权重统一使用。亦即,将全连接层的权重作为联合参数,并采用该同一组权重对4个或者6个,或者其他数量的词汇遍历结果进行全连接处理,以得到对应的至少两个词汇向量。
在本示例性实施例中,通过联合参数实现针对至少两个编码向量的多任务联合处理,一方面,增加了多个自然语言处理任务的深度,使得词汇向量的输出效果更好,另一方面,通过多任务联合处理使得多个自然语言处理任务之间可以相互帮助,降低了任务复杂度,提升了任务效率。
在步骤S220中,对至少两个词汇向量进行文本预测处理得到预测概率,并对至少两个词汇向量进行语义相似度计算得到语义相似度。
在本公开的示例性实施例中,在得到至少两个词汇向量之后,可以进行的多个自然语言处理任务的其中一个为文本预测任务。
在可选的实施例中,图5示出了文本预测处理的方法的步骤流程图,如图5所示,该方法至少包括以下步骤:在步骤S510中,获取与至少两个待识别敏感词对应的词汇个数,并对至少两个词汇向量进行维度改变处理得到概率向量,概率向量的维度等于词汇个数。
该与至少两个待识别敏感词对应的词汇个数可以是待识别敏感词所属领域的词表中的词汇个数,也可以是其他与待识别敏感词相关的词汇的个数,本示例性实施例对此不做特殊限定。
进一步的,对至少两个词汇向量进行维度改变处理,可以是通过一个单独的全连接层实现的。该全连接层是文本预测任务独享的,并且目的是为了将词汇向量的维度改变成与该词汇个数相同的维度的向量,即概率向量。该概率向量中的每一维都对应词表中的一个词被预测为当前词汇向量的下一个词汇的概率。
在步骤S520中,对概率向量进行概率筛选处理得到概率筛选结果,并根据概率筛选结果在概率向量中确定预测概率。
为在概率向量中确定出一预测概率,可以将概率向量进行概率筛选处理。
具体的,可以是将概率向量中的每一维进行比较,以确定出概率向量中维度最大的作为预测概率。该预测概率表征对应词汇最可能被预测为当前词汇向量的下一词汇的概率。
当有至少两个词汇向量的概率向量时,可以使用概率筛选处理确定出对应的预测概率,并对各个词汇向量的预测概率进行求平均计算得到最终的预测概率。
在本示例性实施例中,通过维度改变处理和概率筛选处理可以确定出预测概率,保留了词汇向量的有用信息,确保了预测概率的准确度。
在得到至少两个词汇向量之后,可以进行的多个自然语言处理任务除了文本预测任务之外,还可以包括语义相似度任务。
在可选的实施例中,图6示出了语义相似度计算的方法的步骤流程图,如图6所示,该方法至少包括以下步骤:在步骤S610中,对至少两个词汇向量进行语义向量转换处理得到至少两个语义向量。
对至少两个词汇向量进行语义向量转换处理可以是通过一个单独的全连接层实现的。该全连接层是语义相似度任务独享的。
并且,由于计算语义相似度之前,语义相似度对应的任务模型的深度又增加了一层全连接层,可以使语义向量转换处理后的语义向量更加贴合语义,以使得计算出的语义相似度准确性更高。
在步骤S620中,对至少两个语义向量进行语义相似度计算得到语义相似度。
具体的,对至少两个语义向量进行语义相似度计算可以是分别计算至少两个语义向量两两之间的余弦值来作为语义相似度。
其中,余弦相似度通过测量两个分词字符串的向量的夹角的余弦值来度量它们之间的相似性。
0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1,从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。
两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为0到1之间。
两个分词字符串之间的余弦相似度可以通过欧几里得点积公式求出:
a·b=‖a‖‖b‖cosθ (1)
在给定两个字符串的向量A和B时,余弦相似度θ由点积和向量长度得出:
其中,Ai和Bi分别代表向量A和向量B的对应分量。
在分别计算出每个词汇向量与其他词汇向量之间的语义相似度之后,可以对所有词汇向量对应的语义向量求平均值,以作为最终的语义相似度。
在本示例性实施例中,通过对至少两个词汇向量进行语义转换处理和语义相似度计算之后,可以得到对应的语义相似度,计算方式简单准确,实用性极强。
为保障语义相似度的准确性,可以计算与该语义相似度对应的相似度损失值,以对至少两个词汇向量进行语义转换处理得到新的至少两个语义向量。
在可选的实施例中,图7示出了更新语义向量的方法的步骤流程图,如图7所示,该方法至少包括以下步骤:在步骤S710中,确定与至少两个待识别敏感词相关的关联向量,并对至少两个语义向量和关联向量进行语义相似度计算得到关联相似度。
该关联向量可以是待识别敏感词的相关领域的相关词汇的向量,也可以是其他与待识别敏感词相关的词汇的向量,本示例性实施例对此不做特殊限定。
由于一句话中的各个词有相同或者相似的含义,而来自不同句子汇总的词有着不同的含义,因此一句话中的各个词之间的语义相似度更高,即至少两个待识别敏感词的语义向量之间的语义相似度更高,作为正例,而来自不同句子中的词之间的相似度更低,以及语义向量与关联向量之间的关联相似度更低,作为负例。
因此,在针对至少两个待识别敏感词中的一个敏感词与其他待识别敏感词计算出语义相似度,并作为正例之后,可以对该敏感词与关联向量进行语义相似度计算得到关联相似度,以作为负例。并且,为保障语义相似度计算的效果,通常正例的相似度越高越好,而负例的相似度越低越好。
在步骤S720中,对语义相似度和关联相似度进行相似度损失计算得到相似度损失值,并根据相似度损失值对至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量。
具体的,根据语义相似度和关联相似度进行相似度损失值可以通过公式(3)实现:
Lsimilarity=cosine(词,句内其他词)-cosine(词,其他句子的词) (3)
其中,“词”表征至少两个敏感词中一个敏感词对应的语义向量,“句内其他词”表征至少两个敏感词中其他敏感词对应的语义向量,“其他句子的词”表征与该敏感词相关的关联向量。
公式(3)为计算至少两个敏感词中一个敏感词的对应相似度损失值的方式。而当计算完所有待识别敏感词对应的相似度损失值之后,可以对所有待识别敏感词的相似度损失值进行平均计算以作为最终的相似度损失值。
当相似度损失值超过对应的损失阈值时,表明对词汇向量进行语义转换处理的全连接层的权重未训练完成,可以重新调整全连接层的权重,以重新对至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量,再重新进行语义相似度计算,并得到更为准确的语义相似度。
在本示例性实施例中,通过对语义相似度进行相似度损失计算,以实现对语义转换处理过程的训练,保障了语义转换处理和语义相似度的准确性,进一步保障了改写敏感词识别的准确度。
在步骤S230中,对至少两个词汇向量进行词汇融合处理得到融合概率,并对至少两个词汇向量进行敏感词识别处理确定至少两个待识别敏感词中的待定敏感词和待定敏感词的敏感系数。
在本公开的示例性实施例中,得到至少两个词汇向量之后,可以进行的多个自然语言处理任务除了文本预测任务和语义相似度任务之外,还可以包括词汇融合任务。
在可选的实施例中,图8示出了词汇融合处理的方法的步骤流程图,如图8所示,该方法至少包括以下步骤:在步骤S810中,对至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对词汇特征向量进行词汇卷积处理得到词汇卷积向量。
对至少两个词汇向量进行词汇特征提取处理可以是通过一个单独的全连接层实现的。该全连接层是词汇融合任务独享的。在全连接层对至少两个词汇向量进行词汇特征提取处理之后可以得到对应的词汇特征向量。
而对词汇特征向量进行词汇卷积处理可以是通过一个单独的卷积层实现的,亦即该卷积层也是词汇融合任务独有的。
卷积层的卷积操作可以为利用卷积核(也可以被称为滤波器)和词汇特征向量进行运算后输出词汇卷积向量,该运算可以是将词汇特征向量与卷积核的权值做内积操作。
其中,内积操作采用滑动卷积核的方式进行,以词汇特征向量的左上角为起点,滑动卷积核到词汇特征向量的右下角产生一个特征图。其中,每次滑动卷积核之后,都能够从词汇特征向量中提取到一个与卷积核大小相同的特征矩阵,将该特征矩阵与卷积核进行内积操作,可以产生对应的词汇卷积向量。
在步骤S820中,对词汇卷积向量进行特征压缩处理得到词汇压缩向量,并对词汇压缩向量进行维度变更处理得到融合概率。
对词汇卷积向量进行特征压缩处理是通过一个单独的池化层实现的,而该池化层也是词汇融合任务独有的。
池化层用于对词汇卷积向量进行压缩处理,简化词汇卷积向量的计算复杂度。具体的,特征压缩处理可以采用滑动窗口的方式得到词汇压缩向量,也可以采用其他方式,本示例性实施例对此不做特殊限定。
在得到词汇压缩向量之后,可以采用另一词汇融合任务的全连接层对词汇压缩向量进行维度变更处理得到融合概率。该全连接层的目的是为了将词汇压缩向量的维度变更成与词汇融合任务的结果相同的维度的向量,即融合概率。
举例而言,当词汇融合任务的结果为至少两个待识别敏感词中包括或不包括改写敏感词的结果时,对词汇压缩向量进行维度变更处理之后可以得到一个打分值,该打分值即为融合概率。例如,该打分值可以为0-1之间的数值。
在本示例性实施例中,对词汇向量进行词汇融合处理可以得到对应的融合概率,在词汇融合任务的结果只需弱标注的情况下,减少了标注的成本和时间,提高了标注准确率。
更进一步的,多个自然语言处理任务还可以包括敏感词识别任务。该敏感词识别任务是通过对至少两个词汇向量进行敏感词别处理实现的。
对至少两个词汇向量进行敏感词识别处理通过一个敏感词识别任务独有的全连接层实现。并且,由于敏感词识别处理需要确定对应的词汇向量是否为改写敏感词的词汇向量,因此该全连接层可以将词汇向量的维度改变为一个二维的向量,分别表示该词汇向量为改写敏感词的词汇向量的概率和不为改写敏感词的词汇向量的概率。
当对至少两个词汇向量分别进行敏感词识别处理之后,可以得到至少两个待识别敏感词中的待定敏感词和对应的概率,即为敏感系数。
值得说明的是,只有当待识别敏感词的敏感系数满足条件,或者超过对应的阈值的情况下,才确定该待识别敏感词为待定敏感词。
在步骤S240中,对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算得到敏感词改写概率,并根据敏感词改写概率确定待定敏感词为改写敏感词。
在本公开的示例性实施例中,分别进行完文本预测任务、语义相似度任务、融合概率任务和敏感词识别任务之后,可以得到对应的预测概率、语义相似度、融合概率和敏感系数。
进一步的,可以对预测概率、语义相似度、融合概率和敏感系数按照公式(4)进行敏感词改写计算:
Pr=w*Pf+x*Cs-y*Pc-z*Ds (4)
其中,Pr表征敏感词改写概率,Pf为融合概率,w为融合概率的权重,Cs为敏感系数,x为敏感系数的权重,Pc为预测概率,y为预测概率的权重,Ds为语义相似度,z为语义相似度的权重。
一般的,w和x设置为10,y和z设置为1。除此之外,也可以根据实际情况设置其他权重,本示例性实施例对此不做特殊限定。
在计算出敏感词改写概率之后,可以根据该敏感词改写概率确定待定敏感词是否为被改写过的改写敏感词。
在可选的实施例中,图9示出了确定改写敏感词的方法的步骤流程图,如图9所示,该方法至少包括以下步骤:在步骤S910中,获取与敏感词改写概率对应的敏感词概率阈值,并对敏感词改写概率和敏感词概率阈值进行比较得到阈值比较结果。
该敏感词概率阈值为用来判定计算出的敏感词概率概率是否能确定对应的待定敏感词为改写敏感词的参照值。一般的,可以将该敏感词概率阈值设为0.7,也可以设为其他数值,本示例性实施例对此不做特殊限定。
因此,可以将敏感词改写概率和该敏感词概率阈值进行比较得到对应的阈值比较结果。
在步骤S920中,若阈值比较结果为敏感词改写概率大于敏感词概率阈值,确定待定敏感词为改写敏感词。
当阈值比较结果为敏感词改写概率大于敏感词概率阈值时,表明该待定敏感词为被改写的改写敏感词。改写敏感词是一些用户为了规避敏感词检测处理,会将一些敏感词进行改写,例如将“换港币”改写成“换港币”。其中,改写前的词为敏感词原词,亦即“换港币”为敏感词原词,而改写后的词为改写敏感词,亦即“换港币”为改写敏感词。
而当阈值比较结果为敏感词改写概率小于或等于敏感词概率阈值时,表明该待定敏感词并不是被改写过的敏感词。
在本示例性实施例中,通过将敏感词改写概率与敏感词概率阈值的阈值比较结果,可以确定出待定敏感词中的改写敏感词,达到识别改写后的敏感词的目的,丰富了敏感词的识别方式,保障了敏感词的识别效率和识别准确率。
进一步的,为确定识别出的改写敏感词是否准确,还可以对改写敏感词进行鉴别处理。
在可选的实施例中,图10示出了敏感词鉴别处理的方法的步骤流程图,如图10所示,该方法至少包括以下步骤:在步骤S1010中,对至少两个词汇向量进行词性识别处理得到与至少两个词汇向量对应的文本词性,并对至少两个词汇向量进行实体识别处理得到实体识别结果。
为实现对改写敏感词的鉴别处理,多个自然语言处理任务中还可以包括词性识别任务和实体识别任务。
具体的,通过词性识别任务独享的全连接层实现对至少两个词汇向量的词性识别处理,并且可以将该词汇向量的维度变更成与词性个数相同的向量,以根据该向量的每一维的大小确定出词汇向量的文本词性。
举例而言,词性通常包括名词、动词、代词、副词和形容词,因此,可以对至少两个词汇向量中的一个进行词性识别处理得到一个五维的向量,并且该向量的每一维表征该词汇向量作为对应词性的概率。最终,选择概率最大的词性作为该词汇向量的文本词性。
通过实体识别任务独享的全连接层实现对至少两个词汇向量的实体识别处理,并且可以将该词汇向量的维度变更成一个打分值,该打分值对应的识别结果即为实体识别结果。
例如,该打分值为0-1之间的数值时,当数值大于0.5,该词汇向量表征的为实体,当数值小于或等于0.5,该词汇向量表征的不为实体;或者相反,本示例性实施例对此不做特殊限定。
实体(Entity)是指具有特征意义或者指代性非常强的事物,例如可以包括人名、地名、机构名、时间或者专有名词等中的至少一种,专有名词可以包括多种类型中的至少一种。举例而言,在医疗领域中,专有名词可以包括病症、药品或者检查等类型中的至少一种,例如实体可以是疾病类型中的“肺结核”。并且,在自然语言处理领域中,实体也可以成为语义实体或者是命名实体。因此,实体的概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。
在步骤S1020中,根据文本词性和实体识别结果对改写敏感词进行敏感词鉴别处理得到敏感词鉴别结果。
在得到文本词性和实体识别结果之后,可以对改写敏感词进行敏感词鉴别处理。
通常,改写敏感词往往是动词或者名词,并且一般为实体词,因此可以获取到改写敏感词的文本词性和实体识别结果,并进一步根据改写敏感词的文本词性和实体识别结果,确定改写敏感词是否为名词或动词,以及是否为实体词。
当该改写敏感词为名词或动词,且该改写敏感词为实体词时,可以确定该改写敏感词的识别是正确的,因此敏感词鉴别结果为改写敏感词识别准确。
当该改写敏感词不为名词或动词,和/或该改写敏感词不为实体词时,可以对多任务联合处理进行更新,以保证改写敏感词的识别准确性。
在本示例性实施例中,通过对词汇向量进行词性识别处理和实体识别处理,可以对已识别出的改写敏感词进行鉴别处理,以对改写敏感词的识别过程进行辅助,保障改写敏感词的识别准确度。
进一步的,对多任务联合处理进行更新时,依赖于文本预测处理过程的损失值、语义相似度计算的损失值、词汇融合处理的损失值和敏感词识别处理的损失值,甚至于依赖于词性识别处理的损失值和实体识别处理的损失值。
在可选的实施例中,图11示出了多任务联合处理更新的方法的步骤流程图,如图11所示,该方法至少包括以下步骤:在步骤S1110中,对预测概率进行预测损失计算得到预测概率损失值,并对融合概率进行融合损失计算得到融合概率损失值。
具体的,对预测概率进行预测损失计算得到预测概率损失值的方法可以参考公式(5):
公式(5)为交叉熵损失函数。交叉熵(Cross Entropy)是香农信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。
交叉熵可在机器学习中作为损失函数,p代表真实标记的分布,q则代表训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时,可以避免均方误差损失函数学习速率下降的问题,这是因为学习速率是能够被输出的误差所控制的。
除此之外,对融合概率进行融合损失计算得到融合概率损失值的方式也可以采用公式(5)实现,还可以采用其他计算方式,本示例性实施例对此不做特殊限定。
在步骤S1120中,对敏感系数进行系数损失计算得到敏感系数损失值,并获取相似度损失值。
同样的,对敏感系数进行系数损失计算得到敏感系数损失值的方式也可以采用公式(5)实现,或者采用其他计算方式,本示例性实施例对此不做特殊限定。
进一步的,获取到在步骤S720中按照公式(3)计算得到的相似度损失值。
在步骤S1130中,对预测概率损失值、相似度损失值、融合概率损失值和敏感系数损失值进行损失值融合处理得到目标损失值,并根据目标损失值对至少两个待识别敏感词进行多任务联合处理得到更新后的至少两个词汇向量。
在计算出预测概率损失值、相似度损失值、融合概率损失值和敏感系数损失值之后,可以对预测概率损失值、相似度损失值、融合概率损失值和敏感系数损失值进行损失值融合处理得到最终的目标损失值。
而在进行了敏感词鉴别处理的过程中,对目标损失值的计算还可以包括文本词性的损失值和实体识别结果的损失值。
在可选的实施例中,图12示出了损失值融合处理的方法的步骤流程图,如图12所示,该方法至少包括以下步骤:在步骤S1210中,对文本词性进行词性损失计算得到文本词性损失值,并对实体识别结果进行识别损失计算得到实体识别损失值。
具体的,词性损失计算和识别损失计算的方式也可以采用公式(5),或者是采用其他计算方式,本示例性实施例对此不做特殊限定。
在步骤S1220中,对预测概率损失值、相似度损失值、融合概率损失值、敏感系数损失值、文本词性损失值和实体识别损失值进行损失值融合处理得到目标损失值。
在计算出预测概率损失值、相似度损失值、融合概率损失值、敏感系数损失值、文本词性损失值和实体识别损失值之后,可以对预测概率损失值、相似度损失值、融合概率损失值、敏感系数损失值、文本词性损失值和实体识别损失值进行损失值融合处理。
具体的,损失值融合处理的方式可以参考公式(6):
L=a*L1+b*Lsimilarity+c*L3+d*L4+e*L5+f*L6 (6)
其中,L1为预测概率损失值,a为预测概率损失值的权重,Lsimilarity为相似度损失值,b为相似度损失值的权重,L3为融合概率损失值,c为融合概率损失值的权重,L4为敏感系数损失值,d为敏感系数损失值的权重,L5为文本词性损失值,e为文本词性损失值的权重,L6为实体识别损失值,f为实体识别损失值的权重。
一般的,c和d设为10,a、b、e和f设为1,也可以设置其他数值的权重,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过对预测概率损失值、相似度损失值、融合概率损失值、敏感系数损失值、文本词性损失值和实体识别损失值进行损失值融合处理可以得到对应的目标损失值,进一步可以利用该目标损失值对多任务联合处理的过程是否进行更新进行判断,保障了多任务联合处理的准确度和可靠性。
在得到目标损失值之后,可以将该目标损失值与对应的阈值进行比较。当该目标损失值大于该阈值时,表明多任务联合处理生成的至少两个词汇向量的准确度不足,可以对多任务联合处理的联合参数进行调整,以重新进行多任务联合处理,并得到更新后的至少两个词汇向量。
在本示例性实施例中,利用目标损失值对多任务联合处理的训练过程进行评价,以保障多任务联合处理的全连接层训练成功,并对多任务联合处理进行更新和完善,保障后续的改写敏感词的识别准确度。
为进一步说明各附图之间的关系,图13示出了文本处理方法的整体步骤流程图,如图13所示,在步骤S1301中,获取至少两个待识别敏感词,并对至少两个待识别敏感词进行词汇遍历处理确定目标敏感词;在步骤S1302中,获取目标敏感词的上一敏感词的编码向量,并对目标敏感词和上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量,以得到至少两个编码向量;在步骤S1303中,获取与至少两个编码向量对应的联合参数,并利用联合参数对至少两个编码向量进行多任务联合处理得到至少两个词汇向量;在步骤S1304中,获取与至少两个待识别敏感词对应的词汇个数,并对至少两个词汇向量进行维度改变处理得到概率向量;在步骤S1305中,对概率向量进行概率筛选处理得到概率筛选结果,并根据概率筛选结果在概率向量中确定预测概率;在步骤S1306中,对至少两个词汇向量进行语义向量转换处理得到至少两个语义向量;在步骤S1307中,对至少两个语义向量进行语义相似度计算得到语义相似度;在步骤S1308中,对至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对词汇特征向量进行词汇卷积处理得到词汇卷积向量;在步骤S1309中,对词汇卷积向量进行特征压缩处理得到词汇压缩向量,并对词汇压缩向量进行维度变更处理得到融合概率;在步骤S1310中,对至少两个词汇向量进行敏感词识别处理确定至少两个待识别敏感词中的待定敏感词和待定敏感词的敏感系数;在步骤S1311中,对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算得到敏感词改写概率;在步骤S1312中,获取与敏感词改写概率对应的敏感词概率阈值,并对敏感词改写概率和敏感词概率阈值进行比较得到阈值比较结果;在步骤S1313中,若阈值比较结果为敏感词改写概率大于敏感词概率阈值,确定待定敏感词为改写敏感词。
下面结合一具体应用场景对本公开实施例中提供的文本处理方法做出详细说明。
图14示出了应用场景下文本处理方法的整体框架图,如图14所示,该框架为多任务学习框架,而该多任务学习框架中包括了自然语言处理的6个任务模型。这6个任务模型分别是文本预测任务模型、语义相似度任务模型、词汇融合任务模型、敏感词识别任务模型、词性识别任务模型和实体识别任务模型。
并且,为了实现这6个任务模型的互相帮助和信息共享,这6个任务模型可以共享一个全连接层。具体的,6个任务一起依次学习,例如第一个任务模型先训练一个样本,然后第二个任务训练该样本,以此类推,直至第六个任务模型训练完该样本之后,再回到第一个任务模型训练另一个样本,一直循环,直至对6个任务模型和共享的全连接层训练完成。
但是是否训练完成要根据6个任务模型的目标损失函数决定。该目标损失函数的计算方式如公式(7)所示:
L=a*L1+b*L2+c*L3+d*L4+e*L5+f*L6 (7)
公式(7)与公式(6)相同,只是公式(6)中的相似度损失值为Lsimilarity,而公式(7)表示为L2
其中,a~f为系数,亦即权重。一般的,c和d设为10,a、b、e和f设为1,也可以设置其他数值的权重,本示例性实施例对此不做特殊限定。
为进一步说明图14的整体框架中各个任务模型的组成部分和作用,可以将该整体框架的每一个任务模型进行描述。
图15示出了应用场景下文本预测任务模型的架构图,如图15所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。
首先,对至少两个待识别敏感词进行词汇遍历处理确定目标敏感词,并获取目标敏感词的上一敏感词的编码向量;然后,对目标敏感词和上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量,以得到至少两个待识别敏感词的至少两个编码向量。
具体的,对至少两个待识别敏感词进行词汇遍历处理即为从至少两个待识别敏感词中的第一个取词至最后一个,按照从前往后的顺序选择待识别敏感词作为目标敏感词。
举例而言,当该目标敏感词为“可以”时,获取到该目标敏感词的上一个敏感词,即“谁”的隐含状态向量作为编码向量。其中,该隐含状态向量是利用RNN模型对“谁”进行文本向量化处理得到的。当该目标敏感词为“换钢笔”时,确定“可以”为上一敏感词,并获取“可以”的隐含状态向量作为编码向量,以此类推,直至获取到“汇率”的上一敏感词的编码向量为止。
值得说明的是,当目标敏感词为至少“谁”时,可以根据经验预设一初始值作为对应的编码向量,也可以是随机生成的,本示例性实施例对此不做特殊限定。
举例而言,当目标敏感词为第二个待识别敏感词时,还获取到第一个待识别敏感词,即上一敏感词的编码向量。进一步的,对该第二个待识别敏感词和该上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量。
而该文本向量化处理可以是使用RNN模型对目标敏感词和编码向量进行加权计算得到隐含状态向量,即目标敏感词的编码向量。
在得到“可以”的编码向量之后,然后依次选择“换钢笔”、“汇率”作为目标敏感词,得到各个待识别敏感词的编码向量,以作为最终确定的至少两个待识别敏感词的至少两个编码向量。
值得说明的是,“谁”为目标敏感词时,可以对根据经验预设的初始值或随机生成的初始值进行文本向量化处理得到对应的编码向量。
进一步的,对得到的编码向量进行多任务联合处理。
具体的,采用一个共享的全连接层,并通过该共享的全连接层对至少两个编码向量进行全连接处理,以实现对至少两个编码向量的多任务联合处理。
全连接处理可以是在深度学习网络的全连接层实现的。全连接处理可以是将每一个节点都与上一层的所有节点相连的处理,亦即把至少两个编码向量的特征综合起来。
更进一步的,为了达到全连接层共享的目的,可以对该全连接层的权重统一使用。亦即,将全连接层的权重作为联合参数,并采用该同一组权重对6个词汇遍历结果进行全连接处理,以得到对应的至少两个词汇向量。
在经过共享的全连接层之后,还可以经过一个新的全连接层,该全连接层是文本预测任务模型单独使用的全连接层。
具体的,该与4个待识别敏感词对应的词汇个数可以是金融犯罪领域的词表中的词汇个数,也可以是其他与待识别敏感词相关的词汇的个数,本示例性实施例对此不做特殊限定。
进一步的,对4个词汇向量进行维度改变处理,即通过该单独的全连接层实现的。该全连接层的目的是为了将词汇向量的维度改变成与该词汇个数相同的维度的向量,即概率向量。该概率向量中的每一维都对应词表中的一个词被预测为当前词汇向量的下一个词汇的概率。
在得到概率向量之后,对概率向量进行的概率筛选处理方式可以是将概率向量中的每一维进行比较,以确定出概率向量中维度最大的作为预测概率。该预测概率表征对应词汇最可能被预测为当前词汇向量的下一词汇的概率。
显然,通过文本预测任务模型对4个待识别敏感词进行文本预测处理之后,该模型可以将输入文本向左移一位,使得每一步均是文本预测任务模型的任务,亦即该模型在不断预测下一个词。因此,文本预测任务模型可以基于句子的前半部分预测出后半部分,并且将该预测结果与真实的待识别敏感词进行对比得到预测概率损失值。
进一步的,利用该预测概率损失值进行误差反馈更新。
具体的,若预测出的词汇与下一待识别敏感词相同,则预测正确,无需对该文本预测任务模型进行更新;如果预测出的词汇与下一待识别敏感词不同,则预测错误,可以计算梯度,并根据梯度进行更新。
其中,预测概率损失值的计算方式如公式(5)所示,在此不再赘述。
图16示出了应用场景下语义相似度任务模型的架构图,如图16所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。具体的文本向量化方式与图15相同,在此不再赘述。
值得说明的是,无论图15中的文本向量化处理的模型为LSTM模型或GRU模型时,图16的文本向量化模型与图15保持一致。
而在进行完该文本向量化处理得到至少两个词汇向量之后,该至少两个词汇向量需要经过与图15权重一致的全连接层进行多任务联合处理,在此不再赘述。
进一步的,对词汇向量进行语义相似度计算。
具体的,对至少两个词汇向量进行语义向量转换处理可以是通过一个单独的全连接层实现的。该全连接层是语义相似度任务独享的。
并且,由于计算语义相似度之前,语义相似度任务的模型深度又增加了一层全连接层,可以使语义向量转换处理后的语义向量更加贴合语义,以使得计算出的语义相似度准确性更高。
进一步的,对至少两个语义向量进行语义相似度计算可以是分别计算至少两个语义向量两两之间的余弦值来作为语义相似度。
由于利用语义相似度可以指导语义相似度任务模型的训练,因此可以假设一句话中各个词有相同或者相似的含义,而来自不同句子中的词有不同的含义,因此认为一句话中的各个词之间的语义相似度更高,可以作为正例;而来自不同句子中的词的语义相似度应该更低,可以作为负例。
当我们利用余弦相似度来衡量两个词语之间的相似度时,针对句子中的某个词,可以选择句子中的其他词与该词进行组对得到一个聚对,计算该聚对内两个词之间的余弦相似度作为正例,并且正例的语义相似度越高越好。
对应的,针对句子中的某个词,可以随机从其他句子中抽取k个词组成聚对,并计算该聚对内的两个词的余弦相似度作为负例,并且负例的相似度越低越好。其中,k通常为10,也可以设置为其他数量,本示例性实施例对此不做特殊限定。
并且,可以设置如公式(3)所示的相似度损失值的计算公式,以根据该相似度损失值对语义相似度任务模型进行训练。
当相似度损失值超过对应的损失阈值时,表明对词汇向量进行语义转换处理的全连接层的权重未训练完成,可以重新调整全连接层的权重,以重新对至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量,再重新进行语义相似度,并得到更为准确的语义相似度。
在分别计算出每个词汇向量与其他词汇向量之间的语义相似度之后,可以对所有词汇向量对应的语义向量求平均值,以作为最终的语义相似度。
图17示出了应用场景下词汇融合任务模型的架构图,如图17所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。该文本向量化处理的方法与图15相同,在此不再赘述。
值得说明的是,无论图15中的文本向量化处理的模型为LSTM模型或GRU模型时,图17的文本向量化模型与图15保持一致。
而在进行完该文本向量化处理得到至少两个词汇向量之后,该至少两个词汇向量需要经过与图15权重一致的全连接层进行多任务联合处理,在此不再赘述。
该词汇融合任务模型也可以称为基于敏感词的弱监督训练模型。其中,弱标注指的是通过人工标注的方式,标注一批被改写的敏感词数据,此时仅需标注出一句话中是否包含敏感信息,而无需标注敏感信息的具体位置。
这种弱标注的方式可以降低标注难度,进一步节约标注成本,缩减标注时间,并提高标注准确率。
显然,词汇融合任务模型是一种句子级别的分类任务,每一个句子只需进行一次分类。而该词汇融合任务模型为了对句子进行分类,可以对至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对词汇特征向量进行词汇卷积处理得到词汇卷积向量。然后,对词汇卷积向量进行特征压缩处理得到词汇压缩向量,并对词汇压缩向量进行维度变更处理得到融合概率。
具体的,对至少两个词汇向量进行词汇特征提取处理可以是通过一个单独的全连接层实现的。该全连接层是词汇融合任务独享的。在全连接层对至少两个词汇向量进行词汇特征提取处理之后可以得到对应的词汇特征向量。
而对词汇特征向量进行词汇卷积处理可以是通过一个单独的卷积层实现的,亦即该卷积层也是词汇融合任务独有的。
卷积层的卷积操作可以为利用卷积核和词汇特征向量进行运算后输出词汇卷积向量,该运算可以是将词汇特征向量与卷积核的权值做内积操作。
其中,内积操作采用滑动卷积核的方式进行,以词汇特征向量的左上角为起点,滑动卷积核到词汇特征向量的右下角产生一个特征图。其中,每次滑动卷积核之后,都能够从词汇特征向量中提取到一个与卷积核大小相同的特征矩阵,将该特征矩阵与卷积核进行内积操作,可以产生对应的词汇卷积向量。
对词汇卷积向量进行特征压缩处理是通过一个单独的池化层实现的,而该池化层也是词汇融合任务独有的。
池化层用于对词汇卷积向量进行压缩处理,简化词汇卷积向量的计算复杂度。具体的,特征压缩处理可以采用滑动窗口的方式得到词汇压缩向量,也可以采用其他方式,本示例性实施例对此不做特殊限定。
在得到词汇压缩向量之后,可以采用另一词汇融合任务的全连接层对词汇压缩向量进行维度变更处理得到融合概率。该全连接层的目的是为了将词汇压缩向量的维度变更成与词汇融合任务的结果相同的维度的向量,即融合概率。
举例而言,当词汇融合任务的结果为至少两个待识别敏感词中包括或不包括改写敏感词的结果时,对词汇压缩向量进行维度变更处理之后可以得到一个打分值,该打分值即为融合概率。例如,该打分值可以为0-1之间的数值。
图18示出了应用场景下敏感词识别任务模型的框架图,如图18所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。具体的文本向量化方式与图15相同,在此不再赘述。
值得说明的是,无论图15中的文本向量化处理的模型为LSTM模型或GRU模型时,图18的文本向量化模型与图15保持一致。
而在进行完该文本向量化处理得到至少两个词汇向量之后,该至少两个词汇向量需要经过与图15权重一致的全连接层进行多任务联合处理,在此不再赘述。
该敏感词识别任务模型是一种基于敏感词强标注的有监督训练模型。强标注指的是通过人工标注的方式,标注一批被改写的敏感词数据,并且需要将一句话中被改写的敏感词标注出来。
值得说明的是,在该有监督数据上做的是序列标注任务,亦即对每一个待识别敏感词都需要进行一次分类任务。
对至少两个词汇向量进行敏感词识别处理通过一个敏感词识别任务独有的全连接层实现。并且,由于敏感词识别处理需要确定对应的词汇向量是否为改写敏感词的词汇向量,因此该全连接层可以将词汇向量的维度改变为一个二维的向量,分别表示该词汇向量为改写敏感词的词汇向量的概率和不为改写敏感词的词汇向量的概率。
当对至少两个词汇向量分别进行敏感词识别处理之后,可以得到至少两个待识别敏感词中的待定敏感词和对应的概率,即为敏感系数。
值得说明的是,只有当待识别敏感词的敏感系数满足条件,或者超过对应的阈值的情况下,才确定该待识别敏感词为待定敏感词。例如,“换钢笔”被标注成为改写敏感词。
图19示出了应用场景下词性识别任务模型的架构图,如图19所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。具体的文本向量化方式与图15相同,在此不再赘述。
值得说明的是,无论图15中的文本向量化处理的模型为LSTM模型或GRU模型时,图19的文本向量化模型与图15保持一致。
而在进行完该文本向量化处理得到至少两个词汇向量之后,该至少两个词汇向量需要经过与图15权重一致的全连接层进行多任务联合处理,在此不再赘述。
该词性识别任务模型也是序列标注任务,数据集可以使用有监督的词性标注数据集,亦即数据集会标注出句子中的每个词的词性。在这样的有监督的词性标注数据集上做序列标注任务,亦即每个词都做一次分类任务。每个任务都是预测这个词的词性,并将预测出的词性与真实的标注做对比,以根据差异反馈学习更新该词性识别任务模型。对应的文本词性损失值的计算方式与公式(5)相同,在此不再赘述。
具体的,通过词性识别任务独享的全连接层实现对至少两个词汇向量的词性识别处理,并且可以将该词汇向量的维度变更成与词性个数相同的向量,以根据该向量的每一维的大小确定出词汇向量的文本词性。
举例而言,词性通常包括名词、动词、代词、副词和形容词,因此,可以对至少两个词汇向量中的一个进行词性识别处理得到一个五维的向量,并且该向量的每一维表征该词汇向量作为对应词性的概率。最终,选择概率最大的词性作为该词汇向量的文本词性。
图20示出了应用场景下实体识别任务模型的架构图,如图20所示,当待识别敏感词是从语句“谁可以换钢笔汇率”中进行分词处理得到的“谁”、“可以”、“换钢笔”和“汇率”时,可以将该待识别敏感词前置一空格符输入至RNN模型对待识别敏感词进行文本向量化处理。具体的文本向量化方式与图15相同,在此不再赘述。
值得说明的是,无论图15中的文本向量化处理的模型为LSTM模型或GRU模型时,图20的文本向量化模型与图15保持一致。
而在进行完该文本向量化处理得到至少两个词汇向量之后,该至少两个词汇向量需要经过与图15权重一致的全连接层进行多任务联合处理,在此不再赘述。
实体识别任务模型的任务都是序列标注任务,数据集也采用有监督的实体标注数据集,亦即数据集中会标注出句子中每个词是否是实体。采用图20所示的实体识别任务模型在有监督数据上做序列标注任务,亦即每个词做一次分类任务,每个分类任务都是预测这个词是否为实体。
进一步的,将预测出的实体识别结果与真实的标注做对比,以根据差异反馈学习更新该实体识别任务模型。对应的实体识别损失值的计算方式与公式(5)相同,在此不再赘述。
具体的,通过实体识别任务独享的全连接层实现对至少两个词汇向量的实体识别处理,并且可以将该词汇向量的维度变更成一个打分值,该打分值对应的识别结果即为实体识别结果。
例如,该打分值为0-1之间的数值时,当数值大于0.5,该词汇向量表征的为实体,当数值小于或等于0.5,该词汇向量表征的不为实体;或者相反,本示例性实施例对此不做特殊限定。
为便于理解该文本处理方法的整体架构,可以,理解为图15的文本预测任务模型和图16的语义相似度任务模型是在刻画“当前词放在这个位置是否通顺”,亦即利用语义相似度(或文本似然度)在刻画。而越不通顺的当前词,越可能是被改写过的改写敏感词。
其中,文本似然度是衡量文本像不像一段正常文本的指标。
图17的词汇融合任务模型和图18的敏感词识别任务模型是针对“是否像被改写的敏感词”做预测。
而图19的词性识别任务模型和图20的实体识别任务模型是对图17的词汇融合任务模型和图18的敏感词识别任务模型的辅助鉴别模型,可以帮助图17的词汇融合任务模型和图18的敏感词识别任务模型。具体的,是因为改写敏感词通常为敏感词、动词及实体词。
在最终的预测的时候,通常采用公式(8)对预测概率、语义相似度、融合概率和敏感系数进行敏感词改写计算:
最终打分=w*模型3+x*模型4-y*模型1-z*模型2 (8)
其中,w~z为系数,即为对应权重。一般的,w和x为10,y和z为1。
为根据计算出的最终打分,亦即敏感词改写概率确定对应的待定敏感词是否为改写敏感词,可以获取与敏感词改写概率对应的敏感词概率阈值,并对敏感词改写概率和敏感词概率阈值进行比较得到阈值比较结果。
该敏感词概率阈值为用来判定计算出的敏感词概率概率是否能确定对应的待定敏感词为改写敏感词的参照值。一般的,可以将该敏感词概率阈值设为0.7,也可以设为其他数值,本示例性实施例对此不做特殊限定。
因此,可以将敏感词改写概率和该敏感词概率阈值进行比较得到对应的阈值比较结果。
当阈值比较结果为敏感词改写概率大于敏感词概率阈值时,表明该待定敏感词为被改写的改写敏感词。改写敏感词是一些用户为了规避敏感词检测处理,会将一些敏感词进行改写,例如将“换港币”改写成“换港币”。其中,改写前的词为敏感词原词,亦即“换港币”为敏感词原词,而改写后的词为改写敏感词,亦即“换港币”为改写敏感词。
值得说明的是,该文本处理方法可以广泛应用于各类聊天软件、社交软件或者信息监督平台,都能够在这些应用场景下对对话及涉及文本进行分析,以识别出其中的敏感词。
基于以上应用场景可知,本公开实施例提供的文本处理方法,一方面,对至少两个待识别敏感词进行多任务联合处理,发挥了多任务联合处理方式相互帮助和信息共享的优势,保障了改写敏感词的识别准确度;另一方面,利用多任务联合处理后的词汇向量同时进行文本预测处理、语义相似度计算、词汇融合处理和敏感词识别处理多个任务,从语句通顺判定和敏感词确定两个角度进行改写敏感词识别,提升了改写敏感词的识别速度和识别效率,降低了改写敏感词的识别成本,并且能够快速适应互联网上日新月异的敏感词变化。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的文本处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的文本处理方法的实施例。
图21示意性地示出了在本公开一些实施例中的一种文本处理装置的结构框图,如图21所示,文本处理装置2100主要可以包括:联合处理模块2110、通顺确定模块2120、识别处理模块2130和词汇识别模块2140。
联合处理模块2110,被配置为获取至少两个待识别敏感词,并对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;通顺确定模块2120,被配置为对所述至少两个词汇向量进行文本预测处理得到预测概率,并对所述至少两个词汇向量进行语义相似度计算得到语义相似度;识别处理模块2130,被配置为对所述至少两个词汇向量进行词汇融合处理得到融合概率,并对所述至少两个词汇向量进行敏感词识别处理确定所述至少两个待识别敏感词中的待定敏感词和所述待定敏感词的敏感系数;词汇识别模块2140,被配置为对所述预测概率、所述语义相似度、所述融合概率和所述敏感系数进行敏感词改写计算得到敏感词改写概率,并根据所述敏感词改写概率确定所述待定敏感词为改写敏感词。
在本公开的一些实施例中,通顺处理模块,包括:语义转换子模块,被配置为对至少两个词汇向量进行语义向量转换处理得到至少两个语义向量;
相似计算子模块,被配置为对至少两个语义向量进行语义相似度计算得到语义相似度。
在本公开的一些实施例中,文本处理装置,还包括:关联向量模块,被配置为确定与至少两个待识别敏感词相关的关联向量,并对至少两个语义向量和关联向量进行语义相似度计算得到关联相似度;
相似损失模块,被配置为对语义相似度和关联相似度进行相似度损失计算得到相似度损失值,并根据相似度损失值对至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量。
在本公开的一些实施例中,文本处理装置,还包括:辅助识别模块,被配置为对至少两个词汇向量进行词性识别处理得到与至少两个词汇向量对应的文本词性,并对至少两个词汇向量进行实体识别处理得到实体识别结果;
词汇鉴别子模块,被配置为根据文本词性和实体识别结果对改写敏感词进行敏感词鉴别处理得到敏感词鉴别结果。
在本公开的一些实施例中,文本处理装置,还包括:概率损失模块,被配置为对预测概率进行预测损失计算得到预测概率损失值,并对融合概率进行融合损失计算得到融合概率损失值;
系数损失模块,被配置为对敏感系数进行系数损失计算得到敏感系数损失值,并获取相似度损失值;
损失融合模块,被配置为对预测概率损失值、相似度损失值、融合概率损失值和敏感系数损失值进行损失值融合处理得到目标损失值,并根据目标损失值对至少两个待识别敏感词进行多任务联合处理得到更新后的至少两个词汇向量。
在本公开的一些实施例中,损失融合模块,包括:鉴别损失子模块,被配置为对文本词性进行词性损失计算得到文本词性损失值,并对实体识别结果进行识别损失计算得到实体识别损失值;
损失汇总子模块,被配置为对预测概率损失值、相似度损失值、融合概率损失值、敏感系数损失值、文本词性损失值和实体识别损失值进行损失值融合处理得到目标损失值。
在本公开的一些实施例中,联合处理模块,包括:向量生成子模块,被配置为对至少两个待识别敏感词进行文本向量化处理得到至少两个编码向量;
任务联合子模块,被配置为对至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
在本公开的一些实施例中,向量生成子模块,包括:词汇确定单元,被配置为对至少两个待识别敏感词进行词汇遍历处理确定目标敏感词,并获取目标敏感词的上一敏感词的编码向量;
编码向量单元,被配置为对目标敏感词和上一敏感词的编码向量进行文本向量化处理得到目标敏感词的编码向量,以得到至少两个待识别敏感词的至少两个编码向量。
在本公开的一些实施例中,任务联合子模块,包括:联合参数单元,被配置为获取与至少两个编码向量对应的联合参数,并利用联合参数对至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
在本公开的一些实施例中,识别处理模块,包括:词汇特征子模块,被配置为对至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对词汇特征向量进行词汇卷积处理得到词汇卷积向量;
维度变更子模块,被配置为对词汇卷积向量进行特征压缩处理得到词汇压缩向量,并对词汇压缩向量进行维度变更处理得到融合概率。
在本公开的一些实施例中,通顺处理模块,包括:概率向量子模块,被配置为获取与至少两个待识别敏感词对应的词汇个数,并对至少两个词汇向量进行维度改变处理得到概率向量,概率向量的维度等于词汇个数;
概率筛选子模块,被配置为对概率向量进行概率筛选处理得到概率筛选结果,并根据概率筛选结果在概率向量中确定预测概率。
在本公开的一些实施例中,词汇识别模块,包括:阈值比较子模块,被配置为获取与敏感词改写概率对应的敏感词概率阈值,并对敏感词改写概率和敏感词概率阈值进行比较得到阈值比较结果;
词汇确定子模块,被配置为若阈值比较结果为敏感词改写概率大于敏感词概率阈值,确定待定敏感词为改写敏感词。
本公开各实施例中提供的文本处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,因此此处不再赘述。
图22示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图22示出的电子设备的计算机系统2200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图22所示,计算机系统2200包括中央处理单元(Central Processing Unit,CPU)2201,其可以根据存储在只读存储器(Read-Only Memory,ROM)2202中的程序或者从储存部分2208加载到随机访问存储器(Random Access Memory,RAM)2203中的程序而执行各种适当的动作和处理。在RAM 2203中,还存储有系统操作所需的各种程序和数据。CPU2201、ROM 2202以及RAM 2203通过总线2204彼此相连。输入/输出(Input/Output,I/O)接口2205也连接至总线2204。
以下部件连接至I/O接口2205:包括键盘、鼠标等的输入部分2206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分2207;包括硬盘等的储存部分2208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分2209。通信部分2209经由诸如因特网的网络执行通信处理。驱动器2210也根据需要连接至I/O接口2205。可拆卸介质2211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器2210上,以便于从其上读出的计算机程序根据需要被安装入储存部分2208。
特别地,根据本公开的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分2209从网络上被下载和安装,和/或从可拆卸介质2211被安装。在该计算机程序被中央处理单元(CPU)2201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种文本处理方法,其特征在于,所述方法包括:
获取至少两个待识别敏感词,并对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;
获取与所述至少两个待识别敏感词对应的词汇个数,并对所述至少两个词汇向量进行维度改变处理得到概率向量,所述概率向量的维度等于所述词汇个数;对所述概率向量进行概率筛选处理得到概率筛选结果,根据所述概率筛选结果在所述概率向量中确定预测概率,并对所述至少两个词汇向量进行语义相似度计算得到语义相似度;
对所述至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对所述词汇特征向量进行词汇卷积处理得到词汇卷积向量;对所述词汇卷积向量进行特征压缩处理得到词汇压缩向量,对所述词汇压缩向量进行维度变更处理得到融合概率,并对所述至少两个词汇向量进行敏感词识别处理确定所述至少两个待识别敏感词中的待定敏感词和所述待定敏感词的敏感系数;
对所述预测概率、所述语义相似度、所述融合概率和所述敏感系数进行敏感词改写计算得到敏感词改写概率,并根据所述敏感词改写概率确定所述待定敏感词为改写敏感词。
2.根据权利要求1所述的文本处理方法,其特征在于,所述对所述至少两个词汇向量进行语义相似度计算得到语义相似度,包括:
对所述至少两个词汇向量进行语义向量转换处理得到至少两个语义向量;
对所述至少两个语义向量进行语义相似度计算得到语义相似度。
3.根据权利要求2所述的文本处理方法,其特征在于,所述方法还包括:
确定与所述至少两个待识别敏感词相关的关联向量,并对所述至少两个语义向量和所述关联向量进行语义相似度计算得到关联相似度;
对所述语义相似度和所述关联相似度进行相似度损失计算得到相似度损失值,并根据所述相似度损失值对所述至少两个词汇向量进行语义转换处理得到更新后的至少两个语义向量。
4.根据权利要求3所述的文本处理方法,其特征在于,所述方法还包括:
对所述至少两个词汇向量进行词性识别处理得到与所述至少两个词汇向量对应的文本词性,并对所述至少两个词汇向量进行实体识别处理得到实体识别结果;
根据所述文本词性和所述实体识别结果对所述改写敏感词进行敏感词鉴别处理得到敏感词鉴别结果。
5.根据权利要求4所述的文本处理方法,其特征在于,所述方法还包括:
对所述预测概率进行预测损失计算得到预测概率损失值,并对所述融合概率进行融合损失计算得到融合概率损失值;
对所述敏感系数进行系数损失计算得到敏感系数损失值,并获取所述相似度损失值;
对所述预测概率损失值、所述相似度损失值、所述融合概率损失值和所述敏感系数损失值进行损失值融合处理得到目标损失值,并根据所述目标损失值对所述至少两个待识别敏感词进行多任务联合处理得到更新后的所述至少两个词汇向量。
6.根据权利要求5所述的文本处理方法,其特征在于,所述对所述预测概率损失值、所述相似度损失值、所述融合概率损失值和所述敏感系数损失值进行损失值融合处理得到目标损失值,包括:
对所述文本词性进行词性损失计算得到文本词性损失值,并对所述实体识别结果进行识别损失计算得到实体识别损失值;
对所述预测概率损失值、所述相似度损失值、所述融合概率损失值、所述敏感系数损失值、所述文本词性损失值和所述实体识别损失值进行损失值融合处理得到目标损失值。
7.根据权利要求1所述的文本处理方法,其特征在于,所述对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量,包括:
对所述至少两个待识别敏感词进行文本向量化处理得到至少两个编码向量;
对所述至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
8.根据权利要求7所述的文本处理方法,其特征在于,所述对所述至少两个待识别敏感词进行文本向量化处理得到至少两个编码向量,包括:
对所述至少两个待识别敏感词进行词汇遍历处理确定目标敏感词,并获取所述目标敏感词的上一敏感词的编码向量;
对所述目标敏感词和所述上一敏感词的编码向量进行文本向量化处理得到所述目标敏感词的编码向量,以得到所述至少两个待识别敏感词的至少两个编码向量。
9.根据权利要求7所述的文本处理方法,其特征在于,所述对所述至少两个编码向量进行多任务联合处理得到至少两个词汇向量,包括:
获取与所述至少两个编码向量对应的联合参数,并利用所述联合参数对所述至少两个编码向量进行多任务联合处理得到至少两个词汇向量。
10.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述敏感词改写概率确定所述待定敏感词为改写敏感词,包括:
获取与所述敏感词改写概率对应的敏感词概率阈值,并对所述敏感词改写概率和所述敏感词概率阈值进行比较得到阈值比较结果;
若所述阈值比较结果为所述敏感词改写概率大于所述敏感词概率阈值,确定所述待定敏感词为改写敏感词。
11.一种文本处理装置,其特征在于,所述装置包括:
联合处理模块,被配置为获取至少两个待识别敏感词,并对所述至少两个待识别敏感词进行多任务联合处理得到至少两个词汇向量;
通顺处理模块,被配置为获取与所述至少两个待识别敏感词对应的词汇个数,并对所述至少两个词汇向量进行维度改变处理得到概率向量,所述概率向量的维度等于所述词汇个数;对所述概率向量进行概率筛选处理得到概率筛选结果,根据所述概率筛选结果在所述概率向量中确定预测概率,并对所述至少两个词汇向量进行语义相似度计算得到语义相似度;
识别处理模块,被配置为对所述至少两个词汇向量进行词汇特征提取处理得到词汇特征向量,并对所述词汇特征向量进行词汇卷积处理得到词汇卷积向量;对所述词汇卷积向量进行特征压缩处理得到词汇压缩向量,对所述词汇压缩向量进行维度变更处理得到融合概率,并对所述至少两个词汇向量进行敏感词识别处理确定所述至少两个待识别敏感词中的待定敏感词和所述待定敏感词的敏感系数;
词汇识别模块,被配置为对所述预测概率、所述语义相似度、所述融合概率和所述敏感系数进行敏感词改写计算得到敏感词改写概率,并根据所述敏感词改写概率确定所述待定敏感词为改写敏感词。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的文本处理方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任一项所述的文本处理方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行权利要求1至10中任一项所述的文本处理方法。
CN202110335142.3A 2021-03-29 2021-03-29 文本处理方法、装置、介质以及电子设备 Active CN115146589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335142.3A CN115146589B (zh) 2021-03-29 2021-03-29 文本处理方法、装置、介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335142.3A CN115146589B (zh) 2021-03-29 2021-03-29 文本处理方法、装置、介质以及电子设备

Publications (2)

Publication Number Publication Date
CN115146589A CN115146589A (zh) 2022-10-04
CN115146589B true CN115146589B (zh) 2024-05-28

Family

ID=83403535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335142.3A Active CN115146589B (zh) 2021-03-29 2021-03-29 文本处理方法、装置、介质以及电子设备

Country Status (1)

Country Link
CN (1) CN115146589B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544240B (zh) * 2022-11-24 2023-04-07 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN111753539A (zh) * 2020-06-30 2020-10-09 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831927B2 (en) * 2017-11-22 2020-11-10 International Business Machines Corporation Noise propagation-based data anonymization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN111753539A (zh) * 2020-06-30 2020-10-09 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置

Also Published As

Publication number Publication date
CN115146589A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108733792B (zh) 一种实体关系抽取方法
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
Xiao et al. Semantic relation classification via hierarchical recurrent neural network with attention
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN111914067B (zh) 中文文本匹配方法及系统
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Mehmood et al. A precisely xtreme-multi channel hybrid approach for roman urdu sentiment analysis
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
Zulqarnain et al. An efficient two-state GRU based on feature attention mechanism for sentiment analysis
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116975199A (zh) 一种文本预测方法、装置、设备和存储介质
CN115146589B (zh) 文本处理方法、装置、介质以及电子设备
CN113705207A (zh) 语法错误识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant