CN116166773A - 一种变体文本识别方法、装置和可读存储介质 - Google Patents

一种变体文本识别方法、装置和可读存储介质 Download PDF

Info

Publication number
CN116166773A
CN116166773A CN202211551801.8A CN202211551801A CN116166773A CN 116166773 A CN116166773 A CN 116166773A CN 202211551801 A CN202211551801 A CN 202211551801A CN 116166773 A CN116166773 A CN 116166773A
Authority
CN
China
Prior art keywords
text
training
vector sequence
pinyin
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211551801.8A
Other languages
English (en)
Inventor
孟天宏
吕小晗
李玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202211551801.8A priority Critical patent/CN116166773A/zh
Publication of CN116166773A publication Critical patent/CN116166773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种变体文本识别方法、装置和可读存储介质,包括:在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。

Description

一种变体文本识别方法、装置和可读存储介质
技术领域
本发明涉及文本识别技术领域,尤其涉及一种变体文本识别方法、装置和可读存储介质。
背景技术
变体文本识别是在社交网络中识别变异敏感信息的文本处理方法。变体文本发布在社交网络后,平台利用启发式和语言模型方法对变体文本进行召回处置,保证了网络内容安全。启发式方法通过混淆词典进行变体文本匹配,根据规则进行识别,具有易用性强、解释性好等优点。语言模型方法利用在大规模语料中学习文本表征的模型识别变体文本,具有拟合能力强、泛化能力强等优点。
目前对于变体文本的识别,通常使用混淆词典和预训练语言模型进行识别。利用构建的混淆词典,匹配候选词,根据词法和语法识别变体文本,当出现相似词时,需更新混淆词典;语言模型通过掩码语言模型任务或替换标记检测任务进行端到端的变体文本识别,当变体文本属于小样本领域,需要调整预训练的样本集合,更新文本表征。
现有的变体文本识别技术大都基于泛泛的通用领域,然而对于可学习的知识难以获得,且样本容量较小的小样本领域,其知识类型和分布与通用领域的差异较大,因此现有技术在小样本领域识别能力较弱;启发式方法需要专家提取有效的模式更新混淆词典以及词法语法规则,考虑范围有限,因此该方法学习能力差,可移植性差;语言模型的识别方法在小样本领域的样本量欠缺,在采用预训练方法时,预训练样本分布与领域样本分布差异较大,因此表征能力不足,泛化能力较弱,无法召回变体文本。针对上述现有技术的不足,本发明提出一种基于领域知识增强和语言模型的变体文本识别方法。该方法无需专家规则且在小样本领域具有很好的拟合能力和泛化能力。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
对可学习的知识难以获得,并且在小样本领域的识别能力弱、可移植性差、泛化能力弱、表征能力不足以及无法有效召回变体文本。
发明内容
本发明实施例提供一种变体文本识别方法、装置和可读存储介质,解决了现有技术中对可学习的知识难以获得,并且在小样本领域的识别能力弱、可移植性差、泛化能力弱、表征能力不足以及无法有效召回变体文本的问题。
为达上述目的,一方面,本发明实施例提供一种变体文本识别方法,包括:
在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
另一方面,本发明实施例提供一种变体文本识别装置,包括:
掩码单元,用于在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
拼音单元,用于将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
预测单元,用于将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
比较单元,用于比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
另一方面,本发明实施例提供一种可读存储介质,其存储有用于实现如前所述的任一项方法对应的程序代码。
上述技术方案具有如下有益效果:将原始文本转为拼音文本并进一步转换为拼音文本向量序列,通过拼音将原始文本进行一定程度的泛化和模糊处理,拼音文本向量序列携带了原始文本的信息;识别原始文本中的疑似敏感词,并将疑似敏感词替换为掩码标识,并向量化得到掩码文本向量序列,将拼音文本向量序列和掩码文本向量序列相结合在变体文本识别模型的处理下预测处掩码标识对应位置的词,得到预测文本,通过预测文本与原始文本的比较确定变体文本。利用了拼音文本的泛化和模糊特点增加了预测能覆盖的词汇范围,提高了变体文本预测的准确性。进一步地,建立RoBERTa层与GAT层相结合的变体文本识别模型,利用GAT层的图注意力神经网络的注意力机制提高RoBERTa语义分析确定掩码标识位置的词的预测效果。并且在RoBERTa层与GAT层结合的过程中使用特征融合机制将RoBERTa层输出的文本语义表征向量序列与GAT层的输入拼音文本向量序列特征融合,使GAT层的输入信息中同时具有RoBERTa层语义分析预测的信息,也具有原始文本的信息,使GAT层利用更全面的信息进行进一步地预测,将RoBERTa层的预测结果与GAT层的预测结果进一步进行特征融合,强化了通过注意力机制进一步强化语义预测结果的准确性,本发明实施例的各模型相结合作为一个整体显著提高了变体文本识别的准确性。进一步地,通过两阶段预训练,在通用表征的基础的之上学习了小样本领域表征,因此无需专家主导的启发式规则,即可具备很好的学习能力以及可移植能力;通过GAT编码领域知识以及特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明技术方案的模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。本发明技术方案解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例之一的一种变体文本识别方法的流程图;
图2是本发明实施例之一的原始文本转换为掩码文本向量序列和拼音文本向量序列的过程示意图;
图3是本发明实施例之一的变体文本识别模型的网络结构示意图;
图4是本发明实施例之一的GAT层的图注意力神经网络构成过程示意图;
图5是本发明实施例之一的一种变体文本识别装置的结构图;
图6是本发明实施例之一的一种变体文本识别方法的另一流程图;
图7是本发明实施例之一的小样本领域知识、GAT层与RoBERTa层之间的交互示意图;
图8是本发明实施例之一的GAT层与RoBERTa层输出结果进行特征融合的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,如图1所示,本发明实施例提供一种变体文本识别方法,包括:
步骤S10:在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
步骤S20:将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
步骤S30:将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
步骤S40:比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
下面以一个具体的实施例进行说明,如图2所示,例如敏感词指定为“心情”,原始文本为“今天新晴很好哈哈”,通过步骤S10,在原始文本中识别检测出文本“新晴”为疑似敏感词,将原始文本中的“新晴”替换为掩码标识得到掩码文本“今天MASKMASK很好哈哈”;掩码文本中的每一个字、单词、字对应的拼音和标点等视为掩码文本的一个元素;在图2中的RoBERTa词表将MASK、字和字的拼音等各自对应的向量存在一行记录中,在某些具体实施例中使用MASK、字和字的拼音所在行的索引值作为MASK、字和字的拼音相应的向量。在将掩码文本“今天MASK MASK很好哈哈”中的每个元素都对应使用元素在RoBERTa词表中的索引替换得到“79119211031032523196215061506”,其中,“791”是“今”对应的索引,“1921”是“天”对应的索引,“103”是“MASK”对应的索引,在某些实施例中,可以进一步通过相应的索引从RoBERTa词表中获取元素对应的向量或者直接使用该索引代替元素对应的向量,得到掩码文本向量序列,掩码文本向量序列有掩码文本中的每个元素对应的向量按照该元素在掩码文本中的顺序排列构成。通过步骤S20,将原始文本“今天新晴很好哈哈”中的每个汉字替换为对应的拼音得到拼音文本“jin tian xin qing hen hao ha ha”;拼音文本中的每一个字对应的拼音作为拼音文本中的一个元素,例如“jin”是一个元素,“tian”也是一个元素;再次查询RoBERTa词表使用得到索引按拼音文本中的元素顺序替换拼音文本中的元素得到“2131621252212482146521329214252118621186”,在某些实施例中,进一步通过相应的索引从RoBERTa词表中获取元素对应的向量或者直接使用该索引代替元素对应的向量,得到拼音文本向量序列。通过步骤S30将得到的掩码文本向量序列和拼音文本向量序列输入给预先训练的变体文本识别模型得到预测文本,拼音文本向量序列记录了原始文本的原始信息,掩码文本向量序列包含了疑似敏感词的信息,变体文本识别模型结合原始信息和疑似敏感词的信息进行分析,从而确定被MASK掉的位置的词的预测词得到预测文本,例如得到的预测文本是“今天心情很好哈哈”;在步骤S40中,通过比较原始文本和预测文本中不同的词,例如本例中原始文本中的“新晴”和预测文本中的“心情”不同,所以认为原始文本中的“新晴”为变体文本。图2中使用的RoBERTa词表不作为对本发明实施例的限制,本领域中有多种方法可以将汉字和拼音转换为索引或向量,RoBERTa词表只是其中一种基于文本向量词表的转换工具。
其中,文本向量词表是预先根据通用语料训练生成的,将通用语料中的字与对应的索引和/或向量进行映射的表;文本向量词表还可以将通用预料中的字对应的拼音与对应的索引和/或向量进行映射。
本发明实施例具有如下技术效果:将原始文本转为拼音文本并进一步转换为拼音文本向量序列,通过拼音将原始文本进行一定程度的泛化和模糊处理,拼音文本向量序列携带了原始文本的信息;识别原始文本中的疑似敏感词,并将疑似敏感词替换为掩码标识,并向量化得到掩码文本向量序列,将拼音文本向量序列和掩码文本向量序列相结合在变体文本识别模型的处理下预测处掩码标识对应位置的词,得到预测文本,通过预测文本与原始文本的比较确定变体文本。利用了拼音文本的泛化和模糊特点增加了预测能覆盖的词汇范围,提高了变体文本预测的准确性。
进一步地,所述在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列,包括:
步骤S11:在所述原始文本中查找预设的敏感词集中记录的敏感词,并将查找到的敏感词作为所述疑似敏感词;
步骤S12:针对所述原始文本中的每个汉字,将所述汉字作为相似字在预设的相似词表中查找所述相似字对应的原始字,使用所述原始字的拼音替换所述原始文本中的所述汉字,以从所述原始文本得到相似拼音文本;以及,在所述相似拼音文本中查找与所述敏感词集中记录的敏感词的拼音相同的拼音,并将查找到的拼音所对应的所述原始文本中的汉字作为所述疑似敏感词;
步骤S13:将所述原始文本中的所述疑似敏感词替换为掩码标识得到所述掩码文本;
步骤S14:根据预设的文本向量词表将所述掩码文本中的每个元素转换为对应的向量得到所述掩码文本向量序列;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
在一些实施例中,预先建立敏感词集,敏感词集中包括至少一个敏感词;针对具体的项目,将感兴趣的敏感词加入敏感词集;例如某些网络聊天或文章中会通过同音异字、近似字或近似音等方式使用变体词代替敏感词,本发明技术方案即要识别出被代替的敏感词。将敏感词加入敏感词集通过本发明实施例可以确定出原始文本中是否存在使用变体词代替感兴趣的敏感词的情况,并确定出该变体词。预先建立相似词表,相似词表包括敏感词集中的敏感词的同音同调、同音异调、近音同调、近音异调、同部首同笔画数、同义词、相似词、和/或敏感词的网络流行替代词等词;通过步骤S11和步骤S12两种方式识别疑似敏感词,步骤S11和步骤S12执行的先后顺序无限制,也可以先执行步骤S12再执行步骤S11。在步骤S11中在原始文本中查找敏感词集中记录的敏感词,并将找到的敏感词作为疑似敏感词;即使原始文本中直接出现了敏感词,也需要将该敏感词替换为掩码标识,使用本发明实施例的变体文本识别模型进行预测,以判断预测后是否仍为该敏感词。为了进一步扩大变体文本识别的全面性,使用拼音可以涵盖更广泛的词汇,在步骤S12中,在原始文本中查找相似词表中记录的词,并将找到的词转为拼音得到相似拼音文本,在相似拼音文本中查找与敏感词表中的敏感词对应的拼音相同的拼音,并将找到的拼音所对应的所述原始文本中的元素也作为疑似敏感词;步骤S11和步骤S12各自找到的疑似敏感词可能存在重合或不重合;步骤S13将步骤S11和步骤S12找到的疑似敏感词都替换为掩码标识得到掩码文本。步骤S14根据预设的文本向量词表将所述掩码文本中的每个元素对应转换为向量得到所述掩码文本向量序列。
本发明实施例具有如下技术效果:首先直接检查原始文本中是否存在敏感词,再利用相似词表扩大疑似敏感词的覆盖范围,从而最大限度的发现原始文本中的变体文本。
进一步地,如图3所示,所述变体文本识别模型包括:RoBERTa层、GAT层和输出层;
所述将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本,包括:
步骤S31:将所述掩码文本向量序列输入训练后的RoBERTa层进行文本表征处理,得到文本语义表征向量序列;
步骤S32:将所述文本语义表征向量序列与所述拼音文本向量序列进行初次特征融合处理,得到第一融合向量序列;
步骤S33:将所述第一融合向量序列输入所述训练后的GAT层进行领域知识增强处理,得到注意力特征向量序列;
步骤S34:将所述注意力特征向量序列与所述文本语义表征向量序列进行二次特征融合处理得到第二融合向量序列;
步骤S35:将所述第二融合向量序列输入给训练后的输出层进行概率预测处理,得到所述预测文本。
在一些实施例中,输出层包括但不限于全连接神经网络层;输出层使用的激活函数包括但不限于Softmax();
初次特征融合处理是众多进行特征融合处理方法中的一种,具体可以是残差融合;二次特征融合处理是众多进行特征融合处理方法中的一种,具体可以是残差融合;
其中,如图4所示,GAT层是图注意力神经网络层;预先针对文本向量词表中的每个拼音,将所述拼音对应的向量作为对应的根节点,以所述拼音的相似字作为所述根节点的邻居节点构建得到GAT层;文本向量词表是预先根据通用语料训练生成的,对通用语料中的字建立与对应的索引和/或向量的映射;文本向量词表还可以将通用预料中的字对应的拼音与对应的索引和/或向量进行映射;文本向量词表包括:通用语料中的字与对应的索引和/或向量的映射关系、通用语料中的字对应的拼音与所述拼音对应的索引和/或向量的映射关系、特定字符串与对应的索引和/或向量的映射关系;所述特定字符串包括掩码标识;针对所述文本向量词表中的每个拼音,预先根据小样本邻域知识将所述拼音对应的领域相似字、同音同调字、同音异调字、近音同调字和/或近音异调字作为所述拼音的相似字;
本发明实施例具有如下技术效果:建立RoBERTa层与GAT层相结合的变体文本识别模型,利用GAT层的图注意力神经网络的注意力机制提高RoBERTa语义分析确定掩码标识位置的词的预测效果。并且在RoBERTa层与GAT层结合的过程中使用特征融合机制将RoBERTa层输出的文本语义表征向量序列与GAT层的输入拼音文本向量序列特征融合,使GAT层的输入信息中同时具有RoBERTa层语义分析预测的信息,也具有原始文本的信息,使GAT层利用更全面的信息进行进一步地预测,将RoBERTa层的预测结果与GAT层的预测结果进一步进行特征融合,强化了通过注意力机制进一步强化语义预测结果的准确性,本发明实施例的各层模型相结合作为一个整体显著提高了变体文本识别的准确性。通过GAT编码领域知识以及特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明实施例的变体文本识别模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
进一步地,所述将所述文本语义表征向量序列与所述拼音文本向量序列进行初次特征融合处理,得到第一融合向量序列,包括:
步骤S321:将所述文本语义表征向量序列中在每个敏感索引位置处的向量累加到所述拼音文本向量序列中在同一所述敏感索引位置处的向量,得到第一融合向量序列;其中,所述敏感索引位置为所述疑似敏感词所处的索引位置;
所述将所述注意力特征向量序列与所述文本语义表征向量序列进行二次特征融合处理得到第二融合向量序列,包括:
步骤S341:使用所述注意力特征向量序列中在每个敏感索引位置处的向量替换所述文本语义表征向量序列中在同一所述敏感索引位置的向量,得到第二融合向量序列。
在一些实例中,如图3所示,例如原始文本为“今天新晴很好哈哈”,敏感词为“心情”,疑似敏感词为“新晴”,则掩码文本为“今天MASKMASK很好哈哈”,对应的掩码文本向量序列为EEE[mask]E[mask]EEEE,经训练后的RoBERTa层预测后得到的文本语义表征向量序列为RRR[mask1]R[mask2]RRRR,经训练后的RoBERTa层的预测后,掩码文本向量序列中的两个E[mask]会具有相同或不同的语义,分别对应得到R[mask1]和R[mask2]。原始文本“今天新晴很好哈哈”对应的拼音文本为“jintianxinqinghenhao haha”,拼音文本对应的拼音文本向量序列为EjinEtianExinEqingEhenEhaoEhaEha,在此例子中,文本语义表征向量序列中敏感索引位置对应的是R[mask1]和R[mask2],拼音文本向量序列中敏感索引位置对应的是Exin和Eqing,将R[mask1]累加到Exin上经归一化得到Pxin,将R[mask2]累加到Eqing上经归一化得到Pqing第一融合向量序列EjinEtianPxinPqingEhenEhaoEhaEha,第一融合向量序列EjinEtianPxinPqingEhenEhaoEhaEha经训练后的GAT层分析后得到注意力特征向量序列GjinGtianGxinGqingGhenGhaoGhaGha,使用注意力特征向量序列中在所述敏感索引位置处的向量Gxin和Gqing替换文本语义表征向量序列中敏感索引位置对应的R[mask1]和R[mask2],得到第二融合向量序列RRGxinGqingRRRR
进一步地,所述方法包括:
独立训练待训练的RoBERTa层得到训练后的RoBERTa层;
基于训练后的RoBERTa层训练待训练的GAT层和待训练的输出层得到训练后的GAT层和训练后的输出层。
在一些实施例中,通过两阶段预训练,在通用表征的基础的之上学习了小样本领域表征,因此无需专家主导的启发式规则,即可具备很好的学习能力以及可移植能力;通过GAT编码领域知识以及特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明技术方案的模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。本发明技术方案解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
进一步地,所述独立训练待训练的RoBERTa层得到训练后的RoBERTa层,包括:
针对通用语料中的每条通用训练文本,使用掩码标识对所述通用训练文本进行随机掩码得到掩码通用训练文本,通过查询文本向量词表将掩码通用训练文本转换为掩码通用训练文本向量序列;其中,所述文本向量词表根据所述通用语料生成并包含通用语料中的每个汉字及相应的向量、通用语料中每个汉字对应的拼音及相应的向量和特殊标识符及相应的向量;所述特殊标识符包括掩码标识;
将每个掩码通用训练文本向量序列输入给待训练的RoBERTa层进行训练,通过最小化RoBERTa层的损失函数
Figure BDA0003981466630000091
使RoBERTa层的精度迭代到第一目标精度,以确定RoBERTa层的参数得到训练后的RoBERTa层和记录于所述训练后的RoBERTa层中的文本向量词表中每个汉字和特殊标识符对应的文本语义表征向量;
其中,在RoBERTa层的损失函数
Figure BDA0003981466630000092
n为通用训练文本进行随机掩码后掩码标识的个数;Ti为通用训练文本中被替换为掩码标识的第i个字;fM(Ti)为通用训练文本进行随机掩码后Ti的上下文,θ为估计的RoBERTa层的参数。
在一些实施例中,在训练期间首先使用通用语料以随机掩码的方式训练RoBERTa层得到训练后的RoBERTa层。在某些具体实施例中,随机掩码的具体方式可以是针对通用语料中的每条通用训练文本,将通用训练文本中随机选择第一百分比的元素作为待替换元素,随机选择待替换元素中的第二百分比的元素替换为掩码标识,剩余的待替换元素中第三百分比的元素随机替换成其他随机元素,剩余的待替换元素中的其他元素保持不变;优选地,第一百分比为15%;第二百分比为80%;第三百分比为50%。其中,在某些实施例中所述第一目标精度为0.75。
进一步地,所述待训练的GAT层根据所述文本向量词表和相似词表预先构建;
构建所述待训练的GAT层的方法,包括:
针对所述文本向量词表中的每个拼音,以所述文本向量词表中的所述拼音为对应的根节点,以相似词表中与所述文本向量词表中的所述拼音具有相似拼音的原始字对应的相似字为所述根节点对应的邻居节点构建待训练的GAT层;其中,每个根节点的特征向量随机初始化;每个邻居节点的特征向量为在所述训练后的RoBERTa层中记录的与所述邻居节点对应的同一个汉字对应的文本语义表征向量;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
进一步地,所述基于训练后的RoBERTa层训练待训练的GAT层和待训练的输出层得到训练后的GAT层和训练后的输出层,包括:
针对所属领域训练语料中的每条领域训练文本,将所述领域训练文本中标注为敏感词的字替换为掩码标识,得到所述领域训练文本对应的掩码领域训练文本,将所述掩码领域训练文本向量化得到所述领域训练文本对应的掩码领域训练文本向量序列;将所述领域训练文本转为拼音得到所述领域训练文本对应的领域训练拼音文本,将所述领域训练拼音文本向量化得到所述领域训练文本对应的领域训练拼音文本向量序列;
将所述领域训练文本对应的掩码领域训练文本向量序列输入给训练后的RoBERTa层,得到所述领域训练文本对应的领域训练文本语义表征向量序列;
将所述领域训练文本对应的领域训练文本语义表征向量序列与所述领域训练文本对应的领域训练拼音文本向量序列进行初次特征融合处理,得到所述领域训练文本对应的第一融合训练向量序列;
将所述领域训练文本对应的第一融合训练向量序列输入待训练的GAT层进行领域知识增强处理,得到所述领域训练文本对应的训练注意力特征向量序列;
将所述领域训练文本对应的训练注意力特征向量序列与所述领域训练文本对应的领域训练文本语义表征向量序列进行二次特征融合处理得到所述领域训练文本对应的第二融合训练向量序列;
将所述领域训练文本对应的第二融合训练向量序列输入给待训练的输出层进行训练,通过最小化输出层的损失函数
Figure BDA0003981466630000101
使输出层的精度迭代到第二目标精度,以确定输出层的参数得到训练后的输出层和训练后的GAT层;
其中,在输出层的损失函数
Figure BDA0003981466630000102
中,m为领域训练文本对应的掩码领域训练文本中的掩码标识的个数,/>
Figure BDA0003981466630000111
是领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的特征向量的和,C为领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的数量,Gi为领域训练文本对应的训练注意力特征向量序列中的第i个向量;Ti为领域训练文本对应的领域训练文本语义表征向量序列中的第i个向量;所属领域训练语料通过对敏感词所属的所属领域语料中的每条文本中的敏感词进行标注得到。
在一些实施例中,第二目标精度为0.75;所属领域训练语料是针对敏感词所属的领域中的文本,经预设的规则或人工标注出敏感词后得到的。将所述掩码领域训练文本向量化得到所述领域训练文本对应的掩码领域训练文本向量序列,具体地,也可以根据文本向量词表查询掩码领域训练文本中的每个元素对应的索引和/或向量,将所述掩码领域训练文本向量化得到掩码领域训练文本向量序列。将所述领域训练拼音文本向量化得到所述领域训练文本对应的领域训练拼音文本向量序列,具体地,也可以根据文本向量词表查询领域训练拼音文本中的每个元素对应的索引和/或向量,将所述领域训练拼音文本向量化得到领域训练拼音文本向量序列。初次特征融合处理是众多进行特征融合处理方法中的一种,具体可以是残差融合;二次特征融合处理是众多进行特征融合处理方法中的一种,具体可以是残差融合;在一些实例中,如图3所示,例如领域训练文本为“今天新晴很好哈哈”,敏感词为“心情”,疑似敏感词为“新晴”,则掩码领域训练文本为“今天MASKMASK很好哈哈”,对应的掩码领域训练文本向量序列为EEE[mask]E[mask]EEEE,经训练后的RoBERTa层预测后得到的领域训练文本语义表征向量序列为RRR[mask1]R[mask2]RRRR,经训练后的RoBERTa层的预测后,掩码领域训练文本向量序列中的两个E[mask]会具有相同或不同的语义,分别对应得到R[mask1]和R[mask2]。领域训练文本“今天新晴很好哈哈”对应的领域训练拼音文本为“jintianxinqinghenhao haha”,领域训练拼音文本对应的领域训练拼音文本向量序列为EjinEtianExinEqingEhenEhaoEhaEha,在此例子中,领域训练文本语义表征向量序列中敏感索引位置对应的是R[mask1]和R[mask2],领域训练拼音文本向量序列中敏感索引位置对应的是Exin和Eqing,将R[mask1]累加到Exin上经归一化得到Pxin,将R[mask2]累加到Eqing上经归一化得到Pqing第一融合训练向量序列EjinEtianPxinPqingEhenEhaoEhaEha,第一融合训练向量序列EjinEtia nPxinPqingEhenEhaoEhaEha经待训练的GAT层进行领域知识增强处理,得到所述领域训练文本对应的训练注意力特征向量序列GjinGtianGxinGqingGhenGhaoGhaGha,使用训练注意力特征向量序列中在所述敏感索引位置处的向量Gxin和Gqing替换领域训练文本语义表征向量序列中敏感索引位置对应的R[mask1]和R[mask2],得到第二融合训练向量序列RRGxinGqingRRRR。将所述领域训练文本对应的第二融合训练向量序列输入给待训练的输出层进行训练,通过最小化输出层的损失函数
Figure BDA0003981466630000121
使输出层的精度迭代到第二目标精度,以确定输出层的参数得到训练后的输出层和训练后的GAT层。
本发明实施例具有如下技术性效果:将原始文本转为拼音文本并进一步转换为拼音文本向量序列,通过拼音将原始文本进行一定程度的泛化和模糊处理,拼音文本向量序列携带了原始文本的信息;识别原始文本中的疑似敏感词,并将疑似敏感词替换为掩码标识,并向量化得到掩码文本向量序列,将拼音文本向量序列和掩码文本向量序列相结合在变体文本识别模型的处理下预测处掩码标识对应位置的词,得到预测文本,通过预测文本与原始文本的比较确定变体文本。利用了拼音文本的泛化和模糊特点增加了预测能覆盖的词汇范围,提高了变体文本预测的准确性。进一步地,建立RoBERTa层与GAT层相结合的变体文本识别模型,利用GAT层的图注意力神经网络的注意力机制提高RoBERTa语义分析确定掩码标识位置的词的预测效果。并且在RoBERTa层与GAT层结合的过程中使用特征融合机制将RoBERTa层输出的文本语义表征向量序列与GAT层的输入拼音文本向量序列特征融合,使GAT层的输入信息中同时具有RoBERTa层语义分析预测的信息,也具有原始文本的信息,使GAT层利用更全面的信息进行进一步地预测,将RoBERTa层的预测结果与GAT层的预测结果进一步进行特征融合,强化了通过注意力机制进一步强化语义预测结果的准确性,本发明实施例的各模型相结合作为一个整体显著提高了变体文本识别的准确性。进一步地,通过两阶段预训练,在通用表征的基础的之上学习了小样本领域表征,因此无需专家主导的启发式规则,即可具备很好的学习能力以及可移植能力;通过GAT编码领域知识以及特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明技术方案的模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。本发明技术方案解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
另一方面,如图5所示,本发明实施例提供一种变体文本识别装置,包括:
掩码单元100,用于在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
拼音单元200,用于将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
预测单元300,用于将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
比较单元400,用于比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
进一步地,所述掩码单元100,包括:
敏感词精确匹配模块,用于在所述原始文本中查找预设的敏感词集中记录的敏感词,并将查找到的敏感词作为所述疑似敏感词;
敏感词相似匹配模块,用于针对所述原始文本中的每个汉字,将所述汉字作为相似字在预设的相似词表中查找所述相似字对应的原始字,使用所述原始字的拼音替换所述原始文本中的所述汉字,以从所述原始文本得到相似拼音文本;以及,在所述相似拼音文本中查找与所述敏感词集中记录的敏感词的拼音相同的拼音,并将查找到的拼音所对应的所述原始文本中的汉字作为所述疑似敏感词;
预测掩码模块,用于将所述原始文本中的所述疑似敏感词替换为掩码标识得到所述掩码文本;
掩码文本向量获取模块,用于根据预设的文本向量词表将所述掩码文本中的每个元素转换为对应的向量得到所述掩码文本向量序列;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
进一步地,所述变体文本识别模型包括:RoBERTa层、GAT层和输出层;
所述预测单元300,包括:
文本语义表征预测模块,用于将所述掩码文本向量序列输入训练后的RoBERTa层进行文本表征处理,得到文本语义表征向量序列;
初级融合预测模块,用于将所述文本语义表征向量序列与所述拼音文本向量序列进行初次特征融合处理,得到第一融合向量序列;
注意力特征预测模块,用于将所述第一融合向量序列输入所述训练后的GAT层进行领域知识增强处理,得到注意力特征向量序列;
二次融合预测模块,用于将所述注意力特征向量序列与所述文本语义表征向量序列进行二次特征融合处理得到第二融合向量序列;
概率预测模块,用于将所述第二融合向量序列输入给训练后的输出层进行概率预测处理,得到所述预测文本。
进一步地,所述初级融合预测模块,具体用于:
将所述文本语义表征向量序列中在每个敏感索引位置处的向量累加到所述拼音文本向量序列中在同一所述敏感索引位置处的向量,得到第一融合向量序列;其中,所述敏感索引位置为所述疑似敏感词所处的索引位置;
所述二次融合预测模块,具体用于:
使用所述注意力特征向量序列中在每个敏感索引位置处的向量替换所述文本语义表征向量序列中在同一所述敏感索引位置的向量,得到第二融合向量序列。
进一步地,所述装置包括:
第一阶段训练单元,用于独立训练待训练的RoBERTa层得到训练后的RoBERTa层;
第二阶段训练单元,用于基于训练后的RoBERTa层训练待训练的GAT层和待训练的输出层得到训练后的GAT层和训练后的输出层。
进一步地,所述第一阶段训练单元,包括:
通用训练文本向量序列获取模块,用于针对通用语料中的每条通用训练文本,使用掩码标识对所述通用训练文本进行随机掩码得到掩码通用训练文本,通过查询文本向量词表将掩码通用训练文本转换为掩码通用训练文本向量序列;其中,所述文本向量词表根据所述通用语料生成并包含通用语料中的每个汉字及相应的向量、通用语料中每个汉字对应的拼音及相应的向量和特殊标识符及相应的向量;所述特殊标识符包括掩码标识;
第一阶段训练模块,用于将每个掩码通用训练文本向量序列输入给待训练的RoBERTa层进行训练,通过最小化RoBERTa层的损失函数
Figure BDA0003981466630000141
使RoBERTa层的精度迭代到第一目标精度,以确定RoBERTa层的参数得到训练后的RoBERTa层和记录于所述训练后的RoBERTa层中的文本向量词表中每个汉字和特殊标识符对应的文本语义表征向量;
其中,在RoBERTa层的损失函数
Figure BDA0003981466630000142
中,n为通用训练文本进行随机掩码后掩码标识的个数;Ti为通用训练文本中被替换为掩码标识的第i个字;fM(Ti)为通用训练文本进行随机掩码后Ti的上下文,θ为估计的RoBERTa层的参数。
进一步地,所述装置还包括:GAT层构建单元;
所述GAT层构建单元用于预先根据所述文本向量词表和相似词表构建搜书GAT层;
所述GAT层构建单元,具体配置为:针对所述文本向量词表中的每个拼音,以所述文本向量词表中的所述拼音为对应的根节点,以相似词表中与所述文本向量词表中的所述拼音具有相似拼音的原始字对应的相似字为所述根节点对应的邻居节点构建待训练的GAT层;其中,每个根节点的特征向量随机初始化;每个邻居节点的特征向量为在所述训练后的RoBERTa层中记录的与所述邻居节点对应的同一个汉字对应的文本语义表征向量;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
进一步地,所述第二阶段训练单元,包括:
训练掩码和拼音向量序列获取模块,用于针对所属领域训练语料中的每条领域训练文本,将所述领域训练文本中标注为敏感词的字替换为掩码标识,得到所述领域训练文本对应的掩码领域训练文本,将所述掩码领域训练文本向量化得到所述领域训练文本对应的掩码领域训练文本向量序列;将所述领域训练文本转为拼音得到所述领域训练文本对应的领域训练拼音文本,将所述领域训练拼音文本向量化得到所述领域训练文本对应的领域训练拼音文本向量序列;
领域训练文本语义获取模块,用于将所述领域训练文本对应的掩码领域训练文本向量序列输入给训练后的RoBERTa层,得到所述领域训练文本对应的领域训练文本语义表征向量序列;
第一融合训练模块,用于将所述领域训练文本对应的领域训练文本语义表征向量序列与所述领域训练文本对应的领域训练拼音文本向量序列进行初次特征融合处理,得到所述领域训练文本对应的第一融合训练向量序列;
注意力训练模块,用于将所述领域训练文本对应的第一融合训练向量序列输入待训练的GAT层进行领域知识增强处理,得到所述领域训练文本对应的训练注意力特征向量序列;
第二融合训练模块,用于将所述领域训练文本对应的训练注意力特征向量序列与所述领域训练文本对应的领域训练文本语义表征向量序列进行二次特征融合处理得到所述领域训练文本对应的第二融合训练向量序列;
输出层训练模块,用于将所述领域训练文本对应的第二融合训练向量序列输入给待训练的输出层进行训练,通过最小化输出层的损失函数
Figure BDA0003981466630000151
使输出层的精度迭代到第二目标精度,以确定输出层的参数得到训练后的输出层和训练后的GAT层;
其中,在输出层的损失函数
Figure BDA0003981466630000161
中,m为领域训练文本对应的掩码领域训练文本中的掩码标识的个数,/>
Figure BDA0003981466630000162
是领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的特征向量的和,C为领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的数量,Gi为领域训练文本对应的训练注意力特征向量序列中的第i个向量;Ti为领域训练文本对应的领域训练文本语义表征向量序列中的第i个向量;所属领域训练语料通过对敏感词所属的所属领域语料中的每条文本中的敏感词进行标注得到。
本发明实施例是与前述的变体文本识别方法实施例一一对应的产品类实施例,可根据前述的变体文本识别方法实施例理解本发明实施例,在此不再赘述。
本发明实施例具有如下技术性效果:将原始文本转为拼音文本并进一步转换为拼音文本向量序列,通过拼音将原始文本进行一定程度的泛化和模糊处理,拼音文本向量序列携带了原始文本的信息;识别原始文本中的疑似敏感词,并将疑似敏感词替换为掩码标识,并向量化得到掩码文本向量序列,将拼音文本向量序列和掩码文本向量序列相结合在变体文本识别模型的处理下预测处掩码标识对应位置的词,得到预测文本,通过预测文本与原始文本的比较确定变体文本。利用了拼音文本的泛化和模糊特点增加了预测能覆盖的词汇范围,提高了变体文本预测的准确性。进一步地,建立RoBERTa层与GAT层相结合的变体文本识别模型,利用GAT层的图注意力神经网络的注意力机制提高RoBERTa语义分析确定掩码标识位置的词的预测效果。并且在RoBERTa层与GAT层结合的过程中使用特征融合机制将RoBERTa层输出的文本语义表征向量序列与GAT层的输入拼音文本向量序列特征融合,使GAT层的输入信息中同时具有RoBERTa层语义分析预测的信息,也具有原始文本的信息,使GAT层利用更全面的信息进行进一步地预测,将RoBERTa层的预测结果与GAT层的预测结果进一步进行特征融合,强化了通过注意力机制进一步强化语义预测结果的准确性,本发明实施例的各模型相结合作为一个整体显著提高了变体文本识别的准确性。进一步地,通过两阶段预训练,在通用表征的基础的之上学习了小样本领域表征,因此无需专家主导的启发式规则,即可具备很好的学习能力以及可移植能力;通过GAT编码领域知识以及特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明技术方案的模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。本发明技术方案解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
另一方面,本发明实施例提供一种可读存储介质,其存储有用于实现如前所述的任一项方法对应的程序代码。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明实施例中涉及的术语解释:
通用语料:包含多种领域的领域知识的文本;变体文本:为隐藏真实的实体或事件采用的替代文本;混淆字典:存储真实文本与其变体文本的字典;预训练语言模型:在学习特定自然语言任务前,预先使用大规模语料进行自监督任务学习的通用语言表示模型;小样本领域:可学习的知识难以获得,且样本容量较小的领域;领域知识:具备小样本领域特点的相关知识与概念;检测文本:依据领域知识与任务目标构建的疑似变体文本;语言模型:通过对语句概率分布建模来学习文本表征的机器学习方法;图神经网络:使用神经网络学习图结构表征的机器学习方法;所属领域语料:同时包含小样本领域和同类样本领域的样本语料;RoBERTa:学习语言模型的一种算法结构,其学习任务是对文本标记进行MASK处理后再还原该标记;GAT:基于注意力机制构建的图神经网络。
以下根据图6对本发明实施例进行解释:
本发明实施例具有两阶段预训练过程,第一阶段为RoBERTa层训练;第二阶段为GAT层训练,包含领域知识增强方法。
语料样本均为文本形式,其中训练语料分为两部分:通用语料与通过规则或人工标注的所属领域语料;测试语料为需预测的小样本领域语料;
步骤S601,语料预处理:预先根据通用预料建立RoBERTa词表;将通用语料中的字符转换为拼音,将拼音加入RoBERTa的词表中;将RoBERTa词表中的汉字对应的拼音添加到RoBERTa词表中;RoBERTa词表包括字以及字对应的索引和/或向量;RoBERTa词表还包括字的拼音以及该拼音对应的索引和/或向量;
步骤S602,数据预处理:将预测模式下的原始文本中的疑似敏感词或者训练模式下的语料中的待检测文本(即疑似敏感词)替换成特殊字符MASK标记;将将预测模式下的原始文本或者训练模式下的语料替换为拼音;
步骤S603,获取字符与拼音特征:将替换为MASK标记(即掩码标识)的原始文本或训练模式下的语料根据RoBERTa词表转换为对应的索引构成变体文本识别模型的输入;将原始文本或训练模式下的语料的拼音根据RoBERTa词表转换为对应的索引构成变体文本识别模型的输入;
步骤S604,判断当前是训练还是预测;如果是训练则执行步骤S605;如果是预测则执行步骤S609,执行步骤S模型推理;
步骤S605,预训练语言模型RoBERTa:第一阶段预训练采用RoBERTa层进行文本表征学习,RoBERTa层的损失函数为
Figure BDA0003981466630000181
其中n为句子长度,Ti为预测的标记,/>
Figure BDA0003981466630000182
为MASK策略后Ti的上下文,θ为估计的模型参数。选择训练语料中的通用语料将模型的精度迭代到0.75以上(精度越高越好,但需根据数据、资源、时间等因素进行调整),再进行第二阶段模型预训练。
步骤S606,预搭建GAT层图注意力神经网络:根据小样本领域知识,将领域相似字、同音同调字、同音异调字、近音同调字和近音异调字作为相似字;以RoBERTa词表中的所有拼音为根节点(即拼音节点),以该拼音的相似字作为邻居节点(即字符节点)构建相似语音图,相似语音图具体以GAT层图注意力神经网络的形式构建,拼音节点特征随机初始化,字符节点特征为RoBERTa预训练后的字符向量,使用GAT编码节点特征;
步骤S607,GAT层(图注意力神经网络)训练:训练任务为使用获取的GMASK特征(相当于Gxin和Gqing)预测MASK的原始字符,损失函数为
Figure BDA0003981466630000183
其中m为MASK的标记数量,/>
Figure BDA0003981466630000184
为在GAT图中,拼音编码Ei的所有邻居特征,C为邻居节点数量,Gi为GMASK后预测的标记,Hi为GAT编码后的标记特征,Ti为第一阶段预训练后经过RoBERTa编码的标记特征,θ为估计的模型参数。使用训练语料中所属领域语料训练模型,精度迭代到0.75以上后即可保存模型;如图7所示展示了小样本领域知识、GAT与RoBERTa之间的交互。
步骤S608,GMASK特征融合:如图8所示,经过GAT训练学习后得到带有结构化信息的特征,并将其与RoBERTa编码后的MASK特征(相当于R[mask1]和R[mask2])进行残差连接,替换RoBERTa中原始MASK对应索引的特征(相当于使用注意力特征向量序列中在所述敏感索引位置处的向量Gxin和Gqing替换文本语义表征向量序列中敏感索引位置对应的R[mask1]和R[mask2]);第二阶段预训练在第一阶段RoBERTa模型预训练的基础上,进行领域知识增强语言模型训练。
经步骤S605到步骤S608得到训练后的变体文本识别模型。
步骤S609:模型推理:使用步骤S608保存的模型对测试文本语料进行预测,输入的文本经过步骤602与步骤603的处理后,使用变体文本识别模型进行预测,输出的文本与输入不一致的字符为识别的变体文本,新晴是心情的变体文本;变体文本识别退出。
本发明实施例具有如下技术效果:本发明通过两阶段预训练,在通用表征的基础的之上学习了小样本领域表征,因此无需专家主导的启发式规则,即可具备很好的学习能力以及可移植能力;通过GAT编码领域知识以及GMASK特征融合机制缩小了预训练样本与领域样本之间的分布差异,同时编码领域知识和通用知识,因此本发明的模型具有很好的表征能力,在小样本领域具有很好的拟合与泛化能力。本发明解决了现有技术在小样本领域对变体文本识别能力不足的问题,且本技术具备针对不同领域的泛化能力。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括:”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种变体文本识别方法,其特征在于,包括:
在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
2.如权利要求1所述的变体文本识别方法,其特征在于,所述在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列,包括:
在所述原始文本中查找预设的敏感词集中记录的敏感词,并将查找到的敏感词作为所述疑似敏感词;
针对所述原始文本中的每个汉字,将所述汉字作为相似字在预设的相似词表中查找所述相似字对应的原始字,使用所述原始字的拼音替换所述原始文本中的所述汉字,以从所述原始文本得到相似拼音文本;以及,在所述相似拼音文本中查找与所述敏感词集中记录的敏感词的拼音相同的拼音,并将查找到的拼音所对应的所述原始文本中的汉字作为所述疑似敏感词;
将所述原始文本中的所述疑似敏感词替换为掩码标识得到所述掩码文本;
根据预设的文本向量词表将所述掩码文本中的每个元素转换为对应的向量得到所述掩码文本向量序列;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
3.如权利要求1所述的变体文本识别方法,其特征在于,所述变体文本识别模型包括:RoBERTa层、GAT层和输出层;
所述将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本,包括:
将所述掩码文本向量序列输入训练后的RoBERTa层进行文本表征处理,得到文本语义表征向量序列;
将所述文本语义表征向量序列与所述拼音文本向量序列进行初次特征融合处理,得到第一融合向量序列;
将所述第一融合向量序列输入所述训练后的GAT层进行领域知识增强处理,得到注意力特征向量序列;
将所述注意力特征向量序列与所述文本语义表征向量序列进行二次特征融合处理得到第二融合向量序列;
将所述第二融合向量序列输入给训练后的输出层进行概率预测处理,得到所述预测文本。
4.如权利要求3所述的变体文本识别方法,其特征在于,所述将所述文本语义表征向量序列与所述拼音文本向量序列进行初次特征融合处理,得到第一融合向量序列,包括:
将所述文本语义表征向量序列中在每个敏感索引位置处的向量累加到所述拼音文本向量序列中在同一所述敏感索引位置处的向量,得到第一融合向量序列;其中,所述敏感索引位置为所述疑似敏感词所处的索引位置;
所述将所述注意力特征向量序列与所述文本语义表征向量序列进行二次特征融合处理得到第二融合向量序列,包括:
使用所述注意力特征向量序列中在每个敏感索引位置处的向量替换所述文本语义表征向量序列中在同一所述敏感索引位置的向量,得到第二融合向量序列。
5.如权利要求3所述的变体文本识别方法,其特征在于,所述方法包括:
独立训练待训练的RoBERTa层得到训练后的RoBERTa层;
基于训练后的RoBERTa层训练待训练的GAT层和待训练的输出层得到训练后的GAT层和训练后的输出层。
6.如权利要求5所述的变体文本识别方法,其特征在于,所述独立训练待训练的RoBERTa层得到训练后的RoBERTa层,包括:
针对通用语料中的每条通用训练文本,使用掩码标识对所述通用训练文本进行随机掩码得到掩码通用训练文本,通过查询文本向量词表将掩码通用训练文本转换为掩码通用训练文本向量序列;其中,所述文本向量词表根据所述通用语料生成并包含通用语料中的每个汉字及相应的向量、通用语料中每个汉字对应的拼音及相应的向量和特殊标识符及相应的向量;所述特殊标识符包括掩码标识;
将每个掩码通用训练文本向量序列输入给待训练的RoBERTa层进行训练,通过最小化RoBERTa层的损失函数
Figure FDA0003981466620000031
使RoBERTa层的精度迭代到第一目标精度,以确定RoBERTa层的参数得到训练后的RoBERTa层和记录于所述训练后的RoBERTa层中的文本向量词表中每个汉字和特殊标识符对应的文本语义表征向量;
其中,在RoBERTa层的损失函数
Figure FDA0003981466620000032
中,n为通用训练文本进行随机掩码后掩码标识的个数;Ti为通用训练文本中被替换为掩码标识的第i个字;fM(Ti)为通用训练文本进行随机掩码后Ti的上下文,θ为估计的RoBERTa层的参数。
7.如权利要求6所述的变体文本识别方法,其特征在于,所述待训练的GAT层根据所述文本向量词表和相似词表预先构建;
构建所述待训练的GAT层的方法,包括:
针对所述文本向量词表中的每个拼音,以所述文本向量词表中的所述拼音为对应的根节点,以相似词表中与所述文本向量词表中的所述拼音具有相似拼音的原始字对应的相似字为所述根节点对应的邻居节点构建待训练的GAT层;其中,每个根节点的特征向量随机初始化;每个邻居节点的特征向量为在所述训练后的RoBERTa层中记录的与所述邻居节点对应的同一个汉字对应的文本语义表征向量;
其中,所述相似词表用于记录原始字和相似字的对应关系;每个原始字对应至少一个相似字。
8.如权利要求7所述的变体文本识别方法,其特征在于,所述基于训练后的RoBERTa层训练待训练的GAT层和待训练的输出层得到训练后的GAT层和训练后的输出层,包括:
针对所属领域训练语料中的每条领域训练文本,将所述领域训练文本中标注为敏感词的字替换为掩码标识,得到所述领域训练文本对应的掩码领域训练文本,将所述掩码领域训练文本向量化得到所述领域训练文本对应的掩码领域训练文本向量序列;将所述领域训练文本转为拼音得到所述领域训练文本对应的领域训练拼音文本,将所述领域训练拼音文本向量化得到所述领域训练文本对应的领域训练拼音文本向量序列;
将所述领域训练文本对应的掩码领域训练文本向量序列输入给训练后的RoBERTa层,得到所述领域训练文本对应的领域训练文本语义表征向量序列;
将所述领域训练文本对应的领域训练文本语义表征向量序列与所述领域训练文本对应的领域训练拼音文本向量序列进行初次特征融合处理,得到所述领域训练文本对应的第一融合训练向量序列;
将所述领域训练文本对应的第一融合训练向量序列输入待训练的GAT层进行领域知识增强处理,得到所述领域训练文本对应的训练注意力特征向量序列;
将所述领域训练文本对应的训练注意力特征向量序列与所述领域训练文本对应的领域训练文本语义表征向量序列进行二次特征融合处理得到所述领域训练文本对应的第二融合训练向量序列;
将所述领域训练文本对应的第二融合训练向量序列输入给待训练的输出层进行训练,通过最小化输出层的损失函数
Figure FDA0003981466620000041
使输出层的精度迭代到第二目标精度,以确定输出层的参数得到训练后的输出层和训练后的GAT层;
其中,在输出层的损失函数
Figure FDA0003981466620000042
中,m为领域训练文本对应的掩码领域训练文本中的掩码标识的个数,/>
Figure FDA0003981466620000043
是领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的特征向量的和,C为领域训练文本对应的领域训练拼音文本中第i个拼音在GAT层中对应的根节点的所有邻居节点的数量,Gi为领域训练文本对应的训练注意力特征向量序列中的第i个向量;Ti为领域训练文本对应的领域训练文本语义表征向量序列中的第i个向量;所属领域训练语料通过对敏感词所属的所属领域语料中的每条文本中的敏感词进行标注得到。
9.一种变体文本识别装置,其特征在于,包括:
掩码单元,用于在原始文本中识别疑似敏感词,并将所述疑似敏感词替换为掩码标识得到掩码文本,将所述掩码文本中的每个元素转换为向量得到掩码文本向量序列;
拼音单元,用于将所述原始文本中的每个汉字替换为对应的拼音得到拼音文本,并将所述拼音文本中的每个元素转换为向量得到拼音文本向量序列;
预测单元,用于将所述掩码文本向量序列和所述拼音文本向量序列输入给预先训练后的变体文本识别模型进行文本表征处理和领域知识增强处理,得到预测文本;
比较单元,用于比较所述原始文本和所述预测文本,并将所述原始文本中与所述预测文本不同的元素确定为变体文本。
10.一种可读存储介质,其特征在于,其存储有用于实现如权利要求1-8中任一项所述的方法对应的程序代码。
CN202211551801.8A 2022-12-05 2022-12-05 一种变体文本识别方法、装置和可读存储介质 Pending CN116166773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211551801.8A CN116166773A (zh) 2022-12-05 2022-12-05 一种变体文本识别方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211551801.8A CN116166773A (zh) 2022-12-05 2022-12-05 一种变体文本识别方法、装置和可读存储介质

Publications (1)

Publication Number Publication Date
CN116166773A true CN116166773A (zh) 2023-05-26

Family

ID=86415251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211551801.8A Pending CN116166773A (zh) 2022-12-05 2022-12-05 一种变体文本识别方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN116166773A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893538A (zh) * 2024-03-15 2024-04-16 成都方昇科技有限公司 基于机器视觉的半导体器件质量检测方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117893538A (zh) * 2024-03-15 2024-04-16 成都方昇科技有限公司 基于机器视觉的半导体器件质量检测方法、装置及系统
CN117893538B (zh) * 2024-03-15 2024-05-31 成都方昇科技有限公司 基于机器视觉的半导体器件质量检测方法、装置及系统

Similar Documents

Publication Publication Date Title
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN113779358B (zh) 一种事件检测方法和系统
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN116992005A (zh) 基于大模型及本地知识库的智能对话方法、系统及设备
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和系统
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN116166773A (zh) 一种变体文本识别方法、装置和可读存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN114254622A (zh) 一种意图识别方法和装置
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
CN113012685A (zh) 音频识别方法、装置、电子设备及存储介质
CN115114915B (zh) 短语识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination