CN113657098A - 文本纠错方法、装置、设备及存储介质 - Google Patents
文本纠错方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113657098A CN113657098A CN202110975680.9A CN202110975680A CN113657098A CN 113657098 A CN113657098 A CN 113657098A CN 202110975680 A CN202110975680 A CN 202110975680A CN 113657098 A CN113657098 A CN 113657098A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- similarity
- error correction
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 100
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 125000002347 octyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种文本纠错方法、装置、设备及存储介质,该方法包括:获取待纠错文本序列;将待纠错文本序列输入Bert模型中,对待纠错文本序列中错别字进行识别,得到错别字集合,基于预设候选字集合对错别字集合进行纠错,得到纠错后的目标文本序列;依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字,计算第一目标字和第二目标字之间的字形相似度以及字相似度;根据字形相似度和字相似度计算纠错判断因子,将纠错判断因子与预设阈值进行比对,根据比对结果确定待纠错文本序列的纠错结果。通过上述方式,本发明能够解决Bert模型对于词相似性判定过于粗暴导致类过拟合的问题。
Description
技术领域
本发明涉及人工智能的自然语言技术领域,特别是涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
文本纠错是自然语言处理领域检测一段文字是否存在错别字,以及将错别字纠正过来的技术。文本纠错一般用于文本预处理阶段,同时也被广泛应用于语音识别不准确的问题。目前业内对于文本纠错常见的问题如下:①多纠、②少纠、③误纠,导致这些问题的原因包括字形拆分问题、距离计算问题等。在语言统计模型方面,目前使用较多的是语言统计模型包括ngram模型和Bert模型等,其中,Bert模型对于词相似性的判断结果为0,1,该判定方式容易导致类过拟合问题,将一些本身没有错误的词纠错,进而导致文本纠错准确率下降。
发明内容
本发明提供一种文本纠错方法、装置、设备及存储介质,能够解决Bert模型对于词相似性判定过于粗暴导致类过拟合的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种文本纠错方法,包括:
获取待纠错文本数据,对所述待纠错文本数据进行预处理,得到待纠错文本序列;
将所述待纠错文本序列输入Bert模型中,对所述待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对所述错别字集合进行纠错处理,得到纠错后的目标文本序列;
依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度;
根据所述字形相似度和所述字相似度计算纠错判断因子,将所述纠错判断因子与预设阈值进行比对,根据比对结果确定所述待纠错文本序列的纠错结果。
根据本发明的一个实施例,依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度的步骤包括:
依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字;
基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度;
获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度。
根据本发明的一个实施例,基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度的步骤还包括:
基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,获得与所述第一目标字对应的第一字形集合以及与所述第二目标字对应的第二字形集合;
根据所述第一字形集合和所述第二字形集合计算所述第一目标字和所述第二目标字之间的字形距离;
根据所述字形距离计算所述第一目标字和所述第二目标字之间的字形相似度。
根据本发明的一个实施例,
所述字形距离按照如下公式进行:其中,p为所述第二目标字,q为所述第一目标字,d(p,q)为所述第一目标字和所述第二目标字之间的字形距离,n为字形数量,pi为所述第二目标字的第i个字形向量,qi为所述第一目标字的第i个字形向量;
所述字形相似度按照如下公式进行:其中,p为所述第二目标字,q为所述第一目标字,s(p,q)为所述第一目标字和所述第二目标字之间的字形相似度,d(p,q)为所述第一目标字和所述第二目标字之间的字形距离。
根据本发明的一个实施例,获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度的步骤还包括:
获取与所述第一目标字对应的第一字向量、与所述第二目标字对应的第二字向量、所述第一目标字所在句子的第一句向量以及所述第二目标字所在句子的第二句向量;
根据所述第一字向量和所述第二字向量计算所述第一目标字和所述第二目标字的字向量相似度;
根据所述第一句向量和所述第二句向量计算所述第一目标字和所述第二目标字的句向量相似度;
根据所述字向量相似度和所述句向量相似度计算所述第一目标字和所述第二目标字之间的字相似度。
根据本发明的一个实施例,根据所述字向量相似度和所述句向量相似度计算所述第一目标字和所述第二目标字之间的字相似度的步骤按照如下公式进行:
根据本发明的一个实施例,根据所述字形相似度和所述字相似度计算纠错判断因子的步骤按照如下公式进行:
R=∑p,qα×s(p,q)+β×S,其中,R为所述纠错判断因子,p为所述第二目标字,q为所述第一目标字,s(p,q)为所述第一目标字和所述第二目标字之间的字形相似度,S为所述字相似度,α、β为权重因子。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种文本纠错装置,包括:
获取模块,用于获取待纠错文本数据,对所述待纠错文本数据进行预处理,得到待纠错文本序列;
纠错模块,用于将所述待纠错文本序列输入Bert模型中,对所述待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对所述错别字集合进行纠错处理,得到纠错后的目标文本序列;
计算模块,用于依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度;
判定模块,用于根据所述字形相似度和所述字相似度计算纠错判断因子,将所述纠错判断因子与预设阈值进行比对,根据比对结果确定所述待纠错文本序列的纠错结果。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的文本纠错方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本纠错方法。
本发明的有益效果是:通过Bert模型识别待纠错文本序列中的错别字并对错别字进行初步纠正,根据错别字纠正前后的字形相似度以及字相似度计算纠错判断因子,根据纠错判断因子判断是否过度纠错,从而得到最终的纠错结果,能够解决Bert模型对于词相似性判定过于粗暴导致类过拟合的问题,通过一系列的相似度计算,避免过度纠错,有效提高文本纠错准确率。
附图说明
图1是本发明第一实施例的文本纠错方法的流程示意图;
图2是本发明实施例中文本纠错方法的步骤S103的流程示意图;
图3是本发明实施例中文本纠错方法的步骤S202的流程示意图;
图4是本发明实施例中文本纠错方法的步骤S203的流程示意图;
图5是本发明实施例中文本纠错方法的步骤S104的流程示意图;
图6是本发明实施例的文本纠错效果示意图;
图7是本发明实施例的文本纠错装置的结构示意图;
图8是本发明实施例的计算机设备的结构示意图;
图9是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的文本纠错方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取待纠错文本数据,对待纠错文本数据进行预处理,得到待纠错文本序列。
在步骤S101中,常见的文本错误可以分为(1)字形相似引起的错误,(2)拼音相似引起的错误两大类;如:“咳数”—>“咳嗽”;“哈蜜”—>“哈密”,其他错误还包括方言、口语化、重复输入导致的错误。
本实施例获取待纠错文本数据,在待纠错文本的两个句子之间加[stp]字符,在首个句子的前面加[CLS]字符,然后对待纠错文本数据进行词嵌入、位置嵌入和段嵌入处理,获得每个字的字向量、位置向量以及文本向量,将每个字的字向量、位置向量以及文本向量进行加和计算,得到待纠错文本序列并作为步骤S102中Bert模型的输入。本实施例的应用场景可以为企业内部的专利文本纠错,则待纠错文本数据为待纠错专利文本,通过对专利文本纠错能够避免专利文本的形式错误,帮助用户准确保护专利技术方案的权利范围。
进一步地,在步骤S101之前还可以包括从原始文本中对错误文本进行人工筛选,人工筛选过程中,只要发现文本中存在一个错别字则将文本标注错误标签,将错误标签的文本确定为错误文本,后续再利用语言统计模型对错误文本中的每个字进行识别。该方式能够提高文本检查效率。
步骤S102:将待纠错文本序列输入Bert模型中,对待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对错别字集合进行纠错处理,得到纠错后的目标文本序列。
在步骤S102中,Bert模型属于人工智能模型,基于人工智能技术对待纠错文本序列进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本实施例主要涉及人工智能的自然语言处理技术。
本实施例中,Bert模型将字向量、文本向量和位置向量的加和作为模型输入,输出的是输入各字对应的融合全文语义信息后的向量表示。通过Bert模型确定待纠错文本序列中每个字的上下文置信度,将上下文置信度低于预设阈值的字词确定为错别字,在候选字集合中选择一个与错别字的字形相似度最高的字符作为该错别字的替换字,采用替换字对错别字进行替换,获得纠错后的目标文本序列。
更具体地,Bert模型可以为Soft-masked Bert模型,Soft-masked Bert模型包括错误检测网络和错误纠正网络两部分。其中,错误检测网络由Bi-GRU组成,充分学习输入的上下文信息,输入是包含每个字符的字嵌入、位置嵌入、段嵌入三部分的相加的向量,输出是每个位置i可能为错别字的概率p(i),p(i)值越大表示该位置出错的可能性越大。将每个位置的特征以p(i)的概率乘上masking字符的特征,以(1-p(i))的概率乘上原始的输入特征,最后两部分相加作为每一个字符的特征,输入到错误纠正网络中,错误纠正网络的输入按照如下公式进行计算:
e′i=pi·emask+(1-pi)·ei,其中,ei为输入特征,pi错误检测网络的计算结果,e′i为错误纠正网络的输入,emask为以误差率为权重的masking字符的特征。可见,pi越小,e′i越接近输入特征ei,此字符错误的可能性也越小。
错误纠正网络是一个基于Bert的序列多分类标记模型。错误检测网络输出的特征作为Bert 12层Transformer模块的输入,最后一层的输出将输入特征进行残差连接作为每个字符最终的特征表示。最后,将每个字特征经过一层Softmax分类器,从候选词表中输出概率最大的字符认为是每个位置的替换字。
进一步地,在使用Bert模型进行纠错之前,需要获取训练数据对Bert模型进行训练,以提高Bert模型识别的准确性。具体地,训练数据是纠正前的原始序列对和纠正后的修正序列对组成的元组,采用端到端的方式进行训练,总损失函数由错误检测网络和错误纠正网络的损失函数加权构成。错误检测网络的损失和错误纠正网络的损失均为交叉熵损失,其中,错误检测网络的损失函数为二分类损失函数,错误纠正网络的损失函数为多分类损失函数,总损失函数为错误检测网络的损失函数与错误纠正网络的损失函数的线性组合,总损失函数具体为: 其中,为总损失函数,为错误检测网络的损失函数,为错误纠正网络的损失函数,λ为线性组合系数,λ一般要取大于0.5的值。
步骤S103:依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字,计算第一目标字和第二目标字之间的字形相似度以及字相似度。
在步骤S103中,对比纠错后的目标文本序列和纠错前的待纠错文本序列,从目标文本序列中提取出纠错后的第一目标字,并从待纠错文本序列中提取出与第一目标字对应的纠错前的第二目标字,即第一目标字为第二目标字的替换字,在本实施例中,第一目标字可以为一个多个,相应的,第一目标字和第二目标字的数量相同。若第一目标字存在多个时,需将每个第一目标字与对应的第二目标字组成词对,计算每个词对中的第一目标字和第二目标字之间的字形相似度以及字相似度。本实施例的字形相似度为第一目标字和第二目标字进行字形结构拆分之后的字形向量相似度,字相似度包括第一目标字和第二目标字之间的字向量相似度以及所在句子的句向量相似度。
假如,请参见图6,纠错前的待纠错文本序列为“附图示出一辆辛款奔弛”,基于Bert模型纠错后的目标文本序列为“附图示出四辆新款的奔驰”,则第一目标字有“四”、“新”以及“驰”,第二目标字有“一”、“辛”以及“弛”,因此,词对有(四,一)、(新,辛)以及(驰,弛)。
进一步地,请参见图2,步骤S103还包括以下步骤:
步骤S201:依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字。
在步骤S201中,第一目标字与第二目标字存在于一个词对中。
步骤S202:基于字形结构字典分别对第一目标字和第二目标字进行字形拆分,根据字形拆分结果计算第一目标字和第二目标字之间的字形相似度。
进一步地,请参见图3,步骤S202还包括以下步骤:
步骤S301:基于字形结构字典分别对第一目标字和第二目标字进行字形拆分,获得与第一目标字对应的第一字形集合以及与第二目标字对应的第二字形集合。
在步骤S301中,假如基于字形结构字典分别对词对(新,辛)中的第一目标字“新”以及第二目标字“辛”进行字形拆分,第一目标字“新”的字形拆分结果如下:亠丷一ホ厂一丨,第二目标字“辛”的字形拆分结果如下:亠丷一十;基于字形结构字典分别对词对(四,一)中的第一目标字“四”以及第二目标字“一”进行字形拆分,第一目标字“四”的字形拆分结果如下:口丿乚,第二目标字“一”的字形拆分结果如下:一。
在现有技术中基于Bert模型直接判断“新”和“辛”的相似度结果为“0”,“四”和“一”的相似度结果为“0”,而本方案则继续执行下述步骤,对是否采用Bert模型的纠错结果进行判断,防止Bert模型过度纠错,提高纠错正确率。
步骤S302:根据第一字形集合和第二字形集合计算第一目标字和第二目标字之间的字形距离。
在步骤S302中,字形距离按照如下公式进行:其中,p为第二目标字,q为第一目标字,d(p,q)为第一目标字和第二目标字之间的字形距离,n为字形数量,pi为第二目标字的第i个字形向量,qi为第一目标字的第i个字形向量。
步骤S303:根据字形距离计算第一目标字和第二目标字之间的字形相似度。
步骤S203:获取第一目标字和第二目标字的向量表示,根据向量计算第一目标字和第二目标字之间的字相似度。
在步骤S203中,根据字向量相似度和句向量相似度计算第一目标字和第二目标字之间的字相似度。
进一步地,请参见图4,步骤S203还包括以下步骤:
步骤S401:获取与第一目标字对应的第一字向量、与第二目标字对应的第二字向量、第一目标字所在句子的第一句向量以及第二目标字所在句子的第二句向量。
在步骤S401中,从目标文本序列中可以获取与第一目标字对应的第一字向量以及第一目标字所在句子的第一句向量,从待纠错文本序列中可以获取与第二目标字对应的第二字向量以及第二目标字所在句子的第二句向量。
步骤S402:根据第一字向量和第二字向量计算第一目标字和第二目标字的字向量相似度。
在步骤S402中,第一目标字和第二目标字的字向量相似度为第一字向量和第二字向量之间的余弦相似度,具体的,字向量相似度按照如下公式进行计算:其中,x为第一字向量,y为第二字向量,cos(x,y)为第一目标字和第二目标字的字向量相似度。
步骤S403:根据第一句向量和第二句向量计算第一目标字和第二目标字的句向量相似度。
在步骤S403中,第一目标字和第二目标字的句向量相似度为第一句向量和第二句向量之间的余弦相似度,具体的,句向量相似度按照如下公式进行计算:其中,n为句向量中的元素数量,x为第一句向量,y为第二句向量,cos(x,y)为第一目标字和第二目标字的句向量相似度,xi为第一句向量中的第i个元素的向量,yi为第二句向量中的第i个元素的向量。
步骤S404:根据字向量相似度和句向量相似度计算第一目标字和第二目标字之间的字相似度。
步骤S104:根据字形相似度和字相似度计算纠错判断因子,将纠错判断因子与预设阈值进行比对,根据比对结果确定待纠错文本序列的纠错结果。
在步骤S104中,纠错判断因子按照如下公式进行:R=∑p,qα×s(p,q)+β×S,其中,R为纠错判断因子,p为第二目标字,q为第一目标字,s(p,q)为第一目标字和第二目标字之间的字形相似度,S为字相似度,α、β为权重因子。α、β的取值为(0,1],在本实施例中,α取0.8,β取0.2。
进一步地,请参见图5,步骤S104还包括以下步骤:
步骤S501:根据字形相似度和字向量相似度计算纠错判断因子;
步骤S502:将纠错判断因子与预设阈值进行对比;
步骤S503:当纠错判断因子低于预设阈值,保留纠错前的第二目标字;
步骤S504:当纠错判断因子高于预设阈值,保留纠错后的第一目标字。
在本实施例中,当纠错判断因子低于预设阈值,表示Bert模型过度纠错,如图6所示,如:“一”->“四”,此时,不采纳Bert模型的纠错结果,保留纠错前字符;当纠错判断因子高于预设阈值,表示纠错正确,如图6所示,如:“辛”->“新”,“弛”->“驰”,采纳Bert模型的纠错结果。
本发明第一实施例的文本纠错方法通过Bert模型识别待纠错文本序列中的错别字并对错别字进行初步纠正,根据错别字纠正前后的字形相似度以及字相似度计算纠错判断因子,根据纠错判断因子判断是否过度纠错,从而得到最终的纠错结果,能够解决Bert模型对于词相似性判定过于粗暴导致类过拟合的问题,通过一系列的相似度计算,避免过度纠错,有效提高文本纠错准确率。
图7是本发明实施例的文本纠错装置的结构示意图。如图7所示,该装置70包括获取模块71、纠错模块72、计算模块73和判定模块74。
获取模块71用于获取待纠错文本数据,对待纠错文本数据进行预处理,得到待纠错文本序列。
纠错模块72用于将待纠错文本序列输入Bert模型中,对待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对错别字集合进行纠错处理,得到纠错后的目标文本序列。
计算模块73用于依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字,计算第一目标字和第二目标字之间的字形相似度以及字相似度。
判定模块74用于根据字形相似度和字相似度计算纠错判断因子,将纠错判断因子与预设阈值进行比对,根据比对结果确定待纠错文本序列的纠错结果。
请参阅图8,图8为本发明实施例的计算机设备的结构示意图。如图8所示,该计算机设备80包括处理器81及和处理器81耦接的存储器82。
存储器82存储有用于实现上述任一实施例所述的文本纠错方法的程序指令。
处理器81用于执行存储器82存储的程序指令以纠错文本。
其中,处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图9,图9为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件91,其中,该程序文件91可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本纠错方法,其特征在于,包括:
获取待纠错文本数据,对所述待纠错文本数据进行预处理,得到待纠错文本序列;
将所述待纠错文本序列输入Bert模型中,对所述待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对所述错别字集合进行纠错处理,得到纠错后的目标文本序列;
依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度;
根据所述字形相似度和所述字相似度计算纠错判断因子,将所述纠错判断因子与预设阈值进行比对,根据比对结果确定所述待纠错文本序列的纠错结果。
2.根据权利要求1所述的文本纠错方法,其特征在于,依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度的步骤包括:
依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字;
基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度;
获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度。
3.根据权利要求2所述的文本纠错方法,其特征在于,基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度的步骤还包括:
基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,获得与所述第一目标字对应的第一字形集合以及与所述第二目标字对应的第二字形集合;
根据所述第一字形集合和所述第二字形集合计算所述第一目标字和所述第二目标字之间的字形距离;
根据所述字形距离计算所述第一目标字和所述第二目标字之间的字形相似度。
5.根据权利要求2所述的文本纠错方法,其特征在于,获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度的步骤还包括:
获取与所述第一目标字对应的第一字向量、与所述第二目标字对应的第二字向量、所述第一目标字所在句子的第一句向量以及所述第二目标字所在句子的第二句向量;
根据所述第一字向量和所述第二字向量计算所述第一目标字和所述第二目标字的字向量相似度;
根据所述第一句向量和所述第二句向量计算所述第一目标字和所述第二目标字的句向量相似度;
根据所述字向量相似度和所述句向量相似度计算所述第一目标字和所述第二目标字之间的字相似度。
7.根据权利要求1所述的文本纠错方法,其特征在于,根据所述字形相似度和所述字相似度计算纠错判断因子的步骤按照如下公式进行:
R=∑p,qα×s(p,q)+β×S,其中,R为所述纠错判断因子,p为所述第二目标字,q为所述第一目标字,s(p,q)为所述第一目标字和所述第二目标字之间的字形相似度,S为所述字相似度,α、β为权重因子。
8.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取待纠错文本数据,对所述待纠错文本数据进行预处理,得到待纠错文本序列;
纠错模块,用于将所述待纠错文本序列输入Bert模型中,对所述待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对所述错别字集合进行纠错处理,得到纠错后的目标文本序列;
计算模块,用于依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度;
判定模块,用于根据所述字形相似度和所述字相似度计算纠错判断因子,将所述纠错判断因子与预设阈值进行比对,根据比对结果确定所述待纠错文本序列的纠错结果。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的文本纠错方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110975680.9A CN113657098B (zh) | 2021-08-24 | 2021-08-24 | 文本纠错方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110975680.9A CN113657098B (zh) | 2021-08-24 | 2021-08-24 | 文本纠错方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657098A true CN113657098A (zh) | 2021-11-16 |
CN113657098B CN113657098B (zh) | 2024-03-01 |
Family
ID=78481798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110975680.9A Active CN113657098B (zh) | 2021-08-24 | 2021-08-24 | 文本纠错方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657098B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782029A (zh) * | 2022-06-20 | 2022-07-22 | 北京圣博润高新技术股份有限公司 | 文档审核方法、系统、计算机设备及存储介质 |
CN117094311A (zh) * | 2023-10-19 | 2023-11-21 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117648923A (zh) * | 2024-01-29 | 2024-03-05 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种适用于医疗语境的中文拼写纠错方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970765A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种改错模型训练方法、装置和文本改错方法、装置 |
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN111435406A (zh) * | 2019-01-14 | 2020-07-21 | 北京京东尚科信息技术有限公司 | 一种纠正数据库语句拼写错误的方法和装置 |
CN111753147A (zh) * | 2020-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 相似度处理方法、装置、服务器及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112883718A (zh) * | 2021-04-27 | 2021-06-01 | 恒生电子股份有限公司 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
CN112949290A (zh) * | 2021-02-03 | 2021-06-11 | 深圳市优必选科技股份有限公司 | 文本纠错方法、装置及通信设备 |
-
2021
- 2021-08-24 CN CN202110975680.9A patent/CN113657098B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970765A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种改错模型训练方法、装置和文本改错方法、装置 |
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN111435406A (zh) * | 2019-01-14 | 2020-07-21 | 北京京东尚科信息技术有限公司 | 一种纠正数据库语句拼写错误的方法和装置 |
CN111753147A (zh) * | 2020-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 相似度处理方法、装置、服务器及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112949290A (zh) * | 2021-02-03 | 2021-06-11 | 深圳市优必选科技股份有限公司 | 文本纠错方法、装置及通信设备 |
CN112883718A (zh) * | 2021-04-27 | 2021-06-01 | 恒生电子股份有限公司 | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782029A (zh) * | 2022-06-20 | 2022-07-22 | 北京圣博润高新技术股份有限公司 | 文档审核方法、系统、计算机设备及存储介质 |
CN117094311A (zh) * | 2023-10-19 | 2023-11-21 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117094311B (zh) * | 2023-10-19 | 2024-01-26 | 山东齐鲁壹点传媒有限公司 | 一种关于中文语法纠错的误纠过滤器的建立方法 |
CN117648923A (zh) * | 2024-01-29 | 2024-03-05 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种适用于医疗语境的中文拼写纠错方法 |
CN117648923B (zh) * | 2024-01-29 | 2024-05-10 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种适用于医疗语境的中文拼写纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113657098B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN110163181B (zh) | 手语识别方法及装置 | |
RU2757713C1 (ru) | Распознавание рукописного текста посредством нейронных сетей | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US20190272319A1 (en) | Method and Device for Identifying Specific Text Information | |
CN111460793A (zh) | 纠错方法、装置、设备及存储介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111091004B (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
JPWO2015166606A1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN114863429A (zh) | 基于rpa和ai的文本纠错方法、训练方法及其相关设备 | |
CN112100374A (zh) | 文本聚类方法、装置、电子设备及存储介质 | |
CN113672731A (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
US10331789B2 (en) | Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof | |
CN114742039A (zh) | 一种中文拼写纠错方法及系统、存储介质及终端 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN111291552A (zh) | 一种文本内容修正的方法和系统 | |
CN114386399A (zh) | 一种文本纠错方法及装置 | |
CN112183060B (zh) | 多轮对话系统的指代消解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |