CN113591457B - 文本纠错方法、装置、设备及存储介质 - Google Patents
文本纠错方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113591457B CN113591457B CN202110873540.0A CN202110873540A CN113591457B CN 113591457 B CN113591457 B CN 113591457B CN 202110873540 A CN202110873540 A CN 202110873540A CN 113591457 B CN113591457 B CN 113591457B
- Authority
- CN
- China
- Prior art keywords
- text
- named entity
- word
- entity
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 63
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000011176 pooling Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据分析领域,公开了一种文本纠错方法、装置、设备及存储介质,该方法包括:对待纠错文本进行分词处理,得到命名实体集;将命名实体集中输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;从领域知识图谱集中选取领域知识图谱和候选实体;计算命名实体与候选实体的匹配度,并根据匹配度生成修正集合;从修正集合中选取候选实体,对待纠错文本进行修正,得到修正文本。本发明通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。此外,本发明还涉及区块链技术,待纠错文本和修正文本可存储于区块链中。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
人工智能正在以一种前所未有的力量影响着各行各业,而智能客服作为此次技术革新的排头兵已经在垂直领域生根发芽,即将开花。但是用户在文字交互中经常出现输入错误,包括错字、缺字、多字、字序错误、拼音汉字混合等各种各样的错误。其中有些错误无关紧要,不影响系统后续处理,有些错误会对系统的后续自动处理有非常大的影响,差之毫厘谬以千里。
目前,对文本进行纠错主要是基于语言模型的混淆度和字形字音的相似度去选取最大概率的替换字。但是现有技术只能处理错字,不能处理多字、漏字等其他的情况,需要其他多种技术去配合,不能从整体上去系统解决,从而导致纠错效率低、准确度低。
发明内容
本发明的主要目的在于解决现有技术中文本纠错效率低、准确度低的技术问题。
本发明第一方面提供了一种文本纠错方法,所述文本纠错方法包括:获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集;将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与所述类型对应的候选实体;计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
可选的,在本发明的第一方面的第一种实现方式中,所述计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合包括:计算所述命名实体与对应的候选实体之间的字形相似度,若所述字形相似度大于预设的字形相似阈值,则汇集所述候选实体生成修正集合;或,计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合;或,分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合。
可选的,在本发明的第一方面的第二种实现方式中,在所述计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合之前,还包括:判断所述命名实体是否为拼音汉字混合拼写;若是,则基于预设的拼音转化算法,将所述命名实体中的汉字对应转化为拼音。
可选的,在本发明的第一方面的第三种实现方式中,所述分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合包括:分析所述命名实体与对应的候选实体的字词组合,计算所述字词组合的相似度;若所述字词组合的相似度大于预设的字词组合相似阈值,则汇集所述候选实体生成修正集合;或,分析所述命名实体与对应的候选实体的字序,计算所述字序的相似度;若所述字序的相似度大于预设的字序相似阈值,则汇集所述候选实体生成修正集合。
可选的,在本发明第一方面的第四种实现方式中,所述从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本包括:判断所述修正集合是否包含多个所述候选实体;若是,则根据预设的领域语言模型,计算所述候选实体在所述待纠错文本中的出现概率;对所述候选实体按照所述出现概率的大小进行排序,得到出现序列;根据所述出现序列从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
可选的,在本发明第一方面的第五种实现方式中,所述获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集包括:获取待纠错文本,并根据预设的词典,将所述待纠错文本生成前缀树;对所述前缀树进行词图扫描,生成有向无环图;调用预设的动态规划查找最大概率路径算法,从所述有向无环图中查找基于词频的最大切分组合;将所述待纠错文本按照所述最大切分组合进行分词处理,得到词序列;将所述词序列输入预设的基于词序列的命名实体识别模型,输出得到命名实体集。
可选的,在本发明第一方面的第六种实现方式中,所述将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型包括:将所述命名实体集输入至预设的卷积神经网络中,并调用所述卷积神经网络的逻辑回归函数,计算所述命名实体集中各命名实体所涉及的各个领域的领域属性值;对各个所述领域属性值进行比较,将所述领域属性值最大的领域作为所述命名实体集中各命名实体的垂直领域;基于所述卷积神经网络中的卷积层,提取所述命名实体集中各命名实体的类型特征信息;计算所述类型特征信息与预设的类型之间的匹配度,根据所述匹配度确定所述命名实体的类型。
本发明第二方面提出一种文本纠错装置,所述文本纠错装置包括:分词模块,用于获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体;识别模块,用于将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;选取模块,用于从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与所述类型对应的候选实体;计算模块,用于计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;修正模块,用于从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
可选的,在本发明第二方面的第一种实现方式中,所述计算模块包括:第一计算单元,用于计算所述命名实体与对应的候选实体之间的字形相似度,若所述字形相似度大于预设的字形相似阈值,则汇集所述候选实体生成修正集合;第二计算单元,用于计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合;第三计算单元,用于分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合。
可选的,在本发明第二方面的第二种实现方式中,所述计算模块还包括转换单元,其具体用于:判断所述命名实体是否为拼音汉字混合拼写;若所述命名实体为拼音汉字混合拼写,则基于预设的拼音转化算法,将所述命名实体中的汉字对应转化为拼音。
可选的,在本发明第二方面的第三种实现方式中,所述第三计算单元具体用于:分析所述命名实体与对应的候选实体之间的字词组合,计算所述字词组合的相似度;若所述字词组合的相似度大于预设的字词组合相似阈值,则汇集所述候选实体生成修正集合;分析所述命名实体与对应的候选实体之间的字序,计算所述字序的相似度;若所述字序的相似度大于预设的字序相似阈值,则汇集所述候选实体生成修正集合。
可选的,在本发明第二方面的第四种实现方式中,所述修正模块具体用于:判断单元,用于判断所述修正集合是否包含多个所述候选实体;计算单元,用于若所述修正集合包含多个所述候选实体,则根据预设的领域语言模型,计算所述候选实体在所述待纠错文本中的出现概率;排序单元,用于对所述候选实体按照所述出现概率的大小进行排序,得到出现序列;修正单元,用于根据所述出现序列从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
可选的,在本发明第二方面的第五种实现方式中,所述分词模块具体用于:获取待纠错文本,并根据预设的词典,将所述待纠错文本生成前缀树;对所述前缀树进行词图扫描,生成有向无环图;调用预设的动态规划查找最大概率路径算法,从所述有向无环图中查找基于词频的最大切分组合;将所述待纠错文本按照所述最大切分组合进行分词处理,得到词序列;将所述词序列输入预设的基于词序列的命名实体识别模型,输出得到命名实体集。
可选的,在本发明第二方面的第六种实现方式中,所述识别模块具体用于:将所述命名实体集输入至预设的卷积神经网络中,并调用所述卷积神经网络的逻辑回归函数,计算所述命名实体集中各命名实体所涉及的各个领域的领域属性值;对各个所述领域属性值进行比较,将所述领域属性值最大的领域作为所述命名实体集中各命名实体的垂直领域;基于所述卷积神经网络中的卷积层,提取所述命名实体集中各命名实体的类型特征信息;计算所述类型特征信息与预设的类型之间的匹配度,根据所述匹配度确定所述命名实体的类型。
本发明第三方面提供了一种文本纠错设备,所述文本纠错设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本纠错设备执行上述的文本纠错方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当其在计算机上运行时,使得计算机执行上述的文本纠错方法的步骤。
在本发明提供的技术方案中,通过对待纠错文本进行分词处理,得到命名实体集;将命名实体集输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与命名实体的类型对应的候选实体;计算命名实体与候选实体的匹配度,并根据匹配度生成修正集合;从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。本发明提供的技术方案通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。
附图说明
图1为本发明实施例中文本纠错方法的第一个实施例示意图;
图2为本发明实施例中文本纠错方法的第二个实施例示意图;
图3为本发明实施例中文本纠错方法的第三个实施例示意图;
图4为本发明实施例中文本纠错方法的第四个实施例示意图;
图5为本发明实施例中文本纠错装置的一个实施例示意图;
图6为本发明实施例中文本纠错装置的另一个实施例示意图;
图7为本发明实施例中文本纠错设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本纠错方法、装置、设备及存储介质,通过对待纠错文本进行分词处理,得到命名实体集;将命名实体集输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与命名实体的类型对应的候选实体;计算命名实体与候选实体的匹配度,并根据匹配度生成修正集合;从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。本发明实施例通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体内容进行描述,请参阅图1,本发明实施例中文本纠错方法的第一个实施例包括:
101,获取待纠错文本,并对待纠错文本进行分词处理,得到命名实体集;
服务器获取待纠错文本,并对该待纠错文本进行分词处理,其中,分词处理需要结合预设的分词词典。分词词典是指包括有常用的或固定的词语的数据库,其是分词的基准,通过比照分词词典以使输入的待纠错文本中的语句转化为具有最大字符长度的独立词语,即最大字符长度的独立词语为命名实体,并汇集各命名实体形成命名实体集。在本实施例中,命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。其中,更广泛的实体还包括数字、日期、货币、地址等等。
在本实施例中,分词是指将待纠错文本中的字符串划分为词串的过程。其中,分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型。正向最大匹配法的特点是分词效率高,具有线性时间复杂度,容易实现,不需要指定词语的最大长度;逆向最大匹配法的特点是具有线性时间复杂度,需要指定词语的最大长度(maxLen);隐马尔可夫模型的特点是对未登录词的识别效果优于最大匹配法,但整体效果依赖于训练语料;条件随机场模型的特点是不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
进一步的,在本实施例中,在调用正向最大匹配法对待纠错文本中的语句进行顺向扫描,当存在交集型歧义时很可能产生分词错误。因此,本实施例通过增加回溯机制来校正正向最大匹配法的分词结果。其中,回溯是指在分词过程中,采用后退的策略以修正当前分词结果的试探方法。通过增加回溯机制能够提高分词准确率,有效改善交集型歧义问题。
102,将命名实体集输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;
将命名实体集输入至预设的卷积神经网络(CNN网络)中进行领域识别,在本实施例中,CNN网络的网络结构包含输入层、网络层和输出层;其中,输入层是将待纠错文本的命名实体集中的各命名实体输入到网络层,输出层是网络层的输出,其通过逻辑回归函数(softmax函数)计算命名实体所涉及的各个专业领域的概率,根据该概率确定命名实体的垂直领域(专业领域);网络层又包含卷积层、池化层、特征连接层、全连接层四个部分;卷积层设计了两个通道,第一个通道的卷积窗大小为1,第二个通道的卷积窗大小为2,使CNN网络提取出待纠错文本中单个词汇和相邻词汇的特征;池化层采用最大池化获取卷积层输出的每个通道特征最明显的特征;特征连接层是将池化层输出的两个通道的特征拼接到一起得到特征矩阵;全连接层最后将特征连接层输出的特征矩阵进行分类,得到命名实体的类型,根据命名实体的类型将命名实体存储至{k,v}集合中,其中,k表示命名实体,v表示命名实体的类型。
103,从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与类型对应的候选实体;
从预设的领域知识图谱集中选取与命名实体的垂直领域对应的领域知识图谱,并从领域知识图谱中选取与命名实体的类型一致的候选实体。其中,领域知识图谱集包含多个领域知识图谱,候选实体是领域知识图谱中的命名实体。
在本实施例中,对于通用领域知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。其中,特定领域的知识图谱,对知识的精确性要求较高,包括定义数据的概念、类别、关联、属性约束等。
104,计算命名实体与对应的候选实体之间的匹配度,并根据匹配度生成修正集合;
服务器计算命名实体与对应的候选实体之间的匹配度,根据匹配度生成修正集合。在本实施例中,根据与垂直领域对应的领域知识图谱(G),对集合{k,v},依次和G中类型v的候选实体(g)做比较,如果命名实体k和候选实体g完全匹配则说明待纠错文本并不需要做纠正,即命名实体和候选实体的匹配度越高,该命名实体的修正率越低。如果候选实体g与命名实体k并不完全匹配,则提取并汇集与命名实体k匹配度最大的候选实体g,形成修正集合C_k。其中,修正集合只包括候选实体g。
105,从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。
提取修正集合,判断该修正集合中是否包含多个候选实体。当修正集合中只包含一个候选实体,则说明该候选实体就是修正后的命名实体,即根据该候选实体,对命名实体进行修正。当修正集合中包含有多个候选实体时,服务器根据预设的领域语言模型,分别计算修正集合中各候选实体在待纠错文本中的出现概率。
当得到各候选实体对应的出现概率后,对各出现概率进行数值大小的比较,并对各候选实体按照对应的出现概率的比较结果进行排序,生成出现序列。根据排序的结果,从出现序列中选取出现概率最大的候选实体对待纠错文本的命名实体进行修正,从而得到修正文本。
在本实施例中,将需要进行修正的命名实体作为混淆词,并汇集成为混淆词典,调用混淆词典,对分词处理后的待纠错文本中的每个词语进行遍历,提高纠错效率和准确率。
在本发明实施例中,对待纠错文本进行分词处理得到命名实体,并从待纠错文本的垂直领域对应的领域知识图谱中选取与命名实体类型一致的候选实体,计算命名实体与候选实体的匹配度从而生成修正集合,根据该修正集合对待纠错文本进行修正。本实施例通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。
请参阅图2,本发明实施例中文本纠错方法的第二个实施例包括:
201,获取待纠错文本,并根据预设的词典,将待纠错文本生成前缀树;
202,对前缀树进行词图扫描,生成有向无环图;
服务器获取待纠错文本,并调用中文分词工具(jieba)的词典作为对待纠错文本进行分词处理时所用的词典,把一些并不常用的词汇删除,尽可能保留正确且常用的词汇,以减小分词器的容量。调用该词典,将待纠错文本生成前缀树(trie树)。对trie树结构进行词图扫描,即把词典中词语放到一个trie树中,一个词语的前面几个字一样,就表示他们具有相同的前缀,就可以使用trie树来存储,提高查找速度。在本实施例中,将待纠错文本(由一个或多个语句组成)中的句子根据预设的词典进行词图扫描处理,生成有向无环图。前缀树的生成及词图扫描都采用的是现有技术,故在此不做细述。
203,调用预设的动态规划查找最大概率路径算法,从有向无环图中查找基于词频的最大切分组合;
查找待纠错文本中已经切分好的词语,并计算该词语出现的频率,如果没有该词,就把词典中出现频率最小的那个词语的频率作为该词的频率;然后根据动态规划查找最大概率路径的算法,对待纠错文本中的句子从右往左反向计算最大概率,因为通常情况下形容词太多,后面的才是主干。因此,从右往左计算,正确率要高于从左往右计算,这里类似于逆向最大匹配,P(NodeN)=1.0,P(NodeN-1)=P(NodeN)*Max(P(倒数第一个词))…依次类推,最后结合有向无环图得到最大概率路径,即得到最大概率的切分组合。
204,将待纠错文本按照最大切分组合进行分词处理,得到词序列;
205,将词序列输入预设的基于词序列的命名实体识别模型,输出得到命名实体集;
将待纠错文本按照所得到的最大切分组合进行分词处理,即按照字符组合进行分词,得到词序列。将词序列输入至服务器预设的基于词序列的命名实体识别模型,输出识别结果,即识别出待纠错文本中的命名实体,并汇集成命名实体集。本实施例中采用的是基于词序列的命名实体识别模型,模型输入为词序列,而不是字序列,因此可以提升识别效率,同时也可以减小占用内存。
在本实施例中,命名实体识别模型(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别模型的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
206,将命名实体集输入至预设的卷积神经网络中,并调用卷积神经网络的逻辑回归函数,计算命名实体集中各命名实体所涉及的各个领域的领域属性值;
207,对各个领域属性值进行比较,将领域属性值最大的领域作为命名实体集中各命名实体的垂直领域;
将命名实体集输入至预设的卷积神经网络(CNN模型)中,调用卷积神经网络的逻辑回归函数(softmax)函数,计算命名实体集中各命名实体所涉及的各个领域的领域属性值。对各个领域的领域属性值进行比较,并从中选取领域属性值最大的领域作为该命名实体的垂直领域。
在本实施例中,卷积神经网络中的全连接层有两个隐藏层,而全连接层的输出层节点数与预设的命名实体的类型个数保持一致;CNN模型的输出层采用softmax函数来进行每个领域的概率的计算,即计算领域属性值。
208,基于卷积神经网络中的卷积层,提取命名实体集中各命名实体的类型特征信息;
209,计算类型特征信息与预设的类型之间的匹配度,根据匹配度确定命名实体的类型;
根据卷积神经网络中的卷积层,提取命名实体集中各命名实体的类型特征信息,并计算类型特征信息与预设的命名实体的类型之间的匹配度,即计算类型特征信息与预设类型之间的相似度,根据该相似度确定命名实体的类型。
在本实施例中,CNN模型输入层输入命名实体,维度为8*271;卷积层有两个通道,两个通道的卷积窗维度分别为1*271、2*271,每个通道都有512个卷积核。卷积层的输出分别为8*512、7*512的矩阵。池化层对卷积层的输出进行最大池化操作,输出1*512和1*512的两个类型特征信息,且该类型特征信息以特征向量的形式输出,因此,待纠错文本可得到1028种类型特征信息。特征连接层将池化层的两个输出拼接到一起形成一个1*1028的类型特征信息,将类型特征信息输入到CNN模型的全连接层中,输出命名实体的类型。
210,从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与类型对应的候选实体;
211,计算命名实体与对应的候选实体之间的匹配度,并根据匹配度生成修正集合;
212,从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。
在本实施例中,步骤210-212与上述的文本纠错方法的第一个实施例中的步骤103-105一致,在此不再赘述。
在本发明实施例中,根据预设的词典将待纠错文本生成有向无环图,并调用预设的查找最大概率路径算法,从有向无环图中查找基于词频的最大切分组合,对该最大切分组合进行分词处理得到词序列并将其输入至基于词序列的命名实体识别模型中确定命名实体,对待纠错文本进行一系列处理生成词序列,再输入至命名实体识别模型中基于词序列进行命名实体的识别,从而可以根据命名实体准确、快速的定位错误,提高了纠错效率。
请参阅图3,本发明实施例中文本纠错方法的第三个实施例包括:
301,获取待纠错文本,并对待纠错文本进行分词处理,得到命名实体集;
302,将命名实体集输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;
303,从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与类型对应的候选实体;
304,计算命名实体与对应的候选实体之间的字形相似度,若字形相似度大于预设的字形相似阈值,则汇集候选实体生成修正集合;
分别对命名实体与对应的候选实体的字形进行分析,并计算命名实体与候选实体之间的字形相似度,将字形相似度与预设的字形相似阈值进行比较,当字形相似度大于字形相似阈值时,则提取并汇集对应的候选实体,生成修正集合。
在本实施例中,每个命名实体均是由一个或多个字组成的,将该字称为目标字,并确定目标字的字图像和包含字形特征的字形向量;其中,可以基于卷积神经网络确定字图像的字形向量。并将目标字根据该目标字对应的多种字体的写法生成该目标字的字图像。具体的,确定目标字在不同字体下与目标字相对应的字体图像,对目标字所有的字体图像进行拼接处理,生成深度为D的字图像,D为目标字的字体图像的个数。利用多种字体的字体图像来生成包含字形特征的字形向量,使得目标字的字形向量包含多种字体的字形特征。同时,按照上述步骤确定候选实体的字形特征,并根据命名实体和候选实体的字形特征计算字形相似度,从而将字形相似度与字形相似阈值进行比较。另外,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。
305,或,计算命名实体与对应的候选实体之间的字音相似度,若字音相似度大于预设的字音相似阈值,则汇集候选实体生成修正集合;
对命名实体进行字音分析,并判断该命名实体是否为拼音汉字混合拼写。若命名实体为拼音汉字混合拼写,则对命名实体进行字音转换,规范化为拼音的字符串。具体的,服务器根据预设的拼音转化算法,对命名实体中的汉字进行字音转换,生成拼音,将命名实体中的其他拼音进行拼接,生成拼音串。
进一步的,分析命名实体和对应的候选实体的字音,并计算命名实体与候选实体之间的字音相似度,将字音相似度与预设的字音相似阈值进行比较,当字音相似度大于字形相似阈值时,则提取并汇集对应的候选实体,生成修正集合。
在本实施例中,制定音形码映射规则,通过将汉字的字音按照简单的替代规则部分映射到一个字符位,分为10部分。字音主要覆盖韵母,声母,补码以及声调的内容,覆盖4个字符位,第一位韵母位,从韵母“a”到“ong”24种韵母,由数字“1-9”和字母“A-K”代替,第二位是声母位,同样的,也是利用数字“1-9”和字母“A-J”代替,其中“Z”和“ZH”为相同转化;第四位是声调位,分别用“1-4”来替代汉字中的四个声调。根据音形码映射规则分别对命名实体和候选实体进行编码,并将编码后的结果进行相似度的比较,其中,比较两个编码之间的相似度采用距离算法,得到命名实体和候选实体的字音相似度。
306,或,分析命名实体与对应的候选实体的字词结构,并基于字词结构确定命名实体与候选实体之间的相似度,若相似度大于预设的字词结构相似阈值,则汇集候选实体生成修正集合;
分析命名实体和对应的候选实体的字词结构,并计算命名实体和候选实体之间字词结构的相似度,其中,字词结构包括字词组合和字序,在本实施例中,当命名实体和候选实体的字词组合的相似度大于预设的字词组合相似阈值时,则提取并汇集对应的候选实体,生成修正集合;或者,当命名实体和候选实体的字序的相似度大于预设的字序相似阈值时,则提取并汇集对应的候选实体,生成修正集合。
分别对命名实体与候选实体的字词组合进行分析,确定候选实体是否是由命名实体增加一个字或者减少一个字所构成,即确定该命名实体是否缺字或多字。计算命名实体和候选实体的字词组合的相似度,并将字词组合的相似度与预设的字词组合相似阈值进行比较,当字词组合的相似度大于字词组合相似阈值时,则提取并汇集对应的候选实体,生成修正集合。
具体的,服务器根据预设的编码规则,分别对命名实体和候选实体中的字或字符进行编码,即预设编码标识符对字或字符进行标识,从而将字或字符转换为对应的编码标识符,生成两个编码标识串,并将编码的结果进行相似度的比较,即比较两个编码标识串之间的编码标识符组成结构,在两个编码标识串编码标识符在排列顺序一致下,判断其个数是否一致,其中,比较两个编码标识串之间的相似度采用距离算法,得到命名实体和候选实体的字词组合的相似度。
另外,分别对命名实体和候选实体的字序进行分析,确定候选实体是否是由命名实体调整字序所构成,计算命名实体和候选实体的字序的相似度,并将字序的相似度与预设的字序相似阈值进行比较,当字序的相似度大于字序相似阈值时,则提取并汇集对应的候选实体,生成修正集合。
具体的,服务器根据预设的编码规则,分别对命名实体和候选实体中的字或字符进行编码,即预设编码标识符对字或字符进行标识,从而将字或字符转换为对应的编码标识符,生成两个编码标识串,并将编码的结果进行相似度的比较,即比较两个编码标识串之间的编码标识符组成结构,在两个编码标识串编码标识符的个数一致且编码标识符一致下,判断其排列顺序是否一致,其中,比较两个编码标识串之间的相似度采用距离算法,得到命名实体和候选实体的字序的相似度。
307,从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。
提取修正集合,判断该修正集合中是否包含多个候选实体。当修正集合中只包含一个候选实体,则说明该候选实体就是修正后的命名实体,即根据该候选实体,对待纠错文本中对应的命名实体进行修正。当修正集合中包含有多个候选实体时,服务器根据预设的领域语言模型,分别计算修正集合中各候选实体在待纠错文本中的出现概率。
当得到各候选实体对应的出现概率后,对各出现概率进行数值大小的比较,并对各候选实体按照对应的出现概率的比较结果进行排序,生成出现序列。根据排序的结果,从出现序列中选取出现概率最大的候选实体对待纠错文本的命名实体进行修正,从而得到修正文本。
在本实施例中,将需要进行修正的命名实体作为混淆词,并汇集成为混淆词典,调用混淆词典,对分词处理后的待纠错文本中的每个词语进行遍历,提高纠错效率和准确率。
在本发明实施例中,步骤301-303与上述的文本纠错方法的第一个实施例中的步骤101-103一致,在此不做赘述。
在本发明实施例中,对命名实体和候选实体分别进行字形分析、字音分析和字词结构分析,从而可以识别文本的多种错误,对待纠错文本有针对性地进行修正,提高了文本纠错的准确度。
请参阅图4,本发明实施例中文本纠错方法的第四个实施例包括:
401,获取待纠错文本,并对待纠错文本进行分词处理,得到命名实体集;
402,将命名实体集输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;
403,从预设的领域知识图谱集中选取与垂直领域对应的领域知识图谱,并从领域知识图谱中选取与类型对应的候选实体;
404,计算命名实体与对应的候选实体的匹配度,并根据匹配度生成修正集合;
405,判断修正集合是否包含多个候选实体;
406,若修正集合包含多个候选实体,则根据预设的领域语言模型,计算候选实体在待纠错文本中的出现概率;
提取修正集合,判断该修正集合中是否包含多个候选实体。当修正集合中只包含一个候选实体,则说明该候选实体就是修正后的命名实体,即根据该候选实体,对命名实体进行修正。当修正集合中包含有多个候选实体时,服务器根据预设的领域语言模型,分别计算修正集合中各候选实体在待纠错文本中的出现概率。
407,对候选实体按照出现概率的大小进行排序,得到出现序列;
408,根据出现序列从修正集合中选取候选实体,对待纠错文本中对应的命名实体进行修正,得到修正文本。
当得到各候选实体对应的出现概率后,对各出现概率进行数值大小的比较,并对各候选实体按照对应的出现概率的比较结果进行排序,生成出现序列。根据排序的结果,从出现序列中选取出现概率最大的候选实体对待纠错文本的命名实体进行修正,从而得到修正文本。
在本发明实施例中,步骤401-404与上述的文本纠错方法的第一个实施例中的步骤101-104一致,在此不做赘述。
在本发明实施例中,计算候选实体在待纠错文本中的出现概率,并根据出现概率选取出现概率最大的候选实体对待纠错文本进行修正,提高了对待纠错文本中命名实体修正的准确度。
上面对本发明实施例中的文本纠错方法进行了描述,下面对本发明实施例中的文本纠错装置进行描述,请参照图5,本发明实施例中的文本纠错装置的一个实施例包括:
分词模块501,用于获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集;
识别模块502,用于将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;
选取模块503,用于从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与所述类型对应的候选实体;
计算模块504,用于计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;
修正模块505,用于从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
在本发明实施例中,通过文本纠错装置对待纠错文本进行分词处理得到命名实体,并从待纠错文本的垂直领域对应的领域知识图谱中选取与命名实体类型一致的候选实体,计算命名实体与候选实体的匹配度从而生成修正集合,根据该修正集合对待纠错文本进行修正。本提案通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。
请参阅图6,本发明实施例中的文本纠错装置的另一个实施例包括:
分词模块501,用于获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集;
识别模块502,用于将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;
选取模块503,用于从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与类型对应的候选实体;
计算模块504,用于计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;
修正模块505,用于从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
其中,所述计算模块504包括:
第一计算单元5041,用于计算所述命名实体与对应的候选实体之间的字形相似度,若所述字形相似度大于预设的字形相似阈值,则汇集所述候选实体生成修正集合;
第二计算单元5042,用于计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合;
第三计算单元5043,用于分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合。
其中,所述计算模块504还包括转换单元5044,其具体用于:
判断所述命名实体是否为拼音汉字混合拼写;
若所述命名实体为拼音汉字混合拼写,则基于预设的拼音转化算法,将所述命名实体中的汉字对应转化为拼音。
其中,所述第三计算单元5043具体用于:
分析所述命名实体与对应的候选实体之间的字词组合,计算所述字词组合的相似度;若所述字词组合的相似度大于预设的字词组合相似阈值,则汇集所述候选实体生成修正集合;
分析所述命名实体与对应的候选实体之间的字序,计算所述字序的相似度;若所述字序的相似度大于预设的字序相似阈值,则汇集所述候选实体生成修正集合。
其中,所述修正模块505包括:
判断单元5051,用于判断所述修正集合是否包含多个所述候选实体;
计算单元5052,用于若所述修正集合包含多个所述候选实体,则根据预设的领域语言模型,计算所述候选实体在所述待纠错文本中的出现概率;
排序单元5053,用于对所述候选实体按照所述出现概率的大小进行排序,得到出现序列;
修正单元5054,用于根据所述出现序列从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
其中,所述分词模块501具体用于:
获取待纠错文本,并根据预设的词典,将所述待纠错文本生成前缀树;对所述前缀树进行词图扫描,生成有向无环图;
调用预设的动态规划查找最大概率路径算法,从所述有向无环图中查找基于词频的最大切分组合;
将所述待纠错文本按照所述最大切分组合进行分词处理,得到词序列;将所述词序列输入预设的基于词序列的命名实体识别模型,输出得到命名实体集。
其中,所述识别模块502具体用于:
将所述命名实体集输入至预设的卷积神经网络中,并调用所述卷积神经网络的逻辑回归函数,计算所述命名实体集中各命名实体所涉及的各个领域的领域属性值;
对各个所述领域属性值进行比较,将所述领域属性值最大的领域作为所述命名实体集中各命名实体的垂直领域;
基于所述卷积神经网络中的卷积层,提取所述命名实体集中各命名实体的类型特征信息;
计算所述类型特征信息与预设的类型之间的匹配度,根据所述匹配度确定所述命名实体的类型。
在本发明实施例中,通过文本纠错装置对待纠错文本进行一系列处理生成词序列,再输入至命名实体识别模型中基于词序列进行命名实体的识别,从而可以根据命名实体准确、快速的定位错误,对命名实体和候选实体分别进行字形分析、字音分析和字词结构分析,从而可以识别文本的多种错误,对待纠错文本有针对性地进行修正,计算候选实体在待纠错文本中的出现概率,并根据出现概率选取出现概率最大的候选实体对待纠错文本进行修正,提高了对待纠错文本中命名实体修正的准确度。
请参阅图7,下面从硬件处理的角度对本发明实施例中的文本纠错设备的一个实施例进行详细描述。
图7是本发明实施例提供的一种文本纠错设备的结构示意图,该文本纠错设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文本纠错设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在文本纠错设备700上执行存储介质730中的一系列指令操作。
文本纠错设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和或或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的文本纠错设备结构并不构成对文本纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述文本纠错方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:
获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集;
将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;
从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与所述类型对应的候选实体;
计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;
从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本;
所述计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合包括:
计算所述命名实体与对应的候选实体之间的字形相似度,若所述字形相似度大于预设的字形相似阈值,则汇集所述候选实体生成修正集合;
或,计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合;
或,分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合;
所述从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本包括:
判断所述修正集合是否包含多个所述候选实体;
若是,则根据预设的领域语言模型,计算所述候选实体在所述待纠错文本中的出现概率;
对所述候选实体按照所述出现概率的大小进行排序,得到出现序列;
根据所述出现序列从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本;
所述将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型包括:
将所述命名实体集输入至预设的卷积神经网络中,并调用所述卷积神经网络的逻辑回归函数,计算所述命名实体集中各命名实体所涉及的各个领域的领域属性值;
对各个所述领域属性值进行比较,将所述领域属性值最大的领域作为所述命名实体集中各命名实体的垂直领域;
基于所述卷积神经网络中的卷积层,提取所述命名实体集中各命名实体的类型特征信息;
计算所述类型特征信息与预设的类型之间的匹配度,根据所述匹配度确定所述命名实体的类型。
2.根据权利要求1所述的文本纠错方法,其特征在于,在所述计算所述命名实体与对应的候选实体之间的字音相似度,若所述字音相似度大于预设的字音相似阈值,则汇集所述候选实体生成修正集合之前,还包括:
判断所述命名实体是否为拼音汉字混合拼写;
若是,则基于预设的拼音转化算法,将所述命名实体中的汉字对应转化为拼音。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述分析所述命名实体与对应的候选实体的字词结构,并基于所述字词结构确定所述命名实体与所述候选实体之间的相似度,若所述相似度大于预设的字词结构相似阈值,则汇集所述候选实体生成修正集合包括:
分析所述命名实体与对应的候选实体的字词组合,计算所述字词组合的相似度;若所述字词组合的相似度大于预设的字词组合相似阈值,则汇集所述候选实体生成修正集合;
或,分析所述命名实体与对应的候选实体的字序,计算所述字序的相似度;若所述字序的相似度大于预设的字序相似阈值,则汇集所述候选实体生成修正集合。
4.根据权利要求1所述的文本纠错方法,其特征在于,所述获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集包括:
获取待纠错文本,并根据预设的词典,将所述待纠错文本生成前缀树;
对所述前缀树进行词图扫描,生成有向无环图;
调用预设的动态规划查找最大概率路径算法,从所述有向无环图中查找基于词频的最大切分组合;
将所述待纠错文本按照所述最大切分组合进行分词处理,得到词序列;
将所述词序列输入预设的基于词序列的命名实体识别模型,输出得到命名实体集。
5.一种文本纠错装置,其特征在于,所述文本纠错装置执行如权利要求1-4中任一项所述的文本纠错方法,所述文本纠错装置包括:
分词模块,用于获取待纠错文本,并对所述待纠错文本进行分词处理,得到命名实体集;
识别模块,用于将所述命名实体集输入至预设的卷积神经网络中进行领域识别,确定所述命名实体集中各命名实体的垂直领域及类型;
选取模块,用于从预设的领域知识图谱集中选取与所述垂直领域对应的领域知识图谱,并从所述领域知识图谱中选取与所述类型对应的候选实体;
计算模块,用于计算所述命名实体与对应的候选实体之间的匹配度,并根据所述匹配度生成修正集合;
修正模块,用于从所述修正集合中选取候选实体,对所述待纠错文本中对应的命名实体进行修正,得到修正文本。
6.一种文本纠错设备,其特征在于,所述文本纠错设备包括:
存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本纠错设备执行如权利要求1-4中任一项所述的文本纠错方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-4中任一项所述的文本纠错方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873540.0A CN113591457B (zh) | 2021-07-30 | 2021-07-30 | 文本纠错方法、装置、设备及存储介质 |
PCT/CN2022/088892 WO2023005293A1 (zh) | 2021-07-30 | 2022-04-25 | 文本纠错方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873540.0A CN113591457B (zh) | 2021-07-30 | 2021-07-30 | 文本纠错方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591457A CN113591457A (zh) | 2021-11-02 |
CN113591457B true CN113591457B (zh) | 2023-10-24 |
Family
ID=78252803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110873540.0A Active CN113591457B (zh) | 2021-07-30 | 2021-07-30 | 文本纠错方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113591457B (zh) |
WO (1) | WO2023005293A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591457B (zh) * | 2021-07-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114186022A (zh) * | 2021-12-02 | 2022-03-15 | 国网山东省电力公司信息通信公司 | 基于语音转录与知识图谱的调度指令质检方法及系统 |
CN114817465A (zh) * | 2022-04-14 | 2022-07-29 | 海信电子科技(武汉)有限公司 | 一种用于多语言语义理解的实体纠错方法及智能设备 |
CN116227479B (zh) * | 2022-12-29 | 2024-05-17 | 易方达基金管理有限公司 | 一种实体识别方法、装置、计算机设备和可读存储介质 |
CN116010626B (zh) * | 2023-03-24 | 2023-06-27 | 南方电网数字电网研究院有限公司 | 电力用户知识图谱分析方法、装置和计算机设备 |
CN116306598B (zh) * | 2023-05-22 | 2023-09-08 | 上海蜜度信息技术有限公司 | 针对不同领域字词的定制化纠错方法、系统、设备及介质 |
CN116341543B (zh) * | 2023-05-31 | 2023-09-19 | 安徽商信政通信息技术股份有限公司 | 一种人名识别与纠错的方法、系统、设备及存储介质 |
CN117454884B (zh) * | 2023-12-20 | 2024-04-09 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、系统、电子设备和存储介质 |
CN118152381B (zh) * | 2023-12-20 | 2024-08-09 | 深圳计算科学研究院 | 结构化数据的实体纠错方法、装置、设备及介质 |
CN117556363B (zh) * | 2024-01-11 | 2024-04-09 | 中电科大数据研究院有限公司 | 基于多源数据联合检测的数据集异常识别方法 |
CN118072761B (zh) * | 2024-01-31 | 2024-10-18 | 北京语言大学 | 一种大模型发音偏误检测及发音动作图像反馈方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014190732A1 (en) * | 2013-05-29 | 2014-12-04 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN111191051A (zh) * | 2020-04-09 | 2020-05-22 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的应急知识图谱的构建方法及系统 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112685550A (zh) * | 2021-01-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、服务器及计算机可读存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800407B (zh) * | 2017-11-15 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
WO2019182974A2 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Stereo depth estimation using deep neural networks |
CN110147549A (zh) * | 2019-04-19 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 用于执行文本纠错的方法和系统 |
WO2021029643A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
CN110597992B (zh) * | 2019-09-10 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 基于知识图谱的语义推理方法及装置、电子设备 |
CN110750993A (zh) * | 2019-10-15 | 2020-02-04 | 成都数联铭品科技有限公司 | 分词方法及分词器、命名实体识别方法及系统 |
CN111291571A (zh) * | 2020-01-17 | 2020-06-16 | 华为技术有限公司 | 语义纠错方法、电子设备及存储介质 |
CN113591457B (zh) * | 2021-07-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
-
2021
- 2021-07-30 CN CN202110873540.0A patent/CN113591457B/zh active Active
-
2022
- 2022-04-25 WO PCT/CN2022/088892 patent/WO2023005293A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014190732A1 (en) * | 2013-05-29 | 2014-12-04 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN111191051A (zh) * | 2020-04-09 | 2020-05-22 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的应急知识图谱的构建方法及系统 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112685550A (zh) * | 2021-01-12 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113591457A (zh) | 2021-11-02 |
WO2023005293A1 (zh) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591457B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
US7680646B2 (en) | Retrieval method for translation memories containing highly structured documents | |
KR100630886B1 (ko) | 문자 스트링 식별 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
JP5130892B2 (ja) | 文字符号化処理方法及びシステム | |
KR100882766B1 (ko) | 형태소 해석 장치, 형태소 해석 방법 및 형태소 해석프로그램 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN112084746A (zh) | 一种实体识别方法、系统、存储介质及设备 | |
CN111882462B (zh) | 一种面向多要素审查标准的中文商标近似检测方法 | |
CN108549694B (zh) | 一种文本中时间信息的处理方法 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
CN114021573A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN114330349A (zh) | 一种特定领域命名实体识别方法 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN116521837A (zh) | 基于上下文语义检索的图谱问答方法、系统与计算机可读介质 | |
CN114880994B (zh) | 一种直白文本到反讽文本的文本风格转换方法及装置 | |
CN114021572B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN115408506A (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |