CN113128224B

CN113128224B - 一种中文纠错方法、装置、设备以及可读存储介质

Info

Publication number: CN113128224B
Application number: CN201911392614.8A
Authority: CN
Inventors: 余宙; 杨永智; 王旭
Original assignee: Beijing Abbott Technology Co ltd
Current assignee: Beijing Abbott Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2024-01-09
Anticipated expiration: 2039-12-30
Also published as: CN113128224A

Abstract

本发明涉及一种中文纠错方法、装置、设备以及可读存储介质。对原始语句进行分词；使用词嵌入方法，将分词后的词语转换成词向量；Bi‑LSTM_CRF错误检测模块和GNN错误检测模块分别根据输入的词向量给出输出的词向量；输出的词向量包括各分词后词语对应的修正性推荐词语，以及每个修正性推荐词语的评分；使用最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句。本发明扩大了纠错覆盖率，提高了纠错准确率。

Description

一种中文纠错方法、装置、设备以及可读存储介质

技术领域

本发明涉及一种中文纠错方法、装置、设备以及可读存储介质。

背景技术

分词是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是对中文汉字序列进行分词。中文文本处理的第一步就是要把中文句子按词的边界分割，即中文分词。很多中文信息处理相关的应用领域，例如，机器翻译、文本检索及搜索引擎、问答系统等，都需要先进行中文分词。因此，中文分词是中文信息处理的基础与关键。

在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多，在分词时经常会出现错误。中文分词中常见的错误类型包括：

谐音字词，如：配副眼睛-配副眼镜，净利润-近利润；

混淆音字词，如：流浪织女-牛郎织女；

字词顺序颠倒，如：伍迪艾伦-艾伦伍迪；

形似字错误，如：高梁-高粱；

因此，需要对用户输入的语句进行容错和纠错。传统的中文纠错方法包含两种类型：一种是“单词”错误的纠错；另外一种是“词条搭配”错误的纠错。早期的纠错一般是第一类纠错方法，通常使用编辑距离进行相近查找。第二类纠错方法通过探测语句中词条的上下文搭配来判定是否存在错误，使用噪音信道和语言模型进行纠错。前述两种中文纠错方法均被称为基于规则的中文纠错方法。其实施过程主要分为两个步骤。第一步是错误检测，第二步是错误纠正。通过分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，错误检测步骤就从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成疑似错误位置候选集；错误纠正步骤，则是在候选集中遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。

前述基于规则的中文纠错方法具有以下缺点：

(1)覆盖率低。基于规则的中文纠错方法的纠错效果主要集中在错别字、多字、少字等错误的纠正，但是难以适用于词与词之间的词条搭配错误的纠正。

(2)纠错能力低：基于规则的纠错方式，对单词中的错别字纠正有较好的效果，但在遇到词均正确，但词与词之间的词条搭配错误、句子不正确或意思不正确的时候就无能为力，因而纠错能力低下。

发明内容

本发明提出一种中文纠错方法、装置、设备以及可读存储介质。

为了解决上述技术问题，本发明首先提供一种中文纠错方法，包括如下步骤：

步骤S100，获取原始语句；

步骤S200，对原始语句进行分词，获得分词后的词语；

步骤S300，使用词嵌入方法，将分词后的词语转换成词向量；

步骤S400，将词向量分别送入Bi-LSTM_CRF错误检测模块和GNN错误检测模块；Bi-LSTM_CRF错误检测模块和GNN错误检测模块分别根据输入的词向量给出输出的词向量；输出的词向量包括各分词后词语对应的修正性推荐词语，以及每个修正性推荐词语的评分；每个修正性推荐词语的评分由输出的各词向量做平均后获得；对于每一个修正性推荐词语，评分最高的为最优修正性推荐词语；

步骤S500，使用步骤S400获得的最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句。

本发明还提供一种中文纠错装置，结构如下：

原始语句获取单元，获取原始语句；

分词单元，对原始语句进行分词，获得分词后的词语；

词嵌入单元，使用词嵌入方法，将分词后的词语转换成词向量；

Bi-LSTM_CRF错误检测模块和GNN错误检测模块，将词向量分别送入Bi-LSTM_CRF错误检测模块和GNN错误检测模块；Bi-LSTM_CRF错误检测模块和GNN错误检测模块分别根据输入的词向量给出输出的词向量，输出的词向量包括各分词后词语对应的修正性推荐词语，以及每个修正性推荐词语的评分；每个修正性推荐词语的评分由输出的各词向量做平均后获得；对于每一个修正性推荐词语，评分最高的为最优修正性推荐词语；

校验单元，使用获得的最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句。

较佳地，在上述方法和装置中，GNN错误检测模块由GNN模型经过训练后获得，其训练过程为：

步骤401，获取正确的语料库以及对应的正确的分词结果集作为训练集，使用词嵌入方法，将语料内容和正确的分词结果转换成向量集；

步骤402，将所述向量集输入GNN模型；

步骤403，由GNN模型对正确的语料以及正确的分词结果进行学习和识别后，获得GNN错误检测模块。

较佳地，步骤402中，向所述GNN模型输入的向量集还来自于知识图谱校验模块；具体为：读取知识图谱校验模块中知识图谱的内容，对知识图谱使用GNN节点嵌入方法获得知识图谱的向量集。

较佳地，采用无监督学习节点嵌入方法获得知识图谱的向量集，具体为：

步骤S4011，在知识图谱中的节点上执行random walks，以生成节点序列；

步骤S4012，运行skip-gram，学习节点序列中每个节点的嵌入，具体为，在randomwalks的每个步骤中，下一个节点从上一个节点的邻节点均匀采样，然后将每个节点序列截断为长度为2|w|+1的子序列，其中w表示skip-gram中的窗口大小。

较佳地，在上述方法和装置中，知识图谱校验模块通过以下方式构建而来：

步骤5011，获取正确的语料库和以及对应的正确的分词结果集，如果正确的语料库为非结构化数据，则从非结构化数据中进行信息抽取，形成结构化数据；如果正确的语料库来源于多个结构化数据源，则对多个数据源的结构化数据进行汇总合并；

步骤5012，对结构化的数据，进行实体-关系分类，构建知识图谱；

步骤5013，对知识图谱中的实体进行对齐，从而形成知识图谱校验模块。

较佳地，进一步对构建的知识图谱校验模块进行质量评估，包括对应用场景实体和关系的覆盖率，以及实体和关系属性信息的完整性进行质量评估；

经评估，如果应用场景实体和关系的覆盖率不通过，则新增正确的语料库用来补充缺少的实体和关系；

经评估，如果实体和关系属性信息的完整性不通过，则修改知识图谱模型，将缺少的实体和关系属性信息补全。

较佳地，在步骤S500中，先对最优修正性推荐词语进行阈值判断，具体为：

S5021，将最优修正性推荐词语的评分与二级阈值进行比较，如果小于二级阈值，则直接放弃使用最优修正性推荐词语修正原始语句；如果不小于二级阈值则进入下一步；

S5022，将最优修正性推荐词语的评分与一级阈值进行比较，如果大于一级阈值，则直接使用最优修正性推荐词语修正原始语句，无需将修正后语句送入知识图谱校验模块进行路径搜索；如果不大于一级阈值则进入下一步；

S5023，将修正后语句送入知识图谱校验模块进行路径搜索，如果路径存在，则使用修正后语句替代原始语句，如果路径不存在，则放弃修正后语句；

其中，1>一级阈值>二级阈值>0。

本发明还提出一种中文纠错设备，包括：存储器，处理器；存储器用于存储所述处理器可执行指令；其中，所述处理器被配置为由所述处理器执行前述中文纠错方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现前述的中文纠错方法。

本发明与现有技术相比，其显著优点在于：

(1)智能化程度高。本发明为基于机器学习的方式，能基于使用的积累，对纠错的覆盖率和准确率持续提升，在使用中自动改进纠错能力。另外，由于采用了知识图谱辅助语义理解，即从大量非结构化语料中学习、从结构化数据构建得到知识图谱，也就是得到了语义网络，使得本发明能理解词语在语句中的含义，从而使得本发明具有更好的准确率和更高的智能化程度。

(2)纠错覆盖率高。本发明从语料中学习，所以只需要准备好丰富的语料，就能比用规则的纠错方式有更好的覆盖率。基于规则的纠错方式经常容易缺词，或需要加词、改词。本发明不仅能识别错字、多字、少字等情况，还能识别分词错误、整词错误、意思错误等。

(3)本发明结合深度学习模型、知识图谱以及图神经网络，基于预训练好的模型获得更优化的工具组合，支持各种业务场景的快速中文纠错。

(4)本发明采用构建知识图谱的方式，将神经网络和语义网络融为一体，即基于神经网络的检测和基于语义网络(知识图谱)的校验，实现了规则和统计的结合，使得系统具有更好的语义理解能力和可推理能力，提高了纠错的可靠性。

(5)维护成本低。本发明只需提供足够的正确的语料进行训练便可得到更完善的模型。在后期长时间的使用过程中，也会不断增加积累，使得系统能自我学习和完善。

(6)本发明适用范围广泛，可用于搜索纠错、文本编辑器内容纠错提醒以及语音识别的末端纠错等应用场景。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明所述纠错方法流程图。

图2是本发明中推荐纠错结果的校验流程图。

图3是本发明所述纠错装置结构示意图。

图4是本发明中知识图谱校验模块的构建流程图。

图5是本发明中Bi-LSTM_CRF错误检测模块训练示意图。

图6是本发明中在知识图谱中的节点上执行random walks的示意图。

图7是本发明中执行random walks所生成的节点序列示意图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。相反，提供这些实施例的目的是为了使本领域的技术人员更透彻地理解本发明。下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的创新构思。

结合图1，本发明首先提出一种中文纠错方法，步骤如下：

步骤S100，获取原始语句，例如搜索语句、待翻译语句等。例如，原始语句为：科大讯飞近利润。其中，“近利润”输入有误。

步骤S200，对输入的原始语句进行分词。例如将“科大讯飞近利润”分为“科大讯飞”和“近利润”。

步骤S300，使用词嵌入方法，将原始语句转换成词向量。

步骤S400，将词向量分别送入Bi-LSTM_CRF错误检测模块和GNN错误检测模块。Bi-LSTM_CRF错误检测模块和GNN错误检测模块分别根据输入的词向量给出输出的词向量；输出的词向量包括各分词后词语对应的修正性推荐词语，以及每个修正性推荐词语的评分；每个修正性推荐词语的评分由输出的各词向量做平均后获得；对于每一个修正性推荐词语，评分最高的为最优修正性推荐词语。例如，输入为“科大讯飞”和“近利润”，会得到以下两组修正性推荐词语结果集及评分。

a)科大讯飞(1.0)，科大智能(0.137)。

b)净利润(0.975)，营业利润(0.732)，毛利润(0.715)，

其中，评分最高修正性推荐词语“净利润”(0.975)为最优解。推荐结果中科大讯飞的评分为1.0，说明推荐的词语与原词语相同，实际并没有给出修正后推荐词语，即无需修正，评分1.0不计为最高评分。

步骤S500，使用步骤S400获得的最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句。例如，原始搜索语句为“科大讯飞近利润”，推荐的词语中，科大讯飞没有变化，实际使用“净利润”对原始搜索语句进行了修正，进而获得修正后的语句“科大讯飞净利润”。将“科大讯飞净利润”送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句。

结合图2，在步骤S500中，为了提高纠错精度和效率，可以先对最优修正性推荐词语进行阈值判断，根据判断结果决定是否送入知识图谱校验模块进行校验。具体为：

其中，1>一级阈值>二级阈值>0。

结合图3，本发明还提出一种中文纠错装置，包括：

词库：业务领域相关的通用词库和专用词库。，词库在哪用到？用于干什么？

原始语句获取单元，获取原始语句；

分词单元，对原始语句进行分词，获得分词后的词语；

为了提高纠错精度和效率，在校验单元中，可以先对最优修正性推荐词语进行阈值判断，根据判断结果决定是否送入知识图谱校验模块进行校验，具体为：

将最优修正性推荐词语的评分与二级阈值进行比较，如果小于二级阈值，则直接放弃使用最优修正性推荐词语修正原始语句；如果不小于二级阈值则进入下一步；

将最优修正性推荐词语的评分与一级阈值进行比较，如果大于一级阈值，则直接使用最优修正性推荐词语修正原始语句，无需将修正后语句送入知识图谱校验模块进行路径搜索；如果不大于一级阈值则进入下一步；

将修正后语句送入知识图谱校验模块进行路径搜索，如果路径存在，则使用修正后语句替代原始语句，如果路径不存在，则放弃修正后语句；

其中，1>一级阈值>二级阈值>0。

在前述一种中文纠错方法和装置中，GNN错误检测模块由GNN模型(Graph NeuralNetwork，图神经网络模型)经过训练后获得，其训练过程为：

步骤401，获取正确的语料库以及对应的正确的分词结果集作为训练集，使用词嵌入方法，将语料内容和正确的分词结果转换成向量集；读取知识图谱校验模块中知识图谱的内容，对知识图谱使用GNN节点嵌入方法获得知识图谱的向量集。

步骤402，将所述向量集输入GNN模型；

结合图6和图7，在步骤401中，对知识图谱使用GNN节点嵌入方法获得知识图谱的向量集时，采用无监督学习节点嵌入方法获得知识图谱的向量集，具体为：

结合图4，在前述一种中文纠错方法和装置中，构建知识图谱校验模块的方法为：

步骤5011，知识抽取：从正确的非结构化数据(语料库以及对应的正确的分词结果集)中进行信息抽取，形成结构化的数据，即知识抽取的数据来源是非结构化数据；数据整合：从多个正确的结构化数据源读取数据，对数据进行汇总合并。

步骤5012，知识表示：对结构化的数据，进行实体-关系分类，构建知识图谱。

步骤5013，实体对齐：对知识图谱中的实体进行对齐。具体为，从已经构建的图谱中找出同名实体，对同名实体进行融合。从而构建形成知识图谱校验模块。

从大量非结构化语料中学习、从结构化数据构建得到知识图谱，也就是得到了语义网络，知识图谱构建完成之后实际上就是语义网络，是语义理解的一个很好的辅助工具。

本发明从语料库构建的知识图谱，使得语句的纠错具备关系推理能力。

步骤5014，质量评估：为了提高知识图谱校验模块的校验精度，可以对知识图谱校验模块进行质量评估。质量评估包括对应用场景实体和关系的覆盖率，以及实体和关系属性信息的完整性进行质量评估。

经评估，如果应用场景实体和关系的覆盖率不通过，则需要新增数据源用来补充缺少的实体和关系。

经评估，如果实体和关系属性信息的完整性不通过，则需要修改知识图谱模型将缺少的实体和关系属性信息补全。

构建形成知识图谱校验模块后，就可以使用知识图谱进行知识推理。知识推理包括演绎推理和归纳推理。

演绎推理，例如：“江苏路支行同级机构的个人存款排名”，其中，“同级机构”不识别，知识图谱校验模块会去按机构层级相等的机构去进行搜索。

归纳推理，例如：根据“科大讯飞是人工智能公司”、”科大讯飞创始人是技术出生”、“寒武纪是人工智能公司”、“寒武纪创始人是技术出生”、“旷视科技是人工智能公司”、“旷视科技创始人是技术出生”等等，得出“人工智能公司的创始人是技术出生”的学习结果。

本发明同时基于知识图谱训练的GNN，增强了对关系的处理。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

应当理解，可以对本发明的一个实施例的系统中包括的装置、模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备或系统中。可以把实施例的系统包括的不同装置、模块、单元或组件组合成一个装置、模块、单元或组件，也可以把它们分成多个子装置、子模块、子单元或子组件。

本发明的实施例中的装置、模块、单元或组件可以以硬件方式实现，也可以以一个或者多个处理器上运行的软件方式实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的计算机程序产品或计算机可读介质上。

Claims

1.一种中文纠错方法，其特征在于，包括如下步骤：

步骤S100，获取原始语句；

步骤S200，对原始语句进行分词，获得分词后的词语；

步骤S300，使用词嵌入方法，将分词后的词语转换成词向量；

步骤S500，使用步骤S400获得的最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句；知识图谱校验模块通过以下方式构建而来：

2.如权利要求1所述的中文纠错方法，其特征在于，GNN错误检测模块由GNN模型经过训练后获得，其训练过程为：

步骤402，将所述向量集输入GNN模型；

3.如权利要求2所述的中文纠错方法，其特征在于，步骤402中，向所述GNN模型输入的向量集还来自于知识图谱校验模块；具体为：

读取知识图谱校验模块中知识图谱的内容，对知识图谱使用GNN节点嵌入方法获得知识图谱的向量集。

4.如权利要求3所述的中文纠错方法，其特征在于，采用无监督学习节点嵌入方法获得知识图谱的向量集，具体为：

5.如权利要求1所述的中文纠错方法，其特征在于，对构建的知识图谱校验模块进行质量评估，包括对应用场景实体和关系的覆盖率，以及实体和关系属性信息的完整性进行质量评估；

6.如权利要求1所述的中文纠错方法，其特征在于，在步骤S500中，先对最优修正性推荐词语进行阈值判断，具体为：

其中，1>一级阈值>二级阈值>0。

7.一种中文纠错装置，其特征在于，结构如下：

原始语句获取单元，获取原始语句；

分词单元，对原始语句进行分词，获得分词后的词语；

校验单元，使用获得的最优修正性推荐词语对原始语句进行修正，获得修正后语句，将修正后语句送入知识图谱校验模块进行校验，如果校验通过，则使用修正后语句替代原始语句，如果校验未能通过，则放弃修正后语句；知识图谱校验模块通过以下方式构建而来：

获取正确的语料库和以及对应的正确的分词结果集，如果正确的语料库为非结构化数据，则从非结构化数据中进行信息抽取，形成结构化数据；如果正确的语料库来源于多个正确的结构化数据源，则对多个数据源的结构化数据进行汇总合并；

对结构化的数据，进行实体-关系分类，构建知识图谱；

对知识图谱中的实体进行对齐，从而形成知识图谱校验模块。

8.如权利要求7所述的中文纠错装置，其特征在于，GNN错误检测模块由GNN模型经过训练后获得，其训练过程为：

获取正确的语料库以及对应的正确的分词结果集作为训练集，使用词嵌入方法，将语料内容和正确的分词结果转换成向量集；

将所述向量集输入GNN模型；

由GNN模型对正确的语料以及正确的分词结果进行学习和识别后，获得GNN错误检测模块。

9.如权利要求8所述的中文纠错装置，其特征在于，向所述GNN模型输入的向量集还来自于知识图谱校验模块；具体为：

10.如权利要求9所述的中文纠错装置，其特征在于，采用无监督学习节点嵌入方法获得知识图谱的向量集，具体为：

在知识图谱中的节点上执行random walks，以生成节点序列；

运行skip-gram，学习节点序列中每个节点的嵌入，具体为，在random walks的每个步骤中，下一个节点从上一个节点的邻节点均匀采样，然后将每个节点序列截断为长度为2|w|+1的子序列，其中w表示skip-gram中的窗口大小。

11.如权利要求7所述的中文纠错装置，其特征在于，对构建的知识图谱校验模块进行质量评估，包括对应用场景实体和关系的覆盖率，以及实体和关系属性信息的完整性进行质量评估；

经评估，如果实体和关系属性信息的完整性不通过，则修改知识图谱模型将缺少的实体和关系属性信息补全。

12.如权利要求7所述的中文纠错装置，其特征在于，校验单元中，先对最优修正性推荐词语进行阈值判断，具体为：

其中，1>一级阈值>二级阈值>0。

13.一种中文纠错设备，其特征在于，包括：存储器，处理器；

存储器用于存储所述处理器可执行指令；

其中，所述处理器被配置为由所述处理器执行如权利要求1-6任一项所述的中文纠错方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-6任一项所述的中文纠错方法。