CN112364633B

CN112364633B - 一种文字错误获取及校对方法、装置及存储介质

Info

Publication number: CN112364633B
Application number: CN202110039269.0A
Authority: CN
Inventors: 唐非; 朱柯逸
Original assignee: Zhejiang Yiyi Intelligent Technology Co ltd
Current assignee: Zhejiang Yiyi Intelligent Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-13
Anticipated expiration: 2041-01-13
Also published as: CN112364633A

Abstract

一种文字错误获取及校对方法，包括以下步骤：S1：利用文字数据进行语言学习，对词语进行向量化表示，获得向量序列；S2：利用步骤S1中获取的向量序列，训练RNN循环神经网络，构建二进制模型；S3：利用二进制模型，进行未知文字的错误识别，获取错误文字的位置；S4：通过错误文字的位置，获取正确词语作为错误的提醒；S5：获取不包含错误位置的新序列，将正确的词语填充至新序列，并返回结果。本发明使用循环神经网络的方法进行汉语文字错误查找，放弃模式匹配方式，能够提升文字中错误的识别率并给出准确的提示。

Description

一种文字错误获取及校对方法、装置及存储介质

技术领域

本发明属于文本校对领域，具体涉及一种文字错误获取及校对方法、装置及存储介质。

背景技术

文字校对作为研究自然语言处理（Natural Language Processing, NLP）的一个方向，伴随着NLP技术突破而进步。在外文领域，2009年Grammarly公司推出了一款利用人工智能检查外文语法的软件，该软件已拓展出：词汇应用、标点符号、语法纠正、句式结构、写作风格等多个领域，同时支持用户个性化配置。汉语世界中，目前主流做法是利用大量语法规则、词汇开展了中文校对，在深度学习领域的探索和商用仍显不足，另外，在少数民族语言领域，计算机文字校对几乎处于空白状态，亟待解决。

现有技术的缺陷如下所示：

1. 当前汉语文字纠错基本采用模式匹配的方式去做，模式生成困难，匹配过程繁琐；

2. 错误的汉语文字模式由人工产出，跟随人工投入的增长，边际收益递减，不能满足现在汉语文字发展的态势、无法匹配新汉语文字词语的发展速度；

3. 汉语文字模式需要多重判定正误，人工产出且包含错判的模式无法被修复，造成误导使用者的更严重后果；

4．由于人工中产出者的水平不一致，纠错力度不一致，校对效果一般；

在专利公开号为CN108197110A的专利中公开了一种名字和职务获取及校对的方法、装置及其存储介质，包括以下步骤：S1：获取文本文字中的人名以及人名所在的位置；S2：判断是否有遗漏的人名，若有遗漏的人名，则记录该遗漏的人名；S3：将步骤S1中获取的人名与步骤S2中获取的人名进行比较，判断是否有重复的人名，若重复则丢弃，否则记录；逐个比较后，得到最终人名名单；S4：对最终人名名单进行纠错处理；S5：对与人名相对应的职务进行纠错处理。应用以上方法，对文本中名字、职务的错误编辑进行纠错，提高文本中名字、职务的使用正确率，避免出现错误的情况出现；采用机器对文本进行校对和纠错，代替了人工检测，大大提高了文本核对的工作效率和工作准确率。

上述专利中的方法中的部分步骤均通过匹配的形式来完成，依旧存在这上述缺陷中的问题。

发明内容

为了解决上述问题，本发明提供了一种文字错误获取及校对方法、装置及存储介质，使用循环神经网络的方法进行汉语文字错误查找，放弃模式匹配方式，能够提升文字中错误的识别率并给出准确的提示。

一种文字错误获取及校对方法，包括以下步骤：

S1：利用文字数据进行语言学习，对词语进行向量化表示，获得向量序列；

S2：利用步骤S1中获取的向量序列，训练RNN循环神经网络，构建二进制模型；

S3：利用二进制模型，进行未知文字的错误识别，获取错误文字的位置；

S4：通过错误文字的位置，获取正确词语作为错误的提醒；

S5：获取不包含错误位置的新序列，将正确的词语填充至新序列，并返回结果。

优选的，所述步骤S1中获得向量序列的具体过程为：

S1.1：切分文字数据，使之变为词语与词语的链接，得到序列s1；

S1.2：统计词语的数量来构建word2vec模型；

S1.3：构建停用词数据，获得序列s2；

S1.4：针对序列s1和序列s2，使用tf-idf计算方法，得到词语tf-idf值序列，获取序列s3；

S1.5：针对序列s1和序列s2，使用word2vec的计算方法，得到词语在空间向量中数值序列，得到序列s4。

优选的，所述步骤S2中获得二进制模型的具体过程为：

S2.1：将正例、负例的标识标注至序列s3和序列s4，得到序列s3'和序列s4'，所述负例具有错误位置属性；

S2.2：在序列s3'和序列s4'上使用加权平均算法，得到新的序列s5；

S2.3：计算序列s5，并通过正例的反馈，得到正常文本的阈值vt；

S2.4：利用序列s5训练RNN神经网络；

S2.5：导出RNN神经网络，获得二进制模型bm1。

优选的，所述步骤S3中获得错误文字的位置的具体过程为：

S3.1：导入二进制模型bm1，加载在内存中；

S3.2：输入一个新文本请求q1，对q1进行分词，得到q1的序列q1'；

S3.3：将序列q1'送入二进制模型bm1内进行计算，得到q1对应的值v1；

S3.4：判断v1值是否大于阈值vt，是则进行标定位置，得到错误位置index1，返回序列c'，否则直接返回c'。

优选的，所述步骤S4中获得正确词语的具体过程为：

S4.1：观察序列c'内index1的值，得到index1在q1中的位置词语w1；

S4.2：使用词语w1进行同音字、同形字混淆，得到序列w1'；

S4.3：将序列w1'中的每一值分别代入到序列q1中index1的位置进行替换，得到序列wp1'；

S4.4：以序列wp1'中的每一值分别执行步骤S3，得到对应的值序列wv1'；

S4.5：观察值序列wv1'，找到具有c'标记或其v1值最小的元素，获取正确词语rw。

优选的，所述步骤S5中的具体过程为：

S5.1：使用q1与index1，进行错误位置编辑，得到不包含index1位置的词序列ns；

S5.2：使用正确词语rw填充词序列ns，得到序列ns'；

S5.3：返回序列ns'。

本发明还提供了一种文字错误获取及校对装置，包括设备端、网络端、服务器端、服务器集群；所述设备端通过有线或无线的方式连接至网络端，所述网络端通过路由集群连接至服务器端，所述服务器端通过集群调用的方式连接服务器集群。

优选的，所述服务器集群包括相连接的校对支撑集群和语言规则管理集群、相连接的动态词典数据集群和知识管理集群、相连接的开发测试环境和词典管理集群，还包括语料采集集群、离线语言模型训练集群。

优选的，所述服务器端包括用户支撑数据服务器、Web访问服务器、权限管理服务器、应用管理服务器。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述文字错误获取及校对方法的步骤。

本发明的技术效果为：本发明使用循环神经网络的方法进行汉语文字错误查找，放弃模式匹配方式；并采用机器学习代替人工，能够保证系统升级的效率与时效性；无人工判定，规避人工错判所带来的误差；由机器产出，纠错力度保持不变。

附图说明

图1为本发明提供的方法的总流程图。

图2为本发明中循环神经网络的定向循环结构。

图3为本发明提供的装置的业务流程图。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

本发明提供了一种文字错误获取及校对方法，如图1所示，实现步骤如下所示：

S4：通过错误文字的位置，获取正确词语作为错误的提醒；

上述方法中利用到了RNN循环神经网络，并通过该技术形成的完整的实现步骤，用于识别错误文字位置以及正确词语的寻找替换，完成文本的校对纠错，本方法舍弃了模式匹配的方式，并利用机器学习的技术代替人工，具有更高的效率、准确性，校对功能相较于人工还能保持相对的稳定。循环神经网络(Recurrent Neural Networks，RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。不同于传统的FNNs(Feed-forward Neural Networks，前向反馈神经网络)，RNNs引入了定向循环，能够处理那些输入之间前后关联的问题。其中定向循环结构如图2所示。

步骤S1中获取向量序列的过程进一步包括：S1.1：切分汉语文字数据，使之变为词语与词语的链接，得到序列s1；S1.2：统计词语的数量；构建word2vec模型；S1.3：构建停用词数据，得到序列s2；S1.4：使用s1和s2，使用tf-idf计算方法，得到一个只有词语tf-idf值序列，得到s3；S1.5：使用s1和s2，使用word2vec的计算方法，得到词语在空间向量中数值序列，得到s4。例如输入文本：

例如输入文本：“市委组织部召开全体人员会议，传达学习党的十九届五中全会惊神”；

经过步骤S1.1得到的序列s1为：'市委', '组织部', '召开', '全体人员', '会议', '，', '传达', '学习', '党', '的', '十九', '届', '五中全会', '惊神'；

经过步骤s1.2 得到停用词序列s2为：'的', '，', '地', '你好', '名'.....。

经过步骤S1.4 得到s3序列为：

(0, 4708) 0.18944223337016158

(0, 670) 0.2879279851381615

(0, 1969) 0.2879279851381615

(0, 1931) 0.2879279851381615

(0, 4507) 0.2879279851381615

(0, 2213) 0.2879279851381615

(0, 2615) 0.27058550511028906

(0, 3273) 0.2879279851381615

(0, 3687) 0.2879279851381615

(0, 1964) 0.2879279851381615

(0, 1527) 0.2879279851381615

(0, 958) 0.2879279851381615

(0, 3008) 0.24873656422553145。

TF-IDF算法计算公式为：

TF = 在某一类中词条w出现的次数 / 该类目中所有词条的数目；

IDF = log（语料库中文档的总数/包含词条w的文档数+1）；

TF−IDF=TF∗IDF 该公式表明TF-IDF值越大，则这个词成为一个关键词的概率就越大。

经过步骤S1.5 得到空间向量用数值表示的结果s4：

(0, 4749) 0.27903826235649043

(0, 4352) 0.2622312281614379

(0, 4255) 0.4669988268617313

(0, 3765) 0.23349941343086564

(0, 2758) 0.2410568692470484

(0, 2494) 0.2410568692470484

(0, 2301) 0.17434366140703406

(0, 1455) 0.27903826235649043

(0, 1067) 0.25030644762591814

(0, 834) 0.27903826235649043

(0, 762) 0.25030644762591814

(0, 480) 0.2622312281614379

(0, 607) 0.1727179139532095。

步骤S2中二进制网络模型构建的过程进一步包括：S2.1：标注s3和s4，使之有正例、负例的标识，同时负例具有错误位置属性，得到s3'和s4'；S2.2：在s3'和s4'上使用加权平均算法，得到新的序列s5；S2.3：计算序列s5，通过正例的反馈，得到正常文本的阈值vt；S2.4：使用s5，训练RNN神经网络；S2.5：导出RNN神经网络，得到二进制模型bm1。

根据观察序列及其他任务经验，其中vt的取值范围应在0.173 - 0.735之间，表示为正常范围。

步骤S3中错误文字的位置获取的过程进一步包括：

S3.1：导入二进制模型bm1，加载在内存当中；S3.2：输入一个新文本请求q1，对q1进行分词，得到q1的序列q1'；S3.3：使用q1'进入bm1内进行计算，得到q1对应的值v1；S3.4：结合vt，检查v1的值是否超出vt的值；S3.5：如果超出则进行标定位置，得到位置index1，返回序列c'。序列c’为本步骤转化时产生的结果变量。

例如：输入句子q1：剧场里需要工作人员唯持秩序，教育市场上就必须发挥好政府的引导和管理作用。

经过步骤S3.2 得到q1'为：'剧场', '里', '需要', '工作人员', '唯持', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用'。

经过步骤S3.3 得到v1为：0.24807671 0.34362367 0.27285967 0.343623670.13292652 0.30824167, 0.29685121 0.34362367 0.32292652 0.34362367 0.38553620.19437528, 0.29437528 0.40683327 0.49437528 0.4555362 0.197661950.2307822...。

经过步骤S3.4检查，发现有不在标准内的值。

经过步骤S3.5，得到index1的值为4，c’为：'剧场', '里', '需要', '工作人员','唯持', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用'。

步骤S4中正确词语的获取过程进一步包括：

S4.1：观察c'内index1的值，得到index1在q1中的位置词语w1；S4.2：使用词语w1进行同音字、同形字混淆，得到序列w1'；S4.3：使用w1'中的每一值，代入到序列q1中index1的位置进行替换，得到序列wp1'；S4.4：使用wp1'中的每一值，分别进入文字错误查找模块，得到对应的值序列wv1'；S4.5：观察序列wv1'，找到具有c'标记或v1值最小的元素，得到词语rw。

例如：

经过步骤S4.1 得到词语w1为 ‘唯持’；

经过步骤S4.2 得到序列w1’为‘维持’，‘为池’，‘维池’，‘围池’......；

经过步骤S4.3 得到序列wp1’为：[['剧场', '里', '需要', '工作人员', '维持', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用'],['剧场', '里', '需要', '工作人员', '为池','秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的','引导', '和', '管理', '作用'],['剧场', '里', '需要', '工作人员', '维池', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用']......]；

经过步骤S4.4 得到index1返回结果集为：-1，4，4....；

经过步骤S4.5 得到rw为‘维持’；

步骤S5中的步骤进一步包括：S5.1：使用q1与index1，进行错误位置编辑，得到不包含index1位置的词序列ns；S5.2：使用rw填充ns，得到ns'；S5.3：返回ns'。

例如：经过步骤S5.1 得到ns为:'剧场', '里', '需要', '工作人员', '', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用'；

经过步骤S5.2 得到ns'为：'剧场', '里', '需要', '工作人员', '维持', '秩序', '，', '教育', '市场', '上', '就', '必须', '发挥', '好', '政府', '的', '引导', '和', '管理', '作用'；

通过步骤S5.3返回结果。

为配合上述方法的实现，本发明还提供一种文字错误获取及校对装置，如图3所示，包括设备端、网络端、服务器端、服务器集群，其中设备端有管理员设备、客户端设备、普通用户设备，网络端使用互联网，服务器端通过用户支撑数据服务器、Web访问服务器、权限管理服务器、应用管理服务器调用集群，集群包括相连接的校对支撑集群和语言规则管理集群、相连接的动态词典数据集群和知识管理集群、相连接的开发测试环境和词典管理集群，还包括语料采集集群、离线语言模型训练集群。

其中管理员设备、客户端设备、普通用户设备通过有线或无线的方式连接至互联网，互联网提供防火墙以及路由集群连接至服务器。

其中Web访问服务器提供通过互联网访问的唯一入口，保证请求可以到达步骤S3.2。

用户支撑数据服务器是为了承载用户通过互联网产生的访问，提升步骤S3.2的可靠性，保持HTTP请求在响应时间内完成。

语言规则管理集群是为了提供RNN训练时需要注意的某些语法规则，辅助步骤S2.4，提升系统准确率。

动态词典数据集群是为了同步收集日常语言中的新词、热词，减少系统对这些错误纠正所消耗的资源。

词典管理集群是为了管理例如：《现代汉语词典》、《成语大辞典》、《辞海》等结构化明显的词典数据，在步骤S4.2中优先使用词典内数据。

语料采集集群是为了收集日常所使用的语料，为提升步骤S2.4准备数据。

离线语言模型训练集群是为了完成步骤S2.4与步骤S2.5。

上述方法使用了循环神经网络作为进行汉语文字错误查找，相比较于模式匹配，本发明提供的方法有这更高的错误识别率和正确词语的提示率。

而在实际的文本处理实验中，本发明提供的装置和方法在汉语文字中错误的识别率达到78.36%，给出正确提醒的提示率达到64.21%，较至于市场现有产品平均识别率53.87%，提示率42.91%有较大提升。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现文字错误获取及校对方法的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文字错误获取及校对方法，其特征在于，包括以下步骤：

S4：通过错误文字的位置，获取正确词语作为错误的提醒；

S5：获取不包含错误位置的新序列，将正确的词语填充至新序列，并返回结果；

所述步骤S1中获得向量序列的具体过程为：

S1.2：统计词语的数量来构建word2vec模型；

S1.3：构建停用词数据，获得序列s2；

2.根据权利要求1所述的文字错误获取及校对方法，其特征在于，所述步骤S2中获得二进制模型的具体过程为：

S2.4：利用序列s5训练RNN神经网络；

S2.5：导出RNN神经网络，获得二进制模型bm1。

3.根据权利要求2所述的文字错误获取及校对方法，其特征在于，所述步骤S3中获得错误文字的位置的具体过程为：

S3.1：导入二进制模型bm1，加载在内存中；

4.根据权利要求3所述的文字错误获取及校对方法，其特征在于，所述步骤S4中获得正确词语的具体过程为：

S4.1：观察序列c'内index1的值，得到index1在q1中的位置词语w1；

S4.2：使用词语w1进行同音字、同形字混淆，得到序列w1'；

5.根据权利要求4所述的文字错误获取及校对方法，其特征在于，所述步骤S5中的具体过程为：

S5.2：使用正确词语rw填充词序列ns，得到序列ns'；

S5.3：返回序列ns'。

6.一种使用权利要求1-5中任意一项所述文字错误获取及校对方法的文字错误获取及校对装置，其特征在于，包括设备端、网络端、服务器端、服务器集群；所述设备端通过有线或无线的方式连接至网络端，所述网络端通过路由集群连接至服务器端，所述服务器端通过集群调用的方式连接服务器集群。

7.根据权利要求6所述的文字错误获取及校对装置，其特征在于，所述服务器集群包括相连接的校对支撑集群和语言规则管理集群、相连接的动态词典数据集群和知识管理集群、相连接的开发测试环境和词典管理集群，还包括语料采集集群、离线语言模型训练集群。

8.根据权利要求6所述的文字错误获取及校对装置，其特征在于，所述服务器端包括用户支撑数据服务器、Web访问服务器、权限管理服务器、应用管理服务器。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。