CN109522558B - 一种基于深度学习的中文错字校正方法 - Google Patents

一种基于深度学习的中文错字校正方法 Download PDF

Info

Publication number
CN109522558B
CN109522558B CN201811389401.5A CN201811389401A CN109522558B CN 109522558 B CN109522558 B CN 109522558B CN 201811389401 A CN201811389401 A CN 201811389401A CN 109522558 B CN109522558 B CN 109522558B
Authority
CN
China
Prior art keywords
word
words
bilstm
word segmentation
correcting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811389401.5A
Other languages
English (en)
Other versions
CN109522558A (zh
Inventor
刘林
崔文斌
周建朋
梁栋
张曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinxiandai Information Industry Co ltd
Original Assignee
Jinxiandai Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinxiandai Information Industry Co ltd filed Critical Jinxiandai Information Industry Co ltd
Priority to CN201811389401.5A priority Critical patent/CN109522558B/zh
Publication of CN109522558A publication Critical patent/CN109522558A/zh
Application granted granted Critical
Publication of CN109522558B publication Critical patent/CN109522558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度学习的中文错字校正方法,包括:S1、利用BiLSTM+Attention+CRF模型进行词语分词;S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。本发明实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。

Description

一种基于深度学习的中文错字校正方法
技术领域
本发明涉及文本处理技术领域,特别是一种基于深度学习的中文错字校正方法。
背景技术
目前针对中文的文字错误校正,通常使用传统的分词方法,对需要校正的文本进行分词出,然后根据分词的结果与已有的词库进行匹配,如果未匹配到则有可能是错字,或者是匹配不完全,则证明也是有错字。
传统的中文文本校正方法,在分词的时候未考虑到中文词语前后文之间的关系,对于分词库的质量有着很高的要求。例如“结婚的和尚未结婚的”,在传统的分词中会分成以下的结果“结婚的”“和尚”“未结婚的”。这就对整个的句子含义有了错误的理解,所以在分词的时候应该需要考虑上下文之间的关联性。同时在错字校正的时候,传统的方法仅仅是看匹配度,也没有注意上下文的关联性。因此传统的文字校正方法,对于中文错别字校正的效果比较差。
另外,传统的文字校正方法也没有很好的利用上下文信息进行识别。在识别错误的字,传统的操作是计算词与已有的词库的编辑距离等,然后通过人为的设置阈值,当到达阈值以后,则认为词语中有错误,然后利用距离最短的词语进行替换,这种操作方式没有考虑中文词语上下文之间的关联性,检查错误和纠正错误的效果比较差。
发明内容
本发明的目的是提供一种基于深度学习的中文错字校正方法,旨在解决现有技术中分词不准确以及错别字识别不准确的问题,实现提升错别字校正的准确率,并提高错别字校正效果。
为达到上述技术目的,本发明提供了一种基于深度学习的中文错字校正方法,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
优选地,所述步骤S1具体操作为:
S11、对需要分词的语句进行编码操作;
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;
S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;
S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
优选地,所述编码为One-Hot编码。
优选地,所述步骤S2具体为:
对分词出来的结果组成词向量,然后通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。
优选地,所述编辑距离的大小与词之间的相似度为正相关。
优选地,所述步骤S3具体操作为:
S31、对输入的中文根据字库进行编码操作;
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取;
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量;
S34、根据得到的概率输出最终的预测结果。
优选地,所述编码使用One-Hot编码格式。
优选地,所述信息提取包括通过右向的神经网络获取文字的正向的特征信息以及通过逆向的神经网络提取文本中的逆向的关联信息。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过利用BiLSTM+Attention+CRF模型进行分词,并将分词结果利用预置的词库进行匹配,识别词语中的错别字,利用编辑距离的大小来对词语进行校正,最后通过BiLSTM+Attention机制的语言模型对输入序列进行处理,结合上下文之间的关系,识别错误的词语,并通过给用户提示来完成文本的校正处理,实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
附图说明
图1为本发明实施例中所提供的一种基于深度学习的中文错字校正方法流程图;
图2为本发明实施例中所提供的一种利用BiLSTM+Attention+CRF模型进行分词的流程图;
图3为本发明实施例中所提供的一种利用BiLSTM+Attention机制对输入序列处理流程图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于深度学习的中文错字校正方法进行详细说明。
如图1所示,本发明实施例公开了一种基于深度学习的中文错字校正方法,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语。
BiLSTM+Attention+CRF模型将分词的操作定义为单个中文字符的分类问题,分词的类别分别是:词首用B表示,词中用M表示,词尾用E表示,单字词用S表示。在分词的过程中为了充分的使用整句话的前面和未来的特征,我们使用BiLSTM网络分别提取前向和后向的字符特征信息,然后整合在一起输入到CRF模型中进行分类概率的校正,如图2所示,其具体操作如下:
S11、对需要分词的语句进行编码操作,在本发明实施例中利用One-Hot编码将中文的每个字按照字典库中的顺序进行编码。
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列。
S13、将得到的特征序列,输入到BiLSTM神经网络中,其中r表示正向的LSTM序列,1表示反向的LSTM序列,得到预测的分词结果集合。使用双向的LSTM序列是为了充分的使用整句话的以前和未来的特征信息,然后将两个方向编码结果进行整合,输出预测的向量。在中文分词中只需预测四种情况,分别是B(词开始字)、M(词中间字)、E(词结束字)以及S(单个字),每个输出是一个4维的向量,分别代表是当前字属于每个类别的可能性。
S14、利用Attention模型,对分词影响比较重要的字设置比较高的权重,将对分词影响比较低的字设置为比较低的权重,然后经过计算得到预测分类的概率向量。
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果。
CRF算法的所用是利用上下文的关联关系对BiLSTM的结果进行校正,CRF的校正原理是利用二维的向量,分别代表的是B/M/E/S这几个类别后面出现的类别的概率,例如B后面不可能出现S,则P(S|B)=0。通过校正后得到最终的分词结果,例如图2中在BiLSTM可能会出现,“北”后面的“京”字预测成B,但是CRF中P(B|B)=0,所以需要进行校正,最终预测的结果时“京”应该是M。
在分词后,对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正。
对分词出来的结果组成词向量,然后通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,编辑距离越小代表词之间的相似度越高,即编辑距离的大小与词之间的相似度为正相关,将校正后的结果更新到原有的词向量中,生成新的词向量。
最后,利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语,如图3所示。
利用BiLSTM+Attention机制实现对错误词语的识别主要是利用BiLSTM对输入的文本进行分析。例如当输入一段文字后,模型会对每个字所在位置可能出现的字进行预测,例如可以根据输入的第一个字,预测下一个字出现的概率,预测的方式是利用BiLSTM+Attention模型,结合整段文字的上下文之间的关系,确定当前位置可能出现的字,然后根据预测的字与现有的字进行比较,如果有不同的地方,则表示该位置可能是错误的字,然后给用户提示。具体操作如下:
S31、对输入的中文根据字符库进行编码操作,编码的方式使用One-Hot编码格式。
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取,图3中的R代表的是右向的神经网络,能够获取文字的正向的特征信息;L代表逆向的神经网络,能够提取文本中的逆向的关联信息。
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量。
S34、根据得到的概率输出最终的预测结果,如果预测的结果与真实的结果不符合,则给出一定的提示,同时将预测的记过向用户展示,为其提供相对应的修改建议。
本发明实施例通过利用BiLSTM+Attention+CRF模型进行分词,并将分词结果利用预置的词库进行匹配,识别词语中的错别字,利用编辑距离的大小来对词语进行校正,最后通过BiLSTM+Attention机制的语言模型对输入序列进行处理,结合上下文之间的关系,识别错误的词语,并通过给用户提示来完成文本的校正处理,实现了中文文本的高精度分词,解决了现有技术中分词不准确以及错别字识别不准确的问题,通过BiLSTM+Attention+CRF模型提高了分词的精度,提升了错别字校正的准确率,并提高了错别字校正效果,利用双向LSTM实现了更高精度的词语错误检测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习的中文错字校正方法,其特征在于,所述方法包括以下步骤:
S1、利用BiLSTM+Attention+CRF模型进行词语分词;
S11、对需要分词的语句进行One-Hot编码操作;
S12、利用CNN卷积神经网络进行卷积操作,得到对应的经过卷积变换后的特征序列;
S13、将得到的特征序列,输入到BiLSTM神经网络中,利用双向的LSTM序列输出预测向量;
S14、利用Attention模型,对分词的字设置权重,计算得到预测分类的概率向量;
S15、利用CRF算法对得到的集合进行校正处理,得到最终的分词结果
S2、对分词的结果利用提前预置的词库进行匹配,识别出词语中的错别字,并进行校正;
S3、利用BiLSTM+Attention机制的语言模型对输入序列进行处理,识别错误的词语;
S31、对输入的中文根据字库进行编码操作;
S32、将编码后的One-Hot码输入BiLSTM网络中,进行信息提取;
S33、将BiLSTM输出的信息,传到Attention模型中,利用Attention模型预测当前字符下一个应该出现字符的概率向量;
S34、根据得到的概率输出最终的预测结果。
2.根据权利要求1所述的一种基于深度学习的中文错字校正方法,其特征在于,所述步骤S2具体为:
对分词出来的结果组成词向量,通过编辑距离计算每个词语词库之间的相似度,如果词能够正确的在词库中匹配,则表示词是正确的;如果没有正确匹配,则利用编辑距离的大小对该词进行校正,将校正后的结果更新到原有的词向量中,生成新的词向量。
3.根据权利要求2所述的一种基于深度学习的中文错字校正方法,其特征在于,所述编辑距离的大小与词之间的相似度为正相关。
4.根据权利要求3所述的一种基于深度学习的中文错字校正方法,其特征在于,所述信息提取包括通过右向的神经网络获取文字的正向的特征信息以及通过逆向的神经网络提取文本中的逆向的关联信息。
CN201811389401.5A 2018-11-21 2018-11-21 一种基于深度学习的中文错字校正方法 Active CN109522558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811389401.5A CN109522558B (zh) 2018-11-21 2018-11-21 一种基于深度学习的中文错字校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811389401.5A CN109522558B (zh) 2018-11-21 2018-11-21 一种基于深度学习的中文错字校正方法

Publications (2)

Publication Number Publication Date
CN109522558A CN109522558A (zh) 2019-03-26
CN109522558B true CN109522558B (zh) 2024-01-12

Family

ID=65776579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811389401.5A Active CN109522558B (zh) 2018-11-21 2018-11-21 一种基于深度学习的中文错字校正方法

Country Status (1)

Country Link
CN (1) CN109522558B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046350B (zh) * 2019-04-12 2023-04-07 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110516231A (zh) * 2019-07-12 2019-11-29 北京邮电大学 基于注意力机制的膨胀卷积实体名识别方法
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质
CN110516125B (zh) * 2019-08-28 2020-05-08 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
CN112380839A (zh) * 2020-11-13 2021-02-19 沈阳东软智能医疗科技研究院有限公司 一种错别字检测方法、装置及设备
CN113836912A (zh) * 2021-09-08 2021-12-24 上海蜜度信息技术有限公司 语言模型和词库校正的序列标注分词方法、系统及装置
CN115364331B (zh) * 2022-10-24 2023-04-07 西南医科大学附属医院 空间广度训练测试系统及运行方法
CN117743506B (zh) * 2023-09-04 2024-05-28 应急管理部大数据中心 一种基于自然语言的数据关联查询方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107679036A (zh) * 2017-10-12 2018-02-09 南京网数信息科技有限公司 一种错别字监测方法及系统
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107679036A (zh) * 2017-10-12 2018-02-09 南京网数信息科技有限公司 一种错别字监测方法及系统
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法

Also Published As

Publication number Publication date
CN109522558A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522558B (zh) 一种基于深度学习的中文错字校正方法
CN108874174B (zh) 一种文本纠错方法、装置以及相关设备
CN109933801B (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
AU2015357110B2 (en) Method for text recognition and computer program product
CN111523306A (zh) 文本的纠错方法、装置和系统
CN111951789B (zh) 语音识别模型的训练、语音识别方法、装置、设备及介质
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN114092930B (zh) 一种文字识别方法及系统
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
Romero-Gómez et al. Automatic alignment of handwritten images and transcripts for training handwritten text recognition systems
CN114299512A (zh) 一种基于汉字字根结构的零样本小篆识别方法
CN113793594A (zh) 用于识别语音的方法和电子装置
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN115984876A (zh) 文本识别方法、装置、电子设备、车辆及存储介质
CN116127015A (zh) 基于人工智能自适应的nlp大模型分析系统
CN114462427A (zh) 基于术语保护的机器翻译方法及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN114548075A (zh) 文本处理方法、文本处理装置、存储介质与电子设备
CN113064497A (zh) 语句识别的方法、装置、设备及计算机存储介质
Hamdan et al. ResneSt-Transformer: Joint attention segmentation-free for end-to-end handwriting paragraph recognition model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant