CN109086266A - 一种文本形近字的检错与校对方法 - Google Patents
一种文本形近字的检错与校对方法 Download PDFInfo
- Publication number
- CN109086266A CN109086266A CN201810707676.2A CN201810707676A CN109086266A CN 109086266 A CN109086266 A CN 109086266A CN 201810707676 A CN201810707676 A CN 201810707676A CN 109086266 A CN109086266 A CN 109086266A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- sentence
- candidate
- nearly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000001915 proofreading effect Effects 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 58
- 230000006835 compression Effects 0.000 claims abstract description 4
- 238000007906 compression Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Abstract
本发明涉及一种文本形近字的检错与校对方法,属于自然语言处理技术领域。首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N‑Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议。
Description
技术领域
本发明涉及一种文本形近字的检错与校对方法,属于自然语言处理技术领域。
背景技术
当前,由于OCR文本识别技术的运用,在将纸质文本文字翻译成计算机文字时,经常会将一些文字识别错误,将其识别为它的形近字,而在大量文本中用人工校对的方法效率极低。
利用分词工具将句子分解成词,再将词与词库对比判断,发现文本出现错误的位置的方法是一种常用的方法,但是对于分词来说分词的准确性对文本的检错起到了决定性的作用,在分词不能够做到准确的情况下,检错结果的正确率是极低的。
发明内容
本发明要解决的技术问题是提供一种文本形近字的检错与校对方法,用于解决文本检错对分词的依耐性、因分词不准确而带来的检错正确率低的问题。
本发明的技术方案是:一种文本形近字的检错与校对方法,首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N-Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议;
具体步骤为:
Step0.1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T;
Step1、选取待处理样本句子A;
Step2、对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;
Step3、将B=c1c2...cn中的每一个字,在形近字库X中,找出与之相似的形近字{cn1,cn2...cnm}作为cn的候选字,与cn的相似程度从左到右依次减少,并将候选字与常用字库Q对比,剔除不常用的字,并将cn与候选字一起组成候选字向量zn=[cncn1...cni],从而得到B的候选字矩阵B=z1z2...zn;
Step4、将相邻两个候选字向量中的字排列组合,判断组合的词语是否存在语料库Y中,若存在则说明两个向量捆绑成词,若没有捆绑成词,将判断是否属于停用词库T中,如果不存在则把这个字剔除,得到B的候选词向量矩阵B'=B1'B2'…Bn',其中B'n=[wiw2…wi],n为字符串B长度,i取决于相邻两个字向量组合成词的个数或者是某个向量去除非停用词后的个数;
Step5、将Step4中得出来的结果B'nB'n+1中的词排列组合,用马尔可夫模型计算出相邻两个词同时出现的概率p(w1w2),概率越大表示其连接关系越强,将所有概率最大的词组合成一个新句子S,将句子S与原句B对比,标记两个句子不同的位置,B里面的标记词为错误词,S里面的标记词为修正词。
所述步骤Step0.1中,形近字库X包含所有汉字的形近字,语料库Y是经过分词处理、统计后的语料,常用字库Q为一级字库和二级字库,停用词指的是功能词。没有实际意义,如‘的’‘我’‘是’‘为何’‘倘若’等,停用词库T中包含的就是这一类词。
所述步骤Step1中,所述待处理样本句子A为短句子,是两个标点符号之间的文字字符串。
所述步骤Step2中,新的字符串B是去除所有标点符号后的字符串。
所述步骤Step3中,候选字向量为[cncn1...cni],i的大小取决于在剔除不常用字后形近字的个数。
所述步骤Step4中,相邻两个候选字向量中的字组合,是以以下形式组合:
若znzn+1组合中有能捆绑的词语,下一个相邻候选向量组合应为zn+2zn+3;
若znzn+1组合中没有捆绑的词语,下一个相邻候选向量组合应为zn+1zn+2。
所述步骤Step4中,没有捆绑成词znzn+1,是将前一个候选词向量zn中的字,与词库T对比,剔除非停用词。
所述步骤Step5中用马尔可夫模型计算出每两个词之间的概率公式为:
所述步骤Step5中,将句子S与原句B对比,找出原句中错误的词,是将S与B进行匹配,标记出两个句子中不一样的地方,原句B的所标记的地方为错误的词,句子S中标记的地方为修正词。
本发明的有益效果是:解决了文本检错对分词的依耐性,从而解决了因分词不准确而带来的检错正确率低的问题,并将检错和校对同时进行,当检出错误的同时就能得到正确的修正词,省去了校对文本所花费的时间。
附图说明
图1是本发明的步骤流程图;
图2是本发明步骤Step4流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-2所示,一种文本形近字的检错与校对方法,具体步骤如下:
Step0.1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T。
Step1、选取待处理样本句子A,例‘我是太学生。’。
Step2、对句子A进行预处理,去除句子中的标点符号,得到新的字符串,B=‘我是太学生’n为字符串B长度。
Step3、将B=‘我是太学生’中的每一个字,在形近字库X中,找出与之相似的形近字{cn1,cn2...cnm}作为cn的候选字,与cn的相似程度从左到右依次减少,我们暂取m=3,即与cn相似度最大的前3个形近字,比如‘我’的形近字有{牫,伐,找},并将候选字与常用字库Q对比,剔除不常用的字,则剩余的形近字为{伐,找},并将‘我’与候选字一起组成候选字向量[我,伐,找],从而得到B的候选字矩阵B=[我伐找][是疌][太犬大人][学][生牛主]。
Step4、将候选矩阵中相邻两个候选字向量中的字排列组合,组合的结果为[我是我疌伐是伐疌找是找疌],判断组合的词语是否存在语料库Y中,判断结果为不存在,则去除[我伐找]中的非停用词,去非停后用词结果为[我],则下一个相邻字向量为[是疌][太犬大人],组合后不存在词语,去非停为[是],依次循环得出候选词向量B'=B1'B2'…Bn'=[我][是][大学太学][生]
Step5、将Step4中得出来的结果,将B'nB'n+1中的词排列组合,用马尔可夫模型计算出相邻两个词同时出现的概率p(w1w2),概率越大表示其连接强度越强,这里需要计算[大学太学][生]排列结果[大学生太学生],得出p(大学生)和p(太学生)的概率,选出概率较大的结果,得出重组的新句子为S=‘我是大学生’,与B=‘我是太学生’比较,则可以标记出错误词‘太’,修正词‘大’。
所述步骤Step0.1中,形近字库X包含所有汉字的形近字,语料库Y是经过分词处理、统计后的语料,常用字库Q为一级字库和二级字库,停用词指的是功能词,没有实际意义,如‘的’‘我’‘是’‘为何’‘倘若’等,停用词库T中包含的就是这一类词
所述步骤Step1中,所述输入句子A为短句子,是两个标点符号之间的文字字符串。
所述步骤Step2中,处理后的文本B是去除所有标点符号后的字符串
所述步骤Step3中,候选字向量为[cncn1...cni],i的大小取决于在剔除不常用字后形近字的个数。
所述步骤Step4中,相邻两个候选字向量中的字组合,是以以下形式组合:若znzn+1组合中有能捆绑的词语,下一个相邻候选向量组合应为zn+2zn+3;若znzn+1组合中没有捆绑的词语,下一个相邻候选向量组合应为zn+1zn+2。
所述步骤Step4中所述的,没有捆绑成词znzn+1,是将前一个候选词向量zn中的字,与词库T对比,剔除非停用词。
所述步骤Step5中所述的用马尔可夫模型计算出每两个词之间的概率公式为:
所述步骤Step5中所述,将句子S与原句B对比,找出原句中错误的词,是将S与B进行匹配,标记出两个句子中不一样的地方,原句B的所标记的地方为错误的词,句子S中标记的地方为修正词。
本发明引入了一种直接利用文本信息特征的方法,不经过文本分词处理,利用N-Gram语言模型对句子重新组合,对文本错误定位和校对。首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N-Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.一种文本形近字的检错与校对方法,其特征在于:首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N-Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议;
具体步骤为:
Step0.1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T;
Step1、选取待处理样本句子A;
Step2、对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;
Step3、将B=c1c2...cn中的每一个字,在形近字库X中,找出与之相似的形近字{cn1,cn2...cnm}作为cn的候选字,与cn的相似程度从左到右依次减少,并将候选字与常用字库Q对比,剔除不常用的字,并将cn与候选字一起组成候选字向量zn=[cncn1...cni],从而得到B的候选字矩阵B=z1z2...zn;
Step4、将相邻两个候选字向量中的字排列组合,判断组合的词语是否存在语料库Y中,若存在则说明两个向量捆绑成词,若没有捆绑成词,将判断是否属于停用词库T中,如果不存在则把这个字剔除,得到B的候选词向量矩阵B'=B1'B2'…Bn',其中B'n=[wiw2…wi],n为字符串B长度,i取决于相邻两个字向量组合成词的个数或者是某个向量去除非停用词后的个数;
Step5、将Step4中得出来的结果B'nB'n+1中的词排列组合,用马尔可夫模型计算出相邻两个词同时出现的概率p(w1w2),概率越大表示其连接关系越强,将所有概率最大的词组合成一个新句子S,将句子S与原句B对比,标记两个句子不同的位置,B里面的标记词为错误词,S里面的标记词为修正词。
2.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step0.1中,形近字库X包含所有汉字的形近字,语料库Y是经过分词处理、统计后的语料,常用字库Q为一级字库和二级字库,停用词指的是功能词。
3.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step1中,所述待处理样本句子A为短句子,是两个标点符号之间的文字字符串。
4.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step2中,新的字符串B是去除所有标点符号后的字符串。
5.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step3中,候选字向量为[cncn1...cni],i的大小取决于在剔除不常用字后形近字的个数。
6.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step4中,相邻两个候选字向量中的字组合,是以以下形式组合:
若znzn+1组合中有能捆绑的词语,下一个相邻候选向量组合应为zn+2zn+3;
若znzn+1组合中没有捆绑的词语,下一个相邻候选向量组合应为zn+1zn+2。
7.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step4中,没有捆绑成词znzn+1,是将前一个候选词向量zn中的字,与词库T对比,剔除非停用词。
8.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step5中用马尔可夫模型计算出每两个词之间的概率公式为:
9.根据权利要求1所述的文本形近字的检错与校对方法,其特征在于:所述步骤Step5中,将句子S与原句B对比,找出原句中错误的词,是将S与B进行匹配,标记出两个句子中不一样的地方,原句B的所标记的地方为错误的词,句子S中标记的地方为修正词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810707676.2A CN109086266B (zh) | 2018-07-02 | 2018-07-02 | 一种文本形近字的检错与校对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810707676.2A CN109086266B (zh) | 2018-07-02 | 2018-07-02 | 一种文本形近字的检错与校对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086266A true CN109086266A (zh) | 2018-12-25 |
CN109086266B CN109086266B (zh) | 2021-09-14 |
Family
ID=64836873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810707676.2A Active CN109086266B (zh) | 2018-07-02 | 2018-07-02 | 一种文本形近字的检错与校对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086266B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852074A (zh) * | 2019-11-07 | 2020-02-28 | 三角兽(北京)科技有限公司 | 生成修正语句的方法和装置、存储介质和电子设备 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN113657098A (zh) * | 2021-08-24 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867040A (zh) * | 2012-08-31 | 2013-01-09 | 中国科学院计算技术研究所 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
CN107665190A (zh) * | 2017-09-29 | 2018-02-06 | 李晓妮 | 一种文本校对错误词库的自动构造方法和装置 |
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
-
2018
- 2018-07-02 CN CN201810707676.2A patent/CN109086266B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867040A (zh) * | 2012-08-31 | 2013-01-09 | 中国科学院计算技术研究所 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
CN107665190A (zh) * | 2017-09-29 | 2018-02-06 | 李晓妮 | 一种文本校对错误词库的自动构造方法和装置 |
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
Non-Patent Citations (2)
Title |
---|
SHASHANK SINGH等: ""Review of Real-word Error Detection and Correction Methods in Text Documents"", 《ICECA2018》 * |
王勇: ""繁体中文拼写检错研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852074A (zh) * | 2019-11-07 | 2020-02-28 | 三角兽(北京)科技有限公司 | 生成修正语句的方法和装置、存储介质和电子设备 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111859921B (zh) * | 2020-07-08 | 2024-03-08 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112183072B (zh) * | 2020-10-16 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112818108A (zh) * | 2021-02-24 | 2021-05-18 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN112818108B (zh) * | 2021-02-24 | 2023-10-13 | 中国人民大学 | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
CN113657098A (zh) * | 2021-08-24 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113657098B (zh) * | 2021-08-24 | 2024-03-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109086266B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086266A (zh) | 一种文本形近字的检错与校对方法 | |
CN1143232C (zh) | 正文的自动分割 | |
CN101655837B (zh) | 一种对语音识别后文本进行检错并纠错的方法 | |
Kissos et al. | OCR error correction using character correction and feature-based word classification | |
CN105468468B (zh) | 面向问答系统的数据纠错方法及装置 | |
CN102637180B (zh) | 基于正则表达式的文字后处理方法和装置 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
Llobet et al. | OCR post-processing using weighted finite-state transducers | |
CN105869634A (zh) | 一种基于领域的带反馈语音识别后文本纠错方法及系统 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN109858023A (zh) | 一种语句纠错装置 | |
CN103984943A (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
CN107807910A (zh) | 一种基于hmm的词性标注方法 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN103902993A (zh) | 文档图像识别方法和设备 | |
Romero-Gómez et al. | Automatic alignment of handwritten images and transcripts for training handwritten text recognition systems | |
CN109145287A (zh) | 印尼语单词检错纠错方法及系统 | |
Saluja et al. | Error detection and corrections in Indic OCR using LSTMs | |
CN109255117A (zh) | 中文分词方法及装置 | |
KR101072460B1 (ko) | 한국어 형태소 분석 방법 | |
CN113420766B (zh) | 一种融合语言信息的低资源语种ocr方法 | |
CN112447172A (zh) | 一种语音识别文本的质量提升方法和装置 | |
Lehal et al. | A shape based post processor for Gurmukhi OCR | |
US10515148B2 (en) | Arabic spell checking error model | |
CN112989806A (zh) | 一种智能化文本纠错模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |