CN111079415A - 一种基于搭配冲突的中文自动查错方法 - Google Patents

一种基于搭配冲突的中文自动查错方法 Download PDF

Info

Publication number
CN111079415A
CN111079415A CN201911101660.8A CN201911101660A CN111079415A CN 111079415 A CN111079415 A CN 111079415A CN 201911101660 A CN201911101660 A CN 201911101660A CN 111079415 A CN111079415 A CN 111079415A
Authority
CN
China
Prior art keywords
collocation
words
word
context
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911101660.8A
Other languages
English (en)
Other versions
CN111079415B (zh
Inventor
王海涛
曹馨宇
刘亮亮
付雪
张帆
赵静
吴刚
赵超
丁文兴
周长青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN201911101660.8A priority Critical patent/CN111079415B/zh
Publication of CN111079415A publication Critical patent/CN111079415A/zh
Application granted granted Critical
Publication of CN111079415B publication Critical patent/CN111079415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种基于搭配冲突的中文自动查错方法,所述方法包括:扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,根据检查结果标记错误的词语,输出错误的词语,实现自动查错。所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则。本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的搭配错误识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。

Description

一种基于搭配冲突的中文自动查错方法
技术领域
本发明实施例涉及中文文本自动校对技术领域,具体涉及一种基于搭配冲突的中文自动查错方法。
背景技术
中文文本自动校对是自然语言处理的主要应用之一,中文文本自动校对分为中文自动查错和自动纠错两个步骤。目前,人工智能计算机的中文文本自动校对还是以自动查错为主,自动查错是指自动发现文本中的错误,随着互联网的发展,社交网络越来越普及,电子文本也越来越多,同时中文文本中用错的词也越来越多,如何自动发现文本中的用错的词也变得越来越重要。而文本中有些用错的词或错别字无法用邻近的上下文来发现,需要用一些搭配知识来发现。
发明内容
为此,本发明实施例提供一种基于搭配冲突的中文自动查错方法,以解决现有技术中文文本自动校对以自动查错为主而导致的文本中有些用错的词或错别字无法用邻近的上下文来发现的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例提供的一种基于搭配冲突的中文自动查错方法,所述方法包括:
扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果;
根据检查结果标记错误的词语,输出错误的词语,实现自动查错。
进一步地,所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
所述搭配强度规则为根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数;
生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。
进一步地,所述扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,具体包括:
扫描句子,取得当前词所在句子的词集合;依次进行:
索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
扫描结束后输出检测结果。
本发明实施例具有如下优点:
1、本发明实施例所述基于搭配冲突的中文自动查错方法,通过定义搭配冲突,利用搭配知识库来自动查错;
2、本发明实施例所述基于搭配冲突的中文自动查错方法,利用相似词串识别规则、语境搭配规则、搭配冲突规则判断是否存在搭配冲突,通过比较搭配强度进行验证,并且根据验证结果对当前词进行标记,标记当前词是否存在错误,实现自动查错。
3、本发明实施例所述基于搭配冲突的中文自动查错方法,对中文文本中的错误搭配识别率高,能有效识别利用局部的上下文没有办法识别的错词和需要远距离搭配特征才能判断的错词。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例提供的一种基于搭配冲突的中文自动查错方法的流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例所述基于搭配冲突的中文自动查错方法包括:
根据汉语的特点,利用搭配知识库,制定相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
对句子依次扫描,利用相似词串识别规则、语境搭配规则、搭配冲突规则判断是否存在搭配冲突,通过比较搭配强度进行验证,并且根据验证结果对当前词进行标记,标记当前词是否存在错误,实现自动查错。
本发明实施例所述基于搭配冲突的中文自动查错方法还包括:根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
所述搭配强度规则为:根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数;
生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。具体为:
11)给定搭配知识库CollDic,根据汉语拼音相似和形相似制定相似词串识别规则;
在中文文档中,汉字通过某个输入法输入到计算机中,如音输入法或形输入法,因此中文文档中的汉字用错一般都是音相似或形相似,词由一个或多个汉字构成,如果两个词对应位置的字音相同或音相似或形相似,那么这两个词为相似词串;
所述相似词串识别规则为:计算相似词串的相似函数值,所述相似函数为Sim(W1,W2),则:
如果Sim(W1,W2)=ture,则词语W1和词语W2相似;
如果Sim(W1,W2)=false,则词语W1和词语W2不相似。
12)给定搭配知识库CollDic,计算语境搭配函数,所述语境搭配函数为Coll(Wj,Wi),则:
如果Coll(W1,W2)=ture,则词语W1和词语W2存在搭配;
如果Coll(W1,W2)=false,则词语W1和词语W2不存在搭配;
13)根据语境搭配函数的函数值制定搭配冲突规则,所述搭配冲突规则包括:
对于给定句子S=W1W2...Wn,当相似函数值和语境搭配函数值同时满足如下条件时,为左语境搭配冲突:
Sim(Wi,Wi')=ture
Coll(Wj,Wi)=false(1≤j≤i-1)
Coll(W'i,Wj)=ture(1≤j≤i-1)
其中Wi为句子中的第i个词,Wi'为Wi的相似词,此时Wj为出现在Wi的左边的词;
当相似函数值和语境搭配函数值同时满足如下条件时,为右语境搭配冲突:
Sim(Wi,Wi')=ture
Coll(Wi,Wj)=false(i+1≤j≤n)
Coll(Wi',Wj)=ture(i+1≤j≤n)
此时Wj为出现在Wi的右边的搭配词;
14)根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数值,所述搭配强度规则,包括:
计算两个词的搭配强度函数S(W1,W2)为:
Figure BDA0002270048430000061
其中Ri(W1,W2)表示词语W1和词语W2相距距离为i的频次,R(W1)表示词语W1的频次,R(W2)表示词语W2的频次,N为搭配训练语料中的词的总频次。
词语W1和词语W2搭配强度函数值越大,表明两个词的搭配正确率越高。
本发明提供的一种基于搭配冲突的中文自动查错方法,对于给定句子S=W1W2...Wn,扫描句子,对当前词Wi根据搭配知识库的搭配规则检查句子中的词语的搭配,取得当前词所在句子的词集合;依次进行:
索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
扫描结束后输出检测结果。
具体包括:
21)取得当前词Wi所在句子S中左边词集合LeftWordSet={Wi-k|1≤k<i}和右边词集合RightWordSet={Wi+k|1≤k≤n-k},索引搭配知识库的搭配冲突规则、索引语境搭配规则、相似词串规则和搭配强度规则,分别依次做如下判断:
22)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,并且存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,则当前词Wi是正确的词,满足语义搭配。
23)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时不存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,且不存在当前词Wi的相似词Wi'和右边词集合RightWordSet中的词与当前词Wi形成右搭配冲突,那么当前词Wi是正确词。
24)如果不存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,且不存在当前词Wi的相似词Wi'和左边词集合LeftWordSet中的词与当前词Wi形成左搭配冲突,那么当前词Wi是正确词;
25)如果不存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数值为真LeftColl(Wi,Wl)=ture,同时不存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值为真RightColl(Wi,Wr)=ture,在左边词集合LeftWordSet和右边词集合RightWordSet中存在和当前词Wi的相似词Wi'的搭配,如果满足以下三个条件之一,则当前词Wi是错误的,其中满足条件的相似词Wi'即为其可能正确的词,对当前词Wi进行标记;条件一:
Figure BDA0002270048430000071
条件二:
S(Wi',Wi)>mi_threshold或S(Wi,Wi')>mi_threshold
条件三:
Figure BDA0002270048430000072
其中,threshold为第一阈值,mi_threshold为第二阈值。
26)如果存在左搭配词Wl∈LeftWordSet,使得左语境搭配函数为真LeftColl(Wi,Wl)=ture,或者存在右搭配词Wr∈RightWordSet,使得右语境搭配函数值RightColl(Wi,Wr)=ture,但是存在当前词Wi的相似词Wi',并且存在左搭配相似词Wl∈LeftWordSet,或右搭配相似词Wr∈RightWordSet,使得261)和262)两个条件满足,那么对当前词Wi提示错误。
261)LeftColl(Wi',Wl')=ture或者RightColl(Wi',Wr')=ture
262)S(Wi',Wl')>mi_threshold或者S(Wi',Wr')>mi_threshold
27)取当前词Wi的下一个词Wi+1,重复以上过程,直至到句子末尾,则结束整个判断,输出句子中标记错误的词。
本发明实施例提出基于搭配冲突的中文自动查错方法,通过定义搭配冲突,利用搭配知识库来自动查错,能够发现用错的词或词语搭配冲突,实现自动查错。
通过本发明实施例提出基于搭配冲突的中文自动查错方法检查1万行句子的测试语料,利用100万词的二元搭配词典,并人工构造测试语料句子中的搭配错误500处,检查结果召回率达到75%,准确率达到74%。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (3)

1.一种基于搭配冲突的中文自动查错方法,所述方法包括:
扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果;
根据检查结果标记错误的词语,输出错误的词语。
2.根据权利要求1所述的基于搭配冲突的中文自动查错方法,其特征在于,所述方法还包括根据给定搭配知识库制定搭配检测规则,所述搭配检测规则包括相似词串识别规则、语境搭配规则、搭配冲突规则和搭配强度规则;
所述相似词串识别规则为:如果两个词的相似函数值为真,则所述两个词为相似词串,否则两个词不相似;
所述语境搭配规则为:如果两个词的语境搭配函数值为真,则确定两个词存在搭配,否则两个词不存在搭配;
所述搭配冲突规则为:如果两个词的语境搭配函数值为假,其中一个词存在相似词使语境搭配函数值为真,则所述两个词语境搭配冲突;
所述搭配强度规则为:根据两个词在搭配训练语料中搭配出现的频次计算搭配强度函数值;
生成所述搭配知识库的索引,包括相似词串规则索引、语境搭配规则索引、搭配冲突规则索引和搭配强度规则索引。
3.根据权利要求2所述的基于搭配冲突的中文自动查错方法,其特征在于,所述扫描待查错中文句子,根据搭配检测规则检查句子中的词语的搭配,得到检查结果,具体包括:
扫描句子,取得当前词所在句子的词集合;依次进行:
索引语境搭配规则对当前词和词集合中的词进行语境搭配检查,根据当前词和词集合中的词的语境搭配函数值获得是否存在搭配的检测结果;
索引相似词串规则对当前词进行相似词搭配检查,根据相似函数值获得当前词是否存在相似词的检测结果;
索引搭配冲突规则对当前词、当前词的相似词和词集合中的词进行搭配冲突检查,根据当前词和词集合中的词的语境搭配函数值,以及当前词的相似词和词集合中的词的语境搭配函数值获得是否存在搭配冲突检测结果;
索引搭配强度规则分别对当前词和词集合中的词进行搭配强度检查,以及对当前词的相似词和词集合中的词进行搭配强度检查,通过比较搭配强度值验证检测结果;
扫描结束后输出检测结果。
CN201911101660.8A 2019-11-12 2019-11-12 一种基于搭配冲突的中文自动查错方法 Active CN111079415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911101660.8A CN111079415B (zh) 2019-11-12 2019-11-12 一种基于搭配冲突的中文自动查错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911101660.8A CN111079415B (zh) 2019-11-12 2019-11-12 一种基于搭配冲突的中文自动查错方法

Publications (2)

Publication Number Publication Date
CN111079415A true CN111079415A (zh) 2020-04-28
CN111079415B CN111079415B (zh) 2021-03-26

Family

ID=70310847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911101660.8A Active CN111079415B (zh) 2019-11-12 2019-11-12 一种基于搭配冲突的中文自动查错方法

Country Status (1)

Country Link
CN (1) CN111079415B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562278A (zh) * 2023-03-02 2023-08-08 华中科技大学 一种词语相似性检测方法及系统
CN116644239A (zh) * 2023-07-19 2023-08-25 中国标准化研究院 一种重大服务质量事件信息监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN110377708A (zh) * 2019-06-03 2019-10-25 广东幽澜机器人科技有限公司 一种多情景对话切换方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN106547741A (zh) * 2016-11-21 2017-03-29 江苏科技大学 一种基于搭配的汉语文本自动校对方法
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN110377708A (zh) * 2019-06-03 2019-10-25 广东幽澜机器人科技有限公司 一种多情景对话切换方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562278A (zh) * 2023-03-02 2023-08-08 华中科技大学 一种词语相似性检测方法及系统
CN116644239A (zh) * 2023-07-19 2023-08-25 中国标准化研究院 一种重大服务质量事件信息监控方法
CN116644239B (zh) * 2023-07-19 2023-10-13 中国标准化研究院 一种重大服务质量事件信息监控方法

Also Published As

Publication number Publication date
CN111079415B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
US9087047B2 (en) Text proofreading apparatus and text proofreading method using post-proofreading sentence with highest degree of similarity
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN105279149A (zh) 一种中文文本自动校正方法
US20140032207A1 (en) Information Classification Based on Product Recognition
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN109145287B (zh) 印尼语单词检错纠错方法及系统
CN111079415B (zh) 一种基于搭配冲突的中文自动查错方法
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN115169329A (zh) 一种基于Bert的中文文本纠错方法、设备及存储介质
CN111611791A (zh) 一种文本处理的方法及相关装置
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
CN112182353B (zh) 用于信息搜索的方法、电子设备和存储介质
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN107220381A (zh) 一种面向问答系统的输入文本自动纠错方法
CN114860870A (zh) 一种文本的纠错方法及装置
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Haitao

Inventor after: Zhou Changqing

Inventor after: Cao Xinyu

Inventor after: Liu Liangliang

Inventor after: Zhao Jing

Inventor after: Zhang Fan

Inventor after: Pay snow

Inventor after: Wu Gang

Inventor after: Zhao Chao

Inventor after: Ding Wenxing

Inventor before: Wang Haitao

Inventor before: Zhou Changqing

Inventor before: Cao Xinyu

Inventor before: Liu Liangliang

Inventor before: Pay snow

Inventor before: Zhang Fan

Inventor before: Zhao Jing

Inventor before: Wu Gang

Inventor before: Zhao Chao

Inventor before: Ding Wenxing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant