CN115033773A - 一种基于在线搜索辅助的中文文本纠错方法 - Google Patents
一种基于在线搜索辅助的中文文本纠错方法 Download PDFInfo
- Publication number
- CN115033773A CN115033773A CN202210742412.7A CN202210742412A CN115033773A CN 115033773 A CN115033773 A CN 115033773A CN 202210742412 A CN202210742412 A CN 202210742412A CN 115033773 A CN115033773 A CN 115033773A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- sentence
- suspicious
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012937 correction Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims abstract description 25
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 230000009193 crawling Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 239000013589 supplement Substances 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000007711 solidification Methods 0.000 claims description 8
- 230000008023 solidification Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 241001505100 Succisa pratensis Species 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于在线搜索辅助的中文文本纠错方法,首先将要纠正的语句进行分句,通过搜索引擎进行在线查询,爬取并统计词频构建词频表;然后对原始语句进行分词,根据分词结果在词频表中的词频和困惑度进行检错获得可疑词;将可疑词根据原始语句上下文和在搜索引擎中查询到的结果上下文信息进行搜索,根据词频、拼音编辑距离和结构相似度使用topsis算法进行打分,形成候选词,并增加部分近音近型词也作为候选词;将候选词对原始语句的可疑词进行替换,使用原始GPT‑2模型计算困惑度,选择困惑度最小的语句作为最终纠正后的结果。该方法能够在不需要额外训练纠错模型、不需要大规模数据集的情况下,即时即用,将可能含有错误的中文语句进行自动纠正。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于在线搜索辅助的中文文本纠错方法。
背景技术
文本纠错是一种对语句自动检查、自动纠正的技术。文本纠错系统能够将输入的可能带有错误的句子输出为正确句子。通过文本纠错技术,能够提升文本的质量,是自然语言处理领域的基石之一。据统计,在互联网等新媒体领域中,文本出错率高于2%;在语音识别领域中,出错率最高可达8-10%。看似文本出错率不高,但是一句话里出现一个错词,就可能完全改变了整句话的原意,可能使读者错误地理解作者的意思,进而产生不好的影响。比如在医学领域,出现一个错字产生的影响可能是致命的。并且,大部分自然语言处理技术都需要在正确的文本上进行操作,而不能够在带有错误的文本上获得一个好的效果。因此,能够有一个方法能够自动的对文本进行纠错十分具有意义。
现如今,在全球范围内,对英文的文本纠错研究已经比较成熟,然而,对中文文本纠错技术仍然不够完善。目前,中文文本纠错数据集规模小,使得中文文本纠错的准确率和普适性不高。其次,中文文本纠错依赖于模型训练过的数据,然而许多专业词汇是难以在数据集中出现的,这就导致了目前的大多数中文文本纠错模型不能够很好地对含有专业词语错误的语句进行正确纠正。最后,现有的中文文本纠错模型大多都需要先针对性地使用对应数据集进行训练,然后才能进行文本纠错,如果更换了文本类型,那么模型就需要重新训练,不能够做到即时即用。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于在线搜索辅助的中文文本纠错方法,该方法首先将要纠正的语句进行分句,将分句后的句子依次通过搜索引擎进行在线查询,将查询到的内容爬取并统计其中的词频构建词频表。然后对原始语句进行分词,根据分词后的结果在词频表中的词频和困惑度进行检错获得可疑词。将可疑词根据原始语句上下文和在搜索引擎中查询到的结果上下文信息进行搜索,并根据词频、拼音编辑距离和结构相似度使用topsis算法进行打分,选取分数较高的词作为候选词,再额外增加部分近音近型词也作为候选词。将候选词对原始语句的可疑词进行替换,使用原始GPT-2模型计算替换后语句的困惑度,选择困惑度最小的语句作为最终纠正后的结果。该方法基于待纠正语句在搜索引擎中的查询结果,能够智能地对待纠正语句的错误部分进行检查,然后对其进行纠正,最后返回正确语句。此外,本发明因为基于在线查询,所以可以通过搜索引擎的方式可以获得大量与待纠正语句意思相近的数据,使用词频、词语当前出现概率、n-gram等方式进行检错,使用topsis算法对词频、拼音编辑距离、结构相似度这三个考量因素筛选出较为合适的错误词的替换词,以及使用 GPT-2模型根据困惑度作为评价指标可以获得最合适的正确语句输出。本发明在获得需要的模型之后,不需要再进行额外的训练,能够做到即时即用,不受其他因素的干扰。
本发明的目的是通过以下技术方案来实现的:
一种基于在线搜索辅助的中文文本纠错方法,包括以下步骤:
S1:将待纠正的原始语句进行分句,分句的依据为原始语句所包含的词语数量。
S2:将步骤S1分句后的语句通过搜索引擎进行查询,将前三十条查询结果的标题和摘要部分进行爬取并保存到本地。
S3:基于步骤S2获得的三十条查询结果,进行分词和统计词频,然后构建词频表。
S4:基于步骤S2获得的三十条查询结果,对其进行新词发现,将新词发现的结果加入jieba词表,再根据变化后的jieba词表对原始语句进行分词,获得原始语句分词后的结果。
S5:基于步骤S3和步骤S4获得的通过搜索引擎查询构建得到的词频表和原始语句分词结果,进行检错,使用原始语句分词结果在词频表中进行查询,如果某个词在词频表中的词频值小于阈值,则认为该词可能有误,作为可疑词。
S6:基于步骤S4获得的原始语句分词结果,进行未登录词检错补充,将未在jieba词库中的未登录词加入可疑词中。
S7:进行概率检错补充,将原始语句通过原始GPT-2模型,获得每个字的概率值,如果某字的概率值明显小于其他字的概率值,将该字加入可疑词中。
S8:基于步骤S7获得的可疑词,依次获得可疑词在原始语句中的上下文信息text_ori,以一个可疑词和对应的上下文信息text_ori为一对的方式存储。获得上下文信息的方式为根据距离,获取在原始语句中离可疑词距离为x及以内的词作为上下文信息text_ori。
S9:基于步骤S8和步骤S2获得的可疑词在原始语句中的上下文信息 text_ori和通过搜索引擎查询到的结果,依次获得text_ori在搜索引擎查询到的结果中的上下文信息text_search,此时的上下文信息text_search作为候选词。以一个可疑词和对应的候选词为一对的方式存储。仍然使用根据距离的方式,分别获取搜索引擎查询到的结果中距离text_ori为2,4,6的词作为上下文信息 text_search。
S10:基于步骤S9获得的候选词,分别计算候选词与对应的可疑词的拼音编辑距离和结构相似度。其中,结构相似度使用预先构建好的孪生网络进行计算。
S11:基于步骤S10和步骤S3获得的候选词与对应的可疑词的拼音编辑距离和结构相似度和词频表,使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,选取得分最高的前8个候选词作为可疑词的候选词。
S12:基于步骤S7获得的可疑词,筛选出在jieba词表内与可疑词拼音编辑距离较小的词和结构相似度较高的词,也作为可疑词的候选词加入到步骤S10 获得的可疑词的候选词中。
S13:基于步骤S2获得的搜索引擎查询结果,构件3-gram词表,使用n-gram 算法,选择出可能出现在可疑词位置的词,也作为可疑词的候选词加入到步骤 S10获得的可疑词的候选词中。
S14:基于步骤S13获得的可疑词的候选词和步骤S6获得的可疑词,将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集。因为可能原始语句无误,因此候选句集中再加入原始语句。
S15:基于步骤S14获得的候选句集,使用原始GPT-2模型计算整个候选句的困惑度,选择困惑度最低的句子作为最终结果。
进一步地,所述的将待纠正的原始语句进行分句,分句条件为,先对原始语句使用jieba进行分词,如果原始语句分词结果的词语个数大于等于15,则按照句号、问号、感叹号、分号将原始语句进行切分。如果在切分后的短句中,词语个数仍然大于等于15,则按照逗号继续切分。
进一步地,所述的分句后的语句,使用搜索引擎查询的网址前缀,具体是指:将查询内容拼接到网址前缀中,使用爬虫进行访问,爬取在搜索引擎中的搜索结果,将搜索结果中的前三十条信息中的标题和摘要保存到本地。
进一步地,所述的根据查询结果,进行分词和统计词频,然后构建词频表,具体是指:将爬取到的三十条查询结果的标题和摘要,使用jieba分词,将它们分为词语,然后统计每个词出现的次数,出现次数即为这个词的词频,将每个词和它对应的词频保存下来,作为词频表。
进一步地,所述的对查询结果进行新词发现,将新词发现的结果加入jieba 词表,再对原始语句进行分词,具体是指:新词发现算法能够从已有语料中进行挖掘,找出那些未登录的可能成词的短语,新词是指新出现的或者旧词新意的词。因为使用的是jieba分词,依赖jieba词表,而jieba词表较老,无法正确分出一些较新的词语,使用新词发现算法,将相关的可能成词的短语筛选出来,对原始语句重新分词,能够提升分词准确率。新词发现算法主要分为3个步骤:a)将语料文本生成n-gram表,并统计每个词的词频。b)利用凝固度从之前的n-gram 表中筛选出备选新词。c)再通过自由度从备选新词中筛选出最终的新词。给定一个原始语句S,分词后的结果为x1,x2,…,xn。
凝固度用点间互信息表示,公式为:
其中,PMI(x,y)是点间互信息, p(x,y)是指两个词一起出现的概率,p(x),p(y)是指各词出现的概率。凝固度越大,说明这两个词出现在一起的概率越大,是一个词语的可能性也就越大。
自由度用左右熵表示,左右熵公式分别为为:
其中,ELeft(PreW)表示左熵,ERight(SufW)表示右熵,PreW是词W前缀的集合,SufW是词W后缀的集合。自由度越大,说明它的周边词越丰富,其成为一个独立的词的可能性也就越大。
进一步地,所述的使用原始语句分词结果在词频表中进行查询,进行检错,具体是指:在已经构建好的词频表中,依次查询原始语句分词结果x1,x2,...,xn在词频表中的词频值c1,c2,...,cn,选择c1,c2,...,cn中的最大值cmax作为基准,若其他词的词频值ck(k≠max)<5%*cmax,则认为该词可能有误,加入到可疑词中。
进一步地,所述的未登录词检错补充,具体是指:在jieba词表内查找原始语句分词结果x1,x2,...,xn,如果词语x不在jieba词表内,则认为该词可能有误,加入到可疑词中。
进一步地,所述的概率检错补充,具体是指:句子S由词语x1,x2,...,xn组成,而GPT-2模型可以输入真实前文x1,x2,...,xm-1,获得下一个词xm′可能出现的词和其对应的概率。根据每个原始语句的真实词xk获得概率pk,计算其中的中位值 pm,如果有词语xm的概率值小于中位值10%*pm,则认为该词可能有误,若该词不在可疑词中,则加入到可疑词中。
进一步地,所述的获得可疑词在原始语句中的上下文信息text_ori,具体是指:假设现有原始语句S,S由词语x1,x2,x3,x4,x5,x6,x7,x8组成,可疑词为x3。根据距离公式:
dis=min(3,wordnum//2)
其中,wordnum代表分词后的词语个数。通过计算得到距离dis,获得原始语句中距离可疑词xk为dis及以内的所有词语,作为xk的上下文信息text_ori。 text_ori=xk-dis,xk-dis+1,…,xk-1,xk+1,…,xk+dis。
进一步地,所述的获得上下文信息text_ori在搜索引擎查询到的结果中的上下文信息text_search,具体是指:在保存到本地搜索引擎查询到的三十条结果内容中,根据预设距离获得上下文信息text_ori的上下文信息text_search。例如:搜索引擎的某一条结果为S′,由词语x′1,x′2,...,xj′组成,现有原始语句S,S由词语 x1,x2,...,xn组成,可疑词为xk,xk-dis,xk-dis+1,...,xk-1,xk+1,...,xk+dis是xk的上下文信息text_ori。现在对每个上下文信息text_ori,都在S′中根据距离dissearch寻找上下文信息text_search,距离dissearch分别选取2,4,6。对于上下文信息text_ori 中的xk-dis,若xk-dis也在S′中出现,则x′k-dis-2,x′k-dis-1,xk-dis+1′,xk-dis+2′是xk-dis在S′中距离为2的上下文信息text_search, x′k-dis-4,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+4是x1在S′中距离为4的上下文信息 text_search,x′k-dis-6,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+6是x1在S′中距离为6的上下文信息text_search。以此类推对xk-dis+1,...,xk-1,xk+1,...,xk+dis做相同的操作,获得上下文信息text_search。将这些上下文信息text_search作为对应可疑词的候选词。
这里基于一个假设,假设有个句子BAB,其中A这个词有误,A的上下文信息为B,而在一个正确的句子CBC中,B出现在这个正确的句子CBC中,那么可以认为B的上下文信息C可能可以用来替换有误的A。即,错误句子中词 A的旁边有词B,而正确句子中词B的旁边有词C,则词C可能可以用来候选词A。在本发明中,可以认为错误句子为原始语句,正确句子为从搜索引擎查询结果中爬取的前三十条信息。
进一步地,所述的计算候选词与对应的可疑词的拼音编辑距离和结构相似度,具体是指:编辑距离是从一个字符串变到另一个字符串的最小编辑次数,其中每次编辑只能在字符串中插入一个字符、删除一个字符或者修改一个字符。而拼音编辑距离是两个汉语转换为无音标的拼音后的编辑距离。拼音编辑距离公式如下:
pydis=LS(py1,py2)
其中,pydis表示拼音编辑距离,LS表示编辑距离计算,py1,py2分别表示两个词的无音标拼音。
结构相似度使用预先训练的孪生网络进行图形相似度计算来获取。孪生网络是连体的神经网络,其中的两个神经网络共享参数权重。孪生神经网络有两个输入graph1,graph2,将两个输入放入两个神经网络Network1和Network2,在获得主干特征提取网络之后,我们可以获取到一个多维特征,将其平铺到一维上,就获得两个输入的一维向量。将这两个一维向量进行相减,再进行绝对值求和,相当于求取了两个一维向量的距离。然后对这个距离进行全连接,对结果取 sigmoid,使其值在0-1之间,代表两个输入图片的相似程度。
因为没有较好的汉字图片数据集,因此本发明设计了一套用于计算汉字图形相似度的汉字图片数据集。使用OpenCV,将每一个汉字ck的不同字体形式生成图片同一汉字ck的不同字体图片部视为同一类型,不同汉字视为不同类型。训练时,当两个输入指向同一个类型的图片时,此时标签为1。当两个输入指向不同类型的图片时,此时标签为0。然后将网络的输出结果和真实标签进行交叉熵运算,就可以作为最终的loss。结构相似度公式如下:
similarity=Graphsimi(graph1,graph2)
其中,similarity为结构相似度,Graphsimi为孪生网络模型,graph1,graph2分别为使用两个词语生成的词语图片。
进一步地,所述的使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,具体是指:topsis算法是根据有限个评价对象与理想化目标的接近程度进行排序的方法。首先对数据进行正向化处理,正向化处理是指将各个评价指标都处理成越大越好。在本发明中,评价指标为候选词的词频,候选词与可疑词的拼音编辑距离以及候选词与可疑词的结构相似度。词频,结构相似度都是越大越好,因此不用处理,而拼音编辑距离是越小越好,因此取拼音编辑距离的倒数作为评价指标。即,评价指标为以下三点:①词频,②③similarity。然后对数据进行标准化处理,这是为了消除不同的数据指标量纲的影响。标准化公式如下:
其中,zij表示标准化后的第i个方案的第j个指标的值,xij表示原数据中的第i个方案的第j个指标。
然后确定各项指标的最优理想值z+和最劣理想值z-,最优理想值z+的各属性值是各候选方案中最好的值,也就是每个指标里最大的值。而最劣理想值z-是每个指标里最小的值。然后求出各个方案与最优理想值和最劣理想值之间的欧氏距离。对于第i个方案zi,它与最优解和最劣解的距离公式如下:
第i个方案的评分公式如下:
其中,score为最终的得分,作为评价方案的优劣标准,选择score最大的前八个候选词作为较合理的候选词。总体来说,公式如下:
进一步地,所述的筛选出在jieba词表内与可疑词拼音编辑距离较小的词和结构相似度较高的词,具体是指:将可疑词xk按字粒度按照字粒度切分为n个字 c1,c2,...,cn,然后对每个字cm(1≤m≤n)在jieba词表内寻找拼音编辑距离小于等于1的所有字将这些字按照下标m作为位置进行排列组合,生成个词,这些词若登录在jieba词表内,也作为可疑词的候选词。对于结构相似度,使用预先训练好的孪生网络,计算和可疑词 xk图片相似度大于80%的词,作为可疑词的候选词,加入候选词
进一步地,所述的使用n-gram算法,选择出可能出现在可疑词位置的词,具体是指:对于n-gram算法,我们假设第n个词出现的概率只和前n-1个词有关,因此句子的概率分布如下:
其中,P(s)是整个句子的概率,wn是组成句子的词语,表示第wi个词到wi-n+1个词的历史序列,表示给定历史序列的词的前提下,当前词出现的概率。在本发明中,使用3-gram算法,句子的概率分布如下:
P(s)=P(w1|w0,w-1)P(w2|w1,w0)…P(wi|wi-1,wi-2)
将通过搜索引擎查询得到的三十条信息用3-gram算法构建3-gram表,以 (wi-1,wi-2,wi)的方式存储。遍历待纠错的原始语句S,S由词语x1,x2,...,xn组成,若存在xk-2=wk-2,xk-1=wk-1,则将wk认为是可以用来替代xk的候选词,加入候选词
进一步地,所述的将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集,具体是指:对于原始语句S,S由词语x1,x2,...,xn组成,现有可疑词xi,xj,...,xk,可疑词对应的候选词为依次将可疑词 xm(m∈(i,j,...,k))用xm的候选词替换,做排列组合,生成候选句集。
进一步地,所述的使用原始GPT-2模型计算整个候选句的困惑度,具体是指:对于给定的语句,若其长度为n,首先将其向左移动一位作为label,将其去除末位作为input,将input输入到GPT-2获得的输出与label做交叉熵损失Cross Entropy Loss,再求以自然数为底的次方即为所求困惑度。困惑度是用来衡量语言概率模型优劣的一个方法,困惑度越小,表明句子越合理。计算困惑度公式如下:
out=GPT-2(input)
loss=CrossEntropyLoss(out,label)
PPL=ln loss
其中,给定句子S,S由词语x1,x2,...,xn组成,input=x1,x2,...,xn-1, label=x2,...,xn,PPL为所求的困惑度。将所有候选句集和原始语句进行困惑度计算,从中选择困惑度最小的句子作为最终的纠错结果。
本发明的有益效果是:本发明提供了一种新的中文文本纠错方式,使用了在线查询的方式,根据词频因素同时辅以概率对待纠正语句进行检错,对句中错误的部分使用topsis算法根据词频、拼音编辑距离、结构相似度对错误词的可替换词进行筛选。用可替换词对错误词进行替换,最后通过使用GPT-2模型计算困惑度的方式获得最优解作为纠错结果返回。解决了不同数据集需要分次训练分次使用和专业词汇无法纠正的问题,能够即时即用的进行中文文本纠错。
附图说明
图1是本发明提出方法的流程图;
具体实施方式
本发明公开一种基于在线搜索辅助的中文文本纠错方法,基于待纠正语句在搜索引擎中的查询结果,智能地对待纠正语句的错误部分进行检查,然后对其进行纠正,最后返回正确语句。基于本发明提供的中文文本纠错技术,能够将可能带有错误的中文语句改正,使读者更好地理解作者的本意,也能够为后续的自然语言处理技术增加更高的准确性。
本发明公开了一种基于在线搜索辅助的中文文本纠错方法,能够在不需要额外训练纠错模型、不需要大规模数据集的情况下,即时即用,将可能含有错误的中文语句进行自动纠正。本方法首先将要纠正的语句进行分句,将分句后的句子依次通过搜索引擎进行查询,将查询到的内容爬取并统计其中的词频构建词频表。然后对原始语句进行分词,根据分词后的结果在词频表中的词频和困惑度进行检错获得可疑词。将可疑词根据原始语句上下文和在搜索引擎查询到的内容的上下文信息进行搜索,并根据词频、拼音编辑距离、结构相似度使用topsis算法进行打分,选取分数较高的词作为候选词,再额外增加部分近音近型词也作为候选词。将候选词对原始语句的可疑词进行替换,使用原始GPT-2模型计算替换后语句的困惑度,选择困惑度最小的语句作为最终纠正后的结果。本发明能够通过在线查询的方式,根据词频、困惑度的方式进行检错,根据词频、拼音编辑距离、结构相似度综合考虑获得候选词,使用候选词替换对应的可疑词获得候选句,最后根据候选句整体困惑度获得修改后最优的正确语句。
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于在线搜索辅助的中文文本纠错方法,该方法包括以下步骤:
S1:将待纠正的原始语句进行分句,分句的依据为原始语句所包含的词语数量。
S2:将步骤S1分句后的语句通过搜索引擎进行查询,将前三十条查询结果的标题和摘要部分进行爬取并保存到本地。
S3:基于步骤S2获得的三十条查询结果,进行分词和统计词频,然后构建词频表。
S4:基于步骤S2获得的三十条查询结果,对其进行新词发现,将新词发现的结果加入jieba词表,再根据变化后的jieba词表对原始语句进行分词,获得原始语句分词后的结果。
S5:基于步骤S3和步骤S4获得的通过搜索引擎查询构建得到的词频表和原始语句分词结果,进行检错,使用原始语句分词结果在词频表中进行查询,如果某个词在词频表中的词频值小于阈值,则认为该词可能有误,作为可疑词。
S6:基于步骤S4获得的原始语句分词结果,进行未登录词检错补充,将未在jieba词库中的未登录词加入可疑词中。
S7:进行概率检错补充,将原始语句通过原始GPT-2模型,获得每个字的概率值,如果某字的概率值明显小于其他字的概率值,将该字加入可疑词中。
S8:基于步骤S7获得的可疑词,依次获得可疑词在原始语句中的上下文信息text_ori,以一个可疑词和对应的上下文信息text_ori为一对的方式存储。获得上下文信息的方式为根据距离,获取在原始语句中离可疑词距离为x及以内的词作为上下文信息text_ori。
S9:基于步骤S8和步骤S2获得的可疑词在原始语句中的上下文信息 text_ori和通过搜索引擎查询到的结果,依次获得text_ori在搜索引擎查询到的结果中的上下文信息text_search,此时的上下文信息text_search作为候选词。以一个可疑词和对应的候选词为一对的方式存储。仍然使用根据距离的方式,分别获取搜索引擎查询到的结果中距离text_ori为2,4,6的词作为上下文信息 text_search。
S10:基于步骤S9获得的候选词,分别计算候选词与对应的可疑词的拼音编辑距离和结构相似度。其中,结构相似度使用预先构建好的孪生网络进行计算。
S11:基于步骤S10和步骤S3获得的候选词与对应的可疑词的拼音编辑距离和结构相似度和词频表,使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,选取得分最高的前8个候选词作为可疑词的候选词。
S12:基于步骤S7获得的可疑词,筛选出在jieba词表内与可疑词拼音编辑距离较小的词和结构相似度较高的词,也作为可疑词的候选词加入到步骤S10 获得的可疑词的候选词中。
S13:基于步骤S2获得的搜索引擎查询结果,构件3-gram词表,使用n-gram 算法,选择出可能出现在可疑词位置的词,也作为可疑词的候选词加入到步骤 S10获得的可疑词的候选词中。
S14:基于步骤S13获得的可疑词的候选词和步骤S6获得的可疑词,将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集。因为可能原始语句无误,因此候选句集中再加入原始语句。
S15:基于步骤S14获得的候选句集,使用原始GPT-2模型计算整个候选句的困惑度,选择困惑度最低的句子作为最终结果。
1、数据预处理
首选需要将待纠正的原始语句进行分句。分句条件为:如果原始语句分中词语个数大于等于15,则按照句号、问号、感叹号、分号将原始语句进行切分。假设语句S是当前待纠正语句,S由词x1,x2,...,xn构成,若n≥15,则需要对S进行分句,比如当xi=′。′,则将S分为x1,x2,...,xi和xi+1,xi+2,...,xn。如果在切分后的短句中,词语个数仍然大于等于15,则按照逗号继续切分。
然后将分句依次在搜索引擎中进行查询,将查询结果的前三十条题目和摘要进行爬取并保存。然后对其分词,构建词频表TableWord,词频表为词语和其对应的出现次数构成的表。
然后对爬取下来的查询结果进行新词发现,将新词发现的结果加入jieba词表,再对原始语句进行分词。新词发现算法主要分为3个步骤:a)将语料文本生成n-gram表,并统计每个词的词频。b)利用凝固度从之前的n-gram表中筛选出备选新词。c)再通过自由度从备选新词中筛选出最终的新词。给定一个原始语句S,分词后的结果为x1,x2,...,xn。
凝固度用点间互信息表示,公式为:
其中,PMI(x,y)是点间互信息, p(x,y)是指两个词一起出现的概率,p(x),p(y)是指各词出现的概率。凝固度越大,说明这两个词出现在一起的概率越大,是一个词语的可能性也就越大。
自由度用左右熵表示,左右熵公式分别为为:
其中,ELeft(PreW)表示左熵,ERight(SufW)表示右熵,PreW是词W前缀的集合,SufW是词W后缀的集合。自由度越大,说明它的周边词越丰富,其成为一个独立的词的可能性也就越大。将新词发现的结果加入jieba词表,重新对句子分词
2、检错模块
接着使用之前构建好的词频表TableWord进行检错。在已经构建好的词频表TableWord中,依次查询原始语句分词结果x1,x2,...,xn在词频表中的词频值 c1,c2,...,cn,选择c1,c2,...,cn中的最大值cmax作为基准,若其他词的词频值 ck(k≠max)<5%*cmax,则认为该词可能有错。
然后进行未登录词检错。如果分词后的词语x1,x2,...,xn不在jieba词表内,则认为该词有误。
最后进行概率检错。GPT-2模型可以输入前文来获得下一个词x′可能出现的概率。概率公式如下:
P(xk)=GPT-2(x1,x2,...,xk-1)
其中,P(xk)表示第k个词语出现的概率,x1,x2,...,xk-1表示前k-1个词语组成的短语。根据每个真实词的概率p1,p2,...,pn,计算其中的中位值pm,如果有词语xm的概率值小于中位值10%*pm,则认为该词可能有误。
3、纠错模块
在获得了可疑词之后,要获得可疑词在原始语句中的上下文信息text_ori。根据距离公式:
dis=min(3,wordnum//2)
其中,wordnum代表分词后的词语个数。通过计算得到dis,获得原始语句中距离可疑词xk为dis及以内的所有词语,作为xk的上下文信息text_ori。text_ori=xk-dis,xk-dis+1,…,xk-1,xk+1,…,xk+dis。
然后在搜索引擎查询到的三十条结果内容中,根据预设距离获得上下文信息text_ori的上下文信息text_search。例如:搜索引擎的某一条结果为S′,由词语 x′1,x′2,...,xj′组成,现有原始语句S,S由词语x1,x2,...,xn组成,可疑词为xk, xk-dis,xk-dis+1,...,xk-1,xk+1,...,xk+dis是xk的上下文信息text_ori。现在对每个上下文信息text_ori,都在S′中根据距离dissearch寻找上下文信息text_search,距离dissearch分别选取2,4,6。对于上下文信息text_ori中的xk-dis,若xk-dis也在 S′中出现,则x′k-dis-2,x′k-dis-1,xk-dis+1′,xk-dis+2′是xk-dis在S′中距离为2的上下文信息text_search,x′k-dis-4,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+4是x1在S′中距离为4的上下文信息text_search,x′k-dis-6,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+6是x1在 S′中距离为6的上下文信息text_search。以此类推对xk-dis+1,...,xk-1,xk+1,...,xk+dis做相同的操作,获得上下文信息text_search。将这些上下文信息text_search作为对应可疑词的候选词。
获得候选词后,因为会有大量数据,所以需要对其进行一定的筛选,将较适合的候选词选出。本发明使用候选词的词频、以及与对应的可疑词的拼音编辑距离和结构相似度作为参考标准。
编辑距离指从一个字符串变到另一个字符串的最小编辑次数,其中每次编辑只能在字符串中插入一个字符、删除一个字符或者修改一个字符。而拼音编辑距离是两个汉语转换为无音标的拼音后的编辑距离。拼音编辑距离公式如下:
pydis=LS(py1,py2)
其中,pydis表示拼音编辑距离,LS表示编辑距离计算,py1,py2分别表示两个词的无音标拼音。
结构相似度使用预先训练的孪生网络进行图形相似度计算来获取。孪生网络是连体的神经网络,其中的两个神经网络共享参数权重。孪生神经网络有两个输入graph1,graph2,将两个输入放入两个神经网络Network1和Network2,在获得主干特征提取网络之后,我们可以获取到一个多维特征,将其平铺到一维上,就获得两个输入的一维向量。将这两个一维向量进行相减,再进行绝对值求和,相当于求取了两个一维向量的距离。然后对这个距离进行全连接,对结果取 sigmoid,使其值在0-1之间,代表两个输入图片的相似程度。
因为没有较好的汉字图片数据集,因此本发明设计了一套用于计算汉字图形相似度的汉字图片数据集。使用OpenCV,将每一个汉字ck的不同字体形式生成图片同一汉字ck的不同字体图片都视为同一类型,不同汉字视为不同类型。训练时,当两个输入指向同一个类型的图片时,此时标签为1。当两个输入指向不同类型的图片时,此时标签为0。然后将网络的输出结果和真实标签进行交叉熵运算,就可以作为最终的loss。结构相似度公式如下:
similarity=Graphsimi(graph1,graph2)
其中,similarity为结构相似度,Graphsimi为孪生网络模型,graph1,graph2分别为使用两个词语生成的词语图片。
为了合理地使用词频、拼音编辑距离和结构相似度这三个评价指标,本发明使用了topsis算法来综合考量。topsis算法是根据有限个评价对象与理想化目标的接近程度进行排序的方法。首先对数据进行正向化处理,正向化处理是指将各个评价指标都处理成越大越好。在本发明中,评价指标为候选词的词频,候选词与可疑词的拼音编辑距离以及候选词与可疑词的结构相似度。词频,结构相似度都是越大越好,因此不用处理,而拼音编辑距离是越小越好,因此取拼音编辑距离的倒数作为评价指标。即,评价指标为以下三点:①词频,②③ similarity。
然后对数据进行标准化处理,这是为了消除不同的数据指标量纲的影响。标准化公式如下:
其中,zij表示标准化后的第i个方案的第j个指标的值,xij表示原数据中的第i个方案的第j个指标。
然后确定各项指标的最优理想值z+和最劣理想值z-,最优理想值z+的各属性值是各候选方案中最好的值,也就是每个指标里最大的值。而最劣理想值z-是每个指标里最小的值。然后求出各个方案与最优理想值和最劣理想值之间的欧氏距离。对于第i个方案zi,它与最优解和最劣解的距离公式如下:
第i个方案的评分公式如下:
其中,score为最终的得分,作为评价方案的优劣标准,选择score最大的前八个候选词作为较合理的候选词。总体来说,公式如下:
考虑到错误词的候选词可能未出现在通过搜索引擎查询得到的数据中,进而筛选出在jieba词表内与可疑词相近的词。使用拼音编辑距离和结构相似度作为评判标准。对于拼音编辑距离,将可疑词xk按字粒度按照字粒度切分为n个字 c1,c2,...,cn,然后对每个字cm(1≤m≤n)在jieba词表内寻找拼音编辑距离小于等于1的所有字将这些字按照下标m作为位置进行排列组合,生成个词,这些词若登录在jieba词表内,也作为可疑词的候选词。对于结构相似度,使用预先训练好的孪生网络,计算和可疑词xk图片相似度大于80%的词,作为可疑词的候选词,加入候选词
额外地,使用n-gram算法,选择出可能出现在可疑词位置的词。对于n-gram 算法,我们假设第n个词出现的概率只和前n-1个词有关,因此句子的概率分布如下:
其中,P(s)是整个句子的概率,wn是组成句子的词语,表示第wi个词到 wi_n+1个词的历史序列,表示给定历史序列的词的前提下,当前词出现的概率。在本发明中,使用3-gram算法,句子的概率分布如下:
P(s)=P(w1|w0,w-1)P(w2|w1,w0)...P(wi|wi-1,wi-2)
将通过搜索引擎查询得到的三十条信息用3-gram算法构建3-gram表,以 (wi-1,wi-2,wi)的方式存储。遍历待纠错的原始语句S,S由词语x1,x2,...,xn组成,若存在xk-2=wk-2,xk-1=wk-1,则将wk认为是可以用来替代xk的候选词,加入候选词
在获得了所有可疑词的对应可替换的候选词之后,要使用候选词对原始语句 S进行修改。将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集。对于原始语句S,S由词语x1,x2,...,xn组成,现有可疑词xi,xj,..., xk,可疑词对应的候选词为依次将可疑词xm(m∈(i,j,...,k))用 xm的候选词替换,做排列组合,生成候选句集。
最后,要从候选句集中挑选出最优的语句作为最终输出结果。本发明使用句子的困惑度来评价一个句子整体的通顺程度。困惑度是用来衡量语言概率模型优劣的一个方法,困惑度越小,表明句子越合理。将困惑度最低也就是最通顺的句子作为正确句子输出。本发明使用GPT-2模型计算整个候选句的困惑度。对于 GPT-2模型,给定一语句,若其长度为n,首先将其向左移动一位作为label,将其去除末位作为input,将input输入到GPT-2获得的输出与label做交叉熵损失 Cross Entropy Loss,再求以自然数为底的次方即为所求困惑度。计算困惑度公式如下:
out=GPT-2(input)
loss=CrossEntropyLoss(out,label)
PPL=ln loss
其中,给定句子S,S由词语x1,x2,...,xn组成,input=x1,x2,...,xn-1, label=x2,...,xn,PPL为所求的困惑度。将所有候选句集和原始语句进行困惑度计算,从中选择困惑度最小的句子作为最终的纠错结果。
至此,基于在线查询的文本纠错已经完成,可以实现输入一段带有错误的文本,输出这个文本的正确形式。
对于本领域的技术人员来说,可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (10)
1.一种基于在线搜索辅助的中文文本纠错方法,其特征在于,包括以下步骤:
S1:将待纠正的原始语句进行分句,分句的依据为原始语句所包含的词语数量;
S2:将步骤S1分句后的语句通过搜索引擎进行查询,将前三十条查询结果的标题和摘要部分进行爬取并保存到本地;
S3:基于步骤S2获得的三十条查询结果,进行分词和统计词频,然后构建词频表;
S4:基于步骤S2获得的三十条查询结果,对其进行新词发现,将新词发现的结果加入jieba词表,再根据变化后的jieba词表对原始语句进行分词,获得原始语句分词后的结果;
S5:基于步骤S3获得的通过搜索引擎查询构建得到的词频表和步骤S4得到的原始语句分词结果,进行检错,使用原始语句分词结果在词频表中进行查询,如果某个词在词频表中的词频值小于阈值,则认为该词可能有误,作为可疑词;
S6:基于步骤S4获得的原始语句分词结果,进行未登录词检错补充,将未在jieba词库中的未登录词加入可疑词中;
S7:进行概率检错补充,将原始语句通过原始GPT-2模型,获得每个字的概率值,如果某字的概率值明显小于其他字的概率值,将该字加入可疑词中;
S8:基于步骤S7获得的可疑词,依次获得可疑词在原始语句中的上下文信息text_ori,以一个可疑词和对应的上下文信息text_ori为一对的方式存储;获得上下文信息的方式为根据距离,获取在原始语句中离可疑词距离为x及以内的词作为上下文信息text_ori;
S9:基于步骤S8获得的可疑词在原始语句中的上下文信息text_ori和步骤S2通过搜索引擎查询到的结果,依次获得text_ori在搜索引擎查询到的结果中的上下文信息text_search,此时的上下文信息text_search作为候选词,以一个可疑词和对应的候选词为一对的方式存储,仍然使用根据距离的方式,分别获取搜索引擎查询到的结果中距离text_ori为2,4,6的词作为上下文信息text_search;
S10:基于步骤S9获得的候选词,分别计算候选词与对应的可疑词的拼音编辑距离和结构相似度;其中,结构相似度使用预先构建好的孪生网络进行计算;
S11:基于步骤S10获得的候选词与对应的可疑词的拼音编辑距离和结构相似度和步骤S3得到的词频表,使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,选取得分最高的前8个候选词作为可疑词的候选词;
S12:基于步骤S7获得的可疑词,筛选出在jieba词表内与可疑词拼音编辑距离较小的词和结构相似度较高的词,也作为可疑词的候选词加入到步骤S10获得的可疑词的候选词中;
S13:基于步骤S2获得的搜索引擎查询结果,构建3-gram词表,使用n-gram算法,选择出可能出现在可疑词位置的词,也作为可疑词的候选词加入到步骤S10获得的可疑词的候选词中;
S14:基于步骤S13获得的可疑词的候选词和步骤S6获得的可疑词,将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集,因为可能原始语句无误,因此候选句集中再加入原始语句;
S15:基于步骤S14获得的候选句集,使用原始GPT-2模型计算整个候选句的困惑度,选择困惑度最低的句子作为最终结果。
2.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S1中将待纠正的原始语句进行分句,分句条件为,先对原始语句使用jieba进行分词,如果原始语句分词结果的词语个数大于等于15,则按照句号、问号、感叹号、分号将原始语句进行切分。如果在切分后的短句中,词语个数仍然大于等于15,则按照逗号继续切分;S3中将爬取到的三十条查询结果的标题和摘要,使用jieba分词,将它们分为词语,然后统计每个词出现的次数,出现次数即为这个词的词频,将每个词和它对应的词频保存下来,作为词频表。
3.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S4中对查询结果进行新词发现,采用新词发现算法,主要分为3个步骤:a)将语料文本生成n-gram表,并统计每个词的词频,b)利用凝固度从之前的n-gram表中筛选出备选新词,c)再通过自由度从备选新词中筛选出最终的新词;给定一个原始语句S,分词后的结果为x1,x2,...,xn;
凝固度用点间互信息表示,公式为:
其中,PMI(x,y)是点间互信息,p(x,y)是指两个词一起出现的概率,p(x),p(y)是指各词出现的概率;凝固度越大,说明这两个词出现在一起的概率越大,是一个词语的可能性也就越大;
自由度用左右熵表示,左右熵公式分别为为:
其中,ELeft(PreW)表示左熵,ERight(SufW)表示右熵,PreW是词W前缀的集合,SufW是词W后缀的集合,自由度越大,说明它的周边词越丰富,其成为一个独立的词的可能性也就越大。
4.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S5中使用原始语句分词结果在词频表中进行查询,进行检错,具体是指:在已经构建好的词频表中,依次查询原始语句分词结果x1,x2,...,xn在词频表中的词频值c1,c2,...,cn,选择c1,c2,...,cn中的最大值cmax作为基准,若其他词的词频值ck(k≠max)小于5%*cmax,则认为该词可能有误,若该词不在可疑词中,则加入到可疑词中;S6中所述的未登录词检错补充,具体是指:在jieba词表内查找原始语句分词结果x1,x2,...,xn,如果词语x不在jieba词表内,则认为该词可能有误,加入到可疑词中;S7中所述的概率检错补充,具体是指:句子S由词语x1,x2,...,xn组成,而GPT-2模型可以输入真实前文x1,x2,...,xm-1,获得下一个词xm′可能的词和其对应的概率值构成的概率值表;根据每个原始语句的真实词xm获得在概率值表中的概率p1,p2,...,pn,计算其中的中位值pm,如果有词语xm的概率值小于中位值10%*pm,则认为该词可能有误,若该词不在可疑词中,则加入到可疑词中。
5.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S8中获得可疑词在原始语句中的上下文信息text_ori,具体是指:假设现有原始语句S,S由词语x1,x2,......,xn组成,可疑词为xk,根据距离公式:
dis=min(3,wordnum//2)
其中,wordnum代表分词后的词语个数,通过计算得到距离dis,获得原始语句中距离可疑词xk为dis及以内的所有词语,作为xk的上下文信息text_ori,text_ori=xk-dis,xk-dis+1,...,xk-1,xk+1,...,xk+dis;S9中获得上下文信息text_ori在搜索引擎查询到的结果中的上下文信息text_search,具体是指:在保存到本地搜索引擎查询到的三十条结果内容中,根据预设距离获得上下文信息text_ori的上下文信息text_search,搜索引擎的一条结果为S′,由词语x′1,x′2,...,xj′组成,现有原始语句S,S由词语x1,x2,...,xn组成,可疑词为xk,xk-dis,xk-dis+1,...,xk-1,xk+1,...,xk+dis是xk的上下文信息text_ori;需要对每个上下文信息text_ori,都在S′中根据距离寻找上下文信息text_search,距离分别选取2,4,6;对于上下文信息text_ori中的xk-dis,若xk-dis也在S′中出现,则x′k-dis-2,x′k-dis-1,xk-dis+1′,xk-dis+2′是xk-dis在S′中距离为2的上下文信息text_search,x′k-dis-4,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+4是x1在S′中距离为4的上下文信息text_search,x′k-dis-6,...,x′k-dis-1,x′k-dis+1,...,x′k-dis+6是x1在S′中距离为6的上下文信息text_search;以此类推对xk-dis+1,...,xk-1,xk+1,...,xk+dis做相同的操作,获得上下文信息text_search;将这些上下文信息text_search作为对应可疑词的候选词。
6.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S10中计算候选词与对应的可疑词的拼音编辑距离和结构相似度,具体是指:编辑距离是从一个字符串变到另一个字符串的最小编辑次数,其中每次编辑只能在字符串中插入一个字符、删除一个字符或者修改一个字符;而拼音编辑距离是两个汉语转换为无音标的拼音后的编辑距离;拼音编辑距离公式如下:
pydis=LS(py1,py2)
其中,pydis表示拼音编辑距离,LS表示编辑距离计算,py1,py2分别表示两个词的无音标拼音;
结构相似度使用预先训练的孪生网络进行图形相似度计算来获取;孪生网络是连体的神经网络,其中的两个神经网络共享参数权重;孪生神经网络有两个输入graph1,graph2,将两个输入放入两个神经网络Network1和Network2,在获得主干特征提取网络之后,获取到一个多维特征,将其平铺到一维上,就获得两个输入的一维向量,将这两个一维向量进行相减,再进行绝对值求和,相当于求取了两个一维向量的距离,然后对这个距离进行全连接,对结果取sigmoid,使其值在0-1之间,代表两个输入图片的相似程度;
因为没有较好的汉字图片数据集,因此设计了一套用于计算汉字图形相似度的汉字图片数据集,使用OpenCV,将每一个汉字ck的不同字体形式生成图片同一汉字ck的不同字体图片都视为同一类型,不同汉字视为不同类型;训练时,当两个输入指向同一个类型的图片时,此时标签为1,当两个输入指向不同类型的图片时,此时标签为0,然后将网络的输出结果和真实标签进行交叉熵运算,就可以作为最终的loss,结构相似度公式如下:
similarity=Graphsimi(graph1,graph2)
其中,similarity为结构相似度,Graphsimi为孪生网络模型,graph1,graph2分别为使用两个词语生成的词语图片,作为孪生神经网络的两个输入。
7.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S11中所述的使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,具体是指:topsis算法是根据有限个评价对象与理想化目标的接近程度进行排序的方法,首先对数据进行正向化处理,正向化处理是指将各个评价指标都处理成越大越好,评价指标为候选词的词频、候选词与可疑词的拼音编辑距离以及候选词与可疑词的结构相似度,词频,结构相似度都是越大越好,因此不用处理,而拼音编辑距离是越小越好,因此取拼音编辑距离的倒数作为评价指标;即,评价指标为以下三点:①词频,②pydis为拼音编辑距离,③结构相似度similarity;
然后对数据进行标准化处理,这是为了消除不同的数据指标量纲的影响,标准化公式如下:
其中,zij表示标准化后的第i个方案的第j个指标的值,xij表示原数据中的第i个方案的第j个指标;
然后确定各项指标的最优理想值z+和最劣理想值z-,最优理想值z+的各属性值是各候选方案中最好的值,也就是每个指标里最大的值,而最劣理想值z-是每个指标里最小的值,然后求出各个方案与最优理想值和最劣理想值之间的欧氏距离,对于第i个方案zi,它与最优解的距离公式如下:
对于第i个方案zi,它与最劣解的距离公式如下:
第i个方案的评分公式如下:
其中,Si表示第i个方案的评分;
由此得出各方案与最优方案的接近程度,作为评价方案的优劣标准,最后得到各个方案的优劣值。
8.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S12中筛选出在jieba词表内与可疑词拼音编辑距离较小的词和结构相似度较高的词,具体是指:将可疑词x按照字粒度切分为n个字c1,c2,...,cn,然后对每个字cm在jieba词表内寻找拼音编辑距离小于等于1的所有字c1′,c2′,...,cl′,将这些字c1′,c2′,...,cl′按照字cm在可疑词x里的位置进行排列组合,即和c1拼音编辑距离小于等于1的字在第一个位置,和c2拼音编辑距离小于等于1的字在第二个位置,以此类推,组合后生成的词若登录在jieba词表内,则认为该词是正常词,也作为可疑词的对应候选词。
9.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S13中所述的使用n-gram算法,选择出可能出现在可疑词位置的词,具体是指:对于n-gram算法,假设第n个词出现的概率只和前n-1个词有关,因此句子的概率分布如下:
其中,P(s)是整个句子的概率,wn是组成句子的词语,表示第wi个词到wi-n+1个词的历史序列,表示给定历史序列的词的前提下,当前词出现的概率;在本发明中,使用3-gram算法,句子的概率分布如下:
P(s)=P(w1|w0,w-1)P(w2|w1,w0)...P(wi|wi-1,wi-2)
将通过搜索引擎查询得到的三十条信息用3-gram算法构建3-gram表,以(wi-1,wi-2,wi)的方式存储;遍历待纠错的原始语句S,S由词语x1,x2,...,xn组成,若存在xi-2=wi-2,xi-1=wi-1,则将wi认为是可以用来替代xi的候选词;S14中将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集,具体是指:对于原始语句S,S由词语x1,x2,...,xn组成,现有可疑词xi,xj,...,xk,依次将xi用xi的候选词替换,xj用xj的候选词替换,……,xk用xk的候选词替换,生成候选句集。
10.根据权利要求1所述的基于在线搜索辅助的中文文本纠错方法,其特征在于,S15中所述的使用原始GPT-2模型计算整个候选句的困惑度,具体是指:对于给定的语句,若其长度为n,首先将其向左移动一位作为label,将其去除末位作为input,将input输入到GPT-2获得的输出与label做交叉熵损失Cross Entropy Loss,再求以自然数为底的次方即为所求困惑度;困惑度是用来衡量语言概率模型优劣的一个方法,困惑度越小,表明句子越合理;计算困惑度公式如下:
out=GPT-2(input)
loss=CrossEntropyLoss(out,label)
PPL=ln loss
其中,给定句子S,S由词语x1,x2,...,xn组成,input=x1,x2,...,xn-1,label=x2,...,xn,PPL为所求的困惑度;将所有候选句集和原始语句进行困惑度计算,从中选择困惑度最小的句子作为最终的纠错结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742412.7A CN115033773A (zh) | 2022-06-27 | 2022-06-27 | 一种基于在线搜索辅助的中文文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742412.7A CN115033773A (zh) | 2022-06-27 | 2022-06-27 | 一种基于在线搜索辅助的中文文本纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115033773A true CN115033773A (zh) | 2022-09-09 |
Family
ID=83127566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210742412.7A Pending CN115033773A (zh) | 2022-06-27 | 2022-06-27 | 一种基于在线搜索辅助的中文文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033773A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115630645A (zh) * | 2022-12-06 | 2023-01-20 | 北京匠数科技有限公司 | 一种文本纠错方法、装置、电子设备及介质 |
CN115658956A (zh) * | 2022-11-02 | 2023-01-31 | 无锡东方健康科技有限公司 | 基于会议音频数据的热点话题挖掘方法及系统 |
CN118428354A (zh) * | 2024-07-01 | 2024-08-02 | 大汉软件股份有限公司 | 一种特色话语的校对方法及设备 |
-
2022
- 2022-06-27 CN CN202210742412.7A patent/CN115033773A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658956A (zh) * | 2022-11-02 | 2023-01-31 | 无锡东方健康科技有限公司 | 基于会议音频数据的热点话题挖掘方法及系统 |
CN115658956B (zh) * | 2022-11-02 | 2024-05-03 | 无锡东方健康科技有限公司 | 基于会议音频数据的热点话题挖掘方法及系统 |
CN115630645A (zh) * | 2022-12-06 | 2023-01-20 | 北京匠数科技有限公司 | 一种文本纠错方法、装置、电子设备及介质 |
CN118428354A (zh) * | 2024-07-01 | 2024-08-02 | 大汉软件股份有限公司 | 一种特色话语的校对方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
Chiron et al. | ICDAR2017 competition on post-OCR text correction | |
CN112507065B (zh) | 一种基于注释语义信息的代码搜索方法 | |
US8140332B2 (en) | Technique for searching out new words that should be registered in dictionary for speech processing | |
Vylomova et al. | Word representation models for morphologically rich languages in neural machine translation | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Severyn et al. | Modeling relational information in question-answer pairs with convolutional neural networks | |
CN115033773A (zh) | 一种基于在线搜索辅助的中文文本纠错方法 | |
CN111259127A (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
Bertaglia et al. | Exploring word embeddings for unsupervised textual user-generated content normalization | |
Zarrella et al. | Mitre: Seven systems for semantic similarity in tweets | |
Wang et al. | DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN113033183A (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN109948144A (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
Ye et al. | Improving cross-domain Chinese word segmentation with word embeddings | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Hládek et al. | Learning string distance with smoothing for OCR spelling correction | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
Pal et al. | Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance | |
Bokaei et al. | Improved deep persian named entity recognition | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN113128224A (zh) | 一种中文纠错方法、装置、设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |