CN105975625A - 一种面向英文搜索引擎的中式英文查询纠错方法和系统 - Google Patents

一种面向英文搜索引擎的中式英文查询纠错方法和系统 Download PDF

Info

Publication number
CN105975625A
CN105975625A CN201610363398.4A CN201610363398A CN105975625A CN 105975625 A CN105975625 A CN 105975625A CN 201610363398 A CN201610363398 A CN 201610363398A CN 105975625 A CN105975625 A CN 105975625A
Authority
CN
China
Prior art keywords
word
english
candidate
chinese
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610363398.4A
Other languages
English (en)
Inventor
符文君
强成仓
魏圣磊
宁洪珂
张振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority to CN201610363398.4A priority Critical patent/CN105975625A/zh
Publication of CN105975625A publication Critical patent/CN105975625A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Abstract

本发明公开了一种面向英文搜索引擎的中式英文查询纠错方法和系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,中式英文纠错模块基于中式英文表达库,对查询词进行中式英文进行纠错,增加了基于拼接邻近词和拆分长词选择候选纠错查询方法,提高候选纠错查询集的准确度。

Description

一种面向英文搜索引擎的中式英文查询纠错方法和系统
技术领域
本发明涉及信息检索技术领域,具体为一种面向英文搜索引擎的中式英文查询纠错方法和系统。
背景技术
搜索引擎是网络信息检索的主要工具,随着信息全球化的飞速发展,用户对英文检索的需求日趋强烈,更多的用户使用英文查询词获取相关信息,尤其是学术资源。据统计,英文搜索引擎中的查询约有10%-15%的查询词存在拼写错误。由于搜索引擎通过用户输入的查询词提供相匹配的信息,查询词的正确性将直接影响搜索引擎搜索结果的准确性。通过对查询词进行纠错处理,可以展现更为优质的信息检索结果,为用户提供更为精准的搜索服务。目前,英文查询纠错技术的重点主要集中在单词层面,即对拼写错误的单词进行纠错,首先基于编辑距离为查询词选择候选纠错查询集,然后根据统计模型计算出候选纠错查询集中每个候选纠错查询的出现概率,最后综合候选纠错查询的编辑距离与其出现概率,从候选纠错查询集中选择最优的纠错查询。现有模型对语法层面考虑较少,对由中国用户使用英语的习惯带来的一些错误考虑得也不多,没有对查询词中出现的用词不规范和词序不当等情况进行纠错。中国用户在使用英语的过程中可能会按照组织中文的方式对英文单词进行组织,即出现语序不正确的情况,比如在表达“我很喜欢它”时,可能会出现“Ivery much like it”,正确的形式应是“I like it verymuch”。此外,在表达一个概念的时候也可能会出现选用“错误的”词组的情况,即搭配问题,选用的英文词组对应的中文可能是有意义的,但是英文词组本身却是不正确的搭配,比如词组“view point dynamics”,中文意思是观点动力学,是有意义的,但在英文中“view point dynamics”并不常见,正确的形式应该是“opinion dynamics”。另外,中国用户由于自身语言习惯,可能会在检索时出现错误输入汉语拼音,将单个英文单词错拆分成多个英文单词输入,多个英文单词合并输入,以及英文单词发音错误等导致的输入错误问题。
发明内容
本发明的目的在于提供一种英文查询纠错方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种英文查询词纠错方法及系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:
步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;
步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;
步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;
步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;
步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well-known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,
其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单词[0,j]位之间的编辑距离。Si到Dj的转换是通过替换、增加、删除字母等操作,需经多次操作实现。在获取满足条件的候选词的同时,获取原词变换到候选词需要进行的变换记录,步骤d,权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则,计算满足条件的候选词的评分,最后选取评分最高的M个作为最后的候选词,步骤e,将候选词评分最高的K个单词作为候选词,其中K可取32,当满足条件的单词不够时,也可少于32个,第三,基于拼接词方法,获取候选词集合,基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词,依次遍历整个查询词,并把相邻的K(K<=Len(Word))个词合并,判断合并后的词是否在英文词典中,如果存在,将该单词作为候选词,基于拼接词评分规则对候选词评分,拼接词评分规则是(90+拼接词个数),第四,基于拆分词方法,获取候选词集合,通过对检索词中的单词进行拆分来获取候选词,依次遍历整个检索词中的每个单词,首先将把单词分割成两个单词,通过英文词典判断分割后的两个单词是否是存在;如果存在,则将拆分结果作为候选词,并使用评分规则进行评分。其次,将单词分割成三个单词,判断分割后的单词是否存在,如果存在,则将拆分结果保存为候选词,并使用评分规则进行评分,如果一个单词有多种正确分割的方式,则通过N-gram词典,保留频次最高的分割方式,基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2),第五,生成候选纠错查询词集,分别从第二到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合,生成候选纠正查询集,第六,候选纠错查询词评分,对每个候选纠正查询进行评分,将评分最高K个的候选纠正查询作为查询词的纠正查询结果,本实施例中K取10,候选纠正查询词的评分S(C,Q)的计算方法如下:
其中,re=36,C=(w1,w2,...,wn)表示候选纠正查询集中的一个候选纠正查询,且C由单词w1,w2,...,wn构成,lev(Q,C)是查询Q和候选纠正查询C之间的编辑距离,S(C)是候选纠正查询在用户查询或文档集中的得分,S(C)计算公式如,S(C)=α*∑f(wi)+β*∑f(wi,wi+1)+γ*∑f(wi,wi+1,wi+2),其中,f(wi),f(wi,wi+1),f(wi,wi+1,wi+2)分别表示(wi),(wi,wi+1),(wi,wi+1,wi+2)在用户查询或文档集中的频率,α,β,γ表示n-gram的权重,其取值范围是(0,1),且α+β+γ=1,α,β,γ分别为0.5,0.3,0.2,K=10;
步骤六:结果输出模块,将步骤一到步骤五中得到纠错查询词呈现给用户。
优选的,在步骤一中的第二步中,直译的具体步骤如,首先是对得到的中文词组进行分词,分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词,对每个中文词进行翻译,将每个中文词的翻译结果连接起来就构成了“直译”出的英文串,每个中文词可能对应多个英文单词,那么就会“直译”出多个结果,例如,一个中文串包括两个中文词“中文词1”和“中文词2”,“中文词1”的翻译结果有“En11”和“En12”,“中文词2”的翻译结果有“En2”,那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对,所有的翻译对就构成了一个中式英文表达库。
优选的,在步骤五中,步骤d中的权重编辑距离评分方法为,1、增加字母,增加一个元音字母差异度为9,增加一个辅音字母,差异度为10,2、删除字母,删除一个元音字母差异度为10,删除一个辅音字母,差异度为11,3、替换字母,如果替换字母和被替换字母是上述的易混淆字母,则差异为8,例如’a’和’e’,’b’和’p’,’s’和’c’,’f’和’v’,’m’和’n’等;否则,如果两者都为元音字母,则差异度为11,两者都为辅音字母,差异度为12;一个为元音字母,另一个为辅音字母,则差异度为13,4、交换相邻字母,原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下,差异度较低为7,5、出现在单词首位的差异字母,将其差异度在原有的基础上乘以2,对于出现在第二个位置的差异字母,将它的差异度加1,而对于出现在最后一个位置的差异字母,如果差异类型为替换字母,则差异度加2,否则,加1,最后,把所有差异字母的差异度叠加,得到整个原词与候选词的差异度,候选词的评分为100减去候选词与原词的差异度。
与现有技术相比,本发明的有益效果是:本发明提供了一种中式英文纠错的方法,此方法主要结合中国用户使用英文的习惯对英文查询词进行纠错,实现了在语法层面上对查询词进行纠错,而且,优化传统查询纠错方法中获取候选纠错查询集的方法,首先,将基于编辑距离选择候选纠错查询的方法扩展为基于权重编辑距离的方法,其次,增加了基于拼接邻近词和拆分长词选择候选纠错查询方法,提高候选纠错查询集的准确度,另外,提供一种有效的计算候选纠错查询词编辑距离和查询词组合概率的方法,能够更好的在单词层面上进行纠错。
附图说明
图1为本发明的系统构成图;
图2为本发明的中式英文表达库的建立示意图;
图3为本发明的拼音纠错示意图;
图4为本发明的英文候选查询词纠错示意图;
图5为本发明的系统流程图。
图中:S1中式英文表达库构建模块、S2数据预处理模块、S3拼音纠错模块、S4中式英文纠错模块、S5英文候选查询词纠错模块、S6英文候选查询词纠错模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5
实施例
一种英文查询词纠错方法及系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:
步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,在步骤一中的第二步中,直译的具体步骤如,首先是对得到的中文词组进行分词,分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词,对每个中文词进行翻译,将每个中文词的翻译结果连接起来就构成了“直译”出的英文串,每个中文词可能对应多个英文单词,那么就会“直译”出多个结果,例如,一个中文串包括两个中文词“中文词1”和“中文词2”,“中文词1”的翻译结果有“En11”和“En12”,“中文词2”的翻译结果有“En2”,那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对,所有的翻译对就构成了一个中式英文表达库,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;
步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;
步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;
步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;
步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well-known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,
其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单词[0,j]位之间的编辑距离。Si到Dj的转换是通过替换、增加、删除字母等操作,需经多次操作实现。在获取满足条件的候选词的同时,获取原词变换到候选词需要进行的变换记录,步骤d,权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则,计算满足条件的候选词的评分,最后选取评分最高的M个作为最后的候选词,在步骤五中,步骤d中的权重编辑距离评分方法为,1、增加字母,增加一个元音字母差异度为9,增加一个辅音字母,差异度为10,2、删除字母,删除一个元音字母差异度为10,删除一个辅音字母,差异度为11,3、替换字母,如果替换字母和被替换字母是上述的易混淆字母,则差异为8,例如’a’和’e’,’b’和’p’,’s’和’c’,’f’和’v’,’m’和’n’等;否则,如果两者都为元音字母,则差异度为11,两者都为辅音字母,差异度为12;一个为元音字母,另一个为辅音字母,则差异度为13,4、交换相邻字母,原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下,差异度较低为7,5、出现在单词首位的差异字母,将其差异度在原有的基础上乘以2,对于出现在第二个位置的差异字母,将它的差异度加1,而对于出现在最后一个位置的差异字母,如果差异类型为替换字母,则差异度加2,否则,加1,最后,把所有差异字母的差异度叠加,得到整个原词与候选词的差异度,候选词的评分为100减去候选词与原词的差异度,步骤e,将候选词评分最高的K个单词作为候选词,其中K可取32,当满足条件的单词不够时,也可少于32个,第三,基于拼接词方法,获取候选词集合,基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词,依次遍历整个查询词,并把相邻的K(K<=Len(Word))个词合并,判断合并后的词是否在英文词典中,如果存在,将该单词作为候选词,基于拼接词评分规则对候选词评分,拼接词评分规则是(90+拼接词个数),第四,基于拆分词方法,获取候选词集合,通过对检索词中的单词进行拆分来获取候选词,依次遍历整个检索词中的每个单词,首先将把单词分割成两个单词,通过英文词典判断分割后的两个单词是否是存在;如果存在,则将拆分结果作为候选词,并使用评分规则进行评分。其次,将单词分割成三个单词,判断分割后的单词是否存在,如果存在,则将拆分结果保存为候选词,并使用评分规则进行评分,如果一个单词有多种正确分割的方式,则通过N-gram词典,保留频次最高的分割方式,基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2),第五,生成候选纠错查询词集,分别从第二步到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合,生成候选纠正查询集,第六,候选纠错查询词评分,对每个候选纠正查询进行评分,将评分最高K个的候选纠正查询作为查询词的纠正查询结果,本实施例中K取10,候选纠正查询词的评分S(C,Q)的计算方法如下:
其中,re=36,C=(w1,w2,...,wn)表示候选纠正查询集中的一个候选纠正查询,且C由单词w1,w2,...,wn构成,lev(Q,C)是查询Q和候选纠正查询C之间的编辑距离,S(C)是候选纠正查询在用户查询或文档集中的得分,S(C)计算公式如,S(C)=α*∑f(wi)+β*∑f(wi,wi+1)+γ*∑f(wi,wi+1,wi+2)其中,f(wi),f(wi,wi+1),f(wi,wi+1,wi+2)分别表示(wi),(wi,wi+1),(wi,wi+1,wi+2)在用户查询或文档集中的频率,α,β,γ表示n-gram的权重,其取值范围是(0,1),且α+β+γ=1,α,β,γ分别为0.5,0.3,0.2,K=10;
步骤六:结果输出模块,将步骤一到步骤五中得到纠错查询词呈现给用户,提供了一种中式英文纠错的方法,此方法主要结合中国用户使用英文的习惯对英文查询词进行纠错,实现了在语法层面上对查询词进行纠错,而且,优化传统查询纠错方法中获取候选纠错查询集的方法,首先,将基于编辑距离选择候选纠错查询的方法扩展为基于权重编辑距离的方法,其次,增加了基于拼接邻近词和拆分长词选择候选纠错查询方法,提高候选纠错查询集的准确度,另外,提供一种有效的计算候选纠错查询词编辑距离和查询词组合概率的方法,能够更好的在单词层面上进行纠错。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (3)

1.一种英文查询词纠错方法及系统,其特征在于:包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块,中式英文表达库构建模块通过对常用英文词组的直译,构建中式英文词组与对应正确英文词组的对照数据库,为中式英文纠错模块提供辅助信息,数据预处理模块实现对查询词的规范化处理,避免因用户不规范输入引起的纠错误差,提高纠错处理的准确度,拼音纠错模块对查询词进行拼音识别,如果查询词为拼音,则对查询词进行拼音翻译,本模块实现了对用户查询词的拼音兼容,中式英文纠错模块基于中式英文表达库,针对中国用户表达英文的特点,对查询词进行中式英文进行纠错,结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出,具体步骤如下:
步骤一:中式英文表达库构建模块,中式英文表达库的构建主要分为三步,首先统计英文中常见的词组,其次将常见英文词组翻译为中文词组,最后将中文词组“直译”为英文,至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库,具体步骤如,第一步,统计英文常见词组,首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率,取出由两个单词构成的词组中的词频在前60%、由三个单词构成的词组中的词频在前50%、由四个单词构成的词组中的词频在前40%、由五个单词的构成的词组中的词频在前30%的所有词组构成常见的英文词组,第二步,将第一步中的常见英文词组翻译成中文词组,词组英译中翻译采用基于统计机器翻译模型的方法,第三步,将第二步中的中文词组“直译”成英文词组,第四步,对中式英文表达库进行过滤,如果纠错对中“直译”的英文串在A1中的常见英文词组中,那么删除这个纠错对,第五步,通过第一步到第四步,“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库;
步骤二:数据预处理模块,对用户输入的查询词进行规范化处理,主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式;
步骤三:拼音纠错模块,将输入的英文查询串进行分词,通过拼音词典依次判断分割后的每个单词是否为拼音,如果全部为拼音,则调用拼音翻译模块把拼音翻译成汉字,如果翻译成功,则纠错程序直接返回翻译后的汉字,判断不为拼音或未翻译成功,则继续进行纠错,具体步骤如,(1)首先对输入英文查询串使用空格切分,拼音识别,(2)对(1)中的切分结果进行逐个识别,如果识别查询词是拼音,基于拼音翻译汉字的方法,将翻译结果返回给用户,如果识别结果不为拼音,则继续进行后续步骤的纠错处理,(3)拼音翻译,基于拼音词典、隐马尔科夫模型等方法,将拼音翻译为汉字,再将汉字翻译为相应的英文检索词,首先查找拼音词典,如果该拼音在词典中,则直接返回词典中所对应的中文,如果该拼音没有出现在词典中,采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化,先由拼音汉字语料训练得到隐马尔可夫模型,再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列,(4)在(3)中翻译成功后,则将翻译结果返回给用户,如果翻译失败,则继续进行后续步骤的纠错处理;
步骤四:中式英文纠错模块,基于步骤一构建的中式英文表达库进行纠错查询,如果中式英文表达库中存在该查询词对应的纠错对,则将其对应的正确英文词组作为纠错结果返回给用户,否则,查询词保持不变,继续进行后续步骤的纠错处理;
步骤五:候选查询词纠错模块,首先对查询串进行分词,保存切分结果,后续处理均基于切分结果处理,基于切分结果,分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词,最后根据评分标准,输出事先指定数目的最优纠错结果,第一,对用户输入的英文串进行英 文分词,第二,基于权重编辑距离方法,从英文词典中获取候选词集合,具体步骤如,步骤a,遍历查询词切分结果,判断单词是否在英文单词词典中,如果存在则遍历下一个单词,否则进行步骤b,步骤b,判断单词是否为包含连字符或斜杠的词,如TCP/IP,Well-known,如果不是,则进行步骤c,如果是,则把单词按照非字母符号分割,然后通过英文单词词典判断是否分割后的单词都在字典中,如果都在字典中,则认为此单词没有问题,继续遍历下一个单词,否则进行步骤c,步骤c,通过权重编辑距离获取单词的候选词集合,遍历已生成好的Trie树词典,采用深度优先的先序遍历算法来查找编辑距离不大于t=min(3,查询词长度/4)候选词,编辑距离计算公式如,
其中,Si为原始词,Dj为转换词,lev(Si,Dj)表示S单词的[0,i]位与D单词[0,j]位之间的编辑距离。Si到Dj的转换是通过替换、增加、删除字母等操作,需经多次操作实现。在获取满足条件的候选词的同时,获取原词变换到候选词需要进行的变换记录,步骤d,权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则,计算满足条件的候选词的评分,最后选取评分最高的M个作为最后的候选词,步骤e,将候选词评分最高的K个单词作为候选词,其中K可取32,当满足条件的单词不够时,也可少于32个,第三,基于拼接词方法,获取候选词集合,基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词,依次遍历整个查询词,并把相邻的K(K<=Len(Word))个词合并,判断合并后的词是否在英文词典中,如果存在,将该单词作为候选词,基于拼接词评分规则对候选词评分,拼接词评分规则是(90+拼接词个数),第四,基于拆分词方法,获取候选词集合,通过对检索词中的单词进行拆分来获取候选词,依次遍历整个检索词中的每个单词,首先将把单词分割成两个单词,通过英文词典判断分割后的两个单词是否存 在;如果存在,则将拆分结果作为候选词,并使用评分规则进行评分。其次,将单词分割成三个单词,判断分割后的单词是否存在,如果存在,则将拆分结果保存为候选词,并使用评分规则进行评分,如果一个单词有多种正确分割的方式,则通过N-gram词典,保留频次最高的分割方式,基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2),第五,生成候选纠错查询词集,分别从第二步到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合,生成候选纠正查询集,第六,候选纠错查询词评分,对每个候选纠正查询进行评分,将评分最高K个的候选纠正查询作为查询词的纠正查询结果,本实施例中K取10,候选纠正查询词的评分S(C,Q)的计算方法如下:
其中,re=36,C=(w1,w2,...,wn)表示候选纠正查询集中的一个候选纠正查询,且C由单词w1,w2,...,wn构成,lev(Q,C)是查询Q和候选纠正查询C之间的编辑距离,S(C)是候选纠正查询在用户查询或文档集中的得分,S(C)计算公式如,S(C)=α*∑f(wi)+β*∑f(wi,wi+1)+γ*∑f(wi,wi+1,wi+2)其中,f(wi),f(wi,wi+1),f(wi,wi+1,wi+2)分别表示(wi),(wi,wi+1),(wi,wi+1,wi+2)在用户查询或文档集中的频率,α,β,γ表示n-gram的权重,其取值范围是(0,1),且α+β+γ=1,α,β,γ分别为0.5,0.3,0.2,K=10;
步骤六:结果输出模块,将步骤一到步骤五中得到纠错查询词呈现给用户。
2.根据权利要求1所述的一种英文查询纠错方法及系统,其特征在于:在步骤一中的第二步中,直译的具体步骤如,首先是对得到的中文词组进行分词,分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词, 对每个中文词进行翻译,将每个中文词的翻译结果连接起来就构成了“直译”出的英文串,每个中文词可能对应多个英文单词,那么就会“直译”出多个结果,例如,一个中文串包括两个中文词“中文词1”和“中文词2”,“中文词1”的翻译结果有“En11”和“En12”,“中文词2”的翻译结果有“En2”,那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对,所有的翻译对就构成了一个中式英文表达库。
3.根据权利要求1所述的一种英文查询纠错方法及系统,其特征于:在步骤五中,步骤d中的权重编辑距离评分方法为,1、增加字母,增加一个元音字母差异度为9,增加一个辅音字母,差异度为10,2、删除字母,删除一个元音字母差异度为10,删除一个辅音字母,差异度为11,3、替换字母,如果替换字母和被替换字母是上述的易混淆字母,则差异为8,例如’a’和’e’,’b’和’p’,’s’和’c’,’f’和’v’,’m’和’n’等;否则,如果两者都为元音字母,则差异度为11,两者都为辅音字母,差异度为12;一个为元音字母,另一个为辅音字母,则差异度为13,4、交换相邻字母,原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下,差异度较低为7,5、出现在单词首位的差异字母,将其差异度在原有的基础上乘以2,对于出现在第二个位置的差异字母,将它的差异度加1,而对于出现在最后一个位置的差异字母,如果差异类型为替换字母,则差异度加2,否则,加1,最后,把所有差异字母的差异度叠加,得到整个原词与候选词的差异度,候选词的评分为100减去候选词与原词的差异度。
CN201610363398.4A 2016-05-26 2016-05-26 一种面向英文搜索引擎的中式英文查询纠错方法和系统 Pending CN105975625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610363398.4A CN105975625A (zh) 2016-05-26 2016-05-26 一种面向英文搜索引擎的中式英文查询纠错方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610363398.4A CN105975625A (zh) 2016-05-26 2016-05-26 一种面向英文搜索引擎的中式英文查询纠错方法和系统

Publications (1)

Publication Number Publication Date
CN105975625A true CN105975625A (zh) 2016-09-28

Family

ID=56956864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610363398.4A Pending CN105975625A (zh) 2016-05-26 2016-05-26 一种面向英文搜索引擎的中式英文查询纠错方法和系统

Country Status (1)

Country Link
CN (1) CN105975625A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN108241612A (zh) * 2016-12-27 2018-07-03 北京国双科技有限公司 标点符号处理方法和装置
CN108681533A (zh) * 2018-04-11 2018-10-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN108875743A (zh) * 2017-05-15 2018-11-23 阿里巴巴集团控股有限公司 一种文本识别方法及装置
CN108899016A (zh) * 2018-08-02 2018-11-27 科大讯飞股份有限公司 一种语音文本规整方法、装置、设备及可读存储介质
CN108920463A (zh) * 2018-06-29 2018-11-30 北京奇虎科技有限公司 一种基于网络攻击的分词方法及系统
CN109033065A (zh) * 2018-06-01 2018-12-18 昆明理工大学 一种英文单词拼写检查方法
CN109145287A (zh) * 2018-07-05 2019-01-04 广东外语外贸大学 印尼语单词检错纠错方法及系统
CN109785842A (zh) * 2017-11-14 2019-05-21 蔚来汽车有限公司 语音识别纠错方法以及语音识别纠错系统
CN109814734A (zh) * 2019-01-15 2019-05-28 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN109992796A (zh) * 2019-02-22 2019-07-09 中译语通科技股份有限公司 一种MerCube机器翻译管理控制系统及方法、计算机程序
CN110019684A (zh) * 2018-08-17 2019-07-16 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置、终端及存储介质
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110288031A (zh) * 2019-06-27 2019-09-27 浙江工业大学 一种基于序列学习的车牌识别方法
CN110377897A (zh) * 2018-04-13 2019-10-25 顺丰科技有限公司 中英文地址自动检测方法及系统
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN111310440A (zh) * 2018-11-27 2020-06-19 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111339757A (zh) * 2020-02-13 2020-06-26 上海凯岸信息科技有限公司 一种催收场景下语音识别结果的纠错方法
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN112001168A (zh) * 2020-07-14 2020-11-27 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质
CN112016328A (zh) * 2020-08-26 2020-12-01 华东师范大学 基于文本特征的学术机构名称实体对齐方法
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
CN112560846A (zh) * 2020-12-23 2021-03-26 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112685414A (zh) * 2020-12-29 2021-04-20 勤智数码科技股份有限公司 一种信息资源目录同数据资源进行关联的方法及装置
WO2021129411A1 (zh) * 2019-12-23 2021-07-01 华为技术有限公司 文本处理方法及装置
CN113807081A (zh) * 2021-09-18 2021-12-17 北京云上曲率科技有限公司 基于上下文的聊天文本内容纠错方法及装置
CN114676685A (zh) * 2022-05-26 2022-06-28 深圳市声扬科技有限公司 语音文本错误处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145285A1 (en) * 2002-01-29 2003-07-31 International Business Machines Corporation Method of displaying correct word candidates, spell checking method, computer apparatus, and program
US20050071332A1 (en) * 1998-07-15 2005-03-31 Ortega Ruben Ernesto Search query processing to identify related search terms and to correct misspellings of search terms
CN101369285A (zh) * 2008-10-17 2009-02-18 清华大学 一种中文搜索引擎中查询词的拼写校正方法
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
US20130197896A1 (en) * 2012-01-31 2013-08-01 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071332A1 (en) * 1998-07-15 2005-03-31 Ortega Ruben Ernesto Search query processing to identify related search terms and to correct misspellings of search terms
US20030145285A1 (en) * 2002-01-29 2003-07-31 International Business Machines Corporation Method of displaying correct word candidates, spell checking method, computer apparatus, and program
CN101369285A (zh) * 2008-10-17 2009-02-18 清华大学 一种中文搜索引擎中查询词的拼写校正方法
US20130197896A1 (en) * 2012-01-31 2013-08-01 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUIMING HUANG ET AL: "A Misspelling Intelligent Analysis Approach for Correcting Misspelled Words in English Text", 《JOURNAL OF CONVERGENCE INFORMATION TECHNOLOGY》 *
JIANFENG GAO ET AL: "A Large Scale Ranker-Based System for Search Query Spelling Correction", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
官连军: "智能容错英文输入引擎的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
窦光辉: "搜索引擎查询纠错的关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
颛悦 等: "一种支持混合语言的并行查询纠错方法", 《中文信息学报》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106528845B (zh) * 2016-11-22 2019-09-03 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN108241612B (zh) * 2016-12-27 2021-11-05 北京国双科技有限公司 标点符号处理方法和装置
CN108241612A (zh) * 2016-12-27 2018-07-03 北京国双科技有限公司 标点符号处理方法和装置
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN107329964B (zh) * 2017-04-19 2021-01-05 创新先进技术有限公司 一种文本处理方法及装置
CN108875743A (zh) * 2017-05-15 2018-11-23 阿里巴巴集团控股有限公司 一种文本识别方法及装置
CN108875743B (zh) * 2017-05-15 2022-02-22 创新先进技术有限公司 一种文本识别方法及装置
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN109785842B (zh) * 2017-11-14 2023-09-05 蔚来(安徽)控股有限公司 语音识别纠错方法以及语音识别纠错系统
CN109785842A (zh) * 2017-11-14 2019-05-21 蔚来汽车有限公司 语音识别纠错方法以及语音识别纠错系统
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN108681533A (zh) * 2018-04-11 2018-10-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN110377897A (zh) * 2018-04-13 2019-10-25 顺丰科技有限公司 中英文地址自动检测方法及系统
CN109033065A (zh) * 2018-06-01 2018-12-18 昆明理工大学 一种英文单词拼写检查方法
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN108920463A (zh) * 2018-06-29 2018-11-30 北京奇虎科技有限公司 一种基于网络攻击的分词方法及系统
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN109145287B (zh) * 2018-07-05 2022-11-29 广东外语外贸大学 印尼语单词检错纠错方法及系统
CN109145287A (zh) * 2018-07-05 2019-01-04 广东外语外贸大学 印尼语单词检错纠错方法及系统
CN108899016B (zh) * 2018-08-02 2020-09-11 科大讯飞股份有限公司 一种语音文本规整方法、装置、设备及可读存储介质
CN108899016A (zh) * 2018-08-02 2018-11-27 科大讯飞股份有限公司 一种语音文本规整方法、装置、设备及可读存储介质
CN110019684A (zh) * 2018-08-17 2019-07-16 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置、终端及存储介质
CN110019684B (zh) * 2018-08-17 2021-06-15 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置、终端及存储介质
CN111310440A (zh) * 2018-11-27 2020-06-19 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111310440B (zh) * 2018-11-27 2023-05-30 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111353025B (zh) * 2018-12-05 2024-02-27 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN109814734B (zh) * 2019-01-15 2022-04-15 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN109814734A (zh) * 2019-01-15 2019-05-28 上海趣虫科技有限公司 一种修正汉语拼音输入的方法及处理终端
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN109992796A (zh) * 2019-02-22 2019-07-09 中译语通科技股份有限公司 一种MerCube机器翻译管理控制系统及方法、计算机程序
CN109992796B (zh) * 2019-02-22 2023-07-04 中译语通科技股份有限公司 一种MerCube机器翻译管理控制系统及方法、计算机程序
CN110288031A (zh) * 2019-06-27 2019-09-27 浙江工业大学 一种基于序列学习的车牌识别方法
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN110413972B (zh) * 2019-07-23 2022-11-25 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
WO2021129411A1 (zh) * 2019-12-23 2021-07-01 华为技术有限公司 文本处理方法及装置
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN111339757A (zh) * 2020-02-13 2020-06-26 上海凯岸信息科技有限公司 一种催收场景下语音识别结果的纠错方法
CN112001168A (zh) * 2020-07-14 2020-11-27 咪咕文化科技有限公司 词语纠错方法、装置、电子设备及存储介质
CN112016328B (zh) * 2020-08-26 2023-06-09 华东师范大学 基于文本特征的学术机构名称实体对齐方法
CN112016328A (zh) * 2020-08-26 2020-12-01 华东师范大学 基于文本特征的学术机构名称实体对齐方法
CN112560846A (zh) * 2020-12-23 2021-03-26 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112685414A (zh) * 2020-12-29 2021-04-20 勤智数码科技股份有限公司 一种信息资源目录同数据资源进行关联的方法及装置
CN113807081A (zh) * 2021-09-18 2021-12-17 北京云上曲率科技有限公司 基于上下文的聊天文本内容纠错方法及装置
CN114676685B (zh) * 2022-05-26 2022-08-26 深圳市声扬科技有限公司 语音文本错误处理方法、装置、电子设备及存储介质
CN114676685A (zh) * 2022-05-26 2022-06-28 深圳市声扬科技有限公司 语音文本错误处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN105095204B (zh) 同义词的获取方法及装置
CN109840331B (zh) 一种基于用户词典的神经机器翻译方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN105068997B (zh) 平行语料的构建方法及装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成系统及方法
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN101131706A (zh) 一种查询修正方法及系统
CN103020230A (zh) 一种语义模糊匹配方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN106095778A (zh) 搜索引擎的中文搜索词自动纠错方法
CN104657440A (zh) 结构化查询语句生成系统及方法
CN102402561B (zh) 一种搜索方法和装置
CN103544309A (zh) 一种中文垂直搜索的检索串拆分方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN108845982A (zh) 一种基于词的关联特征的中文分词方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN104375988A (zh) 一种词语对齐方法及装置
WO2017012327A1 (zh) 句法分析的方法和装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928