CN102867040A - 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 - Google Patents
一种面向中文搜索引擎混杂语言的查询纠错方法及系统 Download PDFInfo
- Publication number
- CN102867040A CN102867040A CN2012103205752A CN201210320575A CN102867040A CN 102867040 A CN102867040 A CN 102867040A CN 2012103205752 A CN2012103205752 A CN 2012103205752A CN 201210320575 A CN201210320575 A CN 201210320575A CN 102867040 A CN102867040 A CN 102867040A
- Authority
- CN
- China
- Prior art keywords
- state
- word
- error correction
- inquiry
- completion status
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
Description
技术领域
本发明属于自然语言处理技术,尤其涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。
背景技术
现有的搜索引擎与用户交互的主要方式是由用户输入检索词,搜索引擎针对该检索词给出对应的匹配网页。因而,从用户输入的检索词中正确的理解用户的查询需求是搜索引擎需要不断完善的功能之一。相对于传统的文本,搜索引擎中用户输入的检索词错误概率更高、错误类型更多,这主要是由于搜索引擎用户基数庞大、网络语言新颖多样等原因。据统计,输入英文搜索引擎的查询中有10%-15%含有拼写错误。查询纠错技术是目前已被大多数搜索引擎普遍运用的一项自然语言处理技术,这一技术对于提高用户检索效率和检索结果命中率具有十分重要的意义。
此前,英文查询纠错技术的相关研究主要分为两类:一种是对单词拼写进行纠错,另一种是对用词不当进行纠错。前者主要注重基于编辑距离方程的纠错模型的研究,找出在于一定编辑距离内的最合适的替代单词;后者主要利用Ngram语言模型或朴素贝叶斯分类器来检测上下文中使用不当的单词。
多数的查询纠错方法都是根据正确的词典,基于噪声信道模型,为查询中的每个词条选取N个最优替代词条,统计最可能的概率组合。其中噪声信道模型计算查询中词条的可能替代词条取决于两个概率:一个是从查询中词条转换为其替代词条的可能性,也即为查询中词条到其替代词条的编辑距离;一个是替代词条在上下文语境中出现的可能性,也即为基于统计语言模型计算出的替代词条的出现概率。在查询纠错的过程中,首先,基于正确的词典,对查询中的词条逐个进行一定范围内的编辑,使其成为词典中的某个正确的词条;而后,利用噪声信道模型计算出在给予既定的查询的条件下该正确词条的出现概率,判断是否是最优的替代词条,并保留N个最优替代词条;最后,综合编辑距离和语言模型计算所得的概率,选取最佳的替代词条组合。
在英文查询纠错中,英文有空格作为词与词之间的分隔符,而中文词之间并没有既定的分隔符,要根据词典获取词条一定编辑距离范围内的N个最优候选词,则必须先对查询进行词语的切分。但是由于中文分词是基于语义的,当查询中出现错误时,分词结果往往也是错误的。而且中文搜索引擎的查询中包含汉字、拼音和英文,对查询中拼音片段和英文词片段的切分和纠错,采用传统的分词方法显然是无法完成的。
此前,中文查询纠错技术的研究大多是通过中文模糊音匹配,将中文查询词转换为其模糊音,并通过模糊音匹配找到与其相近的候选,并输出正确集合中存在的候选词。这种方案无法处理正确集合以外的中文查询错误,而且对中文搜索引擎中英文、拼音和中文共存的情况无法处理。
由于中文搜索引擎混杂语言查询的特点,英文查询纠错方法或简单的模糊音匹配的中文查询纠错方法都不能适用于中文搜索引擎的查询纠错。在中文搜索引擎的查询中,中文的错误类型主要为同音别字、近音别字、形近别字、汉字误写为拼音、前后字位置颠倒、多字漏字等;而英文的错误类型主要为单词中字母缺失、字母写错、字母多余、缺少空格、前后字位置颠倒等。与现有的方法相比,本发明针对中文搜索引擎查询的特点,构建面向混杂语言的异构字符树词典,使得查询纠错中对字符的处理变得简易,无需考虑英文字母的组合是拼音还是英文单词,无需显性的对拼音进行切分,而只需顺序的对查询中的字或字母进行编辑处理即可;利用高频或高点击次数的查询文本建立语言模型,使得纠错结果更符合用户的需求;在查询纠错的过程中,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;并利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
发明内容
为解决上述的技术问题,本发明提出了面向混杂语言的异构字符树词典、基于高频或高点击次数的查询构建的语言模型、中英文字编辑过程中的不同处理方式以及查询同步切分和纠错尝试等方法,从而实现了对中文搜索引擎查询中多种错误类型的处理,并有效地提高了查询纠错的准确率。
为达到以上目的而提供的一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:
步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;
步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
步骤3,对所述用户查询中的第n个字或字母进行编辑;
步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
步骤5,判断所述获得新的状态是否为完成状态,如果是,则在该点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述建立语言模型更新该状态的概率;
步骤6,记录编辑后的完成状态队列Cn、未完成状态队列NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑,其中,编辑距离是指两个字符之间,由一个转成另一个所需的最少编辑操作次数;
步骤7,判断第n个字是否为用户查询的最后一个字,如果是则进入步骤8,否则n递增到n+1并跳转至步骤3;
步骤8,选取所述最后一个字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
所述步骤1中:所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为所述中文字符的拼音字母,以所述拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值。
所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在所述节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点。
所述语言模型是利用高频或高点击次数的查询文本建立的,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
所述步骤3中:所述编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理,对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
所述步骤4中:状态转移的过程,主要包括:
a)根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径,并找到所述编辑后获得的字符串对应的路径终节点;
b)在所述状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。
所述步骤5中:状态状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态为完成状态,否则为未完成状态。
所述步骤5中,所述完成状态的判断方法是:通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
所述切分处理过程是,根据对状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
所述步骤8中:判定过程是基于候选状态特征向量的分类,分类过程中采用侯选状态中一种或多种特征实施分类过程。
所述步骤8还包括利用候选状态分类器通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。
为实现本发明的目的还提供了一种面向中文搜索引擎混杂语言的查询纠错系统,包括:
预处理单元,用于构建面向混杂语言的异构字符树词典,并利用高频或高点击次数的查询文本建立语言模型;
查询处理初始化单元,用于获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
编辑单元,用于对所述用户查询中的第n个字或字母进行编辑;
状态转移单元,用于以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
切分纠错单元,用于在所述获得的新的完成状态点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述语言模型更新该状态的概率;
最优状态选取单元,用于记录编辑后的完成状态于Cn、未完成状态于NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑;
判断处理单元,用于判断第n个字是否为用户查询的最后一个字,如果是则进入纠错结果输出单元,否则n递增到n+1并跳转至编辑单元;
纠错结果输出单元,用于选取所述最后一字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
所述的预处理单元包括:
混杂语言处理单元,用于在所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为中文字符的拼音字母,以拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值。
标记单元,所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在该节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点。
语言模型建立单元,利用高频或高点击次数的查询文本建立所述语言模型,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
编辑单元包括:
中文编辑单元,用于对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理;
英文编辑单元,用于对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
状态转移单元包括:
路径获取单元,根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典节点来寻找编辑后获得的字符串对应的词典树路径,并找到编辑后获得的字符串对应的路径终节点;
更新参数单元,用于在状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数改变。
所述切分纠错单元包括:
状态判断单元,根据状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态判断为完成状态,否则判断为未完成状态;
切分处理单元,通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
所述最优状态选取单元包括:
综合评判单元,用于根据状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
所述纠错结果输出单元包括:
判定单元,判定过程基于候选状态的特征向量实施候选状态的分类,采用侯选状态中一种或多种特征实施分类过程。
候选状态分类器,通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。
本发明所提供的一种面向中文搜索引擎混杂语言的查询纠错方法及系统,具有如下特点:
1.建面向混杂语言的异构字符树词典,使得查询纠错中对字符的处理变得简易,无需考虑英文字母的组合是拼音还是英文单词,无需显性的对拼音进行切分,而只需顺序的对查询中的字或字母进行编辑处理即可。
2.利用高频或高点击次数的查询文本建立语言模型,使得纠错结果更符合用户的需求。
3.在查询纠错的过程中,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的。
4.采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合。
5.利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
附图说明
图1是面向中文搜索引擎混杂语言的查询纠错方法流程图;
图2是面向混杂语言的异构字符树词典的构建过程;
图3是编辑操作和状态转移更新过程;
图4是面向中文搜索引擎混杂语言的查询纠错系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
如图1所示,一种面向中文搜索引擎混杂语言的查询纠错方法,包括以下步骤:
(1)构建面向混杂语言的异构字符树词典,并利用高频或高点击次数的查询文本建立语言模型。
步骤(1)对应图1中步骤102和步骤106。
在步骤102中,利用词库文件104来构建面向混杂语言的异构字符树词典的详细过程如图2所示。
在构建词典树的过程中,对中文字符和其他字符的处理稍有不同。从步骤206-214中可以看出,在获取词库中的词后,将词中的汉字转为对应的拼音,记录下该字符序列(多音字则扩展为多个字符序列,如“重要”扩展为”zhongyao”和”chongyao”),而后建立从根节点开始的该字符序列路径,并在该路径最后的节点中存储该词,标记该节点为完成节点。当字符树词典的构建过程结束后,所有未被标注为完成节点的节点均为未完成节点。
在步骤106中,利用高频或高点击次数的查询文本108来构建语言模型。
高频或高点击次数的查询文本是高于F频次或C点击次数的用户查询日志中的查询。查询频次和点击次数作为用户查询的两个特性,分别代表了查询的热度和查询结果的质量,故而用于建立语言模型的查询文本,倾向于用热度较高或者质量较高的用户查询。针对不同批次的用户查询日志F和C值,将有所不同。F和C的值的选取,可通过对用户查询日志进行抽样统计而获得。
例如,对查询日志进行抽样,当样本S中频次F′和点击率C′满足以下条件(设查询记录为s,frequency(s)为查询的频次,click(s)为查询的点击次数,is_correct(s)表示该查询是否正确,δ为判定查询文本质量好坏的阈值):
Df={s|frequency(s)>f^is_correct(s)=true,s∈S}
Ef={s|frequency(s)>f,s∈S}
Dc={s|click(s)>c^is_correct(s)=true,s∈S}
Ec={s|click(s)>c,s∈S}
则,可得F和C的值:
F=F′,C=C′
设整个搜索引擎中的查询日志集合为Q,则用于建立语言模型的用户日志集合FQ满足:
FQ={s|frequency(s)≥F∨click(s)≥C,s∈Q}
语言模型中以中文字(或中文词)和英文单词作为统计单位,并对所有统计单位采用统一的编码形式,确保编码不重复。
(2)获取用户查询,初始化n=1,建立了两个空的查询队列,分别为完成状态队列Cn和未完成状态队列NCn。
步骤(2)对应图1中步骤110和步骤114。
(3)对用户查询中的第n个字或字母进行编辑,该编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换等中文编辑规则处理,对英文字母则进行匹配、替换、插入、删除、前后字交换等英文编辑规则处理;
步骤(3)对应图1中步骤116。
在步骤116中,对查询中的字进行编辑操作的详细过程如图3所示。对查询中的字或字母进行编辑时,该编辑操作对中文字、英文字母采取不同的处理。对中文字进行编辑时,同音匹配是将中文字转换为其拼音;多音匹配是将多音字转换为其多个拼音;形近字替换是将中文字转换为其形近字的拼音;近音替换是将中文字转换为其近似拼音;前后字交换操作是指将当前字与其后一个字进行交换,并进行匹配操作。在对英文字母进行编辑时,替换是指将英文字母替换为除该字母以外的25个英文字母,或者依据某种策略替换为该字母对应的容易出错的字母;插入是指在英文字母后插入a到z之间的某个英文字母或其他特殊字符。
(4)以编辑后获得的字符串作为状态转移条件,基于状态队列Cn-1和NCn-1中的状态进行状态转移,并获得新的状态;
(5)判断新的状态是否为完成状态,如果是,则在该点对查询进行一次切分和纠错尝试,以状态中对应的词典节点中的词作为该切分段的替代候选词,基于语言模型更新该状态的概率;
新的状态是否为完成状态,取决于状态转移过程中获得的路径终节点是否为完成节点以及该状态的状态类型标记。如果状态转移过程中获得的路径终节点为完成节点且该状态的状态类型标记为切分完成态,则该状态为完成状态,否则,该状态为未完成状态。
步骤(4)和步骤(5)对应图1中步骤120。
在步骤120中,状态转移的详细过程如图3所示。
当通过步骤(3)获得了第n个字对应的字符串X1,X2,X3...Xk时,对每个字符串基于前一字的状态队列Cn-1和NCn-1进行状态转移。
在状态转移的过程中,首先判断是状态队列Cn-1和NCn-1是否均为空,如果状态队列Cn-1和NCn-1均为空,则从字典根节点开始寻找字符串路径;如果状态队列Cn-1或NCn-1不为空,对于状态队列Cn-1中的状态从字典根节点开始寻找字符串路径,对于状态队列NCn-1中的状态从该状态中存储的词典节点开始寻找字符串路径。在得到字符串路径终节点后,判断其是否为完成节点,如果是完成节点,则生成完成状态和未完成状态,并更新编辑距离、编辑次数等状态参数;否则仅生成未完成状态,并更新编辑距离、编辑次数等状态参数。
当字符串路径终节点为完成节点时,生成的完成状态是由完成节点中存储的词条对应衍生出来的。每产生新的完成状态,即实现了对查询的一次切分,而此次切分段的替代词条即为存储在对应完成节点中的词条。当且仅当生成了完成状态后,根据语言模型,更新词条出现在上下文中的概率,并存储于该完成状态中。
此外,为了用于状态优劣的判断和最终纠错结果候选集的限制条件判定,在新获得的状态中,将存储如下信息:累计编辑距离、总编辑操作次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数、候选词条的概率、未完成切分部分与词典路径相匹配的字符串、当前状态类型等。
(6)记录编辑后的完成状态于Cn、未完成状态于NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑;
步骤(6)对应图1中步骤122。
由于每次编辑操作和状态转移后都会产生很多的状态,而状态队列中能存储的状态有限且产生的多数状态是无用状态,那么就需要对状态进行评估,仅选取N个最优的完成状态存储于完成状态队列Cn和M个最优的未完成状态存储于未完成状态队列NCn中,如步骤122。在评估状态优劣时,可利用累计编辑距离和候选词条概率等状态信息,但不限于此来进行评判。
即对完成状态队列或未完成状态队列中的状态进行优劣选取取决于至少包含状态中累计编辑距离、候选词条概率等状态参数的综合评判,例如以累计编辑举例和候选词条概率的log绝对值的加权平均值作为状态优劣的判断标准,该值越小则状态越优,并综合考虑各种编辑操作的次数作为状态的评判,超过一定编辑次数的状态则予以淘汰。
设用户查询为W1W2W3...Wj,s为第r字被编辑后的某一状态,s状态中存储的纠错后字符串序列为W′1 W′2 W′3...Ws′,editdistance(s)为s中的累计编辑距离,word_probability(s)为s中的候选词条概率。则状态s出现的概率为:
p(s)=p(W′1 W′2 W′3...W′s|W1W2W3...Wr)
而在同一个状态队列中,所有状态已编辑的字数r相同。所以在一个状态队列中分子p(W1W2W3...Wr)对于所有状态相同,因此状态s出现的概率仅与分母有关:
p(s)∝p(W1W2W3...Wr|W′1 W′2 W′3...W′s)×p(W′1 W′2 W′3...W′s)
log(p(s))∝log(p(W1W2W3...Wr|W′1 W′2 W′3...W′s))+log(p(W′1 W′2 W′3...W′s))
而editdistance(s)和word_probability(s)与上式中两个概率的关系为:
log(p(W1W2W3...Wr|W′1 W′2 W′3...W′s))=editdistance(s)
log(p(W′1 W′2 W′3...W′s))
=log(p(W′1))+log(p(W′2|W′1))+log(p(W′3|W′1W′2))+...+log(p(W′s|W′1W′2W′3...Ws-1′))
≈log(word_probability(s))
故而状态s出现的概率为:
log(p(s))∝editdistance(s)+word_probability(s)
当队列中有多个状态时,利用上式来获取出现可能性较高的状态,获得最佳的切分方式和对应的替代词条组合。
(7)判断第n个字是否为用户查询的最后一个字或字母,如果是则进入步骤(8),否则n进行自增并跳转至步骤(3);
步骤(7)对应图1中步骤124和步骤118。
(8)选取最后一字编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
步骤(8)对应图1中步骤126、步骤128、步骤130和步骤132。
在步骤126和步骤128中,获取最后一字编辑完成后的完成状态后,对得到的一组最优侯选状态进行判定,判定过程是基于其特征向量的分类,分类方法可采用支持向量机、决策树等。
其中所述候选状态分类器可通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。分类过程中采用的特征包括侯选状态中累计编辑距离、候选查询概率、纠错结果的长度、总编辑次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数以及原始查询的概率等特征,此外还包括可信词典特征、搜索结果特征以及敏感词特征等。
一种面向中文搜索引擎混杂语言的查询纠错系统,包括:
预处理单元S100,用于构建面向混杂语言的异构字符树词典,并利用高频或高点击次数的查询文本建立语言模型;
所述的预处理单元S100包括:
混杂语言处理单元,用于在所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为中文字符的拼音字母,以拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值;
标记单元,所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在该节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点。
语言模型建立单元,利用高频或高点击次数的查询文本建立所述语言模型,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
F和C的值的选取,可通过对用户查询日志进行抽样统计而获得。
例如,对查询日志进行抽样,当样本S中频次F′和点击率C′满足以下条件(设查询记录为s,frequency(s)为查询的频次,click(s)为查询的点击次数,is_correct(s)表示该查询是否正确,δ为判定查询文本质量好坏的阈值):
Df={s|frequency(s)>f^is_correct(s)=true,s∈S}
Ef={s|frequency(s)>f,s∈S}
Dc={s|click(s)>c^is_correct(s)=true,s∈S}
Ec={s|click(s)>c,s∈S}
则,可得F和C的值:
F=F′,C=C′
设整个搜索引擎中的查询日志集合为Q,则用于建立语言模型的用户日志集合FQ满足:
FQ={s|frequency(s)≥F∨click(s)≥C,s∈Q}
语言模型中以中文字(或中文词)和英文单词作为统计单位,并对所有统计单位采用统一的编码形式,确保编码不重复。
查询处理初始化单元S200,用于获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
编辑单元S300,用于对所述用户查询中的第n个字或字母进行编辑;
所述编辑单元S300包括:
中文编辑单元,用于对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理;
英文编辑单元,用于对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
具体而言,对查询中的字或字母进行编辑时,该编辑操作对中文字、英文字母采取不同的处理。对中文字进行编辑时,同音匹配是将中文字转换为其拼音;多音匹配是将多音字转换为其多个拼音;形近字替换是将中文字转换为其形近字的拼音;近音替换是将中文字转换为其近似拼音;前后字交换操作是指将当前字与其后一个字进行交换,并进行匹配操作。在对英文字母进行编辑时,替换是指将英文字母替换为除该字母以外的25个英文字母,或者依据某种策略替换为该字母对应的容易出错的字母;插入是指在英文字母后插入a到z之间的某个英文字母或其他特殊字符。
状态转移单元S400,用于以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
状态转移单元S400包括:
路径获取单元,根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典节点来寻找编辑后获得的字符串对应的词典树路径,并找到编辑后获得的字符串对应的路径终节点;
更新参数单元,用于在状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数改变。
切分纠错单元S500,用于在所述获得的新的完成状态点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述语言模型更新该状态的概率;
所述切分纠错单元S500包括:
状态判断单元,根据状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态判断为完成状态,否则判断为未完成状态;
切分处理单元,通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
具体内容如下:
当通过获得了第n个字对应的字符串X1,X2,X3...Xk时,对每个字符串基于前一字的状态队列Cn-1和NCn-1进行状态转移。
在状态转移的过程中,首先判断是状态队列Cn-1和NCn-1是否均为空,如果状态队列Cn-1和NCn-1均为空,则从字典根节点开始寻找字符串路径;如果状态队列Cn-1或NCn-1不为空,对于状态队列Cn-1中的状态从字典根节点开始寻找字符串路径,对于状态队列NCn-1中的状态从该状态中存储的词典节点开始寻找字符串路径。在得到字符串路径终节点后,判断其是否为完成节点,如果是完成节点,则生成完成状态和未完成状态,并更新编辑距离、编辑次数等状态参数;否则仅生成未完成状态,并更新编辑距离、编辑次数等状态参数。
当字符串路径终节点为完成节点时,生成的完成状态是由完成节点中存储的词条对应衍生出来的。每产生新的完成状态,即实现了对查询的一次切分,而此次切分段的替代词条即为存储在对应完成节点中的词条。当且仅当生成了完成状态后,根据语言模型,更新词条出现在上下文中的概率,并存储于该完成状态中。
此外,为了用于状态优劣的判断和最终纠错结果候选集的限制条件判定,在新获得的状态中,将存储如下信息:累计编辑距离、总编辑操作次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数、候选词条的概率、未完成切分部分与词典路径相匹配的字符串、当前状态类型等。
最优状态选取单元S600,用于记录编辑后的完成状态于Cn、未完成状态于NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑;
所述最优状态选取单元S600包括:
综合评判单元,用于根据状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
由于每次编辑操作和状态转移后都会产生很多的状态,而状态队列中能存储的状态有限且产生的多数状态是无用状态,那么就需要对状态进行评估,仅选取N个最优的完成状态存储于完成状态队列Cn和M个最优的未完成状态存储于未完成状态队列NCn中。在评估状态优劣时,可利用累计编辑距离和候选词条概率等状态信息,但不限于此来进行评判。
即对完成状态队列或未完成状态队列中的状态进行优劣选取取决于至少包含状态中累计编辑距离、候选词条概率等状态参数的综合评判,例如以累计编辑举例和候选词条概率的log绝对值的加权平均值作为状态优劣的判断标准,该值越小则状态越优,并综合考虑各种编辑操作的次数作为状态的评判,超过一定编辑次数的状态则予以淘汰。
设用户查询为W1W2W3...Wj,s为第r字被编辑后的某一状态,s状态中存储的纠错后字符串序列为W1′W2′W3′...Ws′,editdistance(s)为s中的累计编辑距离,word probability(s)为s中的候选词条概率。则状态s出现的概率为:
p(s)=p(W′1W′2W′3...W′s|W1W2W3...Wr)
而在同一个状态队列中,所有状态已编辑的字数r相同。所以在一个状态队列中分子p(W1W2W3...Wr)对于所有状态相同,因此状态s出现的概率仅与分母有关:
p(s)∝p(W1W2W3...Wr|W′1W′2W′3...W′s)×p(W′1W′2W′3...W′s)
log(p(s))∝log(p(W1W2W3...Wr|W′1W′2W′3...W′s))+log(p(W′1W′2W′3...W′s))
而editdistance(s)和word_probability(s)与上式中两个概率的关系为:
log(p(W1W2W3...Wr|W′1W′2W′3...W′s))=editdistance(s)
log(p(W′1 W′2 W′3...W′s))
=log(p(W′1))+log(p(W′2|W′1))+log(p(W′3|W′1 W′2))+...+log(p(W′s|W′1 W′2 W′3...Ws-1′))
≈log(word_probability(s))
故而状态s出现的概率为:
log(p(s))∝editdistance(s)+word_probability(s)
当队列中有多个状态时,利用上式来获取出现可能性较高的状态,获得最佳的切分方式和对应的替代词条组合。
判断处理单元S700,用于判断第n个字是否为用户查询的最后一个字,如果是则进入纠错结果输出单元,否则n递增到n+1并跳转至编辑单元;
纠错结果输出单元S800,用于选取所述最后一字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
所述纠错结果输出单元S800包括:
判定单元,判定过程基于候选状态的特征向量实施候选状态的分类,采用候选状态中一种或多种特征实施分类过程;
候选状态分类器,通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。
其中,判定过程是基于其特征向量的分类,分类方法可采用支持向量机、决策树等。分类过程中采用的特征包括侯选状态中累计编辑距离、候选查询概率、纠错结果的长度、总编辑次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数以及原始查询的概率等特征,此外还包括可信词典特征、搜索结果特征以及敏感词特征等。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (15)
1.一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:
步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;
步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
步骤3,对所述用户查询中的第n个字或字母进行编辑;
步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
步骤5,判断所述获得新的状态是否为完成状态,如果是,则在该点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述建立语言模型更新该状态的概率;
步骤6,记录编辑后的完成状态队列Cn、未完成状态队列NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑,其中,编辑距离是指两个字符之间,由一个转成另一个所需的最少编辑操作次数;
步骤7,判断第n个字是否为用户查询的最后一个字,如果是则进入步骤8,否则n递增到n+1并跳转至步骤3;
步骤8,选取所述最后一个字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
2.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤1中:所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为所述中文字符的拼音字母,以所述拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值;
所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在所述节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点;
所述语言模型是利用高频或高点击次数的查询文本建立的,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
3.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤3中:所述编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理,对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
4.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤4中:状态转移的过程,包括:
c)根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径,并找到所述编辑后获得的字符串对应的路径终节点;
d)在所述状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。
5.根据权利要求1的查询纠错方法,其特征在于,所述步骤5中,所述完成状态的判断方法是:状态状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态为完成状态,否则为未完成状态;
所述切分处理过程是:通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
6.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤6中:根据对状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
7.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤8中:判定过程是基于候选状态特征向量的分类,分类过程中采用侯选状态中一种或多种特征实施分类过程。
8.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤8还包括利用候选状态分类器通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。
9.一种面向中文搜索引擎混杂语言的查询纠错系统,包括:
预处理单元,用于构建面向混杂语言的异构字符树词典,并利用高频或高点击次数的查询文本建立语言模型;
查询处理初始化单元,用于获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
编辑单元,用于对所述用户查询中的第n个字或字母进行编辑;
状态转移单元,用于以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
切分纠错单元,用于在所述获得的新的完成状态点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述语言模型更新该状态的概率;
最优状态选取单元,用于记录编辑后的完成状态于Cn、未完成状态于NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑;
判断处理单元,用于判断第n个字是否为用户查询的最后一个字,如果是则进入纠错结果输出单元,否则n递增到n+1并跳转至编辑单元;
纠错结果输出单元,用于选取所述最后一字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
10.如权利要求9所述的查询纠错系统,其特征在于,所述的预处理单元包括:
混杂语言处理单元,用于在所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为中文字符的拼音字母,以拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值;
标记单元,所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在该节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点;
语言模型建立单元,利用高频或高点击次数的查询文本建立所述语言模型,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
11.如权利要求9所述的查询纠错系统,其特征在于,编辑单元包括:
中文编辑单元,用于对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理;
英文编辑单元,用于对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
12.如权利要求9所述的查询纠错系统,其特征在于,状态转移单元包括:
路径获取单元,根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典节点来寻找编辑后获得的字符串对应的词典树路径,并找到编辑后获得的字符串对应的路径终节点;
更新参数单元,用于在状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数改变。
13.根据权利要求9所述的查询纠错系统,其特征在于,所述切分纠错单元包括:
状态判断单元,根据状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态判断为完成状态,否则判断为未完成状态;
切分处理单元,通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
14.根据权利要求9所述的查询纠错系统,其特征在于,所述最优状态选取单元包括:
综合评判单元,用于根据状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
15.根据权利要求9所述的查询纠错系统,其特征在于,所述纠错结果输出单元包括:
判定单元,判定过程基于候选状态的特征向量实施候选状态的分类,采用候选状态中一种或多种特征实施分类过程;
候选状态分类器,通过人工方式确定的分类规则或监督学习的方式获得,其中监督学习的方式即为对一批查询的侯选状态进行类型标注:分为应输出结果的状态和不应输出纠错结果的状态,并利用标注结果和特征值进行分类器的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320575.2A CN102867040B (zh) | 2012-08-31 | 2012-08-31 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320575.2A CN102867040B (zh) | 2012-08-31 | 2012-08-31 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102867040A true CN102867040A (zh) | 2013-01-09 |
CN102867040B CN102867040B (zh) | 2015-03-18 |
Family
ID=47445909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210320575.2A Active CN102867040B (zh) | 2012-08-31 | 2012-08-31 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102867040B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
CN104036047A (zh) * | 2014-07-02 | 2014-09-10 | 携程计算机技术(上海)有限公司 | 字符串自动修正方法及系统 |
CN104102633A (zh) * | 2013-04-01 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种挖掘搜索引擎未召回类纠错词的方法及装置 |
CN104462095A (zh) * | 2013-09-13 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种查询语句公共部分的提取方法及装置 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105550171A (zh) * | 2015-12-31 | 2016-05-04 | 北京奇艺世纪科技有限公司 | 一种垂直搜索引擎的查询信息纠错方法和系统 |
CN105653061A (zh) * | 2015-12-29 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105718427A (zh) * | 2016-01-15 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN108132917A (zh) * | 2017-12-04 | 2018-06-08 | 昆明理工大学 | 一种文档纠错标记方法 |
CN108255871A (zh) * | 2016-12-29 | 2018-07-06 | 华为技术有限公司 | 一种数据查询方法及数据查询节点 |
CN108664466A (zh) * | 2018-04-11 | 2018-10-16 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109885828A (zh) * | 2019-01-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于语言模型的词语纠错方法、装置、计算机设备及介质 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
CN111639488A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 英文单词修正系统、方法、应用、装置及可读存储介质 |
CN112484255A (zh) * | 2020-11-30 | 2021-03-12 | 成都航空职业技术学院 | 一种节能型暖通空调系统及楼宇自控方法 |
CN112905869A (zh) * | 2021-03-26 | 2021-06-04 | 北京儒博科技有限公司 | 语言模型的自适应训练方法、装置、存储介质及设备 |
CN112905023A (zh) * | 2019-12-03 | 2021-06-04 | 北京搜狗科技发展有限公司 | 一种输入纠错方法、装置和用于输入纠错的装置 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131706B (zh) * | 2007-09-28 | 2010-10-13 | 北京金山软件有限公司 | 一种查询修正方法及系统 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
-
2012
- 2012-08-31 CN CN201210320575.2A patent/CN102867040B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131706B (zh) * | 2007-09-28 | 2010-10-13 | 北京金山软件有限公司 | 一种查询修正方法及系统 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102633A (zh) * | 2013-04-01 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种挖掘搜索引擎未召回类纠错词的方法及装置 |
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN103198149B (zh) * | 2013-04-23 | 2017-02-08 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN104462095A (zh) * | 2013-09-13 | 2015-03-25 | 阿里巴巴集团控股有限公司 | 一种查询语句公共部分的提取方法及装置 |
CN104462095B (zh) * | 2013-09-13 | 2018-06-12 | 阿里巴巴集团控股有限公司 | 一种查询语句公共部分的提取方法及装置 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN105095223B (zh) * | 2014-04-25 | 2018-09-11 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN104036047B (zh) * | 2014-07-02 | 2017-05-17 | 上海携程商务有限公司 | 字符串自动修正方法及系统 |
CN104036047A (zh) * | 2014-07-02 | 2014-09-10 | 携程计算机技术(上海)有限公司 | 字符串自动修正方法及系统 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105206267B (zh) * | 2015-09-09 | 2019-04-02 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105653061A (zh) * | 2015-12-29 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105653061B (zh) * | 2015-12-29 | 2020-03-31 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105550171A (zh) * | 2015-12-31 | 2016-05-04 | 北京奇艺世纪科技有限公司 | 一种垂直搜索引擎的查询信息纠错方法和系统 |
CN105550171B (zh) * | 2015-12-31 | 2018-10-16 | 北京奇艺世纪科技有限公司 | 一种垂直搜索引擎的查询信息纠错方法和系统 |
CN105718427A (zh) * | 2016-01-15 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105718427B (zh) * | 2016-01-15 | 2019-12-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN108255871B (zh) * | 2016-12-29 | 2022-01-28 | 华为技术有限公司 | 一种数据查询方法及数据查询节点 |
CN108255871A (zh) * | 2016-12-29 | 2018-07-06 | 华为技术有限公司 | 一种数据查询方法及数据查询节点 |
CN108132917A (zh) * | 2017-12-04 | 2018-06-08 | 昆明理工大学 | 一种文档纠错标记方法 |
CN108132917B (zh) * | 2017-12-04 | 2021-12-17 | 昆明理工大学 | 一种文档纠错标记方法 |
CN108664466A (zh) * | 2018-04-11 | 2018-10-16 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109086266B (zh) * | 2018-07-02 | 2021-09-14 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
CN109885828A (zh) * | 2019-01-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于语言模型的词语纠错方法、装置、计算机设备及介质 |
CN112905023A (zh) * | 2019-12-03 | 2021-06-04 | 北京搜狗科技发展有限公司 | 一种输入纠错方法、装置和用于输入纠错的装置 |
CN111639488A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 英文单词修正系统、方法、应用、装置及可读存储介质 |
CN112484255A (zh) * | 2020-11-30 | 2021-03-12 | 成都航空职业技术学院 | 一种节能型暖通空调系统及楼宇自控方法 |
CN112905869A (zh) * | 2021-03-26 | 2021-06-04 | 北京儒博科技有限公司 | 语言模型的自适应训练方法、装置、存储介质及设备 |
CN116932922A (zh) * | 2023-09-19 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
CN116932922B (zh) * | 2023-09-19 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 搜索词条处理方法、装置、计算机设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102867040B (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102867040B (zh) | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN101021838A (zh) | 文本处理方法和系统 | |
CN108287858A (zh) | 自然语言的语义提取方法及装置 | |
CN112307153B (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN108509425A (zh) | 一种基于新颖度的中文新词发现方法 | |
CN105608218A (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN106557777B (zh) | 一种基于SimHash改进的Kmeans文档聚类方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN111581474A (zh) | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN108984159B (zh) | 一种基于马尔可夫语言模型的缩略词组扩展方法 | |
CN116244445B (zh) | 航空文本数据标注方法及其标注系统 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN107256212A (zh) | 中文搜索词智能切分方法 | |
CN113569004B (zh) | 一种针对限制性自然语言用例建模的智能提示方法 | |
CN116304092A (zh) | 面向招聘领域的职位概念自动获取与图谱扩展的方法 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN110738987B (zh) | 一种基于统一表征的关键词检索方法 | |
CN113609864A (zh) | 一种基于工业控制系统的文本语义识别处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |