CN103390004A - 一种语义冗余的确定方法和装置、对应的搜索方法和装置 - Google Patents

一种语义冗余的确定方法和装置、对应的搜索方法和装置 Download PDF

Info

Publication number
CN103390004A
CN103390004A CN2012101471544A CN201210147154A CN103390004A CN 103390004 A CN103390004 A CN 103390004A CN 2012101471544 A CN2012101471544 A CN 2012101471544A CN 201210147154 A CN201210147154 A CN 201210147154A CN 103390004 A CN103390004 A CN 103390004A
Authority
CN
China
Prior art keywords
word
collocation
redundancy
predicate
institute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101471544A
Other languages
English (en)
Other versions
CN103390004B (zh
Inventor
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210147154.4A priority Critical patent/CN103390004B/zh
Publication of CN103390004A publication Critical patent/CN103390004A/zh
Application granted granted Critical
Publication of CN103390004B publication Critical patent/CN103390004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置,其中语义冗余的确定方法包括:S1、确定词A及其搭配词B;S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况,为query的去冗余提供基础。利用去冗余后的query进行搜索,使得冗余的关键词不必参与匹配,提高了搜索结果的召回率,提高了搜索效果。

Description

一种语义冗余的确定方法和装置、对应的搜索方法和装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种语义冗余的确定方法和装置、对应的搜索方法和装置。
【背景技术】
随着搜索引擎技术的不断发展,传统基于关键词匹配的策略在现代搜索引擎中对于语义匹配方面越来越力不从心。其中用户在进行搜索的过程中,有很大比例的语义冗余表达,例如:“北京中关村在哪里”实际上与“中关村在哪里”表达的含义相同,“苹果iphone4s”与“iphone4s”表达的含义相同,“张艺谋导演的新片”与“张艺谋的新片”表达的含义相同,“离婚后对前夫仇恨怎么办”与“前夫仇恨怎么办”表达的含义相同,等等,由于基于关键词匹配的方式需要每个关键词都能够匹配才能够取得靠前的排名,因此对于实际上在语义上匹配的网页但由于并没有对query中语义冗余的关键词匹配,则可能无法取得靠前的排名,甚至无法召回。
【发明内容】
本发明提供了一种语义冗余的确定方法和装置、对应的搜索方法和装置,以便于有效地确定query中存在的语义冗余状况,从而提高搜索效果。
具体技术方案如下:
一种语义冗余的确定方法,该方法包括:
S1、确定词A及其搭配词B;
S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;
S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。
根据本发明一优选实施例,所述步骤S1中确定词A具体为:
确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。
根据本发明一优选实施例,所述步骤S1中确定词A的搭配词B具体为:
确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
根据本发明一优选实施例,所述利用确定出的词选择词B包括:
将确定出的词作为词B;或者,
将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数;或者,
从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。
根据本发明一优选实施例,在所述步骤S2中统计词A和词B构成的搭配词对的上下文向量具体包括:
确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词,从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文,并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值,得到所述搭配词对的上下文向量;
其中,在所述第二模板中所述搭配词对为前缀或后缀。
根据本发明一优选实施例,在所述步骤S2中统计词A的上下文向量具体包括:
从语料中抽取所述词A的上下文,并利用抽取的上下文与所述词A的共现频率确定上下文的权值,得到所述词A的上下文向量。
根据本发明一优选实施例,在所述步骤S3中计算的相似度采用余弦相似度或信息半径相似度。
一种搜索方法,该搜索方法包括:
对用户输入的query进行分词处理;
利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对所述query进行去冗余处理,并利用去冗余处理后的query进行搜索;
所述语义冗余对数据库中的各语义冗余对采用如权利要求1至7任一权项所述的方法确定。
根据本发明一优选实施例,所述利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库具体包括:
确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对,利用确定的搭配词对查找所述语义冗余对数据库。
一种语义冗余的确定装置,该装置包括:
搭配词对确定单元,用于确定词A及其搭配词B;
上下文向量确定单元,用于从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;
冗余对确定单元,用于计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。
根据本发明一优选实施例,所述搭配词对确定单元包括:候选词确定子单元,用于确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。
根据本发明一优选实施例,所述搭配词对确定单元包括:搭配词确定子单元,用于确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
根据本发明一优选实施例,所述搭配词确定子单元在利用确定出的词选择词B时,具体将确定出的词作为词B;或者,
将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数;或者,
从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。
根据本发明一优选实施例,所述上下文向量确定单元包括:第一向量确定子单元,用于确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词,从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文,并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值,得到所述搭配词对的上下文向量;
其中,在所述第二模板中所述搭配词对为前缀或后缀。
根据本发明一优选实施例,所述上下文向量确定单元包括:第二向量确定子单元,用于从语料中抽取所述词A的上下文,并利用抽取的上下文与所述词A的共现频率确定上下文的权值,得到所述词A的上下文向量。
根据本发明一优选实施例,所述冗余对确定单元在计算相似度时采用余弦相似度或信息半径相似度。
一种搜索装置,该搜索装置包括:
分词处理单元,用于对用户输入的query进行分词处理;
冗余处理单元,用于利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对所述query进行去冗余处理;
搜索单元,用于利用去冗余处理后的query进行搜索;
所述语义冗余对数据库中的各语义冗余对采用如权利要求10至16任一权项所述的装置确定。
根据本发明一优选实施例,所述冗余处理单元在利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库时,具体确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对,利用确定的搭配词对查找所述语义冗余对数据库。
由以上技术方案可以看出,本发明通过统计词A和词B构成的搭配词对的上下文向量,以及词A的上下文向量,计算两向量之间的相似度,如果相似度大于预设相似度阈值,则确定词A和词B构成的搭配词对与词A构成语义冗余对,其中词B为冗余词。通过本发明能够有效地确定query中存在的语义冗余状况,为query的去冗余提供基础。利用去冗余后的query进行搜索,使得冗余的关键词不必参与匹配,提高了搜索结果的召回率,且在实际语义上与query匹配的网页能够取得靠前的排名,提高了搜索效果。
【附图说明】
图1为本发明实施例一提供的语义冗余的确定方法流程图;
图2为本发明实施例二提供的搜索方法;
图3为本发明实施例三提供的语义冗余的确定装置结构图;
图4为本发明实施例四提供的搜索装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的语义冗余的确定方法流程图,如图1所示,该方法可以包括:
步骤101:确定语义冗余挖掘中的词A。
由于存在语义冗余的情况大多以名词作为中心词,因此在本步骤中以名词为主确定词A,同时在大规模语料中进行统计,将出现频率大于预设第一频率阈值的名词作为词A。该第一频率阈值可以根据实际需求进行设置,例如将在语料中出现频率大于10的名词作为词A。
步骤102:确定词A的搭配词B。
本步骤确定出的搭配词B是用于后续挖掘冗余词所使用的,鉴于与词A构成语义冗余情况时,通常满足一定的规则,因此在本步骤中选择词A的搭配词B时,在语料中统计与词A共现的状况满足第一模板的词,此处与词A的共现状况主要指的是与词A的词性搭配组合状况。该第一模板可以包括但不限于:形容词+词A,名词+词A、词A+动词、动词+词A。同时,需要该搭配词B与词A共现在预设窗口范围内的频率大于预设第二频率值,例如共现在5个词的范围内的频率大于10。也就是说,确定大规模语料中与词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
需要说明的是,上述第一频率阈值和第二频率阈值可以相同,也可以不同。
具体在利用确定出的词选择词B时,可以采用但不限于以下几种选择策略:
第一种选择策略:直接将确定出的词作为词B。
第二种选择策略:将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数。
第三种选择策略:从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B,例如选择卡方值大于4的词作为词B。
上述第二种选择策略和第三种选择策略为确定出的词数量较多的情况下,为了提高计算效率所采用的优选的选择策略。
步骤103:从语料中统计词A和词B构成的搭配词对的上下文向量。
在本步骤中,可以首先按照预设的第二模板统计三元组合,其中第二模板可以包括但不限于:名词+搭配词对、形容词+搭配词对、动词+搭配词对、搭配词对+动词等等,在第二模板中搭配词对通常作为前缀或后缀,在统计这些三元组合时,需要满足三元组合在语料中出现在预设窗口范围内,例如出现在10个词语范围内。从统计的三元组合所在的语料中抽取搭配词对的上下文,例如,x-A-B,y-A-B,A-B-e,A-B-f,抽取出的上下文就是{x,y,e,f}。也就是说,确定语料中与搭配词对共现的状况满足预设第二模板的词,此处与搭配词对的共现状况主要指的是与搭配词对的词性搭配组合状况,从确定出的词与搭配词对共现在预设窗口范围内时的语料中抽取搭配词对的上下文。
在抽取上下文后,进一步确定出各上下文的权值,该权值可以利用抽取的上下文与搭配词对的共现频率确定。例如,采用共现频率的log值加1作为权重。由上述抽取的搭配词对的上下文以及各上下文的权重,即{W1(x),W1(y),W1(e),W1(f)},构成搭配词对的上下文向量。
步骤104:从语料中统计词A的上下文向量。
在本步骤中,从词A所在的所有语料中抽取上下文,例如,e-A,f-A,A-g,A-h,抽取的上下文为{e,f,g,h}。更进一步地,确定出各上下文的权值,具体可以利用抽取的上下文与词A的共现频率来确定,例如采用共现频率的log值加1作为权重。由上述抽取的词A的上下文以及各上下文的权重,即{W2(e),W2(f),W2(g),W2(h)},构成词A的上下文向量。
需要说明的是,上述步骤103和步骤104可以以任意的顺序先后执行,也可以同时执行,本实施例仅为其中一种执行顺序。
步骤105:计算词A和词B构成的搭配词对的上下文向量与词A的上下文向量之间的相似度,如果相似度大于预设的相似度阈值,则确定该搭配词对与词A构成语义冗余对,其中词B为冗余词。
进行相似度计算的方式可以有很多种,包括但不限于:余弦相似度和信息半径相似度。
以信息半径相似度为例,可以采用如下公式计算词A和词B构成的搭配词对的上下文向量W1和词A的上下文向量W2之间的信息半径相似度IRad(W1,W2):
IRad ( W 1 , W 2 ) = 10 - 0.6 A ( W 1 , W 2 )
其中 A ( W 1 , W 2 ) = 2 log 2 + Σ z ∈ Z W 1 ( z ) log W 1 ( z ) W 1 ( z ) + W 2 ( z ) + W 2 ( z ) log W 2 ( z ) W 1 ( z ) + W 2 ( z ) , Z为向量W1和向量W2中同时出现的词所构成的集合,W1(z)为z在向量W1中的权值,W2(z)为z在向量W2中的权值。
举个例子,通过上述过程首先确定出的词A为“中关村”,确定出的其中一个搭配词为“北京”,确定出“中关村”的上下文向量和“北京-中关村”的上下文向量之后,计算出两向量的相似度大于预设的相似度阈值,则确定出“北京-中关村”和中关村”构成语义冗余对,其中“北京”为冗余词。
通过上述方式可以确定出一批语义冗余对,构成语义冗余对数据库,从而供后续搜索时查询使用,下面通过实施例二对基于上述语义冗余对数据库的搜索方法进行描述。
实施例二、
图2为本发明实施例二提供的搜索方法,如图2所示,该搜索方法包括:
步骤201:对用户输入的query进行分词处理。
步骤202:确定分词处理后得到的各词两两构成的搭配词对。
在本步骤中确定搭配词对时,可以与实施例一中步骤102的方式类似,即确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对。其中第一模板可以包括但不限于:形容词+名词,名词+名词、名词+动词、动词+名词、等等。
步骤203:利用确定的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对query进行去冗余处理。
语义冗余对数据库中存储有大量的语义冗余对,语义冗余对包含语义相似的搭配词对和词,将确定的搭配词对到语义冗余数据库中进行匹配,如果匹配到语义冗余对,则说明该确定的搭配词对存在冗余,可以将其进行去冗余处理,即将query中该搭配词对替换为该搭配词对在语义冗余对数据库中对应的词,或者将冗余的词语去掉。
另外,在进行去冗余处理时,将冗余的词语去掉时还可能需要对query进行平滑处理,去除因去掉冗余的词语所带来的多余的词语,其中多余的词语包括:助词、介词、副词、连词等。
步骤204:利用去冗余处理后的query进行搜索。
在利用去冗余处理后的query进行搜索后,与去冗余处理后的query中各关键词匹配的搜索结果能够被召回,或能够取得靠前的排名,而不必与query中冗余的关键词匹配。
例如,用户输入query“北京中关村在什么地方”,进行分词处理后,确定搭配词对为“北京-中关村”,在语义冗余对数据库中匹配到语义冗余对:“北京-中关村”和“中关村”,进行去冗余处理后得到的query为“中关村在什么地方”,利用“中关村在什么地方”进行搜索时,存在语义冗余的关键词“北京”不需要被匹配上。
再例如,用户输入query“离婚后对前夫仇恨怎么办”,进行分词处理后,确定的搭配词对包括“离婚-前夫”,在语义冗余对数据库中匹配到语义冗余对:“离婚-前夫”和“前夫”,进行去冗余处理后得到的query为“对前夫仇恨怎么办”(在去冗余处理时去除“后”以进行平滑),利用“对前夫仇恨怎么办”进行搜索时,存在语义冗余的关键词“离婚”不需要被匹配上。
以上是对本发明所提供的方法进行的描述,下面通过实施例三和实施例四对本发明提供的装置进行详细描述。
实施例三、
图3为本发明实施例三提供的语义冗余的确定装置结构图,如图3所示,该装置可以包括:搭配词对确定单元300、上下文向量确定单元310和冗余对确定单元320。
搭配词对确定单元300确定词A及其搭配词B。
其中,搭配词对确定单元300可以具体包括:候选词确定子单元301,用于确定语料中出现频率大于预设第一频率阈值的名词作为词A。
由于存在语义冗余的情况大多以名词作为中心词,因此候选词确定子单元301以名词为主确定词A,同时在大规模语料中进行统计,将出现频率大于预设第一频率阈值的名词作为词A。该第一频率阈值可以根据实际需求进行设置,例如将在语料中出现频率大于10的名词作为词A。
还包括:搭配词确定子单元302,用于确定语料中与词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
其中,第一模板可以包括但不限于:形容词+词A,名词+词A、词A+动词、动词+词A。
具体在利用确定出的词选择词B时,可以直接将确定出的词作为词B;或者,将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数;或者,从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。
上述第一频率阈值和第二频率阈值可以相同,也可以不同。
上下文向量确定单元310从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量。
其中,上下文向量确定单元310可以具体包括:第一向量确定子单元311,用于确定语料中与搭配词对共现的状况满足预设第二模板的词,从确定出的词与搭配词对共现在预设窗口范围内时的语料中抽取搭配词对的上下文,并利用抽取的上下文与搭配词对的共现频率确定上下文的权值,得到搭配词对的上下文向量。
其中,第二模板可以包括但不限于:名词+搭配词对、形容词+搭配词对、动词+搭配词对、搭配词对+动词等等,在第二模板中搭配词对为前缀或后缀。上下文的权值可以利用上下文与搭配词对的共现频率确定,例如,采用共现频率的log值加1作为权重。
上下文向量确定单元310还可以包括:第二向量确定子单元312,用于从语料中抽取词A的上下文,并利用抽取的上下文与词A的共现频率确定上下文的权值,得到词A的上下文向量。
其中词A的上下文的权值可以利用抽取的上下文与词A的共现频率来确定,例如采用共现频率的log值加1作为权重。
冗余对确定单元320,用于计算词A和词B构成的搭配词对的上下文向量与词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定词A和词B构成的搭配词对与词A构成语义冗余对,其中词B为冗余词。
其中在计算相似度时可以采用余弦相似度或信息半径相似度。
实施例四、
图4为本发明实施例四提供的搜索装置结构图,如图4所示,该搜索装置可以包括:分词处理单元401、冗余处理单元402和搜索单元403。
分词处理单元401,用于对用户输入的query进行分词处理。
冗余处理单元402,用于利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对query进行去冗余处理。
冗余处理单元402在确定搭配词对时,与实施例三中的搭配词对确定单元采用的方式类似,即确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对。其中第一模板可以包括但不限于:形容词+名词,名词+名词、名词+动词、动词+名词、等等。
语义冗余对数据库中存储有大量的语义冗余对,语义冗余对包含语义相似的搭配词对和词,将确定的搭配词对到语义冗余数据库中进行匹配,如果匹配到语义冗余对,则说明该确定的搭配词对存在冗余,可以将其进行去冗余处理,即将query中该搭配词对替换为该搭配词对在语义冗余对数据库中对应的词。
搜索单元403,用于利用去冗余处理后的query进行搜索。
语义冗余对数据库中的各语义冗余对采用实施例三所示的装置确定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种语义冗余的确定方法,其特征在于,该方法包括:
S1、确定词A及其搭配词B;
S2、从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;
S3、计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中确定词A具体为:
确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。
3.根据权利要求1所述的方法,其特征在于,所述步骤S1中确定词A的搭配词B具体为:
确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
4.根据权利要求3所述的方法,其特征在于,所述利用确定出的词选择词B包括:
将确定出的词作为词B;或者,
将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数;或者,
从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S2中统计词A和词B构成的搭配词对的上下文向量具体包括:
确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词,从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文,并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值,得到所述搭配词对的上下文向量;
其中,在所述第二模板中所述搭配词对为前缀或后缀。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S2中统计词A的上下文向量具体包括:
从语料中抽取所述词A的上下文,并利用抽取的上下文与所述词A的共现频率确定上下文的权值,得到所述词A的上下文向量。
7.根据权利要求1所述的方法,其特征在于,在所述步骤S3中计算的相似度采用余弦相似度或信息半径相似度。
8.一种搜索方法,其特征在于,该搜索方法包括:
对用户输入的query进行分词处理;
利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对所述query进行去冗余处理,并利用去冗余处理后的query进行搜索;
所述语义冗余对数据库中的各语义冗余对采用如权利要求1至7任一权项所述的方法确定。
9.根据权利要求8所述的搜索方法,其特征在于,所述利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库具体包括:
确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对,利用确定的搭配词对查找所述语义冗余对数据库。
10.一种语义冗余的确定装置,其特征在于,该装置包括:
搭配词对确定单元,用于确定词A及其搭配词B;
上下文向量确定单元,用于从语料中统计词A和词B构成的搭配词对的上下文向量,以及统计词A的上下文向量;
冗余对确定单元,用于计算所述词A和词B构成的搭配词对的上下文向量与所述词A的上下文向量之间的相似度,如果相似度大于预设相似度阈值,则确定所述词A和词B构成的搭配词对与所述词A构成语义冗余对,其中所述词B为冗余词。
11.根据权利要求10所述的装置,其特征在于,所述搭配词对确定单元包括:候选词确定子单元,用于确定所述语料中出现频率大于预设第一频率阈值的名词作为所述词A。
12.根据权利要求10所述的装置,其特征在于,所述搭配词对确定单元包括:搭配词确定子单元,用于确定所述语料中与所述词A共现在预设窗口范围内的频率大于预设第二频率阈值,且与词A共现的状况满足预设第一模板的词,利用确定出的词选择词B。
13.根据权利要求12所述的装置,其特征在于,所述搭配词确定子单元在利用确定出的词选择词B时,具体将确定出的词作为词B;或者,
将确定出的词按照卡方值进行排序,选择排在前N个的词作为词B,N为预设的正整数;或者,
从确定出的词中选择卡方值大于预设卡方值阈值的词作为词B。
14.根据权利要求10所述的装置,其特征在于,所述上下文向量确定单元包括:第一向量确定子单元,用于确定所述语料中与所述搭配词对共现的状况满足预设第二模板的词,从确定出的词与所述搭配词对共现在预设窗口范围内时的语料中抽取所述搭配词对的上下文,并利用抽取的上下文与所述搭配词对的共现频率确定上下文的权值,得到所述搭配词对的上下文向量;
其中,在所述第二模板中所述搭配词对为前缀或后缀。
15.根据权利要求10所述的装置,其特征在于,所述上下文向量确定单元包括:第二向量确定子单元,用于从语料中抽取所述词A的上下文,并利用抽取的上下文与所述词A的共现频率确定上下文的权值,得到所述词A的上下文向量。
16.根据权利要求10所述的装置,其特征在于,所述冗余对确定单元在计算相似度时采用余弦相似度或信息半径相似度。
17.一种搜索装置,其特征在于,该搜索装置包括:
分词处理单元,用于对用户输入的query进行分词处理;
冗余处理单元,用于利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库,如果匹配到语义冗余对,则利用匹配到的语义冗余对对所述query进行去冗余处理;
搜索单元,用于利用去冗余处理后的query进行搜索;
所述语义冗余对数据库中的各语义冗余对采用如权利要求10至16任一权项所述的装置确定。
18.根据权利要求17所述的搜索装置,其特征在于,所述冗余处理单元在利用分词处理后得到的各词两两构成的搭配词对查找语义冗余对数据库时,具体确定分词处理后得到的各词中,共现在预设窗口范围内且共现状况满足预设第一模板的两个词构成搭配词对,利用确定的搭配词对查找所述语义冗余对数据库。
CN201210147154.4A 2012-05-11 2012-05-11 一种语义冗余的确定方法和装置、对应的搜索方法和装置 Active CN103390004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210147154.4A CN103390004B (zh) 2012-05-11 2012-05-11 一种语义冗余的确定方法和装置、对应的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210147154.4A CN103390004B (zh) 2012-05-11 2012-05-11 一种语义冗余的确定方法和装置、对应的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN103390004A true CN103390004A (zh) 2013-11-13
CN103390004B CN103390004B (zh) 2018-03-02

Family

ID=49534280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210147154.4A Active CN103390004B (zh) 2012-05-11 2012-05-11 一种语义冗余的确定方法和装置、对应的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103390004B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631812A (zh) * 2012-08-24 2014-03-12 北京百度网讯科技有限公司 一种语义冗余的挖掘方法和装置
CN105955993A (zh) * 2016-04-19 2016-09-21 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106959958A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN109190115A (zh) * 2018-08-14 2019-01-11 重庆邂智科技有限公司 一种文本匹配方法、装置、服务器及存储介质
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN110889028A (zh) * 2018-08-15 2020-03-17 北京嘀嘀无限科技发展有限公司 一种语料处理以及模型训练的方法及系统
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
US11256685B2 (en) 2016-04-15 2022-02-22 Micro Focus Llc Removing wildcard tokens from a set of wildcard tokens for a search query
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN116562278A (zh) * 2023-03-02 2023-08-08 华中科技大学 一种词语相似性检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
US20110153673A1 (en) * 2007-10-10 2011-06-23 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2012068687A (ja) * 2010-09-21 2012-04-05 Yahoo Japan Corp 情報処理装置、方法及びプログラム
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
US20110153673A1 (en) * 2007-10-10 2011-06-23 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2012068687A (ja) * 2010-09-21 2012-04-05 Yahoo Japan Corp 情報処理装置、方法及びプログラム
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张玉芳 等: ""基于上下文的领域本体概念和关系的提取"", 《计算机应用研究》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631812B (zh) * 2012-08-24 2018-09-04 北京百度网讯科技有限公司 一种语义冗余的挖掘方法和装置
CN103631812A (zh) * 2012-08-24 2014-03-12 北京百度网讯科技有限公司 一种语义冗余的挖掘方法和装置
US11255690B2 (en) 2016-01-11 2022-02-22 Advanced New Technologies Co., Ltd. Method and apparatus for obtaining abbreviated name of point of interest on map
CN106959958A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
US10816355B2 (en) 2016-01-11 2020-10-27 Alibaba Group Holding Limited Method and apparatus for obtaining abbreviated name of point of interest on map
CN106959958B (zh) * 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
US11256685B2 (en) 2016-04-15 2022-02-22 Micro Focus Llc Removing wildcard tokens from a set of wildcard tokens for a search query
CN105955993B (zh) * 2016-04-19 2020-09-25 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN105955993A (zh) * 2016-04-19 2016-09-21 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106503231B (zh) * 2016-10-31 2020-02-04 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107045496B (zh) * 2017-04-19 2021-01-05 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN109190115A (zh) * 2018-08-14 2019-01-11 重庆邂智科技有限公司 一种文本匹配方法、装置、服务器及存储介质
CN109190115B (zh) * 2018-08-14 2023-05-26 重庆邂智科技有限公司 一种文本匹配方法、装置、服务器及存储介质
CN110889028A (zh) * 2018-08-15 2020-03-17 北京嘀嘀无限科技发展有限公司 一种语料处理以及模型训练的方法及系统
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN109918651B (zh) * 2019-02-14 2023-05-02 北京小米智能科技有限公司 同义词性模板获取方法及装置
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN116562278A (zh) * 2023-03-02 2023-08-08 华中科技大学 一种词语相似性检测方法及系统

Also Published As

Publication number Publication date
CN103390004B (zh) 2018-03-02

Similar Documents

Publication Publication Date Title
CN103390004A (zh) 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN108491462B (zh) 一种基于word2vec的语义查询扩展方法及装置
CN105893444A (zh) 情感分类方法及装置
CN105893410A (zh) 一种关键词提取方法和装置
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN106095737A (zh) 文档相似度计算方法及相似文档全网检索跟踪方法
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
EP1877939A1 (en) Suggesting and refining user input based on original user input
CN103377226A (zh) 一种智能检索方法及其系统
CN107193921A (zh) 面向搜索引擎的中英混合查询纠错的方法及系统
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
WO2017193865A1 (zh) 一种信息搜索方法及装置
CN108536667A (zh) 中文文本识别方法及装置
CN102650986A (zh) 一种用于文本复制检测的同义词扩展方法及装置
Abderrahim et al. Using Arabic wordnet for semantic indexation in information retrieval system
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
CN104317783B (zh) 一种语义关系密切度的计算方法
CN112612875A (zh) 一种查询词自动扩展方法、装置、设备及存储介质
Xu et al. Improving pseudo-relevance feedback with neural network-based word representations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant