CN105095222B - 单元词替换方法、搜索方法及装置 - Google Patents

单元词替换方法、搜索方法及装置 Download PDF

Info

Publication number
CN105095222B
CN105095222B CN201410171188.6A CN201410171188A CN105095222B CN 105095222 B CN105095222 B CN 105095222B CN 201410171188 A CN201410171188 A CN 201410171188A CN 105095222 B CN105095222 B CN 105095222B
Authority
CN
China
Prior art keywords
tightness
word
phrase
unit
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410171188.6A
Other languages
English (en)
Other versions
CN105095222A (zh
Inventor
阮淑梨
蒋建
魏洪平
谢庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410171188.6A priority Critical patent/CN105095222B/zh
Publication of CN105095222A publication Critical patent/CN105095222A/zh
Application granted granted Critical
Publication of CN105095222B publication Critical patent/CN105095222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种单元词替换方法、搜索方法及装置,所述方法包括:对输入的查询语句进行分词,得到所述查询语句的第一单元词;利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;从二元词组数据库中,查询得到所述第一单元词与其上下文的第一单元词组成的二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度;如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。本申请能更精确地解析搜索意图,提高搜索结果的准确性。

Description

单元词替换方法、搜索方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种单元词替换方法、搜索方法及装置。
背景技术
在现有的搜索产品中,当用户提交查询语句后,搜索引擎会将用户提交的查询语句进行预处理后再进行检索。在预处理过程中,用户提交的查询语句会被拆分成多个关键词,可以利用同义词替换功能对这些关键词进行同义替换操作,生成新的搜索引擎底层可读的查询语句。
现有的同义词替换功能大多都是对存在同义词词组的关键词采用直接替换的方式,对于一些不必要替换的情形不会加以区分,例如,用户输入查询语句“中国银行快捷支付限额”,经过分词得到关键词“中国银行”、“快捷”、“支付”和“限额”。在这个查询语句中,“支付”的同义词包括“付款”,因而采用同义词替换功能后,会得到新的查询语句“中国银行快捷付款限额”。而在实际情形中,“快捷支付”是一个固定搭配的词组,具有特定的含义,其使用频率比“快捷付款”高。可以看出,这种采用直接匹配方式,由于缺乏了上下文的参照信息,往往会造成不必要的同义替换,替换结果会带来相关度较差的搜索结果,不能精确解析用户的搜索意图,导致搜索结果的准确性较差。
发明内容
本申请的目的是,提供一种单元词替换方法、搜索方法及装置,可减少不必要的同义词替换,能更精确地解析搜索意图,提高搜索结果的准确性。
本申请提供了一种单元词替换方法,所述方法包括:
对输入的查询语句进行分词,得到所述查询语句的第一单元词;
利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
又一方面,本申请还提供了一种基于单元词替换的搜索方法,所述方法包括:
对输入的查询语句进行分词,得到所述查询语句的第一单元词;
利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词;
利用所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
又一方面,本申请还提供了一种单元词替换装置,所述装置包括:
分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
又一方面,本申请还提供了一种基于单元词替换的搜索装置,所述装置包括:
分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;
处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词;
搜索单元,用于利用所述处理单元得到的所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
本申请提供的单元词替换方法、基于单元词替换的搜索方法及装置,根据二元词组的紧密度以及替换词在查询语句中的上下文信息,来进行有选择性的替换,考虑了上下文的参照信息,可减少不必要的同义词替换,能更精确地解析搜索意图,提高搜索结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的单元词替换方法流程图;
图2为本申请实施例提供的基于单元词替换的搜索方法流程图;
图3为本申请实施例提供的单元词替换装置示意图;
图4为本申请实施例提供的基于单元词替换的搜索装置示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的单元词替换方法及装置,适用于各类需要进行同义词替换的场景,尤其是具有上下文作为参照信息的文本中同义词替换的场景,例如,在搜索引擎的搜索栏中输入的查询语句等等。
本申请实施例提供的基于单元词替换的搜索方法及装置,适用于各类搜索引擎,尤其是有采用同义词替换进行扩展性搜索的搜索引擎,例如,用于公告搜索、商品搜索、云客服(Clive)搜索等等的搜索引擎。
图1是本申请实施例提供的单元词替换方法流程图,如图1所示,本申请实施例的单元词替换方法包括:
S101、对输入的查询语句进行分词,得到所述查询语句的第一单元词。
本申请中所述的查询语句是指用户在进行搜索时,在网页的搜索栏中输入的关键词或语句。例如,在Clive搜索时,用户打开商务网站的客服网页进行问题的搜索,用户在网页的搜索栏上输入“中国银行快捷支付限额是多少”、“如何更改支付宝密码”等查询语句。又例如:在公告搜索时,用户在网页的搜索栏上输入例如“请问新款的秋冬连衣裙今年什么时间上架啊”等查询语句。在商品搜索时,用户在网页的搜索栏上输入例如“夏装连衣裙裤”等查询语句。
对用户输入的查询语句按照现有的分词方法(例如,正向最大匹配法、逆向最大匹配法等)进行分词,分成多个单元词,即第一单元词。例如,对于查询语句“中国银行快捷支付限额”,经过分词得到第一单元词“中国银行”、“快捷”、“支付”和“限额”。
当然,在对所述查询语句进行分词之后还可以对分词得到的单元词进行过滤,过滤掉一些停用词、数字、标点等,过滤掉一些如“的”、“什么”、“多少”等等停用词,提高后续查询的处理效率。其中,停用词是一些常用的单元词,如冠词、介词和代词等,不能作为单个单词进行检索。
S102、利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合。
例如,对于单元词“支付”,可以从同义词表中找出“支付”同义词包括“付款”、“付钱”等,组成“支付”的同义词集合。
S103、从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度。
其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度。
一般来说,所述二元词组数据库是利用一定规模的语料库预先建立的。该语料库可以是自然语言的基础语料,也可以是人为规定的一定范围或领域的语料,优选的,该语料库与同义词表的语料库来源于同一份基础语料。因而,本申请实施例提供的基于同义词替换的搜索方法,还包括:将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
具体地,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述计算所述参考二元词组的紧密度,具体包括:
根据以下公式(1):
Figure BDA0000496542500000061
计算得到所述参考二元词组(WA,WB)的紧密度,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在所述语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数。
可选的,在所述计算所述参考二元词组的紧密度之后,还包括:
根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类。
所述二元词组数据库中可以包括一级词组集合、二级词组集合和三级词组集合,可以分别用closest、closer与unclose来表示,以描述两个单元词之间十分紧密、一般紧密以及不紧密的关系。
如果所述参考二元词组的紧密度大于等于第一阈值α,则将所述参考二元词组分类到所述一级词组集合。
如果所述参考二元词组的紧密度小于第一阈值α且大于等于第二阈值β,则将所述参考二元词组分类到所述二级词组集合。
如果所述参考二元词组的紧密度小于第二阈值β,则将所述参考二元词组分类到所述三级词组集合。
其中,第一阈值α和第二阈值β均为预设阈值,可根据实验经验进行调整,第一阈值α大于第二阈值β。
S104、比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
其中,预设阈值为根据实际经验设定的值,也可以为上述的第二阈值β。对于第二紧密度小于第二阈值β的第二二元词组,表明该第二二元词组为三级词组集合(unclose)中的词组,这两个词之间为不紧密的关系。对于三级词组集合(unclose)中的词组不考虑替换。
如果分别用closest、closer与unclose来表示一级词组集合、二级词组集合和三级词组集合中两个单元词之间的关系,如果有两个单元词WA和WB,单元词WB有同义词WB1,具体地,所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值可以但不限于如下表1所示:
表1
第一紧密度T(W<sub>A</sub>,W<sub>B</sub>) 第二紧密度T(W<sub>A</sub>,W<sub>B1</sub>) 是否替换
closest closest yes
closest closer no
closest unclose no
closer closest yes
closer closer yes
closer unclose no
unclose closest yes
unclose closer yes
unclose unclose no
对于表1中结果为yes的,则表明可用同义词WB1替换单元词WB,将同义词WB1作为单元词WB的替换词,结果为no的,则不替换。
可选的,所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词。
所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度。
所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词,形成所述第一单元词的替换词集合。
举个例子,假如查询语句为“WAWBWC”,包括3个单元词WA、WB和WC,WA为WB的前导词,WC为WB的后导词。如果有WB同义词集合SB={SB1,SB2,…,SBn},则第一紧密度包括T(WA,WB)或T(WB,WC),第二紧密度包括T(WA,SBi)或T(SBi,WC),其中,i=1,2,…,n。此时,将第一紧密度T(WA,WB)与第二紧密度T(WA,SBi)进行比较,将第二紧密度T(WA,SBi)大于等于所述第一紧密度T(WA,WB)且第二紧密度T(WA,SBi)大于预设阈值的同义词作为可替换的同义词,可以获得可替换的同义词集合SBpre,同理,再将第一紧密度T(WB,WC)与第二紧密度T(SBi,WC)进行比较,可以获得可替换的同义词集合SBsuf。最后,可以得到对于整个语句“WAWBWC”,单元词WB的替换词集合S(WB)=SBpre∪SBsuf
图2是本申请实施例提供的基于单元词替换的搜索方法流程图,如图2所示,本申请实施例的基于单元词替换的搜索方法包括:
S201、对输入的查询语句进行分词,得到所述查询语句的第一单元词。
S202、利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合。
S203、从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度。
S204、比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
上述步骤S201~S204与图1中的步骤S101~S104对应相同,于此不再赘述。
S205、利用所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
例如,对于查询语句“中国银行快捷支付限额”,虽然“支付”、“付款”、“付钱”这3个词两两互为同义词,然而,由于“快捷”“支付”是一个紧密度很高的词组,代表了一个业务或是一个常用语,而(“快捷”“付款”)或(“快捷”“付钱”)这些都是紧密度较低的词组,在整个查询语句的上下文中,与“支付”一词所具有的价值是不等价的,所以没必要进行同义词替换。而相反,如果用户提交的查询语句是“中国银行快捷付款限额”,则有选择性的同义词替换策略应该将“付款”替换成“支付”,同时保留用户提交的“付款”一词,提交给底层引擎的查询语句应该为“query=phrase’快捷’and(phrase’付款or phrase’支付’)”。
这样,通过对用户在各类搜索引擎的搜索栏中输入的查询语句中的单元词,结合上下文信息,进行有选择地替换,可以减少不必要的同义词替换,能更精确地解析搜索意图,提高搜索结果的准确性。
以上是对本申请实施例所提供的单元词替换方法、基于单元词替换的搜索方法进行的详细描述,下面对本申请提供的单元词替换方法、基于单元词替换的搜索装置进行详细描述。
图3是本申请实施例提供的单元词替换装置示意图,如图3所示,本申请实施例的单元词替换装置包括:分词单元301、第一查询单元302、第二查询单元303和处理单元304。
分词单元301用于对输入的查询语句进行分词,得到所述查询语句的第一单元词。
分词单元301对用户输入的查询语句按照现有的分词方法(例如,正向最大匹配法、逆向最大匹配法等)进行分词,分成多个单元词,即第一单元词。例如,对于查询语句“中国银行快捷支付限额”,分词单元301经过分词得到第一单元词“中国银行”、“快捷”、“支付”和“限额”。
可选的,分词单元301在对所述查询语句进行分词之后还可以对分词得到的单元词进行过滤,过滤掉一些停用词、数字、标点等,以提高后续单元的处理效率。
第一查询单元302用于利用分词单元301得到的所述第一单元词,从同义词表中找出所述第一单元词的同义词集合。
例如,对于单元词“支付”,可以从同义词表中找出“支付”同义词包括“付款”、“付钱”等,组成“支付”的同义词集合。
第二查询单元303用于从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、第一查询单元302得到的所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度。
其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度。
一般来说,所述二元词组数据库是利用一定规模的语料库预先建立的。该语料库可以是自然语言的基础语料,也可以是人为规定的一定范围或领域的语料,优选的,该语料库与同义词表的语料库来源于同一份基础语料。因而,本申请实施例提供的基于同义词替换的搜索装置,还包括:预处理单元(图未示)。具体地,所述预处理单元用于将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
具体地,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述预处理单元根据公式(1)计算得到所述参考二元词组(WA,WB)的紧密度。
可选的,所述预处理单元在计算所述二元词组的紧密度之后,还用于根据所述二元词组的紧密度,对所述语料库的二元词组进行分类。
所述二元词组数据库中可以包括一级词组集合、二级词组集合和三级词组集合,可以分别用closest、closer与unclose来表示,以描述两个单元词之间十分紧密、一般紧密以及不紧密的关系。
如果所述二元词组的紧密度大于等于第一阈值α,所述预处理单元则将所述二元词组分类到所述一级词组集合。
如果所述二元词组的紧密度小于第一阈值α且大于等于第二阈值β,所述预处理单元则将所述二元词组分类到所述二级词组集合。
如果所述二元词组的紧密度小于第二阈值β,所述预处理单元则将所述二元词组分类到所述三级词组集合。
其中,第一阈值α和第二阈值β均为预设阈值,可根据实验经验进行调整,第一阈值α大于第二阈值β。
处理单元304用于比较第二查询单元303得到的所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
其中,预设阈值为根据实际经验设定的值,也可以为上述的第二阈值β。对于第二紧密度小于第二阈值β的第二二元词组,表明该第二二元词组为三级词组集合(unclose)中的词组,这两个词之间为不紧密的关系。对于三级词组集合(unclose)中的词组不考虑替换。
如果分别用closest、closer与unclose来表示一级词组集合、二级词组集合和三级词组集合中两个单元词之间的关系,如果有两个单元词WA和WB,单元词WB有同义词WB1,具体地,所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值可以但不限于如表1所示。
对于表1中结果为yes的,则表明可用同义词WB1替换单元词WB,处理单元304将同义词WB1作为单元词WB的替换词,结果为no的,则不替换。
可选的,分词单元301得到的所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词。
第二查询单元303查询得到的所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度。
第二查询单元查询303得到的所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,处理单元304则将所述第二单元词作为所述第一单元词的替换词,形成所述第一单元词的替换词集合。
举个例子,假如查询语句为“WAWBWC”,包括3个单元词WA、WB和WC,WA为WB的前导词,WC为WB的后导词。如果有WB同义词集合SB={SB1,SB2,…,SBn},则第二查询单元303可以查询到的第一紧密度包括T(WA,WB)或T(WB,WC),第二紧密度包括T(WA,SBi)或T(SBi,WC),其中,i=1,2,…,n。此时,处理单元204将第一紧密度T(WA,WB)与第二紧密度T(WA,SBi)进行比较,将第二紧密度T(WA,SBi)大于等于所述第一紧密度T(WA,WB)且第二紧密度T(WA,SBi)大于预设阈值的同义词作为可替换的同义词,可以获得可替换的同义词集合SBpre,同理,处理单元304再将第一紧密度T(WB,WC)与第二紧密度T(SBi,WC)进行比较,可以获得可替换的同义词集合SBsuf。最后,可以得到对于整个语句“WAWBWC”,单元词WB的替换词集合S(WB)=SBpre∪SBsuf
图4是本申请实施例提供的基于单元词替换的搜索装置示意图,如图4所示,本申请实施例的基于单元词替换的搜索装置包括:分词单元401、第一查询单元402、第二查询单元403、处理单元404和搜索单元405。
其中,分词单元401、第一查询单元402、第二查询单元403和处理单元404分别与图3中的分词单元301、第一查询单元302、第二查询单元303和处理单元304对应相同,于此不再赘述。
搜索单元405用于利用处理单元404得到的所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
例如,对于查询语句“中国银行快捷支付限额”,虽然“支付”、“付款”、“付钱”这3个词两两互为同义词,然而,由于“快捷”“支付”是一个紧密度很高的词组,代表了一个业务或是一个常用语,而(“快捷”“付款”)或(“快捷”“付钱”)这些都是紧密度较低的词组,在整个查询语句的上下文中,与“支付”一词所具有的价值是不等价的,所以没必要进行同义词替换。而相反,如果用户提交的查询语句是“中国银行快捷付款限额”,则有选择性的同义词替换策略应该将“付款”替换成“支付”,同时保留用户提交的“付款”一词,搜索单元405提交给底层引擎的查询语句应该为“query=phrase’快捷’and(phrase’付款or phrase’支付’)”。
本申请提供的单元词替换方法、基于单元词替换的搜索方法及装置,根据二元词组的紧密度以及替换词在查询语句中的上下文信息,来进行有选择性的替换,考虑了上下文的参照信息,可减少不必要的同义词替换,减少不必要的替换操作带来的噪音,能更精确地解析搜索意图,提高搜索结果的准确性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种单元词替换方法,其特征在于,所述方法包括:
对输入的查询语句进行分词,得到所述查询语句的第一单元词;
利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述参考二元词组(WA,WB)的紧密度根据公式计算,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数;
比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
3.根据权利要求2所述的方法,其特征在于,在所述计算所述参考二元词组的紧密度之后,还包括:
根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类;
所述二元词组数据库中包括一级词组集合、二级词组集合和三级词组集合;
如果所述参考二元词组的紧密度大于等于第一阈值,则将所述参考二元词组分类到所述一级词组集合;
如果所述参考二元词组的紧密度小于第一阈值且大于等于第二阈值,则将所述参考二元词组分类到所述二级词组集合;
如果所述参考二元词组的紧密度小于第二阈值,则将所述参考二元词组分类到所述三级词组集合。
4.根据权利要求1所述的方法,其特征在于,所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词;
所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度;
所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
5.一种基于单元词替换的搜索方法,其特征在于,所述方法包括:
对输入的查询语句进行分词,得到所述查询语句的第一单元词;
利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述参考二元词组(WA,WB)的紧密度根据公式
Figure FDA0002054660580000031
计算,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数;
比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词;
利用所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
7.根据权利要求6所述的方法,其特征在于,在所述计算所述参考二元词组的紧密度之后,还包括:
根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类;
所述二元词组数据库中包括一级词组集合、二级词组集合和三级词组集合;
如果所述参考二元词组的紧密度大于等于第一阈值,则将所述参考二元词组分类到所述一级词组集合;
如果所述参考二元词组的紧密度小于第一阈值且大于等于第二阈值,则将所述参考二元词组分类到所述二级词组集合;
如果所述参考二元词组的紧密度小于第二阈值,则将所述参考二元词组分类到所述三级词组集合。
8.根据权利要求5所述的方法,其特征在于,所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词;
所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度;
所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
9.一种单元词替换装置,其特征在于,所述装置包括:
分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述参考二元词组(WA,WB)的紧密度根据公式
Figure FDA0002054660580000041
计算,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数;
处理单元,用于比较所述第二查询单元得到的所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
预处理单元,用于将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
11.根据权利要求10所述的装置,其特征在于,所述预处理单元在计算所述参考二元词组的紧密度之后,还用于根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类;
所述二元词组数据库中包括一级词组集合、二级词组集合和三级词组集合;
如果所述参考二元词组的紧密度大于等于第一阈值,所述预处理单元则将所述参考二元词组分类到所述一级词组集合;
如果所述参考二元词组的紧密度小于第一阈值且大于等于第二阈值,所述预处理单元则将所述参考二元词组分类到所述二级词组集合;
如果所述参考二元词组的紧密度小于第二阈值,所述预处理单元则将所述参考二元词组分类到所述三级词组集合。
12.根据权利要求9所述的装置,其特征在于,所述分词单元得到的所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词;
所述第二查询单元查询得到的所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度;
所述第二查询单元查询得到的所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
13.一种基于单元词替换的搜索装置,其特征在于,所述装置包括:
分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词;
第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;
第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度,对于参考二元词组(WA,WB)的两个单元词WA和WB,所述参考二元词组(WA,WB)的紧密度根据公式
Figure FDA0002054660580000061
计算,其中,T(WA,WB)表示单元词WA和WB之间的紧密度,P(WB|WA)表示单元词WB依赖于单元词WA出现的概率,C(WA,WB)表示单元词WA和WB在语料库的训练文档集合中同时出现的次数,C(WA)表示单元词WA在所述语料库的训练文档集合中出现的总次数;
处理单元,用于比较所述第二查询单元得到的所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词;
搜索单元,用于利用所述处理单元得到的所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
预处理单元,用于将语料库中的单元词两两组成参考二元词组,并计算所述参考二元词组的紧密度,建立所述二元词组数据库。
15.根据权利要求14所述的装置,其特征在于,所述预处理单元在计算所述参考二元词组的紧密度之后,还用于根据所述参考二元词组的紧密度,对所述语料库的参考二元词组进行分类;
所述二元词组数据库中包括一级词组集合、二级词组集合和三级词组集合;
如果所述参考二元词组的紧密度大于等于第一阈值,所述预处理单元则将所述参考二元词组分类到所述一级词组集合;
如果所述参考二元词组的紧密度小于第一阈值且大于等于第二阈值,所述预处理单元则将所述参考二元词组分类到所述二级词组集合;
如果所述参考二元词组的紧密度小于第二阈值,所述预处理单元则将所述参考二元词组分类到所述三级词组集合。
16.根据权利要求13所述的装置,其特征在于,所述分词单元得到的所述第一单元词的上下文的单元词包括以下至少一种:所述第一单元词的前导词、所述第一单元词的后导词;
所述第二查询单元查询得到的所述第一紧密度包括所述第一单元词与所述第一单元词的前导词组成的第一二元词组的紧密度,或者,所述第一单元词与所述第一单元词的后导词组成的第一二元词组的紧密度;
所述第二查询单元查询得到的所述第二紧密度包括所述同义词集合中的单元词与所述第一单元词的前导词组成的第二二元词组的紧密度,或者,所述同义词集合中的单元词与所述第一单元词的后导词组成的第二二元词组的紧密度。
CN201410171188.6A 2014-04-25 2014-04-25 单元词替换方法、搜索方法及装置 Active CN105095222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410171188.6A CN105095222B (zh) 2014-04-25 2014-04-25 单元词替换方法、搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410171188.6A CN105095222B (zh) 2014-04-25 2014-04-25 单元词替换方法、搜索方法及装置

Publications (2)

Publication Number Publication Date
CN105095222A CN105095222A (zh) 2015-11-25
CN105095222B true CN105095222B (zh) 2019-10-15

Family

ID=54575689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410171188.6A Active CN105095222B (zh) 2014-04-25 2014-04-25 单元词替换方法、搜索方法及装置

Country Status (1)

Country Link
CN (1) CN105095222B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502979A (zh) * 2016-09-20 2017-03-15 海信集团有限公司 一种自然语言信息的数据处理方法和装置
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN108628906B (zh) * 2017-03-24 2021-01-26 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN107133209B (zh) * 2017-03-29 2020-11-03 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质
CN107203504B (zh) * 2017-05-18 2021-02-26 北京京东尚科信息技术有限公司 字符串替换方法和装置
CN108509474B (zh) * 2017-09-15 2022-01-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN110555203B (zh) * 2018-05-31 2023-05-30 北京百度网讯科技有限公司 文本复述方法、装置、服务器及存储介质
CN108932218B (zh) * 2018-06-29 2022-09-30 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033922A (zh) * 2010-12-14 2011-04-27 哈尔滨工业大学 一种基于词汇链的关键短语抽取方法
CN102650986A (zh) * 2011-02-27 2012-08-29 孙星明 一种用于文本复制检测的同义词扩展方法及装置
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440890B2 (en) * 2003-12-19 2008-10-21 Xerox Corporation Systems and methods for normalization of linguisitic structures
CN101131706B (zh) * 2007-09-28 2010-10-13 北京金山软件有限公司 一种查询修正方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033922A (zh) * 2010-12-14 2011-04-27 哈尔滨工业大学 一种基于词汇链的关键短语抽取方法
CN102650986A (zh) * 2011-02-27 2012-08-29 孙星明 一种用于文本复制检测的同义词扩展方法及装置
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法

Also Published As

Publication number Publication date
CN105095222A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN105095222B (zh) 单元词替换方法、搜索方法及装置
CN106528532B (zh) 文本纠错方法、装置及终端
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
US11455301B1 (en) Method and system for identifying entities
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN109101489B (zh) 一种文本自动摘要方法、装置及一种电子设备
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103914494A (zh) 一种微博用户身份识别方法及系统
KR102296931B1 (ko) 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN104360993A (zh) 一种从文本提取所需内容的方法
Tandel et al. Multi-document text summarization-a survey
CN104281565A (zh) 语义词典构建方法和装置
CN107526792A (zh) 一种中文问句关键词快速提取方法
Lan Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method
CN103617245A (zh) 一种双语情感分类方法及装置
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
Deshmukh et al. Sentiment analysis of Marathi language
CN107577667B (zh) 一种实体词处理方法和装置
CN107609006B (zh) 一种基于地方志研究的搜索优化方法
CN110941952A (zh) 一种完善审计分析模型的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191231

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.

TR01 Transfer of patent right