CN102368260B - 一种生成领域需求模版的方法及其装置 - Google Patents

一种生成领域需求模版的方法及其装置 Download PDF

Info

Publication number
CN102368260B
CN102368260B CN201110308830.7A CN201110308830A CN102368260B CN 102368260 B CN102368260 B CN 102368260B CN 201110308830 A CN201110308830 A CN 201110308830A CN 102368260 B CN102368260 B CN 102368260B
Authority
CN
China
Prior art keywords
template
candidate
segment
query
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110308830.7A
Other languages
English (en)
Other versions
CN102368260A (zh
Inventor
柴春光
黄际洲
时迎超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110308830.7A priority Critical patent/CN102368260B/zh
Publication of CN102368260A publication Critical patent/CN102368260A/zh
Application granted granted Critical
Publication of CN102368260B publication Critical patent/CN102368260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种生成领域需求模版的方法及其装置,其中生成领域需求模版的方法包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。通过上述方式,实现了一种通用的生成高质量的领域需求模版的方法,为搜索引擎理解用户的行为目的提供了保障。

Description

一种生成领域需求模版的方法及其装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种生成领域需求模版的方法及其装置。
【背景技术】
搜索引擎为人们找到所需信息提供了极大的便利。在传统的搜索引擎为用户提供信息的方式中,是通过查找包含用户搜索关键字的索引,为用户返回与关键字匹配的相关页面来实现的。例如,用户的搜索请求(query)为“北京汽车4S店招聘销售主管”,这时会得到招聘网站的搜索结果页面,用户可以通过点击该页面进入招聘网站,然后在该招聘网站内填写相关信息并在站内进行检索,得到自己真正需要的信息。如果搜索引擎能够更好地理解用户在检索时的真正目的,那么搜索引擎就能够更准确地向用户返回真正符合其需求的信息。因此,自然语言处理对搜索引擎而言非常重要。在自然语言处理中,可以采用基于领域的需求模版对用户的搜索目的进行识别。例如,用户的query为“大钟寺到西单怎么走”,如果该query与交通领域的需求模版相匹配,就可以得知该用户有交通领域的需求,因此可以直接向该用户返回与交通领域相关的应用。可见,是否能够产生高质量的领域需求模版,对搜索引擎正确理解用户的搜索意图而言,非常重要。
在以往生成领域需求模版时,针对不同的应用,通常采用不同的挖掘方法进行,这不仅浪费了大量的人力物力,而且这种生成领域需求模版的方法,适应性差,难以随着应用的变化而做出相应的改变。
【发明内容】
本发明所要解决的技术问题是提供一种生成领域需求模版的方法及装置,以解决采用现有技术生成的领域需求模版适应性差的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种生成领域需求模版的方法,包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模板与所述特定领域之间紧密度的相似度特征、表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征中的至少一种;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。
根据本发明之一优选实施例,所述步骤A包括:A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
根据本发明之一优选实施例,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
根据本发明之一优选实施例,提取候选需求模版W的相似度特征的步骤包括:获取所述W的核心词向量及所述特定领域的核心词向量;计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
根据本发明之一优选实施例,获取所述W的核心词向量的步骤包括:从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。
根据本发明之一优选实施例,获取所述特定领域的核心词向量的步骤包括:利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
根据本发明之一优选实施例,所述特定领域的种子query的获取方式包括:方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
根据本发明之一优选实施例,提取候选需求模版W的泛化能力特征的步骤包括:确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W对应的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
根据本发明之一优选实施例,提取候选需求模版W的边界词特征的步骤包括:将所述特定领域包含的所有候选需求模版切分为片段,从得到的各切分片段中选取正片段并确定各正片段的权重以生成所述特定领域的正向量,从得到的各切分片段中选取负片段并确定各负片段的权重以生成所述特定领域的负向量;确定所述W的切分片段的权重并使用所述W的切分片段及切分片段的权重构成所述W的向量;计算所述W的向量与所述正向量的相似度S1,以及,所述W与所述负向量的相似度S2,并根据所述S1与所述S2的差值得到所述W的边界词特征。
根据本发明之一优选实施例,所述特定领域的正向量和负向量的生成过程具体包括:确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列;T1.如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;T2.如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;T3.确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。
根据本发明之一优选实施例,确定所述W的切分片段的权重的步骤包括:统计所述W的切分片段在所述W中出现的次数并将该次数作为对应切分片段的权重。
根据本发明之一优选实施例,所述步骤C包括:从候选需求模版中选取标准模版集;利用所述标准模版集训练提取的各特征对应的参数,将训练中使得所述标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重;使用提取的各特征及特征的权重计算候选需求模版的得分,并根据该得分对各候选需求模版进行排序。
根据本发明之一优选实施例,从候选需求模版中选取标准模版集的步骤包括:针对提取的每个特征分别基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数;取各特征的模版集合之间的交集作为标准模版集。
根据本发明之一优选实施例,所述步骤D包括:将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数;利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于所述关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4
本发明还提供了一种生成领域需求模版的装置,包括:候选模版获取单元,用于获取特定领域的候选需求模版;特征提取单元,用于提取候选需求模版的特征,其中所述特征提取单元至少包括相似度特征提取单元、泛化能力特征提取单元或边界词特征提取单元中的一个,所述相似度特征提取单元用于提取表征候选需求模板与所述特定领域之间紧密度的相似度特征,所述泛化能力特征提取单元用于提取表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征,所述边界词特征提取单元用于提取表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征;排序单元,用于利用所述特征提取单元提取的特征对候选需求模版进行排序;选取单元,用于根据所述排序单元排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。
根据本发明之一优选实施例,所述候选模版获取单元包括:限定单元,用于从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;泛化单元,用于将所述限定单元选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
根据本发明之一优选实施例,所述候选模版获取单元进一步包括过滤单元,用于根据预设的对所述特定领域的槽位数量要求,从所述泛化单元得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
根据本发明之一优选实施例,所述相似度提取单元包括:模版词向量生成单元,用于在提取候选需求模版W的相似度特征时,获取所述W的核心词向量;领域词向量生成单元,用于获取所述特定领域的核心词向量;计算单元,用于计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
根据本发明之一优选实施例,所述模版词向量生成单元从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中所述N1为正整数。
根据本发明之一优选实施例,所述领域词向量生成单元利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
根据本发明之一优选实施例,所述领域词向量生成单元获取所述特定领域的种子query的方式包括:方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
根据本发明之一优选实施例,所述泛化能力特征提取单元在提取候选需求模版W的泛化能力特征时,确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
根据本发明之一优选实施例,所述边界词特征提取单元包括:切分单元,用于将特定领域包含的所有候选需求模版切分为片段;正负向量生成单元,用于从所述切分单元得到的各切分片段中选取正片段并确定正片段的权重以生成所述特定领域的正向量,从得到的各切分片段中选取负片段并确定各负片段的权重以生成所述特定领域的负向量;模版向量生成单元,用于在提取候选需求模版W的边界词特征时,确定所述W的切分片段的权重并使用所述W的切分片段及切分片段的权重构成所述W的向量;相似度计算单元,用于计算所述W的向量与所述正向量的相似度S1,以及,所述W的向量与所述负向量的相似度S2,并根据所述S1与所述S2的差值得到所述W的边界词特征。
根据本发明之一优选实施例,所述正负向量生成单元包括:槽关键词序列确定单元,用于确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列;正负片段选取单元,用于按照下列方式从各切分片段中选取正片段和负片段以及确定正片段和负片段的权重:T1.如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;T2.如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;T3.确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。
根据本发明之一优选实施例,所述模版向量特征生成单元在确定所述W的切分片段的权重时,统计所述W的切分片段在所述W中出现的次数并将该次数作为对应切分片段的权重。
根据本发明之一优选实施例,所述排序单元包括:标准模版集选取单元,用于从候选需求模版中选取标准模版集;训练单元,用于利用所述标准模版集训练提取的各特征对应的参数,将训练中使得所述标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重;计算与排序单元,用于使用所述特征提取单元提取的各特征及所述训练单元得到的各特征的权重计算候选需求模版的得分,并根据该得分对候选需求模版进行排序。
根据本发明之一优选实施例,所述标准模版集选取单元包括:模版集合确定单元,用于针对提取的每个特征基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数;交集单元,用于取各特征的模版集合之间的交集作为标准模版集。
根据本发明之一优选实施例,所述选取单元包括:第一选取单元,用于将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数;第二选取单元,用于利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于所述关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4
由以上技术方案可以看出,本发明提供了一种通用性的领域需求模版的生成方法,针对不同的领域,均可通过本方法自动挖掘候选需求模版,并提取候选需求模版的特征对候选需求模版的质量进行评定,从而能够在候选需求模版中得到高质量的需求模版。本发明得到的高质量的各个领域的需求模版为搜索引擎理解用户的行为目的提供了保障。
【附图说明】
图1为本发明中生成领域的需求模版的方法的流程示意图;
图2为本发明中获取候选需求模版的实施例的流程示意图;
图3为本发明中利用种子query获取搜索引擎返回数据的示意图;
图4为本发明中生成领域需求模版的装置的实施例的结构示意框图;
图5为本发明中相似度特征提取单元的实施例的结构示意框图;
图6为本发明中边界词特征提取单元的实施例的结构示意框图;
图7为本发明中标准模版集选取单元的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中生成领域的需求模版的方法的流程示意图。如图1所示,该方法包括:
步骤S101:获取特定领域的候选需求模版。
步骤S102:提取候选需求模版的特征。
步骤S103:利用提取的特征对候选需求模版进行排序。
步骤S104:根据排序的结果从候选需求模版中选取最终的需求模版作为特定领域的需求模版。
下面通过具体的实施例对上述方法进行详细介绍。
本发明中,特定领域是反映用户搜索目的的一个范围,如公交领域、天气领域等等,这些领域反映了用户搜索信息时的搜索目的。
请参考图2,图2为本发明中获取候选需求模版的实施例的流程示意图。在本实施例中,利用了领域限定词词典与槽关键词词典对用户搜索日志(querylog)中的用户搜索请求query进行处理,从而生成候选需求模版。
领域限定词词典包含了与各个领域相关的词语,其中特定领域的限定词是与特定领域相关的词语,在本实施例中,特定领域的限定词用于在选取query时,对query进行过滤。只有包含特定领域的限定词的query,才会进行泛化,泛化生成的候选需求模版,就属于特定领域的候选需求模版。领域限定词词典中的词语可以通过下列途径收集得到:
首先可以从用户的query中挖掘领域种子词作为领域限定词,其中领域种子词可以通过人工的方式配置,或者采用人工的方式在搜索日志中标注。
然后通过查找同义词词典,得到与领域种子词同义的词语作为领域限定词,此外,还可以通过使用度量两个词紧密程度的互信息选取搜索日志中与种子词关联程度高的词语一并作为领域限定词。词语之间的互信息可通过对大规模语料进行统计得到,由于属于现有技术,在此不再赘述。以公交领域为例,表1给出了部分领域限定词的示例:
表1
生成候选需求模版的过程,就是对query进行泛化的过程,所谓泛化,指的是将用户query中与特定领域的槽关键词匹配的部分替换为通配符。槽关键词是用于泛化的词语,通过查找槽关键词词典确定,该词典可通过收集各种专有名词得到。
例如“北京15路公交车路线”这样的query,在泛化以后,可以得到“[城市名][公交路线]公交车路线”这样的需求模版。每一个“[]”符号代表模版的一个槽位,表示该位置在满足通配符属性要求的情况下可进行替换,例如上面这个模版与“上海郊14路公共车路线”也匹配。
在得到上述候选需求模版后,还可以根据对候选需求模版所属的特定领域预设的槽位数量要求决定是否对这些候选需求模版进行过滤处理。例如在火车信息查询领域,query中的可变信息一般仅涉及起点和终点,因此可以将火车信息查询领域的模版预定槽数设置为2,凡是不符合预定槽数要求的模版都会被过滤掉,以降低后续对候选需求模版进行处理的复杂度。
本实施例中,步骤S102中提取的特征,至少包括以下特征中的一种:
相似度特征,用于描述候选需求模版与特定领域联系的紧密度;泛化能力特征,用于描述候选需求模版覆盖用户搜索请求query的能力;边界词特征,用于描述候选需求模版中未被泛化的词语对候选需求模版的正确性产生的影响。
下面对上述三个特征的计算方式的实施例进行具体介绍。
1、相似度特征
一个候选需求模版W的相似度特征可以通过计算候选需求模板W的核心词向量与该候选需求模板W所属特定领域的核心词向量之间的余弦距离得到,具体可以采用下列公式(1)进行计算:
sim_score=CossSimilarity(pattern_vector,seed_query_centroid) (1)
其中,sim_score表示候选需求模版W的相似度特征值,pattern_vector表示候选需求模板W的核心词向量,seed_query_centriod表示特定领域的核心词向量,CossSimilarity表示余弦相似度函数。
核心词向量,是由核心词为向量特征形成的向量。因此,在计算相似度特征时,首先要确定如何选取核心词。
在确定特定领域的核心词时,可以利用该特定领域的种子query获取搜索引擎返回的数据,并利用搜索引擎返回的数据确定核心词。请参考图3,图3为本发明中利用种子query获取搜索引擎返回数据的示意图。如图3所示,种子query为“北京15路公交车路线”,该种子query可以从搜索引擎得到多个搜索结果。将这些搜索结果的标题(title)和内容(text)进行预处理(包括分句、分词、去除停用词等)后,得到统计语料。针对统计语料中的每个词,统计该词出现的句子数及该词与检索词共同出现的句子数,并统计包含检索词的句子数,其中检索词是种子query分词后得到的词语。
得到上述信息后,可采用下列公式(2)计算每个词的权重,并将权值大于设定阈值的词语作为核心词,这些核心词的权重相应地构成了对应向量特征的权重。
Centralit y sch _ term ( w ) = log ( Co ( w , sch _ term ) + 1 ) log ( sf ( w ) + 1 ) + log ( sf ( sch _ term ) + 1 ) × log ( idf ( w ) + 1 ) - - - ( 2 )
其中,Centralitysch_term(w)表示词w的权值,Co(w,sch_term)表示词w与检索词sch_term共同出现的句子个数;sf(sch_term)表示含有检索词sch_term的句子个数;sf(w)表示包含词w句子个数;idf(w)表示词w的逆向文档频率,可通过查找利用大规模语料统计得来的逆文档频率表得到。
在获取特定领域的种子query时,可采用下列几种实施方式:
实施方式一:
在特定领域包含的候选需求模版中选取在搜索日志中覆盖的query数最多的N2个候选需求模版,并针对这N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2、M1为正整数,优选地,M1等于1。例如下面表2为公交领域的候选需求模版:
表2
假设N2=2,M1=1,则表3示出了针对表2中的候选需求模版采用实施方式一得到的种子query及其相应的候选需求模版。
表3
种子query 对应模板
北京15路公交车路线 [城市名][公交路线]公交车路线
北京公交23路 [城市名]公交[公交路线]
在这种实施方式下,种子query来源于用户的真实query,能够更好地代表用户的习惯。
实施方式二:
将特定领域的槽关键词与特定领域限定词进行组合生成种子query。
以生成公交领域的种子query为例,请参考表4:
表4
生成的种子query 对应的槽关键词 对应的领域限定词
北京15路 公交车路线 北京 15路 公交车路线
上海 公交 上海 公交
这种方式下,生成的种子query结构简单。
优选地,可采用实施方式三来获取种子query。
实施方式三:
采用实施方式一的方法选出部分种子query,然后利用槽关键词词典将选取的种子query中的槽关键词替换为特定领域的其他槽关键词以得到扩展的种子query。
例如表5所示为采用实施方式三得到的种子query。
表5
选取的种子query 扩展的种子query
北京15路公交车路线 沈阳15路公交车路线
北京公交23路 济南公交12路
上述过程可得到特定领域的核心词向量,下面将描述获取候选需求模版的核心词向量的过程。
首先,与获取特定领域的核心词向量类似的,需要先获取统计语料。在获取统计语料时,首先从候选需求模版在搜索日志中覆盖的query里,选取查询次数最多的N1个query作为待搜索query,然后使用这些待搜索query从搜索引擎中获取搜索结果,对这些搜索结果的title和text进行预处理,就可以得到统计语料了,其中N1为正整数。
在得到的统计语料中,统计每个词的在语料中出现的频率,并按照下列公式(3)计算每个词的权重,权重大于设定阈值的词就可作为候选需求模版的核心词,核心词的权重即为对应的向量特征的权重。
Weight(w)=log(tf(w)+1)×log(idf(w)+1) (3)
其中,Weight(w)表示词w的权值,tf(w)表示词w的频率,idf(w)表示词w的逆向文档频率,可通过查找利用大规模语料统计得来的逆文档频率表得到。
在得到候选需求模版的核心词向量与特定领域的核心词向量后,就可按照公式(1)计算候选需求模版的相似度特征了。
2、泛化能力特征
泛化能力特征可用候选需求模版对应的槽关键词序列中互异的槽关键词序列的数量来衡量,其中候选需求模版对应的一个槽关键词序列是由候选需求模版在搜索日志中覆盖的一个query中的槽关键词组成的序列。
例如对模版“[城市名][公交路线]公交车路线”,其覆盖的query有“北京15路公交车路线”、“上海郊14路公交车路线”、“沈阳铁西2线公交车路线”、“北京15路公交车路线图查询”,则槽关键词序列有“北京15路”、“上海郊14路”、“沈阳铁西2线”和“北京15路”,互异的槽关键词序列为“北京 15路”、“上海 郊14路”和“沈阳 铁西2线”,因此对模版“[城市名][公交路线]公交车路线”而言,它的泛化能力特征值就是3。
优选的,泛化能力特征采用下列方式进行计算。首先确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量及该数量中的最大值,然后按照下列公式(4)计算每个候选需求模版的泛化能力特征值:
general_scorei=log(pattern_dif_queryi+1)/log(max_dif_query+1) (4)
其中,general_scorei表示候选需求模版i的泛化能力特征值,pattern_dif_queryi表示候选需求模版i对应的互异的槽关键词序列的数量,max_dif_query表示该候选需求模板i所属特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量中的最大值。
3、边界词特征
边界词是候选需求模版中未被泛化的词语。候选需求模版中未被泛化的词语对最终生成的模版的正确性产生影响。例如在公交领域,“[城市名][公交路线]公交车路线”这样的需求模版,显然比“公交卡断了怎么办[城市名]”这样的模版更能反映公交领域的需求。
在本发明中,候选需求模版W的边界词特征通过下面的公式(5)来计算。
boundary_word_score
=CosSimilarity(pattern_centroid,positive_centroid) (5)
-CosSimilarity(pattern_centroid,negative_centroid)
其中,boundary_word_score为候选需求模版W的边界词特征,CosSimilarity为余弦相似度函数,pattern_centroid为候选需求模版W形成的向量,positive_centroid为特定领域的正向量,negative_centroid为特定领域的负向量。
下面分别介绍如何获取公式中的各个变量值。
生成特定领域的正负向量的过程包括:
将特定领域包含的所有候选需求模版按照n元词组(n-gram)(n>1)的方式进行切分,优选地,取n=2,可得到各个切分片段,其中所谓n-gram就是能够进行语义表达的最小粒度的n个词语按顺序出现的组合,其中n为预设的正整数。例如对“[城市名][公交路线]公交车路线”这个模版,假设其能够进行语义表达的最小粒度的词语分别为“[城市名]”、“[公交路线]”和“公交车路线”,则该模版的2-gram的切分片段分别是“[城市名][公交路线]”、“[公交路线]公交车路线”,或者对“公交卡断了怎么办[城市名]”这个模版,假设其能够进行语义表达的最小粒度的词语分别为“公交卡”、“断了”、“怎么办”和“[城市名]”,则该模版的2-gram的切分片段分别是“公交卡断了”、“断了怎么办”、“怎么办[城市名]”。
从各切分片段中选取正片段和负片段,其中一个正片段就是正向量的一个向量特征,一个负片段就是负向量中的一个向量特征,并确定各个向量特征的权重。该过程包括:
A.确定各切分片段对应的槽关键词序列,其中一个切分片段的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列。
例如,对切分片段“[城市名]公交”来说,包含该切分片段的候选需求模版及其覆盖的query如表6所示:
表6
则对切分片段“[城市名]公交”而言,它的槽关键词序列包括“北京15路”、“上海36路”、“北京15路”、“杭州”。
B.按照下列方式确定从各切分片段中选取正向量特征和负向量特征并确定各向量特征的权重:
(1)如果一个切分片段的所有槽关键词序列相同,则该切分片段作为负向量特征,且该负向量特征的权重为1。
(2)如果一个切分片段的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值时,则将该切分片段作为负向量特征,且该向量特征的权重为比例P,优选地,第一阈值为90%。
(3)确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不符合上述两种情况,且该切分片段的互异的槽关键词序列的数量Z2与Z1的比值大于预设的第二阈值时,则将该切分片段作为正向量特征,且该正向量特征的权重为Z2与Z1的比值,优选地,第二阈值为1%。
例如上面的切分片段“[城市名]公交”,互异的槽关键词序列分别为“北京15路”、“上海36路”、“杭州”,互异的槽关键词序列的数目为3,其中“北京15路”在所有槽关键词序列中的比例为2/4,“上海/36路”在所有槽关键词序列中的比例为1/4,“杭州”在所有槽关键词序列中的比例为1/4,因此该切分片段不符合(1)或(2)中情况,所以该切分片段不属于负向量特征,假设特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量中的最大值为10且第二阈值为1%,则由于3/10大于1%,所以该切分片段应该作为正向量特征。
以表2所示的模版为例,采用上述方式得到的正向量与负向量分别如表7和表8所示:
表7
正向量中的向量特征 特征权重
[城市名][公交路线] 1.000000
[公交路线]公交车路线 1.000000
[城市名]公交 0.666667
公交[公交路线] 0.666667
[地点名]到 0.666667
到[地点名] 1.000000
[地点名]的 0.666667
的公交车 0.666667
表8
负向量中的向量特征 特征权重
[地点名]公交车路线 1.000000
公交月票 1.000000
月票[城市名] 1.000000
公交卡[地点名] 1.000000
[地点名]充值点 1.000000
公交[城市名] 1.000000
[城市名]电话 1.000000
公交[地点名] 1.000000
[地点名]抓贼 1.000000
公交卡断了 1.000000
断了怎么办 1.000000
怎么办[城市名] 1.000000
候选需求模版W形成的向量中的向量特征是候选需求模版W的切分片段,其中切分的方式与正负向量中描述的类似,而特征权重可由对应的切分片段在候选需求模版W中出现的次数来确定。
例如“[城市名][公交路线]公交车路线”这个模版包含的切分片段分别为“[城市名][公交路线]”和“[公交路线]公交车路线”,由于这两个切分片段在该模版中出现的次数都是1,所以模版“[城市名][公交路线]公交车路线”对应的向量特征“[城市名][公交路线]”和“[公交路线]公交车路线”的特征权重分别都是1。如果一个模版为“[城市名][公交路线][城市名][公交路线]”,那么对这个模版的向量特征“[城市名][公交路线]”而言,特征权重就是2。
候选需求模版的向量特征的特征权重的确定方式不唯一,除了以切分片段在模版中出现的次数作为对应的向量特征的特征权重,还可以采用布尔值的形式来确定对应的向量特征的特征权重,在此不对特征权重的计算方式进行限定。
以表2所示的候选需求模版为例,各个候选需求模版的边界词特征如表9所示:
表9
在步骤S103中,排序的过程包括:
1、从候选需求模版中选取标准模版集,包括:
针对提取的每个特征分别基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数。
取各特征的模版集合之间的交集,并将该交集作为标准模版集。
例如:针对特征1、2、3对候选需求模版S1-S10进行排序,得到表10:
表10
如果N3=5,则特征1的模版集合为{S5 S6 S4 S2 S1},特征2的模版集合为{S4 S5S2 S8 S1},特征3的模版集合为{S2 S10 S5 S6 S1},则各特征的模版集合的交集就是{S1S2 S5}。
2、利用标准模版集训练提取的各特征对应的参数,将训练中使得标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重。
公式(6)是基于提取的全部特征对所有候选需求模版进行排序时,各候选需求模版的得分,得分越高说明该候选需求模版的质量越好,因此排名就越靠前。
total_score=λ1sim_score+λ2general_score+λ3boundary_word_score (6)
其中,sim_score、general_score和boundary_word_score分别是相似度特征、泛化能力特征及边界词特征的值,λ1、λ2及λ3是待训练的参数,代表了各个特征的权重。
训练参数采用的方法是梯度下降,通过连续迭代,不停调整参数的值,以使得标准模版集中的模版的排名尽可能地靠前,直到标准模版集中的模版在所有候选需求模版中的排序不再提前,这时的各参数值即为对应特征的权重。
3、使用提取的各特征及其权重计算候选需求模版的得分,并根据该得分对候选需求模版进行排序,即采用下列公式(6)计算候选需求模版的得分,其中公式(6)中的λ1、λ2及λ3为训练得到的各个特征的权重。
通过上述方式计算出候选需求模版的得分,便可以按照得分从高到低的顺序对候选需求模版进行排序。
步骤S104中选取最终的需求模版时,除了会将排序位于前N4位的候选需求模版作为最终需求模版以外,还会利用排序位于前M2位的候选需求模版的边界词从排序位于前N4位之后的候选需求模版中选取最终需求模版,其中M2与N4均为正整数且M2≤N4
具体做法为:
利用关键词词典,获取与排序位于前M2位的候选需求模版的边界词对应的关键词集合,其中所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词;
将排序位于前N4位之后的候选需求模版中的边界词均属于关键词集合的候选需求模版作为最终需求模版。
假设排名在前M2位以内的模版有:[城市名][公交路线]公交车路线、[地点名]到[地点名]的公交车、[城市名]公交[公交路线],其中边界词有“公交车路线”、“到”、“公交车”、“的”,通过关键词词典,可以得到与上述边界词对应的关键词集合为“公交/工交/工交车/公车/公共交通/公共交通线路/公共汽车/公交/公交车/公交联营车/公交路线/公交汽车/公交线/公交线路/公汽/共交/市区公交/公交车线路/的/到/到达”,则对于排名在前N4位之后的模版“到[地点名]公交车路线”而言,由于这个模版的边界词“到”与“公交车路线”均在关键词集合里,因此这个模版也可以被选取为最终模版。上述关键词词典中的关键词可通过各种现有技术得到,如挖掘同义词或互信息计算等,在此不再详述。
请参考图4,图4为本发明中生成领域模版的装置的实施例的结构示意框图。如图4所示,该装置包括:候选需求模版获取单元201、特征提取单元202、排序单元203及选取单元204。
其中候选需求模版获取单元201用于获取特定领域的候选需求模版。优选地,候选需求模版获取单元201包括限定单元2011和泛化单元2012。
其中限定单元2011用于从搜索日志中选取用户搜索请求query中与预设的特定领域的限定词匹配的query,其中特定领域限定词是与特定领域相关的词语。泛化单元2012用于将选取的query中与预设的特定领域的槽关键词匹配的部分替换为通配符,以得到候选需求模版,其中特定领域的槽关键词是特定领域用于泛化的词语。
进一步地,所述候选需求模版获取单元201还可包括一过滤单元,用于根据预设的对所述特定领域的槽位数量要求,从泛化单元得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
特征提取单元202用于提取候选需求模版的特征。优选地,特征提取单元202包括相似度特征提取单元2021、泛化能力特征提取单元2022及边界词特征提取单元2023中的至少一种。
其中,相似度特征提取单元2021用于提取候选需求模版的相似度特征,所述相似度特征用于描述候选需求模版与特定领域联系的紧密度。请参考图5,图5为本发明中相似度特征提取单元的实施例的结构示意框图。如图5所示,相似度特征提取单元2021包括模版词向量生成单元2021_1、领域词向量生成单元2021_2和计算单元2021_3。
其中模版词向量生成单元2021_1用于在提取候选需求模版W的相似度特征时,获取W的核心词向量。
领域词向量生成单元2021_2用于获取特定领域的核心词向量。
计算单元2021_2用于计算该候选需求模版的核心词向量与特定领域的核心词向量之间的相似度,并将该相似度作为W的相似度特征。
优选地,模版词向量生成单元2021_1在获取W的核心词向量时,从W在搜索日志中覆盖的query中选取查询次数最多的N1个query,并在这N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成W的核心词向量,其中所述N1为任意正整数。
领域词向量生成单元2021_2获取特定领域的种子query的方式包括:
方式一、从特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对这N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数。
方式二、将预设的特定领域的槽关键词与预设的特定领域的限定词进行组合生成所述特定领域的种子query。
方式三、利用方式一选择出部分种子query后,利用预设的特定领域的槽关键词词典将方式一选择出的种子query中的槽关键词替换为槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成特定领域的种子query。
优选地,领域词向量生成单元2021_2可采用方式三获取特定领域的种子query。
请继续参考图4。泛化能力特征提取单元2022,用于提取候选需求模版的泛化能力特征。所述泛化能力特征用于描述候选需求模版覆盖用户搜索请求query的能力。
优选地,泛化能力特征提取单元2022在提取候选需求模版W的泛化能力特征时,确定W对应的槽关键词序列,统计W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算W的泛化能力特征,其中W对应的一个槽关键词序列是由W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
边界词特征提取单元2023,用于提取候选需求模版的边界词特征。所述边界词特征用于描述候选需求模版中未被泛化的词语对候选需求模版的正确性产生的影响。
请参考图6,图6为本发明中边界词特征提取单元的实施例的结构示意框图。如图6所示,该实施例包括:切分单元2023_1、正负向量生成单元2023_2、模版向量生成单元2023_3及相似度计算单元2023_4。
其中切分单元2023_1用于将特定领域包含的所有候选需求模版切分为片段。
正负向量生成单元2023_2用于从切分单元2023_1得到的各切分片段中选取正片段并确定正片段的权重以生成特定领域的正向量,从得到的各切分片段中选取负片段并确定负片段的权重以生成特定领域的负向量。优选地,正负向量生成单元2023_3包括槽关键词序列确定单元2023_21及正负片段选取单元2023_22。
其中槽序列词确定单元2023_21用于确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列。
正负片段选取单元2023_22用于按照下列方式从各切分片段中选取正片段和负片段并确定正片段和负片段的权重:
(1)如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;
(2)如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;
(3)确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。
模版向量生成单元2023_3用于在提取候选需求模版W的边界词特征时,确定W的切分片段的权重并使用W的切分片段及切分片段的权重构成W的向量。优选地,模版向量生成单元2023_3在确定W的切分片段的权重时,统计W的切分片段在W中出现的次数,并将该次数作为对应切分片段的权重。
相似度计算单元2023_4用于计算W的向量与正向量的相似度S1以及W的向量与负向量的相似度S2,并根据S1与S2的差值得到W的边界词特征。
请继续参考图4。排序单元203用于利用特征提取单元202提取的特征对候选需求模版进行排序。排序单元203包括标准模版集选取单元2031、训练单元2032及计算与排序单元2033。
其中,标准模版集选取单元2031用于从候选需求模版中选取标准模版集。请参考图7,图7为本发明中标准模版集选取单元的实施例的结构示意框图。如图7所示,标准模版集选取单元2031包括模版集合确定单元2031_1和交集单元2031_2。其中模版集合确定单元2031_1,用于针对提取的每个特征基于特征值对各候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数。交集单元2031_2,用于取各特征的模版集合之间的交集作为标准模版集。
请继续参考图4。训练单元2032用于使用标准模版集训练提取的各特征对应的参数,将训练中使得标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重。
计算与排序单元2033用于使用特征提取单元202提取的各特征及训练单元2032得到的各特征的权重计算候选需求模版的得分,并根据该得分对各候选需求模版进行排序。优选地,按照得分从高到低对各候选需求模版进行排序。
选取单元204用于根据排序单元203排序的结果从候选需求模版中选取最终需求模版作为特定领域的需求模版。优选地,选取单元204包括第一选取单元2041和第二选取单元2042。其中第一选取单元2041用于将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数。第二选取单元2042用于利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (26)

1.一种生成领域需求模版的方法,其特征在于,所述方法包括:
A.获取特定领域的候选需求模版;
B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模版与所述特定领域之间紧密度的相似度特征、表征候选需求模版覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模版中未泛化的词语对候选需求模版正确性所产生影响的边界词特征中的至少一种;
C.利用提取的特征对候选需求模版进行排序;
D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版;其中,
所述步骤A包括:
A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;
A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
2.根据权利要求1所述的方法,其特征在于,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
3.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的相似度特征的步骤包括:
获取所述W的核心词向量及所述特定领域的核心词向量;
计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
4.根据权利要求3所述的方法,其特征在于,获取所述W的核心词向量的步骤包括:
从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query, 并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。
5.根据权利要求3所述的方法,其特征在于,获取所述特定领域的核心词向量的步骤包括:
利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
6.根据权利要求5所述的方法,其特征在于,所述特定领域的种子query的获取方式包括:
方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,
方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,
方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
7.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的泛化能力特征的步骤包括:
确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W对应的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
8.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的边界词特征的步骤包括:
将所述特定领域包含的所有候选需求模版切分为片段,从得到的各切分片 段中选取正片段并确定各正片段的权重以生成所述特定领域的正向量,从得到的各切分片段中选取负片段并确定各负片段的权重以生成所述特定领域的负向量;
确定所述W的切分片段的权重并使用所述W的切分片段及切分片段的权重构成所述W的向量;
计算所述W的向量与所述正向量的相似度S1,以及,所述W与所述负向量的相似度S2,并根据所述S1与所述S2的差值得到所述W的边界词特征。
9.根据权利要求8所述的方法,其特征在于,所述特定领域的正向量和负向量的生成过程具体包括:
确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列;
T1.如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;
T2.如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;
T3.确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。
10.根据权利要求8所述的方法,其特征在于,确定所述W的切分片段的权重的步骤包括:
统计所述W的切分片段在所述W中出现的次数并将该次数作为对应切分片段的权重。
11.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
从候选需求模版中选取标准模版集;
利用所述标准模版集训练提取的各特征对应的参数,将训练中使得所述标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重;
使用提取的各特征及特征的权重计算候选需求模版的得分,并根据该得分对各候选需求模版进行排序。
12.根据权利要求11所述的方法,其特征在于,从候选需求模版中选取标准模版集的步骤包括:
针对提取的每个特征分别基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数;
取各特征的模版集合之间的交集作为标准模版集。
13.根据权利要求1所述的方法,其特征在于,所述步骤D包括:
将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数;
利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于所述关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4
14.一种生成领域需求模版的装置,其特征在于,所述装置包括:
候选模版获取单元,用于获取特定领域的候选需求模版;
特征提取单元,用于提取候选需求模版的特征,其中所述特征提取单元至少包括相似度特征提取单元、泛化能力特征提取单元或边界词特征提取单元中的一个,所述相似度特征提取单元用于提取表征候选需求模版与所述特定领域之间紧密度的相似度特征,所述泛化能力特征提取单元用于提取表征候选需求模版覆盖用户搜索请求query能力的泛化能力特征,所述边界词特征提取单元用 于提取表征候选需求模版中未泛化的词语对候选需求模版正确性所产生影响的边界词特征;
排序单元,用于利用所述特征提取单元提取的特征对候选需求模版进行排序;
选取单元,用于根据所述排序单元排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版;其中,
所述候选模版获取单元包括:
限定单元,用于从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;
泛化单元,用于将所述限定单元选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
15.根据权利要求14所述的装置,其特征在于,所述候选模版获取单元进一步包括过滤单元,用于根据预设的对所述特定领域的槽位数量要求,从所述泛化单元得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
16.根据权利要求14所述的装置,其特征在于,所述相似度提取单元包括:
模版词向量生成单元,用于在提取候选需求模版W的相似度特征时,获取所述W的核心词向量;
领域词向量生成单元,用于获取所述特定领域的核心词向量;
计算单元,用于计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
17.根据权利要求16所述的装置,其特征在于,所述模版词向量生成单元从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中所述N1为正整数。
18.根据权利要求16所述的装置,其特征在于,所述领域词向量生成单元利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
19.根据权利要求18所述的装置,其特征在于,所述领域词向量生成单元获取所述特定领域的种子query的方式包括:
方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,
方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,
方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
20.根据权利要求14所述的装置,其特征在于,所述泛化能力特征提取单元在提取候选需求模版W的泛化能力特征时,确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
21.根据权利要求14所述的装置,其特征在于,所述边界词特征提取单元包括:
切分单元,用于将特定领域包含的所有候选需求模版切分为片段;
正负向量生成单元,用于从所述切分单元得到的各切分片段中选取正片段并确定正片段的权重以生成所述特定领域的正向量,从得到的各切分片段中选取负片段并确定各负片段的权重以生成所述特定领域的负向量;
模版向量生成单元,用于在提取候选需求模版W的边界词特征时,确定所述W的切分片段的权重并使用所述W的切分片段及切分片段的权重构成所述W的向量;
相似度计算单元,用于计算所述W的向量与所述正向量的相似度S1,以及, 所述W的向量与所述负向量的相似度S2,并根据所述S1与所述S2的差值得到所述W的边界词特征。
22.根据权利要求21所述的装置,其特征在于,所述正负向量生成单元包括:
槽关键词序列确定单元,用于确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列;
正负片段选取单元,用于按照下列方式从各切分片段中选取正片段和负片段以及确定正片段和负片段的权重:
T1.如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;
T2.如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;
T3.确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。
23.根据权利要求21所述的装置,其特征在于,所述模版向量特征生成单元在确定所述W的切分片段的权重时,统计所述W的切分片段在所述W中出现的次数并将该次数作为对应切分片段的权重。
24.根据权利要求14所述的装置,其特征在于,所述排序单元包括:
标准模版集选取单元,用于从候选需求模版中选取标准模版集;
训练单元,用于利用所述标准模版集训练提取的各特征对应的参数,将训练中使得所述标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重;
计算与排序单元,用于使用所述特征提取单元提取的各特征及所述训练单元得到的各特征的权重计算候选需求模版的得分,并根据该得分对候选需求模版进行排序。
25.根据权利要求24所述的装置,其特征在于,所述标准模版集选取单元包括:
模版集合确定单元,用于针对提取的每个特征基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数;
交集单元,用于取各特征的模版集合之间的交集作为标准模版集。
26.根据权利要求14所述的装置,其特征在于,所述选取单元包括:
第一选取单元,用于将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数;
第二选取单元,用于利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于所述关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4
CN201110308830.7A 2011-10-12 一种生成领域需求模版的方法及其装置 Active CN102368260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110308830.7A CN102368260B (zh) 2011-10-12 一种生成领域需求模版的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110308830.7A CN102368260B (zh) 2011-10-12 一种生成领域需求模版的方法及其装置

Publications (2)

Publication Number Publication Date
CN102368260A CN102368260A (zh) 2012-03-07
CN102368260B true CN102368260B (zh) 2016-12-14

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101216853A (zh) * 2008-01-11 2008-07-09 孟小峰 一种智能Web查询接口系统及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101216853A (zh) * 2008-01-11 2008-07-09 孟小峰 一种智能Web查询接口系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于查询模板的特定领域中文问答系统的研究与实现;刘亮亮等;《江苏科技大学学报(自然科学版)》;20110415;第25卷(第2期);163-168 *

Similar Documents

Publication Publication Date Title
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
CN103136352B (zh) 基于双层语义分析的全文检索系统
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN103365910B (zh) 一种信息检索的方法和系统
CN105528411B (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN102081642A (zh) 搜索引擎检索结果聚类的中文标签提取方法
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN103390004A (zh) 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN104298715A (zh) 一种基于tf-idf的多索引结果合并排序方法
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN109446399A (zh) 一种影视实体搜索方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant