CN106095912A - 用于生成扩展查询词的方法和装置 - Google Patents

用于生成扩展查询词的方法和装置 Download PDF

Info

Publication number
CN106095912A
CN106095912A CN201610405084.6A CN201610405084A CN106095912A CN 106095912 A CN106095912 A CN 106095912A CN 201610405084 A CN201610405084 A CN 201610405084A CN 106095912 A CN106095912 A CN 106095912A
Authority
CN
China
Prior art keywords
information
entity
word
query
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610405084.6A
Other languages
English (en)
Other versions
CN106095912B (zh
Inventor
伍海洋
和为
李伟
王哲
胡晓光
何中军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610405084.6A priority Critical patent/CN106095912B/zh
Publication of CN106095912A publication Critical patent/CN106095912A/zh
Application granted granted Critical
Publication of CN106095912B publication Critical patent/CN106095912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Abstract

本发明的目的是提供一种用于生成扩展查询词的方法和装置。根据本发明的方法包括以下步骤:通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息;根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储;根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词。与现有技术相比,本发明具有以下优点:通过基于实体词及其需求相关信息来对用户输入的查询词进行扩展,从而提供更多符合用户搜索需求的查询词,提高了所扩展的关键词的准确性。

Description

用于生成扩展查询词的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于生成扩展查询词的方法和装置。
背景技术
现有技术中,在搜索引擎等用于搜索的系统中,一般基于用户输入的全部查询信息来进行搜索,或是仅基于查询信息中的部分关键词或近义词来进行搜索,而没有考虑用户输入的查询信息所反映的搜索需求,从而无法为用户呈现更多符合用户搜索需求的信息。并且,在诸如诗歌生成系统等特定系统中,用户输入的一些查询信息可能并不适合出现在该系统中,因而无法为用户提供适合该系统的且满足其搜索需求的内容。
发明内容
本发明的目的是提供一种用于生成扩展查询词的方法和装置。
根据本发明的一个方面,提供了一种用于生成扩展查询词的方法,其中,所述方法包括以下步骤:
-通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息;
-根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储。
其中,接收到用户输入的查询信息时,所述方法还包括以下步骤:
-根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词。
根据本发明的一个方面,提供了一种用于生成扩展查询词的生成装置,其中,所述生成装置包括:
用于通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息的装置;
用于根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的装置。
其中,所述生成装置还包括:
用于根据所述查询信息和预定的实体扩展信息,获得与该查询信息对应的一个或多个扩展查询词的装置。
与现有技术相比,本发明具有以下优点:通过基于实体词及其需求相关信息来对用户输入的查询词进行扩展,从而提供更多符合用户搜索需求的查询词,提高了所扩展的关键词的准确性;并且,根据本发明的方法,可在诸如用于生成诗歌的系统等特定系统中,提供与特定语料库对应的扩展关键词,进一步提升了所扩展的关键词的准确性;可在诸如用于生成诗歌的系统等特定系统中,对不适合出现在特定系统中的扩展关键词进行改写,进一步提升了所扩展的关键词的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示意出了根据本发明的一种用于获得扩展查询词的方法流程图;
图2示意出了根据本发明的一种用于获得扩展查询词的生成装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一种用于生成扩展查询词的方法流程图。根据本发明的方法包括步骤S1、步骤S2和步骤S3。
其中,根据本发明的方法通过包含于计算机设备中的生成装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
优选地,根据本发明的生成装置包含于网络设备中。
优选地,根据本发明的生成装置包含于诸如用于生成诗歌的系统等特定系统中,以供该特定系统基于生成装置所生成的扩展查询词来搜索或创建诗歌等内容信息。
需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图1,在步骤S1中,生成装置通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息。
其中,所述实体信息包括各种人名、地名或歌曲名等具有实体的信息。
其中,所述需求相关信息包括各种可反映实体信息对应的搜索需求的信息。
优选地,所述需求相关信息基于各个实体信息的描述信息而确定。
具体地,生成装置可通过对各个实体信息进行搜索,获得与每个实体信息对应的描述信息,并将获得的描述信息作为实体信息的需求相关信息。
优选地,生成装置可基于预定的模板信息来对各个实体信息进行搜索,来获得与每个实体信息对应的描述信息。
例如,配置以下模板:[NE]是[W:1-20];[NE]被认为是[W:1-20];[NE]被评为[W:1-20],其中NE表示需要抽取的实体名称,比如电影名,人名等,W:1-20表示1到20个词。生成装置基于该模板,在诸如百科,电影网站或新闻网站等定向站点进行搜索,从而得到与各个实体对应的描述信息。
更优选地,对于无法通过预定的模板信息来确定描述信息的实体信息,生成装置可基于已获得的描述信息和预定的模型信息,来获得与每个实体信息对应的描述信息。
例如,对于无法通过预定的模板信息来确定描述信息的实体信息,生成装置通过正例和无标记样本学习(learning from Positive and Unlabeled examples,PUlearning)学习的方式,将通过预定的模板信息进行搜索而得到的描述信息作为positive训练语料,将该实体信息的、无法确定是否为描述信息的信息作为无标记样本训练语料,从而得到PU学习模型。生成装置基于PU学习模型,来为实体信息确定其对应的描述信息。
根据本发明的一优选实施例,生成装置通过对各个实体信息进行搜索,获得与每个实体信息对应的一个或多个描述信息及各个描述信息各自的搜索频率信息;接着基于搜索频率最高的描述信息来确定相应的实体信息的需求相关信息。
优选地,生成装置从实体信息对应的描述信息中进一步提取一个或多个关键词作为该实体信息的需求相关信息。
根据本发明的第一示例,对于用户搜索过的实体信息“马云”,生成装置通过预定模板在搜索引擎中进行搜索,得到以下4个描述信息:阿里巴巴创始人;明初将领;河北师范大学教授;云南经济电视台副台长。生成装置根据该4个描述信息的搜索频率,将搜索频率最高的“阿里巴巴创始人”作为与实体信息“马云”的需求相关信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息的实现方式,均应包含在本发明的范围内。
继续参照图1,在步骤S2中,生成装置根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储。
其中,所述实体扩展信息包括各个实体信息以及可对该实体信息进行扩展的扩展信息。
优选地,所述扩展信息包括各个实体信息及其对应的一个或多个扩展关键词。
具体地,生成装置可直接将需求相关信息作为实体信息的实体扩展信息。
继续对前述第一示例进行说明,生成装置将在步骤S1中得到的与实体信息“马云”对应的需求相关信息“阿里巴巴创始人”,作为实体信息“马云”的实体扩展信息,从而在预定实体扩展信息中存储实体信息“马云”和其对应的扩展信息“阿里巴巴创始人”。
优选地,生成装置将所述需求相关信息中的一个或多个关键词作为所述实体信息的实体扩展信息。
优选地,生成装置基于特定语料库,将需求相关信息中不适合该特定语料库的内容进行替换或删除。
例如,在用于生成诗歌的系统中,生成装置基于与诗歌对应的语料库,将需求相关信息中的英文替换为该语料库中的中文或中文近义词。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息的实现方式,均应包含在本发明的范围内。
优选地,生成装置通过离线的方式来执行上述步骤S1和步骤S2,以得到与各个实体信息对应的实体扩展信息来进行存储。
优选地,生成装置定期执行上述步骤S1和步骤S2来对所存储的实体扩展信息进行更新。
继续参照图1,接收到用户输入的查询信息时,在步骤S3中,生成装置根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词。
具体地,生成装置先基于所述查询信息在预定的实体扩展信息中进行查询,获得与该查询信息对应的扩展信息,接着基于该扩展信息生成与该查询信息对应的一个或多个扩展查询词。
继续对前述第一示例进行说明,生成装置基于用户输入的查询信息“马云”,在预定的实体扩展信息中进行查询,得到对应的扩展信息“阿里巴巴创始人”,则生成装置将该扩展信息中的所有词作为扩展查询词,从而得到两个扩展查询词“阿里巴巴”和“创始人”。
优选地,所述步骤S3包括步骤S301(图未示)和S302(图未示)。
在步骤S301中,生成装置从所述查询信息中提取出一个或多个关键词。
优选地,生成装置从所述查询信息中提取出一个或多个候选关键词;接着基于预定的选择规则,选择其中一个或多个关键词。
其中,所述选择规则包括各种用于从查询信息中提取关键词的规则。
优选地,生成装置对查询信息中的词语进行统计,以获得与该查询信息中的词语相关的统计信息,并基于统计结果选择该查询信息中的重要词语作为人所述一个或多个关键词。
例如,预定的选择规则指示,基于词频-逆向文件频率(TF-IDF,term frequency-inverse document frequency)、单词利用在历史搜索查询词中出现总次数、单词作为独立查询词出现次数、单词作为两个词的查询词中的其中一个词出现的次数等等,来统计查询信息中的各个词语的频率相关信息,并选择其中频率较高的一个或多个关键词。
又例如,预定的选择规则指示,通过统计词语的长度、上下文环境、词语的类型、是否为句首尾单词、是否为标点符号、停用词或数词等等词语的语义特征,来选择该查询信息的中的一个或多个关键词。
接着,在步骤S302中,生成装置基于已存储的实体扩展信息,对所述一个或多个关键词进行扩展,以生成一个或多个扩展查询词。
例如,生成装置在步骤S301中从所述查询信息中提取出3个关键词keyword_1至keyword_3,并分别基于该3个关键词在预定的实体扩展信息中进行查询,从而得到的与该3个关键词中人一个对应的扩展信息。接着,生成装置将得到的各个扩展信息的中心词语作为扩展查询词。
优选地,根据本发明的方法还包括步骤S4(图未示)和步骤S5(图未示)。
在步骤S4中,生成装置基于预定算法计算所获得的一个或多个扩展查询词的权重信息。
优选地,所述权重信息用于指示扩展查询词的重要性。
在步骤S5中,生成装置基于所述算一个或多个扩展查询词的权重信息来进行排序,从而选择排序靠前的至少一个扩展查询词。
例如,生成装置可基于上述词频-逆向文件频率(TF-IDF,term frequency-inverse document frequency)、单词利用在历史搜索查询词中出现总次数、单词作为独立查询词出现次数、单词作为两个词的查询词中的其中一个词出现的次数等等,来计算各个扩展查询词的权重信息,并基于各个扩展查询词的权重信息对各个扩展查询词进行排序,从而选择排序靠前的至少一个扩展查询词。
优选地,如果所获得的扩展查询词数量小于预定阈值,生成装置可获取特定语料库内与一个或多个扩展查询词的共同出现频率较高的一个或多个关键词,以得到更多的扩展查询词。
例如,生成装置包含于用于生成诗歌的系统中,对于扩展查询词“桃花”,生成装置基于诗歌对应的语料库,获取到该语料库内与“桃花”共同出现频率最高的关键词“春风”,作为可用的扩展查询词。
根据本发明的方法,通过基于实体词及其需求相关信息来对用户输入的查询词进行扩展,从而提供更多符合用户搜索需求的查询词,提高了所扩展的关键词的准确性;并且,根据本发明的方法,可在诸如用于生成诗歌的系统等特定系统中,提供与特定语料库对应的扩展关键词,进一步提升了所扩展的关键词的准确性。
根据本发明的一个优选实施方案,根据方法还包括步骤S6(图未示)。
在步骤S6中,如果一扩展查询词在特定语料库中的频率低于预定阈值,生成装置对该扩展查询词进行改写。
优选地,如果查询信息的一个扩展查询词与该查询信息的其他扩展查询词的逻辑距离相差较远,则生成装置对该扩展查询词进行改写。
具体地,生成装置对该扩展查询词进行改写的方式包括但不限于以下任一种方式:
1)获取特定语料库内与该扩展查询词对应的一个或多个近义词;基于所述一个或多个近义词,对该扩展查询词进行改写;
例如,对于不适合出现在诗歌中的英文扩展查询词“CEO”,生成装置将获取到诗词的语料库内与“CEO”的近义词“东家”或者“店主”,从而将“CEO”改写为“东家”或者“店主”。
2)生成装置基于所述查询改写信息,确定与该扩展查询词对应的替换查询词,以替换该扩展查询词。
其中,所述查询改写信息包括预定的可用于替换特定查询词的一个或多个替换查询词,
其中,所述方法通过执行步骤S7、步骤S8和步骤S9来生成查询词改写信息。
在步骤S7中,生成装置基于大量搜索用户的搜索记录,确定与一个或多个在特定语料库中的频率低于预定阈值的扩展查询词对应的一个或多个近义词。
在步骤S8中,生成装置从一个或多个近义词中选择在特定语料库中的频率高于预定阈值的至少一个近义词,作为该扩展查询词的替换查询词。
在步骤S9中,生成装置基于各个在特定语料库中的频率低于预定阈值的扩展查询词及其对应的至少一个替换查询词,生成所述查询改写信息。
例如,对于需要被改写的扩展查询词query_1,生成装置查询预定的改写词典,得到该改写词典中与query_1对应的替换查询词query_2,从而将query_1改写为query_2。
根据本优选实施方案的方法,可在诸如用于生成诗歌的系统等特定系统中,对不适合出现在特定系统中的扩展关键词进行改写,进一步提升了所扩展的关键词的准确性。
图2示意出了根据本发明的一种用于获得扩展查询词的生成装置的结构示意图。
根据本发明的生成装置包括:用于通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息的装置(以下简称“需求获取装置1”);用于根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的装置(以下简称“第一确定装置2”)。用于根据所述查询信息和预定的实体扩展信息,获得与该查询信息对应的一个或多个扩展查询词的装置(以下简称“扩展生成装置3”)。
参照图2,需求获取装置1通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息。
其中,所述实体信息包括各种人名、地名或歌曲名等具有实体的信息。
其中,所述需求相关信息包括各种可反映实体信息对应的搜索需求的信息。
优选地,所述需求相关信息基于各个实体信息的描述信息而确定。
具体地,需求获取装置1可通过对各个实体信息进行搜索,获得与每个实体信息对应的描述信息,并将获得的描述信息作为实体信息的需求相关信息。
优选地,生成装置可基于预定的模板信息来对各个实体信息进行搜索,来获得与每个实体信息对应的描述信息。
例如,配置以下模板:[NE]是[W:1-20];[NE]被认为是[W:1-20];[NE]被评为[W:1-20],其中NE表示需要抽取的实体名称,比如电影名,人名等,W:1-20表示1到20个词。第一获取装置1基于该模板,在诸如百科,电影网站或新闻网站等定向站点进行搜索,从而得到与各个实体对应的描述信息。
更优选地,对于无法通过预定的模板信息来确定描述信息的实体信息,需求获取装置1可基于已获得的描述信息和预定的模型信息,来获得与每个实体信息对应的描述信息。
例如,对于无法通过预定的模板信息来确定描述信息的实体信息,生成装置通过正例和无标记样本学习(learning from Positive and Unlabeled examples,PUlearning)学习的方式,将通过预定的模板信息进行搜索而得到的描述信息作为positive训练语料,将该实体信息的、无法确定是否为描述信息的信息作为无标记样本训练语料,从而得到PU学习模型。需求获取装置1基于PU学习模型,来为实体信息确定其对应的描述信息。
根据本发明的一优选实施例,所述需求获取装置1包括用于通过对各个实体信息进行搜索,获得与每个实体信息对应的一个或多个描述信息及各个描述信息各自的搜索频率信息的装置(图未示,以下简称“子获取装置”)和用于基于搜索频率最高的描述信息来确定相应的实体信息的需求相关信息的装置(图未示,以下简称“需求确定装置”)。
子获取装置通过对各个实体信息进行搜索,获得与每个实体信息对应的一个或多个描述信息及各个描述信息各自的搜索频率信息;接着,需求确定装置基于搜索频率最高的描述信息来确定相应的实体信息的需求相关信息。
优选地,需求获取装置1可从实体信息对应的描述信息中进一步提取一个或多个关键词作为该实体信息的需求相关信息。
根据本发明的第一示例,对于用户搜索过的实体信息“马云”,需求获取装置1通过预定模板在搜索引擎中进行搜索,得到以下4个描述信息:阿里巴巴创始人;明初将领;河北师范大学教授;云南经济电视台副台长。第一获取装置1根据该4个描述信息的搜索频率,将搜索频率最高的“阿里巴巴创始人”作为与实体信息“马云”的需求相关信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息的需求相关信息的实现方式,均应包含在本发明的范围内。
继续参照图2,第一确定装置2根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储。
其中,所述实体扩展信息包括各个实体信息以及可对该实体信息进行扩展的扩展信息。
优选地,所述扩展信息包括各个实体信息及其对应的一个或多个扩展关键词。
具体地,第一确定装置2可直接将需求相关信息作为实体信息的实体扩展信息。
继续对前述第一示例进行说明,第一确定装置2将第一获取装置1得到的与实体信息“马云”对应的需求相关信息“阿里巴巴创始人”,作为实体信息“马云”的实体扩展信息,从而在预定实体扩展信息中存储实体信息“马云”和其对应的扩展信息“阿里巴巴创始人”。
优选地,第一确定装置2将所述需求相关信息中的一个或多个关键词作为所述实体信息的实体扩展信息。
优选地,第一确定装置2基于特定语料库,将需求相关信息中不适合该特定语料库的内容进行替换或删除。
例如,在用于生成诗歌的系统中,第一确定装置2基于与诗歌对应的语料库,将需求相关信息中的英文替换为语料库中的中文或中文近义词。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息的实现方式,均应包含在本发明的范围内。
优选地,生成装置通过离线的方式来执行上述需求获取装置1和第一确定装置2的操作,以得到与各个实体信息对应的实体扩展信息来进行存储。
优选地,生成装置定期执行上述需求获取装置1和第一确定装置2的操作,来对所存储的实体扩展信息进行更新。
继续参照图2,接收到用户输入的查询信息时,扩展生成装置3根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词。
具体地,扩展生成装置3先基于所述查询信息在预定的实体扩展信息中进行查询,获得与该查询信息对应的扩展信息,接着基于该扩展信息生成与该查询信息对应的一个或多个扩展查询词。
继续对前述第一示例进行说明,扩展生成装置3基于用户输入的查询信息“马云”,在预定的实体扩展信息中进行查询,得到对应的扩展信息“阿里巴巴创始人”,则扩展生成装置3将该扩展信息中的所有词作为扩展查询词,从而得到两个扩展查询词“阿里巴巴”和“创始人”。
优选地,所述扩展生成装置3包括用于从所述查询信息中提取出一个或多个关键词的装置(图未示,以下简称“提取装置”)和用于基于已存储的实体扩展信息,对所述一个或多个关键词进行扩展,以生成一个或多个扩展查询词的装置(图未示,以下简称“扩展装置”)。
提取装置从所述查询信息中提取出一个或多个关键词。
优选地,所述提取装置进一步包括用于从所述查询信息中提取出一个或多个候选关键词的装置(图未示,以下简称“子提取装置”)和用于基于预定的选择规则,选择其中一个或多个关键词的装置(图未示,以下简称“选择装置”)。
子提取装置从所述查询信息中提取出一个或多个候选关键词;接着基于预定的选择规则,选择装置选择其中一个或多个关键词。
其中,所述选择规则包括各种用于从查询信息中提取关键词的规则。
优选地,选择装置对查询信息中的词语进行统计,以获得与该查询信息中的词语相关的统计信息,并基于统计结果选择该查询信息中的重要词语作为人所述一个或多个关键词。
例如,预定的选择规则指示,基于词频-逆向文件频率(TF-IDF,term frequency-inverse document frequency)、单词利用在历史搜索查询词中出现总次数、单词作为独立查询词出现次数、单词作为两个词的查询词中的其中一个词出现的次数等等,来统计查询信息中的各个词语的频率相关信息,并选择其中频率较高的一个或多个关键词。
又例如,预定的选择规则指示,通过统计词语的长度、上下文环境、词语的类型、是否为句首尾单词、是否为标点符号、停用词或数词等等词语的语义特征,来选择该查询信息的中的一个或多个关键词。
接着,扩展装置基于已存储的实体扩展信息,对所述一个或多个关键词进行扩展,以生成一个或多个扩展查询词。
例如,提取装置中从所述查询信息中提取出3个关键词keyword_1至keyword_3,以供生成装置分别基于该3个关键词在预定的实体扩展信息中进行查询,从而得到的与该3个关键词中人一个对应的扩展信息。接着,扩展装置将得到的各个扩展信息的中心词语作为扩展查询词。
优选地,根据本发明的生成装置还包括用于基于预定算法计算所获得的一个或多个扩展查询词的权重信息的装置(图未示,以下简称“计算装置”),和用于基于所述算一个或多个扩展查询词的权重信息来进行排序,从而选择排序靠前的至少一个扩展查询词的装置(图未示,以下简称“排序装置”)。
计算装置基于预定算法计算所获得的一个或多个扩展查询词的权重信息。
优选地,所述权重信息用于指示扩展查询词的重要性。
接着排序装置基于所述算一个或多个扩展查询词的权重信息来进行排序,从而选择排序靠前的至少一个扩展查询词。
例如,计算装置可基于上述词频-逆向文件频率(TF-IDF,term frequency-inverse document frequency)、单词利用在历史搜索查询词中出现总次数、单词作为独立查询词出现次数、单词作为两个词的查询词中的其中一个词出现的次数等等,来计算各个扩展查询词的权重信息,排序装置基于各个扩展查询词的权重信息对各个扩展查询词进行排序,从而选择排序靠前的至少一个扩展查询词。
优选地,如果所获得的扩展查询词数量小于预定阈值,扩展生成装置3可获取特定语料库内与一个或多个扩展查询词的共同出现频率较高的一个或多个关键词,以得到更多的扩展查询词。
例如,生成装置包含于用于生成诗歌的系统中,对于扩展查询词“桃花”,扩展生成装置3基于诗歌对应的语料库,获取到该语料库内与“桃花”共同出现频率最高的关键词“春风”,作为可用的扩展查询词。
根据本发明的方案,通过基于实体词及其需求相关信息来对用户输入的查询词进行扩展,从而提供更多符合用户搜索需求的查询词,提高了所扩展的关键词的准确性;并且,根据本发明的方案,可在诸如用于生成诗歌的系统等特定系统中,提供与特定语料库对应的扩展关键词,进一步提升了所扩展的关键词的准确性。
根据本发明的一个优选实施方案,根据生成装置还包括用于如果一扩展查询词在特定语料库中的频率低于预定阈值,对该扩展查询词进行改写的装置(图未示,以下简称“改写装置”)。
如果一扩展查询词在特定语料库中的频率低于预定阈值,改写装置对该扩展查询词进行改写。
优选地,如果查询信息的一个扩展查询词与该查询信息的其他扩展查询词的逻辑距离相差较远,则改写装置对该扩展查询词进行改写。
具体地,改写装置对该扩展查询词进行改写的方式包括但不限于以下任一种方式:
1)获取特定语料库内与该扩展查询词对应的一个或多个近义词;基于所述一个或多个近义词,对该扩展查询词进行改写;
例如,对于不适合出现在诗歌中的英文扩展查询词“CEO”,改写装置将获取到诗词的语料库内与“CEO”的近义词“东家”或者“店主”,从而将“CEO”改写为“东家”或者“店主”。
2)基于所述查询改写信息,确定与该扩展查询词对应的替换查询词,以替换该扩展查询词。
其中,所述查询改写信息包括预定的可用于替换特定查询词的一个或多个替换查询词,
其中,所述生成装置通过用于基于大量搜索用户的搜索记录,确定与一个或多个在特定语料库中的频率低于预定阈值的扩展查询词对应的一个或多个近义词的装置(图未示,以下简称“第二确定装置”)、用于从一个或多个近义词中选择在特定语料库中的频率高于预定阈值的至少一个近义词,作为该扩展查询词的替换查询词。的装置(图未示,以下简称“替换选择装置”),和用于基于各个在特定语料库中的频率低于预定阈值的扩展查询词及其对应的至少一个替换查询词,生成所述查询改写信息的装置(图未示,以下简称“改写生成装置”),来生成查询词改写信息。
第二确定装置基于大量搜索用户的搜索记录,确定与一个或多个在特定语料库中的频率低于预定阈值的扩展查询词对应的一个或多个近义词。
替换选择装置从一个或多个近义词中选择在特定语料库中的频率高于预定阈值的至少一个近义词,作为该扩展查询词的替换查询词。
改写生成装置基于各个在特定语料库中的频率低于预定阈值的扩展查询词及其对应的至少一个替换查询词,生成所述查询改写信息。
例如,对于需要被改写的扩展查询词query_1,改写装置通过查询预定的改写词典,得到该改写词典中与query_1对应的替换查询词query_2,从而将query_1改写为query_2。
根据本优选实施方案,可在诸如用于生成诗歌的系统等特定系统中,对不适合出现在特定系统中的扩展关键词进行改写,进一步提升了所扩展的关键词的准确性。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种用于生成扩展查询词的方法,其中,所述方法包括以下步骤:
-通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息;
-根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储。
其中,接收到用户输入的查询信息时,所述方法还包括以下步骤:
-根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词。
2.根据权利要求1所述的方法,其中,所述通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息的需求相关信息的步骤包括以下步骤:
-通过对各个实体信息进行搜索,获得与每个实体信息对应的一个或多个描述信息及各个描述信息各自的搜索频率信息;
-基于搜索频率最高的描述信息来确定相应的实体信息的需求相关信息。
3.根据权利要求1或2所述的方法,其中,所述根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的步骤包括以下步骤:
-将所述需求相关信息中的一个或多个关键词作为所述实体信息的实体扩展信息。
4.根据权利要求1所述的方法,其中,所述根据所述查询信息和预定的实体扩展信息,生成与该查询信息对应的一个或多个扩展查询词的步骤包括以下步骤:
-从所述查询信息中提取出一个或多个关键词;
-基于已存储的实体扩展信息,对所述一个或多个关键词进行扩展,以生成一个或多个扩展查询词。
5.根据权利要求4所述的方法,其中,所述从所述查询信息中提取出一个或多个关键词的步骤包括以下步骤:
-从所述查询信息中提取出一个或多个候选关键词;
-基于预定的选择规则,选择其中一个或多个关键词。
6.根据权利要求1所述的方法,其中,所述方法还包括以下步骤:
-基于预定算法计算所获得的一个或多个扩展查询词的权重信息;
-基于所述算一个或多个扩展查询词的权重信息来进行排序,从而选择排序靠前的至少一个扩展查询词。
7.根据权利要求1所述的方法,其中,所述方法还包括以下步骤:
-如果一扩展查询词在特定语料库中的频率低于预定阈值,对该扩展查询词进行改写。
8.根据权利要求7所述的方法,其中,所述查询改写信息包括预定的可用于替换特定查询词的一个或多个替换查询词,所述方法包括以下步骤:
-基于所述查询改写信息,确定与该扩展查询词对应的替换查询词,以替换该扩展查询词。
9.根据权利要求8所述的方法,其中,所述方法通过执行以下步骤来生成查询词改写信息:
-基于大量搜索用户的搜索记录,确定与一个或多个在特定语料库中的频率低于预定阈值的扩展查询词对应的一个或多个近义词;
-从一个或多个近义词中选择在特定语料库中的频率高于预定阈值的至少一个近义词,作为该扩展查询词的替换查询词;
-基于各个在特定语料库中的频率低于预定阈值的扩展查询词及其对应的至少一个替换查询词,生成所述查询改写信息。
10.根据权利要求7所述的方法,其中,所述方法包括以下步骤:
-获取特定语料库内与该扩展查询词对应的一个或多个近义词;
-基于所述一个或多个近义词,对该扩展查询词进行改写。
11.一种用于生成扩展查询词的生成装置,其中,所述生成装置包括:
用于通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息对应的需求相关信息的装置;
用于根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的装置。
其中,所述生成装置还包括:
用于根据所述查询信息和预定的实体扩展信息,获得与该查询信息对应的一个或多个扩展查询词的装置。
12.根据权利要求11所述的生成装置,其中,所述用于通过对一个或多个实体信息进行搜索,获取所述一个或多个实体信息的需求相关信息的装置包括:
用于通过对各个实体信息进行搜索,获得与每个实体信息对应的一个或多个描述信息及各个描述信息各自的搜索频率信息的装置;
用于基于搜索频率最高的描述信息来确定相应的实体信息的需求相关信息的装置。
13.根据权利要求11或12所述的生成装置,其中,所述用于根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的装置用于:
-将所述需求相关信息中的一个或多个关键词作为所述实体信息的实体扩展信息。
14.根据权利要求11所述的生成装置,其中,所述用于根据所获取的各个实体信息及其需求相关信息,确定与各个实体信息对应的实体扩展信息,以进行存储的装置包括:
用于从所述查询信息中提取出一个或多个关键词的装置;
用于基于已存储的实体扩展信息,对所述一个或多个关键词进行扩展,以生成一个或多个扩展查询词。
15.根据权利要求14所述的生成装置,其中,所述用于从所述查询信息中提取出一个或多个关键词的装置包括:
用于从所述查询信息中提取出一个或多个候选关键词的装置;
用于基于预定的选择规则,选择其中一个或多个关键词的装置。
16.根据权利要求11所述的生成装置,其中,所述生成装置还包括:
用于基于预定算法计算所获得的一个或多个扩展查询词的权重信息的装置;
用于基于所述算一个或多个扩展查询词的权重信息来进行排序,从而选择排序靠前的至少一个扩展查询词的装置。
17.根据权利要求11所述的生成装置,其中,所述生成装置还包括:
用于如果一扩展查询词在特定语料库中的频率低于预定阈值,对该扩展查询词进行改写的装置。
18.根据权利要求17所述的生成装置,其中,所述查询改写信息包括预定的可用于替换特定查询词的一个或多个替换查询词,所述生成装置包括:
用于基于所述查询改写信息,确定与该扩展查询词对应的替换查询词,以替换该扩展查询词的装置。
19.根据权利要求18所述的生成装置,其中,所述生成装置包括:
用于基于大量搜索用户的搜索记录,确定与一个或多个在特定语料库中的频率低于预定阈值的扩展查询词对应的一个或多个近义词的装置;
用于从一个或多个近义词中选择在特定语料库中的频率高于预定阈值的至少一个近义词,作为该扩展查询词的替换查询词的装置;
用于基于各个在特定语料库中的频率低于预定阈值的扩展查询词及其对应的至少一个替换查询词,生成所述查询改写信息的装置。
20.根据权利要求17所述的的装置,其中,所述方的装置包括:
用于获取特定语料库内与该扩展查询词对应的一个或多个近义词的装置;
用于基于所述一个或多个近义词,对该扩展查询词进行改写的装置。
CN201610405084.6A 2016-06-08 2016-06-08 用于生成扩展查询词的方法和装置 Active CN106095912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610405084.6A CN106095912B (zh) 2016-06-08 2016-06-08 用于生成扩展查询词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610405084.6A CN106095912B (zh) 2016-06-08 2016-06-08 用于生成扩展查询词的方法和装置

Publications (2)

Publication Number Publication Date
CN106095912A true CN106095912A (zh) 2016-11-09
CN106095912B CN106095912B (zh) 2020-12-08

Family

ID=57227589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610405084.6A Active CN106095912B (zh) 2016-06-08 2016-06-08 用于生成扩展查询词的方法和装置

Country Status (1)

Country Link
CN (1) CN106095912B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN107608536A (zh) * 2017-09-25 2018-01-19 武汉优品鼎盛科技服务有限公司 一种自动完成数据输入的方法及设备
CN108733757A (zh) * 2018-04-11 2018-11-02 达而观信息科技(上海)有限公司 文本搜索方法及系统
CN113505194A (zh) * 2021-06-15 2021-10-15 北京三快在线科技有限公司 改写词生成模型的训练方法及装置
CN113792209A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 搜索词生成方法、系统及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1395206A (zh) * 2002-08-23 2003-02-05 北京大学 一种收集、分析和提供网上信息的方法和系统
US20050027691A1 (en) * 2003-07-28 2005-02-03 Sergey Brin System and method for providing a user interface with search query broadening
CN102402619A (zh) * 2011-12-23 2012-04-04 广东威创视讯科技股份有限公司 一种搜索方法和装置
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105335487A (zh) * 2015-10-16 2016-02-17 北京农业信息技术研究中心 基于农业技术信息本体库的农业专家信息检索系统及方法
US20160103885A1 (en) * 2014-10-10 2016-04-14 Workdigital Limited System for, and method of, building a taxonomy

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1395206A (zh) * 2002-08-23 2003-02-05 北京大学 一种收集、分析和提供网上信息的方法和系统
US20050027691A1 (en) * 2003-07-28 2005-02-03 Sergey Brin System and method for providing a user interface with search query broadening
CN102402619A (zh) * 2011-12-23 2012-04-04 广东威创视讯科技股份有限公司 一种搜索方法和装置
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
US20160103885A1 (en) * 2014-10-10 2016-04-14 Workdigital Limited System for, and method of, building a taxonomy
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105335487A (zh) * 2015-10-16 2016-02-17 北京农业信息技术研究中心 基于农业技术信息本体库的农业专家信息检索系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
W. PENZO等: ""Rewriting rules to permeate complex similarity and fuzzy queries within a relational database system"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING ( VOLUME: 17, ISSUE: 2, FEB. 2005)》 *
余正涛等: ""基于特定问题类别的汉语问答系统查询扩展"", 《北京理工大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN107608536A (zh) * 2017-09-25 2018-01-19 武汉优品鼎盛科技服务有限公司 一种自动完成数据输入的方法及设备
CN108733757A (zh) * 2018-04-11 2018-11-02 达而观信息科技(上海)有限公司 文本搜索方法及系统
CN108733757B (zh) * 2018-04-11 2022-04-19 达而观信息科技(上海)有限公司 文本搜索方法及系统
CN113505194A (zh) * 2021-06-15 2021-10-15 北京三快在线科技有限公司 改写词生成模型的训练方法及装置
CN113792209A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 搜索词生成方法、系统及计算机可读存储介质
CN113792209B (zh) * 2021-08-13 2024-02-02 唯品会(广州)软件有限公司 搜索词生成方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN106095912B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN106095912A (zh) 用于生成扩展查询词的方法和装置
CN106446148B (zh) 一种基于聚类的文本查重方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US20210141839A1 (en) Information search method, apparatus, and system
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN110543574A (zh) 一种知识图谱的构建方法、装置、设备及介质
CN103186612B (zh) 一种词汇分类的方法、系统和实现方法
CN104281649A (zh) 一种输入方法、装置及电子设备
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
AU2018250372B2 (en) Method to construct content based on a content repository
CN103744887B (zh) 一种用于人物搜索的方法、装置和计算机设备
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN105468790B (zh) 一种评论信息检索方法和装置
CN106156357A (zh) 文本数据定向搜索方法
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN102844755A (zh) 提取命名实体的方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
Mahdi et al. Job descriptions keyword extraction using attention based deep learning models with bert
WO2023057988A1 (en) Generation and use of content briefs for network content authoring
US20140181097A1 (en) Providing organized content
Zhu et al. Get into the spirit of a location by mining user-generated travelogues
Wei et al. Online education recommendation model based on user behavior data analysis
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant