CN107679186B - 基于实体库进行实体搜索的方法及装置 - Google Patents
基于实体库进行实体搜索的方法及装置 Download PDFInfo
- Publication number
- CN107679186B CN107679186B CN201710916084.7A CN201710916084A CN107679186B CN 107679186 B CN107679186 B CN 107679186B CN 201710916084 A CN201710916084 A CN 201710916084A CN 107679186 B CN107679186 B CN 107679186B
- Authority
- CN
- China
- Prior art keywords
- query
- entity
- frequency
- user
- demand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于实体库进行实体搜索的方法及装置,上述方法包括:接收来自用户的query,并确定所述query的实体词频度;基于所述query的实体词频度确定出与所述query相似度最高的高频query;以该高频query为实体词,到实体库中进行相关信息搜索。基于本发明提供的实体搜索的方法,可以识别出用户发起的query查询意图,并且可以基于query的实体词并识别出频度,进而为该query确定出与其相似度最高的高频query,基于该高频query为实体词到快速实体库中进行相关信息的搜索。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于实体库进行实体搜索的方法及装置。
背景技术
随着互联网技术的不断发展,越来越多的人通过互联网进行信息的传递与交流,因此,基于互联网所建立起的强大的信息库可供人们获取各种各样的信息。目前,相对于传统的关键词搜索,实体搜索是较为新颖的一种搜索形态。
但是,同一实体可能存在歧义,而目前所涉及的只有对单一实体的单一需求识别,当用户进行信息搜索时,无法准确识别出用户的需求,进而无法为用户提供准确的搜索结果。
发明内容
本发明提供了一种基于实体库进行实体搜索的方法及装置以克服上述问题或者至少部分地解决上述问题。
根据本发明的一个方面,提供了一种基于实体库进行实体搜索的方法,包括:
接收来自用户的query,并确定所述query的实体词频度;
基于所述query的实体词频度确定出与所述query相似度最高的高频query;
以该高频query为实体词,到实体库中进行相关信息搜索。
可选地,所述基于所述query的实体词频度确定出与所述query相似度最高的高频query,包括:
若所述query的实体词频度高于预设阈值,则确定该query即为高频query;
若所述query的实体词频度低于所述预设阈值,则确定该query低频query,以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query。
可选地,所述以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query为实体词,包括:
对于已计算出实体需求队列的高频query建立实体query倒排索引;
识别出所述低频query中的实体,通过所述query倒排索引查找到相关query列表;
计算所述低频query与所述query列表中的每个query的相似度,查找出与所述低频query相似度最高的高频query。
可选地,所述实体库的生成方式包括:
基于垂直搜索类网站数据建立实体知识图谱;
根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;
以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。
可选地,所述以该高频query为实体词,到实体库中进行相关信息搜索,还包括:
对所述实体词做实体链接,将所述实体词链接至所述实体库中对应的需求实体和/或与该需求实体对应的需求类型。
根据本发明的另一个方面,提供了一种基于实体库进行实体搜索的装置,包括:
接收模块,配置为接收来自用户的query,并确定所述query的实体词频度;
确定模块,配置为基于所述query的实体词频度确定出与所述query相似度最高的高频query;
搜索模块,配置为以该高频query为实体词,到实体库中进行相关信息搜索。
可选地,所述确定模块包括:
第一确定单元,配置为若所述query的实体词频度高于预设阈值,则确定该query即为高频query;
第二确定单元,配置为若所述query的实体词频度低于所述预设阈值,则确定该query低频query,以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query。
可选地,所述第二确定单元还配置为:
对于已计算出实体需求队列的高频query建立实体query倒排索引;识别出所述低频query中的实体,通过所述query倒排索引查找到相关query列表;计算所述低频query与所述query列表中的每个query的相似度,查找出与所述低频query相似度最高的高频query。
可选地,所述搜索模块还配置为通过以下方式生成实体库:基于垂直搜索类网站数据建立实体知识图谱;根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。
可选地,所述搜索模块还包括:
链接单元,配置为对所述实体词做实体链接,将所述实体词链接至所述实体库中对应的需求实体和/或与该需求实体对应的需求类型。
根据本发明的再一个方面,还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行如上述任一项所述的基于实体库进行实体搜索的方法。
根据本发明的再一个方面,还提供了一种计算机可读介质,其中存储了如上述的计算机程序。
本发明提供了一种基于实体库进行实体搜索的方法及装置,基于本发明提供的实体搜索的方法,可以识别出用户发起的query查询意图,并且可以基于query的实体词并识别出频度,进而为该query确定出与其相似度最高的高频query,基于该高频query为实体词到快速实体库中进行相关信息的搜索。由于实体库中存在有海量的实体信息,基于实体库进行相关信息的搜索,可为用户提供符合其搜索意图的搜索结果。而且,对于用户的query无论其属于高频query还是低频query均可以准确识别用户的查询意图,快速为用户进行信息查询。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例的基于实体库进行实体搜索的方法流程示意图;
图2是根据本发明实施例的实体库的生成方法流程示意图;
图3是根据本发明实施例的实体库生成示意图;
图4是根据本发明实施例的实体需求队列排列示意图;
图5是根据本发明实施例的基于实体库进行实体搜索的装置结构示意图;
图6是根据本发明优选实施例的基于实体库进行实体搜索的装置结构示意图;
图7是根据本发明实施例的实体库生成装置的结构示意图;
图8是根据本发明优选实施例的实体库生成装置的结构示意图;
图9根据本发明实施例的用于执行根据本发明的实体库的生成方法和/或基于实体库进行实体搜索的方法的计算设备的框图示意图;
图10是根据本发明实施例用于保持或者携带实现根据本发明的实体库的生成方法和/或基于实体库进行实体搜索的方法的程序代码的存储单元的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明实施例的基于实体库进行实体搜索的方法,如图4所示,根据本发明实施例的基于实体库的实体搜索方法,包括:
步骤S102,接收来自用户的query,并确定该query的实体词频度;
步骤S104,基于该query的实体词频度确定出与该query相似度最高的高频query;
步骤S106,以上述高频query为实体词,到实体库中进行相关信息搜索。
在本发明实施例提供的实体搜索方法中,可识别出来自用户的query中的多种实体搜索意图,确定出与query中的实体词相似度最高的高频query,基于该高频query为实体词到具有海量信息的且具有用户需求点击模型的实体库中进行相关信息的搜索,以提供用户满足其搜索意图的需求强度的搜索结果。由于实体库中存在有海量的实体相关信息,基于实体库进行相关信息的搜索,可为用户提供符合其搜索意图的搜索结果。而且,对于用户的query无论其属于高频query还是低频query均可以准确识别用户的查询意图,快速为用户进行信息查询。
在本实施例中,可预先对用户所发起的query的统计,判断用户针对同一query发起的频率的高低,并且设置一个预设阈值,进而对后续接收到的query的进行判断。如果判断该query的实体词频度为高于或等于预设阈值,则确定该query为高频query,此时,可直接以该query本身为实体词,并以该实体词,到实体库中进行相关信息搜索。如果该query的实体词频度低于预设阈值,则确定该query为低频query,此时,就可以以该低频query中的实体为索引查找与该低频query相似度最高的高频query,并以该高频query为实体词,到实体库中进行相关信息搜索。
在实体搜索中,实体库的建立至关重要。图2是根据本发明实施例的实体库生成方法流程示意图,如图2所示,根据本发明实施例的实体库生成方法包括:
步骤S202,基于垂直搜索类网站数据建立实体知识图谱;
步骤S204,根据用户的搜索历史记录解析出用户的历史搜索行为所涉及的需求实体的相关信息;
步骤S206,以需求实体作为关键词,结合实体知识图谱与用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。
基于本发明提供的实体库生成方法,会先基于垂直搜索类网站数据建立实体知识图谱,并且通过用户的历史搜索行为分析出所涉及的需求实体的相关信息,进而结合需求实体的相关信息和实体知识图谱生成实体库。根据本发明提供的实体库生成方法,通过对垂直搜索类网站获取的信息建立实体知识图谱,可获取各种类型的信息内容,而通过对用户历史搜索行为的分析可以准确确定出用户的需求实体的相关信息,以用户实际的需求实体为基础结合实体知识图谱构建符合用户个性化实体需求的实体库,在用户进行实体搜索时,在理解用户查询意图的基础上,分析出用户想要找的实体,对结果实体进行归纳和组织并以特型展现的方式呈现给用户。用户不再需要自己去从搜索结果中寻找和归纳知识,减少了用户获取信息的成本,提升用户体验。
实体知识图谱是包括各种实体和概念,以及实体、概念之间的关联关系。在建立实体知识图谱时,可以监控并挖掘百科数据、核心词库、垂类网站或是搜索类网站等资源数据中抽取概念、实体、属性以及关系,基于上述资源数据建立实体知识图谱,实现知识的时序融合和多数据源融合,进而建立具有海量资源数据的实体知识图谱。实体知识图谱是可以不断更新的,根据上述各类资源数据的实时变化,实体知识图谱也是实施更新的。
实体知识图谱是包括海量数据的知识图谱。而对于每个用户所需求的实体是不同的。在确定用户的需求实体时,可以根据用户的搜索历史记录进行分析。优选地,上述步骤S204还可以进一步包括:获取用户的搜索日志和/或点击日志,基于用户的搜索日志和/或点击日志对用户的历史点击信息做实体链接和/或主题分类,解析出用户历史点击信息所涉及的需求实体的相关信息。
例如,当用户输入“李某”时,要找的实体可能是“歌手李某”,也可能是“运动员李某”,这时就可以基于用户的搜索日志以及点击日志判断出用户经常收听李某的歌,这时,就可以确定出用户的需求实体为“歌手李某”。
用户的搜索历史记录是能够反映用户搜索习惯的数据信息,通过对用户的搜索日志以及点击日志的分析,对用户的点击文档做实体链接和/或主题分类,准确解析出用户的需求实体的相关信息。其中,对用户点击的文档做实体链接,即筛选出用户点击的文档对应的标题中的实体,将该实体链接到实体库中对应的实体以及与该实体相应的需求。用户的需求实体的相关信息可以包括用户的需求实体以及需求类型。当用户点击“李某(流行歌手)_百科”时,则会链接到实体库中的“李某(流行歌手)”,对应的需求为百科需求。文档“李某_歌曲在线试听”将链接到实体库中的“李某(流行歌手)”,对应的需求为音乐需求。
上述步骤S206提及,以需求实体作为关键词,结合实体知识图谱与用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。优选地,在生成实体库时,可以以需求实体作为关键词,结合实体知识图谱以及用户的历史搜索行为所涉及的需求实体和/或与该需求实体对应的需求类型、用户的点击位置等信息建立用户需求点击模型,生成包括用户需求点击模型的实体库。当接收到来自用户的搜索请求时,就可以直接根据实体库中的用户需求点击模型快速判断并链接至符合用户需求的相关信息。
可选地,在建立用户需求点击模型时,可以以需求实体为关键词,对用户的历史搜索行为如搜索和/或点击日志所涉及的需求实体和/或与该需求实体对应的需求类型进行聚合,生成实体需求队列。
图3示出了根据用户的搜索和点击日志对用户点击文档做实体链接后生成实体库的示意图。图3中,实体可以为用户输入的搜索词即“李某”,有关于“李某”的用户搜索和点击日志分别包括“李某(流行歌手_百科)”相应的点击次数为500;“李某_歌曲在线试听”,点击次数为400;“李某_(网球运动员)_百科”,点击次数为300;“李某_图片”点击次数为300;“李某_李某歌曲大全_专辑”点击次数为100;“李某_体育明星_赛事”点击次数为50;获取到用户的搜索和点击日志之后,分别对用户搜索和点击日志中的需求实体做实体链接,并对该需求实体以及与需求实体对应的需求类型进行聚合。图2中的需求实体包括了““李某(流行歌手)”和“李某(网球运动员)”,以需求实体和需求类型进行聚合时,可以将关于“李某(流行歌手)”以需求类型“百科”、“音乐”以及“新闻”等聚合到一起,关于“李某(网球运动员)”的以需求类型“百科”、“图片”、“新闻”、“视频”以及“微博”等聚合到一起,相应地,每种需求实体以及需求类型还可以根据用户搜索和点击次数计算相应的需求强度。从图3中可以看出,“李某(流行歌手_百科)”的需求强度为500;“李某_歌曲在线试听”的需求强度为500;“李某_(网球运动员)_百科”的需求强度为300;“李某_(网球运动员)_图片”的需求强度为200;“李某_(网球运动员)_新闻”的需求强度为50。图3中只是示意性的示出了根据用户搜索和点击日志对用户需求实体以及需求类型进行聚合的方式,在实际应用中,还可以采用其他方式对生成实体需求队列以及用户需求点击模型,此处不再赘述。
图4示出了实体需求队列的排列方式,实体需求队列可以包括需求实体以及需求类型。在图4中,需求实体可以包括“李某(流行歌手)”、“李某(网球运动员)”,其对应的需求类型可以是“百科”、“音乐”、“图片”以及“新闻”或是其他。进一步地,还可以根据用户的历史点击信息计算每个需求实体及需求类型的需求强度,并将需求强度添加至实体需求队列中。如图3所示,基于用户的历史点击信息计算,李某(流行歌手)百科的需求强度为500,李某(流行歌手)音乐的需求强度为500,李某(网球运动员)百科的需求强度为300,李某(网球运动员)图片的需求强度为200,李某(网球运动员)新闻的需求强度为50。在实际应用中,需求强度的计算可根据某一用户的搜索和点击日志,也可以综合多数用户的搜索和点击日志,可根据不同情况进行调整。实体需求队列可根据需求强度的高低进行排序,以满足用户在进行实体搜索时的需求。当然需求实体以及需求类型并不限于此,还可以包括其他实体以及相关类型,本发明不做限定。
进一步地,用户需求点击模型生成之后,还可以以预设周期更新该用户需求点击模型。用户需求点击模型可以是定时更新,也可以是实时更新。由于用户的搜索行为是随时可能发生的,因此,基于用户的搜索行为定时或实时更新用户需求点击模型可以满足用户搜索需求的变化,进而能够更加有效地为用户提供搜索结果。
优选地,在更新用户需求点击模型时,可以通过在线学习方法建立是是点击反馈模型以预设周期检测用户的实体需求变化,通过在线反馈机制调整用户需求点击模型中的实体需求队列的排序。假设突然爆发了关于网球运动员李某的新闻,“李某(网球运动员),新闻”这个需求的用户点击突然增高,则可以通过在线反馈机制将“李某(网球运动员),新闻”这一需求的排序上调。假设用户在某个时间段内对“李某(流行歌手),音乐”这一需求的点击次数增加,则可以将这一需求的排序上调。
在本发明实施例提供的实体库生成方法中,通过实体知识图谱与用户的历史搜索行为所涉及的需求实体的相关信息生成实体库,可以在用户进行实体搜索时快速并有效地识别用户的搜索意图。且本发明实施例实体库还可以根据用户的需求进行及时更新,以满足用户不同时间段的搜索需求。
基于上述实施例提供的方案,高频query本身就可以作为实体词,因此所接收到的来自用户的query可直接到实体库中进行相关信息的搜索。对于低频query,可能实体库中没有直接包括该低频query本身对应的实体。这时,就可以先分析出该低频query中的实体,以该低频query中的实体为索引通过相关算法查找与该低频query相似度最高的query,基于该query为实体词到实体库中进行相关信息的搜索。基于本实施例提供的方案,无论来自用户的query属于高频query还是低频query,均可以快速到实体库中查询相关信息,进而准确为用户提供与用户的query对应的查询结果。
优选地,实体库中的用户需求点击模型中包括有实体需求队列,因此,在确定与低频query相似度最高的高频query时,可以向将已计算出实体需求队列的高频query建立实体query倒排索引,识别出低频query中的实体之后,通过实体query倒排索引查找到相关query列表,通过simarank、深度学习相关技术计算该低频query与query列中每个query的相似度,再查找出与该低频query相似度最高的高频query为实体词到实体库中进行相关信息的搜索。
举例来说,如果接收到来自用户的query为“李某”,通过对“李某”这一query中实体词的“李某”的频度进行分析,确定该query属于高频query,此时就可以直接以“李某”到实体库中相关信息的搜索。实体库中的用户需求点击模型中已计算出了相关实体需求队列,这时就可以直接将其作为实体搜索结果呈现给用户。
如果接收到来自用户的query为“李某的相关信息”,通过对这个query中的实体词“李某的相关信息”的频度进行分析,确定该query属于低频query。如果直接以“李某的相关信息”为实体词,可能无法直接从实体库中准确获取相关信息。此时,便可以将已经计算出实体需求队列的高频query建立实体query倒排索引。
倒排索引源于实际应用中需要根据属性的值来查找记录,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。实体query倒排索引即将基于已计算出的高频query获取与该高频query对应的实体,通过该高频query对应的实体即可链接至该高频query。当接收到的query为“李某的相关信息时”,可识别出该query中的实体为“李某”,通过query倒排索引查找到相关的query列表,通过simrank或深度学学习相关技术就可以将“李某的相关信息”与query列表中每个query的相似度,如果计算出“李某的相关信息”与query列表中的相似度最高的query,或是相似度大于预设阈值的query为“李某”,则以“李某”为实体词到实体库中进行相关信息的搜索,也就是说,query“李某的相关信息”继承了“李某”这一高频query的实体需求队列。
需要说明的是,实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
基于上文各实施例提供的基于实体库进行实体搜索的方法,基于同一发明构思,本发明实施例还提供了一种基于实体库进行实体搜索的装置,图5示出了根据本发明实施例提供的基于实体库进行实体搜索的装置结构示意图,如图5所示,本发明实施例提供的基于实体库进行实体搜索的装置可以包括:
接收模块510,配置为接收来自用户的query,并确定该query的实体词频度;
确定模块520,配置为基于该query的实体词频度确定出与该query相似度最高的高频query;
搜索模块530,配置为以该高频query为实体词,到实体库中进行相关信息搜索。
在本发明一个优选实施例中,如图6所示,确定模块520还可以包括:
第一确定单元521,配置为述query的实体词频度高于预设阈值,则确定该query即为高频query;
第二确定单元522,配置为若query的实体词频度低于所述预设阈值,则确定该query低频query,以低频query中的实体为索引查找与所述低频query相似度最高的高频query。
在本发明一个优选实施例中,第二确定单元522还可以配置为:
对于已计算出实体需求队列的高频query建立实体query倒排索引;识别出所述低频query中的实体,通过所述query倒排索引查找到相关query列表;计算所述低频query与所述query列表中的每个query的相似度,查找出与所述低频query相似度最高的高频query。
在本发明一个优选实施例中,如图6所示,搜索模块530还可以包括:
链接单元531,配置为对所述实体词做实体链接,将所述实体词链接至所述实体库中对应的需求实体和/或与该需求实体对应的需求类型。
在本发明一个优选实施例中,搜索模块530还可以配置为:
以下述方式生成实体库:基于垂直搜索类网站数据建立实体知识图谱;根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。
本发明实施例还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上述任一项所述的基于实体库进行实体搜索的方法。
本发明实施例还提供了一种计算机可读介质,其中存储了上述的计算机程序。
本发明实施例还提供了一种实体库的生成装置,图7为根据本发明实施例的实体库生成装置的结构示意图,如图7所示,本发明实施例的实体库的生成装置可以包括:
建立模块710,配置为基于垂直搜索类网站数据建立实体知识图谱;
解析模块720,配置为根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;
实体库生成模块730,配置为以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库。
在本发明的一个优选实施例中,解析模块720还配置为:
获取所述用户的搜索日志和/或点击日志,基于所述搜索日志和/或点击日志对所述用户的历史点击信息做实体链接和/或主题分类,解析出所述历史点击信息所涉及的需求实体的相关信息。
在本发明的一个优选实施例中,实体库生成模块730还可以配置为:
以需求实体作为关键词,结合所述实体知识图谱以及所述用户的历史搜索行为所涉及的需求实体和/或与该需求实体对应的需求类型建立用户需求点击模型,生成包括所述用户需求点击模型的实体库。
在本发明的一个优选实施例中,实体库生成模块730还可以配置为:
以需求实体作为关键词,对所述用户的历史搜索行为所涉及的需求实体和/或与该需求实体对应的需求类型进行聚合,生成实体需求队列;根据所述用户的历史点击信息计算需求强度,将所述需求强度添加至所述实体需求队列中,生成包括所述用户需求点击模型的实体库。
在本发明一个优选实施例中,如图8所示,上述装置还可以包括:
更新模块740,配置为以预设周期更新所述用户需求点击模型。
在本发明一个优选实施例中,更新模块740还可以配置为:
通过在线学习方法建立实时点击反馈模型,以所述预设周期监测用户的实体需求变化,通过在线反馈机制调整所述用户需求点击模型中的实体需求队列的排序。
本发明实施例还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上述任一项所述的实体库的生成方法。
本发明实施例还提供了一种计算机可读介质,其中存储了上述的计算机程序。
本发明实施例提供了一种基于实体库进行实体搜索的方法及装置,基于本发明实施例提供的实体搜索的方法,可以识别出用户发起的query查询意图,并且可以基于query的实体词并识别出频度,进而为该query确定出与其相似度最高的高频query,基于该高频query为实体词到快速实体库中进行相关信息的搜索。由于实体库中存在有海量的实体信息,基于实体库进行相关信息的搜索,可为用户提供符合其搜索意图的搜索结果。而且,对于用户的query无论其属于高频query还是低频query均可以准确识别用户的查询意图,快速为用户进行信息查询。此外,本发明实施例还提供了一种实体库的生成方法,通过对垂直搜索类网站获取的信息建立实体知识图谱,可获取各种类型的信息内容,而通过对用户历史搜索行为的分析可以准确确定出用户的需求实体的相关信息,以用户实际的需求实体为基础结合实体知识图谱构建符合用户个性化实体需求的实体库,在用户进行实体搜索时,可以快速并准确为用户提供符合用户搜索需求的相关信息。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的实体库生成装置和/或基于实体库进行实体搜索的装置的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图9示出了可以实现根据本发明的实体库的生成方法和/或基于实体库进行实体搜索的方法的计算设备的框图。该计算设备传统上包括处理器910和以存储器920形式的计算机程序产品或者计算机可读介质。存储器920可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器920具有存储用于执行上述方法中的任何方法步骤的程序代码931的存储空间930。例如,存储程序代码的存储空间830可以存储分别用于实现上面的方法中的各种步骤的各个程序代码931。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如图10所示的便携式或者固定存储单元。该存储单元可以具有与图9的计算设备中的存储器920类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括存储有用于执行根据本发明的方法步骤的计算机可读程序代码931’,即可以由诸如910之类的处理器读取的程序代码,当这些程序代码由计算设备运行时,导致该计算设备执行上面所描述的方法中的各个步骤。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (7)
1.一种基于实体库进行实体搜索的方法,包括:
接收来自用户的query,并确定所述query的实体词频度,其中所述query包括多搜索意图的query;
基于所述query的实体词频度确定出与所述query相似度最高的高频query,其中高频query包括满足搜索意图的高频query;
以该高频query为实体词,到实体库中进行相关信息搜索;
其中,所述实体库的生成方式包括:
基于垂直搜索类网站数据建立实体知识图谱;
根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;
以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库;
其中,所述基于所述query的实体词频度确定出与所述query相似度最高的高频query,包括:
若所述query的实体词频度高于预设阈值,则确定该query即为高频query;
若所述query的实体词频度低于所述预设阈值,则确定该query低频query,以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query。
2.根据权利要求1所述的方法,其中,所述以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query为实体词,包括:
对于已计算出实体需求队列的高频query建立实体query倒排索引;
识别出所述低频query中的实体,通过所述query倒排索引查找到相关query列表;
计算所述低频query与所述query列表中的每个query的相似度,查找出与所述低频query相似度最高的高频query。
3.根据权利要求1-2任一项所述的方法,其中,所述以该高频query为实体词,到实体库中进行相关信息搜索,还包括:
对所述实体词做实体链接,将所述实体词链接至所述实体库中对应的需求实体和/或与该需求实体对应的需求类型。
4.一种基于实体库进行实体搜索的装置,包括:接收模块,配置为接收来自用户的query,并确定所述query的实体词频度,其中所述query包括多搜索意图的query;
确定模块,配置为基于所述query的实体词频度确定出与所述query相似度最高的高频query,其中高频query包括满足搜索意图的高频query;
搜索模块,配置为以该高频query为实体词,到实体库中进行相关信息搜索;
其中,所述搜索模块还配置为通过以下方式生成实体库:
基于垂直搜索类网站数据建立实体知识图谱;根据用户的搜索历史记录解析出所述用户的历史搜索行为所涉及的需求实体的相关信息;以需求实体作为关键词,结合所述实体知识图谱与所述用户的历史搜索行为所涉及的需求实体的相关信息生成实体库;
其中,所述确定模块包括:
第一确定单元,配置为若所述query的实体词频度高于预设阈值,则确定该query即为高频query;
第二确定单元,配置为若所述query的实体词频度低于所述预设阈值,则确定该query低频query,以所述低频query中的实体为索引查找与所述低频query相似度最高的高频query。
5.根据权利要求4所述的装置,其中,所述第二确定单元还配置为:
对于已计算出实体需求队列的高频query建立实体query倒排索引;识别出所述低频query中的实体,通过所述query倒排索引查找到相关query列表;计算所述低频query与所述query列表中的每个query的相似度,查找出与所述低频query相似度最高的高频query。
6.根据权利要求4-5任一项所述的装置,其中,所述搜索模块还包括:
链接单元,配置为对所述实体词做实体链接,将所述实体词链接至所述实体库中对应的需求实体和/或与该需求实体对应的需求类型。
7.一种计算机可读介质,其中存储计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行如权利要求1至3任一项所述的基于实体库进行实体搜索的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710916084.7A CN107679186B (zh) | 2017-09-30 | 2017-09-30 | 基于实体库进行实体搜索的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710916084.7A CN107679186B (zh) | 2017-09-30 | 2017-09-30 | 基于实体库进行实体搜索的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679186A CN107679186A (zh) | 2018-02-09 |
CN107679186B true CN107679186B (zh) | 2021-12-21 |
Family
ID=61138107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710916084.7A Active CN107679186B (zh) | 2017-09-30 | 2017-09-30 | 基于实体库进行实体搜索的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679186B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033132B (zh) * | 2018-06-05 | 2020-12-11 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
CN109145200A (zh) | 2018-07-13 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 推广展现的方法、装置、设备和计算机存储介质 |
CN110263180B (zh) * | 2019-06-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 意图知识图谱生成方法、意图识别方法及装置 |
CN111737430B (zh) * | 2020-06-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN113239183B (zh) * | 2021-05-28 | 2024-08-02 | 北京达佳互联信息技术有限公司 | 排序模型的训练方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017143A3 (en) * | 2001-08-14 | 2003-10-30 | Insightful Corp | Method and system for enhanced data searching |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN103593410A (zh) * | 2013-10-22 | 2014-02-19 | 上海交通大学 | 通过替换概念性词语进行搜索推荐系统 |
CN104462557A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于搜索历史记录的即时搜索方法及装置 |
CN104462551A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于热词的即时搜索方法及装置 |
CN104809115A (zh) * | 2014-01-24 | 2015-07-29 | 贝壳网际(北京)安全技术有限公司 | 一种搜索方法及终端设备 |
CN105760495A (zh) * | 2016-02-17 | 2016-07-13 | 扬州大学 | 一种基于知识图谱针对bug问题进行探索性搜索方法 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106547887A (zh) * | 2016-10-27 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于人工智能的搜索推荐方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365910B (zh) * | 2012-04-06 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 一种信息检索的方法和系统 |
CN104598556A (zh) * | 2015-01-04 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
-
2017
- 2017-09-30 CN CN201710916084.7A patent/CN107679186B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017143A3 (en) * | 2001-08-14 | 2003-10-30 | Insightful Corp | Method and system for enhanced data searching |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN103593410A (zh) * | 2013-10-22 | 2014-02-19 | 上海交通大学 | 通过替换概念性词语进行搜索推荐系统 |
CN104809115A (zh) * | 2014-01-24 | 2015-07-29 | 贝壳网际(北京)安全技术有限公司 | 一种搜索方法及终端设备 |
CN104462557A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于搜索历史记录的即时搜索方法及装置 |
CN104462551A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 基于热词的即时搜索方法及装置 |
CN105760495A (zh) * | 2016-02-17 | 2016-07-13 | 扬州大学 | 一种基于知识图谱针对bug问题进行探索性搜索方法 |
CN106446018A (zh) * | 2016-08-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的查询信息处理方法和装置 |
CN106547887A (zh) * | 2016-10-27 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于人工智能的搜索推荐方法和装置 |
Non-Patent Citations (1)
Title |
---|
垂直知识图谱的构建与应用研究;阮彤;《知识管理论坛》;20160630;第226-234页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107679186A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679186B (zh) | 基于实体库进行实体搜索的方法及装置 | |
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
TWI524193B (zh) | 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法 | |
TWI482037B (zh) | 搜尋建議叢集與呈現 | |
EP2234024B1 (en) | Context based video finder | |
WO2017096877A1 (zh) | 一种推荐方法和装置 | |
CN106557480B (zh) | 查询改写的实现方法及装置 | |
CN107807957A (zh) | 实体库生成方法及装置 | |
US20120002884A1 (en) | Method and apparatus for managing video content | |
CN102279872A (zh) | 搜索结果驱动的查询意图标识 | |
KR102108683B1 (ko) | 비관심사 컨텐츠를 포함하는 추천 컨텐츠를 제공하는 방법 | |
CN106096028A (zh) | 基于图像识别的文物索引方法及装置 | |
CN104077415A (zh) | 搜索方法及装置 | |
TW201335780A (zh) | 電子商務搜尋引擎的搜尋方法和電子商務搜尋引擎 | |
CN108170293A (zh) | 输入联想的个性化推荐方法及装置 | |
CN111259173A (zh) | 一种搜索信息推荐方法及装置 | |
CN113407773A (zh) | 一种短视频智能推荐方法、系统、电子设备及存储介质 | |
CN106899879B (zh) | 一种多媒体数据的处理方法和装置 | |
CN109241360B (zh) | 组合字符串的匹配方法及装置和电子设备 | |
CN106997340B (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
CN114020960A (zh) | 音乐推荐方法、装置、服务器及存储介质 | |
CN109324955A (zh) | 一种具有智能推荐功能的it运维系统界面生成方法 | |
WO2017107695A1 (zh) | 对新闻进行排序的方法和装置 | |
WO2016101727A1 (zh) | 基于问答的搜索结果调整方法和装置 | |
WO2015143911A1 (zh) | 推送包含时效性信息的网页的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |