CN110209827A - 搜索方法、装置、计算机可读存储介质和计算机设备 - Google Patents

搜索方法、装置、计算机可读存储介质和计算机设备 Download PDF

Info

Publication number
CN110209827A
CN110209827A CN201810124307.0A CN201810124307A CN110209827A CN 110209827 A CN110209827 A CN 110209827A CN 201810124307 A CN201810124307 A CN 201810124307A CN 110209827 A CN110209827 A CN 110209827A
Authority
CN
China
Prior art keywords
text
relationship
core word
knowledge mapping
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810124307.0A
Other languages
English (en)
Other versions
CN110209827B (zh
Inventor
周智昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810124307.0A priority Critical patent/CN110209827B/zh
Publication of CN110209827A publication Critical patent/CN110209827A/zh
Application granted granted Critical
Publication of CN110209827B publication Critical patent/CN110209827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种搜索方法、装置、计算机可读存储介质和计算机设备。方法包括:获取搜索关键词,从搜索关键词中提取出核心词语;根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本;搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。通过这种方式,利用知识图谱中获取到与每个核心词语存在实体关系和非实体关系的文本,进而对核心词语与该文本进行搜索,得到更为精确的搜索结果,使得将搜索结果返回至终端显示时,终端上显示的搜索结果也更为精炼与准确。

Description

搜索方法、装置、计算机可读存储介质和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索方法、装置、计算机可读存储介质和计算机设备。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
在传统技术中,搜索引擎在返回搜索结果时只考虑到了搜索结果是否热门以及搜索结果是否是最近发布的这两类指标。以视频搜索为例,单纯靠播放量对搜索结果排序会导致搜索结果中仅包含点击率最高的视频结果,列表内容比较单调;而按视频的上传时间排序则又容易返回一些不太相关的视频内容,很难在两者之间选到一个平衡点。
发明内容
基于此,有必要针对上述的技术问题,提供一种能提高搜索结果的精确性的搜索方法、装置、计算机可读存储介质和计算机设备。
一种搜索方法,包括:
获取搜索关键词,从所述搜索关键词中提取出核心词语;
根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;
搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
一种搜索装置,所述装置包括:
核心词语提取模块,用于获取搜索关键词,从所述搜索关键词中提取出核心词语;
搜索模块,用于根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取搜索关键词,从所述搜索关键词中提取出核心词语;
根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;
搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取搜索关键词,从所述搜索关键词中提取出核心词语;
根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;
搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
上述搜索方法、装置、计算机可读存储介质和计算机设备,通过获取搜索关键词,从搜索关键词中提取出核心词语,再根据核心词语获取对应的知识图谱,搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据,通过这种方式,利用知识图谱中获取到与每个核心词语存在实体关系和非实体关系的文本,进而对核心词语与该文本进行搜索,得到更为精确的搜索结果,使得将搜索结果返回至终端显示时,终端上显示的搜索结果也更为精炼与准确。
附图说明
图1为一个实施例中搜索方法的应用环境图;
图2为一个实施例中搜索方法的流程示意图;
图3为另一个实施例中搜索方法的流程示意图;
图4为一个实施例中知识图谱的创建与运用的框架图;
图5为一个实施例中核心词语对应知识图谱的示意图;
图6为一个实施例中搜索装置的结构框图;
图7为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中搜索方法的应用环境图。参照图1,该搜索方法应用于搜索系统。该搜索系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以是智能手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体地,服务器120在获取到终端110输入的搜索关键词后,会先从搜索关键词提取出核心词语,然后根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本,再搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据,最后再将搜索到的数据返回至终端110,在终端110上可显示搜索到的数据。
如图2所示,在一个实施例中,提供了一种搜索方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该搜索方法具体包括如下步骤:
步骤202,获取搜索关键词,从搜索关键词中提取出核心词语。
搜索关键词是指用户通过终端输入的搜索文本,反映了用户在希望通过搜索得到与搜索文本相关的内容,即用户输入的想要搜索的信息的关键词。核心词语是从搜索关键词中提取到的,核心词语是指从搜索关键词中提炼出的,最能体现中心思想的词语,即便是其他词语都被摒弃,核心词语也能较为完整的表达出用户输入的搜索关键词的核心思想。服务器获取用户通过终端输入的搜索关键词后,会先从输入的关键词中提取出核心词语。比如终端输入的是一段文本,但这段文本中可能包含有很多无关词语,如今天、昨晚等,那么就会从这一段文本中提取中核心词语,比如节目名称、电影名称等。
步骤204,根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本。
知识图谱是一个根据核心词语和与核心词语存在关系的多个文本相互连接而成的语义网络,根据知识图谱可较为直观的获知核心词语与文本之间的关系。也可以将核心词语与文本看作是两个节点,两个节点之间根据存在的实体关系或者非实体关系进行连接,从而组成了核心词语对应的知识图谱。
一般情况下,一个核心词语对应一个知识图谱,在这个核心词语对应的知识图谱中,包含了多个与此核心词语存在实体关系和非实体关系的文本,也可以理解为知识图谱中包含了多个实体关系对和非实体关系对。实体关系与非实体关系是指文本与核心词语之间存在的两种关系类型,核心词语与文本之间是实体关系还是非实体关系,可根据文本的存储数据类型进行确定。实体关系对可以理解是:核心词语-实体关系1-文本1,那么文本1就是与核心词语存在实体关系的文本,核心词语与文本1就是一个存在实体关系1的实体关系对。实体关系与非实体关系定义的是核心词语与文本之间存在的关联关系,通常情况下会这样定义:与核心词语存在实体关系的文本也是一个词语,而与核心词语存在非实体关系的文本则是一个短语,或者一段文本。
步骤206,搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在获取到核心词语对应的知识图谱后,会根据该知识图谱获取到与核心词语存在实体关系和非实体关系的文本,相当于根据该知识图谱可以得到多个实体关系对和非实体关系对。那么在搜索的时候,就不只是搜索与核心词语相关的内容了,而是可一并搜索与核心词语存在实体关系或非实体关系的文本相关的内容。比如,当根据该核心词语对应的知识图谱得到:核心词语-实体关系1-文本1,核心词语-非实体关系2-文本2,那么在搜索的时候,搜索的包括与核心词语、文本1或者与核心词语、文本2相关的内容。简单而言就是,真正进入搜索引擎进行搜索的关键词并不仅仅是核心词语,而是核心词语+文本1或者核心词语+文本2,因此搜索引擎在搜索数据时,其实是搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
当搜索到相关的数据后,需要对这些数据进行显示。一般情况下,如果用户是通过终端输入的关键词,那么在用户触发了搜索的按钮后,在终端上就会及时显示出对应的数据,用户可及时查阅这些数据。
上述搜索方法,利用知识图谱,得到与搜索关键词中的核心词语存在实体关系和非实体关系的文本,进而搜索与核心词语和文本匹配的数据,避免了只返回热门的数据,得到更为精确的搜索结果,在将搜索结果返回至终端显示时,终端上显示的搜索结果也能更为精炼与准确。
在一个实施例中,知识图谱是通过采集预设时间内的数据资源,根据从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本所构建得到的。
每个核心词语对应的知识图谱是预先构建好的,构建完毕了的知识图谱才能够包含有与核心词语存在实体关系和非实体关系的文本。在构建知识图谱时,是通过采集预设时间内的数据资源,然后从这些采集到的数据资源中进行数据提取,再根据提取到的与预设核心词语存在实体关系和非实体关系的文本构建对应的知识图谱。
知识图谱的数据是在不断更新的,每一次获取到预设时间内的数据资源后,就会从这些最新获取到的数据资源中提取出与预设核心词语存在实体关系和非实体关系的文本,然后再将这些最新提取到的文本添加到对应的知识图谱中。因此知识图谱中的数据处于不断更新和补充的状态,即每一次获取到最新的数据资源中,都有可能包含有之前未获取到的内容。比如预设核心词语是“权利者的游戏”,在上一次获取预设时间内的数据时,电视剧《权利者的游戏》第七季的大结局还未更新,那么通过网络资源获取到的数据资源中并不会有关于电视剧《权利者的游戏》第七季大结局的影评,有的只是电视剧《权利者的游戏》其他剧集的影视资源或者用户对这些剧集的评论,或者这部电影的主演阵容以及主演之间的趣事等。那么当电视剧《权利者的游戏》第七季的大结局更新后,再次从网络资源中获取到数据资源时,那么这些数据资源中能够提取到的内容就可能含有环球日报对电视剧《权利者的游戏》第七季大结局的评论,或者用户对《权利者的游戏》第七季大结局剧情的讨论等等。而预设时间则是出于产品的考虑或者开发者的设计进行自行设定的,比如设定为一周,每次获取数据资源时,就获取一周内的数据资源。
这种方式能够使得核心词语对应的知识图谱中的数据处于不断更新的状态,也能够使得知识图谱中包含的与预设核心词语存在实体关系和非实体关系的文本也是不断更新,这样在搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据时,也能够使得搜索到的数据具备实时性。
在一个实施例中,数据资源是从网络资源中采集的预设时间内的数据资源,所述网络资源包括预设网站的文章或网页、预设应用的搜索日志中的至少一种。
知识图谱在构建时,是通过采集预设时间内的数据资源,并从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本,再根据这些提取到的文本所构建得到的。在采集预设时间内的数据资源时,可以是从网络资源中,网络资源可以是预设网站的文章或网页,或者是预设应用的搜索日志中。预设网站是指根据实际需求预先设置的一些网站,比如将预设网站设为微博,那么就会从微博采集预设时间内的数据资源。预设应用的设定则更为严苛,因为搜索日志是一个较为私密的文件,一般是需要有合作协议才能获取其他的应用的搜索日志。
从网络资源中采集数据资源时,比如采集微博的文章或网页,可采用爬虫的方式,爬虫是指按照一定的规则自动地抓取网页信息的程序或者脚本。在爬虫时,为了提高数据的获取速度,可以先设定一些核心词语,即预设核心词语,然后抓取微博的文章或网页的标题中包含有预设核心词语对应的文章和网页,再抓取这些文章和网页的完整数据。即,在从网络资源中采集数据资源时,可以先抓取包含有预设核心词语的标题,再抓取这些包含有预设核心词语的标题对应的文章或者网页。网络资源还可以是预设应用的搜索日志或者是观看日志,搜索日志一般是指用户在使用该应用时,搜索操作的记录日志,比如根据这个搜索日志可以看到每个用户每次在使用搜索功能时输入的搜索关键词。而观看日志则是用户在使用该应用时,所有的阅读过的内容的记录。
通过从网络资源中采集预设时间内的数据资源,以此保持知识图谱中文本的更新迭代,那么搜索引擎在根据知识图谱获取到与核心词语存在实体关系和非实体关系的文本,以此进行搜索时,也能保证搜索到的内容是具有实时性的,那么在返回搜索数据至终端时,也能确保终端上显示的内容是较为实时的内容。
在一个实施例中,在知识图谱构建之后,还包括:根据搜索日志对每个预设核心词语对应的知识图谱中的文本进行纠正;对文本进行语义分析,将语义相同的文本进行合并。
预设应用的搜索日志中包含有大量用户在使用该应用的搜索记录,搜索记录中包含有用户输入的关键词,以及根据该关键词返回的对应的搜索结果。因此,可根据搜索日志中的数据对知识图谱中的文本进行纠正。比如,核心词语为史蒂文·斯皮尔伯格,对应的知识图谱中存储有“辛特勒中的名单”,但根据搜索日志中用户输入的关键词可知,用户输入的关键词基本上都是“辛特勒的名单”,或者,当输入的关键词为史蒂文·斯皮尔伯格时,返回的搜索结果中包含的也是与电影《辛特勒的名单》相关的,而不是“辛特勒中的名单”,那么这种情况下,就可以根据搜索日志中的记录对知识图谱中的文本“辛特勒中的名单”进行纠正。又比如,根据搜索日志中的记录,输入搜索关键词为“泰坦”和“泰坦尼克号”的用户都共同点击了电影《泰坦尼克号》,那么则能够将“泰坦”和“泰坦尼克号”这两个实体进行关联,进行合并,当某个明星与“泰坦”存在关系时,即与“泰坦尼克号”存在相同的关系。
另,还可以对知识图谱中的文本进行语义分析,语义分析是指通过自然语言处理的方法,对知识图谱中的文本进行去重和聚合。比如,水果中的凤梨也可以称为菠萝,那么在知识图谱中则没有必要分别存储有凤梨和菠萝,较好的办法是对这两个进行合并,因为这两个文本表示的是同一个东西。在对文本进行语义分析时,也可以运用算法,比如word2vec(word embeddings)模型,word2vec模型的中文名为“词向量”,作用是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector),简单而言word2vec模型就是一个较为简单的神经网络,可以对输入的文本进行语义上的分析,判断上下文中语境的相似性,将在语义上相似度较高的文本进行合并等。
将文本进行纠正并对文本进行合并后,减少了冗余文本的存储,使得知识图谱中的内容都是有效精炼的,搜索引擎在运用知识图谱时,获取到的文本也能更为精确,那么搜索引擎在进行搜索时也能使得真正的搜索关键词是有效的,搜索到的内容也是较为热门的。
在一个实施例中,与核心词语存在实体关系的文本是人名或剧名,与核心词语存在非实体关系的文本是新闻事件。
在每个核心词语对应的知识图谱中,包含有与核心词语存在实体关系和非实体关系的多个文本,当把知识图谱运用在视频时,那么核心词语一般是明星的名字,与核心词语存在实体关系的文本一般是指人名或者剧名,而与核心词语存在非实体关系的文本则是新闻事件,新闻事件是指对最近发生的事情的事实报道,简单而言,新闻事件即总结了某人某时在某地由于某种原因做了某事出现了某种结果。
比如,当核心词语为莱昂纳多·迪卡普里奥时,与莱昂纳多·迪卡普里奥存在实体关系的可以是凯特·温斯莱特,《了不起的盖茨比》、《泰坦尼克号》,凯特·温斯莱特与莱昂纳多·迪卡普里奥之间存在的实体关系可能是热议人物,也可以是合作关系,莱昂纳多·迪卡普里奥与《了不起的盖茨比》、《泰坦尼克号》之间的实体关系则可以是主演电影、热门电影等。而存在非实体关系的则是与莱昂纳多·迪卡普里奥相关的新闻,比如莱昂纳多·迪卡普里奥放飞自我,出行像大叔,莱昂纳多·迪卡普里奥又换女朋友了,等等新闻事件。对于实体关系和非实体关系的标注是预先设定的,一般是先由系统自动标注,然后再进行人工审核进行最后的确认,保证知识图谱中包含的实体关系与非实体关系的准确性。
在分辨文本与核心词语是实体关系还是非实体关系时,可以参考这些文本具体是存储在数据库的哪个位置。比如当知识图谱运用在视频领域时,在进行数据存储时,会有一个人名库、剧名库,预先就会把多个明星的名字存储在人名库中,当两个明星之间存在实体关系时,就会将两个明星的名称各自对应的唯一名称标识进行关联。与这些明星存在关系的电影名称、电视剧名称或者节目名称,则会存储在剧名库中,当明星A与电影B存在实体关系时,则会将明显A对应的唯一名称标识与电影B对应的唯一标识进行关联。而新闻事件则存在于不同的库中,因此只要根据文本存在的位置也能够获知该文本与核心词语之间存在的关系是实体关系还是非实体关系。
通过将非实体关系的新闻事件加入知识图谱,能够使得搜索到的内容中能够包含更多的周边新闻,比如明星相关的更多新闻,较好的满足用户关注和了解明星周边新闻的需求。
在一个实施例中,构建预设核心词语对应的知识图谱,包括:获取与预设核心词语存在实体关系和非实体关系的文本;建立文本与预设核心词语之间的关系类型;根据关系类型建立核心词语与文本之间的关系对;根据关系对构建预设核心词语对应的知识图谱。
构建知识图谱的主要要素包括有:核心词语、关系、与核心词语存在对应关系的文本,其中关系分为实体关系与非实体关系。构建知识图谱时,需要采集大量的数据资源,在采集到的数据资源中包含有与预设词语存在实体关系和非实体关系的多个文本,在提取出与核心词语存在非实体关系的文本后,即获取到与预设核心词语存在实体关系和非实体关系的文本后,还需要对文本进行过滤,主要是为了避免提取到的文本中有不准确的信息以及敏感信息。在过滤掉一部分不准确或者敏感的信息后,会建立过滤后的文本与预设核心词语之间的关系类型。
简单而言,在提取出文本时,并不会能完全确认文本与核心词语之前的关系类型,只能大概确认文本与核心词语之间是存在有某种关系的,那么这一步则是对文本与核心词语之间的关系进行确认。比如,当核心词语为“莱昂纳多·迪卡普里奥”时,可能从获取到的数据资源中提取出文本“凯特·温斯莱特”,而在提取文本时,会出现将“凯特·温斯莱特”与“莱昂纳多·迪卡普里奥”之间的关系类型定为情侣,而实际上两者之间的关系类型应该是搭档。
另,当获取到的文本与核心词语之间是非实体关系时,比如文本是新闻事件,那么这个时候更需要建立文本与预设核心词语之间的关系类型。文本与预设核心词语之间的关系类型一般由人工进行定义与标注,更能保证提炼出来的非实体关系更为准确。当文本与核心词语之间的关系类型确定后,文本与核心词语之间则根据关系类型形成了对应的关系对。比如:莱昂纳多·迪卡普里奥-搭档-凯特·温斯莱特,核心词语为“莱昂纳多·迪卡普里奥”,关系类型为“搭档”,存在对应关系的文本为“凯特·温斯莱特”。
将文本均根据对应的关系类型与核心词语组成关系对后,则根据组成的关系对构建与预设核心词语对应的知识图谱。通过这种方式构建的知识图谱简单清晰,可以根据知识图谱就获知文本与核心词语之间的关系,搜索引擎在使用知识图谱中也可直接根据文本与核心词语组成的关系对从而对搜索关键词进行扩充,使得搜索结果更为精确。
在一个实施例中,根据关系对构建预设核心词语对应的知识图谱,包括:将关系对与根据历史数据库建立的历史文本的关系对进行对比;将不存在于知识图谱中的历史文本的关系对加入到知识图谱中。
在构建知识图谱时,数据来源于在预设时间内,通过网络资源采集到的数据资源,然后从采集到的数据资源中进行文本提取,进而根据文本与核心词语组成的关系对构建与预设核心词语对应的知识图谱。然而,预设时间内通过网络资源采集到的数据资源是具有时效性的,即采集到的数据可能是不全的。比如当预设时间设为7天,那么在这7天之前发生的事情,或者产生的事件的内容一般是无法获取到的,这种情况下,则需要通过历史数据库中的数据进行数据补充与扩展。
由于搜索引擎在搜索时,会通过与核心词语对应的知识图谱对搜索关键词进行扩充,所以为了降低历史数据库中的历史数据对搜索关键词的影响,进而降低对搜索结果的影响,从历史数据库中获取数据的前提条件是,当历史数据库中存储有的关系对在预设时间内采集到的数据资源中并不存在。将从预设时间内采集到的数据资源中提取的文本与预设核心词语组成的关系对与历史数据库中的关系对进行比对,当检测到存在有关系对在历史数据库中存在,但在采集到的数据资源中不存在时,则将这部分只存在于历史数据库中的关系对加入大预设核心词语对应的知识图谱中,以对知识图谱的关系对,即对知识图谱的内容进行补充与扩展,使得知识图谱中的数据更为完整。
在一个实施例中,搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据,包括:获取核心词语、知识图谱中与核心词语存在实体关系和非实体关系的文本、及文本在知识图谱中的路径权重,路径权重定义了核心词语与文本在知识图谱的关系对中共同出现的概率;根据路径权重依次搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在每个核心词语对应的知识图谱中,会有多个与核心词语存在关系的文本,可称为关系对,那么根据实体关系与非实体关系进行划分后,每个知识图谱中则包含有多个实体关系对与非实体关系对。在根据知识图谱中的核心词语以及与核心词语存在实体关系和非实体关系的文本进行数据搜索时,会先从核心词语对应的知识图谱中将与核心词语存在实体关系和非实体关系的文本均获取到,然后需要考虑到核心词语及这些与核心词语存在关系的文本在知识图谱中占的路径权重,进而可根据各个实体关系对与非实体关系对在知识图谱中的路径权重依次搜索与之相匹配的内容。路径权重是指核心词语与文本在知识图谱的关系对中共同出现的概率,即核心词语与文本组成的关系对在知识图谱中出现的概率。
比如莱昂纳多·迪卡普里奥与《荒野猎人》,这个关系对在电影《荒野猎人》热映期间出现的次数显然是相较于其他时间段更高的。那么在构建核心词语为靳东的知识图谱时,或者在补充核心词语为靳东对应的知识图谱时,会从网络资源上采集预设时间内的数据,那么在《荒野猎人》这部电影热映期间采集到的数据,莱昂纳多·迪卡普里奥与《荒野猎人》共同出现的次数肯定是较高的,在将莱昂纳多·迪卡普里奥与《荒野猎人》这个关系对补充到与莱昂纳多·迪卡普里奥对应的知识图谱中后,那么莱昂纳多·迪卡普里奥与《荒野猎人》在莱昂纳多·迪卡普里奥对应的知识图谱中出现的次数肯定也是较高的。当用户输入的关键词为“莱昂纳多·迪卡普里奥”时,那么搜索引擎在搜索数据时,实际上是将“莱昂纳多·迪卡普里奥”与“荒野猎人”共同作为搜索关键词进行数据搜索的。
通过知识图谱中存储的关系对作为扩充,既能够避免返回的内容中只包含有最新上传的数据,又能避免只根据是否是热门内容这一条件来进行数据返回,提高了内容返回的精准性。
在一个实施例中,知识图谱中还包括从历史数据库中提取的与预设核心词语存在实体关系和非实体关系的历史文本;当文本为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在历史数据库提取的关系对中共同出现的概率与预设系数的乘积;当文本不为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在预设时间内采集到的数据资源中提取的关系对中共同出现的概率。
知识图谱中的数据是不断在更新的,在知识图谱中不仅包含有从网络资源中采集到的预设时间内的数据,还包括有历史数据,即知识图谱中的数据既有历史数据,也会不断的接收新的数据。为了提高知识图谱的丰富性,使得知识图谱中的内容更加完整,会从历史数据库中提取与预设核心词语存在实体关系和非实体关系的历史文本,再将这些从历史数据库中提取到的历史文本也添加到对应的知识图谱中,那么知识图谱中的数据则既包含有最新从网络资源上获取到的数据,也包含有历史数据。
因此根据知识图谱获取到与核心词语存在实体关系与非实体关系的多个文本时,需要区分哪些文本是历史文本中的,哪些文本是最新从网络资源中提取到的。当与核心词语存在实体关系与非实体关系的文本是历史文本时,首先需要先获取到这些文本在历史数据库的关系对中共同出现的概率,然后根据预设系数计算得到概率与预设系数的乘积,这个乘积即为该文本的路径权重。当与核心词语存在实体关系与非实体关系的文本是从采集到的数据资源中提取得到的时,即当该文本不为历史文本时,同样也需要获取到文本与对应的核心词语在预设时间内采集到的数据资源中出现的概率,该文本在数据资源中出现的概率即为该文本对应的路径权重。
当把与核心词语存在实体关系和非实体关系的文本以及对应的路径权重都得到了以后,则可按照路径权重的大小对核心词语以及与核心词语存在实体关系和非实体关系的文本进行搜索。比如,核心词语为莱昂纳多·迪卡普里奥,与莱昂纳多·迪卡普里奥存在实体关系的文本有《了不起的盖茨比》、《荒野猎人》,《荒野猎人》这个文本是从最新的网络资源中提取到的,《荒野猎人》与莱昂纳多·迪卡普里奥共同出现的概率为40%,而《了不起的盖茨比》这个文本来源于历史文本,《了不起的盖茨比》与莱昂纳多·迪卡普里奥在历史数据库的关系对中共同出现的概率为60%,而假设预设系数为0.2,那么实际上《了不起的盖茨比》与莱昂纳多·迪卡普里奥这个关系对的路径权重为60%*0.2=0.12,《荒野猎人》与莱昂纳多·迪卡普里奥的路径权重则为0.4,因此即便是《荒野猎人》与莱昂纳多·迪卡普里奥共同出现的次数大于《了不起的盖茨比》与莱昂纳多·迪卡普里奥共同出现的次数,在搜索引擎进行实际搜索的时候,也会先搜索与莱昂纳多·迪卡普里奥荒野猎人匹配的数据,即搜索引擎在进行搜索时是将“莱昂纳多·迪卡普里奥”与“荒野猎人”这两个文本共同作为搜索关键词进行搜索的。
通过这种权重的计算方式,避免了只全部挑选热门内容,而丢失次级热点的特性,也能避免将历史数据库中的一些较为久远的内容召回,大大提高了召回结果的精准性。
在一个实施例中,预设系数为知识图谱中从预设时间内采集到的数据资源中提取的文本在采集到的数据资源中预设的最低出现的概率。
从采集到的数据资源中提取到与核心词语存在实体关系与非实体关系的文本时,每个文本在数据资源中都有出现的次数,根据每个文本的出现次数可获知每个文本在数据资源中出现的概率。有时候为了保证数据的实效性,并不是每个从数据资源中提取到的文本都会添加到核心词语对应的知识图谱中,而是会设定一个最低概率值,当从数据资源中提取到文本的概率低于最低概率值时,那么此文本就不会被加入到知识图谱中。比假设,最低概率值设为10%,核心词语为史蒂文·斯皮尔伯格,通过网络资源中获取到的数据资源中,史蒂文·斯皮尔伯格与莱昂纳多·迪卡普里奥共同出现的次数为2,而从数据资源中提取到的与莱昂纳多·迪卡普里奥存在实体关系或非实体关系的文本是100,也就是史蒂文·斯皮尔伯格对应的概率为2%,低于预设的最低概率值10%,那么史蒂文·斯皮尔伯格则不会被加入到核心词语为莱昂纳多·迪卡普里奥的知识图谱中。
当与核心词语存在实体关系或非实体关系的文本是历史文本时,即该文本不是从采集的数据资源中提取到的,那么为了避免历史数据库中的出现概率较大的文本影响到最新从网络资源获取到的数据的比重时,需要降低历史数据库中提取的历史文本对于搜索结果的影响度,因此可以将预设系数设置为预设的最低概率值,这样则能够保证在历史数据库中占比较大的历史文本对于搜索结果的影响也会低于采集到的数据资源中出现次数最低的文本。保证了搜索结果的时效性与有效性,避免了冗余的历史数据对搜索结果的影响度。
在一个实施例中,在搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据之后,还包括:获取搜索到的匹配的数据的点击率;将匹配的数据发送到终端进行显示,点击率用于使终端根据点击率进行排序显示。
搜索引擎在搜索数据时运用了知识图谱中的路径权重,即在搜索时会考虑到核心词语以及与核心词语存在关系的文本在知识图谱中共同出现的概率,那么在搜索到相关内容后,还需要将内容显示在终端上供用户阅读。在最终将搜索结果进行显示时,会先获取到每个搜索结果的点击率,然后可将点击率较高的搜索结果优先显示,即显示在搜索结果的第一位,更方便使用终端的用户进行阅读。或者也可以设计的更为复杂一些,比如将点击率作为显示顺序的一个影响权重,再加入搜索结果的上传时间,比如如果是视频,则考虑该视频的上传时间,再加入点击率的考虑,由多个因素影响最后搜索结果的显示顺序。这种方式不仅保证了返回内容的多样性,也保证了搜索结果中较为热门的内容能够优先显示。
在一个实施例中,知识图谱是通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,根据存在实体关系的文本提取出与预设核心词语存在非实体关系的文本,根据与预设核心词语存在实体关系文本以及与预设核心词语存在非实体关系的文本所构建得到的。
在本实施例中,构建知识图谱的方式为,通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,即一级关系文本,再根据一级关系文本从采集到的数据资源中提取出与核心词语存在非实体关系的文本,即二级关系文本。比如预设词语为贾斯汀·比伯,从采集到的数据资源中,提取出与贾斯汀·比伯存在实体关系的有他的前女友赛琳娜·戈麦斯与杰丝敏·维利加斯。那么可根据实体关系文本“赛琳娜·戈麦斯”以及“杰丝敏·维利加斯”,从采集到的数据资源中提取出与预设词语“贾斯汀·比伯”存在非实体关系的文本,比如贾斯汀·比伯与赛琳娜·戈麦斯一起逛商场,贾斯汀·比伯与赛琳娜·戈麦斯分手后又复合。
这种提取方式,在实体关系文本被提取出的基础上,再根据提取出的实体关系文本进行非实体关系文本的提取,可提取出更为准确更为细节的文本,提高了知识图谱的准确性与丰富性。
在一个实施例中,提供了一种搜索方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图3,该搜索方法具体包括如下步骤:
步骤302,构建知识图谱。
构建知识图谱时的数据一部分来源于历史数据库,另一部分来源于从网络资源中采集到的数据。网络资源包括有新闻类网站、娱乐网站、百科类网站以及微博等网站。当应用在视频搜索时,那么网络资源可以来源于,比如有微博热搜榜、微博话题榜、微博上的明星主页、百度新闻、花边新闻、腾讯网娱乐新闻、新浪娱乐新闻、百度百科等,还可以通过预设应用的搜索日志获取数据,比如腾讯视频的用户搜索日志或观看日志,可将这个数据获取的过程称为知识获取过程。从这些信息出处获取到预设时间内的数据资源后,再提取出与预设核心词语存在实体关系和非实体关系的文本,可以简称为知识抽取过程,即将与核心词语这个实体存在关系的文本抽取出来。具体的过程可以参考附图4所示的示意图,先通过各个网络资源获取到预设时间内的数据资源,比如微博热搜榜、百度新闻等,再对获取到的数据资源进行知识抽取,如果是预设应用的观看或搜索日志,则对日志中记录的信息进行分析后再进行知识抽取。比如数据资源中包含有关于莱昂纳多·迪卡普里奥的相关信息,那么就对其中包含的信息进行抽取,得到莱昂纳多·迪卡普里奥-获得奥斯卡小金人等实体对。
每次通过网络资源进行数据采集时,采集的是预设时间内的数据,即知识图谱中包含的从采集到的数据资源中提取的文本是在不断更新的,因为每隔一段时间都会通过网络资源进行一次数据采集,那么为了保证数据的时效性,可以采取清理数据的措施。比如,设定一个清理数据的时间,当时间设为3个月时,那么则认为每次清理知识图谱中的数据时,会将3个月前从采集到的数据资源中提取出的文本进行清除,保证知识图谱中包含的从采集到的数据资源中提取出的文本都是较“新”的。而在实际过程中,历史数据库中的数据也是在不断更新的,比如上述清除掉的3个月的数据,实际上已经存储在历史数据库中,因此仍然可以通过从历史数据库中获取数据的方式对知识图谱中的内容进行补充与扩展,只为了尽可能保证知识图谱中包含的从网络资源中采集到的数据中提取出的文本是最新的,是具备较高的时效性的。
知识抽取完以后,还需要对这些知识进行合并与去重,比如莱昂纳多·迪卡普里奥有多种昵称:小李子、莱昂纳多、盖茨比等等,这一步需要做的就是将这些表示同一个人的实体进行合并。合并的过程可以通过使用数学模型,比如word2vec模型。再使用算法后,一般还需要进行人工审核,进行了人工的审核后更能保证合并文本的准确性。
之后,为了使得知识图谱中的关系对更为丰富与完整,可以获取历史数据库中的数据。一般情况下,从历史数据库中补充的内容是当采集到的数据资源中缺少一些历史数据库中存储的与核心词语存在实体关系和非实体关系的文本时,可以通过历史数据库中的数据对知识图谱进行补充,然后从历史数据库中提取出与预设核心词语存在实体关系和非实体关系的文本,并将从历史数据库中提取出的文本添加到对应的知识图谱中。然后由于提取到的文本中包含有与预设核心词语存在实体关系与非实体关系的文本,在视频应用领域,与核心词语存在实体关系的文本一般是人名或剧名,而与核心词语存在非实体关系的文本是新闻事件。比如核心词语为安吉丽娜·朱莉,与安吉丽娜·朱莉存在实体关系的人名有布拉德·皮特、约翰尼·德普等,与安吉丽娜·朱莉存在实体关系的剧名有《致命伴侣》、《沉睡魔咒》等。那么通过采集预设时间内的网络资源,得到的与安吉丽娜·朱莉存在非实体关系的新闻事件包括有:安吉丽娜·朱莉与丈夫布拉德·皮特离婚、安吉丽娜·朱莉争夺儿女抚养权等,这些新闻事件在存储核心词语为安吉丽娜·朱莉的知识图谱中时,需要标注对应的非实体关系,一般情况下非实体关系的备注是先通过使用算法结合人工审核的方式进行标注的,比如,算法使用开放式文本信息抽取(Open InformationExtraction)的方式。另,知识图谱一般用图数据的方式存储,比如neo4j(一个高性能的,NOSQL图形数据库)。
步骤304,获取搜索关键词,提取出核心词语。
服务器在获取到搜索关键词时,会从搜索关键词中提取出核心词语,这个步骤也可以称为必留词判断,指通过自然语言处理(NLP,Natural Language Processing)手段,分析用户输入的搜索关键词中的核心词与非核心词的方法,非核心词指的是不考虑这个词的情况下依然不影响表达意思的词。
步骤306,从知识图谱中获取与核心词语存在关系的文本。
在核心词语对应的知识图谱中存在有多个关系对,即多个与核心词语存在实体关系和非实体关系的文本。如图5所示,核心词语为泰勒·斯威夫特,在泰勒·斯威夫特的知识图谱中包含有多个明星,比如乔·阿尔文,与泰勒·斯威夫特之间的实体关系为恋人,汤姆·希德勒斯顿与泰勒·斯威夫特之间的实体关系为前任男友。还包含有非实体关系的文本,比如“泰勒·斯威夫特为粉丝买房”,这是关于泰勒·斯威夫特的一个新闻事件,在知识图谱中也会包含有这部分。那么当用户输入的搜索关键词为泰勒·斯威夫特时,实际上搜索引擎的搜索关键词是泰勒·斯威夫特+关系对的文本,比如泰勒·斯威夫特+为粉丝买房,或者泰勒·斯威夫特+乔·阿尔文。
在知识图谱中存在的关系对很多,因此在获取到知识图谱中的多个关系对之后,还需要考虑各个关系对在知识图谱中所占的路径权重,一般情况下,路径权重指的是核心词语与对应存在关系的文本共同在知识图谱中出现的概率。但知识图谱可以是由两个部分组成的,即最新采集到的数据、历史数据。这种情况下,为了保证搜索结果呈现的内容的实效性,会优先考虑最先采集到的数据。因此当核心词语与文本组成的关系对只在最新采集到的数据中出现时,那么就根据各个关系对在采集到的数据中出现的概率依次进行搜索。当核心词语的部分关系对来源于历史数据,一部分来源于采集到的数据时,那么会采用打压系数对历史数据中核心词语与文本组成的关系对的权重进行打压,也就是预设的系数。那么核心词语与文本组成的关系对的影响权重是根据在历史数据中出现的概率再乘以预设系数得到的。
比如图5中的泰勒·斯威夫特,在泰勒·斯威夫特的新专辑《Reputation》中的首支单曲《Look What You Made Me Do》发行之前,在泰勒·斯威夫特的知识图谱中,泰勒·斯威夫特与男友乔·阿尔文共同出现的概率较高,即泰勒·斯威夫特与乔·阿尔文组成的关系对在历史数据中的概率较高,假设为70%。而单曲《Look What You Made Me Do》只是在发行之前的宣传阶段,那么泰勒·斯威夫特与《Look What You Made Me Do》在最新采集到的数据中共同出现的概率只有30%,这个时候并不是直接按照因为70%大于30%,所以当搜索关键词为泰勒·斯威夫特时,搜索引擎会优先以搜索关键词为泰勒·斯威夫特+乔·阿尔文进行内容搜索。而是历史数据中70%还需要乘以一个预设系数,假设为0.1,那么泰勒·斯威夫特与乔·阿尔文这个关系对的实际影响权重为70%*0.1=0.07,由于0.07小于泰勒·斯威夫特与《Look What You Made Me Do》的0.3,因此根据这两个数值的比较,会得到先以搜索关键词为泰勒·斯威夫特与《Look What You Made Me Do》进行对应的内容搜索。
步骤308,搜索与核心词语及与核心词语存在关系的文本匹配的数据。
步骤310,将匹配的数据发送到终端进行显示。
在搜索引擎根据知识图谱确定的搜索关键词进行相关搜索后,会返回相应的搜索结果,这个过程也称为召回。在搜索到与核心词语及与核心词语存在关系的文本匹配的数据后,需要将数据发送至终端进行显示,终端在显示匹配的数据时,会考虑到每个搜索结果的点击率,结合点击率对搜索到的数据进行显示。比如搜索到的结果有3000个,那么在返回给终端进行显示时,当搜索结果A的点击率排在第一时,那么说明搜索结果A的热度很高,用户都对搜索结果A的内容很感兴趣,那么就可以根据点击率将搜索结果A排在第一位进行显示。
利用知识图谱,得到与搜索关键词中的核心词语存在实体关系和非实体关系的文本,进而搜索与核心词语和文本匹配的数据,避免了只返回热门的数据,得到更为精确的搜索结果,在将搜索结果返回至终端显示时,终端上显示的搜索结果也能更为精炼与准确。
图2-3分别为实施例中搜索方法的流程示意图。应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图6所示,在一个实施例中,提供了一种搜索装置,包括:
核心词语提取模块602,用于获取搜索关键词,从搜索关键词中提取出核心词语。
搜索模块604,用于根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本;搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,上述装置还包括知识图谱构建模块(图中未示出),用于通过采集预设时间内的数据资源,根据从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本构建知识图谱。
在一个实施例中,在一个实施例中,上述知识图谱构建模块还用于通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,根据存在实体关系的文本提取出与预设核心词语存在非实体关系的文本,根据与预设核心词语存在实体关系文本以及与预设核心词语存在非实体关系的文本构建知识图谱。
在一个实施例中,上述知识图谱构建模块还用于,数据资源是从网络资源中采集的预设时间内的数据资源,网络资源包括预设网站的文章或网页、预设应用的搜索日志中的至少一种。
在一个实施例中,上述知识图谱构建模块还用于,根据搜索日志对每个预设核心词语对应的知识图谱中的文本进行纠正;对文本进行语义分析,将语义相同的文本进行合并。
在一个实施例中,上述知识图谱构建模块还用于,获取与预设核心词语存在实体关系和非实体关系的文本;建立文本与预设核心词语之间的关系类型;根据关系类型建立核心词语与文本之间的关系对;根据关系对构建预设核心词语对应的知识图谱。
在一个实施例中,上述知识图谱构建模块还用于,将关系对与根据历史数据库建立的历史文本的关系对进行对比;将不存在于知识图谱中的历史文本的关系对加入到知识图谱中。
在一个实施例中,上述搜索模块604还用于,获取核心词语、知识图谱中与核心词语存在实体关系和非实体关系的文本、及文本在知识图谱中的路径权重,路径权重定义了核心词语与文本在知识图谱的关系对中共同出现的概率;根据路径权重依次搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,上述知识图谱构建模块还用于,从历史数据库中提取的与预设核心词语存在实体关系和非实体关系的历史文本;上述搜索模块604还用于,当文本为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在历史数据库提取的关系对中共同出现的概率与预设系数的乘积;当文本不为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在预设时间内采集到的数据资源中提取的关系对中共同出现的概率。
在一个实施例中,上述搜索模块604还用于,获取预设系数,预设系数为知识图谱中从预设时间内采集到的数据资源中提取的文本在采集到的数据资源中预设的最低出现的概率。
在一个实施例中,上述装置还包括数据发送模块(图中未示出),用于获取搜索到的匹配的数据的点击率;将匹配的数据发送到终端进行显示,点击率用于使终端根据点击率进行排序显示。
在一个实施例中,上述知识图谱构建模块中与核心词语存在实体关系的文本是人名或剧名,与核心词语存在非实体关系的文本是新闻事件。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图7所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现搜索方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行搜索方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等,比如可以用于输入搜索关键词,显示屏可以用于显示搜索到的数据。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的搜索装置可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该搜索装置的各个程序模块,比如,图6所示的核心词语提取模块、搜索模块和显示模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的搜索方法中的步骤。
例如,图7所示的计算机设备可以通过如图6所示的搜索装置中的核心词语提取模块执行步骤获取搜索关键词,从搜索关键词中提取出核心词语;计算机设备可通过搜索模块执行步骤根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本,搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取搜索关键词,从搜索关键词中提取出核心词语;根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本;搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,处理器执行计算机程序时知识图谱是通过采集预设时间内的数据资源,根据从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本所构建得到的。
在一个实施例中,处理器执行计算机程序时知识图谱是通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,根据存在实体关系的文本提取出与预设核心词语存在非实体关系的文本,根据与预设核心词语存在实体关系文本以及与预设核心词语存在非实体关系的文本所构建得到的。
在一个实施例中,处理器执行计算机程序时数据资源是从网络资源中采集的预设时间内的数据资源,网络资源包括预设网站的文章或网页、预设应用的搜索日志中的至少一种。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据搜索日志对每个预设核心词语对应的知识图谱中的文本进行纠正;对文本进行语义分析,将语义相同的文本进行合并。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取与预设核心词语存在实体关系和非实体关系的文本;建立文本与预设核心词语之间的关系类型;根据关系类型建立核心词语与文本之间的关系对;根据关系对构建预设核心词语对应的知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将关系对与根据历史数据库建立的历史文本的关系对进行对比;将不存在于知识图谱中的历史文本的关系对加入到知识图谱中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取核心词语、知识图谱中与核心词语存在实体关系和非实体关系的文本、及文本在知识图谱中的路径权重,路径权重定义了核心词语与文本在知识图谱的关系对中共同出现的概率;根据路径权重依次搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,处理器执行计算机程序时知识图谱中还包括从历史数据库中提取的与预设核心词语存在实体关系和非实体关系的历史文本;处理器执行计算机程序时还实现以下步骤:当文本为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在历史数据库提取的关系对中共同出现的概率与预设系数的乘积;当文本不为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在预设时间内采集到的数据资源中提取的关系对中共同出现的概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设系数,预设系数为知识图谱中从预设时间内采集到的数据资源中提取的文本在采集到的数据资源中预设的最低出现的概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取搜索到的匹配的数据的点击率;将匹配的数据发送到终端进行显示,点击率用于使终端根据点击率进行排序显示。
在一个实施例中,处理器执行计算机程序时与核心词语存在实体关系的文本是人名或剧名,与核心词语存在非实体关系的文本是新闻事件。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取搜索关键词,从搜索关键词中提取出核心词语;根据核心词语获取对应的知识图谱,知识图谱包含与核心词语存在实体关系和非实体关系的文本;搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,计算机程序被处理器执行时知识图谱是通过采集预设时间内的数据资源,根据从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本所构建得到的。
在一个实施例中,计算机程序被处理器执行时知识图谱是通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,根据存在实体关系的文本提取出与预设核心词语存在非实体关系的文本,根据与预设核心词语存在实体关系文本以及与预设核心词语存在非实体关系的文本所构建得到的。
在一个实施例中,计算机程序被处理器执行时数据资源是从网络资源中采集的预设时间内的数据资源,网络资源包括预设网站的文章或网页、预设应用的搜索日志中的至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据搜索日志对每个预设核心词语对应的知识图谱中的文本进行纠正;对文本进行语义分析,将语义相同的文本进行合并。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取与预设核心词语存在实体关系和非实体关系的文本;建立文本与预设核心词语之间的关系类型;根据关系类型建立核心词语与文本之间的关系对;根据关系对构建预设核心词语对应的知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将关系对与根据历史数据库建立的历史文本的关系对进行对比;将不存在于知识图谱中的历史文本的关系对加入到知识图谱中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取核心词语、知识图谱中与核心词语存在实体关系和非实体关系的文本、及文本在知识图谱中的路径权重,路径权重定义了核心词语与文本在知识图谱的关系对中共同出现的概率;根据路径权重依次搜索与核心词语及与核心词语存在实体关系和非实体关系的文本匹配的数据。
在一个实施例中,计算机程序被处理器执行时知识图谱中还包括从历史数据库中提取的与预设核心词语存在实体关系和非实体关系的历史文本;处理器执行计算机程序时还实现以下步骤:当文本为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在历史数据库提取的关系对中共同出现的概率与预设系数的乘积;当文本不为历史文本时,文本在知识图谱中的路径权重为核心词语与文本在预设时间内采集到的数据资源中提取的关系对中共同出现的概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设系数,预设系数为知识图谱中从预设时间内采集到的数据资源中提取的文本在采集到的数据资源中预设的最低出现的概率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取搜索到的匹配的数据的点击率;将匹配的数据发送到终端进行显示,点击率用于使终端根据点击率进行排序显示。
在一个实施例中,计算机程序被处理器执行时与核心词语存在实体关系的文本是人名或剧名,与核心词语存在非实体关系的文本是新闻事件。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种搜索方法,包括:
获取搜索关键词,从所述搜索关键词中提取出核心词语;
根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;
搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱是通过采集预设时间内的数据资源,根据从采集到的数据资源中提取的与预设核心词语存在实体关系和非实体关系的文本所构建得到的。
3.根据权利要求2所述的方法,其特征在于,所述数据资源是从网络资源中采集的预设时间内的数据资源,所述网络资源包括预设网站的文章或网页、预设应用的搜索日志中的至少一种。
4.根据权利要求3所述的方法,其特征在于,在所述知识图谱构建之后,还包括:
根据所述搜索日志对每个所述预设核心词语对应的知识图谱中的文本进行纠正;
对所述文本进行语义分析,将语义相同的文本进行合并。
5.根据权利要求2所述的方法,其特征在于,构建所述预设核心词语对应的知识图谱,包括:
获取与预设核心词语存在实体关系和非实体关系的文本;
建立所述文本与所述预设核心词语之间的关系类型;
根据所述关系类型建立核心词语与所述文本之间的关系对;
根据所述关系对构建所述预设核心词语对应的知识图谱。
6.根据权利要求5所述的方法,其特征在于,根据所述关系对构建所述预设核心词语对应的知识图谱,包括:
将所述关系对与根据历史数据库建立的历史文本的关系对进行对比;
将不存在于所述知识图谱中的所述历史文本的关系对加入到所述知识图谱中。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据,包括:
获取所述核心词语、所述知识图谱中与所述核心词语存在实体关系和非实体关系的文本、及所述文本在所述知识图谱中的路径权重,所述路径权重定义了所述核心词语与所述文本在所述知识图谱的关系对中共同出现的概率;
根据所述路径权重依次搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
8.根据权利要求7所述的方法,其特征在于,所述知识图谱中包含从历史数据库中提取的与预设核心词语存在实体关系和非实体关系的历史文本;
当所述文本为所述历史文本时,所述文本在所述知识图谱中的路径权重为所述核心词语与所述文本在所述历史数据库提取的关系对中共同出现的概率与预设系数的乘积;
当所述文本不为所述历史文本时,所述文本在所述知识图谱中的路径权重为所述核心词语与所述文本在预设时间内采集到的数据资源中提取的关系对中共同出现的概率。
9.根据权利要求8所述的方法,其特征在于,所述预设系数为所述知识图谱中从所述预设时间内采集到的数据资源中提取的文本在所述采集到的数据资源中预设的最低出现的概率。
10.根据权利要求1所述的方法,其特征在于,在所述搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据之后,还包括:
获取搜索到的所述匹配的数据的点击率;
将所述匹配的数据发送到终端进行显示,所述点击率用于使终端根据点击率进行排序显示。
11.根据权利要求1所述的方法,其特征在于,所述与核心词语存在实体关系的文本是人名或剧名,所述与核心词语存在非实体关系的文本是新闻事件。
12.根据权利要求1所述的方法,其特征在于,所述知识图谱是通过采集预设时间内的数据资源,从采集到的数据资源中提取出与预设核心词语存在实体关系文本,根据所述存在实体关系的文本提取出与所述预设核心词语存在非实体关系的文本,根据与预设核心词语存在实体关系文本以及与所述预设核心词语存在非实体关系的文本所构建得到的。
13.一种搜索装置,其特征在于,所述装置包括:
核心词语提取模块,用于获取搜索关键词,从所述搜索关键词中提取出核心词语;
搜索模块,用于根据所述核心词语获取对应的知识图谱,所述知识图谱包含与所述核心词语存在实体关系和非实体关系的文本;搜索与所述核心词语及与所述核心词语存在实体关系和非实体关系的文本匹配的数据。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201810124307.0A 2018-02-07 2018-02-07 搜索方法、装置、计算机可读存储介质和计算机设备 Active CN110209827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810124307.0A CN110209827B (zh) 2018-02-07 2018-02-07 搜索方法、装置、计算机可读存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810124307.0A CN110209827B (zh) 2018-02-07 2018-02-07 搜索方法、装置、计算机可读存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110209827A true CN110209827A (zh) 2019-09-06
CN110209827B CN110209827B (zh) 2023-09-19

Family

ID=67778570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810124307.0A Active CN110209827B (zh) 2018-02-07 2018-02-07 搜索方法、装置、计算机可读存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110209827B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928992A (zh) * 2019-11-21 2020-03-27 邝俊伟 文本搜索方法、装置、服务器及存储介质
CN111767410A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 临床医疗知识图谱的构建方法、装置、设备及存储介质
CN112148885A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112364610A (zh) * 2020-12-01 2021-02-12 深圳市房多多网络科技有限公司 房源文章中楼盘卡片的插入方法、装置及计算设备
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
CN112905853A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 知识图谱构建过程的故障检测方法、装置、设备和介质
WO2021120627A1 (zh) * 2019-12-18 2021-06-24 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN113495984A (zh) * 2020-03-20 2021-10-12 华为技术有限公司 一种语句检索方法以及相关装置
CN116501841A (zh) * 2023-06-26 2023-07-28 深圳市唯特视科技有限公司 数据模型模糊查询方法、系统及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324347A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for parsing, searching and formatting of text input for visual mapping of knowledge information
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN104462512A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于知识图谱的汉语信息搜索方法和装置
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN106776862A (zh) * 2016-11-28 2017-05-31 北京奇艺世纪科技有限公司 一种游戏视频搜索方法及装置
CN106874492A (zh) * 2017-02-23 2017-06-20 北京京东尚科信息技术有限公司 搜索方法和装置
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置
CN107526812A (zh) * 2017-08-24 2017-12-29 北京奇艺世纪科技有限公司 一种搜索方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324347A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for parsing, searching and formatting of text input for visual mapping of knowledge information
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN104462512A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于知识图谱的汉语信息搜索方法和装置
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN106776862A (zh) * 2016-11-28 2017-05-31 北京奇艺世纪科技有限公司 一种游戏视频搜索方法及装置
CN106874492A (zh) * 2017-02-23 2017-06-20 北京京东尚科信息技术有限公司 搜索方法和装置
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置
CN107526812A (zh) * 2017-08-24 2017-12-29 北京奇艺世纪科技有限公司 一种搜索方法、装置及电子设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928992A (zh) * 2019-11-21 2020-03-27 邝俊伟 文本搜索方法、装置、服务器及存储介质
WO2021120627A1 (zh) * 2019-12-18 2021-06-24 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN113495984A (zh) * 2020-03-20 2021-10-12 华为技术有限公司 一种语句检索方法以及相关装置
CN111767410A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 临床医疗知识图谱的构建方法、装置、设备及存储介质
CN112148885A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN112148885B (zh) * 2020-09-04 2024-02-02 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112256801B (zh) * 2020-10-10 2024-04-09 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112364610A (zh) * 2020-12-01 2021-02-12 深圳市房多多网络科技有限公司 房源文章中楼盘卡片的插入方法、装置及计算设备
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
CN112905853A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 知识图谱构建过程的故障检测方法、装置、设备和介质
CN116501841A (zh) * 2023-06-26 2023-07-28 深圳市唯特视科技有限公司 数据模型模糊查询方法、系统及存储介质
CN116501841B (zh) * 2023-06-26 2023-09-08 深圳市唯特视科技有限公司 数据模型模糊查询方法、系统及存储介质

Also Published As

Publication number Publication date
CN110209827B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN110209827A (zh) 搜索方法、装置、计算机可读存储介质和计算机设备
US10664526B2 (en) Suggested keywords for searching content on online social networks
US10528635B2 (en) Blending by query classification on online social networks
US10798043B2 (en) Indicating live videos for trending topics on online social networks
US8484191B2 (en) On-line social search
CN104298429B (zh) 一种基于输入的信息展示方法和输入法系统
EP2750089B1 (en) Modifying structured search queries on online social networks
JP6420481B2 (ja) オンライン・ソーシャル・ネットワーク上のキー・オーサーによるコンテンツの検索
US10102273B2 (en) Suggested queries for locating posts on online social networks
US20160117063A1 (en) Systems and methods for managing hashtags
US20160203238A1 (en) Suggested Keywords for Searching News-Related Content on Online Social Networks
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
US20140279048A1 (en) Systems and methods for providing relevant pathways through linked information
US20180101614A1 (en) Machine Learning-Based Data Aggregation Using Social Media Content
US20160232241A1 (en) Aggregating News Events on Online Social Networks
US10810217B2 (en) Optionalization and fuzzy search on online social networks
US20150356202A1 (en) Methods and apparatus for identifying concepts corresponding to input information
JP6487427B2 (ja) フレキシブルなイメージ・レイアウト
CA2945275A1 (en) Natural-language rendering of structured search queries
US20160373397A1 (en) Live social modules on online social networks
US9208228B1 (en) Searching using social context
US20160224658A1 (en) Item listing categorization system
CN108334632A (zh) 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN111597788B (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
CA2914587C (en) Ambiguous structured search queries on online social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant