CN111177405A - 数据搜索匹配方法、装置、计算机设备和存储介质 - Google Patents

数据搜索匹配方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111177405A
CN111177405A CN201911311777.9A CN201911311777A CN111177405A CN 111177405 A CN111177405 A CN 111177405A CN 201911311777 A CN201911311777 A CN 201911311777A CN 111177405 A CN111177405 A CN 111177405A
Authority
CN
China
Prior art keywords
keyword
graph
nodes
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911311777.9A
Other languages
English (en)
Inventor
董润华
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201911311777.9A priority Critical patent/CN111177405A/zh
Publication of CN111177405A publication Critical patent/CN111177405A/zh
Priority to PCT/CN2020/105007 priority patent/WO2021120627A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Abstract

本申请涉及数据处理技术领域,应用于金融行业,特别是涉及一种数据搜索匹配方法、装置、计算机设备和存储介质。上述方法包括:获取待搜索的关键词以及关键词对应的事件图谱;根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。

Description

数据搜索匹配方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据搜索匹配方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,搜索引擎作为基于互联网数据检索的主要手段,用户可通过搜索引擎获取搜索结果。搜索引擎根据用户输入的关键词检索得到相关信息,并将检索获得的相关信息作为搜索结果展示给用户。
传统的搜索引擎大多采用通用搜索引擎,通用搜索引擎通过对输入的检索内容进行分词处理,然后再根据分词处理得到的关键词进行匹配。然而,这种将分词结果作为关键词的搜索方法,无法对检索内容进行解析,实现搜索其中隐含内容相关的信息,比如搜索获得的结果中排在前面的搜索结果未必与用户搜索主题匹配,导致搜索的匹配结果精准度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高搜索匹配精准度的数据搜索匹配方法、装置、计算机设备和存储介质。
一种数据搜索匹配方法,所述方法包括:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在一个实施例中,所述方法还包括:
获取数据库数据,对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,所述节点关系词表征各节点之间的连接关系;
根据所述节点词以及所述节点关系词生成预设的事件图谱。
在一个实施例中,所述获取数据库数据之前,还包括:
获取数据源地址列表、开始页码、结束页码以及采集时间;
根据所述采集时间,提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据;
解析所述新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在一个实施例中,所述对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词包括:
通过自然语言处理模型从所述数据库数据中提取数据关键词;
将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
在一个实施例中,所述方法还包括:
从预设的百科图谱中获取与所述关键词所属搜索领域相关联的多个条目;
以所述多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱。
在一个实施例中,所述获取各节点之间的关系,并以所述多个条目作为目标百科图谱的节点,以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱之前,还包括:
分别计算所述多个条目中每个条目到所述搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在一个实施例中,所述方法还包括:
获取搜索主体对应的指标数据以及所述指标数据的时间顺序,将所述搜索结果按照所述时间顺序与所述指标数据进行关联处理,得到关联后的数据;
向所述搜索主体推送所述关联后的数据。
一种搜索匹配装置,所述装置包括:
获取模块,用于获取待搜索的关键词以及所述关键词对应的事件图谱;
第一拓展模块,用于根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
第二拓展模块,用于根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
搜索结果获取模块,用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合,基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
上述数据搜索匹配方法、装置、计算机设备和存储介质,根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展,获得第一拓展关键词,基于关键词所属搜索领域对应的目标百科图谱,根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展,获得第二拓展关键词,将关键词以及拓展后的关键词合并,获得关键词集合,根据关键词集合进行搜索,获得搜索结果,通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索,从而提高搜索匹配结果的精确度。
附图说明
图1为一个实施例中数据搜索匹配方法的应用环境图;
图2为一个实施例中数据搜索匹配方法的流程示意图;
图3为一个实施例中目标百科图谱构建步骤的流程示意图;
图4为另一个实施例中数据搜索匹配方法的流程示意图;
图5为一个实施例中数据搜索匹配装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据搜索匹配方法,可以应用于如图1所示的应用环境中。搜索主体在搜索框内输入关键词,数据处理终端获取待搜索的关键词以及关键词对应的事件图谱,根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,其中,目标百科图谱为关键词所属搜索领域对应的百科图谱;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。其中,数据处理终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。
在一个实施例中,如图2所示,提供了一种数据搜索匹配方法,以该方法应用于图1中的数据处理终端为例进行说明,包括以下步骤:
步骤202,获取待搜索的关键词以及关键词对应的事件图谱。
搜索主体可以在搜索框中输入关键词进行搜索,比如,用户可以在搜索框中输入a1进行搜索。获取某个领域的资讯数据,根据该领域的资讯数据抽取出事件图谱,事件图谱中包括大量不同的词和事件。比如,用户输入某个待搜索的关键词,在预设的事件图谱中查找,获得关键词对应的事件图谱。再根据该关键词在该事件图谱的节点中进行搜索,获取该关键词所属节点。事件是指特定时间、特定地点发生的事情,事件抽取具体可以是元事件抽取。其中,元事件表示一个动作的发生或状态的变化,由表示动作的动词或名词来驱动,包括参与该动作行为的主要成分,比如时间、地点、人物等。事件由事件触发和描述事件结构的元素组成,事件触发词是指用来表示事件发生的核心词,如动词或名词。元素指表示事件的参与者、时间、地点等属性信息。事件抽取包括事件识别和事件元素识别,事件元素识别即根据预先设定的事件模板,抽取相应的元素。可以基于模式匹配、基于机器学习、基于神经网络等事件抽取方法实现元事件抽取,其中,基于神经网络的事件抽取方法是指将事件抽取转换成一个有监督的多元分类任务,包括句子篇章级事件抽取、基于联合模型、融合外部资源的神经网络事件抽取方法等。事件图谱是以事件为基础信息的结构化表示方式,图谱中的节点表示事件提及,节点之间的边表示事件提及之间的时间关系和指代关系。
步骤204,根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词。
可以通过BP算法计算词距离,首先获得语料库的词列表,对词列表中的每个词构建单位向量,计算全连接前向神经网络输出值,根据误差由后向反馈网络修正权值,循环上述步骤直至满足终止条件。
以养猪业事件图谱作为预设的事件图谱为例,比如,用户输入的关键词为a1,将a1在预先已构建的养猪业事件图谱中查询距离a1节点最近的相关事件节点,返回事件类型和关联的节点,比如查询得到的相关事件结果为:金融事件对应的节点是“金融危机”以及冲突事件对应的节点是“贸易摩擦”,此时,第一拓展关键词包括金融危机和贸易摩擦。
步骤206,根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱。
比如,图谱中的一个节点A,A的下级节点为a1。与a1节点同级存在一个 a2节点,a1节点的下级存在一个a11节点。距离小于第二预设阈值的节点具体可以是与关键词节点距离中最近的三个节点,比如,与关键词节点a1距离最近的三个节点可以是其上级节点A、同级节点a2以及下级节点a11。一般而言,通过设置预设阈值获取到的节点为与关键词节点距离最近的三个节点,这样可以保证关键词集合的质量。
以养猪业作为搜索领域为例,将a1在预先已构建的养猪业百科图谱中查询直接关联的节点,比如查询的结果为:猪肉价格和种猪疫苗,此时,第二拓展关键词包括猪肉价格和种猪疫苗。
步骤208,将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合。
具体可以按照事件类型将第一拓展关键词和第二拓展关键词及输入的关键词分别合并,比如事件图谱返回的事件类型包括金融事件和冲突事件,对应的,关键词集合包括金融事件关键词集合以及冲突时间关键词集合。
步骤210,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
预设的搜索与分析引擎可以是ElasticSearch搜索与分析引擎,具体可以通过合并后的关键词集合在基于ElasticSearch搜索与分析引擎已构建的养猪业资讯库中搜索最相关的前50条新闻。比如搜索出两个事件类型:金融事件和冲突事件,则对应的搜索结果为两个50条新闻集合结果。
上述数据搜索匹配方法,根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展,获得第一拓展关键词,基于关键词所属搜索领域对应的目标百科图谱,根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展,获得第二拓展关键词,将关键词以及拓展后的关键词合并,获得关键词集合,根据关键词集合进行搜索,获得搜索结果,通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索,从而提高搜索匹配结果的精确度。
在一个实施例中,数据搜索匹配方法还包括:获取数据库数据,对数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,节点关系词表征各节点之间的连接关系;根据节点词以及节点关系词生成预设的事件图谱。其中,获取数据库数据之前,还包括:获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。比如,当需要构建金融事件图谱时,可以设置采集金融财经类的新闻数据。这样可以自动采集数据,节省时间,提高效率。具体地,对数据库数据进行自然语言处理,提取节点以及节点之间的关系包括:通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。可以通过自然语言处理模型对新闻数据中的文本基于语义进行分割,得到分割后的多个词语,对每个词语进行词性标注,比如人名、地名、数字等标注,获取所需的标注实体。自然语言处理模型可以通过TF-IDF(Term Frequency- Inverse Document Frequency,词频-逆向文件频率)算法计算数据关键词的词频- 逆向文件频率,将词频-逆向文件频率高于预设值的数据关键词作为节点。TF (Term Frequency,词频)表示词语在文件中出现的频率,IDF(InverseDocument Frequency,逆向文件频率)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,通过TF-IDF可以过滤掉常见的词语,保留重要的词语。
在一个实施例中,如图3所示,数据搜索匹配方法还包括:步骤302,从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;步骤304,以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。具体地,获取各节点之间的关系,并以多个条目作为目标百科图谱的节点,以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱之前,还包括:分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。这样可以过滤非搜索领域的条目,在维基百科中很多类别和条目都属于多个父类别,为了提高搜索领域的条目的准确性,需要消除无效的、与搜索领域关联较小的分类及条目。
获取指定搜索领域下的所有条目及分类结构,以及所有条目对应的出度,比如定义V为维基百科公开数据集page表养猪业下的所有条目及分类,定义E为维基百科公开数据集categorylinks和redirect获取到养猪业下的分类结构链接,通过V表示节点的集合,E表示边的集合,E的方向是从子类别或者条目指向父类别。假设节点v是待建立的养猪业百科图谱的节点之一,C是养猪业的顶级父类别,需要计算v到C的所属度。定义b为节点v的链接权重,其取值是v 对应的出度的倒数,c为v到C的权重,其值等于这条路径上所有权重的乘积,对于v到C的所属度为连通v到C路径权重的和;设置所属度阈值比如0.1,用于过滤无效的分类和条目,将过滤后的条目通过爬虫技术获取条目的关系节点及属性,如:大白猪的别名为大约克夏,原产地为英国等相关信息。将所有数据入图数据库形成知识图谱,图谱具体可以通过Neo4j图数据库进行构建。
在一个实施例中,如图4所示,数据搜索匹配方法还包括:步骤406,获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;步骤407,向搜索主体推送关联后的数据。以股票数据作为指标数据为例,比如可以使用爬虫技术将东方财富网上的所有上市公司股票数据爬取下来,再通过行业分类筛选出养猪业上市公司的股票数据;将所有事件类型关联集合查出的每50条新闻通过时间顺序插入至养猪业上市公司的股票数据时间轴上,这样搜索主体可以通过关联后的数据分析输入的关键词给行业的某条指标带来的影响。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据搜索匹配装置,包括:获取模块502、第一拓展模块504、第二拓展模块506和搜索结果获取模块508。获取模块,用于获取待搜索的关键词以及关键词对应的事件图谱。第一拓展模块,用于根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词。第二拓展模块,用于根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱。搜索结果获取模块,用于将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在一个实施例中,数据搜索匹配装置还包括事件图谱构建模块,用于获取数据库数据,对数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,节点关系词表征各节点之间的连接关系;根据节点词以及节点关系词生成预设的事件图谱。
在一个实施例中,数据搜索匹配装置还包括数据库数据生成模块,用于获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在一个实施例中,事件图谱构建模块还用于通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在一个实施例中,数据搜索匹配装置还包括目标百科图谱构建模块,用于从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在一个实施例中,数据搜索匹配装置还包括条目删除模块,用于分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在一个实施例中,数据搜索匹配装置还包括数据推送模块,用于获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;向搜索主体推送关联后的数据。
关于数据搜索匹配装置的具体限定可以参见上文中对于数据搜索匹配方法的限定,在此不再赘述。上述数据搜索匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储事件图谱、搜索领域百科图谱等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据搜索匹配方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待搜索的关键词以及关键词对应的事件图谱;根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取数据库数据,对数据库数据进行自然语言处理,提取节点词以及节点关系词;根据节点词以及节点关系词生成预设的事件图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;向搜索主体推送关联后的数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待搜索的关键词以及关键词对应的事件图谱;根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取数据库数据,对数据库数据进行自然语言处理,提取节点词以及节点关系词;根据节点词以及节点关系词生成预设的事件图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;向搜索主体推送关联后的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM (RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据搜索匹配方法,所述方法包括:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取数据库数据,对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,所述节点关系词表征各节点之间的连接关系;
根据所述节点词以及所述节点关系词生成预设的事件图谱。
3.根据权利要求2所述的方法,其特征在于,所述获取数据库数据之前,还包括:
获取数据源地址列表、开始页码、结束页码以及采集时间;
根据所述采集时间,提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据;
解析所述新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词包括:
通过自然语言处理模型从所述数据库数据中提取数据关键词;
将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
5.根据权利要求1所述的方法,其特征在于,还包括:
从预设的百科图谱中,获取与所述关键词所属搜索领域相关联的多个条目;
以所述多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱。
6.根据权利要求5所述的方法,其特征在于,所述获取各节点之间的关系,并以所述多个条目作为目标百科图谱的节点,以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱之前,还包括:
分别计算所述多个条目中每个条目到所述搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取搜索主体对应的指标数据以及所述指标数据的时间顺序,将所述搜索结果按照所述时间顺序与所述指标数据进行关联处理,得到关联后的数据;
向所述搜索主体推送所述关联后的数据。
8.一种搜索匹配装置,其特征在于,所述装置包括:
获取模块,用于获取待搜索的关键词以及所述关键词对应的事件图谱;
第一拓展模块,用于根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
第二拓展模块,用于根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
搜索结果获取模块,用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合,基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911311777.9A 2019-12-18 2019-12-18 数据搜索匹配方法、装置、计算机设备和存储介质 Pending CN111177405A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911311777.9A CN111177405A (zh) 2019-12-18 2019-12-18 数据搜索匹配方法、装置、计算机设备和存储介质
PCT/CN2020/105007 WO2021120627A1 (zh) 2019-12-18 2020-07-28 数据搜索匹配方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311777.9A CN111177405A (zh) 2019-12-18 2019-12-18 数据搜索匹配方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111177405A true CN111177405A (zh) 2020-05-19

Family

ID=70653924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311777.9A Pending CN111177405A (zh) 2019-12-18 2019-12-18 数据搜索匹配方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN111177405A (zh)
WO (1) WO2021120627A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768234A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN112052340A (zh) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
CN112149759A (zh) * 2020-10-26 2020-12-29 北京明略软件系统有限公司 一种事件图谱的匹配方法、装置、电子设备及存储介质
CN112559926A (zh) * 2020-12-22 2021-03-26 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112784025A (zh) * 2021-01-12 2021-05-11 北京明略软件系统有限公司 一种目标事件的确定方法和装置
WO2021120627A1 (zh) * 2019-12-18 2021-06-24 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN113590805A (zh) * 2021-07-26 2021-11-02 上海致景信息科技有限公司 基于知识图谱的纺织类商品名称的搜索方法及装置
CN114020643A (zh) * 2021-11-29 2022-02-08 中国银行股份有限公司 一种知识库测试方法及装置
CN115168661A (zh) * 2022-08-31 2022-10-11 深圳市一号互联科技有限公司 原生图数据处理方法、装置、设备及存储介质
CN116204568A (zh) * 2023-05-04 2023-06-02 华能信息技术有限公司 一种数据挖掘分析方法
CN117591539A (zh) * 2023-12-07 2024-02-23 中国长江电力股份有限公司 一种基于电力大数据的多数据整合运用一体化系统及方法
CN117591539B (zh) * 2023-12-07 2024-05-14 中国长江电力股份有限公司 一种基于电力大数据的多数据整合运用一体化系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126503B (zh) * 2016-07-12 2020-02-11 海信集团有限公司 业务领域定位方法及终端
CN106326211B (zh) * 2016-08-17 2019-09-20 海信集团有限公司 交互语句的关键词间距离的确定方法和装置
US10878192B2 (en) * 2017-01-06 2020-12-29 Microsoft Technology Licensing, Llc Contextual document recall
CN110209827B (zh) * 2018-02-07 2023-09-19 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021120627A1 (zh) * 2019-12-18 2021-06-24 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN111768234A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN111768234B (zh) * 2020-06-28 2023-12-19 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN112052340A (zh) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
CN112149759A (zh) * 2020-10-26 2020-12-29 北京明略软件系统有限公司 一种事件图谱的匹配方法、装置、电子设备及存储介质
CN112559926A (zh) * 2020-12-22 2021-03-26 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112559926B (zh) * 2020-12-22 2023-10-03 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112784025B (zh) * 2021-01-12 2023-08-18 青岛明略软件技术开发有限公司 一种目标事件的确定方法和装置
CN112784025A (zh) * 2021-01-12 2021-05-11 北京明略软件系统有限公司 一种目标事件的确定方法和装置
CN113590805A (zh) * 2021-07-26 2021-11-02 上海致景信息科技有限公司 基于知识图谱的纺织类商品名称的搜索方法及装置
CN114020643B (zh) * 2021-11-29 2023-01-20 中国银行股份有限公司 一种知识库测试方法及装置
CN114020643A (zh) * 2021-11-29 2022-02-08 中国银行股份有限公司 一种知识库测试方法及装置
CN115168661A (zh) * 2022-08-31 2022-10-11 深圳市一号互联科技有限公司 原生图数据处理方法、装置、设备及存储介质
CN115168661B (zh) * 2022-08-31 2022-12-02 深圳市一号互联科技有限公司 原生图数据处理方法、装置、设备及存储介质
CN116204568A (zh) * 2023-05-04 2023-06-02 华能信息技术有限公司 一种数据挖掘分析方法
CN116204568B (zh) * 2023-05-04 2023-10-03 华能信息技术有限公司 一种数据挖掘分析方法
CN117591539A (zh) * 2023-12-07 2024-02-23 中国长江电力股份有限公司 一种基于电力大数据的多数据整合运用一体化系统及方法
CN117591539B (zh) * 2023-12-07 2024-05-14 中国长江电力股份有限公司 一种基于电力大数据的多数据整合运用一体化系统及方法

Also Published As

Publication number Publication date
WO2021120627A1 (zh) 2021-06-24

Similar Documents

Publication Publication Date Title
CN111177405A (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
CN110765275A (zh) 搜索方法、装置、计算机设备和存储介质
CN112328762A (zh) 基于文本生成模型的问答语料生成方法和装置
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN111666370B (zh) 面向多源异构航天数据的语义索引方法和装置
US11709880B2 (en) Method of image searching based on artificial intelligence and apparatus for performing the same
CA3138556A1 (en) Apparatuses, storage medium and method of querying data based on vertical search
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
CN112231418A (zh) 电力标准知识图谱构建方法、装置、计算机设备和介质
CN112347340A (zh) 信息搜索方法、装置和计算机设备
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
Ahmed et al. Named entity recognition by using maximum entropy
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
Blanco et al. Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task.
Sharaff et al. Analysing fuzzy based approach for extractive text summarization
CN112035614A (zh) 测试集生成方法、装置、计算机设备和存储介质
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
Leopold et al. Refactoring of process model activity labels
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination