CN115687572A - 一种数据信息的检索方法、装置、设备及存储介质 - Google Patents
一种数据信息的检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115687572A CN115687572A CN202211349639.1A CN202211349639A CN115687572A CN 115687572 A CN115687572 A CN 115687572A CN 202211349639 A CN202211349639 A CN 202211349639A CN 115687572 A CN115687572 A CN 115687572A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- retrieval
- target
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据信息的检索方法、装置、设备及存储介质,适用于自然语言处理技术领域。所述方法包括:获取数据信息检索语句;将数据信息检索语句输入信息抽取模型,得到数据信息检索语句中的实体,以及实体的实体关系和实体的实体属性;根据实体和实体属性在数据库中进行关键词检索,得到关键词检索结果;根据实体和实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;将所述关键词检索结果和所述知识图谱检索结果进行联合展示。在利用信息抽取模型对自然语言进行抽取后,分别进行关键词检索和知识图谱检索能够基于语义和逻辑关系进行检索,使检索结果与问题更加匹配,进而准确地向用户反馈数据。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种数据信息的检索方法、装置、设备及存储介质方法及装置。
背景技术
近年来,数字化经济发展浪潮的出现给人们的生活带来了全新的改变。在海量信息时代,获取信息的方式、以及能获取的信息越来越多,然而在这些信息海洋中甄别和筛选实际所需要信息的同时还要过滤掉无用的信息,无意中增加了检索成本。
数据信息检索作为获取特定数据的重要工具,需要有更高的专业性,且针对用户的需求完成个性化和定制化的结果检索与推荐。但是,目前大部分检索系统都无法准确理解用户的检索需求,且检索准确度不高。
发明内容
有鉴于此,本申请实施例提供了一种数据信息的检索方法、装置、设备及存储介质,旨在满足用户的检索需求,提高检索结果的准确度。
第一方面,本申请实施例提供了一种数据信息的检索方法,所述方法包括:
获取数据信息检索语句;
将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性,所述信息抽取模型包括语义解析模块、编码模块和解码模块,所述语义解析模块用于解析数据信息检索语句得到动态词向量,所述编码模块用对所述动态词向量进行编码得到编码特征,所述解码模块用于对所述编码特征进行解码得到实体、所述实体关系和所述实体属性;
根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果;
根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;
将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
可选的,所述信息抽取模型的训练过程如下:
获取样本数据,所述样本数据包括半结构化数据、非结构化数据和结构化数据;
对所述样本数据进行数据预处理,得到目标数据,所述数据预处理包括人工标注和文档补标;
将所述目标数据输入待训练模型,得到所述待训练模型输出的目标实体、目标实体关系和目标实体属性,待训练模型包括语义解析模块、编码模块和解码模块;
判断所述目标实体、所述目标实体关系和所述目标实体属性是否满足预设条件;
若满足,则将所述待训练模型作为信息抽取模型;
若不满足,则对所述待训练模型进行调整,重新将所述目标数据输入所述待训练模型,直到所述目标实体、所述目标实体关系和所述目标实体属性满足预设条件,将所述待训练模型作为信息抽取模型。
可选的,所述对所述样本数据进行数据预处理,得到目标数据,包括:
对所述样本数据进行人工标注,得到初标注样本数据;
对所述初标注样本数据进行文档补标,得到补标注样本数据;
对所述补标注样本数据进行检测,判断所述补标注样本数据是否满足预设标准;
若满足,将所述补标注样本数据作为所述目标数据;
若不满足,则对所述补标注样本数据再进行文档补标,直到所述补标注样本数据满足所述预设标准,将所述补标注样本数据作为所述目标数据。
可选的,所述根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果,包括:
根据所述实体和所述实体属性在所述数据库中进行索引查询,得到查询结果列表,所述查询结果列表为包括至少两个查询结果的列表;
根据评分算法对所述查询结果列表中的各个查询结果进行评分,得到各个查询结果的分数;
根据所述各个查询结果的分数进行重新排序,得到关键词检索结果。
可选的,所述数据库的构建过程包括:
将所述半结构化数据和所述非结构化数据中抽取的目标实体与知识库中的实体进行实体链接;
将所述结构化数据中抽取的目标实体与所述知识库中的实体进行知识合并;
根据所述知识库构建所述数据库。
可选的,所述关键词检索使用分布式全文检索技术。
可选的,所述知识图谱检索使用Neo4j检索技术。
第二方面,本申请实施例提供了一种数据信息的检索装置,所述装置包括:
获取模块,用于获取数据信息检索语句;
信息抽取模块,用于将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性,所述信息抽取模型包括语义解析模块、编码模块和解码模块,所述语义解析模块用于解析数据信息检索语句得到动态词向量,所述编码模块用对所述动态词向量进行编码得到编码特征,所述解码模块用于对所述编码特征进行解码得到实体、所述实体关系和所述实体属性;
关键词检索模块,用于根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果;
知识图谱检索模块,用于根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;
展示模块,用于将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
可选的,所述信息抽取模型的训练过程如下:
获取单元,用于获取样本数据,所述样本数据包括半结构化数据、非结构化数据和结构化数据;
处理单元,用于对所述样本数据进行数据预处理,得到目标数据,所述数据预处理包括人工标注和文档补标;
输入单元,用于将所述目标数据输入待训练模型,得到所述待训练模型输出的目标实体、目标实体关系和目标实体属性,待训练模型包括语义解析模块、编码模块和解码模块;
判断单元,用于判断所述目标实体、所述目标实体关系和所述目标实体属性是否满足预设条件;若满足,则将所述待训练模型作为信息抽取模型;若不满足,则对所述待训练模型进行调整,重新将所述目标数据输入所述待训练模型,直到所述目标实体、所述目标实体关系和所述目标实体属性满足预设条件,将所述待训练模型作为信息抽取模型。
可选的,所述处理单元,具体用于对所述样本数据进行人工标注,得到初标注样本数据;对所述初标注样本数据进行文档补标,得到补标注样本数据;对所述补标注样本数据进行检测,判断所述补标注样本数据是否满足预设标准;若满足,将所述补标注样本数据作为所述目标数据;若不满足,则对所述补标注样本数据再进行文档补标,直到所述补标注样本数据满足所述预设标准,将所述补标注样本数据作为所述目标数据。
可选的,所述关键词检索模块,具体用于根据所述实体和所述实体属性在所述数据库中进行索引查询,得到查询结果列表,所述查询结果列表为包括至少两个查询结果的列表;根据评分算法对所述查询结果列表中的各个查询结果进行评分,得到各个查询结果的分数;根据所述各个查询结果的分数进行重新排序,得到关键词检索结果。
可选的,所述数据库的构建过程包括:
将所述半结构化数据和所述非结构化数据中抽取的目标实体与知识库中的实体进行实体链接;
将所述结构化数据中抽取的目标实体与所述知识库中的实体进行知识合并;
根据所述知识库构建所述数据库。
可选的,所述关键词检索使用分布式全文检索技术。
可选的,所述知识图谱检索使用Neo4j检索技术。
第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面中任一项所述的数据信息的检索方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面中任一项所述的数据信息的检索方法。
本申请实施例提供了一种数据信息的检索方法。在执行所述方法时,先获取数据信息检索语句;然后,将数据信息检索语句输入信息抽取模型,得到数据信息检索语句中的实体,以及实体的实体关系和实体的实体属性;进而根据实体和实体属性在数据库中进行关键词检索,得到关键词检索结果,根据实体和实体关系在数据库中进行知识图谱检索,得到知识图谱检索结果,最后,将关键词检索结果和知识图谱检索结果进行联合展示。这样,通过信息抽取模型能够准确地从数据信息检索语句中抽取实体、实体关系和实体属性,充分理解语义内容,然后分别进行关键词检索和知识图谱检索,基于语义理解以及逻辑判断进行检索,使检索结果与用户的问题更加匹配,提高检索结果的准确度。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据信息的检索方法的流程图;
图2为本申请实施例提供的一种信息抽取模型的示意图;
图3为本申请实施例提供的一种数据信息的检索的装置的结构示意图。
具体实施方式
数据信息检索作为获取特定数据的重要方式,不仅需要充分理解用户的问题,而且还需要保证检索结果的准确度。
目前,大多采用全文搜索引擎和目录搜索引擎。其中,全文搜索引擎是基于海量的网页数据构建的,集数据抓取、内容分析、建立索引和匹配查询于一体,但这种检索方式,对特定领域的语义解析不充分,无法满足用户的需求。而目录搜索引擎是对网站进行收集分类并存储,可按照分类目录对自然语言进行层层解析,但这种搜索方式无法保证检索结果的准确度。
针对上述技术问题,本申请提供一种数据信息的检索方法、装置、设备及存储介质。在获取到数据信息检索语句后,将数据信息检索语句输入信息抽取模型,利用信息抽取模型对数据信息检索语句进行解析,抽取得到实体、实体关系和实体属性;然后分别进行关键词检索和知识图谱检索,其中,关键词检索能够基于语义进行检索,知识图谱检索能够基于逻辑关系进行检索,从而使检索结果与用户需求更匹配,准确度更高。
显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1为本申请实施例提供的一种数据信息的检索方法的流程图,包括:
S101:获取数据信息检索语句。
数据信息检索语句为用户所输入的查询语句,是自然语言。具体可以通过搜索框获取用户输入的想要查询的内容。如:用户在搜索框中输入“散热器的型号”,即可通过搜索框获取到数据信息检索语句。还可以通过具有语音转换功能的设备或装置获取数据信息检索语句。如:用户说:“我想查询散热器的型号”,当获取到语音信息后,将语音信息转换为文字信息,即可获取数据信息检索语句。其他的获取方式在此不一一列举,具体可以根据实际情况选择,上述获取方法仅为示例,不对本申请的保护范围构成限定。
S102:将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性。
参见图2,图2为本申请实施例提供的一种信息抽取模型的示意图,信息抽取模型包括语义解析模块、编码模块和解码模块。其中,语义解析模块用于解析数据信息检索语句得到动态词向量,编码模块用对动态词向量进行编码得到编码特征,解码模块用于对编码特征进行解码得到实体、实体关系和实体属性。
在获取到数据信息检索语句后,将数据信息检索语句输入信息抽取模型进行抽取。语义解析模块通过对数据信息语句进行解析,得到对应的词,并对词进行词向量表示,得到动态词向量。具体可以使用BERT模型(Bidirectional Encoder Representationsfrom Transformer)进行解析。需要说明的是,动态词向量与传统模型输出的静态词向量模型相比,在中文语句解析中具有更大的优势,能够在不同语境中表达不同的语义。编码模块对动态词向量进行编码,得到对应的编码特征。具体可以使用BiLSTM模型(Bi-directionalLong Short-Term Memory)进行编码。通过解码模块对特征编码进行解码,得到最佳序列,即与数据信息检索语句对应的实体、实体关系和实体属性。
信息抽取模型的训练方法在下文中将详细说明。
S103:根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果。
根据实体及实体属性进行关键词检索,基于语义内容对数据库检索,得到对应的关键词检索结果。具体可以采用分布式全文检索技术。
在本申请提供的一种可行的实现方式中,所述根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果,包括:
根据所述实体和所述实体属性在所述数据库中进行索引查询,得到查询结果列表,所述查询结果列表为包括至少两个查询结果的列表;
根据评分算法对所述查询结果列表中的各个查询结果进行评分,得到各个查询结果的分数;
根据所述各个查询结果的分数进行重新排序,得到关键词检索结果。
利用实体和实体属性在数据库中进行索引查询得到至少两个查询结果,将查询结果以列表的形式进行表示,即为查询结果列表。具体的,可以利用实体、实体属性与数据库中数据的映射关系进行索引查询。对查询结果列表中的各个查询结果进行评分,具体可以根据各个结果出现次数、参考价值和内容长度进行加权评分,得到每个查询结果的分数。并将各个查询结果按照分数进行重新排序,得到关键词检索结果。以为客户有限推荐相关度较高的结果。
S104:根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果。
知识图谱检索结果为将检索结果以知识图谱的形式表示。根据实体及实体关系进行知识图谱检索,基于逻辑关系对数据库检索,得到对应的知识图谱检索结果。具体可以采用Neo4j技术。Neo4j技术能够支持对图形数据进行高效查询。
S105:将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
关键词检索结果一般以网页形式进行展现。知识图谱检索结果一般以图形的形式表示,包括实体关系画像、数据结果和与实体相关的其他实体的相关信息。通过将关键词检索结果和知识图谱检索结果进行联合展示,能够使用户更直观地了解到检索结果,方便用户查看。
本申请提供的一种数据信息的检索方法。在获取到数据信息检索语句后,将数据信息检索语句输入信息抽取模型,利用信息抽取模型对数据信息检索语句进行解析,抽取得到实体、实体关系和实体属性;然后分别进行关键词检索和知识图谱检索,其中,关键词检索能够基于语义进行检索,知识图谱检索能够基于逻辑关系进行检索,从而使检索结果与用户需求更匹配,准确度更高。
下面将对信息抽取模型的训练过程进行说明。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本申请实施例的全部实现方式。
步骤1:获取样本数据。
所述样本数据包括半结构化数据、非结构化数据和结构化数据。样本数据可以从开源数据库中获取,可以是专业领域的数据。
步骤2:对所述样本数据进行数据预处理,得到目标数据。
所述数据预处理包括人工标注和文档补标。人工标注为人工针对非结构数据文本进行标注;文档补标为对文本中的专业数据进行标注。以电力领域的数据为例,对样本数据进行人工标注和文档补标,人工针对非结构的数据文本进行标注,并且,由于电力领域数据的专业性以及数据的多样性,传统的标注工程师无法直接对文档数据进行理解,从而进行标注,针对数据文本还进行系统的文档补标,以确保数据标注的准确性。
在本申请提供的一种可行的实现方式中,所述对所述样本数据进行数据预处理,得到目标数据,包括:
对所述样本数据进行人工标注,得到初标注样本数据;
对所述初标注样本数据进行文档补标,得到补标注样本数据;
对所述补标注样本数据进行检测,判断所述补标注样本数据是否满足预设标准;
若满足,将所述补标注样本数据作为所述目标数据;
若不满足,则对所述补标注样本数据再进行文档补标,直到所述补标注样本数据满足所述预设标准,将所述补标注样本数据作为所述目标数据。
通过对样本数据进行人工标注,得到初标注样本数据,然后对初标注样本数据进行文档补标,得到补标注样本数据,并对补标注样本数据进行检测,判断是否满足预设标准。其中,预设标准可以为标注准确度大于阈值。当补标注样本数据满足预设标准时,直接将补标注样本数据作为目标数据。若补标注样本数据不满足预设标准时,则再次进行文档补标,直到补标注样本数据满足预设标准。通过上述数据预处理,可以提高对样本数据标注的准确度,进而提高信息抽取模型输出的结果的准确度。
步骤3:将所述目标数据输入待训练模型,得到所述待训练模型输出的目标实体、目标实体关系和目标实体属性。
待训练模型包括语义解析模块、编码模块和解码模块。在获取到目标数据后,将目标数据输入待训练模型进行训练。语义解析模块通过对目标数据进行解析,得到对应的词,并对词进行词向量表示,得到动态词向量。编码模块对动态词向量进行编码,得到对应的编码特征。通过解码模块对特征编码进行解码,输出目标实体、目标实体关系和目标实体属性。
步骤4:判断所述目标实体、所述目标实体关系和所述目标实体属性是否满足预设条件。
预设条件可以由技术人员根据实际情况进行设置。作为一种示例,预设条件为待训练模型输出的结果与标准结果之间的误差小于阈值。预设条件可以表示信息抽取模型输出结果准确度的最低要求。通过判断目标实体、目标实体关系和目标实体属性是否满足预设条件,以确定当前待训练模型输出结果的准确度是否满足最低要求。
步骤5:若满足,则将所述待训练模型作为信息抽取模型。
若待训练模型输出的结果满足预设条件,表明当前待训练模型信息抽取的准确度达到要求,可以将当前待训练模型作为信息抽取模型。
步骤6:若不满足,则对所述待训练模型进行调整,返回步骤2,直到所述目标实体、所述目标实体关系和所述目标实体属性满足预设条件,将所述待训练模型作为信息抽取模型。
若待训练模型输出的结果不满足预设条件,则表明当前待训练模型信息抽取的准确度不符合要求,根据输出结果对待训练模型进行调整,重新执行步骤2,直到待训练模型输出的结果满足预设条件,将待训练模型作为信息抽取模型。
通过上述训练方式得到信息抽取模型,对数据信息检索语句抽取输出的结果准确度高,进而能够提高检索的准确度。
另外,本申请提供的样本数据中包括结构化数据、半结构化数据和非结构化数据,针对样本数据还提供了一种构建数据库的实施例,具体如下:
将所述半结构化数据和所述非结构化数据中抽取的目标实体与知识库中的实体进行实体链接;
将所述结构化数据中抽取的目标实体与所述知识库中的实体进行知识合并;
根据所述知识库构建所述数据库。
在本申请实施例中,可以采用知识融合的方法构建数据库,其中,知识融合包括实体链接和知识合并。样本数据中包括结构化数据、半结构化数据和非结构化数据。将半结构化数据和非结构化数据中抽取的目标实体与知识库中的实体进行实体链接,建立半结构化数据和非结构化数据,与知识库的对应关系;将结构化数据中抽取的目标实体与知识库中的实体进行知识合并,建立结构化数据与知识库的对应关系。至此,已经将非结构化数据、半结构化数据和结构化数据,与知识库建立对应的关系。根据知识库建立数据库,即可得到与样本数据对应的数据库。
通过上述数据库的构建方法,建立与样本数据对应的数据库,同一结构格式,能够提高在数据库中检索的速度。
以上为本申请实施例提供信息数据的检索方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
参见图3所示的信息数据的检索装置300的结构示意图,该装置300包括获取模块301、信息抽取模块302、关键词检索模块303、知识图谱检索模块304和展示模块305。
获取模块301,用于获取数据信息检索语句;
信息抽取模块302,用于将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性,所述信息抽取模型包括语义解析模块、编码模块和解码模块,所述语义解析模块用于解析数据信息检索语句得到动态词向量,所述编码模块用对所述动态词向量进行编码得到编码特征,所述解码模块用于对所述编码特征进行解码得到实体、所述实体关系和所述实体属性;
关键词检索模块303,用于根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果;
知识图谱检索模块304,用于根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;
展示模块305,用于将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
在本申请提供的一种可行的实现方式中,所述信息抽取模型的训练过程如下:
获取单元,用于获取样本数据,所述样本数据包括半结构化数据、非结构化数据和结构化数据;
处理单元,用于对所述样本数据进行数据预处理,得到目标数据,所述数据预处理包括人工标注和文档补标;
输入单元,用于将所述目标数据输入待训练模型,得到所述待训练模型输出的目标实体、目标实体关系和目标实体属性,待训练模型包括语义解析模块、编码模块和解码模块;
判断单元,用于判断所述目标实体、所述目标实体关系和所述目标实体属性是否满足预设条件;若满足,则将所述待训练模型作为信息抽取模型;若不满足,则对所述待训练模型进行调整,重新将所述目标数据输入所述待训练模型,直到所述目标实体、所述目标实体关系和所述目标实体属性满足预设条件,将所述待训练模型作为信息抽取模型。
在本申请提供的一种可行的实现方式中,所述处理单元,具体用于对所述样本数据进行人工标注,得到初标注样本数据;对所述初标注样本数据进行文档补标,得到补标注样本数据;对所述补标注样本数据进行检测,判断所述补标注样本数据是否满足预设标准;若满足,将所述补标注样本数据作为所述目标数据;若不满足,则对所述补标注样本数据再进行文档补标,直到所述补标注样本数据满足所述预设标准,将所述补标注样本数据作为所述目标数据。
在本申请提供的一种可行的实现方式中,所述关键词检索模块,具体用于根据所述实体和所述实体属性在所述数据库中进行索引查询,得到查询结果列表,所述查询结果列表为包括至少两个查询结果的列表;根据评分算法对所述查询结果列表中的各个查询结果进行评分,得到各个查询结果的分数;根据所述各个查询结果的分数进行重新排序,得到关键词检索结果。
在本申请提供的一种可行的实现方式中,所述数据库的构建过程包括:
将所述半结构化数据和所述非结构化数据中抽取的目标实体与知识库中的实体进行实体链接;
将所述结构化数据中抽取的目标实体与所述知识库中的实体进行知识合并;
根据所述知识库构建所述数据库。
在本申请提供的一种可行的实现方式中,所述关键词检索使用分布式全文检索技术。
在本申请提供的一种可行的实现方式中,所述知识图谱检索使用Neo4j检索技术。
本申请提供的一种数据信息的检索装置。在获取到数据信息检索语句后,将数据信息检索语句输入信息抽取模型,利用信息抽取模型对数据信息检索语句进行解析,抽取得到实体、实体关系和实体属性;然后分别进行关键词检索和知识图谱检索,其中,关键词检索能够基于语义进行检索,知识图谱检索能够基于逻辑关系进行检索,从而使检索结果与用户需求更匹配,准确度更高。
本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的数据信息的检索方法。
所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的数据信息的检索方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。
Claims (10)
1.一种数据信息的检索方法,其特征在于,所述方法包括:
获取数据信息检索语句;
将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性,所述信息抽取模型包括语义解析模块、编码模块和解码模块,所述语义解析模块用于解析数据信息检索语句得到动态词向量,所述编码模块用对所述动态词向量进行编码得到编码特征,所述解码模块用于对所述编码特征进行解码得到实体、所述实体关系和所述实体属性;
根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果;
根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;
将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
2.根据权利要求1所述的方法,其特征在于,所述信息抽取模型的训练过程如下:
获取样本数据,所述样本数据包括半结构化数据、非结构化数据和结构化数据;
对所述样本数据进行数据预处理,得到目标数据,所述数据预处理包括人工标注和文档补标;
将所述目标数据输入待训练模型,得到所述待训练模型输出的目标实体、目标实体关系和目标实体属性,待训练模型包括语义解析模块、编码模块和解码模块;
判断所述目标实体、所述目标实体关系和所述目标实体属性是否满足预设条件;
若满足,则将所述待训练模型作为信息抽取模型;
若不满足,则对所述待训练模型进行调整,重新将所述目标数据输入所述待训练模型,直到所述目标实体、所述目标实体关系和所述目标实体属性满足预设条件,将所述待训练模型作为信息抽取模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本数据进行数据预处理,得到目标数据,包括:
对所述样本数据进行人工标注,得到初标注样本数据;
对所述初标注样本数据进行文档补标,得到补标注样本数据;
对所述补标注样本数据进行检测,判断所述补标注样本数据是否满足预设标准;
若满足,将所述补标注样本数据作为所述目标数据;
若不满足,则对所述补标注样本数据再进行文档补标,直到所述补标注样本数据满足所述预设标准,将所述补标注样本数据作为所述目标数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果,包括:
根据所述实体和所述实体属性在所述数据库中进行索引查询,得到查询结果列表,所述查询结果列表为包括至少两个查询结果的列表;
根据评分算法对所述查询结果列表中的各个查询结果进行评分,得到各个查询结果的分数;
根据所述各个查询结果的分数进行重新排序,得到关键词检索结果。
5.根据权利要求2所述的方法,其特征在于,所述数据库的构建过程包括:
将所述半结构化数据和所述非结构化数据中抽取的目标实体与知识库中的实体进行实体链接;
将所述结构化数据中抽取的目标实体与所述知识库中的实体进行知识合并;
根据所述知识库构建所述数据库。
6.根据权利要求1所述的方法,其特征在于,所述关键词检索使用分布式全文检索技术。
7.根据权利要求1所述的方法,其特征在于,所述知识图谱检索使用Neo4j检索技术。
8.一种数据信息的检索装置,其特征在于,所述装置包括:
获取模块,用于获取数据信息检索语句;
信息抽取模块,用于将所述数据信息检索语句输入信息抽取模型,得到所述数据信息检索语句中的实体,以及所述实体的实体关系和所述实体的实体属性,所述信息抽取模型包括语义解析模块、编码模块和解码模块,所述语义解析模块用于解析数据信息检索语句得到动态词向量,所述编码模块用对所述动态词向量进行编码得到编码特征,所述解码模块用于对所述编码特征进行解码得到实体、所述实体关系和所述实体属性;
关键词检索模块,用于根据所述实体和所述实体属性在数据库中进行关键词检索,得到关键词检索结果;
知识图谱检索模块,用于根据所述实体和所述实体关系在所述数据库中进行知识图谱检索,得到知识图谱检索结果;
展示模块,用于将所述关键词检索结果和所述知识图谱检索结果进行联合展示。
9.一种计算机设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的数据信息的检索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的数据信息的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349639.1A CN115687572A (zh) | 2022-10-31 | 2022-10-31 | 一种数据信息的检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349639.1A CN115687572A (zh) | 2022-10-31 | 2022-10-31 | 一种数据信息的检索方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687572A true CN115687572A (zh) | 2023-02-03 |
Family
ID=85045462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211349639.1A Pending CN115687572A (zh) | 2022-10-31 | 2022-10-31 | 一种数据信息的检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687572A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628628A (zh) * | 2023-04-17 | 2023-08-22 | 华北科技学院(中国煤矿安全技术培训中心) | 基于检索信息的用户信息素养分析方法、系统及存储介质 |
CN117112806A (zh) * | 2023-10-12 | 2023-11-24 | 北京大学深圳研究生院 | 一种基于知识图谱的信息结构化方法和装置 |
CN117708247A (zh) * | 2023-12-12 | 2024-03-15 | 南京信息工程大学 | 一种清算数据逻辑关系确定方法、系统、存储介质及设备 |
-
2022
- 2022-10-31 CN CN202211349639.1A patent/CN115687572A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628628A (zh) * | 2023-04-17 | 2023-08-22 | 华北科技学院(中国煤矿安全技术培训中心) | 基于检索信息的用户信息素养分析方法、系统及存储介质 |
CN116628628B (zh) * | 2023-04-17 | 2024-01-30 | 华北科技学院(中国煤矿安全技术培训中心) | 基于检索信息的用户信息素养分析方法、系统及存储介质 |
CN117112806A (zh) * | 2023-10-12 | 2023-11-24 | 北京大学深圳研究生院 | 一种基于知识图谱的信息结构化方法和装置 |
CN117112806B (zh) * | 2023-10-12 | 2024-01-26 | 北京大学深圳研究生院 | 一种基于知识图谱的信息结构化方法和装置 |
CN117708247A (zh) * | 2023-12-12 | 2024-03-15 | 南京信息工程大学 | 一种清算数据逻辑关系确定方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684448B (zh) | 一种智能问答方法 | |
CN106649786B (zh) | 基于深度问答的答案检索方法及装置 | |
CN107451153B (zh) | 输出结构化查询语句的方法和装置 | |
CN107704453B (zh) | 一种文字语义分析方法、文字语义分析终端及存储介质 | |
CN115687572A (zh) | 一种数据信息的检索方法、装置、设备及存储介质 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
US8868556B2 (en) | Method and device for tagging a document | |
WO2020233386A1 (zh) | 基于aiml的智能问答方法、装置、计算机设备及存储介质 | |
CN101887414A (zh) | 对包含图像符号的文本消息传达的评价自动打分的服务器 | |
US20160071511A1 (en) | Method and apparatus of smart text reader for converting web page through text-to-speech | |
CN111176650B (zh) | 解析器生成方法、检索方法、服务器及存储介质 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN108446316A (zh) | 联想词的推荐方法、装置、电子设备及存储介质 | |
CN111160007B (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
CN114495143B (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
CN111639156B (zh) | 一种基于层级标签的查询方法、装置,设备及存储介质 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
KR20040034861A (ko) | 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법 | |
CN116631400A (zh) | 语音转文本方法和装置、计算机设备及存储介质 | |
CN111046168A (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
CN112199487B (zh) | 一种基于知识图谱的电影问答查询系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |