CN111639194A - 基于句向量的知识图谱查询方法及系统 - Google Patents
基于句向量的知识图谱查询方法及系统 Download PDFInfo
- Publication number
- CN111639194A CN111639194A CN202010476589.8A CN202010476589A CN111639194A CN 111639194 A CN111639194 A CN 111639194A CN 202010476589 A CN202010476589 A CN 202010476589A CN 111639194 A CN111639194 A CN 111639194A
- Authority
- CN
- China
- Prior art keywords
- sentence vector
- training
- model
- generate
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于句向量的知识图谱查询方法、介质、设备及系统,其中方法包括:获取训练语料,并根据训练语料训练得到句向量模型;获取知识图谱,并将知识图谱中的实体或实体属性输入到句向量模型,以生成实体或实体属性对应的第一句向量值;根据第一句向量值训练得到邻域排序模型,以便根据邻域排序模型计算句向量距离权重;将待查询信息输入到句向量模型,以生成待查询信息对应的第二句向量值;根据第二句向量值和句向量距离权重计算第二句向量值和第一句向量值之间的距离,并根据距离确定待查询信息对应的查询结果;能够对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
Description
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于句向量的知识图谱查询方法、一种计算机可读存储介质、一种计算机设备以及一种基于句向量的知识图谱查询系统。
背景技术
相关技术中,在度量待查询实体与知识图谱中实体或实体属性的距离时;多采用关键词匹配、模糊或正则匹配的方式;然而,扩展图谱实体或实体属性关键词的方法存在很大的人为主观性和局限性,通常难以完全准确地枚举;使得最终查询结果准确度较低;并且,上述方式难以结合实体的上下文语境,存在多义性,需要对查询结果进行二次处理,而这种处理流程将导致查询结果的准确性被进一步的降低。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于句向量的知识图谱查询方法,能够对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种基于句向量的知识图谱查询系统。
为达到上述目的,本发明第一方面实施例提出了一种基于句向量的知识图谱查询方法,包括以下步骤:获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果。
根据本发明实施例的基于句向量的知识图谱查询方法,首先,获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;接着,获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;然后,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;接着,获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;然后,根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果;从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
另外,根据本发明上述实施例提出的基于句向量的知识图谱查询方法还可以具有如下附加的技术特征:
可选地,根据所述训练语料进行句向量模型的训练,以生成句向量模型,包括:对所述训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;将所述词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据所述词向量进行句向量模型的训练,以生成句向量模型。
可选地,在生成所述实体或实体属性对应的第一句向量值之后,还包括:获取行业热词信息,并将所述行业热词信息输入到句向量模型,以生成所述行业热词信息对应的第三句向量值,以及根据所述第三句向量值对所述邻域排序模型进行更新。
可选地,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:对所述第一句向量值进行标记,以生成训练数据,其中,所述训练数据包括目标实体句向量值和查询结果句向量值;对所述训练数据进行划分,以生成训练集合和验证集合;根据所述训练集合进行邻域排序模型的训练,并根据所述验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于句向量的知识图谱查询程序,该基于句向量的知识图谱查询程序被处理器执行时实现如上述的基于句向量的知识图谱查询方法。
根据本发明实施例的计算机可读存储介质,通过存储基于句向量的知识图谱查询程序,以使得处理器在执行该基于句向量的知识图谱查询程序时,实现如上述的基于句向量的知识图谱查询方法,从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于句向量的知识图谱查询方法。
根据本发明实施例的计算机设备,通过存储器对基于句向量的知识图谱查询程序进行存储,以使得处理器在执行该基于句向量的知识图谱查询程序时,实现如上述的基于句向量的知识图谱查询方法,从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为达到上述目的,本发明第四方面实施例提出了一种基于句向量的知识图谱查询系统,包括第一训练模块,所述第一训练模块用于获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;第一获取模块,所述第一获取模块用于获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;第二训练模块,所述第二训练模块用于根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;第二获取模块,所述第二获取模块用于获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;计算模块,所述计算模块用于根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果。
根据本发明实施例的基于句向量的知识图谱查询系统,通过设置第一训练模块用于获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;获取模块用于获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;第二训练模块用于根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;第二获取模块用于获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;计算模块用于根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果;从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
另外,根据本发明上述实施例提出的基于句向量的知识图谱查询系统还可以具有如下附加的技术特征:
可选地,根据所述训练语料进行句向量模型的训练,以生成句向量模型,包括:对所述训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;将所述词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据所述词向量进行句向量模型的训练,以生成句向量模型。
可选地,还包括:更新模块,所述更新模块用于获取行业热词信息,并将所述行业热词信息输入到句向量模型,以生成所述行业热词信息对应的第三句向量值,以及根据所述第三句向量值对所述邻域排序模型进行更新。
可选地,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:对所述第一句向量值进行标记,以生成训练数据,其中,所述训练数据包括目标实体句向量值和查询结果句向量值;对所述训练数据进行划分,以生成训练集合和验证集合;根据所述训练集合进行邻域排序模型的训练,并根据所述验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
附图说明
图1为根据本发明实施例的基于句向量的知识图谱查询方法的流程示意图;
图2为根据本发明实施例的基于句向量的知识图谱查询系统的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,待查询实体与知识图谱中实体或实体属性的距离度量方式存在很大的人为主观性和局限性,查询结果准确度较低;根据本发明实施例的基于句向量的知识图谱查询方法,首先,获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;接着,获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;然后,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;接着,获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;然后,根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果;从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的基于句向量的知识图谱查询方法的流程示意图,如图1所示,该基于句向量的知识图谱查询方法包括以下步骤:
S101,获取训练语料,并根据训练语料进行句向量模型的训练,以生成句向量模型。
也就是说,对用于训练的文本语料进行获取,然后,根据获取到的文本语料生成训练语料,并根据训练语料进行句向量模型的训练,以生成句向量模型;从而,后续可以将实体输入到句向量模型中,以计算实体所对应的句向量值。
其中,根据训练语料进行句向量模型的训练,以生成句向量模型的方式可以有多种。
作为一种示例,根据训练语料进行句向量模型的训练,以生成句向量模型,包括:
对训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;
将词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据词向量进行句向量模型的训练,以生成句向量模型。
即言,首先,对训练语料进行预处理(例如,去除训练语料中多余的空格、噪声等);从而,可以提取得到训练语料中的多个语句,以形成训练语句,然后,对每个训练语句进行拆分(例如,采用Skip-Gram对训练语句进行拆分,以生成对应训练语句的词对);接着,将每个词对输入到词嵌入模型,以通过词嵌入模型计算每个词对所对应的词向量;然后,根据获得到的词向量进行句向量模型的训练,以生成句向量模型。
S102,获取知识图谱,并将知识图谱中的实体或实体属性输入到句向量模型,以生成实体或实体属性对应的第一句向量值。
也就是说,获取已有知识图谱,该知识图谱中包含多个实体以及实体所对应的实体属性;将每个实体或每个实体属性输入到句向量模型中,以通过句向量模型计算每个实体对应的第一句向量值或实体属性对应的第一句向量值。
在一些实施例中,在生成实体或实体属性对应的第一句向量值之后,还包括:获取行业热词信息,并将行业热词信息输入到句向量模型,以生成行业热词信息对应的第三句向量值,以及根据第三句向量值对邻域排序模型进行更新。
可以理解,热词在不同行业往往代表了不同的含义;并且,热词会随着时间的推移不断地更新,因此,通过获取行业热词信息,并通过句向量模型计算行业热词信息所对应的第三句向量值,以及根据第三句向量值来更新邻域排序模型;可以保证本发明实施例提出的基于句向量的知识图谱查询方法对于知识图谱查询结果的准确性。
S103,根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据邻域排序模型计算句向量距离权重。
即言,根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,该邻域排序模型用以计算句向量距离权重;该权重用以定义句向量值中每一维度特征所对应的权重值,从而,可以根据每一维度特征所对应的权重值计算每两个句向量值之间的距离。
其中,根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型的方式可以有多种。
作为一种示例,根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:对第一句向量值进行标记,以生成训练数据,其中,训练数据包括目标实体句向量值和查询结果句向量值;对训练数据进行划分,以生成训练集合和验证集合;根据训练集合进行邻域排序模型的训练,并根据验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
作为另一种示例,首先,通过Ev表征基于句向量模型得到的所有第一句向量;然后,通过标记得到训练集合Tr,其中,Tr由多组{tv,sv}值构成,tv表示目标实体句向量值,sv表示查询结果句向量值;接着,以同样的方式建立验证集合Vr;接着,根据Tr进行邻域排序模型的训练,以得到邻域排序模型R,并通过Vr对R进行拟合;接着,应用的目标实体取得一个小的卷积窗口内的实体进行加权计算,通过对每个卷积窗口实体的标记Tr,基于深度学习MLP(多层感知器)来训练R,以得出R中相邻知识图谱实体的加权权重Wi;然后,将Wi固化后得到邻域排序模型。
S104,获取待查询信息,并将待查询信息输入到句向量模型,以生成待查询信息对应的第二句向量值。
S105,根据第二句向量值和句向量距离权重计算第二句向量值和第一句向量值之间的距离,并根据距离确定待查询信息对应的查询结果。
即言,当用户需要进行查询时,获取用户输入的待查询信息,并将该待查询信息输入到句向量模型,以通过句向量模型计算该待查询信息所对应的第二句向量值;然后,根据邻域排序模型输出的句向量距离权重,计算第二句向量值与第一句向量值之间的距离,以便根据两者之间的距离确定待查询信息对应的查询结果(即对应的实体或实体属性)。
综上所述,根据本发明实施例的基于句向量的知识图谱查询方法,首先,获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;接着,获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;然后,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;接着,获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;然后,根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果;从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有基于句向量的知识图谱查询程序,该基于句向量的知识图谱查询程序被处理器执行时实现如上述的基于句向量的知识图谱查询方法。
根据本发明实施例的计算机可读存储介质,通过存储基于句向量的知识图谱查询程序,以使得处理器在执行该基于句向量的知识图谱查询程序时,实现如上述的基于句向量的知识图谱查询方法,从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的基于句向量的知识图谱查询方法。
根据本发明实施例的计算机设备,通过存储器对基于句向量的知识图谱查询程序进行存储,以使得处理器在执行该基于句向量的知识图谱查询程序时,实现如上述的基于句向量的知识图谱查询方法,从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
为了实现上述实施例,本发明实施例提出了一种基于句向量的知识图谱查询系统,如图2所示,该基于句向量的知识图谱查询系统包括:第一训练模块10、第一获取模块20、第二训练模块30、第二获取模块40、计算模块50。
其中,第一训练模块10用于获取训练语料,并根据训练语料进行句向量模型的训练,以生成句向量模型;
第一获取模块20用于获取知识图谱,并将知识图谱中的实体或实体属性输入到句向量模型,以生成实体或实体属性对应的第一句向量值;
第二训练模块30用于根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据邻域排序模型计算句向量距离权重;
第二获取模块40用于获取待查询信息,并将待查询信息输入到句向量模型,以生成待查询信息对应的第二句向量值;
计算模块50用于根据第二句向量值和句向量距离权重计算第二句向量值和第一句向量值之间的距离,并根据距离确定待查询信息对应的查询结果。
在一些实施例中,根据训练语料进行句向量模型的训练,以生成句向量模型,包括:对训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;将词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据词向量进行句向量模型的训练,以生成句向量模型。
在一些实施例中,还包括:更新模块(图中未示出),该更新模块用于获取行业热词信息,并将行业热词信息输入到句向量模型,以生成行业热词信息对应的第三句向量值,以及根据第三句向量值对邻域排序模型进行更新。
在一些实施例中,根据第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:
对第一句向量值进行标记,以生成训练数据,其中,训练数据包括目标实体句向量值和查询结果句向量值;
对训练数据进行划分,以生成训练集合和验证集合;
根据训练集合进行邻域排序模型的训练,并根据验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
需要说明的是,上述关于图1中基于句向量的知识图谱查询方法的描述同样适用于该基于句向量的知识图谱查询系统,在此不做赘述。
综上所述,根据本发明实施例的基于句向量的知识图谱查询系统,通过设置第一训练模块用于获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;获取模块用于获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;第二训练模块用于根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;第二获取模块用于获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;计算模块用于根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果;从而对待查询实体与知识图谱中实体之间的距离进行有效度量,提高知识图谱查询的鲁棒性和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于句向量的知识图谱查询方法,其特征在于,包括以下步骤:
获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;
获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;
根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;
获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;
根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果。
2.如权利要求1所述的基于句向量的知识图谱查询方法,其特征在于,根据所述训练语料进行句向量模型的训练,以生成句向量模型,包括:
对所述训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;
将所述词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据所述词向量进行句向量模型的训练,以生成句向量模型。
3.如权利要求1所述的基于句向量的知识图谱查询方法,其特征在于,在生成所述实体或实体属性对应的第一句向量值之后,还包括:
获取行业热词信息,并将所述行业热词信息输入到句向量模型,以生成所述行业热词信息对应的第三句向量值,以及根据所述第三句向量值对所述邻域排序模型进行更新。
4.如权利要求1所述的基于句向量的知识图谱查询方法,其特征在于,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:
对所述第一句向量值进行标记,以生成训练数据,其中,所述训练数据包括目标实体句向量值和查询结果句向量值;
对所述训练数据进行划分,以生成训练集合和验证集合;
根据所述训练集合进行邻域排序模型的训练,并根据所述验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
5.一种计算机可读存储介质,其特征在于,其上存储有基于句向量的知识图谱查询程序,该基于句向量的知识图谱查询程序被处理器执行时实现如权利要求1-4中任一项所述的基于句向量的知识图谱查询方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-4中任一项所述的基于句向量的知识图谱查询方法。
7.一种基于句向量的知识图谱查询系统,其特征在于,包括:
第一训练模块,所述第一训练模块用于获取训练语料,并根据所述训练语料进行句向量模型的训练,以生成句向量模型;
第一获取模块,所述第一获取模块用于获取知识图谱,并将所述知识图谱中的实体或实体属性输入到所述句向量模型,以生成所述实体或实体属性对应的第一句向量值;
第二训练模块,所述第二训练模块用于根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,以便根据所述邻域排序模型计算句向量距离权重;
第二获取模块,所述第二获取模块用于获取待查询信息,并将所述待查询信息输入到所述句向量模型,以生成所述待查询信息对应的第二句向量值;
计算模块,所述计算模块用于根据所述第二句向量值和所述句向量距离权重计算第二句向量值和所述第一句向量值之间的距离,并根据所述距离确定所述待查询信息对应的查询结果。
8.如权利要求7所述的基于句向量的知识图谱查询系统,其特征在于,根据所述训练语料进行句向量模型的训练,以生成句向量模型,包括:
对所述训练语料进行预处理,以生成多个训练语句,并对每个训练语句进行拆分,以生成每个训练语句对应的词对;
将所述词对输入到词嵌入模型,以计算每个词对对应的词向量,并根据所述词向量进行句向量模型的训练,以生成句向量模型。
9.如权利要求7所述的基于句向量的知识图谱查询系统,其特征在于,还包括:更新模块,所述更新模块用于获取行业热词信息,并将所述行业热词信息输入到句向量模型,以生成所述行业热词信息对应的第三句向量值,以及根据所述第三句向量值对所述邻域排序模型进行更新。
10.如权利要求7所述的基于句向量的知识图谱查询系统,其特征在于,根据所述第一句向量值进行邻域排序模型的训练,以生成邻域排序模型,包括:
对所述第一句向量值进行标记,以生成训练数据,其中,所述训练数据包括目标实体句向量值和查询结果句向量值;
对所述训练数据进行划分,以生成训练集合和验证集合;
根据所述训练集合进行邻域排序模型的训练,并根据所述验证集合对训练得到的邻域排序模型进行拟合,以生成邻域排序模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476589.8A CN111639194B (zh) | 2020-05-29 | 2020-05-29 | 基于句向量的知识图谱查询方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010476589.8A CN111639194B (zh) | 2020-05-29 | 2020-05-29 | 基于句向量的知识图谱查询方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639194A true CN111639194A (zh) | 2020-09-08 |
CN111639194B CN111639194B (zh) | 2023-08-08 |
Family
ID=72330356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010476589.8A Active CN111639194B (zh) | 2020-05-29 | 2020-05-29 | 基于句向量的知识图谱查询方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639194B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
CN116028650A (zh) * | 2023-03-27 | 2023-04-28 | 北京国华众联科技有限公司 | 知识图谱实体匹配方法和装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275122A1 (en) * | 2010-12-07 | 2013-10-17 | Iscilab Corporation | Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
CN109918491A (zh) * | 2019-03-12 | 2019-06-21 | 焦点科技股份有限公司 | 一种基于知识库自学习的智能客服问句匹配方法 |
CN110555093A (zh) * | 2018-03-30 | 2019-12-10 | 华为技术有限公司 | 文本匹配方法、装置及设备 |
CN110598078A (zh) * | 2019-09-11 | 2019-12-20 | 京东数字科技控股有限公司 | 数据检索方法及装置、计算机可读存储介质、电子设备 |
CN110825859A (zh) * | 2019-10-21 | 2020-02-21 | 拉扎斯网络科技(上海)有限公司 | 检索方法、装置、可读存储介质和电子设备 |
CN111104799A (zh) * | 2019-10-16 | 2020-05-05 | 中国平安人寿保险股份有限公司 | 文本信息表征方法、系统及计算机设备、存储介质 |
-
2020
- 2020-05-29 CN CN202010476589.8A patent/CN111639194B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275122A1 (en) * | 2010-12-07 | 2013-10-17 | Iscilab Corporation | Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
CN110555093A (zh) * | 2018-03-30 | 2019-12-10 | 华为技术有限公司 | 文本匹配方法、装置及设备 |
CN109918491A (zh) * | 2019-03-12 | 2019-06-21 | 焦点科技股份有限公司 | 一种基于知识库自学习的智能客服问句匹配方法 |
CN110598078A (zh) * | 2019-09-11 | 2019-12-20 | 京东数字科技控股有限公司 | 数据检索方法及装置、计算机可读存储介质、电子设备 |
CN111104799A (zh) * | 2019-10-16 | 2020-05-05 | 中国平安人寿保险股份有限公司 | 文本信息表征方法、系统及计算机设备、存储介质 |
CN110825859A (zh) * | 2019-10-21 | 2020-02-21 | 拉扎斯网络科技(上海)有限公司 | 检索方法、装置、可读存储介质和电子设备 |
Non-Patent Citations (3)
Title |
---|
RUN-ZE WANG等: "Knowledge Base Question Answering with Attentive for Question Representation", 《IEEE ACCESS》, vol. 7 * |
訚实松: "基于知识图谱的问答系统" * |
陈伟: "知识图谱的知识获取相关技术研究与开发", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
CN116028650A (zh) * | 2023-03-27 | 2023-04-28 | 北京国华众联科技有限公司 | 知识图谱实体匹配方法和装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111639194B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509411B (zh) | 语义分析方法和装置 | |
Alinezhad et al. | Sensitivity analysis of TOPSIS technique: the results of change in the weight of one attribute on the final ranking of alternatives | |
JP6553664B2 (ja) | モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム | |
CN107967254A (zh) | 知识点预测方法及装置、存储介质、电子设备 | |
CN110111885B (zh) | 属性预测方法、装置、计算机设备及计算机可读存储介质 | |
CN114387201B (zh) | 一种基于深度学习和强化学习细胞病理图像辅助诊断系统 | |
CN113176022B (zh) | 一种分段式神经网络压力传感器压力检测方法及系统 | |
CN103366375B (zh) | 基于动态有向图的图像集配准方法 | |
CN111639194B (zh) | 基于句向量的知识图谱查询方法及系统 | |
CN105117398A (zh) | 一种基于众包的软件开发问题自动应答方法 | |
US20100235151A1 (en) | Feature parameter candidate generation apparatus and feature parameter candidate generation method | |
CN109615080B (zh) | 无监督模型评估方法、装置、服务器及可读存储介质 | |
WO2020170593A1 (ja) | 情報処理装置及び情報処理方法 | |
CN117993306B (zh) | 一种对管网仿真参数进行率定的方法、系统和介质 | |
CN107578448B (zh) | 基于cnn的无标定曲面所包含拼接曲面个数识别方法 | |
CN114139634A (zh) | 一种基于成对标签权重的多标签特征选择方法 | |
Ridhovan et al. | Disease detection in banana leaf plants using densenet and inception method | |
CN104391828B (zh) | 确定短文本相似度的方法和装置 | |
CN111008916A (zh) | 知识点掌握推断方法、系统、计算机设备及存储介质 | |
CN116822260A (zh) | 一种基于数值转换的眼球仿真方法、电子设备及存储介质 | |
CN110070120B (zh) | 基于判别采样策略的深度度量学习方法及系统 | |
CN104850624B (zh) | 近重复记录的相似度评估方法 | |
CN115687854A (zh) | 高精度土样参数测量方法及其系统 | |
CN116307118A (zh) | 一种鸡胸肌的重量预测方法、系统及存储介质 | |
CN116244428A (zh) | 用于医学术语的标准词推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |