CN112732883A - 基于知识图谱的模糊匹配方法、装置和计算机设备 - Google Patents
基于知识图谱的模糊匹配方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN112732883A CN112732883A CN202011633652.0A CN202011633652A CN112732883A CN 112732883 A CN112732883 A CN 112732883A CN 202011633652 A CN202011633652 A CN 202011633652A CN 112732883 A CN112732883 A CN 112732883A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- node
- knowledge graph
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 141
- 238000012896 Statistical algorithm Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 28
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及知识图谱技术领域,提供了一种基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质。所述方法包括:接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本;根据知识图谱节点文本,查询已构建的知识图谱,得到与知识图谱节点文本对应的相似文本集合;根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;根据第一检索得分以及第二检索得分,得到检索结果。采用本方法能够提高模糊匹配准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了模糊匹配技术,模糊匹配技术是指根据查询关键字,返回与查询关键字相关的描述。比如,常见的模糊匹配方法有搜索引擎根据查询关键字返回相关的网页链接。
传统技术中,在进行模糊匹配时,常采用的方法为基于统计的倒排索引以及基于神经网络的计算。其中,基于统计的倒排索引的查询方式为:将文本做分词处理后,通过关键字做倒排索引,根据倒排索引将文本数据库分桶或者做哈希运算。基于神经网络的计算的查询方式为:通过人工或者半人工标注的方式准备训练语料,监督训练一个相似度模型,通过该模型可以输入一个文本,输出一个隐藏向量,或者输入两个文本,直接输出相似度得分。
然而,传统方法都存在模糊匹配不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高模糊匹配准确度的基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质。
一种基于知识图谱的模糊匹配方法,所述方法包括:
接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
在一个实施例中,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分包括:
根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本;
根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分。
在一个实施例中,根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本之前,还包括:
获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合;
将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量;
根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本;
根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
在一个实施例中,根据词向量集合,得到与文本数据对应的文本向量包括:
根据词向量集合,计算词向量集合中各词向量的相同维度平均值;
归集相同维度平均值,得到与文本数据对应的文本向量。
在一个实施例中,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本包括:
根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本;
根据文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度;
根据文本相似度,选取出与文本数据对应的目标相似文本。
在一个实施例中,根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本包括:
根据词语集合以及预设词频统计算法进行词频统计,得到文本特征词;
根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵;
根据词频矩阵,计算两两文本数据之间的词频相似度;
根据词频相似度,得到文本数据集中与文本数据相关的预设数量相似文本。
在一个实施例中,根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵之后,还包括:
根据词频矩阵,得到文本特征词的特征词得分;
根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱之后,还包括:
根据知识图谱的节点构造文本特征词倒排索引,并记录文本特征词的特征词得分,得到特征词得分表。
一种基于知识图谱的模糊匹配装置,所述装置包括:
接收模块,用于接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
第一查询模块,用于根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
第二查询模块,用于根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
处理模块,用于根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
排序模块,用于根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
上述基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质,通过对检索句进行分词得到包括查询关键字的查询词袋,根据查询词袋查询已构建的知识图谱,能够得到包含查询关键字的知识图谱节点文本,进而可以进一步根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合,最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系,计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,能够得到与检索句对应的检索结果,实现准确模糊匹配,提高了模糊匹配准确度。
附图说明
图1为一个实施例中基于知识图谱的模糊匹配方法的应用场景图;
图2为一个实施例中基于知识图谱的模糊匹配方法的流程示意图;
图3为另一个实施例中基于知识图谱的模糊匹配方法的流程示意图;
图4为一个实施例中基于知识图谱的模糊匹配装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于知识图谱的模糊匹配方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。当使用终端102的用户需要进行模糊匹配查询时,通过终端102发送携带检索句的检索请求至服务器104,服务器104接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋,根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系,根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合,根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于知识图谱的模糊匹配方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋。
具体的,当用户需要进行模糊匹配查询时,会通过终端发送携带检索句的检索请求至服务器,服务器在接收到携带检索句的检索请求后,会利用预设分词算法对检索句进行分词,并去掉分词后的停用词,得到包含查询关键字的查询词袋。其中,预设分词算法具体可以为jieba分词等,本实施例在此处不做具体限定。
步骤204,根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系。
其中,知识图谱是图书情报学领域的概念,用于绘制、分析和显示学科或学术研究主体之间的相互联系,是揭示显示科学知识发展进程与结构关系的可视化工具。在多数情况下,知识图谱采用图结构进行可视化表示,使用节点代表作者、学术机构、科学文献或关键词,使用连线代表节点间关系。在本实施例中,所构建的知识图谱是文本知识图谱,即使用节点代表文本数据,以文本相似度为连线代表节点连接关系,实现相似的文本数据之间的连接。
具体的,服务器会根据查询词袋中的查询关键字,通过文本特征词倒排索引查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本。
步骤206,根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合。
具体的,在得到知识图谱节点文本后,服务器会进一步根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系确定在知识图谱中知识图谱节点文本的邻居节点,得到与知识图谱节点文本对应的相似文本集合。
步骤208,根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分。
其中,预设特征词得分表中存储有各查询关键字所对应的关键字得分。
具体的,服务器会根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据关键字得分以及节点连接关系,计算相似文本集合中相似节点文本的第二检索得分。
步骤210,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
具体的,服务器通过根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,可以得到知识图谱中与检索句最相关的模糊匹配文本数据,根据预设检索文本阈值对排序结果进行截取,即可得到与检索句对应的检索结果。进一步的,当一个文本同时为知识图谱节点文本和相似节点文本时,其会同时存在第一检索得分和第二检索得分,此时会将第二检索得分作为该文本的最终得分。
上述基于知识图谱的模糊匹配方法,通过对检索句进行分词得到包括查询关键字的查询词袋,根据查询词袋查询已构建的知识图谱,能够得到包含查询关键字的知识图谱节点文本,进而可以进一步根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合,最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系,计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,能够得到与检索句对应的检索结果,实现准确模糊匹配,提高了模糊匹配准确度。
在一个实施例中,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分包括:
根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本;
根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分。
具体的,服务器会根据关键字得分以及各查询关键字在知识图谱节点文本中出现的情况,加权计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本,即与相似节点文本为邻居节点的知识图谱节点文本。在确定目标节点文本后,服务器可将目标节点文本的第一检索得分以及已构建的知识图谱中该目标节点文本与相似节点文本的节点连接关系(即文本相似度)进行加权,计算相似节点文本的第二检索得分。进一步的,若某文本同时为知识图谱节点文本和相似节点文本,则在计算第二检索得分时,可认为节点连接关系为1。
举例说明,关键字得分具体可以是指IDF值,则知识图谱节点文本的第一检索得分为所包含的查询关键字的IDF值的总和。如查找到了带“A”或“B”的文档共10篇,其中三篇只带“A”的文档score为5.1、5.1、5.1,三篇只带“B”的得分为1.2、1.2、1.2,四篇同时带“A”和“B”两个词的得分为6.3、6.3、6.3、6.3。相似节点文本的第二检索分数的计算公式为:
其中,scorei表示与相似节点文本对应的目标节点文本的检索得分,即与相似节点文本为邻居节点的知识图谱节点文本的第一检索得分,wij表示相似节点与邻居节点的节点连接关系,即在构造知识图谱时的文本相似度,当相似节点文本本身就是知识图谱文本节点时,可得到wij为1。
本实施例中,通过根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本,根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分,能够实现对第一检索得分和第二检索得分的计算。
在一个实施例中,根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本之前,还包括:
获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合;
将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量;
根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本;
根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
其中,文本数据集是指由所有可用于模糊匹配的文本数据构成的集合,可用于模糊匹配的文本数据具体可以是文章、句子以及实体等。分词是指对文本数据进行词语拆分,将文本数据拆分为多个词语。已训练的词向量模型用于得到与词语对应的词向量,即输入词语,得到词向量的模型。举例说明,词向量模型具体可以是word2vec模型或bert等其他神经网络。文本向量是指与词向量集合中各词向量的向量维度相同的向量,用于表征文本数据的特征。
其中,预设词频统计算法是指用于对词语出现频率进行统计的算法,举例说明,词频统计算法具体可以是IF-IDF算法、bm25算法等。文本相似度用于表征两个文本数据的相似程度,文本相似度越大,两个文本数据越相似,这里的相似具体可以是指文本数据所描述的内容接近或者有关联。目标相似文本是指筛选出的与文本数据相似的文本。
具体的,服务器会从预设文本数据库中获取文本数据集,对文本数据集中文本数据进行分词,将文本数据拆分为多个词语,得到与文本数据对应的词语集合。其中,进行分词的方式具体可以为jieba分词等,本实施例在此处不做具体限定。在得到词语集合后,服务器会将词语集合中各词语输入已训练的词向量模型,得到各词语对应的词向量,根据各词语对应的词向量,得到与词语集合对应的词向量集合,通过计算词向量集合中各词向量的相同维度平均值,得到与文本数据对应的文本向量。
进一步的,在将词语集合中各词语输入已训练的词向量模型,得到各词语对应的词向量之前,服务器会从预设文本数据库中获取样本文本数据,利用样本文本数据对初始词向量模型进行训练,得到已训练的词向量模型。如前面举例说明,这里的词向量模型具体可以是word2vec模型或bert等其他神经网络,本实施例在此处不对词向量模型做具体限定。
具体的,服务器在利用根据文本向量、词语集合以及预设词频统计算法,确定与文本数据对应的目标相似文本时,采用的是二重相似比对的方式,即先通过词语集合以及预设词频统计算法,从文本数据集中筛选出一部分与文本数据相关的相似文本,再利用文本向量进一步从这些筛选出的与文本数据相关的相似文本中筛选出目标相似文本。
具体的,服务器会以文本数据为节点,以与文本数据对应的目标相似文本作为其邻居节点,并以与目标相似文本对应的文本相似度为节点与邻居节点之间的节点连接关系,构建知识图谱。进一步的,服务器会给每个文本数据设置文本编号,生成文本编号表,以文本编号为节点构建知识图谱,当在查询知识图谱时,先确定对应的文本编号,再根据文本编号查询所生成的文本编号表,以反馈对应的文本数据。
本实施例中,通过对文本数据进行分词,利用分词后的词语集合所对应的词向量,得到与文本数据对应的文本向量,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,可以利用文本相似度实现对与文本数据对应的目标相似文本的确定,进而可以根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱,从而可以利用所构建的知识图谱实现准确模糊匹配,能够提高模糊匹配准确度。
在一个实施例中,根据词向量集合,得到与文本数据对应的文本向量包括:
根据词向量集合,计算词向量集合中各词向量的相同维度平均值;
归集相同维度平均值,得到与文本数据对应的文本向量。
其中,词向量是多维度向量,相同维度平均值是指词向量中各相同维度的平均值。举例说明,词向量具体可以为M维向量,则相同维度平均值是指词向量中第一维度的维度值平均值、第二维度的维度值平均值…第M维度的维度值平均值等。文本向量是指与词向量集合中各词向量的向量维度相同的向量,用于表征文本数据的特征。举例说明,当词向量为M维向量时,文本向量也为M维向量,文本向量中的每一维度的维度值根据与文本数据对应的词向量集合的相同维度平均值得到,即每一维度的维度值为同维度所对应的相同维度平均值。举例说明,文本向量中的第一维度的维度值为与文本数据对应的词向量的第一维度的维度平均值。
具体的,服务器会根据词向量集合,计算词向量集合中各词向量的相同维度平均值,归集相同维度平均值,将相同维度平均值,作为与词向量集合对应的文本数据对应的文本向量的各相同维度的维度值。
举例说明,将文本数据中所有词向量按维度求平均后得到的文本向量为其中Vm为文本向量,T为该文本中所有词语数,xk,m为该文本中第k个词向量的第m维数值),作为该文本数据的文本向量由词向量得到,因此维度也是M。
本实施例中,通过根据词向量集合,计算词向量集合中各词向量的相同维度平均值,归集相同维度平均值,得到与文本数据对应的文本向量,能够实现对文本数据的文本向量的构建。
在一个实施例中,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本包括:
根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本;
根据文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度;
根据文本相似度,选取出与文本数据对应的目标相似文本。
具体的,服务器会先根据词语集合以及预设词频统计算法,确定词语集合中的文本特征词,再根据文本特征词构建每个文本数据的词频矩阵,利用文本数据的词频矩阵确定文本数据集中与文本数据相关的预设数量相似文本,再根据文本向量,计算文本数据与预设数量相似文本中相似文本之间的文本相似度,根据文本相似度,选取出与文本数据对应的预设目标数量目标相似文本。其中,预设数量和预设目标数量可按照需要自行设置,但是需满足预设数量大于预设目标数量,优选的,可设置预设数量远远大于预设目标数量。
进一步的,在利用文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度时,可以采用余弦相似度等相似度计算方式进行计算,本实施例在此处不做具体限定。举例说明,若采用余弦相似度计算,则对应的计算公式可以为:其中ri,j代表文本数据i和文本数据j的相似度,Vi,m代表文本数据i的文本向量的第m维的数值。
本实施例中,通过利用词语集合、预设词频统计算法以及文本向量进行两次文本相似度筛选,能够选取出准确的与文本数据对应的目标相似文本。
在一个实施例中,根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本包括:
根据词语集合以及预设词频统计算法进行词频统计,得到文本特征词;
根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵;
根据词频矩阵,计算两两文本数据之间的词频相似度;
根据词频相似度,得到文本数据集中与文本数据相关的预设数量相似文本。
其中,词频矩阵用于表示各文本特征词在文本数据中出现的词频。比如,这里的词频具体可以是指各文本特征词的IF-IDF值。比如,当文本特征词A、B、C在文本数据1中出现的次数分别为0、3、4时,可根据该出现次数以及文本特征词A、B、C的IDF值,计算文本特征词A、B、C与文本数据1所对应的IF-IDF值,根据该IF-IDF值得到词频矩阵。词频相似度用于表征文本数据之间的词频的相似程度,这里的词频的相似程度具体可以是指文本数据所包含的词语的重复度。
具体的,服务器会根据词语集合以及预设词频统计算法进行词频统计,从词语集合中筛选出词频最高的预设特征词数量个文本特征词,根据文本特征词遍历词语集合,统计文本特征词在文本数据中出现的情况,得到与文本数据对应的词频矩阵。在得到词频矩阵后,服务器会根据词频矩阵,计算两两文本数据之间的词频相似度,根据词频相似度对文本数据集中文本数据的相关程度进行排序,得到与每个文本数据相关的预设数量相似文本。其中,预设特征词数量可按照需要自行设置。
举例说明,本实施例中的预设词频统计算法具体可以为IF-IDF算法,服务器先利用IF-IDF算法计算出词语集合中每个词语的IF-IDF值,利用每个词语的IF-IDF值对词语进行排序,从中筛选出IF-IDF值最高的预设特征词数量个文本特征词,再根据文本特征词遍历各文本数据的词语集合,统计文本特征词在文本数据中出现的情况,即针对每个文本数据而言每个文本特征词的IF值,最后根据该IF值,和文本特征词的IDF值,得到针对每个文本数据而言每个文本特征词的IF-IDF值,根据该IF-IDF值得到文本数据的词频矩阵,在词频矩阵中同一位置的元素值表示同一个文本特征词在各文本数据中出现的词频。在得到词频矩阵后,服务器就可以根据词频矩阵,计算两两文本数据之间的词频相似度,根据词频相似度对文本数据集中文本数据的相关程度进行排序,得到与每个文本数据相关的预设数量相似文本。这里的词频相似度的计算同样也可以采用余弦相似度等相似度计算方式,本实施例在此处不做具体限定。
本实施例中,通过先得到文本特征词,再根据文本特征词得到与文本数据对应的词频矩阵,最后根据词频矩阵,计算两两文本数据之间的词频相似度,能够利用词频相似度实现文本相似度比对,确定与文本数据相关的预设数量相似文本。
在一个实施例中,根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵之后,还包括:
根据词频矩阵,得到文本特征词的特征词得分;
根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱之后,还包括:
根据知识图谱的节点构造文本特征词倒排索引,并记录文本特征词的特征词得分,得到特征词得分表。
其中,文本特征词的特征词得分用于表征文本特征词在文本数据集中的词频。比如,特征词得分具体可以是文本特征词针对文本数据集而言的IDF值。
具体的,服务器会根据词频矩阵,计算文本特征词的特征词得分,并在构建知识图谱之后,根据知识图谱的节点构造以文本特征词为依据的倒排索引,并记录文本特征词的特征词得分,得到特征词得分表并存储。
本实施例中,通过根据词频矩阵,得到文本特征词的特征词得分,记录文本特征词的特征词得分,得到特征词得分表,能够实现对特征词得分表的获取,同时通过根据知识图谱的节点构造文本特征词倒排索引,能够提高检索效率。
在一个实施例中,如图3所示,通过一个流程示意图来说明本申请的基于知识图谱的模糊匹配方法,该基于知识图谱的模糊匹配方法包括以下步骤:
步骤S302,获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合;
步骤S304,将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量;
步骤S306,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本;
步骤S308,根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱;
步骤S310,接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
步骤S312,根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本;
步骤S314,根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
步骤S316,根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
步骤S318,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
应该理解的是,虽然图2以及图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2以及图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于知识图谱的模糊匹配装置,包括:接收模块402、第一查询模块404、第二查询模块406、处理模块408和排序模块410,其中:
接收模块402,用于接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
第一查询模块404,用于根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
第二查询模块406,用于根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
处理模块408,用于根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
排序模块410,用于根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
上述基于知识图谱的模糊匹配装置,通过对检索句进行分词得到包括查询关键字的查询词袋,根据查询词袋查询已构建的知识图谱,能够得到包含查询关键字的知识图谱节点文本,进而可以进一步根据知识图谱节点文本,查询已构建的知识图谱,得到与知识图谱节点文本对应的相似文本集合,最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系,计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分,根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,能够得到与检索句对应的检索结果,实现准确模糊匹配,提高了模糊匹配准确度。
在一个实施例中,处理模块还用于根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本,根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分。
在一个实施例中,基于知识图谱的模糊匹配装置还包括知识图谱构建模块,知识图谱构建模块用于获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合,将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本,根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
在一个实施例中,知识图谱构建模块还用于根据词向量集合,计算词向量集合中各词向量的相同维度平均值,归集相同维度平均值,得到与文本数据对应的文本向量。
在一个实施例中,知识图谱构建模块还用于根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本,根据文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度,根据文本相似度,选取出与文本数据对应的目标相似文本。
在一个实施例中,知识图谱构建模块还用于根据词语集合以及预设词频统计算法进行词频统计,得到文本特征词,根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵,根据词频矩阵,计算两两文本数据之间的词频相似度,根据词频相似度,得到文本数据集中与文本数据相关的预设数量相似文本。
在一个实施例中,知识图谱构建模块还用于根据词频矩阵,得到文本特征词的特征词得分,以及根据知识图谱的节点构造文本特征词倒排索引,并记录文本特征词的特征词得分,得到特征词得分表。
关于基于知识图谱的模糊匹配装置的具体限定可以参见上文中对于基于知识图谱的模糊匹配方法的限定,在此不再赘述。上述基于知识图谱的模糊匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据集等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的模糊匹配方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本,根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合,将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本,根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据词向量集合,计算词向量集合中各词向量的相同维度平均值;归集相同维度平均值,得到与文本数据对应的文本向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本;根据文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度;根据文本相似度,选取出与文本数据对应的目标相似文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据词语集合以及预设词频统计算法进行词频统计,得到文本特征词;根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵;根据词频矩阵,计算两两文本数据之间的词频相似度;根据词频相似度,得到文本数据集中与文本数据相关的预设数量相似文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据词频矩阵,得到文本特征词的特征词得分;根据知识图谱的节点构造文本特征词倒排索引,并记录文本特征词的特征词得分,得到特征词得分表。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收携带检索句的检索请求,对检索句进行分词,得到包括查询关键字的查询词袋;
根据查询词袋,查询已构建的知识图谱,得到包含查询关键字的知识图谱节点文本,已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系;
根据知识图谱节点文本,查询已构建的知识图谱,根据节点连接关系得到与知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与查询关键字对应的关键字得分,根据关键字得分以及节点连接关系,得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分;
根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序,得到与检索句对应的检索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据关键字得分,计算知识图谱节点文本的第一检索得分,并根据知识图谱节点文本,确定与相似文本集合中相似节点文本对应的目标节点文本,根据目标节点文本以及节点连接关系,计算相似节点文本的第二检索得分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取文本数据集,对文本数据集中文本数据进行分词,得到与文本数据对应的词语集合,将词语集合输入已训练的词向量模型,得到与词语集合对应的词向量集合,根据词向量集合,得到与文本数据对应的文本向量,根据文本向量、词语集合以及预设词频统计算法,计算文本数据集中文本数据之间的文本相似度,确定与文本数据对应的目标相似文本,根据目标相似文本,以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据词向量集合,计算词向量集合中各词向量的相同维度平均值;归集相同维度平均值,得到与文本数据对应的文本向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据词语集合以及预设词频统计算法,得到文本数据集中与文本数据相关的预设数量相似文本;根据文本向量,计算文本数据与预设数量相似文本中相似文本的文本相似度;根据文本相似度,选取出与文本数据对应的目标相似文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据词语集合以及预设词频统计算法进行词频统计,得到文本特征词;根据文本特征词遍历词语集合,得到与文本数据对应的词频矩阵;根据词频矩阵,计算两两文本数据之间的词频相似度;根据词频相似度,得到文本数据集中与文本数据相关的预设数量相似文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据词频矩阵,得到文本特征词的特征词得分;根据知识图谱的节点构造文本特征词倒排索引,并记录文本特征词的特征词得分,得到特征词得分表。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于知识图谱的模糊匹配方法,所述方法包括:
接收携带检索句的检索请求,对所述检索句进行分词,得到包括查询关键字的查询词袋;
根据所述查询词袋,查询已构建的知识图谱,得到包含所述查询关键字的知识图谱节点文本,所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系;
根据所述知识图谱节点文本,查询所述已构建的知识图谱,根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合;
根据预设特征词得分表,获取与所述查询关键字对应的关键字得分,根据所述关键字得分以及所述节点连接关系,得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分;
根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序,得到与所述检索句对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键字得分以及所述节点连接关系,得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分包括:
根据所述关键字得分,计算所述知识图谱节点文本的第一检索得分,并根据所述知识图谱节点文本,确定与所述相似文本集合中相似节点文本对应的目标节点文本;
根据所述目标节点文本以及所述节点连接关系,计算所述相似节点文本的第二检索得分。
3.根据权利要求1所述的方法,其特征在于,所述根据所述查询词袋,查询已构建的知识图谱,得到包含所述查询关键字的知识图谱节点文本之前,还包括:
获取文本数据集,对所述文本数据集中文本数据进行分词,得到与所述文本数据对应的词语集合;
将所述词语集合输入已训练的词向量模型,得到与所述词语集合对应的词向量集合,根据所述词向量集合,得到与所述文本数据对应的文本向量;
根据所述文本向量、所述词语集合以及预设词频统计算法,计算所述文本数据集中文本数据之间的文本相似度,确定与所述文本数据对应的目标相似文本;
根据所述目标相似文本,以所述文本数据为节点、并以与所述目标相似文本对应的文本相似度为节点连接关系,构建知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词向量集合,得到与所述文本数据对应的文本向量包括:
根据所述词向量集合,计算所述词向量集合中各词向量的相同维度平均值;
归集所述相同维度平均值,得到与所述文本数据对应的文本向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述文本向量、所述词语集合以及预设词频统计算法,计算所述文本数据集中文本数据之间的文本相似度,确定与所述文本数据对应的目标相似文本包括:
根据所述词语集合以及预设词频统计算法,得到所述文本数据集中与所述文本数据相关的预设数量相似文本;
根据所述文本向量,计算所述文本数据与所述预设数量相似文本中相似文本的文本相似度;
根据所述文本相似度,选取出与所述文本数据对应的目标相似文本。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词语集合以及预设词频统计算法,得到所述文本数据集中与所述文本数据相关的预设数量相似文本包括:
根据所述词语集合以及预设词频统计算法进行词频统计,得到文本特征词;
根据文本特征词遍历所述词语集合,得到与所述文本数据对应的词频矩阵;
根据所述词频矩阵,计算两两文本数据之间的词频相似度;
根据所述词频相似度,得到所述文本数据集中与所述文本数据相关的预设数量相似文本。
7.根据权利要求6所述的方法,其特征在于,所述根据文本特征词遍历所述词语集合,得到与所述文本数据对应的词频矩阵之后,还包括:
根据所述词频矩阵,得到文本特征词的特征词得分;
所述根据所述目标相似文本,以所述文本数据为节点并以与所述目标相似文本对应的文本相似度为节点连接关系,构建知识图谱之后,还包括:
根据所述知识图谱的节点构造文本特征词倒排索引,并记录所述文本特征词的特征词得分,得到特征词得分表。
8.一种基于知识图谱的模糊匹配装置,其特征在于,所述装置包括:
接收模块,用于接收携带检索句的检索请求,对所述检索句进行分词,得到包括查询关键字的查询词袋;
第一查询模块,用于根据所述查询词袋,查询已构建的知识图谱,得到包含所述查询关键字的知识图谱节点文本,所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系;
第二查询模块,用于根据所述知识图谱节点文本,查询所述已构建的知识图谱,根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合;
处理模块,用于根据预设特征词得分表,获取与所述查询关键字对应的关键字得分,根据所述关键字得分以及所述节点连接关系,得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分;
排序模块,用于根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序,得到与所述检索句对应的检索结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011633652.0A CN112732883A (zh) | 2020-12-31 | 2020-12-31 | 基于知识图谱的模糊匹配方法、装置和计算机设备 |
PCT/CN2021/091060 WO2022142027A1 (zh) | 2020-12-31 | 2021-04-29 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011633652.0A CN112732883A (zh) | 2020-12-31 | 2020-12-31 | 基于知识图谱的模糊匹配方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732883A true CN112732883A (zh) | 2021-04-30 |
Family
ID=75608543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011633652.0A Pending CN112732883A (zh) | 2020-12-31 | 2020-12-31 | 基于知识图谱的模糊匹配方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112732883A (zh) |
WO (1) | WO2022142027A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641833A (zh) * | 2021-08-17 | 2021-11-12 | 同济大学 | 服务需求匹配方法及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226348B (zh) * | 2023-03-01 | 2023-09-26 | 读书郎教育科技有限公司 | 一种基于知识图谱的学习方法 |
CN116450776A (zh) * | 2023-04-23 | 2023-07-18 | 北京石油化工学院 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
CN116701573A (zh) * | 2023-06-06 | 2023-09-05 | 哈尔滨理工大学 | 一种基于时序知识图谱的查询方法和系统 |
CN116595197B (zh) * | 2023-07-10 | 2023-11-07 | 清华大学深圳国际研究生院 | 一种专利分类号关联知识图谱的链路预测方法及系统 |
CN116932767B (zh) * | 2023-09-18 | 2023-12-12 | 江西农业大学 | 基于知识图谱的文本分类方法、系统、存储介质及计算机 |
CN117172322B (zh) * | 2023-11-03 | 2024-03-12 | 中国标准化研究院 | 一种建立数字乡村知识图谱的方法 |
CN117271712A (zh) * | 2023-11-21 | 2023-12-22 | 上海爱可生信息技术股份有限公司 | 基于向量数据库的检索方法、系统及电子设备 |
CN117688251B (zh) * | 2024-02-04 | 2024-04-26 | 北京奥维云网大数据科技股份有限公司 | 一种基于知识图谱的商品检索方法及系统 |
CN117807191B (zh) * | 2024-02-29 | 2024-05-24 | 船舶信息研究中心(中国船舶集团有限公司第七一四研究所) | 一种基于知识图谱的非结构化数据检索方法及系统 |
CN118193757A (zh) * | 2024-05-17 | 2024-06-14 | 之江实验室 | 一种任务执行方法、装置、存储介质及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
WO2018084226A1 (ja) * | 2016-11-04 | 2018-05-11 | 株式会社日立製作所 | 文書検索方法及び装置 |
CN109033132A (zh) * | 2018-06-05 | 2018-12-18 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
CN109582849A (zh) * | 2018-12-03 | 2019-04-05 | 浪潮天元通信信息系统有限公司 | 一种基于知识图谱的网络资源智能检索方法 |
CN110188166A (zh) * | 2019-05-15 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 文档搜索方法、装置及电子设备 |
CN110516047A (zh) * | 2019-09-02 | 2019-11-29 | 湖南工业大学 | 基于包装领域的知识图谱的检索方法及检索系统 |
US20200073879A1 (en) * | 2018-08-28 | 2020-03-05 | American Chemical Society | Systems and methods for performing a computer-implemented prior art search |
CN111400607A (zh) * | 2020-06-04 | 2020-07-10 | 浙江口碑网络技术有限公司 | 搜索内容输出方法、装置、计算机设备及可读存储介质 |
CN111476038A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 长文本生成方法、装置、计算机设备和存储介质 |
CN111723179A (zh) * | 2020-05-26 | 2020-09-29 | 湖北师范大学 | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
CN111859147A (zh) * | 2020-07-31 | 2020-10-30 | 中国工商银行股份有限公司 | 对象推荐方法、对象推荐装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364233A1 (en) * | 2019-05-15 | 2020-11-19 | WeR.AI, Inc. | Systems and methods for a context sensitive search engine using search criteria and implicit user feedback |
CN110928984A (zh) * | 2019-09-30 | 2020-03-27 | 珠海格力电器股份有限公司 | 一种知识图谱的构建方法、装置、终端及存储介质 |
-
2020
- 2020-12-31 CN CN202011633652.0A patent/CN112732883A/zh active Pending
-
2021
- 2021-04-29 WO PCT/CN2021/091060 patent/WO2022142027A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
WO2018084226A1 (ja) * | 2016-11-04 | 2018-05-11 | 株式会社日立製作所 | 文書検索方法及び装置 |
CN109033132A (zh) * | 2018-06-05 | 2018-12-18 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
US20200073879A1 (en) * | 2018-08-28 | 2020-03-05 | American Chemical Society | Systems and methods for performing a computer-implemented prior art search |
CN109582849A (zh) * | 2018-12-03 | 2019-04-05 | 浪潮天元通信信息系统有限公司 | 一种基于知识图谱的网络资源智能检索方法 |
CN110188166A (zh) * | 2019-05-15 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 文档搜索方法、装置及电子设备 |
CN110516047A (zh) * | 2019-09-02 | 2019-11-29 | 湖南工业大学 | 基于包装领域的知识图谱的检索方法及检索系统 |
CN111476038A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 长文本生成方法、装置、计算机设备和存储介质 |
CN111723179A (zh) * | 2020-05-26 | 2020-09-29 | 湖北师范大学 | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
CN111400607A (zh) * | 2020-06-04 | 2020-07-10 | 浙江口碑网络技术有限公司 | 搜索内容输出方法、装置、计算机设备及可读存储介质 |
CN111859147A (zh) * | 2020-07-31 | 2020-10-30 | 中国工商银行股份有限公司 | 对象推荐方法、对象推荐装置和电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641833A (zh) * | 2021-08-17 | 2021-11-12 | 同济大学 | 服务需求匹配方法及装置 |
CN113641833B (zh) * | 2021-08-17 | 2024-04-09 | 同济大学 | 服务需求匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022142027A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
CN111538908B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN107391687B (zh) | 一种面向地方志网站的混合推荐系统 | |
Chávez et al. | Effective proximity retrieval by ordering permutations | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
Li et al. | Optimizing generalized pagerank methods for seed-expansion community detection | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN110880006B (zh) | 用户分类方法、装置、计算机设备和存储介质 | |
CN114282054A (zh) | 一种视频推荐方法、装置、计算机设备和存储介质 | |
CN110765286A (zh) | 跨媒体检索方法、装置、计算机设备和存储介质 | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN112131261B (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN116455861B (zh) | 一种基于大数据的计算机网络安全监测系统及方法 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN111125408A (zh) | 基于特征提取的搜索方法、装置、计算机设备和存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
Chen et al. | Scalable hypergraph-based image retrieval and tagging system | |
CN109086386B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112464660B (zh) | 文本分类模型构建方法以及文本数据处理方法 | |
Jivani | The novel k nearest neighbor algorithm | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
CN112732927A (zh) | 基于知识图谱的内容相似性分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |