CN111309944B

CN111309944B - 一种基于图数据库的数字人文搜索方法

Info

Publication number: CN111309944B
Application number: CN202010065328.7A
Authority: CN
Inventors: 谭超; 段飞虎; 吴璟; 丁琨; 成鑫; 冯自强; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-07-14
Anticipated expiration: 2040-01-20
Also published as: CN111309944A

Abstract

本发明公开了一种基于图数据库的数字人文搜索方法，包括：将数字人文的数据记录按照粗细粒度，构建基于数字人文知识图谱，并存储在图数据库；对图谱进行加权处理；图识别，将自然语言问句转换成意图表达式；利用图搜算法，在图数据库找到对应的实体和关系，并找到和命中实体/关系有关联的实体及关系，取得分类，作为检索条件，构造KSQL，查询关系数据库中得到检索的结果集，对结果进行基于相关度排序，得到最终的相关度排序结果集；对排序算法进行优化；根据相关分类规则构建相关分类辅助检索，在得到结果集后推出相关分类及下级分类；记录检索日志及浏览收藏历史，回归训练，定时更新ffd值，保持数字人文数据的冷热程度和权重占比。

Description

一种基于图数据库的数字人文搜索方法

技术领域

本发明涉及数字人文搜索技术领域，尤其涉及一种基于图数据库的数字人文搜索方法。

背景技术

传统和文化的知识本身散落在各领域的知识体系中，如何在海量的数字人文信息中通过深层的鉴定和甄别，剔除糟粕，选取精华、优质的内容是目前数字人文正本清源规范化中的突出问题。

中华数字人文涵盖思想文化、政治、经济、艺术、科技等方方面面，有效精准的开展传数字人文的学习，要求对数字人文的知识点进行深入的梳理挖掘，并形成全面系统的数字人文知识体系；同时，要求数字人文的知识点要深度关联，通过任何一个文化知识元，都可以开展跨学科、系统化、宏观性的数字人文阅读学习。

在数字人文领域，传统搜索引擎只是简单地根据用户输入的关键词去筛选目标网页，然后给出一堆网页链接。本算法在数字人文领域实现的数字人文检索，不仅可以展示丰富的数字人文知识，而且还可以根据受众的即时需求选择性提供其可能需要的数字人文信息，并可以呈现出这些信息之间的某种趣味性或实用性联系，以弥补原始文化传播方式的不足。只要输入一个检索词，搜索结果就会是一个与使用者需求高度匹配的数字人文知识集，并为使用者提供各种角度来了解其中的关联，从而更直接、更迅速地满足使用者的求知欲或生产生活需求。

一般地，面向数字人文领域的搜索有两种：1.将句子分割成字符文本，直接去关系数据库模糊匹配；2.将句子的关键词取其同义词取关系数据库模糊检索。以上两者均不能识别用户的主观需求，不能识别文本间的关系，完全靠文本的相似度来取得结果，不能很好的解决用户要检索的内容。

为解决此问题，本文提供了一种基于图数据库的数字人文检索方法，首先根据关系数据库的记录，按粗细粒度分类，构建数字人文的知识图谱，之后再针对图数据库的知识图谱，通过自然语言识别出文本主题词，然后在图数据库间计算和查找对应实体和关系的规则，取出结果和相关分类，实现了基于图数据库知识图谱的数字人文检索。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于图数据库的数字人文检索方法，该算法即给定自然语言问题，通过对问题进行语义理解和解析，进而利用图数据库和关系数据库进行查询、推理得出答案。

本发明的目的通过以下的技术方案来实现：

一种基于图数据库的数字人文检索方法，包括：

A将数字人文的数据记录按照粗细粒度，构建基于数字人文知识图谱，并存储在图数据库；

B对图谱进行加权处理；

C意图识别，将自然语言问句转换成意图表达式；

D利用图搜算法，在图数据库找到对应的实体和关系，并找到和命中实体/关系有关联的实体及关系，取得分类，作为检索条件，构造KSQL，查询关系数据库中得到检索的结果集，对结果进行基于相关度排序，得到最终的相关度排序结果集；

E对排序算法进行优化；

F根据相关分类规则构建相关分类辅助检索，在得到结果集后推出相关分类及下级分类；

G记录检索日志及浏览收藏历史，回归训练，定时更新ffd值，保持数字人文数据的冷热程度和权重占比。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本方法根据受众的即时需求选择提供其可能需要的数字人文信息，并可以呈现出这些信息之间的某种趣味性或实用性联系，以弥补原始文化传播方式的不足。

附图说明

图1是基于图数据库的数字人文检索方法流程图；

图2是数字人文知识图谱的存储结构；

图3是是数字人文原始数据；

图4是数字人文知识图谱的存储结构；

图5是单个节点所存储的属性；

图6是语义分析检索流程；

图7意图识别表达式结果；

图8图9图10是本算法实现的检索结果；

图11是相关分类规则处理逻辑流程图；

图12是图谱加权后的存储图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

本实施例提供了一种基于图数据库的数字人文检索方法，首先根据关系数据库的记录，按粗细粒度分类，构建数字人文的知识图谱，之后再针对图数据库的知识图谱，通过自然语言识别出文本主题词，然后在图数据库间计算和查找对应实体和关系的规则，取出结果和相关分类，实现了基于图数据库知识图谱的数字人文检索。

如图1-图12所示，基于图数据库的数字人文检索方法流程包括：

步骤10：将数字人文的数据记录按照粗细粒度，构建基于数字人文知识图谱，存入NEO4J图数据库，原始数据如图3所示。存储在图数据库的知识图谱格式如图4，5所示。

步骤20:为解决客户的偏好设置或者内容的准确性和热门程度，可以对图谱进行加权处理，即对图谱的每条边加权，如图12所示。

步骤30：意图识别，将自然语言问句转换成意图表达式(如图6所示)。

意图识别分为以下几个步骤：分词，主题词转换，知识图谱图搜索，构造意图表达式。

1、将文本作为一个实体在图数据库中按图搜索算法，分别以全词，近义词，上位词等顺序优先精确匹配，如果能直接命中，则跳到4，否则再按照模糊匹配，有结果则跳到4。

2、对问句进行分词，降噪处理，去除对全文内容没有影响的词汇，如介词，副词等(儒家代表人物有哪些，降噪后保留儒家，代表人物)。对现有分词结果的词汇向已有的主题词转换，将第2步的主题词自由组合，在图谱里按图搜索。具体分为单实体(李白)，多实体(李白杜甫)，实体和关系(李白的诗)，单关系(起源)，多关系(唐代诗人)，在图数据库中优先匹配主题词有直接相互关系的结果，按照实体的精确，同义词，模糊，上位词等先后顺序(能命中则放弃后边的匹配顺序)按照路径查找算法取最短路径。如果设置了偏好即可对图进行加权算法执行，例如步骤20提供的图谱。

最短路径算法是在图中求两点(或多点)之间的最短路径，我们最常见的最短路径算法有四种：Bellman-ford、Dijkstra、SPFA、Floyd。

Bellman-ford算法可以用于有负边权的图，如果途图中有负环，算法也可以检验出来，时间复杂度为O(VE)。

Dijkstra算法只能用于边权为正的图中，时间复杂度为O(n^2)。

SPFA算法是Bellman-ford算法的优化算法，和Bellman-ford算法应用差不多，而且可以用邻接表和队列优化，时间复杂度为O(KE)，SPFA的时间复杂度有常数，有的比赛可能会卡常，所以建议求图上最短路的时候用Dijkstra算法。

Floyd可以用于有负权的图中，即使有负环，算法也可以检测出来,可以求任意点的最短路径，有向图和无向图的最小环和最大环。时间复杂度O(n^3)。

本算法由于设计的图谱边权为正，所以选择了Dijkstra算法。

3、构造的意图表达式为了方便第三方接口接入，一般采用restful风格的接口形式构造json数据，如图5所示。

图搜索算法(Graph Search)：是用于在图上进行一般性发现或显式地搜索的算法。这些算法在图上找到出路径，但没有期望这些路径是在计算意义上是最优的。我们将涵盖广度优先搜索(Breadth First Search，BFS)和深度优先搜索(Deep First Search，DFS)，因为它们是遍历一个图的基础算法，通常也是许多其他进一步分析的先决条件。

路径查找算法(Pathfinding):是建立在图搜索算法的基础上，它探索节点之间的路径，从一个节点开始，遍历关系，直到到达目的节点。这些算法用于识别图中的最优路由。

步骤:40构建基于数字人文的检索表达式。根据步骤20提供的意图，利用图搜索算法，在图数据库找到对应的实体和关系，并找到和命中实体/关系有关联的实体及关系，取得分类，作为检索条件，构造KSQL，查询关系数据库(KBASE)中得到检索的结果集。对结果进行基于相关度排序，得到最终的相关度排序结果集，即根据意图表达式结果检索关系数据库KBASE，将数据结果做相关分类处理，获取检索结果，如图8，图9，图10，其相关分类处理逻辑如图11所示。

该相关度排序方法的步骤如下：

其中：

q为文档集合，d为具体的文档，t为单词，score(t,q,d)为表示包含查询词t的文档d在文档集合q中的相关性得分，idf(t)为逆向文件频率，tfNorm(t,d)为单词频率权重；

在KBASE中，逆向文件频率的算法是：

docCount表示文档总数，docFreq表示包含单词t的文档数量；

tfNorm(t,d)为单词频率权重在KBASE中，其算法如下：

f(t,d)为单词t在文档d中的出现次数，k₁为词语频率饱和度，用于控制词频对结果的影响，数值越低则单词数量影响越小，它的值一般介于1.2到2.0之间；b为字段长度归约，用于控制文本长度对结果的影响，数值越大文本长度影响越小，||D||为文档d中查询该字段的文本长度，avgdl为文档集合中，所有查询该字段的平均长度。

在搜索过程中,KBASE拿到文档ID之后，就会根据搜索词，计算每篇文档的相关性得分，用其进行排序。

步骤50对排序算法进行优化。

由于数字人文内容数据丰富，出现了很多同名不同义的主题词，内容的冷热程度也大相径庭，导致对用户意图理解的偏差较大，因此可以采用检索历史及用户偏好对已有数据进行归一化处理。

ffd值的算法通过对一条记录被检索到的次数qn，被浏览的次数vn，被收藏的次数cn求出本条记录所对应的权重值x,其算法为：

对ffd按照(0,1)标准化

优化后的排序打分为S＝scord*ffd,即可得到数字人文冷热数据相关度由高到底的排序。

步骤60根据相关分类规则构建相关分类辅助检索，在得到结果集后推出相关分类及下级分类，这里使用图数据库NEO4J的深度检索，其写法为：

MATCH(n:`数字人文`)-[:TYPE*minHops..maxHops]->(m)return*

本算法每次查询返回深度3的节点及关系，为用户提供粗细三层的相关推荐。根据受众的即时需求选择性可以对检索结果进行筛选，提供其可能需要的数字人文信息,进行可视化展示。

Claims

1.一种基于图数据库的数字人文搜索方法，其特征在于，包括：

B对图谱进行加权处理；

C意图识别，将自然语言问句转换成意图表达式；

D利用图搜索算法，在图数据库找到对应的实体和关系，并找到和命中实体/关系有关联的实体及关系，取得分类，作为检索条件，构造KSQL，查询关系数据库中得到检索的结果集，对结果进行基于相关度排序，得到最终的相关度排序结果集；

E对排序算法进行优化；

G记录检索日志及浏览收藏历史，回归训练，定时更新ffd值，保持数字人文数据的冷热程度和权重占比；

所述C中：将文本作为一个实体在图数据库中按图搜索算法，分别以全词，近义词，上位词等顺序优先精确匹配；

对问句进行分词，降噪处理，去除对全文内容没有影响的词汇，对现有分词结果的词汇向已有的主题词转换，将主题词自由组合，在图谱里按图搜索；具体分为单实体、多实体、实体和关系、单关系、多关系，在图数据库中优先匹配主题词有直接相互关系的结果，按照实体的精确、同义词、模糊、上位词，先后顺序并按照路径查找算法取最短路径；

所述E包括：

由于数字人文内容数据丰富，出现了很多同名不同义的主题词，内容的冷热程度也大相径庭，导致对用户意图理解的偏差较大，因此可以采用检索历史及用户偏好对已有数据进行归一化处理；

ffd值的算法通过对一条记录被检索到的次数qn，被浏览的次数vn，被收藏的次数cn求出本条记录所对应的权重值x，其算法为：

对ffd按照(0,1)标准化

优化后的排序打分为S＝scord*ffd,即可得到数字人文冷热数据相关度由高到底的排序；

所述F中：

使用图数据库NEO4J的深度检索，其写法为：

MATCH(n:`数字人文`)-[:TYPE*minHops..maxHops]->(m)return*

本算法每次查询返回深度3的节点及关系，为用户提供粗细三层的相关推荐；根据受众的即时需求选择性对检索结果进行筛选，提供可能需要的数字人文信息,进行可视化展示；