CN111309944B - 一种基于图数据库的数字人文搜索方法 - Google Patents

一种基于图数据库的数字人文搜索方法 Download PDF

Info

Publication number
CN111309944B
CN111309944B CN202010065328.7A CN202010065328A CN111309944B CN 111309944 B CN111309944 B CN 111309944B CN 202010065328 A CN202010065328 A CN 202010065328A CN 111309944 B CN111309944 B CN 111309944B
Authority
CN
China
Prior art keywords
classification
digital
graph
search
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065328.7A
Other languages
English (en)
Other versions
CN111309944A (zh
Inventor
谭超
段飞虎
吴璟
丁琨
成鑫
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010065328.7A priority Critical patent/CN111309944B/zh
Publication of CN111309944A publication Critical patent/CN111309944A/zh
Application granted granted Critical
Publication of CN111309944B publication Critical patent/CN111309944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图数据库的数字人文搜索方法,包括:将数字人文的数据记录按照粗细粒度,构建基于数字人文知识图谱,并存储在图数据库;对图谱进行加权处理;图识别,将自然语言问句转换成意图表达式;利用图搜算法,在图数据库找到对应的实体和关系,并找到和命中实体/关系有关联的实体及关系,取得分类,作为检索条件,构造KSQL,查询关系数据库中得到检索的结果集,对结果进行基于相关度排序,得到最终的相关度排序结果集;对排序算法进行优化;根据相关分类规则构建相关分类辅助检索,在得到结果集后推出相关分类及下级分类;记录检索日志及浏览收藏历史,回归训练,定时更新ffd值,保持数字人文数据的冷热程度和权重占比。

Description

一种基于图数据库的数字人文搜索方法
技术领域
本发明涉及数字人文搜索技术领域,尤其涉及一种基于图数据库的数字人文搜索方法。
背景技术
传统和文化的知识本身散落在各领域的知识体系中,如何在海量的数字人文信息中通过深层的鉴定和甄别,剔除糟粕,选取精华、优质的内容是目前数字人文正本清源规范化中的突出问题。
中华数字人文涵盖思想文化、政治、经济、艺术、科技等方方面面,有效精准的开展传数字人文的学习,要求对数字人文的知识点进行深入的梳理挖掘,并形成全面系统的数字人文知识体系;同时,要求数字人文的知识点要深度关联,通过任何一个文化知识元,都可以开展跨学科、系统化、宏观性的数字人文阅读学习。
在数字人文领域,传统搜索引擎只是简单地根据用户输入的关键词去筛选目标网页,然后给出一堆网页链接。本算法在数字人文领域实现的数字人文检索,不仅可以展示丰富的数字人文知识,而且还可以根据受众的即时需求选择性提供其可能需要的数字人文信息,并可以呈现出这些信息之间的某种趣味性或实用性联系,以弥补原始文化传播方式的不足。只要输入一个检索词,搜索结果就会是一个与使用者需求高度匹配的数字人文知识集,并为使用者提供各种角度来了解其中的关联,从而更直接、更迅速地满足使用者的求知欲或生产生活需求。
一般地,面向数字人文领域的搜索有两种:1.将句子分割成字符文本,直接去关系数据库模糊匹配;2.将句子的关键词取其同义词取关系数据库模糊检索。以上两者均不能识别用户的主观需求,不能识别文本间的关系,完全靠文本的相似度来取得结果,不能很好的解决用户要检索的内容。
为解决此问题,本文提供了一种基于图数据库的数字人文检索方法,首先根据关系数据库的记录,按粗细粒度分类,构建数字人文的知识图谱,之后再针对图数据库的知识图谱,通过自然语言识别出文本主题词,然后在图数据库间计算和查找对应实体和关系的规则,取出结果和相关分类,实现了基于图数据库知识图谱的数字人文检索。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于图数据库的数字人文检索方法,该算法即给定自然语言问题,通过对问题进行语义理解和解析,进而利用图数据库和关系数据库进行查询、推理得出答案。
本发明的目的通过以下的技术方案来实现:
一种基于图数据库的数字人文检索方法,包括:
A将数字人文的数据记录按照粗细粒度,构建基于数字人文知识图谱,并存储在图数据库;
B对图谱进行加权处理;
C意图识别,将自然语言问句转换成意图表达式;
D利用图搜算法,在图数据库找到对应的实体和关系,并找到和命中实体/关系有关联的实体及关系,取得分类,作为检索条件,构造KSQL,查询关系数据库中得到检索的结果集,对结果进行基于相关度排序,得到最终的相关度排序结果集;
E对排序算法进行优化;
F根据相关分类规则构建相关分类辅助检索,在得到结果集后推出相关分类及下级分类;
G记录检索日志及浏览收藏历史,回归训练,定时更新ffd值,保持数字人文数据的冷热程度和权重占比。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本方法根据受众的即时需求选择提供其可能需要的数字人文信息,并可以呈现出这些信息之间的某种趣味性或实用性联系,以弥补原始文化传播方式的不足。
附图说明
图1是基于图数据库的数字人文检索方法流程图;
图2是数字人文知识图谱的存储结构;
图3是是数字人文原始数据;
图4是数字人文知识图谱的存储结构;
图5是单个节点所存储的属性;
图6是语义分析检索流程;
图7意图识别表达式结果;
图8图9图10是本算法实现的检索结果;
图11是相关分类规则处理逻辑流程图;
图12是图谱加权后的存储图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
本实施例提供了一种基于图数据库的数字人文检索方法,首先根据关系数据库的记录,按粗细粒度分类,构建数字人文的知识图谱,之后再针对图数据库的知识图谱,通过自然语言识别出文本主题词,然后在图数据库间计算和查找对应实体和关系的规则,取出结果和相关分类,实现了基于图数据库知识图谱的数字人文检索。
如图1-图12所示,基于图数据库的数字人文检索方法流程包括:
步骤10:将数字人文的数据记录按照粗细粒度,构建基于数字人文知识图谱,存入NEO4J图数据库,原始数据如图3所示。存储在图数据库的知识图谱格式如图4,5所示。
步骤20:为解决客户的偏好设置或者内容的准确性和热门程度,可以对图谱进行加权处理,即对图谱的每条边加权,如图12所示。
步骤30:意图识别,将自然语言问句转换成意图表达式(如图6所示)。
意图识别分为以下几个步骤:分词,主题词转换,知识图谱图搜索,构造意图表达式。
1、将文本作为一个实体在图数据库中按图搜索算法,分别以全词,近义词,上位词等顺序优先精确匹配,如果能直接命中,则跳到4,否则再按照模糊匹配,有结果则跳到4。
2、对问句进行分词,降噪处理,去除对全文内容没有影响的词汇,如介词,副词等(儒家代表人物有哪些,降噪后保留儒家,代表人物)。对现有分词结果的词汇向已有的主题词转换,将第2步的主题词自由组合,在图谱里按图搜索。具体分为单实体(李白),多实体(李白杜甫),实体和关系(李白的诗),单关系(起源),多关系(唐代诗人),在图数据库中优先匹配主题词有直接相互关系的结果,按照实体的精确,同义词,模糊,上位词等先后顺序(能命中则放弃后边的匹配顺序)按照路径查找算法取最短路径。如果设置了偏好即可对图进行加权算法执行,例如步骤20提供的图谱。
最短路径算法是在图中求两点(或多点)之间的最短路径,我们最常见的最短路径算法有四种:Bellman-ford、Dijkstra、SPFA、Floyd。
Bellman-ford算法可以用于有负边权的图,如果途图中有负环,算法也可以检验出来,时间复杂度为O(VE)。
Dijkstra算法只能用于边权为正的图中,时间复杂度为O(n^2)。
SPFA算法是Bellman-ford算法的优化算法,和Bellman-ford算法应用差不多,而且可以用邻接表和队列优化,时间复杂度为O(KE),SPFA的时间复杂度有常数,有的比赛可能会卡常,所以建议求图上最短路的时候用Dijkstra算法。
Floyd可以用于有负权的图中,即使有负环,算法也可以检测出来,可以求任意点的最短路径,有向图和无向图的最小环和最大环。时间复杂度O(n^3)。
本算法由于设计的图谱边权为正,所以选择了Dijkstra算法。
3、构造的意图表达式为了方便第三方接口接入,一般采用restful风格的接口形式构造json数据,如图5所示。
图搜索算法(Graph Search):是用于在图上进行一般性发现或显式地搜索的算法。这些算法在图上找到出路径,但没有期望这些路径是在计算意义上是最优的。我们将涵盖广度优先搜索(Breadth First Search,BFS)和深度优先搜索(Deep First Search,DFS),因为它们是遍历一个图的基础算法,通常也是许多其他进一步分析的先决条件。
路径查找算法(Pathfinding):是建立在图搜索算法的基础上,它探索节点之间的路径,从一个节点开始,遍历关系,直到到达目的节点。这些算法用于识别图中的最优路由。
步骤:40构建基于数字人文的检索表达式。根据步骤20提供的意图,利用图搜索算法,在图数据库找到对应的实体和关系,并找到和命中实体/关系有关联的实体及关系,取得分类,作为检索条件,构造KSQL,查询关系数据库(KBASE)中得到检索的结果集。对结果进行基于相关度排序,得到最终的相关度排序结果集,即根据意图表达式结果检索关系数据库KBASE,将数据结果做相关分类处理,获取检索结果,如图8,图9,图10,其相关分类处理逻辑如图11所示。
该相关度排序方法的步骤如下:
Figure GDA0004152790630000051
其中:
q为文档集合,d为具体的文档,t为单词,score(t,q,d)为表示包含查询词t的文档d在文档集合q中的相关性得分,idf(t)为逆向文件频率,tfNorm(t,d)为单词频率权重;
在KBASE中,逆向文件频率的算法是:
Figure GDA0004152790630000052
docCount表示文档总数,docFreq表示包含单词t的文档数量;
tfNorm(t,d)为单词频率权重在KBASE中,其算法如下:
Figure GDA0004152790630000053
f(t,d)为单词t在文档d中的出现次数,k1为词语频率饱和度,用于控制词频对结果的影响,数值越低则单词数量影响越小,它的值一般介于1.2到2.0之间;b为字段长度归约,用于控制文本长度对结果的影响,数值越大文本长度影响越小,||D||为文档d中查询该字段的文本长度,avgdl为文档集合中,所有查询该字段的平均长度。
在搜索过程中,KBASE拿到文档ID之后,就会根据搜索词,计算每篇文档的相关性得分,用其进行排序。
步骤50对排序算法进行优化。
由于数字人文内容数据丰富,出现了很多同名不同义的主题词,内容的冷热程度也大相径庭,导致对用户意图理解的偏差较大,因此可以采用检索历史及用户偏好对已有数据进行归一化处理。
ffd值的算法通过对一条记录被检索到的次数qn,被浏览的次数vn,被收藏的次数cn求出本条记录所对应的权重值x,其算法为:
Figure GDA0004152790630000061
对ffd按照(0,1)标准化
Figure GDA0004152790630000062
优化后的排序打分为S=scord*ffd,即可得到数字人文冷热数据相关度由高到底的排序。
步骤60根据相关分类规则构建相关分类辅助检索,在得到结果集后推出相关分类及下级分类,这里使用图数据库NEO4J的深度检索,其写法为:
MATCH(n:`数字人文`)-[:TYPE*minHops..maxHops]->(m)return*
本算法每次查询返回深度3的节点及关系,为用户提供粗细三层的相关推荐。根据受众的即时需求选择性可以对检索结果进行筛选,提供其可能需要的数字人文信息,进行可视化展示。
相关分类规则:
自然语言问句识别意图后,在数字人文图谱中可以取得对应的分类编码和属性,根据节点和关系属性,分为以下几种情况:
(1)若实体属于一个分类;
a判断有无下位分类,无下位分类则不展示;有下位分类则进行下一步判断。
b判断该分类的相关分类状态,相关分类状态=0,则不展示该实体所属分类的所有下位分类;相关分类状态=1,则进行下一步判断。
c判断分类类别属性是否为空,非空,先展示类别属性名,再显示该实体所属分类的所有下位分类;为空,则直接显示该实体所属分类的所有下位分类。
例如,检索“唐诗”,包含一个实体“唐诗”,属于一个分类,有下位分类,且相关分类状态=1,无类别属性,因此直接显示唐诗所属的分类【唐诗鉴赏】的所有下位节点。
(2)若实体属于多个分类;
a基于相关分类状态和分类类别属性进行判断,若相关分类状态=0,则【相关分类】不展示该实体的下位分类;
b反之,判断跨分类状态。若跨分类状态=1,且分类类别属性为空,则【相关分类】显示该实体的下位分类;
c若跨分类状态=1,且分类类别属性不为空,则【相关分类】先展示类别属性再展示其下位分类;
d若跨分类状态=0,且分类类别属性为空,【相关分类】显示本级分类及其下位分类;
e若跨分类状态=0,且分类类别属性不为空,则【相关分类】先展示类别属性再展示其下位分类。
(3)若实体不属于分类且含包含关系;
(4)若检索词为关系且与其相关的上位实体有多个时,补充关系的上位实体并展示该关系分类所有的下位分类;
(5)若检索词为关系,且与其相关的上位实体仅为一个时,若相关分类状态=0,则隐藏“相关分类”栏目;反之,判断分类类别属性是否为空,若是,展示其所有的下位分类,若否,先展示类别属性再展示其下位分类;
(6)检索词为一个类别的情况;
(7)检索词为多个实体/关系的情况;
将检索语句切分成不同的实体和关系,基于分类层级关系(包含或不包含)显示相关分类状态。判断多实体之间是否有上下层级关系,有层级关系就显示最小层级分类(例如李白的诗);无层级关系且不是一个大类的则不显示【相关分类】(例如:李白春分);无层级关系但属于一个大类就都显示(李白杜甫)。
步骤70记录检索日志及浏览收藏历史,回归训练,定时更新ffd值,保持数字人文数据的冷热程度和权重占比。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (3)

1.一种基于图数据库的数字人文搜索方法,其特征在于,包括:
A将数字人文的数据记录按照粗细粒度,构建基于数字人文知识图谱,并存储在图数据库;
B对图谱进行加权处理;
C意图识别,将自然语言问句转换成意图表达式;
D利用图搜索算法,在图数据库找到对应的实体和关系,并找到和命中实体/关系有关联的实体及关系,取得分类,作为检索条件,构造KSQL,查询关系数据库中得到检索的结果集,对结果进行基于相关度排序,得到最终的相关度排序结果集;
E对排序算法进行优化;
F根据相关分类规则构建相关分类辅助检索,在得到结果集后推出相关分类及下级分类;
G记录检索日志及浏览收藏历史,回归训练,定时更新ffd值,保持数字人文数据的冷热程度和权重占比;
所述C中:将文本作为一个实体在图数据库中按图搜索算法,分别以全词,近义词,上位词等顺序优先精确匹配;
对问句进行分词,降噪处理,去除对全文内容没有影响的词汇,对现有分词结果的词汇向已有的主题词转换,将主题词自由组合,在图谱里按图搜索;具体分为单实体、多实体、实体和关系、单关系、多关系,在图数据库中优先匹配主题词有直接相互关系的结果,按照实体的精确、同义词、模糊、上位词,先后顺序并按照路径查找算法取最短路径;
所述E包括:
由于数字人文内容数据丰富,出现了很多同名不同义的主题词,内容的冷热程度也大相径庭,导致对用户意图理解的偏差较大,因此可以采用检索历史及用户偏好对已有数据进行归一化处理;
ffd值的算法通过对一条记录被检索到的次数qn,被浏览的次数vn,被收藏的次数cn求出本条记录所对应的权重值x,其算法为:
Figure FDA0004146650130000011
对ffd按照(0,1)标准化
Figure FDA0004146650130000021
优化后的排序打分为S=scord*ffd,即可得到数字人文冷热数据相关度由高到底的排序;
所述F中:
使用图数据库NEO4J的深度检索,其写法为:
MATCH(n:`数字人文`)-[:TYPE*minHops..maxHops]->(m)return*
本算法每次查询返回深度3的节点及关系,为用户提供粗细三层的相关推荐;根据受众的即时需求选择性对检索结果进行筛选,提供可能需要的数字人文信息,进行可视化展示;
相关分类规则:
自然语言问句识别意图后,在数字人文图谱中取得对应的分类编码和属性,根据节点和关系属性,分为以下几种情况:
(1)若实体属于一个分类;
a判断有无下位分类,无下位分类则不展示;有下位分类则进行下一步判断;
b判断该分类的相关分类状态,相关分类状态=0,则不展示该实体所属分类的所有下位分类;相关分类状态=1,则进行下一步判断;
c判断分类类别属性是否为空,非空,先展示类别属性名,再显示该实体所属分类的所有下位分类;为空,则直接显示该实体所属分类的所有下位分类;
(2)若实体属于多个分类;
a基于相关分类状态和分类类别属性进行判断,若相关分类状态=0,则相关分类不展示该实体的下位分类;
b反之,判断跨分类状态;若跨分类状态=1,且分类类别属性为空,则相关分类显示该实体的下位分类;
c若跨分类状态=1,且分类类别属性不为空,则相关分类先展示类别属性再展示其下位分类;
d若跨分类状态=0,且分类类别属性为空,相关分类显示本级分类及其下位分类;
e若跨分类状态=0,且分类类别属性不为空,则相关分类先展示类别属性再展示其下位分类;
(3)若实体不属于分类且含包含关系;
(4)若检索词为关系且与其相关的上位实体有多个时,补充关系的上位实体并展示该关系分类所有的下位分类;
(5)若检索词为关系,且与其相关的上位实体仅为一个时,若相关分类状态=0,则隐藏“相关分类”栏目;反之,判断分类类别属性是否为空,若是,展示其所有的下位分类,若否,先展示类别属性再展示其下位分类;
(6)检索词为一个类别的情况;
(7)检索词为多个实体/关系的情况;
将检索语句切分成不同的实体和关系,基于分类层级关系显示相关分类状态。
2.如权利要求1所述的基于图数据库的数字人文搜索方法,其特征在于,所述步骤C中意图识别包括分词、主题词转换、知识图谱图搜索及构造意图表达式;具体包括:
对问句进行分词,降噪处理,去除对全文内容没有影响的词汇,包括介词,副词;
对现有分词结果的词汇向已有的主题词转换;
将主题词自由组合,在图谱里按图搜索;
对图形加权算法,构造意图表达式。
3.如权利要求1所述的基于图数据库的数字人文搜索方法,其特征在于,所述步骤D中相关度排序计算方法如下:
Figure FDA0004146650130000031
其中:
q为文档集合,d为具体的文档,t为单词,score(t,q,d)为表示包含查询词t的文档d在文档集合q中的相关性得分,idf(t)为逆向文件频率,tfNorm(t,d)为单词频率权重;
在KBASE中,逆向文件频率的算法是:
Figure FDA0004146650130000041
docCount表示文档总数,docFreq表示包含单词t的文档数量;
tfNorm(t,d)为单词频率权重在KBASE中,其算法如下:
Figure FDA0004146650130000042
f(t,d)为单词t在文档d中的出现次数,k1为词语频率饱和度,用于控制词频对结果的影响,数值越低则单词数量影响越小,它的值一般介于1.2到2.0之间;b为字段长度归约,用于控制文本长度对结果的影响,数值越大文本长度影响越小,D为文档d中查询该字段的文本长度,avgdl为文档集合中,所有查询该字段的平均长度。
CN202010065328.7A 2020-01-20 2020-01-20 一种基于图数据库的数字人文搜索方法 Active CN111309944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065328.7A CN111309944B (zh) 2020-01-20 2020-01-20 一种基于图数据库的数字人文搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065328.7A CN111309944B (zh) 2020-01-20 2020-01-20 一种基于图数据库的数字人文搜索方法

Publications (2)

Publication Number Publication Date
CN111309944A CN111309944A (zh) 2020-06-19
CN111309944B true CN111309944B (zh) 2023-07-14

Family

ID=71156422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065328.7A Active CN111309944B (zh) 2020-01-20 2020-01-20 一种基于图数据库的数字人文搜索方法

Country Status (1)

Country Link
CN (1) CN111309944B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI754445B (zh) * 2020-11-05 2022-02-01 碩網資訊股份有限公司 智慧信息處理系統與方法
CN112612933B (zh) * 2021-01-05 2024-03-26 同方知网(北京)技术有限公司 一种分类数据可视化方法
CN115357555B (zh) * 2022-10-24 2023-01-13 北京珞安科技有限责任公司 一种基于日志的审计方法及系统
CN117349386B (zh) * 2023-10-12 2024-04-12 吉玖(天津)技术有限责任公司 一种基于数据强弱关联模型的数字人文应用方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN109241341A (zh) * 2018-05-09 2019-01-18 上海大学 一种基于知识图谱的影视择优推荐系统和方法
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109492111A (zh) * 2018-09-19 2019-03-19 平安科技(深圳)有限公司 最短路径查询方法、系统、计算机设备和存储介质
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3557439A1 (en) * 2018-04-16 2019-10-23 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN109241341A (zh) * 2018-05-09 2019-01-18 上海大学 一种基于知识图谱的影视择优推荐系统和方法
CN109492111A (zh) * 2018-09-19 2019-03-19 平安科技(深圳)有限公司 最短路径查询方法、系统、计算机设备和存储介质
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐小川 ; 罗亮 ; .基于析因设计的大数据相关关系挖掘算法.计算机应用.2018,(09),第65-68页. *
曾子明 ; 秦思琪 ; .面向数字人文的移动视觉搜索模型研究.情报资料工作.2018,(06),第23-30页. *
陆晓华 ; 张宇 ; 钱进 ; .基于图数据库的电影知识图谱应用研究.现代计算机(专业版).2016,(07),第78-85页. *

Also Published As

Publication number Publication date
CN111309944A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111309944B (zh) 一种基于图数据库的数字人文搜索方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US9460391B2 (en) Methods and systems for knowledge discovery
US8280886B2 (en) Determining candidate terms related to terms of a query
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US6728695B1 (en) Method and apparatus for making predictions about entities represented in documents
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
US8108405B2 (en) Refining a search space in response to user input
US9317593B2 (en) Modeling topics using statistical distributions
CN103678576B (zh) 基于动态语义分析的全文检索系统
US20040049499A1 (en) Document retrieval system and question answering system
CN111949758A (zh) 医疗问答推荐方法、推荐系统和计算机可读存储介质
US20090094223A1 (en) System and method for classifying search queries
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
Van de Camp et al. The socialist network
US20170371965A1 (en) Method and system for dynamically personalizing profiles in a social network
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
CN112036178A (zh) 一种配网实体相关的语义搜索方法
US20140089246A1 (en) Methods and systems for knowledge discovery
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
JP4426041B2 (ja) カテゴリ因子による情報検索方法
CN115544225A (zh) 基于语义的数字档案信息关联检索方法
Çelebi et al. Automatic question answering for Turkish with pattern parsing
Braunschweig Recovering the semantics of tabular web data
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: Rooms B201, B202, B203, B205, B206, B207, B208, B209, B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100084 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant