CN114064913A - 一种基于知识图谱的文档检索方法及系统 - Google Patents

一种基于知识图谱的文档检索方法及系统 Download PDF

Info

Publication number
CN114064913A
CN114064913A CN202111217200.9A CN202111217200A CN114064913A CN 114064913 A CN114064913 A CN 114064913A CN 202111217200 A CN202111217200 A CN 202111217200A CN 114064913 A CN114064913 A CN 114064913A
Authority
CN
China
Prior art keywords
document
entity
node
information
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111217200.9A
Other languages
English (en)
Inventor
程世清
王思宇
曹林
陈仁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
31511 Unit Of Chinese Pla
Original Assignee
31511 Unit Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 31511 Unit Of Chinese Pla filed Critical 31511 Unit Of Chinese Pla
Priority to CN202111217200.9A priority Critical patent/CN114064913A/zh
Publication of CN114064913A publication Critical patent/CN114064913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于知识图谱的文档检索方法及系统,包括:针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,为每个信息实体建立三元关系;当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;通过实体与实体之间的关联,使文档与文档之间建立联系,进而实现网络化的图谱搜索。

Description

一种基于知识图谱的文档检索方法及系统
技术领域
本发明涉及文档检索领域,具体涉及一种基于知识图谱的文档检索方法及系统。
背景技术
随着人工智能和深度学习技术的兴起,并在自然语言处理领域投入运用,文本的实体识别、关系提取取得了很大突破,为文本的知识图谱大规模构建提供了有力支撑。知识图谱作为文本知识结构的重要可视化载体,描绘了文本实体与实体之间的结构关系,为文本的可视化查询坚实提供了基础。在实现本发明过程中,申请人发现现有技术中至少存在如下问题:传统文档检索结果输出只是简单的匹配文本呈现,没有在文本的语义、知识层面上进行理解和分析;在检索结果之间是静态的,独立的,缺乏信息之间的交互和关联,不能根据某个结果和信息点快速进行更深层次的查询分析。
发明内容
本发明实施例提供一种基于知识图谱的文档检索方法及系统,改变了传统文档检索结果简单的文本字符匹配,从文本的语义、知识层面上进行理解和分析,对静态的,孤立的文档进行实体关系提取,通过实体与实体之间的关联,使文档与文档之间建立联系,进而实现网络化的图谱搜索。
为达上述目的,一方面,本发明实施例提供一种基于知识图谱的文档检索方法,包括:
针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;
用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
另一方面,本发明实施例提供一种基于知识图谱的文档检索系统,包括:
三元关系提取单元,用于针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
知识图谱制作单元,用于根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
检索单元,用于当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
展示单元,用于当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
上述技术方案具有如下有益效果:改变了传统文档检索结果简单的文本字符匹配,从文本的语义、知识层面上进行理解和分析,对静态的,孤立的文档进行实体关系提取,通过实体与实体之间的关联,使文档与文档之间建立联系,进而实现网络化的图谱搜索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是是本发明实施例的一种基于知识图谱的文档检索方法的流程图;
图2是是本发明实施例的一种基于知识图谱的文档检索系统的结构图;
图3是本发明实施例的总体流程图;
图4是本发明实施例知识图谱构建示意图;
图5是本发明实施例图谱搜索逻辑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种基于知识图谱的文档检索方法,包括:
针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;
用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
优选地,在所述利用文档提取模型提取出该文档的主实体和各信息实体之前,还包括:
获取预设数量的文档样本,识别每个文档样本内容的信息实体,使用文档标注工具标注每个信息实体的类型英文简记,以及使用文档标注工具分别标记每个信息实体的起始点位置、结束点位置,将每个信息实体的起始点位置、结束点位置分别以唯一标识符进行表示;将所有唯一标识符形成文档样本的初始标注数据;
针对文档样本的初始标注数据,逐行读取每个信息实体的各唯一标识符;针对每个信息实体,将所读取的信息实体的起始点位置和结束点位置相应的唯一标识符分别与各自相应的原始文档样本进行匹配;如果匹配到起始点位置,则将原始文档内的该信息实体的起始点位置相应的字标注为“B—信息实体名称英文简记”;否则将原始文档内的该信息实体的包括结束点位置的其他位置的信息标注为“I—信息实体名称英文简记”;将每个原始文档样本除被标记信息实体之外的信息称为非信息实体,并将每个非信息实体均采用“O”进行标注;将每个文档样本的被标注的信息实体和被标注的非实体信息的标注做为最终标注数据,所述最终标注数据为能够被待训练模型可识别的数据格式;
根据所获取的预设数量的所有文档样本的文本格式特点选择适用的待训练模型,将所有文档样本的最终标注数据输入所选择的待训练模型,其中,所述待训练模型包括如下模型之一:基于规则、词典、统计方法构建的模型,以及BERT模型、ALBERT模型、BiLSTM模型、CRF模型;
通过向训练模型输入最终标注数据,通过训练优化待训练模型的参数,使得待训练模型的评估指标达到各自预设要求,形成文档提取模型;其中,评估指标包括正确率、召回率、精确率和F值。
优选地,在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,还包括:
为新创建的主实体节点添加Ondblclick鼠标双击事件;所述Ondblclick鼠标双击事件用于鼠标双击主实体节点时进行响应;
在所述在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点之后,还包括:
为新创建的信息实体节点添加Ondblclick鼠标双击事件,所述Ondblclick鼠标双击事件用于鼠标双击该信息实体节点时自动捕获与该信息实体节点连接的实体节点和连接;
所述基于知识图谱的文档检索方法,还包括:如果用户在结果集中未找到目标文档,则执行步骤一,如果在步骤一中找到目标文档则停止继续执行;如果在步骤一未寻找到目标文档则继续执行步骤二、步骤一作为一个循环以寻找其他目标文档,如此直至寻找到目标文档:
用户在所触发的知识图谱内通过鼠标双击该文档的任一信息实体节点,为信息实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,自动捕获与该信息实体节点连接的实体节点和连接,返回所捕获的与该信息实体节点关联的所有主实体节点、以及该信息实体节点与各主实体节点之间的连接,通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档;
步骤二:用户通过鼠标双击前一步骤所返回的任一主实体节点,为主实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,返回与该主实体节点关联的所有信息实体节点、以及相应的连接;通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定该主实体节点对应的文档包含哪些信息实体节点;该主实体节点对应的文档所包含的信息实体节点用于用户通过鼠标进行双击。
优选地,在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,还包括:
为新创建的主实体节点添加Onmouseover鼠标滑过事件;所述Onmouseover鼠标滑过事件鼠标滑过文档标题节点进行响应;
所述通过前端画布绘制所触发文档的知识图谱并展示,具体包括:
当用户在知识图谱内通过鼠标滑过任一主实体节点时,为主实体节点相应的文档标题添加的Onmouseover鼠标滑过事件进行响应,调取与统一标识符所对应的文档存储地址,自所对应的文档存储地址读取该文档,并利用工具包将该文档转化成用户可直接调阅的文件格式、或者转化成用户利用工具插件进行调阅的文件格式,将该可调阅的文档以预览文件进行展示,以帮助用户确定该文档是否为目标文档。
优选地,还包括:
在检索页面设置打印按钮,在打印按钮响应事件中添加打印函数;所述打印按钮用于在向用户展示预览文件之后,用户通过打印按钮请求打印函数时,通过打印函数调用用户所预览文档的原始文件存储路径,并对原始文件进行打印;和/或
在检索页面设置导出按钮,为导出按钮相应事件中添加导出函数,所述导出按钮用于在向用户展示预览文件之后,用户通过导出按钮请求导出函数时,通过导出函数调用用户所述预览文档的原始文件存储路径,进而根据该路径读取文件流,实现预览文档的下载导出。
结合本发明的实施例,如图2所示,提供一种基于知识图谱的文档检索系统,包括:
三元关系提取单元,用于针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
知识图谱制作单元,用于根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
检索单元,用于当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
展示单元,用于当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
优选地,还包括实体模型训练单元,所述实体模型训练单元,具体用于:
在所述利用文档提取模型提取出该文档的主实体和各信息实体之前,获取预设数量的文档样本,识别每个文档样本内容的信息实体,使用文档标注工具标注每个信息实体的类型英文简记,以及使用文档标注工具分别标记每个信息实体的起始点位置、结束点位置,将每个信息实体的起始点位置、结束点位置分别以唯一标识符进行表示;将所有唯一标识符形成文档样本的初始标注数据;
针对文档样本的初始标注数据,逐行读取每个信息实体的各唯一标识符;针对每个信息实体,将所读取的信息实体的起始点位置和结束点位置相应的唯一标识符分别与各自相应的原始文档样本进行匹配;如果匹配到起始点位置,则将原始文档内的该信息实体的起始点位置相应的字标注为“B—信息实体名称英文简记”;否则将原始文档内的该信息实体的包括结束点位置的其他位置的信息标注为“I—信息实体名称英文简记”;将每个原始文档样本除被标记信息实体之外的信息称为非信息实体,并将每个非信息实体均采用“O”进行标注;将每个文档样本的被标注的信息实体和被标注的非实体信息的标注做为最终标注数据,所述最终标注数据为能够被待训练模型可识别的数据格式;
根据所获取的预设数量的所有文档样本的文本格式特点选择适用的待训练模型,将所有文档样本的最终标注数据输入所选择的待训练模型,其中,所述待训练模型包括如下模型之一:基于规则、词典、统计方法构建的模型,以及BERT模型、ALBERT模型、BiLSTM模型、CRF模型;
通过向训练模型输入最终标注数据,通过训练优化待训练模型的参数,使得待训练模型的评估指标达到各自预设要求,形成文档提取模型;其中,评估指标包括正确率、召回率、精确率和F值。
优选地,所述知识图谱制作单元包括:
第一触发设置子单元,用于在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,为新创建的主实体节点添加Ondblclick鼠标双击事件;所述Ondblclick鼠标双击事件用于鼠标双击主实体节点时进行响应;
第二触发设置子单元,用于在所述在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点之后,为新创建的信息实体节点添加Ondblclick鼠标双击事件,所述Ondblclick鼠标双击事件用于鼠标双击该信息实体节点时自动捕获与该信息实体节点连接的实体节点和连接;
所述基于知识图谱的文档检索系统,还包括交互式检索单元,所述交互式检索单元,具体用于:
如果用户在结果集中未找到目标文档,则执行步骤一,如果在步骤一中找到目标文档则停止继续执行;如果在步骤一未寻找到目标文档则继续执行步骤二、步骤一作为一个循环以寻找其他目标文档,如此直至寻找到目标文档:
用户在所触发的知识图谱内通过鼠标双击该文档的任一信息实体节点,为信息实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,自动捕获与该信息实体节点连接的实体节点和连接,返回所捕获的与该信息实体节点关联的所有主实体节点、以及该信息实体节点与各主实体节点之间的连接,通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档;
用户通过鼠标双击前一步骤所返回的任一主实体节点,为主实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,返回与该主实体节点关联的所有信息实体节点、以及相应的连接;通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定该主实体节点对应的文档包含哪些信息实体节点;该主实体节点对应的文档所包含的信息实体节点用于用户通过鼠标进行双击。
优选地,还包括:
第三触发单元,用于在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,为新创建的主实体节点添加Onmouseover鼠标滑过事件;所述Onmouseover鼠标滑过事件鼠标滑过文档标题节点进行响应;
所述展示单元,具体用于:
当用户在知识图谱内通过鼠标滑过任一主实体节点时,为主实体节点相应的文档标题添加的Onmouseover鼠标滑过事件进行响应,调取与统一标识符所对应的文档存储地址,自所对应的文档存储地址读取该文档,并利用工具包将该文档转化成用户可直接调阅的文件格式、或者转化成用户利用工具插件进行调阅的文件格式,将该可调阅的文档以预览文件进行展示。
优选地,还包括:
打印输出单元,用于在检索页面设置打印按钮,在打印按钮响应事件中添加打印函数;所述打印按钮用于在向用户展示预览文件之后,用户通过打印按钮请求打印函数时,通过打印函数调用用户所预览文档的原始文件存储路径,并对原始文件进行打印;和/或
导出输出单元,用于在检索页面设置导出按钮,为导出按钮相应事件中添加导出函数,所述导出按钮用于在向用户展示预览文件之后,用户通过导出按钮请求导出函数时,通过导出函数调用用户所述预览文档的原始文件存储路径,进而根据该路径读取文件流,实现预览文档的下载导出。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及的关键词及技术术语如下:
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
交互式检索:在检索用户不能构建良好的检索式的情况下,通过与检索平台交流互动并不断修改检索式,从而获得较准确检索结果的过程。
一种基于知识图谱的文档交互式检索(交互式检索在Step107至Step110中体现,采取“点击节点→关联图谱呈现→选中节点→再次响应”的方式进行循环交互)方法及系统,通过知识图谱构建一种语义、知识层级的文档检索方式,为用户提供基于图谱结构的文档实体点击关联、交互分析式的检索(即交互式检索)。
本发明实施例提供的方法包括:
1.使用文档标注工具,对文档样本中的信息实体(实体即实体信息、信息实体)进行标注;
2.将标注好的数据,输入模型训练;
3.利用标注好的模型,对检索文档进行实体关系(即实体和关系)提取;
4.利用提取出来的三元关系构建文档知识图谱;
5.在文档知识图谱中调取与查询关键词关联的所有节点;
6.响应用户点击某个图谱节点,隐藏其他节点,显示用户点击节点的关联关系(即连接关系、边)和节点(此节点是关联关系内的其他节点);
7.实时调阅预览用户关注的某个节点的文档;
8.根据用户预览后的确认结果,输出检索文档。
本发明实施例采取服务器/浏览器(Browser/Server)架构,待检索的文档存储于服务器数据库中,图谱(即文档知识图谱)呈现在前端页面。设置如下定义:
定义1:在图谱(即文档知识图谱)中,两个节点之间的一个关系长度为1,两个节点之间的关系长度称为边。
定义2:每个文档有且仅有一个编号,记为File_ID。
如图3-图5所示,基于知识图谱的文档交互式检索方法的具体步骤如下:
Step101.使用文档标注工具,对500份以上的文档样本进行信息实体标注。标注内容包括信息实体的起始点位置、结束点位置和信息实体类型英文简记3部分。其中,信息实体类型英文简记由用户自定义,一般取实体类型英文前3个大写字母,例如要标注“清华大学”这个信息实体,则使用组织机构类型,记为“ORG”,常用的信息实体类型英文简记如表1所示。
表1常用的信息实体标注代号表
Figure BDA0003311210990000121
标注完成后,标注工具将标注结果输出到以ann为扩展名的文件中,以“博鳌亚洲论坛定于2021年4月18日在海南博鳌举行”为例,标注工具完成标注输出结果如表2所示。
表2标注结果输出格式示例表
Figure BDA0003311210990000122
Step102.标记结果格式转换
由于标注工具的输出数据格式与待训练模型输入格式还不一致,则需要相应程序进行转换,转换成表1中“B或I—信息实体名称英文简记”和“O”的注记模式,转换实现方法:首先从表2第一行开始,逐行读取标注结果,将起始点和结束点信息,与标注原始文本进行对应匹配,如果是起始点位置,则将该字标注为“B—信息实体名称英文简记”,否则标注为“I—信息实体名称英文简记”,最后再将原始文本非实体的文字,以“O”进行标注,转换好的结果数据格式如表3所示。
表3格式转换结果数据示例表
Figure BDA0003311210990000123
Figure BDA0003311210990000131
Step103.将标注好的数据,输入模型训练。根据文本的不同,综合运用(综合运用是是根据文本格式特点采取不同的模型)现有的BERT,ALBERT,BiLSTM,CRF模型,以及基于规则、词典、统计等方法构建的模型,将标注好的结果数据输入进行训练,不断优化参数,提高模型的评估指标,评估指标主要包括正确率(正确率的含义是正确识别的样本数与所有参与实验的样本数之比)、召回率(召回率的含义是正确识别的实体个数与测试集中真实实体个数之比)、精确率(精确率的含义是正确识别的实体个数与模型识别的实体个数之比)和F值(F值的含义是正确率和召回率的调和平均值)等。
Step104.利用训练好的模型,进行文档实体关系(实体和关系)提取。读取某篇文档中的段落文本输入模型,模型自动提取文档的实体,然后根据提取的实体建立三元关系,格式为:(主实体,关系,信息实体),其中,主实体为提取的文档标题,如果文档无标题,则用文档名称替代,关系为提取的信息实体类型,信息实体为提取的主实体以外的其他实体名称。将File_ID作为该文档的所有三元关系的文档标识符,用于三元关系分组识别。
Step105.根据文档标识符,依次取出Step104提取的文档的所有三元关系,并从中读出主实体,查找知识图谱数据库中是否存在与主实体名称和文档标识符File_ID都相同的节点,如果不存在,则在知识图谱数据库中创建一个新节点,设置节点名称为“文档标题”(此处的文档标题是指节点的类型),将File_ID加入节点属性,为节点添加Onmouseover(鼠标滑过事件的代码表示)和Ondblclick(鼠标双击事件的代码表示),鼠标滑过或双击时自动捕获节点属性(节点属性只针对文档标题,即只针对主实体)。之后进入Step106。如果在知识图谱数据库中存在与主实体名称和文档标识符File_ID都相同的节点,则进入Step106,将该文档的信息实体节点与这个标题节点链接。
Step106.从Step104取出的三元关系中读出信息实体,在知识图谱数据库中查询是否有同名信息实体存在,如果存在,则直接将同名信息实体与其所在三元关系中主实体对应的文档标题节点连接,连接值为三元关系值;如果不存在,则创建新的信息实体节点,并将所创建的新的信息实体节点与文档标题节点(主实体节点)连接,连接值同样为三元关系值。为每个信息实体节点添加Ondblclick(鼠标双击事件),鼠标双击时自动捕获关联的实体节点和连接关系。
重复Step105、Step106,完成该篇文档的知识图谱构建后,再返回Step104,直至所有文档的实体关系提取和知识图谱节点Node和边(边是指知识谱图节点之间的连线,值为三元关系组中的关系)构建完成,具体见图2。
Step107.根据用户输入的查询关键词,在知识图谱数据库所有节点名称为“文档标题”的节点中(以下简称“文档标题节点”)查找匹配文档标题节点,并返回结果集。
当用户在结果集中双击查找某个文档标题节点后,系统根据该节点属性查找与该标题节点对应的所有信息实体节点和连接关系,结果集为:(文档标题节点→关系1→信息实体1),(文档标题节点→关系2→信息实体2),...,(文档标题节点→关系n→信息实体n),通过前端画布绘制,最终向用户呈现出一个以文档标题节点为中心根节点,信息实体节点为叶子节点的信息图谱。
Step108.利用Ondblclick鼠标双击事件捕获用户双击关注的某个节点
如果用户双击的是信息实体节点,则先隐藏其他所有节点(包括主实体节点),再查询返回与该信息实体节点关联的所有文档标题节点,结果集为:(信息实体←关系1←文档标题节点1),(信息实体←关系2←文档标题节点2),...,(信息实体←关系n←文档标题节点n);
如果用户双击的是文档标题节点,则先隐藏其他所有节点,再查询返回与该文档标题节点关联的所有信息实体节点,结果集为:(文档标题节点→关系1→信息实体1),(文档标题节点→关系2→信息实体2),...,(文档标题节点→关系n→信息实体n)。
将这些节点和关系绘制在前端画布上,向用户呈现一个以文档标题节点或信息实体节点为中心,所有边的长度为1的图谱结构。
Step109.利用Onmouseover鼠标滑过事件捕获用户滑过文档标题节点的节点属性(File_ID),然后调取与File_ID对应的文档存储地址,读取文档并利用工具包将文档转化成HTML、PDF等前端可直接调阅或者利用工具插件可调阅的文件格式,再在前端页面调取该文档预览文件呈现给用户,帮助用户判断该文档是否为需要查找的文档。重复Step108、Step109,直到用户找到目的文档为止,具体见图3。
Step110.在前端页面(就是文档预览页面、前端检索页面)设置打印和导出两个按钮,在打印按钮响应事件(点击按钮时的响应函数)中添加打印函数,该函数在用户请求时,调用正在预览文档的原始文件存储路径,并进行打印输出(输出的文档打印结果);为导出按钮添加响应函数,该函数在用户请求时,也调用正在预览文档的存储路径,进而根据该路径读取文件流,实现预览文档的文档源文件进行下载导出。
本发明所取得的有益效果如下:
本发明改变了传统文档检索结果简单的文本字符匹配,从文本的语义、知识层面上进行理解和分析,对静态的,孤立的文档进行实体关系提取,通过实体与实体之间的关联,使文档与文档之间建立联系,进而实现网络化的图谱搜索;基于知识图谱的检索方式,可主动向用户呈现文档的知识信息结构,主动引导用户进行检索,改变了以往用户被动尝试性的输入查找;以图谱网络的形式为用户提供交互检索,较传统的检索方式更加清晰形象,可读性更强,用户体验感更好。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱的文档检索方法,其特征在于,包括:
针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;
用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
2.根据权利要求1所述的基于知识图谱的文档检索方法,其特征在于,在所述利用文档提取模型提取出该文档的主实体和各信息实体之前,还包括:
获取预设数量的文档样本,识别每个文档样本内容的信息实体,使用文档标注工具标注每个信息实体的类型英文简记,以及使用文档标注工具分别标记每个信息实体的起始点位置、结束点位置,将每个信息实体的起始点位置、结束点位置分别以唯一标识符进行表示;将所有唯一标识符形成文档样本的初始标注数据;
针对文档样本的初始标注数据,逐行读取每个信息实体的各唯一标识符;针对每个信息实体,将所读取的信息实体的起始点位置和结束点位置相应的唯一标识符分别与各自相应的原始文档样本进行匹配;如果匹配到起始点位置,则将原始文档内的该信息实体的起始点位置相应的字标注为“B—信息实体名称英文简记”;否则将原始文档内的该信息实体的包括结束点位置的其他位置的信息标注为“I—信息实体名称英文简记”;将每个原始文档样本除被标记信息实体之外的信息称为非信息实体,并将每个非信息实体均采用“O”进行标注;将每个文档样本的被标注的信息实体和被标注的非实体信息的标注做为最终标注数据,所述最终标注数据为能够被待训练模型可识别的数据格式;
根据所获取的预设数量的所有文档样本的文本格式特点选择适用的待训练模型,将所有文档样本的最终标注数据输入所选择的待训练模型,其中,所述待训练模型包括如下模型之一:基于规则、词典、统计方法构建的模型,以及BERT模型、ALBERT模型、BiLSTM模型、CRF模型;
通过向训练模型输入最终标注数据,通过训练优化待训练模型的参数,使得待训练模型的评估指标达到各自预设要求,形成文档提取模型;其中,评估指标包括正确率、召回率、精确率和F值。
3.根据权利要求1所述的基于知识图谱的文档检索方法,其特征在于,在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,还包括:
为新创建的主实体节点添加Ondblclick鼠标双击事件;所述Ondblclick鼠标双击事件用于鼠标双击主实体节点时进行响应;
在所述在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点之后,还包括:
为新创建的信息实体节点添加Ondblclick鼠标双击事件,所述Ondblclick鼠标双击事件用于鼠标双击该信息实体节点时自动捕获与该信息实体节点连接的实体节点和连接;
所述基于知识图谱的文档检索方法,还包括:如果用户在结果集中未找到目标文档,则执行步骤一,如果在步骤一中找到目标文档则停止继续执行;如果在步骤一未寻找到目标文档则继续执行步骤二、步骤一作为一个循环以寻找其他目标文档,如此直至寻找到目标文档:
步骤一:用户在所触发的知识图谱内通过鼠标双击该文档的任一信息实体节点,为信息实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,自动捕获与该信息实体节点连接的实体节点和连接,返回所捕获的与该信息实体节点关联的所有主实体节点、以及该信息实体节点与各主实体节点之间的连接,通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档;
步骤二:用户通过鼠标双击前一步骤所返回的任一主实体节点,为主实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,返回与该主实体节点关联的所有信息实体节点、以及相应的连接;通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定该主实体节点对应的文档包含哪些信息实体节点;该主实体节点对应的文档所包含的信息实体节点用于用户通过鼠标进行双击。
4.根据权利要求1所述的基于知识图谱的文档检索方法,其特征在于,在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,还包括:
为新创建的主实体节点添加Onmouseover鼠标滑过事件;所述Onmouseover鼠标滑过事件鼠标滑过文档标题节点进行响应;
所述通过前端画布绘制所触发文档的知识图谱并展示,具体包括:
当用户在知识图谱内通过鼠标滑过任一主实体节点时,为主实体节点相应的文档标题添加的Onmouseover鼠标滑过事件进行响应,调取与统一标识符所对应的文档存储地址,自所对应的文档存储地址读取该文档,并利用工具包将该文档转化成用户可直接调阅的文件格式、或者转化成用户利用工具插件进行调阅的文件格式,将该可调阅的文档以预览文件进行展示,以帮助用户确定该文档是否为目标文档。
5.根据权利要求4所述的基于知识图谱的文档检索方法,其特征在于,还包括:
在检索页面设置打印按钮,在打印按钮响应事件中添加打印函数;所述打印按钮用于在向用户展示预览文件之后,用户通过打印按钮请求打印函数时,通过打印函数调用用户所预览文档的原始文件存储路径,并对原始文件进行打印;和/或
在检索页面设置导出按钮,为导出按钮相应事件中添加导出函数,所述导出按钮用于在向用户展示预览文件之后,用户通过导出按钮请求导出函数时,通过导出函数调用用户所述预览文档的原始文件存储路径,进而根据该路径读取文件流,实现预览文档的下载导出。
6.一种基于知识图谱的文档检索系统,其特征在于,包括:
三元关系提取单元,用于针对收到的任一文档,利用文档提取模型提取出该文档的主实体和各信息实体,以及利用文档提取模型确定各信息实体在该文档内的类型,并将信息实体在该文档内的类型称为关系;为每个信息实体建立三元关系,且将该文档的标识符做为该文档所有三元关系的统一文档标识符;其中,主实体是指文档标题,信息实体是指除主实体以外的其他实体名称,所述每个信息实体的三元关系包括:主实体、关系和信息实体;
知识图谱制作单元,用于根据统一文档标识符依次获取该文档的所有三元关系,自任一三元关系中读取主实体;以及,自知识图谱数据库中查找是否存在与该文档的主实体、统一文档标识符均相同的主实体节点;
如果知识图谱数据库中不存在与该文档的主实体、统一文档标识符均相同的主实体节点,则在知识图谱数据库中创建一个新节点做为该文档的主实体节点,将该文档主实体相应的文档标题做为该主实体节点的名称,并将该文档三元关系的统一标识符加入该主实体节点属性;
如果识图谱数据库中存在与该文档的主实体、统一文档标识符均相同的主实体节点,则不为该文档主实体创建主实体节点,将与该文档的主实体、统一文档标识符均相同的节点做为该文档的主实体节点;
针对该文档的每个三元关系,自三元关系中读取信息实体,在知识图谱数据库中查询是否存在与该三元关系内的信息实体的同名信息实体;
如果在知识图谱数据库中存在与该三元关系内的信息实体的同名信息实体,则将该三元关系中的主实体与知识图谱数据库中同名信息实体节点相连,并将该三元关系内的关系做为主实体与知识图谱数据库中同名信息实体节点之间的连接;
如果不存在与该三元关系内的信息实体的同名信息实体,则在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点,将所创建的信息实体节点与该文档的主实体节点连接,并将该信息实体的三元关系内的关系做为主实体与该信息实体节点之间的连接;
检索单元,用于当任一用户通过检索页面自图谱数据库中检索文档时,根据用户输入的关键词在知识图谱数据库内主实体节点中进行查找匹配,将与关键词相匹配的主实体节点形成结果集并返回给检索页面;
展示单元,用于当用户在结果集中触发任一主实体节点的文档标题后,根据该主实体节点属性查找与该主实体对应的所有信息实体和相应的关系,通过前端画布绘制所触发文档的知识图谱并展示;其中,所触发文档的知识图谱以其主实体节点为中心根节点、以其信息实体节点为叶子节点、中心根节点与叶子节点通过叶子节点所代表的信息实体的关系进行连接;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档。
7.根据权利要求6所述的基于知识图谱的文档检索系统,其特征在于,还包括实体模型训练单元,所述实体模型训练单元,具体用于:
在所述利用文档提取模型提取出该文档的主实体和各信息实体之前,获取预设数量的文档样本,识别每个文档样本内容的信息实体,使用文档标注工具标注每个信息实体的类型英文简记,以及使用文档标注工具分别标记每个信息实体的起始点位置、结束点位置,将每个信息实体的起始点位置、结束点位置分别以唯一标识符进行表示;将所有唯一标识符形成文档样本的初始标注数据;
针对文档样本的初始标注数据,逐行读取每个信息实体的各唯一标识符;针对每个信息实体,将所读取的信息实体的起始点位置和结束点位置相应的唯一标识符分别与各自相应的原始文档样本进行匹配;如果匹配到起始点位置,则将原始文档内的该信息实体的起始点位置相应的字标注为“B—信息实体名称英文简记”;否则将原始文档内的该信息实体的包括结束点位置的其他位置的信息标注为“I—信息实体名称英文简记”;将每个原始文档样本除被标记信息实体之外的信息称为非信息实体,并将每个非信息实体均采用“O”进行标注;将每个文档样本的被标注的信息实体和被标注的非实体信息的标注做为最终标注数据,所述最终标注数据为能够被待训练模型可识别的数据格式;
根据所获取的预设数量的所有文档样本的文本格式特点选择适用的待训练模型,将所有文档样本的最终标注数据输入所选择的待训练模型,其中,所述待训练模型包括如下模型之一:基于规则、词典、统计方法构建的模型,以及BERT模型、ALBERT模型、BiLSTM模型、CRF模型;
通过向训练模型输入最终标注数据,通过训练优化待训练模型的参数,使得待训练模型的评估指标达到各自预设要求,形成文档提取模型;其中,评估指标包括正确率、召回率、精确率和F值。
8.根据权利要求7所述的基于知识图谱的文档检索系统,其特征在于,所述知识图谱制作单元包括:
第一触发设置子单元,用于在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,为新创建的主实体节点添加Ondblclick鼠标双击事件;所述Ondblclick鼠标双击事件用于鼠标双击主实体节点时进行响应;
第二触发设置子单元,用于在所述在知识图谱数据库中创建一个新节点做为该三元关系中的信息实体节点之后,为新创建的信息实体节点添加Ondblclick鼠标双击事件,所述Ondblclick鼠标双击事件用于鼠标双击该信息实体节点时自动捕获与该信息实体节点连接的实体节点和连接;
所述基于知识图谱的文档检索系统,还包括交互式检索单元,所述交互式检索单元,具体用于:
如果用户在结果集中未找到目标文档,则执行步骤一,如果在步骤一中找到目标文档则停止继续执行;如果在步骤一未寻找到目标文档则继续执行步骤二、步骤一作为一个循环以寻找其他目标文档,如此直至寻找到目标文档:
用户在所触发的知识图谱内通过鼠标双击该文档的任一信息实体节点,为信息实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,自动捕获与该信息实体节点连接的实体节点和连接,返回所捕获的与该信息实体节点关联的所有主实体节点、以及该信息实体节点与各主实体节点之间的连接,通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定各主实体节点对应的文档是否为目标文档;
用户通过鼠标双击前一步骤所返回的任一主实体节点,为主实体节点添加的Ondblclick鼠标双击事件进行响应,先隐藏其他所有节点,返回与该主实体节点关联的所有信息实体节点、以及相应的连接;通过前端画布绘制相应的知识图谱并展示;用户根据知识图谱确定该主实体节点对应的文档包含哪些信息实体节点;该主实体节点对应的文档所包含的信息实体节点用于用户通过鼠标进行双击。
9.根据权利要求6所述的基于知识图谱的文档检索系统,其特征在于,还包括:
第三触发单元,用于在所述将该文档三元关系的统一文档标识符加入该主实体节点属性之后,为新创建的主实体节点添加Onmouseover鼠标滑过事件;所述Onmouseover鼠标滑过事件鼠标滑过文档标题节点进行响应;
所述展示单元,具体用于:
当用户在知识图谱内通过鼠标滑过任一主实体节点时,为主实体节点相应的文档标题添加的Onmouseover鼠标滑过事件进行响应,调取与统一标识符所对应的文档存储地址,自所对应的文档存储地址读取该文档,并利用工具包将该文档转化成用户可直接调阅的文件格式、或者转化成用户利用工具插件进行调阅的文件格式,将该可调阅的文档以预览文件进行展示,以帮助用户确定该文档是否为目标文档。
10.根据权利要求9所述的基于知识图谱的文档检索系统,其特征在于,还包括:
打印输出单元,用于在检索页面设置打印按钮,在打印按钮响应事件中添加打印函数;所述打印按钮用于在向用户展示预览文件之后,用户通过打印按钮请求打印函数时,通过打印函数调用用户所预览文档的原始文件存储路径,并对原始文件进行打印;和/或
导出输出单元,用于在检索页面设置导出按钮,为导出按钮相应事件中添加导出函数,所述导出按钮用于在向用户展示预览文件之后,用户通过导出按钮请求导出函数时,通过导出函数调用用户所述预览文档的原始文件存储路径,进而根据该路径读取文件流,实现预览文档的下载导出。
CN202111217200.9A 2021-10-19 2021-10-19 一种基于知识图谱的文档检索方法及系统 Pending CN114064913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111217200.9A CN114064913A (zh) 2021-10-19 2021-10-19 一种基于知识图谱的文档检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111217200.9A CN114064913A (zh) 2021-10-19 2021-10-19 一种基于知识图谱的文档检索方法及系统

Publications (1)

Publication Number Publication Date
CN114064913A true CN114064913A (zh) 2022-02-18

Family

ID=80234921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111217200.9A Pending CN114064913A (zh) 2021-10-19 2021-10-19 一种基于知识图谱的文档检索方法及系统

Country Status (1)

Country Link
CN (1) CN114064913A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544106A (zh) * 2022-12-01 2022-12-30 云南电网有限责任公司信息中心 呼叫中心平台的内部事件检索方法、系统及计算机设备
CN116028597A (zh) * 2023-03-27 2023-04-28 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544106A (zh) * 2022-12-01 2022-12-30 云南电网有限责任公司信息中心 呼叫中心平台的内部事件检索方法、系统及计算机设备
CN115544106B (zh) * 2022-12-01 2023-02-28 云南电网有限责任公司信息中心 呼叫中心平台的内部事件检索方法、系统及计算机设备
CN116028597A (zh) * 2023-03-27 2023-04-28 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备
CN116028597B (zh) * 2023-03-27 2023-07-21 南京燧坤智能科技有限公司 对象检索方法、装置、非易失性存储介质及计算机设备

Similar Documents

Publication Publication Date Title
JP7064262B2 (ja) 自然言語生成技術に基づく知識グラフ理解支援システム
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Zhao et al. Facilitating discourse analysis with interactive visualization
CN101488151B (zh) 一种聚合Web站点内容的系统和方法
US8868556B2 (en) Method and device for tagging a document
CN102456054B (zh) 一种搜索方法及系统
EP1672537A2 (en) Data semanticizer
CN110377908B (zh) 语义理解方法、装置、设备及可读存储介质
CN100444591C (zh) 获取网页关键字的方法及其应用系统
US20070061703A1 (en) Method and apparatus for annotating a document
CN114064913A (zh) 一种基于知识图谱的文档检索方法及系统
CN110175585B (zh) 一种简答题自动批改系统及方法
JPH11143912A (ja) 関連文書表示装置
WO2021147786A1 (zh) 知识图谱的构建方法及装置、存储介质、电子设备
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN111767334B (zh) 信息抽取方法、装置、电子设备及存储介质
CN102567310B (zh) 基于智能知识库的网络化人工智能翻译系统及其翻译方法
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN101782924A (zh) 信息处理方法、信息处理设备和程序
CN110008314B (zh) 一种意图解析方法及装置
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination