CN113221562A - 一种基于知识图谱提高文书档案检索效率的方法及系统 - Google Patents

一种基于知识图谱提高文书档案检索效率的方法及系统 Download PDF

Info

Publication number
CN113221562A
CN113221562A CN202110397558.8A CN202110397558A CN113221562A CN 113221562 A CN113221562 A CN 113221562A CN 202110397558 A CN202110397558 A CN 202110397558A CN 113221562 A CN113221562 A CN 113221562A
Authority
CN
China
Prior art keywords
document
entity
entities
knowledge
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110397558.8A
Other languages
English (en)
Inventor
刘泽
杨志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ruituode Intelligent Information Technology Co ltd
Hohai University HHU
Original Assignee
Nanjing Ruituode Intelligent Information Technology Co ltd
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Ruituode Intelligent Information Technology Co ltd, Hohai University HHU filed Critical Nanjing Ruituode Intelligent Information Technology Co ltd
Priority to CN202110397558.8A priority Critical patent/CN113221562A/zh
Publication of CN113221562A publication Critical patent/CN113221562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱提高文书档案检索效率的方法及系统,该方法包括一、从计算机中获取文书档案文本数据;二、根据获取的文本数据特点构建文书档案领域本体;三、从获取的文本数据中抽取文书档案领域本体的三元组实例数据;步骤四、通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据;步骤五、通过IKAnalyzer分词工具对查询语句进行解析,用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询。本发明以知识图谱为基础,以文书档案的事件概念为核心,挖掘文书档案的文书信息和文书内容的知识,构建文书档案事件知识图谱,通过构建知识存储模块和知识查询模块提供文书档案基于语义的检索方式,提升了文书档案检索效率。

Description

一种基于知识图谱提高文书档案检索效率的方法及系统
技术领域
本发明属于信息资源管理技术领域,具体涉及一种基于知识图谱提高文书档案检索效率的方法及系统。
背景技术
近些年,随着信息科技的不断进步,档案信息化也得到了快速发展,档案数据量呈现几何级增长,致使基于传统档案检索技术的档案管理系统,在档案信息检索方面的工作变得愈发困难。传统档案信息检索系统采用的时关键词匹配技术,只能进行词形的机械匹配,在数据量较小时,检索效果尚能接受,但随着信息化档案数量的不断提升,检索效果只会变得越来越差,很难做到通过语义进行精准查找,用户在面对大量无效的检索结果时,获取所需检索结果变得极为困难。
文书档案是所有档案分类里最常见的一类,文书档案是由通用文书转化而来的一部分档案的习惯称谓,其最主要的特点便是其中包含了大量语义信息,尤其是事件信息。由于目前我国档案信息化进程还在逐步发展过程中,存储在计算机中的文书档案数据只有部分经过电子化处理变成了文本数据,还有大量文书档案数据是以原实体文书的PDF或图片等快照形式存储,无法直接进行自然语言相关处理。
发明内容
本发明的目的在于提供的一种基于知识图谱提高文书档案检索效率的方法及系统,解决现有技术中档案信息管理系统通过关键词匹配方式进行机械检索,在面对大数据状况时查询精度低,检索效率低下的技术问题。
为解决上述技术问题,本发明提供如下技术方案:
一种基于知识图谱提高文书档案检索效率的方法,包括如下步骤:
步骤一、从计算机存储的数据中获取文书档案文本数据;
步骤二、根据获取的文书档案文本数据特点构建文书档案领域本体;
步骤三、通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,以构建的文书档案领域本体为模板,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据;
步骤四、通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据;
步骤五、通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询。
进一步优化,所述步骤一中从计算机获取文书档案文本数据,包括获取原始文本数据和采用模式识别技术对PDF格式或图片类格式的文书档案进行预处理转化成的文本数据。
进一步优化,所述步骤二中根据获取的文书档案文本数据特点构建文书档案领域本体,包括如下步骤:
2.1、结合文书档案的存储特征及智能检索规则构建需要,提出以事件概念为中心的概念本体模型;在概念本体模型中,文书事件实体为中心实体,还包括发文机构、发文类型、人物、地点与时间六大类实体;
2.2、构建实体关系,以文书事件实体为中心,发文机构、发文类型、人物、地点与时间类实体与文书事件实体直接相关联。
进一步优化,所述发文机构类实体包含事业单位、国企和私企实体;发文类型类实体包含通知、公告和决定实体;人物类实体分为事件人物和发文负责人实体;地点分为事件地点和发文地点实体;时间类实体分为事件时间和发文时间实体。
进一步优化,所述步骤三中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,以构建的文书档案领域本体为模板,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据,包括如下步骤:
3.1、通过中文分词工具对文书档案文本数据进行预处理,生成中文文本分词数据;
3.2通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体;
3.3、通过编写各实体间单一关系规则的方式抽取实体关系三元组数据。
进一步优化,所述步骤3.2中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体,包括:
3.2.1、通过Bert预训练语言模型,对待处理分词数据进行字向量编码;
3.2.2、通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体;
3.2.3、通过平面NER层的堆叠结构识别出所有的嵌套实体。
进一步优化,所述步骤3.2.2中通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体,包括:
3.2.2.1、通过BiLSTM模型获取字符序列的上下文编码信息;
3.2.2.2、通过Attention模型获取对字符序列的上下文信息权重进行重分配;
3.2.2.3、通过CRF模型对经过编码的序列信息进行解码,识别出当前层的非嵌套实体。
进一步优化,所述步骤3.2.3中通过平面NER层的堆叠结构识别出所有的嵌套实体,包括:如果平面NER层预测到任何实体,则会引入一个新的NER层,并融合当前NER层的每个检测到的实体的词序表示,来构成该实体表示,然后将其作为输入传递到新的NER层,否则终止模型的堆叠,完成嵌套实体的识别。
进一步优化,所述步骤五中通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询,包括如下步骤:
5.1、通过IKAnalyzer分词工具对查询语句进行预处理,识别出语句中存在的实体;
5.2、通过同义词典对识别出的实体进行语义转换;
5.3、通过调用JanusGraph图数据库查询API对知识图谱进行查询,查找与对应实体均有联系的文书事件实体即为查询结果,返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。
一种基于知识图谱提高文书档案检索效率的系统,包括:
数据获取模块,用于获取文书档案文本数据;
知识抽取模块,通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法对数据获取模块获取的文书档案文本数据进行知识抽取,生成文书档案三元组实例数据;
知识存储模块,使用JanusGraph图数据库用于存储文书档案三元组数据,提供知识查询接口;
知识查询模块,通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API对知识图谱进行查询,查找与对应实体均有联系的文书事件实体即为查询结果,返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。
与现有技术相比,本发明具有如下有益效果:
本发明以知识图谱为基础,以文书档案的事件概念为核心,挖掘文书档案的文书信息和文书内容的知识,构建文书档案事件知识图谱,通过构建知识存储模块和知识查询模块提供文书档案基于语义的检索方式,大大提升了文书档案检索效率。
附图说明
图1为本发明所述基于知识图谱提高文书档案检索效率的方法的流程图;
图2为本发明所述文书档案文书数据处理过程具体示例的流程图;
图3为本发明所述文书档案概念层本体的模型图;
图4为本发明所述文书档案嵌套实体抽取过程具体示例的流程图;
图5为本发明所述结合注意力机制的平面NER模型图;
图6为本发明所述文书档案知识查询过程具体示例的流程图;
图7为本发明所述基于知识图谱增强文书档案检索效率的系统的模块组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述地实施例是本发明一部分实施例,而不是全部地实施例。基于本发明中地实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,一种基于知识图谱提高文书档案检索效率的方法,包括如下步骤:
S1:从计算机中获取文书档案文本数据。
在本实施例中,如图2所示,根据文书档案数据特点,其存储的数据本质是一份文书数据,然而,由于目前我国档案信息化进程还在逐步发展过程中,存储在计算机中的文书档案数据只有部分经过电子化处理变成了文本数据,还有大量文书档案数据是以原实体文书的PDF或图片等快照形式存储,无法直接进行自然语言相关处理,故在对这些快照类数据进行处理前,需要使用OCR等模式识别技术将这些无法直接进行处理的快照数据转换成文本数据后再进行处理。
S2:根据获取的文书档案文本数据特点构建文书档案领域本体。
在知识图谱的常规构建方法中,分为自底向上构建知识图谱和自顶向下构建知识图谱两种方式。
在本实施例中,采用自顶向下的构建方式。在该方法中,首先是结合领域数据的特征,手工构建出知识图谱的概念层本体,再依据概念层本体要求,抽取出对应的实例实体和关系,这样构建出的领域知识往往具有更好的质量。档案资源作为一个强领域性的数据资源,理应采用自顶向下的知识图谱构建方式。
在本实施例中,如图3所示,在构建文书档案概念层本体阶段,根据文书档案自身的存储特征,以及文书档案内容多为事件的描述的特点再结合在查档过程中,用户往往会以某事件概念去进行资源查找的现象,构建了以文书事件为中心的文书档案概念层本体,在这个概念层本体中,中心实体为文书事件实体,其余的主要分为发文机构、发文类型、人物、地点与时间六大类实体,发文机构类实体包含事业单位、国企和私企实体;发文类型类实体包含通知、公告和决定实体;人物类实体分为事件人物和发文负责人实体;地点分为事件地点和发文地点实体;时间类实体分为事件时间和发文时间实体。
在实体关系构建层面上,以文书事件实体为中心,发文机构、发文类型、人物、地点与时间类实体与文书事件实体直接相关联。通过这些实体节点,用户可以实现传统档案检索系统所无法实现的通过文书档案内容来进行信息检索。
S3:以构建的文书档案领域本体为模板,通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据。
在本发明实施例中,所述通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,以构建的文书档案领域本体为模板,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据的步骤,包括:
3.1、通过中文分词工具对文书档案文本数据进行预处理,生成中文文本分词数据;
3.2、通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体;
3.3、通过基于规则的方法抽取实体关系三元组数据。
在本实施例中,通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体的步骤,包括:
3.2.1、通过Bert预训练语言模型,对待处理分词数据进行字向量编码;
3.2.2、通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体,通过平面NER层的堆叠结构识别出所有的嵌套实体。
在本发明实施例中,所述通过平面NER层的堆叠结构识别出所有的嵌套实体的步骤,包括:如果平面NER层预测到任何实体,则会引入一个新的NER层,并融合当前NER层的每个检测到的实体的词序表示,来构成该实体表示,然后将其作为输入传递到新的NER层,否则终止模型的堆叠,完成嵌套实体的识别。
实际上,由于在文书档案文本数据中,经常会遇到嵌套实体的情况,如“南京XX大学校长”这句话,“南京”表示的是一个地点,“南京XX大学”表示的是一个机构,“南京XX大学校长”又表示一个人,在文本中出现这种情况就叫做嵌套实体,一般的实体抽取模型无法识别出嵌套实体,本发明采用层叠式嵌套命名实体识别模型,如图4所示,其中EmbeddingLayer为词嵌入层,即通过上述的Bert模型获取中文字符的向量表示,Flat NER Layer为平面NER层,每一层都表示对当前输入向量序列进行一次命名实体识别,矩形表示各字符的向量表示,椭圆表示对该字符的实体识别结果的标签表示,B-X表示实体X的开头字符,I-X表示实体X的中间至结尾字符,O表示非实体字符。整体模型由多个平面NER层组成,每一个平面NER层负责对当前输入的向量序列进行命名实体识别,识别出的实体结果以BIO的方式进行标注,若当前层识别出了至少一个命名实体,则向上堆叠一个新的平面NER层,并对识别出的命名实体字符序列进行融合作为新的平面NER层的输入,以此类推,直到新的NER层识别不出命名实体时停止嵌套。在平面NER层的设计中,本发明采用了BiLSTM+Attention+CRF实体抽取模型来提升实体抽取的精度,如图5所示,模型由三部分组成,Encoder表示部分是编码器,Decoder表示该部分是解码器,BiLSTM Layer表示该层使用BiLSTM模型进行处理,Attention Layer表示该层使用Attention模型进行处理,CRF Layer表示该层使用CRF模型进行处理,圆形和箭头分别代表输入字符向量当前的处理结果和处理过程方向。整体模型通过BiLSTM和Attention模型对输入字符向量序列进行编码,分别获取其上下文语义信息以及对这些信息权重进行优化再分配,最后使用CRF模型对编码后的字符向量序列进行解码,获取实体BIO标签。最后通过编写各实体间单一关系规则的方式,结合实体抽取结果和概念层关系设定,抽取出实体关系三元组。
步骤S4:通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据。
在本发明实施例中,使用JanusGraph图数据库来存储知识图谱信息,首先依据概念层本体模型,在初始化的JanusGraph中显示定义图的Schema结构,然后将抽取的三元组数据进行解析并存入到JanusGraph图数据库中,完成知识图谱的存储工作。
步骤S5:通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询。
在本发明实施例中,如图6所示,知识查询模型为本发明最为重要的一个模块,通过以上4步已成功构建了文书档案知识图谱,可以利用知识查询模块通过语义的方式对文书档案进行检索,如查询“张三升职的资料”,传统档案查询系统根据词匹配的方式进行查询,难以查到准确的文书档案文件,而知识查询模型首先会使用IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,识别出里面包含待查询数据中的“事件人物”是“张三”,“事件类型”是“升职”,于是对JanusGraph图数据库发起查询请求,查询与“张三”节点和“升职”节点相连接的“文书事件”节点信息,便是我们需要的查询结果,于是找到该节点并返回与该节点所有相连节点的信息,完成知识查询的操作。
实施例2:
如图7所示,基于知识图谱提高文书档案检索效率的系统,包括:
数据获取模块1,用于获取文本类数据,此模块执行实施例1中的步骤S1、S2所描述的方法,在此不再赘述;
知识抽取模块2,用于识别文书档案的文本数据,生成文书档案三元组实例数据,此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述;
知识存储模块3,用于存储融合后的文书档案三元组数据,提供知识查询接口,此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述;
知识查询模块4,用于对查询信息进行预处理,查询知识图谱并返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户,此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
本发明实施例提供一种基于知识图谱增强文书档案检索效率的系统,基于实体识别、关系抽取等技术实现文书档案的文书信息和文书内容知识的抽取,对文书档案核心知识资源进行组织和表示,挖掘档案内部语义信息,然后结合知识存储、知识查询等技术,提供从语义层面进行文书档案检索的方式,解决传统档案检索精度差、效率低的问题,为档案信息化发展提供有力支撑。

Claims (10)

1.一种基于知识图谱提高文书档案检索效率的方法,其特征在于,包括如下步骤:
步骤一、从计算机存储的数据中获取文书档案文本数据;
步骤二、根据获取的文书档案文本数据特点构建文书档案领域本体;
步骤三、通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,以构建的文书档案领域本体为模板,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据;
步骤四、通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据;
步骤五、通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询。
2.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤一中从计算机获取文书档案文本数据,包括获取原始文本数据和采用模式识别技术对PDF格式或图片类格式的文书档案进行预处理转化成的文本数据。
3.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤二中根据获取的文书档案文本数据特点构建文书档案领域本体,包括如下步骤:
2.1、结合文书档案的存储特征及智能检索规则构建需要,提出以事件概念为中心的概念本体模型;在概念本体模型中,文书事件实体为中心实体,还包括发文机构、发文类型、人物、地点与时间六大类实体;
2.2、构建实体关系,以文书事件实体为中心,发文机构、发文类型、人物、地点与时间类实体与文书事件实体直接相关联。
4.根据权利要求3所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述发文机构类实体包含事业单位、国企和私企实体;发文类型类实体包含通知、公告和决定实体;人物类实体分为事件人物和发文负责人实体;地点分为事件地点和发文地点实体;时间类实体分为事件时间和发文时间实体。
5.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤三中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法,以构建的文书档案领域本体为模板,从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据,包括如下步骤:
3.1、通过中文分词工具对文书档案文本数据进行预处理,生成中文文本分词数据;
3.2通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体;
3.3、通过编写各实体间单一关系规则的方式抽取实体关系三元组数据。
6.根据权利要求5所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤3.2中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中,包含嵌套命名实体在内的所有实体,包括:
3.2.1、通过Bert预训练语言模型,对待处理分词数据进行字向量编码;
3.2.2、通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体;
3.2.3、通过平面NER层的堆叠结构识别出所有的嵌套实体。
7.根据权利要求6所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤3.2.2中通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体,包括:
3.2.2.1、通过BiLSTM模型获取字符序列的上下文编码信息;
3.2.2.2、通过Attention模型获取对字符序列的上下文信息权重进行重分配;
3.2.2.3、通过CRF模型对经过编码的序列信息进行解码,识别出当前层的非嵌套实体。
8.根据权利要求6所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤3.2.3中通过平面NER层的堆叠结构识别出所有的嵌套实体,包括:如果平面NER层预测到任何实体,则会引入一个新的NER层,并融合当前NER层的每个检测到的实体的词序表示,来构成该实体表示,然后将其作为输入传递到新的NER层,否则终止模型的堆叠,完成嵌套实体的识别。
9.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法,其特征在于,所述步骤五中通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API完成智能语义查询,包括如下步骤:
5.1、通过IKAnalyzer分词工具对查询语句进行预处理,识别出语句中存在的实体;
5.2、通过同义词典对识别出的实体进行语义转换;
5.3、通过调用JanusGraph图数据库查询API对知识图谱进行查询,查找与对应实体均有联系的文书事件实体即为查询结果,返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。
10.一种基于知识图谱提高文书档案检索效率的系统,其特征在于,包括:
数据获取模块,用于获取文书档案文本数据;
知识抽取模块,通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法对数据获取模块获取的文书档案文本数据进行知识抽取,生成文书档案三元组实例数据;
知识存储模块,使用JanusGraph图数据库用于存储文书档案三元组数据,提供知识查询接口;
知识查询模块,通过IKAnalyzer分词工具对查询语句进行解析,并使用同义词典进行语义转换,调用JanusGraph图数据库查询API对知识图谱进行查询,查找与对应实体均有联系的文书事件实体即为查询结果,返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。
CN202110397558.8A 2021-04-14 2021-04-14 一种基于知识图谱提高文书档案检索效率的方法及系统 Pending CN113221562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397558.8A CN113221562A (zh) 2021-04-14 2021-04-14 一种基于知识图谱提高文书档案检索效率的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397558.8A CN113221562A (zh) 2021-04-14 2021-04-14 一种基于知识图谱提高文书档案检索效率的方法及系统

Publications (1)

Publication Number Publication Date
CN113221562A true CN113221562A (zh) 2021-08-06

Family

ID=77087101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397558.8A Pending CN113221562A (zh) 2021-04-14 2021-04-14 一种基于知识图谱提高文书档案检索效率的方法及系统

Country Status (1)

Country Link
CN (1) CN113221562A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004236A (zh) * 2021-09-18 2022-02-01 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114398498A (zh) * 2022-01-21 2022-04-26 中国电子科技集团公司第十研究所 一种科技档案知识图谱构建方法及系统
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN115774805A (zh) * 2023-02-10 2023-03-10 江苏联著实业股份有限公司 一种基于数字化处理的档案智能查询方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111813959A (zh) * 2020-07-29 2020-10-23 安徽省气象信息中心 气象记录档案知识图谱构建方法
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
CN112463992A (zh) * 2021-02-04 2021-03-09 中至江西智能技术有限公司 基于麻将领域知识图谱的决策辅助自动问答方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111813959A (zh) * 2020-07-29 2020-10-23 安徽省气象信息中心 气象记录档案知识图谱构建方法
CN112417880A (zh) * 2020-11-30 2021-02-26 太极计算机股份有限公司 一种面向法院电子卷宗的案情信息自动抽取方法
CN112463992A (zh) * 2021-02-04 2021-03-09 中至江西智能技术有限公司 基于麻将领域知识图谱的决策辅助自动问答方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姜同强等: "基于双向编码器表示模型和注意力机制的食品安全命名实体识别", 《科学技术与工程》, vol. 21, no. 03, pages 1103 - 1108 *
王珅: "基于嵌套命名实体识别的肿瘤知识图谱构建", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 03, pages 072 - 21 *
王黔驹等: "《地质资料信息服务集群化产业化研究》", vol. 978, 北京:商务印书馆;上海外语音像出版社, pages: 302 - 304 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004236A (zh) * 2021-09-18 2022-02-01 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114004236B (zh) * 2021-09-18 2024-04-30 昆明理工大学 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114398498A (zh) * 2022-01-21 2022-04-26 中国电子科技集团公司第十研究所 一种科技档案知识图谱构建方法及系统
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN115774805A (zh) * 2023-02-10 2023-03-10 江苏联著实业股份有限公司 一种基于数字化处理的档案智能查询方法及系统

Similar Documents

Publication Publication Date Title
CN113221562A (zh) 一种基于知识图谱提高文书档案检索效率的方法及系统
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN101398834B (zh) 一种针对输入信息的处理方法和装置及一种输入法系统
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN109947921B (zh) 一种基于自然语言处理的智能问答系统
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
CN110097278B (zh) 一种科技资源智能共享融合训练系统和应用系统
CN117290489B (zh) 一种行业问答知识库快速构建方法与系统
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
CN113157885A (zh) 一种面向人工智能领域知识的高效智能问答系统
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN114997288A (zh) 一种设计资源关联方法
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
KR100844265B1 (ko) 시멘틱 웹을 이용한 목적지 검색 서비스 제공 방법 및시스템
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
Su et al. Understanding query interfaces by statistical parsing
CN117076598A (zh) 基于自适应权重的语义检索模型融合方法及系统
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination