CN114398498A - 一种科技档案知识图谱构建方法及系统 - Google Patents

一种科技档案知识图谱构建方法及系统 Download PDF

Info

Publication number
CN114398498A
CN114398498A CN202210069357.XA CN202210069357A CN114398498A CN 114398498 A CN114398498 A CN 114398498A CN 202210069357 A CN202210069357 A CN 202210069357A CN 114398498 A CN114398498 A CN 114398498A
Authority
CN
China
Prior art keywords
file
text
archive
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210069357.XA
Other languages
English (en)
Inventor
孙肖
何祺
朱烨
李可
林玲
刘天华
李峥
王俊林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210069357.XA priority Critical patent/CN114398498A/zh
Publication of CN114398498A publication Critical patent/CN114398498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识图谱构建技术领域,公开了一种科技档案知识图谱构建方法及系统,该科技档案知识图谱构建方法,包括以下步骤:S1,选取样本档案文件;S2,转换样本文本格式;S3,生成实体关系数据文件;S4,构建实体关系抽取模型;S5,形成实体关系数据集;S6,构建知识图谱。本发明解决了现有技术存在的检索过程繁琐、检索效率低、档案利用率低等问题。

Description

一种科技档案知识图谱构建方法及系统
技术领域
本发明涉及知识图谱构建技术领域,具体是一种科技档案知识图谱构建方法及系统。
背景技术
伴随企业信息化水平进步提升,科技类电子文件的归档数量呈现爆炸式增长,档案数据逐渐呈现出多源异构的大数据特点,通过产品数据管理系统归档到档案系统的科技电子文件快速增长。这些增量电子文件由大量技术文件、工艺文件、设计图纸等非结构化数据组成,其文件格式大多为PDF格式。企业用户在查找相关工作参考资料时基于传统的文档名称关键字进行搜寻,其过程繁琐且命中效率较低,阻碍了档案利用的普及。因此亟需引入大数据处理的技术,对档案数据进行分析处理,实现对科技档案的标签化处理,提取档案关系特征,构建企业科技档案知识图谱,提高档案检索和利用效率。
发明内容
为克服现有技术的不足,本发明提供了一种科技档案知识图谱构建方法及系统,解决现有技术存在的检索过程繁琐、检索效率低、档案利用率低等问题。
本发明解决上述问题所采用的技术方案是:
一种科技档案知识图谱构建方法,包括以下步骤:
S1,选取样本档案文件:构建所属科技领域知识词库并选取样本档案文件;
S2,转换样本文本格式:将选取的样本档案文件的全文内容提取并转换为普通文本;
S3,生成实体关系数据文件:对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件;
S4,构建实体关系抽取模型:引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,生成并优化实体关系抽取模型;
S5,形成实体关系数据集:基于实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并存储到专业图数据库中;
S6,构建知识图谱:使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。
作为一种优选的技术方案,步骤S2中,使用PaddleOCR开源框架将选取的样本档案文件的全文内容提取并转换为普通文本。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,设定文本识别数据集为icdar2015数据集;
S22,在configs/rec/rec_icdar15_train.yml文件中加载知识词库数据文件;
S23,设置文本识别方式;
S24,在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。
作为一种优选的技术方案,步骤S23中,采用以下设置方式的一种或多种设置文本识别方式:将识别脚本设置为基于CRNN模型的预识别脚本;将use_gpu参数设置为true;将数据增强方式设置为true;设置扰动方式。
作为一种优选的技术方案,步骤S3中,采用brat文本标注工具对样本全文文本进行实体、关系的标注和抽取。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,配置brat工具运行环境;
S32,在annotation.conf配置文件中加载知识词库中定义的名词的分类名称;
S33,在visual.conf配置文件中为每一项分类名称定义标注颜色;
S34,采用浏览器访问brat项目界面,打开待标注的.txt样本文本文件,进行人工标注作业;
S35,完成标注后,将自动生成的.ann标注数据文件进行保存。
作为一种优选的技术方案,步骤S4包括以下步骤:
S41,将.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式,保存到datas目录下;
S42,设置bert模型的预训练模型chinese_L-12_H-768_A-12,保存到models目录下;
S43,创建python虚拟环境并安装tensorflow-gpu模块;
S44,启动命令行进行训练,将训练生成的模型文件配置到checkpoint文件中,执行命令进行测试,人工对比评估结果;
S45,根据评估结果对模型进行优化。
作为一种优选的技术方案,步骤S5包括以下步骤:
S51,使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后,保存到datas目录下;
S52,使用python语言编写实体关系抽取调用程序,载入已完成训练的bert模型;
S53,在主程序中编写代码将模型抽取的数据转换为三元组数据结构,连接Neo4j数据库并保存三元组数据。
作为一种优选的技术方案,步骤S6包括以下步骤:
S61,使用cypher语句的MATCH命令从Neo4j数据库读取实体;
S62,CREATE命令创建实体与实体间的关系;
S63,使用MATCH RETURN语句融合实体后返回知识图谱数据,在数据视图平台中进行加载展示。
一种科技档案知识图谱构建系统,基于所述的一种科技档案知识图谱构建方法,包括依次电相连的以下模块:
选取样本档案文件模块:用以,构建所属科技领域知识词库并选取样本档案文件;
转换样本文本格式模块:用以,将选取的样本档案文件的全文内容提取并转换为普通文本;
生成实体关系数据文件模块:用以,对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件;
构建实体关系抽取模型模块:用以,引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,生成并优化实体关系抽取模型;
形成实体关系数据集模块:用以,基于实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并存储到专业图数据库中;
构建知识图谱模块:用以,使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。
本发明相比于现有技术,具有以下有益效果:
(1)本发明针对企业科技档案文档使用知识图谱技术对其进行实体关系建模,展示档案的内在信息和档案之间的关联关系,提高档案的利用效率和价值;
(2)本发明通过对知识图谱的深度搜索,可以达到实现智能推荐的作用。
附图说明
图1为本发明所述的一种科技档案知识图谱构建方法的步骤示意图;
图2为本发明所述的一种科技档案知识图谱构建系统的结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1、图2所示,一种科技档案知识图谱构建方法,包括以下步骤:
S1,构建科技领域知识词库并选取样本档案文件;
S2,使用OCR光学字符识别技术将选取的样本档案文件的全文内容提取并转换为普通文本;
S3,对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件;
S4,引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,生成并优化实体关系抽取模型;
S5,基于该实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并转换为三元组形式存储到专业图数据库中;
S6,使用图数据库提供的查询功能进行实体关系查询并构建出知识图谱。
进一步地,步骤S1所述科技领域知识词库的内容主要针对技术研究领域专有名词进行定义和构建,其分类可包含:航空、航天、通信等;工程名称可包含领域内工程的简称、全称、代号等;常用术语可包含具体技术名词的中文名、英文名、简称和缩略语等。
进一步地,步骤S1所述样本档案文件主要是指传统纸质档案文件经过数字化扫描处理后形成的PDF格式文件。
进一步地,步骤S2所述OCR光学字符识别技术使用PaddleOCR开源框架对PDF文件进行文字识别,提取文件的全文内容并保存为普通的文本格式数据。
进一步地,步骤S3所述对样本全文文本进行实体、关系的标注和抽取所使用的工具是brat文本标注工具。
进一步地,步骤S4所述深度学习引擎采用基于bert+crf算法的训练模型,训练过程为:将brat产生的标注数据文件转换为训练所需格式,加载bert预训练模型,使用bert命令行读取训练数据进行训练,对生成的模型文件进行测试并反复进行训练。
进一步地,步骤S5中图数据库使用Neo4j数据库以存储实体关系三元组信息。
进一步地,步骤S6所述知识图谱构建过程为:使用cypher语句从Neo4j数据库中融合查询获取实体集合与关系集合的图形化表现形式,加载到数据视图系统中展示。
实施例2
如图1、图2所示,作为实施例1的进一步优化,本实施例包含了实施例1的全部技术特征,除此之外,本实施例还包括以下技术特征:
具体使用时,可采用以下步骤:
步骤S1:构建科技领域知识词库并选取样本档案文件。
在本实施例中,知识词库按照技术研究领域分类进行组织。其中的领域类大类分为航空电子、航天电子、通信技术、情报侦察技术、敌我识别技术等;领域大类可往下细分,航空电子领域细分为导航技术、射频技术等;航天电子领域细分为遥测技术、卫星应用技术、飞行器技术等;情报侦察技术领域细分为态势情报技术、文字情报技术、信号侦察技术等;敌我识别技术领域细分为航管识别技术、航管应答技术等。
在本实施例中,知识词库中的工程名称包括嫦娥探月工程的全称、简称及其代号;火星探测工程的全称、简称及其代号等;
在本实施例中,知识词库中的常用术语包括敌我识别IFF、综合通信导航识别ICNI、UHF甚高频电台等;
在本实施例中,选取PDF格式的科技档案样本文件不少于3000份,每个技术研究领域平均选取500份以上,文档类型包括技术方案、工艺结构卡片、模型设计图纸等。
上述词库内容及样本文件类型仅为本实施例的示例,不以此为限。
步骤S2:使用OCR光学字符识别技术将选取的样本档案文件的全文内容提取并转换为普通文本。
在本实施例中,使用PaddleOCR开源框架进行样本文件的全文识别和转换。具体步骤是:设定文本识别数据集为icdar2015数据集;在configs/rec/rec_icdar15_train.yml文件中加载步骤S1中产生的知识词库数据文件;识别脚本设定为基于CRNN模型的预识别脚本;设定use_gpu参数为true;设定数据增强方式为true;选择颜色空间转换(cvtColor)、模糊(blur)、抖动(jitter)、噪声(Gasuss noise)、随机切割(random crop)、透视(perspective)、颜色反转(reverse)等扰动方式;设置完成后,在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。
步骤S3:对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件。
在本实施例中,样本全文文本的实体、关系的标注和抽取所使用的工具是brat文本标注工具。具体步骤是:配置brat工具运行环境;在annotation.conf配置文件中加载知识词库中定义的名词的分类名称,如“技术研究领域”、“工程名称”、“工程代号”、“技术术语”等;在visual.conf配置文件中为上一步每一项分类名称定义标注颜色,如“技术研究领域”:“红色”、“工程名称”:“黄色”、“工程代号”:“蓝色”、“技术术语”:“绿色”等;浏览器访问brat项目界面,打开待标注的.txt样本文本文件,进行人工标注作业;完成标注后,将自动生成的.ann标注数据文件进行保存。
上述annotation.conf和visual.conf配置文件内容仅为本实施例的示例,不以此为限。
步骤S4:引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,对生成的模型文件进行测试并反复进行训练。具体步骤是:将步骤S3中保存好的.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式,保存到datas目录下;设置bert模型的预训练模型chinese_L-12_H-768_A-12,保存到models目录下;创建python虚拟环境并安装tensorflow-gpu模块;启动命令行进行训练,将训练生成的模型文件配置到checkpoint文件中,执行命令进行测试,人工对比评估结果;根据评估结果对模型进行优化,采用方法包括SGD+Momentum、AdaDelta、RMSProp等。
上述模型优化采用的方法仅为本实施例的示例,不以此为限。
步骤S5:基于该实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并转换为三元组形式存储到专业图数据库中。具体步骤是:使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后,保存到datas目录下;使用python语言编写实体关系抽取调用程序,载入步骤S4中生成的已完成训练的bert模型;在主程序中编写代码分别实现将模型抽取的数据转换为三元组数据结构,连接Neo4j数据库并保存三元组数据。
步骤S6:使用图数据库提供的查询功能进行实体关系查询并构建出知识图谱。具体步骤是:使用cypher语句的MATCH命令从Neo4j数据库读取实体,CREATE命令创建实体与实体间的关系,再使用MATCH RETURN语句融合实体后返回知识图谱数据,在数据视图平台中进行加载展示。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明一种科技档案知识图谱构建方法,针对企业科技档案文档使用知识图谱技术对其进行实体关系建模,展示档案的内在信息和档案之间的关联关系,提高档案的利用效率和价值;通过对知识图谱的深度搜索,可以达到实现智能推荐的作用。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (10)

1.一种科技档案知识图谱构建方法,其特征在于,包括以下步骤:
S1,选取样本档案文件:构建所属科技领域知识词库并选取样本档案文件;
S2,转换样本文本格式:将选取的样本档案文件的全文内容提取并转换为普通文本;
S3,生成实体关系数据文件:对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件;
S4,构建实体关系抽取模型:引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,生成并优化实体关系抽取模型;
S5,形成实体关系数据集:基于实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并存储到专业图数据库中;
S6,构建知识图谱:使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。
2.根据权利要求1所述的一种科技档案知识图谱构建方法,其特征在于,步骤S2中,使用PaddleOCR开源框架将选取的样本档案文件的全文内容提取并转换为普通文本。
3.根据权利要求2所述的一种科技档案知识图谱构建方法,其特征在于,步骤S2包括以下步骤:
S21,设定文本识别数据集为icdar2015数据集;
S22,在configs/rec/rec_icdar15_train.yml文件中加载知识词库数据文件;
S23,设置文本识别方式;
S24,在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。
4.根据权利要求3所述的一种科技档案知识图谱构建方法,其特征在于,步骤S23中,采用以下设置方式的一种或多种设置文本识别方式:将识别脚本设置为基于CRNN模型的预识别脚本;将use_gpu参数设置为true;将数据增强方式设置为true;设置扰动方式。
5.根据权利要求1至4任一项所述的一种科技档案知识图谱构建方法,其特征在于,步骤S3中,采用brat文本标注工具对样本全文文本进行实体、关系的标注和抽取。
6.根据权利要求5所述的一种科技档案知识图谱构建方法,其特征在于,步骤S3包括以下步骤:
S31,配置brat工具运行环境;
S32,在annotation.conf配置文件中加载知识词库中定义的名词的分类名称;
S33,在visual.conf配置文件中为每一项分类名称定义标注颜色;
S34,采用浏览器访问brat项目界面,打开待标注的.txt样本文本文件,进行人工标注作业;
S35,完成标注后,将自动生成的.ann标注数据文件进行保存。
7.根据权利要求6所述的一种科技档案知识图谱构建方法,其特征在于,步骤S4包括以下步骤:
S41,将.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式,保存到datas目录下;
S42,设置bert模型的预训练模型chinese_L-12_H-768_A-12,保存到models目录下;
S43,创建python虚拟环境并安装tensorflow-gpu模块;
S44,启动命令行进行训练,将训练生成的模型文件配置到checkpoint文件中,执行命令进行测试,人工对比评估结果;
S45,根据评估结果对模型进行优化。
8.根据权利要求7所述的一种科技档案知识图谱构建方法,其特征在于,步骤S5包括以下步骤:
S51,使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后,保存到datas目录下;
S52,使用python语言编写实体关系抽取调用程序,载入已完成训练的bert模型;
S53,在主程序中编写代码将模型抽取的数据转换为三元组数据结构,连接Neo4j数据库并保存三元组数据。
9.根据权利要求8所述的一种科技档案知识图谱构建方法,其特征在于,步骤S6包括以下步骤:
S61,使用cypher语句的MATCH命令从Neo4j数据库读取实体;
S62,CREATE命令创建实体与实体间的关系;
S63,使用MATCH RETURN语句融合实体后返回知识图谱数据,在数据视图平台中进行加载展示。
10.一种科技档案知识图谱构建系统,其特征在于,基于权利要求1至9任一项所述的一种科技档案知识图谱构建方法,包括依次电相连的以下模块:
选取样本档案文件模块:用以,构建所属科技领域知识词库并选取样本档案文件;
转换样本文本格式模块:用以,将选取的样本档案文件的全文内容提取并转换为普通文本;
生成实体关系数据文件模块:用以,对样本全文文本进行实体、关系的标注和抽取,生成实体关系数据文件;
构建实体关系抽取模型模块:用以,引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试,生成并优化实体关系抽取模型;
形成实体关系数据集模块:用以,基于实体关系抽取模型对增量的科技档案文档进行自动化抽取,形成实体关系数据集,并存储到专业图数据库中;
构建知识图谱模块:用以,使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。
CN202210069357.XA 2022-01-21 2022-01-21 一种科技档案知识图谱构建方法及系统 Pending CN114398498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210069357.XA CN114398498A (zh) 2022-01-21 2022-01-21 一种科技档案知识图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210069357.XA CN114398498A (zh) 2022-01-21 2022-01-21 一种科技档案知识图谱构建方法及系统

Publications (1)

Publication Number Publication Date
CN114398498A true CN114398498A (zh) 2022-04-26

Family

ID=81233709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210069357.XA Pending CN114398498A (zh) 2022-01-21 2022-01-21 一种科技档案知识图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN114398498A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033528A (zh) * 2022-06-29 2022-09-09 广东国讯信息科技有限公司 一种档案数据管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112163097A (zh) * 2020-09-23 2021-01-01 中国电子科技集团公司第十五研究所 一种军事知识图谱构建方法及系统
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112163097A (zh) * 2020-09-23 2021-01-01 中国电子科技集团公司第十五研究所 一种军事知识图谱构建方法及系统
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAIDU_HUIHUI: "Neo4j 从入门到构建一个简单知识图谱", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/baidu_41617231/article/details/108250212> *
小夏REFRESH: "PaddleOCR使用详解", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/c2861024198/article/details/115484469> *
程序员一一涤生: "用深度学习做命名实体识别(四)——模型训练", pages 1, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/92335928> *
趋吉避凶: "打标工具brat的安装与使用", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/black_lightning/article/details/103673532> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033528A (zh) * 2022-06-29 2022-09-09 广东国讯信息科技有限公司 一种档案数据管理方法及系统

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
US8775433B2 (en) Self-indexing data structure
US9037613B2 (en) Self-learning data lenses for conversion of information from a source form to a target form
CN109766417A (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN111651572A (zh) 一种多领域任务型对话系统、方法和终端
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN113918512A (zh) 电网运行规则知识图谱构建系统及方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN115599902A (zh) 一种基于知识图谱的油气百科问答方法及系统
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN114495143A (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN116205211A (zh) 基于大规模预训练生成模型的文档级简历解析方法
CN103577414B (zh) 数据处理方法和设备
CN114398498A (zh) 一种科技档案知识图谱构建方法及系统
CN118410175A (zh) 基于大语言模型和知识图谱智能制造能力诊断方法及装置
CN117875307A (zh) 一种用于智能问答的文本解析方法和装置
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN112966501B (zh) 一种新词发现方法、系统、终端及介质
CN114328871A (zh) 一种基于nlp技术和内置知识库的智能客服问题解答方法
CN113761081A (zh) 一种用于对企业信息进行多维度组合检索的方法及其系统
CN118332091B (zh) 基于大模型技术的古籍知识库智能问答方法、装置和设备
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220426

RJ01 Rejection of invention patent application after publication