CN112364172A - 一种政务公文领域知识图谱构建方法 - Google Patents

一种政务公文领域知识图谱构建方法 Download PDF

Info

Publication number
CN112364172A
CN112364172A CN202011108956.5A CN202011108956A CN112364172A CN 112364172 A CN112364172 A CN 112364172A CN 202011108956 A CN202011108956 A CN 202011108956A CN 112364172 A CN112364172 A CN 112364172A
Authority
CN
China
Prior art keywords
entity
entities
module
government
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011108956.5A
Other languages
English (en)
Inventor
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yanshu Computer Technology Co ltd
Original Assignee
Shanghai Yanshu Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yanshu Computer Technology Co ltd filed Critical Shanghai Yanshu Computer Technology Co ltd
Priority to CN202011108956.5A priority Critical patent/CN112364172A/zh
Publication of CN112364172A publication Critical patent/CN112364172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种政务公文领域知识图谱构建方法:先做好数据库准备工作;再从数据库中获取所有政务公文,并对获取到的公文进行预处理;然后根据政务公文的特点制定模板,确定特征语句的获取规则;根据政务公文的文本情况,选用模板抽取或非模板抽取的其中一种方法,对预处理后的文章进行实体确定和关系抽取;最后根据抽取出的实体和关系,将公文编号存储到neo4j数据库中。本发明通过命名实体识别、实体链接和关系抽取的过程,生成知识图谱,知识图谱可用于政策公文快速检索反馈,实现搜索需要的政策公文文章时,缩短时长,提高搜索效率的技术效果,进而解决了在相关技术中,对需要的内容信息进行搜索时,时间长,效率低的技术问题。

Description

一种政务公文领域知识图谱构建方法
技术领域
本发明涉及知识图谱技术领域,具体为一种政务公文领域知识图谱构建方法。
背景技术
知识图谱是关系里最有效的表示方式,是将所有不同种类的信息连接在一起形成一个关系网络。基于知识图谱,还可以制定智能搜索和数据可视化的功能。通过知识图谱,每一个关键词的搜索都可以返回更丰富、更全面的信息,并以可视化形式将这些复杂的信息直观地呈现。迄今为止,知识图谱的实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。知识图谱最早被应用于搜索引擎领域,可更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。目前在我国的商业应用上,包括金融、农业、电商、医疗健康、环境保护等大量的垂直领域,广泛应用了知识图谱。同样,利用现有技术也可以将知识图谱应用在政务公文的检索上,把政务公文的相关信息用知识图谱表示出来,从而进行更深入的知识推理。
基于此,本发明设计了一种政务公文领域知识图谱构建方法,以解决上述问题。
发明内容
本发明的目的在于提供一种政务公文领域知识图谱构建方法,以专家制定法模板或政策公文文章内容为基础构建训练模型,通过命名实体识别、实体链接和关系抽取的过程,生成知识图谱,知识图谱可用于政策公文快速检索反馈,实现搜索需要的政策公文文章时,缩短时长,提高搜索效率的技术效果,进而解决了在相关技术中,对需要的内容信息进行搜索时,时间长,效率低的技术问题。
为实现上述目的,本发明提供如下技术方案:一种政务公文领域知识图谱构建方法,该方法包括:
第一步:将大量政务公文数据存入Elasticsearch数据库,做好数据库准备工作;
第二步:从数据库中获取所有政务公文,并对获取到的公文进行分词,然后对文本中的无用部分进行清洗,如去标点符号、停用词等,最后使用词形还原和词干提取进行标准化的预处理;
第三步:根据政务公文的特点和规律制定模板,确定特征语句的获取规则;
第四步:根据政务公文的文本情况,选用模板抽取或非模板抽取的其中一种方法,对预处理后的文章进行实体确定和关系抽取;
第五步:根据抽取出的实体和关系,关系抽取后,与关系字典进行比对,并将公文编号存储到neo4j数据库中。
作为本发明的进一步方案,第三步中由于大多数政务公文都是结构性很强的文章,同一类型的政务公文,结构很相似,政务公文相对大数据而言,数据集规模较小,在小规模数据集上,使用模板方法更容易实现且构建简单,因此,根据文章的特点和规律,由专家制定模板,模板包含如下内容:
Figure 477870DEST_PATH_IMAGE001
作为本发明的进一步方案,第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据,需要利用正则切割语句,确定特征语句的获取规则,方便后续的实体确定和关系抽取;基于专家意见和大量公文资料,确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。
作为本发明的进一步方案,第四步中实体确定和关系抽取中实体抽取文本中的原子信息,包括上述的公文类型、发布时间、地点、发文部门的具体标签;机器对文章进行判断,通过模板方法,使用传统机器学习方法在公文数据的语料中进行命名实体的操作;或者通过特征语句的方法,对政策公文数据的句子打标签,构成多个训练集,使用深度学习方法从政策公文文本中抽取出实体,并且可以按照业务需求识别出更多类别的实体;收集测试文档,运行程序给每个token做标记,最后输出命名实体;通过bootstrap的方式获取发文名称,扩充原有的词典;使用词典匹配技术识别实体指称,通过表层名字扩展、搜索引擎和构建查询实体引用表,生成候选实体;基于深度学习进行候选实体消歧,将实体与知识库中的对应实体进行链接;在识别出句子中的关键实体后,还需从政务公文中进行实体间关系的抽取,使用已构建的人工模板进行匹配,进而对关系分类。
一种政务公文领域知识图谱构建方法,该装置包括数据模块、处理模块、规则模块、抽取模块和存储模块,所述数据模块用于获取政务公文原数据,扩充关系字典;所述处理模块对数据模块中的政务公文原数据进行清洗,包括分词、去标点符号、停用词等,使用词形还原和词干提取进行标准化的预处理;所述规则模块用于实体、关系的确定的前期准备;所述抽取模块用于知识抽取,将各实体从政策公文中抽取出来;所述存储模块用于构建知识图谱过程中各类数据的存储。
作为本发明的进一步方案,所述规则模块包括模板制作单元、特征语句获取单元和关系词典;根据专家意见制定模板、特征语句获取规则时,规则模块用于抽取模块进行实体抽取;关系词典需要进行扩充时,规则模块用于抽取模块进行关系比对确定。
作为本发明的进一步方案,所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元,命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取,经过测试集的测试后确定实体;实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上;映射过程中存在同名异实体或者同实体异名的现象,那么这个映射过程需要进行消歧;关系抽取单元使用规则模块中的关系词典进行比对,确定实体与实体间的关系。
作为本发明的进一步方案,所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。
本发明的有益效果为:该构建方法以专家制定法模板或政策公文文章内容为基础构建训练模型,通过命名实体识别、实体链接和关系抽取的过程,生成知识图谱,知识图谱可用于政策公文快速检索反馈,实现搜索需要的政策公文文章时,缩短时长,提高搜索效率的技术效果,进而解决了在相关技术中,对需要的内容信息进行搜索时,时间长,效率低的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明政务公文领域知识图谱构建方法的模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施案例1:
请参阅图1,本发明提供一种技术方案:一种政务公文领域知识图谱构建方法,该方法包括:
第一步:将大量政务公文数据存入Elasticsearch数据库,做好数据库准备工作;
第二步:从数据库中获取所有政务公文,并对获取到的公文进行分词,然后对文本中的无用部分进行清洗,如去标点符号、停用词等,最后使用词形还原和词干提取进行标准化的预处理;
第三步:根据政务公文的特点和规律制定模板,确定特征语句的获取规则;
第四步:根据政务公文的文本情况,选用模板抽取或非模板抽取的其中一种方法,对预处理后的文章进行实体确定和关系抽取;
第五步:根据抽取出的实体和关系,关系抽取后,与关系字典进行比对,并将公文编号存储到neo4j数据库中。
具体的,第三步中由于大多数政务公文都是结构性很强的文章,同一类型的政务公文,结构很相似,政务公文相对大数据而言,数据集规模较小,在小规模数据集上,使用模板方法更容易实现且构建简单,因此,根据文章的特点和规律,由专家制定模板,模板包含如下内容:
Figure 676770DEST_PATH_IMAGE002
具体的,第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据,需要利用正则切割语句,确定特征语句的获取规则,方便后续的实体确定和关系抽取;基于专家意见和大量公文资料,确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。
具体的,第四步中实体确定和关系抽取中实体抽取文本中的原子信息,包括上述的公文类型、发布时间、地点、发文部门的具体标签;机器对文章进行判断,通过模板方法,使用传统机器学习方法在公文数据的语料中进行命名实体的操作;或者通过特征语句的方法,对政策公文数据的句子打标签,构成多个训练集,使用深度学习方法从政策公文文本中抽取出实体,并且可以按照业务需求识别出更多类别的实体;收集测试文档,运行程序给每个token做标记,最后输出命名实体;通过bootstrap的方式获取发文名称,扩充原有的词典;使用词典匹配技术识别实体指称,通过表层名字扩展、搜索引擎和构建查询实体引用表,生成候选实体;基于深度学习进行候选实体消歧,将实体与知识库中的对应实体进行链接;在识别出句子中的关键实体后,还需从政务公文中进行实体间关系的抽取,使用已构建的人工模板进行匹配,进而对关系分类。
一种政务公文领域知识图谱构建方法,该装置包括数据模块、处理模块、规则模块、抽取模块和存储模块,所述数据模块用于获取政务公文原数据,扩充关系字典;所述处理模块对数据模块中的政务公文原数据进行清洗,包括分词、去标点符号、停用词等,使用词形还原和词干提取进行标准化的预处理;所述规则模块用于实体、关系的确定的前期准备;所述抽取模块用于知识抽取,将各实体从政策公文中抽取出来;所述存储模块用于构建知识图谱过程中各类数据的存储。
具体的,所述规则模块包括模板制作单元、特征语句获取单元和关系词典;根据专家意见制定模板、特征语句获取规则时,规则模块用于抽取模块进行实体抽取;关系词典需要进行扩充时,规则模块用于抽取模块进行关系比对确定。
具体的,所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元,命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取,经过测试集的测试后确定实体;实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上;映射过程中存在同名异实体或者同实体异名的现象,那么这个映射过程需要进行消歧;关系抽取单元使用规则模块中的关系词典进行比对,确定实体与实体间的关系。
具体的,所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。
实施案例2:
以环境质量监测公报知识图谱为例:
(1)通过数据模块,存放大量国家、省市地方的环境质量监测报告原数据,同时存放关系字典;
(2)经过处理模块调出数据模块中的环境质量监测报告原数据,并对原数据进行清洗,包括分词、去标点符号、停用词等,使用词形还原和词干提取进行标准化的预处理;
(3)文章数据中环境质量监测报告都是结构化数据,但获取到的政策公文数据集规模较小,通过咨询专家意见,根据文章的特点和规律,制定模板。通常文章标题或公文第一段中包含了发文时间、地点和部门的具体标签,模板制定为句子同时包含年/月、省/市/区/县、环境/质量时抽取实体和关系。其他半结构化数据的环境质量监测报告文章,需要先利用正则切割语句,确定特征语句的获取规则为包含年/月、省/市/区/县、环境/质量中其中一个;
(4)用户的搜索是一个实体抽取的环节,机器对文章进行判断,符合使用模板条件的文章,通过上述模板,使用传统机器学习方法在环境质量监测报告数据的语料中进行命名实体的操作;例如:标题为“2020年3月份江门市环境空气质量状况”的文章符合使用模板的条件,使用传统机器学习处理切割抽取出2020年3月、江门,使用词典匹配技术,将实体与扩充后的词典进行比对,确定好关系;
机器对文章进行判断,符合使用上述提取特征语句的文章,需要人工先对大量环境质量监测报告数据的句子打标签,构成多个训练集。使用深度学习方法,按照业务需求从环境质量监测报告文本中抽取出实体。收集测试文档,运行程序给每个token做标记,最后输出命名实体。使用词典匹配技术识别实体指称,通过表层名字扩展、搜索引擎和构建查询实体引用表,生成候选实体。基于深度学习进行候选实体消歧,将实体与知识库中的对应实体进行链接。在识别出句子中的关键实体后,还需从政务公文中进行实体间关系的抽取,使用已构建的人工模板进行匹配,进而对关系分类;
(5)将关系抽取分类后,将文章的编号对应关系存入存储模块。
本发明的构建方法以专家制定法模板或政策公文文章内容为基础构建训练模型,通过命名实体识别、实体链接和关系抽取的过程,生成知识图谱,知识图谱可用于政策公文快速检索反馈,实现搜索需要的政策公文文章时,缩短时长,提高搜索效率的技术效果,进而解决了在相关技术中,对需要的内容信息进行搜索时,时间长,效率低的技术问题。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种政务公文领域知识图谱构建方法,其特征在于,该方法包括:
第一步:将大量政务公文数据存入Elasticsearch数据库,做好数据库准备工作;
第二步:从数据库中获取所有政务公文,并对获取到的公文进行分词,然后对文本中的无用部分进行清洗,如去标点符号、停用词等,最后使用词形还原和词干提取进行标准化的预处理;
第三步:根据政务公文的特点和规律制定模板,确定特征语句的获取规则;
第四步:根据政务公文的文本情况,选用模板抽取或非模板抽取的其中一种方法,对预处理后的文章进行实体确定和关系抽取;
第五步:根据抽取出的实体和关系,关系抽取后,与关系字典进行比对,并将公文编号存储到neo4j数据库中。
2.根据权利要求1所述的一种政务公文领域知识图谱构建方法,其特征在于:第三步中由于大多数政务公文都是结构性很强的文章,同一类型的政务公文,结构很相似,政务公文相对大数据而言,数据集规模较小,在小规模数据集上,使用模板方法更容易实现且构建简单,因此,根据文章的特点和规律,由专家制定模板,模板包含如下内容:
Figure 400763DEST_PATH_IMAGE001
3.根据权利要求1所述的一种政务公文领域知识图谱构建方法,其特征在于:第三步中特征语句获取规则的制定部分对于结构性不强的文章作为半结构化或非结构化数据,需要利用正则切割语句,确定特征语句的获取规则,方便后续的实体确定和关系抽取;基于专家意见和大量公文资料,确定特征语句为包含公文类型、时间、地点和发文部门的语句作为特征语句。
4.根据权利要求1所述的一种政务公文领域知识图谱构建方法,其特征在于:第四步中实体确定和关系抽取中实体抽取文本中的原子信息,包括上述的公文类型、发布时间、地点、发文部门的具体标签;机器对文章进行判断,通过模板方法,使用传统机器学习方法在公文数据的语料中进行命名实体的操作;或者通过特征语句的方法,对政策公文数据的句子打标签,构成多个训练集,使用深度学习方法从政策公文文本中抽取出实体,并且可以按照业务需求识别出更多类别的实体;收集测试文档,运行程序给每个token做标记,最后输出命名实体;通过bootstrap的方式获取发文名称,扩充原有的词典;使用词典匹配技术识别实体指称,通过表层名字扩展、搜索引擎和构建查询实体引用表,生成候选实体;基于深度学习进行候选实体消歧,将实体与知识库中的对应实体进行链接;在识别出句子中的关键实体后,还需从政务公文中进行实体间关系的抽取,使用已构建的人工模板进行匹配,进而对关系分类。
5.一种政务公文领域知识图谱构建装置,其特征在于:包括数据模块、处理模块、规则模块、抽取模块和存储模块,所述数据模块用于获取政务公文原数据,扩充关系字典;所述处理模块对数据模块中的政务公文原数据进行清洗,包括分词、去标点符号、停用词等,使用词形还原和词干提取进行标准化的预处理;所述规则模块用于实体、关系的确定的前期准备;所述抽取模块用于知识抽取,将各实体从政策公文中抽取出来;所述存储模块用于构建知识图谱过程中各类数据的存储。
6.根据权利要求5所述的一种政务公文领域知识图谱构建装置,其特征在于:所述规则模块包括模板制作单元、特征语句获取单元和关系词典;根据专家意见制定模板、特征语句获取规则时,规则模块用于抽取模块进行实体抽取;关系词典需要进行扩充时,规则模块用于抽取模块进行关系比对确定。
7.根据权利要求5所述的一种政务公文领域知识图谱构建装置,其特征在于:所述抽取模块包括命名实体识别单元、实体链接单元和关系抽取单元,命名实体识别单元采用规则模块中的模板制作单元、特征语句获取单元进行实体抽取,经过测试集的测试后确定实体;实体链接单元用于将政策公文文本中的某些字符串映射到知识库中对应的实体上;映射过程中存在同名异实体或者同实体异名的现象,那么这个映射过程需要进行消歧;关系抽取单元使用规则模块中的关系词典进行比对,确定实体与实体间的关系。
8.根据权利要求5所述的一种政务公文领域知识图谱构建装置,其特征在于:所述存储模块包括数据模块中获取到的政策公文数据和知识图谱构建过程中的实体以及实体关系。
CN202011108956.5A 2020-10-16 2020-10-16 一种政务公文领域知识图谱构建方法 Pending CN112364172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011108956.5A CN112364172A (zh) 2020-10-16 2020-10-16 一种政务公文领域知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011108956.5A CN112364172A (zh) 2020-10-16 2020-10-16 一种政务公文领域知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN112364172A true CN112364172A (zh) 2021-02-12

Family

ID=74507245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011108956.5A Pending CN112364172A (zh) 2020-10-16 2020-10-16 一种政务公文领域知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112364172A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN113095061A (zh) * 2021-03-31 2021-07-09 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN115168567A (zh) * 2022-09-07 2022-10-11 北京慧点科技有限公司 一种基于知识图谱的对象推荐方法
CN116703682A (zh) * 2023-08-08 2023-09-05 菏泽市牡丹区大数据中心 一种基于深度学习的政务数据平台
CN117609432A (zh) * 2023-12-21 2024-02-27 中国疾病预防控制中心慢性非传染性疾病预防控制中心 一种通过标签抽取策略实现政策智能检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN109597895A (zh) * 2018-11-09 2019-04-09 中电科大数据研究院有限公司 一种基于知识图谱的公文搜索方法
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111460125A (zh) * 2020-05-09 2020-07-28 山东舜网传媒股份有限公司 政务服务智能问答方法及系统
CN111666422A (zh) * 2020-06-05 2020-09-15 法雨科技(北京)有限责任公司 知识图谱构建系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN109597895A (zh) * 2018-11-09 2019-04-09 中电科大数据研究院有限公司 一种基于知识图谱的公文搜索方法
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN111460125A (zh) * 2020-05-09 2020-07-28 山东舜网传媒股份有限公司 政务服务智能问答方法及系统
CN111666422A (zh) * 2020-06-05 2020-09-15 法雨科技(北京)有限责任公司 知识图谱构建系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PELHANS: "知识图谱入门(三)知识抽取", 《知乎》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095061A (zh) * 2021-03-31 2021-07-09 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN113095061B (zh) * 2021-03-31 2023-08-29 京华信息科技股份有限公司 一种公文头抽取方法、系统、装置及存储介质
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN113220996B (zh) * 2021-05-10 2022-09-27 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113360657B (zh) * 2021-06-30 2023-10-24 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113569050B (zh) * 2021-09-24 2021-12-07 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN115168567A (zh) * 2022-09-07 2022-10-11 北京慧点科技有限公司 一种基于知识图谱的对象推荐方法
CN115168567B (zh) * 2022-09-07 2022-12-02 北京慧点科技有限公司 一种基于知识图谱的对象推荐方法
CN116703682A (zh) * 2023-08-08 2023-09-05 菏泽市牡丹区大数据中心 一种基于深度学习的政务数据平台
CN116703682B (zh) * 2023-08-08 2023-10-31 菏泽市牡丹区大数据中心 一种基于深度学习的政务数据平台
CN117609432A (zh) * 2023-12-21 2024-02-27 中国疾病预防控制中心慢性非传染性疾病预防控制中心 一种通过标签抽取策略实现政策智能检索方法

Similar Documents

Publication Publication Date Title
CN112364172A (zh) 一种政务公文领域知识图谱构建方法
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN109344187B (zh) 一种司法判决书案情信息结构化处理系统
CN101101600A (zh) 网络搜索中基于多种规则的元数据自动抽取方法
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN110532390B (zh) 一种基于ner与复杂网络特征的新闻关键词提取方法
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN104794169A (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN106502991B (zh) 出版物处理方法和装置
CN113239111B (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN107247739A (zh) 一种基于因子图的金融公报文本知识提取方法
CN112925901A (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN113157860A (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Aria et al. Package ‘bibliometrix’
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
WO2000026839A9 (en) Advanced model for automatic extraction of skill and knowledge information from an electronic document
CN112711716A (zh) 一种基于知识图谱的海洋产业新闻推送方法及系统
CN116701648A (zh) 基于规范标准映射知识图谱及schema设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication