CN111581376B - 一种知识图谱自动构建系统及方法 - Google Patents

一种知识图谱自动构建系统及方法 Download PDF

Info

Publication number
CN111581376B
CN111581376B CN202010314286.6A CN202010314286A CN111581376B CN 111581376 B CN111581376 B CN 111581376B CN 202010314286 A CN202010314286 A CN 202010314286A CN 111581376 B CN111581376 B CN 111581376B
Authority
CN
China
Prior art keywords
data
entity
model
relation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010314286.6A
Other languages
English (en)
Other versions
CN111581376A (zh
Inventor
任惠超
胡颖
黄庆龙
于文东
董艳波
薛龙
许光
刘锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
714th Research Institute of CSIC
Original Assignee
714th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 714th Research Institute of CSIC filed Critical 714th Research Institute of CSIC
Priority to CN202010314286.6A priority Critical patent/CN111581376B/zh
Publication of CN111581376A publication Critical patent/CN111581376A/zh
Application granted granted Critical
Publication of CN111581376B publication Critical patent/CN111581376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种知识图谱自动构建系统及方法,为了弥补目前只基于结构化数据和非结构化数据构建知识图谱的缺陷,技术方案包括采用Bert学习模型进行关系分类和实体抽取,有效地从非结构文本中提取知识三元组;通过改进Bert的输入形式,采用分步抽取方式,实体识别过程中通过给句子填充关系信息,从而提高了实体的识别效果,可以从文本中识别多个三元组关系,避免了信息交错而导致实体关系对应错误;实现7×24小时的实时知识图谱构建,能够实时抓取互联网数据,实时提取文本中的三元组,并存储到数据库中,这样能够快速获取最新文本中的最新知识,提高知识时效性,让科研人员第一时间获得文本中蕴涵的知识,从而提高工作效率。

Description

一种知识图谱自动构建系统及方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种知识图谱自动构建系统及方法。
背景技术
目前国内外很多互联网公司都构建自己的知识图谱,在基于知识图谱的基础上推出搜索、问答、推荐等来改善服务质量。知识图谱的构建需要知识数据,目前知识的获取主要从结构化、半结构化数据、非结构化数据中获取。结构化、半结构数据数据格式清晰,数据比较规范,经过简单的处理即可得到相应的知识。而非结构数据比较杂乱、知识通常隐藏在语义中,知识获取比较难。然而,数据量庞大的非结构化数据中往往蕴含丰富的知识,因此,从非结构化数据中获取知识能够极大的丰富整个知识体系,从而更好的服务于下游的各种应用。对于非结构文本的关系和实体抽取,通常的做法为输入文本,一次性的输出文本中的关系和实体,若是句子中只存在一个实体关系三元组,该方法尚且可以,但是如果文本中存在多组关系实体对,则容易产生关系和实体对应错误,这样大大影响了识别效果。现在的互联网数据更新频繁,信息量不断的增加,然而现有技术并没有高效地实时提取互联网上非结构化文本中的知识,提升用户使用体验。
发明内容
为了解决上述技术问题,本发明提供了一种知识图谱自动构建系统及方法,采用如下技术方案:
作为本发明的一个方面,本发明提供了一种知识图谱自动构建系统,包括数据采集层、模型层以及数据存储层;
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中。
作为优选,所述深度学习算法采用Bert学习模型。
作为优选,所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。
作为优选,所述实体抽取模型通过tensorflow框架建立Bert实体识别模型。
作为优选,实体抽取时,将包含多个关系的句子复制出与关系数目相同的句子数。
作为本发明的另一个方面,本发明提供了一种知识图谱自动构建方法,采用前述的系统,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点;
S12、关系数据导入数据库
将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系;
步骤二、数据采集
S21、利用数据采集系统获取最新上传的期刊文献或专利;
S22、将数据采集系统抓取到的文本数据逐条传递到消息队列中;
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理;
步骤四、模型训练
采用分步抽取,先抽取句子中的关系,再抽取句子中的实体;
S41、关系分类模型训练
根据关系分类训练语料,通过tensorflow框架建立Bert文本多分类模型;
S42:实体抽取模型训练
根据实体抽取训练语料,通过tensorflow框架建立Bert实体识别模型;将包含多个关系的句子复制出与关系数目相同的句子数,在实体抽取时获得与该关系相关的实体;
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取;
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
有益效果:本发明提供的知识图谱自动构建系统及方法,对于非结构文本的关系和实体抽取,采用分步抽取的方式,先抽取出文本中所存在的所有关系,然后利用预测出的关系信息,分别把识别出的关系作为下一步实体识别的输入,从而加强了关系、实体的对应信息,大大提高了识别准确率;本发明通过搭建数据采集层、模型层、存储层,实现了数据的实时采集、实时处理、实时存储,以至于能够从新出现的非结构文本及时有效获取三元组信息,大大提高信息的利用率,及时掌握关键信息。
附图说明
图1为一种知识图谱自动构建系统示意图;
图2为一种知识图谱自动构建方法流程图;
图3为Bert关系分类模型示意图;
图4为关系预测示意图;
图5为实体预测示意图。
具体实施方式
参见图1,本发明实施例提供的知识图谱自动构建系统,包括数据采集层、模型层以及数据存储层。
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中。
参见图2,本发明实施例提供了一种知识图谱自动构建方法,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点。
表1“专家”概念所对应概念数据格式
属性名称 数据类型 显示属性 唯一属性 #EOF#
姓名 文本
出生日期 日期
年龄 数值
性别 文本
所著文献 文本
所属国家 文本
#EOF#
表1以“专家”这一概念的数据格式为例,第1列为专家这个概念下所拥有的属性和关系;第2、3、4列为属性的约束设置。
S12、关系数据导入数据库
参见表2,将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系。
表2概念图谱中关系数据格式
表2中第1列为提取的关系,第3、5列为关系所对应的概念。
步骤二、数据采集
S21、利用数据采集系统获取最新上传的期刊文献或专利;
S22、将数据采集系统抓取到的文本数据逐条传递到消息队列中,从而保证后续能够实时处理抓取到数据。
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理。
步骤四、模型训练
对于关系和实体的抽取,可以有两种方案:End-to-End和分步抽取。End-to-End方法是训练一个模型,该模型同时抽取出句子中的关系和实体,这种方法的缺点是输出的维度比较高,比较难训练。本发明实施例中采用分步抽取,先抽取句子中的关系,再抽取句子中的实体对,这样可以使用不同的模型专一去做不同的事情,降低了训练复杂度。
S41、关系分类模型训练
根据关系分类训练语料,参见表3,通过tensorflow框架建立Bert文本多分类模型。
表3关系分类训练语料
表3中第1列为文本,第2列为文本对应的类别。
由于一句话中可能包含多个类别关系,比如“王强,出生于1982年,发表了《同频干扰分析》”。这句话中可以看出有两个关系:“出生年月”和“作者”,所以这是一个多分类模型。
参见图3,对于图中模型,Tok1、Tok2、…、TokN为关系预测模型的输入,每一个代表句子中的一个字,经过随机Embedding,获得E1、E2、…、EN向量,此步骤是将句子进行向量化,最终T1、T2、…、TN为模型的输出,根据概率最大的输出,获得关系分类。
S42:实体抽取模型训练
根据实体抽取训练语料,参见表4,通过tensorflow框架建立Bert实体识别模型。
表4实体抽取训练语料
表4中第1列为文本,第2列是对文本中实体进行的标注。
参见图4-图5,针对图中模型,[CLS]、Tok1、Tok2、…、TokN、[SEP]、Tok1、Tok2、…、TokM为模型的输入,[CLS]和[SEP]之间的输入相当于text_a,即文本的原始输入,而[SEP]之后的输入为text_b,为图3中关系预测模型预测出的关系,这样就可以在实体预测的观察中加入关系信息,从而获取实体和关系的对应关系。
具体来说,一句话中包含多个关系,与此对应的就是一个句子中包含多个三元组,怎样从一个句子中提取出多个三元组并保证三元组之间关系没有对应错是至关重要的。本发明实施例采取的方法是将包含多个关系的句子复制出和关系数目相同的句子数,比如,一个句子有两个关系,那么相应就得到两个原始的句子。为了保证提取的关系和实体相对应,Bert输入时每个句子增加一个关系输入。比如:“王强,出生于1982年,发表了《同频干扰分析》”,分解成两个句子分别是“王强,出生于1982年,发表了《同频干扰分析》+出生日期”和“王强,出生于1982年,发表了《同频干扰分析》+作者”。这样增加了句子中的关系语义信息,在实体抽取时可以获得与该关系相关的实体。
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取。
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
以下提供本发明实地部署实施例。
部署客户端,客户端主要是为了对采集的数据进行预处理,并将处理后的数据发送到服务器端。
部署服务器端,服务器端主要是保证能够实时处理客户端传递过来的数据,保证7×24小时处于监听状态,这里使用bert-as-service工程进行服务器端模型的部署。服务器端包含的模型有Bert分类模型和Bert实体识别模型,分别用于进行关系分类和实体识别。
对于科研工作着下载的新论文或专利,通过数据采集系统抓取到数据后,首先通过客户端进行预处理,而后由服务器端实时分析出新论文或专利中的知识三元组,将格式化的、简洁的数据呈现给研究工作者,大大提高科研人员研究效率。
本发明提供的知识图谱自动构建系统及方法,采用Bert学习模型进行关系分类和实体抽取,有效地从非结构文本中提取知识三元组,从而弥补了目前只基于结构化数据和非结构化数据构建知识图谱的缺陷;通过改进Bert的输入形式,采用分步抽取方式,实体识别过程中通过给句子填充关系信息,从而提高了实体的识别效果,可以从文本中识别多个三元组关系,避免了信息交错而导致实体关系对应错误;实现7×24小时的实时知识图谱构建,能够实时抓取互联网数据,实时提取文本中的三元组,并存储到数据库中,这样能够快速获取最新文本中的最新知识,提高知识时效性,让科研人员第一时间获得文本中蕴涵的知识,从而提高工作效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明揭露的范围内,可轻易想到的变化或者替换,都应该涵盖在本发明的保护范围内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.一种知识图谱自动构建系统,其特征在于,包括数据采集层、模型层以及数据存储层;
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,通过补充句子中的关系语义信息,在实体抽取时获得了与该关系相关的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中;
所述深度学习算法采用Bert学习模型;
所述实体抽取模型通过tensorflow框架建立Bert实体识别模型;
通过改进Bert的输入形式,采用分步抽取方式,实体识别过程中给句子填充关系信息,从文本中识别多个三元组关系,实体抽取时,将包含多个关系的句子复制出与关系数目相同的句子数。
2.根据权利要求1所述的一种知识图谱自动构建系统,其特征在于,所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。
3.一种知识图谱自动构建方法,采用如权利要求1或2所述的系统,其特征在于,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点;
S12、关系数据导入数据库
将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系;
步骤二、数据采集
S21、利用数据采集系统获取最新上传的期刊文献或专利;
S22、将数据采集系统抓取到的文本数据逐条传递到消息队列中;
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理;
步骤四、模型训练
采用分步抽取,先抽取句子中的关系,再抽取句子中的实体;
S41、关系分类模型训练
根据关系分类训练语料,通过tensorflow框架建立Bert文本多分类模型;
S42:实体抽取模型训练
根据实体抽取训练语料,通过tensorflow框架建立Bert实体识别模型;将包含多个关系的句子复制出与关系数目相同的句子数,在实体抽取时获得与该关系相关的实体;
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取;
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
CN202010314286.6A 2020-04-17 2020-04-17 一种知识图谱自动构建系统及方法 Active CN111581376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010314286.6A CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010314286.6A CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建系统及方法

Publications (2)

Publication Number Publication Date
CN111581376A CN111581376A (zh) 2020-08-25
CN111581376B true CN111581376B (zh) 2024-04-19

Family

ID=72119738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314286.6A Active CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建系统及方法

Country Status (1)

Country Link
CN (1) CN111581376B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814472B (zh) * 2020-09-03 2021-04-06 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112333102B (zh) * 2020-11-02 2021-09-14 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和系统
CN112818692B (zh) * 2021-02-03 2024-05-28 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113569050B (zh) * 2021-09-24 2021-12-07 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN116090560B (zh) * 2023-04-06 2023-08-01 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN117271800B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种专利的产业信息挖掘方法、挖掘系统及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622413A (zh) * 2012-02-17 2012-08-01 清华大学 一种回答自然语言问题的方法与装置
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622413A (zh) * 2012-02-17 2012-08-01 清华大学 一种回答自然语言问题的方法与装置
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于事件或话题下文档的实体重要性排序;王燕华;《CNKI优秀硕士学位论文全文库信息科技辑》;20180115;1-85 *

Also Published As

Publication number Publication date
CN111581376A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581376B (zh) 一种知识图谱自动构建系统及方法
CN110598000B (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN111708773B (zh) 一种多源科创资源数据融合方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN110807328B (zh) 面向法律文书多策略融合的命名实体识别方法及系统
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113177124A (zh) 一种垂直领域知识图谱构建方法及系统
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
Chen et al. Lexicon based Chinese language sentiment analysis method
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN112069402A (zh) 一种基于情感和图卷积神经网络的个性化评论推荐方法
CN111581478A (zh) 一种特定主体的跨网站通用新闻采集方法
CN116431828A (zh) 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN110825930A (zh) 基于人工智能自动识别社区问答论坛中的正确回答的方法
CN107451215B (zh) 特征文本抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant