CN110377756A - 海量数据集事件关系抽取方法 - Google Patents
海量数据集事件关系抽取方法 Download PDFInfo
- Publication number
- CN110377756A CN110377756A CN201910600030.9A CN201910600030A CN110377756A CN 110377756 A CN110377756 A CN 110377756A CN 201910600030 A CN201910600030 A CN 201910600030A CN 110377756 A CN110377756 A CN 110377756A
- Authority
- CN
- China
- Prior art keywords
- node
- term vector
- mass data
- triple
- data collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种海量数据集事件关系抽取方法,包括:S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。解决了大数据集或海量数据集中事件关系的抽取精度和速度问题,由于使用了卷积网路,可以进行并行运算,由此解决了抽取速度问题;同时由于是在图数据结构上使用了卷积网络提取特征,因此利用卷积网路提取特征强的优势,解决了传统方法由于提取特征弱造成的精度低的缺陷。
Description
技术领域
本发明涉及事件关系抽取领域,尤其涉及海量数据集事件关系抽取方法。
背景技术
目前在知识图谱系统的开发中,对于事件关系的抽取,主流算法都是基于远程监督的算法,该种算法对小数据量的数据集比较实用,一旦数据集中的实体数量达到千万级别以上,就面临计算缓慢,事件关系抽取精度不高,需要海量人工标注的训练样本等缺点。传统的远程监督训练的算法在大数据集和海量数据集上很难达到60%,传统方式所需人工标注的样本数量基本要到10万级别甚至更高。
发明内容
为了解决上述问题,本发明提出一种海量数据集事件关系抽取方法,包括以下步骤:
S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;
S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;
S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。
优选的,以FP-树频集算法为基础建立关联规则。
优选的,无向网的组成过程包括以下步骤:
S11:将事件描述成包括主语、谓语和宾语的三元组,所述三元组作为一个节点;
S12:节点和节点之间进行连接,连接线上标记关联关系与关联强度。
优选的,所述步骤S2包括:
S21:分别抽取三元组中的前项和后项,合并成前项词向量和后项词向量;
S22:抽取三元组中的实体类型;
S23:将前项词向量、后项词向量和实体类型通过one-hot方式编码,作为节点的特征。
优选的,前项、后项是词组时,将词组中的词向量按照element wise连加,合并成一个词向量。
优选的,步骤S3中的对节点进行分类的过程,包括以下步骤:
S31:每一个节点将自身的特征信息经过变换后发送给邻居节点;
S32:每个节点将邻居节点的特征信息聚集起来;
S33:将前面的信息聚集之后进行非线性变换;
S34:对样本数据进行分类训练。
优选的,步骤S34包括以下步骤:
S41:构造一个带有池化层结构的标准卷积网络,最后一层为一个全连接层输出;
S42:将每一对节点的关系类别作为样本标签进行分类训练。
本发明的有益效果在于:解决了大数据集或海量数据集中事件关系的抽取精度和速度问题,由于使用了卷积网路,可以进行并行运算,由此解决了抽取速度问题;同时由于是在图数据结构上使用了卷积网络提取特征,因此利用卷积网路提取特征强的优势,解决了传统方法由于提取特征弱造成的精度低的缺陷。
附图说明
图1是无向网示意图;
图2是无向网节点分类过程示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
本发明提出一种海量数据集事件关系抽取方法,包括以下步骤:
S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;
S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;
S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。
优选的,以FP-树频集算法为基础建立关联规则。
无向网示意图如图1所示,优选的,无向网的组成过程包括以下步骤:
S11:将事件描述成包括主语、谓语和宾语的三元组,所述三元组作为一个节点;
S12:节点和节点之间进行连接,连接线上标记关联关系与关联强度。
在训练语料里的句子全部用手工方式将每一个事件都可以被描述成一个由主语+谓语+宾语的形式,形成三元组,每一个分解成这种形式的句子就构成一个样本。而主语与宾语都是由名词或名词性词组构成,而谓语则由动词或动词性词组构成。连接两个名词或名词性词组的谓语代表关联关系,每一个关联关系的权重代表了关联强度。
优选的,所述步骤S2包括:
S21:分别抽取三元组中的前项和后项,合并成前项词向量和后项词向量;
S22:抽取三元组中的实体类型;
S23:将前项词向量、后项词向量和实体类型通过one-hot方式编码,作为节点的特征。
优选的,前项、后项是词组时,将词组中的词向量按照element wise连加,合并成一个词向量。
在无向网中,基于图论的方式,将事件中涉及的实体表示成图的节点,实体属性表示成节点属性,每个节点有输入属性也有输出属性。
如图2所示,步骤S3中的对节点进行分类的过程,包括以下步骤:
S31:每一个节点将自身的特征信息经过变换后发送给邻居节点;这一步是在对节点的特征信息进行抽取变换;
S32:每个节点将邻居节点的特征信息聚集起来;这一步是在对节点的局部结构信息进行融合;
S33:将前面的信息聚集之后进行非线性变换,增加模型的表达能力
S34:使用与卷积神经网络相同的方法对样本数据进行分类训练。
优选的,步骤S34包括以下步骤:
S41:构造一个带有池化层结构的标准卷积网络,最后一层为一个全连接层输出;
S42:将每一对节点的关系类别作为样本标签进行分类训练。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.海量数据集事件关系抽取方法,其特征在于,包括以下步骤:
S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;
S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;
S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。
2.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,以FP-树频集算法为基础建立关联规则。
3.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,无向网的组成过程包括以下步骤:
S11:将事件描述成包括主语、谓语和宾语的三元组,所述三元组作为一个节点;
S12:节点和节点之间进行连接,连接线上标记关联关系与关联强度。
4.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,所述步骤S2包括:
S21:分别抽取三元组中的前项和后项,合并成前项词向量和后项词向量;
S22:抽取三元组中的实体类型;
S23:将前项词向量、后项词向量和实体类型通过one-hot方式编码,作为节点的特征。
5.根据权利要求3所述的海量数据集事件关系抽取方法,其特征在于,前项、后项是词组时,将词组中的词向量按照element wise连加,合并成一个词向量。
6.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,步骤S3中的对节点进行分类的过程,包括以下步骤:
S31:每一个节点将自身的特征信息经过变换后发送给邻居节点;
S32:每个节点将邻居节点的特征信息聚集起来;
S33:将前面的信息聚集之后进行非线性变换;
S34:使用与卷积神经网络相同的方法对样本数据进行分类训练。
7.根据权利要求6所述的海量数据集事件关系抽取方法,其特征在于,步骤S34包括以下步骤:
S41:构造一个带有池化层结构的标准卷积网络,最后一层为一个全连接层输出;
S42:将每一对节点的关系类别作为样本标签进行分类训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600030.9A CN110377756B (zh) | 2019-07-04 | 2019-07-04 | 海量数据集事件关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600030.9A CN110377756B (zh) | 2019-07-04 | 2019-07-04 | 海量数据集事件关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377756A true CN110377756A (zh) | 2019-10-25 |
CN110377756B CN110377756B (zh) | 2020-03-17 |
Family
ID=68251886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910600030.9A Active CN110377756B (zh) | 2019-07-04 | 2019-07-04 | 海量数据集事件关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377756B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147689A1 (en) * | 2015-11-24 | 2017-05-25 | International Business Machines Corporation | Semantic mapping of topic map meta-models identifying assets and events to include modeled reactive actions |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN109558492A (zh) * | 2018-10-16 | 2019-04-02 | 中山大学 | 一种适于事件归因的上市公司知识图谱构建方法及装置 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN109964224A (zh) * | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
-
2019
- 2019-07-04 CN CN201910600030.9A patent/CN110377756B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147689A1 (en) * | 2015-11-24 | 2017-05-25 | International Business Machines Corporation | Semantic mapping of topic map meta-models identifying assets and events to include modeled reactive actions |
CN109964224A (zh) * | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
CN109558492A (zh) * | 2018-10-16 | 2019-04-02 | 中山大学 | 一种适于事件归因的上市公司知识图谱构建方法及装置 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
黄勋等: "关系抽取技术研究综述", 《现代图书情报技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377756B (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220405480A1 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN109492101A (zh) | 基于标签信息与文本特征的文本分类方法、系统及介质 | |
CN108920544A (zh) | 一种基于知识图谱的个性化职位推荐方法 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN103577989B (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN111274397B (zh) | 建立实体关系检测模型的方法以及装置 | |
CN103729359A (zh) | 一种推荐搜索词的方法及系统 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及系统 | |
CN107133282B (zh) | 一种改进的基于双向传播的评价对象识别方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN107832297A (zh) | 一种面向特征词粒度的领域情感词典构建方法 | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN105069647A (zh) | 一种改进的抽取中文商品评论中评价对象的方法 | |
CN112784911A (zh) | 训练样本的生成方法、装置、电子设备和存储介质 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN110909175A (zh) | 一种基于搜索引擎的在线课程概念知识图谱构建方法 | |
CN113033194B (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN106294323A (zh) | 对短文本进行常识性因果推理的方法 | |
CN113239143A (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |