CN109063159A - 一种基于神经网络的实体关系抽取方法 - Google Patents
一种基于神经网络的实体关系抽取方法 Download PDFInfo
- Publication number
- CN109063159A CN109063159A CN201810914450.XA CN201810914450A CN109063159A CN 109063159 A CN109063159 A CN 109063159A CN 201810914450 A CN201810914450 A CN 201810914450A CN 109063159 A CN109063159 A CN 109063159A
- Authority
- CN
- China
- Prior art keywords
- entity
- neural network
- model
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络的实体关系抽取方法,采用机器学习方面的算法并且结合神经网络模型,将一段中文语句输入到程序模型,模型会给其中的实体单词或者语句打上特别的标签,即可以将文本中的实体提取出来,再通过一个分类算法为提取出来得到实体做关系分类,完成实体关系分类。具体是将中文文本中出现的每一个字都分配一个ID,然后把这组句子所对应的ID转换成神经网络模型的输入向量,经过bilstm以及CRF层得到的结果映射到相应的实体标签,完成实体抽取,最后将从文本中的实体使用机器学习分类的算法进行分类,最后得实体‑‑关系‑‑实体这样的三元组形式。该方法仅需要训练文本以及输入语句就可以完成关系实体抽取,是一种灵活方便的方法。
Description
技术领域
本发明涉及机器学习、深度学习方面的算法应用,以及相关的中文语言处理的方式,具体是一种基于神经网络的实体关系抽取方法。
背景技术
随着互联网的蓬勃发展,用户迅速增加,用户上网所产生信息不断增长,传统的返回检索页面的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。实体关系抽取作为信息抽取重要组成部分,自动化地从自然语言中抽取实体关系元组的结构化信息,从而为用户提供更加智能的信息检索方式,其可帮助用户快速理解、掌握互联网中日益增长的信息,也对一些计算机的研究方向提供帮助,可以为中文自然语言提供语料数据,也可以为知识图谱的构建提供相关帮助。
发明内容
本发明的目的在于克服现有技术的不足,而提供一种基于神经网络的实体关系抽取方法,该方法与现有技术相比,可以通过训练,得到一组权重模型,灵活计算每次进入的输入文本,不受固定的格式限制,容易实现,且开发成本低,模型判断速度快。
实现本发明目的的技术方案是:
一种基于神经网络的实体关系抽取方法,通过构建神经网络模型抽取实体,再用分类算法对模型抽取的实体进行分类,完成实体关系的抽取,具体包括如下步骤:
1)对训练集预处理:
1-1)将训练集的文本以及文字进行分割,达到字与字之间分开的效果;
1-2)将分开的字转换成字典,每个字都有对应的数字ID;
1-3)将训练集的句子每个字都转换成相应的字典ID,形成句子向量;
1-4)经过上述步骤处理后得到的数据输入模型的编码层;
2)训练实体抽取模型:
2-1)将步骤1)得到的句子向量送入神经网络的Embedding层进行编码;
2-2)接收来自步骤1-3)的处理数据,将其置入bilstm层完成双向长短记忆特征训练,经过反复timestep后的训练得到一组数据权重;
2-3)将步骤2-2)得到的数据,转送到CRF层对数据进行约束,提高分类精度;
2-4)重复进行上述步骤将模型训练到精确度最高的情况,得到实体抽取模型;
2-5)将文本输入实体抽取模型中,抽取实体;
3)关系分类:
3-1)将步骤2-5)抽取到的实体进行向量转化操作,将其变成可以被计算机识别的特征向量;
3-2)接收步骤3-1)后处理的特征向量,对接收到的特征向量进行PCA降维,转化成空间坐标(a,b)的形式;
3-3)对空间坐标做KNN分类,找到最近的关系点;
经过上述步骤,完成实体关系的抽取。
步骤1-1)中,所述分割,是将文本转化为相应的标签文本:B-PER I-PER B-ORG I-ORG B-LOC I-LOC;其中B-PER表示人名开始符号,I-PER表示人名后缀符号,B-ORG表示组织名开始符号,I-ORG表示组织名后缀符号,B-LOC表示位置开始符号,I-LOC表示位置后缀符号。
步骤2-1)中,所述的神经网络为循环神经网络。
所述步骤2),需要满足以下环境:
a、python环境python>=3.5),
b、keras神经网络模块>=2.14,
c、tensorflow>=1.40,
d、numpy以及py5d模块组件。
步骤2-4中,所述的实体抽取模型,输入的为中文txt样本,输出的为标签块。
有益效果:本发明提供的一种基于神经网络的实体关系抽取方法,该方法是将输入文本转化为实体标签,有助于相关文本识别方面产品的开发,例如知识图谱构建、智能识别语义网等的研究。
附图说明
图1为实体抽取流程图;
图2为文本输入转化标签图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。
如图1所示,一种基于神经网络的实体关系抽取方法,通过构建神经网络模型抽取实体,再用分类算法对模型抽取的实体进行分类,完成实体关系的抽取,具体包括如下步骤:
1)对训练集预处理:
1-1)将训练集的文本以及文字进行分割,达到字与字之间分开的效果;例如将“德国总理高克访问中国”分割成“德 B-ORG 国 I-ORG 总O理 O高B-PER 克 I-PER访O问P中B-ORG国I-ORG”打上标签的训练文本,如图2所示。
1-2)将分开的字转换成字典,每个字都有对应的数字ID。
1-3)将训练集的句子每个字都转换成相应的字典ID,,第一个出现的字分配ID 号码为1,第二出现的字分配ID号码为2,依此类推,整段句子形成一段数字串,该数字串形成被计算机识别的句子向量。
1-4)经过上述步骤处理后得到的数据输入模型的编码层。
2)训练实体抽取模型,需要满足以下环境:
a、python环境python>=3.5),
b、keras神经网络模块>=2.14,
c、tensorflow>=1.40,
d、numpy以及py5d模块组件。
2-1)将步骤1)得到的句子向量送入循环神经网络的Embedding层进行编码;
循环神经网络因其网络结构能够很好的反映出文本序列之间的输入输出,但是也是因为这一特殊的结构,使得其无法拥有记忆上下文的能力,所以这个时候就必须是通道长短记忆(LSTM),LSTM就如同一个门阀,将重要的信息记录下来,而过滤掉在神经网络中影响权值较低的信息;
Embedding层在处理中文文本所对应的向量上有优势,其可以接受向量的每一个字ID,并将这个ID转化成一段新的向量,在此我们称其为字向量。拥有了字向量便可以更好的从中提取相应的特征。
2-2)接收来自步骤1-3)的处理数据,将其置入Bilstm层完成双向长短记忆特征训练,经过反复timestep后的训练得到一组数据权重;Bilstm可以实现双向的LSTM层权值学习,结合语义学习输入的文本特征,这种方法比单向的LSTM层要好。Bilstm层与RNN组合起来的网络名称为BIRNN即Bi-directional Recurrent Neural Network (BRNN)。
2-3)将步骤2-2)得到的数据,转送到CRF层对数据进行约束,提高分类精度;只经历过Bilstm层的输入虽然也可以训练出很好的文本模型,但是仍有不足,这样会造成一些约束丧失,例如“德国”的正确标签是B-ORG I-ORG ,在某些神经的输出下则会输出下列的形式“B-ORG I-PER”,即约束缺失;CRF层接收Bilstm层传递下来的权值,并且通过CRF得到新的权值向量,这次的权值向量上的每一个值代表着的是当全部输入完成以及通过大量样本训练完成之后,就可以得到一个识别自然语言的模型。
2-4)重复进行上述步骤将模型训练到精确度最高的情况,得到实体抽取模型。
2-5)将文本输入实体抽取模型中,抽取实体;该模型的输入为中文txt样本,输出为标签块,实体抽取的问题就转化为字符串处理,将成块的字符串转化成固定的实体,有了实体就为后续的关系分类做出了铺垫。
3)关系分类:
3-1)将步骤2-5)抽取到的实体进行向量转化操作,将其变成可以被计算机识别的特征向量,由于单独的实体无法转化为空间向量,采用word2vec来训练词向量,word2vec 是一群产生词向量的神经网络模型,拥有两层神经网络层来训练词语,word2vec采用的是词袋模型,其可以将词转化成空间向量,词向量的特征值都代表着某一方面的语义特征。
3-2)接收步骤3-1)后处理的特征向量,对接收到的特征向量进行PCA降维,转化成空间坐标(a,b)的形式;
3-3)对空间坐标做KNN分类,通过计算欧式距离找到空间上最近的几个分类点,找到最近的关系点,完成分类;KNN分类是采用KNN算法为样本空间找出K个离样本最近的样本,并记录其分类情况,假设某一分类情况占据绝大多数,那么就可以断定这个样本点属于这一分类。
经过上述步骤,完成实体关系的抽取。
Claims (5)
1.一种基于神经网络的实体关系抽取方法,其特征在于,通过构建神经网络模型抽取实体,再用分类算法对模型抽取的实体进行分类,完成实体关系的抽取,具体包括如下步骤:
1)对训练集预处理:
1-1)将训练集的文本以及文字进行分割,达到字与字之间分开的效果;
1-2)将分开的字转换成字典,每个字都有对应的数字ID;
1-3)将训练集的句子每个字都转换成相应的字典ID,形成句子向量;
1-4)经过上述步骤处理后得到的数据输入模型的编码层;
2)训练实体抽取模型:
2-1)将步骤1)得到的句子向量送入神经网络的Embedding层进行编码;
2-2)接收来自步骤1-3)的处理数据,将其置入bilstm层完成双向长短记忆特征训练,经过反复timestep后的训练得到一组数据权重;
2-3)将步骤2-2)得到的数据,转送到CRF层对数据进行约束,提高分类精度;
2-4)重复进行上述步骤将模型训练到精确度最高的情况,得到实体抽取模型;
2-5)将文本输入实体抽取模型中,抽取实体;
3)关系分类:
3-1)将步骤2-5)抽取到的实体进行向量转化操作,将其变成可以被计算机识别的特征向量;
3-2)接收步骤3-1)后处理的特征向量,对接收到的特征向量进行PCA降维,转化成空间坐标(a,b)的形式;
3-3)对空间坐标做KNN分类,找到最近的关系点;
经过上述步骤,完成实体关系的抽取。
2. 根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤1-1)中,所述分割,是将文本转化为相应的标签文本:B-PER I-PER B-ORG I-ORG B-LOC I-LOC;其中B-PER表示人名开始符号,I-PER表示人名后缀符号,B-ORG表示组织名开始符号,I-ORG表示组织名后缀符号,B-LOC表示位置开始符号,I-LOC表示位置后缀符号。
3.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤2-1)中,所述的神经网络为循环神经网络。
4.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,所述步骤2),需要满足以下环境:
a、python环境python>=3.5),
b、keras神经网络模块>=2.14,
c、tensorflow>=1.40,
d、numpy以及py5d模块组件。
5.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤2-4中,所述的实体抽取模型,输入的为中文txt样本,输出的为标签块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810914450.XA CN109063159B (zh) | 2018-08-13 | 2018-08-13 | 一种基于神经网络的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810914450.XA CN109063159B (zh) | 2018-08-13 | 2018-08-13 | 一种基于神经网络的实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063159A true CN109063159A (zh) | 2018-12-21 |
CN109063159B CN109063159B (zh) | 2021-04-23 |
Family
ID=64683699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810914450.XA Active CN109063159B (zh) | 2018-08-13 | 2018-08-13 | 一种基于神经网络的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063159B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110427624A (zh) * | 2019-07-30 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110704547A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 基于神经网络的关系抽取数据生成方法、模型及训练方法 |
CN110705299A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
CN110807069A (zh) * | 2019-10-23 | 2020-02-18 | 华侨大学 | 一种基于强化学习算法的实体关系联合抽取模型构建方法 |
CN111274827A (zh) * | 2020-01-20 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于词袋多目标学习的后缀翻译方法 |
CN111274412A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息提取方法、信息提取模型训练方法、装置及存储介质 |
CN111400451A (zh) * | 2020-03-16 | 2020-07-10 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
CN111428484A (zh) * | 2020-04-14 | 2020-07-17 | 广州云从鼎望科技有限公司 | 一种信息管理方法、系统、设备和介质 |
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148116A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取系统 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
-
2018
- 2018-08-13 CN CN201810914450.XA patent/CN109063159B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160148116A1 (en) * | 2014-11-21 | 2016-05-26 | International Business Machines Corporation | Extraction of semantic relations using distributional relation detection |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN106855853A (zh) * | 2016-12-28 | 2017-06-16 | 成都数联铭品科技有限公司 | 基于深度神经网络的实体关系抽取系统 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110032648B (zh) * | 2019-03-19 | 2021-05-07 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN111950279A (zh) * | 2019-05-17 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
CN110427624A (zh) * | 2019-07-30 | 2019-11-08 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110427624B (zh) * | 2019-07-30 | 2023-04-25 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110704547A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 基于神经网络的关系抽取数据生成方法、模型及训练方法 |
CN110705299A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
CN110705299B (zh) * | 2019-09-26 | 2022-10-25 | 北京明略软件系统有限公司 | 实体和关系的联合抽取方法、模型、电子设备及存储介质 |
CN110807069B (zh) * | 2019-10-23 | 2022-06-07 | 华侨大学 | 一种基于强化学习算法的实体关系联合抽取模型构建方法 |
CN110807069A (zh) * | 2019-10-23 | 2020-02-18 | 华侨大学 | 一种基于强化学习算法的实体关系联合抽取模型构建方法 |
CN111274827B (zh) * | 2020-01-20 | 2021-05-28 | 南京新一代人工智能研究院有限公司 | 一种基于词袋多目标学习的后缀翻译方法 |
CN111274827A (zh) * | 2020-01-20 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于词袋多目标学习的后缀翻译方法 |
CN111274412A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息提取方法、信息提取模型训练方法、装置及存储介质 |
CN111400451A (zh) * | 2020-03-16 | 2020-07-10 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
CN111400451B (zh) * | 2020-03-16 | 2023-05-09 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
CN111428484A (zh) * | 2020-04-14 | 2020-07-17 | 广州云从鼎望科技有限公司 | 一种信息管理方法、系统、设备和介质 |
CN111428484B (zh) * | 2020-04-14 | 2022-02-18 | 广州云从鼎望科技有限公司 | 一种信息管理方法、系统、设备和介质 |
CN111476023A (zh) * | 2020-05-22 | 2020-07-31 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111476023B (zh) * | 2020-05-22 | 2023-09-01 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
Also Published As
Publication number | Publication date |
---|---|
CN109063159B (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063159A (zh) | 一种基于神经网络的实体关系抽取方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN109635279B (zh) | 一种基于神经网络的中文命名实体识别方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN110334213B (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN105469096A (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN111259144A (zh) | 多模型融合文本匹配方法、装置、设备和存储介质 | |
CN103605794A (zh) | 一种网站分类方法 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN111026880A (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN114491082A (zh) | 基于网络安全应急响应知识图谱特征提取的预案匹配方法 | |
CN114169447B (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
CN117873487B (zh) | 一种基于gvg的代码函数注释生成方法 | |
CN113361259B (zh) | 一种服务流程抽取方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |