CN114048727B - 一种面向医学领域的关系抽取方法 - Google Patents
一种面向医学领域的关系抽取方法 Download PDFInfo
- Publication number
- CN114048727B CN114048727B CN202111383236.4A CN202111383236A CN114048727B CN 114048727 B CN114048727 B CN 114048727B CN 202111383236 A CN202111383236 A CN 202111383236A CN 114048727 B CN114048727 B CN 114048727B
- Authority
- CN
- China
- Prior art keywords
- statement
- relation
- extracted
- vector
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种面向医学领域的关系抽取方法,包括:S1:设置关系抽取模型的超参数;S2:获取待抽取关系的语句;S3:对待抽取关系的语句进行向量化,得到语句向量化结果;S4:将语句向量化结果输入关系抽取模型;S5:得到关系抽取结果。通过上述方式,能够从海量的非结构化文本中抽取出有用的信息并转化成三元组格式,与知识图谱格式相同,为医疗知识图谱补充结构化数据。
Description
技术领域
所述涉及关系抽取领域,特别是涉及一种面向医学领域的关系抽取方法。
背景技术
在智慧医疗中,知识图谱作为一种语义网络拥有极强的表达能力和建模灵活性,提供了实体之间复杂的语义关联,有助于提升系统的准确性、多样性和可解释性。医疗知识图谱的构建需要大量的结构化数据,而在现实生活中,能够获取的数据都是非结构化数据,这时就需要用到信息抽取技术。
信息抽取在自然语言处理中是一项很重要的工作,特别是在当今信息爆炸的背景下,从海量的非结构化文本中抽取出有用的信息,并结构化成下游任务可用的格式,这是信息抽取的存在意义。信息抽取又可分为命名实体识别、关系抽取以及事件抽取等。其中,关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,来判别两个实体之间的关系。其得到的结果是三元组格式,与知识图谱格式相同。
深度学习深入影响了NLP的各个方向,极大推动了NLP的发展。目前,面向自然语言文本序列已经有很多神经网络模型,例如循环神经网络(RNN、LSTM、GRU)、卷积神经网络(CNN)和Transformer等,这些模型可以很好地完成关系抽取任务。由于RNN结构较简单,在反向传播过程中,存在梯度爆炸和梯度消失问题,当序列过长时,会遗忘前面传过来的信息。
发明内容
本发明主要解决的技术问题是提供一种面向医学领域的关系抽取方法,能够解决RNN中经常遇到梯度消失和梯度爆炸和难以捕捉长期依赖关系的问题。
为解决上述技术问题,所述采用的一个技术方案是:提供一种面向医学领域的关系抽取方法,包括:
S1:设置关系抽取模型的超参数;
S2:获取待抽取关系的语句;
S3:对待抽取关系的语句进行向量化,得到语句向量化结果;
S4:将语句向量化结果输入关系抽取模型;
S5:得到关系抽取结果。
进一步的,所述超参数,包括:
词向量大小、关系类别数目、GRU神经元数目、语句最大长度和位置编码最大长度。
进一步的,所述待抽取关系的语句,由用户输入,格式为:
实体1实体2语句,
所述实体及语句间使用空格进行间隔。
进一步的,所述对待抽取关系的语句进行向量化,包括:
S31:读取词向量表并进行编码,用字典储存;
S32:对关系类别进行编码,用字典储存;
S33:根据语句最大长度创建空列表;
S34:获取空字符编码以及待抽取关系的语句中实体1、实体2与当前位置的位置编码;
S35:按词对待抽取关系的语句进行遍历,若该词不在词向量表中,则将原有的空字符编码替换为未登录字符编码;若该词在词表中,则将原有的空字符编码替换为该词在词向量表中所对应的编码;
S36:得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量。
进一步的,所述关系抽取模型,包括:
输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层和关系类别层;
所述输入层,输入格式为句子;
所述Bi-GRU+字符级Attention层,选择Bi-GRU模型,对语句中的每一个中文字符输入进行字符级embedding以及加入字符级Attention;
所述输出层,对每个输入序列输出一个关系;
所述语句级Attention层,针对每个关系类别的所有语句进行向量化,并加入语句级Attention,同时对关系类别设置权重;
所述关系类别层,输出label结果;
所述权重,代表该语句包含着该关系的可能性。
进一步的,所述字符级Attention,
进一步的,所述语句级Attention,
得到语句集合向量后,再通过一层网络得到语句对表示:
本发明的有益效果是:通过使用双向门控循环单元(Bi-GRU)代替传统的RNN,并采用双重Attention,从而提高RNN的编码能力和关系抽取结果的准确性。
附图说明
图1是一种面向医学领域的关系抽取方法的流程图;
图2是一种面向医学领域的关系抽取方法的整体框架图;
图3 是一种面向医学领域的关系抽取方法的双向门控循环单元。
具体实施方式
下面结合附图对所述的较佳实施例进行详细阐述,以使所述的优点和看特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1和图2,所述实施例包括:
为解决上述技术问题,所述的采用的一个技术方案是:提供种面向医学领域的关系抽取方法,包括:
S1:设置关系抽取模型的超参数;
S2:获取待抽取关系的语句;
S3:对待抽取关系的语句进行向量化,得到语句向量化结果;
S4:将语句向量化结果输入关系抽取模型;
S5:得到关系抽取结果。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述超参数,包括:
词向量大小、关系类别数目、GRU神经元数目、语句最大长度、位置编码最大长度。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述待抽取关系的语句,由用户输入,格式为:
实体1实体2语句,
所述实体及语句间使用空格进行间隔。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述对待抽取关系的语句进行向量化,包括:
S31:读取词向量表并进行编码,用字典储存;
S32:对关系类别进行编码,用字典储存;
S33:根据语句最大长度创建空列表;
S34:获取空字符编码以及待抽取关系的语句中两实体与当前位置的位置编码;
S35:按词对待抽取关系的语句进行遍历,若该词不在词表中,则将原有的空字符编码替换为未登录字符编码;若该词在词表中,则将原有的空字符编码替换为该词在词表中所对应的编码;
S36:得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述关系抽取模型,包括:
输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层、关系类别层;
所述输入层,输入格式为句子;
所述Bi-GRU+字符级Attention层,选择Bi-GRU模型,对语句中的每一个中文字符输入进行字符级embedding以及加入字符级Attention;
所述输出层,对每个输入序列输出一个关系;
所述语句级Attention层,针对每个关系类别的所有语句进行向量化,并加入语句级Attention,同时对关系类别设置权重;
所述关系类别层,输出label结果;
所述权重,代表该语句包含着该关系的可能性。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述字符级Attention,
进一步地,所述语句级Attention,
得到语句集合向量后,再通过一层网络得到语句对表示:
在另一个实施例中,以一个具体实例对本方法进行说明:
提供一种面向医学领域的关系抽取方法,包括:
S1:设置关系抽取模型的超参数;
S2:获取待抽取关系的语句;
S3:对待抽取关系的语句进行向量化,得到语句向量化结果;
S4:将语句向量化结果输入关系抽取模型;
S5:得到关系抽取结果。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述超参数,包括:
词向量大小、关系类别数目、GRU神经元数目、语句最大长度、位置编码最大长度。
在本实施例中,各个超参数分别设置为:
词向量大小vocab:16693词;
关系类别数目num_classes:5个;
GRU神经元数目:230个;
句子最大长度:70字;
位置编码最大长度:60字;
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述待抽取关系的语句,由用户输入,格式为:
实体1实体2语句,
所述实体及语句间使用空格进行间隔。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述对待抽取关系的语句进行向量化,包括:
S31:读取词向量表并进行编码,用字典储存;
S32:对关系类别进行编码,用字典储存;
S33:根据语句最大长度创建空列表;
S34:获取空字符编码以及待抽取关系的语句中两实体与当前位置的位置编码;
S35:按词对待抽取关系的语句进行遍历,若该词不在词表中,则将原有的空字符编码替换为未登录字符编码;若该词在词表中,则将原有的空字符编码替换为该词在词表中所对应的编码;
S36:得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述关系抽取模型,包括:
输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层、关系类别层;
所述输入层,输入格式为句子;
所述Bi-GRU+字符级Attention层,选择Bi-GRU模型,对语句中的每一个中文字符输入进行字符级embedding以及加入字符级Attention;
所述输出层,对每个输入序列输出一个关系;
所述语句级Attention层,针对每个关系类别的所有语句进行向量化,并加入语句级Attention,同时对关系类别设置权重;
所述关系类别层,输出label结果;
所述权重,代表该语句包含着该关系的可能性。
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述字符级Attention,
进一步地,所述的一种面向医学领域的关系抽取方法,其特征在于,所述语句级Attention,
得到语句集合向量后,再通过一层网络得到语句对表示:
以上所述仅为所述的实施例,并非因此限制本所述的专利范围,凡是利用所述说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在所述的专利保护范围内。
Claims (3)
1.一种面向医学领域的关系抽取方法,包括:
S1:设置关系抽取模型的超参数,包括:词向量大小、关系类别数目、GRU神经元数目、语句最大长度和位置编码最大长度;
S2:获取待抽取关系的语句;
S3:对待抽取关系的语句进行向量化,得到语句向量化结果;
S4:将语句向量化结果输入关系抽取模型;
S5:得到关系抽取结果;
所述待抽取关系的语句,由用户输入,格式为:
实体1实体2语句,
所述实体及语句间使用空格进行间隔;
所述对待抽取关系的语句进行向量化,包括:
S31:读取词向量表并进行编码,用字典储存;
S32:对关系类别进行编码,用字典储存;
S33:根据语句最大长度创建空列表;
S34:获取空字符编码以及待抽取关系的语句中实体1、实体2与当前位置的位置编码;
S35:按词对待抽取关系的语句进行遍历,若该词不在词向量表中,则将原有的空字符编码替换为未登录字符编码;若该词在词表中,则将原有的空字符编码替换为该词在词向量表中所对应的编码;
S36:得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量;
所述关系抽取模型,包括:
输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层和关系类别层;
所述输入层,输入格式为句子;
所述Bi-GRU+字符级Attention层,选择Bi-GRU模型,对语句中的每一个中文字符输入进行字符级embedding以及加入字符级Attention;
所述输出层,对每个输入序列输出一个关系;
所述语句级Attention层,针对每个关系类别的所有语句进行向量化,并加入语句级Attention,同时对关系类别设置权重;
所述关系类别层,输出label结果;
所述权重,代表该语句包含着该关系的可能性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111383236.4A CN114048727B (zh) | 2021-11-22 | 2021-11-22 | 一种面向医学领域的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111383236.4A CN114048727B (zh) | 2021-11-22 | 2021-11-22 | 一种面向医学领域的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048727A CN114048727A (zh) | 2022-02-15 |
CN114048727B true CN114048727B (zh) | 2022-07-29 |
Family
ID=80210454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111383236.4A Active CN114048727B (zh) | 2021-11-22 | 2021-11-22 | 一种面向医学领域的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048727B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN111078889A (zh) * | 2019-12-20 | 2020-04-28 | 大连理工大学 | 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
KR102203065B1 (ko) * | 2019-09-03 | 2021-01-14 | 숭실대학교산학협력단 | 트리플 검증 장치 및 방법 |
CN112818676B (zh) * | 2021-02-02 | 2023-09-26 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN113255320A (zh) * | 2021-05-13 | 2021-08-13 | 北京熙紫智数科技有限公司 | 基于句法树和图注意力机制的实体关系抽取方法及装置 |
-
2021
- 2021-11-22 CN CN202111383236.4A patent/CN114048727B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN111078889A (zh) * | 2019-12-20 | 2020-04-28 | 大连理工大学 | 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于双重注意力机制的渔业标准实体关系抽取;杨鹤 等;《农业工程学报》;20210731;第37卷(第14期);第204-212页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114048727A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
Conneau et al. | Very deep convolutional networks for natural language processing | |
CN110196906B (zh) | 面向金融行业的基于深度学习文本相似性检测方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110502626B (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN112699222B (zh) | 基于量子启发式神经网络的文本分类方法及邮件分类方法 | |
CN112101009A (zh) | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
Zhang et al. | Description-enhanced label embedding contrastive learning for text classification | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
CN114048727B (zh) | 一种面向医学领域的关系抽取方法 | |
CN117390131A (zh) | 一种用于多领域的文本情感分类方法 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
Deng et al. | Zero-shot learning based on quality-verifying adversarial network | |
CN115762706A (zh) | 一种基于深度学习的药物表征方法及存储介质 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN114444467A (zh) | 一种中医文献内容分析方法和装置 | |
CN113282746B (zh) | 一种网络媒体平台变体评论对抗文本生成方法 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN115544245A (zh) | 一种基于无监督学习的用户攻击性评论风格转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |