CN108427717B - 一种基于逐步扩展的字母类语系医疗文本关系抽取方法 - Google Patents

一种基于逐步扩展的字母类语系医疗文本关系抽取方法 Download PDF

Info

Publication number
CN108427717B
CN108427717B CN201810115953.0A CN201810115953A CN108427717B CN 108427717 B CN108427717 B CN 108427717B CN 201810115953 A CN201810115953 A CN 201810115953A CN 108427717 B CN108427717 B CN 108427717B
Authority
CN
China
Prior art keywords
word
quintuple
entity
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810115953.0A
Other languages
English (en)
Other versions
CN108427717A (zh
Inventor
罗杰
杨云龙
金豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810115953.0A priority Critical patent/CN108427717B/zh
Publication of CN108427717A publication Critical patent/CN108427717A/zh
Application granted granted Critical
Publication of CN108427717B publication Critical patent/CN108427717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于逐步扩展的字母类语系医疗文本关系抽取方法:(1)将医疗文本划分成句子,识别出句子中的实体;(2)统计每个句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;(3)使用种子元组识别出匹配的五元组,通过特征选择,构建词向量生成五元组向量(4)对五元组向量聚类,选用类中心作为关系模板,抽取出符合该模板表达关系的实体对加入到种子元组中,重复(3)(4)步骤,直到迭代结束。本发明利用医疗文本中实体对上下文的语义特性,构造特征明显、利于聚类的特征向量,使用类中心作为关系模板,反复迭代抽取出医疗文本中的实体关系,算法可以在大量未标注关系的非结构化文本中使用,并保证了较高的精确率和召回率。

Description

一种基于逐步扩展的字母类语系医疗文本关系抽取方法
技术 发明领域
本发明涉及非结构化医疗文本范畴下,可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法,字母类语系可以是德文、法文、英文等与英文有相似的其他字母类语系。
背景技术
自动从医疗文本中进行关系抽取是计算机科技工作者广泛研究的问题。目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取,并且关系抽取技术不具有在医疗不同领域的可迁移性。与此同时,仅仅靠手工去发现这些医疗文本中有用的信息,为医生和患者提供方便,将会越来越复杂、困难。总而言之,目前的技术对于日益增长的非结构化医疗文本关系抽取是有很大的限制。
发明内容
目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取,并且关系抽取技术不具有在医疗不同领域的可迁移性。
本发明要解决的技术问题:针对现有的医疗关系抽取技术主要集中在对有标注的少量特定数据集进行关系分类的抽取,以及关系抽取技术不具有在医疗不同领域的可迁移性的缺陷,本发明提出了一种基于逐步扩展的字母类语系医疗文本关系抽取方法,该方法填补了现有技术的空白,针对不同医疗领域,该方法具有很好的迁移性,而且可对大量无关系标注数据集的输入流,创建基于逐步扩展的字母类语系医疗文本关系抽取。
本发明采用的技术方案:一种基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征与步骤如下:
(1)将输入的医疗文本划分成句子,并使用实体识别技术,通过加载SNOMED 医学字典库,识别出句子中的实体,并将句子切分,生成五元组句子;其中,每个五元组句子中只包含两个实体对;
(2)统计每个五元组句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;
(3)使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量;
(4)对五元组向量进行聚类,选用类中心作为关系模板,抽取出符合该关系模板表达关系的新的五元组句子,将新的五元组句子对应的新的实体对加入到种子元组中,重复(3)(4)步骤,直到没有新的实体对产生。
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(1) 进一步包括:
(1a)对输入文本集合,根据自然语言符号,将其划分成句子集合 S={s1,s2,…,sn},并去除掉句子中的停用词,其中n代表文本中总共有n个句子;
(1b)对于每一个句子si=wi1wi2…wim,加载SNOMED字典库,使用正向匹配算法识别出句子中的实体:
Figure BDA0001570646590000021
然后使用启发式的算法,合并产生关于疾病和症状有关的相邻新实体(比如ei2ei3),其中eix(0≤x≤m)代表识别出来的实体,num(eix)代表一个实体中单词个数,m代表句子si有m个单词;
(1c)将实体识别后的句子切分,保证每个句子切分后只出现两个实体,生成五元组句子,产生五元组句子集合S′={s1′,s2′,…,sk′},其中k≥n。
si=<prei,ei1,midi,ei2,sufi>
其中,(ei1,ei2)构成实体对,prei是实体ei1的前缀单词序列,midi是ei1和ei2之间的词序列,sufi是ei2之后的词序列。
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(2) 进一步包括:
(2a)使用统计算法,统计五元组句子集合S′中每个五元组句子中的实体对,得到实体对频次,用哈希表保存,其中关键码值中的key是实体对,value是频次;将实体对按照频次从高到低的顺序排序,筛选出少量出现频次最高的实体对作为种子元组;
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(3) 进一步包括:
(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子;
(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子si′中每个单词的词向量特征W;
(3c)得到五元组句子si′中每个单词wij距离第一个实体ei1的距离特征DisP1,每个单词wij距离第二个实体ei2的距离特征DisP2,每个单词wij的词性特征POS;
(3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS,对应于四个维度的特征空间,w∈D1×D2×D3×D4,Dt是第t个局部特征库;使用特征向量矩阵,将单词的每个特征映射成向量形式;其中Mt∈Ru×N(t=1,2,3,4)是第t个局部特征空间的向量矩阵,其中u表示第t个局部特征空间中特征向量的维度 (比如Mt的每一列是第t个特征空间中的一个特征向量),N表示该第t个局部特征空间中字典Dic的大小(比如第一个局部特征空间,单词很多,字典就会很大,单词个数等于字典的大小);当t=1时,M1是使用word2vec在语料上训练出来的词向量矩阵;当t≥2时,Mt是随机生成的矩阵,随机生成的矩阵包括以下矩阵:每个单词距离第一个实体的距离矩阵,每个单词距离第二个实体的距离矩阵,每个单词的词性矩阵;
(3e)对于一个五元组句子si′:
s′i=<prei,ei1,midi,ei2,sufi>
其中ei1的前缀单词个数和ei2的后缀单词个数可以通过参数PreWN控制前缀个数、通过参数SufWN控制后缀个数;当t=1时,每个词w′ij(j=1,2,…,m)在
Figure BDA0001570646590000041
会有一个长度为u=50词向量
Figure BDA0001570646590000042
当t≥2时,假定
Figure BDA0001570646590000043
是第t个局部特征空间中的一个0-1(one hot)向量,该0-1向量长度为N,由该特征空间中的字典Dic匹配得到,所以
Figure BDA0001570646590000044
每个词最终得到词向量为:
Figure BDA0001570646590000045
其中“。”符号表示链接操作;
(3f)根据词向量,可以生成每个五元组特征向量,特征向量不包含实体:
Figure BDA0001570646590000046
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(4) 进一步包括:
(4a)对生成的五元组向量进行聚类,选取类中心作为关系模板;
(4b)两个五元组向量的匹配度公式为:
Sim(t1,t2),t1对应五元组<pre1,e1,mid1,e′1,suf1>,t2对应五元组 <pre2,e2,mid2,e′2,suf2>。
Figure BDA0001570646590000047
其中e1,e′1,e2,e′2标注的实体;元组聚类过程,需要使用匹配度函数Sim计算两个五元组特征向量的相似性,相似性达到最小阈值Tsim,才能聚到一类,聚类时使用single-pass clustering algorithm算法;
(4c)对于每个类中的所有元组:t1,t2,t3,…,tn
Figure BDA0001570646590000048
是类中心向量:
Figure BDA0001570646590000051
聚类结束时,使用类中心作为候选向量模板,与候选向量模板相似度最大的五元组句子为候选关系模板,本次迭代得到候选向量模板和候选关系模板后,本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算,选用置信度高于阈值Pconf的候选关系模板作为关系模板,并迭代进行实体对抽取,置信度低于阈值的关系模板丢弃。
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(2) 进一步包括:
(2b)对于已经得到的种子元组,能够通过人工干预进行修改,包括适当添加或减少种子实体对,使之后关系抽取过程的效果更好。
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(4) 进一步包括:
步骤(3d)中,当t=1时,u=50,代表使用word2vec对每个单词训练的向量维度,该维度在实验中表达词义的效果最好;当t≥2时,综合实验效果和矩阵的大小对计算效率的影响,设置u=5;
步骤(3e)中,当t=1时,词向量
Figure BDA0001570646590000052
长度为u=50,
Figure BDA0001570646590000053
的长度均为 u=5,每个单词最终会得到一个长度为65的特征向量。
上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(4) 进一步包括:
步骤(3e)中,将参数PreWN和参数SufWN均设置为3,prei=wi1wi2wi3, sufi=wi(r-2)wi(r-1)wi(r)
Figure BDA0001570646590000054
该五元组中由r个单词组成,这r个单词种类有p个(p≤r)。
本发明所述的字母类语系医疗文本可以是德文、法文、英文等与英文有相似的其他字母类语系医疗文本。
本发明具有以下优点:
(1)本发明使用文本中较为普遍的词特征和句子特征,作为元组向量,这样就不用针对不同的文本去提取不同特征。
(2)同时,本发明也不用考虑标记数据量不足而无法对大量的文本进行准确的关系抽取,因为对于大量文本,本发明提供的方法只要使用少量的数据进行参数训练,就可以使该方法对于医疗领域的文本保持较高的准确率和精确率。
(3)此外,针对不同医疗领域,本发明提供的方法具有有很好的迁移性,可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法。
附图说明
图1为基于逐步扩展的字母类语系医疗文本关系抽取方法整体流程图;
图2为本发明中切分五元组句子示意图;
图3为本发明的整体实现流程。
具体实施方式
下面参考附图,对本发明的实施例进行详细的说明。
首先对本发明的方法原理进行说明。
逐步扩展的方法在诸多研究领域有广泛应用,特别是针对没有标注标签的数据有很好的操作性和应用性。在使用逐步扩展的方法对字母类语系医疗文本进行关系抽取时,有两个关键步骤:关键步骤(1)、准确的实体识别技术;关键步骤(2)、选择合适的特征生成特征向量,对向量进行聚类。这两个关键步骤可以对每次迭代的产生结果的准确性有很大的保证,同时可以确保本次产生的结果对下次迭代的准确性有正反馈的影响。同时,增量聚类的方法可以在大规模的文本中使用。
本发明所述的字母类语系医疗文本可以是德文、法文、英文等与英文有相似的其他字母类语系医疗文本。
本发明主要包括的核心思想:使用实体识别方法,通过加载SNOMED医学库,对医疗文本中的疾病和症状实体进行识别;选择合适的特征,保证了算法在不同医疗文本的可迁移性;在逐步扩展过程中采用single-pass clustering algorithm方法对特征向量进行聚类,保证了方法的关系抽取的精确率和召回率。
下面参见附图1-3对本发明提供的基于逐步扩展的字母类语系医疗文本关系抽取方法进行具体描述:
(1)、将输入的字母类语系医疗文本划分成句子,并使用实体识别技术,通过加载SNOMED医学字典库,识别出句子中的实体,并将句子切分,生成五元组句子;其中,每个五元组句子中只包含两个实体对;
(1a)对输入文本集合,根据自然语言符号,将其划分成句子集合 S={s1,s2,…,sn},并去除掉句子中的停用词,其中n代表文本中总共有n个句子;
(1b)对于每一个句子si=wi1wi2…wim,加载SNOMED字典库,使用正向匹配算法识别出句子中的实体。
Figure BDA0001570646590000071
然后使用启发式的算法,合并产生关于疾病和症状有关的相邻新实体(比如ei2ei3),其中eix(0≤x≤m)代表识别出来的实体,num(eix)代表一个实体中单词个数,m代表句子si有m个单词;
(1c)将实体识别后的句子切分,保证每个句子切分后只出现两个实体,具体切分方法参见附图2,产生新的五元组句子集合S′={s1′,s2′,…,sk′},k≥n。
s′i=<prei,ei1,midi,ei2,sufi>
其中,(ei1,ei2)构成实体对,prei是实体ei1的前缀单词序列,midi是ei1和ei2之间的词序列,sufi是ei2之后的词序列。
(2)、统计每个句子中实体对的频率,将出现频率最高的少量实体对作为种子元组:
(2a)使用统计算法,统计五元组句子集合S′中每个句子中的实体对,得到实体对频次,用哈希表保存,其中key是实体对,value是频次。将实体对按照频次从高到低的顺序排序,筛选出少量出现频次最高的实体对作为种子元组;
(2b)对于已经得到的种子元组,可以进行人工干预修改,适当添加或减少种子实体对,使之后关系抽取过程的效果更好。
(3)、使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量:
(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子;
(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子si′中每个单词的词向量特征W;
(3c)得到五元组句子si′中每个单词wij距离第一个实体ei1的距离特征DisP1,每个单词wij距离第二个实体ei2的距离特征DisP2,每个单词wij的词性特征POS; (3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS,对应于四个维度的特征空间,w∈D1×D2×D3×D4,Dt是第t个局部特征库;使用特征向量矩阵,将单词的每个特征映射成向量形式;其中Mt∈Ru×N(t=1,2,3,4)是第t个局部特征空间的向量矩阵,其中u表示第t个局部特征空间中特征向量的维度(比如Mt的每一列是第t个特征空间中的一个特征向量),N表示该第t个局部特征空间中字典Dic的大小(比如第一个局部特征空间,单词很多,字典就会很大, 单词个数等于字典的大小);当t=1时,M1是使用word2vec在语料上训练出来的词向量矩阵,其中u=50,代表使用word2vec对每个单词训练的向量维度,该维度表达词义的效果最好;当t≥2时,Mt是随机生成的矩阵,随机生成的矩阵包括以下矩阵:每个单词距离第一个实体的距离矩阵,每个单词距离第二个实体的距离矩阵,每个单词的词性矩阵,综合实验效果和矩阵的大小对计算效率的影响,设置u=5;
(3e)对于一个五元组句子si′:
s′i=<prei,ei1,midi,ei2,sufi>
其中,ei1的前缀单词个数和ei2的后缀单词个数可以通过参数PreWN(前缀个数)和SufWN(后缀个数)控制,此处设置为3,prei=wi1wi2wi3,sufi=wi(r-2)wi(r-1)wi(r)
Figure BDA0001570646590000091
该五元组中由r个单词组成,这r个单词种类有p个(p≤r);当t=1时,每个词wij′(j=1,2,…,m)在
Figure BDA0001570646590000092
会有一个长度为u=50 词向量
Figure BDA0001570646590000093
当t≥2时,假定
Figure BDA0001570646590000094
是第t个局部特征空间中的一个0-1(one hot) 向量,该0-1向量长度为N,由该特征空间中的字典Dic匹配得到,所以
Figure BDA0001570646590000095
每个词最终得到词向量为:
Figure BDA0001570646590000096
其中“。”符号表示链接操作,
Figure BDA0001570646590000097
的长度均为u=5,每个单词最终会得到一个长度为65的特征向量;
(3f)根据词向量,可以生成每个五元组特征向量,特征向量不包含实体:
Figure BDA0001570646590000098
(4)、对五元组向量进行聚类,选用类中心作为关系模板,抽取出符合该模板表达关系的新的五元组,将其中新的实体对加入到种子元组中,重复(3) (4)步骤,直到没有新的实体对产生:
(4a)对生成的五元组向量进行聚类,选取类中心作为关系模板;
(4b)两个五元组向量的匹配度公式为:
Sim(t1,t2),t1对应五元组<pre1,e1,mid1,e′1,suf1>,t2对应五元组 <pre2,e2,mid2,e2,suf2>。
Figure BDA0001570646590000099
其中e1,e′1,e2,e′2标注的实体;元组聚类过程,需要使用匹配度函数Sim计算两个五元组特征向量的相似性,相似性达到最小阈值Tsim,才能聚到一类,聚类时使用single-pass clustering algorithm算法;
(4c)对于每个类中的所有元组:t1,t2,t3,…,tn
Figure BDA0001570646590000101
是类中心向量:
Figure BDA0001570646590000102
聚类结束时,使用类中心作为候选向量模板,与候选向量模板相似度最大的五元组句子为候选关系模板,本次迭代得到候选向量模板和候选关系模板后,本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算,选用置信度高于阈值Pconf的候选关系模板作为关系模板,并迭代进行实体对抽取,置信度低于阈值的关系模板丢弃。
综上所述,根据上述方法即可完成基于逐步扩展方法对字母类语系医疗文本关系抽取。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其作出各种修改。

Claims (7)

1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:步骤如下:
(1)将输入的医疗文本,根据自然语言符号,将其划分成句子集合S={s1,s2,…,sn},并去除掉句子中的停用词,其中n代表文本中总共有n个句子;对于每一个句子si=wi1 wi2 …wim,加载SNOMED字典库,使用正向匹配算法识别出句子中的实体:
Figure FDA0003126897770000011
然后使用启发式的算法,合并关于疾病和症状有关的相邻新实体,其中eix代表识别出来的实体,0≤x≤m,num(eix)代表一个实体中单词个数,m代表句子si有m个单词;将实体识别后的句子切分,保证每个句子切分后只出现两个实体,生成五元组句子,形成五元组句子集合S'={s'1,s'2,…,s'k},其中k≥n;
s′i=<prei,ei1,midi,ei2,sufi>
其中,(ei1,ei2)构成实体对,prei是实体ei1的前缀单词序列,midi是ei1和ei2之间的词序列,sufi是ei2之后的词序列;
(2)统计每个五元组句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;
(3)使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量;
(4)对生成的五元组向量进行聚类,选取类中心作为关系模板,抽取出符合该关系模板表达关系的新的五元组句子,将新的五元组句子对应的新的实体对加入到种子元组中,两个五元组向量的匹配度公式为:Sim(t1,t2),t1对应五元组<pre1,e1,mid1,e'1,suf1>,t2对应五元组<pre2,e2,mid2,e'2,suf2>;
Figure FDA0003126897770000021
其中e1,e'1,e2,e'2标注的实体;元组聚类过程,需要使用匹配度函数Sim计算两个五元组特征向量的相似性,相似性达到最小阈值Tsim,才能聚到一类,聚类时使用single-passclusteringalgorithm算法;
对于每个类中的所有元组:t1,t2,t3,…,tn,类中心向量
Figure FDA0003126897770000022
为:
Figure FDA0003126897770000023
聚类结束时,使用类中心作为候选向量模板,与候选向量模板相似度最大的五元组句子为候选关系模板,本次迭代得到候选向量模板和候选关系模板后,本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算,选用置信度高于阈值Pconf的候选关系模板作为关系模板,并迭代进行实体对抽取,置信度低于阈值的关系模板丢弃;
重复步骤(3)(4),直到没有新的实体对产生。
2.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(2)进一步包括:
(2a)使用统计算法,统计五元组句子集合S'中每个五元组句子中的实体对,得到实体对频次,用哈希表保存,其中关键码值中的key是实体对,value是频次;将实体对按照频次从高到低的顺序排序,筛选出少量出现频次最高的实体对作为种子元组。
3.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(3)进一步包括:
(3a)使用种子元组从五元组句子集合S'中识别出匹配的五元组句子;
(3b)使用word2vec训练得到五元组句子集合S'中每个五元组句子s'i中每个单词的词向量特征W;
(3c)得到五元组句子s'i中每个单词wij距离第一个实体ei1的距离特征DisP1,每个单词wij距离第二个实体ei2的距离特征DisP2,每个单词wij的词性特征POS;
(3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS,对应于四个维度的特征空间,w∈D1×D2×D3×D4,Dt是第t个局部特征库;使用特征向量矩阵,将单词的每个特征映射成向量形式;其中Mt∈Ru×N(t=1,2,3,4)是第t个局部特征空间的向量矩阵,其中u表示第t个局部特征空间中特征向量的维度,N表示该第t个局部特征空间中字典Dic的大小;当t=1时,M1是使用word2vec在语料上训练出来的词向量矩阵;当t≥2时,Mt是随机生成的矩阵,随机生成的矩阵包括以下矩阵:每个单词距离第一个实体的距离矩阵,每个单词距离第二个实体的距离矩阵,每个单词的词性矩阵;
(3e)对于一个五元组句子s'i
s′i=<prei,ei1,midi,ei2,sufi>
其中ei1的前缀单词个数和ei2的后缀单词个数通过参数PreWN控制前缀个数、通过参数SufWN控制后缀个数;当t=1时,每个词w'ij(j=1,2,…,m)在
Figure FDA0003126897770000037
会有一个词向量
Figure FDA0003126897770000031
当t≥2时,假定
Figure FDA0003126897770000032
是第t个局部特征空间中的一个onehot向量,该onehot向量长度为N,由该特征空间中的字典Dic匹配得到,所以
Figure FDA0003126897770000033
每个词最终得到词向量为:
Figure FDA0003126897770000034
其中
Figure FDA0003126897770000035
符号表示链接操作;
(3f)根据词向量,生成每个五元组特征向量,特征向量不包含实体:
Figure FDA0003126897770000036
4.根据权利要求2所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(2)进一步还包括:
(2b)对于已经得到的种子元组,能够通过人工干预进行修改,包括适当添加或减少种子实体对,改善之后关系抽取过程的效果。
5.根据权利要求3所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:
步骤(3d)中,当t=1时,u=50,代表使用word2vec对每个单词训练的向量维度;当t≥2时,综合实验效果和矩阵的大小对计算效率的影响,设置u=5;
步骤(3e)中,当t=1时,词向量
Figure FDA0003126897770000041
长度为u=50,当t≥2时,
Figure FDA0003126897770000042
的长度均为u=5,每个单词最终会得到一个长度为65的特征向量。
6.根据权利要求3所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:
步骤(3e)中,将参数PreWN和参数SufWN均设置为3,prei=wi1wi2wi3,sufi=wi(r-2)wi(r-1)wi(r)
Figure FDA0003126897770000043
该五元组中由r个单词组成,这r个单词种类有p个,其中p≤r。
7.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述字母类语系医疗文本包括:德文、法文、英文。
CN201810115953.0A 2018-02-06 2018-02-06 一种基于逐步扩展的字母类语系医疗文本关系抽取方法 Active CN108427717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810115953.0A CN108427717B (zh) 2018-02-06 2018-02-06 一种基于逐步扩展的字母类语系医疗文本关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810115953.0A CN108427717B (zh) 2018-02-06 2018-02-06 一种基于逐步扩展的字母类语系医疗文本关系抽取方法

Publications (2)

Publication Number Publication Date
CN108427717A CN108427717A (zh) 2018-08-21
CN108427717B true CN108427717B (zh) 2021-09-03

Family

ID=63156568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810115953.0A Active CN108427717B (zh) 2018-02-06 2018-02-06 一种基于逐步扩展的字母类语系医疗文本关系抽取方法

Country Status (1)

Country Link
CN (1) CN108427717B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241295B (zh) * 2018-08-31 2021-12-24 北京天广汇通科技有限公司 一种非结构化数据中的特定实体关系的提取方法
CN109215798B (zh) * 2018-10-09 2023-04-07 北京科技大学 一种面向中医古文的知识库构建方法
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
CN111291554B (zh) * 2020-02-27 2024-01-12 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
CN111899890B (zh) * 2020-08-13 2023-12-08 东北电力大学 基于比特串哈希的医疗数据相似度检测系统与方法
CN112151186A (zh) * 2020-10-05 2020-12-29 河南大学 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Building Relation Extraction Templates via Unsupervised Learning;Ayman El-Kilany et al.;《IDEAS 2017: Proceedings of the 21st International Database Engineering & Applications Symposium》;20170712;1-7 *
属性和属性值组合的概念模板;程显毅 等;《北京大学学报(自然科学版)》;20130131;第49卷(第01期);15-19 *

Also Published As

Publication number Publication date
CN108427717A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427717B (zh) 一种基于逐步扩展的字母类语系医疗文本关系抽取方法
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
Qiu et al. Chinese clinical named entity recognition using residual dilated convolutional neural network with conditional random field
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
US8239349B2 (en) Extracting data
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
WO2016095645A1 (zh) 笔画输入方法、装置和系统
CN111651986A (zh) 事件关键词提取方法、装置、设备及介质
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
CN117633148A (zh) 一种基于融合多策略对比学习的医学术语标准化方法
JP2005025474A (ja) 機械翻訳装置、コンピュータプログラム及びコンピュータ
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
Deschacht et al. Efficient hierarchical entity classifier using conditional random fields
Sarkar Hindi named entity recognition using system combination
CN113076467A (zh) 基于跨语言神经主题模型的汉越新闻话题发现方法
Chatterjee et al. Machine transliteration using SVM and HMM
CN111899832A (zh) 基于上下文语义分析的医疗主题管理系统与方法
CN111881678A (zh) 一种基于无监督学习的领域词发现方法
Nehar et al. Rational Kernels for Arabic Stemming and Text Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant