CN110738052A - 一种基于特征字的半监督中医命名实体获取方法 - Google Patents
一种基于特征字的半监督中医命名实体获取方法 Download PDFInfo
- Publication number
- CN110738052A CN110738052A CN201910930733.8A CN201910930733A CN110738052A CN 110738052 A CN110738052 A CN 110738052A CN 201910930733 A CN201910930733 A CN 201910930733A CN 110738052 A CN110738052 A CN 110738052A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- word
- named entity
- training
- semi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于特征字的半监督中医命名实体获取方法,涉及人工智能及中文自然语言处理技术领域。针对目前中医命名实体获取方法的召回率和准确率不够好的这种问题,该方法使用通识类语料和中医相关语料训练出字向量加权组合,并对于中医领域特殊的特征词的字向量进行特殊处理,并使用半监督的方法进行训练语料的扩充,在减少训练标注数据的情况下,使模型在中医命名实体获取上取得较好的效果,有效提升了中医语料中的命名实体的抽取效果。
Description
技术领域
本发明涉及人工智能及中文自然语言处理技术领域,尤其涉及一种基于特征字的半监督中医命名实体获取方法。
背景技术
中医语料中的命名实体抽取是自然语言处理的应用之一,同样也是自然语言处理中的一项难点,由于中医命名实体的语言形式多为古文或半白话文,并且在中医古籍和医案中,即使相同含义的命名实体,但也常有不同的表达方式。同时,中医命名实体又分有多种种类,包括:疾病、症状、证候、中药、方剂等。当前已有的获取方法在处理效果上也不尽完善,同时各种方法对于训练语料上需要大量的人工标注数据,时间和人力代价很大。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于特征字的半监督中医命名实体获取方法,在减少人工数据标注的同时,完善中医命名实体的获取效果,获取中医语料中的命名实体。
为解决上述技术问题,本发明所采取的技术方案是:一种基于特征字的半监督中医命名实体获取方法,包括以下步骤:
步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
步骤1.2、使用通识百科类语料进行字向量的训练,得到训练的字向量
步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量,如下公式所示:
其中,0≤λ≤1;
步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值,如下公式所示:
其中,为指示函数,如下公式所示:
扩展后的特征字的字向量维度表示为:
其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布;
步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充,如下公式所示:
步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注及划分;
步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集;
步骤4、建立中医命名实体获取模型,并使用半监督学习,进行模型阶段一训练,使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层;
步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型;
步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于特征字的半监督中医命名实体获取方法,在三个方面提升了中医语料中的命名实体的抽取效果:1)本发明将中医类语料和百科类语料训练的词向量进行自定义权重结合,提升了对于中医富含偏向于古文和半白话文的表述方式的命名实体的抽取效果;2)本发明基于半监督的学习方法,在减少人工标注代价下,学习到更广泛的未标注中医命名实体数据的特征分布,提升了模型的特征学习和实体抽取效果;3)本发明整理中医命名实体特征字集合表,对属于特征字和不属于特征字的字向量进行不同的处理,有效学习了中医命名实体中特征字和非特征字的不同数据分布特点,提升了模型的实体的抽取效果。
附图说明
图1为本发明实施例提供的一种基于特征字的半监督中医命名实体获取方法的流程图;
图2为本发明实施例提供的进行填充后的字向量生成图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于特征字的半监督中医命名实体获取方法,如图1所示,包括以下步骤:
步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
步骤1.1、使用中医类别的语料(如医案、中医古籍等)对用于中医命名实体抽取的字向量进行训练,得到训练的字向量wi表示第i个字,i=1,2,...,M,M表示整体训练字向量的语料中出现的字所在字表大小,默认为汉字的个数;
字向量是整个中医命名实体获取模型的输入,对于一般通识类语料中的命名实体,可使用预训练好后的词向量或字向量作为输入。对于中医命名实体,因实体的上下文多以古文或半白话文形式进行表述,同时又结合有白话文的表述,因此使用通识类语料训练的字向量,以及结合基于中医语料训练的字向量,对于实体抽取结果将会有所提升。本实施例中,使用大规模通识类语料如维基百科或百度百科语料,同时使用中医类别的语料,如:医案、中医古籍等分别进行字向量的训练。
其中具体的训练采用Word2Vec的训练模型,最终训练出对于每个字符的向量表示,维度可自定义,一般为100维。以字符“痛”为例,在进行语料训练后将呈现出如下表示:
该向量将包含该字符的本身的特征信息,同时包含该字符在训练语料中的上下文特征信息。
步骤1.3、自定义权重λ,将两部分语料训练的字向量进行加权整合,形成最终训练的字向量,如下公式所示:
其中,0≤λ≤1;
使用自定义的权重将两部分语料训练的字向量进行加权的整合形成最终的字向量。基于通识语料训练的字向量和中医语料训练的字向量包含了两种语料类别下的信息,使用自定义的权重将两者进行结合,可以使得字向量从形式上包含两种通识类实体和中医命名实体,两种语境下的信息。
步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值,如下公式所示:
扩展后的特征字的字向量维度表示为:
其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布;
步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充,如下公式所示:
本实施例中,对于中医类命名实体语料进行标注,对如:症状、证候、中药、疾病、方剂等各种类别的数据进行字符级的特征分析,将字频率大于一定阈值的字进行提取,并按字的类别整合为不同类别的特征字,本实施例中共整理有39类特征字类别,具体如表1所示的部分特征字字表;
表1部分特征字表
本实施例中,对每一类别的特征字的字向量进行加长一定维度,加长的维度使用正态分布数值初始化的数值,对非特征字的字向量进行加长同样的维度,但加长的维度只使用0进行填充。具体参考如图2所示的字向量生成图:
在图2中,基于以上已有的通识类和中医语料训练得到字向量,采用自设定的权重,将两种语料训练得到的字向量进行整合。图2中设定得到的字向量为N维。在此基础上,将特征字字表中的字按类别生成K维的字向量拼接在相应的字向量之后,每一种类别的字向量使用正态分布的随机数进行填充,如若不是特征字字表中的字,则使用0进行填充K维拼接在相应的字向量之后。本实施例中,实验效果较好的参数:N=100、K=20。
步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注及划分;
步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集;
步骤4、建立中医命名实体获取模型,并使用半监督学习,进行模型阶段一训练,使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层;
步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型;
步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
本实施例中,经过多次开放的测试,实验采用2万字标注训练语料对10万字未标注语料进行中医命名实体标签预测,在5千字的测试集语料中达到79%的F1值。相较于仅使用2万字的标注训练语料,对5千字的测试语料进行验证,本发明的中医命名实体获取模型在实体抽取效果上,F1值提高5%。在使用自定义特征字字表进行字向量优化后,本发明的中医命名实体获取模型在实体抽取效果上,F1值提高3%。总体上,本发明的基于特征字的半监督中医命名实体获取方法在减少训练数据标注的情况下,实现了较好的中医命名实体获取效果,方法具有扩展和使用价值。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (8)
1.一种基于特征字的半监督中医命名实体获取方法,其特征在于:包括以下步骤:
步骤1、以字为单位,使用大规模通识类语料训练用于中医命名实体抽取的字向量;
步骤2、收集整理特征字集合表,划分为不同类别的子集合,将步骤1最终训练形成的字向量按是否属于特征字进行不同处理,对特征字字向量及非特征字向量进行特殊填充;
步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字,整合为特征字集合表;
步骤2.2、将不同种类的特征字进行类别划分,对每一类别的特征字的字向量加长一定维度进行扩展,加长的维度使用高斯分布初始化的数值;
步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度,但加长的维度使用0进行填充;
步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注,并将标注数据集划分为训练集、测试集和验证集;
步骤4、建立中医命名实体获取模型,并使用半监督学习,使用训练集和测试集进行模型阶段一训练,然后使用训练后模型对大规模未标注数据集进行中医命名实体预测,得到预测数据集;
步骤5、整合预测数据集和标注数据集,进行模型阶段二训练,得到最终的中医命名实体获取模型;
步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。
4.根据权利要求3所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:步骤2.2所述对每一类别的特征字的字向量加长一定维度进行扩展后如下公式所示:
其中,为指示函数,如下公式所示:
扩展后的特征字的字向量维度表示为:
其中,em:N(0,1),m=1,2,...,k,即em的取值属于均值为0,方差为1的正态分布。
6.根据权利要求1所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、采用“BIO”标注形式对数据集中数据进行标注,标注的类别包括中药、方剂、证候、症状和疾病;
步骤3.2、对标注数据进行划分,划分出80%标注数据集作为训练集,同时划分10%标注数据集作为测试集,以及10%标注数据集作为验证集。
7.根据权利要求6所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤4的具体方法为:
步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层,使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层,并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练;
步骤4.2、采用半监督的学习方法,使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测,学习到更广泛的数据分析特征,此处同样以特征字和非特征字的字向量作为模型输入层,BiLSTM-CRF作为模型的隐含层和输出层。
8.根据权利要求7所述的一种基于特征字的半监督中医命名实体获取方法,其特征在于:所述步骤5的具体方法为:
步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果,与步骤3.2中标注的训练集进行数据集整合;
步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练,得到最终的中医命名实体获取模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910930733.8A CN110738052A (zh) | 2019-09-29 | 2019-09-29 | 一种基于特征字的半监督中医命名实体获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910930733.8A CN110738052A (zh) | 2019-09-29 | 2019-09-29 | 一种基于特征字的半监督中医命名实体获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110738052A true CN110738052A (zh) | 2020-01-31 |
Family
ID=69269800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910930733.8A Pending CN110738052A (zh) | 2019-09-29 | 2019-09-29 | 一种基于特征字的半监督中医命名实体获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738052A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540475A (zh) * | 2020-04-26 | 2020-08-14 | 电子科技大学 | 一种基于半监督学习技术的中医治法规律挖掘方法 |
CN113642329A (zh) * | 2020-04-27 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 术语识别模型的建立方法及装置、术语识别方法及装置 |
CN113887227A (zh) * | 2021-09-15 | 2022-01-04 | 北京三快在线科技有限公司 | 一种模型训练与实体识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及系统 |
CN110222338A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种机构名实体识别方法 |
-
2019
- 2019-09-29 CN CN201910930733.8A patent/CN110738052A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326923A1 (en) * | 2006-05-15 | 2009-12-31 | Panasonic Corporatioin | Method and apparatus for named entity recognition in natural language |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及系统 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110222338A (zh) * | 2019-05-28 | 2019-09-10 | 浙江邦盛科技有限公司 | 一种机构名实体识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540475A (zh) * | 2020-04-26 | 2020-08-14 | 电子科技大学 | 一种基于半监督学习技术的中医治法规律挖掘方法 |
CN111540475B (zh) * | 2020-04-26 | 2022-10-21 | 电子科技大学 | 一种基于半监督学习技术的中医治法规律挖掘方法 |
CN113642329A (zh) * | 2020-04-27 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 术语识别模型的建立方法及装置、术语识别方法及装置 |
CN113887227A (zh) * | 2021-09-15 | 2022-01-04 | 北京三快在线科技有限公司 | 一种模型训练与实体识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN110019843B (zh) | 知识图谱的处理方法及装置 | |
CN110555083B (zh) | 一种基于zero-shot无监督实体关系抽取方法 | |
CN110096698B (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN107729513A (zh) | 基于语义对齐的离散监督跨模态哈希检索方法 | |
CN109657230A (zh) | 融合词向量和词性向量的命名实体识别方法及装置 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110738052A (zh) | 一种基于特征字的半监督中医命名实体获取方法 | |
Burget et al. | Recognition of emotions in Czech newspaper headlines | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN111310458A (zh) | 一种基于多特征融合的主观题自动评分方法 | |
CN112507039A (zh) | 基于外部知识嵌入的文本理解方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN108257650A (zh) | 一种应用于医技检查报告的智能纠错方法 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN115392256A (zh) | 一种基于语义分割的药物不良事件关系抽取方法 | |
CN109815478A (zh) | 基于卷积神经网络的药化实体识别方法及系统 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |