CN112949310B - 一种模型训练方法、中医药名识别方法、装置及网络模型 - Google Patents
一种模型训练方法、中医药名识别方法、装置及网络模型 Download PDFInfo
- Publication number
- CN112949310B CN112949310B CN202110233316.5A CN202110233316A CN112949310B CN 112949310 B CN112949310 B CN 112949310B CN 202110233316 A CN202110233316 A CN 202110233316A CN 112949310 B CN112949310 B CN 112949310B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- bert
- layer
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种模型训练方法、中医药名识别方法、装置及网络模型,属于计算机技术领域。该训练方法包括:获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。通过对BERT模型进行改进,在其词向量输出层后顺次连接的CNN层、LSTM层和CRF层,使得训练出的网络模型能够准确的识别出不常用领域的专有名词,解决了现有命名实体自动识别方法存在的识别不准确或识别错误的问题。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种模型训练方法、中医药名识别方法、装置及网络模型。
背景技术
命名实体(Named Entity,EN)是指语言中的专有名词,如地点名词、机构名词等。而命名实体识别(Named Entity Recognition)是用于识别文本中出现的专有名词,并依照专有名词的类别进行区分。以往研究中,命名实体识别多用于识别地点名词、人名、组织结构名词等相对常见的专有名词,而用于识别中药名词和方剂名词的研究相对较少。
目前,现有的中文命名实体自动识别方法一般基于中文分词进行命名实体识别。而基于分词的命名实体识别方法存在以下缺点:首先,有很多专业名词(特别是在一些有歧义的情况下)在自动分词工具中是识别不出来的,这些自动分词工具会将这些专业名词进行错误的切分,从而不能为命名实体识别提供正确的词,造成命名实体识别的错误;其次,中文分词工具大多数都是针对通用领域的,对于大多数的专业领域,比如说中医药领域,中文分词的效果不是很好。
发明内容
鉴于此,本申请的目的在于提供一种模型训练方法、中医药名识别方法、装置及网络模型,以改善现有的中文命名实体自动识别方法存在的识别不准确或识别错误的问题。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种模型训练方法,包括:获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。本申请实施例中,通过对BERT模型进行改进,在其词向量输出层后顺次连接的CNN层、LSTM层和CRF层,使得训练出的网络模型能够准确的识别出不常用领域的专有名词,解决了现有命名实体自动识别方法存在的识别不准确或识别错误的问题。
结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练,包括:在每次利用所述训练集完成对改进后的BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。本申请实施例中,本申请实施例中,在对模型进行训练时,采取动态学习率和提前终止的方式进行训练,能在保证预测精度的前提下,加快模块的收敛速度。
结合第一方面实施例的一种可能的实施方式,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练,包括:基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练。本申请实施例中,在对模型进行训练时,通过加入权重衰减(weight decay)机制以及dropout机制来减少模型过拟合的问题,以此提高模型的准确性。
结合第一方面实施例的一种可能的实施方式,在利用所述训练集和所述测试集对网络模型进行迭代训练之前,所述方法还包括:在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层。本申请实施例中,通过在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层,使得训练出的网络模型能够准确的识别出不常用领域的专有名词,解决了现有命名实体自动识别方法存在的识别不准确或识别错误的问题。
结合第一方面实施例的一种可能的实施方式,获取数据样本集,包括:选取多份已去重的医案;针对每一份医案,按照BIO标注方法对该份医案中的每个字均进行标注,其中,对属于医药领域中的专有名词中的第一字标记为B,该专有名词中的后续字标记为I,对与医药领域无关的其他字符均标记为O。本申请实施例中,针对每一份医案,按照BIO标注方法对该份医案中的每个字均进行标注,对属于医药领域中的专有名词中的第一字标记为B,该专有名词中的后续字标记为I,对与医药领域无关的其他字符均标记为O,使得在保证方案准确可行的前提下,相当于采用BIOES进行标注,可以提高标注是的效率。
结合第一方面实施例的一种可能的实施方式,在标注时,对所述专有名词中的属于中医认识名词、中医自然名词、中医生理名词、中医病理名词进行区分标注。本申请实施例中,在标注时,对专有名词中的属于中医认识名词、中医自然名词、中医生理名词、中医病理名词进行区分标注,使得后续训练出的命名实体识别模型不仅能识别出命名实体,还能对其所属的类型进行区分,从而可以快速的获得各个命名实体的类别。
第二方面,本申请实施例还提供了一种中医药名识别方法,所述方法包括:获取包含待识别中医药名的文本数据;利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的模型训练方法训练好的命名实体识别模型对所述文本数据中的中医药名进行识别,得到识别结果。
第三方面,本申请实施例还提供了一种网络模型,包括:BERT模型和在BERT模型的词向量输出层后依次接入的卷积CNN层、LSTM层和CRF层。
第四方面,本申请实施例还提供了一种模型训练装置,包括:获取模块以及训练模块;获取模块,用于获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;训练模块,用于利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。
第五方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第一方面实施例提供的方法。
第六方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法,或者,执行上述第一方面实施例提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种模型训练方法的流程示意图。
图2示出了本申请实施例提供的一种中医药名识别方法的流程示意图。
图3示出了本申请实施例提供的一种模型训练装置的模块框图。
图4示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
为了解决现有的中文命名实体自动识别方法存在的识别不准确或识别错误的问题。本申请实施例提供了一种中医药名识别方法,通过对BERT Bidirectional EncoderRepresentations from Transformer)模型进行改进,在其词向量输出层后顺次连接的CNN(Convolutional Neural Networks,卷积神经网络)层、LSTM(Long Short-Term Memory,上短期记忆网络)层和CRF(Conditional Random Fields,条件随机场)层,然后再对改进后的BERT模型进行训练,使得训练出的网络模型能够准确的识别出不常用领域的专有名词,解决了现有命名实体自动识别方法存在的识别不准确或识别错误的问题。
为了便于理解,下面将结合图1,对本申请实施例提供的模型训练方法进行说明。该模型训练方法包括以下步骤:
步骤S101:获取数据样本集,并按照预设比例划分为训练集和测试集。
当需要对模型进行训练时,获取数据样本集,并按照预设比例(例如7:3)划分为训练集和测试集,其中,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注。
其中,获取的数据样本集可以是事先就准备好的,例如存储在数据库或磁盘中,当需要时,直接获取即可。当然,也可以是实时获取的。
一种实施方式下,获取数据样本集的过程可以是:选取多份已去重的医案,针对每一份医案,按照BIO标注方法对该份医案中的每个字均进行标注。例如,从多本(如701本)中医典籍、融合语料库中拥有的多份(如10万份)老中医医案以及《中华历代名医医案全库》中获取多份医案,并对获取的多份份医案进行清洗去重,选取多份(如5000份)已去重的医案,构成数据集,并将每一份医案中的文字拆分为单字,然后对每一个单字按照BIO标注方法进行标注。在标注时,对属于医药领域中的专有名词中的第一字标记为B(Begin,表示开始),该专有名词中的后续字标记为I(Intermediate,表示命名实体中间部分),对与医药领域无关的其他字符均标记为O(Other,表示非命名实体的其他部分),例如,对包含“板蓝根冲剂,一天两次,一次一包,三天量”的医案进行标注时,将“板蓝根冲剂”中的“板”标记位B,将“板蓝根冲剂”中的“蓝”、“根”、“冲”、“剂”均标记为I,将“一天两次,一次一包,三天量”中的每个字均标记为O。对于医药领域中的专有名词用B、I标记,对和本领域无关的其他字符则统一标记为O。
对于医药领域中的专有名词可以根据对文本的理解和分析,将其实体类别划分为中医认识方法、中医生理、中医病理、中医自然、治则治法五大类。相应地,不同类别对应的专有名词可以是中医认识名词、中医自然名词、中医生理名词、中医病理名词、治则治法名词。在标注时,对专有名词中的属于中医认识名词、中医自然名词、中医生理名词、中医病理名词、治则治法名词进行区分标注。例如,其中中医认识标记为B-FF,I-FF;中医自然标记为B-ZR,I-ZR;中医生理标记为B-SL,I-SL,中医病理B-BL,I-BL,治则治法标记为B-ZZ,I-ZZ,非实体标记为O。
其中,需要说明的是,除了可以采用上述的BIO方式进行标注外,还可以采用另外一种常见的BIOES的方式进行标注。其中,E即END表示结尾,S即Single,表示单个字符。
步骤S102:利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型。
在按照预设比例将数据样本集划分为训练集和测试集后,利用所述训练集和所述测试集对网络模型(BERT-CNN-LSTM-CRF)进行迭代训练,得到训练好的命名实体识别模型。其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。本申请实施例中,选用的BERT模型可以为BERT-Base-Chinesa模型版本或BERT-Large-Chinese模型版本。此模型共有12层,隐含层有768,12个注意力头,包含110M个参数。可以通过下载谷歌BERT模型下面的各种文件(类似vocab.txt,bert_config.json等)来获得已训练的BERT模型。在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层,从而得到完整网络结构的BERT-CNN-LSTM-CRF的网络模型。
其中,对BERT模型的改进过程在利用所述训练集和所述测试集对网络模型进行迭代训练之前,也即在利用所述训练集和所述测试集对网络模型进行迭代训练之前,所述方法还包括:在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层。例如,响应用户对BERT模型的改进操作,在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层。
可选地,在利用所述训练集和所述测试集对网络模型进行迭代训练时,还可以引入权重衰减(weight decay)机制以及dropout机制来提高模型的准确性,也即训练时,基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对网络模型进行迭代训练。其中,引入权重衰减机制,也即引入L2正则化,其作用就是防止参数的值变得过大或过小,能在一定程度上减少模型过拟合的问题。同时,还可以引入dropout机制,并将dropout设为0.5,来减少模型过拟合。其中,权重衰减机制以及dropout机制的原理已经为本领域技术人员所熟知,在此不再介绍。
可选地,在利用所述训练集和所述测试集对网络模型(BERT-CNN-LSTM-CRF)进行迭代训练时,可以是在Python3.7和tensorflow1.14.0的环境下进行训练,可以将迭代次数(epoch)设为500,训练集和测试集的批量尺寸(batch_size)设为32,句子序列长度(sequence_lengeh,也即输入的字的长度)为100。同时采取动态学习率和提前终止的方式进行训练,其过程可以是:在每次利用所述训练集完成对网络模型(BERT-CNN-LSTM-CRF)的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低网络模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。例如,当前epoch训练完毕以后,用测试集衡量当前训练结果,并记下当前epoch的模型评估指标,如果当前的模型评估指标较上一个epoch的模型评估指标没有提升,那么就降低学习率,如将当前的学习率降低1/6,然后继续迭代训练,若连续出现多次当前的模型评估指标较上一个epoch的模型评估指标没有提升,例如,出现8个epoch测试集的模型评估指标都没有提升,则提前终止训练。其中,可以选用准确率,召回率以及F1值来作为模型的模型评估指标,并利用测试集进行验证评价。
通过对BERT-CNN-LSTM-CRF结构的网络模型进行拟合迭代训练,便可得到能识别命名实体的训练好的命名实体识别模型,保存模型,以备后续对包含待识别中医药名的文本数据中的中医药名进行识别,得到识别结果。下面将结合图2所述的中医药名识别方法,对其过程进行说明。
步骤S201:获取包含待识别中医药名的文本数据。
步骤S202:利用事先训练好的命名实体识别模型对所述文本数据中的中医药名进行识别,得到识别结果。
其中,该命名实体识别模型的结构为BERT-CNN-LSTM-CRF。通过在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层,然后利用上述的模型训练方法对该网络模型(BERT-CNN-LSTM-CRF)进行训练,便可得到训练好的命名实体识别模型。
本申请实施例还提供了一种网络模型,包括:BERT模型和在BERT模型的词向量输出层后依次接入的卷积CNN层、LSTM层和CRF层。其中,本申请实施例中,选用的BERT模型可以为BERT-Base-Chinesa模型版本或BERT-Large-Chinese模型版本。此模型共有12层,隐含层有768,12个注意力头,包含110M个参数。可以通过下载谷歌BERT模型下面的各种文件(类似vocab.txt,bert_config.json等)来获得已训练的BERT模型。
本申请实施例还提供了一种模型训练装置100,如图3所示。该模型训练装置100包括:获取模块110、训练模块120。
获取模块110,用于获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注。
可选地,获取模块110,用于选取多份已去重的医案;针对每一份医案,按照BIO标注方法对该份医案中的每个字均进行标注,其中,对属于医药领域中的专有名词中的第一字标记为B,该专有名词中的后续字标记为I,对与医药领域无关的其他字符均标记为O。其中,在标注时,对所述专有名词中的属于中医认识名词、中医自然名词、中医生理名词、中医病理名词进行区分标注。
训练模块120,用于利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。
可选地,训练模块120,用于在每次利用所述训练集完成对改进后的BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。
可选地,训练模块120,用于基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练。
可选地,该模型训练装置100还包括:处理模块,用于在训练模块120在利用所述训练集和所述测试集对网络模型进行迭代训练之前,在BERT模型的词向量输出层后依次接入卷积CNN层、LSTM层和CRF层。
本申请实施例所提供的模型训练装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图4所示,图4示出了本申请实施例提供的一种电子设备200的结构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230以及处理器240。
所述收发器210、所述存储器220、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210用于收发数据。存储器220用于存储计算机程序,如存储有图3中所示的软件功能模块,即模型训练装置100。其中,模型训练装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作系统(operating system,OS)中的软件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块,例如模型训练装置100包括的软件功能模块或计算机程序。例如,处理器240,用于取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;以及还用于利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器240也可以是任何常规的处理器等。
其中,上述的电子设备200,包括但不限于计算机、服务器等。
本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备200运行时,执行上述所示的模型训练方法,或者中医药名识别方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种模型训练方法,其特征在于,包括:
获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;
利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层,该BERT模型为BERT-Base-Chinesa模型或BERT-Large-Chinese模型;
利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练,包括:
在每次利用所述训练集完成对改进后的BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;
若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;
若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。
2.根据权利要求1所述的方法,其特征在于,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练,还包括:
基于权重衰减机制以及dropout机制,利用所述训练集和所述测试集对改进后的BERT模型进行迭代训练。
3.根据权利要求1所述的方法,其特征在于,获取数据样本集,包括:
选取多份已去重的医案;
针对每一份医案,按照BIO标注方法对该份医案中的每个字均进行标注,其中,对属于医药领域中的专有名词中的第一字标记为B,该专有名词中的后续字标记为I,对与医药领域无关的其他字符均标记为O。
4.根据权利要求3所述的方法,其特征在于,在标注时,对所述专有名词中的属于中医认识名词、中医自然名词、中医生理名词、中医病理名词进行区分标注。
5.一种中医药名识别方法,其特征在于,所述方法包括:
获取包含待识别中医药名的文本数据;
利用如权利要求1-4中任一项所述的模型训练方法训练好的命名实体识别模型对所述文本数据中的中医药名进行识别,得到识别结果。
6.一种模型训练装置,其特征在于,包括:
获取模块,用于获取数据样本集,并按照预设比例划分为训练集和测试集,所述数据样本集包括多份医案,每份医案中的每个字均按照命名实体规则进行了标注;
训练模块,用于利用所述训练集和所述测试集对网络模型进行迭代训练,得到训练好的命名实体识别模型,其中,所述网络模型包括:在BERT模型的词向量输出层后顺次连接的CNN层、LSTM层和CRF层,该BERT模型为BERT-Base-Chinesa模型或BERT-Large-Chinese模型
所述训练模块,具体用于:
在每次利用所述训练集完成对改进后的BERT模型的训练时,用所述测试集对当前迭代训练后的模型进行合格测试;
若当前迭代训练后的模型的模型评估指标小于前一次迭代训练后的模型的模型评估指标,则降低BERT模型的学习率继续进行迭代训练;
若连续出现预设次数的模型评估指标均小于前一次迭代训练后的模型的模型评估指标的情况,则终止训练而无需达到预设迭代次数。
7.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-4中任一项所述的方法,或者,执行如权利要求5所述的方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-4中任一项所述的方法,或者,执行如权利要求5所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233316.5A CN112949310B (zh) | 2021-03-01 | 2021-03-01 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233316.5A CN112949310B (zh) | 2021-03-01 | 2021-03-01 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949310A CN112949310A (zh) | 2021-06-11 |
CN112949310B true CN112949310B (zh) | 2023-06-06 |
Family
ID=76247378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110233316.5A Active CN112949310B (zh) | 2021-03-01 | 2021-03-01 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949310B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859964A (zh) * | 2019-04-29 | 2020-10-30 | 普天信息技术有限公司 | 一种语句中命名实体的识别方法及装置 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134953B (zh) * | 2019-05-05 | 2020-12-18 | 北京科技大学 | 基于中医古籍文献的中医命名实体识别方法及识别系统 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111738002A (zh) * | 2020-05-26 | 2020-10-02 | 北京信息科技大学 | 基于Lattice LSTM的古文领域命名实体识别方法和系统 |
CN111967266B (zh) * | 2020-09-09 | 2024-01-26 | 中国人民解放军国防科技大学 | 中文命名实体识别系统、模型构建方法和应用及相关设备 |
CN112115721B (zh) * | 2020-09-28 | 2024-05-17 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
-
2021
- 2021-03-01 CN CN202110233316.5A patent/CN112949310B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859964A (zh) * | 2019-04-29 | 2020-10-30 | 普天信息技术有限公司 | 一种语句中命名实体的识别方法及装置 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112949310A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871545B (zh) | 命名实体识别方法及装置 | |
CN111125331B (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN109472033B (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
Farmer et al. | Reading span task performance, linguistic experience, and the processing of unexpected syntactic events | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
US20170039188A1 (en) | Cognitive System with Ingestion of Natural Language Documents with Embedded Code | |
AU2020381439B2 (en) | Enhanced intent matching using keyword-based word mover’s distance | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN111028934A (zh) | 诊断质检方法、装置、电子设备和存储介质 | |
US20210057068A1 (en) | Identifying Information in Plain Text Narratives EMRs | |
CN112069329B (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
CN116721778B (zh) | 一种医学术语标准化方法、系统、设备及介质 | |
Eika et al. | Assessing the reading level of web texts for WCAG2. 0 compliance—can it be done automatically? | |
CN111506595B (zh) | 一种数据查询方法、系统及相关设备 | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN113095081A (zh) | 疾病的识别方法及装置、存储介质、电子装置 | |
Hellrich | Word embeddings: reliability & semantic change | |
CN113627159A (zh) | 纠错模型的训练数据确定方法、装置、介质及产品 | |
CN112949310B (zh) | 一种模型训练方法、中医药名识别方法、装置及网络模型 | |
CN116860947A (zh) | 面向文本阅读理解的选择题生成方法、系统及存储介质 | |
CN116541711A (zh) | 模型训练方法、课程推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |