CN111950283A - 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 - Google Patents
面向大规模医疗文本挖掘的中文分词和命名实体识别系统 Download PDFInfo
- Publication number
- CN111950283A CN111950283A CN202010755373.5A CN202010755373A CN111950283A CN 111950283 A CN111950283 A CN 111950283A CN 202010755373 A CN202010755373 A CN 202010755373A CN 111950283 A CN111950283 A CN 111950283A
- Authority
- CN
- China
- Prior art keywords
- bilstm
- text
- word
- crf model
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,涉及数据处理技术领域。本发明首先构建词典;基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果中的歧义集;基于CRF模型对歧义集再次分词;基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM‑CRF模型中,通过叠层BiLSTM‑CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM‑CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM‑CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统。
背景技术
随着医学领域的不断发展,医疗文本数据的积累也越来越多,针对这些医疗文本数据进行有效挖掘使之造福于社会大众成为研究热点。医疗文本,以电子病历为代表,包含大量丰富的医疗信息,是实现辅助诊疗、疾病预防和健康管理等的重要资源。为更好利用电子病历需对其中的非结构化信息进行结构化处理,其中病历的分词是该过程的基础,而命名实体识别则是该过程的重点和难点。电子病历的命名实体识别主要是指从电子病历的描述性文本中识别出如疾病名称、治疗方法、药物等临床实体。
目前深度学习中的BiLSTM-CRF模型是应用于电子病历命名实体识别的主流模型。BiLSTM-CRF模型在表示层使用字符向量或词向量作为输入,经过一个BiLSTM网络对每个词语在上下文中的抽象特征表示进行自动学习,将提取的文本特征传输到CRF层进行序列标注,其中BiLSTM网络即模型隐藏层内包含有两个方向的网络结构,一种是按从左到右的顺序传播,另一个是按从右到左的顺序传播,分别得到两套不同的隐藏层表示,通过向量拼接的方式获得最终的隐藏层向量表示。
然而,本申请的发明人发现,现有的方法由于缺乏针对医学领域的分词方法,可能会引入分词错误,即现有的方法输入到BiLSTM-CRF模型的词向量的准确度低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,解决了现有的方法输入到BiLSTM-CRF模型的词向量的准确度低技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,包括:
词典构建模块,用于获取常用词汇和医学相关词汇,构建词典;
文本粗分模块,用于基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,所述粗分结果包括歧义集;
CRF分词模块,用于基于预先设置的CRF模型对所述歧义集再次分词;
命名实体识别模块,用于基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
优选的,所述基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,包括:
(1)、加载停词表,切分文本;
(2)、对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段;
(3)、查询词典库并进行匹配,若存在与所述匹配字段相符的字段则将这个所述匹配字段作为一个词切分出来;否则将这个匹配字段的最后一个字符去掉,余下的字符串作为新的匹配字段,重新进行匹配;
(4)、循环进行减少字符的操作,直到匹配字段字数为零为止;
(5)、重复算法匹配过程,将文本切分完成为止,得到切分序列S1;
(6)、对切分后的文本从右往左提取不超过词典中最大长度的词作为匹配字段;再执行(3)~(5)获得S2;
(7)、对切分序列S1和S2,逐项扫描;若第i项有S1[i]=S2[i]且第i+1项有S1[i+1]=S2[i+1],则检测是否lS1[i]=lS1[i+1]=2且lS1[i]∩lS1[i+1]=1,如是则加入歧义集反之不加;若第i项有S1[i]≠S2[i],则加入歧义集。
优选的,所述基于预先设置的CRF模型对所述歧义集再次分词,包括:
向CRF模型输入歧义集,利用维特比算法进行预测获得分词结果。
优选的,所述预先设置的CRF模型的设置过程包括:
在条件随机场中,给定输入观测序列X的条件下输出标记序列Y的概率为:
式中:
表示在输入X字符序列下输出序列Y的所有可能结果的概率之和,为归一化因子;
定义优化目标函数:
式中:
p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率;
θk表示综合权重系数;
t表示当前是第几个字符,T表示共输入T个字符;
k表示第几个特征函数,K表示共有K个特征函数;
f(yt,yt-1,xt,t)表示综合特征函数,由节点特征函数和局部特征函数组成,取值为0或1。
根据特征模板生成特征函数,为输入公开的语料的字符序列的每个位置定义特征函数,特征函数表示相应位置的观测特征;为目标函数添加正则项,则有:
式中:
对式(3)进行L-BFGS算法学习获得CRF模型参数。
优选的,所述基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别包括:
采用word2vec中的Skip-gram模型训练分词后的文本得到相应的词向量,作为BiLSTM-CRF的输入;
基于叠层BiLSTM-CRF模型和维特比算法进行叠层BiLSTM-CRF模型的第一层的实体标注;
将由叠层BiLSTM-CRF模型得到的第一层的实体标注作为实体特征,在实体特征的基础上加入词性特征后构成输入特征集,通过第二层对输入特征集进行复杂实体识别。
优选的,所述叠层BiLSTM-CRF模型的第一层为BiLSTM-CRF层,所述叠层BiLSTM-CRF模型的第二层为CRF层。
优选的,词性特征的获取方法包括:
由jieba分词对词向量进行处理,得到词性特征。
本发明还提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其所述方法包括以下步骤:
S1、获取常用词汇和医学相关词汇,构建词典;
S2、基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,所述粗分结果包括歧义集;
S3、基于预先设置的CRF模型对所述歧义集再次分词;
S4、基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
(三)有益效果
本发明提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统。与现有技术相比,具备以下有益效果:
本发明通过获取常用词汇和医学相关词汇,构建词典;基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,该粗分结果包括歧义集;基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词;基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM-CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。同时,采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中改进的双向最大匹配算法分词流程图;
图2为本发明实施例中特征模板示意图;
图3为本发明实施例中实体标注类别示意图;
图4为本发明实施例中一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,解决了现有的方法输入到BiLSTM-CRF模型的词向量的准确度低的技术问题,实现输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
对于电子病历命名实体识别来说,分词的效果往往会影响后续的命名实体识别。在使用BiLSTM-CRF模型对电子病历进行实体识别时,往往以字符向量或词向量作为输入。以字符向量作为输入,一方面不能较好地表达语义信息,另一方面会增加命名实体长度,提高命名实体边界提取难度。以词向量作为输入,由于缺乏针对医学领域的分词方法,可能会引入分词错误,导致命名实体识别错误。同时,电子病历文本中的命名实体结构复杂、内部嵌套现象普遍,而在面对较复杂的命名实体识别任务时,往往既要求识别出实体边界又需要识别出实体所属类别,此时BiLSTM-CRF模型往往难以达到很好的识别效果。因此,本发明实施例提出了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统来解决上述问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,包括:词典构建模块、文本粗分模块、CRF分词模块和命名实体识别模块。
其中:
词典构建模块用于获取常用词汇和医学相关词汇,构建词典;
文本粗分模块用于基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,该粗分结果包括歧义集;
CRF分词模块用于基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词;
命名实体识别模块用于基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
本发明实施例有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM-CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。同时,采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。
下面对各个模块进行详细描述。
在一实施例中,词典构建模块获取常用词汇和医学相关词汇,构建词典。具体实施过程如下:
通过人工输入、爬虫技术等搜集与爬取医学权威词表、网站数据及其他补充词库,获取常用词汇和医学相关词汇,构建词典,所构建的词典包含日常用词汇和医学相关词汇。
在一实施例中,文本粗分模块基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,该粗分结果包括歧义集。具体流程如图1所示,具体实施过程如下:
(1)加载停词表,切分文本;
(2)对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段;
(3)查询词典库并进行匹配,若存在与之相符的字段则将这个匹配字段作为一个词切分出来;若没有与之相匹配的字段,则将这个匹配字段的最后一个字符去掉,余下的字符串作为新的匹配字段,重新进行匹配;
(4)循环进行减少字符的操作,直到匹配字段字数为零为止;
(5)重复算法匹配过程,将文本切分完成为止,获得切分序列S1。
(6)逆向进行(从右往左进行匹配,即从文本的最后开始匹配)上述同样步骤,获得切分序列S2。
(7)对切分序列S1和S2,逐项扫描。若第i项有S1[i]=S2[i]且第i+1项有S1[i+1]=S2[i+1],则检测是否lS1[i]=lS1[i+1]=2且lS1[i]∩lS1[i+1]=1,如是则加入歧义集反之不加;若第i项有S1[i]≠S2[i],则加入歧义集。
在一实施例中,CRF分词模块基于预先设置的CRF模型对文本粗分结果中的歧义集再次分词。具体实施过程如下:
基于预先设置的CRF模型的设置过程如下:
在条件随机场中,给定输入观测序列X的条件下输出标记序列Y的概率为:
其中:
定义优化目标函数:
式中:
p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率;
θk表示综合权重系数;
t表示当前是第几个字符,T表示共输入T个字符;
k表示第几个特征函数,K表示共有K个特征函数;
f(yt,yt-1,xt,t)表示综合特征函数,由节点特征函数和局部特征函数组成,取值为0或1。
根据特征模板生成特征函数,特征模板见附图2,为输入公开的语料的字符序列的每个位置定义特征函数,特征函数表示相应位置的观测特征。因在使用特征模版时将产生数量巨大的特征函数,为防止过拟合,为目标函数添加正则项,则有:
式中:
对式3进行L-BFGS算法学习获得CRF模型参数,完成CRF模型的设置。
需要说明的是,在具体实施过程中,在运用设置好的CRF模型前,需要通过评测准确率、召回率和F值的方式对CRF模型进行评价,上述评价方法均为现有技术,此处不再赘述。
向CRF模型输入歧义集,利用维特比算法进行预测获得分词结果。
在一实施例中,命名实体识别模块基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
在本发明实施例中,通过叠层BiLSTM-CRF模型对分词后的数据进行实体标注,选用{B,I,O,E,S}标注模式(即B-begin,I-inside,O-outside,E-end,S-single),主要对两类复杂实体进行识别,即疾病和症状。鉴于多数疾病名称都是由身体部位名称与基本疾病名称组合而成且多数症状都是由身体部位名称与具有固定词性的词所组成,故进行两层实体识别,第一层识别身体部位名称和基本疾病名称,第二层识别疾病和症状,具体实体标注见附图3。在本发明实施例中,叠层BiLSTM-CRF模型是预先训练好的,其训练过程包括:记输入词向量序列X={x1,x2,...,xn},经叠层BiLSTM-CRF模型的第一层中的BiLSTM层后输出概率矩阵Pn*k,其中k是标签的个数,Pi,j指xi被标记为第j个标签的概率;经叠层BiLSTM-CRF模型的第一层中的CRF层后输出概率转移矩阵A(k+2)*(k+2),其中k+2指添加START和END标签后的标签个数,Ai,j指第i个标签转移到第j个标签的概率,记输出的标签序列y={y1,y2,...,yn},定义路径得分公式:
记叠层BiLSTM-CRF模型第一层的损失函数:
对于采用动态规划算法降低计算时度,利用梯度下降法对损失函数进行学习,以得到叠层BiLSTM-CRF模型第一层的最优参数。叠层BiLSTM-CRF模型第二层CRF层的训练过程与上述CRF模型的训练过程相同,故不再赘述。
命名实体识别模块的具体实施过程如下:
(1)采用word2vec中的Skip-gram模型训练分词后的文本得到相应的词向量,作为BiLSTM-CRF的输入。
(2)利用训练好的叠层BiLSTM-CRF模型采用维特比算法进行第一层(即BiLSTM-CRF层)的实体标注。
(3)将由叠层BiLSTM-CRF模型得到的第一层的实体标注作为实体特征,在实体特征的基础上加入由jieba分词得到的词性特征后构成输入特征集,通过第二层(即CRF层)对输入特征集进行复杂实体识别。
本发明实施例还提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,该方法由计算机执行,如图4所示,包括步骤S1~S4:
S1、获取常用词汇和医学相关词汇,构建词典;
S2、基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,所述粗分结果包括歧义集;
S3、基于预先设置的CRF模型对所述歧义集再次分词;
S4、基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
可理解的是,本发明实施例提供的上述一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统与上述一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统相对应,其有关内容的解释、举例、验证等部分可以参考一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM-CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。同时,采用叠层BiLSTM-CRF模型能有效的解决了复杂实体的识别。
2、使用本发明实施例所提出的系统和方法可以对医疗文本数据进行有效挖掘,为构建医学应用提供基础,从而造福广大患者和医务工作者,推动医疗行业发展。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,包括:
词典构建模块,用于获取常用词汇和医学相关词汇,构建词典;
文本粗分模块,用于基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,所述粗分结果包括歧义集;
CRF分词模块,用于基于预先设置的CRF模型对所述歧义集再次分词;
命名实体识别模块,用于基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
2.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,包括:
(1)、加载停词表,切分文本;
(2)、对切分后的文本从左往右提取不超过词典中最大长度的词作为匹配字段;
(3)、查询词典库并进行匹配,若存在与所述匹配字段相符的字段则将这个所述匹配字段作为一个词切分出来;否则将这个匹配字段的最后一个字符去掉,余下的字符串作为新的匹配字段,重新进行匹配;
(4)、循环进行减少字符的操作,直到匹配字段字数为零为止;
(5)、重复算法匹配过程,将文本切分完成为止,得到切分序列S1;
(6)、对切分后的文本从右往左提取不超过词典中最大长度的词作为匹配字段;再执行(3)~(5)获得S2;
(7)、对切分序列S1和S2,逐项扫描;若第i项有S1[i]=S2[i]且第i+1项有S1[i+1]=S2[i+1],则检测是否lS1[i]=lS1[i+1]=2且lS1[i]∩lS1[i+1]=1,如是则加入歧义集反之不加;若第i项有S1[i]≠S2[i],则加入歧义集。
3.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述基于预先设置的CRF模型对所述歧义集再次分词,包括:
向CRF模型输入歧义集,利用维特比算法进行预测获得分词结果。
4.如权利要求1~3任一所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述预先设置的CRF模型的设置过程包括:
在条件随机场中,给定输入观测序列X的条件下输出标记序列Y的概率为:
式中:
表示在输入X字符序列下输出序列Y的所有可能结果的概率之和,为归一化因子;
定义优化目标函数:
式中:
p(Y|X)表示在输入字符序列为X的条件下输出序列Y的概率;
θk表示综合权重系数;
t表示当前是第几个字符,T表示共输入T个字符;
k表示第几个特征函数,K表示共有K个特征函数;
f(yt,yt-1,xt,t)表示综合特征函数,由节点特征函数和局部特征函数组成,取值为0或1。
根据特征模板生成特征函数,为输入公开的语料的字符序列的每个位置定义特征函数,特征函数表示相应位置的观测特征;为目标函数添加正则项,则有:
式中:
对式(3)进行L-BFGS算法学习获得CRF模型参数。
5.如权利要求1所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别包括:
采用word2vec中的Skip-gram模型训练分词后的文本得到相应的词向量,作为BiLSTM-CRF的输入;
基于叠层BiLSTM-CRF模型和维特比算法进行叠层BiLSTM-CRF模型的第一层的实体标注;
将由叠层BiLSTM-CRF模型得到的第一层的实体标注作为实体特征,在实体特征的基础上加入词性特征后构成输入特征集,通过第二层对输入特征集进行复杂实体识别。
6.如权利要求5所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述叠层BiLSTM-CRF模型的第一层为BiLSTM-CRF层,所述叠层BiLSTM-CRF模型的第二层为CRF层。
7.如权利要求5所述的面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,词性特征的获取方法包括:
由jieba分词对词向量进行处理,得到词性特征。
8.一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,其特征在于,所述方法包括以下步骤:
S1、获取常用词汇和医学相关词汇,构建词典;
S2、基于所述词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果,所述粗分结果包括歧义集;
S3、基于预先设置的CRF模型对所述歧义集再次分词;
S4、基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010755373.5A CN111950283B (zh) | 2020-07-31 | 2020-07-31 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010755373.5A CN111950283B (zh) | 2020-07-31 | 2020-07-31 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950283A true CN111950283A (zh) | 2020-11-17 |
CN111950283B CN111950283B (zh) | 2021-09-07 |
Family
ID=73338813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010755373.5A Active CN111950283B (zh) | 2020-07-31 | 2020-07-31 | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950283B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN114154502A (zh) * | 2022-02-09 | 2022-03-08 | 浙江太美医疗科技股份有限公司 | 医学文本的分词方法、装置、计算机设备和存储介质 |
CN114398880A (zh) * | 2021-12-06 | 2022-04-26 | 北京思特奇信息技术股份有限公司 | 一种用于优化中文分词的系统及方法 |
CN116522164A (zh) * | 2023-06-26 | 2023-08-01 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480128A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN109657039A (zh) * | 2018-11-15 | 2019-04-19 | 中山大学 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN111160023A (zh) * | 2019-12-23 | 2020-05-15 | 华南理工大学 | 一种基于多路召回的医疗文本命名实体识别方法 |
-
2020
- 2020-07-31 CN CN202010755373.5A patent/CN111950283B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480128A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN109657039A (zh) * | 2018-11-15 | 2019-04-19 | 中山大学 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN111160023A (zh) * | 2019-12-23 | 2020-05-15 | 华南理工大学 | 一种基于多路召回的医疗文本命名实体识别方法 |
Non-Patent Citations (6)
Title |
---|
严灿勋: "《英汉军事语料句子对齐研究》", 31 July 2015, 国防工业出版社 * |
周晶 等: ""基于随机条件域CRF模型的文本信息抽取"", 《计算机工程与设计》 * |
李纲等: ""整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别"", 《现代情报》 * |
金升箭: "《深度学习 基于MATLAB的设计实例》", 30 April 2018, 北京航空航天大学出版社 * |
陈小荷: "《先秦文献信息处理》", 31 January 2013, 世界图书北京出版公司 * |
龚乐君等: ""基于领域词典与CRF双层标注的中文电子病历实体识别"", 《工程科学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN113011183B (zh) * | 2021-03-23 | 2023-09-05 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN114398880A (zh) * | 2021-12-06 | 2022-04-26 | 北京思特奇信息技术股份有限公司 | 一种用于优化中文分词的系统及方法 |
CN114154502A (zh) * | 2022-02-09 | 2022-03-08 | 浙江太美医疗科技股份有限公司 | 医学文本的分词方法、装置、计算机设备和存储介质 |
CN114154502B (zh) * | 2022-02-09 | 2022-05-24 | 浙江太美医疗科技股份有限公司 | 医学文本的分词方法、装置、计算机设备和存储介质 |
CN116522164A (zh) * | 2023-06-26 | 2023-08-01 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
CN116522164B (zh) * | 2023-06-26 | 2023-09-05 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111950283B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
Sun et al. | Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN112151183A (zh) | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 | |
CN108091397A (zh) | 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN115019906B (zh) | 多任务序列标注的药物实体和相互作用联合抽取方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN111126040A (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
CN113360667A (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN115544255A (zh) | 微博数据正负面识别方法 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
Mechti et al. | A decision system for computational authors profiling: From machine learning to deep learning | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN116312915B (zh) | 一种电子病历中药物术语标准化关联方法及系统 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |