CN107527073A - 电子病历中命名实体的识别方法 - Google Patents

电子病历中命名实体的识别方法 Download PDF

Info

Publication number
CN107527073A
CN107527073A CN201710789885.1A CN201710789885A CN107527073A CN 107527073 A CN107527073 A CN 107527073A CN 201710789885 A CN201710789885 A CN 201710789885A CN 107527073 A CN107527073 A CN 107527073A
Authority
CN
China
Prior art keywords
entity
word
size
electronic medical
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710789885.1A
Other languages
English (en)
Other versions
CN107527073B (zh
Inventor
李芳芳
段昱
毛星亮
尹垚
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201710789885.1A priority Critical patent/CN107527073B/zh
Publication of CN107527073A publication Critical patent/CN107527073A/zh
Application granted granted Critical
Publication of CN107527073B publication Critical patent/CN107527073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种电子病历中命名实体的识别方法,包括构建电子病历的专业领域词典;将电子病历中的文本分类;对包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容,并对测试集进行测试;迭代调整特征模板窗口的大小和特征模板内容,直至得到最终的特征模板窗口的大小和特征模板内容;采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体,大大提高了识别效率,而且能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。

Description

电子病历中命名实体的识别方法
技术领域
本发明具体涉及一种电子病历中命名实体的识别方法。
背景技术
随着国家经济技术的发展和人们生活水平的提高,大数据的运用已经得到了长足的发展。特别是在医疗卫生领域,其应用和作用已经初步显现。
在医疗卫生领域,我国有着海量的病例和对应的病历。虽然大部分的病历都已经电子化,但是其发挥的作用依然非常有限。当医生需要根据某类特征词或者关键词查看某一类特殊病历时,一般都需要医生本人耗费大量的时间和精力,从医院的海量电子病历数据库中,逐份病历的查阅,这样不仅费时费力,而且极易产生差错。此外,我国有着海量的电子病历,而海量的电子病历就意味着有海量的病人信息,如何挖掘其中的有用信息,一直是我国学者的研究方向。
面对海量的电子病历,需要采用数据挖掘技术从中提取出有用的信息,对电子病历中的命名实体进行识别是重中之重,也是数据挖掘等后续工作的前提。但是,目前尚没有一种高效、快速且可靠的方法来对电子病历中的命名实体进行识别。
发明内容
本发明的目的在于提供一种能够快速有效针对电子病历中的命名实体进行识别的电子病历中命名实体的识别方法。
本发明提供的这种电子病历中命名实体的识别方法,包括如下步骤:
S1.构建某科室电子病历的专业领域词典;
S2.将某科室电子病历中的文本分类:分为包含命名实体的文本和不包含命名实体的文本;
S3.根据步骤S1得到的专业领域词典,对步骤S2得到的包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;
S4.根据步骤S1构建的专业领域词典以及步骤S3得到的训练集,初步设定条件随机场模型中特征模板窗口的大小;
S5.根据步骤S4设定的特征模板窗口的大小,以及实体本身的特征和实体上下文特征,初步设定条件随机场模型中特征模板的内容,并对步骤S3中的测试集进行测试;
S6.根据步骤S5得到的测试结果,重复步骤S4和步骤S5,迭代调整特征模板窗口的大小和特征模板的内容,直至得到最终的特征模板窗口的大小和特征模板的内容;
S7.根据步骤S6得到的最终的特征模板窗口的大小和特征模板的内容,采用条件随机场模型对所有的电子病历进行命名实体的识别。
步骤S1所述的构建某科室电子病历的专业领域词典,具体为提取与该科室相关的文献中的主题词和关键词,并对提取的主题词和关键词进行去重,最后再人工复查一遍,从而构建与该科室的症状相关、病因相关和治疗方法相关的专业领域词典。
步骤S2所述的将电子病历中的文本分类,具体为采用如下方法分类:
A.对电子病历进行预处理:提取电子病历中的患者住院号,并去除患者的基本信息,并将电子病历中的文本信息段落合并,从而将所有电子病历全文结构化为住院号+文本段落的形式;
B.对步骤A得到的电子病历进行语句分割及特征提取:对结构化的文本进行短语或语句的分割,并将所有病历的分词结果构造成词表,并对词表按照词频进行排序得到新词表,并以新词表的长度作为向量维度构建支持向量机算法的向量空间模型;
C.文本分类:根据病历中语句特征的提取结果,使用支持向量机算法训练文本分类模型,从而将病历中的语句分为包含该科室命名实体类别和不包含该科室命名实体类别。
步骤S3所述的对包含命名实体的文本进行实体标注,具体为采用如下规则进行实体标注:
规则1:标注的实体分为三类:症状相关的实体,病因相关的实体,以及治疗方法相关的实体;
规则2:对于每一个词语,用第一标记标注词语的第一个字符,第二标记标注词语的最后一个字符,第三标记标注词语的中间字符,并用第四标记标注单字字符;
规则3:针对症状相关的实体,病因相关的实体,以及治疗方法相关的实体,分别根据下述原则进行进一步标注:
症状相关的实体的进一步标注:若该词语是与症状相关的实体,则在规则2中已经标注的词语上增加第五标记;
病因相关的实体的进一步标注:若该词语是与病因相关的实体,则在规则2中已经标注的词语上增加第六标记;
治疗方法相关的实体的进一步标注:若该词语是与治疗方法相关的实体,则在规则2中已经标注的词语上增加第七标记。
步骤S4所述的初步设定条件随机场模型中特征模板窗口的大小,具体为根据步骤S1得到的专业领域词典中实体的字符长度分布情况,以及步骤S3得到的训练集,采用加权求和的方式设定特征模板窗口的大小。
步骤S5所述的对条件随机场模型中的特征模板内容进行初步设定,具体为根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行设定。
步骤S6所述的根据步骤S5得到的测试结果,重复步骤S4和步骤S5,迭代调整特征模板窗口的大小和特征模板的内容,直至得到最终的特征模板窗口的大小和特征模板的内容,具体为采用如下步骤得到最终的特征模板窗口的大小和特征模板的内容:
a.统计专业领域词典、训练集和测试集结果中,各类实体长度的分布情况;
b.在步骤S4的专业领域词典和训练集加权基础上,引入测试集结果,重新加权求和,调整特征模板窗口的大小;
c.根据步骤b调整的特征模板窗口的大小和上一次的识别结果,重新调整特征模板的内容;
d.根据步骤b调整的特征模板窗口的大小和步骤c调整的特征模板的内容,再次对测试集进行测试得到各类实体识别的结果;
e.采用如下公式计算准确率、召回率和F值,作为识别结果的度量标准:
准确率=模型正确识别的个数/模型总共识别的个数
召回率=模型正确识别的个数/训练集中的总个数
式中F为准确率,R为召回率,β为精度的偏重度量,若β>1则表明F值中召回率所占的比重高于准确率所占的比重,若β=1则表明F值中召回率和准确率所占的比重相等,若β<1则表明F值中召回率所占的比重低于准确率所占的比重;
f.若本次识别结果的准确率、召回率以及F值均比上次识别结果高,则得到最终的特征模板窗口的大小和特征模板内容;否则,重复上述步骤,迭代调整特征模板窗口的大小和特征模板的内容。
本发明提供的这种电子病历中命名实体的识别方法,通过采用条件随机场模型对电子病历进行识别,从而达到了自动识别电子病历中命名实体的目的,大大提高了识别效率,而且通过迭代调整条件随机场的特征模板窗口的大小和内容对语料进行训练和测试,从而能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。
附图说明
图1为本发明方法的方法流程图。
具体实施方式
如图1所示为本发明方法的方法流程图:本发明提供的这种电子病历中命名实体的识别方法,包括如下步骤:
S1.构建某科室电子病历的专业领域词典;
以眼科为例:在中国生物医学文献服务系统中使用分类检索,在分类导航中选择R77眼科学,查找相关眼科文献,提取相关文献中的主题词和关键词,并对提取出来的词语进行去重,最后人工去除一些和眼科完全不相关的词语,例如:人民、国家等,从而分别构建症状相关、病因相关、治疗方法相关的眼科领域词典;
S2.将某科室电子病历中的文本分类:分为包含命名实体的文本和不包含命名实体的文本;具体为采用如下方法分类:
A.对电子病历进行预处理:使用正则表达式(?<=住院号:)[\s\S]*?(?=(\r|\n|$))提取电子病历中的患者住院号,并去除患者的基本信息,并将电子病历中的文本信息段落合并,从而将所有电子病历全文结构化为住院号+文本段落的形式;
B.对步骤A得到的电子病历进行语句分割及特征提取:使用正则表达式(?<=^|:|,|;|。|\.|\?|!|\n)[\s\S]*?(?=(:|,|;|。|\.|\?|!|\n|$))对结构化的文本进行短语或语句的分割(可以采用中科院的分词工具NLPIR),并对词表按照词频进行排序,去除低频词语得到新词表,并以新词表的长度作为向量维度构建支持向量机算法的向量空间模型,每个短语或语句将标示如下(同样以眼科为例):
Sn=(W1,n,W2,n,W3,n,......,Wm,n),其中,n为短语或者语句的序号,m为词表的维度,每一维代表一个词语,如果某个词语在该语句中出现,则相应的Wi,n为非零值,否则,Wi,n为零。每个语句有不同的Sn,因此,可以为每条语句构建不同的特征;再者,在每条语句后面添加一项眼科实体特征,该特征依据自定义的眼科专业领域词典来构建,如果该语句的某个词在自定义的眼科领域词典中出现,则该维的值为1,否则该维的值为0;
C.文本分类:根据病历中语句特征的提取结果,使用支持向量机算法训练文本分类模型,从而将病历中的语句分为包含命名实体类别和不包含命名实体类别;
S3.根据步骤S1得到的专业领域词典,对步骤S2得到的包含命名实体的文本进行实体标注,同时将标注后的文本构建训练集,未标注的文本作为测试集,具体为采用如下规则进行实体标注:
规则1:标注的实体分为三类:症状相关的实体,病因相关的实体,以及治疗方法相关的实体;
规则2:对于每一个词语,用第一标记标注词语的第一个字符,第二标记标注词语的最后一个字符,第三标记标注词语的中间字符,并用第四标记标注单字字符;
规则3:针对症状相关的实体,病因相关的实体,以及治疗方法相关的实体,分别根据下述原则进行进一步标注:
症状相关的实体的进一步标注:若该词语是与症状相关的实体,则在规则2中已经标注的词语上增加第五标记;
病因相关的实体的进一步标注:若该词语是与病因相关的实体,则在规则2中已经标注的词语上增加第六标记;
治疗方法相关的实体的进一步标注:若该词语是与治疗方法相关的实体,则在规则2中已经标注的词语上增加第七标记;
以眼科的标注为例:用B标注词语(词语包含的字符个数大于等于2)的第一个字符,E标注词语的最后一个字符,M标注词语的中间字符;用S标注单字字符;
症状相关的实体标注如下:在描述的标注符后面加上SY,即BSY标注症状的第一个字符,ESY标注症状的最后一个字符,MSY标注症状的中间字符;用SSY标注症状的单字字符;
病因相关的实体标注如下:在描述的标注符后面加上CD,即BCD标注病因的第一个字符,ECD标注病因的最后一个字符,MCD标注病因的中间字符;用SCD标注病因的单字字符;
治疗方法相关的实体标注如下:无论是药物治疗还是手术治疗,在描述的标注符后面加上TR,即BTR标注治疗方法的第一个字符,ETR标注治疗方法的最后一个字符,MTR标注病因的中间字符;用STR标注治疗方法的单字字符;
S4.根据步骤S3得到的训练集和步骤S1得到的专业领域词典中实体的字符长度的分布情况,采用加权求和的方式初步设定条件随机场模型中的特征模板窗口的大小;
例如:对于症状相关实体识别的特征模板窗口大小是这样确定的:1.统计症状相关实体训练集中实体长度的分布情况,假设总共得到1000个症状相关的实体,其中2字长,4字长,6字长的实体分别占20%,60%,20%;2.统计症状相关领域词典中实体长度的分布情况,假设总共有5000个症状相关的实体,其中2字长,3字长,4字长,5字长,6字长的实体分别占20%,5%,50%,5%,20%,则症状相关实体识别初步设定的特征模板窗口大小为:a*(2*20%+4*60%+6*20%)+b*(2*20%+3*5%+4*50%+5*5%+6*20%),其中a+b=1。病因相关实体、治疗方法相关实体的特征模板窗口大小的初步确定类似;
S5.根据步骤S4设定的特征模板窗口的大小,根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行初步设定,并对步骤S3中的测试集进行测试;
例如:根据步骤S4设定的特征模板窗口大小为5,假设w0表示当前字,那么w-1,w-2分别表示当前字的前两个字,w1,w2分别表示当前字的后两个字,则利用领域知识构建的特征模板内容如下表1所示:
表1特征模板内容示意表
特征 特征值表示 特征 特征值表示 特征 特征值表示
F1 f(w-2) F4 f(w1) F7 f(w-1,w0)
F2 f(w-1) F5 f(w2) F8 f(w0,w1)
F3 f(w0) F6 f(w-2,w-1) F9 f(w1,w2)
其中,f为特征函数,它考虑当前字以及当前字的上下文作为条件随机场训练的特征。
S6.根据步骤S5得到的测试结果,重复步骤S4和步骤S5,迭代调整特征模板窗口的大小和特征模板的内容,直至得到最终的特征模板窗口的大小和特征模板的内容。具体为采用如下步骤得到最终的条件随机场模型中的特征模板窗口的大小和特征模板内容:
a.统计专业领域词典、训练集和测试集结果中,各类实体长度的分布情况;
b.在步骤S4的专业领域词典和训练集加权基础上,引入测试集结果,重新加权求和,调整特征模板窗口的大小;例如:症状相关领域词典中词长分布分别为:2字长,3字长,4字长,5字长,6字长的实体分别占20%,5%,50%,5%,20%,在训练集中词长分布分别为:2字长,4字长,6字长的实体分别占20%,60%,20%,在测试集结果中词长分布分别为:2字长,4字长,6字长的实体分别占20%,60%,20%,则重新调整的特征模板窗口大小为:a*(2*20%+4*60%+6*20%)+b*(2*20%+3*5%+4*50%+5*5%+6*20%)+c*(2*20%+4*60%+6*20%),其中a+b+c=1;
c.根据步骤b调整的特征模板窗口的大小和上一次的识别结果,重新调整特征模板的内容;
d.根据步骤b调整的特征模板窗口的大小和步骤C调整的特征模板的内容,再次对测试集进行测试得到各类实体识别的结果;
e.采用如下公式计算准确率、召回率和F值,作为识别结果的度量标准:
准确率=模型正确识别的个数/模型总共识别的个数
召回率=模型正确识别的个数/训练集中的总个数
式中F为准确率,R为召回率,β为精度的偏重度量,若β>1则表明F值中召回率所占的比重高于准确率所占的比重,若β=1则表明F值中召回率和准确率所占的比重相等,若β<1则表明F值中召回率所占的比重低于准确率所占的比重;
f.若本次识别结果的准确率、召回率以及F值均比上次识别结果高,则得到最终的特征模板窗口的大小和特征模板内容;否则,重复上述步骤,迭代调整特征模板窗口的大小和特征模板的内容;
S7.根据步骤S6得到的最终的特征模板窗口的大小和特征模板的内容,采用条件随机场模型对所有的电子病历进行命名实体的识别。

Claims (7)

1.一种电子病历中命名实体的识别方法,包括如下步骤:
S1.构建某科室电子病历的专业领域词典;
S2.将某科室电子病历中的文本分类:分为包含命名实体的文本和不包含命名实体的文本;
S3.根据步骤S1得到的专业领域词典,对步骤S2得到的包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;
S4.根据步骤S1构建的专业领域词典以及步骤S3得到的训练集,初步设定条件随机场模型中特征模板窗口的大小;
S5.根据步骤S4设定的特征模板窗口的大小,以及实体本身的特征和实体上下文特征,初步设定条件随机场模型中特征模板的内容,并对步骤S3中的测试集进行测试;
S6.根据步骤S5得到的测试结果,重复步骤S4和步骤S5,迭代调整特征模板窗口的大小和特征模板的内容,直至得到最终的特征模板窗口的大小和特征模板的内容;
S7.根据步骤S6得到的最终的特征模板窗口的大小和特征模板的内容,采用条件随机场模型对所有的电子病历进行命名实体的识别。
2.根据权利要求1所述的电子病历中命名实体的识别方法,其特征在于步骤S1所述的构建某科室电子病历的专业领域词典,具体为提取与该科室相关的文献中的主题词和关键词,并对提取的主题词和关键词进行去重,最后再人工复查一遍,从而构建与该科室的症状相关、病因相关和治疗方法相关的专业领域词典。
3.根据权利要求2所述的电子病历中命名实体的识别方法,其特征在于步骤S2所述的将电子病历中的文本分类,具体为采用如下方法分类:
A.对电子病历进行预处理:提取电子病历中的患者住院号,并去除患者的基本信息,并将电子病历中的文本信息段落合并,从而将所有电子病历全文结构化为住院号+文本段落的形式;
B.对步骤A得到的电子病历进行语句分割及特征提取:对结构化的文本进行短语或语句的分割,并将所有病历的分词结果构造成词表,并对词表按照词频进行排序得到新词表,并以新词表的长度作为向量维度构建支持向量机算法的向量空间模型;
C.文本分类:根据病历中语句特征的提取结果,使用支持向量机算法训练文本分类模型,从而将病历中的语句分为包含该科室命名实体类别和不包含该科室命名实体类别。
4.根据权利要求3所述的电子病历中命名实体的识别方法,其特征在于步骤S3所述的对包含命名实体的文本进行实体标注,具体为采用如下规则进行实体标注:
规则1:标注的实体分为三类:症状相关的实体,病因相关的实体,以及治疗方法相关的实体;
规则2:对于每一个词语,用第一标记标注词语的第一个字符,第二标记标注词语的最后一个字符,第三标记标注词语的中间字符,并用第四标记标注单字字符;
规则3:针对症状相关的实体,病因相关的实体,以及治疗方法相关的实体,分别根据下述原则进行进一步标注:
症状相关的实体的进一步标注:若该词语是与症状相关的实体,则在规则2中已经标注的词语上增加第五标记;
病因相关的实体的进一步标注:若该词语是与病因相关的实体,则在规则2中已经标注的词语上增加第六标记;
治疗方法相关的实体的进一步标注:若该词语是与治疗方法相关的实体,则在规则2中已经标注的词语上增加第七标记。
5.根据权利要求4所述的电子病历中命名实体的识别方法,其特征在于步骤S4所述的初步设定条件随机场模型中特征模板窗口的大小,具体为根据步骤S1得到的专业领域词典中实体的字符长度分布情况,以及步骤S3得到的训练集,采用加权求和的方式初步设定特征模板窗口的大小。
6.根据权利要求5所述的电子病历中命名实体的识别方法,其特征在于步骤S5所述的对条件随机场模型中的特征模板内容进行初步设定,具体为根据实体本身的特征和实体上下文特征对条件随机场模型中的特征模板内容进行设定。
7.根据权利要求6所述的电子病历中命名实体的识别方法,其特征在于步骤S6所述的根据步骤S5得到的测试结果,重复步骤S4和步骤S5,迭代调整特征模板窗口的大小和特征模板的内容,直至得到最终的特征模板窗口的大小和特征模板的内容,具体为采用如下步骤得到最终的特征模板窗口的大小和特征模板的内容:
a.统计专业领域词典、训练集和测试集结果中,各类实体长度的分布情况;
b.在步骤S4的专业领域词典和训练集加权基础上,引入测试集结果,重新加权求和,调整特征模板窗口的大小;
c.根据步骤b调整的特征模板窗口的大小和上一次的识别结果,重新调整特征模板的内容;
d.根据步骤b调整的特征模板窗口的大小和步骤c设定调整的特征模板的内容,再次对测试集进行测试得到各类实体识别的结果;
e.采用如下公式计算准确率、召回率和F值,作为识别结果的度量标准:
准确率=模型正确识别的个数/模型总共识别的个数
召回率=模型正确识别的个数/训练集中的总个数
<mrow> <mi>F</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msup> <mi>&amp;beta;</mi> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>&amp;CenterDot;</mo> <mi>P</mi> <mo>&amp;CenterDot;</mo> <mi>R</mi> </mrow> <mrow> <mo>(</mo> <msup> <mi>&amp;beta;</mi> <mn>2</mn> </msup> <mo>&amp;CenterDot;</mo> <mi>P</mi> <mo>)</mo> <mo>+</mo> <mi>R</mi> </mrow> </mfrac> </mrow>
式中F为准确率,R为召回率,β为精度的偏重度量,若β>1则表明F值中召回率所占的比重高于准确率所占的比重,若β=1则表明F值中召回率和准确率所占的比重相等,若β<1则表明F值中召回率所占的比重低于准确率所占的比重;
f.若本次识别结果的准确率、召回率以及F值均比上次识别结果高,则得到最终的特征模板窗口的大小和特征模板内容;否则,重复上述步骤,迭代调整特征模板窗口的大小和特征模板的内容。
CN201710789885.1A 2017-09-05 2017-09-05 电子病历中命名实体的识别方法 Active CN107527073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710789885.1A CN107527073B (zh) 2017-09-05 2017-09-05 电子病历中命名实体的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710789885.1A CN107527073B (zh) 2017-09-05 2017-09-05 电子病历中命名实体的识别方法

Publications (2)

Publication Number Publication Date
CN107527073A true CN107527073A (zh) 2017-12-29
CN107527073B CN107527073B (zh) 2021-02-26

Family

ID=60683468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710789885.1A Active CN107527073B (zh) 2017-09-05 2017-09-05 电子病历中命名实体的识别方法

Country Status (1)

Country Link
CN (1) CN107527073B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN108511036A (zh) * 2018-02-05 2018-09-07 华东理工大学 一种中文症状标注的方法及系统
CN109003677A (zh) * 2018-06-11 2018-12-14 清华大学 病历数据结构化分析处理方法
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot系统的实体抽取方法
CN109657245A (zh) * 2018-12-18 2019-04-19 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109740159A (zh) * 2018-12-29 2019-05-10 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN109859813A (zh) * 2019-01-30 2019-06-07 新华三大数据技术有限公司 一种实体修饰词识别方法及装置
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN112364655A (zh) * 2020-10-30 2021-02-12 北京中科凡语科技有限公司 命名实体识别模型建立方法及命名实体识别方法
CN115859984A (zh) * 2022-12-22 2023-03-28 北京壹永科技有限公司 医疗命名实体识别模型训练方法、装置、设备及介质
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法
CN116013453A (zh) * 2023-03-28 2023-04-25 中国人民解放军总医院 基于人工智能技术的病历书写改进系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李山: "基于命名实体识别的住院病历录入辅助系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154198B (zh) * 2018-01-25 2021-07-13 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN108511036A (zh) * 2018-02-05 2018-09-07 华东理工大学 一种中文症状标注的方法及系统
CN109003677A (zh) * 2018-06-11 2018-12-14 清华大学 病历数据结构化分析处理方法
CN109003677B (zh) * 2018-06-11 2021-11-05 清华大学 病历数据结构化分析处理方法
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot系统的实体抽取方法
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109657245A (zh) * 2018-12-18 2019-04-19 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109657245B (zh) * 2018-12-18 2022-11-08 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109670179B (zh) * 2018-12-20 2022-11-11 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109740159B (zh) * 2018-12-29 2022-04-26 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN109740159A (zh) * 2018-12-29 2019-05-10 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN109859813A (zh) * 2019-01-30 2019-06-07 新华三大数据技术有限公司 一种实体修饰词识别方法及装置
CN110287495A (zh) * 2019-07-01 2019-09-27 国网江苏省电力有限公司电力科学研究院 一种电力营销专业词识别方法及系统
CN110781682B (zh) * 2019-10-23 2023-04-07 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN112364655B (zh) * 2020-10-30 2021-08-24 北京中科凡语科技有限公司 命名实体识别模型建立方法及命名实体识别方法
CN112364655A (zh) * 2020-10-30 2021-02-12 北京中科凡语科技有限公司 命名实体识别模型建立方法及命名实体识别方法
CN115859984A (zh) * 2022-12-22 2023-03-28 北京壹永科技有限公司 医疗命名实体识别模型训练方法、装置、设备及介质
CN115859984B (zh) * 2022-12-22 2024-01-23 北京壹永科技有限公司 医疗命名实体识别模型训练方法、装置、设备及介质
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法
CN116013453A (zh) * 2023-03-28 2023-04-25 中国人民解放军总医院 基于人工智能技术的病历书写改进系统
CN116013453B (zh) * 2023-03-28 2023-08-15 中国人民解放军总医院 基于人工智能技术的病历书写改进系统

Also Published As

Publication number Publication date
CN107527073B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN107527073B (zh) 电子病历中命名实体的识别方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
Matci et al. Address standardization using the natural language process for improving geocoding results
CN103823794B (zh) 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
US11989518B2 (en) Normalized processing method and apparatus of named entity, and electronic device
CN111310458B (zh) 一种基于多特征融合的主观题自动评分方法
CN108399163A (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CA2938064A1 (en) Method for automatically detecting meaning and measuring the univocality of text
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN111177383B (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN109033166B (zh) 一种人物属性抽取训练数据集构建方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
Pacheco et al. Random Forest with Increased Generalization: A Universal Background Approach for Authorship Verification.
CN112434520A (zh) 命名实体识别方法、装置及可读存储介质
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN108090099A (zh) 一种文本处理方法及装置
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
Rama Automatic cognate identification with gap-weighted string subsequences.
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Fauziah et al. Lexicon based sentiment analysis in Indonesia languages: A systematic literature review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant