CN110020428A - 一种基于半马尔可夫的联合识别和规范化中医症状名的方法 - Google Patents

一种基于半马尔可夫的联合识别和规范化中医症状名的方法 Download PDF

Info

Publication number
CN110020428A
CN110020428A CN201910132720.6A CN201910132720A CN110020428A CN 110020428 A CN110020428 A CN 110020428A CN 201910132720 A CN201910132720 A CN 201910132720A CN 110020428 A CN110020428 A CN 110020428A
Authority
CN
China
Prior art keywords
symptom
chinese medicine
names
clinical
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910132720.6A
Other languages
English (en)
Other versions
CN110020428B (zh
Inventor
王亚强
张馨羽
舒红平
唐聃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Publication of CN110020428A publication Critical patent/CN110020428A/zh
Application granted granted Critical
Publication of CN110020428B publication Critical patent/CN110020428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于半马尔可夫的联合识别和规范化中医症状名的方法,该模型通过识别和规范化过程分别采用半马尔可夫条件随机场和最大熵模型建模,采用L‑BFGS优化算法完成参数训练,并利用动态规划算法完成序列预测,最终通过对两个过程地互相约束和补充达到全局优化的目的,使其能更准确的识别较好的组合型临床症状名,最后通过实验验证了模型的效果。

Description

一种基于半马尔可夫的联合识别和规范化中医症状名的方法
技术领域
本发明属于中医临床电子化技术领域,涉及一种基于半马尔可夫的联合 识别和规范化中医症状名的方法。
背景技术
中医学作为人类自然科学和社会科学的结晶,是中国传统医学的瑰丽宝 藏。近年来,中医学在临床实践中被广泛应用且取得了良好的诊疗效果,为 中医学的传承发展打开了良好局面。中医学的理论和实践经验是经过数千年 的实践和探索出来的,将中医专家在日常诊病过程中的临床记录称作中医临 床记录,中医临床记录是获取中医专家诊病经验知识的重要信息来源。随着 中医现代化的发展,临床记录电子化化为中医学研究者研究长期积累的大量 中医临床电子记录,并从中自动的发现复杂的中医诊疗知识提供了契机。
由于中医学诊断过程存在过度依赖于行医者经验,缺乏现代医学理论的 支持等问题,使其当前备受质疑。中医学研究者为弥补这一缺陷展开了广泛 的研究。尽管前人在中医诊疗知识自动发现领域已经取得了一些成果,但大 部分方法均基于有限的、人工整理的结构化数据。然而,中医临床记录具有 非结构化和不规范化的特点,随着中医临床记录电子化的广泛推广,中医临 床记录数据与日俱增,这导致采取人工方式对这些数据进行结构化和规范化 成为即耗时又费力,还可能由于不同的医生因为认知水平参差不齐而产生不 一致的结果,甚至人工劳动者还可能由于长时间进行脑力劳动导致精力不集 中而产生错误结果。重要的中医临床知识源——中医临床记录——还没有被 有效的利用。
目前,已有一些研究者采用数据挖掘和机器学习技术完成中医诊断经验 知识发现的研究,这些工作主要基于有限的、人工整理的结构化数据完成。 利用文本挖掘技术发掘中医诊病知识的相关研究工作还有很多,但都是基于 人工建立起来的结构化或半结构化数据完成的。对于中医临床记录来说,这 些非结构化的文本需要被事先结构化,即从中医临床记录中抽取医学命名实 体信息,如中医诊断结果、病人的症状描述、使用的治疗药物信息等。其中, 病人的症状描述(后文统称为症状名)是中医专家诊断的依据,是获取临床 诊疗知识的重要依据之一,该信息主要包含于中医临床记录的主诉(Chief Complaint)字段。但是,这些人工整理好的数据是有限的,并且要整理出结 构化的数据需要耗费大量的人力物力。所以,开发自动的方法帮助中医学研 究者完成对非结构化的中医临床记录进行研究是非常有意义的,即要对中医 临床记录进行信息抽取有用信息。
从文本中将命名实体描述识别出来后,由于字面表现形式的多样性,也 就是同一实体的不同描述方式,尤其在中文文本中,又会因为领域,文本类 型等原因,使得实体的描述方式更加的多样,使得实体描述与实际实体在规 范词典中的描述在字面上的不同,但是两者之间都可以通过字符编辑操作进 行转换、解释,所以要对识别到的命名实体描述进行预处理操作,将识别到 的命名实体描述与到具有相同意义的规范词典中的实体相对应,将识别到的 实体进行规范化。
近年来,研究者对非正式文本中文本内容的规范化问题(text normalizationproblem)展开了一些研究,并取得了一些成果。Choudhury等人介绍了一 种有监督的隐马尔可夫模型,该模型被用于对手机短信文本内容进行规范化。 Cook和Stevenson将Choudhury等人的工作进行了延伸,他们基于概率模型 构建了一种无监督的噪声信道模型,用于规范化常见的缩略语。Deana L Pennell和Yang Liu对语音合成系统生成的非正式文本中包含的缩略语的规范 化问题进行了研究,通过两步预处理过程,他们的方法较前人对语音合成系 统生成的非正式文本的规范化能力有了很大的提升,不仅体现在词语错误率 在对文本规范化后的结果降低上,其语音因素的错误率也在对文本进行规范 化操作后有了很大的降低,并且,他们的方法所取得的结果的人工评价的结 果也很不错。
当前用于解决命名实体名称不规范问题的方法是度量不规范的命名实体 名称与其标准名称之间的编辑距离(或称为字符串相似性(string similarity))。 该方法可以被称为是一种软匹配方法(soft matching),它首先定义字面相似 性度量函数(函数可分为编辑距离类函数、基于词语距离的函数以及混合函 数等),用这些函数来度量不规范的命名实体与标准命名实体之间的字面相 似性,然后将相似性度量的结果进行排序,那个与不规范的命名实体名称相 似度值最高的标准名称,即被定义为的标准化形式。
中医临床症状名的不规范化问题比起一般实体描述不规范更有其领域特 点。由于不同的中医专家具有不同的行医经验和背景知识,中医专家在日常 的诊病过程中,为了提高诊病效率,在记录中医临床记录的过程中,他们不 会完全遵照应有的记录约束,导致对相同的症状他们可能会使用不同的描述, 即“同物异名”问题。例如,同样表示“胸部疼痛”的症状,可能会有“引 胸痛”、“引胸疼痛”、“引胸部痛”等多种描述方式。而中医症状名的不 规范化给中医临床症状名的识别性能会带来负面的影响,并且,将中医症状 名的识别和规范化分成两步完成会导致将上一步中的误差带至下一步中来, 即导致误差的传递和放大。而这种分步完成两个并不相互独立的操作的方式 并不是找到最优解的有效方法。因此,我们考虑对两步操作联合建模,以期 达到找到全局最优解的目的,因此如何将症状名的规范化过程有效的结合到 中医症状名识别的过程中来,从而提升此类组合症状名的识别性能,中医症 状名的规范化结果与识别结果息息相关。
发明内容
本发明解决的问题在于提供一种基于半马尔可夫的联合识别和规范化中 医症状名的方法,联合识别和规范化模型有能力解决中医临床记录中组合症 状名难识别的问题,克服中医临床症状名的不规范化现象导致组合症状名识 别错误率较高的缺陷。
本发明是通过以下技术方案来实现:
一种基于半马尔可夫的联合识别和规范化中医症状名的方法,对于待识 别的中医临床记录x,构建一个识别和规范化联合模型,完成从x中识别所有 症状名s并将它们规范化成对应的标准症状名y,包括以下操作:
1)所构建的识别和规范化联合模型为:
其中,P(s|x)为识别模型,完成从给定的中医临床记录x中识别所有包含 的症状名s=<seg1,seg2,...,segp>;
P(yk|segk,x)为规范化模型,完成将从x中识别出的每一个临床症状名segk规范为其对应的规范化症状名yk
2)采用半马尔可夫条件随机场来构建识别模型,给出识别模型的表达形 式(3.3):
其中,为归一化因子,ωm表示全局特征gm的权值,gm表示二值全局特征函数,m∈[1,K],K是全局特征gm的 数量,x表示一条临床记录实例,|s|为从x中识别出的症状名的总数,uk vk sk与 前文表示相同,s'表示所有对中医临床记录x的可能存在的分割形式;考虑每 一个文字块的前缀信息,通过文字块sk与sk-1联系文字块两两之间的状态标 签的联系;当前字串组合是症状名时则标注为“B”,如果不是则标注为“O”;
3)将式(3.2)中的规范化模型定义为一个多元回归问题,并用下式(3.4) 表示:
其中,为归一化因子, 为中医临床症状名经过文本编辑操作后得到标准症状名的过 程的形式化,其中yk为规范化症状名,从中医临床症状名segk到中医标准症状 名yk的文本编辑操作有M种可能,fl(yk,segk,x)表示第l种可能的从中医临床症 状名segk到中医标准症状名yk的文本编辑操作,为0时表示segk与yk之间不包 含当前的编辑操作关系,为1时表明两者之间包含当前的文本编辑操作;yk'表 示所有的可能的规范化症状名;
4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5):
其中,Θ表示所有的参数ωm和μl的集合,S为症状名块集合,Y为标准 症状名集合,X为临床记录集合;
根据给定训练数据集学习一组最优的参数Θ,并使得最 终的中医症状名识别和规范化结果最优,其中N为训练数据集中包含的带标 注的中医临床数据的数目。
所述的参数优化是找到一组最优的Θ以最大化L(Θ),其中Θ=Μ+Ω,Μ为 参数μ的集合,Ω为参数ω的集合;采用L-BFGS进行最优参数的优化学习过 程。
所述的识别模型采用半马尔可夫条件随机场完成识别任务时,采用的特 征是字的一元组、二元组、三元组以及临床记录中字的位置信息特征,抽取 特征的窗口定为3;
所述的规范化模型采用最大熵模型完成对识别的症状名进行规范化时, 采用的特征为标准症状名与临床症状名之间的字的一元组、二元组和三元组 的对齐关系;引入上下文窗口为3内的字的一元组、二元组和三元组为附加 特征对症状名进行规范化。
与现有技术相比,本发明具有以下有益的技术效果:
在中医症状名识别之后进行的规范化过程,需要对用于一般领域的字面 相似性度量方法需要针对任务的领域特殊性进行修改,通过引入更多的领域 知识的方法提高中医临床症状名的规范化性能。通过对中医临床症状名的组 成结构进行分析,本发明提出一组新的领域知识可以帮助提升中医临床症状 名的规范化性能,即中医临床症状名的前缀和后缀信息在中医临床症状名的 规范化任务中具有重要的价值,为将其引入已有的字面相似性度量方法的计 算过程中,并且相对于中医症状名的前缀信息来说,中医症状名的后缀信息 在中医临床症状名的规范化过程中具有更重要的机制,后缀信息应在规范化 的过程中被赋予更高的权值。本发明通过引入中间层的方式,即在标注时先 识别症状名提及,同时对识别到的症状名进行分类(分类的类别即为标准症 状名词典中的症状名外加一个未见症状名类别)。如此便可达到在不增加标 签种类的同时,一并完成从中医临床记录中识别和规范化症状名的目的。
Andrew McCallum和Wei Li初次尝试了将条件随机场模型(Conditional RandomFields,CRF)用于命名实体识别任务,识别的过程中结合前后文特 征、词语的构成特征(如词语的前缀信息、后缀信息、首字母大小写)等信 息。传统的CRF(条件随机场)的标注过程是建立在标注单元级别上的,而 没有考虑症状名块的形成过程,所以利用传统的CRF(条件随机场)无法将 序列标注过程和对特定标注结果块的分类过程有机的相结合,即不能将症状 名识别的过程和规范化的过程联合建模。本发明可以对CRF中的马尔可夫过 程的限制条件放宽送,令其满足半马尔可夫性质,从而就可将识别的过程转 换为从标注序列中识别描述症状名的最优块问题。这样就可以将序列标注的 识别过程与症状名规范化的分类过程有效的相结合。
由于中医症状名规范化部分的错误率较高的影响,间接导致了中医临床 症状名识别性能的降低,本发明提供的基于半马尔可夫的联合识别和规范化 中医症状名的模型,本发明在Windows 7系统下,eclipse-jee-neon-3-win32-x86 _64及jdk1.8开发工具上开发运行;能够解决“由于中医临床症状名的不规 范化现象导致组合症状名识别错误率较高”的问题,而且实验结果表明,联 合识别和规范化模型有能力解决中医临床记录中组合症状名难识别的问题。
附图说明
图1是识别模型的识别过程示意图;
图2是识别规范化联合过程示意图;
图3是实验数据样例示意图;
图4是CSSNMD样例数据示意图;
图5是实验数据集的构建过程和结果示意图;
图6是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围 下的准确率,其中L表示症状名长度;
图7是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围 下的召回率,其中L表示症状名长度;
图8是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围 下的F度量,其中L表示症状名长度。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明 的解释而不是限定。
一种基于半马尔可夫的联合识别和规范化中医症状名的方法,对于待识 别的中医临床记录x,构建一个识别和规范化联合模型,完成从x中识别所有 症状名s并将它们规范化成对应的标准症状名y,包括以下操作:
1)所构建的识别和规范化联合模型为:
其中,P(s|x)为识别模型,完成从给定的中医临床记录x中识别所有包含 的症状名s=<seg1,seg2,...,segp>;
P(yk|segk,x)为规范化模型,完成将从x中识别出的每一个临床症状名segk规范为其对应的规范化症状名yk
2)采用半马尔可夫条件随机场来构建识别模型,给出识别模型的表达形 式(3.3):
其中,为归一化因子,ωm表示全局特征gm的权值,gm表示二值全局特征函数,m∈[1,K],K是全局特征gm的 数量,x表示一条临床记录实例,|s|为从x中识别出的症状名的总数,uk vk sk与 前文表示相同,s'表示所有对中医临床记录x的可能存在的分割形式;考虑每 一个文字块的前缀信息,通过文字块sk与sk-1联系文字块两两之间的状态标 签的联系;当前字串组合是症状名时则标注为“B”,如果不是则标注为“O”;
3)将式(3.2)中的规范化模型定义为一个多元回归问题,并用下式(3.4) 表示:
其中,为归一化因子, 为中医临床症状名经过文本编辑操作后得到标准症状名的过 程的形式化,其中yk为规范化症状名,从中医临床症状名segk到中医标准症状 名yk的文本编辑操作有M种可能,fl(yk,segk,x)表示第l种可能的从中医临床症 状名segk到中医标准症状名yk的文本编辑操作,为0时表示segk与yk之间不包 含当前的编辑操作关系,为1时表明两者之间包含当前的文本编辑操作;yk'表 示所有的可能的规范化症状名;
4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5):
其中,Θ表示所有的参数ωm和μl的集合,S为症状名块集合,Y为标准 症状名集合,X为临床记录集合;
根据给定训练数据集学习一组最优的参数Θ,并使得最 终的中医症状名识别和规范化结果最优,其中N为训练数据集中包含的带标 注的中医临床数据的数目。
下面对本发明进一步详细的说明。
本发明解决的任务目标是从中医临床记录中识别症状名的同时并将识别 到的临床症状名规范为标准症状名,即给定一条中医临床记录x,构建一个识 别和规范化模型,完成从x中识别所有症状名s并将它们规范化成对应的标准 症状名y的任务。我们可将其形式化为公式:
假定,在规范化的过程中,识别到的各中医临床症状名之间是相互独立 的,并根据贝叶斯准则,公式(3.1)可变换为公式(3.2)有:
在公式(3.2)中,P(s|x)完成从给定的中医临床记录x中识别所有包含的 症状名s=<seg1,seg2,...,segp>的目的,定义其为中医临床症状名“识别模型”, 我们可仍将该识别任务看作是序列标注问题,识别模型将由满足半马尔可夫 性质的条件随机场(CRF)模型定义。而P(yk|segk,x)完成将从x中识别出的每 一个临床症状名segk规范为其对应的规范化症状名yk的任务,定义其为中医临 床症状名“规范化模型”,规范化模型将由最大熵模型定义,用来对中医临 床症状名和标准症状名的文本编辑操作进行编码操作。在公式(3.2)中,|s|为 从x中识别出的症状名的总数。
下面对识别模型和规范化模型作详细的说明。
1、识别模型
中医临床记录主要是口语化的不规范的记录文本构成,是由中医专家在 诊病过程中记录而来的。
根据半马尔可夫随机过程的定义,以及要完成的中医临床症状名识别和 规范化任务的描述,令s=〈seg1,seg2,...,segp〉表示一条中医临床记录x的对应的块 的分割形式,表示将x共划分为p块,令segk表示S中的第k块分割的形式化 表示,用来表示该块是症状名或不是症状名,segk由三元组〈uk,vk,sk〉构成,其 中uk表示文字块segk在临床记录实例x中的开始位置,vk表示文字块segk在临 床记录实例x中的结束位置,sk表示在uk至vk之间的中文字串对应的标注类标 “B”或“O”。
在识别和规范化联合模型中,症状名的识别过程仍然是序列化标注的过 程,对于其标注策略,我们定义标注序列为中医临床记录中的子句。与之前 的序列标注不同,在半马尔可夫条件随机场中,标注的单元为中医临床记录 中的潜在字串组合,任务是判断这些字串组合或可能的中医临床记录的分割 是症状名或不是症状名,因此标注策略中的标注类标集我们定义为“BO”, 即当前字串组合是症状名时则标注为“B”,如果不是则标注为“O”。
条件随机场(CRF)在识别中医临床症状名的过程中具有较高的性能,它 能够引入对识别任务有帮助的上下文特征,并且可以有效的避免标注有偏问 题,因此,考虑采用半马尔可夫条件随机场来构建识别模型,我们给出识别 模型的表达形式(3.3):
其中,
为归一化因子, ωm表示全局特征gm的权值,gm表示二值全局特征函数,m∈[1,K],K是全局 特征gm的数量,x表示一条临床记录实例,|s|为从x中识别出的症状名的总数, uk vk sk与前文表示相同,s'表示所有对中医临床记录x的可能存在的分割形式。 通过文字块sk与sk-1联系文字块两两之间的状态标签的联系,即考虑每一个 文字块的前缀信息。采用半马尔可夫条件随机场进行中医临床症状名的整个 识别过程可以形象的描述为图1所示过程。图中,X表示一条中医临床记录,S为记录X分割为3块,即S=<seg1,seg2,seg3>,根据上文定义seg1=<1,1,O>, seg2=<2,2,O>,seg3=<3,5,B>。
2、规范化模型
在识别模型中,我们将中医临床记录进行了分割,分割的结果是 s=〈seg1,seg2,...,segp〉,其中令segk表示S中的第k块分割的形式化表示,标识出 了该块分割是症状名或者不是症状名。根据本文对中医临床症状名的规范化 任务的描述,将规范化过程看作从中医临床症状名经过文本编辑操作后得到 标准症状名的过程,我们可以将该过程形式化为:其中yk为 规范化症状名,从中医临床症状名segk到中医标准症状名yk的文本编辑操作有 M种可能,fl(yk,segk,x)表示第l种可能的从中医临床症状名segk到中医标准症 状名yk的文本编辑操作,它是一个二值函数,为0时,表示segk与yk之间不包 含当前的编辑操作关系,为1时表明两者之间包含当前的文本编辑操作。
例如,对于中医临床症状名“上半身汗出”和中医标准症状名“上半身 多汗”来说,fl(yk,segk,x)可能对应为“汗”到“多汗”插入操作。而μl对应于 fl(yk,segk,x)的权值,文本编辑操作有很多中,但从中医临床症状名segk到中医 标准症状名yk的文本编辑操作只包含其中最可能的一组,因此,在全部可能 的文本编辑操作中,不同的操作会具有不同的权值,例如,对于中医临床症 状名“上半身汗出”和中医标准症状名“上半身多汗”来说,从“汗出”到 “汗”的删除操作对于该转换过程来说,要比“汗出”到“多”的替换操作 更符合实际情况,因为,在通常情况下,“汗”可以表示“汗出”(或“出 汗”)的含义,而“汗出”和“多”没有替换的可能性。M即为所有segk与yk之间的所有可能的文本编辑操作,即segk与yk之间的可能的文字的对齐关系, 例如,对于中医临床症状名“上半身汗出”和中医标准症状名“上半身多汗” 来说,它们可以被拆分成:
"上半身汗出"={"上","上半",...,"半身汗出","上半身汗出"}和
"上半身多汗"={"上","上半",...,"半身多汗","上半身多汗"}
如此,我们可构建出两者之间的文本编辑操作关系(或对齐关系):
{"上-上","上-上半",...,"半身汗出-上半身多汗"}。
为解决以上问题,我们可以很自然的将公式(3.2)中的规范化模型定义 为一个多元回归问题,并用下式(3.4)表示:
其中,
为归一化因子,
yk'表示所有的可能的规范化症状名。
3、联合模型的表达式
我们将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5):
其中,Θ表示所有的参数ωm和μl的集合,S为症状名块集合,Y为标准 症状名集合,X为临床记录集合,其余符号均与上文给出的定义相同。
我们的最终任务就是根据给定训练数据集学习一组最优 的参数Θ,使得最终的中医症状名识别和规范化结果最优。其中N为训练数 据集中包含的带标注的中医临床数据的数目,根据式3.5,我们可以考虑采用 L-BFGS进行最优参数的优化学习过程,具体的参数估计方法见下述的参数估 计。
4、参数估计
根据Sunita Sarawagi,William W.Cohen.发表的半马尔可夫条件随机场信 息提取文献,我们将公式(3.4)表达成其对数似然形式(3.5):
我们的目标是找到一组最优的Θ可以最大化L(Θ),其中Θ=Μ+Ω,Μ为参 数μ的集合,Ω为参数ω的集合。公式(3.5)是凸函数,因此可以利用梯度下 降算法(或其它相关的算法)找到其全局最优解,这里我们根据D.C.Liu,J. Nocedal.发表的大尺度优化的有限记忆BFGS方法,采用L-BFGS算法。对 L(Θ)求梯度,等价于对其中包含的如下四部分分别求梯度:
式(3.6)、(3.7)、(3.8)和(3.9)的梯度分别为:
其中,梯度中需要枚举所有可能的s”n,采用朴素的方法将使得运 算性能极低,这里我们可以采用动态规划算法以提高其计算效率,具体推倒 过程参见文献Michael Collins发表的正向向后算法。
整个识别规范化联合过程如图2所示。
5、实验验证
本发明将中医临床记录中症状名的规范化过程与识别过程联合建模,以 期达到弥补由于症状名的不规范化问题而导致对组合症状名识别不准确的问 题。下面给出了对该模型的初步验证,采用半马尔可夫条件随机场完成识别 任务时采用的特征是字的一元组、二元组、三元组以及临床记录中字的位置 信息特征,抽取特征的窗口(CWS)定为3。将规范化过程看作从中医临床 症状名经过文本编辑操作后得到标准症状名的过程,中文词的长度约为2,而 加入三元组可以在其中包含其它有用信息在其中,例如“前缀”、“后缀”等信息 在中医临床症状名规范化中具有较高价值的特征,因此在本实验中采用最大 熵模型完成对识别的症状名进行规范化时采用的特征为标准症状名与临床症 状名之间的字的一元组、二元组和三元组的对齐关系。而中医临床记录具有 简短的特点,因此有价值的判别信息一般不会与当前判别对象太远,因此, 我们还考虑引入上下文窗口为3内的字的一元组、二元组和三元组为附加特 征,帮助我们进行症状名的规范化。
5.1实验数据
为了验证针对中医临床记录领域特点提出的对序列标注策略改进的改进 的合理性、采用的特征的有效性以及使用的各序列标注模型在完成中医临床 记录中症状名的识别任务的特性,首先我们构建了一个实验用的标准数据集, 该数据集(命名为CSSNMD)由中医临床症状名和标准症状名对组成。在 CSSNMD中,共包含4465种中医临床症状名,这些中医临床症状名来源于一 个临床记录数据集,该临床记录数据集是由中医专家在日常的临床诊断过程 中收集整理得到的。另外,在CSSNMD中包含947种中医标准症状名,这些 中医标准症状名来源于“2008四君子中医标准数据集”。CSSNMD中的中医临 床症状名和标准症状名之间的匹配关系是由中医专家人工确定的。以 CSSNMD数据集所用的症状名规范化数据集(Diagnostic项)为基础,该数 据集由中医临床症状名和标准症状名对组成。数据来源于一个实际的中医临 床记录数据集,该数据集是由中医专家在2006年4月至2008年6月间的日 常诊断过程中收集的,其中包含11613条临床记录(样例数据如图3所示)。
(1)我们邀请了两名中医专家,让他们根据事先定义的标注准则(具体 内容见附录1,该准则由标注者和作者在标注之前共同商议确定)以及他们对 标注准则的理解,凭借他们的经验知识,分别将我们实验用的中医临床记录 数据集中包含的全部中医症状名标识出来。
标注任务完成后,我们对两者的标注结果用度量标注结果一致性的指标Kappa度量值(或称为“Inter-Annotator Agreement”度量)进行了评价,评价的 结果为0.84。该结果基本落在“几乎完美匹配区间”(“the almost perfect agreement interval”)或“极好的一致区间”(“the excellent agreement interval”)。
(2)在我们的实验中,只有那些被两名中医专家均认同的症状名才被保 留在最终的标准实验数据集中,这些症状名将被标签“B”、“I”和“E”标识出来。 同时,其他的不被两者一致认同的症状名将被看作是非症状名,并于其他非 症状名内容一并,用标签“O”在最终的标准实验数据集中标注出来。
(3)为了简便,我们还对最终的标准数据集做了一些后处理操作。最终 的标准实验数据集中包含的数字(如整数、小数、分数等)被全部统一的用 英文字母“N”代替,而标点符号则统一使用英文字母“P”替换。这些字符“N”和 “P”均被看作非症状名并用标签“O”在最终的标准实验数据集中标识出来。
我们将该构建的标准实验数据集(用CRD-BIEO表示)随机的分成两部 分。一部分包含3483条临床记录(大约是原数据集的30%),该部分数据将 作为训练有监督序列标注分类器使用。另一部分包含8130条临床记录(大约 是原数据集的70%),该部分数据将作为测试数据集,用于评判各方法的有 效性。
我们的实验任务就是利用前文所述的字面相似度方法,将CSSNMD中包 含的4465种中医临床症状名,自动的规范化为在947种中医标准症状名中最 可能的一个标准症状名。如果在最终的规范化结果中,有两个或两个以上的 中医标准症状名与一个中医临床症状名具有相同的最大的字面相似度值,那 么,我们将从这些中医标准症状名中,随机选取一个作为该中医临床症状名 的标准化形式。图4给出了CSSNMD的样例数据。
那些不能被规范化的症状名标记为“NS”(表示不能规范的症状名),而 非症状名的一般文本被标为“NAN”。如此,我们构建出本实验中将使用到的 训练数据集和测试数据集(如图5所示)。
实验中的训练和测试数据集的具体信息如表4.1所示。
表4.1训练和测试数据集的相关信息
4.2评价方法
为验证对传统序列标注策略进行改进的方法的正确性及其价值,以及判 别序列标注模型在完成中医症状名识别任务时借助的两种特征的有用性,我 们设计了两组评价指标对最终的识别和标注结果进行评价。一组是症状名识 别的准确率(Prec)、召回率(Rrec)和F度量值(FMrec),它们的定义分别 由下式(4.13)、(4.14)和(4.15)给出。;采用中医临床症状名规范化结 果的准确率(Pnorm)、召回率(Rnorm)和F度量值(FMnorm)来评判各规范化 方法的好坏。它们的定义分别由下式(4.16)、(4.17)和(4.18)给出。
Prec、Rrec和FMrec用于对根据中医临床记录领域特点改进的序列标注策略、 使用的序列标注模型、以及借助的特征(字的n元组特征和位置信息特征) 进行整体性能的评价。它们的计算方式被定义如下:
其中,|NSRC|表示从中医临床记录文本中正确识别的症状名的数量, |NSR|表示从中医临床记录文本中识别出的症状名的数量,|NS|是在测试数据 集中包含的症状名的总数,即应该从测试数据集中识别出的症状名的数量。 一个从中医临床记录中识别出的症状名是正确的,当且仅当该症状名其被序 列标注模型标注出的标签与对应位置上的正确结果标签完全吻合。
其中,|CNS|表示中医临床症状名中被正确规范化的数量。|NS|表示在实验 数据中,中医临床症状名被规范化的数量。|CSN|表示实验数据中应被规范化 的中医临床症状名的数量。
在实验中,Pnorm、Rnorm和FMnorm不仅可以用于评价各字面相似性度量方法 在中医临床症状名的规范化任务中的性能优劣,还可以用来衡量各字面相似 性度量方法,在解决中医临床症状名的规范化问题时,对参数设定的敏感度。 如果所采用的字面相似性度量方法取得的Pnorm、Rnorm和FMnorm随着参数的调整, 不会产生明显的变化,那么,说明该方法在解决中医临床症状名规范化问题 上具有较稳定的性能,并且还说明该方法中包含的特征γ适用于解决中医临床 症状名规范化问题,这些特征能够将正确的和错误的规范化结果明显的加以 区分。
4.3实验结果
表4.2联合识别和规范化模型取得的中医症状名识别结果
P<sub>rec</sub> R<sub>rec</sub> FM<sub>rec</sub>
精确识别结果 90.50% 91.52% 91.01%
粗糙识别结果 94.71% 95.78% 95.25%
表4.3联合识别和规范化模型取得的中医症状名规范化结果
P<sub>norm</sub> R<sub>norm</sub> FM<sub>norm</sub>
症状名规范化结果 47.53% 70.66% 56.83%
表4.2、表4.3给出了利用联合识别模型进行中医临床症状名识别所获得 的结果。采用联合模型取得的FMrec结果为91.01%(对应的Prec结果为90.51%, Rrec的结果为91.52%)。尽管在识别性能上有所降低,但是,通过对结果的 观察,采用联合识别和规范化模型取得的结果在组合症状名的识别结果上有 所提升,例如,在采用联合识别和规范化模型取得的结果中,形如“苔薄黄 略腻”的组合症状名能够被准确的识别出来,而单一的识别方法中就无法识 别。与单一的识别方法相比,联合识别和规范化模型能够有效的识别那些较 长的中医症状名(见图6、图7和图8所示结果)。在症状名长度大于4时, 采用本文提出的联合症状名识别和规范化模型能够取得比单一使用CRF的 FMrec结果要高。这些结果说明了,通过对中医症状名的识别和规范化过程进 行联合建模,能够解决有关“由于症状名的不规范化现象导致组合症状名的 识别效果不佳”的问题。
以上给出的实施例是实现本发明较优的例子,本发明不限于上述实施例。 本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添 加、替换,均属于本发明的保护范围。

Claims (3)

1.一种基于半马尔可夫的联合识别和规范化中医症状名的方法,其特征在于,对于待识别的中医临床记录x,构建一个识别和规范化联合模型,完成从x中识别所有症状名s并将它们规范化成对应的标准症状名y,包括以下操作:
1)所构建的识别和规范化联合模型为:
其中,P(s|x)为识别模型,完成从给定的中医临床记录x中识别所有包含的症状名s=<seg1,seg2,...,segp>;
P(yk|segk,x)为规范化模型,完成将从x中识别出的每一个临床症状名segk规范为其对应的规范化症状名yk
2)采用半马尔可夫条件随机场来构建识别模型,给出识别模型的表达形式(3.3):
其中,为归一化因子,ωm表示全局特征gm的权值,gm表示二值全局特征函数,m∈[1,K],K是全局特征gm的数量,x表示一条临床记录实例,|s|为从x中识别出的症状名的总数,uk vk sk与前文表示相同,s'表示所有对中医临床记录x的可能存在的分割形式;考虑每一个文字块的前缀信息,通过文字块sk与sk-1联系文字块两两之间的状态标签的联系;当前字串组合是症状名时则标注为“B”,如果不是则标注为“O”;
3)将式(3.2)中的规范化模型定义为一个多元回归问题,并用下式(3.4)表示:
其中,为归一化因子,为中医临床症状名经过文本编辑操作后得到标准症状名的过程的形式化,其中yk为规范化症状名,从中医临床症状名segk到中医标准症状名yk的文本编辑操作有M种可能,fl(yk,segk,x)表示第l种可能的从中医临床症状名segk到中医标准症状名yk的文本编辑操作,为0时表示segk与yk之间不包含当前的编辑操作关系,为1时表明两者之间包含当前的文本编辑操作;yk'表示所有的可能的规范化症状名;
4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5):
其中,Θ表示所有的参数ωm和μl的集合,S为症状名块集合,Y为标准症状名集合,X为临床记录集合;
根据给定训练数据集学习一组最优的参数Θ,并使得最终的中医症状名识别和规范化结果最优,其中N为训练数据集中包含的带标注的中医临床数据的数目。
2.如权利要求1所述的基于半马尔可夫的联合识别和规范化中医症状名的方法,其特征在于,所述的参数优化是找到一组最优的Θ以最大化L(Θ),其中Θ=Μ+Ω,Μ为参数μ的集合,Ω为参数ω的集合;采用L-BFGS进行最优参数的优化学习过程,其中的参数估计方法为:
对L(Θ)求梯度,等价于对其中包含的如下四部分分别求梯度:
式(3.6)、(3.7)、(3.8)和(3.9)的梯度分别为:
其中,梯度中需要枚举所有可能的s”n,采用朴素的方法使得运算性能极低,采用动态规划算法以提高其计算效率。
3.如权利要求1所述的基于半马尔可夫的联合识别和规范化中医症状名的方法,其特征在于,所述的识别模型采用半马尔可夫条件随机场完成识别任务时,采用的特征是字的一元组、二元组、三元组以及临床记录中字的位置信息特征,抽取特征的窗口定为3;
所述的规范化模型采用最大熵模型完成对识别的症状名进行规范化时,采用的特征为标准症状名与临床症状名之间的字的一元组、二元组和三元组的对齐关系;引入上下文窗口为3内的字的一元组、二元组和三元组为附加特征对症状名进行规范化。
CN201910132720.6A 2018-07-19 2019-02-22 一种基于半马尔可夫的联合识别和规范化中医症状名的方法 Active CN110020428B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018107978795 2018-07-19
CN201810797879 2018-07-19

Publications (2)

Publication Number Publication Date
CN110020428A true CN110020428A (zh) 2019-07-16
CN110020428B CN110020428B (zh) 2023-05-23

Family

ID=67189093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910132720.6A Active CN110020428B (zh) 2018-07-19 2019-02-22 一种基于半马尔可夫的联合识别和规范化中医症状名的方法

Country Status (1)

Country Link
CN (1) CN110020428B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256977A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Maximum entropy model with continuous features
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
JP2012146263A (ja) * 2011-01-14 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN107491439A (zh) * 2017-09-07 2017-12-19 成都信息工程大学 一种基于贝叶斯统计学习的医学古汉语句子切分方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256977A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Maximum entropy model with continuous features
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
JP2012146263A (ja) * 2011-01-14 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN106407236A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种面向点评数据的情感倾向性检测方法
CN107526798A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN107491439A (zh) * 2017-09-07 2017-12-19 成都信息工程大学 一种基于贝叶斯统计学习的医学古汉语句子切分方法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MCCALLLUM A等: "Maximum entropy markov models for information extraction and segmentation", 《ICML PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
WANG YAQIANG等: "Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: An empirical study", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
ZHANG H等: "Keyword spotting in handwritten Chinese documents using semi-markov conditional random filed", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》 *
刘凯: "基于条件随机场的中医病历命名实体抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王琦琪,等: "循证医学的移动诊疗关键技术的研究和应用", 《信息与电脑(理论版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN110020428B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
Meystre et al. Automatic trial eligibility surveillance based on unstructured clinical data
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
WO2023065858A1 (zh) 基于异构图神经网络的医疗术语规范化系统及方法
CN110335665A (zh) 一种应用于医学图像辅助诊断分析的以图搜图方法及系统
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN110532387A (zh) 一种基于开放性问答文本的抑郁症辅助检测方法
US20210035661A1 (en) Methods and systems for relating user inputs to antidote labels using artificial intelligence
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111460091A (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
Adi et al. Stroke risk prediction model using machine learning
CN110020428A (zh) 一种基于半马尔可夫的联合识别和规范化中医症状名的方法
CN113674859A (zh) 一种心脏出生缺陷诊断方法及系统
CN113360643A (zh) 一种基于短文本分类的电子病历数据质量评价方法
CN111145854B (zh) 一种基于主题模型的胸部x光片诊断报告异常检测方法
Dubey et al. Smart Underwriting System: An Intelligent Decision Support System for Insurance Approval & Risk Assessment
CN110263336B (zh) 一种构建乳腺超声领域本体的方法
CN116737924A (zh) 一种医疗文本数据处理方法及装置
CN114048320B (zh) 一种基于课程学习的多标签国际疾病分类训练方法
CN113257371B (zh) 基于医学知识图谱的临床检验结果分析方法及系统
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN111966780A (zh) 一种基于词向量建模和信息检索的回顾性队列选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant