CN110020428B

CN110020428B - 一种基于半马尔可夫的联合识别和规范化中医症状名的方法

Info

Publication number: CN110020428B
Application number: CN201910132720.6A
Authority: CN
Inventors: 王亚强; 张馨羽; 舒红平; 唐聃
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-07-19
Filing date: 2019-02-22
Publication date: 2023-05-23
Anticipated expiration: 2039-02-22
Also published as: CN110020428A

Abstract

本发明公开了一种基于半马尔可夫的联合识别和规范化中医症状名的方法，该模型通过识别和规范化过程分别采用半马尔可夫条件随机场和最大熵模型建模，采用L‑BFGS优化算法完成参数训练，并利用动态规划算法完成序列预测，最终通过对两个过程地互相约束和补充达到全局优化的目的，使其能更准确的识别较好的组合型临床症状名，最后通过实验验证了模型的效果。

Description

一种基于半马尔可夫的联合识别和规范化中医症状名的方法

技术领域

本发明属于中医临床电子化技术领域，涉及一种基于半马尔可夫的联合识别和规范化中医症状名的方法。

背景技术

中医学作为人类自然科学和社会科学的结晶，是中国传统医学的瑰丽宝藏。近年来，中医学在临床实践中被广泛应用且取得了良好的诊疗效果，为中医学的传承发展打开了良好局面。中医学的理论和实践经验是经过数千年的实践和探索出来的，将中医专家在日常诊病过程中的临床记录称作中医临床记录，中医临床记录是获取中医专家诊病经验知识的重要信息来源。随着中医现代化的发展，临床记录电子化化为中医学研究者研究长期积累的大量中医临床电子记录，并从中自动的发现复杂的中医诊疗知识提供了契机。

由于中医学诊断过程存在过度依赖于行医者经验，缺乏现代医学理论的支持等问题，使其当前备受质疑。中医学研究者为弥补这一缺陷展开了广泛的研究。尽管前人在中医诊疗知识自动发现领域已经取得了一些成果，但大部分方法均基于有限的、人工整理的结构化数据。然而，中医临床记录具有非结构化和不规范化的特点，随着中医临床记录电子化的广泛推广，中医临床记录数据与日俱增，这导致采取人工方式对这些数据进行结构化和规范化成为即耗时又费力，还可能由于不同的医生因为认知水平参差不齐而产生不一致的结果，甚至人工劳动者还可能由于长时间进行脑力劳动导致精力不集中而产生错误结果。重要的中医临床知识源——中医临床记录——还没有被有效的利用。

目前，已有一些研究者采用数据挖掘和机器学习技术完成中医诊断经验知识发现的研究，这些工作主要基于有限的、人工整理的结构化数据完成。利用文本挖掘技术发掘中医诊病知识的相关研究工作还有很多，但都是基于人工建立起来的结构化或半结构化数据完成的。对于中医临床记录来说，这些非结构化的文本需要被事先结构化，即从中医临床记录中抽取医学命名实体信息，如中医诊断结果、病人的症状描述、使用的治疗药物信息等。其中，病人的症状描述(后文统称为症状名)是中医专家诊断的依据，是获取临床诊疗知识的重要依据之一，该信息主要包含于中医临床记录的主诉(Chief Complaint)字段。但是，这些人工整理好的数据是有限的，并且要整理出结构化的数据需要耗费大量的人力物力。所以，开发自动的方法帮助中医学研究者完成对非结构化的中医临床记录进行研究是非常有意义的，即要对中医临床记录进行信息抽取有用信息。

从文本中将命名实体描述识别出来后，由于字面表现形式的多样性，也就是同一实体的不同描述方式，尤其在中文文本中，又会因为领域，文本类型等原因，使得实体的描述方式更加的多样，使得实体描述与实际实体在规范词典中的描述在字面上的不同，但是两者之间都可以通过字符编辑操作进行转换、解释，所以要对识别到的命名实体描述进行预处理操作，将识别到的命名实体描述与到具有相同意义的规范词典中的实体相对应，将识别到的实体进行规范化。

近年来，研究者对非正式文本中文本内容的规范化问题(text normaliza tionproblem)展开了一些研究，并取得了一些成果。Choudhury等人介绍了一种有监督的隐马尔可夫模型，该模型被用于对手机短信文本内容进行规范化。Cook和Stevenson将Choudhury等人的工作进行了延伸，他们基于概率模型构建了一种无监督的噪声信道模型，用于规范化常见的缩略语。Deana LPennell和Yang Liu对语音合成系统生成的非正式文本中包含的缩略语的规范化问题进行了研究，通过两步预处理过程，他们的方法较前人对语音合成系统生成的非正式文本的规范化能力有了很大的提升，不仅体现在词语错误率在对文本规范化后的结果降低上，其语音因素的错误率也在对文本进行规范化操作后有了很大的降低，并且，他们的方法所取得的结果的人工评价的结果也很不错。

当前用于解决命名实体名称不规范问题的方法是度量不规范的命名实体名称与其标准名称之间的编辑距离(或称为字符串相似性(string similarity))。该方法可以被称为是一种软匹配方法(soft matching)，它首先定义字面相似性度量函数(函数可分为编辑距离类函数、基于词语距离的函数以及混合函数等)，用这些函数来度量不规范的命名实体与标准命名实体之间的字面相似性，然后将相似性度量的结果进行排序，那个与不规范的命名实体名称相似度值最高的标准名称，即被定义为的标准化形式。

中医临床症状名的不规范化问题比起一般实体描述不规范更有其领域特点。由于不同的中医专家具有不同的行医经验和背景知识，中医专家在日常的诊病过程中，为了提高诊病效率，在记录中医临床记录的过程中，他们不会完全遵照应有的记录约束，导致对相同的症状他们可能会使用不同的描述，即“同物异名”问题。例如，同样表示“胸部疼痛”的症状，可能会有“引胸痛”、“引胸疼痛”、“引胸部痛”等多种描述方式。而中医症状名的不规范化给中医临床症状名的识别性能会带来负面的影响，并且，将中医症状名的识别和规范化分成两步完成会导致将上一步中的误差带至下一步中来，即导致误差的传递和放大。而这种分步完成两个并不相互独立的操作的方式并不是找到最优解的有效方法。因此，我们考虑对两步操作联合建模，以期达到找到全局最优解的目的，因此如何将症状名的规范化过程有效的结合到中医症状名识别的过程中来，从而提升此类组合症状名的识别性能，中医症状名的规范化结果与识别结果息息相关。

发明内容

本发明解决的问题在于提供一种基于半马尔可夫的联合识别和规范化中医症状名的方法，联合识别和规范化模型有能力解决中医临床记录中组合症状名难识别的问题，克服中医临床症状名的不规范化现象导致组合症状名识别错误率较高的缺陷。

本发明是通过以下技术方案来实现：

一种基于半马尔可夫的联合识别和规范化中医症状名的方法，对于待识别的中医临床记录x，构建一个识别和规范化联合模型，完成从x中识别所有症状名s并将它们规范化成对应的标准症状名y，包括以下操作：

1)所构建的识别和规范化联合模型为：

其中，P(s|x)为识别模型，完成从给定的中医临床记录x中识别所有包含的症状名s＝<seg₁,seg₂,...,seg_p>；

P(y_k|seg_k,x)为规范化模型，完成将从x中识别出的每一个临床症状名seg_k规范为其对应的规范化症状名y_k；

2)采用半马尔可夫条件随机场来构建识别模型，给出识别模型的表达形式(3.3)：

其中，

为归一化因子，ω_m表示全局特征g_m的权值，g_m表示二值全局特征函数，m∈[1,K]，K是全局特征g_m的数量，x表示一条临床记录实例，|s|为从x中识别出的症状名的总数，u_kv_ks_k与前文表示相同，s′表示所有对中医临床记录x的可能存在的分割形式；考虑每一个文字块的前缀信息，通过文字块sk与sk-1联系文字块两两之间的状态标签的联系；当前字串组合是症状名时则标注为“B”，如果不是则标注为“O”；

3)将式(3.2)中的规范化模型定义为一个多元回归问题，并用下式(3.4)表示：

其中，

为归一化因子，

为中医临床症状名经过文本编辑操作后得到标准症状名的过程的形式化，其中y_k为规范化症状名，从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作有M种可能，f_l(y_k,seg_k,x)表示第l种可能的从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作，为0时表示seg_k与y_k之间不包含当前的编辑操作关系，为1时表明两者之间包含当前的文本编辑操作；y_k′表示所有的可能的规范化症状名；

4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5)：

其中，Θ表示所有的参数ω_m和μ_l的集合，S为症状名块集合，Y为标准症状名集合，X为临床记录集合；

根据给定训练数据集

学习一组最优的参数Θ，并使得最终的中医症状名识别和规范化结果最优，其中N为训练数据集中包含的带标注的中医临床数据的数目。

所述的参数优化是找到一组最优的Θ以最大化L(Θ)，其中Θ＝M+Ω，M为参数μ的集合，Ω为参数ω的集合；采用L-BFGS进行最优参数的优化学习过程。

所述的识别模型采用半马尔可夫条件随机场完成识别任务时，采用的特征是字的一元组、二元组、三元组以及临床记录中字的位置信息特征，抽取特征的窗口定为3；

所述的规范化模型采用最大熵模型完成对识别的症状名进行规范化时，采用的特征为标准症状名与临床症状名之间的字的一元组、二元组和三元组的对齐关系；引入上下文窗口为3内的字的一元组、二元组和三元组为附加特征对症状名进行规范化。

与现有技术相比，本发明具有以下有益的技术效果：

在中医症状名识别之后进行的规范化过程，需要对用于一般领域的字面相似性度量方法需要针对任务的领域特殊性进行修改，通过引入更多的领域知识的方法提高中医临床症状名的规范化性能。通过对中医临床症状名的组成结构进行分析，本发明提出一组新的领域知识可以帮助提升中医临床症状名的规范化性能，即中医临床症状名的前缀和后缀信息在中医临床症状名的规范化任务中具有重要的价值，为将其引入已有的字面相似性度量方法的计算过程中，并且相对于中医症状名的前缀信息来说，中医症状名的后缀信息在中医临床症状名的规范化过程中具有更重要的机制，后缀信息应在规范化的过程中被赋予更高的权值。本发明通过引入中间层的方式，即在标注时先识别症状名提及，同时对识别到的症状名进行分类(分类的类别即为标准症状名词典中的症状名外加一个未见症状名类别)。如此便可达到在不增加标签种类的同时，一并完成从中医临床记录中识别和规范化症状名的目的。

Andrew McCallum和Wei Li初次尝试了将条件随机场模型(Conditional RandomFields，CRF)用于命名实体识别任务，识别的过程中结合前后文特征、词语的构成特征(如词语的前缀信息、后缀信息、首字母大小写)等信息。传统的CRF(条件随机场)的标注过程是建立在标注单元级别上的，而没有考虑症状名块的形成过程，所以利用传统的CRF(条件随机场)无法将序列标注过程和对特定标注结果块的分类过程有机的相结合，即不能将症状名识别的过程和规范化的过程联合建模。本发明可以对CRF中的马尔可夫过程的限制条件放宽送，令其满足半马尔可夫性质，从而就可将识别的过程转换为从标注序列中识别描述症状名的最优块问题。这样就可以将序列标注的识别过程与症状名规范化的分类过程有效的相结合。

由于中医症状名规范化部分的错误率较高的影响，间接导致了中医临床症状名识别性能的降低，本发明提供的基于半马尔可夫的联合识别和规范化中医症状名的模型，本发明在Windows 7系统下，eclipse-jee-neon-3-win32-x86_64及jdk1.8开发工具上开发运行；能够解决“由于中医临床症状名的不规范化现象导致组合症状名识别错误率较高”的问题，而且实验结果表明，联合识别和规范化模型有能力解决中医临床记录中组合症状名难识别的问题。

附图说明

图1是识别模型的识别过程示意图；

图2是识别规范化联合过程示意图；

图3是实验数据样例示意图；

图4是CSSNMD样例数据示意图；

图5是实验数据集的构建过程和结果示意图；

图6是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围下的准确率，其中L表示症状名长度；

图7是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围下的召回率，其中L表示症状名长度；

图8是采用CRF和联合识别和规范化模型取得的在不同症状名长度范围下的F度量，其中L表示症状名长度。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

1)所构建的识别和规范化联合模型为：

其中，

为归一化因子，ω_m表示全局特征g_m的权值，g_m表示二值全局特征函数，m∈[1,K]，K是全局特征g_m的数量，x表示一条临床记录实例，|s|为从x中识别出的症状名的总数，u_kv_k s_k与前文表示相同，s′表示所有对中医临床记录x的可能存在的分割形式；考虑每一个文字块的前缀信息，通过文字块sk与sk-1联系文字块两两之间的状态标签的联系；当前字串组合是症状名时则标注为“B”，如果不是则标注为“O”；

其中，

为归一化因子，/>

4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5)：

根据给定训练数据集

下面对本发明进一步详细的说明。

本发明解决的任务目标是从中医临床记录中识别症状名的同时并将识别到的临床症状名规范为标准症状名，即给定一条中医临床记录x，构建一个识别和规范化模型，完成从x中识别所有症状名s并将它们规范化成对应的标准症状名y的任务。我们可将其形式化为公式：

假定，在规范化的过程中，识别到的各中医临床症状名之间是相互独立的，并根据贝叶斯准则，公式(3.1)可变换为公式(3.2)有：

在公式(3.2)中，P(s|x)完成从给定的中医临床记录x中识别所有包含的症状名s＝<seg₁,seg₂,...,seg_p>的目的，定义其为中医临床症状名“识别模型”，我们可仍将该识别任务看作是序列标注问题，识别模型将由满足半马尔可夫性质的条件随机场(CRF)模型定义。而P(y_k|seg_k,x)完成将从x中识别出的每一个临床症状名seg_k规范为其对应的规范化症状名y_k的任务，定义其为中医临床症状名“规范化模型”，规范化模型将由最大熵模型定义，用来对中医临床症状名和标准症状名的文本编辑操作进行编码操作。在公式(3.2)中，|s|为从x中识别出的症状名的总数。

下面对识别模型和规范化模型作详细的说明。

1、识别模型

中医临床记录主要是口语化的不规范的记录文本构成，是由中医专家在诊病过程中记录而来的。

根据半马尔可夫随机过程的定义，以及要完成的中医临床症状名识别和规范化任务的描述，令s＝<seg₁,seg₂,...,seg_p>表示一条中医临床记录x的对应的块的分割形式，表示将x共划分为p块，令seg_k表示S中的第k块分割的形式化表示，用来表示该块是症状名或不是症状名，seg_k由三元组<u_k,v_k,s_k>构成，其中u_k表示文字块seg_k在临床记录实例x中的开始位置，v_k表示文字块seg_k在临床记录实例x中的结束位置，s_k表示在u_k至v_k之间的中文字串对应的标注类标“B”或“O”。

在识别和规范化联合模型中，症状名的识别过程仍然是序列化标注的过程，对于其标注策略，我们定义标注序列为中医临床记录中的子句。与之前的序列标注不同，在半马尔可夫条件随机场中，标注的单元为中医临床记录中的潜在字串组合，任务是判断这些字串组合或可能的中医临床记录的分割是症状名或不是症状名，因此标注策略中的标注类标集我们定义为“BO”，即当前字串组合是症状名时则标注为“B”，如果不是则标注为“O”。

条件随机场(CRF)在识别中医临床症状名的过程中具有较高的性能，它能够引入对识别任务有帮助的上下文特征，并且可以有效的避免标注有偏问题，因此，考虑采用半马尔可夫条件随机场来构建识别模型，我们给出识别模型的表达形式(3.3)：

其中，

为归一化因子，ω_m表示全局特征g_m的权值，g_m表示二值全局特征函数，m∈[1,K]，K是全局特征g_m的数量，x表示一条临床记录实例，|s|为从x中识别出的症状名的总数，u_kv_ks_k与前文表示相同，s′表示所有对中医临床记录x的可能存在的分割形式。通过文字块sk与sk-1联系文字块两两之间的状态标签的联系，即考虑每一个文字块的前缀信息。采用半马尔可夫条件随机场进行中医临床症状名的整个识别过程可以形象的描述为图1所示过程。图中，X表示一条中医临床记录，S为记录X分割为3块，即S＝<seg₁,seg₂,seg₃>，根据上文定义seg₁＝<1,1,O>，seg₂＝<2,2,O>,seg₃＝<3,5,B>。

2、规范化模型

在识别模型中，我们将中医临床记录进行了分割，分割的结果是s＝<seg₁,seg₂,...,seg_p>，其中令seg_k表示S中的第k块分割的形式化表示，标识出了该块分割是症状名或者不是症状名。根据本文对中医临床症状名的规范化任务的描述，将规范化过程看作从中医临床症状名经过文本编辑操作后得到标准症状名的过程，我们可以将该过程形式化为：

其中y_k为规范化症状名，从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作有M种可能，f_l(y_k,seg_k,x)表示第l种可能的从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作，它是一个二值函数，为0时，表示seg_k与y_k之间不包含当前的编辑操作关系，为1时表明两者之间包含当前的文本编辑操作。

例如，对于中医临床症状名“上半身汗出”和中医标准症状名“上半身多汗”来说，f_l(y_k,seg_k,x)可能对应为“汗”到“多汗”插入操作。而μ_l对应于f_l(y_k,seg_k,x)的权值，文本编辑操作有很多中，但从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作只包含其中最可能的一组，因此，在全部可能的文本编辑操作中，不同的操作会具有不同的权值，例如，对于中医临床症状名“上半身汗出”和中医标准症状名“上半身多汗”来说，从“汗出”到“汗”的删除操作对于该转换过程来说，要比“汗出”到“多”的替换操作更符合实际情况，因为，在通常情况下，“汗”可以表示“汗出”(或“出汗”)的含义，而“汗出”和“多”没有替换的可能性。M即为所有seg_k与y_k之间的所有可能的文本编辑操作，即seg_k与y_k之间的可能的文字的对齐关系，例如，对于中医临床症状名“上半身汗出”和中医标准症状名“上半身多汗”来说，它们可以被拆分成：

"上半身汗出"＝{"上","上半",...,"半身汗出","上半身汗出"}和

"上半身多汗"＝{"上","上半",...,"半身多汗","上半身多汗"}

如此，我们可构建出两者之间的文本编辑操作关系(或对齐关系)：

{"上-上","上-上半",...,"半身汗出-上半身多汗"}。

为解决以上问题，我们可以很自然的将公式(3.2)中的规范化模型定义为一个多元回归问题，并用下式(3.4)表示：

其中，

为归一化因子，

y_k′表示所有的可能的规范化症状名。

3、联合模型的表达式

我们将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5)：

其中，Θ表示所有的参数ω_m和μ_l的集合，S为症状名块集合，Y为标准症状名集合，X为临床记录集合，其余符号均与上文给出的定义相同。

我们的最终任务就是根据给定训练数据集

学习一组最优的参数Θ，使得最终的中医症状名识别和规范化结果最优。其中N为训练数据集中包含的带标注的中医临床数据的数目，根据式3.5，我们可以考虑采用L-BFGS进行最优参数的优化学习过程，具体的参数估计方法见下述的参数估计。

4、参数估计

根据Sunita Sarawagi,William W.Cohen.发表的半马尔可夫条件随机场信息提取文献，我们将公式(3.4)表达成其对数似然形式(3.5)：

我们的目标是找到一组最优的Θ可以最大化L(Θ)，其中Θ＝M+Ω，M为参数μ的集合，Ω为参数ω的集合。公式(3.5)是凸函数，因此可以利用梯度下降算法(或其它相关的算法)找到其全局最优解，这里我们根据D.C.Liu,J.Nocedal.发表的大尺度优化的有限记忆BFGS方法，采用L-BFGS算法。对L(Θ)求梯度，等价于对其中包含的如下四部分分别求梯度：

式(3.6)、(3.7)、(3.8)和(3.9)的梯度分别为：

/>

其中，梯度

中需要枚举所有可能的s”_n，采用朴素的方法将使得运算性能极低，这里我们可以采用动态规划算法以提高其计算效率，具体推倒过程参见文献MichaelCollins发表的正向向后算法。/>

整个识别规范化联合过程如图2所示。

5、实验验证

本发明将中医临床记录中症状名的规范化过程与识别过程联合建模，以期达到弥补由于症状名的不规范化问题而导致对组合症状名识别不准确的问题。下面给出了对该模型的初步验证，采用半马尔可夫条件随机场完成识别任务时采用的特征是字的一元组、二元组、三元组以及临床记录中字的位置信息特征，抽取特征的窗口(CWS)定为3。将规范化过程看作从中医临床症状名经过文本编辑操作后得到标准症状名的过程，中文词的长度约为2，而加入三元组可以在其中包含其它有用信息在其中，例如“前缀”、“后缀”等信息在中医临床症状名规范化中具有较高价值的特征，因此在本实验中采用最大熵模型完成对识别的症状名进行规范化时采用的特征为标准症状名与临床症状名之间的字的一元组、二元组和三元组的对齐关系。而中医临床记录具有简短的特点，因此有价值的判别信息一般不会与当前判别对象太远，因此，我们还考虑引入上下文窗口为3内的字的一元组、二元组和三元组为附加特征，帮助我们进行症状名的规范化。

5.1实验数据

为了验证针对中医临床记录领域特点提出的对序列标注策略改进的改进的合理性、采用的特征的有效性以及使用的各序列标注模型在完成中医临床记录中症状名的识别任务的特性，首先我们构建了一个实验用的标准数据集,该数据集(命名为CSSNMD)由中医临床症状名和标准症状名对组成。在CSSNMD中，共包含4465种中医临床症状名，这些中医临床症状名来源于一个临床记录数据集，该临床记录数据集是由中医专家在日常的临床诊断过程中收集整理得到的。另外，在CSSNMD中包含947种中医标准症状名，这些中医标准症状名来源于“2008四君子中医标准数据集”。CSSNMD中的中医临床症状名和标准症状名之间的匹配关系是由中医专家人工确定的。以CSSNMD数据集所用的症状名规范化数据集(Diagnostic项)为基础，该数据集由中医临床症状名和标准症状名对组成。数据来源于一个实际的中医临床记录数据集，该数据集是由中医专家在2006年4月至2008年6月间的日常诊断过程中收集的，其中包含11613条临床记录(样例数据如图3所示)。

(1)我们邀请了两名中医专家，让他们根据事先定义的标注准则(具体内容见附录1，该准则由标注者和作者在标注之前共同商议确定)以及他们对标注准则的理解，凭借他们的经验知识，分别将我们实验用的中医临床记录数据集中包含的全部中医症状名标识出来。

标注任务完成后，我们对两者的标注结果用度量标注结果一致性的指标Kappa度量值(或称为“Inter-Annotator Agreement”度量)进行了评价，评价的结果为0.84。该结果基本落在“几乎完美匹配区间”(“the almost perfect agreement interval”)或“极好的一致区间”(“the excellent agreement interval”)。

(2)在我们的实验中，只有那些被两名中医专家均认同的症状名才被保留在最终的标准实验数据集中，这些症状名将被标签“B”、“I”和“E”标识出来。同时，其他的不被两者一致认同的症状名将被看作是非症状名，并于其他非症状名内容一并，用标签“O”在最终的标准实验数据集中标注出来。

(3)为了简便，我们还对最终的标准数据集做了一些后处理操作。最终的标准实验数据集中包含的数字(如整数、小数、分数等)被全部统一的用英文字母“N”代替，而标点符号则统一使用英文字母“P”替换。这些字符“N”和“P”均被看作非症状名并用标签“O”在最终的标准实验数据集中标识出来。

我们将该构建的标准实验数据集(用CRD-BIEO表示)随机的分成两部分。一部分包含3483条临床记录(大约是原数据集的30％)，该部分数据将作为训练有监督序列标注分类器使用。另一部分包含8130条临床记录(大约是原数据集的70％)，该部分数据将作为测试数据集，用于评判各方法的有效性。

我们的实验任务就是利用前文所述的字面相似度方法，将CSSNMD中包含的4465种中医临床症状名，自动的规范化为在947种中医标准症状名中最可能的一个标准症状名。如果在最终的规范化结果中，有两个或两个以上的中医标准症状名与一个中医临床症状名具有相同的最大的字面相似度值，那么，我们将从这些中医标准症状名中，随机选取一个作为该中医临床症状名的标准化形式。图4给出了CSSNMD的样例数据。

那些不能被规范化的症状名标记为“NS”(表示不能规范的症状名)，而非症状名的一般文本被标为“NAN”。如此，我们构建出本实验中将使用到的训练数据集和测试数据集(如图5所示)。

实验中的训练和测试数据集的具体信息如表4.1所示。

表4.1训练和测试数据集的相关信息

4.2评价方法

为验证对传统序列标注策略进行改进的方法的正确性及其价值，以及判别序列标注模型在完成中医症状名识别任务时借助的两种特征的有用性，我们设计了两组评价指标对最终的识别和标注结果进行评价。一组是症状名识别的准确率(P_rec)、召回率(R_rec)和F度量值(FM_rec)，它们的定义分别由下式(4.13)、(4.14)和(4.15)给出。采用中医临床症状名规范化结果的准确率(P_norm)、召回率(R_norm)和F度量值(FM_norm)来评判各规范化方法的好坏。它们的定义分别由下式(4.16)、(4.17)和(4.18)给出。

P_rec、R_rec和FM_rec用于对根据中医临床记录领域特点改进的序列标注策略、使用的序列标注模型、以及借助的特征(字的n元组特征和位置信息特征)进行整体性能的评价。它们的计算方式被定义如下：

/>

其中，|NSRC|表示从中医临床记录文本中正确识别的症状名的数量，|NSR|表示从中医临床记录文本中识别出的症状名的数量，|NS|是在测试数据集中包含的症状名的总数，即应该从测试数据集中识别出的症状名的数量。一个从中医临床记录中识别出的症状名是正确的，当且仅当该症状名其被序列标注模型标注出的标签与对应位置上的正确结果标签完全吻合。

其中，|CNS|表示中医临床症状名中被正确规范化的数量。|NS|表示在实验数据中，中医临床症状名被规范化的数量。|CSN|表示实验数据中应被规范化的中医临床症状名的数量。

在实验中，P_norm、R_norm和FM_norm不仅可以用于评价各字面相似性度量方法在中医临床症状名的规范化任务中的性能优劣，还可以用来衡量各字面相似性度量方法，在解决中医临床症状名的规范化问题时，对参数设定的敏感度。如果所采用的字面相似性度量方法取得的P_norm、R_norm和FM_norm随着参数的调整，不会产生明显的变化，那么，说明该方法在解决中医临床症状名规范化问题上具有较稳定的性能，并且还说明该方法中包含的特征γ适用于解决中医临床症状名规范化问题，这些特征能够将正确的和错误的规范化结果明显的加以区分。

4.3实验结果

表4.2联合识别和规范化模型取得的中医症状名识别结果

	P_rec	R_rec	FM_rec
				精确识别结果	90.50％	91.52％	91.01％
粗糙识别结果	94.71％	95.78％	95.25％

表4.3联合识别和规范化模型取得的中医症状名规范化结果

	P_norm	R_norm	FM_norm
				状名规范化结果	47.53％	70.66％	56.83％

表4.2、表4.3给出了利用联合识别模型进行中医临床症状名识别所获得的结果。采用联合模型取得的FM_rec结果为91.01％(对应的P_rec结果为90.51％，R_rec的结果为91.52％)。尽管在识别性能上有所降低，但是，通过对结果的观察，采用联合识别和规范化模型取得的结果在组合症状名的识别结果上有所提升，例如，在采用联合识别和规范化模型取得的结果中，形如“苔薄黄略腻”的组合症状名能够被准确的识别出来，而单一的识别方法中就无法识别。与单一的识别方法相比，联合识别和规范化模型能够有效的识别那些较长的中医症状名(见图6、图7和图8所示结果)。在症状名长度大于4时，采用本文提出的联合症状名识别和规范化模型能够取得比单一使用CRF的FM_rec结果要高。这些结果说明了，通过对中医症状名的识别和规范化过程进行联合建模，能够解决有关“由于症状名的不规范化现象导致组合症状名的识别效果不佳”的问题。

以上给出的实施例是实现本发明较优的例子，本发明不限于上述实施例。本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于半马尔可夫的联合识别和规范化中医症状名的方法，其特征在于，对于待识别的中医临床记录x，构建一个识别和规范化联合模型，完成从x中识别所有症状名s并将它们规范化成对应的标准症状名y，包括以下操作：

1)所构建的识别和规范化联合模型为：

其中，

为归一化因子，ω_m表示全局特征g_m的权值，g_m表示二值全局特征函数，m∈[1,K]，K是全局特征g_m的数量，x表示一条临床记录实例，|s|为从x中识别出的症状名的总数；令s＝<seg₁,seg₂,...,seg_p>表示一条中医临床记录x的对应的块的分割形式，表示将x共划分为p块，令seg_k表示S中的第k块分割的形式化表示，用来表示该块是症状名或不是症状名，seg_k由三元组<u_k,v_k,s_k>构成，其中u_k表示文字块seg_k在临床记录实例x中的开始位置，v_k表示文字块seg_k在临床记录实例x中的结束位置，s_k表示在u_k至v_k之间的中文字串对应的标注类标“B”或“O”，s'表示所有对中医临床记录x的可能存在的分割形式；考虑每一个文字块的前缀信息，通过文字块s_k与s_k-1建立文字块两两之间的状态标签的联系；当前字串组合是症状名时则标注为“B”，如果不是则标注为“O”；

其中，

为归一化因子，/>

为中医临床症状名经过文本编辑操作后得到标准症状名的过程的形式化，其中y_k为规范化症状名，从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作有M种可能，f_l(y_k,seg_k,x)表示第l种可能的从中医临床症状名seg_k到中医标准症状名y_k的文本编辑操作，为0时表示seg_k与y_k之间不包含当前的编辑操作关系，为1时表明两者之间包含当前的文本编辑操作；y_k'表示所有的可能的规范化症状名；

4)将公式(3.3)和(3.4)带回(3.1)得到最终的模型表达式(3.5)：