CN111460175A

CN111460175A - 一种基于snomed-ct的医学名词词典构造与拓展方法

Info

Publication number: CN111460175A
Application number: CN202010268546.0A
Authority: CN
Inventors: 江瑞; 傅卓然; 陈福沨
Original assignee: Fuzhou Institute Of Data Technology Co ltd
Current assignee: Fuzhou Institute Of Data Technology Co ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-07-28

Abstract

本发明公开一种基于SNOMED‑CT的医学名词词典构造与拓展方法，将目标文本进行中文分词从而获得每个句子之中的词语。其次，利用语义依存算法对分词的句子进行分析从而获得名词短语。最终，以已有的规范化的医学词典SNOMED‑CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选，所选得的名词短语则被视为新的医学名词，从而组成词典。本发明解决同概念多表达、缩写、简称等问题，构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部，可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。

Description

一种基于SNOMED-CT的医学名词词典构造与拓展方法

技术领域

本发明涉及医疗系统数据处理技术领域，尤其涉及一种基于SNOMED-CT的医学名词词典构造与拓展方法。

背景技术

医护人员可通过病历进行分诊，确认后续所需进行的检查，疾病的诊断，以及判断最终所需的治疗。但是目前我国在医疗产业1多重问题，最为紧迫的则为医护人员短缺，医疗资源分配不均，以及大量的误诊案例，仅在临床护理当中每年平均约有5700万病例被误诊，总误诊率高达27.8％。

目前在诊断的过程中有大量的病历需要人工进行阅读、理解、分析以及做出最终的判断。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高，需要分析的病历数量成倍增长，医生的工作量也急剧增高，需要增加更多人员来应对更大量的诊断需求。然而我国目前平均每476人拥有一位医生，医生缺口达到9万多人，并且面临着技术水平参差不一，医疗资源分配不均匀等问题。优质医疗资源全部集中在大城市，而村镇人口经常面临无法在本地诊治常见病之外的疾病，为诊断的进一步发展带来了极大的困难。智能自动诊断以及辅助诊断的引入则可缓解我国在此方面所面临的难题。智能辅助诊断技术可大大提高诊断的速度和效率，并可在一定程度上缓解医疗资源分配不均的问题。智能辅助诊断技术依赖于自然语言处理技术，而自然语言处理则包括命名实体识别、关系提取、实体对齐等模块。这些模块在最基础层面则都依赖于一个或多个标准医学词表。由于语言的多样性表达目前现有的标准化词表并不能完全覆盖文本中所出现的大部分词汇。

发明内容

本发明的目的在于提供一种基于SNOMED-CT的医学名词词典构造与拓展方法。

本发明采用的技术方案是：

一种基于SNOMED-CT的医学名词词典构造与拓展方法，其包括以下步骤：

步骤1，获取原始医疗文本进行中文分词以获得每个句子之中的词语；

步骤2，利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表；

步骤3，在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算，相似度Sim(t_c,t_m)的计算公式如下：

其中，t_c代表备选词，t_m代表SNOMED中的参考词，Sim_st(t_c,t_m)表示t_c和t_m两者的笔划相似度，Sim_py(t_c,t_m)表示t_c和t_m两者的拼音相似度，Sim_ss(t_c,t_m)表示t_c和t_m两者的最大子字符串相似度；

步骤4，将备选词语表中相似度大于设定阈值的词汇录入词典，依次迭代形成自定义医学词典。

进一步地，步骤1中采用结巴分词算法对原始医疗文本进行分词。

进一步地，步骤2的具体步骤为：

步骤2.1，利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签；

步骤2.2，找出文本里所存在的所有名词短语形成备选词语表，名词短语由一个名词作为根，并包含全部通过定中关系与之相连接的词而形成。

进一步地，步骤3中笔划相似度的计算步骤如下：

步骤3.1.1，对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码,第一个维度代表字的结构，第二到五维代表四角编码，第六维代表笔划；

步骤3.1.2，计算词语的六维笔划特征码的每个维度p_i的相似度

相似度

的计算公式如下：

其中，同一维度上的每个编码分别对应一个数值，其中字的结构维度

四角编码维度

以及笔划维度

为备选词的第i维的值，

为SNOMED参考词的第i维的值，max(p_i)为第i个维度可取的最大值，比如在第三个维度，max(p₃)＝9。(第三维是p₃对吗？)

步骤3.1.3，计算待匹配词语和目标词语的字符相似度

字符相似度

计算公式如下：：

步骤3.1.4，计算每对词之间的笔划相似度则为：

其中，t_c代表备选词，t_m代表SNOMED中的参考词，Len(t_m)表示参考词t_m的字的个数。

进一步地，步骤3中拼音相似度的计算步骤如下：

步骤3.2.1，对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码，三维分别为韵母、声母和声调；每一维度根据对应的韵母、声母或声调不同赋予不同数值；

步骤3.2.2，计算词语中三维拼音特征码的每个维度p_i的相似度

相似度

的计算公式如下：

其中，同一维度上的每个编码分别对应一个数值，其中韵母维度

声母维度

以及声调维度

为备选词的第i维的值，

为SNOMED参考词的第i维的值，max(p_i)为第i个维度可取的最大值，

步骤3.2.3，计算待匹配词语和目标词语基于三维拼音特征码的字符相似度

字符相似度

计算公式如下：：

步骤3.2.4，计算每对词之间的拼音相似度则为：

进一步地，步骤3中最大子字符串相似度采用现有的计算公式计算，

其中，t_c代表备选词，t_m代表SNOMED中的参考词，LCS代表最大相似子字符串，Len代表字符串长度。

进一步地，步骤4中的设定阈值取值为0.9。

本发明采用以上技术方案，首先，将目标文本进行中文分词从而获得每个句子之中的词语。其次，利用语义依存算法对分词的句子进行分析从而获得名词短语。最终，以已有的规范化的医学词典SNOMED-CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选，所选得的名词短语则被视为新的医学名词，从而组成词典。本发明解决同概念多表达、缩写、简称等问题，构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部，可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法的流程示意图；

图2为本发明步骤1中文分词的切割示意图；

图3为本发明语义依存分析示意图；

图4为本发明六维笔划特征码示意图；

图5为本发明三维拼音特征码示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面将结合附图，对本申请中的技术方案进行描述。

为解决同概念多表达、缩写、简称等问题。本发明旨于构造覆盖面更广的基本医学术语词典。作为自然语言处理的第一部，可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。

如图1至图5之一所示，本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法，其包括以下步骤：

具体地，由于中文是象形文字，所以中文文本是以字成句，而拉丁语系中以词成句。在基于文本的基础上抽取医疗词汇则需要对原始文本进行分词处理。利用结巴分词算法对原始医疗文本进行分词，如图2所示，将一句话切割至粒度最小的词串。

步骤2，利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表；进一步地，步骤2的具体步骤为：

具体地，因为医学名词通常较为复杂并且由多个短词所组成，所以需要依赖语义依存分析算法而识别名词短语从而构成备选医学名词列表。利用hanlp语义依存分析算法对原始文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签。

如图3所示，当获得词性标注以及语义关系后，任务转化为找出文本里所存在的所有名词短语。名词短语由一个名词作为根，并包含全部通过定中关系与之相连接的词而形成。最终，这些名词短语形成备选词语表。

具体地，在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算以决定每个是否是医学相关词语。此处相似度计算由三部分组成，第一部分为笔划相似度，第二部分为拼音相似度，第三部分为最长子字符串相似度。计算备选名词与基础词典中词语的相似度，并形成最终的自定义医学词表。

进一步地，步骤3中笔划相似度的计算步骤如下：

步骤3.1.1，对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码。

具体地，字符笔画相似度的计算为原创方法。现有的算法通常只考虑字的结构相似度而未具体到笔画相似度，此模块可捕捉到更低层次的细节。为解决常见错别字的问题，例如脉搏(脉博)，痉挛(痉孪)，汉字笔画层面的相似度需要被考虑。汉字的构字相似度是以三个特征来衡量的，结构，四角编码，和笔画数。这三个特征形成一个6维特征，如图4所示，第一个维度代表字的结构，第二到五维代表四角编码，第六维代表笔划。第一维度的值的定义如表1所示。第六维度由0至Z代表笔画数，35划以上也皆由Z代表。

表1：字形结构编码表

步骤3.1.2，字与字之间的相似度则取决于两个特征向量的差，计算词语的六维笔划特征码的每个维度p_i的相似度

相似度

的计算公式如下：

四角编码维度

以及笔划维度

为备选词的第i维的值，

为SNOMED参考词的第i维的值，max(p_i)为第i个维度可取的最大值比如在第三个维度，max(p₃)＝9。

步骤3.1.3，计算待匹配词语和目标词语的字符相似度

字符相似度

计算公式如下：：

步骤3.1.4，计算每对词之间的笔划相似度则为：

进一步地，为解决南北方言中前后鼻音的差异，an,en,in,和ang,eng,ing的混淆，L和N的混淆等问题，以及拼写时声调混淆所导致的错别字，字级别的拼音相似度需要被考虑。

本发明提出了拼音相似度的原创计算方法，拼音相似度的计算步骤如下：

步骤3.2.1，如图5所示，对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码，三维分别为韵母、声母和声调；每一维度根据对应的韵母、声母或声调不同赋予不同数值；

具体地，一个汉字是由韵母+声母+声调3个部分组成，韵母与声母的值的定义如表2和表3所示。声调的编码则为一声二声三声四声分别对应0、1、2、3。

表2：韵母编码表

表3：声母编码表

相似度

的计算公式如下：

声母维度

以及声调维度

为备选词的第i维的值，

字符相似度

计算公式如下：：

步骤3.2.4，计算每对词之间的拼音相似度则为：

综上所述，本发明的拼音相似度的计算对声母韵母编码进行了重新定义，并且每个维度之间的相似度计算为原创。相较于现有方法，本算法的优势是通过计算每个维度间绝对差可以捕捉到发音相似的差距信息，比如ai和ei发音相似的韵母之间的绝对差则较小，而er和ai发音相差较大的韵母之间的绝对差则相对较大。

进一步地，步骤3中最大子字符串相似度的计算方法为现有方法，而因其较为简单和计算速度快的优势被广泛应用。为解决简写等问题，最大子字符串相似度为，

其中，t_c代表备选词，t_m代表SNOMED中的参考词，LCS代表最大相似子字符串，例如“头孢呋辛”与“头孢拉定”的LCS为“头孢”，Len代表字符串长度。

步骤4，将备选词语表中相似度大于设定阈值的词汇录入词典，依次迭代形成自定义医学词典。作为一种实施方式，步骤4中的设定阈值取值为0.9。