CN109033080B

CN109033080B - 基于概率转移矩阵的医疗术语标准化方法及系统

Info

Publication number: CN109033080B
Application number: CN201810762295.4A
Authority: CN
Inventors: 赵蒙海; 严志华
Original assignee: Shanghai Jinshida Weining Software Technology Co ltd
Current assignee: Shanghai Jinshida Weining Software Technology Co ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2023-03-24
Anticipated expiration: 2038-07-12
Also published as: CN109033080A

Abstract

本发明公开了一种基于概率转移矩阵的医疗术语标准化方法及系统，为了实现医疗领域内通用短文本(缩写、误写、日常表达等)到医学标准术语的映射而设计。本发明基于概率转移矩阵的医疗术语标准化方法包括：医学术语库构建；医学切字切词和词性标注；构建基于字词的概率转移矩阵框架；字词向量模型构建；计算概率矩阵；待匹配术语概率计算。本发明能实现医疗领域各类疾病对应到ICD10标准编码的快捷、高效、准确的映射。

Description

基于概率转移矩阵的医疗术语标准化方法及系统

技术领域

本发明涉及机器学习领域，具体涉及一种基于概率转移矩阵的医疗术语标准化方法及系统。

背景技术

临床医学术语是医疗数据的重要组成部分，术语的标准化和互换性是医疗数据交换和共享的关键。医血术语来源渠道众多、书写各异，同一个概念在不同的体系表述各有差异。纵使在同一医疗机构体系内，不同的医务人员或同一医务人员在不同的场合、时间对同一概念的表述也有差异。因此，为了方便后续针对医疗文本的结构化处理、信息抽取、统计分析与知识挖掘，以及医疗数据的共享和交换，各类表述与标准术语间的精确映射就显得格外重要。

当前大量异构的医疗术语主要通过人工进行映射和转换得以标准化，这种方式耗费时间长、成本高、重复利用率低。也有部分研究和机构通过建立庞大术语库与关键词库，编写大量正则表达式，将疾病术语自动化编码为ICD10。但此类方法前期需耗费大量人力成本，且针对未纳入术语库中的医疗文本映射效果非常差。

也有专家学者尝试通过自动化编码的方式提高编码的效率，如鲍庆升，程绍银，蒋凡提出基于词汇的文本相似性编码方法，这种方法尝试将医疗疾病映射到ICD10编码的亚目，取得79％的亚目准确性，但是这种方法不能克服常用缩写、以及常见医学用语等问题。

鉴于上述，本设计人，积极加以研究创新，以期创设一种基于概率转移矩阵的医疗术语标准化方法及系统，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种能有效将不规范的医学术语映射到标准的编码体系中，大提升医疗术语映射的准确度的基于概率转移矩阵的医疗术语标准化方法及系统。

本发明基于概率转移矩阵的医疗术语标准化方法，包括，

构建医学术语库；

对医学术语库中的医学术语进行切字切词和词性标注；

构建m×n矩阵H，矩阵列名代表字词的全集N，其中，n为医学术语库经过切词切字和去重的操作后的总字词量；M_i为每一行代表医学术语库中的一条术语；m为医学学术语库中术语条数；矩阵元素H_ij为字或词N_j对于专业术语M_i的转移概率；

采用word2vec的文本向量训练方式，通过引入大量的医学文本进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系；

计算矩阵中的概率

其中m_ik代表专业术语M_i经过切字切词后形成的字词集合的第k个元素的语义向量，n_j代表列名N_j的语义向量，将H_ij值填入概率矩阵H中，得到最终的概率矩阵；/>

对于待映射疾病名称X，进行切字切词操作后，形成的其字词集合x＝(x₁，...，x_d)，通过N∩x可获得疾病名称X参与计算的字词子集，通过下式获得对应映射结果

进一步地，采用最长匹配法进行分词，在分词时需引入医学词典，选用全分词模式，加入停用词库，引入医学词性标注。

进一步地，采用ryord2vec的文本向量训练方式，通过引入医学文本进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系。

本发明基于概率转移矩阵的医疗术语标准化系统，包括：

医学术语库，存储医学术语在ICD10标准的基础上的别名和简写，并形成术语和ICD10编码的对应关系；

医学切字切词和词性标注单元，用于对医学术语库中的医学术语进行切字切词和词性标注；

概率转移矩阵框架构建单元，用于构建m×n矩阵H，矩阵列名代表字词的全集N，其中，n为医学术语库经过切词切字和去重的操作后的总字词量；M_i为每一行代表医学术语库中的一条术语；m为医学学术语库中术语条数；矩阵元素H_ij为字或词N_j对于专业术语M_i的转移概率；

字词向量模型构建单元，用于采用word2vec的文本向量训练方式，通过引入大量的医学文本进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系；

计算概率矩阵单元，用于计算矩阵中的概率

其中m_ik代表专业术语M_i经过切字切词后形成的字词集合的第k个元素的语义向量，n_j代表字或词N_j的语义向量，将H_ij值填入概率矩阵H中，得到最终的概率矩阵；

待匹配术语概率计算单元，用于对于待映射疾病名称X，进行切字切词操作后，形成的其字词集合x＝(x₁，...，x_d)，通过N∩x可获得疾病名称X参与计算的字词子集，通过下式获得对应映射结果

借由上述方案，本发明基于概率转移矩阵的医疗术语标准化方法及系统，至少具有以下优点：

1.本发明将通用用医学术语(缩写、别名等)融合进概率矩阵模型，显著提升了概率模型的准确性；同时可通过不断扩充术语库来提升准确率。

2.本发明结合字词向量分析，充分考虑中文语义特征。通过对大量的医学文本训练，充分引入外部医学知识，构建高维字词向量体系，为字词相似度计算提供了基础。

3.本发明充分考虑中文组词的特点，对待映射术语和标准术语分别进行字级别和词级别的拆分，共同进入概率转移矩阵。在此引入字级别的术语拆分方式将大大提高模型对缩写、误写的医疗术语映射能力。上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明基于概率转移矩阵的医疗术语标准化方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明在ICD10标准疾病名称的基础上添加大量经过医学专家审核的医学术语作为映射的标准库，运用专业的医学分词工具，构建基于字词的概率转移矩阵相似度算法。极大提升医疗术语映射的准确度，能有效将不规范的医学术语映射到标准的编码体系中。

实施例1

本发明一种基于概率转移矩阵的医疗术语标准化方法的一较佳实施例，包括：

构建医学术语库：由于大量疾病名称存在别名，非医学专业背景人员无法从字面意义判别医学同义词，因此在计算字词级别的相似度时，医学术语库仍需在ICD10标准的基础上收集它们的别名和简写，并形成术语和ICD10编码的对应关系，如下表样例所示：

术语集合	ICD10疾病名称	ICD10编码
			甲亢	甲状腺功能亢进	E05.901
甲状腺功能亢进	甲状腺功能亢进	E05.901
			1型糖尿病	1型糖尿病	E10.900
胰岛素依赖型糖尿病	1型糖尿病	E10.900

对医学术语库中的医学术语进行切字切词和词性标注；

构建m×n矩阵H，矩阵列名代表字词的全集N，即医学术语库经过切词切字和去重的操作后，总字词量为n。矩阵行名代表医学术语库M，即每一行代表医学术语库中的一条术语，医学术语库中包含m条术语。矩阵元素H_ij表示字或词N_j对于术语M_i的转移概率。

通过引入大量的医学文本进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系。字词向量反应的是字词在语义空间中的位置关系，空间中的余弦距离象征着对应字词间的语义相似度。本方案采用word2vec的文本向量训练方式，

计算矩阵中的概率

其中m_ik代表专业术语M_i经过切字切词后形成的字词集合的第k个元素的语义向量，n_j代表列名N_j的语义向量。将H_ij值填入概率矩阵H中，最终的概率矩阵样例如下(样例中数字为演示数值)：

	高	血	压	糖	高血压	高血糖	血压	血糖
									高血糖	1	1	0.12	1	0.35	1	0.22	1
高血压	1	1	1	0.09	1	0.35	1	0.17

对于待映射疾病名称X，进行切字切词操作后，形成的其字词集合x＝(x₁，...，x_d)，通过N∩x可获得疾病名称X参与计算的字词子集。通过下式即可获得对应映射结果

/>

以下举例进行说明：

待匹配术语为‘高血压1级’，标准术语矩阵为步骤5中的样例矩阵，那么切字切词的结果为{高，血，压，1，级，高血压，血压，1级}，经过N∩x操作后，输入模型的集合为：{高，血，压，高血压，血压}。则有：

所以i^*＝2，所以

为‘高血压’，即在标准术语库中仅存在‘高血压’和‘高血糖’两个词条的情况下，‘高血压1级’应映射至标准术语‘高血压’上。

实施例2

本实施例基于概率转移矩阵的医疗术语标准化方法，在实施例1的基础上，由于ICD10标准疾病名称中，大多数都以短语的形式存在，即可进行更细力度的切分，如‘甲状腺功能亢进’可被进一步切分为{甲状腺，功能，亢进}三个词语。细粒度的分词可使模型对书写错误的容忍度大幅上升，如：‘甲壮腺功能亢进’，虽然只有一个错别字‘壮’，但若将术语看成整体，计算机将认为‘甲壮腺功能亢进’和‘甲状腺功能亢进’是完全不同的术语；若进行分词后对比相似度，二者从词语重复度的角度考虑仍有66％的相似度，大大提高了模型对别字的容忍度。为进一步提升模型的容忍度，我们引入切字的方法，即‘甲状腺功能亢进’最终将以{甲，状，腺，功，能，亢，进，甲状腺，功能，亢进}的形式进入模型。

分词系统选用jieba分词，由于医学词汇中有歧义的分词情况较少，可直接选用最长匹配法进行分词；通用的分词工具对医学领域的分词具有一定的局限性，为提升后续模型的准确性，在分词时需引入医学词典；为保证分词力度够细，选用全分词模式；为降低噪音符号对对码准确率的影响，加入停用词库；由于部分类型的词汇，如器官词汇对疾病术语的重要性较高，因此引入医学词性标注，方便后续对字词权重的调整。

本实施例中，字词向量反应的是字词在语义空间中的位置关系，空间中的余弦距离象征着对应字词间的语义相似度。本方案采用word2vec的文本向量训练方式，通过引入大量的医学文本进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系。

实施例3

本实施例基于概率转移矩阵的医疗术语标准化系统，用于实施例上述实施例1或2包括：

概率转移矩阵框架构建单元，用于构建m×n矩阵H，矩阵列名代表字词的全集N，其中，n为医学术语库经过切词切字和去重的操作后的总字词量；M为每一行代表医学术语库中的一条术语；m为医学学术语库中术语条数；矩阵元素H_ij为字或词N_j对于术语M_i的转移概率；

字词向量模型构建单元，用于进行字向量和词向量的训练，生成高维的字词向量，以反应字词在语义向量空间中的相对位置关系；

计算概率矩阵单元，用于计算矩阵中的概率

其中m_ik代表专业术语M_i经过切字切词后形成的字词集合的第k个元素的语义向量，n_j代表列名N_j的语义向量，将H_ij值填入概率矩阵H中，得到最终的概率矩阵；

上述各实施例，通过对某地市医保局25万条疾病诊断数据进行映射测试，在ICD10疾病亚目和细目的映射准确率能显著提升到88％以上。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于概率转移矩阵的医疗术语标准化方法，其特征在于，包括，

构建医学术语库，其中，医学术语库是存储医学术语在ICD10标准的基础上的别名和简写，并形成术语和ICD10编码的对应关系；

对医学术语库中的医学术语进行切字切词和词性标注；

计算矩阵中的概率

2.根据权利要求1所述的基于概率转移矩阵的医疗术语标准化方法，其特征在于，分词系统选用jieba分词，采用最长匹配法进行分词，在分词时需引入医学词典，选用全模式，加入停用词库，引入医学词性标注。

3.一种基于概率转移矩阵的医疗术语标准化系统，其特征在于，包括：

计算概率矩阵单元，用于计算矩阵中的概率