CN109033080B - 基于概率转移矩阵的医疗术语标准化方法及系统 - Google Patents
基于概率转移矩阵的医疗术语标准化方法及系统 Download PDFInfo
- Publication number
- CN109033080B CN109033080B CN201810762295.4A CN201810762295A CN109033080B CN 109033080 B CN109033080 B CN 109033080B CN 201810762295 A CN201810762295 A CN 201810762295A CN 109033080 B CN109033080 B CN 109033080B
- Authority
- CN
- China
- Prior art keywords
- word
- medical
- matrix
- term
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于概率转移矩阵的医疗术语标准化方法及系统,为了实现医疗领域内通用短文本(缩写、误写、日常表达等)到医学标准术语的映射而设计。本发明基于概率转移矩阵的医疗术语标准化方法包括:医学术语库构建;医学切字切词和词性标注;构建基于字词的概率转移矩阵框架;字词向量模型构建;计算概率矩阵;待匹配术语概率计算。本发明能实现医疗领域各类疾病对应到ICD10标准编码的快捷、高效、准确的映射。
Description
技术领域
本发明涉及机器学习领域,具体涉及一种基于概率转移矩阵的医疗术语标准化方法及系统。
背景技术
临床医学术语是医疗数据的重要组成部分,术语的标准化和互换性是医疗数据交换和共享的关键。医血术语来源渠道众多、书写各异,同一个概念在不同的体系表述各有差异。纵使在同一医疗机构体系内,不同的医务人员或同一医务人员在不同的场合、时间对同一概念的表述也有差异。因此,为了方便后续针对医疗文本的结构化处理、信息抽取、统计分析与知识挖掘,以及医疗数据的共享和交换,各类表述与标准术语间的精确映射就显得格外重要。
当前大量异构的医疗术语主要通过人工进行映射和转换得以标准化,这种方式耗费时间长、成本高、重复利用率低。也有部分研究和机构通过建立庞大术语库与关键词库,编写大量正则表达式,将疾病术语自动化编码为ICD10。但此类方法前期需耗费大量人力成本,且针对未纳入术语库中的医疗文本映射效果非常差。
也有专家学者尝试通过自动化编码的方式提高编码的效率,如鲍庆升,程绍银,蒋凡提出基于词汇的文本相似性编码方法,这种方法尝试将医疗疾病映射到ICD10编码的亚目,取得79%的亚目准确性,但是这种方法不能克服常用缩写、以及常见医学用语等问题。
鉴于上述,本设计人,积极加以研究创新,以期创设一种基于概率转移矩阵的医疗术语标准化方法及系统,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种能有效将不规范的医学术语映射到标准的编码体系中,大提升医疗术语映射的准确度的基于概率转移矩阵的医疗术语标准化方法及系统。
本发明基于概率转移矩阵的医疗术语标准化方法,包括,
构建医学术语库;
对医学术语库中的医学术语进行切字切词和词性标注;
构建m×n矩阵H,矩阵列名代表字词的全集N,其中,n为医学术语库经过切词切字和去重的操作后的总字词量;Mi为每一行代表医学术语库中的一条术语;m为医学学术语库中术语条数;矩阵元素Hij为字或词Nj对于专业术语Mi的转移概率;
采用word2vec的文本向量训练方式,通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系;
进一步地,采用最长匹配法进行分词,在分词时需引入医学词典,选用全分词模式,加入停用词库,引入医学词性标注。
进一步地,采用ryord2vec的文本向量训练方式,通过引入医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系。
本发明基于概率转移矩阵的医疗术语标准化系统,包括:
医学术语库,存储医学术语在ICD10标准的基础上的别名和简写,并形成术语和ICD10编码的对应关系;
医学切字切词和词性标注单元,用于对医学术语库中的医学术语进行切字切词和词性标注;
概率转移矩阵框架构建单元,用于构建m×n矩阵H,矩阵列名代表字词的全集N,其中,n为医学术语库经过切词切字和去重的操作后的总字词量;Mi为每一行代表医学术语库中的一条术语;m为医学学术语库中术语条数;矩阵元素Hij为字或词Nj对于专业术语Mi的转移概率;
字词向量模型构建单元,用于采用word2vec的文本向量训练方式,通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系;
借由上述方案,本发明基于概率转移矩阵的医疗术语标准化方法及系统,至少具有以下优点:
1.本发明将通用用医学术语(缩写、别名等)融合进概率矩阵模型,显著提升了概率模型的准确性;同时可通过不断扩充术语库来提升准确率。
2.本发明结合字词向量分析,充分考虑中文语义特征。通过对大量的医学文本训练,充分引入外部医学知识,构建高维字词向量体系,为字词相似度计算提供了基础。
3.本发明充分考虑中文组词的特点,对待映射术语和标准术语分别进行字级别和词级别的拆分,共同进入概率转移矩阵。在此引入字级别的术语拆分方式将大大提高模型对缩写、误写的医疗术语映射能力。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明基于概率转移矩阵的医疗术语标准化方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明在ICD10标准疾病名称的基础上添加大量经过医学专家审核的医学术语作为映射的标准库,运用专业的医学分词工具,构建基于字词的概率转移矩阵相似度算法。极大提升医疗术语映射的准确度,能有效将不规范的医学术语映射到标准的编码体系中。
实施例1
本发明一种基于概率转移矩阵的医疗术语标准化方法的一较佳实施例,包括:
构建医学术语库:由于大量疾病名称存在别名,非医学专业背景人员无法从字面意义判别医学同义词,因此在计算字词级别的相似度时,医学术语库仍需在ICD10标准的基础上收集它们的别名和简写,并形成术语和ICD10编码的对应关系,如下表样例所示:
术语集合 | ICD10疾病名称 | ICD10编码 |
甲亢 | 甲状腺功能亢进 | E05.901 |
甲状腺功能亢进 | 甲状腺功能亢进 | E05.901 |
1型糖尿病 | 1型糖尿病 | E10.900 |
胰岛素依赖型糖尿病 | 1型糖尿病 | E10.900 |
对医学术语库中的医学术语进行切字切词和词性标注;
构建m×n矩阵H,矩阵列名代表字词的全集N,即医学术语库经过切词切字和去重的操作后,总字词量为n。矩阵行名代表医学术语库M,即每一行代表医学术语库中的一条术语,医学术语库中包含m条术语。矩阵元素Hij表示字或词Nj对于术语Mi的转移概率。
通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系。字词向量反应的是字词在语义空间中的位置关系,空间中的余弦距离象征着对应字词间的语义相似度。本方案采用word2vec的文本向量训练方式,
高 | 血 | 压 | 糖 | 高血压 | 高血糖 | 血压 | 血糖 | |
高血糖 | 1 | 1 | 0.12 | 1 | 0.35 | 1 | 0.22 | 1 |
高血压 | 1 | 1 | 1 | 0.09 | 1 | 0.35 | 1 | 0.17 |
以下举例进行说明:
待匹配术语为‘高血压1级’,标准术语矩阵为步骤5中的样例矩阵,那么切字切词的结果为{高,血,压,1,级,高血压,血压,1级},经过N∩x操作后,输入模型的集合为:{高,血,压,高血压,血压}。则有:
实施例2
本实施例基于概率转移矩阵的医疗术语标准化方法,在实施例1的基础上,由于ICD10标准疾病名称中,大多数都以短语的形式存在,即可进行更细力度的切分,如‘甲状腺功能亢进’可被进一步切分为{甲状腺,功能,亢进}三个词语。细粒度的分词可使模型对书写错误的容忍度大幅上升,如:‘甲壮腺功能亢进’,虽然只有一个错别字‘壮’,但若将术语看成整体,计算机将认为‘甲壮腺功能亢进’和‘甲状腺功能亢进’是完全不同的术语;若进行分词后对比相似度,二者从词语重复度的角度考虑仍有66%的相似度,大大提高了模型对别字的容忍度。为进一步提升模型的容忍度,我们引入切字的方法,即‘甲状腺功能亢进’最终将以{甲,状,腺,功,能,亢,进,甲状腺,功能,亢进}的形式进入模型。
分词系统选用jieba分词,由于医学词汇中有歧义的分词情况较少,可直接选用最长匹配法进行分词;通用的分词工具对医学领域的分词具有一定的局限性,为提升后续模型的准确性,在分词时需引入医学词典;为保证分词力度够细,选用全分词模式;为降低噪音符号对对码准确率的影响,加入停用词库;由于部分类型的词汇,如器官词汇对疾病术语的重要性较高,因此引入医学词性标注,方便后续对字词权重的调整。
本实施例中,字词向量反应的是字词在语义空间中的位置关系,空间中的余弦距离象征着对应字词间的语义相似度。本方案采用word2vec的文本向量训练方式,通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系。
实施例3
本实施例基于概率转移矩阵的医疗术语标准化系统,用于实施例上述实施例1或2包括:
医学术语库,存储医学术语在ICD10标准的基础上的别名和简写,并形成术语和ICD10编码的对应关系;
医学切字切词和词性标注单元,用于对医学术语库中的医学术语进行切字切词和词性标注;
概率转移矩阵框架构建单元,用于构建m×n矩阵H,矩阵列名代表字词的全集N,其中,n为医学术语库经过切词切字和去重的操作后的总字词量;M为每一行代表医学术语库中的一条术语;m为医学学术语库中术语条数;矩阵元素Hij为字或词Nj对于术语Mi的转移概率;
字词向量模型构建单元,用于进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系;
上述各实施例,通过对某地市医保局25万条疾病诊断数据进行映射测试,在ICD10疾病亚目和细目的映射准确率能显著提升到88%以上。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (3)
1.一种基于概率转移矩阵的医疗术语标准化方法,其特征在于,包括,
构建医学术语库,其中,医学术语库是存储医学术语在ICD10标准的基础上的别名和简写,并形成术语和ICD10编码的对应关系;
对医学术语库中的医学术语进行切字切词和词性标注;
构建m×n矩阵H,矩阵列名代表字词的全集N,其中,n为医学术语库经过切词切字和去重的操作后的总字词量;Mi为每一行代表医学术语库中的一条术语;m为医学学术语库中术语条数;矩阵元素Hij为字或词Nj对于专业术语Mi的转移概率;
采用word2vec的文本向量训练方式,通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系;
2.根据权利要求1所述的基于概率转移矩阵的医疗术语标准化方法,其特征在于,分词系统选用jieba分词,采用最长匹配法进行分词,在分词时需引入医学词典,选用全模式,加入停用词库,引入医学词性标注。
3.一种基于概率转移矩阵的医疗术语标准化系统,其特征在于,包括:
医学术语库,存储医学术语在ICD10标准的基础上的别名和简写,并形成术语和ICD10编码的对应关系;
医学切字切词和词性标注单元,用于对医学术语库中的医学术语进行切字切词和词性标注;
概率转移矩阵框架构建单元,用于构建m×n矩阵H,矩阵列名代表字词的全集N,其中,n为医学术语库经过切词切字和去重的操作后的总字词量;Mi为每一行代表医学术语库中的一条术语;m为医学学术语库中术语条数;矩阵元素Hij为字或词Nj对于专业术语Mi的转移概率;
字词向量模型构建单元,用于采用word2vec的文本向量训练方式,通过引入大量的医学文本进行字向量和词向量的训练,生成高维的字词向量,以反应字词在语义向量空间中的相对位置关系;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762295.4A CN109033080B (zh) | 2018-07-12 | 2018-07-12 | 基于概率转移矩阵的医疗术语标准化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762295.4A CN109033080B (zh) | 2018-07-12 | 2018-07-12 | 基于概率转移矩阵的医疗术语标准化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033080A CN109033080A (zh) | 2018-12-18 |
CN109033080B true CN109033080B (zh) | 2023-03-24 |
Family
ID=64642231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810762295.4A Active CN109033080B (zh) | 2018-07-12 | 2018-07-12 | 基于概率转移矩阵的医疗术语标准化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033080B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN109739864B (zh) * | 2019-01-24 | 2021-03-23 | 易保互联医疗信息科技(北京)有限公司 | 人社数据采集及共享方法、计算机存储介质及计算机设备 |
CN109993227B (zh) * | 2019-03-29 | 2021-09-24 | 京东方科技集团股份有限公司 | 自动添加国际疾病分类编码的方法、系统、装置和介质 |
CN110349639B (zh) * | 2019-07-12 | 2022-01-04 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
CN110781646B (zh) * | 2019-10-15 | 2023-08-22 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN111046882B (zh) * | 2019-12-05 | 2023-01-24 | 清华大学 | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 |
CN111859951B (zh) * | 2020-06-19 | 2024-03-26 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN112329450A (zh) * | 2020-07-29 | 2021-02-05 | 好人生(上海)健康科技有限公司 | 一种保险医学编码映射字典表生产方法 |
CN112052667B (zh) * | 2020-09-27 | 2024-05-03 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现医学编码映射的方法、装置及设备 |
CN112307763B (zh) * | 2020-12-30 | 2021-04-06 | 望海康信(北京)科技股份公司 | 术语标准化方法、系统及相应设备和存储介质 |
CN112948360A (zh) * | 2021-01-26 | 2021-06-11 | 华院计算技术(上海)股份有限公司 | 一种基于字向量相似度的医疗发票条目名称标准化方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190538B2 (en) * | 2009-01-30 | 2012-05-29 | Lexisnexis Group | Methods and systems for matching records and normalizing names |
CN102955833B (zh) * | 2011-08-31 | 2015-11-25 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN106815209B (zh) * | 2015-11-30 | 2020-03-17 | 张海军 | 一种维吾尔文农业技术术语识别方法 |
CN106951415A (zh) * | 2017-04-01 | 2017-07-14 | 银联智策顾问(上海)有限公司 | 一种商户名称搜索方法和装置 |
-
2018
- 2018-07-12 CN CN201810762295.4A patent/CN109033080B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109033080A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033080B (zh) | 基于概率转移矩阵的医疗术语标准化方法及系统 | |
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN109214003B (zh) | 基于多层注意力机制的循环神经网络生成标题的方法 | |
CN103154936B (zh) | 用于自动化文本校正的方法和系统 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
US8775433B2 (en) | Self-indexing data structure | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
Murthy et al. | Language identification from small text samples | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN111460175A (zh) | 一种基于snomed-ct的医学名词词典构造与拓展方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN111785387A (zh) | 一种使用Bert做疾病标准化映射分类的方法及系统 | |
Quirós et al. | From HMMs to RNNs: computer-assisted transcription of a handwritten notarial records collection | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Shashirekha et al. | CoLI-machine learning approaches for code-mixed language identification at the word level in Kannada-English texts | |
CN112215007B (zh) | 基于leam模型的机构命名实体归一化方法和系统 | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
CN113408302A (zh) | 一种机器翻译结果的评估方法、装置、设备及存储介质 | |
CN113990420A (zh) | 一种电子病历命名实体识别方法 | |
Dandapat | Part-of-Speech tagging for Bengali | |
Varga | Domain adaptation for multilingual neural machine translation | |
CN111275081A (zh) | 基于贝叶斯概率模型实现多来源数据链接处理的方法 | |
Born | Applications of natural language processing to archaeological decipherment: A survey of proto-Elamite | |
Kalajdjieski et al. | Recent Advances in SQL Query Generation: A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhao Menghai Inventor after: Yan Zhihua Inventor before: Zhao Menghai Inventor before: Yan Zhihua |
|
GR01 | Patent grant | ||
GR01 | Patent grant |