CN111460175A - 一种基于snomed-ct的医学名词词典构造与拓展方法 - Google Patents

一种基于snomed-ct的医学名词词典构造与拓展方法 Download PDF

Info

Publication number
CN111460175A
CN111460175A CN202010268546.0A CN202010268546A CN111460175A CN 111460175 A CN111460175 A CN 111460175A CN 202010268546 A CN202010268546 A CN 202010268546A CN 111460175 A CN111460175 A CN 111460175A
Authority
CN
China
Prior art keywords
words
similarity
dimension
snomed
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010268546.0A
Other languages
English (en)
Inventor
江瑞
傅卓然
陈福沨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Institute Of Data Technology Co ltd
Original Assignee
Fuzhou Institute Of Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Institute Of Data Technology Co ltd filed Critical Fuzhou Institute Of Data Technology Co ltd
Priority to CN202010268546.0A priority Critical patent/CN111460175A/zh
Publication of CN111460175A publication Critical patent/CN111460175A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于SNOMED‑CT的医学名词词典构造与拓展方法,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED‑CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。

Description

一种基于SNOMED-CT的医学名词词典构造与拓展方法
技术领域
本发明涉及医疗系统数据处理技术领域,尤其涉及一种基于SNOMED-CT的医学名词词典构造与拓展方法。
背景技术
医护人员可通过病历进行分诊,确认后续所需进行的检查,疾病的诊断,以及判断最终所需的治疗。但是目前我国在医疗产业1多重问题,最为紧迫的则为医护人员短缺,医疗资源分配不均,以及大量的误诊案例,仅在临床护理当中每年平均约有5700万病例被误诊,总误诊率高达27.8%。
目前在诊断的过程中有大量的病历需要人工进行阅读、理解、分析以及做出最终的判断。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高,需要分析的病历数量成倍增长,医生的工作量也急剧增高,需要增加更多人员来应对更大量的诊断需求。然而我国目前平均每476人拥有一位医生,医生缺口达到9万多人,并且面临着技术水平参差不一,医疗资源分配不均匀等问题。优质医疗资源全部集中在大城市,而村镇人口经常面临无法在本地诊治常见病之外的疾病,为诊断的进一步发展带来了极大的困难。智能自动诊断以及辅助诊断的引入则可缓解我国在此方面所面临的难题。智能辅助诊断技术可大大提高诊断的速度和效率,并可在一定程度上缓解医疗资源分配不均的问题。智能辅助诊断技术依赖于自然语言处理技术,而自然语言处理则包括命名实体识别、关系提取、实体对齐等模块。这些模块在最基础层面则都依赖于一个或多个标准医学词表。由于语言的多样性表达目前现有的标准化词表并不能完全覆盖文本中所出现的大部分词汇。
发明内容
本发明的目的在于提供一种基于SNOMED-CT的医学名词词典构造与拓展方法。
本发明采用的技术方案是:
一种基于SNOMED-CT的医学名词词典构造与拓展方法,其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
Figure BDA0002442263480000011
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。
进一步地,步骤1中采用结巴分词算法对原始医疗文本进行分词。
进一步地,步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
进一步地,步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划;
步骤3.1.2,计算词语的六维笔划特征码的每个维度pi的相似度
Figure BDA0002442263480000021
相似度
Figure BDA0002442263480000022
的计算公式如下:
Figure BDA0002442263480000023
其中,同一维度上的每个编码分别对应一个数值,其中字的结构维度
Figure BDA0002442263480000024
四角编码维度
Figure BDA0002442263480000025
以及笔划维度
Figure BDA0002442263480000026
Figure BDA0002442263480000027
为备选词的第i维的值,
Figure BDA0002442263480000028
为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值,比如在第三个维度,max(p3)=9。(第三维是p3对吗?)
步骤3.1.3,计算待匹配词语和目标词语的字符相似度
Figure BDA0002442263480000029
字符相似度
Figure BDA00024422634800000210
计算公式如下::
Figure BDA00024422634800000211
步骤3.1.4,计算每对词之间的笔划相似度则为:
Figure BDA00024422634800000212
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,步骤3中拼音相似度的计算步骤如下:
步骤3.2.1,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
步骤3.2.2,计算词语中三维拼音特征码的每个维度pi的相似度
Figure BDA0002442263480000031
相似度
Figure BDA0002442263480000032
的计算公式如下:
Figure BDA0002442263480000033
其中,同一维度上的每个编码分别对应一个数值,其中韵母维度
Figure BDA0002442263480000034
声母维度
Figure BDA0002442263480000035
以及声调维度
Figure BDA0002442263480000036
Figure BDA0002442263480000037
为备选词的第i维的值,
Figure BDA0002442263480000038
为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值,
步骤3.2.3,计算待匹配词语和目标词语基于三维拼音特征码的字符相似度
Figure BDA0002442263480000039
字符相似度
Figure BDA00024422634800000310
计算公式如下::
Figure BDA00024422634800000311
步骤3.2.4,计算每对词之间的拼音相似度则为:
Figure BDA00024422634800000312
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,步骤3中最大子字符串相似度采用现有的计算公式计算,
Figure BDA00024422634800000313
其中,tc代表备选词,tm代表SNOMED中的参考词,LCS代表最大相似子字符串,Len代表字符串长度。
进一步地,步骤4中的设定阈值取值为0.9。
本发明采用以上技术方案,首先,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED-CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法的流程示意图;
图2为本发明步骤1中文分词的切割示意图;
图3为本发明语义依存分析示意图;
图4为本发明六维笔划特征码示意图;
图5为本发明三维拼音特征码示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将结合附图,对本申请中的技术方案进行描述。
为解决同概念多表达、缩写、简称等问题。本发明旨于构造覆盖面更广的基本医学术语词典。作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
如图1至图5之一所示,本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法,其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
具体地,由于中文是象形文字,所以中文文本是以字成句,而拉丁语系中以词成句。在基于文本的基础上抽取医疗词汇则需要对原始文本进行分词处理。利用结巴分词算法对原始医疗文本进行分词,如图2所示,将一句话切割至粒度最小的词串。
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;进一步地,步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
具体地,因为医学名词通常较为复杂并且由多个短词所组成,所以需要依赖语义依存分析算法而识别名词短语从而构成备选医学名词列表。利用hanlp语义依存分析算法对原始文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签。
如图3所示,当获得词性标注以及语义关系后,任务转化为找出文本里所存在的所有名词短语。名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。最终,这些名词短语形成备选词语表。
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
Figure BDA0002442263480000051
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
具体地,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算以决定每个是否是医学相关词语。此处相似度计算由三部分组成,第一部分为笔划相似度,第二部分为拼音相似度,第三部分为最长子字符串相似度。计算备选名词与基础词典中词语的相似度,并形成最终的自定义医学词表。
进一步地,步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码。
具体地,字符笔画相似度的计算为原创方法。现有的算法通常只考虑字的结构相似度而未具体到笔画相似度,此模块可捕捉到更低层次的细节。为解决常见错别字的问题,例如脉搏(脉博),痉挛(痉孪),汉字笔画层面的相似度需要被考虑。汉字的构字相似度是以三个特征来衡量的,结构,四角编码,和笔画数。这三个特征形成一个6维特征,如图4所示,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划。第一维度的值的定义如表1所示。第六维度由0至Z代表笔画数,35划以上也皆由Z代表。
表1:字形结构编码表
Figure BDA0002442263480000052
Figure BDA0002442263480000061
步骤3.1.2,字与字之间的相似度则取决于两个特征向量的差,计算词语的六维笔划特征码的每个维度pi的相似度
Figure BDA0002442263480000062
相似度
Figure BDA0002442263480000063
的计算公式如下:
Figure BDA0002442263480000064
其中,同一维度上的每个编码分别对应一个数值,其中字的结构维度
Figure BDA0002442263480000065
四角编码维度
Figure BDA0002442263480000066
以及笔划维度
Figure BDA0002442263480000067
Figure BDA0002442263480000068
为备选词的第i维的值,
Figure BDA0002442263480000069
为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值比如在第三个维度,max(p3)=9。
步骤3.1.3,计算待匹配词语和目标词语的字符相似度
Figure BDA00024422634800000610
字符相似度
Figure BDA00024422634800000611
计算公式如下::
Figure BDA00024422634800000612
步骤3.1.4,计算每对词之间的笔划相似度则为:
Figure BDA00024422634800000613
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,为解决南北方言中前后鼻音的差异,an,en,in,和ang,eng,ing的混淆,L和N的混淆等问题,以及拼写时声调混淆所导致的错别字,字级别的拼音相似度需要被考虑。
本发明提出了拼音相似度的原创计算方法,拼音相似度的计算步骤如下:
步骤3.2.1,如图5所示,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
具体地,一个汉字是由韵母+声母+声调3个部分组成,韵母与声母的值的定义如表2和表3所示。声调的编码则为一声二声三声四声分别对应0、1、2、3。
表2:韵母编码表
Figure BDA00024422634800000614
Figure BDA0002442263480000071
表3:声母编码表
Figure BDA0002442263480000072
步骤3.2.2,计算词语中三维拼音特征码的每个维度pi的相似度
Figure BDA0002442263480000073
相似度
Figure BDA0002442263480000074
的计算公式如下:
Figure BDA0002442263480000075
其中,同一维度上的每个编码分别对应一个数值,其中韵母维度
Figure BDA0002442263480000076
声母维度
Figure BDA0002442263480000077
以及声调维度
Figure BDA0002442263480000078
Figure BDA0002442263480000079
为备选词的第i维的值,
Figure BDA00024422634800000710
为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值,
步骤3.2.3,计算待匹配词语和目标词语基于三维拼音特征码的字符相似度
Figure BDA00024422634800000711
字符相似度
Figure BDA00024422634800000712
计算公式如下::
Figure BDA0002442263480000081
步骤3.2.4,计算每对词之间的拼音相似度则为:
Figure BDA0002442263480000082
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
综上所述,本发明的拼音相似度的计算对声母韵母编码进行了重新定义,并且每个维度之间的相似度计算为原创。相较于现有方法,本算法的优势是通过计算每个维度间绝对差可以捕捉到发音相似的差距信息,比如ai和ei发音相似的韵母之间的绝对差则较小,而er和ai发音相差较大的韵母之间的绝对差则相对较大。
进一步地,步骤3中最大子字符串相似度的计算方法为现有方法,而因其较为简单和计算速度快的优势被广泛应用。为解决简写等问题,最大子字符串相似度为,
Figure BDA0002442263480000083
其中,tc代表备选词,tm代表SNOMED中的参考词,LCS代表最大相似子字符串,例如“头孢呋辛”与“头孢拉定”的LCS为“头孢”,Len代表字符串长度。
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。作为一种实施方式,步骤4中的设定阈值取值为0.9。
本发明采用以上技术方案,首先,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED-CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。

Claims (7)

1.一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
Figure FDA0002442263470000011
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。
2.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤1中采用结巴分词算法对原始医疗文本进行分词。
3.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
4.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划;
步骤3.1.2,计算词语的六维笔划特征码的每个维度pi的相似度
Figure FDA0002442263470000018
相似度
Figure FDA0002442263470000019
的计算公式如下:
Figure FDA0002442263470000012
其中,同一维度上的每个编码分别对应一个数值,其中字的结构维度
Figure FDA0002442263470000013
四角编码维度
Figure FDA0002442263470000014
以及笔划维度
Figure FDA0002442263470000015
Figure FDA0002442263470000016
为备选词的第i维的数值,
Figure FDA0002442263470000017
为SNOMED参考词的第i维的分数值,max(pi)为第i个维度可取的最大值;
步骤3.1.3,计算待匹配词语和目标词语的字符相似度
Figure FDA0002442263470000021
字符相似度
Figure FDA0002442263470000022
计算公式如下::
Figure FDA0002442263470000023
步骤3.1.4,计算每对词之间的笔划相似度则为:
Figure FDA0002442263470000024
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
5.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤3中拼音相似度的计算步骤如下:
步骤3.2.1,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
步骤3.2.2,计算词语中三维拼音特征码的每个维度pi的相似度
Figure FDA0002442263470000025
相似度
Figure FDA0002442263470000026
的计算公式如下:
Figure FDA0002442263470000027
其中,同一维度上的每个编码分别对应一个数值,其中韵母维度
Figure FDA0002442263470000028
声母维度
Figure FDA0002442263470000029
Figure FDA00024422634700000210
以及声调维度
Figure FDA00024422634700000211
Figure FDA00024422634700000212
为备选词的第i维的值,
Figure FDA00024422634700000213
为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值,
步骤3.2.3,计算待匹配词语和目标词语基于三维拼音特征码的字符相似度
Figure FDA00024422634700000214
字符相似度
Figure FDA00024422634700000215
计算公式如下::
Figure FDA00024422634700000216
步骤3.2.4,计算每对词之间的拼音相似度则为:
Figure FDA00024422634700000217
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
6.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤3中最大子字符串相似度采用现有的计算公式计算,
Figure FDA00024422634700000218
其中,tc代表备选词,tm代表SNOMED中的参考词,LCS代表最大相似子字符串,Len代表字符串长度。
7.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤4中的设定阈值取值为0.9。
CN202010268546.0A 2020-04-08 2020-04-08 一种基于snomed-ct的医学名词词典构造与拓展方法 Withdrawn CN111460175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268546.0A CN111460175A (zh) 2020-04-08 2020-04-08 一种基于snomed-ct的医学名词词典构造与拓展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268546.0A CN111460175A (zh) 2020-04-08 2020-04-08 一种基于snomed-ct的医学名词词典构造与拓展方法

Publications (1)

Publication Number Publication Date
CN111460175A true CN111460175A (zh) 2020-07-28

Family

ID=71681498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268546.0A Withdrawn CN111460175A (zh) 2020-04-08 2020-04-08 一种基于snomed-ct的医学名词词典构造与拓展方法

Country Status (1)

Country Link
CN (1) CN111460175A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015874A (zh) * 2020-07-30 2020-12-01 上海松鼠课堂人工智能科技有限公司 学生心理健康陪伴对话系统
CN112036172A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基于模型的缩写数据的实体识别方法、装置和计算机设备
CN112632606A (zh) * 2020-12-23 2021-04-09 天津理工大学 基于snomed-ct的医疗文本文档脱敏方法及系统
CN116312915A (zh) * 2023-05-19 2023-06-23 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN116415582A (zh) * 2023-05-24 2023-07-11 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN109522418A (zh) * 2018-11-08 2019-03-26 杭州费尔斯通科技有限公司 一种半自动的知识图谱构建方法
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨兵 等: "一种面向医学文本数据的结构化信息抽取方法", 《小型微型计算机系统》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015874A (zh) * 2020-07-30 2020-12-01 上海松鼠课堂人工智能科技有限公司 学生心理健康陪伴对话系统
CN112036172A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基于模型的缩写数据的实体识别方法、装置和计算机设备
CN112036172B (zh) * 2020-09-09 2022-04-15 平安科技(深圳)有限公司 基于模型的缩写数据的实体识别方法、装置和计算机设备
CN112632606A (zh) * 2020-12-23 2021-04-09 天津理工大学 基于snomed-ct的医疗文本文档脱敏方法及系统
CN112632606B (zh) * 2020-12-23 2022-12-09 天津理工大学 基于snomed-ct的医疗文本文档脱敏方法及系统
CN116312915A (zh) * 2023-05-19 2023-06-23 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN116312915B (zh) * 2023-05-19 2023-09-19 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN116415582A (zh) * 2023-05-24 2023-07-11 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备
CN116415582B (zh) * 2023-05-24 2023-08-25 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN111460175A (zh) 一种基于snomed-ct的医学名词词典构造与拓展方法
US7584103B2 (en) Automated extraction of semantic content and generation of a structured document from speech
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Wang Annotating and recognising named entities in clinical notes
JPH05189481A (ja) 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
US20130304453A9 (en) Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
JP5130892B2 (ja) 文字符号化処理方法及びシステム
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN111046660B (zh) 一种识别文本专业术语的方法及装置
US20150347521A1 (en) Systems and methods for relation extraction for chinese clinical documents
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN112287680A (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
CN114927177A (zh) 一种融合中文医疗领域特征的医疗实体识别方法及系统
Jamro Sindhi language processing: A survey
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
CN114020888A (zh) 文本生成的方法、装置、设备以及存储介质
Romero et al. Information extraction in handwritten marriage licenses books
Silfverberg et al. Automatic morpheme segmentation and labeling in universal dependencies resources
Glocker et al. Hierarchical multi-task transformers for crosslingual low resource phoneme recognition
Wu Establishment of Japanese Continuous Speech Recognition System Based on Association Rules Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200728