CN111460175A - 一种基于snomed-ct的医学名词词典构造与拓展方法 - Google Patents
一种基于snomed-ct的医学名词词典构造与拓展方法 Download PDFInfo
- Publication number
- CN111460175A CN111460175A CN202010268546.0A CN202010268546A CN111460175A CN 111460175 A CN111460175 A CN 111460175A CN 202010268546 A CN202010268546 A CN 202010268546A CN 111460175 A CN111460175 A CN 111460175A
- Authority
- CN
- China
- Prior art keywords
- words
- similarity
- dimension
- snomed
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于SNOMED‑CT的医学名词词典构造与拓展方法,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED‑CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
Description
技术领域
本发明涉及医疗系统数据处理技术领域,尤其涉及一种基于SNOMED-CT的医学名词词典构造与拓展方法。
背景技术
医护人员可通过病历进行分诊,确认后续所需进行的检查,疾病的诊断,以及判断最终所需的治疗。但是目前我国在医疗产业1多重问题,最为紧迫的则为医护人员短缺,医疗资源分配不均,以及大量的误诊案例,仅在临床护理当中每年平均约有5700万病例被误诊,总误诊率高达27.8%。
目前在诊断的过程中有大量的病历需要人工进行阅读、理解、分析以及做出最终的判断。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高,需要分析的病历数量成倍增长,医生的工作量也急剧增高,需要增加更多人员来应对更大量的诊断需求。然而我国目前平均每476人拥有一位医生,医生缺口达到9万多人,并且面临着技术水平参差不一,医疗资源分配不均匀等问题。优质医疗资源全部集中在大城市,而村镇人口经常面临无法在本地诊治常见病之外的疾病,为诊断的进一步发展带来了极大的困难。智能自动诊断以及辅助诊断的引入则可缓解我国在此方面所面临的难题。智能辅助诊断技术可大大提高诊断的速度和效率,并可在一定程度上缓解医疗资源分配不均的问题。智能辅助诊断技术依赖于自然语言处理技术,而自然语言处理则包括命名实体识别、关系提取、实体对齐等模块。这些模块在最基础层面则都依赖于一个或多个标准医学词表。由于语言的多样性表达目前现有的标准化词表并不能完全覆盖文本中所出现的大部分词汇。
发明内容
本发明的目的在于提供一种基于SNOMED-CT的医学名词词典构造与拓展方法。
本发明采用的技术方案是:
一种基于SNOMED-CT的医学名词词典构造与拓展方法,其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。
进一步地,步骤1中采用结巴分词算法对原始医疗文本进行分词。
进一步地,步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
进一步地,步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划;
其中,同一维度上的每个编码分别对应一个数值,其中字的结构维度四角编码维度以及笔划维度 为备选词的第i维的值,为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值,比如在第三个维度,max(p3)=9。(第三维是p3对吗?)
步骤3.1.4,计算每对词之间的笔划相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,步骤3中拼音相似度的计算步骤如下:
步骤3.2.1,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
步骤3.2.4,计算每对词之间的拼音相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,步骤3中最大子字符串相似度采用现有的计算公式计算,
其中,tc代表备选词,tm代表SNOMED中的参考词,LCS代表最大相似子字符串,Len代表字符串长度。
进一步地,步骤4中的设定阈值取值为0.9。
本发明采用以上技术方案,首先,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED-CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法的流程示意图;
图2为本发明步骤1中文分词的切割示意图;
图3为本发明语义依存分析示意图;
图4为本发明六维笔划特征码示意图;
图5为本发明三维拼音特征码示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将结合附图,对本申请中的技术方案进行描述。
为解决同概念多表达、缩写、简称等问题。本发明旨于构造覆盖面更广的基本医学术语词典。作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
如图1至图5之一所示,本发明一种基于SNOMED-CT的医学名词词典构造与拓展方法,其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
具体地,由于中文是象形文字,所以中文文本是以字成句,而拉丁语系中以词成句。在基于文本的基础上抽取医疗词汇则需要对原始文本进行分词处理。利用结巴分词算法对原始医疗文本进行分词,如图2所示,将一句话切割至粒度最小的词串。
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;进一步地,步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
具体地,因为医学名词通常较为复杂并且由多个短词所组成,所以需要依赖语义依存分析算法而识别名词短语从而构成备选医学名词列表。利用hanlp语义依存分析算法对原始文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签。
如图3所示,当获得词性标注以及语义关系后,任务转化为找出文本里所存在的所有名词短语。名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。最终,这些名词短语形成备选词语表。
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
具体地,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算以决定每个是否是医学相关词语。此处相似度计算由三部分组成,第一部分为笔划相似度,第二部分为拼音相似度,第三部分为最长子字符串相似度。计算备选名词与基础词典中词语的相似度,并形成最终的自定义医学词表。
进一步地,步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码。
具体地,字符笔画相似度的计算为原创方法。现有的算法通常只考虑字的结构相似度而未具体到笔画相似度,此模块可捕捉到更低层次的细节。为解决常见错别字的问题,例如脉搏(脉博),痉挛(痉孪),汉字笔画层面的相似度需要被考虑。汉字的构字相似度是以三个特征来衡量的,结构,四角编码,和笔画数。这三个特征形成一个6维特征,如图4所示,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划。第一维度的值的定义如表1所示。第六维度由0至Z代表笔画数,35划以上也皆由Z代表。
表1:字形结构编码表
其中,同一维度上的每个编码分别对应一个数值,其中字的结构维度四角编码维度以及笔划维度 为备选词的第i维的值,为SNOMED参考词的第i维的值,max(pi)为第i个维度可取的最大值比如在第三个维度,max(p3)=9。
步骤3.1.4,计算每对词之间的笔划相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
进一步地,为解决南北方言中前后鼻音的差异,an,en,in,和ang,eng,ing的混淆,L和N的混淆等问题,以及拼写时声调混淆所导致的错别字,字级别的拼音相似度需要被考虑。
本发明提出了拼音相似度的原创计算方法,拼音相似度的计算步骤如下:
步骤3.2.1,如图5所示,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
具体地,一个汉字是由韵母+声母+声调3个部分组成,韵母与声母的值的定义如表2和表3所示。声调的编码则为一声二声三声四声分别对应0、1、2、3。
表2:韵母编码表
表3:声母编码表
步骤3.2.4,计算每对词之间的拼音相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
综上所述,本发明的拼音相似度的计算对声母韵母编码进行了重新定义,并且每个维度之间的相似度计算为原创。相较于现有方法,本算法的优势是通过计算每个维度间绝对差可以捕捉到发音相似的差距信息,比如ai和ei发音相似的韵母之间的绝对差则较小,而er和ai发音相差较大的韵母之间的绝对差则相对较大。
进一步地,步骤3中最大子字符串相似度的计算方法为现有方法,而因其较为简单和计算速度快的优势被广泛应用。为解决简写等问题,最大子字符串相似度为,
其中,tc代表备选词,tm代表SNOMED中的参考词,LCS代表最大相似子字符串,例如“头孢呋辛”与“头孢拉定”的LCS为“头孢”,Len代表字符串长度。
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。作为一种实施方式,步骤4中的设定阈值取值为0.9。
本发明采用以上技术方案,首先,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED-CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
Claims (7)
1.一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。
2.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤1中采用结巴分词算法对原始医疗文本进行分词。
3.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤2的具体步骤为:
步骤2.1,利用hanlp语义依存分析算法对原始医疗文本进行标注并获得每个词的词性标注以及词语词之间的语义依存关系标签;
步骤2.2,找出文本里所存在的所有名词短语形成备选词语表,名词短语由一个名词作为根,并包含全部通过定中关系与之相连接的词而形成。
4.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤3中笔划相似度的计算步骤如下:
步骤3.1.1,对待匹配词语和目标词语分别按照预设的编码规则进行字体结构、四角编码和笔划数的分析编码得到六维笔划特征码,第一个维度代表字的结构,第二到五维代表四角编码,第六维代表笔划;
步骤3.1.4,计算每对词之间的笔划相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
5.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤3中拼音相似度的计算步骤如下:
步骤3.2.1,对待匹配词语和目标词语的拼音重新编码得到三维拼音特征码,三维分别为韵母、声母和声调;每一维度根据对应的韵母、声母或声调不同赋予不同数值;
步骤3.2.4,计算每对词之间的拼音相似度则为:
其中,tc代表备选词,tm代表SNOMED中的参考词,Len(tm)表示参考词tm的字的个数。
7.根据权利要求1所述的一种基于SNOMED-CT的医学名词词典构造与拓展方法,其特征在于:步骤4中的设定阈值取值为0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268546.0A CN111460175A (zh) | 2020-04-08 | 2020-04-08 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268546.0A CN111460175A (zh) | 2020-04-08 | 2020-04-08 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460175A true CN111460175A (zh) | 2020-07-28 |
Family
ID=71681498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010268546.0A Withdrawn CN111460175A (zh) | 2020-04-08 | 2020-04-08 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460175A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015874A (zh) * | 2020-07-30 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 学生心理健康陪伴对话系统 |
CN112036172A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN112632606A (zh) * | 2020-12-23 | 2021-04-09 | 天津理工大学 | 基于snomed-ct的医疗文本文档脱敏方法及系统 |
CN116312915A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116415582A (zh) * | 2023-05-24 | 2023-07-11 | 中国医学科学院阜外医院 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020054254A (ko) * | 2000-12-27 | 2002-07-06 | 오길록 | 사전구조를 이용한 한국어 형태소 분석방법 |
CN106815197A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 文本相似度的确定方法和装置 |
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
-
2020
- 2020-04-08 CN CN202010268546.0A patent/CN111460175A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020054254A (ko) * | 2000-12-27 | 2002-07-06 | 오길록 | 사전구조를 이용한 한국어 형태소 분석방법 |
CN106815197A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 文本相似度的确定方法和装置 |
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
Non-Patent Citations (1)
Title |
---|
杨兵 等: "一种面向医学文本数据的结构化信息抽取方法", 《小型微型计算机系统》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015874A (zh) * | 2020-07-30 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 学生心理健康陪伴对话系统 |
CN112036172A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN112036172B (zh) * | 2020-09-09 | 2022-04-15 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN112632606A (zh) * | 2020-12-23 | 2021-04-09 | 天津理工大学 | 基于snomed-ct的医疗文本文档脱敏方法及系统 |
CN112632606B (zh) * | 2020-12-23 | 2022-12-09 | 天津理工大学 | 基于snomed-ct的医疗文本文档脱敏方法及系统 |
CN116312915A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116312915B (zh) * | 2023-05-19 | 2023-09-19 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116415582A (zh) * | 2023-05-24 | 2023-07-11 | 中国医学科学院阜外医院 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN116415582B (zh) * | 2023-05-24 | 2023-08-25 | 中国医学科学院阜外医院 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN111460175A (zh) | 一种基于snomed-ct的医学名词词典构造与拓展方法 | |
US7584103B2 (en) | Automated extraction of semantic content and generation of a structured document from speech | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Wang | Annotating and recognising named entities in clinical notes | |
JPH05189481A (ja) | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
US20130304453A9 (en) | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech | |
JP5130892B2 (ja) | 文字符号化処理方法及びシステム | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
US20150347521A1 (en) | Systems and methods for relation extraction for chinese clinical documents | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN112287680A (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
CN114927177A (zh) | 一种融合中文医疗领域特征的医疗实体识别方法及系统 | |
Jamro | Sindhi language processing: A survey | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
Kang et al. | Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval | |
CN114020888A (zh) | 文本生成的方法、装置、设备以及存储介质 | |
Romero et al. | Information extraction in handwritten marriage licenses books | |
Silfverberg et al. | Automatic morpheme segmentation and labeling in universal dependencies resources | |
Glocker et al. | Hierarchical multi-task transformers for crosslingual low resource phoneme recognition | |
Wu | Establishment of Japanese Continuous Speech Recognition System Based on Association Rules Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200728 |