CN106354715B - 医疗词汇处理方法及装置 - Google Patents

医疗词汇处理方法及装置 Download PDF

Info

Publication number
CN106354715B
CN106354715B CN201610861138.XA CN201610861138A CN106354715B CN 106354715 B CN106354715 B CN 106354715B CN 201610861138 A CN201610861138 A CN 201610861138A CN 106354715 B CN106354715 B CN 106354715B
Authority
CN
China
Prior art keywords
vocabulary
medical
medical vocabulary
candidate word
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610861138.XA
Other languages
English (en)
Other versions
CN106354715A (zh
Inventor
张子锐
康波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Cross Cloud (beijing) Technology Co Ltd
Original Assignee
Medical Cross Cloud (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Medical Cross Cloud (beijing) Technology Co Ltd filed Critical Medical Cross Cloud (beijing) Technology Co Ltd
Priority to CN201610861138.XA priority Critical patent/CN106354715B/zh
Publication of CN106354715A publication Critical patent/CN106354715A/zh
Application granted granted Critical
Publication of CN106354715B publication Critical patent/CN106354715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种医疗词汇处理方法及装置。该方法包括:根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;将每一医疗词汇类簇中的医疗词汇两两组合形成候选词对;计算各候选词对中的医疗词汇之间的相似度并据以判断候选词对中的医疗词汇之间的关系以获取多个关系词对;基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构。本公开能够高效地识别出医疗词汇之间的关系,减少人工标注量,以利于进一步的数据分析、数据挖掘等应用。

Description

医疗词汇处理方法及装置
技术领域
本公开涉及医疗大数据领域,具体而言,涉及一种医疗词汇处理方法及医疗处理装置。
背景技术
随着医疗信息化的推进,各大医院已形成HIS(医院信息系统)、EMR(电子病历)等医疗信息系统,这极大地提高了医院管理以及病人看病的效率。
目前很多医疗机构使用的数据库中的数据要靠人工录入。由于医院医生的用语习惯的差异,以及标准未完全推广的原因,造成医疗信息系统中存在对于病人诊断、症状、手术、检查、用药等大量不统一的描述用词。现有技术中,已经出现了使用计算机对诊疗信息进行识别的技术,可以将人工录入的诊疗信息识别为符合医疗标准用语的术语。
尽管已经可以使用计算机识别诊疗信息,但是还存在着识别效率低,识别后的词汇难以进一步利用等问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医疗词汇处理方法及医疗词汇处理装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供了一种医疗词汇处理方法,包括:
根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;
将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;
计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;
基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。
本公开的一种示例性实施例中,所述医疗处理方法还可以包括:将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。
本公开的一种示例性实施例中,所述医疗词汇处理方法还可以包括:对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。
本公开的一种示例性实施例中,所述文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离中的一种或多种。
本公开的一种示例性实施例中,所述聚类运算可以包括k-means聚类以及层次聚类中的一种或多种。
本公开的一种示例性实施例中,所述候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系中的一种或多种。
本公开的一种示例性实施例中,所述判断所述候选词对中的医疗词汇之间的关系可以包括:根据医学知识得出所述候选词对中的医疗词汇之间的规律性关系;以及由人工标注所述候选词对中的医疗词汇之间的关系。
根据本公开的另一方面,提供一种医疗词汇处理装置,包括:
类簇生成单元,用于根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;
第一候选词对生成单元,用于将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;
关系词对生成单元,用于计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;
关系结构构造单元,用于基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。
本公开的一种示例性实施例中,所述医疗词汇处理装置还可以包括:第二候选词对生成单元,用于将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。
本公开的一种示例性实施例中,所述医疗词汇处理装置还可以包括:预处理单元,用于对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。
本公开的一种示例性实施例中,所述文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离中的一种或多种。
本公开的一种示例性实施例中,所述聚类运算可以包括k-means聚类以及层次聚类中的一种或多种。
本公开的一种示例性实施例中,所述候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系中的一种或多种。
本公开的一种示例性实施例中,所述判断所述候选词对中的医疗词汇之间的关系可以包括:根据医学知识得出所述候选词对中的医疗词汇之间的规律性关系;以及由人工标注所述候选词对中的医疗词汇之间的关系。
本公开的一种示例性实施例中的医疗词汇方法及医疗词汇处理装置,可以将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对;通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对;基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构。一方面,通过将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对,能够高效地得出医疗词汇之间的关系;另一方面,通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对,可以减少人工标注量;再一方面,基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构,可以利于进一步的数据分析、数据挖掘等应用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。
图1示出根据本公开一示例性实施例的第一医疗词汇处理方法的流程图;
图2示出根据本公开一示例性实施例的医疗诊断词聚类结果;
图3示出根据本公开另一示例性实施例基于词对关系构造的医疗词汇关系结构;
图4示出图1中所示的第一医疗词汇处理方法的一部分的更详细的流程图;
图5示出根据本公开另一示例性实施例的第二医疗词汇处理方法的流程图;
图6示出根据本公开另一示例性实施例的医疗词汇处理装置的框图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施例中,首先提供了一种医疗词汇处理方法。参考图1中所示,该医疗词汇处理方法包括以下步骤:
步骤S110.根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;
步骤S120.将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;
步骤S130.计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;
步骤S140.基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。
根据本示例实施例中的医疗词汇处理方法,一方面,通过将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对,能够高效地得出医疗词汇之间的关系;另一方面,通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对,可以减少人工标注量;再一方面,基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构,可以利于进一步的数据分析、数据挖掘等应用。
下面,将对本示例实施方式中医疗词汇处理方法进行进一步的说明。
在步骤S110中,根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇。
聚类运算是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的过程。本示例实施方式中,聚类运算可以包括k-means聚类以及层次聚类等聚类算法,但是本公开的实施例中的聚类运算不限于此。对于医疗词汇之间的文本相似度,本示例实施方式中可以通过编辑距离、马氏距离以及切词后单元的余弦距离等方式表示,但是本公开的实施例中的文本相似度不限于此。
图2示出了根据本公开一示例性实施例的医疗诊断词聚类结果。如图2所示,医疗诊断词被根据文本相似度分成多个医疗诊断词类簇,多个医疗诊断词类簇包括“与糖尿病有关的类簇”、“与上呼吸道感染有关的类簇”、“与高血压有关的类簇”等。需要说明的是,在本公开中,虽然以诊断词、手术名称等为例对待处理医疗词汇进行了描述,但是本公开的实际应用不限于诊断词、手术名称等医疗词汇,还可以应用于药品、实验室检查、物理检查等方面的医疗词汇的处理。
此外,在本公开的其他示例性实施例中,为了减少噪声词汇的干扰,还可以在进行聚类运算之前对所述多个待处理医疗词汇中的医疗词汇进行预处理。预处理可以包括垃圾词过滤、特殊符号处理以及全角转半角,本示例性实施例中对此不做特殊限定。
接下来,在步骤S120中,将所生成的每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。
继续参考图2中所示,在所划分的多个医疗诊断词类簇中,可以将医疗诊断词两两组合形成候选词对。例如可以将“糖尿病”与“2型糖尿病”组合形成候选词对,以及可以将“2型糖尿病”与“糖尿病2型”组合形成候选词对。
在步骤S130中,计算候选词对中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。
在本示例实施例中,可以采用基于语义词典的词语相似度计算医疗词汇之间的相似度,也可以采用基于统计的词语相似度计算医疗词汇之间的相似度,但是本公开的实施例中的医疗词汇之间的相似度计算不限于此。基于语义词典的词语相似度计算利用语义词典,依据词语之间的上下位关系和同义关系等关系,通过计算两个词语在树状词语层次体系中的距离来得到词语间的相似度。基于统计的词语相似度计算利用大规模语料库,将词语的上下文信息作为参照来计算词语间的相似度。
在本示例实施例中,候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。下面的表1中示例性的示出了候选词对中的医疗词汇之间的关系。
词a 词b 关系
糖尿病 2型糖尿病 包含
糖尿病 糖尿病肾病 包含
II型糖尿病 2型糖尿病 同义关系
副鼻窦炎 筛窦炎 无关系
肾移植上呼吸道感染 呼吸道感染 被包含
表1.候选词对中的医疗词汇之间的关系
图4示出了图1中所示的第一医疗词汇处理方法中的步骤S130的更详细的流程图。如图4所示,图1中的步骤S130包括步骤S410和步骤S420。
在步骤S410中,计算候选词对中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。
接下来,在步骤S420中,如果在步骤S410中判断候选词对中的医疗词汇之间的关系为高可信关系,则该候选词对被划分到词对关系集S1中。词对关系集S1是高可信关系集。
“高可信关系”指的是可以根据医学知识得出的候选词对中的医疗词汇之间的规律性关系,如可以根据医学知识得出“肺癌”包含“右侧肺癌”;“阻塞性肺炎”是“肺炎”的一种,则可以得出“阻塞性肺炎”与“肺炎”是被包含关系;医学领域“病”与“症”通常具有同样的含义,则可以得出“高血压病”与“高血压症”是同义关系。
进一步地,在步骤S420中,如果在步骤S410中判断候选词对中的医疗词汇之间的关系不是高可信关系,则通过人工标注该候选词对中的医疗词汇之间的关系,然后将该候选词对划分到词对关系集S2中。词对关系集S2是人工标注关系集。
“人工标注关系”指的是文本相似度高但不能根据医学知识自动确定出的词对的关系。如“鼻窦炎”与“副鼻窦炎”、“月经不调”与“月经紊乱”。
接下来,在步骤S140中,基于各所述关系词对之间的传递关系构造所有医疗词汇之间的关系结构。
以下将参照图3来详细地描述根据本公开的示例性实施例所构造的医疗词汇之间的关系结构。如图3所示,在所构成的医疗词汇关系结构中,上下层级表示包含关系,同一层内(矩形框内)表示同义关系,带“*”号前缀表示标准词汇。如“鼻炎”包含“过敏性鼻炎”、“鼻窦炎”、“筛窦炎”;“慢性鼻窦炎(左侧)”与“左侧慢性鼻窦炎”是同义关系;“*左侧慢性鼻窦炎”表示标准医疗词汇是“左侧慢性鼻窦炎”。
图5示出了根据本公开另一示例性实施例的第二医疗词汇处理方法的流程图。图5中示出的第二医疗词汇处理方法与图1中示出的第一医疗词汇处理方法的主要不同之处在于:图5中的第二医疗词汇处理方法还包括步骤S530和步骤S540。下面未描述的图5中的其他步骤与图1中的医疗词汇处理方法的步骤基本相同,在此将不重复描述。
在步骤S520中,将每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。
在步骤S530中,将标准医疗词汇集B中的医疗词汇分别与待处理医疗词汇集A中的医疗词汇两两组合形成候选词对,其中,ai为待处理医疗词汇集A中的医疗词汇,bi为标准医疗词汇集B中的医疗词汇。
在本公开中,标准医疗词汇集B可以是ICD9、ICD10等标准医疗词表。ICD(国际疾病分类)是依据疾病的某些特征,按照规则对疾病进行分类,并用编码的方法来表示的分类系统。
接下来,在步骤S540中,合并在步骤S520中生成的候选词对和在步骤S530中生成的候选词对构成候选词对集。
在步骤S550中,计算候选词对集中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。
进一步地,如果待处理医疗词汇集中的医疗词汇与标准医疗词汇集中的医疗词汇是一对一映射的关系,或者标准词表本身有层级关系,则在处理中词对关系简化为同义关系。
接下来,在步骤S560中,如果在步骤S550中判断候选词对中的医疗词汇之间的关系为高可信关系,则该候选词对被划分到词对关系集S1中。如果在步骤S550中判断候选词对中的医疗词汇之间的关系不是高可信关系,则通过人工标注该候选词对中的医疗词汇之间的关系,然后将该候选词对划分到词对关系集S2中。
经过该步骤的处理之后,可以将待处理医疗词汇集中A中的医疗词汇映射到标准医疗词汇集B中的对应的医疗词汇。下面的表2示出了将电子病历中的手术名称映射到ICD9中的手术标准词汇的示例。
电子病历中手术名称 ICD9手术标准词 ICD9标准词编码
右乳腺部分切除术 乳房腺体区段切除术 85.21019
宫腔镜下诊刮术 宫腔镜下诊断性刮宫术 85.21019
开腹探查 剖腹探查术 51.23001
表2.手术名称映射到ICD9示例
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
图6示出了根据本公开另一示例性实施例的医疗词汇处理装置600的框图。
如图6所述,医疗词汇处理装置600包括:类簇生成单元610、第一候选词对生成单元620、关系词对生成单元630、关系结构构造单元640。其中:
类簇生成单元610根据待处理医疗词汇集A中的医疗词汇之间的文本相似度对多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇。
在本示例实施例中,文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离,但是本公开的实施例中的文本相似度不限于此。
此外,在本示例实施例中,聚类运算可以包括k-means聚类以及层次聚类,但是本公开的实施例中的聚类运算不限于此。
在本示例实施例中,可选地,医疗词汇处理装置600还可以包括预处理单元。预处理单元可以在进行聚类运算之前对待处理医疗词汇集A中的医疗词汇进行预处理。预处理可以包括垃圾词过滤、特殊符号处理以及全角转半角等处理。
第一候选词对生成单元620将所生成的每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。
在本示例实施例中,可选地,医疗词汇处理装置600还可以包括第二候选词对生成单元。第二候选词对生成单元可以将标准医疗词汇集中的医疗词汇分别与待处理医疗词汇集A中的医疗词汇两两组合形成候选词对。
关系词对生成单元630计算各候选词对中的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。在本示例实施例中,可以采用基于语义词典的词语相似度计算医疗词汇之间的相似度,也可以采用基于统计的词语相似度计算医疗词汇之间的相似度。
在本示例实施例中,候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。
关系结构构造单元640基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构。
由于本公开的示例实施例的医疗词汇处理装置600的各个功能模块与上述医疗词汇处理方法的示例实施例的步骤对应,因此在此不再赘述。
应当注意,尽管在上文详细描述中提及了医疗词汇处理装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种医疗词汇处理方法,其特征在于,包括:
根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;
将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;
计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;
基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。
2.根据权利要求1所述的医疗词汇处理方法,其特征在于,所述医疗词汇处理方法还包括:
将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。
3.根据权利要求1所述的医疗词汇处理方法,其特征在于,所述医疗词汇处理方法还包括:
对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。
4.根据权利要求1至3中任一项所述的医疗词汇处理方法,其特征在于,所述文本相似度包括编辑距离、马氏距离以及切词后单元的余弦距离中的一种或多种。
5.根据权利要求1至3中任一项所述的医疗词汇处理方法,其特征在于,所述聚类运算包括k-means聚类以及层次聚类中的一种或多种。
6.根据权利要求1至3中任一项所述的医疗词汇处理方法,其特征在于,所述候选词对中的医疗词汇之间的关系包括同义关系、包含关系、被包含关系以及无关系中的一种或多种。
7.根据权利要求1至3中任一项所述的医疗词汇处理方法,其特征在于,所述判断所述候选词对中的医疗词汇之间的关系包括:
根据医学知识得出所述候选词对中的医疗词汇之间的规律性关系;以及
由人工标注所述候选词对中的医疗词汇之间的关系。
8.一种医疗词汇处理装置,其特征在于,包括:
类簇生成单元,用于根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;
第一候选词对生成单元,用于将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;
关系词对生成单元,用于计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;
关系结构构造单元,用于基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。
9.根据权利要求8所述的医疗词汇处理装置,其特征在于,所述医疗词汇处理装置还包括:
第二候选词对生成单元,用于将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。
10.根据权利要求8所述的医疗词汇处理装置,其特征在于,所述医疗词汇处理装置还包括:
预处理单元,用于对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。
CN201610861138.XA 2016-09-28 2016-09-28 医疗词汇处理方法及装置 Active CN106354715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610861138.XA CN106354715B (zh) 2016-09-28 2016-09-28 医疗词汇处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610861138.XA CN106354715B (zh) 2016-09-28 2016-09-28 医疗词汇处理方法及装置

Publications (2)

Publication Number Publication Date
CN106354715A CN106354715A (zh) 2017-01-25
CN106354715B true CN106354715B (zh) 2019-04-16

Family

ID=57865717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610861138.XA Active CN106354715B (zh) 2016-09-28 2016-09-28 医疗词汇处理方法及装置

Country Status (1)

Country Link
CN (1) CN106354715B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344250B (zh) * 2018-09-07 2021-11-19 北京大学 基于医保数据的单病种诊断信息快速结构化方法
CN111091915B (zh) * 2019-12-24 2023-06-09 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111159770B (zh) * 2019-12-31 2022-12-13 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374209B1 (en) * 1998-03-19 2002-04-16 Sharp Kabushiki Kaisha Text structure analyzing apparatus, abstracting apparatus, and program recording medium
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN102436480A (zh) * 2011-10-15 2012-05-02 西安交通大学 一种面向文本的知识单元关联关系挖掘方法
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法
CN102999495A (zh) * 2011-09-09 2013-03-27 北京百度网讯科技有限公司 一种同义词语义映射关系确定方法及装置
CN104008301A (zh) * 2014-06-09 2014-08-27 华东师范大学 一种领域概念层次结构自动构建方法
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
CN105184307A (zh) * 2015-07-27 2015-12-23 蚌埠医学院 一种医学领域图像语义相似度矩阵的生成方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374209B1 (en) * 1998-03-19 2002-04-16 Sharp Kabushiki Kaisha Text structure analyzing apparatus, abstracting apparatus, and program recording medium
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN102999495A (zh) * 2011-09-09 2013-03-27 北京百度网讯科技有限公司 一种同义词语义映射关系确定方法及装置
CN102436480A (zh) * 2011-10-15 2012-05-02 西安交通大学 一种面向文本的知识单元关联关系挖掘方法
CN102955837A (zh) * 2011-12-13 2013-03-06 华东师范大学 一种基于中文词对关系相似度的类比检索控制方法
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
CN104008301A (zh) * 2014-06-09 2014-08-27 华东师范大学 一种领域概念层次结构自动构建方法
CN105184307A (zh) * 2015-07-27 2015-12-23 蚌埠医学院 一种医学领域图像语义相似度矩阵的生成方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法

Also Published As

Publication number Publication date
CN106354715A (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
Wei et al. Task-oriented dialogue system for automatic diagnosis
US10713440B2 (en) Processing text with domain-specific spreading activation methods
CN111316281B (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
US20230105969A1 (en) Computer-based system for applying machine learning models to healthcare related data
CN106874643B (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
US10331659B2 (en) Automatic detection and cleansing of erroneous concepts in an aggregated knowledge base
JP2020170516A (ja) 臨床クエリを生成するための予測システム
US20190057773A1 (en) Method and system for performing triage
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
CN112232065B (zh) 挖掘同义词的方法及装置
US11205516B2 (en) Machine learning systems and methods for assessing medical interventions for utilization review
US10102200B2 (en) Predicate parses using semantic knowledge
Agu et al. AnaXNet: anatomy aware multi-label finding classification in chest X-ray
US20160078182A1 (en) Using Toxicity Level in Treatment Recommendations by Question Answering Systems
CN106354715B (zh) 医疗词汇处理方法及装置
US11295080B2 (en) Automatic detection of context switch triggers
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
Horng et al. Consensus development of a modern ontology of emergency department presenting problems—the Hierarchical Presenting Problem Ontology (HaPPy)
CN112349367B (zh) 一种生成仿真病历的方法、装置、电子设备及存储介质
Henao et al. Patient clustering with uncoded text in electronic medical records
Antunes et al. Evaluating semantic textual similarity in clinical sentences using deep learning and sentence embeddings
Mostafiz et al. Pathology extraction from chest X-ray radiology reports: A performance study
Aydogan A hybrid deep neural network‐based automated diagnosis system using x‐ray images and clinical findings
Otmani et al. Ontology-based approach to enhance medical web information extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant