CN105138829A - 一种中文诊疗信息的自然语言处理方法及系统 - Google Patents

一种中文诊疗信息的自然语言处理方法及系统 Download PDF

Info

Publication number
CN105138829A
CN105138829A CN201510496497.5A CN201510496497A CN105138829A CN 105138829 A CN105138829 A CN 105138829A CN 201510496497 A CN201510496497 A CN 201510496497A CN 105138829 A CN105138829 A CN 105138829A
Authority
CN
China
Prior art keywords
diagnosis
character
treatment
type substring
substring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510496497.5A
Other languages
English (en)
Other versions
CN105138829B (zh
Inventor
陈志永
朱华玲
黄玉丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Original Assignee
Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebaotech Internet Medical Information Technology (beijing) Co Ltd filed Critical Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority to CN201510496497.5A priority Critical patent/CN105138829B/zh
Publication of CN105138829A publication Critical patent/CN105138829A/zh
Application granted granted Critical
Publication of CN105138829B publication Critical patent/CN105138829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种中文诊疗信息的自然语言处理方法及系统。该方法包括:输入中文诊疗信息字符串并进行预处理;基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将中文诊疗信息字符串切分成能够与本体词典中的本体直接匹配的第一类型子字符串和不能够与本体直接匹配第二类型子字符串;对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体;输出第一类型子字符串和第二类型子字符串相匹配的本体。本发明提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费用提供了便利。

Description

一种中文诊疗信息的自然语言处理方法及系统
技术领域
本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种中文诊疗信息的自然语言处理方法及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率,给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
依托医疗信息化平台,医疗从业人员可在计算机中直接输入为治疗疾病所需的诊疗项目等诊疗信息,为共享诊疗信息和查阅诊疗信息提供了极大方便。
发明内容
实际临床作业中每天会进行大量的诊疗项目,医疗从业人员会将这些诊疗项目以中文诊疗信息的形式输入医疗信息化平台中,研究和利用中文诊疗信息对于医疗信息化发展具有非常重要的意义。由于每天都会有海量的中文诊疗信息输入,仅靠人工力量识别这些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。
但是由于输入的中文诊疗信息属于自然语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文诊疗信息具有相当大的难度。
为了提高计算机对中文诊疗信息的识别成功率,非常需要一种中文诊疗信息的自然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文诊疗信息。
在本上下文中,本发明的实施方式期望提供一种中文诊疗信息的自然语言处理方法及系统。
在本发明实施方式的第一方面中,提供了一种中文诊疗信息的自然语言处理方法,包括:
步骤1,输入中文诊疗信息字符串;
步骤2,对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串;
步骤3,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项目所针对的方位的词语;
所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项目的级别、类型的词语;
步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
在本发明实施方式的第二方面中,提供了一种中文诊疗信息的自然语言处理系统,包括:
词典数据库,用于提供本体词典、诊疗方位词典和诊疗等级词典;其中,
所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项目所针对的方位的词语;
所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项目的级别、类型的词语;
输入模块,用于输入中文诊疗信息字符串;
预处理模块,用于对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串;
切分模块,用于基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;其中,
所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
借助于上述技术方案,本发明充分考虑了医疗从业人员输入的中文诊疗信息字符串属于自然语言、格式复杂多样、没有统一标准等特点,利用预先建立的多种词典对中文诊疗信息字符串进行切分和匹配,以此将中文诊疗信息字符串识别成为符合医疗领域通用标准的术语。本发明在对中文诊疗信息字符串切分之后,将能够与本体直接匹配的第一类型子字符串直接作为最终的识别结果,而对于不能够与本体直接匹配的第二类型子字符串,则通过解析查找与其相匹配或达到预设匹配条件的一个或多个本体作为最终输出的结果,即,本发明对中文诊疗信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域通用标准的术语。本发明克服了现有技术无法顺利实现对中文诊疗信息进行自然与演化处理的问题,提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费用提供了便利。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景;
图2示意性地示出了本发明示例性的中文诊疗信息的自然语言处理方法流程图;
图3示意性地示出了本发明示例性方法中切分中文诊疗信息的流程图;
图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体的流程图;
图5示意性地示出了本发明示例性的中文诊疗信息的自然语言处理系统模块框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种中文诊疗信息的自然语言处理方法及系统。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,医疗从业人员在医疗信息化平台中输入的中文诊疗信息格式复杂多样,没有统一的标准,经常会出现采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况,导致计算机不能顺畅地实现对中文诊疗信息进行自然语言化处理。
更进一步的,本发明人发现,医疗从业人员输入的中文诊疗信息中经常会夹杂一些即便基于医疗领域的通用标准也不能够识别出的信息,例如夹杂在汉字中的符号、数字或不能识别的汉字等,这些符号、数字或不能识别的汉字有的可能是用于形容诊疗项目的等级、类型(如“I型”、“II型”、“A等”、“B等”),也有的可能表示诊疗项目所针对的方位(如“单侧”、“双侧”、“左侧”、“右侧”),还有可能是符合医疗领域通用标准的诊疗项目的俗称、简称或英文缩略语(如“全身骨显像”的俗称为“骨全身显像”)等等。总之,由于夹杂了一些基于医疗领域的通用标准所不能识别出的信息,也是计算机不能顺畅地识别中文诊疗信息的重要原因。
为此,本发明提供了一种中文诊疗信息的自然语言处理方法,基于该方法对中文诊疗信息进行的自然语言处理过程大致包括如下过程:
首先,输入中文诊疗信息字符串;
然后,对中文诊疗信息字符串进行预处理;
其次,参照预先建立的本体词典、诊疗方位词典、诊疗等级词典,将预处理后的中文诊疗信息切分成具有独立语义的两类子字符串:第一类型子字符串和第二类型子字符串;其中,第一类型子字符串和第二类型子字符串的区别是:第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配。
再次,对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
最后,输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体。
本发明中,“具有独立语义”是指切分出的这两类子字符串所表示的诊疗项目信息不受其之前或之后的字符所影响,仅通过子字符串内部的各个字符即可确定其完整的医学专业概念。例如,“椎管内麻醉”不能被切分为“椎管内”和“麻醉”,因为仅“麻醉”具有独立意义,而“椎管内”不是一个具有独立意义的医学专业概念,因此切分结果应该为“椎管内麻醉”,只有将这两者结合在一起才能表示这一诊疗信息,因此“椎管内麻醉”就是具有独立语义的。
本发明考虑到单纯地依据医疗领域的通用标准很有可能将具有关联关系的多个字符分别进行识别从而导致识别错误的问题,所以将中文诊疗信息切分成具有独立语义的子字符串,以有效避免上述问题的出现。
另外,本发明充分考虑了中文诊疗信息中可能出现的各种不被识别的符号、数字和汉字,所以在切分过程中参照了本体词典、诊疗方位词典、诊疗等级词典,通过与这些词典中的术语进行匹配,尽可能多得识别出现有技术单纯地依据医疗领域的通用标准所不能识别出的带有符号、数字和汉字的字符串;而对于利用这些词典也无法识别的带有符号、数字和汉字字符串,本发明基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有带有符号、数字和汉字的字符串识别。
本发明充分考虑了医疗从业人员输入的中文诊疗信息属于自然语言、格式复杂多样、没有统一标准等特点,能够将带符号、数字和汉字的中文诊疗信息字符串识别成为为符合医疗领域通用标准的术语,克服了现有技术无法顺利实现对中文诊疗信息进行自然与演化处理这一问题,提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费用提供了便利。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
图1中所示的场景包括医疗信息化平台100和中文诊疗信息自然语言处理系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个人数字助理等设备中的软件。中文诊疗信息自然语言处理系统200可以是运行于医院信息服务器中的软件等。医疗信息化平台100和中文诊疗信息自然语言处理系统200之间例如可以通过医院局域网等进行通信连接。
医疗从业人员(例如医生)在医疗信息化平台100中输入中文诊疗信息(例如用于治疗疾病的诊疗项目等)之后,这些中文诊疗信息被传输至中文诊疗信息自然语言处理系统200,由中文诊疗信息自然语言处理系统200对其进行识别,最后输出识别结果。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性的用于中文诊疗信息的自然语言处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
例如,参见图2所示,为本发明示例性的中文诊疗信息的自然语言处理方法,包括:
步骤S21,输入中文诊疗信息字符串。
步骤S22,对中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串。
该步骤的目的是将中文诊疗信息字符串中的字符转换成统一的编码格式,以便后续处理。
可选地,该步骤可以按照如下具体方式实施:对中文诊疗信息字符串中的非汉字进行格式归一化处理(例如,将中文诊疗信息字符串中的符号全部转换为半角格式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并删除中文诊疗信息字符串中的非医学术语。其中非医学术语由一预先建立的非医学术语词典提供,且非医学术语为起备注作用的词语、短语或描述性语句(例如“开检查”、“补急诊记账”、“床位费超标自费”、“超过一个月加收,不足一个月按月收”、“儿科加收”等)。
步骤S23,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串。
其中,第一类型子字符串和第二类型子字符串具有独立语义,即所表示的诊疗项目信息不受其之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配。
本体词典包括若干本体,这些本体是标准诊疗术语或扩充诊疗术语。
标准术语是《全国医疗服务价格项目规范》中规定的项目名称,或者是《国际疾病分类》ICD(如《国际疾病分类第9版临床修订第3卷》ICD-9-CM-3)中规定的手术操作名称。
扩充诊疗术语为与标准诊疗术语具有同义关系的词语或具有属种关系的词语。例如,与标准诊疗术语具有属种关系的扩充诊疗术语,可以是来自各个地区的诊疗目录及结算单中的诊疗项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,对标准诊疗术语进行细化或补充,在概念上涵盖标准诊疗术语或被标准诊疗术语所涵盖的诊疗项目名称;而与标准诊疗术语具有同义关系的扩充诊疗术语,可以是来自各个地区的诊疗目录及结算单中的诊疗项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,在概念上或应用上与标准诊疗术语等同的诊疗项目名称。
如表1所示为本体词典包括的部分标准诊疗术语和扩充诊疗术语。
表1
诊疗方位词典包括若干诊疗方位术语,诊疗方位术语是用于描述诊疗项目所针对的方位的词语,例如表2所示为诊疗方位词典包括的部分诊疗方位术语。
表2
诊疗方位术语
单侧
双侧
左侧
右侧
两侧
一侧
诊疗等级词典包括若干诊疗等级术语,诊疗等级术语是用于描述诊疗项目的级别、类型等的词语,例如表3所示为诊疗等级词典包括的部分诊疗等级术语。
表3
诊疗等级术语
A等
B等
C等
特等
该步骤的目的是将中文诊疗信息切分成具有独立语义的子字符串(第一类型子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。
下文将以实施例一详细介绍步骤S23的一种具体实施方式。
步骤S24,对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
该步骤的目的是对于利用预先建立的各种词典也无法识别的符号、数字和汉字,基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有符号、数字和汉字的识别。
下文将以实施例二详细介绍步骤S24的一种具体实施方式。
步骤S25,输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体。
其中,第一类型子字符串相匹配的本体和第二类型子字符串相匹配的本体是本发明示例性方法的精确匹配结果,而与第二类型子字符串达到预设匹配条件的一个或多个本体是本发明示例性方法的模糊匹配结果。
考虑到扩充诊疗术语并非是符合医疗领域通用标准的术语,而标准诊疗术语才是符合医疗领域通用标准的术语,为了便于后续能方便、有效地利用本示例性方法输出的自然语言处理结果,可选地,该步骤可以按照如下规则执行:判断判断第一类型子字符串相匹配的本体、第二类型子字符串相匹配的本体、与第二类型子字符串达到预设匹配条件的本体是标准诊疗术语还是扩充诊疗术语;如果是标准诊疗术语,则直接输出该标准诊疗术语;如果是扩充诊疗术语,则输出与该扩充诊疗术语具有同义关系或从属关系的标准诊疗术语。
实施例一
参见图3所示,为本发明示例性方法中步骤S23的一实施方式示例。
如图3所示,对中文诊疗信息的切分过程可以包括:
步骤S30,判断预处理后的中文诊疗信息字符串是否包含符号;如果包含符号,则执行步骤S31;如果未包含符号,则执行步骤S32。
步骤S31,将预处理后的中文诊疗信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S311;若匹配失败,则执行步骤S312。
步骤S311,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
步骤S312,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步骤S33。
步骤S31、步骤S311、步骤S312依据的处理规则是:将相邻符号之间的全部字符作为整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
例如表5所示对“轻链KAPPA、LAMBDA定量(K-LC,λ-LC);颅内动脉瘤夹闭术”的切分,其中,“轻链KAPPA、LAMBDA定量(K-LC,λ-LC)”、“颅内动脉瘤夹闭术”均为符号之间的全部字符,并且可以查找到相匹配的本体,因此,分别被切分出来。
表5
步骤S32,采用机械分词法将预处理后的中文诊疗信息字符串与本体词典中的本体进行匹配;若预处理后的中文诊疗信息字符串中的所有字符均能够与本体匹配,则执行步骤S321;若预处理后的中文诊疗信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则执行步骤S322。
步骤S321,依据所匹配的本体将预处理后的中文诊疗信息字符串中的字符切分出来作为第一类型子字符串。
步骤S322,判断未能与本体匹配的单个字符或多个连续的字符是否是诊疗方位术语或诊疗等级术语;如果是诊疗方位术语或诊疗等级术语,则执行步骤S3221;如果不是诊疗方位术语或诊疗等级术语,则执行步骤S3222。
步骤S32、步骤S321、步骤S322依据的处理规则是:采用机械分词法将预处理后的中文诊疗信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的本体时才切分,否则暂时不予切分。
例如表6所示为对“血脂常规检查隐血试验”的切分,采用机械分词法可分别查找到“血脂常规检查”和“隐血试验”相匹配的本体,因此,分别被切分出来。
表6
步骤S32采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。具体的切分过程,本实施例不再赘述。
步骤S3221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中文诊疗信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串。
步骤S3222,将预处理后的中文诊疗信息字符串整体切分出来作为第二类型子字符串。
步骤S3221、步骤S3222依据的处理规则是:如果未能与本体匹配的单个字符或多个连续的字符是诊疗方位术语或诊疗等级术语,则执行切分,并且切分时是将其与其之前或之后的字符合并切分出来。
例如表7所示为对“肺减容手术右侧肺修补术”的切分,采用机械分词法可分别查找到“肺减容手术”、“肺修补术”相匹配的本体,其中的“右侧”为诊疗方位术语,因此,将“右侧”与“肺修补术”合并切分出来,“肺减容手术”单独切分出来。
表7
步骤S33,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符串中包含特殊符号,则执行步骤S331;如果暂不切分字符串中不包含特殊符号,则执行步骤S333。
步骤S331,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供,且字符模型具有一一对应的切分规则。
步骤332,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第二类型子字符串;
步骤S333,将暂不切分字符串直接确定为第二类型子字符串。
步骤S33、步骤S331、步骤332、步骤S333依据的处理规则是:当暂不切分字符串中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分出来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
例如预设的特殊符号可以包括但不限于句号、冒号、加号、分号、斜杠线等等。
例如以下为字符模型库中的部分字符模型及其切分规则:
(1)字符模型:XAY型,A为加号、冒号;
切分规则:将XAY作为整体切分出来;
(2)字符模型:CDE型,且C、E之一为汉字,D为句号、分号;
切分规则:将C、E中的汉字切分出来;
(3)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
切分规则:将STU作为整体切分出来。
例如对“血脂(P)。肾脏功能检测(P)”进行切分,经查找字符模型库可知属于CDE型,则将“血脂(P)”、“肾脏功能检测(P)”单独切分出来。
例如对“网织红细胞计数+血细胞五分类”进行切分,经查找字符模型库可知属于XAY型,则将“网织红细胞计数+血细胞五分类”整体切分出来。
例如对“初查:RPR+TPPA”进行切分,经查找字符模型库可知属于XAY型,则将“初查:RPR+TPPA”整体切分出来。
例如对“3/4喉切除术及喉功能重建术”进行切分,经查找字符模型库可知属于STU型,则将“3/4喉切除术及喉功能重建术”整体切分出来。
实施例二
参见图4所示,为本发明示例性方法中步骤S24的一实施方式示例。
如图4所示,查找第二类型子字符串相匹配或达到预设匹配条件的本体的过程可以包括:
步骤S40,对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到第二类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行第一维度的解析可以包括但不限于:
(1)确定解析对象中包含的诊疗方位术语,如果其中不包含诊疗方位术语,则该项解析结果为空;
(2)确定解析对象中包含的诊疗等级术语,如果其中不包含诊疗等级术语,则该项解析结果为空;
(3)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空;
(4)确定解析对象中破折号后的字符,如果其中不包含破折号,则该项解析结果为空;以及,
(5)确定解析对象中除诊疗方位术语、诊疗等级术语、括号内的字符、破折号后的字符以外的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限于:第二类型子字符串中的诊疗方位术语、第二类型子字符串中的诊疗等级术语、第二类型子字符串中括号内的字符、第二类型子字符串中破折号后的字符、第二类型子字符串中的剩余字符。
当解析对象为本体时,其各个第一维度解析结果可以包括但不限于:本体中的诊疗方位术语、本体中的诊疗等级术语、本体中括号内的字符、本体中破折号后的字符、本体中的剩余字符。
步骤S41,将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的各第一维度的解析结果进行匹配,查找是否存在某个本体的各第一维度解析结果均与第二类型子字符串的各第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S42,如果不存在这样的本体,则执行步骤S43。
步骤S42,将查找到的本体确定为第二类型子字符串相匹配的本体。
步骤S43,选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S431;如果不存在这样的本体,则执行步骤S432。
步骤S431,将查找到的本体确定为第二类型子字符串相匹配的本体。
分别将第二类型子字符串中包含的诊疗方位术语与本体中包含的诊疗方位术语进行匹配,将第二类型子字符串中包含的诊疗等级术语与本体中包含的诊疗等级术语进行匹配,将第二类型子字符串中括号内的字符与本体中括号内的字符进行匹配,将第二类型子字符串中破折号后的字符与本体中括号中破折号后的字符进行匹配,将第二类型子字符串中的剩余字符与本体中的剩余字符进行匹配。
如果全部的第一维度解析结果均匹配,则将该本体确定为第二类型子字符串相匹配的本体。
如果某些第一维度解析结果不匹配,则选取部分第一维度解析结果分别进行匹配。
考虑到第二类型子字符串中的剩余字符往往是第二类型子字符串的核心信息,因此,在具体实施中,较佳的,所选取的部分第一维度解析结果至少包括第二类型子字符串中的剩余字符,以及本体中的剩余字符。例如,仅选取解析对象的剩余字符和破折号后的字符分别进行匹配,或者,仅选取解析对象的剩余字符进行匹配,或者,还可以选取解析对象的剩余字符与诊疗方位术语或诊疗等级术语或括号内的字符或诊疗方位术语或诊疗等级术语分别进行匹配。
例如某一第二类型子字符串为“人工制定治疗计划(简单)--疗程中修改计划”,对其进行第一维度的解析,得到的解析结果如表11所示,如表12所示为与该第二类型子字符串相匹配的本体及其各个第一维度解析结果。
表11
与“人工制定治疗计划(简单)--疗程中修改计划”相匹配的本体“人工制定治疗计划(简单)”的第一维度解析结果如表12所示:
表12
步骤S432,对第二类型子字符串和本体词典中的每个本体进行第二维度的解析,得到第二类型子字符串的各第二维度解析结果,以及本体词典中每个本体的各第二维度解析结果。
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行预设维度的解析可以包括但不限于:
(1)确定解析对象中的每个汉字;
(2)确定解析对象中每个汉字的声母;
(3)确定解析对象中每个汉字的韵母;
(4)确定解析对象的首字符;
(5)确定解析对象的首字符的拼音;以及,
(6)确定解析对象中的非汉字字符,如果其中不包含非汉字字符,则该项解析结果为空。
当解析对象为第二类型子字符串时,其各个维度的解析结果可以包括但不限于:第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。
当解析对象为词条时,解析结果可以包括但不限于:词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。
例如,表13为第二类型子字符串“乳牙拔除术”的各第二维度解析结果。
表13
步骤S433,按照如下公式计算第二类型子字符串与每个本体的相似度:
M = Σ t i n q ( t f t i n d · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) )
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
其中,解析对象的各第二维度分别是:每个汉字、每个汉字的声母、每个汉字的韵母、首字符、首字符的拼音、非汉字字符。
步骤S434,根据第二类型子字符串与各个本体的相似度,确定一个或多个本体作为第二类型子字符串相匹配的本体。
可选地,该步骤可以有如下的具体实施方式:按照与第二类型子字符串的相似度的大小对全部本体排序,并将其中排序靠前的预设数量的本体确定为第二类型子字符串相匹配的本体;或者,将与第二类型子字符串的相似度达到预设阈值的一个或多个本体,确定为第二类型子字符串相匹配的本体。
具体实施本发明时,为了明确第二类型子字符串与每一个相匹配的本体的相似度并对其加以利用,还可以在最终输出的结果中还可以包括第二类型子字符串与其相匹配的各个本体的相似度。例如,输出第二类型子字符串与各个相匹配的本体的相似度,然后可以根据相似度的大小,通过人工方式从中再选出一个作为第二类型子字符串相匹配的本体。
具体实施本发明时,如果对第二类型子字符串与本体相似程度的计算有更高、更准确的要求,则还可以计算第二类型子字符串与其相匹配的各个本体的总置信度。其中,总置信度按照如下过程计算:
步骤S51,确定第二类型子字符串中的每个汉字。
步骤S52,按照如下公式计算第二类型子字符串与其相匹配的各个本体的余弦置信度:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号。
步骤S53,按照如下公式计算第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,S表示总置信度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值。
例如,假设第二类型子字符串“乳牙拔除术”的一个相匹配的本体为“恒牙拔除术”,其中每个汉字的出现频次如表14所示。
表14
则第二类型子字符串“乳牙拔除术”与本体“恒牙拔除术”的余弦置信度为:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2 = ( 0 × 1 ) + ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 0 ) ( 0 + 1 2 + 1 2 + 1 2 + 1 2 + 1 2 ) × ( 1 2 + 1 2 + 1 2 + 1 2 + 1 2 + 0 ) = 4 5 = 0.8
假设根据前面计算相似度的公式计算得到“乳牙拔除术”与“恒牙拔除术”的相似度为0.70,计算总置信度时,相似度对应的权值为40%,余弦置信度对应的权值为60%,则“乳牙拔除术”与“恒牙拔除术”的总置信度为:
S=M×a+N×(1-a)=0.70×40%+0.67×60%=0.68
示例性系统
在介绍了本发明示例性实施方式的方法之后,接下来,结合图1所示的应用场景,参考图5对本发明示例性实施方式的中文诊疗信息的自然语言处理系统100进行介绍。
如图5所示,本发明示例性实施方式的中文诊疗信息的自然语言处理系统100包括:
词典数据库51,用于提供本体词典、诊疗方位词典和诊疗等级词典。
本体词典包括若干本体,本体为标准诊疗术语或扩充诊疗术语;标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。
诊疗方位词典包括若干诊疗方位术语,诊疗方位术语是用于描述诊疗项目所针对的方位的词语。
诊疗等级词典包括若干诊疗等级术语,诊疗等级术语是用于描述诊疗项目的级别的词语。
输入模块52,用于输入中文诊疗信息字符串。
预处理模块53,用于对中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串。
切分模块54,用于基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串。
其中,第一类型子字符串和第二类型子字符串所表示的诊疗项目信息不受其在中文诊疗信息字符串中所在位置之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配。
匹配模块55,用于对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
输出模块56,用于输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体。
本发明示例性实施方式的中文诊疗信息的自然语言处理系统与本发明示例性实施方式的中文诊疗信息的自然语言处理方法基于相同的发明思想实现,其具体实施方式可参照前述对中文诊疗信息的自然语言处理方法的介绍,此处不再赘述。
应当注意,尽管在上文详细描述中提及了中文诊疗信息的自然语言处理系统的若干模块,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims (12)

1.一种中文诊疗信息的自然语言处理方法,包括:
步骤1,输入中文诊疗信息字符串;
步骤2,对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串;
步骤3,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项目所针对的方位的词语;
所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项目的级别、类型的词语;
步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
2.根据权利要求1所述的中文诊疗信息的自然语言处理方法,其中,所述步骤2包括:
对所述中文诊疗信息字符串中的非汉字进行格式归一化处理,并删除所述中文诊疗信息字符串中的非医学术语,得到预处理后的中文诊疗信息字符串,其中所述非医学术语由一预先建立的非医学术语词典提供,且所述非医学术语为起备注作用的词语、短语或句子。
3.根据权利要求2所述的中文诊疗信息的自然语言处理方法,其中,所述步骤3包括:
判断所述预处理后的中文诊疗信息字符串是否包含符号;
如果所述预处理后的中文诊疗信息字符串包含符号,则将所述预处理后的中文诊疗信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则将该相邻两个符号之间的字符切分出来作为第一类型子字符串;若匹配失败,则将该相邻两个符号及其之间的字符确定为暂不切分字符串,并判断所述暂不切分字符串中是否包含预设的特殊符号;
若所述暂不切分字符串中包含特殊符号,则查找所述暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符作为第一类型子字符串,若匹配失败,则将该切分出来的字符作为第二类型子字符串;其中,所述字符模型由一预先建立的字符模型库提供,且所述字符模型具有一一对应的切分规则;
若所述暂不切分字符串中不包含特殊符号,则将所述暂不切分字符串直接确定为第二类型子字符串;
如果所述预处理后的中文诊疗信息字符串未包含符号,则采用机械分词法将所述预处理后的中文诊疗信息字符串中的单个字符或多个连续的字符与所述本体词典中的本体进行匹配;
若所述预处理后的中文诊疗信息字符串中的所有字符均能够与本体匹配,则依据所匹配的本体将所述预处理后的中文诊疗信息字符串中的单个字符或多个连续的字符切分出来作为第一类型子字符串;
若所述预处理后的中文诊疗信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则判断所述未能与本体匹配的单个字符或多个连续的字符是否为诊疗方位术语或诊疗等级术语;
当所述未能与本体匹配的单个字符或多个连续的字符为诊疗方位术语或诊疗等级术语时,根据所述未能与本体匹配的单个字符或多个连续的字符在所述预处理后的中文诊疗信息字符串中的位置,将所述未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将所述预处理后的中文诊疗信息字符串中其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串;
当所述未能与本体匹配的单个字符或多个连续的字符不为诊疗方位术语或诊疗等级术语时,将所述预处理后的中文诊疗信息字符串整体切分出来作为第二类型子字符串。
4.根据权利要求3所述的中文诊疗信息的自然语言处理方法,其中,所述机械分词法为正向最大匹配型,或逆向最大匹配型,或最少切分型。
5.根据权利要求1所述的中文诊疗信息的自然语言处理方法,其中,所述步骤4包括:
对所述第二类型子字符串和所述本体词典中的每个本体进行第一维度的解析,得到所述第二类型子字符串的若干第一维度解析结果,以及所述本体词典中每个本体的若干第一维度解析结果;
将所述第二类型子字符串的各第一维度解析结果与所述本体词典中每个本体的各第一维度解析结果进行匹配,判断是否存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体;
如果存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
如果不存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则选取所述第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与所述本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并判断是否存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体;
若存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
若不存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则对所述第二类型子字符串和所述本体词典中的每个本体进行第二维度的解析,得到所述第二类型子字符串的若干第二维度解析结果,以及所述本体词典中每个本体的若干第二维度解析结果;
按照如下公式计算所述第二类型子字符串与每个本体的相似度:
M = Σ t i n q ( t f t i n d · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) )
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
根据所述第二类型子字符串与各个本体的相似度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体。
6.根据权利要求5所述的中文诊疗信息的自然语言处理方法,其中,所述第二类型子字符串\所述本体的各第一维度解析结果分别是:
所述第二类型子字符串\所述本体中的诊疗方位术语;
所述第二类型子字符串\所述本体中的诊疗等级术语;
所述第二类型子字符串\所述本体中括号内的字符;
所述第二类型子字符串\所述本体中破折号后的字符;以及,
所述第二类型子字符串\所述本体中除诊疗方位术语、诊疗等级术语、括号内的字符、破折号后的字符以外的字符;
所述第二类型子字符串\所述本体的全部第一维度解析结果中的部分第一维度解析结果包括:所述二类型子字符串中\所述本体中除诊疗方位术语、诊疗等级术语、括号内的字符、破折号后的字符以外的字符;以及,以下各项中的一项或多项:
所述第二类型子字符串\所述本体中的诊疗方位术语、诊疗等级术语;
所述第二类型子字符串\所述本体中括号内的字符;
所述第二类型子字符串\所述本体中破折号后的字符。
7.根据权利要求5所述的中文诊疗信息的自然语言处理方法,其中,所述第二类型子字符串\所述本体的各第二维度解析结果分别是:
所述第二类型子字符串\所述本体的每个汉字;
所述第二类型子字符串\所述本体的每个汉字的声母;
所述第二类型子字符串\所述本体的每个汉字的韵母;
所述第二类型子字符串\所述本体的首字符;
所述第二类型子字符串\所述本体的首字符的拼音;以及,
所述第二类型子字符串\所述本体中的非汉字字符。
8.根据权利要求5所述的中文诊疗信息的自然语言处理方法,其中,所述的根据所述第二类型子字符串与各个本体的相似度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体的步骤,包括:
按照与所述第二类型子字符串的相似度的大小对全部本体排序,并将其中排序靠前的预设数量的本体确定为所述第二类型子字符串相匹配的本体;
或者,
将与所述第二类型子字符串的相似度达到预设阈值的一个或多个本体,确定为所述第二类型子字符串相匹配的本体。
9.根据权利要求5所述的中文诊疗信息的自然语言处理方法,其中,所述步骤4还包括:
输出所述第二类型子字符串与其相匹配的各个本体的相似度。
10.根据权利要求5所述的中文诊疗信息的自然语言处理方法,其中,所述步骤4还包括:
输出所述第二类型子字符串与其相匹配的各个本体的总置信度;其中,所述总置信度的计算过程如下:
确定所述第二类型子字符串中的每个汉字;
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的余弦置信度:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号;
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,S表示总置信度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值。
11.根据权利要求1所述的中文诊疗信息的自然语言处理方法,其中,所述步骤5包括:
判断所述第一类型子字符串相匹配的本体、所述第二类型子字符串相匹配的本体、与所述第二类型子字符串达到预设匹配条件的本体是标准诊疗术语还是扩充诊疗术语;
如果是标准诊疗术语,则直接输出该标准诊疗术语;
如果是扩充诊疗术语,则输出与该扩充诊疗术语具有同义关系或从属关系的标准诊疗术语。
12.一种中文诊疗信息的自然语言处理系统,包括:
词典数据库,用于提供本体词典、诊疗方位词典和诊疗等级词典;其中,
所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项目所针对的方位的词语;
所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项目的级别、类型的词语;
输入模块,用于输入中文诊疗信息字符串;
预处理模块,用于对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字符串;
切分模块,用于基于所述本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;其中,
所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
CN201510496497.5A 2015-08-13 2015-08-13 一种中文诊疗信息的自然语言处理方法及系统 Active CN105138829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510496497.5A CN105138829B (zh) 2015-08-13 2015-08-13 一种中文诊疗信息的自然语言处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510496497.5A CN105138829B (zh) 2015-08-13 2015-08-13 一种中文诊疗信息的自然语言处理方法及系统

Publications (2)

Publication Number Publication Date
CN105138829A true CN105138829A (zh) 2015-12-09
CN105138829B CN105138829B (zh) 2018-01-12

Family

ID=54724175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510496497.5A Active CN105138829B (zh) 2015-08-13 2015-08-13 一种中文诊疗信息的自然语言处理方法及系统

Country Status (1)

Country Link
CN (1) CN105138829B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599530A (zh) * 2016-10-31 2017-04-26 北京千安哲信息技术有限公司 一种检测数据的处理方法和装置
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN110189831A (zh) * 2019-06-06 2019-08-30 厦门大学 一种基于动态图序列的病历知识图谱构建方法及系统
CN110222045A (zh) * 2019-04-23 2019-09-10 平安科技(深圳)有限公司 一种数据报表获取方法、装置及计算机设备、存储介质
CN111125311A (zh) * 2019-12-24 2020-05-08 医渡云(北京)技术有限公司 检验信息归一处理的方法、装置、存储介质及电子设备
CN112765318A (zh) * 2021-01-20 2021-05-07 阅尔基因技术(苏州)有限公司 一种用于不孕不育症临床表型信息的自然语言处理方法及系统
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置
CN110222045B (zh) * 2019-04-23 2024-05-28 平安科技(深圳)有限公司 一种数据报表获取方法、装置及计算机设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102331999A (zh) * 2011-07-22 2012-01-25 大连亿创天地科技发展有限公司 一种用于医疗行业搜索框检索方法及系统
US8793273B1 (en) * 2011-06-29 2014-07-29 Google Inc. Parsing framework method and device
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793273B1 (en) * 2011-06-29 2014-07-29 Google Inc. Parsing framework method and device
CN102331999A (zh) * 2011-07-22 2012-01-25 大连亿创天地科技发展有限公司 一种用于医疗行业搜索框检索方法及系统
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J.-R. FALLERI等: "《18th IEEE International Conference on Program Comprehension》", 31 December 2010 *
RAZVAN C.BUNESCU等: ""Statistical Relational Learning for Natural Language Information Extraction"", 《STATISTICAL RELATIONAL LEARNING LISE GETOOR AND BEN TASKAR》 *
徐飞等: ""中文分词切分技术研究"", 《计算机工程与科学》 *
顾轶灵: ""基于多维语义的互联网药品信息提取方法"", 《计算机系统应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599530A (zh) * 2016-10-31 2017-04-26 北京千安哲信息技术有限公司 一种检测数据的处理方法和装置
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN106874643B (zh) * 2016-12-27 2020-02-28 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN110222045A (zh) * 2019-04-23 2019-09-10 平安科技(深圳)有限公司 一种数据报表获取方法、装置及计算机设备、存储介质
CN110222045B (zh) * 2019-04-23 2024-05-28 平安科技(深圳)有限公司 一种数据报表获取方法、装置及计算机设备、存储介质
CN110189831A (zh) * 2019-06-06 2019-08-30 厦门大学 一种基于动态图序列的病历知识图谱构建方法及系统
CN111125311A (zh) * 2019-12-24 2020-05-08 医渡云(北京)技术有限公司 检验信息归一处理的方法、装置、存储介质及电子设备
CN112765318A (zh) * 2021-01-20 2021-05-07 阅尔基因技术(苏州)有限公司 一种用于不孕不育症临床表型信息的自然语言处理方法及系统
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置

Also Published As

Publication number Publication date
CN105138829B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
US11531804B2 (en) Enhancing reading accuracy, efficiency and retention
CN105138829A (zh) 一种中文诊疗信息的自然语言处理方法及系统
CN105095665A (zh) 一种中文疾病诊断信息的自然语言处理方法及系统
CN105184053A (zh) 一种中文医疗服务项目信息的自动编码方法及系统
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
Patrick et al. A knowledge discovery and reuse pipeline for information extraction in clinical notes
CN105069124A (zh) 一种自动化的国际疾病分类编码方法及系统
Soysal et al. Design and evaluation of an ontology based information extraction system for radiological reports
US20120239378A1 (en) Methods and Systems for Alignment of Parallel Text Corpora
Boytcheva Automatic matching of ICD-10 codes to diagnoses in discharge letters
Păiș et al. Named entity recognition in the Romanian legal domain
Dynomant et al. Word embedding for the French natural language in health care: comparative study
Demner-Fushman et al. Natural language processing for health-related texts
Inkpen et al. Term evaluator: A tool for terminology annotation and evaluation
Stenzhorn et al. Automatic mapping of clinical documentation to SNOMED CT
Chen et al. Semantic analysis of free text and its application on automatically assigning ICD-9-CM codes to patient records
Bunt A semantic annotation scheme for quantification
Haque et al. B-ner: A novel bangla named entity recognition dataset with largest entities and its baseline evaluation
Pakzad et al. An improved joint model: POS tagging and dependency parsing
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
Kang et al. Erasmus MC approaches to the i2b2 Challenge
CN114334049A (zh) 一种电子病历结构化处理方法和装置及设备
Begert et al. Towards automating systemati c reviews on immunization using an advanced natural language processing–base d extraction system
Han et al. NCU-IISR: Pre-trained Language Model for CANTEMIST Named Entity Recognition.
Wang et al. End-to-end pre-trained dialogue system for automatic diagnosis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant