CN105095665A - 一种中文疾病诊断信息的自然语言处理方法及系统 - Google Patents

一种中文疾病诊断信息的自然语言处理方法及系统 Download PDF

Info

Publication number
CN105095665A
CN105095665A CN201510496445.8A CN201510496445A CN105095665A CN 105095665 A CN105095665 A CN 105095665A CN 201510496445 A CN201510496445 A CN 201510496445A CN 105095665 A CN105095665 A CN 105095665A
Authority
CN
China
Prior art keywords
type
ontology
disease
type substring
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510496445.8A
Other languages
English (en)
Other versions
CN105095665B (zh
Inventor
陈志永
朱华玲
黄玉丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Original Assignee
Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebaotech Internet Medical Information Technology (beijing) Co Ltd filed Critical Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority to CN201510496445.8A priority Critical patent/CN105095665B/zh
Publication of CN105095665A publication Critical patent/CN105095665A/zh
Application granted granted Critical
Publication of CN105095665B publication Critical patent/CN105095665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种中文疾病诊断信息的自然语言处理方法及系统。该方法包括:参照预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将中文疾病诊断信息切分成具有独立语义的第一类型子字符串和第二类型子字符串;其中,第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体直接匹配;对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体;输出第一类型子字符串和第二类型子字符串相匹配的本体。本发明的方法提升了中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。

Description

一种中文疾病诊断信息的自然语言处理方法及系统
技术领域
本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种中文疾病诊断信息的自然语言处理方法及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率,给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
依托医疗信息化平台,医疗从业人员可在计算机中直接输入疾病诊断结果等医疗信息,为共享医疗信息和查阅医疗信息提供了极大方便。
发明内容
实际临床作业中每天会产生大量的病案信息,医疗从业人员会将这些病案信息以中文疾病诊断信息的形式输入医疗信息化平台中,研究和利用中文疾病诊断信息对于医疗信息化发展具有非常重要的意义。由于每天都会有海量的中文疾病诊断信息输入,仅靠人工力量识别这些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。
但是由于输入的中文疾病诊断信息属于自然语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文疾病诊断信息具有相当大的难度。
为了提高计算机对中文疾病诊断信息的识别成功率,非常需要一种中文疾病诊断信息的自然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文疾病诊断信息。
在本上下文中,本发明的实施方式期望提供一种中文疾病诊断信息的自然语言处理方法及系统。
在本发明实施方式的第一方面中,提供了一种中文疾病诊断信息的自然语言处理方法,包括:
步骤1,输入中文疾病诊断信息字符串;
步骤2,对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;
步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至少两种疾病并发出现的词语;
所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾病发病部位的词语;
步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
在本发明实施方式的第二方面中,提供了一种中文疾病诊断信息的自然语言处理系统,包括:
词典数据库,用于提供本体词典、疾病程度术语词典、疾病并发术语词典和发病部位术语词典;其中,
所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至少两种疾病并发出现的词语;
所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾病发病部位的词语;
输入模块,用于输入中文疾病诊断信息字符串;
预处理模块,用于对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;
切分模块,用于基于所述本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类型子字符串;其中,
所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
本发明实施方式提供的中文疾病诊断信息的自然语言处理方法及系统,充分考虑了医疗从业人员输入的中文疾病诊断信息字符串属于自然语言、格式复杂多样、没有统一标准等特点,利用预先建立的多种词典对中文疾病诊断信息字符串进行切分和匹配,以此将中文疾病诊断信息字符串识别成为符合医疗领域通用标准的术语。本发明在对中文疾病诊断信息字符串切分之后,将能够与本体直接匹配的第一类型子字符串直接作为最终的识别结果,而对于不能够与本体直接匹配的第二类型子字符串,则通过解析查找与其相匹配或达到预设匹配条件的一个或多个本体作为最终输出的结果,即,本发明对中文疾病诊断信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域通用标准的术语。本发明克服了现有技术无法顺利实现对中文疾病诊断信息进行自然与演化处理的问题,提升了中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了本发明实施方式的应用场景;
图2示意性地示出了本发明示例性的中文疾病诊断信息的自然语言处理方法流程图;
图3示意性地示出了本发明示例性方法中切分中文疾病诊断信息的流程图;
图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体的流程图;
图5示意性地示出了本发明示例性的中文疾病诊断信息的自然语言处理系统模块框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种中文疾病诊断信息的自然语言处理方法及系统。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,医疗从业人员在医疗信息化平台中输入的中文疾病诊断信息格式复杂多样,没有统一的标准,经常会出现采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况,导致计算机不能顺畅地实现对中文疾病诊断信息进行自然语言化处理。
更进一步的,本发明人发现,医疗从业人员输入的中文疾病诊断信息中经常会夹杂一些即便基于医疗领域通用标准也不能够识别出的信息,例如夹杂在汉字中的符号、数字或不能识别的汉字等,这些符号或数字有的可能是用于形容疾病的严重程度(如“糖尿病I型”、“糖尿病II型”),也有的可能表示对疾病诊断结果还需进一步确诊(如“肝癌,晚期?”),这些不能识别的汉字可能是疾病名称的俗称、简称或英文缩略语(如“冠状动脉粥样硬化性心脏病”的俗称为“冠心病”)等等。总之,由于夹杂了一些基于医疗领域通用标准所不能识别出的信息,也是计算机不能顺畅地识别中文疾病诊断信息的重要原因。
为此,本发明提供了一种中文疾病诊断信息的自然语言处理方法,基于该方法对中文疾病诊断信息进行的自然语言处理过程大致包括如下过程:
首先,输入中文疾病诊断信息字符串;
然后,对中文疾病诊断信息字符串进行预处理;
其次,参照预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将预处理后的中文疾病诊断信息切分成具有独立语义的两类子字符串:第一类型子字符串和第二类型子字符串;其中,第一类型子字符串和第二类型子字符串的区别是:第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配。
再次,对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体。
最后,输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的本体。
本发明中,“具有独立语义”是指切分出的这两类子字符串所表示的医疗信息不受其之前或之后的字符所影响,仅通过子字符串内部的各个字符即可确定其完整的医学专业概念。例如,“急性肾性贫血”不能被切分为“急性”和“肾性贫血”,因为仅“肾性贫血”具有独立意义,而“急性”不是一个具有独立意义的医学专业概念,因此切分结果应该为“急性肾性贫血”,只有将这两者结合在一起才能表示这一医疗信息,因此“急性肾性贫血”就是具有独立语义的。
本发明中,预先建立的本体词典包括若干本体,本体为标准术语或扩充术语。国际疾病分类ICD版本中规定的疾病名称,可根据国际疾病分类ICD确定标准术语;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。
本发明中,预先建立的疾病程度术语词典包括若干疾病程度术语,疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型的词语。
本发明中,预先建立的疾病并发术语词典包括若干疾病并发术语,疾病并发术语是用于描述至少两种疾病并发出现的词语。
本发明中,预先建立的发病部位术语词典包括若干发病部位术语,发病部位术语是用于描述疾病发病部位的词语,即解剖术语。
本发明考虑到单纯地依据医疗领域的通用标准很有可能将具有关联关系的多个字符分别进行识别从而导致识别错误的问题,所以将中文疾病诊断信息切分成具有独立语义的子字符串,以有效避免上述问题的出现。
另外,本发明充分考虑了中文疾病诊断信息中可能出现的各种不被识别的符号、数字和汉字,所以在切分过程中参照了本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,通过与这些词典中的术语进行匹配,尽可能多得识别出现有技术单纯地依据医疗领域的通用标准所不能识别出的带有符号、数字和汉字的字符串;而对于利用这些词典也无法识别的带有符号、数字和汉字字符串,本发明基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有带有符号、数字和汉字的字符串识别。
本发明充分考虑了医疗从业人员输入的中文疾病诊断信息属于自然语言、格式复杂多样、没有统一标准等特点,能够将带符号、数字和汉字的中文疾病诊断信息字符串识别成为为符合医疗领域通用标准的术语,克服了现有技术无法顺利实现对中文疾病诊断信息进行自然与演化处理这一问题,提升了中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
图1中所示的场景包括医疗信息化平台100和中文疾病诊断信息的自然语言处理系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个人数字助理等设备中的软件。中文疾病诊断信息的自然语言处理系统200可以是运行于医院信息服务器中的软件等。医疗信息化平台100和中文疾病诊断信息的自然语言处理系统200之间例如可以通过医院局域网等进行通信连接。
医疗从业人员(例如医生)在医疗信息化平台100中输入中文疾病诊断信息(例如疾病诊断结果等)之后,这些中文疾病诊断信息被传输至中文疾病诊断信息的自然语言处理系统200,由中文疾病诊断信息的自然语言处理系统200对其进行识别,最后输出识别结果。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于中文疾病诊断信息的自然语言处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
例如,参见图2所示,为本发明一实施方式的中文疾病诊断信息的自然语言处理方法,包括:
步骤S21,输入中文疾病诊断信息字符串。
步骤S22,对中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串。
该步骤的目的是将中文疾病诊断信息字符串中的字符转换成统一的编码格式,以便后续处理。
可选地,该步骤可以按照如下具体方式实施:对中文疾病诊断信息字符串中的非汉字进行格式归一化处理(例如,将中文疾病诊断信息字符串中的符号全部转换为半角格式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并删除中文疾病诊断信息字符串中的非医学术语。其中非医学术语由一预先建立的非医学术语词典提供,且非医学术语为起备注作用的词语或描述性语句(例如“待查、原因、温馨提示、建议、如病情加重请随时就诊”等)。
步骤S23,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类型子字符串。
其中,第一类型子字符串和第二类型子字符串具有独立语义,即所表示的医疗信息不受其之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配。
本体词典包括若干本体,本体为标准术语或扩充术语;国际疾病分类ICD版本中规定的疾病名称;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。如表1所示为本体词典包括的部分标准术语和扩充术语。
表1
疾病程度术语词典包括若干疾病程度术语,疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期等的词语。如表2所示为疾病程度术语词典包括的部分疾病程度术语。
表2
疾病程度术语
重度
严重
重症
1-3级
Ⅰ-Ⅲ级
1-2级
Ⅰ-Ⅱ级
2-3级
Ⅱ-Ⅲ级
Ⅳ型
4型
Ⅱ型
2型
疾病并发术语词典包括若干疾病并发术语,疾病并发术语是用于描述至少两种疾病并发出现的词语。如表3所示为疾病并发术语词典包括的部分疾病并发术语。
表3
疾病并发术语
合并
发病部位术语词典包括若干发病部位术语,发病部位术语是用于描述疾病发病部位的词语。如表4所示为发病部位术语词典包括的部分发病部位术语。
表4
发病部位术语
胆管
肝内胆管
肝外胆管
心脏
内脏
脚部
足部
心底
心尖
胰腺
该步骤的目的是将中文疾病诊断信息切分成具有独立语义的子字符串(第一类型子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。
下文将以实施例一详细介绍步骤S23的具体实施方式。
步骤S24,对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
该步骤的目的是对于利用预先建立的各种词典也无法识别的符号、数字和汉字,基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有符号、数字和汉字的识别。
下文将以实施例二详细介绍步骤S24的具体实施方式。
步骤S25,输出第一类型子字符串相匹配的本体、第二类型子字符串相匹配的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体。
其中,第一类型子字符串相匹配的本体和第二类型子字符串相匹配的本体是本发明示例性方法的精确匹配结果,而与第二类型子字符串达到预设匹配条件的一个或多个本体是本发明示例性方法的模糊匹配结果。
考虑到扩充术语并非是符合医疗领域通用标准的术语,而标准术语才是符合医疗领域通用标准的术语,为了便于后续能方便、有效地利用上述自然语言处理结果,可选地,该步骤可以按照如下规则执行:判断判断所述第一类型子字符串相匹配的本体、所述第二类型子字符串相匹配的本体、与所述第二类型子字符串达到预设匹配条件的本体是标准诊疗术语还是扩充诊疗术语;如果是标准诊疗术语,则直接输出该标准诊疗术语;如果是扩充诊疗术语,则输出与该扩充诊疗术语具有同义关系或从属关系的标准诊疗术语。
实施例一
参见图3所示,为本发明示例性方法中步骤S23的一实施方式示例。
如图3所示,对中文疾病诊断信息的切分过程可以包括:
步骤S30,判断预处理后的中文疾病诊断信息字符串是否包含符号;如果包含符号,则执行步骤S31;如果未包含符号,则执行步骤S32。
步骤S31,将预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S311;若匹配失败,则执行步骤S312。
步骤S311,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
步骤S312,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步骤S33。
步骤S31、步骤S311、步骤S312依据的处理规则是:将相邻符号之间的全部字符作为整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
例如表5所示对“重度关节炎,并积血;A型胸腺瘤;冠心病”的切分,其中,“重度关节炎,并积血”、“A型胸腺瘤”和“冠心病”均为符号之间的全部字符,并且可以查找到相匹配的本体,因此,分别被切分出来。
表5
步骤S32,采用机械分词法将预处理后的中文疾病诊断信息字符串与本体词典中的本体进行匹配;若预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹配,则执行步骤S321;若预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则执行步骤S322。
步骤S321,依据所匹配的本体将预处理后的中文疾病诊断信息字符串中的字符切分出来作为第一类型子字符串。
步骤S322,判断未能与本体匹配的单个字符或多个连续的字符是否是疾病程度术语、疾病并发术语或发病部位术语,如果是疾病程度术语、疾病并发术语或发病部位术语,则执行步骤S3221;如果不是疾病程度术语、疾病并发术语或发病部位术语,则执行步骤S3222。
步骤S32、步骤S321、步骤S322依据的处理规则是:采用机械分词法将预处理后的中文疾病诊断信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的本体时才切分,否则暂时不予切分。
例如表6所示为对“高血压冠心病”的切分,采用机械分词法可分别查找到“高血压”和“冠心病”相匹配的本体,因此,分别被切分出来。
表6
步骤S32采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。具体的切分过程,本实施例不再赘述。
步骤S3221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中文疾病诊断信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串。
步骤S3222,将预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型子字符串。
步骤S3221、步骤S3222依据的处理规则是:如果未能与本体匹配的单个字符或多个连续的字符为疾病程度术语、疾病并发术语或发病部位术语,则执行切分,并且切分时是将其与其之前或之后的字符合并切分出来。
例如表7所示为对“前列腺增生伴急性尿潴留糖尿病”的切分,采用机械分词法可分别查找到“前列腺增生”、“急性尿潴留”和“糖尿病”相匹配的本体,其中的“伴”为疾病并发术语,因此,将“前列腺增生”与“急性尿潴留”合并切分出来,“糖尿病”单独切分出来。
表7
例如表8所示为对“前列腺增生急性肾性贫血”的切分,采用机械分词法可分别查找到“前列腺增生”和“肾性贫血”相匹配的本体,其中的“急性”为疾病程度术语,因此,将“前列腺增生”单独切分出来,将“急性”和“肾性贫血”合并切分出来。
表8
例如表9所示为对“亚急性支气管炎前列腺增生”的切分,采用机械分词法可分别查找到“支气管炎”和“前列腺增生”相匹配的本体,其中的“亚急性”为疾病程度术语,且“亚急性”在预处理后的中文疾病诊断信息字符串中的位置为开头,因此,将“亚急性”和“支气管炎”合并切分出来,将“前列腺增生”单独切分出来。
表9
例如表10所示为对“支气管炎前列腺癌晚期”的切分,采用机械分词法可分别查找到“支气管炎”和“前列腺癌”相匹配的本体,其中的“晚期”为疾病程度术语,且“晚期”在预处理后的中文疾病诊断信息字符串中的位置为末尾,因此,将“支气管炎”单独切分出来,将“前列腺癌”和“晚期”合并切分出来。
表10
步骤S33,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符串中包含特殊符号,则执行步骤S331;如果暂不切分字符串中不包含特殊符号,则执行步骤S333。
步骤S331,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供,且字符模型具有一一对应的切分规则。
步骤332,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第二类型子字符串;
步骤S333,将暂不切分字符串直接确定为第二类型子字符串。
步骤S33、步骤S331、步骤332、步骤S333依据的处理规则是:当暂不切分字符串中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分出来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
例如预设的特殊符号可以包括但不限于逗号、顿号、句号、冒号、加号、分号、斜杠线等等。
例如以下为字符模型库中的部分字符模型及其切分规则:
(1)字符模型:XABY型,A为数字,B为逗号、顿号或句号;
切分规则:分别将X和Y切分出来;
(2)字符模型:CDE型,且C、E之一为汉字,D为冒号;
切分规则:将C、E中的汉字切分出来;
(3)字符模型:FGH型,且F、H均为汉字,G为加号;
切分规则:将FGH作为整体切分出来;
(4)字符模型:IJK型,且I、K均为汉字,J为分号、句号、问号、叹号,
切分规则:将I和K分别切分出来;
(5)字符模型:LOP型,且L、P均均为汉字,O为冒号;
切分规则:将LOP作为整体切分出来;
(6)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
切分规则:将STU作为整体切分出来。
例如对“腹痛:?”进行切分,经查找字符模型库可知属于CDE型,则将“腹痛”单独切分出来。
例如对“先天性心脏病:室间隔缺损”进行切分,经查找字符模型库可知属于LOP型,则将“先天性心脏病:室间隔缺损”整体切分出来。
例如对“支/衣原体感染”进行切分,经查找字符模型库可知属于STU型,则将“支/衣原体感染”整体切分出来。
例如对“腹痛;前列腺炎”进行切分,经查找字符模型库可知属于IJK型,则将其切分为“腹痛”和“前列腺炎”。
例如对“1、颈椎病2、腰椎间盘膨出3、孕24+3周4、子宫脱垂,II度;5、支/衣原体感染”进行切分,经查找字符模型库可知该字符串涉及多种字符模型,最终切分出的字符分别为“颈椎病”、“腰椎间盘膨出”、“孕24+3周”、“子宫脱垂,II度”、“支/衣原体感染”,将这些切分出的字符继续与本体进行匹配,其中的“颈椎病”、“腰椎间盘膨出”能够与本体直接匹配,则作为第一类型子字符串,而“孕24+3周”、“子宫脱垂,II度”、“支/衣原体感染”不能够与本体直接匹配,则作为第二类型子字符串。
实施例二
参见图4所示,为本发明示例性方法中步骤S24的一实施方式示例。
如图4所示,查找第二类型子字符串相匹配的本体的过程可以包括:
步骤S40,对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到第二类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行第一维度的解析可以包括但不限于:
(1)确定解析对象中开头部分的字母,如果其中开头部分不是字母,则该项解析结果为空;
(2)确定解析对象中包含的疾病程度术语,如果其中不包含疾病程度术语,则该项解析结果为空;
(3)确定解析对象中逗号后的字符,如果其中不包含逗号,则该项解析结果为空;
(4)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空;以及,
(5)确定解析对象中除开头部分的字母、疾病程度术语、逗号后的字符、括号内的字符以外的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限于:第二类型子字符串开头部分的字母、第二类型子字符串中包含的疾病程度术语、第二类型子字符串中逗号后的字符、第二类型子字符串中括号内的字符、剩余字符。
当解析对象为本体时,其各个第一维度解析结果可以包括但不限于:本体开头部分的字母、本体中包含的疾病程度术语、本体中逗号后的字符、本体中括号内的字符、剩余字符。
步骤S41,将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的各第一维度解析结果进行匹配,查找是否存在某个本体的各第一维度解析结果均与第二类型子字符串的各第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S42,如果不存在这样的本体,则执行步骤S43。
步骤S42,将查找到的本体确定为第二类型子字符串相匹配的本体。
步骤S43,选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S431;如果不存在这样的本体,则执行步骤S432。
步骤S431,将查找到的本体确定为第二类型子字符串相匹配的本体。
分别将第二类型子字符串开头部分的字母与本体开头部分的字母进行匹配,将第二类型子字符串中包含的疾病程度术语与本体中包含的疾病程度术语进行匹配,将第二类型子字符串中逗号后的字符与本体中逗号后的字符进行匹配,将第二类型子字符串中括号内的字符与本体中括号内的字符进行匹配,将第二类型子字符串中的剩余字符与本体中的剩余字符进行匹配。
如果全部的第一维度解析结果均匹配,则将该本体确定为第二类型子字符串相匹配的本体。
如果某些第一维度解析结果不匹配,则选取部分第一维度解析结果分别进行匹配。
考虑到第二类型子字符串中的剩余字符往往是第二类型子字符串的核心词干,因此,在具体实施中,较佳的,所选取的部分第一维度解析结果至少包括第二类型子字符串中的剩余字符,以及本体中的剩余字符。例如,仅选取解析对象的剩余字符和疾病程度术语分别进行匹配,或者,仅选取解析对象的剩余字符进行匹配,或者,还可以选取解析对象的剩余字符与开头部分的字母或疾病程度术语或逗号后的字符或括号内的字符等分别进行匹配。
例如某一第二类型子字符串为“4型粘多糖存贮积症”,对其进行第一维度的解析,得到的解析结果如表11所示,如表12所示为与该第二类型子字符串相匹配的本体及其各个第一维度解析结果。
表11
表12
步骤S432,对第二类型子字符串和本体词典中的每个本体进行第二维度的解析,得到第二类型子字符串的各第二维度解析结果,以及本体词典中每个本体的各第二维度解析结果。
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行预设维度的解析可以包括但不限于:
(1)确定解析对象中的每个汉字;
(2)确定解析对象中每个汉字的声母;
(3)确定解析对象中每个汉字的韵母;
(4)确定解析对象的首字符;
(5)确定解析对象的首字符的拼音;以及,
(6)确定解析对象中的非汉字字符,如果其中不包含非汉字字符,则该项解析结果为空。
当解析对象为第二类型子字符串时,其各个维度的解析结果可以包括但不限于:第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。
当解析对象为词条时,解析结果可以包括但不限于:词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。
例如,表13为第二类型子字符串“高血压”的各第二维度解析结果。
表13
步骤S433,按照如下公式计算第二类型子字符串与每个本体的相似度:
M = Σ t i n q ( t f t i n d · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) )
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
其中,解析对象的各第二维度分别是:每个汉字、每个汉字的声母、每个汉字的韵母、首字符、首字符的拼音、非汉字字符。
步骤S434,根据第二类型子字符串与各个本体的相似度,确定一个或多个本体作为第二类型子字符串相匹配的本体。
可选地,该步骤可以有如下的具体实施方式:按照与第二类型子字符串的相似度的大小对全部本体排序,并将其中排序靠前的预设数量的本体确定为第二类型子字符串相匹配的本体;或者,将与第二类型子字符串的相似度达到预设阈值的一个或多个本体,确定为第二类型子字符串相匹配的本体。
具体实施本发明时,为了明确第二类型子字符串与每一个相匹配的本体的相似度并对其加以利用,还可以在最终输出的结果中还可以包括第二类型子字符串与其相匹配的各个本体的相似度。例如,输出第二类型子字符串与各个相匹配的本体的相似度,然后可以根据相似度的大小,通过人工方式从中再选出一个作为第二类型子字符串相匹配的本体。
具体实施本发明时,如果对第二类型子字符串与本体相似程度的计算有更高、更准确的要求,则还可以计算第二类型子字符串与其相匹配的各个本体的总置信度。其中,总置信度按照如下过程计算:
步骤S51,确定第二类型子字符串中的每个汉字。
步骤S52,按照如下公式计算第二类型子字符串与其相匹配的各个本体的余弦置信度:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号。
步骤S53,按照如下公式计算第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,S表示总置信度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值。
例如,假设第二类型子字符串“高血压”的一个相匹配的本体为“高血脂”,其中每个汉字的出现频次如表14所示。
表14
则第二类型子字符串“高血压”与本体“高血脂”的余弦置信度为:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2 = ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 0 ) + ( 0 × 1 ) ( 1 2 + 1 2 + 1 2 + 0 ) × ( 1 2 + 1 2 + 0 + 1 2 ) = 2 3 = 0.67
假设根据前面计算相似度的公式计算得到“高血压”与“高血脂”的相似度为0.70,计算总置信度时,相似度对应的权值为40%,余弦置信度对应的权值为60%,则“高血压”与“高血脂”的总置信度为:
S=M×a+N×(1-a)=0.70×40%+0.67×60%=0.68
示例性系统
在介绍了本发明示例性实施方式的方法之后,接下来,结合图1所示的应用场景,参考图5对本发明示例性实施方式的中文疾病诊断信息的自然语言处理系统100进行介绍。
如图5所示,本发明示例性实施方式的中文疾病诊断信息的自然语言处理系统100包括:
词典数据库51,提供本体词典、疾病程度术语词典、疾病并发术语词典和发病部位术语词典;其中,
本体词典包括若干本体,本体为标准术语或扩充术语;国际疾病分类ICD版本中规定的疾病名称;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语;
疾病程度术语词典包括若干疾病程度术语,疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
疾病并发术语词典包括若干疾病并发术语,疾病并发术语是用于描述至少两种疾病并发出现的词语;
发病部位术语词典包括若干发病部位术语,发病部位术语是用于描述疾病发病部位的词语;
输入模块52,用于输入中文疾病诊断信息字符串;
预处理模块53,用于对中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;
切分模块54,用于基于本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类型子字符串;其中,
第一类型子字符串和第二类型子字符串所表示的医疗信息不受其在中文疾病诊断信息字符串中所在位置之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配;
匹配模块55,用于对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
输出模块56,用于输出第一类型子字符串、第二类型子字符串相匹配的本体。
本发明示例性实施方式的中文疾病诊断信息的自然语言处理系统与本发明示例性实施方式的中文疾病诊断信息的自然语言处理方法基于相同的发明思想实现,其具体实施方式可参照前述对中文疾病诊断信息的自然语言处理方法的介绍,此处不再赘述。
应当注意,尽管在上文详细描述中提及了中文疾病诊断信息的自然语言处理系统的若干模块,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims (12)

1.一种中文疾病诊断信息的自然语言处理方法,包括:
步骤1,输入中文疾病诊断信息字符串;
步骤2,对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;
步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述标准术语为国际疾病分类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至少两种疾病并发出现的词语;
所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾病发病部位的词语;
步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
2.根据权利要求1所述的中文疾病诊断信息的自然语言处理方法,其中,所述步骤2包括:
对所述中文疾病诊断信息字符串中的非汉字进行格式归一化处理,并删除所述中文疾病诊断信息字符串中的非医学术语,得到预处理后的中文疾病诊断信息字符串,其中所述非医学术语由一预先建立的非医学术语词典提供,且所述非医学术语为起备注作用的词语。
3.根据权利要求1所述的中文疾病诊断信息的自然语言处理方法,其中,所述步骤3包括:
判断所述预处理后的中文疾病诊断信息字符串是否包含符号;
如果所述预处理后的中文疾病诊断信息字符串包含符号,则将所述预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则将该相邻两个符号之间的字符切分出来作为第一类型子字符串;若匹配失败,则将该相邻两个符号及其之间的字符确定为暂不切分字符串,并判断所述暂不切分字符串中是否包含预设的特殊符号;
若所述暂不切分字符串中包含特殊符号,则查找所述暂不切分字符串所属的字符
模型,并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分,将
切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符
作为第一类型子字符串,若匹配失败,则将该切分出来的字符作为第二类型子字符串;
其中,所述字符模型由一预先建立的字符模型库提供,且所述字符模型具有一一对应
的切分规则;
若所述暂不切分字符串中不包含特殊符号,则将所述暂不切分字符串直接确定为第二类型子字符串;
如果所述预处理后的中文疾病诊断信息字符串未包含符号,则采用机械分词法将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符与所述本体词典中的本体进行匹配;
若所述预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹配,则依据所匹配的本体将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符切分出来作为第一类型子字符串;
若所述预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则判断所述未能与本体匹配的单个字符或多个连续的字符是否为疾病程度术语、疾病并发术语或发病部位术语;
当所述未能与本体匹配的单个字符或多个连续的字符为疾病程度术语、疾病并发术语或发病部位术语时,根据所述未能与本体匹配的单个字符或多个连续的字符在所述预处理后的中文疾病诊断信息字符串中的位置,将所述未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将所述预处理后的中文疾病诊断信息字符串中其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串;
当所述未能与本体匹配的单个字符或多个连续的字符不为疾病程度术语、疾病并发术语或发病部位术语时,将所述预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型子字符串。
4.根据权利要求3所述的中文疾病诊断信息的自然语言处理方法,其中,所述机械分词法为正向最大匹配型,或逆向最大匹配型,或最少切分型。
5.根据权利要求1所述的中文疾病诊断信息的自然语言处理方法,其中,所述步骤4包括:
对所述第二类型子字符串和所述本体词典中的每个本体进行第一维度的解析,得到所述第二类型子字符串的若干第一维度解析结果,以及所述本体词典中每个本体的若干第一维度解析结果;
将所述第二类型子字符串的各第一维度解析结果与所述本体词典中每个本体的各第一维度解析结果进行匹配,判断是否存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体;
如果存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
如果不存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则选取所述第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与所述本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并判断是否存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体;
若存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
若不存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则对所述第二类型子字符串和所述本体词典中的每个本体进行第二维度的解析,得到所述第二类型子字符串的若干第二维度解析结果,以及所述本体词典中每个本体的若干第二维度解析结果;
基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度;
根据所述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体。
6.根据权利要求5所述的中文疾病诊断信息的自然语言处理方法,其中,所述第二类型子字符串\所述本体的各第一维度解析结果分别是:
所述第二类型子字符串\所述本体开头部分的字母;
所述第二类型子字符串\所述本体中的疾病程度术语;
所述第二类型子字符串\所述本体中逗号后的字符;
所述第二类型子字符串\所述本体中括号内的字符;以及,
所述第二类型子字符串\所述本体中除开头部分的字母、疾病程度术语、逗号后的字符、括号内的字符以外的字符;
所述第二类型子字符串\所述本体的全部第一维度解析结果中的部分第一维度解析结果包括:所述二类型子字符串中\所述本体中除开头部分的字母、疾病程度术语、逗号后的字符、括号内的字符以外的字符;以及,以下各项中的一项或多项:
所述第二类型子字符串\所述本体开头部分的字母;
所述第二类型子字符串\所述本体中的疾病程度术语;
所述第二类型子字符串\所述本体中逗号后的字符;
所述第二类型子字符串\所述本体中括号内的字符。
7.根据权利要求5所述的中文疾病诊断信息的自然语言处理方法,其中,所述第二类型子字符串\所述本体的各第二维度解析结果分别是:
所述第二类型子字符串\所述本体的每个汉字;
所述第二类型子字符串\所述本体的每个汉字的声母;
所述第二类型子字符串\所述本体的每个汉字的韵母;
所述第二类型子字符串\所述本体的首字符;
所述第二类型子字符串\所述本体的首字符的拼音;以及,
所述第二类型子字符串\所述本体中的非汉字字符。
8.根据权利要求5所述的中文疾病诊断信息的自然语言处理方法,其中,所述基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度的步骤包括:
按照如下公式计算所述第二类型子字符串与每个本体的相似度:
M = Σ t i n q ( t f t i n d · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) )
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
将计算得到的相似度确定为所述第二类型子字符串与各个本体的匹配程度。
9.根据权利要求5所述的中文疾病诊断信息的自然语言处理方法,其中,所述基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度的步骤包括:
确定所述第二类型子字符串中的每个汉字;
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的余弦置信度:
N = Σ j = 1 V w Q , j × w d ′ , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d ′ , j 2
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号;
S表示总置信度;
M表示相似度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值;
并且,相似度M按照如下公式计算:
M = Σ t i n q ( t f t i n d · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) )
其中,t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
tinq表示第二类型子字符串的各第二维度;
d表示本体;
tf(tind)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
将计算得到的总置信度确定为所述第二类型子字符串与各个本体的匹配程度。
10.根据权利要求5所述的中文疾病诊断信息的自然语言处理方法,其中,所述的根据所述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体的步骤,包括:
按照与所述第二类型子字符串的匹配程度的大小对全部本体排序,并将其中排序靠前的预设数量的本体确定为所述第二类型子字符串相匹配的本体;
或者,
将与所述第二类型子字符串的匹配程度达到预设阈值的一个或多个本体,确定为所述第二类型子字符串相匹配的本体。
11.根据权利要求1所述的中文疾病诊断信息的自然语言处理方法,其中,所述步骤5包括:
判断所述第一类型子字符串相匹配的本体、所述第二类型子字符串相匹配的本体、与所述第二类型子字符串达到预设匹配条件的本体是标准术语还是扩充术语;
如果是标准术语,则直接输出该标准术语;
如果是扩充术语,则输出与该扩充术语具有同义关系或从属关系的标准术语。
12.一种中文疾病诊断信息的自然语言处理系统,包括:
词典数据库,用于提供本体词典、疾病程度术语词典、疾病并发术语词典和发病部位术语词典;其中,
所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述标准术语为国际疾病分类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;
所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至少两种疾病并发出现的词语;
所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾病发病部位的词语;
输入模块,用于输入中文疾病诊断信息字符串;
预处理模块,用于对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断信息字符串;
切分模块,用于基于所述本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类型子字符串;其中,
所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
CN201510496445.8A 2015-08-13 2015-08-13 一种中文疾病诊断信息的自然语言处理方法及系统 Active CN105095665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510496445.8A CN105095665B (zh) 2015-08-13 2015-08-13 一种中文疾病诊断信息的自然语言处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510496445.8A CN105095665B (zh) 2015-08-13 2015-08-13 一种中文疾病诊断信息的自然语言处理方法及系统

Publications (2)

Publication Number Publication Date
CN105095665A true CN105095665A (zh) 2015-11-25
CN105095665B CN105095665B (zh) 2018-07-06

Family

ID=54576083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510496445.8A Active CN105095665B (zh) 2015-08-13 2015-08-13 一种中文疾病诊断信息的自然语言处理方法及系统

Country Status (1)

Country Link
CN (1) CN105095665B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644011A (zh) * 2016-07-20 2018-01-30 百度(美国)有限责任公司 用于细粒度医疗实体提取的系统和方法
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108446260A (zh) * 2018-02-06 2018-08-24 天津艾登科技有限公司 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN109448860A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 疾病数据映射方法、装置、计算机设备和存储介质
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN110235127A (zh) * 2017-01-20 2019-09-13 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN111653359A (zh) * 2020-05-30 2020-09-11 吾征智能技术(北京)有限公司 一种出血性疾病的智能预测模型构建方法和预测系统
CN111696635A (zh) * 2020-05-13 2020-09-22 平安科技(深圳)有限公司 疾病名称标准化方法及装置
CN112022140A (zh) * 2020-07-03 2020-12-04 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及系统
CN112562807A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 医疗数据分析方法、装置、设备、存储介质和程序产品
CN112992303A (zh) * 2019-12-15 2021-06-18 苏州市爱生生物技术有限公司 人类表型标准用语提取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5796926A (en) * 1995-06-06 1998-08-18 Price Waterhouse Llp Method and apparatus for learning information extraction patterns from examples
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN102789464A (zh) * 2011-05-20 2012-11-21 陈伯妤 基于语意识别的自然语言处理方法、装置和系统
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
US8812303B1 (en) * 2008-08-20 2014-08-19 Amazon Technologies, Inc. Multi-language relevance-based indexing and search

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5796926A (en) * 1995-06-06 1998-08-18 Price Waterhouse Llp Method and apparatus for learning information extraction patterns from examples
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101082909A (zh) * 2007-06-28 2007-12-05 腾讯科技(深圳)有限公司 一种识别衍生词的中文分词方法及系统
US8812303B1 (en) * 2008-08-20 2014-08-19 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN102789464A (zh) * 2011-05-20 2012-11-21 陈伯妤 基于语意识别的自然语言处理方法、装置和系统
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李生: "自然语言处理的研究与发展", 《燕山大学学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644011A (zh) * 2016-07-20 2018-01-30 百度(美国)有限责任公司 用于细粒度医疗实体提取的系统和方法
CN107644011B (zh) * 2016-07-20 2023-11-07 百度(美国)有限责任公司 用于细粒度医疗实体提取的系统和方法
CN110235127A (zh) * 2017-01-20 2019-09-13 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN110235127B (zh) * 2017-01-20 2023-05-26 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108446260A (zh) * 2018-02-06 2018-08-24 天津艾登科技有限公司 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统
CN109448860A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 疾病数据映射方法、装置、计算机设备和存储介质
CN109871847B (zh) * 2019-03-13 2022-09-30 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN109871847A (zh) * 2019-03-13 2019-06-11 厦门商集网络科技有限责任公司 一种ocr识别方法及终端
CN112992303A (zh) * 2019-12-15 2021-06-18 苏州市爱生生物技术有限公司 人类表型标准用语提取方法
CN111696635A (zh) * 2020-05-13 2020-09-22 平安科技(深圳)有限公司 疾病名称标准化方法及装置
CN111653359A (zh) * 2020-05-30 2020-09-11 吾征智能技术(北京)有限公司 一种出血性疾病的智能预测模型构建方法和预测系统
CN111653359B (zh) * 2020-05-30 2023-09-08 吾征智能技术(北京)有限公司 一种出血性疾病的智能预测模型构建方法和预测系统
CN112022140A (zh) * 2020-07-03 2020-12-04 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及系统
CN112022140B (zh) * 2020-07-03 2023-02-17 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及系统
CN112562807A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 医疗数据分析方法、装置、设备、存储介质和程序产品
CN112562807B (zh) * 2020-12-11 2024-03-12 北京百度网讯科技有限公司 医疗数据分析方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN105095665B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN105095665B (zh) 一种中文疾病诊断信息的自然语言处理方法及系统
CN105069124B (zh) 一种自动化的国际疾病分类编码方法及系统
CN105138829B (zh) 一种中文诊疗信息的自然语言处理方法及系统
Hornik et al. The textcat package for n-gram based text categorization in R
Chen et al. Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN105184053B (zh) 一种中文医疗服务项目信息的自动编码方法及系统
CN112541056B (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN105069123A (zh) 一种中文手术操作信息的自动编码方法及系统
CN110609910B (zh) 医学知识图谱构建方法及装置、存储介质和电子设备
US20180225259A1 (en) Document segmentation, interpretation, and re-organization
US11836173B2 (en) Apparatus and method for generating a schema
CN117787282B (zh) 基于大语言模型的医患文本智能提取方法
US20210019476A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
JP4661415B2 (ja) 表現ゆれ処理システム
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
Al-Khatib et al. A New Enhanced Arabic Light Stemmer for IR in Medical Documents.
Kivotova et al. Extracting clinical information from chest X-ray reports: A case study for Russian language
JP7415495B2 (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
US7657422B2 (en) System and method for text analysis
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
RU2751993C1 (ru) Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
RU2817524C1 (ru) Способ и система генерации текста
Hernández et al. Analysis of Context-Dependent Errors in the Medical Domain in Spanish: A Corpus-Based Study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant