CN105184053B - 一种中文医疗服务项目信息的自动编码方法及系统 - Google Patents
一种中文医疗服务项目信息的自动编码方法及系统 Download PDFInfo
- Publication number
- CN105184053B CN105184053B CN201510496444.3A CN201510496444A CN105184053B CN 105184053 B CN105184053 B CN 105184053B CN 201510496444 A CN201510496444 A CN 201510496444A CN 105184053 B CN105184053 B CN 105184053B
- Authority
- CN
- China
- Prior art keywords
- ontology
- substring
- medical service
- character
- type substring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明的实施方式提供了一种中文医疗服务项目信息的自动编码方法及系统。该方法包括:输入中文医疗服务项目信息字符串并进行预处理;基于预先建立的本体词典、方位词典、等级词典,将中文医疗服务项目信息字符串切分成能够与本体词典中的本体直接匹配的第一类型子字符串和不能够与本体直接匹配第二类型子字符串;将第一类型子字符串相匹配的本体的编码确定为中文医疗服务项目信息字符串的精确编码并进行输出。本发明实现了对属于自然语言的中文医疗服务项目信息的准确识别及编码,识别结果及编码结果具有较高的准确率,为利用中文医疗服务项目信息进行医疗服务价格项目结算提供了便利。
Description
技术领域
本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种中文医疗服务项目信息的自动编码方法及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着信息技术的快速发展,我国医药行业正加速医疗信息化建设。通过医疗信息化平台,可提升医疗处理效率,给患者提供更好的体验,大大提高医疗服务质量。
医疗服务价格项目结算是医疗保险结算的重要组成部分,在我国,医疗服务价格项目由《全国医疗服务价格项目规范》规定,该规范中,医疗服务价格项目由项目名称、项目编码、项目内涵、除外内容、计价单位、计价说明六个要素构成。
其中,项目名称以我国现行医学教科书中规范的名称或我国临床习惯通用名称命名。命名的一般顺序为:路径+部位(病变)+方法+术式。项目名称采用简体中文书写,特殊需标注外文的,采用外文缩写(或全称)标注于中文名称后面的括号中;名称中“/”表示“或者”,指并列关系,例如“门/急诊留观诊察费”,指门诊或急诊留观诊察费。项目编码是由字母和数字共八位混合码组成,各字母、数字代表不同的含义。
实际临床作业中每天会进行大量的医疗服务项目,医疗从业人员会将这些医疗服务项目以中文医疗服务项目信息的形式输入医疗信息化平台中,研究和利用中文医疗服务项目信息对于医疗服务价格项目结算具有非常重要的意义。面对每天产生的海量的中文医疗服务项目信息,借助计算机从中文医疗服务项目信息中识别出医疗服务项目名称并完成编码,是提高利用和管理中文医疗服务项目信息的有效途径之一。
发明内容
但是,由于医疗从业人员在医疗信息化平台中输入的中文医疗服务项目信息属于自然语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等,这就使得计算机从中识别出医疗服务项目名称并编码变得相当困难,即便能够实现,也往往具有较高的出错率。
为此,非常需要一种中文医疗服务项目信息的自动编码方法,以便快速、高效、准确地从中识别出医疗服务项目名称并对其编码。
在本上下文中,本发明的实施方式期望提供一种中文医疗服务项目信息的自动编码方法及系统。
在本发明实施方式的第一方面中,提供了一种中文医疗服务项目信息的自动编码方法,包括:
步骤1,输入中文医疗服务项目信息字符串;
步骤2,对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串;
步骤3,基于预先建立的本体词典、方位词典、等级词典,将所述预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类型的词语;
步骤4,将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服务项目信息字符串的精确编码,并输出所述精确编码。
在本发明实施方式的第二方面中,提供了一种中文医疗服务项目信息的自动编码系统,包括:
词典数据库,用于提供本体词典、方位词典和等级词典;其中,
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类型的词语;
输入模块,用于输入中文医疗服务项目信息字符串;
预处理模块,用于对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串;
切分模块,用于基于所述本体词典、方位词典、等级词典,将所述预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
输出模块,用于将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服务项目信息字符串的精确编码,并输出所述精确编码。
借助于上述技术方案,本发明充分考虑了医疗从业人员输入的中文医疗服务项目信息属于自然语言、格式复杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标准所建立的多种词典对中文医疗服务项目信息字符串进行切分和匹配,以此将医疗服务项目名称识别出来,并根据识别结果对其编码。此外,本发明还根据切分出的子字符串能否与本体直接匹配,输出中文医疗服务项目信息的精确编码或模糊编码。本发明实现了对属于自然语言的中文医疗服务项目信息的准确识别及编码,识别结果及编码结果具有较高的准确率,为利用中文医疗服务项目信息进行医疗服务价格项目结算提供了便利。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景;
图2示意性地示出了本发明示例性的中文医疗服务项目信息的自动编码方法的流程图;
图3示意性地示出了本发明示例性方法中切分中文医疗服务项目信息的流程图;
图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体的流程图;
图5示意性地示出了本发明示例性的中文医疗服务项目信息的自动编码系统模块框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种中文医疗服务项目信息的自动编码方法及系统。
在本文中,需要说明的是,本文所称的“医疗服务项目”是如《全国医疗服务价格项目规范》中规定的综合医疗服务、病理学诊断、实验室诊断、影像学诊断、临床诊断、临床手术治疗、临床非手术治疗、临床物理治疗、康复医疗、辅助操作和中医医疗服务等项目。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
应用场景总览
首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
图1中所示的场景包括医疗信息化平台100和中文医疗服务项目信息自动编码系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个人数字助理等设备中的软件。中文医疗服务项目信息自动编码系统200可以是运行于医院信息服务器中的软件等。医疗信息化平台100和中文医疗服务项目信息自动编码系统200之间例如可以通过医院局域网等进行通信连接。
医疗从业人员(例如医生)在医疗信息化平台100中输入中文医疗服务项目信息之后,中文医疗服务项目信息被传输至中文医疗服务项目信息自动编码系统200,由中文医疗服务项目信息自动编码系统200对其进行自然语言处理和自动编码,最后输出编码结果。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于中文医疗服务项目信息的自动编码的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
例如,参见图2所示,为本发明示例性的中文医疗服务项目信息的自动编码方法,包括:
步骤S21,输入中文医疗服务项目信息字符串。
步骤S22,对中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串。
该步骤的目的是将中文医疗服务项目信息字符串中的字符转换成统一的编码格式,以便后续处理。
可选地,该步骤可以按照如下具体方式实施:对中文医疗服务项目信息字符串中的非汉字进行格式归一化处理(例如,将中文医疗服务项目信息字符串中的符号全部转换为半角格式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并删除中文医疗服务项目信息字符串中的非医学术语。其中非医学术语由一预先建立的非医学术语词典提供,且非医学术语为起备注作用的词语、短语或描述性语句(例如“开检查”、“补急诊记账”、“床位费超标自费”、“超过一个月加收,不足一个月按月收”、“儿科加收”等)。
步骤S23,基于预先建立的本体词典、方位词典、等级词典,将预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串。
其中,第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配。切分出的第一类型子字符串和第二类型子字符串具有独立语义,即所表示的医疗服务项目信息不受其之前或之后的字符影响。
本体词典包括若干本体以及每个本体一一对应的编码。这些本体是标准术语或扩充术语。
标准术语为《全国医疗服务价格项目规范》中规定的项目名称,具体实施时,可以依据2012版《全国医疗服务价格项目规范》中规定的项目名称确定标准术语。
扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。例如,与标准术语具有属种关系的扩充术语,可以是来自各个地区的医疗服务目录及结算单中的医疗服务项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,对标准术语进行细化或补充,在概念上涵盖标准术语或被标准术语所涵盖的医疗服务项目名称;而与标准术语具有同义关系的扩充术语,可以是来自各个地区的医疗服务目录及结算单中的医疗服务项目,以符合《全国医疗服务价格项目规范》的分类和命名规范的形式,在概念上或应用上与标准术语等同的医疗服务项目名称,例如是标准术语的俗称\别称\缩略语。
在本体词典中,扩充术语与具有同义关系或属种关系的标准术语具有一致的编码。
如表1所示为本体词典包括的部分标准术语和扩充术语及其编码。
表1
方位词典包括若干方位术语,方位术语是用于描述医疗服务项目所针对的方位的词语,例如表2所示为方位词典包括的部分方位术语。
表2
方位术语 |
单侧 |
双侧 |
左侧 |
右侧 |
两侧 |
一侧 |
等级词典包括若干等级术语,等级术语是用于描述医疗服务项目的级别、类型等的词语,例如表3所示为等级词典包括的部分等级术语。
表3
等级术语 |
A等 |
B等 |
C等 |
特等 |
该步骤的目的是将中文医疗服务项目信息切分成具有独立语义的子字符串(第一类型子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。
下文将以实施例一详细介绍步骤S23的一种具体实施方式。
步骤S24,将第一类型子字符串相匹配的本体的编码确定为该中文医疗服务项目信息字符串的精确编码,并输出精确编码。
具体地,由于第一类型子字符串能够与本体直接匹配,即第一类型子字符串是标准术语或扩充术语,因此,第一类型子字符串是从该中文医疗服务项目信息字符串中精确识别出的医疗服务项目名称,将直接匹配的本体的编码赋给第一类型子字符串,即实现了从中文医疗服务项目信息字符串中精确识别出医疗服务项目名称并对其编码。在本发明中,由于第一类型子字符串是从该中文医疗服务项目信息字符串中精确识别出的医疗服务项目名称,因此第一类型子字符串的编码属于该中文医疗服务项目信息字符串的精确编码。
假设从某一中文医疗服务项目信息字符串中所切分出的各个第一类型子字符串分别匹配如表1中的“全身骨显像”、“腹部透视”、“异位胃粘膜显像”,则根据表1中这些本体的编码可得,该中文医疗服务项目信息字符串的精确编码有:EEAX6004、EAAQT001、EEBPD002。
以上步骤利用切分出的第一类型子字符串得到了中文医疗服务项目信息字符串的精确编码,进一步的,本示例性方法还可以利用切分出的第二类型子字符串得到中文医疗服务项目信息字符串的模糊编码。
可选地,如图2所示,本发明示例性方法还可以继续包括如下步骤:
步骤S25,对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
该步骤的目的是对于利用预先建立的各种词典也无法识别的符号、数字和汉字,基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有符号、数字和汉字的识别。
下文将以实施例二详细介绍步骤S25的一种具体实施方式。
步骤S26,将第二类型子字符串相匹配的本体的编码,或与第二类型子字符串达到预设匹配条件的一个或多个本体的编码,确定为中文医疗服务项目信息字符串的模糊编码,并输出该模糊编码。
具体地,由于第二类型子字符串并不能与本体直接匹配,因此,步骤S25所确定的与第二类型子字符串相匹配或达到预设匹配条件的本体,是为第二类型子字符串模糊匹配的本体,是从该中文医疗服务项目信息字符串中模糊识别出的医疗服务项目名称,因此,与第二类型子字符串相匹配或达到预设匹配条件的本体的编码属于该中文医疗服务项目信息字符串的模糊编码。
假设从某一中文医疗服务项目信息字符串中切分出的各个第二类型子字符串,相匹配的本体或达到预设匹配条件的本体分别为表1中的“高频吸氧”、“心肺移植术”、“心室晚电位”、“颅底再造术”,则根据表1中这些本体的编码可得,该中文医疗服务项目信息字符串的模糊编码有:ABJA0001aa、HKA90303、FKA03709、HBN_0014。
以上步骤S25完成了查找第二类型子字符串相匹配或达到预设匹配条件的本体这一过程,该过程中有可能查找不到第二类型子字符串相匹配或达到预设匹配条件的本体。这是因为本体词典中的本体(不论是标准术语还是扩充术语)均是医疗服务项目名称相关的词语,然而实际的中文医疗服务项目信息中往往会涉及医疗领域的多种概念,不仅仅是医疗服务项目名称,还可能涉及疾病名称(例如“胸骨骨折链枷胸”)、药品名称(例如“西替利嗪”)、医疗耗材名称(例如“弹性假牙龈”)等,但本发明只是对医疗服务项目的编码,因此,若中文医疗服务项目信息中出现了疾病名称、药品名称、医疗耗材名称等,本发明可以选择对其不予编码。另外,实际的中文医疗服务项目信息还可能包括一些虽然是表示医疗服务项目信息,但却并不能确定具体对应于何种医疗服务项目的词语,例如有些不符合《全国医疗服务价格项目规范》分类体系,不能确定其具体对应的医疗服务项目。例如“磨削术”,虽然表示医疗服务项目信息,但其概念太泛,无法确定具体是什么部位消磨术,是面部磨削术、颧骨磨削术还是激光磨削术;再比如,“变性术”虽然表示医疗服务项目信息,但具体是男变女性尿道移位成形术还是男变女性阴道再造术也无法确定。
考虑到以上问题,可选地,本发明示例性方法还可以预先设定一无编码术语词典,该无编码术语词典包括若干无编码术语。这些无编码术语包括:预设的用于表示医疗服务项目信息、但无法确定医疗服务项目名称的词语;预设的疾病名称;预设的药品名称;以及,预设的医疗耗材名称。
例如,表4所示为无编码术语词典包括的部分无编码术语。
无编码术语 | 无编码术语所属的类型 |
胸骨骨折链枷胸 | 疾病名称 |
弹性假牙龈 | 医疗耗材名称 |
磨削术 | 不能确定具体对应的医疗服务项目 |
变性术 | 不能确定具体对应的医疗服务项目 |
西替利嗪 | 药品名称 |
基于以上无编码术语词典,如图2所示,本发明示例性方法还可以继续包括如下步骤:
步骤S27,将未查找到相匹配的本体、且未查找到达到预设匹配条件的一个或多个本体的第二类型子字符串,确定为本体匹配失败子字符串。
步骤S28,将本体匹配失败子字符串与预先建立的无编码术语词典中的无编码术语进行匹配,若匹配成功,则执行预设的处理步骤(例如可以输出一预先设定的显示信息,如输出“无码可编”)以表示不对该本体匹配失败子字符串进行编码,若匹配失败,则将该本体匹配失败子字符串发送至人工处理平台进行人工处理。
其中,对于未查找到相匹配或达到预设匹配条件的本体的第二类型子字符串,若能查找到相匹配的无编码术语,则说明其属于表示医疗服务项目信息但无法确定医疗服务项目名称的词语、疾病名称、药品名称、医疗耗材名称中的一种,不予编码,而对于不能查找到相匹配的无编码术语的第二类型子字符串,说明其不属于上述类型,对于这类第二类型子字符串,本实施例将其发送给人工处理平台,由人工继续处理,具体处理过程,本发明对其不作限定。
实施例一
参见图3所示,为本发明示例性方法中步骤S23的一实施方式示例。
如图3所示,对中文医疗服务项目信息的切分过程可以包括:
步骤S30,判断预处理后的中文医疗服务项目信息字符串是否包含符号;如果包含符号,则执行步骤S31;如果未包含符号,则执行步骤S32。
步骤S31,将预处理后的中文医疗服务项目信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S311;若匹配失败,则执行步骤S312。
步骤S311,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
步骤S312,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步骤S33。
步骤S31、步骤S311、步骤S312依据的处理规则是:将相邻符号之间的全部字符作为整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
例如表5所示对“轻链KAPPA、LAMBDA定量(K-LC,λ-LC);颅内巨大动脉瘤夹闭切除术,多夹除直径大于2.5cm的动脉瘤”的切分,其中,“轻链KAPPA、LAMBDA定量(K-LC,λ-LC)”、“颅内巨大动脉瘤夹闭切除术,多夹除直径大于2.5cm的动脉瘤”均为符号之间的全部字符,并且可以查找到相匹配的本体,因此,分别被切分出来。
表5
步骤S32,采用机械分词法将预处理后的中文医疗服务项目信息字符串与本体词典中的本体进行匹配;若预处理后的中文医疗服务项目信息字符串中的所有字符均能够与本体匹配,则执行步骤S321;若预处理后的中文医疗服务项目信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则执行步骤S322。
步骤S321,依据所匹配的本体将预处理后的中文医疗服务项目信息字符串中的字符切分出来作为第一类型子字符串。
步骤S322,判断未能与本体匹配的单个字符或多个连续的字符是否是方位术语或等级术语;如果是方位术语或等级术语,则执行步骤S3221;如果不是方位术语或等级术语,则执行步骤S3222。
步骤S32、步骤S321、步骤S322依据的处理规则是:采用机械分词法将预处理后的中文医疗服务项目信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的本体时才切分,否则暂时不予切分。
例如表6所示为对“血脂常规检查隐血试验”的切分,采用机械分词法可分别查找到“血脂常规检查”和“隐血试验”相匹配的本体,因此,分别被切分出来。
表6
步骤S32采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。具体的切分过程,本实施例不再赘述。
步骤S3221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中文医疗服务项目信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串。
步骤S3222,将预处理后的中文医疗服务项目信息字符串整体切分出来作为第二类型子字符串。
步骤S3221、步骤S3222依据的处理规则是:如果未能与本体匹配的单个字符或多个连续的字符是方位术语或等级术语,则执行切分,并且切分时是将其与其之前或之后的字符合并切分出来。
例如表7所示为对“肺减容手术右侧肺修补术”的切分,采用机械分词法可分别查找到“肺减容手术”、“肺修补术”相匹配的本体,其中的“右侧”为方位术语,因此,将“右侧”与“肺修补术”合并切分出来,“肺减容手术”单独切分出来。
表7
步骤S33,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符串中包含特殊符号,则执行步骤S331;如果暂不切分字符串中不包含特殊符号,则执行步骤S333。
步骤S331,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供,且字符模型具有一一对应的切分规则。
步骤S332,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第二类型子字符串;
步骤S333,将暂不切分字符串直接确定为第二类型子字符串。
步骤S33、步骤S331、步骤S332、步骤S333依据的处理规则是:当暂不切分字符串中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分出来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
例如预设的特殊符号可以包括但不限于句号、冒号、加号、分号、斜杠线等等。
例如以下为字符模型库中的部分字符模型及其切分规则:
(1)字符模型:XAY型,A为加号、冒号;
切分规则:将XAY作为整体切分出来;
(2)字符模型:CDE型,且C、E之一为汉字,D为句号、分号;
切分规则:将C、E中的汉字切分出来;
(3)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
切分规则:将STU作为整体切分出来。
例如对“血脂(P)。肾脏功能检测(P)”进行切分,经查找字符模型库可知属于CDE型,则将“血脂(P)”、“肾脏功能检测(P)”单独切分出来。
例如对“网织红细胞计数+血细胞五分类”进行切分,经查找字符模型库可知属于XAY型,则将“网织红细胞计数+血细胞五分类”整体切分出来。
例如对“初查:RPR+TPPA”进行切分,经查找字符模型库可知属于XAY型,则将“初查:RPR+TPPA”整体切分出来。
例如对“3/4喉切除术及喉功能重建术”进行切分,经查找字符模型库可知属于STU型,则将“3/4喉切除术及喉功能重建术”整体切分出来。
实施例二
参见图4所示,为本发明示例性方法中步骤S25的一实施方式示例。
如图4所示,查找第二类型子字符串相匹配或达到预设匹配条件的本体的过程可以包括:
步骤S40,对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到第二类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行第一维度的解析可以包括但不限于:
(1)确定解析对象中包含的方位术语,如果其中不包含方位术语,则该项解析结果为空;
(2)确定解析对象中包含的等级术语,如果其中不包含等级术语,则该项解析结果为空;
(3)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空;
(4)确定解析对象中破折号后的字符,如果其中不包含破折号,则该项解析结果为空;以及,
(5)确定解析对象中除方位术语、等级术语、括号内的字符、破折号后的字符以外的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限于:第二类型子字符串中的方位术语、第二类型子字符串中的等级术语、第二类型子字符串中括号内的字符、第二类型子字符串中破折号后的字符、第二类型子字符串中的剩余字符。
当解析对象为本体时,其各个第一维度解析结果可以包括但不限于:本体中的方位术语、本体中的等级术语、本体中括号内的字符、本体中破折号后的字符、本体中的剩余字符。
步骤S41,将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的各第一维度的解析结果进行匹配,查找是否存在某个本体的各第一维度解析结果均与第二类型子字符串的各第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S42,如果不存在这样的本体,则执行步骤S43。
步骤S42,将查找到的本体确定为第二类型子字符串相匹配的本体。
步骤S43,选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S431;如果不存在这样的本体,则执行步骤S432。
步骤S431,将查找到的本体确定为第二类型子字符串相匹配的本体。
分别将第二类型子字符串中包含的方位术语与本体中包含的方位术语进行匹配,将第二类型子字符串中包含的等级术语与本体中包含的等级术语进行匹配,将第二类型子字符串中括号内的字符与本体中括号内的字符进行匹配,将第二类型子字符串中破折号后的字符与本体中括号中破折号后的字符进行匹配,将第二类型子字符串中的剩余字符与本体中的剩余字符进行匹配。
如果全部的第一维度解析结果均匹配,则将该本体确定为第二类型子字符串相匹配的本体。
如果某些第一维度解析结果不匹配,则选取部分第一维度解析结果分别进行匹配。
考虑到第二类型子字符串中的剩余字符往往是第二类型子字符串的核心信息,因此,在具体实施中,较佳的,所选取的部分第一维度解析结果至少包括第二类型子字符串中的剩余字符,以及本体中的剩余字符。例如,仅选取解析对象的剩余字符和破折号后的字符分别进行匹配,或者,仅选取解析对象的剩余字符进行匹配,或者,还可以选取解析对象的剩余字符与方位术语或等级术语或括号内的字符或方位术语或等级术语分别进行匹配。
例如某一第二类型子字符串为“人工制定治疗计划(简单)--疗程中修改计划”,对其进行第一维度的解析,得到的解析结果如表8所示,如表9所示为与该第二类型子字符串相匹配的本体及其各个第一维度解析结果。
表8
与“人工制定治疗计划(简单)--疗程中修改计划”相匹配的本体“人工制定治疗计划(简单)”的第一维度解析结果如表9所示:
表9
步骤S432,对第二类型子字符串和本体词典中的每个本体进行第二维度的解析,得到第二类型子字符串的各第二维度解析结果,以及本体词典中每个本体的各第二维度解析结果。
该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行预设维度的解析可以包括但不限于:
(1)确定解析对象中的每个汉字;
(2)确定解析对象中每个汉字的声母;
(3)确定解析对象中每个汉字的韵母;
(4)确定解析对象的首字符;
(5)确定解析对象的首字符的拼音;以及,
(6)确定解析对象中的非汉字字符,如果其中不包含非汉字字符,则该项解析结果为空。
当解析对象为第二类型子字符串时,其各个维度的解析结果可以包括但不限于:第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。
当解析对象为词条时,解析结果可以包括但不限于:词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。
例如,表10为第二类型子字符串“乳牙拔除术”的各第二维度解析结果。
表10
步骤S433,基于第二类型子字符串的若干第二维度解析结果,以及本体的若干第二维度解析结果,计算第二类型子字符串与每个本体的匹配程度。
具体地,该步骤可以按照实施例三计算第二类型子字符串与每个本体的相似度,也可以按照实施例四计算第二类型子字符串与每个本体的总置信度。其中,相比于相似度,总置信度更能体现第二类型子字符串与每个本体的匹配程度,但是总置信度的计算过程相比于相似度的计算过程也更复杂。具体实施该步骤S433时,若需要较快的处理速度,则可以选择实施例三中计算相似度的过程,若需要更准确的匹配结果,则可以选择实施例四中计算总置信度的过程。以下分别以实施例三和实施例四说明该步骤S433的两种具体实施方式。
步骤S434,根据第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为第二类型子字符串相匹配的本体。
可选地,该步骤可以有如下的具体实施方式:按照与第二类型子字符串的匹配程度的大小对全部本体排序,并将其中排序靠前的预设数量(例如排序靠前的2个)的本体确定为第二类型子字符串相匹配的本体;或者,将与第二类型子字符串的匹配程度达到预设阈值的一个或多个本体,确定为第二类型子字符串相匹配的本体。
具体实施本发明时,为了明确第二类型子字符串与每一个相匹配的本体的匹配程度并对其加以利用,还可以在最终输出的结果中还可以包括第二类型子字符串与其相匹配的各个本体的匹配程度。例如,输出第二类型子字符串与各个相匹配的本体的匹配程度,然后可以根据匹配程度的大小,通过人工方式从中再选出一个作为第二类型子字符串相匹配的本体。
实施例三
本实施例为实施例二中步骤S433的一具体实施方式示例。
本实施例中,按照如下公式计算第二类型子字符串与每个本体的相似度,并将计算得到的相似度确定为第二类型子字符串与各个本体的匹配程度:
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
t in q表示第二类型子字符串的各第二维度;
d表示本体;
tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子。
实施例四
本实施例为实施例二中步骤S433的另一具体实施方式示例。
本实施例中,按照如下过程计算第二类型子字符串与每个本体的总置信度,并将计算得到的总置信度确定为第二类型子字符串与各个本体的匹配程度:
1)确定第二类型子字符串中的每个汉字。
2)按照如下公式计算第二类型子字符串与其相匹配的各个本体的余弦置信度:
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号。
3)按照如下公式计算第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,S表示总置信度;
M表示相似度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值;
并且,相似度M按照如下公式计算:
其中,t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
t in q表示第二类型子字符串的各第二维度;
d表示本体;
tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子。
本发明充分考虑了医疗从业人员输入的中文医疗服务项目信息属于自然语言、格式复杂多样、没有统一的标准等特点,利用预先依据医疗领域的通用标准所建立的多种词典对中文医疗服务项目信息字符串进行切分和匹配,以此将医疗服务项目名称识别出来,并根据识别结果对其编码。此外,本发明还根据切分出的子字符串能否与本体直接匹配,输出中文医疗服务项目信息的精确编码或模糊编码。本发明实现了对属于自然语言的中文医疗服务项目信息的准确识别及编码,识别结果及编码结果具有较高的准确率,为利用中文医疗服务项目信息进行医疗服务价格项目结算提供了便利。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的、用于中文医疗服务项目信息的自动编码系统,包括:
词典数据库51,用于提供本体词典、方位词典和等级词典;其中,
本体词典包括若干本体以及本体一一对应的编码,本体为标准术语或扩充术语;标准术语为全国医疗服务价格项目规范中规定的项目名称;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语;其中,标准术语对应的编码为全国医疗服务价格项目规范中规定的项目编码;扩充术语与具有同义关系或属种关系的标准术语对应的编码一致;
方位词典包括若干方位术语,方位术语是用于描述医疗服务项目所针对的方位的词语;
等级词典包括若干等级术语,等级术语是用于描述医疗服务项目的级别、类型的词语;
输入模块52,用于输入中文医疗服务项目信息字符串;
预处理模块53,用于对中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串;
切分模块54,用于基于本体词典、方位词典、等级词典,将预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,第一类型子字符串和第二类型子字符串所表示的医疗服务项目信息不受其在中文医疗服务项目信息字符串中所在位置之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹配,第二类型子字符串不能够与本体词典中的本体直接匹配;
输出模块55,用于将第一类型子字符串相匹配的本体的编码确定为中文医疗服务项目信息字符串的精确编码,并输出精确编码。
本发明示例性实施方式的中文医疗服务项目信息的自动编码系统与本发明示例性实施方式的中文医疗服务项目信息的自动编码方法基于相同的发明思想实现,其具体实施方式可参照前述对中文医疗服务项目信息的自动编码方法的介绍,此处不再赘述。
应当注意,尽管在上文详细描述中提及了中文医疗服务项目信息的自动编码系统的若干模块,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
Claims (12)
1.一种中文医疗服务项目信息的自动编码方法,包括:
步骤1,输入中文医疗服务项目信息字符串;
步骤2,对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串;
步骤3,基于预先建立的本体词典、方位词典、等级词典,将所述预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类型的词语;
步骤4,将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服务项目信息字符串的精确编码,并输出所述精确编码;
步骤5,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
步骤6,将所述第二类型子字符串相匹配的本体的编码,或与所述第二类型子字符串达到预设匹配条件的一个或多个本体的编码,确定为所述中文医疗服务项目信息字符串的模糊编码,并输出所述模糊编码。
2.根据权利要求1所述的中文医疗服务项目信息的自动编码方法,其中,所述步骤2包括:
对所述中文医疗服务项目信息字符串中的非汉字进行格式归一化处理,并删除所述中文医疗服务项目信息字符串中的非医学术语,得到预处理后的中文医疗服务项目信息字符串,其中所述非医学术语由一预先建立的非医学术语词典提供,且所述非医学术语为起备注作用的词语、短语或句子。
3.根据权利要求2所述的中文医疗服务项目信息的自动编码方法,其中,所述步骤3包括:
判断所述预处理后的中文医疗服务项目信息字符串是否包含符号;
如果所述预处理后的中文医疗服务项目信息字符串包含符号,则将所述预处理后的中文医疗服务项目信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配;若匹配成功,则将该相邻两个符号之间的字符切分出来作为第一类型子字符串;若匹配失败,则将该相邻两个符号及其之间的字符确定为暂不切分字符串,并判断所述暂不切分字符串中是否包含预设的特殊符号;
若所述暂不切分字符串中包含特殊符号,则查找所述暂不切分字符串所属的字符模型,并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该切分出来的字符作为第一类型子字符串,若匹配失败,则将该切分出来的字符作为第二类型子字符串;其中,所述字符模型由一预先建立的字符模型库提供,且所述字符模型具有一一对应的切分规则;
若所述暂不切分字符串中不包含特殊符号,则将所述暂不切分字符串直接确定为第二类型子字符串;
如果所述预处理后的中文医疗服务项目信息字符串未包含符号,则采用机械分词法将所述预处理后的中文医疗服务项目信息字符串中的单个字符或多个连续的字符与所述本体词典中的本体进行匹配;
若所述预处理后的中文医疗服务项目信息字符串中的所有字符均能够与本体匹配,则依据所匹配的本体将所述预处理后的中文医疗服务项目信息字符串中的单个字符或多个连续的字符切分出来作为第一类型子字符串;
若所述预处理后的中文医疗服务项目信息字符串中存在未能与本体匹配的单个字符或多个连续的字符,则判断所述未能与本体匹配的单个字符或多个连续的字符是否为方位术语或等级术语;
当所述未能与本体匹配的单个字符或多个连续的字符为方位术语或等级术语时,根据所述未能与本体匹配的单个字符或多个连续的字符在所述预处理后的中文医疗服务项目信息字符串中的位置,将所述未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串,并将所述预处理后的中文医疗服务项目信息字符串中其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串;
当所述未能与本体匹配的单个字符或多个连续的字符不为方位术语或等级术语时,将所述预处理后的中文医疗服务项目信息字符串整体切分出来作为第二类型子字符串。
4.根据权利要求3所述的中文医疗服务项目信息的自动编码方法,其中,所述机械分词法为正向最大匹配型,或逆向最大匹配型,或最少切分型。
5.根据权利要求1所述的中文医疗服务项目信息的自动编码方法,其中,所述步骤5包括:
对所述第二类型子字符串和所述本体词典中的每个本体进行第一维度的解析,得到所述第二类型子字符串的若干第一维度解析结果,以及所述本体词典中每个本体的若干第一维度解析结果;
将所述第二类型子字符串的各第一维度解析结果与所述本体词典中每个本体的各第一维度解析结果进行匹配,判断是否存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体;
如果存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
如果不存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相匹配的本体,则选取所述第二类型子字符串的全部第一维度解析结果中的部分第一维度解析结果与所述本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行匹配,并判断是否存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体;
若存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体;
若不存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解析结果相匹配的本体,则对所述第二类型子字符串和所述本体词典中的每个本体进行第二维度的解析,得到所述第二类型子字符串的若干第二维度解析结果,以及所述本体词典中每个本体的若干第二维度解析结果;
基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度;
根据所述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体。
6.根据权利要求5所述的中文医疗服务项目信息的自动编码方法,其中,所述第二类型子字符串\所述本体的各第一维度解析结果分别是:
所述第二类型子字符串\所述本体中的方位术语;
所述第二类型子字符串\所述本体中的等级术语;
所述第二类型子字符串\所述本体中括号内的字符;
所述第二类型子字符串\所述本体中破折号后的字符;以及,
所述第二类型子字符串\所述本体中除方位术语、等级术语、括号内的字符、破折号后的字符以外的字符;
所述第二类型子字符串\所述本体的全部第一维度解析结果中的部分第一维度解析结果包括:所述二类型子字符串中\所述本体中除方位术语、等级术语、括号内的字符、破折号后的字符以外的字符;以及,以下各项中的一项或多项:
所述第二类型子字符串\所述本体中的方位术语、等级术语;
所述第二类型子字符串\所述本体中括号内的字符;
所述第二类型子字符串\所述本体中破折号后的字符。
7.根据权利要求5所述的中文医疗服务项目信息的自动编码方法,其中,所述第二类型子字符串\所述本体的各第二维度解析结果分别是:
所述第二类型子字符串\所述本体的每个汉字;
所述第二类型子字符串\所述本体的每个汉字的声母;
所述第二类型子字符串\所述本体的每个汉字的韵母;
所述第二类型子字符串\所述本体的首字符;
所述第二类型子字符串\所述本体的首字符的拼音;以及,
所述第二类型子字符串\所述本体中的非汉字字符。
8.根据权利要求5所述的中文医疗服务项目信息的自动编码方法,其中,所述基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度的步骤包括:
按照如下公式计算所述第二类型子字符串与每个本体的相似度:
其中,M表示相似度;
t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
t in q表示第二类型子字符串的各第二维度;
d表示本体;
tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
将计算得到的相似度确定为所述第二类型子字符串与各个本体的匹配程度。
9.根据权利要求5所述的中文医疗服务项目信息的自动编码方法,其中,所述基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计算所述第二类型子字符串与每个本体的匹配程度的步骤包括:
确定所述第二类型子字符串中的每个汉字;
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的余弦置信度:
按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的总置信度:
S=M×a+N×b
其中,N表示余弦置信度;
V表示第二类型子字符串及其相匹配的本体所包含的汉字总数;
Q表示第二类型子字符串;
d'表示与第二类型子字符串相匹配的本体;
wQ,j表示每个汉字在第二类型子字符串中出现的频次;
wd',j表示每个汉字在第二类型子字符串相匹配的本体中出现的频次;
j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号;
S表示总置信度;
M表示相似度;
a表示相似度M对应的预设权值;
b表示余弦置信度N对应的预设权值;
并且,相似度M按照如下公式计算:
其中,t表示第二类型子字符串的各第二维度解析结果;
q表示第二类型子字符串;
t in q表示第二类型子字符串的各第二维度;
d表示本体;
tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体的第二维度解析结果相匹配的频次;
其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数;
t.getBoost()表示各第二维度的预设权值;
norm(t,d)表示本体的长度归一化因子;
将计算得到的总置信度确定为所述第二类型子字符串与各个本体的匹配程度。
10.根据权利要求5所述的中文医疗服务项目信息的自动编码方法,其中,所述的根据所述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第二类型子字符串相匹配的本体的步骤,包括:
按照与所述第二类型子字符串的匹配程度的大小对全部本体排序,并将其中排序靠前的预设数量的本体确定为所述第二类型子字符串相匹配的本体;
或者,
将与所述第二类型子字符串的匹配程度达到预设阈值的一个或多个本体,确定为所述第二类型子字符串相匹配的本体。
11.根据权利要求1所述的中文医疗服务项目信息的自动编码方法,其中,还包括:
步骤7,将未查找到相匹配的本体、且未查找到达到预设匹配条件的一个或多个本体的所述第二类型子字符串,确定为本体匹配失败子字符串;
步骤8,将所述本体匹配失败子字符串与预先建立的无编码术语词典中的无编码术语进行匹配,若匹配成功,则执行预设的处理步骤以表示不对该本体匹配失败子字符串进行编码,若匹配失败,则将该本体匹配失败子字符串发送至人工处理平台进行人工处理;
其中,所述无编码术语词典包括若干无编码术语;
所述若干无编码术语包括:
预设的用于表示医疗服务项目信息、但无法确定医疗服务项目名称的词语;
预设的疾病名称;
预设的药品名称;以及,
预设的医疗耗材名称。
12.一种中文医疗服务项目信息的自动编码系统,包括:
词典数据库,用于提供本体词典、方位词典和等级词典;其中,
所述本体词典包括若干本体以及所述本体一一对应的编码,所述本体为标准术语或扩充术语;所述标准术语为全国医疗服务价格项目规范中规定的项目名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语;其中,所述标准术语对应的编码为全国医疗服务价格项目规范中规定的项目编码;所述扩充术语与具有同义关系或属种关系的所述标准术语对应的编码一致;
所述方位词典包括若干方位术语,所述方位术语是用于描述医疗服务项目所针对的方位的词语;
所述等级词典包括若干等级术语,所述等级术语是用于描述医疗服务项目的级别、类型的词语;
输入模块,用于输入中文医疗服务项目信息字符串;
预处理模块,用于对所述中文医疗服务项目信息字符串进行预处理,得到预处理后的中文医疗服务项目信息字符串;
切分模块,用于基于所述本体词典、方位词典、等级词典,将所述预处理后的中文医疗服务项目信息字符串切分成若干第一类型子字符串和第二类型子字符串;
其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直接匹配;
输出模块,用于将所述第一类型子字符串相匹配的本体的编码确定为所述中文医疗服务项目信息字符串的精确编码,并输出所述精确编码;
所述中文医疗服务项目信息的自动编码系统,还用于:
对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体;
将所述第二类型子字符串相匹配的本体的编码,或与所述第二类型子字符串达到预设匹配条件的一个或多个本体的编码,确定为所述中文医疗服务项目信息字符串的模糊编码,并输出所述模糊编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510496444.3A CN105184053B (zh) | 2015-08-13 | 2015-08-13 | 一种中文医疗服务项目信息的自动编码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510496444.3A CN105184053B (zh) | 2015-08-13 | 2015-08-13 | 一种中文医疗服务项目信息的自动编码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105184053A CN105184053A (zh) | 2015-12-23 |
CN105184053B true CN105184053B (zh) | 2018-09-07 |
Family
ID=54906131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510496444.3A Active CN105184053B (zh) | 2015-08-13 | 2015-08-13 | 一种中文医疗服务项目信息的自动编码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105184053B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180025121A1 (en) * | 2016-07-20 | 2018-01-25 | Baidu Usa Llc | Systems and methods for finer-grained medical entity extraction |
CN108399182B (zh) * | 2017-10-27 | 2022-04-12 | 平安科技(深圳)有限公司 | 医疗数据清洗方法、电子装置及存储介质 |
CN108920453B (zh) * | 2018-06-08 | 2023-03-24 | 国家食品药品监督管理总局药品评价中心 | 数据处理方法、装置、电子设备及计算机可读介质 |
CN109256216B (zh) * | 2018-08-14 | 2023-06-27 | 平安医疗健康管理股份有限公司 | 医学数据处理方法、装置、计算机设备和存储介质 |
CN109377203A (zh) * | 2018-09-13 | 2019-02-22 | 平安医疗健康管理股份有限公司 | 医疗结算数据处理方法、装置、计算机设备和存储介质 |
CN110442844B (zh) * | 2019-07-03 | 2023-09-26 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN112133438B (zh) | 2020-07-29 | 2022-05-06 | 南京前知智能科技有限公司 | 基于大数据的口内修复体设计方法 |
CN111933244A (zh) * | 2020-08-17 | 2020-11-13 | 医渡云(北京)技术有限公司 | 药品数据编码方法、装置、计算机可读介质及电子设备 |
CN112733528B (zh) * | 2020-12-31 | 2023-02-14 | 深圳平安医疗健康科技服务有限公司 | 医学数据的对码方法、装置、设备及存储介质 |
CN112599213B (zh) * | 2021-03-04 | 2021-05-25 | 联仁健康医疗大数据科技股份有限公司 | 一种分类编码确定方法、装置、设备及存储介质 |
CN115017326B (zh) * | 2022-05-12 | 2023-08-18 | 青岛普瑞盛医药科技有限公司 | 医学编码方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN102789464A (zh) * | 2011-05-20 | 2012-11-21 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
US8793273B1 (en) * | 2011-06-29 | 2014-07-29 | Google Inc. | Parsing framework method and device |
-
2015
- 2015-08-13 CN CN201510496444.3A patent/CN105184053B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN102789464A (zh) * | 2011-05-20 | 2012-11-21 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
US8793273B1 (en) * | 2011-06-29 | 2014-07-29 | Google Inc. | Parsing framework method and device |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
Non-Patent Citations (5)
Title |
---|
"Statistical Relational Learning for Natural Language Information Extraction";Razvan C.Bunescu等;《Statistical Relational Learning Lise Getoor and Ben Taskar》;20051231;第1-19页 * |
"一种改进的中文分词正向最大匹配算法";王瑞雷等;《计算机应用与软件》;20110331;第28卷(第3期);第195-197页 * |
"中文分词切分技术研究";徐飞等;《计算机工程与科学》;20080531;第30卷(第5期);第126-128页 * |
"基于多维语义的互联网药品信息提取方法";顾轶灵;《计算机系统应用》;20111115;第20卷(第11期);第50-54、19页 * |
"基于语义的互联网药品信息提取算法";沈元一等;《计算机系统应用》;20110130;第20卷(第1期);第41-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105184053A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184053B (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
CN105138829B (zh) | 一种中文诊疗信息的自然语言处理方法及系统 | |
US11531804B2 (en) | Enhancing reading accuracy, efficiency and retention | |
CN105095665B (zh) | 一种中文疾病诊断信息的自然语言处理方法及系统 | |
US10509889B2 (en) | Data processing system and method for computer-assisted coding of natural language medical text | |
Zhang et al. | MIE: A medical information extractor towards medical dialogues | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
CN110277149A (zh) | 电子病历的处理方法、装置及设备 | |
Zeng-Treitler et al. | Making texts in electronic health records comprehensible to consumers: a prototype translator | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
Soysal et al. | Design and evaluation of an ontology based information extraction system for radiological reports | |
CN109192255A (zh) | 病历结构化方法 | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
WO2020211250A1 (zh) | 中文病历的实体识别方法、装置、设备及存储介质 | |
Adams et al. | Learning to revise references for faithful summarization | |
CN112949308A (zh) | 基于功能结构的中文电子病历命名实体识别方法及系统 | |
Ke et al. | Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF | |
Costumero et al. | Text analysis and information extraction from Spanish written documents | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
Friedman | Semantic text parsing for patient records | |
CN106354715A (zh) | 医疗词汇处理方法及装置 | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
Antunes et al. | Evaluating semantic textual similarity in clinical sentences using deep learning and sentence embeddings | |
Bao et al. | Machine learning based information extraction for diabetic nephropathy in clinical text documents | |
Zvára et al. | Tool-supported interactive correction and semantic annotation of narrative clinical reports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |