CN113139498A

CN113139498A - 医疗票据对码方法及装置

Info

Publication number: CN113139498A
Application number: CN202110503921.XA
Authority: CN
Inventors: 罗艳霞; 陈沛; 叶韶蘅; 高英明; 朱莉
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-20

Abstract

本发明公开了一种医疗票据对码方法及装置，其中该方法包括：对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。本发明对光学字符识别后的医疗文本数据进行语义分类，提高了医疗数据的对码效率和准确率。

Description

医疗票据对码方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种医疗票据对码方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在保险产品设计阶段，由商保控费平台基于医疗编码智库平台的标准码定义保险产品的医学、商保理赔规则。在保险产品的理赔阶段，理赔作业人员需要上传待理赔医疗票据(例如，医院的各种医疗费用明细清单票据)的影像文件上传至商保控费平台，由商保控费平台调用光学字符识别(Optical Character Recognition，OCR)服务，将传待理赔医疗票据的影像文件转换成医学文本数据，调用医疗编码智库平台的数据标准化映射接口，将光学字符识别得到的医学文本数据映射为智库管理的药品、诊疗、耗材等医学分类的标准医疗目录名称和医疗目录编码，以便执行这些医疗标准码上定义的理赔控费规则，实现理赔业务精准控费的目的。

由于商保控费平台调用光学字符识别服务识别的待理赔票据，往往包含了一次住院或就诊的所有医疗收费项目明细清单(一次住院大概会有300条医疗收费项目明细)，使得商保控费平台对待理赔票据进行光学字符识别，得到的医学文本数据包含多个医学分类(包括但不限于药品、诊疗、疾病、耗材等)的医疗数据，由于不同的医学分类对应不同的数据类型，导致商保控费平台通过光学字符识别得到的医疗文本数据比较繁杂，没有一个统一的格式，除了各渠道的医疗项目的名称，往往还有剂量、规格、甚至乱码等无效数据。

在执行医疗理赔业务时，需要对医疗数据进行对码。现有的医疗数据对码流程是将对待理赔医疗票据进行光学字符识别后的医疗文本数据，经过简单的数据清洗后(将中文的标点符号转成英文，字母大小写统一等)在所有医学分类中进行对码匹配计算，最后汇总返回相似度最高的数据，整个对码匹配流程耗时较长，导致理赔业务经常因超时而失败。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种医疗票据对码方法，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，该方法包括：对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。

本发明实施例还提供一种医疗票据对码装置，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，该装置包括：光学字符识别模块，用于对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；分词处理模块，用于对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；语义分类模块，用于将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；医疗数据对码模块，用于根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。

本发明实施例还提供一种计算机设备，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述医疗票据对码方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，该计算机可读存储介质存储有执行上述医疗票据对码方法的计算机程序。

本发明实施例中提供的一种医疗票据对码方法、装置、计算机设备及计算机可读存储介质，在对待对码医疗票据进行光学字符识别得到医学文本数据后，首先对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果，进而将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类，然后根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

与现有技术中直接对光学字符识别后包含多个医疗分类的医疗文本数据进行对码的技术方案相比，与现有技术中直接对光学字符识别后包含多个医疗分类的医疗文本数据进行对码的技术方案相比，本发明实施例通过对光学字符识别后的医疗文本数据进行语义分类，提高了医疗数据的对码效率和准确率。将本发明实施例中提供的医疗票据对码方法应用于医疗理赔业务，能够降低理赔业务因对码耗时较长而执行失败的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种医疗票据对码方法流程图；

图2为本发明实施例中提供的一种医疗文本数据对码系统示意图；

图3为本发明实施例中提供的一种语义分类过程示意图；

图4为本发明实施例中提供的一种医疗票据对码装置示意图；

图5为本发明实施例中提供的一种计算机设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种医疗票据对码方法，图1为本发明实施例中提供的一种医疗票据对码方法流程图，如图1所示，该方法包括如下步骤：

S101，对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据。

需要说明的是，本发明实施例中的待对码医疗票据可以是但不限于医疗理赔业务涉及到的各种费用明细清单票据。在对待对码医疗票据进行光学字符识别时，需要上传待对码医疗票据的影像文件，进而对待对码医疗票据的影像文件进行光学字符识别，得到相应的医疗文本数据。可选地，本发明实施例中每条医疗文本数据可以是医疗票据上一条医疗项目费用明细的文本数据。

S102，对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果。

需要说明的是，本发明实施例中，在对光学字符识别得到的每条医学文本数据进行分词处理时，可以采用多种分词方法进行分词处理，得到每条医疗文本数据对应的一个分词集合(即分词结果)，该分词集合中可包含该条医疗文本数据所有可能的分词结果或同义词结果。需要注意的是，按照不同的分词方法分词处理，得到的分词结果也不同。例如，某一条医疗文本数据“琥珀酰明胶注射液:20g:500ml/瓶”对应的分词结果为“琥珀酰明胶、注射、注射液、20g:500ml/瓶”。

由于一些无效数据的干扰，会导致数据对码匹配率降低，且匹配的结果往往也不是100％精确匹配(即完全匹配)，若通过人工干预，则会导致理赔案件的阳性检出率不高，理赔效果也无法满足业务要求。因而，在一个实施例中，在执行S102之前，本发明实施例中提供的医疗票据对码方法还可以包括如下步骤：基于预先构建的数据清洗模型，对光学字符识别得到的每条医学文本数据进行数据清洗处理，得到每条医疗文本数据对应的有效文本数据；则上述S102可以对每条医疗文本数据对应的有效文本数据进行分词处理，得到每条医疗文本数据的分词结果。本发明实施例中，对光学字符识别得到的医学文本数据进行医学分类前，对光学字符识别得到的医学文本数据进行数据清洗处理，去除无效数据，保留有效数据，能够降低无效数据的干扰，提高数据分类的准确率。

进一步地，本发明实施例中提供的医疗票据对码方法还可以通过如下步骤来构建数据清洗模型：统计医疗文本数据的数据特征；获取针对不同数据特征定义的数据清洗规则；根据定义的数据清洗规则，构建对医学文本数据进行数据清洗处理的数据清洗模型。通过预先定义数据清洗规则，构建数据清洗模型，能够快速对医疗文本数据进行数据清洗处理。

在获取到对待理赔票据进行光学字符识别到的医疗文本数据后，将光学字符识别得到的医疗文本数据输入到预先构建的数据清洗模型中，快速去除无效数据，保留有效数据。

仍以医疗文本数据“琥珀酰明胶注射液:20g:500ml/瓶”为例，由于“琥珀酰明胶、注射、注射液、20g:500ml/瓶”为药品剂型和单位，不在对码范围内，通过数据清洗处理去除；得到该医疗文本数据的有效文本数据为“琥珀酰明胶、注射、注射液”。

S103，将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类。

需要说明的是，本发明实施例中医学分类包括但不限于如下四类：药品、诊疗、疾病、耗材。本发明实施例中不同医学分类的语料库对应不同的医疗数据库。

在具体实施时，上述步骤可以通过如下步骤来实现：将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，得到每条医疗数据对应的一个或多个医疗分类；将匹配长度最大的医学分类，确定为每条医疗数据对应的医疗分类。

进一步地，一个实施例中，在将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配的时候，本发明实施例中提供的医疗票据对码方法，可以通过如下步骤来实现：从每条医疗文本数据的分词结果中，提取每条医疗文本数据对应的关键词；根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

在一个实施例中，本发明实施例中提供的医疗票据对码方法还可通过如下步骤来建立不同医学分类的语料库：统计多个预设医学分类的特征词数据及同义词数据，其中，预设医学分类包括如下至少之一：药品、诊疗、疾病、耗材；根据每个预设医学分类的特征词数据和同义词数据，建立每个预设医学分类的语料库。

仍以医疗文本数据“琥珀酰明胶注射液:20g:500ml/瓶”为例，由于“琥珀酰明胶、注射、注射液”中的关键词为“注射”和“注射液”，将关键词与不同医学分类的语料库进行匹配，在药品剂型语料库中匹配到“注射液”，在诊疗语料库中匹配到“注射”，选取“注射液”作为关键词，数据类型属于“药品”，进入“药品”数据库进行数据对码。

S104，根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。

在具体实施时，上述S104可以通过如下步骤来实现：从每条医疗文本数据的分词结果中，提取每条医疗文本数据对应的关键词；根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

一个实施例中，在根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码的时候，可以通过如下步骤来实现：根据待对码医疗文本数据的医学分类，判断待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词是否完全匹配；当待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词未完全匹配的情况下，对关键词进行同义词替换；将替换后的同义词，与预设医疗编码知识库中相应医学分类的标准医疗术语词进行对码。

仍以医疗文本数据“琥珀酰明胶注射液:20g:500ml/瓶”为例，将关键词对应的医疗文本数据“琥珀酰明胶注射液”与医疗编码知识库的药品库进行匹配，得到完全匹配的“琥珀酰明胶注射液”，返回对码结果“琥珀酰明胶注射液”，则医疗文本数据的对码流程结束。

当本发明实施例中的待对码医疗票据为医疗理赔业务中的各种待理赔医疗票据的情况下，本发明实施例中提供的医疗票据对码方法还可以包括如下步骤：根据对码结果，执行待理赔医疗票据的理赔业务。将本发明实施例中提供的医疗票据对码方法应用于医疗理赔业务中各种医疗票据的对码，能够快速执行待理赔医疗票据的理赔业务。应理解，本发明实施例中提供的医疗票据对码方法还可以用于其他业务。图2为本发明实施例中提供的一种医疗文本数据对码系统示意图，如图2所示，该系统包括：数据准备模块、数据清洗模块、数据分类模块、数据对码模块，其中，数据准备模块用于对医疗票据进行光学字符识别，得到相应的医学文本数据；数据清洗模块用于对光学字符识别得到的医学文本数据进行数据清洗处理，去除无效数据，保留有效数据；数据分类模块用于对有效的医学文本数据进行分词处理，提取关键词，并将提取的关键词与不同医学分类的语料库进行匹配，以确定每条医疗文本数据对应的医学分类；数据对码模块用于判断提取的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词是否完全匹配，若是，则结束对码流程，若否，则对关键词进行同义词替换，并将替换后的同义词，与预设医疗编码知识库中相应医学分类的标准医疗术语词进行对码。可选地，在传入光学字符识别得到的医疗文本数据之前，本发明实施例中还可统计出各种需要清洗的数据特征，针对不同的特征设计相应的清洗规则，一种数据清洗模型样例如表1所示。

表1数据清洗模型样例

将光学字符识别得到的医疗文本数据输入至数据清洗模型，输出清洗后的有效文本数据，基于预先建立的医疗分类语料库对清洗后的有效文本数据进行语义分类，需要说明的是，本发明实施例中，语料库的建立来源于医学专家对各医学分类的特征的统计结果，这些分类特征数据量较小，相对于医学知识库的海量数据来说是可穷举的，例如药品的分类语料库基于剂型建立，剂型特征库数据在300条左右，包含标准的剂型词和剂型同义词，一种药品剂型语料库部分示例如表2所示。

表2药品剂型语料库

标注剂型	实际剂型	同义词
			口服常释剂型	口腔崩解片	口崩片、口内崩解片
口服液体剂	口服溶液剂	口服溶液、口服液体、口服液
			贴剂	贴膏剂	凝胶贴膏、橡胶膏、软化膏

图3为本发明实施例中提供的一种语义分类过程示意图，如图3所示，本发明实施例中语义分类流程包括如下步骤：

S301，中文分词：

对清洗后的有效数据(医疗数据A、医疗数据B、医疗数据C、医疗数据D和医疗数据E)进行中文分词，输出分词结果(医疗数据A分词集、医疗数据B分词集、医疗数据C分词集、医疗数据D分词集和医疗数据E分词集)。例如有一条数据的分词结果为：[“注射”，“注射液”]。

S302，分类匹配：

将分词结果和各分类语料库(药品语料库、耗材语料库、诊疗语料库和疾病语料库)进行匹配，如在药品剂型语料库中匹配到“注射液”，在诊疗语料库中匹配到“注射”。

S303，输出分类：

汇总在各分类语料库中的匹配结果(医疗数据A在药品分类中，医疗数据B同时在药品、耗材、诊疗和疾病分类中，医疗数据C在耗材分类中，医疗数据E在诊疗分类中，而医疗数据D不在预设语料库中)，取匹配长度最大的作为其分类(若医疗数据B在疾病语料库中的匹配长度最长，则将医疗数据B归为疾病分类)。例如，分词集[“注射”，“注射液”]，取“注射液”所在的分类(药品)为其标准分类。

将标注出分类的数据放入相应的集合，集合包括药品、诊疗、疾病、耗材。如果分词结果未匹配到分类语料库，则该条数据(例如，医疗数据D)将会被放入所有的集合中进行后续的匹配。

将每个待匹配的集合和医疗编码智库系统中的药品、诊疗、疾病、耗材标准库进行精确匹配、同义词匹配、相似度匹配计算(计算词向量的相似度)，最后分类汇总出相似度最高的结果。

本发明实施例中提供的医疗票据对码方法，支持在传入的医疗数据类型混杂、数据颗粒度较粗的前提下，自动对数据进行清洗、分类后进行精确的医疗数据对码，包括完全匹配对码和同义词替换后对码，尤其是支持各类OCR数据场景下的医疗数据对码。

需要注意的是，经光学字符识别得到的医疗文本数据中，可能同时包含各种各样的数据类型，以及一些无意义的字段信息。由于数据未分类，导致所有的数据都需要在医学知识库中的每个医学分类中(药品、诊疗、疾病、耗材)进行匹配，一次住院大概会有300条收费项目明细，医疗编码有40w条，未分类的情况下，匹配运算量为300×40w＝1.2亿次，由于未做数据清洗，待匹配的数据大概率需要走完全流程的匹配路径(记忆映射、精确匹配、同义词替换、相似度匹配)，按最长匹配路径计算，计算一条数据大约耗时300豪秒，300条耗时约1.5分钟。特别是在高并发调用情况下，耗时增长明显，8核CPU系统的吞吐率低于30笔/秒，系统性能和效率差。

表3示出了几条医疗文本数据的对码结果。经过大量数据性能测试，在不使用语义分类、数据清洗模型的情况下，300条医疗明细数据的匹配耗时约1.5分钟，使用语义分类和数据清洗模型后，匹配路大幅缩短，例如：“注射用胰激肽原酶※40单位×10支/盒”通过语义分类，归类到药品类别，数据清洗后的名称为“注射用胰激肽原酶”，在药品库中精确匹配到标准医疗名称，对码耗时由原来的300ms降至50ms以内。经过大量测试，300条医疗明细数据平均耗时降至约2秒内，系统吞吐率达到100笔/秒以上，同时对码的匹配率和准确率提升显著，例如“一次性使用负压引流袋[2000ml(50个/箱)]”，原始对码的结果为“一次性使用床单”，对码结果明显错误，改进后的算法对出来的结果是相似度为1的正确结果。

表3医疗文本数据的对码结果

可见，本发明实施例中提供的医疗票据对码方法，使用语义分类、数据清洗模型后匹配性能、匹配率、准确率提升显著，经过大量的实际OCR数据测试，证明数据量越大性能，提升空间越大。考虑到国内医疗信息化领域数据结构化程度较低、碎片化程度较高的历史和现状，本发明可以适用于多种医疗数据处理的应用场景。

基于同一发明构思，本发明实施例中还提供了一种医疗票据对码装置，如下面的实施例所述。由于该装置解决问题的原理与医疗票据对码方法相似，因此该装置的实施可以参见医疗票据对码方法的实施，重复之处不再赘述。

图4为本发明实施例中提供的一种医疗票据对码装置示意图，如图4所示，该装置包括：光学字符识别模块41、分词处理模块42、语义分类模块43和医疗数据对码模块44。

其中，光学字符识别模块41，用于对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；分词处理模块42，用于对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；语义分类模块43，用于将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；医疗数据对码模块44，用于根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

在一个实施例中，当本发明实施例中的待对码医疗票据为医疗理赔业务中的各种待理赔医疗票据的情况下，本发明实施例中提供的医疗票据对码装置还包括：理赔业务模块45，用于根据对码结果，执行待理赔医疗票据的理赔业务。

在一个实施例中，本发明实施例中提供的医疗票据对码装置还包括：数据清洗模块46，用于基于预先构建的数据清洗模型，对光学字符识别得到的每条医学文本数据进行数据清洗处理，得到每条医疗文本数据对应的有效文本数据；其中，分词处理模块42还用于：对每条医疗文本数据对应的有效文本数据进行分词处理，得到每条医疗文本数据的分词结果。

在一个实施例中，本发明实施例中提供的医疗票据对码装置还可包括：数据清洗模型构建模块47，用于：统计医疗文本数据的数据特征；获取针对不同数据特征定义的数据清洗规则；根据定义的数据清洗规则，构建对医学文本数据进行数据清洗处理的数据清洗模型。

在一个实施例中，本发明实施例中提供的医疗票据对码装置中，语义分类模块43还用于：将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，得到每条医疗数据对应的一个或多个医疗分类；以及将匹配长度最大的医学分类，确定为每条医疗数据对应的医疗分类。

在一个实施例中，本发明实施例中提供的医疗票据对码装置中，医疗数据对码模块44还用于：从每条医疗文本数据的分词结果中，提取每条医疗文本数据对应的关键词；根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

在一个实施例中，本发明实施例中提供的医疗票据对码装置中，医疗数据对码模块44还用于：根据待对码医疗文本数据的医学分类，判断待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词是否完全匹配；当待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词未完全匹配的情况下，对关键词进行同义词替换；将替换后的同义词，与预设医疗编码知识库中相应医学分类的标准医疗术语词进行对码。

在一个实施例中，本发明实施例中提供的医疗票据对码装置还可包括：语料库建立模块48，用于统计多个预设医学分类的特征词数据及同义词数据，其中，预设医学分类包括如下至少之一：药品、诊疗、疾病、耗材；根据每个预设医学分类的特征词数据和同义词数据，建立每个预设医学分类的语料库。

基于同一发明构思，本发明实施例还提供一种计算机设备，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，图5为本发明实施例中提供的一种计算机设备示意图，如图5所示，该计算机设备50包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序，处理器502执行计算机程序时实现上述医疗票据对码方法。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，用以解决现有的医疗数据对码流程耗时较长会导致理赔业务因超时而失败的技术问题，该计算机可读存储介质存储有执行上述医疗票据对码方法的计算机程序。

综上所述，本发明实施例中提供的一种医疗票据对码方法、装置、计算机设备及计算机可读存储介质，在对待对码医疗票据进行光学字符识别得到医学文本数据后，首先对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果，进而将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类，然后根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

与现有技术中直接对光学字符识别后包含多个医疗分类的医疗文本数据进行对码的技术方案相比，本发明实施例通过对光学字符识别后的医疗文本数据进行语义分类，提高了医疗数据的对码效率和准确率。将本发明实施例中提供的医疗票据对码方法应用于医疗理赔业务，能够降低理赔业务因对码耗时较长而执行失败的概率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医疗票据对码方法，其特征在于，包括：

对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；

对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；

将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；

根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。

2.如权利要求1所述的方法，其特征在于，在对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果之前，所述方法还包括：

基于预先构建的数据清洗模型，对光学字符识别得到的每条医学文本数据进行数据清洗处理，得到每条医疗文本数据对应的有效文本数据；

其中，对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果，包括：对每条医疗文本数据对应的有效文本数据进行分词处理，得到每条医疗文本数据的分词结果。

3.如权利要求2所述的方法，其特征在于，所述数据清洗模型是通过如下方式预先构建的：

统计医疗文本数据的数据特征；

获取针对不同数据特征定义的数据清洗规则；

根据定义的数据清洗规则，构建对医学文本数据进行数据清洗处理的数据清洗模型。

4.如权利要求1所述的方法，其特征在于，将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类，包括：

将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，得到每条医疗数据对应的一个或多个医疗分类；

将匹配长度最大的医学分类，确定为每条医疗数据对应的医疗分类。

5.如权利要求1所述的方法，其特征在于，根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，包括：

从每条医疗文本数据的分词结果中，提取每条医疗文本数据对应的关键词；

根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码。

6.如权利要求5所述的方法，其特征在于，根据每条医疗文本数据的医学分类，将每条医疗文本数据对应的关键词，与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，包括：

根据待对码医疗文本数据的医学分类，判断待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词是否完全匹配；

当待对码医疗文本数据对应的关键词与预设医疗编码知识库中相应医学分类的标准医疗术语词未完全匹配的情况下，对关键词进行同义词替换；

将替换后的同义词，与预设医疗编码知识库中相应医学分类的标准医疗术语词进行对码。

7.如权利要求1所述的方法，其特征在于，所述语料库是通过如下方式建立的：

统计多个预设医学分类的特征词数据及同义词数据，其中，所述预设医学分类包括如下至少之一：药品、诊疗、疾病、耗材；

根据每个预设医学分类的特征词数据和同义词数据，建立每个预设医学分类的语料库。

8.一种医疗票据对码装置，其特征在于，包括：

光学字符识别模块，用于对待对码医疗票据进行光学字符识别，得到至少一条医学文本数据；

分词处理模块，用于对光学字符识别得到的每条医学文本数据进行分词处理，得到每条医疗文本数据的分词结果；

语义分类模块，用于将每条医疗文本数据的分词结果与不同医学分类的语料库进行匹配，根据匹配结果确定每条医疗文本数据对应的医学分类；

医疗数据对码模块，用于根据每条医疗文本数据的医学分类，将每条医疗文本数据与预设医疗编码知识库中相应医学分类的标准医疗文本数据进行对码，生成对码结果。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述医疗票据对码方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任一项所述医疗票据对码方法的计算机程序。