CN111382290A

CN111382290A - 一种单据图片的处理方法及装置

Info

Publication number: CN111382290A
Application number: CN202010113453.0A
Authority: CN
Inventors: 倪旻
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-07-07
Anticipated expiration: 2040-02-24
Also published as: CN111382290B

Abstract

本发明提供了一种单据图片的处理方法、装置、计算机设备及计算机可读存储介质，包括：接收单据图片及对应的内容描述数据；对单据图片进行文本识别操作，得到多个第二标题项和第二具体内容；将第二标题项和预设的数据库中存储的第三标题项进行匹配，确定目标标题项，并生成识别结果数据；在识别结果数据与内容描述数据匹配的情况下，进行针对单据图片的业务操作。本发明可以通过对单据图片进行文本识别操作，将得到的第二标题项，与预设的第三标题项进行比较，生成表征单据图片中记录的内容识别结果数据，并将识别结果数据和内容描述数据进行比较，从而可以在实现单据图片的智能化处理的同时，提高单据图片的智能化处理过程的准确度。

Description

一种单据图片的处理方法及装置

技术领域

本发明属于计算机技术领域，特别是涉及一种单据图片的处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着经济的发展，人们消费能力逐渐提高，人们的消费结构也在发生变化，健康医疗保险逐渐为人们所接受和重视，成为新的消费热点。

现有技术中，投保人在保险公司的业务系统中办理理赔申请，上传理赔所需的扫描件或照片形式的单据图片，并填写单据图片对应的相关信息，审核人员在业务系统中处理该项理赔业务时，首先需要校验投保人提交的单据图片，与填写的单据图片对应的相关信息是否相符，审核人员在业务系统中阅读扫描件或照片形式的单据图片，获取单据图片中记载的信息，并将单据图片中记载的信息，与投保人填写的单据图片对应的相关信息进行比较，若两者相符，则进行该项理赔。

但是，目前方案中，校验投保人提交的单据图片，与填写的单据图片对应的相关信息是否相符的过程，是由审核人员人工阅读单据图片，并判断单据图片和对应的相关信息是否相符，由于人工阅读图片速度较慢，并且在判断过程中容易出现错误，从而导致保险理赔业务耗时较长，准确度较差。

发明内容

有鉴于此，本发明提供一种单据图片的处理方法、装置、计算机设备及计算机可读存储介质，在一定程度上解决了目前方案中将在校验投保人提交的单据图片和相关信息是否相符的过程中，准确度较差，且耗时长的问题。

依据本发明的第一方面，提供了单据图片的处理方法，该方法可以包括：

接收单据图片及所述单据图片对应的内容描述数据，所述内容描述数据包括：第一标题项和所述第一标题项对应的第一具体内容；

确定所述单据图片的单据类别；

在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容；

将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项；

根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据；

在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作。

依据本发明的第二方面，提供了一种单据图片的处理装置，该装置可以包括：

接收模块，用于接收单据图片及所述单据图片对应的内容描述数据，所述内容描述数据包括：第一标题项和所述第一标题项对应的第一具体内容；

确定模块，用于确定所述单据图片的单据类别；

识别模块，用于在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容；

第一匹配模块，用于将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项；

第一生成模块，用于根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据；

操作模块，用于在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的单据图片的处理方法包括的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的单据图片的处理方法的步骤。

针对在先技术，本发明具备如下优点：

本发明提供的一种单据图片的处理方法，包括：接收单据图片及单据图片对应的内容描述数据，内容描述数据包括：第一标题项和第一标题项对应的第一具体内容；确定单据图片的单据类别；在单据类别为目标单据类别的情况下，对单据图片进行文本识别操作，得到单据图片对应的多个第二标题项和第二标题项对应的第二具体内容；将第二标题项和预设的数据库中存储的第三标题项进行匹配，确定第三标题项中，与第二标题项匹配的目标标题项；根据目标标题项和目标标题项对应的第二具体内容，生成识别结果数据；在识别结果数据与内容描述数据匹配的情况下，进行针对单据图片的业务操作。本发明可以通过对单据图片进行文本识别操作，并将识别得到的第二标题项，与预设的数据库中存储的第三标题项进行比较，若第二标题项与第三标题项相匹配，则生成表征单据图片中记录的内容识别结果数据，并将识别结果数据和用户输入的内容描述数据进行比较，从而可以实现单据图片的智能化处理过程，减少人工操作过程，同时，也可以提高单据图片的智能化处理过程的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种单据图片的处理方法的步骤流程图；

图2是本发明实施例提供的一种单据图片的处理系统的示意图；

图3是本发明实施例提供的另一种单据图片的处理方法的步骤流程图；

图4是本发明实施例提供的一种单据图片的处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种单据图片的处理方法的步骤流程图，应用于终端，如图1所示，该方法可以包括：

步骤101、接收单据图片及所述单据图片对应的内容描述数据，所述内容描述数据包括：第一标题项和所述第一标题项对应的第一具体内容。

在该步骤中，可以通过相关的业务系统接收需要进行业务操作的单据图片，以及用户或代理人输入的所述单据图片对应的内容描述数据。

在本发明实施例中，所述单据图片可以是原始单据的扫描件或照片，用户在需要通过单据图片进行理赔时，可以先将需要的单据图片上传至保险公司的业务系统，同时在业务系统中填写保险公司进行理赔审核时需要的相关信息，也就是所述单据图片对应的内容描述数据。

例如，以用户进行医保理赔为例，所述单据图片可以是一张“大连市第四人民医院出院小结”的单据图片，用户可以在对纸质版的原始单据“大连市第四人民医院出院小结”进行扫描或拍照，获得“大连市第四人民医院出院小结”的单据图片，并将该单据图片上传至保险公司的业务系统，同时，用户在业务系统中，需要填写针对该单据图片的内容信息的描述，填写的信息的第一标题项可以包括：“患者姓名”、“医院名称”、“出院情况”、“入院时间”“出院时间”和“就诊诊断”等，具体的，可以在保险公司的业务系统中设置有对应上述第一标题项的选项，以及针对该选项的输入框，以供用户在输入框中填写第一标题项对应的第一具体内容，第一标题项和第一具体内容共同构成单据图片对应的内容描述数据。

可选的，接收用户输入的单据图片对应的内容描述数据之后，生成JavaScript对象简谱(JavaScript Object Notation，JSON)格式的内容描述数据，JSON格式的数据是一种轻量级的数据交换格式，采用完全独立于编程语言的文本格式来存储和表示数据，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

具体的，生成的JSON格式的内容描述数据可以为：

“patientName”：“马某某”；

“hosName”：“大连市第四人民医院出院小结”；

“inHosDate”：“2019-03-07”；

“outHosDate”：“2019-03-18”；

“diagnose”：“左锁骨粉碎性骨折”；

“summary”：“一般情况尚可，大小便正常，生命体征平稳，左肩部伤口干燥无明显渗出，皮缘对合好，左府关节活动尚可，骨折对位对线好,内固定位置好”。

参照图2，示出了本发明实施例提供的一种单据图片的处理系统的示意图，业务系统中的单据图片的处理系统10，可以接收单据图片20及所述单据图片对应的内容描述数据30，并将所述单据图片20存储在数据库160中的单据图片库161中，从而进一步进行单据图片20的处理，并根据单据图片20的处理结果，进行相应的保险理赔业务。

步骤102、确定所述单据图片的单据类别。

在该步骤中，需要确定单据图片的单据类别。

在本发明实施例中，可以利用光学字符识别(OCR，Optical CharacterRecognition)技术或深度学习OCR技术，提取单据图片中的文本数据，OCR技术是指通过电子设备(例如扫描仪或数码相机)，检查单据图片中打印的字符，并通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

具体的，可以通过调用深度学习OCR引擎，进行字符识别的预处理，从而对单据图片进行分类，最终确定单据图片的单据类别，进一步根据单据图片的单据类别，判断当前的单据图片是否为目标单据类别。

在本发明实施例中，还可以在确定了单据图片中的文本数据之后，进一步根据文本数据，确定单据图片的单据类别。

具体的，若检测到在单据图片的文本数据中，存在“出院小结”“出院病历小结”等字段，则可以判断该单据图片的类别为出院单据；若检测到在单据图片的文本数据中，存在“医疗费用收据”“结算费用明细”等字段，则可以判断该单据图片的类别为费用单据。

步骤103、在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

在该步骤中，在判断接收到的单据类别为目标单据类别的情况下，识别并处理单据图片中的文本内容。

在本发明实施例中，所述目标单据类别为出院单据，即在判断接收到的单据类别为出院单据的情况下，识别并处理出院单据图片中的文本内容。

具体的，可以利用OCR技术或深度学习OCR技术，对单据图片进行文本识别操作，参照图2，单据图片的处理系统10可以通过调用OCR引擎，利用存储在单据图片的处理系统10中的字符识别模型，对单据图片20进行文本识别操作。首先对单据图片20的版面进行分析，对单据图片20每一行进行行分割，把每一行的文字切割下来，最后再对每一行文本进行列分割，切割出每个字符，将该字符送入训练好的字符识别模型进行字符识别，得到单据图片20中的文本内容。

此外，还可以结合深度学习，采用基于卷积神经网络的深度学习OCR引擎140，利用存储在单据图片的处理系统10中的深度学习字符识别模型150，对单据图片20进行文本识别操作，得到单据图片20中的文本内容，从而提高文本识别操作的识别率和准确度。

进一步的，深度学习OCR引擎140对单据图片20进行文本识别操作之后，得到的是无格式的纯文本，因而，可以利用文本处理引擎120，读取深度学习OCR引擎140输出的纯文本，对通过文本识别操作得到的单据图片20中的纯文本进行文本处理，根据关键字和上下文等信息，在所述纯文本中切分出各文本项，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

在本发明实施例中，得到的多个第二标题项可以为：“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”，对应的第二具体内容分别为：“马某某”、“大连市第四人民医院”、“患者一般情况尚可，大小便正常，未诉特殊不适；查体：生命体征平稳左肩部伤口干燥无明显渗出，皮缘对合好，左府关节活动尚可；复查左肩关节正位片示：骨折对位对线好，内固定位置好”、“2019-03-07”、“2019-03-18”、“左锁骨粉碎性骨折”。

步骤104、将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项。

在该步骤中，将步骤103中得到的第二标题项，与预设的数据库106中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项。

在本发明实施例中，第三标题项预先存储在数据库160中的单据要素库164中，文本处理引擎120可以通过调用单据要素库164中的第三标题项，与第二标题项进行匹配，从而判断在第三标题项中，与所述第二标题项匹配的目标标题项。

具体的，步骤103中得到的多个第二标题项可以为：“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”。单据要素库中存储有包括“患者姓名”、“患者年龄”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”、“既往病史”等第三标题项。

即可以判断在在第三标题项中，与第二标题项匹配的目标标题项有：“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”。

步骤105、根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据。

在该步骤中，根据步骤104中得到的目标标题项，结合与所述目标标题项对应的第二具体内容，生成针对该单据图片的识别结果数据。

在本发明实施例中，根据步骤103识别得到的多个第二标题项可以为：“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”，对应的第二具体内容分别为：“马某某”、“大连市第四人民医院”、“2019-03-07”、“2019-03-18”、“左锁骨粉碎性骨折”。单据要素库中存储的第三标题项可以包括：“患者姓名”、“患者年龄”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”、“既往病史”等，从而判断在第三标题项中，与所述第二标题项匹配的目标标题项有：“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”，所述目标标题项对应的具体内容分别为：“马某某”、“大连市第四人民医院”、“2019-03-07”、“2019-03-18”、“左锁骨粉碎性骨折”。

可选的，结合目标标题项及与目标标题项对应的第二具体内容，生成针对该单据图片的识别结果数据，可以为JSON格式的数据，JSON格式的数据是一种轻量级的数据交换格式，采用完全独立于编程语言的文本格式来存储和表示数据，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率，JSON格式是网络软件系统中用于数据交换的常用格式，具有结果简单、内容紧缩、可读性强、易于处理等特点，使用JSON格式便于应用设计、开发、调试。

具体的，根据上述步骤得到的目标标题项及与目标标题项对应的第二具体内容，生成的JSON格式的识别结果数据可以为：

“patientName”：“马某某”；

“hosName”：“大连市第四人民医院出院小结”；

“inHosDate”：“2019-03-07”；

“outHosDate”：“2019-03-18”；

“diagnose”：“左锁骨粉碎性骨折”。

步骤106、在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作。

在该步骤中，将识别单据图片得到的识别结果数据，与用户输入的单据图片对应的内容描述数据进行比较，若两者匹配，则说明单据图片中记载的内容，与用户输入的内容描述数据一致，该单据图片审核通过，进而进行针对所述单据图片的业务操作，参照图2，单据图片的处理系统10可以通过规则引擎110，调用数据库160中的业务规则库163，根据业务规则库163中预先存储的业务规则，针对单据图片进行相关的业务操作。

综上所述，本发明实施例提供的一种单据图片的处理方法中，包括：接收单据图片及单据图片对应的内容描述数据，内容描述数据包括：第一标题项和第一标题项对应的第一具体内容；确定单据图片的单据类别；在单据类别为目标单据类别的情况下，对单据图片进行文本识别操作，得到单据图片对应的多个第二标题项和第二标题项对应的第二具体内容；将第二标题项和预设的数据库中存储的第三标题项进行匹配，确定第三标题项中，与第二标题项匹配的目标标题项；根据目标标题项和目标标题项对应的第二具体内容，生成识别结果数据；在识别结果数据与内容描述数据匹配的情况下，进行针对单据图片的业务操作。本发明可以通过对单据图片进行文本识别操作，并将识别得到的第二标题项，与预设的数据库中存储的第三标题项进行比较，若第二标题项与第三标题项相匹配，则生成表征单据图片中记录的内容识别结果数据，并将识别结果数据和用户输入的内容描述数据进行比较，从而可以实现单据图片的智能化处理过程，减少人工操作过程，同时，也可以提高单据图片的智能化处理过程的准确度。

图3是本发明实施例提供的另一种单据图片的处理方法的步骤流程图，如图3所示，该方法可以包括：

步骤201、接收单据图片及所述单据图片对应的内容描述数据，所述内容描述数据包括：第一标题项和所述第一标题项对应的第一具体内容。

该步骤具体可以参照上述步骤101，此处不再赘述。

步骤202、确定所述单据图片的单据类别。

其中，所述匹配词库包括：多个完整词、所述完整词对应的分词、所述完整词与所述分词之间的第一对应关系。

该步骤具体可以参照上述步骤102，此处不再赘述。

步骤203、在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

可选的，步骤203具体可以包括：

子步骤2031，在所述单据类别为所述目标单据类别的情况下，通过深度学习光学字符识别技术，对所述单据图片进行所述文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

在该步骤中，在判断接收到的单据类别为目标单据类别的情况下，通过深度学习OCR技术识别并处理单据图片中的文本内容。

参照图2，单据图片的处理系统10可以调用结合深度学习，采用基于卷积神经网络从而得到的深度学习OCR引擎140，利用存储在单据图片的处理系统10中的深度学习字符识别模型150，对单据图片20进行文本识别操作。首先对单据图片20的版面进行分析，对单据图片20每一行进行行分割，把每一行的文字切割下来，最后再对每一行文本进行列分割，切割出每个字符，将该字符送入训练好的字符识别模型进行字符识别，得到单据图片20中的文本内容，使得针对单据图片的文本识别操作的具有较高的识别率和准确度。

进一步的，利用文本处理引擎120，对通过文本识别操作得到的单据图片20中的文本内容进行文本处理，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

具体的，该步骤利用深度学习OCR技术，以及自然语言处理(Nature LanguageProcessing，NLP)技术，对单据图片进行字符识别和文本处理，将图片格式的单据图片，提取单据图片中记录的，且后续针对单据图片进行审核操作时所需的内容，从而实现智能审核过程。

步骤204、将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项。

该步骤具体可以参照上述步骤104，此处不再赘述。

步骤205、根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据。

该步骤具体可以参照上述步骤105，此处不再赘述。

步骤206、在所述第三标题项中不存在与所述第二标题项匹配的目标标题项的情况下，将所述第二标题项和多个所述同义词标题项进行匹配，确定所述同义词标题项中，与所述第二标题项匹配的目标同义词标题项。

在步骤204之后，若在第三标题项中，不存在与所述第二标题项匹配的目标标题项，则执行步骤206。

在本发明实施例中，若在第三标题项中，不存在与第二标题项匹配的目标标题项，参照图2，则文本处理引擎120可以利用同义词及词语相似度计算模块，调用同义词库162中的同义词标题项，与第二标题项进行匹配，从而判断在同义词标题项中，与所述第二标题项匹配的目标同义词标题项。

例如，多个第二标题项可以为：“患者姓名”、“医院名称”、“出院情况”、“入院时间”、“出院时间”和“就诊诊断”等，单据要素库中存储的第三标题项有：“患者姓名”、“患者年龄”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”、“出院小结”、“既往病史”，由此可知，对于第二标题项中的“出院情况”这一标题项，在第三标题项总并不存在与之匹配的目标标题项，因此，可以调用同义词库，确定是否在同义词库中存在与“出院情况”这一标题项相匹配的目标同义词标题项。

可选的，步骤206具体可以包括：

子步骤2061、根据所述第二标题项和多个所述同义词标题项，分别确定所述多个同义词标题项与所述第二标题项之间的相似度值。

在该步骤中，在同义词标题项中，分别确定多个同义词标题项与所述第二标题项之间的相似度值。

在本发明实施例中，若第二标题项中的出院情况这一标题项，在第三标题项总并不存在与之匹配的目标标题项，进一步的，在同义词库中计算多个同义词标题项与出院情况这一标题项的相似度值。

例如，同义词库中存储有第三标题项中“患者姓名”的同义词标题项：“姓名”、“名称”；“患者年龄”的同义词标题项：“年龄”；“就诊诊断”的同义词标题项：“诊断结果”、“出院诊断结果”；“出院小结”的同义词标题项：“出院情况”、“出院情况小结”。

分别计算以上同义词标题项：“姓名”、“名称”、“年龄”、“诊断结果”、“出院诊断结果”、“出院情况小结”，与“出院情况”这一标题项之间的字符串的相似度值，若相似度值结果分别为：0％、0％、0％、0％、40％、90％。

子步骤2062、在多个所述相似度值中，选取值最大的目标相似度值，并在所述目标相似度值大于或等于第一阈值的情况下，将所述目标相似度值对应的同义词标题项，确定为所述目标同义词标题项。

在该步骤中，根据计算得到的多个同义词标题项与第二标题项的相似度值，选取值最大的目标相似度值，若所述目标相似度值大于或等于第一阈值，将所述目标相似度值对应的同义词标题项，确定为所述目标同义词标题项。

根据上述示例，各同义词标题项：“姓名”、“名称”、“年龄”、“诊断结果”、“出院诊断结果”、“出院情况小结”，与“出院情况”这一标题项之间的字符串的相似度值分别为：0％、0％、0％、0％、40％、90％，可选的，所述第一阈值可以为80％，则其中相似度值最大的90％为目标相似度值，且该目标相似度值大于第一阈值，则将目标相似度值90％对应的同义词标题项“出院情况小结”作为目标同义词标题项。

步骤207、根据所述目标标题项、目标同义词标题项和所述第二具体内容，生成识别结果数据。

在该步骤中，根据步骤204中得到的目标标题项，以及步骤206中得到的目标同义词标题项，结合第二具体内容，生成针对该单据图片的识别结果数据。

根据上述示例，通过步骤203识别得到的多个第二标题项可以为：“患者姓名”、“医院名称”、“出院情况”、“入院时间”、“出院时间”、“就诊诊断”，其中，“患者姓名”、“医院名称”、、“入院时间”、“出院时间”、“就诊诊断”在第三标题项中存在与之匹配的标题项，因而将“患者姓名”、“医院名称”、“入院时间”、“出院时间”、“就诊诊断”确定为目标标题项；此外，“出院情况”在同义词标题项中存在与之的相似度值大于第一阈值的“出院情况小结”同义词标题项，因而将“出院情况”确定为目标同义词标题项。

进一步的通过步骤203识别得到的多个第二标题项对应的第二具体内容分别为：“马某某”、“大连市第四人民医院”、“患者一般情况尚可，大小便正常，未诉特殊不适；查体：生命体征平稳左肩部伤口干燥无明显渗出，皮缘对合好，左府关节活动尚可；复查左肩关节正位片示：骨折对位对线好，内固定位置好”、“2019-03-07”、“2019-03-18”、“左锁骨粉碎性骨折”。

可选的，结合目标标题项、目标同义词标题项，以及对应的第二具体内容，生成针对该单据图片的识别结果数据，可以为JSON格式的数据。

“patientName”：“马某某”；

“hosName”：“大连市第四人民医院出院小结”；

“inHosDate”：“2019-03-07”；

“outHosDate”：“2019-03-18”；

“diagnose”：“左锁骨粉碎性骨折”；

“summary”：“患者一般情况尚可，大小便正常,未诉特殊不适。查体:生命体征平稳，左肩部伤口干燥无明显渗出,皮缘对合好,左府关节活动尚可。复查左肩关节正位片示:骨折对位对线好,内固定位置好”。

步骤208、在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作。

在该步骤中，将识别单据图片得到的识别结果数据，与用户输入的单据图片对应的内容描述数据进行比较，若两者匹配，则说明单据图片中记载的内容，与用户输入的内容描述数据一致，该单据图片审核通过，进而进行针对所述单据图片的业务操作，若两者不匹配，则说明单据图片中记载的内容，与用户输入的内容描述数据不一致，该单据图片审核不通过。

参照图2，单据图片的处理系统10可以通过规则引擎110，调用数据库160中的业务规则库163，根据业务规则库163中预先存储的业务规则，针对单据图片进行相关的业务操作。

可选的，步骤208具体可以包括：

子步骤2081、在所述识别结果数据与所述内容描述数据的匹配度，大于或等于第二阈值的情况下，确定所述识别结果数据与所述内容描述数据相匹配，并进行针对所述单据图片的业务操作。

在该步骤中，计算识别结果数据与内容描述数据的匹配度，若识别结果数据与内容描述数据的匹配度大于或等于第二阈值，则说明识别结果数据与内容描述数据相匹配，即单据图片中记载的内容，与用户输入的内容描述数据一致，该单据图片审核通过，进而进行针对所述单据图片的业务操作，参照图2，单据图片的处理系统10可以通过规则引擎110，调用数据库160中的业务规则库163，根据业务规则库163中预先存储的业务规则，针对单据图片进行相关的业务操作。

在本发明实施例中，根据用户输入单据图片的相关信息，生成的JSON格式的内容描述数据可以为：

“patientName”：“马某某”；

“hosName”：“大连市第四人民医院出院小结”；

“inHosDate”：“2019-03-07”；

“outHosDate”：“2019-03-18”；

“diagnose”：“左锁骨粉碎性骨折”；

“summary”：“一般情况尚可，大小便正常，生命体征平稳，左肩部伤口干燥无明显渗出,皮缘对合好,左府关节活动尚可，骨折对位对线好,内固定位置好”。

通过文本识别操作及文本处理之后，得到的单据图片的JSON格式的识别结果数据可以为：

“patientName”：“马某某”；

“hosName”：“大连市第四人民医院出院小结”；

“inHosDate”：“2019-03-07”；

“outHosDate”：“2019-03-18”；

“diagnose”：“左锁骨粉碎性骨折”；

可选的，所述第二阈值可以为80％，相应的，计算上述内容描述数据和识别结果数据的匹配度，若所述匹配度大于80％，则可以确定识别结果数据与内容描述数据相匹配。

步骤209、在所述识别结果数据与所述内容描述数据不匹配的情况下，生成单据图片处理失败信息，并将所述单据图片和所述单据图片对应的内容描述数据发送至人工处理数据库，以供人工进行单据图片处理操作。

在该步骤中，若识别单据图片得到的识别结果数据，与用户输入的单据图片对应的内容描述数据进不匹配，则说明单据图片中记载的内容，与用户输入的内容描述数据不一致，该单据图片审核失败。

进一步的，生成单据图片处理失败信息，并将所述单据图片和所述单据图片对应的内容描述数据发送至人工处理数据库，以供人工进行单据图片处理操作。

图4是本发明实施例提供的一种单据图片的处理装置的框图，如图4所示，该装置可以包括：

接收模块301，用于接收单据图片及所述单据图片对应的内容描述数据，所述内容描述数据包括：第一标题项和所述第一标题项对应的第一具体内容。

确定模块302，用于确定所述单据图片的单据类别。

识别模块303，用于在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

可选的，所述识别模块303，包括：

识别子模块，用于在所述单据类别为所述目标单据类别的情况下，通过深度学习光学字符识别技术，对所述单据图片进行所述文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

第一匹配模块304，用于将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项。

第一生成模块305，用于根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据。

操作模块306，用于在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作。

可选的，所述操作模块306，包括：

第三确定子模块，用于在所述识别结果数据与所述内容描述数据的匹配度，大于或等于第二阈值的情况下，确定所述识别结果数据与所述内容描述数据相匹配，并进行针对所述单据图片的业务操作。

可选的，所述预设的数据库中还存储有多个与所述第三标题项对应的同义词标题项，所述装置还包括：

第二匹配模块，用于在所述第三标题项中不存在与所述第二标题项匹配的目标标题项的情况下，将所述第二标题项和多个所述同义词标题项进行匹配，确定所述同义词标题项中，与所述第二标题项匹配的目标同义词标题项；

所述第一生成模块305，包括：

生成子模块，用于根据所述目标标题项、所述目标同义词标题项和所述第二具体内容，生成识别结果数据。

可选的，所述第二匹配模块，包括：

第一确定子模块，用于根据所述第二标题项和多个所述同义词标题项，分别确定所述多个同义词标题项与所述第二标题项之间的相似度值；

第二确定子模块，用于在多个所述相似度值中，选取值最大的目标相似度值，并在所述目标相似度值大于或等于第一阈值的情况下，将所述目标相似度值对应的同义词标题项，确定为所述目标同义词标题项。

可选的，所述装置还包括：

第二生成模块，用于在所述识别结果数据与所述内容描述数据不匹配的情况下，生成单据图片处理失败信息，并将所述单据图片和所述单据图片对应的内容描述数据发送至人工处理数据库，以供人工进行单据图片处理操作。

可选的，所述内容描述数据和所述识别结果数据为JavaScript对象简谱格式的数据。

综上所述，本发明实施例提供的一种单据图片的处理装置，包括：接收单据图片及单据图片对应的内容描述数据，内容描述数据包括：第一标题项和第一标题项对应的第一具体内容；确定单据图片的单据类别；在单据类别为目标单据类别的情况下，对单据图片进行文本识别操作，得到单据图片对应的多个第二标题项和第二标题项对应的第二具体内容；将第二标题项和预设的数据库中存储的第三标题项进行匹配，确定第三标题项中，与第二标题项匹配的目标标题项；根据目标标题项和目标标题项对应的第二具体内容，生成识别结果数据；在识别结果数据与内容描述数据匹配的情况下，进行针对单据图片的业务操作。本发明可以通过对单据图片进行文本识别操作，并将识别得到的第二标题项，与预设的数据库中存储的第三标题项进行比较，若第二标题项与第三标题项相匹配，则生成表征单据图片中记录的内容识别结果数据，并将识别结果数据和用户输入的内容描述数据进行比较，从而可以实现单据图片的智能化处理过程，减少人工操作过程，同时，也可以提高单据图片的智能化处理过程的准确度。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

优选的，本发明实施例还提供一种计算机设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述单据图片的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述单据图片的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的单据图片的处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的医疗数据中的文本匹配方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种单据图片的处理方法，其特征在于，所述方法包括：

确定所述单据图片的单据类别；

2.根据权利要求1所述的方法，其特征在于，所述预设的数据库中还存储有多个与所述第三标题项对应的同义词标题项；

所述将所述第二标题项和预设的数据库中存储的第三标题项进行匹配，确定所述第三标题项中，与所述第二标题项匹配的目标标题项的步骤之后，所述方法还包括：

在所述第三标题项中不存在与所述第二标题项匹配的目标标题项的情况下，将所述第二标题项和多个所述同义词标题项进行匹配，确定所述同义词标题项中，与所述第二标题项匹配的目标同义词标题项；

所述根据所述目标标题项和所述目标标题项对应的第二具体内容，生成识别结果数据的步骤，包括：

根据所述目标标题项、所述目标同义词标题项和所述第二具体内容，生成识别结果数据。

3.根据权利要求2所述的方法，其特征在于，所述在所述第三标题项中不存在与所述第二标题项匹配的目标标题项的情况下，将所述第二标题项和多个所述同义词标题项进行匹配，确定所述同义词标题项中，与所述第二标题项匹配的所述目标同义词标题项的步骤，包括：

根据所述第二标题项和多个所述同义词标题项，分别确定所述多个同义词标题项与所述第二标题项之间的相似度值；

在多个所述相似度值中，选取值最大的目标相似度值，并在所述目标相似度值大于或等于第一阈值的情况下，将所述目标相似度值对应的同义词标题项，确定为所述目标同义词标题项。

4.根据权利要求1所述的方法，其特征在于，所述在所述识别结果数据与所述内容描述数据匹配的情况下，进行针对所述单据图片的业务操作的步骤，包括：

在所述识别结果数据与所述内容描述数据的匹配度，大于或等于第二阈值的情况下，确定所述识别结果数据与所述内容描述数据相匹配，并进行针对所述单据图片的业务操作。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述识别结果数据与所述内容描述数据不匹配的情况下，生成单据图片处理失败信息，并将所述单据图片和所述单据图片对应的内容描述数据发送至人工处理数据库，以供人工进行单据图片处理操作。

6.根据权利要求1所述的方法，其特征在于，所述在所述单据类别为目标单据类别的情况下，对所述单据图片进行文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容的步骤，包括：

在所述单据类别为所述目标单据类别的情况下，通过深度学习光学字符识别技术，对所述单据图片进行所述文本识别操作，得到所述单据图片对应的多个第二标题项和所述第二标题项对应的第二具体内容。

7.根据权利要求1所述的方法，其特征在于，所述内容描述数据和所述识别结果数据为JavaScript对象简谱格式的数据。

8.一种单据图片的处理装置，其特征在于，所述装置包括：

确定模块，用于确定所述单据图片的单据类别；

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7中任一所述的单据图片的处理方法包括的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的单据图片的处理方法。