CN113593668A

CN113593668A - 一种体检报告校验方法、装置、设备及介质

Info

Publication number: CN113593668A
Application number: CN202110916631.8A
Authority: CN
Inventors: 顾赛帅
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-02

Abstract

本发明涉及信息处理技术领域，提供一种体检报告校验方法、装置、设备及介质，能够接收体检报告并对体检报告进行文本提取，以获取体检报告文本信息；对所述体检报告文本信息与对应的体检套餐内容进行一致性比对；当所述体检报告文本信息与对应的体检套餐内容进行一致性比对通过时，对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配；校验体检报告文本信息中的用户信息与用户体检时预留的用户信息；当体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将体检报告流转至用户端。本发明能自动匹配体检报告，提升运营效率，降低因人为参与导致的失误率，减少运营人力成本，避免报告误发。

Description

一种体检报告校验方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种体检报告校验方法、装置、设备及介质。

背景技术

随着社会经济的发展，人民生活水平提高以及城乡居民基本医疗保障体系的不断完善，人们的医疗需求越来越多，特别是对于体检服务的需求日益严重。体检报告是指对身体进行检查，根据身体反应的数据而生成的具有一定格式的文档，体检报告是体检用户直观了解自身健康状况的重要数据。

然而现有的体检报告生成和流转过程存在以下问题：

1、在体检报告的生成过程中会存在由于系统问题导致报告生成错误，例如会产生重复内容、空白页、用户信息不匹配等情况，这不仅会影响用户体验，而且用户信息不匹配还可能导致报告误发。

2、系统问题导致报告发错给其他用户，这不仅增加报告隐私风险，而且用户误收他人报告会导致用于错误的理解了自己的病情，严重的会导致错误服药、错误就医、情绪不稳定等情况的发生，导致用户投诉增加；

3、医生人为失误导致终检结论错误，用户第一眼会查看自己报告的终检结论，因为比较直观明了，如果产生了错误的结论，用户也会错误理解自己的病情。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种体检报告校验方法、装置、设备及介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

为实现上述目的及其他相关目的，本发明提供一种体检报告校验方法，包括：

接收体检报告，并对所述体检报告进行文本提取，以获取体检报告文本信息；

对所述体检报告文本信息与对应的体检套餐内容进行一致性比对，其中，所述一致性比对包括：所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称的一致性比对，及所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称的一致性比对；

当所述体检报告文本信息与对应的体检套餐内容的一致性比对通过时，对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配；

当所述体检报告文本信息中的科室小结和终检结论相匹配时，校验所述体检报告文本信息中的用户信息与用户体检时预留的用户信息；

当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将所述体检报告流转至用户端。

在本发明的一实施例中，在对所述体检报告文本信息与对应的体检套餐内容进行一致性比对之前，还包括对所述体检报告文本信息进行错误检测的步骤。

在本发明的一实施例中，对所述体检报告文本信息与对应的体检套餐内容进行一致性比对的步骤包括：

对所述体检报告文本信息进行分段，以获取每个科室的科室分段信息，每个所述科室分段信息对应所述体检报告文本信息中的一科室名称；

对所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称进行一致性比对，以获取第一匹配度；

当所述第一匹配度大于或等于第一预设阈值时，对所述每个科室的科室分段信息进行再分段，以获取每个体检细项的细项分段信息，每个所述细项分段信息对应所述体检报告文本信息中的一体检细项名称；

对所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称进行一致性比对，以获取第二匹配度；

当所述第二匹配度大于或等于第二预设阈值时，执行对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配的步骤。

在本发明的一实施例中，所述第一预设阈值大于所述第二预设阈值。

在本发明的一实施例中，对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配的步骤包括：

从所述每个科室的科室分段信息中提取对应的各科室的科室小结并进行拼接整合，以获取科室小结整合数据；

从所述体检报告文本信息中提取终检结论；

对所述科室小结整合数据与所述终检结论进行文本相似度匹配；

当所述科室小结整合数据与所述终检结论的相匹配时，执行校验所述体检报告文本信息中的用户信息与用户体检时预留的用户信息的步骤。

在本发明的一实施例中，所述体检报告校验方法还包括：

当所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过时，进行第一类人工审核；

当所述体检报告文本信息中的科室小结和终检结论不匹配时，进行第一类人工审核。

在本发明的一实施例中，所述体检报告校验方法还包括：

当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验不通过时，进行第二类人工审核；

第二类人工审核通过后进入验证领取流程。

为实现上述目的及其他相关目的，本发明还提供一种体检报告校验装置，所述体检报告校验装置包括：

文本提取单元，用于接收体检报告，并对所述体检报告进行文本提取，以获取体检报告文本信息；

第一匹配单元，用于对所述体检报告文本信息与对应的体检套餐内容进行一致性比对，其中，所述一致性比对包括：所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称的一致性比对，及所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称的一致性比对；

第二匹配单元，用于当所述体检报告文本信息与对应的体检套餐内容的一致性比对通过时，对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配；

用户信息校验单元，用于当所述体检报告文本信息中的科室小结和终检结论相匹配时，校验所述体检报告文本信息中的用户信息与用户体检时预留的用户信息；

流转单元，用于当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将所述体检报告流转至用户端。

为实现上述目的及其他相关目的，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述的体检报告校验方法。

为实现上述目的及其他相关目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述的体检报告校验方法。

本发明的体检报告校验方法、装置、设备及介质，能够智能检查体检报告内容和对应的体检套餐内容的匹配度及体检报告中的科室小结和终检结论的匹配度，降低因人为参与导致的失误率，同时减少运营人力成本。

本发明的体检报告校验方法、装置、设备及介质，能够对体检报告的低级错误(内容重复、空白页及乱码)等错误进行检测。

本发明的体检报告校验方法、装置、设备及介质，能够减少系统生成报告错误的场景，增加报告的准确性。

本发明的体检报告校验方法、装置、设备及介质，在将校验后的体检报告流转至用户端时能够智能校验用户体检时预留的用户信息和体检报告中的用户信息，避免发错用户，更好的保护用于隐私，减少用户投诉。

本发明的体检报告校验方法、装置、设备及介质，能够自动匹配体检报告，提升运营效率。

本发明的体检报告校验方法、装置、设备及介质，即使报告模板更新后，也基本不影响报告校验结果，准确性、兼容性高。

附图说明

图1示出了本发明的体检报告校验方法的较佳实施例的流程图。

图2示出了本发明的体检报告校验方法的较佳实施例的步骤S30的子步骤流程图。

图3示出了本发明的体检报告校验装置的较佳的实施例的功能模块图。

图4示出了本发明的实现体检报告校验方法的较佳实施例的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-4。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

所述体检报告校验方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital SignalProcessor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant， PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能式穿戴式设备等。

所述电子设备还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算 (CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

下面将结合图1来详细阐述本发明的体检报告校验方法。

首先，执行步骤S10、接收体检报告，并对所述体检报告进行文本提取，以获取体检报告文本信息。所述体检报告文本信息中可包括用户信息、科室名称、体检细项名称、体检细项检测结果、科室小结、终检结论等信息。

在本实施例中，体检报告是由体检机构提供，体检报告校验装置接收体检结构发送的体检报告后，可自动触发(当然也可手动触发)体检报告校验流程。在对体检报告进行文本提取时，根据体检报告的文件格式采用相应的文本提取流程进行文本提取，以获取体检报告文本信息，文件格式例如可以采用PDF格式，jpeg、png等图片格式，或word格式。

例如：针对PDF格式的体检报告，可使用开源、基于java的、支持PDF 文档生成的Apache PDFbox工具库，提取用户体检报告的整份报告或报告中的某页的文本信息；针对jpeg、png等图片格式的体检报告，可使用OCR技术提取用户体检报告的文本信息；针对word格式的体检报告，可使用poi，poi-ooxml或poi-scratchpad框架提取用户体检报告中的文本信息。

接着执行步骤S20、对所述体检报告文本信息进行错误检测。

在本实施例中，错误检测是对所述体检报告中的每个页面的提取数据进行空白页、重复内容及乱码等错误检测。例如，当所述体检报告中的某页的提取数据无任何内容时，则认为该页面是空白页；当所述体检报告中的某个页面的的提取数据与该页面之前的某页的提取数据一致时，则认为该页面是重复内容；当所述体检报告中文本的提取出的文本不在Unicode编码：4E00-9FA5(中文)、 30-39(数字)、61-7a和41-5a(大小写英文)范围内，则被认为是乱码。

若检测到所述体检报告文本信息存在上述错误时，则进行第一类人工审核。当所述体检报告文本信息没有错误时，执行步骤S30。

其中，所述第一类人工审核是指审核通过后执行将体检报告流转至用户端，审核不通过，则将体检报告退回到原体检结构，原体检机构需重新提供新的符合要求的体检报告并重新进行校验流程的情形。

通过对体检报告文本信息进行错误检测，能减少系统问题导致生成的体检报告错误，增加报告的准确性。

再接着，执行步骤S30、对所述体检报告文本信息与对应的体检套餐内容进行一致性比对，其中，所述一致性比对包括：所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称的一致性比对，及所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称的一致性比对。

如图2所示，对所述体检报告文本信息与对应的体检套餐内容进行一致性比对的步骤进一步包括：

步骤S31、对所述体检报告文本信息进行分段，以获取每个科室的科室分段信息，每个所述科室分段信息对应所述体检报告文本信息中的一科室名称；

步骤S32、对所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称进行一致性比对，以获取第一匹配度；

步骤S33、当所述第一匹配度大于或等于第一预设阈值时，对所述每个科室的科室分段信息进行再分段，以获取每个体检细项的细项分段信息，每个所述细项分段信息对应所述体检报告文本信息中的一体检细项名称，而当所述第一匹配度小于第一预设阈值，表示所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过，需进行第一类人工审核；

步骤S34、对所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称进行一致性比对，以获取第二匹配度。

当所述第二匹配度大于或等于第二预设阈值时，也即所述体检报告文本信息与对应的体检套餐内容的一致性比对通过时，需执行步骤S40；当所述第二匹配度小于第二预设阈值时，表示所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过，需进行第一类人工审核。

由上可知，在本实施例中，当所述第一匹配度大于或等于第一预设阈值时，并且当所述第二匹配度大于或等于第二预设阈值时，表示所述体检报告文本信息与对应的体检套餐内容的一致性比对通过，需接着执行步骤S40。当所述第一匹配度小于第一预设阈值，或者所述第二匹配度小于第二预设阈值时，也即当所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过时，需进行第一类人工审核。

需要说明的是，所述第一匹配度和所述第二匹配度可以根据实际需要进行自定义配置，本发明不限制。

在本发明中，每个体检报告会对应用户的一个体检订单，体检订单是用户预约之后产生的，订单中记录了用户当时预约的是哪个体检套餐，根据体检订单可以信息可以获取体检报告对应的体检套餐。体检套餐内容，即体检套餐内的检测项目，对应有每个科室和体检细项数据，是由体检机构预先提供，并提前维护存储于体检报告校验装置中；而在体检机构的体检报告中，有对应科室和体检细项的检测结果。

例如为了准确的对体检报告文本信息进行分段，获取每个科室的科室分段信息和每个体检细项的细项分段信息，体检报告校验装置预先归纳了102项科室名称(如：一般检查、内科、外科、五官科、妇科、血常规、血糖、尿常规等)，827项体检细项名称(如：身高、体重、收缩压、舒张压、脉搏、体重指数、腰围、臀围、腰臀比、体脂肪率等)，102项科室名称及827项细项名称覆盖470万份报告数据。

根据102项科室名称并采用正则表达式，以符合这些科室名称的第一个科室名称开始，第二个科室名称结束，以此类推，对体检报告文本信息进行分段，以获取每个科室的科室分段信息，其中，每个所述科室分段信息对应所述体检报告文本信息中的一科室名称。根据每个科室的科室分段信息的方式来获取所述体检报告文本信息中的科室名称，可以避免所述体检报告文本信息中同一科室名称重复提取的问题。

对所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称进行一致性比对以获取第一匹配度通过如下方式进行：构建第一集合和第二集合，所述第一集合由所述体检报告文本信息中的所有科室名称组成，所述第二集合由所述体检套餐内容中的所有科室名称组成；获取属于第一集合但不属于第二集合的科室名称与属于第二集合但不属于第一集合的科室名称，以组成第三集合；按照下式计算第一匹配度，

第一匹配度＝1-(第三集合中科室名称个数/第二集合中科室名称的个数)。

当第一匹配度小于95％时会进行上述的第一类人工审核，其中，95％作为第一预设阈值。

当第一匹配度大于或等于95％时，根据827项细项名称并采用正则表达式，对每个科室的分段信息进行再分段，以获取每个体检细项的细项分段信息，每个所述细项分段信息对应所述体检报告文本信息中的一体检细项名称。

根据每个体检细项的细项分段信息的方式来获取所述体检报告文本信息中的体检细项名称，可以避免所述体检报告文本信息中同一体检细项名称重复提取的问题。

对所述体检报告文本信息中的体检细项名称和体检套餐内容中的科室名称进行一致性比对以获取第二匹配度可通过如下方式进行：构建第四集合和第五集合，所述第四集合由所述体检报告文本信息中的所有体检细项名称组成，所述第五集合由所述体检套餐内容中的所有体检细项名称组成；获取属于第四集合但不属于第五集合的体检细项名称与属于第五集合但不属于第四集合的体检细项名称，以组成第六集合；按照下式计算第二匹配度，

第二匹配度＝1-(第六集合中体检细项名称个数/第五集合中体检细项名称的个数)。

当第二匹配度小于90％时会进行上述第一类人工审核，其中，90％作为第二预设阈值。

当第二匹配度大于等于90％执行对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配的步骤，也即步骤S40。

需要说明的是，此处所述第二预设阈值小于所述第一预设阈值主要是为了考虑到体检用户在体检现场可能会存在增加体检项目的情况。

通过对所述体检报告文本信息与对应的体检套餐内容进行一致性比，可以减少系统问题或者人为问题而导致生成的体检报告错误，增加报告的准确性。

接着，执行步骤S40、对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配。

对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配的步骤进一步包括：

从所述体检报告文本信息中提取终检结论；

当所述科室小结整合数据与所述终检结论的相匹配时，执行步骤S50。当所述体检报告文本信息中的科室小结和终检结论不匹配时，进行第一类人工审核。

作为示例，每个科室的科室分段信息中，内容最后会有结论(也即科室小结)，但由于每家机构对应报告对应文字有区别，可使用以下正则表达式：

((科室)？(小结|结论)|检(查|验)(结果|所见)|初步意见).*

提取出每个科室的科室小结，并拼接整合成科室小结整合数据。

终检结论可通过以下正则表达式：

从所述体检报告文本信息提取出。

科室小结整合数据与终检结论可使用Levenshtein距离算法进行对比文本相似度，以获取两者的匹配度(由编辑距离/字符长度算得)，当匹配度大于等于80％(可根据实际需要进行自定义配置)时执行步骤S50，当匹配度小于80％时，则进行第一类人工审核。可以理解的是，也可以使用Jaccard相似度算法、 simhash相似度算法、Bm25相似度算法、词向量平均求余弦相似度算法来对科室小结整合数据与终检结论进行文本相似度匹配。

通过检测所述体检报告文本信息中的科室小结和终检结论的匹配度，可以降低医生人为失误导致终检结论错误，增加报告的准确性。

接着，执行步骤S50、校验所述体检报告文本信息中的用户信息与用户体检时预留的用户信息。

在本实施例中，首先采用正则规则提取出体检报告文本信息中的用户信息，接着与用户在预约下单时的用户信息与体检报告中的用户信息进行比对，如果一致，则将体检报告流转到用户端，如果不一致，则进行第二类人工审核。

其中，第二类人工审核是指：审核通过后进入验证领取流程，审核不通过，则将体检报告退回到原体检结构，原体检机构需重新提供新的符合要求的体检报告并重新进行校验流程的情形。

作为示例，用户信息例如可包括姓名、性别、证件号、年龄、手机号等信息，在体检报告文本信息中提取方式为：

一、姓名：

由于体检报告的特殊性，姓名一般以尊称开头，也有标注“姓名”定位词，可使用以下的正则表达式进行提取：

(？<＝尊敬的).*(？＝先生|女士|(你|您)好)|(？<＝姓名[：:]).*。

二、性别

性别比较固定，一般直接写男女，也需要考虑尊称，另外也会标注“姓名”定位词，可使用以下的正则表达式进行提取：

男|女|先生|男士|女士|(？<＝性别[:：]).*。

三、证件号

证件号一般是身份证、护照、港澳台通行证等，可使用以下的正则表达式进行提取：

(？<＝证件号[：:]).*|(？<＝身份证[：:]).*|(？<＝证件号码[：:]).*|(？<＝身份证号 [：:]).*|(？<＝护照[：:]).*|(？<＝港澳台通行证[：:]).*|(？<＝港澳通行证[：:]).*。

另外，目前某些机构也会直接显示证件号，没有定位词，如果以上则表达式无法提取到，则可以考虑直接匹配数字的形式：

身份证可用如下正则表达式：

[1-9]\d{5}[1-9]\d{3}((0[1-9])|(1[0-2]))((0[1-9])|([1-2]\d)|(3[0-1]))((\d{4})|(\d{3 }[Xx]))；

港澳台通行证可用如下正则表达式：

(W|C|T|H|M|w|c|t|h|m)\d{8}；

护照由于其字母+字母组成的不确定性，需要根据英文姓名和定位词来判断。

四、年龄

年龄可用“年龄”定位词，也会出现XX岁，可使用以下的正则表达式进行提取：

(？<＝年龄[:：]).*(？＝岁)|\d.*(？＝岁)。

五、手机号

手机号可用“手机号”、“联系方式”的定位词，可使用以下的正则表达式进行提取：

(？<＝手机[:：])\d{11}|(？<＝手机号[:：])\d{11}|(？<＝联系方式[:：])\d{11}。

目前某些机构也会直接显示手机号，没有定位词，如果以上正则表达式无法找到，则可以考虑直接匹配数字的形式，正则表达式如下：

1[3-9]\d{9}，

如需区号，则正则表达式如下：

\+\(？\d{2}\)？1[3-9]\d{9}。

由于不是所有体检机构的体检报告的五项信息都显示在体检报告中，但至少会有姓名和证件号，所以如果姓名和证件号有一个无法提取，则需要进行第二类人工审核。

进行比对时，如果用户信息中有一项对比不正确，则也需要进行第二类人工审核，其中，对比项使用用户在预约下单时填写的自己的用户信息。

接着，执行步骤S60、将所述体检报告流转至用户端或者进入验证领取流程。

具体地，当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将所述体检报告流转至用户端。

当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验不通过时，进行第二类人工审核，第二类人工审核通过后进入验证领取流程。

进入领取流程后，用户必须输入自己的用户信息(例如身份证号)，并与体检前预先预留在体检机构的用户信息对比无误才能查看自己的报告。通过对信息匹配度不高的报告，用户查看增加领取流程，二次核查，降低风险。

需要说明的是，为了进一步保证数据的安全性，还可以将涉及到的数据模型部署于区块链，以防止数据被恶意篡改。

需要说明的是，上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包含相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

如图3所示，是本发明的体检报告校验装置的较佳的实施例的功能模块图。所述体检报告校验装置包括：文本提取单元111，错误检测单元112、第一匹配单元113，第二匹配单元114，信息校验单元115，报告流转单元116，人工审核单元117及领取验证单元118。本发明所称的模块/单元是指一种能够被处理器13所执行，并且能够完成固定功能的一系列计算机程序段，其存储在存储器 12中。

所述文本提取单元111用于接收体检报告，并对所述体检报告进行文本提取，以获取体检报告文本信息。所述体检报告文本信息中可包括用户信息、科室名称、体检细项名称、体检细项检测结果、科室小结、终检结论等信息。

所述体检报告是由体检机构提供，体检报告校验装置接收体检结构发送的体检报告后，可自动触发(当然也可手动触发)体检报告校验流程。所述文本提取单元111在对体检报告进行文本提取时，根据体检报告的文件格式采用相应的文本提取流程进行文本提取，以获取体检报告文本信息，文件格式例如可以采用PDF格式，jpeg、png等图片格式，或word格式。

例如：针对PDF格式的体检报告，可使用开源、基于java的、支持PDF 文档生成的Apache PDFbox工具库，提取用户体检报告的整份报告或报告中的某页的文本信息；针对jpeg、png等图片格式的体检报告，可使用OCR技术提取用户体检报告的文本信息；针对word格式的体检报告，可使用poi，poi-ooxml 或poi-scratchpad框架提取用户体检报告中的文本信息。

所述错误检测单元112用于对所述体检报告文本信息进行错误检测，其中，错误检测是对所述体检报告中的每个页面的提取数据进行空白页、重复内容及乱码等错误检测。

例如，当所述体检报告中的某页的提取数据无任何内容时，则认为该页面是空白页；当所述体检报告中的某个页面的的提取数据与该页面之前的某页的提取数据一致时，则认为该页面是重复内容；当所述体检报告中文本的提取出的文本不在Unicode编码：4E00-9FA5(中文)、30-39(数字)、61-7a和41-5a (大小写英文)范围内，则被认为是乱码。

所述错误检测单元112若检测到所述体检报告文本信息存在上述错误时，则转到人工审核单元117进行第一类人工审核。当所述错误检测单元112未从所述体检报告文本信息中检测到错误时，转到所述第一匹配单元113。

所述第一匹配单元113用于对所述体检报告文本信息与对应的体检套餐内容进行一致性比对，其中，所述一致性比对包括：所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称的一致性比对，及所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称的一致性比对。

具体地，所述第一匹配单元113首先对所述体检报告文本信息进行分段，以获取每个科室的科室分段信息，每个所述科室分段信息对应所述体检报告文本信息中的一科室名称；接着对所述体检报告文本信息中的科室名称和体检套餐内容中的科室名称进行一致性比对，以获取第一匹配度，当所述第一匹配度大于或等于第一预设阈值时，对所述每个科室的科室分段信息进行再分段，以获取每个体检细项的细项分段信息，每个所述细项分段信息对应所述体检报告文本信息中的一体检细项名称；最后，对所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称进行一致性比对，以获取第二匹配度，当所述第二匹配度大于或等于第二预设阈值时，转到所述第二匹配单元114。

所述第一匹配单元113还用于当所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过，转到人工审核单元117进行第一类人工审核，其中，所述体检报告文本信息与对应的体检套餐内容的一致性比对不通过是指所述第一匹配度小于第一预设阈值，或者所述第二匹配度小于第二预设阈值。

所述第一匹配单元113会根据102项科室名称并采用正则表达式，以符合这些科室名称的第一个科室名称开始，第二个科室名称结束，以此类推，对体检报告文本信息进行分段，以获取每个科室的科室分段信息，其中，每个所述科室分段信息对应所述体检报告文本信息中的一科室名称。根据每个科室的科室分段信息的方式来获取所述体检报告文本信息中的科室名称，可以避免所述体检报告文本信息中同一科室名称重复提取的问题。

当第一匹配度小于95％时转到人工审核单元117进行第一类人工审核，其中，95％作为第一预设阈值。

当第一匹配度大于或等于95％时，所述第一匹配单元113根据827项细项名称并采用正则表达式，对每个科室的分段信息进行再分段，以获取每个体检细项的细项分段信息，每个所述细项分段信息对应所述体检报告文本信息中的一体检细项名称。

对所述体检报告文本信息中的体检细项名称和体检套餐内容中的体检细项名称进行一致性比对，以获取第二匹配度通过如下方式进行：构建第四集合和第五集合，所述第四集合由所述体检报告文本信息中的所有体检细项名称组成，所述第五集合由所述体检套餐内容中的所有体检细项名称组成；获取属于第四集合但不属于第五集合的体检细项名称与属于第五集合但不属于第四集合的体检细项名称，以组成第六集合；按照下式计算第二匹配度，

当第二匹配度小于90％时转到人工审核单元117进行第一类人工审核，其中，90％作为第二预设阈值。

当第二匹配度大于等于90％转到所述第二匹配单元114中来检测所述体检报告文本信息中的科室小结和终检结论的匹配度。

通过对所述体检报告文本信息中的科室名称和体检细项名称与对应的所述体检套餐内容中的科室名称和体检细项名称进行文本相似度匹配，可以减少系统问题或者人为问题而导致生成的体检报告错误，增加报告的准确性。

所述第二匹配单元114用于对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配。

具体地，所述第二匹配单元114首先从所述每个科室的科室分段信息中提取对应的各科室的科室小结并进行拼接整合，以获取科室小结整合数据；接着从所述体检报告文本信息中提取终检结论；然后对所述科室小结整合数据与所述终检结论进行文本相似度匹配；最后，当所述科室小结整合数据与所述终检结论的相匹配时，转到所述信息校验单元115，当所述体检报告文本信息中的科室小结和终检结论不匹配时，则转到人工审核单元117进行第一类人工审核。

((科室)？(小结|结论)|检(查|验)(结果|所见)|初步意见).*

终检结论可通过以下正则表达式：

从所述体检报告文本信息提取出。

科室小结整合数据与终检结论可使用Levenshtein距离算法进行对比文本相似度，以获取两者的匹配度(由编辑距离/字符长度算得)，当匹配度大于等于80％(可根据实际需要进行自定义配置)时转到所述信息校验单元115，当匹配度小于80％时，则转到人工审核单元117进行第一类人工审核。可以理解的是，也可以使用Jaccard相似度算法、simhash相似度算法、Bm25相似度算法、词向量平均求余弦相似度算法来对科室小结整合数据与终检结论进行文本相似度匹配。

通过对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配，可以降低医生人为失误导致终检结论错误，增加报告的准确性。

所述信息校验单元115用于校验所述体检报告文本信息中的用户信息与用户体检时预留的用户信息。

具体地，所述信息校验单元115首先采用正则规则提取出体检报告文本信息中的用户信息，接着与用户在预约下单时的用户信息与体检报告中的用户信息进行比对，如果一致，则转至报告流转单元116以将体检报告通过报告流转单元116流转到用户端，如果不一致，则转到人工审核单元117进行第二类人工审核。

一、姓名：

二、性别

男|女|先生|男士|女士|(？<＝性别[:：]).*。

三、证件号

身份证可用如下正则表达式：

港澳台通行证可用如下正则表达式：

(W|C|T|H|M|w|c|t|h|m)\d{8}；

四、年龄

(？<＝年龄[:：]).*(？＝岁)|\d.*(？＝岁)。

五、手机号

1[3-9]\d{9}，

如需区号，则正则表达式如下：

\+\(？\d{2}\)？1[3-9]\d{9}。

进行比对时，如果用户信息中有一项对比不正确，则也需要转到人工审核单元117进行第二类人工审核，其中，对比项使用用户在预约下单时填写的自己的用户信息。

所述报告流转单元116用于当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将所述体检报告流转至用户端或者转至验证领取单元118进行处理。具体地，当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验通过时，将所述体检报告流转至用户端。

具体地，所述报告流转单元116用于当所述体检报告文本信息中的用户信息与用户体检时预留的用户信息校验不通过时，转至人工审核单元117进行第二类人工审核，第二类人工审核通过后转至验证领取单元118进行处理。

所述人工审核单元117用于执行第一类人工审核流程和第二类人工审核流程。

所述验证领取单元118用于进入领取流程，进入领取流程后，用户必须输入自己的用户信息(例如身份证号)，并与体检前预先预留在体检机构的用户信息对比无误才能查看自己的报告。通过对信息匹配度不高的报告，用户查看增加领取流程，二次核查，降低风险。

需要说明的是，本实施例的体检报告校验装置是与上述体检报告校验方法相对应的装置，体检报告校验装置中的功能模块/单元或者分别对应体检报告校验方法中的相应步骤。本实施例的体检报告校验装置可与体检报告校验方法相互相配合实施。

如图4所示，是本发明实现体检报告校验方法的较佳实施例的电子设备的结构示意图。

所述电子设备1可以包括存储器12、处理器13和总线，还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如体检报告校验的程序。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地，存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1 的应用软件及各类数据，例如基于方向检测的文字识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块(例如执行体检报告校验程序等)，以及调用存储在所述存储器12内的数据，以执行电子设备 1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述体检报告校验方法实施例中的步骤，例如图1所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割成文本提取单元111、错误检测模块112、第一匹配单元113、第二匹配单元114、信息校验单元115、报告流转单元116、人工审核单元117、领取验证单元118。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备，或者网络设备等) 或处理器(processor)执行本发明各个实施例所述体检报告校验方法的部分功能。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称 EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，在图4中仅用一根箭头表示，但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

本发明的体检报告校验方法、装置、设备及介质，能够智能检查体检报告内容和对应的体检套餐内容的匹配度及体检报告中的科室小结和终检结论的匹配度，降低因人为参与导致的失误率，同时减少运营人力成本。本发明实施例的体检报告校验方法、装置、设备及介质，能够对体检报告的低级错误(内容重复、空白页及乱码)等错误进行检测，减少系统生成报告错误的场景，增加报告的准确性。本发明实施例的体检报告校验方法、装置、设备及介质，在将校验后的体检报告流转至用户端时能够智能校验用户体检时预留的用户信息和体检报告中的用户信息，避免发错用户，更好的保护用于隐私，减少用户投诉。本发明实施例的体检报告校验方法、装置、设备及介质，能够自动匹配体检报告，提升运营效率，降低因人为参与导致的失误率，减少运营人力成本。本发明实施例的体检报告校验方法、装置、设备及介质，即使报告模板更新后，也基本不影响报告校验结果，准确性、兼容性高。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种体检报告校验方法，其特征在于，包括：

2.根据权利要求1所述的体检报告校验方法，其特征在于，在对所述体检报告文本信息与对应的体检套餐内容进行一致性比对之前，还包括对所述体检报告文本信息进行错误检测的步骤。

3.根据权利要求1所述的体检报告校验方法，其特征在于，对所述体检报告文本信息与对应的体检套餐内容进行一致性比对的步骤包括：

4.根据权利要求3所述的体检报告校验方法，其特征在于，所述第一预设阈值大于所述第二预设阈值。

5.根据权利要求3所述的体检报告校验方法，其特征在于，对所述体检报告文本信息中的科室小结和终检结论进行文本相似度匹配的步骤包括：

从所述体检报告文本信息中提取终检结论；

6.根据权利要求1所述的体检报告校验方法，其特征在于，所述体检报告校验方法还包括：

7.根据权利要求1所述的体检报告校验方法，其特征在于，所述体检报告校验方法还包括：

第二类人工审核通过后进入验证领取流程。

8.一种体检报告校验装置，其特征在于，所述体检报告校验装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1-7任一项所述的体检报告校验方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1-7任一项所述的体检报告校验方法。