CN115700826A - 单据处理、单据展示方法、装置、计算机设备和存储介质 - Google Patents
单据处理、单据展示方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115700826A CN115700826A CN202110875114.0A CN202110875114A CN115700826A CN 115700826 A CN115700826 A CN 115700826A CN 202110875114 A CN202110875114 A CN 202110875114A CN 115700826 A CN115700826 A CN 115700826A
- Authority
- CN
- China
- Prior art keywords
- document
- target
- historical
- keyword
- bill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种单据处理、单据展示方法、装置、计算机设备和存储介质。所述方法包括:获取目标单据对应的单据图像和单据图像对应的用户标识;识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合;获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据;基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度;基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。采用本方法能够提高单据的信息获取效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种单据处理、单据展示方法、装置、计算机设备和存储介质。
背景技术
在生产生活中,不同机构之间通常存储、维护着各自的单据数据,例如,医院A、医院B分别维护各自提供给用户的病历单。由于不同机构之间独立存储、独立维护数据,逐渐形成了“数据孤岛”。
传统技术中,用户想要查看单据需要单独访问单据对应的机构,查看不同机构提供的单据就需要访问不同的机构,用户只能查看同一机构提供的相似单据,无法查看不同机构提供的相似单据,存在信息获取效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高信息获取效率的单据处理、单据展示方法、装置、计算机设备和存储介质。
一种单据处理方法,所述方法包括:
获取目标单据对应的单据图像和所述单据图像对应的用户标识;
识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
在一个实施例中,所述识别所述单据图像对应的目标单据类型,包括:
对所述单据图像中的预设图像区域进行文字识别,得到所述目标单据对应的目标标题;
基于所述目标标题确定所述目标单据类型。
在一个实施例中,目标关键字集合和所述历史关键字集合均包括多个维度的关键字;
所述基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,包括:
在所述目标关键字集合和历史关键字集合中,基于同一维度对应的目标关键字和历史关键字计算关键字差异,得到各个维度对应的关键字差异;
获取各个维度对应的目标注意力信息;
基于所述各个维度对应的关键字差异和注意力信息计算所述目标单据和所述历史单据对应的相似度。
在一个实施例中,获取各个维度对应的目标注意力信息,包括:
获取训练单据对在各个维度对应的训练关键字差异,获取训练单据对对应的训练相似度;
获取各个维度对应的初始注意力信息;
基于所述各个维度对应的训练关键字差异和初始注意力信息计算所述训练单据对对应的初始相似度;
基于所述训练单据对对应的初始相似度和训练相似度计算相似度损失值,基于所述相似度损失值调整所述各个维度对应的初始注意力信息,直至满足收敛条件,得到所述各个维度对应的目标注意力信息。
在一个实施例中,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,包括:
获取关联关系映射信息,所述关联关系映射信息包括至少两种候选关联关系分别对应的参考相似度;不同的候选关联关系对应不同的单据展示模式;
将所述相似度和所述关联关系映射信息中的参考相似度进行匹配,基于匹配结果从各种候选关联关系中确定所述目标关联关系。
在一个实施例中,所述单据提供方是指单据对应的单据归属机构,所述单据归属机构用于通过电子设备进行数据采集和数据分析得到数据分析结果,并将所述数据分析结果发送至所述用户标识对应的终端,所述数据分析结果包括所述用户标识对应的用户体征数据。
一种单据处理装置,所述装置包括:
图像获取模块,用于获取目标单据对应的单据图像和所述单据图像对应的用户标识;
关键字识别模块,用于识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
历史信息获取模块,用于获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
相似度计算模块,用于基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
关联关系建立模块,用于基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标单据对应的单据图像和所述单据图像对应的用户标识;
识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标单据对应的单据图像和所述单据图像对应的用户标识;
识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
一种单据处理方法,所述方法包括:
获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
一种单据处理装置,所述装置包括:
请求获取模块,用于获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
关联关系获取模块,用于获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
展示数据确定模块,用于基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
一种单据展示方法,所述方法包括:
获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
一种单据展示装置,所述装置包括:
图像采集模块,用于获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
请求发送模块,用于将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
单据展示模块,用于获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
上述单据处理、单据展示方法、装置、计算机设备和存储介质,通过获取目标单据对应的单据图像和单据图像对应的用户标识,基于单据图像对应的目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。这样,可以从单据图像中获取单据的文本信息,从而可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
附图说明
图1为一个实施例中单据处理、单据展示方法的应用环境图;
图2为一个实施例中单据处理方法的流程示意图;
图3为一个实施例中病历单的示意图;
图4A为一个实施例中对单据图像进行关键字识别的流程示意图;
图4B为一个实施例中计算单据之间的相似度的示意图;
图5A为一个实施例中单据展示界面的界面示意图;
图5B为另一个实施例中单据展示界面的界面示意图;
图6A为一个实施例中展示单据详情的流程示意图;
图6B为一个实施例中详情展示界面的界面示意图;
图7A为一个实施例中在详情展示界面中展示关键指标变化图表的流程示意图;
图7B为另一个实施例中详情展示界面的界面示意图;
图8为另一个实施例中单据处理方法的流程示意图;
图9为一个实施例中单据展示方法的流程示意图;
图10为一个实施例中单据处理界面的流程示意图;
图11为一个实施例中病历单处理方法的流程示意图;
图12为一个实施例中单据处理装置的结构框图;
图13为另一个实施例中单据处理装置的结构框图;
图14为一个实施例中单据展示装置的结构框图;
图15为一个实施例中计算机设备的内部结构图;
图16为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言处理、机器学习等技术,具体通过如下实施例进行说明:
本申请提供的单据处理、单据展示方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端102和服务器104均可单独用于执行本申请实施例中提供的单据处理、方法。
例如,终端获取目标单据对应的单据图像和单据图像对应的用户标识。终端识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合。终端获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,历史关键字集合是对历史单据对应的历史图像进行关键字识别得到的。终端基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。
服务器获取目标单据对应的单据图像,单据图像携带用户标识。服务器识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合。服务器获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据。服务器基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于在终端进行单据展示。
终端102和服务器104也可协同用于执行本申请实施例中提供的单据处理方法和单据展示方法。
例如,服务器获取终端发送的单据展示请求,单据展示请求携带目标单据标识和用户标识,获取目标单据标识对应的目标单据和用户标识对应的历史单据之间的目标关联关系。服务器基于目标关联关系生成单据展示请求对应的单据展示数据,向终端返回单据展示数据,以使终端根据单据展示数据进行单据展示。其中,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,目标关联关系是服务器基于目标单据和历史单据对应的相似度建立的,相似度是服务器基于目标单据对应的目标关键字集合和历史单据对应的历史关键字集合计算的,目标关键字集合或历史关键字集合是服务器基于当前单据图像对应的当前单据类型对当前单据图像进行关键字识别得到的,当前单据图像为目标单据对应的单据图像或历史单据对应的单据图像。
终端获取在单据处理界面上通过触发操作生成的单据采集指令,根据单据采集指令对目标单据进行图像采集,得到目标单据对应的单据图像。终端将单据图像和单据图像对应的用户标识发送至服务器,以使服务器识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,基于目标关联关系生成单据展示数据。终端获取服务器返回的单据展示数据,基于单据展示数据在单据展示界面上进行单据展示。
在一个实施例中,如图2所示,提供了一种单据处理方法,以该方法应用于图1中的计算机设备为例进行说明,可以理解的是,计算机设备可以是终端102,也可以是服务器104。本实施例中,单据处理方法包括以下步骤:
步骤S202,获取目标单据对应的单据图像和单据图像对应的用户标识。
其中,单据是对采集到的数据加以归纳、整理、综合分析,按规定的格式和要求书写的数据记录文本。单据可以是电子单据,也可以是纸质单据。纸质单据可以是打印出来的单据,也可以是手写的单据。单据的形式多种多样,不同的应用场景对应不同的单据。例如,在医疗场景下,单据具体可以是病历单。在运输场景下,单据具体可以是货单、快递单。在金融场景下,单据具体可以是发票等。
单据图像是指单据对应的图像。单据图像可以是对电子单据或纸质单据进行拍摄得到的图像,也可以是对电子单据或纸质单据进行扫描得到的图像,也可以是对电子单据进行截图得到的图像。可以理解,目标单据对应的单据图像可以为至少一张图像。
用户标识是一种标识,用于唯一标识用户,具体可以包括字母、数字和符号中至少一种字符的字符串,例如用户账号、用户手机号等。单据图像对应的用户标识是指上传单据图像的用户对应的用户标识,例如,用户标识具体可以是当前单据处理应用程序的用户账号。
具体地,用户可以在终端上登录单据处理应用程序或单据处理网页,在单据处理应用程序或单据处理网页上上传目标单据对应的单据图像。这样,计算机设备就可以获取到目标单据对应的单据图像,并将当前登录用户的用户标识作为单据图像对应的用户标识。用户上传的单据图像的获取方式多种多样,例如,可以是用户通过摄像头对纸质单据进行拍摄得到的,也可以是用户通过扫描设备对纸质单据进行扫描得到的,还可以是用户对电子单据进行截图得到的。例如,用户在社交应用程序上进入医院A的公众号,在公众号上搜索自己的病历单,对该公众号上展示的电子病历单进行截图得到单据图像。可以理解,当计算机设备为终端时,终端获取单据图像,并在本地对单据图像进行关键字识别、相似度计算和关联关系建立等数据处理步骤。当计算机设备为服务器时,服务器从终端获取单据图像,服务器在本地对单据图像进行关键字识别、相似度计算和关联关系建立等数据处理步骤。服务器可以根据关联关系生成单据展示数据,将单据展示数据发送至终端,以使终端根据单据展示数据进行单据展示。
步骤S204,识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合。
其中,目标单据类型是指目标单据对应的单据类型。针对不同类型的单据,可以采用不同的方法进行关键字识别,以提高关键字识别效率。单据可以按照单据的用途进行分类,以病历单为例,单据类型包括检查单据、检验单据、化验单据、报告单据等,以货单为例,单据类型包括生活用品货单、生产用品货单、办公用品货单等。单据类型也可以进一步根据单据提供方(单据归属机构)和用途进行分类,以病历单为例,单据类型包括医院A+检验单据、医院A+检查单据、医院B+报告单据等,以货单为例,单据类型包括公司A+生活用品货单、公司B+生活用品货单等。单据类型还可以进一步根据单据提供方(单据归属机构)、部门和用途进行分类,以病历单为例,单据类型包括医院A+科室1+检验单据、医院A+科室1+检查单据、医院B+科室1+报告单据等,以货单为例,单据类型包括公司A+部门1+生活用品货单、公司B+部门1+生活用品货单等。
关键字识别是指识别图像中文本信息的关键字。目标关键字集合是指目标单据对应的关键字集合。一个单据对应的关键字集合可以包括至少一个维度的关键字,一个维度的关键字可以为至少一个。例如,关键字集合具体可以包括时间维度、空间维度、指标维度、反馈维度分别对应的关键字。时间维度的关键字是指单据对应的生成时间。空间维度对应的关键字是指单据对应的生成地点,例如,单据提供方、部门等。指标维度的关键字是指检测指标,例如,检查单据中的身高体重、检验单据中的白细胞计数、货单中的货物数量、货单中的货物体积等。反馈维度的关键字是指意见反馈信息,例如,病历单的检查分析结果、货单中的货物验收结果等。
具体地,计算机设备获取到单据图像后,计算机设备可以对单据图像对应的目标单据类型进行识别。例如,单据的标题一般可以反映单据的类型,计算机设备可以从单据图像中识别单据标题,基于单据标题确定目标单据对应的目标单据类型。当然,终端也可以提示用户进行单据类型信息录入,获取用户输入或选择的单据类型作为单据图像对应的目标单据类型。为了提高关键字识别效率,计算机设备可以基于目标单据类型对单据图像进行关键字识别,从图像中提取关键的文本信息,得到目标单据对应的目标关键字集合。例如,不同类型的单据一般是采用不同的单据模板生成的,因此计算机设备可以基于目标单据类型对应的目标单据模板对单据图像进行关键字识别。针对不同类型的单据,可以训练不同的关键字识别模型,关键字识别模型为机器学习模型。计算机设备也可以基于目标单据类型对应的目标关键字识别模型对单据图像进行关键字识别。关键字识别模型的输入数据为单据图像,输出数据为单据对应的关键字集合。
步骤S206,获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,历史关键字集合是对历史单据对应的历史图像进行关键字识别得到的。
其中,同一用户标识可以对应多个单据,多个单据可以是不同的单据提供方对应的单据。例如,用户A对应的病历单可以包括医院A出具的病历单,医院B出具的病历单,医院C出具的病历单。用户A对应的货单可以包括供应商A出具的货单,供应商B出具的货单,供应商C出具的货单。历史单据是指在目标单据之前获取到的单据。历史关键字集合是指历史单据对应的关键字集合。历史图像是指历史单据对应的单据图像。可以理解,与目标关键字集合的获取方式类似,对历史单据对应的单据图像进行关键字识别可以得到历史单据对应的历史关键字集合。
单据提供方是指单据对应的单据归属机构。单据归属机构存储管理有多个归属于自己的单据。例如,不同的医院独立管理自己的病历单。医院A管理有本院提供的病历单a,病历单a属于医院A。不同的供应商独立管理自产货品的货单。供应商B管理有自产货品对应的货单b,货单b属于供应商B。不同的快递公司独立管理本公司的快递单。单据归属机构可以通过电子设备进行数据采集和数据分析得到数据分析结果,并将数据分析结果发送至用户终端。例如,医院可以通过医疗设备采集并分析用户的体征数据,得到用户的病历单,向用户提供生成的病历单。供应商可以通过监控设备采集并分析产品的生产供应数据,得到货单,向用户提供生成的货单。
具体地,计算机设备可以在本地获取与用户标识匹配的历史单据对应的历史关键字集合。可以理解,历史关键字集合与目标关键集合的生成方式相同,历史关键字集合可以是基于历史单据对应的单据图像生成的。历史单据可以为至少一个,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据。也就是,目标单据和历史单据组成的单据集合中可以包括至少两个单据提供方对应的单据。这样,通过对单据图像进行图像分析,计算机设备可以得到并存储不同的单据提供方对应的单据的关键字集合,打破了不同单据提供方之间的信息孤岛。后续,用户想要查看不同单据提供方对应的单据,计算机设备可以直接从本地数据库获取相应的关键字并展示,用户无需再次登录不同的单据提供方对应的单据系统去分别查看对应的单据。进一步的,不同用户标识对应的单据数据在本地可以是隔离存储的,从而有效保障用户隐私。用户只看查看自己的单据,无法查看其它用户的单据。
步骤S208,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度。
具体地,计算机设备获取到目标关键字集合和历史关键字集合后,计算机设备可以基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度。若历史单据有多个,则计算机设备可以基于目标关键字集合和各个历史单据对应的历史关键字集合计算目标单据和各个历史单据分别对应的相似度。
计算机设备可以通过机器学习模型计算目标单据和历史单据对应的相似度。计算机设备可以将目标关键字集合和历史关键字集合输入已训练的单据相似度计算模型,得到目标单据和历史单据对应的相似度。进一步的,为了减少机器学习模型的计算量,计算机设备也可以从关键字集合中获取目标维度的关键字作为相似度计算的数据源,将目标关键字集合和历史关键字集合中目标维度的关键字输入已训练的单据相似度计算模型,得到目标单据和历史单据对应的相似度。例如,计算机设备从病历单对应的关键字集合中获取指标维度对应的关键字作为相似度计算的数据源,将两个病历单中指标维度的关键字输入已训练的病历单相似度计算模型,得到两个病历单对应的相似度。在一个实施例中,计算机设备可以运用自然语言处理技术对关键字进行特征化描述,将关键字抽象为特征向量,将两个单据对应的特征向量作为单据相似度计算模型的输入数据,单据相似度计算模型的输出数据为两个单据的相似度。
计算机设备也可以通过相似度计算算法,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度。计算机设备可以计算同一维度对应的目标关键字和历史关键字之间的关键字差异,对各个维度对应的关键字差异进行加权求和得到目标单据和历史单据对应的相似度。
步骤S210,基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。
其中,目标关联关系是指目标单据和历史单据之间的关联关系。关联关系是基于单据之间的相似度建立的。关联关系可以包括至少两种,不同的关联关系可以对应不同的相似度。关联关系可以表征单据之间的关联程度,例如,关联关系可以包括强关联和弱关联,强关联表示单据之间关联程度大,单据之间的相似度高,弱关联表示单据之间关联程度小,单据之间的相似度低。关联关系最终可以应用于单据展示。
单据展示用于展示单据的具体内容。同一关联关系对应的各个单据可以在同一区域内进行集中展示,不同关联关系对应的单据可以在不同的区域进行隔离展示。进一步的,不同关联关系对应的单据之间可以进行差异化展示,即不同关联关系对应的单据的展示方式可以不同,例如,可以采取不同的展示模板,可以展示不同维度的单据信息。
具体地,计算机设备可以基于目标单据和历史单据对应的相似度建立目标单据和历史单据之间的目标关联关系。例如,若相似度大于或等于相似度阈值,将目标单据和历史单据建立第一关联关系(强关联),若相似度小于相似度阈值,将目标单据和历史单据建立第二关联关系(弱关联),第一关联关系和第二关联关系对应的历史单据可以是分区展示的。例如,在区域A内展示第一关联关系对应的各个历史单据,在区域B内展示第二关联关系对应的各个历史单据。可以理解,若历史单据有多个,则基于各个相似度分别建立目标单据和各个历史单据之间的目标关联关系。此外,目标单据和历史单据的展示时间点可以根据需要进行设置,可以是自动进行展示,也可以是根据用户触发的指令进行展示,例如用户通过在终端上点击单据展示控件触发单据展示。此外,目标单据和历史单据可以同步展示,也可以异步展示,例如,可以在识别目标单据对应的目标关键字集合后,先基于目标关键字集合对目标单据进行展示,接着,在建立目标单据和历史单据对应的目标关联关系后,再基于目标关联关系展示历史单据。
在一个实施例中,单据提供方是指单据对应的单据归属机构,单据归属机构用于通过电子设备进行数据采集和数据分析得到数据分析结果,并将数据分析结果发送至用户标识对应的终端,数据分析结果包括用户标识对应的用户体征数据。
具体地,在医疗场景下,单据具体可以是病历单,病历单可以是检查单据、检验单据、化验单据、报告单据等。此时,单据提供方是指单据对应的单据归属机构,单据归属机构用于通过电子设备进行数据采集和数据分析得到数据分析结果,并将数据分析结果发送至用户标识对应的终端,数据分析结果包括用户标识对应的用户体征数据。电子设备具体可以是各种用于采集、分析用户体征数据的医疗设备,例如,物理诊断器具(体温计、血压表、显微镜、测听计、各种生理记录仪等)、影像类(X光机、CT扫描、磁共振、B超等)、分析仪器(各种类型的计数仪、生化、免疫分析仪器等)、电生理类(如心电图机、脑电图机、肌电图机等)。也就是,单据提供方是指病历单所属的医院,医院通过医疗设备采集用户的各种体征数据,并进行数据分析得到包括用户体征数据的数据分析结果,数据分析结果可以以病历单的方式呈现,医院可以将病历单发送至用户终端。
以病历单为例说明整体技术方案。计算机设备获取用户上传的病历单图像,该病历单图像为当前病历单对应的图像,该病历单图像携带用户的用户标识。计算机设备上可以存储有该用户标识对应的历史病历单的病历单信息,该病历单信息可以包括历史病历单对应的病历单图像、历史关键字集合、与其他病历单之间的相似度、关联关系等信息。计算机设备识别病历单图像对应的目标病历单类型,基于目标病历单类型对当前病历单对应的病历单图像进行关键字识别,得到当前病历单对应的目标关键字集合。计算机设备基于用户标识获取该用户对应的历史病历单所对应的历史关键字集合。历史关键字集合和目标关键字集合中可以包括病历单日期、医院、科室、检查项目、各项指标信息、检查分析结果等数据。计算机设备基于目标关键字集合和历史关键字集合计算当前病历单和历史病历单对应的相似度,基于该相似度建立当前病历单和历史病历单之间的目标关联关系。计算机设备可以基于该目标关联关系进行病历单展示。
上述单据处理方法中,通过获取目标单据对应的单据图像,单据图像携带用户标识,基于单据图像对应的目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。这样,可以从单据图像中获取单据的文本信息,从而可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
在一个实施例中,识别单据图像对应的目标单据类型,包括:
对单据图像中的预设图像区域进行文字识别,得到目标单据对应的目标标题;基于目标标题确定目标单据类型。
其中,目标标题是指目标单据对应的单据标题。单据标题一般位于单据的第一行,或字体最大的区域。预设图像区域具体可以是单据图像中的第一行对应的区域或字体最大的区域。
具体地,计算机设备可以对单据图像中的预设图像区域进行文字识别,从单据图像中的预设图像区域识别得到目标单据对应的目标标题。单据标题通常用于标明单据所属类型,例如,单据所属机构,单据的用途,因此计算机设备基于目标标题可以确定单据图像对应的目标单据类型。
参考图3,计算机设备对病历单图像中的表头图像区域进行文字识别可以得到目标单据对应的目标标题,目标标题为“A医院检验报告单”,根据该目标标题可以确定目标单据类型为A医院的检验单据。
本实施例中,通过对单据图像中的预设图像区域进行文字识别可以得到目标单据对应的目标标题,基于目标单据的目标标题可以快速确定目标单据对应的目标单据类型。
在一个实施例中,如图4A所示,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,包括:
步骤S402,基于目标单据类型对应的目标单据模板对单据图像进行图像分割,得到单据图像对应的多个候选图像区域。
步骤S404,分别对各个候选图像区域进行文本提取,得到各个候选图像区域分别对应的文本信息。
其中,目标单据模板是指目标单据类型对应的单据模板。单据模板是用于生成单据的模板。可以理解,同一单据类型的单据都是基于同一单据模板生成的,只是具体的单据数据有所不同。单据模板具有固定化、标准化的结构布局,由多个用于记录不同信息的信息单元组合而成。例如,参考图3,图3所示的病历单是由记录用户属性信息的表头、记录用户体征数据的表体和记录辅助信息(时间、医生)的表尾组成。
具体地,在进行关键字识别时,计算机设备可以基于目标单据类型对应的目标单据模板对单据图像进行图像分割,将单据图像细分为记录不同信息的图像区域,得到单据图像对应的多个候选图像区域。可以理解,单据模板规定了各个信息单元的位置和大小,各个信息单元用于记录不同维度的单据数据,因此基于单据模板可以对单据图像进行图像分割,切分出各个信息单元对应的图像区域。进一步的,计算机设备可以分别对各个候选图像区域进行文本提取,提取图像区域中的文本信息,从而得到各个候选图像区域分别对应的文本信息。例如,计算机设备通过OCR(Optical Character Recognition,光学字符识别)识别算法对候选图像区域进行文本提取,得到候选图像区域对应的文本信息。
步骤S406,对各个文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字。
步骤S408,基于各个目标关键字得到目标关键字集合。
具体地,计算机设备可以对各个候选图像区域分别对应的文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字。计算机设备可以基于关键字词典对文本信息进行关键字识别得到文本信息中的关键字。计算机设备具体可以基于综合关键字词典对各个文本信息进行关键字识别得到各个候选图像区域分别对应的目标关键字。为了提高识别准确性,计算机设备也可以分别建立各个候选图像区域对应的关键字词典。计算机设备基于各个候选图像区域分别对应的关键字词典对对应的文本信息进行关键字识别,从而得到各个候选图像区域分别对应的目标关键字。最终,各个目标关键字组成目标关键字集合。
本实施例中,通过图像分割可以细化文本识别区域,从而提高文本提取的效率和准确性,进而提高关键字识别的效率和准确性。
在一个实施例中,各个候选图像区域存在对应的关键字词典,对各个文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字,包括:
获取当前候选图像区域对应的当前关键字词典;基于当前关键字词典对当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的目标关键字。
其中,关键字词典是根据专家知识、专家经验人为建立的词典,关键字词典包括多个候选关键字。计算机设备可以定时对关键字词典进行更新,根据单据数据积累不断持续更新关键字词典,以达到更精准的关键字识别效果。在进行词典更新时,计算机设备可以统计关键字词典中各个候选关键字对应的识别频率,过滤识别频率小于预设频率阈值的候选关键字。此外,计算机设备也可以在关键字词典中增加新的候选关键字,新的候选关键字可以是随着技术发展、网络传播而创造、流行的新词。当前关键字词典是指当前候选图像区域对应的关键字词典。可以理解,不同的应用场景是对应不同的关键字词典。例如,医疗场景下,关键字词典主要包括医学相关词语,金融场景下,关键字词典主要包括经济相关词语。
具体地,不同的候选图像区域通常是用于记录不同类型的文本信息,不同的候选图像区域包括不同维度的关键字信息,因此,为了提高关键字识别效率和准确性,计算机设备可以针对不同的候选图像区域专门建立对应的关键字词典。那么,在进行关键字识别时,计算机设备可以获取当前候选图像区域对应的当前关键字词典,基于当前关键字词典对当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的目标关键字。可以理解,若当前候选图像区域为空间图像区域,当前关键字词典可以是记录有多个表征空间维度的候选关键字,那么最终识别得到的目标关键字为空间维度对应的关键字。例如,病历单对应的医院、科室,货单对应的供应商、部门等。若当前候选图像区域为指标图像区域,当前关键字词典可以是记录有多个表征指标维度的关键字,即关键指标,那么最终识别得到的目标关键字为指标维度对应的关键字。例如,病历单对应的各种关键检测指标,货单对应的各种关键货品指标等。进一步的,虽然不同单据类型的单据图像可以均包括指标图像区域,但是不同单据类型对应的指标图像区域可以对应不同的关键字词典。例如,检查单据的指标图像区域对应的关键字词典包括多个关键检查指标,化验单据的指标图像区域对应的关键字词典包括多个关键化验指标。若当前候选图像区域为时间图像区域,当前关键字词典可以是记录有多个表征时间维度对应的关键字,那么最终识别得到的目标关键字为时间维度对应的关键字,例如,病历单对应的数据采样时间、数据分析结果生成时间、数据分析结果校验时间,货单对应的数据采样时间、数据分析结果生成时间、数据分析结果校验时间等。
本实施例中,不同的图像区域采取不同的关键字词典进行关键字识别,可以提高关键字识别的准确性和效率。
在一个实施例中,当前候选图像区域为指标图像区域,指标图像区域对应的目标关键字为指标维度对应的目标关键字。基于当前关键字词典对当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的目标关键字,包括:
将指标图像区域对应的文本信息和对应的关键字词典进行匹配,得到指标维度对应的初始关键字;初始关键字包括关键指标类型和初始关键指标数据,初始关键指标数据包括关键指标初始单位;获取关键指标类型对应的关键指标参考单位;在指标维度对应的初始关键字中,基于关键指标参考单位替换关键指标初始单位,得到指标维度对应的目标关键字。
其中,指标图像区域是指记录有指标维度对应的文本信息的图像区域。计算机设备可以根据单据模板确定单据图像中的指标图像区域。例如,参考图3,图3所示的病历单的中间图像区域为指标图像区域。相应的,从指标图像区域中识别得到的目标关键字即为指标维度对应的目标关键字。当然,指标图像区域也可以位于单据图像中的头部、尾部、左侧、右侧,具体位置可以根据单据模板确定。
相比于其他维度的关键字,单据中指标维度对应的关键字的数据组成更复杂,不同类型的指标数据会对应不同的数据单位。指标维度对应的关键字具备准确的数据单位才能准确计算单据之间的相似度,因此保障数据单位的准确性至关重要。单据中的关键字通常是由字段和字段值组成的,例如,关键字“姓名:甲”中字段为“姓名”,字段值为“甲”。同理,指标维度对应的关键字包括关键指标类型和初始关键指标数据,关键指标类型用于表示字段,关键指标数据用于表示字段值。关键指标类型是指指标维度对应的关键字的具体字段类型,例如,在病历单中,关键指标类型可以包括总蛋白计数、血蛋白计数、体重、血压、脉搏等。关键指标数据是指指标维度对应的关键字的具体字段值,例如,在病历单中,体重指标类型对应的指标数据为50kg,总蛋白计数指标类型对应的指标数据为65.5g/L。
初始关键指标数据是指初始识别得到的关键指标数据。初始关键指标数据包括关键指标初始单位。关键指标初始单位是指初始识别得到的关键指标单位。关键指标单位通常由字母、数字、符号组成。例如,体重指标类型对应的关键指标单位为kg。由于关键指标单位在图像区域中占据的面积比较小,字母、数字、符号之间容易混淆,可能存在关键指标初始单位识别不准确的情况。但是,相比于关键指标单位,关键指标类型通常由汉字组成,在图像区域中汉字占据的面积比单位占据的面积大,并且相比于字母、数字、符号,汉字之间不容易混淆。因此,为了提高指标维度对应的关键字的识别准确性,计算机设备可以根据关键指标类型确定对应的关键指标单位,无需关心识别得到的关键指标初始单位是否准确,直接对关键指标初始单位进行置换。关键指标参考单位是指关键指标类型对应的准确的关键指标单位。
具体地,若当前候选图像区域为指标图像区域,对指标图像区域进行关键字识别可以得到指标维度对应的目标关键字。针对指标图像区域,在进行关键字识别时,计算机设备可以先将指标图像区域对应的文本信息和对应的关键字词典进行匹配,得到指标维度对应的初始关键字,初始关键字包括关键指标类型和初始关键指标数据,初始关键指标数据包括关键指标初始单位。可以理解,识别得到的关键指标初始单位存在一定程度的识别错误。此时,计算机设备可以基于识别得到的关键指标类型对关键指标初始单位进行修正。计算机设备预先存储有各个关键指标类型对应的准确的关键指标单位,即各个关键指标类型对应的关键指标参考单位。在识别到关键指标类型后,计算机设备就可以获取关键指标类型对应的关键指标参考单位,在指标维度对应的初始关键字中,基于关键指标参考单位替换关键指标初始单位,将关键指标单位替换为关键指标类型对应的准确单位,从而得到指标维度对应的目标关键字。
举例说明,在病历单中,总蛋白计数指标类型对应的指标数据为65.5g/L。通过关键字识别得到的识别结果为关键指标类型为“总蛋白计数”,那么计算机设备就可以获取“总蛋白计数”对应的关键指标参考单位“g/L”,直接将关键指标参考单位“g/L”作为指标数据“65.5”的单位。此时,即使初始关键指标数据中的关键指标单位的识别结果(即关键指标初始单位)为“kg/L”,识别错误了,由于计算机设备可以自动将关键指标单位的识别结果替换为关键指标参考单位“g/L”,已经有效避免了后续采用错误的数据单位进行相似度计算的情况,在一定程度上提高了相似度计算的准确性。
在一个实施例中,计算机设备还可以预先存储各个关键指标类型对应的参考指标数据范围。计算机设备将同一关键指标类型对应的初始关键指标数据和参考指标数据范围进行比对,可以从指标维度对应的目标关键字中区分正常指标和异常指标。例如,总蛋白计数指标类型对应的参考指标数据范围为65-85g/L,若从病历单图像中识别得到的初始关键指标数据为60g/L,通过数据比对,计算机设备可以确定病历单中总蛋白计数偏低,为异常指标。后续,在进行单据展示时,异常指标可以进行突出展示,例如,采用醒目的颜色或较大的字体进行展示,以突出异常指标。
本实施例中,在指标维度对应的初始关键字中,基于关键指标类型对应的关键指标参考单位替换关键指标初始单位,可以得到指标维度对应的更准确的目标关键字,从而有助于提高相似度技术的准确性。
在一个实施例中,目标关键字集合和历史关键字集合均包括多个维度的关键字。基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,包括:
在目标关键字集合和历史关键字集合中,基于同一维度对应的目标关键字和历史关键字计算关键字差异,得到各个维度对应的关键字差异;获取各个维度对应的目标注意力信息;基于各个维度对应的关键字差异和注意力信息计算目标单据和历史单据对应的相似度。
其中,注意力信息是指注意力权重。不同维度的关键字差异可以对应不同的注意力权重。目标注意力信息是指经过训练、计算得到的准确权重。计算机设备可以定时对各个维度对应的注意力权重进行更新,以达到更精准的相似度计算效果。
具体地,目标关键字集合和历史关键字集合均包括多个维度的关键字。在计算两个单据的相似度时,计算机设备可以基于同一维度对应的目标关键字和历史关键字计算关键字差异,从而得到各个维度对应的关键字差异。接着,计算机设备获取各个维度对应的目标注意力信息,基于各个维度对应的目标注意力信息对各个维度对应的关键字差异进行加权求和得到两个单据的相似度。例如,目标关键字集合包括时间A1、指标B1,历史关键字集合包括时间A2、指标B2,计算机设备可以基于时间A1和时间A2计算时间维度对应的关键字差异△A,基于指标B1和指标B2计算指标维度对应的关键字差异△B,最终目标单据和历史单据的相似度为△A*a+△B*b,此时,a表示时间维度对应的目标注意力信息,b表示指标维度对应的目标注意力信息。
可以理解,若同一维度对应的关键字包括多个类型的关键字,在计算一个维度对应的关键字差异时,计算机设备可以基于同一类型对应的目标关键字和历史关键字计算关键字子差异,从而得到各个类型对应的关键字子差异,基于各个关键字子差异得到该维度对应的关键字差异。例如,在指标维度下,目标关键字集合包括指标A1、指标B1、指标C1,历史关键字集合包括指标A2、指标B3、指标C3,指标A1和指标A2为指标类型A对应的关键字,指标B1和指标B2为指标类型B对应的关键字,指标C1和指标C2为指标类型C对应的关键字。计算机设备可以基于指标A1和指标A2计算指标类型A对应的关键字子差异△A,基于指标B1和指标B2计算指标类型B对应的关键字差异△B,基于指标C1和指标C2计算指标类型C对应的关键字差异△C,那么目标单据和历史单据在指标维度对应的关键字差异为△A*a+△B*b+△C*c,此时,a表示指标类型A对应的注意力信息,b表示指标类型B对应的注意力信息,c表示指标类型C对应的注意力信息。可以理解,在计算关键字子差异时,同一类型的关键字需要转换为具备相同单位的数据,以统一计算标准。
在一个实施例中,将时间维度的关键字作为计算相似度的一个重要数据,可以提高相似度计算的准确性。参考图4B,病历单对应的关键字集合可以包括检查时间、关键指标和检查科目。基于目标病历单和历史病历单之间的检查时间差异、关键指标差异和检查科目差异可以计算目标病历单和历史病历单之间的相似度。目标病历单和历史病历单根据检查科目及关键指标计算得到的相似度可能仅仅判断两个病历单为弱关联,但是,若目标病历单和历史病历单的检查时间较为接近,时间维度的信息可以提高目标病历单和历史病历单之间的相似度,最终使得目标病历单和历史病历单之间的关联强度变为强关联。例如,血常规化验单据和染色体检查单据在检查内容和关键指标上没有太多关联,但是,如果两次单据的检查时间相隔比较近,医生综合血常规化验检查和染色体检查可以判断患者是否患有肾功能问题或肝功能问题。
本实施例中,基于各个维度对应的注意力信息对各个维度对应的关键字差异进行加权计算,可以得到目标单据和历史单据之间准确的相似度。
在一个实施例中,获取各个维度对应的目标注意力信息,包括:
获取训练单据对在各个维度对应的训练关键字差异,获取训练单据对对应的训练相似度;获取各个维度对应的初始注意力信息;基于各个维度对应的训练关键字差异和初始注意力信息计算训练单据对对应的初始相似度;基于训练单据对对应的初始相似度和训练相似度计算相似度损失值,基于相似度损失值调整各个维度对应的初始注意力信息,直至满足收敛条件,得到各个维度对应的目标注意力信息。
其中,训练单据对包括一对训练单据,用于训练注意力信息。训练单据对可以有多组。初始注意力信息是指各个维度对应的待训练的注意力信息。训练关键字差异是基于两个训练单据中同一维度对应的关键字计算得到的。训练相似度是指训练单据对所对应的相似度,可以是专家对训练单据对进行对比分析得到的。训练相似度可以表示比较权威、准确的相似度结果。
具体地,计算机设备可以基于训练数据对注意力信息进行机器学习,得到目标注意力信息,训练数据具体包括训练单据对的相关数据。计算机设备具体可以获取训练单据对在各个维度对应的训练关键字差异,获取各个维度对应的初始注意力信息,基于各个维度对应的初始注意力信息对各个训练关键字差异进行加权求和得到训练单据对对应的初始相似度。计算机设备可以基于训练单据对对应的初始相似度和训练相似度计算相似度损失值,基于相似度损失值调整各个维度对应的初始注意力信息,直至满足收敛条件,得到各个维度对应的目标注意力信息。收敛条件具体可以是相似度损失值小于预设损失值、相似度损失值的调整次数达到预设次数等。这样,通过深度学习,可以让计算得到的初始相似度逐渐接近训练相似度,从而得到比较准确的目标注意力信息,后续,基于各个维度对应的初始注意力信息可以准确计算目标单据和历史单据之间的目标相似度。
可以理解,在同一维度下,各个类型对应的目标注意力信息也可以采用类似的方式进行训练得到。
在一个实施例中,基于相似度建立目标单据和历史单据之间的目标关联关系,包括:
获取关联关系映射信息,关联关系映射信息包括至少两种候选关联关系分别对应的参考相似度;不同的候选关联关系对应不同的单据展示模式;将相似度和关联关系映射信息中的参考相似度进行匹配,基于匹配结果从各种候选关联关系中确定目标关联关系。
其中,关联关系映射信息用于基于两个单据的相似度确定两个单据之间的关联关系。关联关系映射信息包括至少两种候选关联关系分别对应的参考相似度。不同的候选关联关系对应不同的参考相似度。参考相似度可以是一个相似度数值,也可以是一个相似度区间。
单据展示模式是指属于同一候选关联关系的各个历史单据对应的统一展示形式。不同的候选关联关系可以对应不同的单据展示模式,即不同的候选关联关系对应的历史单据之间可以采用不同的展示形式。例如,候选关联关系A对应的各个历史单据采取展示形式1进行展示,候选关联关系B对应的各个历史单据采取展示形式2进行展示。不同的单据展示模式具体可以包括数据排列顺序、展示的数据类型、展示区域等中的至少一种不同。
具体地,计算机设备可以获取关联关系映射信息,将目标单据和历史单据对应的相似度与关联关系映射信息中的参考相似度进行匹配。若目标单据和历史单据对应的相似度落入某一参考相似度,则将该参考相似度对应的候选关联关系作为目标单据和历史单据之间的目标关联关系,建立目标单据和历史单据之间的目标关联关系。例如,关联关系映射信息包括第一关联关系和第二关联关系,第一关联关系对应的参考相似度为相似度大于或等于相似度阈值,第二关联关系对应的参考相似度为相似度小于相似度阈值。因此,若目标单据和历史单据对应的相似度大于或等于相似度阈值,则目标单据和历史单据之间的目标关联关系为第一关联关系,若目标单据和历史单据对应的相似度小于相似度阈值,则目标单据和历史单据之间的目标关联关系为第二关联关系。
本实施例中,基于关联关系映射信息可以快速确定目标单据和历史单据之间的关联关系。
在一个实施例中,历史单据为多个,所述方法还包括:
获取单据展示指令;单据展示指令携带目标单据对应的目标单据标识;根据单据展示指令获取目标单据分别和各个历史单据之间的目标关联关系;将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示。
其中,单据展示指令用于触发单据展示。单据展示指令可以是在用户上传单据图像后自动触发生成的。此时,计算机设备可以在确定目标单据和历史单据之间的目标关联关系后,自动基于目标关联关系对历史单据进行展示。单据展示指令也可以是接收到用户作用于界面上的单据展示控件而触发生成的。此时,计算机设备可以先确定目标单据和历史单据之间的目标关联关系,在用户触发单据展示控件后,计算机设备再基于目标关联关系对历史单据进行展示。
同一目标关联关系对应的历史单据在集中区域进行展示是指同一目标关联关系对应的各个历史单据在同一区域内进行展示。不同目标关联关系对应的历史单据进行分区展示是指不同目标关联关系对应的各个历史单据在不同的区域内进行展示。
具体地,计算机设备获取单据展示指令,单据展示指令携带目标单据对应的目标单据标识。单据展示指令可以用于指示计算机设备展示目标单据对应的历史单据。响应于单据展示指令,计算机设备可以获取目标单据分别和各个历史单据之间的目标关联关系,基于目标关联关系将同一目标关联关系对应的各个历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示。例如,目标单据对应的历史单据包括历史单据1、历史单据2和历史单据3。目标单据与历史单据1和历史单据2之间的目标关联关系均为第一关联关系。目标单据与历史单3之间的目标关联关系为第二关联关系。计算机设备就可以在区域A展示历史单据1和历史单据2,在区域B展示历史单据3。可以理解,在展示历史单据的时候,可以同步展示目标单据。例如,计算机设备可以在区域A展示目标单据、历史单据1和历史单据2,在区域B展示目标单据和历史单据3。
在一个实施例中,计算机设备还可以对同一目标关联关系对应的各个历史单据进行筛选,在集中区域进行展示时只展示预设数目的历史单据。计算机设备具体可以基于相似度对同一目标关联关系对应的各个历史单据进行筛选,确定需要展示的历史单据。例如,在区域A只展示与目标单据的相似度最高的三个历史单据,或者,在区域A只展示与目标单据的相似度大于预设阈值的历史单据。进一步的,在展示历史单据时,计算机设备可以根据相似度确定历史单据的展示排序。例如,在区域A中,与目标单据的相似度越高的历史单据对应的展示位置越靠前。
可以理解,在同一集中区域内,还可以进一步对不同类型的历史单据进行分类显示。例如,在区域A内还可以进一步分区域展示检查单据类型的历史病历单、检验单据类型的历史病历单、化验单据类型的历史病历单、报告单据类型对应的历史病历单。
本实施例中,将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示,可以方便用户查看,从而提高单据的信息获取效率。
在一个实施例中,目标关联关系包括第一关联关系和第二关联关系。将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示,包括:
基于第一关联关系对应的历史单据的历史关键字集合,对第一关联关系对应的历史单据进行展示;基于第二关联关系对应的历史单据的关联关键字,对第二关联关系对应的历史单据进行展示;第一关联关系对应的历史单据的相似度大于第二关联关系对应的历史单据的相似度,关联关键字是对目标关键字集合和第二关联关系对应的历史单据的历史关键字集合进行关键字匹配得到的。
其中,关联关键字是指历史单据和目标单据之间相似或相同类型的关键字。计算机设备可以对目标单据对应的目标关键字集合和第二关联关系对应的历史单据的历史关键字集合进行关键字匹配,查找历史关键字集合中与目标关键字属于相似或相同类型的历史关键字作为历史单据对应的关联关键字。例如,历史单据包括用户甲的体重数据A,目标单据包括用户甲的体重数据B,体重数据A和体重数据B都用于描述体重,为相同类型的关键字,只是具体的体重数值可能不同,此时,历史单据对应的关联关键字可以是体重数据A。
具体地,第一关联关系对应的历史单据的相似度大于第二关联关系对应的历史单据的相似度,可以认为第一关联关系为强关联,第二关联关系为弱关联。若历史单据与目标单据为强关联,那么表明历史单据与目标单据的相似度高,历史单据对应的历史关键字集合和目标单据对应的目标关键字集合较为相似,对于目标单据来说,历史关键字集合中的绝大多数关键字的参考价值都比较高。因此,若历史单据对应的目标关联关系为第一关联关系,计算机设备可以基于第一关联关系对应的历史单据的历史关键字集合,对第一关联关系对应的历史单据进行展示。也就是,计算机设备在展示强关联的历史单据时,可以将历史单据对应的各个历史关键字作为历史单据对应的标签进行展示。参考图5A,用户点击“强关联”页签可以进入第一关联关系对应的集中展示区域,该集中展示区域展示有与目标单据强关联的历史单据A、历史单据B和历史单据C等单据。在各个历史单据对应的展示子区域中展示有历史单据的单据标识和单据标签,此时,单据标签具体可以是历史单据对应的各个历史关键字。
若历史单据与目标单据为弱关联,那么表明历史单据与目标单据的相似度低,历史单据对应的历史关键字集合和目标单据对应的目标关键字集合不太相似度,对于目标单据来说,历史关键字集合中的绝大多数关键字的参考价值都比较低。因此,若历史单据对应的目标关联关系为第二关联关系,计算机设备可以基于第二关联关系对应的历史单据的关联关键字,对第二关联关系对应的历史单据进行展示。也就是,计算机设备在展示弱关联的历史单据时,只将历史关键字集合与目标关键字集合之间相同或相似类型的关键字进行展示,只展示历史单据中对目标单据有参考价值的关键信息。例如,目标单据A和历史单据B为弱关联,目标单据A包括10个目标关键字,历史单据B包括8个关键字,目标单据A和历史单据B之间相同或相似类型的关键字只包括血糖值,那么,在展示历史单据B时,可以只展示历史单据B对应的血糖值,历史单据B中其他参考价值低的信息就无需展示。参考图5B,用户点击“弱关联”页签可以进入第二关联关系对应的集中展示区域,该集中展示区域展示有与目标单据弱关联的历史单据F、历史单据G。在各个历史单据对应的展示子区域中展示有历史单据的单据标识和单据标签,此时,单据标签具体可以是历史单据与目标单据之间的关联关键字。历史单据F与目标单据之间的关联关键字为标签F1和标签F6,历史单据G与目标单据之间的关联关键字为标签G3。
可以理解,图5A和图5B中的搜索框用于基于关键字搜索对应的单据。
本实施例中,第一关联关系对应的历史单据可以基于历史关键字集合进行展示,第二关联关系对应的历史单据可以基于关联关键字进行展示,这种展示方式可以提高目标单据对应的历史单据的信息展示有效性,以便用户快速获取参考价值较高的单据信息。
在一个实施例中,如图6A所示,所述方法还包括:
步骤S602,获取在单据展示界面上通过触发操作生成的单据详情展示指令,单据详情展示指令携带待展示单据对应的单据标识。
步骤S604,获取待展示单据的单据类型对应的目标展示模板。
步骤S606,将待展示单据对应的关键字集合填充至目标展示模板,得到待展示单据对应的详情展示界面。
步骤S608,展示详情展示界面。
其中,单据详情展示指令用于展示某一单据的详细单据内容。单据详情展示指令可以是根据用户作用于某一单据的展示子区域的触发操作生成的,例如,若用户点击了历史单据A的展示子区域中的任意位置,则生成携带历史单据A对应的单据标识的单据详情展示指令。触发操作具体可以是触摸操作、光标操作、按键操作或者语音操作等。
待展示单据可以是目标单据,也可以是历史单据。目标展示模板是指待展示单据的单据类型对应的单据展示模板。单据展示模板是指单据的数据可视化模板,用于展示单据的详细单据内容。可以预先设计不同类型的单据对应的数据可视化模板,以便用户快速从详情展示界面上获取关键信息。例如,检查单据类型的单据采用检查单据展示模板、检验单据类型的单据采用检验单据展示模板、化验单据类型的单据采用化验单据展示模板、报告单据类型的单据采用报告单据展示模板。
具体地,计算机设备获取用户在单据展示界面上通过触发操作生成的单据详情展示指令,单据详情展示指令携带待展示单据对应的单据标识。计算机设备基于待展示单据对应的单据标识可以确定待展示单据对应的单据类型,进而获取待展示单据的单据类型对应的目标展示模板。目标展示模板中设置了各种关键字对应的填充区域,计算机设备只需要将待展示单据对应的关键字集合中各个关键字填充至目标展示模板中对应的区域,即可得到待展示单据对应的详情展示界面。最终,计算机设备将详情展示界面展示给用户。可以理解,在详情展示界面中,还可以进一步展示各个关键指标类型对应的参考指标数据范围,以及各个关键指标数据是否异常的数据分析结果。
参考图6B,图6B为一个实施例中病历单对应的详情展示界面的界面示意图。详情展示界面中展示有病历单的基本属性信息,例如,医院名称、科室、检验内容、医生、检验时间。详情展示界面中还展示有病历单的关键指标,并且可以将病历单的关键指标进一步区分为正常关键指标和异常关键指标,正常关键指标和异常关键指标分区展示。参考图6B中的(a),用户点击“正常关键指标”页签进入正常关键指标展示区域,参考图6B中的(b),用户点击“异常关键指标”页签进入异常关键指标展示区域。
本实施例中,除了集中展示具有同一目标关联关系的历史单据外,还可以单独展示某一单据的单据详情,以便用户获取某一单据的详情信息。
在一个实施例中,目标关键字集合和历史关键字集合均包括指标维度和时间维度对应的关键字,指标维度对应的关键字包括关键指标类型和关键指标数据。如图7A所示,所述方法还包括:
步骤S702,将待展示单据对应的关键字集合和其他单据的关键字集合进行关键指标类型匹配,得到共有关键指标类型。
步骤S704,基于共有关键指标类型对应的关键指标数据和时间维度对应的关键字,生成共有关键指标类型对应的关键指标变化图表。
步骤S706,在详情展示界面中展示关键指标变化图表。
其中,目标关键字集合和历史关键字集合均包括指标维度和时间维度对应的关键字,指标维度对应的关键字包括关键指标类型和关键指标数据。共有关键指标类型是指待展示单据和其他单据之间共同的关键指标类型。例如,目标单据和历史单据中都包括心率数据,心率即为目标单据和历史单据的共有关键指标类型,目标单据和历史单据中的心率值为关键指标数据。可以理解,共有关键指标类型可以为至少一个。不同单据中同一关键指标类型对应的关键指标数据可以不同。
关键指标变化图表是对多个单据之间同一关键指标类型对应的关键指标数据进行统计分析得到的图表。关键指标变化图表可以展示同一关键指标类型对应的关键指标数据随着时间的变化情况。关键指标变化图表的图像展示方式可以采取饼图、折线图、柱状图等各种类型的图表。若共有关键指标类型有多个,则可以生成各个共有关键指标类型分别对应的关键指标变化图表。
具体地,在待展示单据对应的详情展示界面中,除了可以展示待展示单据自身的信息,还可以进一步结合其他单据的信息来展示数据变化图表,以便待展示单据的查看人员快速进行数据比对。计算机设备可以将待展示单据对应的关键字集合和其他单据的关键字集合进行关键指标类型匹配,得到待展示单据与其他单据的共有关键指标类型。进而,计算机设备可以基于共有关键指标类型对应的各个关键指标数据和各个关键指标数据对应的时间信息,生成共有关键指标类型对应的关键指标数据随着时间变化的图表。最终,计算机设备将关键指标变化图表在详情展示界面中进行展示。可以理解,关键指标变化图表可以是自动进行展示的,例如,用户进入待展示单据对应的单据详情展示界面后,自动展示各个关键指标变化图表。若关键指标变化图表有多个,各个关键指标变化图表可以自动进行滚动展示。关键指标变化图表也可以是基于用户作用于单据详情展示界面上的触发操作而进行展示的,例如,用户进入待展示单据对应的单据详情展示界面后,点击某一关键指标从而触发展示该关键指标对应的关键指标变化图表。
参考图7B,用户通过点击“嗜碱性粒细胞百分数”触发嗜碱性粒细胞百分数对应的关键指标变化柱状图。柱状图中的横坐标表示时间信息,柱状图中的纵坐标表示百分数信息。医生或患者查看该柱状图即可获知患者的嗜碱性粒细胞百分数在前后几次检测中的变化情况。
本实施例中,在待展示单据对应的详情展示界面中展示关键指标变化图表,可以方便用户快速对多个单据中的公共关键指标类型对应的关键指标数据进行比对。这样,用户就无需在各个单据对应的详情展示界面之间进行来回跳转。
在一个实施例中,如图8所示,提供了一种单据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S802,获取终端发送的单据展示请求;单据展示请求携带目标单据标识和用户标识。
步骤S804,获取目标单据标识对应的目标单据和用户标识对应的历史单据之间的目标关联关系;目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,目标关联关系是基于目标单据和历史单据对应的相似度建立的,相似度是基于目标单据对应的目标关键字集合和历史单据对应的历史关键字集合计算的,目标关键字集合或历史关键字集合是基于当前单据图像对应的当前单据类型对当前单据图像进行关键字识别得到的,当前单据图像为目标单据对应的单据图像或历史单据对应的单据图像。
步骤S806,基于目标关联关系生成单据展示请求对应的单据展示数据,向终端返回单据展示数据,以使终端根据单据展示数据进行单据展示。
其中,单据展示请求用于请求服务器返回单据展示数据,以便终端根据单据展示数据进行单据展示。目标单据标识是指目标单据对应的单据标识。单据展示数据用于进行数据渲染生成单据展示界面。单据展示数据可以包括目标单据对应的展示数据和目标单据对应的至少一个历史单据的展示数据中的至少一种。例如,单据展示数据可以只包括目标单据对应的至少一个历史单据的展示数据,也可以同时包括目标单据对应的展示数据和目标单据对应的至少一个历史单据的展示数据。
具体地,在接收终端发送的单据展示请求之前,服务器可以获取终端发送的当前单据图像,服务器识别当前单据图像对应的当前单据类型,基于当前单据类型对当前单据图像进行关键字识别,得到当前单据对应的当前关键字集合。可以理解,当前单据图像可以是历史单据,也可以是目标单据。在得到目标单据对应的目标关键字集合后,服务器可以基于目标单据对应的目标关键字集合和历史单据对应的历史关键字集合计算目标单据和历史单据对应的相似度,基于计算得到的相似度建立目标单据和历史单据之间的目标关联关系,并存储目标单据和历史单据之间的目标关联关系。
若接收到终端发送的单据展示请求,服务器可以基于单据展示请求中携带的目标单据标识,获取目标单据标识对应的目标单据和用户标识对应的历史单据之间的目标关联关系,基于目标关联关系生成单据展示请求对应的单据展示数据。单据展示数据具体可以包括待展示单据对应的单据展示模板、关键字集合、目标关联关系、关联关键字、关键指标变化图表等信息。服务器将单据展示数据发送至终端,终端就可以对单据展示数据进行数据渲染生成单据展示页面,从而实现单据展示。当然,单据展示数据还可以进一步渲染生成详情展示界面。
可以理解,服务器对单据图像进行数据处理的具体过程可以参照前述各个相关实施例所述的方法。终端进行单据展示的具体过程可以参照前述各个相关实施例所述的方法,例如,将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示,此处不再赘述。
上述单据处理方法,可以从单据图像中获取单据的文本信息,从而可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
在一个实施例中,如图9所示,提供了一种单据展示方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S902,获取在单据处理界面上通过触发操作生成的单据采集指令,根据单据采集指令对目标单据进行图像采集,得到目标单据对应的单据图像。
其中,单据处理界面是指用于触发单据处理的界面。单据采集指令是指用于触发单据图像采集的指令。触发操作具体可以是触摸操作、光标操作、按键操作或者语音操作。
具体地,用户可以在终端上登录单据处理应用程序或单据处理网页,进入单据处理界面。终端可以监测用户在单据处理界面上的触发操作,基于触发操作生成单据采集指令。若终端获取到单据采集指令,终端根据单据采集指令对目标单据进行图像采集,进而将采集到的单据图像和对应的用户标识发送至服务器,以使服务器基于单据图像进行数据处理得到单据展示数据。终端接收服务器返回的单据展示数据,基于单据展示数据在单据展示界面上进行单据展示。
参考图10,单据处理界面上展示有用于触发单据采集指令的“扫一扫您的报告单”控件1002,当终端检测到用户对“扫一扫您的报告单”控件1002的点击操作时,进入单据采集界面,终端开启摄像头,从而可以通过摄像头对目标单据进行图像采集。当终端检测到用户对拍摄控件1004的点击操作时,终端通过摄像头对目标单据进行拍摄,得到单据图像。拍摄区域可以是单据采集界面中的报告单扫描区域1006。
步骤S904,将单据图像和单据图像对应的用户标识发送至服务器,以使服务器识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,获取与用户标识匹配的历史单据对应的历史关键字集合,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,基于目标关联关系生成单据展示数据,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,历史关键字集合是对历史单据对应的历史图像进行关键字识别得到的。
具体地,终端采集到目标单据对应的单据图像后,终端可以将单据图像和单据图像对应的用户标识发送至服务器,以使服务器对目标单据对应的单据图像进行数据处理,进而对目标单据和历史单据进行相似度计算和关联关系建立,从而基于目标单据和历史单据之间的目标关联关系得到单据展示数据。
可以理解,服务器对单据图像进行数据处理、生成单据展示数据的具体过程可以参考前述各个相关实施例所述的方法,此处不再赘述。
在一个实施例中,服务器一旦通过关键字识别得到目标关键字集合后,可以先基于目标关键字集合生成目标单据对应的单据展示数据(即目标展示数据),先将目标展示数据向终端返回。终端获取到目标展示数据后,先基于目标展示数据对目标单据在单据展示界面上进行展示。后续,终端获取到目标单据和历史单据或历史单据对应的单据展示数据后,再基于该单据展示数据在单据展示界面上进行单据展示。
步骤S906,获取服务器返回的单据展示数据,基于单据展示数据在单据展示界面上进行单据展示。
具体地,终端获取到服务器返回的单据展示数据后,终端可以对单据展示数据进行数据渲染,在单据展示界面上进行单据展示。终端可以直接在单据处理界面上进行单据展示,此时,单据处理界面即为单据展示界面。当然,终端也可以在单据处理界面上展示单据展示界面入口,若终端检测到用户对单据展示界面入口的触发操作,则跳转到单据展示界面,在单据展示界面上进行单据展示。终端也可以在获取到单据展示数据后,自动从单据处理界面跳转到单据展示界面,在单据展示界面上进行单据展示。在单据展示界面上可以先展示目标单据,再展示目标单据对应的历史单据,也可以同时展示目标单据和历史单据。
可以理解,在单据展示界面上进行单据展示的具体方式可以参照前述各个相关实施例所述的方法,例如,将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示,此处不再赘述。
上述单据展示方法,可以从单据图像中获取单据的文本信息,从而可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
本申请还提供一种应用场景,该应用场景应用上述的单据处理、单据展示方法。具体地,该单据处理、单据展示方法在该应用场景的应用如下:
在医疗场景下,不同医院之间通常是单独维护本院的病历单数据,不同医院之间存在信息孤岛。传统技术中,患者每次到医院就诊都需要携带各个医院提供的历史病历单,以便医生对患者的以往病情进行查看和了解。然而,纸质病历单容易丢失、忘记携带,电子病历单需要访问不同医院的医院系统,都存在信息获取效率低的问题。
本申请可以通过对不同医院提供的病历单图像进行OCR识别、关键字识别得到各个病历单分别对应的关键字集合,基于病历单的关键字集合建立同一患者的多个病历单之间的关联关系,形成一个病历单链接多个病历单的关联关系。后续,在患者的终端可以对不同医院的病历单进行可视化展示,从而提高医生的病历单查看效率。
参考图11,对病历单进行数据处理具体可以包括以下步骤:
1、建立关键字词典
专业人士可以对各种类型的病历单进行调研整理来建立关键字词典。关键字词典可以有多个,关键字词典可以定时更新。
2、对病历单图像进行OCR识别得到病历单的文本信息,基于关键字词典对文本信息进行关键字识别,得到病历单的关键字集合
2-1、病历单图像上传
患者可以在终端上登录病历单处理应用,对以往的病历单进行拍照上传。终端可以将获取到的病历单图像发送至服务器。
2-2、OCR识别
服务器可以对病历单图像进行OCR识别得到病历单的文本信息。具体地,服务器对病历单图像中的预设图像区域进行文字识别,得到病历单对应的病历单标题,基于病历单标题确定病历单对应的病历单类型。服务器基于病历单类型对应的病历单模板对病历单图像进行图像分割,得到病历单图像对应的多个候选图像区域,分别对各个候选图像区域进行文本提取,得到各个候选图像区域分别对应的文本信息。
2-3、关键字识别
服务器可以基于关键字词典对文本信息进行关键字识别,得到病历单对应的关键字集合。具体地,各个候选图像区域分别存在对应的关键字词典,服务器可以基于当前候选图像区域对应的当前关键字词典对当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的关键字,进而得到各个候选图像区域分别对应的关键字,各个关键字组成病历单对应的关键字集合。病历单对应的关键字集合中可以包括检查科目、检查时间、检查指标及检查内容等信息。
3、基于关键字集合计算病历单之间的相似度,基于相似度建立病历单之间的关联关系
服务器经过数据处理可以得到患者以往的各个病历单分别对应的关键字集合。服务器基于两个病历单之间的关键字集合可以计算两个病历单之间的相似度。进而,服务器基于病历单之间的相似度可以建立病历单之间的关联关系。
若两个病历单之间的相似度大于或等于相似度阈值,则将两个病历单之间建立强关联,若两个病历单之间的相似度小于相似度阈值,则将两个病历单之间建立弱关联。服务器每获取到新的病历单就可以将新的病历单和各个历史病历单基于相似度建立关联关系。
4、基于病历单之间的关联关系进行病历单展示
服务器基于病历单之间的关联关系可以生成当前病历单对应的历史病历单的病历单展示数据,并发送至终端。终端可以基于该病历单展示数据对历史病历单进行展示。例如,与当前病历单强关联的历史病历单可以在一个区域内进行集中展示,与当前病历单弱关联的历史病历单可以在另一区域内进行集中展示。在进行集中展示时,历史病历单可以基于病历单标识和病历单概述进行展示。针对与当前病历单强关联的历史病历单,病历单概述可以是历史病历单对应的各个关键字。针对与当前病历单弱关联的历史病历单,病历单概述可以是历史病历单中与当前病历单相似或相同的关键字。
此外,在同时展示多个病历单时,可以进一步对不同类型的病历单进行分类显示,便于医生从宏观整体上快速识别并找到所需病历单。不同类型的病历单可以匹配不同类型的展示方式。在展示一个病历单时,对病历单中的内容及指标做相应的数据可视化展示,以便医生快速查看病历单所包含的指标内容,进而提高医生门诊的问诊效率。在展示一个病历单时,可以为不同类型的指标内容配置对应的参考值和数据单位,便于医生从整体上快速识别需要的关键指标和异常指标,以及每个指标相对应的参考范围。在展示一个病历单时,还可以生成某一类型的指标内容对应的指标变化图表,便于医生快速比对某一类型的指标内容的历史数据和当前数据。
进一步的,根据实地调研结果,在传统医院问诊流程中,从诊室检查完毕后,拿检查单据到科室找到医生进行问诊需要花费的时间包括:①针对大型医院,在高峰时期通常排队需要耗费10-20分钟左右时间;②在进入科室后等待医生记录该患者关键指标、问诊了解其病史、近况等需要耗费3-5分钟左右;③医生给出诊断意见、开药时间3-5分钟左右。全过程共计需要花费16-30分钟。
经过实验表明,在应用本申请的技术方案后,患者在排队期间即可完成病历单的拍摄扫描工作,可缩短①至5-8分钟(可以理解,给当前医院提供不同医院的电子病历单可以避免一些重复检查);待进入科室后直接向医生展示其过往病史、身体近况信息,可缩短②至1-2分钟;最终医生根据可视化结果给出诊疗判断、根据以往用药记录给出针对性用药建议等,可缩短③至1-2分钟。全过程共计7-12分钟即可完成问诊,提升效率高达超过50%,大大缩短了患者在医院的问诊、停留时间,对于医疗资源的利用率大幅提高,极大程度上推进智慧医疗事业的发展。
可以理解,本申请的单据处理、单据展示方法还可以应用于处理其他领域中的单据,例如,运输领域中的货单、快递单,金融领域中的发票等。
应该理解的是,虽然图2、4A、6A、7A、8、9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、4A、6A、7A、8、9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种单据处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像获取模块1202、关键字识别模块1204、历史信息获取模块1206、相似度计算模块1208和关联关系建立模块1210,其中:
图像获取模块1202,用于获取目标单据对应的单据图像和单据图像对应的用户标识。
关键字识别模块1204,用于识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合。
历史信息获取模块1206,用于获取与用户标识匹配的历史单据对应的历史关键字集合,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据。
相似度计算模块1208,用于基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度。
关联关系建立模块1210,用于基于相似度建立目标单据和历史单据之间的目标关联关系,目标关联关系用于进行单据展示。
上述单据处理装置,通过从单据图像中获取单据的文本信息,可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
在一个实施例中,关键字识别模块包括:
单据类型识别单元,用于对单据图像中的预设图像区域进行文字识别,得到目标单据对应的目标标题,基于目标标题确定目标单据类型。
在一个实施例中,关键字识别模块包括:
图像分割单元,用于基于目标单据类型对应的目标单据模板对单据图像进行图像分割,得到单据图像对应的多个候选图像区域。
文本提取单元,用于分别对各个候选图像区域进行文本提取,得到各个候选图像区域分别对应的文本信息。
关键字识别单元,用于对各个文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字。
关键字集合确定单元,用于基于各个目标关键字得到目标关键字集合。
在一个实施例中,各个候选图像区域存在对应的关键字词典,关键字识别单元还用于获取当前候选图像区域对应的当前关键字词典,基于当前关键字词典对当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的目标关键字。
在一个实施例中,当前候选图像区域为指标图像区域,指标图像区域对应的目标关键字为指标维度对应的目标关键字。关键字识别单元还用于将指标图像区域对应的文本信息和对应的关键字词典进行匹配,得到指标维度对应的初始关键字,初始关键字包括关键指标类型和初始关键指标数据,初始关键指标数据包括关键指标初始单位,获取关键指标类型对应的关键指标参考单位,在指标维度对应的初始关键字中,基于关键指标参考单位替换关键指标初始单位,得到指标维度对应的目标关键字。
在一个实施例中,目标关键字集合和所述历史关键字集合均包括多个维度的关键字。相似度计算模块包括;
关键字差异计算单元,用于在目标关键字集合和历史关键字集合中,基于同一维度对应的目标关键字和历史关键字计算关键字差异,得到各个维度对应的关键字差异。
注意力信息获取单元,用于获取各个维度对应的目标注意力信息。
相似度计算单元,用于基于各个维度对应的关键字差异和注意力信息计算目标单据和历史单据对应的相似度。
在一个实施例中,注意力信息获取单元还用于获取训练单据对在各个维度对应的训练关键字差异,获取训练单据对对应的训练相似度,获取各个维度对应的初始注意力信息,基于各个维度对应的训练关键字差异和初始注意力信息计算训练单据对对应的初始相似度,基于训练单据对对应的初始相似度和训练相似度计算相似度损失值,基于相似度损失值调整各个维度对应的初始注意力信息,直至满足收敛条件,得到各个维度对应的目标注意力信息。
在一个实施例中,关联关系建立模块还用于获取关联关系映射信息,关联关系映射信息包括至少两种候选关联关系分别对应的参考相似度,不同的候选关联关系对应不同的单据展示模式,将相似度和关联关系映射信息中的参考相似度进行匹配,基于匹配结果从各种候选关联关系中确定目标关联关系。
在一个实施例中,历史单据为多个,所述单据处理装置还包括:
单据展示模块,用于获取单据展示指令,单据展示指令携带目标单据对应的目标单据标识,根据单据展示指令获取目标单据分别和各个历史单据之间的目标关联关系,将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示。
在一个实施例中,目标关联关系包括第一关联关系和第二关联关系。单据展示模块还用于基于第一关联关系对应的历史单据的历史关键字集合,对第一关联关系对应的历史单据进行展示,基于第二关联关系对应的历史单据的关联关键字,对第二关联关系对应的历史单据进行展示,第一关联关系对应的历史单据的相似度大于第二关联关系对应的历史单据的相似度,关联关键字是对目标关键字集合和第二关联关系对应的历史单据的历史关键字集合进行关键字匹配得到的。
在一个实施例中,单据展示模块还用于获取在单据展示界面上通过触发操作生成的单据详情展示指令,单据详情展示指令携带待展示单据对应的单据标识,获取待展示单据的单据类型对应的目标展示模板,将待展示单据对应的关键字集合填充至目标展示模板,得到待展示单据对应的详情展示界面,展示详情展示界面。
在一个实施例中,目标关键字集合和历史关键字集合均包括指标维度和时间维度对应的关键字,指标维度对应的关键字包括关键指标类型和关键指标数据。单据展示模块还用于将待展示单据对应的关键字集合和其他单据的关键字集合进行关键指标类型匹配,得到共有关键指标类型,基于共有关键指标类型对应的关键指标数据和时间维度对应的关键字,生成共有关键指标类型对应的关键指标变化图表,在详情展示界面中展示关键指标变化图表。
在一个实施例中,单据提供方是指单据对应的单据归属机构,单据归属机构用于通过电子设备进行数据采集和数据分析得到数据分析结果,并将数据分析结果发送至用户标识对应的终端,数据分析结果包括用户标识对应的用户体征数据。
在一个实施例中,如图13所示,提供了一种单据处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:请求获取模块1302、关联关系获取模块1304和展示数据确定模块1306,其中:
请求获取模块1302,用于获取终端发送的单据展示请求;单据展示请求携带目标单据标识和用户标识。
关联关系获取模块1304,用于获取目标单据标识对应的目标单据和用户标识对应的历史单据之间的目标关联关系;目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,目标关联关系是基于目标单据和历史单据对应的相似度建立的,相似度是基于目标单据对应的目标关键字集合和历史单据对应的历史关键字集合计算的,目标关键字集合或历史关键字集合是基于当前单据图像对应的当前单据类型对当前单据图像进行关键字识别得到的,当前单据图像为目标单据对应的单据图像或历史单据对应的单据图像。
展示数据确定模块1306,用于基于目标关联关系生成单据展示请求对应的单据展示数据,向终端返回单据展示数据,以使终端根据单据展示数据进行单据展示。
在一个实施例中,如图14所示,提供了一种单据展示装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像采集模块1402、请求发送模块1404和单据展示模块1406,其中:
图像采集模块1402,用于获取在单据处理界面上通过触发操作生成的单据采集指令,根据单据采集指令对目标单据进行图像采集,得到目标单据对应的单据图像;
请求发送模块1404,用于将单据图像和单据图像对应的用户标识发送至服务器,以使服务器识别单据图像对应的目标单据类型,基于目标单据类型对单据图像进行关键字识别,得到目标单据对应的目标关键字集合,获取与用户标识匹配的历史单据对应的历史关键字集合,基于目标关键字集合和历史关键字集合计算目标单据和历史单据对应的相似度,基于相似度建立目标单据和历史单据之间的目标关联关系,基于目标关联关系生成单据展示数据,目标单据和历史单据组成的单据集合包括不同的单据提供方对应的单据,历史关键字集合是对历史单据对应的历史图像进行关键字识别得到的;
单据展示模块1406,用于获取服务器返回的单据展示数据,基于单据展示数据在单据展示界面上进行单据展示。
上述单据处理、单据展示装置,通过从单据图像中获取单据的文本信息,可以同时存储不同的单据提供方对应的单据的文本信息,打破了不同的单据提供方之间的信息孤岛,有助于提高信息获取效率。进一步的,计算不同单据提供方对应的单据之间的相似度,基于相似度建立不同单据提供方对应的单据之间的关联关系,基于该关联关系可以进行单据展示,从而无需访问不同的单据提供方对应的数据库去分别查看不同的单据,有效提高了信息获取效率。
关于单据处理、单据展示装置的具体限定可以参见上文中对于单据处理、单据展示方法的限定,在此不再赘述。上述单据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史单据对应的历史关键字集合、目标单据对应的目标关键字集合、目标单据和历史单据之间的相似度、目标关联关系等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种单据处理、单据展示方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种单据处理、单据展示方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15、16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种单据处理方法,其特征在于,所述方法包括:
获取目标单据对应的单据图像和所述单据图像对应的用户标识;
识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,包括:
基于所述目标单据类型对应的目标单据模板对所述单据图像进行图像分割,得到所述单据图像对应的多个候选图像区域;
分别对各个候选图像区域进行文本提取,得到各个候选图像区域分别对应的文本信息;
对各个文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字;
基于各个目标关键字得到所述目标关键字集合。
3.根据权利要求2所述的方法,其特征在于,所述各个候选图像区域存在对应的关键字词典,所述对各个文本信息进行关键字识别,得到各个候选图像区域分别对应的目标关键字,包括:
获取当前候选图像区域对应的当前关键字词典;
基于所述当前关键字词典对所述当前候选图像区域对应的文本信息进行关键字识别,得到所述当前候选图像区域对应的目标关键字。
4.根据权利要求3所述的方法,其特征在于,所述当前候选图像区域为指标图像区域,所述指标图像区域对应的目标关键字为指标维度对应的目标关键字;
所述基于所述当前关键字词典对所述当前候选图像区域对应的文本信息进行关键字识别,得到当前候选图像区域对应的目标关键字,包括:
将所述指标图像区域对应的文本信息和对应的关键字词典进行匹配,得到指标维度对应的初始关键字;所述初始关键字包括关键指标类型和初始关键指标数据,所述初始关键指标数据包括关键指标初始单位;
获取所述关键指标类型对应的关键指标参考单位;
在所述指标维度对应的初始关键字中,基于所述关键指标参考单位替换所述关键指标初始单位,得到所述指标维度对应的目标关键字。
5.根据权利要求1所述的方法,其特征在于,所述历史单据为多个,所述方法还包括:
获取单据展示指令;所述单据展示指令携带所述目标单据对应的目标单据标识;
根据所述单据展示指令获取所述目标单据分别和各个历史单据之间的目标关联关系;
将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示。
6.根据权利要求5所述的方法,其特征在于,所述目标关联关系包括第一关联关系和第二关联关系;
所述将同一目标关联关系对应的历史单据在集中区域进行展示,将不同目标关联关系对应的历史单据进行分区展示,包括:
基于第一关联关系对应的历史单据的历史关键字集合,对所述第一关联关系对应的历史单据进行展示;
基于第二关联关系对应的历史单据的关联关键字,对所述第二关联关系对应的历史单据进行展示;所述第一关联关系对应的历史单据的相似度大于所述第二关联关系对应的历史单据的相似度,所述关联关键字是对所述目标关键字集合和所述第二关联关系对应的历史单据的历史关键字集合进行关键字匹配得到的。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:
获取在单据展示界面上通过触发操作生成的单据详情展示指令,所述单据详情展示指令携带待展示单据对应的单据标识;
获取所述待展示单据的单据类型对应的目标展示模板;
将所述待展示单据对应的关键字集合填充至所述目标展示模板,得到所述待展示单据对应的详情展示界面;
展示所述详情展示界面。
8.根据权利要求7所述的方法,其特征在于,所述目标关键字集合和所述历史关键字集合均包括指标维度和时间维度对应的关键字,所述指标维度对应的关键字包括关键指标类型和关键指标数据,所述方法还包括:
将所述待展示单据对应的关键字集合和其他单据的关键字集合进行关键指标类型匹配,得到共有关键指标类型;
基于所述共有关键指标类型对应的关键指标数据和时间维度对应的关键字,生成所述共有关键指标类型对应的关键指标变化图表;
在所述详情展示界面中展示所述关键指标变化图表。
9.一种单据处理方法,其特征在于,所述方法包括:
获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
10.一种单据展示方法,其特征在于,所述方法包括:
获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
11.一种单据处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标单据对应的单据图像和所述单据图像对应的用户标识;
关键字识别模块,用于识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合;
历史信息获取模块,用于获取与所述用户标识匹配的历史单据对应的历史关键字集合,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
相似度计算模块,用于基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度;
关联关系建立模块,用于基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,所述目标关联关系用于进行单据展示。
12.一种单据处理装置,其特征在于,所述装置包括:
请求获取模块,用于获取终端发送的单据展示请求;所述单据展示请求携带目标单据标识和用户标识;
关联关系获取模块,用于获取所述目标单据标识对应的目标单据和所述用户标识对应的历史单据之间的目标关联关系;所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述目标关联关系是基于所述目标单据和所述历史单据对应的相似度建立的,所述相似度是基于所述目标单据对应的目标关键字集合和所述历史单据对应的历史关键字集合计算的,所述目标关键字集合或所述历史关键字集合是基于当前单据图像对应的当前单据类型对所述当前单据图像进行关键字识别得到的,所述当前单据图像为所述目标单据对应的单据图像或所述历史单据对应的单据图像;
展示数据确定模块,用于基于所述目标关联关系生成所述单据展示请求对应的单据展示数据,向所述终端返回所述单据展示数据,以使所述终端根据所述单据展示数据进行单据展示。
13.一种单据展示装置,其特征在于,所述装置包括:
图像采集模块,用于获取在单据处理界面上通过触发操作生成的单据采集指令,根据所述单据采集指令对目标单据进行图像采集,得到所述目标单据对应的单据图像;
请求发送模块,用于将所述单据图像和所述单据图像对应的用户标识发送至服务器,以使所述服务器识别所述单据图像对应的目标单据类型,基于所述目标单据类型对所述单据图像进行关键字识别,得到所述目标单据对应的目标关键字集合,获取与所述用户标识匹配的历史单据对应的历史关键字集合,基于所述目标关键字集合和所述历史关键字集合计算所述目标单据和所述历史单据对应的相似度,基于所述相似度建立所述目标单据和所述历史单据之间的目标关联关系,基于所述目标关联关系生成单据展示数据,所述目标单据和所述历史单据组成的单据集合包括不同的单据提供方对应的单据,所述历史关键字集合是对所述历史单据对应的历史图像进行关键字识别得到的;
单据展示模块,用于获取所述服务器返回的所述单据展示数据,基于所述单据展示数据在单据展示界面上进行单据展示。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8或9或10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8或9或10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875114.0A CN115700826A (zh) | 2021-07-30 | 2021-07-30 | 单据处理、单据展示方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875114.0A CN115700826A (zh) | 2021-07-30 | 2021-07-30 | 单据处理、单据展示方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115700826A true CN115700826A (zh) | 2023-02-07 |
Family
ID=85120784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875114.0A Pending CN115700826A (zh) | 2021-07-30 | 2021-07-30 | 单据处理、单据展示方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115700826A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635081A (zh) * | 2024-01-25 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-07-30 CN CN202110875114.0A patent/CN115700826A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635081A (zh) * | 2024-01-25 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN117635081B (zh) * | 2024-01-25 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
CN110491502B (zh) | 显微镜视频流处理方法、系统、计算机设备和存储介质 | |
CN112863630A (zh) | 基于数据和知识的个性化精准医疗问答系统 | |
CN108899064A (zh) | 电子病历生成方法、装置、计算机设备和存储介质 | |
CN109192310A (zh) | 一种基于大数据的大学生心理行为异动系统方案设计方法 | |
CN115359873B (zh) | 用于手术质量的控制方法 | |
US20220207242A1 (en) | Method for testing medical data | |
CN113409907A (zh) | 一种基于互联网医院的智能预问诊方法及系统 | |
WO2023160264A1 (zh) | 医疗数据处理方法、装置及存储介质 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
CN111651579B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
CN112069329A (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
CN115700826A (zh) | 单据处理、单据展示方法、装置、计算机设备和存储介质 | |
CN111415760B (zh) | 医生推荐方法、系统、计算机设备及存储介质 | |
US20240054360A1 (en) | Similar patients identification method and system based on patient representation image | |
CN113722507A (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
Krishnamoorthy et al. | StimulEye: An intelligent tool for feature extraction and event detection from raw eye gaze data | |
CN111898528A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN115146179A (zh) | 基于跨域医疗数据的信息推荐方法、装置及计算机设备 | |
CN113707304B (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 | |
CN112151187B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN114610921B (zh) | 对象集群画像确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40081309 Country of ref document: HK |