CN114782943A - 票据信息提取方法及其装置、设备、介质、产品 - Google Patents

票据信息提取方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114782943A
CN114782943A CN202210523659.XA CN202210523659A CN114782943A CN 114782943 A CN114782943 A CN 114782943A CN 202210523659 A CN202210523659 A CN 202210523659A CN 114782943 A CN114782943 A CN 114782943A
Authority
CN
China
Prior art keywords
information
text
graph structure
structure data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210523659.XA
Other languages
English (en)
Inventor
罗丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Shidai Information Technology Co Ltd
Original Assignee
Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanju Shidai Information Technology Co Ltd filed Critical Guangzhou Huanju Shidai Information Technology Co Ltd
Priority to CN202210523659.XA priority Critical patent/CN114782943A/zh
Publication of CN114782943A publication Critical patent/CN114782943A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开一种票据信息提取方法及其装置、设备、介质、产品,所述方法包括:对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。本申请可以从票据图像中精准提取出订单数据所需的文本信息。

Description

票据信息提取方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息技术领域,尤其涉及一种票据信息提取方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
针对部分离线操作的电商场景,电商平台的消费者用户可能通过第三方应用截图或者纸件电子图片等方式,提供其电商订单相对应的票据信息,例如下单所需的商品信息或者支付某一订单相对应的汇款支付信息等,据此,需要在图片的基础上获取订单相关的数据。
从图片中获取订单相对应的数据,涉及到对交易订单中关键信息的快速提取和结构化,有助于帮助商家快速归集所有交易订单,快速协助商家完成订单信息的统计,利于商家把握全局交易状况,并有针对性的制定相应的促销、发货、生产等措施,同时也能快速掌握商业机密信息,避免出现遗漏、泄漏等情况。
对以图片为基础的票据信息进行处理的方式,业内普遍基于图片文本识别获取文本信息之后,结合常规的规则匹配进行数据结构化,此类方式较为原始,且处理过程复杂,智能化程度不足,特别是需要向多个地区提供多种语言相对应的票据信息提取服务时,不具有通用性,因此需要做出改进。
发明内容
本申请的首要目的在于解决上述问题而提供一种票据信息提取方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种票据信息提取方法,包括如下步骤:
对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;
构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;
采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;
将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
适应本申请的目的之一而提供的一种票据信息提取装置,包括文本识别模块、图结构化模块、信息更新模块,以及信息分类模块。其中,所述文本识别模块,用于对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;所述图结构化模块,用于构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;所述信息更新模块,用于采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;所述信息分类模块,用于将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的票据信息提取方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的票据信息提取方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述的票据信息提取方法的步骤。
相对于现有技术,本申请的技术方案至少包含如下技术优势:
首先,本申请在对票据图像进行文本识别,获得其中各个文本区域相对应的文本框的坐标信息及文本框内的文本信息的基础上,构造相应的图结构数据,将其中的节点用于存储文本框的坐标信息、文本信息的特征信息,将其中的边定义为任意两个节点之间的相对距离信息的特征信息,然后采用图卷积神经网络对所述图结构数据进行多次迭代更新,不断提取整个图结构数据的高层语义信息,在实现对整个图结构数据的更新的基础上,对图结构数据中更新后的节点的特征信息进行分类,相应获得各个文本框的文本信息的分类标签,实现对票据图像所包含的文本信息的分类。由于基于图卷积神经网络对图结构数据进行多次迭代所提取的高层语义信息进行分类,因而可以不受票据图像中文本信息的语种限制,实现跨语种识别票据图像中的结构化数据,获得精准的分类结果,方便计算机设备高效地处理这些结构化数据。
其次,本申请在构造图结构数据时,通过节点实现票据图像中的文本框及其中的文本信息之间的关联,通过每两个节点之间的文本框相对距离信息建立了各个文本框之间的关联,因而,可以指导图卷积神经网络提取出相应的深层语义,实现对票据图像中文本及其位置的关系的精准语义表示,从而确保分类准确。
再者,本申请通过图结构数据综合了票据图像中文本框内的文本信息和文本框的相对距离信息,实现多种模态的信息的有效融合,在此基础上进行有关订单数据的推理,可以提供更丰富的参考信息,指导推理过程获得更为准确的数据识别结果,从而提升订单数据识别的准确度。
此外,本申请的票据图像通常可由用户线下获取而在线上提供,因而,实现线上与线下相结合的电商业务模式,可以协助商家快速处理交易订单信息,便于商家通过线上归集消费者用户线下实施获得的机密信息,可以提升商家对全局交易的信息处理能力。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的票据信息提取方法的典型实施例的流程示意图;
图2为本申请实施例中从票据图像中检测、识别出行文本的过程的流程示意图;
图3为本申请实施例中构造票据图像的图结构数据的过程的流程示意图;
图4为本申请实施例中,所述图结构数据中的节点的特征信息构造过程的流程示意图;
图5为本申请实施例中的图卷积神经网络的工作过程的流程示意图;
图6为本申请实施例中的图卷积神经网络的示例性的原理框图;
图7本本申请实施例中获取节点的更新信息的过程的流程示意图;
图8为本申请实施例中更新边的特征信息的过程的流程示意图;
图9为本申请实施例中将原始图片获得票据图像的过程的流程示意图;
图10为本申请示例性的电子支付凭证的截图示例;
图11为本申请实施例中根据图卷积神经网络分类所得的结构启动电商业务流程的过程的流程示意图;
图12为本申请的票据信息提取装置的原理框图;
图13为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种票据信息提取方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请包括直播电商在内的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的票据信息提取方法,在其典型实施例中,包括如下步骤:
步骤S1100、对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;
确定一张票据图像,在本申请示例性的电商业务场景中,所述票据图像通常是包含订单数据相对应的文本内容的图像。所述的订单数据是与电商平台的订单业务流程的一个或多个业务环节相关的各类数据,例如,对于电商订单的线下汇款支付环节,所述的订单数据可以包含支付日期、支付金额、支付金额名称、手续费金额、手续费金额名称、总金额、总金额名称、备注信息等等不同类别的数据;对于电商订单的物流环节,所述的订单数据可以包含快递单号、物流承运方等不同类别的数据。诸如此类,均可视为订单数据。
需要注意的是,本申请所称的线下是指相对于电商交易而言的离线操作,即不在本申请所称的电商平台中执行的操作,并非指用户的操作不得依赖互联网。例如前文示例中,用户通过第三方应用程序执行相应的支付操作后截图获得所述的票据图像,即视为本申请所称的线下汇款的操作。
所述票据图像可以是由电商平台的用户提交的原始图片截取包含所述订单数据的图像所在的区域而获得的。被确定为票据图像的图片,一般是人工可以识别出包含所述订单数据的图像的图片,但对于电商平台的计算机设备而言,可以事先通过技术识别来判断其是否包含所述的订单数据,对于不包含所述订单数据的图片可以不予后续处理,对于包含所述订单数据的图片,则可获得其中的票据图像,进一步对其实施文本识别处理。
一个实施例中,判断原始图片是否包含所述的订单数据,可采用预先训练至收敛状态的神经网络模型实施,该神经网络模型具有对所述的原始图片进行表示学习而获得其相对应的图像特征信息的能力,然后将所述图像特征信息输入二分类器进行分类判决,从而确定出所述原始图片是否包含订单数据,从包含订单数据的原始图片中获得票据图像即可。
不难理解,包含订单数据的票据图像中,存在各个包含文本信息的文本区域,每个文本区域相对应的图像,即行文本图像。对包含订单数据的票据图像进行文本识别时,可以先检测出票据图像中各个文本区域相对应的文本框,以便获得其相对应的行文本图像,所述文本框可以采用其相应的文本区域的坐标信息进行表示,例如可以借助文本区域的四个角点相对应的坐标来表述该文本区域相应的文本框,后续可根据该坐标信息从票据图像中截取出相对应的行文本图像,然后再分别对各个行文本图像进行文本识别,便可获得各个行文本图像相对应的文本信息。
从票据图像中确定出其中的行文本图像以及根据行文本图像识别出相应的文本信息,可以采用传统技术中的光学图像识别技术(OCR)实现,或采用基于深度学习的神经网络模型来提取实现。
可以知晓,各个行文本图像的文本框的坐标信息指示了订单数据相对应的图像信息,构成一个模态;各个行文本图像相对应的文本信息,则提供了订单数据相对应的文字内容,构成另一模态,因而,经此步骤,获得两个模态的信息。
步骤S1200、构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;
为了实现对前一步骤获得的两个模态的信息的综合表示,可以采用预设的图结构对前一步骤获得的票据图像中的文本框相对应的坐标信息和文本信息进行结构化,获得相应的图结构数据。
在所述的图结构数据中,对应所述各个文本框构造图结构数据的各个节点,各个节点可以存储并表示其相对应的文本框的坐标信息的特征信息,以及存储该文本框中的文本信息的特征信息。所述文本框的坐标信息的特征信息可以通过将该坐标信息进行向量化获得。所述文本信息的特征信息可以通过对该文本信息进行词嵌入获得其嵌入向量的形式来获得。
一个实施例中,在对所述文本信息进行词嵌入时,通过预先提供多语言词典,将所述文本信息分词后,在所述多语文词典中查询获得各个分词相对应的特征值,由这些特征值构成所述的嵌入向量。所述多语言词典可以是对应不同语种独立提供的多个基础词典,也可以是将所有语言相对应的词典集合为同一综合词典。
所述图结构数据中节点与节点之间的连接信息,即任意两个节点之间的边,可以每两个节点各自的文本框的坐标信息计算两个文本框的相对距离来表示,例如通过各个文本框的中心点坐标计算两个文本框在横轴、纵轴上的相对距离来共同构成相对距离信息来表示。
由此可见,在所述图结构数据中,可实现对票据信息中的两个模态的特征信息的综合表示,从而将票据图像中包含的订单数据初步形成语义上相关联的结构化表示信息。
步骤S1300、采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;
对所述图结构数据,可采用图卷积神经网络(GCN,Graph ConvolutionalNetwork)对其进行特征提取,以获得各个节点相对应的深层语义信息。所述图卷积神经网络可在接入分类网络之后,采用足量的训练样本,事先对其进行训练,将其训练至收敛状态,使其习得能够从给定的图结构数据中提取出各个节点的特征信息的深层语义信息后,投入本申请中使用。
在对所述图卷积神经网络实施训练时,可预备适量的票据图像,获得其中各个文本区域的文本框的坐标信息及文本信息,然后输入图卷积神经网络中进行多次迭代表示学习并实现对图结构数据的更新,最终获得的图结构数据中的节点中的特征信息被所述分类网络分类映射而获得其相应的分类标签后,便采用预设的监督标签,应用交叉熵损失函数计算所述分类标签相对应的模型损失值,然后根据该模型损失值对图卷积神经网络实施反向传播以实施梯度更新,如此采用多个训练样本迭代循环对图卷积神经网络训练,直至根据训练所得的所述模型损失值判断出图卷积神经网络模型达至收敛状态,便可终止训练。
所述图卷积神经网络以所述图结构数据中的节点的特征信息以及边的特征信息为输入,经过卷积操作,实现对各个节点的特征信息和边的特征信息的深层语义信息的提取,然后,以相应的深层语义信息更新相应的节点的特征信息和边的特征信息,从而实现对所述的图结构数据的更新。
一个实施例中,在应用所述图卷积神经网络对所述图结构数据进行更新的过程中,可以迭代多次对该图结构数据进行更新,提升更新后的特征信息的语义深度。具体的迭代次数可由本领域技术人员根据本申请以上揭示的原理灵活设定。
步骤S1400、将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
当完成所述的图结构数据的更新后,图结构数据中的节点的特征信息可被输入预设的分类网络中进行分类映射,所述分类网络在参与图卷积神经网络训练的阶段已经预先配置为分类数目,因而,可以对应地将各个节点的特征信息映射到其相应的分类,获得各个节点相对应的文本框的分类标签,完成对票据图像中的文本区域的文本信息的分类,获得相应的结构化数据,可作为订单数据使用。
根据以上的实施例,可以看出,本申请具有多方面的优势,包括但不限于:
首先,本申请在对票据图像进行文本识别,获得其中各个文本区域相对应的文本框的坐标信息及文本框内的文本信息的基础上,构造相应的图结构数据,将其中的节点用于存储文本框的坐标信息、文本信息的特征信息,将其中的边定义为任意两个节点之间的相对距离信息的特征信息,然后采用图卷积神经网络对所述图结构数据进行多次迭代更新,不断提取整个图结构数据的高层语义信息,在实现对整个图结构数据的更新的基础上,对图结构数据中更新后的节点的特征信息进行分类,相应获得各个文本框的文本信息的分类标签,实现对票据图像所包含的文本信息的分类。由于基于图卷积神经网络对图结构数据进行多次迭代所提取的高层语义信息进行分类,因而可以不受票据图像中文本信息的语种限制,实现跨语种识别票据图像中的结构化数据,获得精准的分类结果,方便计算机设备高效地处理这些结构化数据。
其次,本申请在构造图结构数据时,通过节点实现票据图像中的文本框及其中的文本信息之间的关联,通过每两个节点之间的文本框相对距离信息建立了各个文本框之间的关联,因而,可以指导图卷积神经网络提取出相应的深层语义,实现对票据图像中文本及其位置的关系的精准语义表示,从而确保分类准确。
再者,本申请通过图结构数据综合了票据图像中文本框内的文本信息和文本框的相对距离信息,实现多种模态的信息的有效融合,在此基础上进行有关订单数据的推理,可以提供更丰富的参考信息,指导推理过程获得更为准确的数据识别结果,从而提升订单数据识别的准确度。
此外,本申请的票据图像通常可由用户线下获取而在线上提供,因而,实现线上与线下相结合的电商业务模式,可以协助商家快速处理交易订单信息,便于商家通过线上归集消费者用户线下实施获得的机密信息,可以提升商家对全局交易的信息处理能力。
请参阅图2,在以上任意实施例基础上深化的实施例中,所述步骤S1100对票据图像进行文本识别,包括如下步骤:
步骤S1110、调用预设的文本检测模型对所述票据图像进行检测,获得其中各个文本区域相对应的文本框的坐标信息;
为了对所述票据图像进文本识别,首先需要从中各个文本区域相对应的行文本图像,据此,可采用一个预设的文本检测模型对所述票据图像进行行文本图像的检测。同理,所述的文本检测模型通过入参约束输入其中的票据图像的尺寸,因而,可根据其入参要求,将包含订单数据的票据图像进行预处理,将其通过裁剪、缩放等操作,调整至特定的尺寸,例如1024*1024像素,获得预处理后的票据图像,以满足所述文本检测模型的输入要求。
所述的文本检测模型可以采用CNN、Resnet等任意一种能够对图像进行表示学习并结合分类器实现文本检测的基础神经网络模型来实施,同理该文本检测模型被预先被训练至收敛状态,可由本领域技术人员采用足量的相应的训练样本对其实施相应的训练,使其习得从给定的预处理后的票据图像中识别出其中的多个行文本图像相对应的文本框的能力。
调用所述的文本检测模型对所述票据图像进行文本识别后,可以获得其中的各个文本区域相对应的文本框,所述的文本框以其文本区域相对应的四个角点的坐标进行描述,构成该文本框的坐标信息。
步骤S1120、根据所述文本框的坐标信息从所述票据图像中截取出各个文本区域相对应的行文本图像;
通过每个文本框的四个角点的坐标,可以确定其相应的行文本图像在所述预处理后的票据图像中的位置,同理,根据票据图像预处理前后的缩放比例关系,也可进一步确定所述文本框在预处理前的票据图像中的具体位置。因此,可以根据各个文本框,具体是根据其相应的四个角点的坐标,从预处理前或预处理后的票据图像中,截取出各个文本框相应的行文本图像,这些行文本图像被视为存在文本信息。
步骤S1130将所述行文本图像输入预训练至收敛状态的文本识别模型中进行文本识别,获得相应的文本信息。
预备一个文本识别模型用于对所述的各个行文本图像实施文本识别。所述的文本识别模型可以采用CRNN或者AttentionOCR等任意一种能够实现文本检测的基础神经网络模型来实施,其中,CRNN中的RNN以双向LSTM基础模型为骨干,以便加强特征提取,而CNN部分则采用一般的普通卷积神经网络模型。
同理,该文本识别模型被预先被训练至收敛状态,可由本领域技术人员采用足量的相应的训练样本对其实施相应的训练,使其习得从给定的行文本图像中识别出其中的文本信息的能力。
至此,通过由所述文本识别模型对各个文本框相对应的行文本图像进行文本识别,可以获得所述票据图像中存在的各个文本区域内的文本信息。
本实施例中,先采用文本检测模型对票据图像进行检测,确定存在文本信息的多个文本框,从而获得行文本图像在所述票据图像中的坐标信息,然后根据文本框的坐标信息裁剪票据图像中对应的行文本图像,采用文本识别模型对各个行文本图像进行文本识别以获得相应的文本内容,即获得相应的文本信息,完成了票据图像中订单数据相对应的两个模态的信息的提取,为本申请实现快速准确识别订单数据提供了有效的数据源。
请参阅图3,在以上任意实施例基础上深化的实施例中,所述步骤S1200、构造图结构数据,包括如下步骤:
步骤S1210、创建图结构数据的图结构,所述图结构包括节点和用于描述任意两个节点之间的连接信息的边;
可预先定义构造图结构数据所需的图结构,主要是定义其中的节点和边,所述的节点主要用于表示每个文本框的位置及其文本信息相对应的综合特征,所述的边主要用于表示任意两个文本框之间的相对距离特征。
一种实施例中,可先将所述的节点初始化为存储其相应的文本框的坐标信息,例如该文本框的四个触点的坐标;将所述的边初始化为存储任意两个文本框之间的相对距离信息,例如该两个文本框之间的纵向相对距离和横向相对距离。
步骤S1220、获取每个文本框相对应的坐标信息的特征向量及文本信息的特征向量对应存储为所述图结构中的一个节点中的特征信息,所述坐标信息包括所述文本框的四个角点的坐标;
对应所述图结构数据中的各个节点,将每个节点中存储的文本框的坐标信息和所述文本框内的文本信息进行向量化,然后对应更新该图结构数据中的节点。
具体示例而言,对于每个节点中其相应的文本框的坐标信息,可以将其直接转换为特征向量的形式而获得所述坐标信息的特征信息;对于每个节点中其相应的文本框内的文本信息,可采用预设的多语言词典将其转换为相应的嵌入向量作为特征信息,或者在该嵌入向量的基础上进一步借助文本特征提取模型对其提取深层语义信息,获得相应的深层语义特征作为所述文本信息的特征信息。然后,将每个节点对应获得的文本框的坐标信息的特征信息,及该文本框内的文本信息的特征信息作为该节点相对应的特征信息组合,存储于该节点中实现对该节点的更新。
步骤S1230、根据任意两个文本框之间的坐标信息计算该两个文本框的相对距离信息的特征向量,存储为该两个文本框相对应的节点之间的边的特征信息,所述相对距离信息包括所述两个文本框之间的纵向相对距离和横向相对距离。
对应所述图结构数据中的各个边,针对每个边相对应的两个节点,根据该两个节点相对应的两个文本框之间的坐标信息,先确定出两个坐标信息之间的纵向相对距离和横向相对距离两个数值,然后将其向量化处理为特征向量,存储于该两个节点的边的特征信息即可。
在确定每个边对应的两个节点之间的相对距离信息时,可先根据该两个节点各自的文本框的坐标信息,确定出彼此的中心点坐标,原理如下:
设每个文本框的四个角点的坐标表示为:(x0,y0),(x1,y1),(x2,y2),(x3,y3),则可按如下公式计算每个文本框的中心点坐标:
Figure BDA0003643111390000131
Figure BDA0003643111390000132
其中,xcenter为文本框的中心点的横坐标,ycenter为文本框的中心点的纵坐标,(xcenter,ycenter)即为文本框的中心点坐标。
确定出两个文本框各自的中心点坐标之后,不难理解,只需计算两者各自纵、横坐标的差值,即可获得相应的纵向相对距离和横向相对距离相对应的数值,并在此基础上向量化获得相应的边的特征信息。
通过上述过程,可以实现对所述图结构数据的构造,将票据图像中各个文本区域相对应的文本信息及其位置信息均转换为特征信息,按照预定义的图结构,存储于该图结构数据中,实现对所述票据图像中所包含的文字内容的多个模态信息的结构化有效表示。
请参阅图4,在以上任意实施例基础上具体化的实施例中,所述步骤S1220、获取每个文本框相对应的坐标信息的特征向量及文本信息的特征向量对应存储为所述图结构中的一个节点中的特征信息,包括如下步骤:
步骤S1221、将每个文本框相对应的坐标信息转换为特征向量;
对于每个文本框而言,其坐标信息中包含其四个角点的坐标,每个坐标包含横坐标和纵坐标两个数值,据此,可先按照一定的预设顺序排列所述四个角点的坐标,获得每个文本框的特征向量。一个实施例中,还可以对文本框特征向量进行归一化编码转换,获得新的特征向量。无论采用何种方式,只要将每个文本框的坐标信息转换为数值特征获得特征向量,该特征向量即可作为该文本框的坐标信息的特征信息。
步骤S1222、根据预设的多语言词典编码每个文本框相对应的文本信息的嵌入向量,采用预设的文本特征提取模型提取各个嵌入向量以获得各个文本框的文本信息的特征向量;
如前所述,为了实现对每个文本框中的文本信息的向量化,可采用预设的多语言词典对每个文本框内的文本信息进行编码,获取所述文本信息中的分词在所述多语言词典中的特征数值,按照各个分词在所述文本信息中的出现顺序,将所述文本信息的各个特征数值构造为特征向量,该特征向量理论上可以作为所述文本信息的特征信息。另一实施例中,可采用基于LSTM、Bi LSTM等实现的文本特征提取模型,对每个文本框的文本信息的嵌入向量进一步提取其深层语义信息,获得新的特征向量,作为所述文本信息的特征信息,以使该特征信息进一步表示所述文本信息的深层语义信息。当然,所述文本特征提取模型预先被训练于收敛状态。
步骤S1223、将每个文本框的坐标信息的特征向量及该文本框的文本信息的特征向量构造为特征信息,将该特征信息存储于所述图结构的单个节点中。
针对每个文本框,分别获得其坐标信息的特征向量和该文本框内的文本信息的特征向量之后,便可将两者组合为该文本框相对应的特征信息,将其存储于该文本框相对应的节点中,替换该节点原始存在的特征信息,完成对相应的节点的构造。
本实施例通过分步实现每个节点的特征信息的构造,在构造过程中对节点所对应的文本框的坐标信息及文本信息进行对应的向量化,获得特征信息,在节点中存储文本信息的特征信息的同时,也关联存储文本框的坐标信息,使各个节点的特征信息更为全面地表示票据图像中各个文本区域相对应的多模态信息,能够更为有效地指导图卷积神经网络的语义提取过程,有助于后续对各个文本信息实现精准的分类。
请参阅图5,在以上任意实施例基础上深化的实施例中,所述步骤S1300、采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,包括如下步骤:
步骤S1310、采用所述图卷积神经网络中的信息提取子网获取所述图结构数据中节点的更新信息,所述更新信息为所述节点的特征信息的第一高层语义信息叠加其第二高层语义信息的显著信息之后获得,所述显著信息为所述第二高层语义信息匹配所述图结构数据中边的特征信息为权重提取获得;
请参阅图6所示的本申请示例性的图卷积神经网络的原理框图,可知该图卷积神经网络包括信息提取子网、边更新子网以及节点更新子网。图卷积神经网络可在预设的次数范围内,循环迭代对所述图结构数据进行特征提取,每次迭代均借助信息提取子网从图结构数据中节点与边的特征信息中提取更新信息,然后,再经边更新子网和节点更新子网对所述图结构数据进行更新。
所述信息提取子网获取所述更新信息时,一种实施例中,如图7所示,可按照如下过程处理,包括如下步骤:
步骤S1311、编码所述图结构数据获得节点特征信息矩阵和边特征信息矩阵;
将所述图结构数据中的各个节点的特征信息构造为节点特征信息矩阵,其中每个节点的特征信息可作为该矩阵中的一个行向量。同理,将所述图结构数据中的边的特征信息也相应构造为边特征信息矩阵,由于边连接具有对称性,所述,根据边的连接信息构成而成的边特征信息矩阵为一对称矩阵。所述节点特征信息矩阵和边特征信息矩阵可作为信息提取子网的输入。
步骤S1312、采用信息提取子网中的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;
在所述信息提取子网中,设有第一全连接层,第一全连接层用于对所述图结构数据的节点特征信息矩阵进行线性映射,从而提取出其相应的第一高层语义信息。
步骤S1313、采用信息提取子网中的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;
在所述信息提取子网中,设有第二全连接层,第二全连接层用于对所述图结构数据的节点特征信息矩阵进行线性映射,从而提取出其相应的第二高层语义信息。
此处,第一全连接层与第二全连接层分为两路分别对所述的节点特征信息矩阵进行线性映射,分别匹配图卷积神经网络模型训练过程中习得的权重,因而,所获得的两个高层语义信息可各有用途。
步骤S1314、采用信息提取子网中的归一化层对所述边特征信息矩阵进行归一化,获得边特征语义信息;
在所述信息提取子网中,还提供一个基于Sigmoid函数构造的归一化层,用于对所述的边特征信息矩阵进行归一化处理,将其中的各个特征信息标准化为[0,1]的数值空间,从而获得相应的边特征语义信息,可作为用于从所述第二高层语义信息中提取显著信息的权重。
步骤S1315、在信息提取子网中将第二高层语义信息与所述边特征语义信息的乘积矩阵获得显著信息,与所述第一高层语义信息求和后激活输出,获得图结构数据中的节点的更新信息。
所述的边特征语义信息可以作为从所述的第二高层语义信息提取显著信息的权重,因此,可将第二高层语义信息与所述边特征语义信息相乘,获得对应的矩阵作为所述的显著信息,实现从第二高层语义信息中提取出所述图结构数据中节点的重要特征。
进一步,将所述第一高层语义信息与所述显著信息进行矩阵相加实现求和,再借助一个激活层对其进行激活输出,所获得的信息,即为所述图结构数据中的节点相对应的更新信息。
步骤S1320、采用所述图卷积神经网络中的边更新子网更新所述图结构数据中的边的特征信息,更新后的边的特征信息为更新前的边的特征信息的高层语义信息与节点的多路高层语义信息进行叠加所得;
应用所述边更新子网用于更新所述图结构数据中的边的特征信息时,一种实施例中,如图8所示,可按照如下过程处理,包括如下步骤:
步骤S1321、采用边更新子网的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;
在所述边更新子网中,设有第一全连接层,第一全连接层用于对所述图结构数据的节点特征信息矩阵进行线性映射,从而提取出其相应的第一高层语义信息。
步骤S1322、采用边更新子网的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;
在所述边更新子网中,设有第二全连接层,第二全连接层用于对所述图结构数据的节点特征信息矩阵进行线性映射,从而提取出其相应的第二高层语义信息。
步骤S1323、采用边更新子网的第三全连接层提取所述边特征信息矩阵的高层语义信息;
在所述边更新子网中,设有第三全连接层,第三全连接层用于对所述图结构数据的边特征信息矩阵进行线性映射,从而提取出其相应的高层语义信息,可称为第三高层语义信息。
步骤S1324、将所述边特征信息矩阵的高层语义信息与所述节点特征信息矩阵的各个高层语义信息进行求和后激活输出,作为所述图结构数据中的边的更新后的特征信息。
为了使图结构数据中的边的特征信息获得更为丰富的参考信息,可以将所第一高层语义信息、第二高层语义信息以及第三高层语义信息进行矩阵相加实现求和,然后对加和结果应用激活输出,其输出结果即可作为新的边的特征信息,从而实现对所述图结构数据的边的特征信息的更新。
根据以上过程,可以进一步灵活变通处理,例如,所述节点特征信息矩阵的高层语义信息可以不局限于采用两个全连接层获取,也可采用单个全连接层或三个以上的全连接层来获取。
此外,在将所有高层语义信息进行矩阵相加时,也可替换为对其进行均值池化来实施,对此,本领域技术人员可灵活处置,总之,可以实现为所述图结构数据中的边的特征信息综合由所述图结构数据中的节点的特征信息提供的参考信息。
步骤S1330、采用图卷积神经网络中的节点更新子网将所述节点的特征信息与其更新信息拼接后对图结构数据的节点的特征信息进行更新,在预设次数范围内继续迭代以上过程直至达到该预设次数。
在实现对所述图结构数据中的边的特征信息的更新之后,可进一步对所述图结构数据中的节点的特征信息进行更新。具体示例而言,采用节点更新子网中提供的拼接层,将所述节点的特征信息与其更新信息进行拼接,接近后的新的特征信息即为所述图结构数据中节点的特征信息。
通过单次迭代实现对所述图结构数据中的边、节点的特征信息的更新后,判断是否完成预设次数范围的多次迭代,如果尚未达到预设次数,可以继续从所述步骤S1310开始循环,继续对图结构数据进行迭代更新,直至达到预设次数即可结束。所述用于控制迭代的次数可以由本领域技术人员灵活设定,例如在3至10次之间任意取值。
根据以上实施例的揭示可知,本申请通过循环多次迭代,对所述图结构数据中节点和边的特征信息进行更新,每次迭代均将节点和边的特征信息的语义加深一层,不断深化图结构数据的节点和边的特征信息的语义,从而实现对图结构数据中的信息的精准表示,有助于使图卷积神经网络更新后的图结构数据更易被准确分类,且使训练后的图卷积神经网络具有更好的泛化能力和鲁棒性,实现单网络适用于为多语种的文本识别服务。
请参阅图9,在以上任意实施例基础上扩展的实施例中,所述步骤S1100、对票据图像进行文本识别的步骤之前,包括如下步骤:
步骤S1010、获取用户提交的原始图片;
在本申请的电商平台应用场景中,以更为具体的电商直播场景为例,直播间的观众用户也即消费者用户从第三方应用程序完成对直播间中的某一商品相对应的订单的支付业务后,获得电子支付凭证,将其截图存储。在所述电子支付凭证的截图中,如图10所示例,包含有支付日期、支付金额以及备注信息等三项构成本申请的订单数据的基本信息,以及其他本实施例可以不予关注的信息。
所述的观众用户,将所述的电子支付凭证的截图作为原始图片,提交至电商平台的后台,于是,服务器处便可获得该原始图片。
步骤S1020、根据预先训练至收敛状态的订单分类模型的入参对原始图片进行图像预处理,获得待检测图片;
该电子支付凭证是以位图的形式表示所述的订单数据的,因而,虽然人工可以识别,但对于计算机设备而言,需要通过技术进行判定是否包含所述的订单数据。本实施例中,预备有一个订单分类模型用于对原始图片是否包含订单数据进行判别。据此,需要适应所述的订单分类模型的入参所需,对所述的原始图片进行图像预处理,包括对其进行裁剪、缩放等,将其调整至特定的尺寸,例如224*224像素,成为待检测图片。
步骤S1030、采用所述订单分类模型对所述待检测图片进行分类判别,判别出该待检测图片及该原始图片是否包含订单描述信息,将包含有订单描述信息的所述原始图片确定为票据图像。
所述的订单分类模型基于神经网络基础模型实现,其通过对所述待检测图片进行表示学习,获得其图像特征信息,然后借助二分类器对所述图像特征信息进行判别,以确定出所述待检测图片也即所述原始图片是否包含期望的订单数据,对于包含订单数据的原始图片,将其确定为票据图像。
所述订单分类模型可以基于传统CNN、Resnet、MaskCNN等任意一种基础神经网络模型实现,并且事先将其训练至收敛状态。在训练所述订单分类模型时,以包含订单数据的图片为正样本,以不包含订单数据的图片为负样本,采用足量样本对其实施迭代训练至收敛状态即可。
本实施例中,借助订单分类模型对用户提交的原始图片进行自动化的智能判别,快速确定出用户所提交的原始图片是否包含订单数据,将包含订单数据的原始图片确定为本申请的票据图像。由此实现了对用户提交的原始图片的自动判别功能,在一些复杂场景中,例如直播间的观众用户通过其直播间的聊天界面直接发出其原始图片,原本容易被视为一般的表情图片,但由于存在所述订单分类模型的支持,便可从用户聊天记录中直接调用所述的原始图片进行智能化自动识别,一旦发现原始图片为待检测图像,即可据此完成后续步骤,省去人工处理过程。
请参阅图11,在以上任意实施例基础上扩展的实施例中,确定各个文本框的文本信息相对应的分类标签的步骤之后,包括如下步骤:
步骤S1500、根据所述分类标签将各个文本信息转换为订单数据;
所述票据图像中的各个文本框相对应的文本信息被分类网络标注了相应的分类标签后,各个文本信息便成为订单数据中相应的字段相对应的属性数据,由此,便可利用字段与属性数据之间的对应关系,将所述票据图像中的文本信息构造为结构化的订单数据。
步骤S1600、根据所述订单数据生成电商交易订单,将该电商交易订单推送至提交所述票据图像的终端设备以启动预设的电商业务流程。
对于电商平台的后台而言,获得结构化的订单数据后,便可利用这些订单数据继续其电商交易订单。
仍以图10相对应的场景示例,当用户完成离线支付,将其电子支付凭证上传到电商平台获得相应的结构化的订单数据后,即确定出其中的支付日期、支付金额以及备注信息,所述的备注信息一般用于标注相应的电商交易订单的订单号,据此,所述订单数据将包含三个数据条目,分别是以支付日期、支付金额、备注信息为键数据(可视为字段)的三个键值对,从这三个键值对的值数据中,便可获得相应的具体支付日期、具体支付金额,以及具体订单号。据此,便可对用户事先创建的电商下单记录标注支付标记,从而根据该电商下单记录生成有效的电商交易订单,然后将其推送至提交所述的原始图片的的终端设备供相应的消费者用户查阅,用户在查阅并确认后,后台便可据此启动预设的电商业务流程,例如将所述电商交易订单推送至物流发货接口进行计费等。
本实施例进一步将本申请从票据图像中获得的结构化的订单数据用于完善电商业务流程,使电商业务流程可以在所述的订单数据的协助下实现闭环,从而实现线下支付与线上交易的结合。
请参阅图12,适应本申请的目的之一而提供的一种票据信息提取装置,是对本申请的票据信息提取方法的功能化体现,该装置包括文本识别模块1100、图结构化模块1200、信息更新模块1300,以及信息分类模块1400。其中,所述文本识别模块1100,用于对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;所述图结构化模块1200,用于构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;所述信息更新模块1300,用于采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;所述信息分类模块1400,用于将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
在以上任意实施例基础上深化的实施例中,所述文本识别模块1100,包括:文本检测单元,用于调用预设的文本检测模型对所述票据图像进行检测,获得其中各个文本区域相对应的文本框的坐标信息;图像裁切单元,用于根据所述文本框的坐标信息从所述票据图像中截取出各个文本区域相对应的行文本图像;文本识别单元,用于将所述行文本图像输入预训练至收敛状态的文本识别模型中进行文本识别,获得相应的文本信息。
在以上任意实施例基础上深化的实施例中,所述图结构化模块1200,包括:结构创建单元,用于创建图结构数据的图结构,所述图结构包括节点和用于描述任意两个节点之间的连接信息的边;节点构造单元,用于获取每个文本框相对应的坐标信息的特征向量及文本信息的特征向量对应存储为所述图结构中的一个节点中的特征信息,所述坐标信息包括所述文本框的四个角点的坐标;边构造单元,用于根据任意两个文本框之间的坐标信息计算该两个文本框的相对距离信息的特征向量,存储为该两个文本框相对应的节点之间的边的特征信息,所述相对距离信息包括所述两个文本框之间的纵向相对距离和横向相对距离。
在以上任意实施例基础上具体化的实施例中,所述节点构造单元,包括:坐标转换子单元,用于将每个文本框相对应的坐标信息转换为特征向量;文本转换子单元,用于根据预设的多语言词典编码每个文本框相对应的文本信息的嵌入向量,采用预设的文本特征提取模型提取各个嵌入向量以获得各个文本框的文本信息的特征向量;特征构造子单元,用于将每个文本框的坐标信息的特征向量及该文本框的文本信息的特征向量构造为特征信息,将该特征信息存储于所述图结构的单个节点中。
在以上任意实施例基础上深化的实施例中,所述信息更新模块1300,包括:更新预备单元,用于采用所述图卷积神经网络中的信息提取子网获取所述图结构数据中节点的更新信息,所述更新信息为所述节点的特征信息的第一高层语义信息叠加其第二高层语义信息的显著信息之后获得,所述显著信息为所述第二高层语义信息匹配所述图结构数据中边的特征信息为权重提取获得;边更新单元,用于采用所述图卷积神经网络中的边更新子网更新所述图结构数据中的边的特征信息,更新后的边的特征信息为更新前的边的特征信息的高层语义信息与节点的多路高层语义信息进行叠加所得;节点更新单元,用于采用图卷积神经网络中的节点更新子网将所述节点的特征信息与其更新信息拼接后对图结构数据的节点的特征信息进行更新,在预设次数范围内继续迭代以上过程直至达到该预设次数。
在以上任意实施例基础上具体化的实施例中,所述更新预备单元,包括:矩阵编码子单元,用于编码所述图结构数据获得节点特征信息矩阵和边特征信息矩阵;第一提取子单元,用于采用信息提取子网中的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;第二提取子单元,用于采用信息提取子网中的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;归一化子单元,用于采用信息提取子网中的归一化层对所述边特征信息矩阵进行归一化,获得边特征语义信息;信息处理子单元,用于在信息提取子网中将第二高层语义信息与所述边特征语义信息的乘积矩阵获得显著信息,与所述第一高层语义信息求和后激活输出,获得图结构数据中的节点的更新信息。
在以上任意实施例基础上具体化的实施例中,所述边更新单元,包括:第一提取子单元,用于采用边更新子网的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;第二提取子单元,用于采用边更新子网的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;第三提取子单元,用于采用边更新子网的第三全连接层提取所述边特征信息矩阵的高层语义信息;更新执行子单元,用于将所述边特征信息矩阵的高层语义信息与所述节点特征信息矩阵的各个高层语义信息进行求和后激活输出,作为所述图结构数据中的边的更新后的特征信息。
在以上任意实施例基础上扩展的实施例中,先于所述文本识别模块1100,包括:原图获取模块,用于获取用户提交的原始图片;分类检测模块,用于根据预先训练至收敛状态的订单分类模型的入参对原始图片进行图像预处理,获得待检测图片;票据确定模块,用于采用所述订单分类模型对所述待检测图片进行分类判别,判别出该待检测图片及该原始图片是否包含订单描述信息,将包含有订单描述信息的所述原始图片确定为票据图像。
在以上任意实施例基础上扩展的实施例中,后于所述信息分类模块1400,包括:数据转换模块,用于根据所述分类标签将各个文本信息转换为订单数据;订单推送模块,用于根据所述订单数据生成电商交易订单,将该电商交易订单推送至提交所述票据图像的终端设备以启动预设的电商业务流程。
为解决上述技术问题,本申请实施例还提供计算机设备。如图13所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种票据信息提取方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的票据信息提取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图12中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的票据信息提取装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的票据信息提取方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够从票据图像中识别出以多国语种表达的订单数据,可供电商订单业务流程直接调用,提升了从图片中识别出订单数据从而据以执行电商订单业务流程的处理效率,便于实现线上与线下相结合的电商订单业务流程。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种票据信息提取方法,其特征在于,包括如下步骤:
对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;
构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;
采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;
将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
2.根据权利要求1所述的票据信息提取方法,其特征在于,对票据图像进行文本识别,包括如下步骤:
调用预设的文本检测模型对所述票据图像进行检测,获得其中各个文本区域相对应的文本框的坐标信息;
根据所述文本框的坐标信息从所述票据图像中截取出各个文本区域相对应的行文本图像;
将所述行文本图像输入预训练至收敛状态的文本识别模型中进行文本识别,获得相应的文本信息。
3.根据权利要求1所述的票据信息提取方法,其特征在于,构造图结构数据,包括如下步骤:
创建图结构数据的图结构,所述图结构包括节点和用于描述任意两个节点之间的连接信息的边;
获取每个文本框相对应的坐标信息的特征向量及文本信息的特征向量对应存储为所述图结构中的一个节点中的特征信息,所述坐标信息包括所述文本框的四个角点的坐标;
根据任意两个文本框之间的坐标信息计算该两个文本框的相对距离信息的特征向量,存储为该两个文本框相对应的节点之间的边的特征信息,所述相对距离信息包括所述两个文本框之间的纵向相对距离和横向相对距离。
4.根据权利要求3所述的票据信息提取方法,其特征在于,获取每个文本框相对应的坐标信息的特征向量及文本信息的特征向量对应存储为所述图结构中的一个节点中的特征信息,包括如下步骤:
将每个文本框相对应的坐标信息转换为特征向量;
根据预设的多语言词典编码每个文本框相对应的文本信息的嵌入向量,采用预设的文本特征提取模型提取各个嵌入向量以获得各个文本框的文本信息的特征向量;
将每个文本框的坐标信息的特征向量及该文本框的文本信息的特征向量构造为特征信息,将该特征信息存储于所述图结构的单个节点中。
5.根据权利要求1所述的票据信息提取方法,其特征在于,采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,包括如下步骤:
采用所述图卷积神经网络中的信息提取子网获取所述图结构数据中节点的更新信息,所述更新信息为所述节点的特征信息的第一高层语义信息叠加其第二高层语义信息的显著信息之后获得,所述显著信息为所述第二高层语义信息匹配所述图结构数据中边的特征信息为权重提取获得;
采用所述图卷积神经网络中的边更新子网更新所述图结构数据中的边的特征信息,更新后的边的特征信息为更新前的边的特征信息的高层语义信息与节点的多路高层语义信息进行叠加所得;
采用图卷积神经网络中的节点更新子网将所述节点的特征信息与其更新信息拼接后对图结构数据的节点的特征信息进行更新,在预设次数范围内继续迭代以上过程直至达到该预设次数。
6.根据权利要求5所述的票据信息提取方法,其特征在于,采用所述图卷积神经网络中的信息提取子网获取所述图结构数据中节点的更新信息,包括如下步骤:
编码所述图结构数据获得节点特征信息矩阵和边特征信息矩阵;
采用信息提取子网中的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;
采用信息提取子网中的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;
采用信息提取子网中的归一化层对所述边特征信息矩阵进行归一化,获得边特征语义信息;
在信息提取子网中将第二高层语义信息与所述边特征语义信息的乘积矩阵获得显著信息,与所述第一高层语义信息求和后激活输出,获得图结构数据中的节点的更新信息。
7.根据权利要求6所述的票据信息提取方法,其特征在于,采用所述图卷积神经网络中的边更新子网更新所述图结构数据中的边的特征信息,包括如下步骤:
采用边更新子网的第一全连接层提取所述节点特征信息矩阵的第一高层语义信息;
采用边更新子网的第二全连接层提取所述节点特征信息矩阵的第二高层语义信息;
采用边更新子网的第三全连接层提取所述边特征信息矩阵的高层语义信息;
将所述边特征信息矩阵的高层语义信息与所述节点特征信息矩阵的各个高层语义信息进行求和后激活输出,作为所述图结构数据中的边的更新后的特征信息。
8.一种票据信息提取装置,其特征在于,包括:
文本识别模块,用于对票据图像进行文本识别,获得其中各个文本区域的文本框的坐标信息及所述文本框内的文本信息;
图结构化模块,用于构造图结构数据,其中每个节点表示单个所述的文本框的坐标信息、文本信息的特征信息,且任意两个节点之间的边表示该两个节点的文本框之间的相对距离信息的特征信息;
信息更新模块,用于采用预设的图卷积神经网络对所述图结构数据中的节点和边的特征信息进行多次迭代更新,获得更新后的图结构数据;
信息分类模块,用于将更新后的图结构数据中的节点的特征信息输入分类网络进行分类,确定各个文本框的文本信息相对应的分类标签。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210523659.XA 2022-05-13 2022-05-13 票据信息提取方法及其装置、设备、介质、产品 Pending CN114782943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210523659.XA CN114782943A (zh) 2022-05-13 2022-05-13 票据信息提取方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210523659.XA CN114782943A (zh) 2022-05-13 2022-05-13 票据信息提取方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN114782943A true CN114782943A (zh) 2022-07-22

Family

ID=82437451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210523659.XA Pending CN114782943A (zh) 2022-05-13 2022-05-13 票据信息提取方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114782943A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640401A (zh) * 2022-12-07 2023-01-24 恒生电子股份有限公司 文本内容提取方法及装置
CN116030466A (zh) * 2023-03-23 2023-04-28 深圳思谋信息科技有限公司 图像文本信息识别与处理方法、装置及计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640401A (zh) * 2022-12-07 2023-01-24 恒生电子股份有限公司 文本内容提取方法及装置
CN115640401B (zh) * 2022-12-07 2023-04-07 恒生电子股份有限公司 文本内容提取方法及装置
CN116030466A (zh) * 2023-03-23 2023-04-28 深圳思谋信息科技有限公司 图像文本信息识别与处理方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN111291190B (zh) 一种编码器的训练方法、信息检测的方法以及相关装置
CN114782943A (zh) 票据信息提取方法及其装置、设备、介质、产品
CN111782921A (zh) 检索目标的方法和装置
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
US20230316379A1 (en) Deep learning based visual compatibility prediction for bundle recommendations
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN114638646A (zh) 广告投放推荐方法及其装置、设备、介质、产品
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN113850201A (zh) 跨模态商品分类方法及其装置、设备、介质、产品
CN114863440A (zh) 订单数据处理方法及其装置、设备、介质、产品
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN114186056A (zh) 商品标签标注方法及其装置、设备、介质、产品
WO2022161302A1 (zh) 动作识别方法、装置、设备、存储介质及计算机程序产品
CN113962224A (zh) 命名实体识别方法及其装置、设备、介质、产品
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113158656A (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
CN115099854A (zh) 广告文案创作方法及其装置、设备、介质、产品
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
CN117746078A (zh) 一种基于用户自定义类别的物体检测方法及系统
CN113326701A (zh) 嵌套实体识别方法、装置、计算机设备及存储介质
CN115205884A (zh) 票据信息提取方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination