CN111914729A - 凭证关联方法、装置、计算机设备及存储介质 - Google Patents

凭证关联方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111914729A
CN111914729A CN202010737082.3A CN202010737082A CN111914729A CN 111914729 A CN111914729 A CN 111914729A CN 202010737082 A CN202010737082 A CN 202010737082A CN 111914729 A CN111914729 A CN 111914729A
Authority
CN
China
Prior art keywords
image
text
certificate
acquiring
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010737082.3A
Other languages
English (en)
Inventor
胡德清
丁诗璟
沈文俊
高明
余刚
刘维安
李金灵
欧阳明
赵琴
李亮
袁园
沈冰华
万聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202010737082.3A priority Critical patent/CN111914729A/zh
Publication of CN111914729A publication Critical patent/CN111914729A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明实施例公开了一种凭证关联方法、装置、计算机设备及存储介质。所述方法包括:获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。本发明实施例可以提高凭证图像识别准确率,减少凭证和流水关联的人工成本,提高凭证和流水关联的效率。

Description

凭证关联方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种凭证关联方法、装置、计算机设备及存储介质。
背景技术
交易过程中所产生的会计档案纸质凭证经过用户签字,确认后会进行统一的入库归档操作。归档过程中需将数字流水信息与纸质凭证关联上,此操作称之为勾对流水。
为会计凭证的分类、扫描和勾对过程存在等待时间,在银行等每日产生大量会计交易的场景中,为减少客户等待时间,因此需要将会计档案的勾对过程放在后台处理。提高客户体验,节省柜员整理凭证时间。
目前会计凭证的勾对过程,通过人工扫描凭证影像信息,之后通过人工查看会计凭证上的流水号、账号、金额等要素信息,与系统中的流水关联上。此步骤在前台处理会大大提高客户等待时间,在后台人工处理则会耗费大量人力。
发明内容
本发明实施例提供一种凭证关联方法、装置、计算机设备及存储介质,可以提高凭证图像识别准确率,减少凭证和流水关联的人工成本,提高凭证和流水关联的效率。
第一方面,本发明实施例提供了一种凭证关联方法,包括:
获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;
根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;
获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;
获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
第二方面,本发明实施例还提供了一种凭证关联装置,包括:
凭证图像识别模块,用于获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;
结构化数据生成模块,用于根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;
关联数据提取模块,用于获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;
凭证图像关联模块,用于获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的凭证关联方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的凭证关联方法。
本发明实施例通过对凭证图像进行图像识别,并通过将图像识别出的文本进行组合,生成结构化数据,并从结构化数据中提取与预先配置的关联信息匹配的目标数据,并查询与目标数据匹配的流水信息,将查询到的流水信息与凭证图像进行关联,解决了现有技术中需要人工流水勾对的人工成本高效率低的问题,可以降低流水勾对的人工成本,提高流水勾对的准确率和效率,减少前台用户的等待时间,提高会计凭证的处理效率。
附图说明
图1是本发明实施例一中的一种凭证关联方法的流程图;
图2是本发明实施例二中的一种凭证关联方法的流程图;
图3是本发明实施例三中的一种凭证关联方法的流程图;
图4是本发明实施例四中的一种凭证关联装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种凭证关联方法的流程图的示意图,本实施例可适用于将凭证与流水信息进行勾对的情况,该方法可以由本发明实施例提供的凭证关联装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。如图1所示,本实施例的方法具体包括:
S110,获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息。
凭证可以是指会计凭证,通常记录经济业务发生或者完成情况的书面证明,作为登记账簿的依据,以及会计核算专业资料,是记录和反映企事业单位经济业务发生情况的重要史料和证据,属于单位的重要经济档案,是检查企事业单位过去经济活动的重要依据,也是国家档案的重要组成部分。
可以对纸质会计凭证进行图像采集,获取凭证图像。图像采集方式可以是拍摄或扫描等。凭证图像中记录有会计业务的资料,通常作为后期的核算依据。
图像识别用于识别凭证图像中包括的文本以及文本的属性信息。文本可以是凭证图像中的字符。文本的属性信息用于标识文本。可选的,属性信息包括下述至少一项:位置信息、书写类型、字体和字号。
其中,位置信息用于描述文本在凭证图像中的位置,具体可以是坐标。具体的,在凭证图像中文本通常是具有一定面积的区域,可以将该区域的关键点作为文本在凭证图像中的坐标位置,例如,区域的关键点可以为矩形区域的左上顶点。
书写类型用于描述文本是打印体类型或书写体类型。字体可以是指在文本为打印体类型中的字体样式,例如,宋体、楷体或新罗马(Times New Roman)等。字号用于描述文本的字体尺寸。通常,属性信息至少包括位置信息,书写类型、字体和字号可以根据需要进行设定。
实际上,在会计凭证中,通常是配置设定数据格式的列表,用户在设定位置处以设定样式输入文本或者填写文本。从而,可以根据文本对应的样式和位置确定文本表示的含义。
示例性的,如表1所示:
表1
摘要 总账科目 明细科目 借方金额 贷方金额
支付运费 物资采购 甲材料 100 100
第一行为列名,第二行为用户输入的文本。通常,第一行的书写类型为打印体类型,更具体为宋体,第二行的书写类型为手写体类型。第一行的文本的字号相同,而第二行的字号几乎相同。文本“摘要”以及文本“支付运费”的位置信息为第一列,文本“借方金额”以及“100”的位置信息为第四列。
通过配置属性信息为包括位置信息、书写类型、字体和字号,并通过属性信息标识文本,从而可以根据凭证图像中文本的属性信息,对各文本进行区分,有效提取文本,并对文本进行划分。
S120,根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据。
按照文本匹配的属性信息,将文本进行分类,并根据分类结果生成结构化数据。具体的,是按照文本匹配的属性信息中的位置信息将文本进行分类,位置信息相同或者距离在设定范围内的文本组成目标文本,示例性的,如前例,表1中,摘、要两个文本均在第一例和第一行,且两个文本之间的距离很近,由此,可以组成目标文本“摘要”。针对目标文本,确定各目标文本的位置信息,并根据位置信息,将目标文本进行分类。示例性的,如前例,表1中,按照列进行分类,位置信息为第一列的目标文本包括摘要和支付运费,将摘要和支付运费作为一组。位置信息为第二列的目标文本包括总账科目和物资采购,将总账科目和物资采购作为一组。在分类结果中,在每一组内,按照统一的位置信息顺序进行排序生成结构化数据,例如,按照从第一行到第二行的顺序进行排列,生成的结构化数据为:摘要、支付运费;总账科目、物资采购。
可选的,所述结构化数据包括属性名和属性值。属性名和属性值以键值对形式存在,即属性名为键(key),属性值为值(value)。凭证图像中识别到的全部文本形成多组属性名和属性值,作为结构化数据。
示例性的,表1对应的结构化数据为{摘要,支付运费}和{总账科目,物资采购}。或者以如下形式进行显示:
摘要:支付运费
总账科目:物资采购
具体的,结构化数据的数据结构可以根据实际情况进行设定,对此,本发明实施例不作具体限制。
S130,获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据。
关联信息用于将凭证图像与流水信息关联。通常凭证图像识别出的信息较多,可以仅选择凭证图像中识别出的全部信息中的部分信息,即可查询出与凭证图像匹配的流水信息。从而,关联信息可以是凭证图像识别出的全部信息中的部分信息或者全部信息。关联信息可以通过用户进行配置。
与关联信息匹配的目标数据用于查询与凭证图像匹配的流水信息。目标数据为凭证图像中识别出的文本。
S140,获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
流水信息可以是指会计业务产生一笔交易所包含的流水号、账号、金额和户名等中的至少一项信息的统称。如果流水信息包括目标数据,则确定目标数据与流水信息匹配,从而确定该流水信息与凭证图像匹配,可以将流水信息和凭证图像关联。在流水信息录入时,是人工录入的,容易产生错录情况,由此,将流水信息和真实的凭证图像进行关联,可以确保流水信息的准确。
示例性的,结构化数据如下所示:
流水号:11323232
账号:31042420340320
金额:1.40
户名:张三
标题:储蓄存单
可以根据标题字段,从数据库中查询,标题字段的属性值为储蓄存单的流水信息,并将查询到的流水信息与凭证图像关联。
可选的,所述获取与所述目标数据匹配的流水信息,包括:在数据库中查询包括所述目标数据的流水信息,并确定为与所述目标数据匹配的流水信息。
其中,包括所述目标数据的流水信息,表明流水信息中的数据与目标数据相同,由此,流水信息与凭证图像一致,可以将流水信息与凭证图像关联。
此外,通常,凭证图像匹配的流水信息的数量为一条,如果包括目标数据的流水信息的数量为至少两条,可以重新配置关联信息,通常是增加关联信息的内容,并确定更新后的目标数据,查询包括更新后的目标数据的流水信息,直到包括目标数据的流水信息的数量为一条。
通过在数据库中查询包括目标数据的流水信息,作为与目标数据匹配的流水信息,可以准确查询出与凭证图像中文本内容一致的流水信息,提高凭证图像与流水信息关联的准确率。
本发明实施例通过对凭证图像进行图像识别,并通过将图像识别出的文本进行组合,生成结构化数据,并从结构化数据中提取与预先配置的关联信息匹配的目标数据,并查询与目标数据匹配的流水信息,将查询到的流水信息与凭证图像进行关联,解决了现有技术中需要人工流水勾对的人工成本高效率低的问题,可以降低流水勾对的人工成本,提高流水勾对的准确率和效率,减少前台用户的等待时间,提高会计凭证的处理效率。
实施例二
图2为本发明实施例二中的一种凭证关联方法的流程图,本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括:
S210,获取凭证图像。
本发明实施例未详尽的描述可以参考前述实施例。
S220,采用预先训练的图像识别模型对所述凭证图像进行图像识别,获取所述图像识别模型输出的至少两个文本和各所述文本匹配的属性信息。
图像识别模型为神经网络模型,图像识别模型用于从图像中识别出文本,以及文本的属性信息。
现有技术中,大型银行采用传统光学字符识别(Optical CharacterRecognition,OCR)方法,即通过定义每一类凭证的版面信息,识别版面上的要素后。但OCR方法通过人工画模板,画要素定位框,通过坐标确认会计凭证类型,通过像素匹配和传统算法识别印刷文字。OCR方法无法识别偏移定位框外的要素,无法识别手写体类型,且版面信息简单的情况下无法准确分类会计凭证。上述情形导致传统OCR识别模式目前准确率不超过30%。
而本发明实施例采用神经网络模型可以无需人工画模板,同时还可以识别手写体类型文本,极大提高了图像识别的准确率。
可选的,在采用预先训练的图像识别模型对所述凭证图像进行图像识别之前,还包括:获取样本集合,所述样本集合中图像样本包括文本;将所述样本集合输入至神经网络模型中,对所述神经网络模型进行训练,生成图像识别模型。
样本集合用于训练神经网络模型,生成图像识别模型。样本集合包括大量的图像样本。图像样本包括图像,或者包括图像和图像识别结果,其中,图像识别结果包括文本和文本的属性信息。
通过预先采用样本集合训练神经网络模型,生成图像识别模型,并通过图像识别模型识别凭证图像中的文本和文本的属性信息,提高图像识别准确率。
可选的,所述样本集合包括凭证图像和/或包括文本的通用图像。
通用图像可以是指非凭证图像的其他包括文本的图像,例如,可以是电影海报图像、书本封面图像或报纸图像等。
目前各类凭证的自动勾对要素有区别,例如交易类凭证需通过账号、金额和交易时间等字段进行勾对,而一般业务凭证需通过流水号字段进行自动勾对。而现有的OCR方法无法识别各类凭证,或者是需要大量前期人工针对每类凭证进行构造模板,才能实现OCR识别出多种类型的凭证图像。从而OCR方法无法通用识别出各类型凭证图像,导致凭证图像的图像识别准确率低,通用性差。
通过配置神经网络模型的训练样本包括文本的通用图像,可以提高训练完成的图像识别模型的通用识别准确率,提高针对每类凭证图像的文本识别准确率,从而提高流水信息的查询准确率
可选的,所述获取样本集合,包括:获取标注图像样本,所述标注图像样本包括图像、至少两个标注文本以及各所述标注文本匹配的属性信息,所述图像包括凭证图像和/或包括文本的通用图像;获取网络图像,所述网络图像包括文本;根据至少两个预设文本和各所述预设文本匹配的属性信息,生成标准图像,并将所述标准图像、各所述预设文本和各所述预设文本匹配的属性信息,确定为标准图像样本;根据所述标注图像样本、所述网络图像和所述标准图像样本,生成样本集合。
样本集合可以包括多种类型的图像样本。标注图像样本可以是指人工标注的图像样本。标注图像样本用于提高图像识别模型的准确率。可以获取任意图像,通过人工识别图像包括的文本,生成标注文本,并识别各文本的属性信息,生成标注文本的属性信息。其中,图像可以是凭证图像,或者是包括文本的非凭证的通用图像。
网络图像可以是指通过爬虫方法获取的大量的图像,可以增加样本集合的数据量,提高图像识别模型的泛化能力,降低图像识别模型的训练成本。通常网络图像是包括文本的任意图像。
标准图像样本可以是指按照设定规则自动生成的图像。示例性的,可以配置至少两个预设文本,以及预设文本匹配的属性信息,生成文本区域,并在文本区域中添加图像或者不添加图像,确定为标准图像。直接将标准图像,以及用于生成标准图像的预设文本,以及预设文本匹配的属性信息,作为标准图像样本。标准图像样本用于提高图像识别模型的准确率,同时降低图像识别模型训练的人工成本。
将标注图像样本、网络图像和标准图像样本,生成样本集合,可以快速生成模型的训练样本,降低训练样本的人工成本,兼顾提高图像识别模型的识别准确率。
其中,标注图像样本、网络图像和标准图像样本均包括文本,作为正样本,此外,还可以添加无文本的图像作为负样本至样本集合,可以减少将不是样本的内容识别成文本,从而提高图像识别模型的识别准确率。
目前有4000多种会计档案,现有方式是针对每一种类型凭证10万张进行人工智能图像标注,分类训练,要素识别训练模型。由此,训练得到的模型才能自动识别会计凭证上的要素信息,用于自动勾对操作。该过程需要大量的人力物力和财力。分类和定位要素的人工智能识别方法虽然可以精确反馈会计凭证要素信息,但是需要投入大量人力完成前期操作。
本发明实施例中,可以配置多种输入字体形成字库,并基于字库内容大量生成会计凭证图像,作为标准图像,生成标准图像样本,以及混杂少量真实凭证图像样本,生成样本集合,以对模型进行训练,无需耗费大量人力进行人工数据标注。
S230,根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据。
S240,获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据。
S250,获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
本发明实施例通过图像识别模型对凭证图像进行识别,可以快速准确识别出图像中的文本,同时将凭证图像中识别出的杂乱无序的文本进行分类和整合,生成结构化数据,提高文本的识别准确率,并根据结构化数据,筛选出与关联信息匹配的目标数据,并根据目标数据查询匹配的流水信息,可以准确确定与凭证图像匹配的流水信息,提高流水信息的查询准确率。
实施例三
图3为本发明实施例三中的一种凭证关联方法的流程图,本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括:
S310,获取凭证图像。
本发明实施例未详尽的描述可以参考前述实施例。
S320,采用预先训练的图像识别模型对所述凭证图像进行图像识别,获取所述图像识别模型输出的至少两个文本和各所述文本匹配的属性信息。
S330,将各所述文本以及各所述文本匹配的属性信息输入至预先训练的语言识别模型,获取所述语言识别模型输出的结构化数据。
语言识别模型用于将文本进行拼接组合,形成目标文本,同时对目标文本进行分类,形成结构化数据。可以通过对深度学习模型进行预先训练,生成语言识别模型。
S340,获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据。
S350,获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
本发明实施例通过采用语言识别模型将图像识别出的杂乱无序的文本,形成可操作的结构化数据,可以提高结构化数据的生成准确率,同时节省人力,提高会计凭证归档效率,从而大幅度减少客户等待时间。
实施例四
图4为本发明实施例四中的一种凭证关联装置的示意图。实施例四是实现本发明上述实施例提供的凭证关联方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
凭证图像识别模块410,用于获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;
结构化数据生成模块420,用于根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;
关联数据提取模块430,用于获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;
凭证图像关联模块440,用于获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
本发明实施例通过对凭证图像进行图像识别,并通过将图像识别出的文本进行组合,生成结构化数据,并从结构化数据中提取与预先配置的关联信息匹配的目标数据,并查询与目标数据匹配的流水信息,将查询到的流水信息与凭证图像进行关联,解决了现有技术中需要人工流水勾对的人工成本高效率低的问题,可以降低流水勾对的人工成本,提高流水勾对的准确率和效率,减少前台用户的等待时间,提高会计凭证的处理效率。
进一步的,所述凭证图像识别模块,包括:图像识别模型识别单元,用于采用预先训练的图像识别模型对所述凭证图像进行图像识别,获取所述图像识别模型输出的至少两个文本和各所述文本匹配的属性信息。
进一步的,所述凭证关联装置,还包括:训练样本集合获取模块,用于在采用预先训练的图像识别模型对所述凭证图像进行图像识别之前,获取样本集合,所述样本集合中图像样本包括文本;将所述样本集合输入至神经网络模型中,对所述神经网络模型进行训练,生成图像识别模型。
进一步的,所述样本集合包括凭证图像和/或包括文本的通用图像。
进一步的,所述训练样本集合获取模块,包括:图像样本获取单元,用于获取标注图像样本,所述标注图像样本包括图像、至少两个标注文本以及各所述标注文本匹配的属性信息,所述图像包括凭证图像和/或包括文本的通用图像;获取网络图像,所述网络图像包括文本;根据至少两个预设文本和各所述预设文本匹配的属性信息,生成标准图像,并将所述标准图像、各所述预设文本和各所述预设文本匹配的属性信息,确定为标准图像样本;根据所述标注图像样本、所述网络图像和所述标准图像样本,生成样本集合。
进一步的,所述属性信息包括位置信息、书写类型、字体和字号。
进一步的,所述结构化数据生成模块,包括:语言识别模型识别单元,用于将各所述文本以及各所述文本匹配的属性信息输入至预先训练的语言识别模型,获取所述语言识别模型输出的结构化数据。
进一步的,所述结构化数据包括属性名和属性值。
进一步的,所述凭证图像关联模块,包括:凭证流水关联单元,用于在数据库中查询包括所述目标数据的流水信息,并确定为与所述目标数据匹配的流水信息。
上述装置可执行本发明实施例所提供的凭证关联方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(PerIPheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的凭证关联方法。
实施例六
本发明实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的方法:
也即,该程序被处理器执行时实现:获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种凭证关联方法,其特征在于,包括:
获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;
根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;
获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;
获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
2.根据权利要求1所述的方法,其特征在于,所述对所述凭证图像进行图像识别,包括:
采用预先训练的图像识别模型对所述凭证图像进行图像识别,获取所述图像识别模型输出的至少两个文本和各所述文本匹配的属性信息。
3.根据权利要求2所述的方法,其特征在于,在采用预先训练的图像识别模型对所述凭证图像进行图像识别之前,还包括:
获取样本集合,所述样本集合中图像样本包括文本;
将所述样本集合输入至神经网络模型中,对所述神经网络模型进行训练,生成图像识别模型。
4.根据权利要求3所述的方法,其特征在于,所述样本集合包括凭证图像和/或包括文本的通用图像。
5.根据权利要求3所述的方法,其特征在于,所述获取样本集合,包括:
获取标注图像样本,所述标注图像样本包括图像、至少两个标注文本以及各所述标注文本匹配的属性信息,所述图像包括凭证图像和/或包括文本的通用图像;
获取网络图像,所述网络图像包括文本;
根据至少两个预设文本和各所述预设文本匹配的属性信息,生成标准图像,并将所述标准图像、各所述预设文本和各所述预设文本匹配的属性信息,确定为标准图像样本;
根据所述标注图像样本、所述网络图像和所述标准图像样本,生成样本集合。
6.根据权利要求1所述的方法,其特征在于,所述属性信息包括位置信息、书写类型、字体和字号。
7.根据权利要求1所述的方法,其特征在于,所述根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据,包括:
将各所述文本以及各所述文本匹配的属性信息输入至预先训练的语言识别模型,获取所述语言识别模型输出的结构化数据。
8.根据权利要求1所述的方法,其特征在于,所述结构化数据包括属性名和属性值。
9.根据权利要求1所述的方法,其特征在于,所述获取与所述目标数据匹配的流水信息,包括:
在数据库中查询包括所述目标数据的流水信息,并确定为与所述目标数据匹配的流水信息。
10.一种凭证关联装置,其特征在于,包括:
凭证图像识别模块,用于获取凭证图像,并对所述凭证图像进行图像识别,获取所述凭证图像包括的至少两个文本和各所述文本匹配的属性信息;
结构化数据生成模块,用于根据各所述文本以及各所述文本匹配的属性信息,生成结构化数据;
关联数据提取模块,用于获取预先配置的关联信息,并从所述结构化数据中提取与所述关联信息匹配的目标数据;
凭证图像关联模块,用于获取与所述目标数据匹配的流水信息,并将所述凭证图像和所述流水信息进行关联。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的凭证关联方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的凭证关联方法。
CN202010737082.3A 2020-07-28 2020-07-28 凭证关联方法、装置、计算机设备及存储介质 Pending CN111914729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010737082.3A CN111914729A (zh) 2020-07-28 2020-07-28 凭证关联方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010737082.3A CN111914729A (zh) 2020-07-28 2020-07-28 凭证关联方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111914729A true CN111914729A (zh) 2020-11-10

Family

ID=73280881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010737082.3A Pending CN111914729A (zh) 2020-07-28 2020-07-28 凭证关联方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111914729A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298182A (zh) * 2021-06-18 2021-08-24 中国农业银行股份有限公司 基于凭证影像的预警方法、装置及设备
CN113313095A (zh) * 2021-07-30 2021-08-27 太平金融科技服务(上海)有限公司深圳分公司 用户信息匹配方法、装置、计算机设备和存储介质
CN113590857A (zh) * 2021-08-10 2021-11-02 北京有竹居网络技术有限公司 键值匹配方法、装置、可读介质及电子设备
CN113946648A (zh) * 2021-12-22 2022-01-18 北京德风新征程科技有限公司 结构化信息生成方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324150A (zh) * 2011-06-01 2012-01-18 中国工商银行股份有限公司 一种金融业务凭证影像数据生成装置及系统
CN108198068A (zh) * 2017-12-11 2018-06-22 西安优卓软件有限公司 一种凭证流水勾稽影像管理方法及管理平台
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110544161A (zh) * 2019-08-09 2019-12-06 北京市天元网络技术股份有限公司 基于票据数据自动提取的财务费用稽核方法以及装置
CN111079681A (zh) * 2019-12-24 2020-04-28 福建亿榕信息技术有限公司 一种会计原始凭证与会计电子档案关联的方法和装置
CN111144210A (zh) * 2019-11-26 2020-05-12 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备
CN111178881A (zh) * 2019-12-13 2020-05-19 远光软件股份有限公司 关联财务凭证和银行回单的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324150A (zh) * 2011-06-01 2012-01-18 中国工商银行股份有限公司 一种金融业务凭证影像数据生成装置及系统
CN108198068A (zh) * 2017-12-11 2018-06-22 西安优卓软件有限公司 一种凭证流水勾稽影像管理方法及管理平台
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110544161A (zh) * 2019-08-09 2019-12-06 北京市天元网络技术股份有限公司 基于票据数据自动提取的财务费用稽核方法以及装置
CN111144210A (zh) * 2019-11-26 2020-05-12 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备
CN111178881A (zh) * 2019-12-13 2020-05-19 远光软件股份有限公司 关联财务凭证和银行回单的方法和装置
CN111079681A (zh) * 2019-12-24 2020-04-28 福建亿榕信息技术有限公司 一种会计原始凭证与会计电子档案关联的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298182A (zh) * 2021-06-18 2021-08-24 中国农业银行股份有限公司 基于凭证影像的预警方法、装置及设备
CN113313095A (zh) * 2021-07-30 2021-08-27 太平金融科技服务(上海)有限公司深圳分公司 用户信息匹配方法、装置、计算机设备和存储介质
CN113313095B (zh) * 2021-07-30 2022-01-25 太平金融科技服务(上海)有限公司深圳分公司 用户信息匹配方法、装置、计算机设备和存储介质
CN113590857A (zh) * 2021-08-10 2021-11-02 北京有竹居网络技术有限公司 键值匹配方法、装置、可读介质及电子设备
CN113946648A (zh) * 2021-12-22 2022-01-18 北京德风新征程科技有限公司 结构化信息生成方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN109887153B (zh) 一种财税处理方法和处理系统
US10013643B2 (en) Performing optical character recognition using spatial information of regions within a structured document
US10366123B1 (en) Template-free extraction of data from documents
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
RU2679209C2 (ru) Обработка электронных документов для распознавания инвойсов
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
CN111178345A (zh) 一种票据分析方法、分析装置、计算机设备和介质
US10108942B2 (en) Check data lift for online accounts
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US20210256097A1 (en) Determination of intermediate representations of discovered document structures
US10614125B1 (en) Modeling and extracting elements in semi-structured documents
CN111931771A (zh) 票据内容识别方法、装置、介质及电子设备
TWI716761B (zh) 智能會計帳務系統與會計憑證的辨識入帳方法
CN110956166A (zh) 票据标注方法及装置
US20200193525A1 (en) System and method for automatic verification of expense note
US10817656B2 (en) Methods and devices for enabling computers to automatically enter information into a unified database from heterogeneous documents
TWM575887U (zh) 智能會計帳務系統
KR102392644B1 (ko) 유사도 기반의 문서 분류 장치 및 방법
CN114519568A (zh) 审单方法、装置、电子设备和存储介质
WO2023047570A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム
US20230081511A1 (en) Systems and methods for improved payroll administration in a freelance workforce
US20220230235A1 (en) Financial management using augmented reality systems
US20230409644A1 (en) Systems and method for generating labelled datasets
CN115730074A (zh) 文件分类方法、装置、计算机设备和存储介质
CN117612182A (zh) 文档分类方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220920

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right