CN112926471A - 业务单据影像内容识别方法及装置 - Google Patents
业务单据影像内容识别方法及装置 Download PDFInfo
- Publication number
- CN112926471A CN112926471A CN202110243207.1A CN202110243207A CN112926471A CN 112926471 A CN112926471 A CN 112926471A CN 202110243207 A CN202110243207 A CN 202110243207A CN 112926471 A CN112926471 A CN 112926471A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- business document
- character
- text
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 16
- 238000000605 extraction Methods 0.000 abstract description 14
- 230000008520 organization Effects 0.000 abstract description 6
- 238000012015 optical character recognition Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 20
- 230000002776 aggregation Effects 0.000 description 17
- 238000004220 aggregation Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种业务单据影像内容识别方法及装置,适用于物联网领域,方法包括:对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。本发明可广泛应用于基于文字识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在文字识别结果的基础上实现影像数据的结构化提取。能够在通用的不依赖具体文字识别实现的基础上,有效实现复杂影像数据的结构化提取,最终提升文字识别的自动化处理整体任务的准确率。
Description
技术领域
本发明涉及图像处理技术,具体的讲是一种业务单据影像内容识别方法及装置。
背景技术
在信用证等国际业务中,客户需提供发票、保单和提运单等单据供银行审核,这些跨国或地区的交易和结算,往往涉及不同公司不同板式的单据影像,如表格型、分栏型或开放式等。
现有技术中,OCR技术虽然能够有效识别影像内容,但还无法有效组织识别后的结果,因此,目前相关国际业务还是以业务人员手工处理为主。
发明内容
为了至少克服现有技术中业务单据影像识别的一缺陷,本发明提供了一种业务单据影像内容识别方法,包括:
对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
根据所述文字位置信息确定段落候选区域;
利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
本发明实施例中,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
根据所述的文字位置信息确定初始的段落候选区域;
根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
根据预设的关键字确定所述的识别文字中存在的关键字;
根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
获取预先存储的业务文本数据;
利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
同时,本发明还提供一种业务单据影像内容识别装置,包括:
文字识别模块,用于对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
段落生成模块,用于根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
匹配模块,用于根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
本发明实施例中,所述的段落生成模块包括:
段落候选区域确定单元,用于根据所述文字位置信息确定段落候选区域;
判别单元,用于利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
本发明实施例中,所述的匹配模块包括:
关键字查找单元,根据预设的关键字确定所述的识别文字中存在的关键字;
候选目标段落确定单元,根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
分类匹配单元,用于利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
同时,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法。
同时,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述方法的计算机程序。
本发明提供的业务单据影像内容识别方法及装置,对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。提出了一种基于路径分析和语义理解的影像识别结果迭代结构化提取装置,可以广泛应用于基于OCR识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在OCR识别结果的基础上实现影像数据的结构化提取。本发明是对现有OCR技术的有益补充,通过本方法,能够在通用的不依赖具体OCR实现的基础上,有效实现复杂影像数据的结构化提取,最终提升基于OCR技术的自动化处理整体任务的准确率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的业务单据影像内容识别方法的流程图;
图2为本发明实施例提供的影像识别结果结构化提取系统的框图;
图3为本发明实施例中的待识别影像的截图;
图4为本发明实施例中的框图;
图5为本发明实施例中的待识别影像的截图;
图6为本发明实施例中的待识别影像的截图;
图7为本发明实施例中的待识别影像的截图;
图8为本发明实施例中的框图;
图9为本发明实施例中的待识别影像的截图;
图10为本发明实施例中的流程图;
图11为本发明提供的业务单据影像内容识别装置的框图;
图12为本发明实施例中的框图;
图13为本发明实施例中的框图;
图14为本发明实施例提供的电子设备实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中,克服现有技术中对业务单据影像的识别中存在的缺陷,提高业务处理效率,实现交易数据的自动录入和智能审单,本发明在OCR识别结果的基础上,提供一种通用的影像内容结构化组织技术。
如图1所示,为本发明提供的业务单据影像内容识别方法,其包括:
步骤S10,对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
步骤S20,根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
步骤S30,根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
本发明提供的业务单据影像内容识别方法,通过分析识别文字区域间空间相对位置,与NLP(Natural Language Processing自然语言处理)语序判别完成段落构成路径分析,聚合有效文本区域形成段落。根据所述的识别文字、候选目标段落利用预先训练的文本分类模型,通过分析段落与目标键之间的相对位置关系,和文本分类的方式完成键值对的聚合,实现影像识别内容的结构化。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
根据所述文字位置信息确定段落候选区域;
利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
本发明实施例中,通过文本区域间相对位置关系分析和预设的训练过的语义连续性判别模型,识别并判断相连文本区域是否归属同一段落,将原本分散的识别结果聚合成一段段语义连续完整的段落。
通过上述处理,找到潜在的归属同一段落的文字区域,可降低后续的利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别时的数据量,进一步提供文字识别的效率。
本发明实施例中,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
根据所述的文字位置信息确定初始的段落候选区域;
根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
具体的,本发明实施例中,通过文字信息确定文字所在文本区域的相对位置关系,从而判断两个文本区域是否潜在的归属同一段落,找到潜在的归属同一段落的文字区域。
本发明具体实施例中,根据文字的字体大小信息、文字的间隔距离及文字高度信息筛选出潜在的属于同一段落的文本区域,具体的本实施例中,归属同一段落的两个文本区域满足以下一个或多个特征:
1.两个文本区域,其单个文字的大小应该基本相同。例如,下图中1、2归属同一段落,但是2、3不归属同一段落,因为2、3文字区域的其单个文字大小相差过大。
2.两个文本区域应在同一水平线上,且其横轴的距离应该在单个文字的宽度左右,一般不会超过两个文字宽度。例如下图中的1、2应该归属同一段落,而下右图中的3、4不归属同一段落,因为3、4间的间隔太大,大于其单个文本的宽。
3.两个文本区域间其纵轴间的距离应该在单个文字高左右,一般不会超过两个文字高度,且其区域的起始横轴坐标应该基本一致。例如,下图中1、2区域归属同一段落,而2、3区域则不应该归属同一段落,因为两个区域间纵向距离过大。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
根据预设的关键字确定所述的识别文字中存在的关键字;
根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
本发明实施例中,通过关键字查找的方式,找到目标键及其在影像中位置。
具体的,目标值(段落)应紧接目标键右方、下方或在其右下方区域内,且目标键与目标值的连线不会通过另一个文本段落区域。通过上述方式找到归属目标键的候选段落。从而实现利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
获取预先存储的业务文本数据;
利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
具体的,将潜在的构成同一段落的两段文本连起来,将连接后的文本通过预设的训练过的语义判别模型,判断这段文本是否是有效连续的文本,如果是有效的文本则将这两个文本组成新的文本区域。迭代上述文本区域聚合判别的过程,直到找不到新的满足条件可供聚合的文本,完成段落聚合。
具体的,本发明实施例中,通过收集足够多所处理领域的有效文本,训练一个语义连续性判断模型。
本实施例中预设的语义连续性判断模型即语义判别模型,包括:基于贝叶斯原理的统计语言模型或基于深度学习的语言模型,任何可以实现本实施例中涉及的语义判别模型的功能的语言模型均可,并不以本实施例为限。
语义判别模型输入一段文本,输出的则是这段文本是否是连续有效的表达。并且,本发明实施例中,该模型生成单元在系统初始时执行一次,在系统运行期间不断积累训练样本适时执行。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
使用足够多所处理业务领域的有效的键值对,训练一个文本分类模型,本实施例中,可选用Fasttext或Transformer、BERT等深度学习文本分类模型。
模型输入是一段文本,输出是这段文本归属那个键。初始时执行一次,期间不断积累训练样本适时执行。
将找到的候选段落依次通过文本分类模型,检查模型输出的值是否与目标键相一致,如一致则该段文本即为目标键的值。迭代上述过程,完成所有键值对的解析。
本发明提供的业务单据影像内容识别方法,可以广泛应用于基于OCR识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在OCR识别结果的基础上实现影像数据的结构化提取。本发明是对现有OCR技术的有益补充,通过本方法,能够在通用的不依赖具体OCR实现的基础上,有效实现复杂影像数据的结构化提取,最终提升基于OCR技术的自动化处理整体任务的准确率。OCR(Optical CharacterRecognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的技术。
下面结合具体的实施例对本发明技术方案作进一步详细描述:
本实施例提出一种基于路径分析和语义理解的影像识别结果迭代结构化提取装置,通过分析识别文字区域间空间相对位置,与NLP语序判别完成段落构成路径分析,聚合有效文本区域形成段落。进而通过分析段落与目标键之间的相对位置关系,和文本分类的方式完成键值对的聚合,实现影像识别内容的结构化。
如图2所示,是本发明实施例提供的影像识别结果结构化提取系统的框图,包括:OCR定位识别装置1、文本段落聚合装置2、目标键匹配装置3。
OCR定位识别装置1与文本段落聚合装置2相连;OCR定位识别装置1、文本段落聚合装置2均与目标键匹配装置3相连。
OCR定位识别装置1:用于对影像进行OCR识别,获得识别文字及文字在影像中的位置。
文本段落聚合装置2:通过文本区域间相对位置关系分析和语义连续性判别模型,识别并判断相连文本区域是否归属同一段落,将原本分散的识别结果聚合成一段语义连续完整的段落。
目标键匹配装置3:在识别结果中通过关键字查找的方式找到目标键的位置,然后通过目标键和候选段落的相对位置分析和文本分类方法,找到归属目标键的段落,即目标键的值。迭代上述过程,完成所有目标键值对的匹配,实现OCR识别结果的结构化。
本发明实施例提出的一种基于相对空间位置分析、NLP语义判别和文本分类的逐级迭代的影像识别结果结构化组织的方法,主要包括如下步骤:
步骤1):将待解析影像应用OCR定位识别装置,获得识别结果文本,及识别结果对应文字区域在影像的位置信息,本实施例中,矩形文字区域的影像的位置信息可通过左顶点像素坐标和该区域的长宽像素值来表示。
步骤2):将步骤1输出的包含位置信息的OCR识别结果通过文本段落聚合装置,完成段落聚合,将原本分散的文本区域组合成一个个语义连续的段落。
步骤3):将步骤1和步骤2输出结果通过目标键匹配装置,完成目标键值对的匹配,完成OCR识别结果的结构化。
下面将对照附图,对本发明的系统及方法进行详细说明。
OCR定位识别装置1,用于识别影像文字及文字在影像中的坐标位置,本实施例中,OCR识别引擎可选择Tesseract等。本实施例中待识别影像(局部)如图3所示,识别结果如下,其中包括识别到的文字,及对应文字区域在影像中的位置坐标。
图4是本发明实施例中文本段落聚合装置2的框图,如图4所示,文本段落聚合装置2包括:段落候选区域查找单元21、语义判别模型生成单元22和段落组成语义判别单元23,其中:
段落候选区域查找单元21:在OCR定位识别装置1输出的结果中,通过相对位置关系判断两个文本区域是否潜在的归属同一段落,找到潜在的归属同一段落的文字区域对。
本实施例中,归属同一段落的两个文本区域满足以下一个或多个特征:
特征一:两个文本区域,其单个文字的大小应该基本相同。例如,下图5中的方框1、方框2归属同一段落,但是方框2、方框3不归属同一段落,因为方框2、方框3文字区域的其单个文字大小相差过大。
特征二:两个文本区域应在同一水平线上,且其横轴的距离应该在单个文字的宽度左右,一般不会超过两个文字宽度。例如图6中的1、2应该归属同一段落,而图6中的方框3、方框4不归属同一段落,因为方框3、方框4间的间隔太大,大于其单个文本的宽。
特征三:两个文本区域间其纵轴间的距离应该在单个文字高左右,一般不会超过两个文字高度,且其区域的起始横轴坐标应该基本一致。例如,图7中方框1、方框2区域归属同一段落,而方框2、方框3区域则不应该归属同一段落,因为两个区域间纵向距离过大。
语义判别模型生成单元22:收集满足预设数量的所处理领域的有效文本,训练一个语义连续性判断模型,本实施例中,可选用基于贝叶斯原理的统计语言模型或基于深度学习的语言模型。语言模型输入是一段文本,输出是这段文本是否是连续有效的表达。该模型生成单元在系统初始时执行一次,在系统运行期间不断积累训练样本适时执行。
段落组成语义判别单元23:将段落候选区域查找单元21输出的潜在的构成同一段落的两段文本连起来,将连接后的文本通过语义判别模型,判断这段文本是否是有效连续的文本,如果是有效的文本则将这两个文本组成新的文本区域。
迭代上述文本区域聚合判别的过程,直到找不到新的满足条件可供聚合的文本,完成段落聚合。
图8是目标键匹配装置3的框图,如图8所示,目标键匹配装置3包括:候选目标段落查找单元31、文本分类模型生成单元32和目标键值分类匹配单元33,其中:
候选目标段落查找单元31:通过关键字查找的方式,在OCR定位识别装置1输出的结果中找到目标键及其在影像中位置。
本实施例中,目标值(段落)应紧接目标键右方、下方或在其右下方区域内,且目标键与目标值的连线不会通过另一个文本段落区域。通过上述方式找到归属目标键的候选段落。
示例如图9所示,对于“Notify Party”(区域3)目标键,文字区域4是其候选目标值,而文字区域2不是其候选目标值,因为区域2在“Notify Party”的上方;对于“Consignee”(区域1)目标键,文字区域2是其候选目标值,而文字区域4不是其候选目标值,因区域1与区域4的连线通过了另一文字区域2。
文本分类模型生成单元32:使用足够多所处理领域的有效的键值对,训练一个文本分类模型,可选用Fasttext或Transformer、BERT等深度学习文本分类模型。模型输入是一段文本,输出是这段文本归属那个键。该模型生成单元在系统初始时执行一次,在系统运行期间不断积累训练样本适时执行。
目标键值分类匹配单元33:将候选目标段落查找单元31找到的候选段落依次通过文本分类模型,检查模型输出的值是否与目标键相一致,如一致则该段文本即为目标键的值。迭代上述过程,完成所有键值对的解析。
如图10所示,本实施例提供的影像识别结果结构化提取系统进行影像内容识别的处理流程,其步骤如下:
步骤S101:应用系统初始化;
步骤S102:生成初始的语义判别模型;
步骤S103:生成初始的文本分类模型;
步骤S104:应用系统开始启动;
步骤S105:获取待处理的影像;
步骤S106:将影像进行OCR定位识别,获得识别内容和位置信息;
步骤S107:通过文本区域间的相对位置关系找到潜在的归属同一段落的候选文字区域;
步骤S108:将候选两块文本连接后,通过语义判别模型,判断连接后的文本是否连贯有效。如无效,再回到步骤S107查找新的候选区域。
步骤S109:如有效,则归属同一段落,并聚合为新的文本区域。迭代步骤S107至步骤S109,直到完成所有文本区域的聚合形成一段有效的段落;
步骤S110:通过关键字查找的方式,在识别结果中找到目标键及其在影像中位置;
步骤S111:通过键与值的相对位置关系,找到目标键的候选目标段落;
步骤S112:通过文本分类模型,判断候选目标段落是否归属目标键。如不是,则再回到步骤S111查找新的候选目标段落。
步骤S113:如是,则完成了目标键值对的匹配。然后扩充训练数据并迭代步骤S110至步骤S113,直到完成所有目标键值对的匹配。完成影像识别结果的结构化。
同时,本发明还提供一种业务单据影像内容识别装置,如图11所示,包括:
文字识别模块111,用于对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
段落生成模块112,用于根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
匹配模块113,用于根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
本发明实施例中,如图12所示,段落生成模块112包括:
段落候选区域确定单元1121,用于根据所述文字位置信息确定段落候选区域;
判别单元1122,用于利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
本发明实施例中,如图13所示,匹配模块113包括:
关键字查找单元1131,根据预设的关键字确定所述的识别文字中存在的关键字;
候选目标段落确定单元1132,根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
分类匹配单元,用于利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
对本领域技术人员而言,通过前述实施例的描述,可清楚获知本发明提供的业务单据影像内容识别装置的实现方式,在此不再赘述。
需要说明的是,本发明提供的业务单据影像内容识别方法及装置,可用于人工智能领域的业务单据影像内容识别,也可用于物联网领域的业务单据影像内容识别,也可用于金融领域的业务单据影像内容识别,也可用于除金融领域之外的任意领域,本公开业务单据影像内容识别的方法和装置的应用领域不做限定。
本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照前述方法及装置的实施例,其内容被合并于此,重复之处不再赘述。
图14为本发明实施例的电子设备600的系统构成的示意框图。如图14所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,业务单据影像内容识别功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:
对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
在另一个实施方式中,业务单据影像内容识别装置可以与中央处理器100分开配置,例如可以将业务单据影像内容识别装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现业务单据影像内容识别功能。
如图14所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图14中所示的所有部件;此外,电子设备600还可以包括图14中没有示出的部件,可以参考现有技术。
如图14所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行如上面实施例所述的业务单据影像内容识别方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行上面实施例所述的业务单据影像内容识别。
本发明实施例提出了一种基于路径分析和语义理解的影像识别结果迭代结构化提取装置,可以广泛应用于基于OCR识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在OCR识别结果的基础上实现影像数据的结构化提取。本发明是对现有OCR技术的有益补充,通过本方法,能够在通用的不依赖具体OCR实现的基础上,有效实现复杂影像数据的结构化提取,最终提升基于OCR技术的自动化处理整体任务的准确率。
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此所附权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种业务单据影像内容识别方法,其特征在于,所述的方法包括:
对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
2.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
根据所述文字位置信息确定段落候选区域;
利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
3.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
根据所述的文字位置信息确定初始的段落候选区域;
根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
4.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
根据预设的关键字确定所述的识别文字中存在的关键字;
根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
5.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
获取预先存储的业务文本数据;
利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
6.如权利要求4所述的业务单据影像内容识别方法,其特征在于,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
7.一种业务单据影像内容识别装置,其特征在于,所述的装置包括:
文字识别模块,用于对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
段落生成模块,用于根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
匹配模块,用于根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
8.如权利要求7所述的业务单据影像内容识别装置,其特征在于,所述的段落生成模块包括:
段落候选区域确定单元,用于根据所述文字位置信息确定段落候选区域;
判别单元,用于利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
9.如权利要求7所述的业务单据影像内容识别装置,其特征在于,所述的匹配模块包括:
关键字查找单元,根据预设的关键字确定所述的识别文字中存在的关键字;
候选目标段落确定单元,根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
分类匹配单元,用于利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243207.1A CN112926471A (zh) | 2021-03-05 | 2021-03-05 | 业务单据影像内容识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243207.1A CN112926471A (zh) | 2021-03-05 | 2021-03-05 | 业务单据影像内容识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926471A true CN112926471A (zh) | 2021-06-08 |
Family
ID=76173416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110243207.1A Pending CN112926471A (zh) | 2021-03-05 | 2021-03-05 | 业务单据影像内容识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926471A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486148A (zh) * | 2021-07-07 | 2021-10-08 | 中国建设银行股份有限公司 | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
CN114140224A (zh) * | 2021-12-03 | 2022-03-04 | 中国建设银行股份有限公司 | 一种信用证栏位内容分段方法、装置、介质、产品和设备 |
CN115116060A (zh) * | 2022-08-25 | 2022-09-27 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质和计算机程序产品 |
CN115828307A (zh) * | 2023-01-28 | 2023-03-21 | 广州佰锐网络科技有限公司 | 应用于ocr的文本识别方法及ai系统 |
CN117874307A (zh) * | 2024-03-12 | 2024-04-12 | 北京全路通信信号研究设计院集团有限公司 | 一种工程数据字段识别方法、装置、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160335493A1 (en) * | 2015-05-15 | 2016-11-17 | Jichuan Zheng | Method, apparatus, and non-transitory computer-readable storage medium for matching text to images |
CN109697291A (zh) * | 2018-12-29 | 2019-04-30 | 北京百度网讯科技有限公司 | 文本的语义段落识别方法和装置 |
CN109948518A (zh) * | 2019-03-18 | 2019-06-28 | 武汉汉王大数据技术有限公司 | 一种基于神经网络的pdf文档内容文本段落聚合的方法 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111126394A (zh) * | 2019-12-25 | 2020-05-08 | 上海肇观电子科技有限公司 | 文字识别方法、阅读辅助设备、电路和介质 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111476243A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 影像文字识别方法及装置 |
CN112149523A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质 |
WO2020258948A1 (zh) * | 2019-06-24 | 2020-12-30 | 北京大米科技有限公司 | 文本生成方法、装置、存储介质和电子设备 |
-
2021
- 2021-03-05 CN CN202110243207.1A patent/CN112926471A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160335493A1 (en) * | 2015-05-15 | 2016-11-17 | Jichuan Zheng | Method, apparatus, and non-transitory computer-readable storage medium for matching text to images |
CN109697291A (zh) * | 2018-12-29 | 2019-04-30 | 北京百度网讯科技有限公司 | 文本的语义段落识别方法和装置 |
CN109948518A (zh) * | 2019-03-18 | 2019-06-28 | 武汉汉王大数据技术有限公司 | 一种基于神经网络的pdf文档内容文本段落聚合的方法 |
WO2020258948A1 (zh) * | 2019-06-24 | 2020-12-30 | 北京大米科技有限公司 | 文本生成方法、装置、存储介质和电子设备 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111126394A (zh) * | 2019-12-25 | 2020-05-08 | 上海肇观电子科技有限公司 | 文字识别方法、阅读辅助设备、电路和介质 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
CN111368744A (zh) * | 2020-03-05 | 2020-07-03 | 中国工商银行股份有限公司 | 图片中非结构化表格识别方法及装置 |
CN111476243A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 影像文字识别方法及装置 |
CN112149523A (zh) * | 2020-09-04 | 2020-12-29 | 开普云信息科技股份有限公司 | 基于深度学习和并查集算法的ocr识别并抽取图片的方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
唐三立 等: "一种面向结构化文本图像识别的深度学习模型", 杭州电子科技大学学报(自然科学版), no. 2, 15 March 2020 (2020-03-15), pages 49 - 55 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486148A (zh) * | 2021-07-07 | 2021-10-08 | 中国建设银行股份有限公司 | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
CN114140224A (zh) * | 2021-12-03 | 2022-03-04 | 中国建设银行股份有限公司 | 一种信用证栏位内容分段方法、装置、介质、产品和设备 |
CN115116060A (zh) * | 2022-08-25 | 2022-09-27 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质和计算机程序产品 |
CN115116060B (zh) * | 2022-08-25 | 2023-01-24 | 深圳前海环融联易信息科技服务有限公司 | 键值文件处理方法、装置、设备、介质 |
CN115828307A (zh) * | 2023-01-28 | 2023-03-21 | 广州佰锐网络科技有限公司 | 应用于ocr的文本识别方法及ai系统 |
CN115828307B (zh) * | 2023-01-28 | 2023-05-23 | 广州佰锐网络科技有限公司 | 应用于ocr的文本识别方法及ai系统 |
CN117874307A (zh) * | 2024-03-12 | 2024-04-12 | 北京全路通信信号研究设计院集团有限公司 | 一种工程数据字段识别方法、装置、电子设备和存储介质 |
CN117874307B (zh) * | 2024-03-12 | 2024-06-04 | 北京全路通信信号研究设计院集团有限公司 | 一种工程数据字段识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926471A (zh) | 业务单据影像内容识别方法及装置 | |
CN111275546B (zh) | 金融客户欺诈风险识别方法及装置 | |
US20230401828A1 (en) | Method for training image recognition model, electronic device and storage medium | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CA3129608C (en) | Region proposal networks for automated bounding box detection and text segmentation | |
CN110147549A (zh) | 用于执行文本纠错的方法和系统 | |
CN110569502A (zh) | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 | |
CN110046648B (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN112434884A (zh) | 一种供应商分类画像的建立方法及装置 | |
CN111784053A (zh) | 交易风险检测方法、设备及可读存储介质 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN117520343A (zh) | 信息抽取的方法、服务器及存储介质 | |
CN111666408A (zh) | 重要条款筛选与展示的方法及装置 | |
CN114359928B (zh) | 一种电子发票识别方法、装置、计算机设备及存储介质 | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
CN113837157B (zh) | 题目类型识别方法、系统和存储介质 | |
CN115578736A (zh) | 证件信息提取方法、装置、存储介质及设备 | |
US20210312223A1 (en) | Automated determination of textual overlap between classes for machine learning | |
CN109614463B (zh) | 文本匹配处理方法及装置 | |
CN113436001A (zh) | 信用卡的推送方法、装置、设备、存储介质和程序产品 | |
CN113111734A (zh) | 一种水印分类模型训练方法及装置 | |
CN110879868A (zh) | 顾问方案生成方法、装置、系统、电子设备及介质 | |
CN111523318A (zh) | 一种汉语短语分析方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |