CN111126029B - 一种电子单据的生成方法、装置、计算机设备和存储介质 - Google Patents

一种电子单据的生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111126029B
CN111126029B CN201911420982.9A CN201911420982A CN111126029B CN 111126029 B CN111126029 B CN 111126029B CN 201911420982 A CN201911420982 A CN 201911420982A CN 111126029 B CN111126029 B CN 111126029B
Authority
CN
China
Prior art keywords
node
layer
text information
target
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911420982.9A
Other languages
English (en)
Other versions
CN111126029A (zh
Inventor
高宇明
田兴林
郭健
甄智
李科勇
郑捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hoolinks Technologies Corp ltd
Original Assignee
Guangzhou Hoolinks Technologies Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hoolinks Technologies Corp ltd filed Critical Guangzhou Hoolinks Technologies Corp ltd
Priority to CN201911420982.9A priority Critical patent/CN111126029B/zh
Publication of CN111126029A publication Critical patent/CN111126029A/zh
Application granted granted Critical
Publication of CN111126029B publication Critical patent/CN111126029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种电子单据的生成方法、装置、计算机设备和存储介质,该方法包括:接收单据文件;查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;查找与所述单据文件匹配的决策树模型;使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。自动化识别类目与目标信息之间的关系,并填写到单据模板中,从而生成电子单据,提高了生成电子单据的操作的简便性,减少耗时。

Description

一种电子单据的生成方法、装置、计算机设备和存储介质
技术领域
本发明实施例涉及自然语言处理的技术,尤其涉及一种电子单据的生成方法、装置、计算机设备和存储介质。
背景技术
在报关、交易展会、技术交流会议等场合,会有许多厂家在已有的单据上印制新的信息。
目前,为了实现无纸化办公,通过将纸质版的单据通过OCR(Optical CharacterRecognition,光学字符识别)识别文本,并录入其中所需的信息,转换为电子单据。
但是,这些单据的格式多种多样,在打印时信息也会产生偏移,录入的过程通常是用户手动浏览文本、筛选所需的信息,并将该信息复制至可编辑的文档中,录入信息的操作较为繁琐,耗时较长。
发明内容
本发明实施例提供一种电子单据的生成方法、装置、计算机设备和存储介质,以解决基于纸质版的单据生成电子单据的操作较为繁琐,耗时较长的问题。
第一方面,本发明实施例提供了一种电子单据的生成方法,包括:
接收单据文件;
查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
查找与所述单据文件匹配的决策树模型;
使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
可选地,所述查找与所述单据文件匹配的决策树模型,包括:
确定所述单据文件的维度,所述维度包括所述单据文件所属的企业与所述单据文件的类目;
查找对所述维度设置的决策树模型。
可选地,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息,包括:
确定作为本层节点的源节点,所述源节点为上一层中选定的节点,其中,本层初始为第一层;
查询在所述源节点的条件下,选定本层的节点的概率;
在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息;
判断是否具有下一层;
若是,则将下一层设置为本层,返回执行所述确定作为本层节点的源节点;
若否,则确定已完成提取归属于所述类目的目标信息。
可选地,所述在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息,包括:
对本层的节点按照所述概率进行降序排序;
在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息,当前节点初始为第一个节点;
若具有文本信息,则从所述目标文件中的所述候选区域提取文本信息,作为归属本层所表示类目的目标信息;
若不具有文本信息,则判断是否具有下一个节点;
若具有下一个节点,则将下一个节点设置为当前节点,返回执行所述在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息;
若不具有下一个节点,则将归属本层所表示类目的目标信息设置为空。
可选地,还包括:
接收纠正操作;
根据所述纠正操作,纠正归属某个类目的目标信息,返回执行所述使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
根据所述纠正操作,更新所述决策树模型。
可选地,所述根据所述纠正操作,纠正归属某个类目的目标信息,包括:
确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
在所述目标文件中提取位于所述纠正区域内的文本信息;
将所述文本信息设置为归属所述类目的目标信息。
可选地,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述根据所述纠正操作,更新所述决策树模型,包括:
确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
对于所述类目表示的层,若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠,则基于所述纠正区域更新所述节点表示的候选区域;
对于所述类目表示的层,若所述纠正区域与所述层中所有节点表示的候选区域不重叠,或者,若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠,则在所述层中新增节点,将所述纠正区域设置所述节点表示的候选区域。
可选地,所述基于所述纠正区域更新所述类目表示的候选区域,包括:
若所述纠正区域中的文本信息包含所述候选区域中的文本信息,则将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域;
或者,
若所述候选区域中的文本信息包含所述纠正区域中的文本信息,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
在所述候选区域中去除所述区域差异信息所处的区域,作为所述节点表示的候选区域;
或者,
若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
在所述候选区域中去除所述区域差异信息所处的区域,作为差异区域;
将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域。
可选地,还包括:
在所述目标文件中确第一目标坐标、第二目标坐标,其中,所述第一目标坐标为所述文本信息中最小的横坐标、所述第二目标坐标为所述文本信息中最小的纵坐标;
在所述目标文件中忽略横坐标小于所述第一目标坐标的区域、以及纵坐标小于所述第二目标坐标的区域。
第二方面,本发明实施例还提供了一种电子单据的生成装置,其特征在于,包括:
单据文件接收模块,用于接收单据文件;
单据模板查找模块,用于查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
光学字符识别模块,用于对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
决策树模型查找模块,用于查找与所述单据文件匹配的决策树模型;
目标信息识别模块,用于使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
目标信息写入模块,用于在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
可选地,所述决策树模型查找模块包括:
维度确定子模块,用于确定所述单据文件的维度,所述维度包括所述单据文件所属的企业与所述单据文件的类型;
维度查找子模块,用于查找对所述维度设置的决策树模型。
可选地,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述目标信息识别模块包括:
源节点确定子模块,用于确定作为本层节点的源节点,所述源节点为上一层中选定的节点,其中,本层初始为第一层;
概率查询子模块,用于查询在所述源节点的条件下,选定本层的节点的概率;
文本信息提取子模块,用于在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息;
下层判断子模块,用于判断是否具有下一层;若是,则调用本层设置子模块,若否,则调用完成确定子模块;
本层设置子模块,用于将下一层设置为本层,返回调用所述源节点确定子模块;
完成确定子模块,用于确定已完成提取归属于所述类目的目标信息。
可选地,所述文本信息提取子模块包括:
降序排序单元,用于对本层的节点按照所述概率进行降序排序;
区域判断单元,用于在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息,当前节点初始为第一个节点;
区域信息提取单元,用于若具有文本信息,则从所述目标文件中的所述候选区域提取文本信息,作为归属本层所表示类目的目标信息;
节点判断单元,用于若不具有文本信息,则判断是否具有下一个节点;
节点设置单元,用于若具有下一个节点,则将下一个节点设置为当前节点,返回调用所述区域判断单元;
空设置单元,用于若不具有下一个节点,则将归属本层所表示类目的目标信息设置为空。
可选地,还包括:
纠正操作接收模块,用于接收纠正操作;
目标信息纠正模块,用于根据所述纠正操作,纠正归属某个类目的目标信息,返回调用所述目标信息识别模块;
决策树模型更新模块,用于根据所述纠正操作,更新所述决策树模型。
可选地,所述目标信息纠正模块包括:
纠正指示确定子模块,用于确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
纠正文本提取子模块,用于在所述目标文件中提取位于所述纠正区域内的文本信息;
目标信息设置子模块,用于将所述文本信息设置为归属所述类目的目标信息。
可选地,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述决策树模型更新模块包括:
纠正信息确定子模块,用于确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
候选区域更新子模块,用于对于所述类目表示的层,若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠,则基于所述纠正区域更新所述节点表示的候选区域;
节点更新子模块,用于对于所述类目表示的层,若所述纠正区域与所述层中所有节点表示的候选区域不重叠,或者,若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠,则在所述层中新增节点,将所述纠正区域设置所述节点表示的候选区域。
可选地,所述候选区域更新子模块包括:
第一合并单元,用于若所述纠正区域中的文本信息包含所述候选区域中的文本信息,则将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域;
或者,
第一差异确定单元,用于若所述候选区域中的文本信息包含所述纠正区域中的文本信息,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
第一去除单元,用于在所述候选区域中去除所述区域差异信息所处的区域,作为所述节点表示的候选区域;
或者,
第二差异确定单元,用于若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
第二去除单元,用于在所述候选区域中去除所述区域差异信息所处的区域,作为差异区域;
第二合并单元,用于将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域。
可选地,还包括:
目标坐标确定模块,用于在所述目标文件中确第一目标坐标、第二目标坐标,其中,所述第一目标坐标为所述文本信息中最小的横坐标、所述第二目标坐标为所述文本信息中最小的纵坐标;
区域忽略模块,用于在所述目标文件中忽略横坐标小于所述第一目标坐标的区域、以及纵坐标小于所述第二目标坐标的区域。
第三方面,本发明实施例还提供了一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的电子单据的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如第一方面中任一所述的电子单据的生成方法。
在本实施例中,接收单据文件,查找与单据文件匹配的单据模板,单据模板具有多个关联的类目与栏目,对单据文件进行光学字符识别,获得目标文件,目标文件中具有文本信息,查找与单据文件匹配的决策树模型,使用决策树模型,根据所述信息间在目标文件中的位置关系、从文本信息中确定归属于类目的目标信息,将目标信息写入类目关联的栏目中,以生成电子单据,基于单据文件中信息之间的位置相对固定的特性,通过决策树模型依赖文本信息之间的位置关系识别类目下的目标信息,可保证类目与目标信息之间关系的准确性,并且,自动化识别类目与目标信息之间的关系,并填写到单据模板中,从而生成电子单据,大大减少用户手动浏览文本、筛选所需的信息并将该信息复制至电子单据的操作,从而提高了生成电子单据的操作的简便性,减少耗时。
附图说明
图1为本发明实施例一提供的一种电子单据的生成方法的流程图;
图2A至图2E为本发明实施例一提供的一种识别目标信息的示例图;
图3是本发明实施例二提供的一种电子单据的生成方法的流程图;
图4A至图4C为本发明实施例二提供的一种更新候选区域的示例图;
图5为本发明实施例三提供的一种电子单据的生成装置的结构示意图;
图6为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种电子单据的生成方法的流程图,本实施例可适用于根据决策树模型自动甄别指定类目的目标信息,并自动填写到电子单据中的情况,该方法可以由电子单据的生成装置来执行,该电子单据的生成装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、移动终端(如手机、平板电脑等)、可穿戴设备(如智能手表等),等等,该方法具体包括如下步骤:
S101、接收单据文件。
在本实施例中,可以在报关、交易展会、技术交流会议等场合,收集厂家纸质版的单据,如报关单、发票、购物小票等,通过扫描、拍照等方式,生成单据文件。
其中,该单据文件为不可编辑文本信息的文件,一般为图像数据,当然,该图像数据也可以写入其他格式的文件中,如PDF(Portable Document Format,便携式文档格式)文件、PPT(PowerPoint,演示文稿)文件、word(一个文字处理器应用程序)文件,等等。
S102、查找与所述单据文件匹配的单据模板。
在具体实现中个,用户上传单据文件时,可选择该单据文件的类型,如报关单、发票等,则可以查找预先为该类型设置的单据模板,该单据模板中具有固定的信息,以及,预留有可填写信息的栏目。
其中,单据模板具有多个关联的类目与栏目,该类目属于固定的信息,为字段名,该栏目用于填写该字段名对应的字段值。
需要说明的是,针对不同的业务,类目有所不同,例如,对于报关单,该类目包括运输方式、运输工具名称、航次号、提运单号,等等。
S103、对所述单据文件进行光学字符识别,获得目标文件。
在本实施例中,对单据文件进行OCR处理,获得目标文件,其中,目标文件中具有可编辑的文本信息,该文本信息在单据文件中的位置与在目标文件中的位置是对应的。
其中,OCR是检查字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机可读文本的过程,通常包括如下处理:
图像预处理:主要包括图像二值化,噪声去除,倾斜较正等算法。
版面分析:将文档图片分段落,分行的算法就叫版面分析算法。
字符切割:字符切割算法主要处理因字符粘连、断笔造成字符难以简单切割的问题。
字符特征提取:对字符图像提取多维的特征用于后面的特征匹配模式识别算法。
字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符的算法。
版面恢复:识别原文档的排版,按原排版格式将识别结果输出到word或PDF等格式文档,叫做版面恢复算法。
后处理校正:根据特定的语言上下文的关系,对识别结果进行较正的算法。
在本发明的一个实施例中,在S103之后,可进行预处理,以提高识别归属该类目的目标信息的精确度。
在具体实现中,可在目标文件中确第一目标坐标、第二目标坐标。
其中,第一目标坐标为所述文本信息中最小的横坐标、第二目标坐标为所述文本信息中最小的纵坐标。
在目标文件中忽略横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域。
在本实施例中,将纸质版的文件转换为单据文件时,可能存在偏移,为了保持文本信息之间相对位置的准确性,可以忽略横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域。
所谓忽略,可以指裁去横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域,或者,在保留横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域的情况下,以第一目标坐标、第二目标坐标作为原点建立坐标系,本实施例中所指的区域(如候选区域、纠正区域等)的位置均建立在该坐标系上,等等,本实施例对此不加以限制。
例如,对一个报关单进行扫描,获得如图2A所示的图像数据(单据文件),如图2B所示,对该图像数据进行OCR处理,获得可编辑的目标文件,在目标文件的上方、左侧存在空白的区域,此时,可以裁去位于线段201左侧的区域,以及,裁去位于线段202上方的区域,或者,以点O作为原点建立坐标系。
S104、查找与所述单据文件匹配的决策树模型。
在本实施例中,可以预先设置多个决策树模型(Decision Tree),决策树模型是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
在具体实现中,可以筛选出指定的维度,在该维度下,单据文件中的信息的位置关系较为固定,例如,单据文件所属的企业、单据文件的类型(如报关单、发货单等),等等,因此,可以针对该维度设置决策树模型。
此时,可确定单据文件的维度,查找对维度设置的决策树模型。
当然,除了单据文件所属的企业、单据文件的类型之外,还可以设置其他维度,如时间,等等,本实施例对此不加以限制。
S105、使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息。
在具体实现中,通过决策树模型统计文本信息之间的相对位置关系的概率,从文本信息中确定归属于指定类目的目标信息。
在本发明的一个实施例中,决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域。
例如,针对如图2B所示的目标文件,则可以设置如图2C所示的决策树模型,在图2C所示的决策树模型中显示前面三层,第一层表示的类目为“运输工具名称”、第二层表示的类目为“航次号”、第三层表示的类目为“提运单号”,在第一层中具有2个节点,分别为A1、A2,如图2D所示,A1表示候选区域203、A2表示候选区域204,在第一层中具有3个节点,分别为B1、B2、B3,如图2E所示,B1表示候选区域205、B2表示候选区域206、B3表示候选区域207,在第一层中具有4个节点,分别为C1、C2、C3、C4。
在本实施例中,S104具体可以包括如下步骤:
S1051、确定作为本层节点的源节点。
源节点为上一层中选定的节点,所谓选定,是指选择该节点所表示候选区域中的文本信息,作为归属上一层所表示类目的目标信息。
需要说明的是,在遍历决策树模型时,本层初始为第一层,后续依次递增。
此外,当遍历第一层时,即本层为第一层,源节点为空。
S1052、查询在所述源节点的条件下,选定本层的节点的概率。
在选定上层不同节点作为源节点时,源节点与本层的节点之间的位置关系发生变化,因此,选定本层的节点的概率也有所不同。
需要说明的是,当遍历第一层时,即本层为第一层,由于源节点固定为空,则选定第一层的节点的概率是固定的。
例如,对于如图2C所示的决策树模型,对于第一层,选定A1的概率为0.4、选定A2的概率为0.6,对于第二层,在选定A1的条件下,选定B1的概率为0.6、选定B2的概率为0.3、选定B3的概率为0.1,在选定A2的条件下,选定B1的概率为0.2、选定B2的概率为0.3、选定B3的概率为0.5。
在具体实现中,可以统计在先在选定源节点的条件下,选定本次各个节点的频次,计算该频次之和,作为总频次,对某个节点,计算该节点的频次与总频次之间的比值,作为选定该节点的概率。
需要说明的是,统计频次的选定,为有效的选定,即用户确认本实施例中选定的节点正确,或者,用户对本实施例中选定的节点进行纠正。
S1053、在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息。
在选定源节点的条件下,可以按照概率从本层的节点中选择有效的节点,从该有效的节点所表示的候选区域中提取文本信息,作为归属本层所表示类目的目标信息,从而构建key-value(键值对),即类目为key,目标信息为value。
一般情况下,概率与选定为有效的节点的优先级正相关,即概率越大,越优先选定为有效的节点。
此外,所谓有效,指的是该节点所表示的候选区域具有文本信息,不为空。
例如,对于如图2C所示的决策树模型,在遍历第一层时,选定A1,在如图2D所示的目标文件中,从A1表示的候选区域203中提取“柏福228”,与第一层表示的“运输工具名称”构建键值对“运输工具名称:柏福228”,在选定A1的条件下,遍历第二层,选定B1,在如图2E所示的目标文件中,从B1表示的候选区域205中提取“520201712240”,与第二层表示的“航次号”构建键值对“航次号:520201712240”。
此外,假设第一层选择A2,在选定A2的条件下,遍历第二层,选定B3,由于在如图2E所示的目标文件中,B3表示的候选区域207为空,为无效的节点,此时,继续选定B2,即在如图2E所示的目标文件中,从B2表示的候选区域206中提取“目的港”,与第二层表示的“航次号”构建键值对“航次号:目的港”。
在具体实现中,可以对本层的节点按照概率进行降序排序,即概率越大,排序越前,反之,概率越小,排序越后。
此时,可按照排序遍历本层的节点,在目标文件中、判断当前节点所表示的候选区域是否具有文本信息,其中,当前节点初始为第一个节点,后续依次递增。
若具有文本信息,则从目标文件中的候选区域提取文本信息,作为归属本层所表示类目的目标信息。
若不具有文本信息,则判断是否具有下一个节点。
若具有下一个节点,则将下一个节点设置为当前节点,返回执行在目标文件中、判断当前节点所表示的候选区域是否具有文本信息的操作。
若不具有下一个节点,则将归属本层所表示类目的目标信息设置为空。
S1054、判断是否具有下一层;若是,则执行S1055,若否,则执行S1056。
S1055、将下一层设置为本层,返回执行S1051。
S1056、确定已完成提取归属于所述类目的目标信息。
在遍历完本层的节点,选定归属本层所表示类目的目标信息之后,继续使用相同的方式遍历下一层节点,直至遍历完所有层。
S106、在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
在识别归属类目的目标信息之后,将该目标信息写入该类目关联的栏目中,则可以将单据模板变更为电子单据。
在本实施例中,接收单据文件,查找与单据文件匹配的单据模板,单据模板具有多个关联的类目与栏目,对单据文件进行光学字符识别,获得目标文件,目标文件中具有文本信息,查找与单据文件匹配的决策树模型,使用决策树模型,根据所述信息间在目标文件中的位置关系、从文本信息中确定归属于类目的目标信息,将目标信息写入类目关联的栏目中,以生成电子单据,基于单据文件中信息之间的位置相对固定的特性,通过决策树模型依赖文本信息之间的位置关系识别类目下的目标信息,可保证类目与目标信息之间关系的准确性,并且,自动化识别类目与目标信息之间的关系,并填写到单据模板中,从而生成电子单据,大大减少用户手动浏览文本、筛选所需的信息并将该信息复制至电子单据的操作,从而提高了生成电子单据的操作的简便性,减少耗时。
实施例二
图3为本发明实施例二提供的一种电子单据的生成方法的流程图,本实施例以前述实施例为基础,进一步增加纠正操作,该方法具体包括如下步骤:
S301、接收单据文件。
S302、查找与所述单据文件匹配的单据模板。
其中,单据模板具有多个关联的类目与栏目。
S303、对所述单据文件进行光学字符识别,获得目标文件。
其中,目标文件中具有文本信息。
S304、查找与所述单据文件匹配的决策树模型。
S305、使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息。
S306、在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
S307、接收纠正操作。
由于单据文件中各个文本信息的位置关系并不固定,因此,容易出现错误识别归属于某个类目的目标信息的情形,尤其是在决策树模型初期运用、数据积累稀疏的时段。
在识别归属于某个类目的目标信息错误时,用户可以触发操作对其进行纠正,该操作可以称之为纠正操作。
在一个示例中,用户可以确定待纠正的类目,删除归属该类目的目标信息,以及,在目标文件中选择一个区域,作为纠正区域,从而触发纠正操作,意图将该纠正区域中的文本信息设置为归属该类目的目标信息。
S308、根据所述纠正操作,纠正归属某个类目的目标信息,返回执行S305。
在接收到纠正操作之后,可以响应于该纠正操作,纠正归属某个类目的目标信息。
在具体实现中,可确定纠正操作指示的类目,以及,在目标文件中指示的纠正区域。
在目标文件中提取位于纠正区域内的文本信息,以及,将该文本信息设置为归属类目的目标信息。
在纠正归属某个类目的目标信息,相应地,需要重新选定归属剩余类目的的目标信息,并将纠正之后的目标信息写入到单据模板中相应的栏目。
进一步而言,决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域,在某一个层选定的节点出错时,后续层依赖选定该节点的条件下选定的节点也容易出错,此时,可将位于已纠正的层的下一层设置为本层,重新执行S1051-S1056,对后续的层自动进行纠错,并将纠正之后的目标信息写入到单据模板中相应的栏目。
例如,对于如图2C所示的决策树模型,针对第二层的“航次号”,选定了B3,针对第三层的“提运单号”,在选定B3的条件下,选定C1,用户针对第二层的“航次号”,从B3纠正为B1,此时,针对第三层的“提运单号”,在选定B1的条件下,重新选定B2。
S309、根据所述纠正操作,更新所述决策树模型。
在纠正归属某个类目的目标信息之后,相应更新决策树模型,从而提高决策树模型的精度。
在具体实现中,决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域。
此时,可确定纠正操作指示的类目,以及,在目标文件中指示的纠正区域。
对于类目表示的层,若纠正区域与层中一个节点表示的候选区域至少部分重叠,则基于纠正区域更新节点表示的候选区域。
在一种情况中,若纠正区域中的文本信息包含候选区域中的文本信息,即候选区域中的文本信息遗漏了一些正确的文本信息,则将纠正区域与候选区域进行合并操作,作为节点表示的候选区域。
进一步而言,合并操作之后的区域,多为不规则的图形,为了化简表述,在合并操作之后的区域的最小外接矩形不与其他候选区域重叠的情况下,可将合并操作之后的区域可以化简为该合并操作之后的区域的最小外接矩形。
当然,也可以直接将合并操作之后的区域作为候选区域,本实施例对此不加以限制。
例如,如图4A所示,在识别归属“航次号”的目标信息时,候选区域401中的文本信息为“0201712240”,遗漏了“52”,此时,用户针对“航次号”触发纠正操作,圈定纠正区域402,选定“520201712240”,此时,可合并候选区域401与纠正区域402。
在另一种情况中,若候选区域中的文本信息包含纠正区域中的文本信息,即候选区域中的文本信息多了一些无用的文本信息,则将候选区域中的文本信息减去纠正区域中的文本信息,获得差异信息。
在候选区域中去除区域差异信息所处的区域,作为节点表示的候选区域。
例如,如图4B所示,在识别归属“航次号”的目标信息时,候选区域401中的文本信息为“520201712240THREE(3)”,多了“THREE(3)”,此时,用户针对“航次号”触发纠正操作,圈定纠正区域402,选定“520201712240”,此时,可在候选区域401中去除“THREE(3)”所处的区域(即线段403右侧的区域)。
在又一种情况中,若候选区域中的文本信息与纠正区域中的文本信息部分相同,即候选区域中的文本信息既遗漏了一些正确的文本信息,又多了一些无用的文本信息,则将候选区域中的文本信息减去纠正区域中的文本信息,获得差异信息。
在候选区域中去除区域差异信息所处的区域,作为差异区域。
将纠正区域与候选区域进行合并操作,作为节点表示的候选区域。
例如,如图4C所示,在识别归属“航次号”的目标信息时,候选区域401中的文本信息为“0201712240THREE(3)”,遗漏了“52”并且多了“THREE(3)”,此时,用户针对“航次号”触发纠正操作,圈定纠正区域402,选定“520201712240”,此时,可在候选区域401中去除“THREE(3)”所处的区域(即线段403右侧的区域),合并候选区域401剩余的区域(线段403左侧的区域)与纠正区域402。
对于类目表示的层,若纠正区域与层中所有节点表示的候选区域不重叠,或者,若纠正区域与层中两个或两个以上节点表示的候选区域部分重叠,则在层中新增节点,将纠正区域设置节点表示的候选区域。
在本实施例中,接收纠正操作,根据纠正操作,纠正归属某个类目的目标信息,一方面,重新使用决策树模型,根据文本信息在目标文件中的位置关系、从文本信息中确定归属于指定类目的目标信息,自动纠正其他目标信息,减少用户纠正的操作频次,提高识别目标信息的效率,另一方面,根据纠正操作,更新决策树模型,通过不断进行地积累,优化决策树模型,从而提高识别目标信息的精确度,使之达到95%以上。
实施例三
图5为本发明实施例三提供的一种电子单据的生成装置的结构示意图,该装置具体可以包括如下模块:
单据文件接收模块501,用于接收单据文件;
单据模板查找模块502,用于查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
光学字符识别模块503,用于对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
决策树模型查找模块504,用于查找与所述单据文件匹配的决策树模型;
目标信息识别模块505,用于使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
目标信息写入模块506,用于在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
在本发明的一个实施例中,所述决策树模型查找模块504包括:
维度确定子模块,用于确定所述单据文件的维度,所述维度包括所述单据文件所属的企业与所述单据文件的类型;
维度查找子模块,用于查找对所述维度设置的决策树模型。
在本发明的一个实施例中,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述目标信息识别模块505包括:
源节点确定子模块,用于确定作为本层节点的源节点,所述源节点为上一层中选定的节点,其中,本层初始为第一层;
概率查询子模块,用于查询在所述源节点的条件下,选定本层的节点的概率;
文本信息提取子模块,用于在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息;
下层判断子模块,用于判断是否具有下一层;若是,则调用本层设置子模块,若否,则调用完成确定子模块;
本层设置子模块,用于将下一层设置为本层,返回调用所述源节点确定子模块;
完成确定子模块,用于确定已完成提取归属于所述类目的目标信息。
在本发明的一个实施例中,所述文本信息提取子模块包括:
降序排序单元,用于对本层的节点按照所述概率进行降序排序;
区域判断单元,用于在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息,当前节点初始为第一个节点;
区域信息提取单元,用于若具有文本信息,则从所述目标文件中的所述候选区域提取文本信息,作为归属本层所表示类目的目标信息;
节点判断单元,用于若不具有文本信息,则判断是否具有下一个节点;
节点设置单元,用于若具有下一个节点,则将下一个节点设置为当前节点,返回调用所述区域判断单元;
空设置单元,用于若不具有下一个节点,则将归属本层所表示类目的目标信息设置为空。
在本发明的一个实施例中,还包括:
纠正操作接收模块,用于接收纠正操作;
目标信息纠正模块,用于根据所述纠正操作,纠正归属某个类目的目标信息,返回调用所述目标信息识别模块505;
决策树模型更新模块,用于根据所述纠正操作,更新所述决策树模型。
在本发明的一个实施例中,所述目标信息纠正模块包括:
纠正指示确定子模块,用于确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
纠正文本提取子模块,用于在所述目标文件中提取位于所述纠正区域内的文本信息;
目标信息设置子模块,用于将所述文本信息设置为归属所述类目的目标信息。
在本发明的一个实施例中,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述决策树模型更新模块包括:
纠正信息确定子模块,用于确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
候选区域更新子模块,用于对于所述类目表示的层,若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠,则基于所述纠正区域更新所述节点表示的候选区域;
节点更新子模块,用于对于所述类目表示的层,若所述纠正区域与所述层中所有节点表示的候选区域不重叠,或者,若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠,则在所述层中新增节点,将所述纠正区域设置所述节点表示的候选区域。
在本发明实施例的一个示例中,所述候选区域更新子模块包括:
第一合并单元,用于若所述纠正区域中的文本信息包含所述候选区域中的文本信息,则将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域;
或者,
第一差异确定单元,用于若所述候选区域中的文本信息包含所述纠正区域中的文本信息,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
第一去除单元,用于在所述候选区域中去除所述区域差异信息所处的区域,作为所述节点表示的候选区域;
或者,
第二差异确定单元,用于若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
第二去除单元,用于在所述候选区域中去除所述区域差异信息所处的区域,作为差异区域;
第二合并单元,用于将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域。
在本发明的一个实施例中,还包括:
目标坐标确定模块,用于在所述目标文件中确第一目标坐标、第二目标坐标,其中,所述第一目标坐标为所述文本信息中最小的横坐标、所述第二目标坐标为所述文本信息中最小的纵坐标;
区域忽略模块,用于在所述目标文件中忽略横坐标小于所述第一目标坐标的区域、以及纵坐标小于所述第二目标坐标的区域。
本发明实施例所提供的电子单据的生成装置可执行本发明任意实施例所提供的电子单据的生成方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6为本发明实施例四提供的一种计算机设备的结构示意图。如图6所示,该计算机设备包括处理器600、存储器601、通信模块602、输入装置603和输出装置604;计算机设备中处理器600的数量可以是一个或多个,图6中以一个处理器600为例;计算机设备中的处理器600、存储器601、通信模块602、输入装置603和输出装置604可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的电子单据的生成方法对应的模块(例如,如图5所示的电子单据的生成装置中的单据文件接收模块501、单据模板查找模块502、光学字符识别模块503、决策树模型查找模块504、目标信息识别模块505和目标信息写入模块506)。处理器600通过运行存储在存储器601中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的电子单据的生成方法。
存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器601可进一步包括相对于处理器600远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块602,用于与显示屏建立连接,并实现与显示屏的数据交互。
输入装置603可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。
输出装置604可以包括扬声器等音频设备。
需要说明的是,输入装置603和输出装置604的具体组成可以根据实际情况设定。
处理器600通过运行存储在存储器601中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的电子白板的连接节点控制方法。
本实施例提供的计算机设备,可执行本发明任一实施例提供的电子单据的生成方法,具体相应的功能和有益效果。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种电子单据的生成方法,该方法包括:
接收单据文件;
查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
查找与所述单据文件匹配的决策树模型;
使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。
当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的电子单据的生成方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述电子单据的生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种电子单据的生成方法,其特征在于,包括:
接收单据文件;
查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
查找与所述单据文件匹配的决策树模型;
使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据;
其中,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息,包括:
确定作为本层节点的源节点,所述源节点为上一层中选定的节点,其中,本层初始为第一层;
查询在所述源节点的条件下,选定本层的节点的概率;
在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息;
判断是否具有下一层;
若是,则将下一层设置为本层,返回执行所述确定作为本层节点的源节点;
若否,则确定已完成提取归属于所述类目的目标信息。
2.根据权利要求1所述的方法,其特征在于,所述查找与所述单据文件匹配的决策树模型,包括:
确定所述单据文件的维度,所述维度包括所述单据文件所属的企业与所述单据文件的类目;
查找对所述维度设置的决策树模型。
3.根据权利要求1所述的方法,其特征在于,所述在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息,包括:
对本层的节点按照所述概率进行降序排序;
在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息,当前节点初始为第一个节点;
若具有文本信息,则从所述目标文件中的所述候选区域提取文本信息,作为归属本层所表示类目的目标信息;
若不具有文本信息,则判断是否具有下一个节点;
若具有下一个节点,则将下一个节点设置为当前节点,返回执行所述在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息;
若不具有下一个节点,则将归属本层所表示类目的目标信息设置为空。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
接收纠正操作;
根据所述纠正操作,纠正归属某个类目的目标信息,返回执行所述使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
根据所述纠正操作,更新所述决策树模型。
5.根据权利要求4所述的方法,其特征在于,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述根据所述纠正操作,更新所述决策树模型,包括:
确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;
对于所述类目表示的层,若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠,则基于所述纠正区域更新所述节点表示的候选区域;
对于所述类目表示的层,若所述纠正区域与所述层中所有节点表示的候选区域不重叠,或者,若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠,则在所述层中新增节点,将所述纠正区域设置为所述节点表示的候选区域。
6.根据权利要求5所述的方法,其特征在于,所述基于所述纠正区域更新所述节点表示的候选区域,包括:
若所述纠正区域中的文本信息包含所述候选区域中的文本信息,则将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域;
或者,
若所述候选区域中的文本信息包含所述纠正区域中的文本信息,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
在所述候选区域中去除所述差异信息所处的区域,作为所述节点表示的候选区域;
或者,
若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同,则将所述候选区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;
在所述候选区域中去除所述差异信息所处的区域,作为差异区域;
将所述纠正区域与所述候选区域进行合并操作,作为所述节点表示的候选区域。
7.一种电子单据的生成装置,其特征在于,包括:
单据文件接收模块,用于接收单据文件;
单据模板查找模块,用于查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
光学字符识别模块,用于对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
决策树模型查找模块,用于查找与所述单据文件匹配的决策树模型;
目标信息识别模块,用于使用所述决策树模型,根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于所述类目的目标信息;
目标信息写入模块,用于在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据;
其中,所述决策树模型中具有多个表示类目的层,每层中具有一个或多个节点,每个节点表示候选区域;
所述目标信息识别模块包括:
源节点确定子模块,用于确定作为本层节点的源节点,所述源节点为上一层中选定的节点,其中,本层初始为第一层;
概率查询子模块,用于查询在所述源节点的条件下,选定本层的节点的概率;
文本信息提取子模块,用于在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息,作为归属本层所表示类目的目标信息;
下层判断子模块,用于判断是否具有下一层;若是,则调用本层设置子模块,若否,则调用完成确定子模块;
本层设置子模块,用于将下一层设置为本层,返回调用所述源节点确定子模块;
完成确定子模块,用于确定已完成提取归属于所述类目的目标信息。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的电子单据的生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一所述的电子单据的生成方法。
CN201911420982.9A 2019-12-31 2019-12-31 一种电子单据的生成方法、装置、计算机设备和存储介质 Active CN111126029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911420982.9A CN111126029B (zh) 2019-12-31 2019-12-31 一种电子单据的生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911420982.9A CN111126029B (zh) 2019-12-31 2019-12-31 一种电子单据的生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111126029A CN111126029A (zh) 2020-05-08
CN111126029B true CN111126029B (zh) 2020-12-04

Family

ID=70507573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911420982.9A Active CN111126029B (zh) 2019-12-31 2019-12-31 一种电子单据的生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111126029B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914548A (zh) * 2020-07-29 2020-11-10 深圳市金蝶天燕云计算股份有限公司 一种单据智能填充方法、系统及相关设备
CN114495136A (zh) * 2022-04-14 2022-05-13 滨州市社会保险事业中心 财务数据存储方法、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307959A1 (en) * 2003-03-28 2014-10-16 Abbyy Development Llc Method and system of pre-analysis and automated classification of documents
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN109753964A (zh) * 2017-11-06 2019-05-14 株式会社日立制作所 计算机以及文件识别方法
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307959A1 (en) * 2003-03-28 2014-10-16 Abbyy Development Llc Method and system of pre-analysis and automated classification of documents
CN109753964A (zh) * 2017-11-06 2019-05-14 株式会社日立制作所 计算机以及文件识别方法
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Pattern Matrix and Decision Tree based Technique for Non-Intrusive Monitoring of Home Appliances;Kushan Ajay Choksi et al.;《2017 7th International Conference on Power Systems》;20171221;第824-829页 *
基于图像识别的移动端原始凭证电子化智能填单系统;鲁静 等;《计算机工程》;20170630;第43卷(第6期);第136-144页 *
基于票据自动识别的财务管理系统;李春亭 等;《上海电机学院学报》;20190831;第22卷(第4期);第227-232页 *

Also Published As

Publication number Publication date
CN111126029A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
US7305129B2 (en) Methods and apparatus for populating electronic forms from scanned documents
JP6590355B1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
US8693790B2 (en) Form template definition method and form template definition apparatus
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
CN111126029B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
EP2884425B1 (en) Method and system of extracting structured data from a document
JP2011150466A (ja) 文字列認識装置、文字列認識プログラムおよび文字列認識方法
CN111144373B (zh) 一种信息识别方法、装置、计算机设备和存储介质
CN111079709B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN112329548A (zh) 一种文档章节分割方法、装置及存储介质
CN113343740A (zh) 表格检测方法、装置、设备和存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN112631586A (zh) 一种应用开发方法、装置、电子设备和存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN116682130A (zh) 图签信息的提取方法、装置、设备及可读存储介质
CN114462603A (zh) 数据湖的知识图谱生成方法及装置
US9798711B2 (en) Method and system for generating a graphical organization of a page
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
JP4275973B2 (ja) 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法
CN113343658A (zh) 一种pdf文件信息抽取方法、装置以及计算机设备
CN111079708B (zh) 一种信息识别方法、装置、计算机设备和存储介质
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The invention relates to a generation method, device, computer equipment and storage medium of electronic documents

Effective date of registration: 20211227

Granted publication date: 20201204

Pledgee: China Co. truction Bank Corp Guangzhou Yuexiu branch

Pledgor: GUANGZHOU HOOLINKS TECHNOLOGIES Corp.,Ltd.

Registration number: Y2021980016363

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231007

Granted publication date: 20201204

Pledgee: China Co. truction Bank Corp Guangzhou Yuexiu branch

Pledgor: GUANGZHOU HOOLINKS TECHNOLOGIES Corp.,Ltd.

Registration number: Y2021980016363

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method, device, computer equipment, and storage medium for generating electronic documents

Effective date of registration: 20231013

Granted publication date: 20201204

Pledgee: CITIC Bank Co.,Ltd. Guangzhou Branch

Pledgor: GUANGZHOU HOOLINKS TECHNOLOGIES Corp.,Ltd.

Registration number: Y2023980061064