CN111191614B - 一种单据分类方法和装置 - Google Patents

一种单据分类方法和装置 Download PDF

Info

Publication number
CN111191614B
CN111191614B CN202010001110.5A CN202010001110A CN111191614B CN 111191614 B CN111191614 B CN 111191614B CN 202010001110 A CN202010001110 A CN 202010001110A CN 111191614 B CN111191614 B CN 111191614B
Authority
CN
China
Prior art keywords
bill
type
classification model
classification
highest score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010001110.5A
Other languages
English (en)
Other versions
CN111191614A (zh
Inventor
王国悦
任贺
雷鸣
李力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202010001110.5A priority Critical patent/CN111191614B/zh
Publication of CN111191614A publication Critical patent/CN111191614A/zh
Application granted granted Critical
Publication of CN111191614B publication Critical patent/CN111191614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种单据分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待识别的单据进行光学字符识别,得到单据内容识别结果;采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。该实施方式能够解决单据分类不准确的技术问题。

Description

一种单据分类方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种单据分类方法和装置。
背景技术
对于纸质单据,业务操作人员通过登记扫描将一笔业务所有的纸质单据的扫描成影像文件录入到系统中,同时对影像文件进行OCR(Optical Character Recognition,光学字符识别)识别,保存单据内容识别结果及单据种类识别结果,提供给后续审单时使用。
传统的审单全部由具备审单经验的专家人工线下完成,系统只是录入审核结果。现有的智能审单方式可以代替人工进行审单,但是对于单据内容识别结果特别是单据种类识别结果依赖很大,单据种类识别错误或者识别不出的业务将无法采用智能审单方式,只能继续采用人工审核方式进行审单。由于审单过程复杂,对人员素质要求高,审单人员的培养周期长,一般要三年以上,另外单据种类繁多,格式多样,导致占用人工成本很大。因此,提高单据分类的正确率,将尽可能多的业务纳入智能审单将会大幅度降低业务处理成本,提高生产率。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
通过单纯的OCR识别方式进行单据分类,会出现单据分类不准确或者无法分类的情况,对于单据分类不准确或者无法分类的业务,只能继续由人工线下完成审单,占用人工成本较大。
发明内容
有鉴于此,本发明实施例提供一种单据分类方法和装置,以解决单据分类不准确的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种单据分类方法,包括:
对待识别的单据进行光学字符识别,得到单据内容识别结果;
采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,采用规则分类模型计算所述单据内容识别结果的最高分值,包括:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。
可选地,分类词典包括正向词典和反向词典;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值,包括:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
可选地,采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
可选地,对所述各个样本单据进行预处理,得到各个训练文本,包括:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
另外,根据本发明实施例的另一个方面,提供了一种单据分类装置,包括:
识别模块,用于对待识别的单据进行光学字符识别,得到单据内容识别结果;
分类模块,用于采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,所述分类模块还用于:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,所述分类模块还用于:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。
可选地,分类词典包括正向词典和反向词典;
所述分类模块还用于:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
可选地,所述分类模块还用于:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
可选地,所述分类模块还用于:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用先对待识别的单据进行光学字符识别,得到单据内容识别结果,然后采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型的技术手段,所以克服了现有技术中单据分类不准确的技术问题。本发明实施例采用规则分类模型和/或统计机器学习分类模型对OCR返回的单据内容识别结果进行单据分类,提高了单据分类的正确率,而且单据分类的正确率可以持续优化提高,单据分类的正确率的提高能够让更多的业务纳入智能审单处理,降低人力成本,提高生产效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的单据分类方法的主要流程的示意图;
图2是根据本发明一个可参考实施例的单据分类方法的主要流程的示意图
图3是根据本发明实施例的单据的示意图;
图4是根据本发明另一个可参考实施例的单据分类方法的主要流程的示意图;
图5是根据本发明实施例的单据分类装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的单据分类方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述单据分类方法可以包括:
步骤101,对待识别的单据进行光学字符识别,得到单据内容识别结果。
在该步骤中,对待识别的单据进行OCR识别,得到html文本格式的单据内容识别结果。
步骤102,采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
在该步骤中,可以采用规则分类模型对步骤101中得到的单据内容识别结果进行分类,从而确定所述单据的类型;也可以采用统计机器学习分类模型,对步骤101中得到的单据内容识别结果进行分类,从而确定所述单据的类型;还可以结合规则分类模型和统计机器学习分类模型对步骤101中得到的单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,步骤102可以包括:采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;若是,则将所述最高分值对应的类型作为所述单据的类型;若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型。由于规则分类模型的分类准确率一般高于统计机器学习分类模型,因此在该实施例中,可以先采用规则分类模型计算所述单据内容识别结果的最高分值,比较最高分值与分值阈值的大小来确定是否以规则分类模型的分类结果作为最终的分类结果。如果最高分值大于等于分值阈值,则直接以规则分类模型的分类结果作为最终的分类结果;如果最高分值小于分值阈值,说明规则分类模型的分类结果不够准确,需要通过统计机器学习分类模型对所述单据内容识别结果进行分类,以统计机器学习分类模型的分类结果作为最终的分类结果。
规则分类模型为无监督模型,其原理为以特征词为分类依据,构建特定类型的特征词库,其优点为准确、快速、无需人工标注、对小量文本也适用;其缺点为需要人工总结词库,无法考虑语义序列。统计机器学习分类模型为有监督模型,其原理为特征工程用以抽取文本特征,分类器用以文本分类;其优点为计算量小,适用于半结构化文本;其缺点为需要大量标注文本,且无法考虑语义序列特征。在本发明的实施例中,如果仅仅基于规则分类模型计算分值,可能因为单据种类对应的特征词总结的不完整,以及OCR结果中的特征词含有错误信息(多空格、少空格、字符识别错误等),导致分类失效,辅助于统计机器学习分类模型可有效弥补此缺陷。
可选地,采用规则分类模型计算所述单据内容识别结果的最高分值,包括:去除所述单据内容识别结果中的停用词;按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。如图2所示,首先根据领域停用词词典去除单据内容识别结果中的停用词,例如invoice no.、contract no.、vessel no.等;然后按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块。单据名称一般出现在单据的上部位置,通常情况下,左右居中。名称各单词之间除了空格之外,有可能以“-”连接,如“OCEAN-BILL OF LADING”,而且单据名称的字号一般较大,因此通过位置、字号等信息可以从单据内容识别结果中查找出包含单据名称的文字块。
可选地,分类词典包括正向词典和反向词典。可选地,根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值,包括:若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
以如图3所示的单据为例,首先根据领域停用词词典去除vessel no.、contractno.等停用词,去除停用词后的内容再根据分类正向词典和反向词典进行匹配打分。若此张单据中packing list词组在箱单类型的正向词典中命中加分,并且paking list词组在单据中的位置较为靠前加分,字号较大加分,将这三个分数相加之后得出箱单类型的分值最高,最终判断该单据类别为箱单。
可选地,采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:对训练集中的各个样本单据标记类型标签;对所述各个样本单据进行预处理,得到各个训练文本;采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
由于现有分类模型完全基于现有单据的规则,可能无法覆盖新单据中的规则,所以使用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)+分类器的算法进行分类;TF-IDF算法用于计算各个分词权重作为统计特征,选择准确率最高分类器作为分类判决模型。例如:代收面函中有collectionInstruction、URC522等特征词,统计机器学习分类模型在之前通过训练集训练,已学习到了这些类别特征,故统计机器学习分类模型可根据这些文本特征词将单据类别判定为代收面函。
由于单据的分类均是以特征词为分类依据,且分类场景较为简单,因此适合采用统计机器学习算法,以TF-IDF抽取单据中的特征,然后利用分类器进行分类。
还可以对统计机器学习分类模型进行不断优化:添加数据训练,将分类未成功的数据,经业务人员标注之后作为训练数据进行模型优化;也可以尝试多种分类算法,例如:rf、xgboost等。
可选地,对所述各个样本单据进行预处理,得到各个训练文本,包括:对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;将所述样本单据的单据内容识别结果拼接成字符串;对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
以如图3所示的单据为例,对所述样本单据进行光学字符识别,得到单据内容识别结果,将单据内容识别结果拼接成字符串;然后将拼接完成的字符串进行jieba分词,中文以词语形式进行空格分割,英文以单词进行空格分割,去除vessel no.、contract no.等领域停用词,去除’,’、’;’等标点符号,最终处理后的文本作为统计机器学习分类模型的训练文本。
预处理后的训练文本如下所示:
abc co ltd jinnan industrial arealonghu townjinjiang cityfujianchinapacking list packing edf co ltd bhgxw list no to gyeongchungdaero daewolmyeonicheonsi gyeonggdo republic of korea may date from xiamenchina discharge portinchon republic of korea sm tokyo marks gross quantity and description offnet weight measurement rolls order no corona weight and goods kgs cbm numberskgs polyester film cif inchon republic of korea in usd container nosmcu umummno nm total ipallets container nosmcu ummmm no nm ummmm no total pallets intotal pallets say total pallets kgs net weight kgs gross weight country oforigin china price terms cif inchon republic of korea bhgxwb polyester filmorder no bhgxw lc no moeunu bhgxw abc co ltd jinnan industrial arealonghutownjinjiang cityfujianchnn
标记类型标签是指标注标签为单据类型,有多少种单据需要进行分类,就可加入多少种类别标签,首先需将单据图片转换为html格式文本,再进行上述的模型数据预处理,预处理后的训练文本放入训练集中,逗号分割,后面跟着类型标签,将训练集重新进行模型训练,优化模型。
需要指出的是,对待识别的单据的内容识别结果进行的预处理过程与对样本单据的单据内容识别结果进行的预处理过程相同,不再赘述。
根据上面所述的各种实施例,可以看出本发明通过先对待识别的单据进行光学字符识别,得到单据内容识别结果,然后采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型的技术手段,解决了现有技术中单据分类不准确的技术问题。本发明实施例采用规则分类模型和/或统计机器学习分类模型对OCR返回的单据内容识别结果进行单据分类,提高了单据分类的正确率,而且单据分类的正确率可以持续优化提高,单据分类的正确率的提高能够让更多的业务纳入智能审单处理,降低人力成本,提高生产效率。
图4是根据本发明另一个可参考实施例的单据分类方法的主要流程的示意图。作为本发明的另一个实施例,如图4所示,所述单据分类方法可以包括:
步骤401,对训练集中的各个样本单据标记类型标签,对所述各个样本单据进行预处理,得到各个训练文本。
首先对训练集中的各个样本单据标记类型标签,有多少种单据需要进行分类,就可加入多少种类别标签。然后对各个样本单据进行OCR识别,得到单据内容识别结果,再对样本单据的单据内容识别结果进行预处理,得到对应的训练文本。
具体地,对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;将所述样本单据的单据内容识别结果拼接成字符串;对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
步骤402,采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型。
预处理后的训练文本放入训练集中,逗号分割,后面跟着类型标签,将训练集重新进行模型训练,优化模型。
步骤403,对待识别的单据进行光学字符识别,得到单据内容识别结果。
对待识别的单据进行OCR识别,得到html文本格式的单据内容识别结果。
步骤404,采用规则分类模型计算所述单据内容识别结果的最高分值。
去除所述单据内容识别结果中的停用词;按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。
步骤405,判断所述最高分值是否大于等于预设的分值阈值;若是,则执行步骤406;若否,则执行步骤407。
步骤406,将所述最高分值对应的类型作为所述单据的类型,输出分类结果。
步骤407,对所述单据内容识别结果进行预处理,得到单据文本。
预处理过程与步骤401类似,不再赘述。
步骤408,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
由于单据的分类均是以特征词为分类依据,且分类场景较为简单,因此适合采用统计机器学习算法,以TF-IDF抽取单据中的特征,然后利用分类器进行分类。
另外,在本发明一个可参考实施例中单据分类方法的具体实施内容,在上面所述单据分类方法中已经详细说明了,故在此重复内容不再说明。
图5是根据本发明实施例的单据分类装置的主要模块的示意图,如图5所示,所述单据分类装置500包括识别模块501和分类模块502。其中,识别模块501用于对待识别的单据进行光学字符识别,得到单据内容识别结果;分类模块502用于采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,所述分类模块502还用于:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型。
可选地,所述分类模块502还用于:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值。
可选地,分类词典包括正向词典和反向词典;
所述分类模块502还用于:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
可选地,所述分类模块502还用于:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
可选地,所述分类模块502还用于:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
根据上面所述的各种实施例,可以看出本发明通过先对待识别的单据进行光学字符识别,得到单据内容识别结果,然后采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型的技术手段,解决了现有技术中单据分类不准确的技术问题。本发明实施例采用规则分类模型和/或统计机器学习分类模型对OCR返回的单据内容识别结果进行单据分类,提高了单据分类的正确率,而且单据分类的正确率可以持续优化提高,单据分类的正确率的提高能够让更多的业务纳入智能审单处理,降低人力成本,提高生产效率。
需要说明的是,在本发明所述单据分类装置的具体实施内容,在上面所述单据分类方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的单据分类方法或单据分类装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的单据分类方法一般由服务器605执行,相应地,所述单据分类装置一般设置在服务器605中。本发明实施例所提供的单据分类方法也可以由终端设备601、602、603执行,相应地,所述单据分类装置可以设置在终端设备601、602、603中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括识别模块和分类模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对待识别的单据进行光学字符识别,得到单据内容识别结果;采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型。
根据本发明实施例的技术方案,因为采用先对待识别的单据进行光学字符识别,得到单据内容识别结果,然后采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型的技术手段,所以克服了现有技术中单据分类不准确的技术问题。本发明实施例采用规则分类模型和/或统计机器学习分类模型对OCR返回的单据内容识别结果进行单据分类,提高了单据分类的正确率,而且单据分类的正确率可以持续优化提高,单据分类的正确率的提高能够让更多的业务纳入智能审单处理,降低人力成本,提高生产效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种单据分类方法,其特征在于,包括:
对待识别的单据进行光学字符识别,得到单据内容识别结果;
采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型;
采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型;
采用规则分类模型计算所述单据内容识别结果的最高分值,包括:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值;
分类词典包括正向词典和反向词典;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值,包括:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
2.根据权利要求1所述的方法,其特征在于,采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型,包括:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
3.根据权利要求2所述的方法,其特征在于,对所述各个样本单据进行预处理,得到各个训练文本,包括:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
4.一种单据分类装置,其特征在于,包括:
识别模块,用于对待识别的单据进行光学字符识别,得到单据内容识别结果;
分类模块,用于采用规则分类模型和/或统计机器学习分类模型,对所述单据内容识别结果进行分类,从而确定所述单据的类型;
所述分类模块还用于:
采用规则分类模型计算所述单据内容识别结果的最高分值,判断所述最高分值是否大于等于预设的分值阈值;
若是,则将所述最高分值对应的类型作为所述单据的类型;
若否,则采用统计机器学习分类模型对所述单据内容识别结果进行分类,从而确定所述单据的类型;
所述分类模块还用于:
去除所述单据内容识别结果中的停用词;
按照位置靠前信息和/或字号信息,从所述单据内容识别结果中查找出待识别的文字块;
根据所述文字块的字符在分类词典中的命中情况,计算得到所述单据内容识别结果的最高分值;
分类词典包括正向词典和反向词典;
所述分类模块还用于:
若所述文字块的字符命中正向词典则加分,若所述文字块的字符命中反向词典则减分,从而计算出所述文字块命中各个类型的分值;
从所述文字块命中各个类型的分值中筛选出最高分值,作为所述单据内容识别结果的最高分值。
5.根据权利要求4所述的装置,其特征在于,所述分类模块还用于:
对训练集中的各个样本单据标记类型标签;
对所述各个样本单据进行预处理,得到各个训练文本;
采用所述各个训练文本及其对应的类型标签,训练统计机器学习分类模型;
对所述单据内容识别结果进行预处理,得到单据文本,将所述单据文本输入到训练后的所述统计机器学习分类模型,以输出所述单据的类型。
6.根据权利要求5所述的装置,其特征在于,所述分类模块还用于:
对于每个样本单据,对所述样本单据进行光学字符识别,得到单据内容识别结果;
将所述样本单据的单据内容识别结果拼接成字符串;
对所述字符串进行分词、去除乱码、去除停用词、去除标点符号和词性还原的预处理,从而得到所述样本单据的训练文本。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN202010001110.5A 2020-01-02 2020-01-02 一种单据分类方法和装置 Active CN111191614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001110.5A CN111191614B (zh) 2020-01-02 2020-01-02 一种单据分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001110.5A CN111191614B (zh) 2020-01-02 2020-01-02 一种单据分类方法和装置

Publications (2)

Publication Number Publication Date
CN111191614A CN111191614A (zh) 2020-05-22
CN111191614B true CN111191614B (zh) 2023-08-29

Family

ID=70709794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001110.5A Active CN111191614B (zh) 2020-01-02 2020-01-02 一种单据分类方法和装置

Country Status (1)

Country Link
CN (1) CN111191614B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881943A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 图像分类的方法、装置、设备和计算机可读介质
CN113011246A (zh) * 2021-01-29 2021-06-22 招商银行股份有限公司 票据分类方法、装置、设备及存储介质
CN113033534B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113255767B (zh) * 2021-05-25 2023-11-24 深圳壹账通智能科技有限公司 票据分类方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN109389124A (zh) * 2018-10-29 2019-02-26 苏州派维斯信息科技有限公司 小票信息类目识别方法
CN109635292A (zh) * 2018-12-05 2019-04-16 杭州东方通信软件技术有限公司 基于机器学习算法的工单质检方法和装置
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN109389124A (zh) * 2018-10-29 2019-02-26 苏州派维斯信息科技有限公司 小票信息类目识别方法
CN109635292A (zh) * 2018-12-05 2019-04-16 杭州东方通信软件技术有限公司 基于机器学习算法的工单质检方法和装置
CN109684647A (zh) * 2019-02-19 2019-04-26 东北林业大学 电影评论情感分析方法及装置
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110633367A (zh) * 2019-09-12 2019-12-31 河南工业大学 一种基于情感词典与微博文本数据的七情感分类方法

Also Published As

Publication number Publication date
CN111191614A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191614B (zh) 一种单据分类方法和装置
CN106649890B (zh) 数据存储方法和装置
US20190163742A1 (en) Method and apparatus for generating information
CN106708940B (zh) 用于处理图片的方法和装置
CN109858626B (zh) 一种知识库构建方法及装置
US9256805B2 (en) Method and system of identifying an entity from a digital image of a physical text
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN112541359A (zh) 文档内容识别方法、装置、电子设备及介质
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN111814486A (zh) 一种基于语义分析的企业客户标签生成方法、系统及装置
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN111783424A (zh) 一种文本分句方法和装置
US20220222443A1 (en) Technical document issues scanner
CN115690816A (zh) 一种文本要素提取方法、装置、设备和介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN115080744A (zh) 一种数据处理的方法和装置
CN111368036B (zh) 用于搜索信息的方法和装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
KR20230057841A (ko) 원자력 관련 산업체 데이터 수집, 분석 및 분류 시스템과 그 방법
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
CN111274383B (zh) 一种应用于报价的分类对象方法和装置
CN112862305A (zh) 确定对象风险状态的方法、装置、设备和存储介质
CN112445955A (zh) 商机信息管理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220923

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant