CN112580619B - 对识别结果进行辅助修改的方法和装置 - Google Patents

对识别结果进行辅助修改的方法和装置 Download PDF

Info

Publication number
CN112580619B
CN112580619B CN202011516219.9A CN202011516219A CN112580619B CN 112580619 B CN112580619 B CN 112580619B CN 202011516219 A CN202011516219 A CN 202011516219A CN 112580619 B CN112580619 B CN 112580619B
Authority
CN
China
Prior art keywords
result
modification
sample
recognition result
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011516219.9A
Other languages
English (en)
Other versions
CN112580619A (zh
Inventor
李哲
李若愚
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011516219.9A priority Critical patent/CN112580619B/zh
Publication of CN112580619A publication Critical patent/CN112580619A/zh
Application granted granted Critical
Publication of CN112580619B publication Critical patent/CN112580619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本说明书实施例提供了对识别结果进行辅助修改的方法和装置。根据实施例的方法,首先将通过终端设备识别得到的参考识别结果对应输出到预先根据语义特征划分好的语义分割单元中,通过将从语义分割单元中输出的与参考识别结果相关的目标文本输入到预先训练的修改结果预测模型中,该修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果,此后,用户可以根据从修改结果预测模型中输出的辅助修改结果完成对识别结果的修改。

Description

对识别结果进行辅助修改的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及对识别结果进行辅助修改的方法和装置。
背景技术
目前,利用终端设备对待识别的目标进行自动识别的技术得到了广泛的应用,为人们的生活提供了便利。
比如,光学字符识别(Optical Character Recognition,OCR)技术能够将纸张上的字符识别为计算机文字,其已被广泛应用于证件识别、车牌识别和文档识别等领域。
在对待识别的目标进行自动识别,得到识别结果后,该识别结果中往往会存在错误。因此,需要提供一种对识别结果进行辅助修改的方案。
发明内容
本说明书一个或多个实施例描述了对识别结果进行辅助修改的方法和装置,能够提供辅助修改结果,从而通过该辅助修改结果加快用户对终端的识别结果的修改过程。
根据第一方面,提供了对识别结果进行辅助修改的方法,包括:
在语义分割单元中输出终端设备对待识别文本的参考识别结果;
获取所述语义分割单元中当前输出的与所述参考识别结果相关的目标文本;
将该目标文本输入预先训练的修改结果预测模型;其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;
获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果。
在一个实施例中,所述修改结果预测模型包括:纠错模型;所述样本集包括:第一样本集;
所述第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;
所述第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:所述参考识别结果对应的文本;
所述参考识别结果对应的辅助修改结果包括:所述纠错模型输出的第一辅助修改结果。
在一个实施例中,所述修改结果预测模型进一步包括:用户修改预测模型;所述样本集进一步包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
在获得所述纠错模型输出的第一辅助修改结果之后,进一步包括:
接收用户在所述语义分割单元中当前输入的修改信息;
将当前输入的修改信息输入所述用户修改预测模型;
由所述用户修改预测模型输出第二辅助修改结果。
在一个实施例中,所述第二辅助修改结果不包括所述第一辅助修改结果。
在一个实施例中,所述修改结果预测模型包括:用户修改预测模型;所述样本集包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:用户根据所述参考识别结果在所述语义分割单元中输入的修改信息;
所述参考识别结果对应的辅助修改结果包括:所述用户修改预测模型输出的第三辅助修改结果。
在一个实施例中,所述修改结果预测模型包括seq2seq语言模型。
在一个实施例中,所述seq2seq语言模型的编解码器包括:基于循环神经网络的编解码器、基于长短时记忆网络的编解码器以及基于Transformer模型的编解码器中的任一个。
在一个实施例中,在所述获得所述语义分割单元中输出的所述参考识别结果对应的辅助修改结果之后,进一步包括:
将用户选择的一个辅助修改结果作为所述参考识别结果对应的最终识别结果。
根据第二方面,提供了对识别结果进行辅助修改的装置,包括:
参考识别结果输出模块,配置为在语义分割单元中输出终端设备对待识别文本的参考识别结果;
目标文本获取模块,配置为获取所述语义分割单元中当前输出的与所述参考识别结果输出模块输出的所述参考识别结果相关的目标文本;
辅助修改结果获得模块,配置为将所述目标文本获取模块获得的该目标文本输入预先训练的修改结果预测模型;其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果。
在一个实施例中,所述修改结果预测模型包括:纠错模型;所述样本集包括:第一样本集;所述第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;所述第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:所述参考识别结果对应的文本;
所述参考识别结果对应的辅助修改结果包括:所述纠错模型输出的第一辅助修改结果。
在一个实施例中,所述修改结果预测模型进一步包括:用户修改预测模型;所述样本集进一步包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
所述辅助修改结果获得模块,进一步配置为执行如下操作:
接收用户在所述语义分割单元中当前输入的修改信息;
将当前输入的修改信息输入所述用户修改预测模型;
由所述用户修改预测模型输出所述参考识别结果对应的第二辅助修改结果。
在上述装置的一个实施例中,所述第二辅助修改结果不包括所述第一辅助修改结果。
在一个实施例中,所述修改结果预测模型包括:用户修改预测模型;所述样本集包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:用户根据所述参考识别结果在所述语义分割单元中输入的修改信息;
所述参考识别结果对应的辅助修改结果包括:所述用户修改预测模型输出的第三辅助修改结果。
在一个实施例中,所述修改结果预测模型包括seq2seq语言模型。
在一个实施例中,所述seq2seq语言模型的编解码器包括:基于循环神经网络的编解码器、基于长短时记忆网络的编解码器和基于Transformer模型的编解码器中的任一个。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项所述的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行上述任一项所述的方法。
根据本说明书实施例提供的方法和装置,将由终端设备对待识别文本进行识别后得到的参考识别结果从语义分割单元中输出,然后获取语义分割单元中当前输出的与参考识别结果相关的目标文本,如此,通过将该目标文本输入到预先训练好的修改结果预测模型中,从而得到与语义分割单元对应的辅助修改结果。由此可见,本说明书实施例提供的方案通过预先训练的修改结果预测模型,可以获得用于用户对参考识别结果进行辅助修改的辅助修改结果。后续,用户通过从辅助修改结果中选择语义分割单元中对应的内容,即可实现对识别结果进行修改。因此,本说明书实施例提供的方案能够实现对识别结果进行快速修改的目的。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例提供的对识别结果进行辅助修改的方法的流程图;
图2是本说明书一个实施例提供的对识别结果进行辅助修改的装置的结构示意图。
具体实施方式
如前所述,终端利用自动识别技术对待识别的文本进行自动识别后,可以得到识别结果。然而由于识别技术的限制,该识别结果中往往会存在错误。比如,OCR技术是通过检测亮和暗的光学特征来确定纸张上字符的形状,然后通过字符识别方法将形状翻译成计算机文字的。而待识别文本的明暗对比度以及对形状识别的准确性等问题都会导致OCR识别出的结果存在偏差。
在终端提供了识别结果后,用户需要自行检查终端的识别结果,从而才能确定识别结果是否有错,并且,在确定出错后,用户需要手动输入针对识别结果的修改结果。因此,给用户的使用带来不便。比如,利用OCR技术识别银行卡号时,会存在终端把7错误地识别为1的情况,此时用户就需要对卡号和识别结果进行数字的逐一对比确认,然后针对错误的地方进行修改以获得正确的识别结果,这不仅影响了用户对识别结果进行修改的效率,同时也降低了用户的使用体验。
为此,考虑利用模型根据终端识别得到的识别结果预测出用户对识别结果进行修改的辅助修改结果,如此,用户可以直接从辅助修改结果中进行选择,以快速的完成对识别结果的修改,从而提升用户的使用体验。
下面介绍本说明书实施例构思的实现方式。如图1所示,本说明书实施例提供了对识别结果进行辅助修改的方法,该方法可以包括以下步骤:
步骤101:在语义分割单元中输出终端设备对待识别文本的参考识别结果;
步骤103:获取语义分割单元中当前输出的与参考识别结果相关的目标文本;
步骤105:将该目标文本输入预先训练的修改结果预测模型;其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;
步骤107:获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果。
在本实施例中,将由终端设备对待识别文本进行识别后得到的参考识别结果从语义分割单元中输出,然后获取语义分割单元中当前输出的与参考识别结果相关的目标文本,如此,通过将该目标文本输入到预先训练好的修改结果预测模型,从而得到与语义分割单元对应的辅助修改结果。由此可见,本说明书实施例提供的方案通过预先训练的修改结果预测模型,可以获得用于用户对参考识别结果进行辅助修改的辅助修改结果。后续,用户通过从辅助修改结果中选择语义分割单元中对应的内容,即可实现对识别结果进行修改。因此,本说明书实施例提供的方案能够实现对识别结果进行快速修改的目的。
在具体的应用场景中,通过终端设备得到的待识别文本的参考识别结果可以是针对身份证件、银行卡、车牌以及营业执照等对象的识别结果。语义分割单元的作用可以是以单元框的形式将参考识别结果按照语义信息进行划分显示。对于上述步骤101的处理进行举例说明:比如,对于识别得到的参考识别结果:“A市B区C街道D小区”,在其识别结果中,将市、区、街道和小区分别作为一个语义分割单元,共4个语义分割单元,而每个语义分割单元中由识别结果中对应的具体信息构成,即,识别结果A显示在“市”对应的语义分割单元中;识别结果B显示在“区”对应的语义分割单元中;识别结果C显示在“街道”对应的语义分割单元中;识别结果D显示在“小区”对应的语义分割单元中。
当然,在通过语义分割单元对参考识别结果按照语义进行划分时,也可以根据预先定义的语义,将“A市B区C街道D小区”划分在一个语义分割单元或者少于上述4个的语义分割单元中。
对于终端设备识别出的参考识别结果,会存在如下处理环节:环节一、在语义分割单元中输出该终端设备的参考识别结果;环节二、用户确定该参考识别结果存在错误时,对语义分割单元中输出的参考识别结果进行手动修改,在该修改过程中,会涉及到一次或者多次的用户的修改输入,那么,针对每次用户修改的修改输入,在语义分割单元中输出的文本都会不同。
考虑到上述环节一和环节二的处理,在本说明书的实施例中,可以只针对环节一提供对应的修改结果预测模型,也可以只针对环节二提供对应的修改结果预测模型,还可以同时针对环节一和环节二提供对应的修改结果预测模型。因此,本说明书实施例提供的修改结果预测模型可以包括如下三种实施方式;
第一种实施方式:修改结果预测模型包括纠错模型;
该第一种实施方式中,是只针对上述环节一提供辅助修改结果,也就是说,直接针对终端设备的参考识别结果,预测出该参考识别结果可能对应的最终识别结果。
第二种实施方式:修改结果预测模型包括用户修改预测模型;
该第二种实施方式中,是只针对上述环节二提供辅助修改结果,也就是说,针对终端设备的参考识别结果可以不进行预测最终识别结果,而是当用户根据参考识别结果在语义分割单元中手动输入修改结果所包括的每一个文本字符时,在每次用户输入后,都预测出该用户的修改输入可能对应的最终识别结果。
第三种实施方式:修改结果预测模型包括纠错模型和用户修改预测模型。
该第三种实施方式中,是针对上述环节一及环节二均提供辅助修改结果,也就是说,当在语义分割单元中当前输出的是终端设备的参考识别结果时,利用纠错模型预测出该参考识别结果可能对应的最终识别结果(即输出第一辅助修改结果)并提供给用户;后续,如果用户认为参考识别结果以及纠错模型输出的第一辅助识别结果都不是正确的识别结果,则不会从第一辅助识别结果中选择一个作为最终识别结果,而是会在语义分割单元中逐个字符地手动输入正确的修改结果,那么,在语义分割单元中在每个当前输出的则是用户的修改输入,则在每次用户输入后,都可以利用用户修改预测模型预测出该用户的修改输入可能对应的最终识别结果,即输出第二辅助修改结果。
下面针对上述三种实施方式再分别进行说明。
针对第一种实施方式:修改结果预测模型包括纠错模型;
在本实施方式中,当利用终端设备获得了待识别文本的参考识别结果后,考虑将从语义分割单元中获取的参考识别结果输入到纠错模型中,由纠错模型输出对应于该参考识别结果的预测结果,当预测结果中出现了正确的结果时,用户可以直接从预测结果中选择正确的结果,从而达到辅助用户对识别结果进行快速修改的目的。
具体地,纠错模型可以通过至少两组第一样本集训练得到,其中,每一组第一样本集中包括样本参考识别结果以及根据该样本参考识别结果最终确定的识别结果。也就是说,步骤105中,样本集包括第一样本集;第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果。
比如,通过识别用户姓名得到的样本参考识别结果为“Gelyy”,而用户实际的姓名为“Gelyn”,即用户根据参考识别结果最终确定的识别结果为“Gelyn”,此时将由“Gelyy”和“Gelyn”组成的文本对作为一组第一样本集。再比如,通过识别车牌号得到的样本参考识别结果为“12345”,用户修改后最终确定的识别结果为“72345”。那么,该样本参考识别结果“12345”和最终确定的识别结果“72345”即可确定为一组第一样本集。
当然,根据样本参考识别结果最终确定的识别结果相比于样本参考识别结果不仅限于对应字符的变化,还包括字符的增减和字段的增减等。如上述样本参考识别结果为“Gelyy”,若用户的实际姓名为“Gely”,那么由“Gelyy”和“Gely”构成一组第一样本集。
当修改结果预测模型为纠错模型时,在步骤103中,与参考识别结果相关的目标文本可以是将参考识别结果直接转换后所得到的文本,即该目标文本的内容就是参考识别结果;相应地,在步骤107中所输出的参考识别结果对应的辅助修改结果是纠错模型输出的第一辅助修改结果。
在步骤105中,将该目标文本输入到预先训练好的纠错模型中,通过设定纠错模型输出的第一辅助修改结果的数量K,纠错模型即可以输出与识别结果相似度最高的K个用于用户进行辅助修改识别结果的第一辅助修改结果。比如,语义分割单元中的信息为“Michell”,在修改结果预测模型为纠错模型时,该语义分割单元中的信息“Michell”即为目标文本。将该目标文本“Michell”输入到纠错模型中,以K等于3来说,纠错模型可以根据相似度的高低,输出相似度最高的3个候选识别结果,如“Michele”、“Michelle”和“Mishelle”。如此,用户可以直接从候选结果中选择正确的结果对原识别结果进行替换。比如,上述3个候选结果中,“Michelle”为用户所要识别的正确结果,那么用户可以直接选择“Michelle”替换原识别结果“Michell”即可,不再需要对原识别结果按照正确结果进行输入操作来修改,从而能够极大的提高用户的修改效率,同时能够使用户具有较好的使用体验。
当然,上述以识别出的参考识别结果(本例中也为目标文本)是错误的为例进行了说明,容易理解的是,机器识别并不能知道识别结果的对错,因此会对所有语义分割单元中当前输出的目标文本即参考识别结果都会生成第一辅助修改结果以提供给用户。例如对于通过识别得到的地址信息“A市B区C街道D小区”,其中“A市”、“B区”、“C街道”和“D小区”分别位于独立的4个语义分割单元中。在通过模型对该地址进行识别和修改时,会将该识别得到的地址依次输入到模型中,并针对每一个语义分割单元中的内容都得到相似度最高的K个辅助修改结果,以提供给用户进行选择。如此为一些需要通过识别结果确定与该识别结果具有关联关系结果的应用场景提供了便利。当然需要指出的是,后面所提到的用户修改预测模型亦是通过将每一个语义分割单元中的内容输入到用户修改预测模型中获得辅助修改结果,以提供给用户对识别结果进行辅助修改。在后面的第二和第三种实施方式中关于这一点不再进行阐述。
针对第二种实施方式:修改结果预测模型包括用户修改预测模型;
在本实施方式中,当利用终端设备获得了待识别文本的参考识别结果后,如果用户认为该参考识别结果不正确,则会在语义分割单元中手动输入修改结果。因此,考虑将用户根据该参考识别结果进行修改过程中输入的文本输入到用户修改预测模型中,由用户修改预测模型输出对应于用户输入的文本的预测结果,当预测结果中出现了正确的结果时,用户可以不用完整地输入修改结果就能从预测结果中选择正确的结果,从而实现快速对识别结果进行修改的目的。
具体地,用户修改预测模型通过至少两组第二样本集训练得到,其中,每一组第二样本集中包括用户输入的修改信息以及根据该修改信息最终确定的识别结果。也就是说,步骤105中,第二样本集中的样本目标文本为:用户输入的样本修改信息;第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果。
比如,将识别身份证上的姓名得到的参考识别结果“Alharicg”修改为正确的“Albarico”,而修改的过程可以概括为Alaricg--Albaricg--Albaric--Albarico。此时,将由修改过程中的各个文本分别与最终确定的文本构成的文本对作为第二样本集合,如“Alaricg”和“Albarico”、“Albaricg”和“Albarico”以及“Albaric”和“Albarico”构成的三组第二样本集合。
值得注意的是,在上述确定第二样本集时,将修改过程中可能会涉及到的文本结果均与最终确定的正确结果构成第二文本集合。如此,当用户通过上述的修改过程进行文本输入和修改时,用户修改预测模型能够最快的输出包含正确识别结果的第三辅助修改结果。例如,接上述例,由于在训练模型时将“Alaricg”和“Albarico”文本对作为了一组第二样本集。那么,用户在对识别有错误的参考识别结果“Alharicg”向正确识别结果“Albarico”进行修改过程中,当用户删除错误的识别结果“Alharicg”中的字母“h”,即输入框中修改后的识别结果为“Alaricg”时,用户修改预测模型能够最大可能的得到包含正确识别结果“Albarico”的第三辅助修改结果,从而用户不用继续进行修改过程中的下一步,直接在用户修改预测模型输出的第三辅助修改结果中选择“Albarico”即可,极大的简化了用户对识别结果进行修改的操作过程,同时也提升了用户的使用体验。
当修改结果预测模型为用户修改预测模型时,则在步骤103中,与参考识别结果相关的目标文本包括用户根据参考识别结果输入的修改信息;相应地,在步骤107中所输出的参考识别结果对应的辅助修改结果包括:用户修改预测模型输出的第三辅助修改结果。
在步骤105中,将该目标文本输入到预先训练好的用户修改预测模型中,通过设定用户修改预测模型输出的第三辅助修改结果的数量K,用户修改预测模型即可输出与目标文本相似度最高的K个用于用户进行辅助修改识别结果的第三辅助修改结果。比如,语义分割单元中的信息为“Alharicg”,而实际正确的结果为“Albarico”,那么用户在对错误的结果“Alharicg”进行修改时,会将每一次修改后的结果确定为目标文本,然后将该目标文本输入到修改结果预测模型中获得预测结果。如用户采用Alaricg--Albaricg--Albaric--Albarico的修改步骤对错误结果“Alharicg”进行修改。此时,当用户完成第一步修改,即删除字母“h”得到第一步修改的结果“Alaricg”后,通过将第一步的修改结果“Alaricg”输入到用户修改预测模型,可以得到与该“Alaricg”结果相似度最高的K个预测结果,用户可以从这K个预测结果中选择正确的识别结果“Albarico”。如果在得到的K个预测结果中没有正确的识别结果“Albarico”,那么用户继续完成第二步修改操作,即将“Alaricg”增加字母“b”得到“Albaricg”。此时,将第二步的修改结果“Albaricg”再次输入到用户修改预测模型中,得到与“Albaricg”的相似度最高的K个预测结果,用户可以继续从新输出的这K个预测结果中选择正确的识别结果“Albarico”。如此操作,直至获得正确的识别结果。由此可见,用户对识别结果进行修改过程中每一步操作得到的结果都会被作为目标文本输入到用户修改预测模型中,从而得到用于用户对识别结果进行辅助修改的第三辅助修改结果。如此用户有极大的可能不用完成整个修改过程即可从用户修改预测模型输出的预测结果中选择到正确的识别结果,从而能够提高用户的使用体验。
可以理解的是,当识别结果与正确的结果存在的偏差越大,一般情况下其修改过程中所要采用的步骤就越多,那么,通过将从用户修改第一步后得到的结果就输入到用户修改预测模型中得到辅助修改的结果,能最大程度的简化用户修改的操作过程。也就是说,当识别结果与实际正确的结果存在的误差越大,在该应用场景中采用用户修改预测模型作为修改结果预测模型的优势也就越显著。
针对第三种实施方式:修改结果预测模型包括纠错模型和用户修改预测模型。
本实施方式考虑先通过纠错模型对识别结果进行预测,在纠错结果没有得到正确的识别结果时,继续采用用户修改预测模型对识别结果进行预测获得用于辅助用户进行识别结果修改的第二辅助修改结果。如此,能集合第一种实施方式和第二种实施方式的优势,快速地获得用于辅助用户对识别结果进行修改的辅助修改结果。
具体地,本实施方式中所采用的纠错模型和用户修改预测模型的样本数据的选择方式与上述第一种实施方式和第二种实施方式中的一致,此处不再进行赘述。不同之处在于,当用户通过第一种方式没有从纠错模型预测的第一辅助修改结果中获得正确的识别结果,或用户没有从第一辅助识别结果中选择正确的识别结果时,可以利用第二种实施方式中的用户修改预测模型预测获得第二辅助修改结果。具体地,在步骤107中,在纠错模型输出参考识别结果对应的第一辅助修改结果之后,可以通过以下步骤进一步获得第二辅助修改结果:
接收用户在语义分割单元中当前输入的修改信息;
将当前输入的修改信息输入用户修改预测模型;
由用户修改预测模型输出参考识别结果对应的第二辅助修改结果。
进一步地,为了提高效率,第二辅助修改结果中可以不包括第一辅助修改结果。
由上述步骤可知,当用户通过纠错模型没有获得正确的预测结果时,考虑对该识别的结果进行修改。在用户修改过程中,将每一步修改的结果输入到用户修改预测模型中,然后由用户修改预测模型预测出用于辅助用户对识别结果进行修改的第二辅助修改结果。
比如,通过OCR设备识别的车牌号码为“60277”,而正确的车牌号应为“6Q217”,在通过纠错结果对识别出的车牌号码“60217”的辅助修改结果进行预测时,得到的3个预测结果分别为“6O217”、“6Q277”和“6O277”。此时显然预测结果中也没有正确的识别结果,那么用户需要对识别结果进行修改,当用户第一步将识别结果“60277”修改为“6277”时,通过将修改后的结果“6277”输入到用户修改预测模型中对辅助修改结果进行预测,当辅助修改结果中存在了正确的识别结果时用户可以直接进行选择,当预测的辅助修改结果中没有正确的识别结果时,由用户继续进行第二步修改操作,在用户完成第二步修改操作后,第二步修改的结果会再次输入到用户修改预测模型中获得辅助修改结果。此过程与第二种实施方式的实现过程一致,此处不再进行详细的描述。
值得注意的是,在第三种实施方式中,通过用户修改结果预测模型预测出的第二辅助修改结果中可以不包括通过纠错模型获得的第一辅助修改结果。也就是说,如果用户没有从第一辅助修改结果中选择正确的识别结果,在通过用户修改预测模型根据用户修改后的修改信息预测识别结果时,用户修改预测模型会自动将已经由纠错模型预测过的辅助修改结果进行过滤,从而用户修改预测模型能够覆盖到更多潜在的识别结果。比如OCR设备识别的用户姓名为“Alharicg”,而用户真实的姓名为“Albarico”,通过纠错模型预测出的2个辅助修改结果为“Albaricg”和“Albaric”,在不考虑排除纠错模型预测的辅助修改结果的情况下,通过用户修改预测模型预测的2个辅助修改结果为“Alaricg”和“Albaricg”。显然,如果在用户修改预测模型预测的2个辅助修改结果中排除掉纠错模型得到的辅助修改结果,那么用户修改预测模型预测的结果就能覆盖到更多的结果。以此例来说,如果设定修改结果预测模型只向用户展示2个辅助修改结果,当正确的结果“Albarico”位于由修改结果预测模型预测出的相似度第3高的位置时,排除掉纠错模型预测的结果后,该正确结果就会出现在相似度第2高的位置,如此用户在第一步修改操作后就能从预测出的辅助修改结果中获得正确的识别结果,如此快速的辅助用户对识别结果进行修改的方式能够极大地提升用户的使用体验。
在上述三种可能的实施方式中,通过修改结果预测模型获得预测的辅助修改结果后,即在获得语义分割单元中输出的参考识别结果对应的辅助修改结果之后,将用户选择的一个辅助修改结果作为语义分割单元对应的最终识别结果,从而完成对识别结果的修改。
在以上所涉及到的修改结果预测模型中,其均可包括seq2seq语言模型。seq2seq语言模型的特点是可以输出不确定长度的序列结果。这也就意味着,当利用修改预测模型根据目标文本输出预测结果时,预测结果不仅可以覆盖字符之间的识别错误、而且能够覆盖到识别结果与正确结果之间存在的缺失、增加、冗余、重叠等错误。尤其值得注意的是,用户修改预测模型是需要用户输入一定的与正确识别结果相关的文本信息的,那么采用seq2seq语言模型训练得到的用户修改预测模型,用户可以实现输入非常少的文本信息就能预测得到正确的识别结果。
seq2seq模型属于encoder-decoder结构的一种,其基本思想就是利用两个相同的神经网络,一个作为编码器(encoder),另一个作为解码器(decoder)。encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码。而decoder则负责根据语义向量生成指定的序列,这个过程也称为解码。在本说明书的一个或多个实施例中,在训练修改结果预测模型时,seq2seq语言模型的编解码器可以包括基于循环神经网络的编解码器、基于长短时记忆网络的编解码器以及基于Transformer模型的编解码器中的任一个。如此可以保证通过目标文本输出的辅助修改结果中包含正确识别结果的概率更大。例如本说明书实施例采用循环神经网络作为seq2seq模型的编码器和解码器训练模型,能够利用循环神经网络的特点,考虑目标文本中的前后信息的关联性,更加准确和迅速的得到最终正确的识别结果。长短时记忆神经网络针对于文本序列较长的情况下优势更加显著,而Transformer可以实现并行计算,能够解决长短时记忆神经网络只能进行串行计算的弊端。其均为本领域技术人员所熟知,此处不再进行说明。
本说明书一个实施例提供了对识别结果进行辅助修改的装置,如图2所示,该装置包括:
参考识别结果输出模块201,配置为在语义分割单元中输出终端设备对待识别文本的参考识别结果;
目标文本获取模块203,配置为获取语义分割单元中当前输出的与参考识别结果输出模块201输出的参考识别结果相关的目标文本;
辅助修改结果获得模块205,配置为将目标文本获取模块203获得的该目标文本输入预先训练的修改结果预测模型,其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果。
在本说明书上述装置的一个实施例中,所述修改结果预测模型包括:纠错模型;所述样本集包括:第一样本集;所述第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;所述第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:所述参考识别结果对应的文本;
所述辅助修改结果包括:所述纠错模型输出的第一辅助修改结果。
基于本说明书上述装置的该实施例中,所述修改结果预测模型进一步包括:用户修改预测模型;所述样本集进一步包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
所述辅助修改结果获得模块205,进一步配置为执行如下操作:
接收用户在所述语义分割单元中当前输入的修改信息;
将当前输入的修改信息输入所述用户修改预测模型;
由所述用户修改预测模型输出第二辅助修改结果;所述第二辅助修改结果不包括所述第一辅助修改结果。
在本说明书上述装置的另一个实施例中,所述修改结果预测模型包括:用户修改预测模型;所述样本集包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:用户根据所述参考识别结果在所述语义分割单元中输入的修改信息;
所述辅助修改结果包括:所述用户修改预测模型输出的第三辅助修改结果。
在本说明书上述装置的一个实施例中,其中,修改结果预测模型包括seq2seq语言模型。
在本说明书上述装置的一个实施例中,seq2seq语言模型的编解码器包括:基于循环神经网络的编解码器、基于长短时记忆网络的编解码器和基于Transformer模型的编解码器中的任一个。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对对识别结果进行辅助修改的装置的具体限定。在说明书的另一些实施例中,对识别结果进行辅助修改的装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (11)

1.对识别结果进行辅助修改的方法,包括:
在语义分割单元中输出终端设备对待识别文本的参考识别结果;
获取所述语义分割单元中当前输出的与所述参考识别结果相关的目标文本;
将该目标文本输入预先训练的修改结果预测模型;其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;
获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果;
所述修改结果预测模型包括:用户修改预测模型;所述样本集包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:用户根据所述参考识别结果在所述语义分割单元中输入的修改信息;
所述参考识别结果对应的辅助修改结果包括:所述用户修改预测模型输出的第三辅助修改结果;
其中,用户对识别结果进行修改过程中每一步操作得到的结果均被作为目标文本输入到用户修改预测模型中,得到用于用户对识别结果进行辅助修改的第三辅助修改结果。
2.根据权利要求1所述的方法,其中,所述修改结果预测模型包括:纠错模型;所述样本集包括:第一样本集;
所述第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;
所述第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:所述参考识别结果对应的文本;
所述参考识别结果对应的辅助修改结果包括:所述纠错模型输出的第一辅助修改结果。
3.根据权利要求1至2中任一所述的方法,其中,所述修改结果预测模型包括seq2seq语言模型。
4.根据权利要求3所述的方法,其中,所述seq2seq语言模型的编解码器包括:基于循环神经网络的编解码器、基于长短时记忆网络的编解码器以及基于Transformer模型的编解码器中的任一个。
5.根据权利要求1至2中任一所述的方法,其中,在所述获得所述语义分割单元中输出的所述参考识别结果对应的辅助修改结果之后,进一步包括:
将用户选择的一个辅助修改结果作为所述参考识别结果对应的最终识别结果。
6.对识别结果进行辅助修改的装置,包括:
参考识别结果输出模块,配置为在语义分割单元中输出终端设备对待识别文本的参考识别结果;
目标文本获取模块,配置为获取所述语义分割单元中当前输出的与所述参考识别结果输出模块输出的所述参考识别结果相关的目标文本;
辅助修改结果获得模块,配置为将所述目标文本获取模块获得的该目标文本输入预先训练的修改结果预测模型;其中,所述修改结果预测模型通过至少两组样本集训练得到,每一组样本集中包括一个样本目标文本与一个样本识别结果;获得该修改结果预测模型输出的所述参考识别结果对应的辅助修改结果;
所述修改结果预测模型包括:用户修改预测模型;所述样本集包括:第二样本集;
所述第二样本集中的样本目标文本为:用户输入的样本修改信息;
所述第二样本集中的样本识别结果为:根据该样本修改信息最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:用户根据所述参考识别结果在所述语义分割单元中输入的修改信息;
所述参考识别结果对应的辅助修改结果包括:所述用户修改预测模型输出的第三辅助修改结果;
其中,用户对识别结果进行修改过程中每一步操作得到的结果均被作为目标文本输入到用户修改预测模型中,得到用于用户对识别结果进行辅助修改的第三辅助修改结果。
7.根据权利要求6所述的装置,其中,所述修改结果预测模型包括:纠错模型;所述样本集包括:第一样本集;所述第一样本集中的样本目标文本为:对样本待识别文本识别后得到的样本参考识别结果;所述第一样本集中的样本识别结果为:根据该样本参考识别结果最终确定的识别结果;
与所述参考识别结果相关的目标文本包括:所述参考识别结果对应的文本;
所述参考识别结果对应的辅助修改结果包括:所述纠错模型输出的第一辅助修改结果。
8.根据权利要求6至7中任一所述的装置,其中,所述修改结果预测模型包括seq2seq语言模型。
9.根据权利要求8所述的装置,其中,所述seq2seq语言模型的编解码器包括:基于循环神经网络的编解码器、基于长短时记忆网络的编解码器和基于Transformer模型的编解码器中的任一个。
10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5中任一项所述的方法。
11.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-5中任一项所述的方法。
CN202011516219.9A 2020-12-21 2020-12-21 对识别结果进行辅助修改的方法和装置 Active CN112580619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011516219.9A CN112580619B (zh) 2020-12-21 2020-12-21 对识别结果进行辅助修改的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011516219.9A CN112580619B (zh) 2020-12-21 2020-12-21 对识别结果进行辅助修改的方法和装置

Publications (2)

Publication Number Publication Date
CN112580619A CN112580619A (zh) 2021-03-30
CN112580619B true CN112580619B (zh) 2022-06-28

Family

ID=75136628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011516219.9A Active CN112580619B (zh) 2020-12-21 2020-12-21 对识别结果进行辅助修改的方法和装置

Country Status (1)

Country Link
CN (1) CN112580619B (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置

Also Published As

Publication number Publication date
CN112580619A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN107844481B (zh) 识别文本检错方法及装置
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN111951789B (zh) 语音识别模型的训练、语音识别方法、装置、设备及介质
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN111368918A (zh) 文本纠错方法、装置、电子设备及存储介质
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN114387602B (zh) 医疗ocr数据优化模型训练方法、优化方法及设备
CN115565179A (zh) 一种字符识别后纠错方法、系统及装置
CN114758330A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN112686030B (zh) 语法纠错方法、装置、电子设备和存储介质
CN112580619B (zh) 对识别结果进行辅助修改的方法和装置
WO2020166125A1 (ja) 翻訳用データ生成システム
CN111462734A (zh) 语义槽填充模型训练方法及系统
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN114462418B (zh) 事件检测方法、系统、智能终端及计算机可读存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114625759A (zh) 模型训练方法、智能问答方法、设备、介质及程序产品
CN110929504B (zh) 语句诊断方法、装置和系统
CN111428005A (zh) 标准问答对确定方法、装置及电子设备
CN118428351B (zh) 提取prompt上下文提示的方法及装置
CN115759087B (zh) 中文分词的方法、装置及电子设备
CN118312212B (zh) 任务测试方法、代码注释方法、任务测试平台、设备
CN114842473A (zh) 文本识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant