CN111881825A - 一种基于多感知数据的交互式文本识别方法和系统 - Google Patents

一种基于多感知数据的交互式文本识别方法和系统 Download PDF

Info

Publication number
CN111881825A
CN111881825A CN202010737768.2A CN202010737768A CN111881825A CN 111881825 A CN111881825 A CN 111881825A CN 202010737768 A CN202010737768 A CN 202010737768A CN 111881825 A CN111881825 A CN 111881825A
Authority
CN
China
Prior art keywords
cost
recognition
result
estimation
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010737768.2A
Other languages
English (en)
Other versions
CN111881825B (zh
Inventor
万享
罗登
樊向东
张玉志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datum Data Co ltd
Original Assignee
Datum Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datum Data Co ltd filed Critical Datum Data Co ltd
Priority to CN202010737768.2A priority Critical patent/CN111881825B/zh
Publication of CN111881825A publication Critical patent/CN111881825A/zh
Application granted granted Critical
Publication of CN111881825B publication Critical patent/CN111881825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种基于多感知数据的交互式文本识别方法和系统,所述基于多感知数据的交互式文本识别方法包括:步骤S1,对待识别图像进行拍照识别;步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。本发明引入了音频信息和触觉信息以增强场景适应性,提升了识别正确率,在此基础上,还通过对下一步操作的效果进行成本预测估算,以便实现智能排序和推送操作选择,确保达到以与用户相适的操作以获得更高的识别率,并有效地提升了产品的人性化设计程度和适应性能。

Description

一种基于多感知数据的交互式文本识别方法和系统
技术领域
本发明涉及一种文本识别方法,尤其涉及一种基于多感知数据的交互式文本识别方法,并设计采用了该基于多感知数据的交互式文本识别方法的交互式文本识别系统。
背景技术
各种单据、发票、证件和表格的文本识别在今天是比较普遍的场景,因为各种处理流程都是建立在提取的数据的基础上。比如医保理赔需要把患者的病历和医院发票等图像上传,并识别出其中的相关信息进行理赔处理;财务报销时也要将各种差旅、住宿和餐饮等发票拍照上传处理;其它应用场景包括身份信息的识别和征信数据的提取等等。但由于各种单据、证件的大小、规格、样式和材质都不同,以及上面的字体、颜色以及文本与表格线、印章的重叠等诸多情形,这些都严重影响了文字识别技术(OCR)的效率和正确率。目前的解决方案包括预设模板的方法,即对不同的单据设置相应的模板来提升识别率;或者基于单据的颜色信息来改进识别率,但这些方法都有其局限性,并没有被广泛接受和在实际中运用起来。
目前已有方案的主要问题在于,面对大小、规格、样式(包括字体、文字颜色、印章等差异)和材质都不同单据,缺乏系统的解决办法。所作的努力只是从某个方面进行局部的改进。比如预设模板的方法,需要识别的各种场景模板何其多,能通过预设覆盖多少种?而且,即使预设了对应的模板,也并不能保证识别率。因为还有获取图像的质量问题,以及打印时文字的偏移问题等,这些都在一定程度上削弱了预设模板的效果,因为要识别的文字可能并不在模板预设的位置。
而基于单据颜色改进识别率的方法在实际应用中有很大局限性,因为单据的颜色不是由识别服务的提供方决定的,而是原来的使用单位印制的。再加上单据图像获取(尤其是手机拍照方式)中光照等因素影响,利用颜色信息对OCR的改进也是非常有限的。包括近期一些利用深度学习方法,也只是有限的改进了识别率。深度学习对识别正确率提升总是有瓶颈的,并且学习到一定程度就发现新增学习样例对算法的改进作用越来越小甚至没有改进。各种票据的多样性和现实中影响图像质量复杂性导致其不可能彻底解决识别问题,这也是在实验室或者人工智能大赛中表现亮眼的算法,在实际落地时常常遇到的窘境。
因此,在实际作为商业服务的单据OCR识别中,不得不在后期投入大量人力进行质检校对。即便因此耗费大量人工成本,也不能保证识别的正确率完全达到期待的水平。因为人工校对受人为因素的影响太多,比如经验、专注和认真程度等。这种前期完全依赖AI(Artificial Intelligence)技术,后期再投人力进行质检纠错的方法,也与实际的需求存在差距。
发明内容
本发明所要解决的技术问题是需要提供一种能够结合视觉信息、听觉信息和触觉信息进行辨识和交互,并实现智能排序和推送操作选择的交互式文本识别方法,进而提高识别正确率和处理效率,并提升产品的人性化设计程度和适应性能。在此基础上,还进一步提供采用了该交互式文本识别方法的交互式文本识别系统。
对此,本发明提供一种基于多感知数据的交互式文本识别方法,包括以下步骤:
步骤S1,对待识别图像进行拍照识别;
步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;
步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
本发明的进一步改进在于,所述步骤S3包括以下子步骤中的任意一项或几项:
步骤S301,对候选字选择进行成本预测估算,得到候选字成本估值COST1
步骤S302,对语音辅助进行成本预测估算,得到语音辅助成本估值COST2
步骤S303,对手写输入进行成本预测估算,得到手写输入成本估值COST3
步骤S304,对拼音输入进行成本预测估算,得到拼音输入成本估值COST4
本发明的进一步改进在于,所述步骤S301中,通过公式
Figure BDA0002605730870000021
Figure BDA0002605730870000022
对候选字选择进行成本预测估算,其中,α1和α2为加权系数,α1∈(0,1),α2∈(0,1),且α12=1;CFi为对应OCR识别算法候选中第i个候选的可信度;m为候选字的候选个数;t1为本次候选字选择操作所需估算时间,f(t1)为时间t1的归一化函数;PH1为选择候选字操作获得正确结果的历史数据概率;PS1为选择候选字操作的历史数据概率;n为大于1的幂数。
本发明的进一步改进在于,所述步骤S302中,通过公式COST2=(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算,其中,α3和α4为加权系数,α3∈(0,1),α4∈(0,1),且α34=1;t2为本次语音辅助选择操作所需估算时间,f(t2)为时间t2的归一化函数;N为前端检测的当前环境噪声水平,f(N)为噪声N的归一化函数;PH2为选择语音辅助操作获得正确结果的历史数据概率;PS2为选择语音辅助操作的历史数据概率;n为大于1的幂数。
本发明的进一步改进在于,所述步骤S303中,通过公式
Figure BDA0002605730870000031
Figure BDA0002605730870000032
对手写输入进行成本预测估算,其中,α5为加权系数,α5∈(0,1);bi为第i个候选字的笔画数;m为候选字的候选个数;f(b)为对笔画数的归一化函数,
Figure BDA0002605730870000033
PH3为选择手写输入操作获得正确结果的历史数据概率;PS3为选择手写输入操作的历史数据概率;n为大于1的幂数。
本发明的进一步改进在于,所述步骤S304中,通过公式COST4=α6f(t4)(1-PH4)(1-PS4)n对拼音输入进行成本预测估算,其中,α6为加权系数,α6∈(0,1);t4为本次拼音选择操作所需估算时间,f(t4)为时间t4的归一化函数;PH4为选择拼音输入操作获得正确结果的历史数据概率;PS4为选择拼音输入操作的历史数据概率;n为大于1的幂数。
本发明的进一步改进在于,所述步骤S4中,根据成本预测估算结果,选取最小的成本Cmin=Min(COST1,COST2,COST3,COST4)作为下一步操作的选择,Min()指的是取最小值操作。
本发明的进一步改进在于,所述步骤S4中,在选择了下一步操作之后,将选择的操作返回至历史数据库中,并执行选择操作,然后对当前操作得到的结果进行二次确认,若确认正确则结束,否则返回选取新的下一步操作;其中,确认的结果和相关操作数据也写入历史数据库中。
本发明的进一步改进在于,所述步骤S4中,如果最小的成本Cmin=候选字成本估值COST1,则返回执行步骤S2;如果最小的成本Cmin=语音辅助成本估值COST2,则开启前端麦克风采集所选择的待识别字的音频信号,并进行语音识别,并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认;如果最小的成本Cmin=手写输入成本估值COST3则执行手写输入后返回步骤S2;如果最小的成本Cmin=拼音输入成本估值COST4则执行拼音输入后返回步骤S2。
本发明还提供一种基于多感知数据的交互式文本识别系统,采用了如上所述的基于多感知数据的交互式文本识别方法,并包括:
图像识别模块,用于对待识别图像进行拍照识别;
首次确认模块,用于将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
成本预估模块,用于结合历史数据统计对下一步操作的效果进行成本预测估算;
二次确认模块,用于根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
与现有技术相比,本发明的有益效果在于:基于图像的视觉信息进行识别,并引入了音频信息和触觉信息以增强场景适应性,提升了识别正确率,在此基础上,还通过对下一步操作的效果进行成本预测估算,以便实现智能排序和推送操作选择,进而通过视觉、听觉和触觉实现多感知数据的融合和交互,以确保达到用户满意的识别率,并且以符合用户个人操作特点的方式实现。且整个交互式识别的处理过程路径不再是单一的,而是可以根据处理场景和用户使用习惯进行调整和学习,每一步都比前一步离最终的正确结果更进一步,中间任何一步识别到达要求后也能够直接结束。因此,识别正确率和处理效率高,并有效地提升了产品的人性化设计程度和适应性能。
附图说明
图1是本发明一种实施例的工作流程示意图;
图2是本发明一种实施例的详细工作流程示意图;
图3是本发明一种实施例所使用的票据照片。
具体实施方式
下面结合附图,对本发明的较优的实施例作进一步的详细说明。
本例通过步骤S1采用单据和票证文本识别方法,即OCR识别算法,可以在智能手机、平板电脑和普通电脑等装置上实现。单据和票证上的文字数量虽然不多,但通常应用场景中对其文字识别精度要求很高,因为上面的信息都是些关键信息比如票据名称、姓名、金额和时间之类,传统的OCR识别方法很难适应广泛的应用场景并提供用户满意的识别精度。
本例基于多感知数据的交互式文本识别方法和系统,可以便捷地满足用户对单据、票证识别精度的要求。在本例中,单据和票证的识别不是当作一个单一的视觉信息处理过程,而是结合视觉信息、听觉信息和触觉信息进行辨识的一个交互过程,这更符合人类认知的探索过程,分步骤不断递进纠错、最终获得正确结果。整个处理过程的路径不是单一的,而是会根据处理场景和用户使用习惯进行调整,目标就是通过尽量小的代价和资源占用,便捷地获得满意的处理结果。不是把识别任务完全集中依赖后台处理(这种通常是延后的处理),而是在需求发生时即通过现场前端与后台的交互完成,这样对现实世界的各种场景有广泛的适应性。
更为具体的,如图1和图2所示,本例提供一种基于多感知数据的交互式文本识别方法,包括以下步骤:
步骤S1,对待识别图像进行拍照识别;
步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;
步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
本例所述步骤S1中,即通过手机、平板或电脑等设备(以下简称前端)拍取待识别单据和票证的图像,上传至后台服务器进行识别处理。这里的识别处理可以用开源的软件,比如流行的Tesseract和Densenet等;也可以用商业软件如国际知名ABBY公司的Finereader,以及国内汉王、清华文通的软件,或者百度和腾讯的人工智能平台通过API调用等。由于拍照图像质量(包括单据和票证本身的质量)不同,识别正确率通常不会特别高,不能直接满足商业应用的要求。
以图3的这张票据为例,第一行“通用定额发票”的通字,受红色印章的影响,被识别成了“逋”。进一步检查OCR识别算法的候选排列:逋、遍、通、道、遗、趟、逭、逍、蘧、遄。可见正确的“通”排在了第3位,OCR算法认为“逋”更接近图像中待识别的字。
本例所述步骤S2中,对识别错误的文字,用户只需手指点触,就会弹出识别的候选字,比如对识别错误的“逋”,会弹出“逋、遍、通、道、遗、趟、逭、逍、蘧、遄”这些字让用户选择。由于屏幕大小的限制和人们视觉的特点,每次显示的识别候选字数是有限的,通常在10个以内。如果能选出识别正确的字,则本错字处理过程结束,用户继续核对其它内容,直到所有内容核对完毕,退出识别过程,输出识别结果;否则转下一步骤。
本例所述步骤S3用于结合历史数据统计对下一步操作的效果进行成本预测估算,旨在达到的技术效果是:a)下一步操作就能尽可能获得正确结果;b)下一步操作的代价尽量小;c)下一步操作尽量符合用户使用习惯。进行成本预测估算得到的成本估值,就是为了对这些可能矛盾的因素的量化和综合估值。此时有继续浏览剩余OCR候选字(在还有候选字的情况下)、通过语音辅助识别以及直接手写或拼音输入等几种选择。
本例需要估算每一种操作后,获得正确结果的可能性以及所需成本,以便提供最优的处理路径。影响能否得正确结果的因素包括根据当前已知数据评估采用这种操作的合理性估值,这样设计的目的为尽量争取一步就获得正确结果,使得代价最小。同时也要尽量降低使用场景因素的影响,比如采用语音识别时必须考虑环境的噪音水平影响。另外,采用候选的操作获得正确结果的历史数据统计也要考虑进去,进而提高整体准确率。
如果一种操作的历史数据有较高的正确率支持应该获得加分,因此,本例也将这一因素进行了综合。影响操作成本的因素还包括该操作的时间成本以及用户使用习惯等的历史数据统计。用户的使用习惯也是对决策有重要影响因素,比如一个胖手指的用户可能会避免屏幕上的细微输入,而一个口音重的用户采用语音辅助识别的效果会不如预期等。这种用户习惯数据更好地体现了用户的个体差异,是处理流程因人而异的个性化处理。本例通过对这些因素的综合考虑,旨在以最小的成本、尽快且方便地获得正确的识别结果。
更为具体的,本例所述步骤S3包括以下子步骤中的任意一项或几项:
步骤S301,对候选字选择进行成本预测估算,得到候选字成本估值COST1
步骤S302,对语音辅助进行成本预测估算,得到语音辅助成本估值COST2
步骤S303,对手写输入进行成本预测估算,得到手写输入成本估值COST3
步骤S304,对拼音输入进行成本预测估算,得到拼音输入成本估值COST4
如图2所示,本例所述步骤S301至步骤S304是并列的步骤,也可以是根据实际情况进行选择的步骤,并非每一次都需要步骤S301至步骤S304中的全部步骤。
本例所述步骤S301用于预估候选字选择成本,如果候选字在步骤S2中已经用完,则先跳过该步骤,否则进行成本估算;本例所述步骤S301通过公式
Figure BDA0002605730870000071
Figure BDA0002605730870000072
对候选字选择进行成本预测估算,其中,α1和α2为加权系数,α1∈(0,1),α2∈(0,1),且α12=1;CFi为对应OCR识别算法候选中第i个候选的可信度,i为1至m的自然数;m为候选字的候选个数;t1为本次候选字选择操作所需时间,即显示候选字并且用户点击触屏所需的时间,该时间t1可以通过历史数据中该用户最近的三次该操作的时间的平均值获得,初次使用时可以用一个经验值,比如t1=3秒;f(t1)为时间t1的归一化函数,可用公式
Figure BDA0002605730870000073
表示,T1为该操作可能的最大值,所述操作可能的最大值T1也称操作可能的预设值,考虑通常的使用场景,从候选字显示到用户视觉确认和手指选择点击,该操作可能的最大值T1只需要选取达到预设值的即可,比如选T1=5秒足够了,当然,这个5秒的预设值也是可以根据实际需要进行自定义修改和调整的;PH1为选择候选字操作获得正确结果的历史数据概率,基于之前的操作数据统计并及时更新,比如总共有100次选择本操作,其中40次选择本操作后获得正确结果,则PH1=40/100=0.4;PS1为选择候选字操作的历史数据概率,比如总共进行了100次进入第三个步骤的识别,其中选择本操作的次数是30,另外70次选择了语音、手写或者拼音输入,则PS1=30/100=0.3;n为大于1的幂数,幂数n的设置是基于考虑用户选择操作的个人因素,包括上面提到的胖手指或者口音等因素,本例通过幂数n来强化其重要性,优选数值区间为[1,2],比如n=1.5时,针对个人习惯的适应效果就非常好。
本例所述步骤S302中,通过公式COST2=(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算,其中,α3和α4为加权系数,α3∈(0,1),α4∈(0,1),且α34=1;t2为本次语音辅助选择操作所需时间,即前端设备自动开启麦克并接收用户一个字发音的时间,可以历史数据中该用户最近的三次该操作的时间的平均值获得,初次使用时可以用一个经验值,比如t2=4秒;f(t2)为时间t2的归一化函数,同样的,可用公式
Figure BDA0002605730870000074
表示,T2为该操作可能的最大值,考虑通常的使用场景,从前端(手机、平板)自动打开麦克,到用户完成待识别字的发音,选T2=6秒足够了,当然,这个6秒的预设值也是可以根据实际需要进行自定义修改和调整的;N为前端检测的当前环境噪声水平,可以通过相关开源代码(如分贝仪软件等)来实现其估值,环境噪声越大,选择语音辅助的成本越高;f(N)为噪声N的归一化函数,同样的,可用公式
Figure BDA0002605730870000081
表示,Nmax为日常生活中噪声水平的最大值。根据国家城市区域环境噪声标准(GB3096-93),70分贝为很吵,已经伤害听力神经了,选Nmax=70db足够了。PH2为选择语音辅助操作获得正确结果的历史数据概率;PS2为选择语音辅助操作的历史数据概率;n为大于1的幂数;历史数据概率PH2、历史数据概率PS2和幂数n的含义和获取过程参照步骤S301。
本例所述步骤S303中,通过公式
Figure BDA0002605730870000082
对手写输入进行成本预测估算,其中,α5为加权系数,α5∈(0,1);bi为第i个候选字(OCR识别算法的候选字中第i个候选字)的笔画数,尽管这些候选字可能没有正确的识别结果,但这些候选字都是与正确结果相近的字,因此可以用他们笔画的平均值作为该字的预期笔画数;m为候选字的候选个数;f(b)为对笔画数的归一化函数,
Figure BDA0002605730870000083
同样的,可用公式
Figure BDA0002605730870000084
表示,其中B为常用汉字笔画的最大值,通常取B=36。尽管有个别冷僻汉字有甚至60笔画以上,但不影响本公式有效使用。PH3为选择手写输入操作获得正确结果的历史数据概率;PS3为选择手写输入操作的历史数据概率;n为大于1的幂数;同样的,历史数据概率PH3、历史数据概率PS3和幂数n的含义和获取过程也参照步骤S301。
本例所述步骤S304中,通过公式COST4=α6f(t4)(1-PH4)(1-PS4)n对拼音输入进行成本预测估算,其中,α6为加权系数,α6∈(0,1);t4为本次拼音选择操作所需估算时间,可以历史数据中该用户最近的三次该操作的时间的平均值获得,初次使用时可以用一个经验值,比如t4=5秒;f(t4)为时间t4的归一化函数,同样的,可用公式
Figure BDA0002605730870000085
表示,其中T4为拼音输入操作的最大时间,考虑实际应用场景选T4=10秒足够了,当然,这个10秒的预设值也是可以根据实际需要进行自定义修改和调整的;PH4为选择拼音输入操作获得正确结果的历史数据概率;PS4为选择拼音输入操作的历史数据概率;n为大于1的幂数;同样的,历史数据概率PH4、历史数据概率PS4和幂数n的含义和获取过程也参照步骤S301。
本例所述步骤S4中,根据成本预测估算结果,选取最小的成本Cmin=Min(COST1,COST2,COST3,COST4)作为下一步操作的选择;在选择了下一步操作之后,将选择的操作返回至历史数据库中,并执行选择操作,然后对当前操作得到的结果进行二次确认,若确认正确则结束,否则返回选取新的下一步操作,其中,确认的结果和相关操作数据也写入历史数据库中。如图2所示。
本例所述步骤S4中,如果最小的成本Cmin=候选字成本估值COST1,则返回执行步骤S2;如果最小的成本Cmin=语音辅助成本估值COST2,则开启前端麦克风采集所选择的待识别字的音频信号,并进行语音识别,并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认,该过程详细描述如下:可采用开源的DeepSpeech等流行算法或者基于隐马尔可夫模型的传统算法实现语音识别,也可调用百度或者科大讯飞等公司提供的API接口实现。由于大多数字形相似的文字,其发音都存在较大的差别,通过语音信号的识别结果与OCR识别结果的交集可以有效改进识别的正确率。设Cv={Cv1,Cv2,…,Cvn}为视觉信息识别候选集合(OCR识别候选集合),Ca={Ca1,Ca2,…,Can}为语音信息识别候选集合,Ci为视觉信息识别候选集合Cv和语音信息识别候选集合Ca之间的交集,如果Ci∈Cv,并且Ci∈Ca,则优先将交集Ci作为推荐候选给客户确认。剩余的候选字集合为语音信息识别候选集合Ca中可信度排名靠前的候选,这样既可能提高识别的准确度,实现智能排序,又可以防止OCR识别结果很差时,正确结果不出现在OCR候选集中的情形。如果用户确认得到正确结果,则本次识别结束,转步骤S2继续确认其它文本;否则返回步骤S3。
本例所述步骤S4中,如果最小的成本Cmin=手写输入成本估值COST3则执行手写输入后返回步骤S2继续确认其它文本;如果最小的成本Cmin=拼音输入成本估值COST4则执行拼音输入后返回步骤S2继续确认其它文本。
通过上述处理流程完成对相关单据的识别处理,由于所有识别的文字结果都已经用户确认,因而是可以满足单据识别后文本的使用要求,识别率高、针对性强且智能程度高。
本例还提供一种基于多感知数据的交互式文本识别系统,采用了如上所述的基于多感知数据的交互式文本识别方法,并包括:
图像识别模块,用于对待识别图像进行拍照识别;
首次确认模块,用于将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
成本预估模块,用于结合历史数据统计对下一步操作的效果进行成本预测估算;
二次确认模块,用于根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
综上所述,本例基于图像的视觉信息进行识别,并引入了音频信息和触觉信息以增强场景适应性,提升了识别正确率。在此基础上,还通过对下一步操作的效果进行成本预测估算,以便实现智能排序和推送操作选择,进而通过视觉、听觉和触觉实现多感知数据的融合和交互,以确保达到用户满意的识别率。且整个交互式识别的处理过程路径不再是单一的,而是可以根据处理场景和用户使用习惯进行调整和学习,每一步都比前一步离最终的正确结果更进一步,中间任何一步识别到达要求后也能够直接结束,因此,识别正确率和处理效率高,并有效地提升了产品的人性化设计程度和适应性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多感知数据的交互式文本识别方法,其特征在于,包括以下步骤:
步骤S1,对待识别图像进行拍照识别;
步骤S2,将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
步骤S3,结合历史数据统计对下一步操作的效果进行成本预测估算;
步骤S4,根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
2.根据权利要求1所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S3包括以下子步骤中的任意一项或几项:
步骤S301,对候选字选择进行成本预测估算,得到候选字成本估值COST1
步骤S302,对语音辅助进行成本预测估算,得到语音辅助成本估值COST2
步骤S303,对手写输入进行成本预测估算,得到手写输入成本估值COST3
步骤S304,对拼音输入进行成本预测估算,得到拼音输入成本估值COST4
3.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S301中,通过公式
Figure FDA0002605730860000011
对候选字选择进行成本预测估算,其中,α1和α2为加权系数,α1∈(0,1),α2∈(0,1),且α12=1;CFi为对应OCR识别算法候选中第i个候选的可信度;m为候选字的候选个数;t1为本次候选字选择操作所需估算时间,f(t1)为时间t1的归一化函数;PH1为选择候选字操作获得正确结果的历史数据概率;PS1为选择候选字操作的历史数据概率;n为大于1的幂数。
4.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S302中,通过公式COST2=(α3f(t2)+α4f(N))(1-PH2)(1-PS2)n对语音辅助进行成本预测估算,其中,α3和α4为加权系数,α3∈(0,1),α4∈(0,1),且α34=1;t2为本次语音辅助选择操作所需时间,f(t2)为时间t2的归一化函数;N为前端检测的当前环境噪声水平,f(N)为噪声N的归一化函数;PH2为选择语音辅助操作获得正确结果的历史数据概率;PS2为选择语音辅助操作的历史数据概率;n为大于1的幂数。
5.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S303中,通过公式
Figure FDA0002605730860000012
对手写输入进行成本预测估算,其中,α5为加权系数,α5∈(0,1);bi为第i个候选字的笔画数;m为候选字的候选个数;f(b)为对笔画数的归一化函数,
Figure FDA0002605730860000021
PH3为选择手写输入操作获得正确结果的历史数据概率;PS3为选择手写输入操作的历史数据概率;n为大于1的幂数。
6.根据权利要求2所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S304中,通过公式COST4=α6f(t4)(1-PH4)(1-PS4)n对拼音输入进行成本预测估算,其中,α6为加权系数,α6∈(0,1);t4为本次拼音选择操作所需估算时间,f(t4)为时间t4的归一化函数;PH4为选择拼音输入操作获得正确结果的历史数据概率;PS4为选择拼音输入操作的历史数据概率;n为大于1的幂数。
7.根据权利要求2至6任意一项所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S4中,根据成本预测估算结果,选取最小的成本Cmin=Min(COST1,COST2,COST3,COST4)作为下一步操作的选择。
8.根据权利要求7所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S4中,在选择了下一步操作之后,将选择的操作返回至历史数据库中,并执行选择操作,然后对当前操作得到的结果进行二次确认,若确认正确则结束,否则返回选取新的下一步操作;其中,确认的结果和相关操作数据也写入历史数据库中。
9.根据权利要求7所述的基于多感知数据的交互式文本识别方法,其特征在于,所述步骤S4中,如果最小的成本Cmin=候选字成本估值COST1,则返回执行步骤S2;如果最小的成本Cmin=语音辅助成本估值COST2,则开启前端麦克风采集所选择的待识别字的音频信号,并进行语音识别,并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认;如果最小的成本Cmin=手写输入成本估值COST3则执行手写输入后返回步骤S2;如果最小的成本Cmin=拼音输入成本估值COST4则执行拼音输入后返回步骤S2。
10.一种基于多感知数据的交互式文本识别系统,其特征在于,采用了如权利要求1至9任意一项所述的基于多感知数据的交互式文本识别方法,并包括:
图像识别模块,用于对待识别图像进行拍照识别;
首次确认模块,用于将后台识别好的结果发送至前端进行显示,并通过前端对识别结果进行确认和纠错;
成本预估模块,用于结合历史数据统计对下一步操作的效果进行成本预测估算;
二次确认模块,用于根据成本预测估算结果选择下一步操作,并对当前结果进行二次确认。
CN202010737768.2A 2020-07-28 2020-07-28 一种基于多感知数据的交互式文本识别方法和系统 Active CN111881825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010737768.2A CN111881825B (zh) 2020-07-28 2020-07-28 一种基于多感知数据的交互式文本识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010737768.2A CN111881825B (zh) 2020-07-28 2020-07-28 一种基于多感知数据的交互式文本识别方法和系统

Publications (2)

Publication Number Publication Date
CN111881825A true CN111881825A (zh) 2020-11-03
CN111881825B CN111881825B (zh) 2023-10-17

Family

ID=73200271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010737768.2A Active CN111881825B (zh) 2020-07-28 2020-07-28 一种基于多感知数据的交互式文本识别方法和系统

Country Status (1)

Country Link
CN (1) CN111881825B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390165A (zh) * 2023-10-27 2024-01-12 北京中科闻歌科技股份有限公司 基于多模态大模型的图表问答方法、系统、介质和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134548A (ja) * 2016-01-26 2017-08-03 株式会社友功社 情報処理装置、情報処理方法、及びプログラム
US20180060743A1 (en) * 2016-08-31 2018-03-01 Google Inc. Electronic Book Reader with Supplemental Marginal Display
CN108536655A (zh) * 2017-12-21 2018-09-14 广州市讯飞樽鸿信息技术有限公司 一种基于手持智能终端的场景化朗读音频制作方法及系统
CN109767335A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 双录质检方法、装置、计算机设备及存储介质
CN110154053A (zh) * 2019-06-05 2019-08-23 东北师范大学 一种基于ocr的室内讲解机器人及其讲解方法
CN111046223A (zh) * 2019-11-14 2020-04-21 李秉伦 一种视觉障碍者语音辅助方法、终端、服务器及系统
CN111062397A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 一种智能票据处理系统
CN111369299A (zh) * 2020-03-11 2020-07-03 腾讯科技(深圳)有限公司 识别的方法、装置、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134548A (ja) * 2016-01-26 2017-08-03 株式会社友功社 情報処理装置、情報処理方法、及びプログラム
US20180060743A1 (en) * 2016-08-31 2018-03-01 Google Inc. Electronic Book Reader with Supplemental Marginal Display
CN108536655A (zh) * 2017-12-21 2018-09-14 广州市讯飞樽鸿信息技术有限公司 一种基于手持智能终端的场景化朗读音频制作方法及系统
CN109767335A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 双录质检方法、装置、计算机设备及存储介质
CN110154053A (zh) * 2019-06-05 2019-08-23 东北师范大学 一种基于ocr的室内讲解机器人及其讲解方法
CN111046223A (zh) * 2019-11-14 2020-04-21 李秉伦 一种视觉障碍者语音辅助方法、终端、服务器及系统
CN111062397A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 一种智能票据处理系统
CN111369299A (zh) * 2020-03-11 2020-07-03 腾讯科技(深圳)有限公司 识别的方法、装置、设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAKCHAI TANGWANNAWIT等: "Recognition of Lottery Digits Using OCR Technology", 《2016 12TH INTERNATIONAL CONFERENCE ON SIGNAL-IMAGE TECHNOLOGY & INTERNET-BASED SYSTEMS (SITIS)》, pages 632 - 636 *
叶智铭: "针对保险理赔单据的光学字符识别的研究与实现", 《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》, no. 01, pages 161 - 285 *
贾全烨等: "一种基于循环神经网络的电网客服语音文本实体识别算法", 《供用电》, vol. 37, no. 6, pages 13 - 20 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390165A (zh) * 2023-10-27 2024-01-12 北京中科闻歌科技股份有限公司 基于多模态大模型的图表问答方法、系统、介质和设备

Also Published As

Publication number Publication date
CN111881825B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN108351986B (zh) 学习系统及装置和方法、训练数据生成装置及生成方法
US20190087472A1 (en) Method for providing intelligent service, intelligent service system and intelligent terminal based on artificial intelligence
CN109599187B (zh) 一种在线问诊的分诊方法、服务器、终端、设备及介质
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
CN111758116B (zh) 脸部图像识别系统、识别器生成装置、识别装置与系统
TW201234213A (en) Multimedia input method
CN110135257A (zh) 业务推荐数据生成、装置、计算机设备和存储介质
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
US20180373705A1 (en) User device and computer program for translating recognized speech
CN112396054A (zh) 文本提取方法、装置、电子设备及存储介质
CN111651571A (zh) 基于人机协同的会话实现方法、装置、设备及存储介质
CN110459242A (zh) 变声检测方法、终端及计算机可读存储介质
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN110399473A (zh) 为用户问题确定答案的方法和装置
CN110704599B (zh) 为预测模型生成样本、预测模型训练的方法及装置
CN111881825B (zh) 一种基于多感知数据的交互式文本识别方法和系统
CN110503101A (zh) 字形评价方法、装置、设备及计算机可读存储介质
CN112036174A (zh) 一种标点标注方法及装置
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN113392205A (zh) 用户画像构建方法、装置、设备及存储介质
US20220292587A1 (en) Method and apparatus for displaying product review information, electronic device and storage medium
WO2019170038A1 (zh) 一种目标屏幕确定方法、装置及存储介质
US20230066331A1 (en) Method and system for automatically capturing and processing an image of a user
CN114969544A (zh) 基于热点数据的推荐内容生成方法、装置、设备及介质
CN112349290B (zh) 一种基于三元组的语音识别准确率计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant