CN111881825A

CN111881825A - 一种基于多感知数据的交互式文本识别方法和系统

Info

Publication number: CN111881825A
Application number: CN202010737768.2A
Authority: CN
Inventors: 万享; 罗登; 樊向东; 张玉志
Original assignee: Datum Data Co ltd
Current assignee: Datum Data Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-03
Anticipated expiration: 2040-07-28
Also published as: CN111881825B

Abstract

本发明提供一种基于多感知数据的交互式文本识别方法和系统，所述基于多感知数据的交互式文本识别方法包括：步骤S1，对待识别图像进行拍照识别；步骤S2，将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；步骤S3，结合历史数据统计对下一步操作的效果进行成本预测估算；步骤S4，根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。本发明引入了音频信息和触觉信息以增强场景适应性，提升了识别正确率，在此基础上，还通过对下一步操作的效果进行成本预测估算，以便实现智能排序和推送操作选择，确保达到以与用户相适的操作以获得更高的识别率，并有效地提升了产品的人性化设计程度和适应性能。

Description

一种基于多感知数据的交互式文本识别方法和系统

技术领域

本发明涉及一种文本识别方法，尤其涉及一种基于多感知数据的交互式文本识别方法，并设计采用了该基于多感知数据的交互式文本识别方法的交互式文本识别系统。

背景技术

各种单据、发票、证件和表格的文本识别在今天是比较普遍的场景，因为各种处理流程都是建立在提取的数据的基础上。比如医保理赔需要把患者的病历和医院发票等图像上传，并识别出其中的相关信息进行理赔处理；财务报销时也要将各种差旅、住宿和餐饮等发票拍照上传处理；其它应用场景包括身份信息的识别和征信数据的提取等等。但由于各种单据、证件的大小、规格、样式和材质都不同，以及上面的字体、颜色以及文本与表格线、印章的重叠等诸多情形，这些都严重影响了文字识别技术(OCR)的效率和正确率。目前的解决方案包括预设模板的方法，即对不同的单据设置相应的模板来提升识别率；或者基于单据的颜色信息来改进识别率，但这些方法都有其局限性，并没有被广泛接受和在实际中运用起来。

目前已有方案的主要问题在于，面对大小、规格、样式(包括字体、文字颜色、印章等差异)和材质都不同单据，缺乏系统的解决办法。所作的努力只是从某个方面进行局部的改进。比如预设模板的方法，需要识别的各种场景模板何其多，能通过预设覆盖多少种？而且，即使预设了对应的模板，也并不能保证识别率。因为还有获取图像的质量问题，以及打印时文字的偏移问题等，这些都在一定程度上削弱了预设模板的效果，因为要识别的文字可能并不在模板预设的位置。

而基于单据颜色改进识别率的方法在实际应用中有很大局限性，因为单据的颜色不是由识别服务的提供方决定的，而是原来的使用单位印制的。再加上单据图像获取(尤其是手机拍照方式)中光照等因素影响，利用颜色信息对OCR的改进也是非常有限的。包括近期一些利用深度学习方法，也只是有限的改进了识别率。深度学习对识别正确率提升总是有瓶颈的，并且学习到一定程度就发现新增学习样例对算法的改进作用越来越小甚至没有改进。各种票据的多样性和现实中影响图像质量复杂性导致其不可能彻底解决识别问题，这也是在实验室或者人工智能大赛中表现亮眼的算法，在实际落地时常常遇到的窘境。

因此，在实际作为商业服务的单据OCR识别中，不得不在后期投入大量人力进行质检校对。即便因此耗费大量人工成本，也不能保证识别的正确率完全达到期待的水平。因为人工校对受人为因素的影响太多，比如经验、专注和认真程度等。这种前期完全依赖AI(Artificial Intelligence)技术，后期再投人力进行质检纠错的方法，也与实际的需求存在差距。

发明内容

本发明所要解决的技术问题是需要提供一种能够结合视觉信息、听觉信息和触觉信息进行辨识和交互，并实现智能排序和推送操作选择的交互式文本识别方法，进而提高识别正确率和处理效率，并提升产品的人性化设计程度和适应性能。在此基础上，还进一步提供采用了该交互式文本识别方法的交互式文本识别系统。

对此，本发明提供一种基于多感知数据的交互式文本识别方法，包括以下步骤：

步骤S1，对待识别图像进行拍照识别；

步骤S2，将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；

步骤S3，结合历史数据统计对下一步操作的效果进行成本预测估算；

步骤S4，根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。

本发明的进一步改进在于，所述步骤S3包括以下子步骤中的任意一项或几项：

步骤S301，对候选字选择进行成本预测估算，得到候选字成本估值COST₁；

步骤S302，对语音辅助进行成本预测估算，得到语音辅助成本估值COST₂；

步骤S303，对手写输入进行成本预测估算，得到手写输入成本估值COST₃；

步骤S304，对拼音输入进行成本预测估算，得到拼音输入成本估值COST₄。

本发明的进一步改进在于，所述步骤S301中，通过公式

对候选字选择进行成本预测估算，其中，α₁和α₂为加权系数，α₁∈(0,1)，α₂∈(0,1)，且α₁+α₂＝1；CF_i为对应OCR识别算法候选中第i个候选的可信度；m为候选字的候选个数；t₁为本次候选字选择操作所需估算时间，f(t₁)为时间t₁的归一化函数；P_H1为选择候选字操作获得正确结果的历史数据概率；P_S1为选择候选字操作的历史数据概率；n为大于1的幂数。

本发明的进一步改进在于，所述步骤S302中，通过公式COST₂＝(α₃f(t₂)+α₄f(N))(1-P_H2)(1-P_S2)ⁿ对语音辅助进行成本预测估算，其中，α₃和α₄为加权系数,α₃∈(0,1)，α₄∈(0,1)，且α₃+α₄＝1；t₂为本次语音辅助选择操作所需估算时间，f(t₂)为时间t₂的归一化函数；N为前端检测的当前环境噪声水平，f(N)为噪声N的归一化函数；P_H2为选择语音辅助操作获得正确结果的历史数据概率；P_S2为选择语音辅助操作的历史数据概率；n为大于1的幂数。

本发明的进一步改进在于，所述步骤S303中，通过公式

对手写输入进行成本预测估算，其中，α₅为加权系数，α₅∈(0,1)；b_i为第i个候选字的笔画数；m为候选字的候选个数；f(b)为对笔画数的归一化函数,

P_H3为选择手写输入操作获得正确结果的历史数据概率；P_S3为选择手写输入操作的历史数据概率；n为大于1的幂数。

本发明的进一步改进在于，所述步骤S304中，通过公式COST₄＝α₆f(t₄)(1-P_H4)(1-P_S4)ⁿ对拼音输入进行成本预测估算，其中，α₆为加权系数，α₆∈(0,1)；t₄为本次拼音选择操作所需估算时间，f(t₄)为时间t₄的归一化函数；P_H4为选择拼音输入操作获得正确结果的历史数据概率；P_S4为选择拼音输入操作的历史数据概率；n为大于1的幂数。

本发明的进一步改进在于，所述步骤S4中，根据成本预测估算结果，选取最小的成本C_min＝Min(COST₁,COST₂,COST₃,COST₄)作为下一步操作的选择，Min()指的是取最小值操作。

本发明的进一步改进在于，所述步骤S4中，在选择了下一步操作之后，将选择的操作返回至历史数据库中，并执行选择操作，然后对当前操作得到的结果进行二次确认，若确认正确则结束，否则返回选取新的下一步操作；其中，确认的结果和相关操作数据也写入历史数据库中。

本发明的进一步改进在于，所述步骤S4中，如果最小的成本C_min＝候选字成本估值COST₁，则返回执行步骤S2；如果最小的成本C_min＝语音辅助成本估值COST₂，则开启前端麦克风采集所选择的待识别字的音频信号，并进行语音识别，并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认；如果最小的成本C_min＝手写输入成本估值COST₃则执行手写输入后返回步骤S2；如果最小的成本C_min＝拼音输入成本估值COST₄则执行拼音输入后返回步骤S2。

本发明还提供一种基于多感知数据的交互式文本识别系统，采用了如上所述的基于多感知数据的交互式文本识别方法，并包括：

图像识别模块，用于对待识别图像进行拍照识别；

首次确认模块，用于将后台识别好的结果发送至前端进行显示，并通过前端对识别结果进行确认和纠错；

成本预估模块，用于结合历史数据统计对下一步操作的效果进行成本预测估算；

二次确认模块，用于根据成本预测估算结果选择下一步操作，并对当前结果进行二次确认。

与现有技术相比，本发明的有益效果在于：基于图像的视觉信息进行识别，并引入了音频信息和触觉信息以增强场景适应性，提升了识别正确率，在此基础上，还通过对下一步操作的效果进行成本预测估算，以便实现智能排序和推送操作选择，进而通过视觉、听觉和触觉实现多感知数据的融合和交互，以确保达到用户满意的识别率，并且以符合用户个人操作特点的方式实现。且整个交互式识别的处理过程路径不再是单一的，而是可以根据处理场景和用户使用习惯进行调整和学习，每一步都比前一步离最终的正确结果更进一步，中间任何一步识别到达要求后也能够直接结束。因此，识别正确率和处理效率高，并有效地提升了产品的人性化设计程度和适应性能。

附图说明

图1是本发明一种实施例的工作流程示意图；

图2是本发明一种实施例的详细工作流程示意图；

图3是本发明一种实施例所使用的票据照片。

具体实施方式

下面结合附图，对本发明的较优的实施例作进一步的详细说明。

本例通过步骤S1采用单据和票证文本识别方法，即OCR识别算法，可以在智能手机、平板电脑和普通电脑等装置上实现。单据和票证上的文字数量虽然不多，但通常应用场景中对其文字识别精度要求很高，因为上面的信息都是些关键信息比如票据名称、姓名、金额和时间之类，传统的OCR识别方法很难适应广泛的应用场景并提供用户满意的识别精度。

本例基于多感知数据的交互式文本识别方法和系统，可以便捷地满足用户对单据、票证识别精度的要求。在本例中，单据和票证的识别不是当作一个单一的视觉信息处理过程，而是结合视觉信息、听觉信息和触觉信息进行辨识的一个交互过程，这更符合人类认知的探索过程，分步骤不断递进纠错、最终获得正确结果。整个处理过程的路径不是单一的，而是会根据处理场景和用户使用习惯进行调整，目标就是通过尽量小的代价和资源占用，便捷地获得满意的处理结果。不是把识别任务完全集中依赖后台处理(这种通常是延后的处理)，而是在需求发生时即通过现场前端与后台的交互完成，这样对现实世界的各种场景有广泛的适应性。

更为具体的，如图1和图2所示，本例提供一种基于多感知数据的交互式文本识别方法，包括以下步骤：

步骤S1，对待识别图像进行拍照识别；

本例所述步骤S1中，即通过手机、平板或电脑等设备(以下简称前端)拍取待识别单据和票证的图像，上传至后台服务器进行识别处理。这里的识别处理可以用开源的软件，比如流行的Tesseract和Densenet等；也可以用商业软件如国际知名ABBY公司的Finereader,以及国内汉王、清华文通的软件，或者百度和腾讯的人工智能平台通过API调用等。由于拍照图像质量(包括单据和票证本身的质量)不同，识别正确率通常不会特别高，不能直接满足商业应用的要求。

以图3的这张票据为例，第一行“通用定额发票”的通字，受红色印章的影响，被识别成了“逋”。进一步检查OCR识别算法的候选排列：逋、遍、通、道、遗、趟、逭、逍、蘧、遄。可见正确的“通”排在了第3位，OCR算法认为“逋”更接近图像中待识别的字。

本例所述步骤S2中，对识别错误的文字，用户只需手指点触，就会弹出识别的候选字，比如对识别错误的“逋”，会弹出“逋、遍、通、道、遗、趟、逭、逍、蘧、遄”这些字让用户选择。由于屏幕大小的限制和人们视觉的特点，每次显示的识别候选字数是有限的，通常在10个以内。如果能选出识别正确的字，则本错字处理过程结束，用户继续核对其它内容,直到所有内容核对完毕，退出识别过程，输出识别结果；否则转下一步骤。

本例所述步骤S3用于结合历史数据统计对下一步操作的效果进行成本预测估算，旨在达到的技术效果是：a)下一步操作就能尽可能获得正确结果；b)下一步操作的代价尽量小；c)下一步操作尽量符合用户使用习惯。进行成本预测估算得到的成本估值，就是为了对这些可能矛盾的因素的量化和综合估值。此时有继续浏览剩余OCR候选字(在还有候选字的情况下)、通过语音辅助识别以及直接手写或拼音输入等几种选择。

本例需要估算每一种操作后，获得正确结果的可能性以及所需成本，以便提供最优的处理路径。影响能否得正确结果的因素包括根据当前已知数据评估采用这种操作的合理性估值，这样设计的目的为尽量争取一步就获得正确结果，使得代价最小。同时也要尽量降低使用场景因素的影响，比如采用语音识别时必须考虑环境的噪音水平影响。另外，采用候选的操作获得正确结果的历史数据统计也要考虑进去，进而提高整体准确率。

如果一种操作的历史数据有较高的正确率支持应该获得加分，因此，本例也将这一因素进行了综合。影响操作成本的因素还包括该操作的时间成本以及用户使用习惯等的历史数据统计。用户的使用习惯也是对决策有重要影响因素，比如一个胖手指的用户可能会避免屏幕上的细微输入，而一个口音重的用户采用语音辅助识别的效果会不如预期等。这种用户习惯数据更好地体现了用户的个体差异，是处理流程因人而异的个性化处理。本例通过对这些因素的综合考虑，旨在以最小的成本、尽快且方便地获得正确的识别结果。

更为具体的，本例所述步骤S3包括以下子步骤中的任意一项或几项：

如图2所示，本例所述步骤S301至步骤S304是并列的步骤，也可以是根据实际情况进行选择的步骤，并非每一次都需要步骤S301至步骤S304中的全部步骤。

本例所述步骤S301用于预估候选字选择成本，如果候选字在步骤S2中已经用完，则先跳过该步骤，否则进行成本估算；本例所述步骤S301通过公式

对候选字选择进行成本预测估算，其中，α₁和α₂为加权系数，α₁∈(0,1)，α₂∈(0,1)，且α₁+α₂＝1；CF_i为对应OCR识别算法候选中第i个候选的可信度，i为1至m的自然数；m为候选字的候选个数；t₁为本次候选字选择操作所需时间，即显示候选字并且用户点击触屏所需的时间，该时间t₁可以通过历史数据中该用户最近的三次该操作的时间的平均值获得，初次使用时可以用一个经验值，比如t₁＝3秒；f(t₁)为时间t₁的归一化函数，可用公式

表示，T₁为该操作可能的最大值,所述操作可能的最大值T₁也称操作可能的预设值，考虑通常的使用场景，从候选字显示到用户视觉确认和手指选择点击，该操作可能的最大值T₁只需要选取达到预设值的即可，比如选T₁＝5秒足够了，当然，这个5秒的预设值也是可以根据实际需要进行自定义修改和调整的；P_H1为选择候选字操作获得正确结果的历史数据概率,基于之前的操作数据统计并及时更新，比如总共有100次选择本操作，其中40次选择本操作后获得正确结果，则P_H1＝40/100＝0.4；P_S1为选择候选字操作的历史数据概率,比如总共进行了100次进入第三个步骤的识别，其中选择本操作的次数是30，另外70次选择了语音、手写或者拼音输入，则P_S1＝30/100＝0.3；n为大于1的幂数，幂数n的设置是基于考虑用户选择操作的个人因素，包括上面提到的胖手指或者口音等因素，本例通过幂数n来强化其重要性，优选数值区间为[1,2]，比如n＝1.5时，针对个人习惯的适应效果就非常好。

本例所述步骤S302中，通过公式COST₂＝(α₃f(t₂)+α₄f(N))(1-P_H2)(1-P_S2)ⁿ对语音辅助进行成本预测估算，其中，α₃和α₄为加权系数,α₃∈(0,1)，α₄∈(0,1)，且α₃+α₄＝1；t₂为本次语音辅助选择操作所需时间，即前端设备自动开启麦克并接收用户一个字发音的时间，可以历史数据中该用户最近的三次该操作的时间的平均值获得，初次使用时可以用一个经验值，比如t₂＝4秒；f(t₂)为时间t₂的归一化函数，同样的，可用公式

表示，T₂为该操作可能的最大值，考虑通常的使用场景，从前端(手机、平板)自动打开麦克，到用户完成待识别字的发音，选T₂＝6秒足够了，当然，这个6秒的预设值也是可以根据实际需要进行自定义修改和调整的；N为前端检测的当前环境噪声水平，可以通过相关开源代码(如分贝仪软件等)来实现其估值，环境噪声越大，选择语音辅助的成本越高；f(N)为噪声N的归一化函数，同样的，可用公式

表示，N_max为日常生活中噪声水平的最大值。根据国家城市区域环境噪声标准(GB3096-93)，70分贝为很吵，已经伤害听力神经了，选N_max＝70db足够了。P_H2为选择语音辅助操作获得正确结果的历史数据概率；P_S2为选择语音辅助操作的历史数据概率；n为大于1的幂数；历史数据概率P_H2、历史数据概率P_S2和幂数n的含义和获取过程参照步骤S301。

本例所述步骤S303中，通过公式

对手写输入进行成本预测估算，其中，α₅为加权系数，α₅∈(0,1)；b_i为第i个候选字(OCR识别算法的候选字中第i个候选字)的笔画数，尽管这些候选字可能没有正确的识别结果，但这些候选字都是与正确结果相近的字，因此可以用他们笔画的平均值作为该字的预期笔画数；m为候选字的候选个数；f(b)为对笔画数的归一化函数,

同样的，可用公式

表示，其中B为常用汉字笔画的最大值，通常取B＝36。尽管有个别冷僻汉字有甚至60笔画以上，但不影响本公式有效使用。P_H3为选择手写输入操作获得正确结果的历史数据概率；P_S3为选择手写输入操作的历史数据概率；n为大于1的幂数；同样的，历史数据概率P_H3、历史数据概率P_S3和幂数n的含义和获取过程也参照步骤S301。

本例所述步骤S304中，通过公式COST₄＝α₆f(t₄)(1-P_H4)(1-P_S4)ⁿ对拼音输入进行成本预测估算，其中，α₆为加权系数，α₆∈(0,1)；t₄为本次拼音选择操作所需估算时间，可以历史数据中该用户最近的三次该操作的时间的平均值获得，初次使用时可以用一个经验值，比如t₄＝5秒；f(t₄)为时间t₄的归一化函数，同样的，可用公式

表示，其中T₄为拼音输入操作的最大时间，考虑实际应用场景选T₄＝10秒足够了，当然，这个10秒的预设值也是可以根据实际需要进行自定义修改和调整的；P_H4为选择拼音输入操作获得正确结果的历史数据概率；P_S4为选择拼音输入操作的历史数据概率；n为大于1的幂数；同样的，历史数据概率P_H4、历史数据概率P_S4和幂数n的含义和获取过程也参照步骤S301。

本例所述步骤S4中，根据成本预测估算结果，选取最小的成本C_min＝Min(COST₁,COST₂,COST₃,COST₄)作为下一步操作的选择；在选择了下一步操作之后，将选择的操作返回至历史数据库中，并执行选择操作，然后对当前操作得到的结果进行二次确认，若确认正确则结束，否则返回选取新的下一步操作，其中，确认的结果和相关操作数据也写入历史数据库中。如图2所示。

本例所述步骤S4中，如果最小的成本C_min＝候选字成本估值COST₁，则返回执行步骤S2；如果最小的成本C_min＝语音辅助成本估值COST₂，则开启前端麦克风采集所选择的待识别字的音频信号，并进行语音识别，并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认，该过程详细描述如下：可采用开源的DeepSpeech等流行算法或者基于隐马尔可夫模型的传统算法实现语音识别，也可调用百度或者科大讯飞等公司提供的API接口实现。由于大多数字形相似的文字，其发音都存在较大的差别，通过语音信号的识别结果与OCR识别结果的交集可以有效改进识别的正确率。设C_v＝{C_v1，C_v2,…,C_vn}为视觉信息识别候选集合(OCR识别候选集合)，C_a＝{C_a1，C_a2,…,C_an}为语音信息识别候选集合，C_i为视觉信息识别候选集合C_v和语音信息识别候选集合C_a之间的交集，如果C_i∈C_v，并且C_i∈C_a,则优先将交集C_i作为推荐候选给客户确认。剩余的候选字集合为语音信息识别候选集合C_a中可信度排名靠前的候选，这样既可能提高识别的准确度，实现智能排序，又可以防止OCR识别结果很差时，正确结果不出现在OCR候选集中的情形。如果用户确认得到正确结果，则本次识别结束，转步骤S2继续确认其它文本；否则返回步骤S3。

本例所述步骤S4中，如果最小的成本C_min＝手写输入成本估值COST₃则执行手写输入后返回步骤S2继续确认其它文本；如果最小的成本C_min＝拼音输入成本估值COST₄则执行拼音输入后返回步骤S2继续确认其它文本。

通过上述处理流程完成对相关单据的识别处理，由于所有识别的文字结果都已经用户确认，因而是可以满足单据识别后文本的使用要求，识别率高、针对性强且智能程度高。

本例还提供一种基于多感知数据的交互式文本识别系统，采用了如上所述的基于多感知数据的交互式文本识别方法，并包括：

图像识别模块，用于对待识别图像进行拍照识别；

综上所述，本例基于图像的视觉信息进行识别，并引入了音频信息和触觉信息以增强场景适应性，提升了识别正确率。在此基础上，还通过对下一步操作的效果进行成本预测估算，以便实现智能排序和推送操作选择，进而通过视觉、听觉和触觉实现多感知数据的融合和交互，以确保达到用户满意的识别率。且整个交互式识别的处理过程路径不再是单一的，而是可以根据处理场景和用户使用习惯进行调整和学习，每一步都比前一步离最终的正确结果更进一步，中间任何一步识别到达要求后也能够直接结束，因此，识别正确率和处理效率高，并有效地提升了产品的人性化设计程度和适应性能。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多感知数据的交互式文本识别方法，其特征在于，包括以下步骤：

步骤S1，对待识别图像进行拍照识别；

2.根据权利要求1所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S3包括以下子步骤中的任意一项或几项：

3.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S301中，通过公式

4.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S302中，通过公式COST₂＝(α₃f(t₂)+α₄f(N))(1-P_H2)(1-P_S2)ⁿ对语音辅助进行成本预测估算，其中，α₃和α₄为加权系数,α₃∈(0,1)，α₄∈(0,1)，且α₃+α₄＝1；t₂为本次语音辅助选择操作所需时间，f(t₂)为时间t₂的归一化函数；N为前端检测的当前环境噪声水平，f(N)为噪声N的归一化函数；P_H2为选择语音辅助操作获得正确结果的历史数据概率；P_S2为选择语音辅助操作的历史数据概率；n为大于1的幂数。

5.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S303中，通过公式

6.根据权利要求2所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S304中，通过公式COST₄＝α₆f(t₄)(1-P_H4)(1-P_S4)ⁿ对拼音输入进行成本预测估算，其中，α₆为加权系数，α₆∈(0,1)；t₄为本次拼音选择操作所需估算时间，f(t₄)为时间t₄的归一化函数；P_H4为选择拼音输入操作获得正确结果的历史数据概率；P_S4为选择拼音输入操作的历史数据概率；n为大于1的幂数。

7.根据权利要求2至6任意一项所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S4中，根据成本预测估算结果，选取最小的成本C_min＝Min(COST₁,COST₂,COST₃,COST₄)作为下一步操作的选择。

8.根据权利要求7所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S4中，在选择了下一步操作之后，将选择的操作返回至历史数据库中，并执行选择操作，然后对当前操作得到的结果进行二次确认，若确认正确则结束，否则返回选取新的下一步操作；其中，确认的结果和相关操作数据也写入历史数据库中。

9.根据权利要求7所述的基于多感知数据的交互式文本识别方法，其特征在于，所述步骤S4中，如果最小的成本C_min＝候选字成本估值COST₁，则返回执行步骤S2；如果最小的成本C_min＝语音辅助成本估值COST₂，则开启前端麦克风采集所选择的待识别字的音频信号，并进行语音识别，并先推荐视觉信息识别候选集合和语音信息识别候选集合之间的交集用于确认；如果最小的成本C_min＝手写输入成本估值COST₃则执行手写输入后返回步骤S2；如果最小的成本C_min＝拼音输入成本估值COST₄则执行拼音输入后返回步骤S2。

10.一种基于多感知数据的交互式文本识别系统，其特征在于，采用了如权利要求1至9任意一项所述的基于多感知数据的交互式文本识别方法，并包括：

图像识别模块，用于对待识别图像进行拍照识别；