CN114187592A

CN114187592A - 用于对听写内容进行实时处理的方法及其相关产品

Info

Publication number: CN114187592A
Application number: CN202111478647.1A
Authority: CN
Inventors: 沈磊; 林辉; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-15

Abstract

本发明的实施方式提供了一种用于对听写内容进行实时处理的方法及相关产品。其中，该方法包括：在播报关于所述听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像；从所述听写图像中识别出关于所述音频任务对应的听写结果；以及对识别出的听写结果进行批改。此外，还提供了一种用于对听写内容进行实时处理的装置、设备和计算机可读存储介质。通过本发明的方案，能够实时识别和批改每个音频任务对应的听写结果，有效提高识别和批改的精准率。

Description

用于对听写内容进行实时处理的方法及其相关产品

技术领域

本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及对用于对听写内容进行实时处理的方法、用于对听写内容进行实时处理的装置、执行前述方法的设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

随着新一波人工智能浪潮的发展，人们的生活、生产、学习等很多场景都充满了人工智能(特别是深度学习)技术带来的深刻影响。计算机视觉被认为是深度学习落地非常成功的应用方向，例如人脸识别、智慧安防、光学字符识别(Optical CharacterRecognition，OCR)等技术为人们带来极大的便利和安全。特别是，深度学习应用到智能学习硬件(例如智慧学习台灯或平板)，可以为学生提供功能丰富、效果优异的辅助学习功能(例如听写训练)。

相关技术中智慧学习硬件所采用的听写技术，通常涉及对听写完的作业本进行拍照，然后对所有生词的听写结果进行识别，最后对所有听写识别内容进行批改。其更具体地涉及以下过程：

1.需要智能学习硬件一次性播报本次听写生词表中的所有生词，用户根据听到的语音播报写出听写结果。

2.在本次听写的所有生词听写完成后，才会打开摄像头对听写结果进行拍照，然后输入到文本检测和识别算法模型中以识别出用户听写的内容。

3.将识别到的听写结果与智能学习硬件播报的生词列表进行匹配做批改。

可以看出，现有的听写技术无法准确将播报的生词音频与听写结果相对应。其依赖于在所有生词听写完之后，一起对听写本进行拍照识别。这种方式损失了听写结果的时间信息，从而导致无法回溯到某个听写结果对应的是哪次播报的音频。此外，如果两次听写生词有包含关系，那么这两次听写结果与两个播报的音频之间可能会出现误匹配，从而对批改造成干扰，最终影响批改结果。

发明内容

已知的对听写内容的识别和批改效果不理想，这是非常令人烦恼的过程。

为此，非常需要一种改进的用于对听写内容进行实时处理的方案及其相关产品，能够实时识别和批改每个音频任务对应的听写结果，从而有效提高识别和批改的精准率。

在本上下文中，本发明的实施方式期望提供一种用于对听写内容进行实时处理的方案及其相关产品。

在本发明实施方式的第一方面中，提供了一种用于对听写内容进行实时处理的方法，包括：在播报关于所述听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像；从所述听写图像中识别出关于所述音频任务对应的听写结果；以及对识别出的听写结果进行批改。

在本发明的一个实施例中，其中实时获取关于每个所述音频任务对应的听写图像包括：在播报完每个所述音频任务的预定时间内，实时获取通过输入介质呈现在输出介质上的内容的图像信息。

在本发明的另一个实施例中，其中从所述听写图像中识别出关于所述音频任务对应的听写结果包括：根据所述图像信息，获取目标部位的书写轨迹，其中所述目标部位为所述输入介质接触所述输出介质的部位；根据所述目标部位的书写轨迹，从所述图像信息中提取出待识别区域；以及从所述待识别区域中识别出所述听写结果。

在本发明的又一个实施例中，其中根据所述图像信息获取目标部位的书写轨迹包括：获取所述目标部位在所述图像信息中的时序位置信息；以及根据所述时序位置信息和所述图像信息确定所述书写轨迹。

在本发明的再一个实施例中，其中获取所述目标部位在所述图像信息中的时序位置信息包括：从所述图像信息中提取关于所述目标部位的图像；根据所述目标部位的图像，确定所述目标部位是否处于写字状态；以及获取处于写字状态的目标部位在所述图像信息中的时序位置信息。

在本发明的一个实施例中，其中所述图像信息包括多帧图片，其中从所述图像信息中提取所述目标部位的图像并确定所述目标部位是否处于写字状态包括：根据从任一帧图片中提取出的所述目标部位的图像，确定所述目标部位是否处于写字状态；或者从连续的多帧图片中提取所述目标部位的图像；将提取出的图像组成视频流数据；以及根据所述视频流数据确定所述目标部位是否处于写字状态。

在本发明的另一个实施例中，还包括：根据对所述听写结果的批改结果，播报下一所述音频任务。

在本发明的再一个实施例中，其中根据对所述听写结果的批改结果播报下一所述音频任务包括：判断所述听写结果与基准信息是否匹配；响应于所述听写结果与基准信息相匹配，执行播报下一所述音频任务的操作；或者响应于所述听写结果与基准信息不匹配，在所述预定时间内重复执行对听写结果的识别和批改操作，并在当前时间大于所述预定时间时，执行播报下一所述音频任务的操作。

在本发明实施方式的第二方面中，提供了一种用于对听写内容进行实时处理的装置，包括：音频播报单元，其配置成播报关于所述听写内容中的一个或多个音频任务；图像采集单元，其配置成在所述音频播报单元播报关于所述听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像；以及处理单元，其与所述音频播报单元和所述图像采集单元连接，并配置成用于：从所述听写图像中识别出关于所述音频任务对应的听写结果；对识别出的听写结果进行批改。

在本发明的一个实施例中，其中所述图像采集单元具体配置成：在所述音频播报单元播报完每个所述音频任务的预定时间内，实时获取通过输入介质呈现在输出介质上的内容的图像信息。

在本发明的另一个实施例中，其中所述处理单元包括：轨迹获取单元，其配置成根据所述图像信息，获取目标部位的书写轨迹，其中所述目标部位为所述输入介质接触所述输出介质的部位；区域提取单元，其配置成根据所述目标部位的书写轨迹，从所述图像信息中提取出待识别区域；以及内容识别单元，用于从所述待识别区域中识别出所述听写结果。

在本发明的再一个实施例中，其中所述轨迹获取单元包括：位置获取单元，其配置成获取所述目标部位在所述图像信息中的时序位置信息；以及轨迹确定单元，其配置成根据所述时序位置信息和所述图像信息确定所述书写轨迹。

在本发明的又一个实施例中，其中所述位置获取单元具体配置成：从所述图像信息中提取关于所述目标部位的图像；根据所述目标部位的图像，确定所述目标部位是否处于写字状态；以及获取处于写字状态的目标部位在所述图像信息中的时序位置信息。

在本发明的一个实施例中，其中所述图像信息包括多帧图片，所述位置获取单元具体配置成：根据从任一帧图片中提取出的所述目标部位的图像，确定所述目标部位是否处于写字状态；或者从连续的多帧图片中提取所述目标部位的图像；将提取出的图像组成视频流数据；以及根据所述视频流数据确定所述目标部位是否处于写字状态。

在本发明的另一个实施例中，其中所述处理单元还配置成：根据对所述听写结果的批改结果，触发所述音频播报单元播报下一所述音频任务。

在本发明的再一个实施例中，其中所述处理单元具体配置成：判断所述听写结果与基准信息是否匹配；响应于所述听写结果与基准信息相匹配，触发所述音频播报单元执行播报下一所述音频任务的操作；或者响应于所述听写结果与基准信息不匹配，在所述预定时间内重复执行对听写结果的识别和批改操作，并在当前时间大于所述预定时间时，触发所述音频播报单元执行播报下一所述音频任务的操作。

在本发明实施方式的第三方面中，提供了一种设备，包括：处理器；以及存储器，其存储有用于对听写内容进行实时处理的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，包含用于对听写内容进行实时处理的程序指令，当所述程序指令由处理器执行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。

根据本发明实施方式的用于对听写内容进行实时处理的方案及其相关产品，可以通过实时获取到的关于听写内容中每个音频任务对应的听写图像，实现对每个音频任务的听写结果的识别和批改。可以看出，本发明的方案通过实时的图像采集及识别处理，能够将音频任务和其听写结果进行关联处理，从而有效提高识别和批改的准确率。在本发明的一些实施例中，在采集听写图像时，可以在每个音频任务播报完的预定时间内实时采集由输入介质呈现在输出介质上的图像信息，以基于对图像的时间信息和空间信息的识别，精准地匹配音频任务和其听写结果，从而有效避免误匹配，大大提高了识别以及批改准确率。

在本发明的另一些实施例中，还可以利用书写轨迹的追踪技术来锁定图像中的待识别区域，能够最大程度上排除图像中可能存在的其他干扰信息，从而进一步提高听写结果的识别准确率。另外，在本发明的再一些实施例中，通过对目标部位的时序位置信息的获取和其写字状态的判断，不仅能够实现对用户真实书写轨迹的精准追踪，而且可以摆脱固定书写用具(例如触控板等)的限制，以提高用户在听写过程的使用体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明一个实施例的用于对听写内容进行实时处理的方法流程图；

图3示意性地示出了根据本发明一个实施例的从听写图像中识别出听写结果的方法流程图；

图4示意性地示出了根据本发明另一个实施例的用于对听写内容进行实时处理的方法流程图；

图5示意性地示出了根据本发明另一个实施例的从听写图像中识别出听写结果的方法；

图6示意性地示出了根据本发明一个实施例的用于对听写内容进行实时处理的装置的示意图；

图7示意性地示出了根据本发明另一个实施例的用于对听写内容进行实时处理的装置的示意图；以及

图8示意性地示出了根据本发明实施例的设备的示意框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备_。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”“单元”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种用于对听写内容进行实时处理的方法及其相关产品。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的听写技术对用户的友好度较差，且识别和批改准确率不理想。例如，现有听写技术多采用在一次性播报完全部音频之后，统一获取并识别呈现在书写本上的内容。具体地，用户需要使用智能学习硬件一次性播报本次听写生词表中的所有生词，并在听写完成后触发摄像头采集听写结果，然后将听写结果与智能学习硬件播报的生词列表进行匹配批改。这一过程不仅需要用户具有较高的听写技巧来避免漏听，而且无法回溯听写结果与音频之间的关联关系。例如，在音频任务中有“pencil”和“pencil case”时，可能会将“pencil”的音频与“pencil case”听写结果匹配，或者将“pencil case”的音频与“pencil”的听写结果匹配，从而影响识别和批改的准确性。

基于此，发明人发现若要保证识别和批改的准确性，其关键问题在于如何将播报的音频与实时听写结果进行关联。具体地，可以通过实时获取每个音频任务对应的听写图像，以基于对听写图像的识别将其与音频任务进行关联，从而提高识别和批改准确率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图2来描述根据本发明示例性实施方式的用于对听写内容进行实时处理的方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一个实施例的用于对听写内容进行实时处理的方法200流程图。如图2所示，在步骤S201处，可以在播报关于听写内容中的一个或多个音频任务过程中，实时获取关于每个音频任务对应的听写图像。需要说明的是，在本发明的上下文中，听写内容可以包含任何能够用于听写训练的音视频内容(例如包含各种语言词汇的音视频)。该听写内容可以是系统预设的，也可以由用户自定义。而对于前述的音频任务的数量，具体可以根据听写内容和听写需求(例如难易度)等来进行确定。

接着，在步骤S202处，可以从听写图像中识别出关于音频任务对应的听写结果。在一些实施例中，对于听写图像的识别可以采用通用的文本检测和算法识别模型来实现(例如OCR技术)。这里的听写图像是针对每个音频任务实时采集的，以基于听写图像的时间信息对听写图像与音频任务进行关联，从而实现音频任务与识别出的听写结果之间的关联。需要说明的是，这里对听写图像的识别过程的描述仅是示例性说明，本发明的方案并不受此限制。

接着，在步骤S203处，可以对识别出的听写结果进行批改。具体地，在一些实施例中，可以将听写结果与预存储的基准信息进行匹配来实现对听写结果的批改操作。由此，通过实时获取到的关于听写内容中每个音频任务对应的听写图像，实现对音频任务和其听写结果的关联处理，从而有效提高识别和批改的准确率。

以下对图2中各个步骤的一些可能的示例性实现方式进一步说明。

在一些实施例中，实时获取前述听写图像具体涉及，可以在播报完每个音频任务的预定时间内，实时获取通过输入介质呈现在输出介质上的内容的图像信息。需要说明的是，前述的预定时间可以根据实际应用场景进行调整。前述的输出介质可以包括任何能够呈现字迹的介质(例如纸质听写本、桌面、画板、电子触控板等)，而输入介质可以包括任何能够与输出介质相配合呈现字迹的介质(例如普通笔、电子手写笔、手指等)。

此外，发明人还发现现有听写技术采用对所有内容统一拍照识别时，如果听写本在听写前就有文字存在，也会被一起识别出来，这些背景文字都会被认为是用户本次的听写内容。特别是，背景文字恰好在生词列表中，那么这个背景文字会在批改阶段造成误匹配，从而导致批改出错。基于此，发明人还发现若要提高识别和批改的准确率，对听写内容处理的关键还在于如何识别听写结果。例如，可以通过对用户书写轨迹的追踪来精准识别出听写结果。

具体地，图3示出了在一些实施例中获取听写结果的具体步骤。如图3所示，在步骤S301处，可以根据前述的图像信息获取目标部位的书写轨迹。具体地，在一些实施例中，可以获取该目标部位在图像信息中的时序位置信息，然后根据前述的时序位置信息和图像信息来确定书写轨迹。可以理解的是，这里的目标部位为输入介质接触输出介质的部位，例如可以是笔尖或手指尖。另外，关于时序位置信息的获取将在后文中进行描述。

接着，在步骤S302处，可以根据前述的目标部位的书写轨迹从图像信息中提取出待识别区域。例如，该图像信息包括多帧图片，可以按照书写轨迹在最后一帧图片中扣出相应区域，以作为待识别区域。然后，在步骤S303处，可以从前述的待识别区域中识别出听写结果。例如，可以利用文本检测技术识别待识别区域中的文本框，然后基于OCR技术识别出该文本框中的内容以作为听写结果。需要说明的是，这里对听写结果的识别过程的描述仅是示例性说明，本发明的方案并不受此限制。

进一步地，在一些实施例中，对于前述时序位置信息，具体可以从前述图像信息中提取关于目标部位的图像(例如笔尖的图像)，然后根据目标部位的图像来确定该目标部位是否处于写字状态，并获取处于写字状态的目标部位在图像信息中的时序位置信息。具体地，在一些实际应用场景中，前述的图像信息可以包括多帧图片。可以从任一帧图片中提取目标部位的图像(例如可以将任一帧图片输入到预定的笔尖检测模型中来实现图像的提取操作)，以基于提取出的图像来确定目标部位是否处于写字状态，从而实现对写字状态的快速识别。

可替换地，在另一些实施例中，还可以从连续的多帧图片中提取出目标部位的图像以组成视频流数据，并根据该视频流数据确定目标部位是否处于写字状态(例如可以视频流数据输入到预定的笔尖分类模型中来实现写字状态的判断)，从而实现对写字状态的精准识别。

需要说明的是，在本发明的上下文中，笔尖检测模型和笔尖分类模型可以是计算机视觉技术中的神经网络模型(例如RCNN模型、SVM模型等)。另外，当输入介质为指尖或其他介质时，可以选择相应的检测和分类模型来处理。本发明的方案通过书写轨迹的追踪技术来锁定图像中的待识别区域，能够最大程度上排除图像中可能存在的其他干扰信息，从而进一步提高听写结果的识别准确率。

在另一些实施例中，在完成对任一音频任务对应的听写结果的批改操作之后，可以根据对该听写结果的批改结果来播报下一音频任务。具体地，在一些实施例中，可以判断该听写结果与基准信息是否匹配，并在确定该听写结果与基准信息相匹配时，可以播报下一音频任务，从而有利于提高听写效率。而在确定听写结果与基准信息不匹配时，可以在预定时间内重复执行对听写结果的识别和批改操作，满足对用户修正结果的批改需求，使得整个听写处理过程更加贴合实际需求。然后，在当前时间大于预定时间时可以继续执行播报下一音频任务的操作，以实现对整个听写过程的合理化调控。

图4示意性地示出了根据本发明另一个实施例的用于对听写内容进行实时处理的方法400流程图。可以理解的是，图4可以是前文结合图2和图3所描述的步骤的一种示例性的实现方式。因此，前文结合图2和图3对各个步骤的细节性描述同样适用于下文。

如图4所示，在步骤S401处，可以执行音频播报。具体地，可以在智能学习硬件(例如智能学习台灯、平板等)进入听写模式后，每次该智能学习硬件可以播报一个生词的音频，让用户在听写本上书。同时，设置一个时间t(比如12s)并开始计时。

接着，在步骤S402处，可以进行实时听写识别。具体地，从计时开始，智能学习硬件中的摄像头可以实时采集用户写字的过程，并实时识别出关于当前生词对应的听写结果。关于听写结果有多种识别方式。图5示出了在一些实施例中识别听写结果的具体步骤。

如图5所示，在步骤S501处，可以进行笔尖检测。例如可以将第i帧图片输入到笔尖检测模型中以得到当前帧中笔尖所在位置的矩形框。接着，在步骤S502处，可以进行笔尖分类。例如可以按照前述矩形框从当前帧图片中扣出笔尖的图片，然后输入至笔尖分类模型以得到笔尖状态是否处于写字状态。可以替换地，还可以采集前后多帧图片以组成一视频流数据，并将该视频流数据输入至笔尖分类模型以得到笔尖状态是否处于写字状态。

若经步骤S502确定笔尖处于写字状态，可以在步骤S503处进行笔尖跟踪。例如，可以将第i帧图片和笔尖位置信息加入到一处于写字状态的笔尖跟踪轨迹中，以形成写字轨迹。然后，在步骤S504处，可以按照前述写字轨迹从图片中扣出写字区域，并输入至文本检测模型中以得到写字区域内的文本框。这一过程中利用文本检测模型可以输出写字区域中所有文本的位置信息。最后，在步骤S505处，可以将前述文本框内的图片扣出以做推图，并推送进OCR进行识别。至此，完成对听写结果的识别。

在完成对当前生词对应的听写结果识别后，继续图4，在步骤S403处，可以批改前述的听写结果是否正确。具体地，可以判断识别出的听写结果与基准生词是否匹配(例如一致)。若确定相匹配，则执行步骤S404，可以记录本次听写结果(例如记录本次听写结果为“写对+1”)，并在记录完成后返回继续下一生词的播报和听写。若确定不匹配(例如不一致)，则执行步骤S405。

在步骤S405处，可以判断是否超时。例如，在确定未超时时，可以返回执行步骤S402。而在确定已达到时间t时，可以记录本次听写结果(例如记录本次听写结果为“写错+1”)，并在记录完成后返回继续下一生词的播报和听写。

通过本发明的方案，可以基于对用户听写过程的图像信息的处理，获得到每个生词对应的精确书写区域，并基于对书写区域的识别和对识别结果的批改，实现效率高以及效果好的实时听写功能。具体地，通过动态的识别每次听写结果来获得时间和空间信息，来实现播报音频与书写内容的一一对应，可以有效避免误匹配，从而提高批改效率和准确率。另外，还可以将获取的每一帧图片与笔尖位置信息相结合，以形成真实写字笔尖运动轨迹(即书写轨迹)，整个过程不需要依赖触控板等硬件，使得用户可以自由选择书写用具(例如画板、听写本、平板等)。此外，还可以利用图片分类或视频分类的手段来判断笔尖是否在写字的状态，可以为执行笔尖轨迹跟踪提供预判前提，使得能够更精确获得用户真实且精确的书写轨迹。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6至图8对本发明示例性实施方式的用于对听写内容进行实时处理的相关产品进行描述。

图6示意性地示出了根据本发明一个实施例的用于对听写内容进行实时处理的装置600的示意图。如图6所示，装置600可以包括音频播报单元601、图像采集单元602和处理单元603。其中，音频播报单元601可以配置成播报关于听写内容中的一个或多个音频任务。在实际应用中，该音频播报单元可以是扬声器或其他音视频播放APP。前述的图像采集单元602可以配置成在音频播报单元播报关于听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像。这里的图像采集单元602可以是摄像头，在实际应用中，该图像采集单元602可以与其他单元一体化设置在一设备中，或者单独设置(在单独设置时可以通过有线或无线通信方式与其他单元进行通信交互)。

前述的处理单元603与音频播报单元601和图像采集单元602连接，并配置成用于从听写图像中识别出关于音频任务对应的听写结果，以及对识别出的听写结果进行批改。在实际应用中，该处理单元可以是CPU或CPU+GPU等，以支持对听写图像的处理操作。该装置可以支持对图像的实时采集及识别处理，并能够将音频任务和其听写结果进行关联处理，从而有效提高识别和批改的准确率。

图7示意性地示出了根据本发明另一个实施例的用于对听写内容进行实时处理的装置700的示意图。需要说明的是，装置700可以理解为是对图6中装置600的功能的进步细化以及拓展。因此，前文结合图6对装置的相关描述同样也适用于下文。

如图7所示，装置700可以包括音频播报单元701、图像采集单元702和处理单元703(可以包括轨迹获取单元703-1、区域提取单元703-2和内容识别单元703-3)。其中，轨迹获取单元703-1还可以包括位置获取单元和轨迹确定单元。

关于音频播报单元701和图像采集单元702，其可以具有图6所描述的音频播报单元和图像采集单元的功能和配置。进一步地，图像采集单元702具体可以在音频播报单元播报完每个音频任务的预定时间内，实时获取通过输入介质(例如笔、手指等)呈现在输出介质(例如听写本、画板、电子触控屏等)上的内容的图像信息。这里对输入介质和输出介质的描述仅是示例性说明，例如输入介质和输出介质可以包括其他能够相互配合呈现书写字迹的介质。

前述的轨迹获取单元703-1可以配置成根据图像信息来获取目标部位(例如笔尖或指尖等)的书写轨迹。具体地，在一些实施例中，可以通过位置获取单元和轨迹确定单元结合目标部位在图像信息中的时序位置信息和图像信息实现对书写轨迹的获取。然后，通过区域提取单元703-2来从图像信息中提取出待识别区域，并通过内容识别单元703-3从待识别区域中识别出所述听写结果。具体可以参考前文结合图5所描述的听写结果的识别过程，这里就不再进行赘述。

此外，处理单元703还可以配置成根据对前述听写结果的批改结果来触发音频播报单元播报下一音频任务。具体地，在确定听写结果正确时，可以直接触发音频播报单元播报下一音频任务。而在确定听写结果错误时，可以根据当前时间是否超过预定时间，选择性地重复执行对听写结果的识别和批改操作。由此，可以实现对整个听写过程的合理化管理，以贴合实际需求。

图8示意性地示出了根据本发明实施例的设备800的示意框图。如图8所示，设备800可以包括处理器801和存储器802。其中存储器802存储有用于对听写内容进行实时处理的计算机指令，当所述计算机指令由处理器801运行时，使得设备800执行根据前文结合图2至图4所描述的方法。例如，在一些实施例中，设备800可以执行对音频任务的播报、对听写图像的实时采集、对听写结果的识别和批改等。基于此，通过设备800可以有效提高对听写内容的识别和批改的准确性。

在一些实施场景中，设备800可以包括具有音视频播报功能和图像采集功能的一体式设备(例如智能学习台灯或平板等)，还可以是改进的分体式设备(例如具有音频播报功能的终端+摄像功能的终端)。本发明的方案对设备800可具备的结构设计并不进行限制。

应当注意，尽管在上文详细描述中提及了用于对听写内容进行实时处理的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于对听写内容进行实时处理的方法，其特征在于，包括：

在播报关于所述听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像；

从所述听写图像中识别出关于所述音频任务对应的听写结果；以及

对识别出的听写结果进行批改。

2.根据权利要求1所述的方法，其特征在于，其中实时获取关于每个所述音频任务对应的听写图像包括：

在播报完每个所述音频任务的预定时间内，实时获取通过输入介质呈现在输出介质上的内容的图像信息。

3.根据权利要求2所述的方法，其特征在于，其中从所述听写图像中识别出关于所述音频任务对应的听写结果包括：

根据所述图像信息，获取目标部位的书写轨迹，其中所述目标部位为所述输入介质接触所述输出介质的部位；

根据所述目标部位的书写轨迹，从所述图像信息中提取出待识别区域；以及

从所述待识别区域中识别出所述听写结果。

4.根据权利要求3所述的方法，其特征在于，其中根据所述图像信息获取目标部位的书写轨迹包括：

获取所述目标部位在所述图像信息中的时序位置信息；以及

根据所述时序位置信息和所述图像信息确定所述书写轨迹。

5.根据权利要求4所述的方法，其特征在于，其中获取所述目标部位在所述图像信息中的时序位置信息包括：

从所述图像信息中提取关于所述目标部位的图像；

根据所述目标部位的图像，确定所述目标部位是否处于写字状态；以及

获取处于写字状态的目标部位在所述图像信息中的时序位置信息。

6.根据权利要求5所述的方法，其特征在于，其中所述图像信息包括多帧图片，其中从所述图像信息中提取所述目标部位的图像并确定所述目标部位是否处于写字状态包括：

根据从任一帧图片中提取出的所述目标部位的图像，确定所述目标部位是否处于写字状态；或者

从连续的多帧图片中提取所述目标部位的图像；

将提取出的图像组成视频流数据；以及

根据所述视频流数据确定所述目标部位是否处于写字状态。

7.根据权利要求2至6中任一项所述的方法，其特征在于，还包括：

根据对所述听写结果的批改结果，播报下一所述音频任务。

8.根据权利要求7所述的方法，其特征在于，其中根据对所述听写结果的批改结果播报下一所述音频任务包括：

判断所述听写结果与基准信息是否匹配；

响应于所述听写结果与基准信息相匹配，执行播报下一所述音频任务的操作；或者

响应于所述听写结果与基准信息不匹配，在所述预定时间内重复执行对听写结果的识别和批改操作，并在当前时间大于所述预定时间时，执行播报下一所述音频任务的操作。

9.一种用于对听写内容进行实时处理的装置，其特征在于，包括：

音频播报单元，其配置成播报关于所述听写内容中的一个或多个音频任务；

图像采集单元，其配置成在所述音频播报单元播报关于所述听写内容中的一个或多个音频任务过程中，实时获取关于每个所述音频任务对应的听写图像；以及

处理单元，其与所述音频播报单元和所述图像采集单元连接，并配置成用于：

从所述听写图像中识别出关于所述音频任务对应的听写结果；

对识别出的听写结果进行批改。

10.根据权利要求9所述的装置，其特征在于，其中所述图像采集单元具体配置成：

在所述音频播报单元播报完每个所述音频任务的预定时间内，实时获取通过输入介质呈现在输出介质上的内容的图像信息。

11.根据权利要求10所述的装置，其特征在于，其中所述处理单元包括：

轨迹获取单元，其配置成根据所述图像信息，获取目标部位的书写轨迹，其中所述目标部位为所述输入介质接触所述输出介质的部位；

区域提取单元，其配置成根据所述目标部位的书写轨迹，从所述图像信息中提取出待识别区域；以及

内容识别单元，用于从所述待识别区域中识别出所述听写结果。

12.根据权利要求11所述的装置，其特征在于，其中所述轨迹获取单元包括：

位置获取单元，其配置成获取所述目标部位在所述图像信息中的时序位置信息；以及

轨迹确定单元，其配置成根据所述时序位置信息和所述图像信息确定所述书写轨迹。

13.根据权利要求12所述的装置，其特征在于，其中所述位置获取单元具体配置成：

从所述图像信息中提取关于所述目标部位的图像；

14.根据权利要求13所述的装置，其特征在于，其中所述图像信息包括多帧图片，所述位置获取单元具体配置成：

从连续的多帧图片中提取所述目标部位的图像；

将提取出的图像组成视频流数据；以及

根据所述视频流数据确定所述目标部位是否处于写字状态。

15.根据权利要求10至14中任一项所述的装置，其特征在于，其中所述处理单元还配置成：

根据对所述听写结果的批改结果，触发所述音频播报单元播报下一所述音频任务。

16.根据权利要求15所述的装置，其特征在于，其中所述处理单元具体配置成：

判断所述听写结果与基准信息是否匹配；

响应于所述听写结果与基准信息相匹配，触发所述音频播报单元执行播报下一所述音频任务的操作；或者

响应于所述听写结果与基准信息不匹配，在所述预定时间内重复执行对听写结果的识别和批改操作，并在当前时间大于所述预定时间时，触发所述音频播报单元执行播报下一所述音频任务的操作。

17.一种设备，其特征在于，包括：

处理器；以及

存储器，其存储有用于对听写内容进行实时处理的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据权利要求1-8的任意一项所述的方法。

18.一种计算机可读存储介质，其特征在于，包含用于对听写内容进行实时处理的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-8的任意一项所述的方法。