CN111524045A

CN111524045A - 一种听写方法及装置

Info

Publication number: CN111524045A
Application number: CN202010286716.8A
Authority: CN
Inventors: 杨昕; 孙梦蕊; 李云锦; 杨万里; 许豪; 马楠; 杨明祺; 唐育洋; 李鑫
Original assignee: Beijing Ape Force Education Technology Co ltd
Current assignee: Beijing Ape Force Education Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-11

Abstract

本申请提供一种听写方法及装置。其中，所述方法包括：接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案；依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像；识别所述作答图像中的答案信息；将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。本申请提供的听写方法，可以提供从读题到答题，再到批改检查的听写练习交互全过程，大大的提升了用户体验感。

Description

一种听写方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种听写方法及装置、计算设备及计算机可读存储介质。

背景技术

随着计算机技术的发展和人民生活水平的提高，教育产品越来越受到大众的欢迎，这些教育产品通常被用来帮助学生用户自主复习功课、完成作业等。

听写功能通常是教育产品中必不可少的功能，包括语文听写、英文听写等。学生用户在使用听写功能时，通常是直接播放待听写内容，比如在进行语文听写时，由于同音字众多，仅仅播放待听写的生字，内容过于单一，往往导致学生用户无法直观想到需要书写的生字内容，并且在答题结束后，无法自动对学生用户的作答情况做出评定，需要家长或老师人工核对批改，耗时耗力，灵活性不高，体验感欠佳。

发明内容

有鉴于此，本申请实施例提供了一种听写方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种听写方法，包括：

接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案；

依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像；

识别所述作答图像中的答案信息；

将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。

进一步地，在所述接收听写指令之前，还包括：

获取原始语音数据和至少一个携带有类别信息的文本题目库；

基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

进一步地，所述听写指令包括待听写题目的目标类别和目标数量；

所述基于所述听写指令在语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案，包括：

基于所述听写指令选择类别信息与所述目标类别相同的语音题目库作为目标语音题目库；

在所述目标语音题目库中随机抽取目标数量的待听写题目以及每个所述待听写题目的正确答案。

进一步地，所述待听写题目包括基础题干和扩展题干；

所述依次播放所述待听写题目，包括：

依次播放每个待听写题目的基础题干和扩展题干。

进一步地，所述基础题干包括待听写字单元，所述扩展题干包括与所述待听写字单元相关的扩展词单元；

所述依次播放每个待听写题目的基础题干和扩展题干，包括：

依次播放每个待听写字单元以及与所述待听写字单元相关的扩展词单元。

进一步地，所述获取作答图像，包括：

启动相机单元，通过所述相机单元拍摄一张或多张作答图像；或

获取图像库，并在所述图像库中获取一张或多张作答图像。

进一步地，所述识别所述作答图像中的答案信息，包括：

将所述作答图像进行文字检测处理，获得多个字单元图像；

将所述字单元图像进行特征提取识别处理，获得所述字单元图像的识别结果；

基于所述字单元图像的识别结果获得所述作答图像的答案信息。

进一步地，所述将所述作答图像进行文字检测处理，获得多个字单元图像，包括：

将所述作答图像进行文字检测处理，获得多个字单元；

基于所述字单元对所述作答图像进行分割处理，获得携带位置信息的多个字单元图像。

进一步地，所述将所述字单元图像进行特征提取识别处理，获得所述字单元图像的识别结果，包括：

将所述字单元图像输入至特征提取单元中进行处理，获得所述字单元图像的特征向量；

将所述字单元图像的特征向量输入至分类识别单元中进行处理，获得所述字单元图像的识别结果。

进一步地，所述基于所述字单元图像的识别结果获得所述作答图像的答案信息，包括：

基于所述字单元图像的位置信息对所述字单元图像进行排序，获得作答图像；

基于所述作答图像中每一个所述字单元图像的识别结果获得所述作答图像的答案信息。

进一步地，所述听写方法，还包括：

在未识别到所述作答图像中的答案信息的情况下，重新获取作答图像。

进一步地，所述重新获取作答图像，包括：

重新启动相机单元，通过所述相机单元拍摄一张或多张作答图像；或

重新获取图像库，并在所述图像库中获取一张或多张作答图像。

进一步地，所述将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果，包括：

将每个待听写题目在所述作答图像中的答案信息与所述正确答案进行对比；

在所述答案信息与所述正确答案相同的情况下，显示正确标识；

在所述答案信息与所述正确答案不同的情况下，显示存疑标识。

进一步地，所述听写方法，还包括：

接收标识点击指令，获取并显示所述正确标识以及所述存疑标识对应的待听写题目的答案解析。

本申请实施例还公开了一种听写装置，包括：

题目抽取模块，被配置为接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案；

题目播放模块，被配置为依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像；

答案识别模块，被配置为识别所述作答图像中的答案信息；

结果生成模块，被配置为将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。

本申请实施例还公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述听写方法的步骤。

本申请实施例还公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述听写方法的步骤。

本申请提供的听写方法及装置，通过基于听写指令在目标语音题目库中抽取多个待听写题目，可以实现不同用户根据自身需求对于题目难度和数量的灵活选择，通过在待听写题目播放完毕的情况下获取作答图像，并识别作答图像中的答案信息，基于作答图像的答案信息与正确答案的对比生成听写结果，可以实现对题目作答情况的自动批改和检查，智能度高、准确度高、灵活性高。本申请提供的听写方法及装置，可以提供从读题到答题，再到批改检查的听写练习交互全过程，大大的提升了用户体验感。

此外，本申请提供的听写方法及装置，在播放待听写题目时，同时播放待听写题目的基础题干与扩展题干，有助于增强学生用户对于待听写题目的理解，帮助学生用户对于待听写题目中的知识点进行进一步的巩固复习。

附图说明

图1是本申请一实施例计算设备的结构示意图；

图2是本申请一实施例听写方法的步骤流程示意图；

图3是本申请一实施例听写方法的作答图像示意图；

图4是本申请一实施例听写方法的步骤流程示意图；

图5是本申请一实施例听写方法的步骤流程示意图；

图6是本申请一实施例听写方法的播放界面示意图；

图7是本申请一实施例听写方法的完成听写界面示意图；

图8是本申请一实施例听写方法的获取作答图像界面示意图；

图9是本申请一实施例听写方法的听写结果界面示意图；

图10是本申请一实施例听写方法的答案解析界面示意图；

图11是本申请一实施例听写装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

语音合成(Text To Speech，TTS)：简称TTS技术，涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术。语音合成就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按字或词分解为音素，并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析，以及将音素生成数字音频然后用扬声器播放出来或者存为声音文件以后用多媒体软件播放。

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks)，通常包括输入层、卷积层、池化层、全连接层、输出层。

在本申请中，提供了一种听写方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的听写方法的示意性流程图，包括步骤S210至步骤S240。

S210、接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案。

具体地，听写指令是一种计算机指令，可以是语音指令、按键指令、触摸指令等各种指令生成方式生成的指令，也可以是“开始答题”、“READY GO”等各种形式的指令，本申请对此不做限制。

语音题目库是一种存储有大量语音题目的数据库，目标语音题目库是存储有用户所需的类型的语音题目的数据库。

更为具体地，所述听写指令包括待听写题目的目标类别和目标数量，可以基于所述听写指令选择类别信息与所述目标类别相同的语音题目库作为目标语音题目库；在所述目标语音题目库中随机抽取目标数量的待听写题目以及每个所述待听写题目的正确答案。

在实际应用中，待听写题目的目标类别既可以是“语文”、“英语”等科目类别，也可以是“一年级语文”、“三年级英语”等科目和难度的组合类别，还可以是“燕子”、“背影”等文章类别，待听写题目的目标数量可供用户自行选择，如“10道题”、“20道题”等，可视具体情况而定，本申请对此不做限制。

本实施例通过接收听写指令，基于听写指令在目标语音题目题库中抽取多个待听写题目以及每个待听写题目的正确答案，可以针对不同用户的不同需求，灵活的进行听写练习，有效提高本实施例所述方法的适用范围，有效提升用户的体验感。

S220、依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像。

具体地，待听写题目可以包括基础题干和扩展题干，其中，基础题干可以是待听写字单元，扩展题干可以是与待听写字单元相关的扩展词单元。比如，在待听写题目为中文的情况下，基础题干可以是“国”、“雪”等字，那么扩展题干可以是“国家”或“国家的国”、“雪花”或“雪花的雪”等词语或词语说明，在待听写题目为英文的情况下，基础题干可以是“add”、“bring”等单词，那么扩展题干可以是“add up”、“bring in”等词组，可以视具体情况而定，本申请对此不做限制。

在实际应用中，可以依次播放每个待听写题目的基础题干和扩展题干，进一步地，可以依次播放每个待听写字单元以及与所述待听写字单元相关的扩展词单元。每一个待听写字单元的扩展题干即扩展词单元可以是一个、两个或多个，可视具体情况而定，本申请对此不做限制。

需要说明的是，在播放待听写题目时，交互界面可以显示该待听写题目中基础题干的拼音，比如，假设待听写题目为“雪，下雪的雪，雪花的雪”，那么在播放上述待听写题目时，交互界面显示“xuě”。

此外，每道待听写题目的重复播放次数以及待听写题目之间的播放间隔可以根据用户需求进行设定，比如，1-3年级语文待听写题目重复播放两次，播放间隔为10s，4-6年级语文待听写题目不重复播放，相邻两道待播放题目之间的播放间隔为15s等，本申请对此不做限制。

由于听写功能中的题目过于单一，比如对于语文科目的听写而言，一道题的题目往往只是一个字，尤其汉语中的同音字众多，如此便导致学生用户往往无法直观的联想到需要书写的内容，本实施例所述的听写方法通过播放待听写题目的基础题干和扩展题干、待听写字单元和扩展词单元可以有效的引导学生用户体会到待听写字单元所处的语境，进而加强学生用户对于待听写字单元的认识和使用。

具体地，可以启动相机单元，通过所述相机单元拍摄一张或多张作答图像。

其中，相机单元可以为手机、平板等移动终端的相机，作答图像是包含有手写答案的照片，在实际应用中可以通过相机对手写答案进行拍摄得到一张或多张作答图像。

具体地，还可以获取图像库，并在所述图像库中获取一张或多张作答图像。

其中，图像库可以为手机、平板等移动终端的相册，用户可以从相册中上传一张或多张包含手写答案的照片作为作答图像。

本实施例所述的听写方法，通过获取作答图像可以实现对于听写结果的及时检查和批改，使用方便，可以减轻家长或老师线下机械式、重复式人工核对批改的压力。

S230、识别所述作答图像中的答案信息。

具体地，所述步骤S230还可以包括步骤S231至步骤S233。

S231、将所述作答图像进行文字检测处理，获得多个字单元图像。

在实际应用中，可以将所述作答图像进行文字检测处理，获得多个字单元；基于所述字单元对所述作答图像进行分割处理，获得携带位置信息的多个字单元图像。

具体地，可以通过多线程调用计算机视觉(ComputerVision)模块，通过文字检测算法得到每个字单元的位置，再以每个字单元的位置为中心对作答图像进行分割，获得携带位置信息的多个字单元图像。

其中，文字检测算法可以选用PSENet检测算法、全卷积one-stage目标检测算法(FCOS)、EAST检测算法、Fots检测算法等，可以视具体情况而定，本申请对此不做限制。

如图3所示，假设通过文字检测算法检测到作答图像中共包含“末”、“杨”、“和”、“安”四个字单元，对每个字单元按照图中虚线进行分割，即得到四个字单元图像。

本实施例所述的听写方法，通过对作答图像进行文字检测处理，获得多个字单元图像，可以有效提高作答图像的识别速度和精度。

S232、将所述字单元图像进行特征提取识别处理，获得所述字单元图像的识别结果。

在实际应用中，可以将所述字单元图像输入至特征提取单元中进行处理，获得所述字单元图像的特征向量；将所述字单元图像的特征向量输入至分类识别单元中进行处理，获得所述字单元图像的识别结果。

具体地，可以通过卷积神经网络(Convolutional Neural Networks,CNN)提取字单元图像中的文字特征，得到字单元图像的特征向量，再通过softmax分类器对字单元图像的特征向量进行分类处理，获得字单元图像的识别结果。比如，字单元图像“末”的识别结果即为“末”。

本实施例所述的听写方法，通过对字单元图像进行特征提取识别处理，获得字单元图像的识别结果，可以有效提高字单元识别的准确性。

S233、基于所述字单元图像的识别结果获得所述作答图像的答案信息。

优选地，可以基于所述字单元图像的位置信息对所述字单元图像进行排序，获得作答图像；基于所述作答图像中每一个所述字单元图像的识别结果获得所述作答图像的答案信息。

具体地，可以基于字单元图像的位置信息通过找行算法对每个字单元图像进行排序，获得作答图像，并根据作答图像中每个字单元图像的位置对其识别结果进行排列，最终获得作答图像的完整答案信息。

此外，在未识别到作答图像中的答案信息的情况下，可以重新获取作答图像，在实际应用中，可以发出重新拍照或重新上传提示，并根据用户的指令重新启动相机单元，通过所述相机单元拍摄一张或多张作答图像；或根据用户的指令重新获取图像库，在所述图像库中获取一张或多张作答图像，以便用户重新拍摄或上传有效的作答图像。

需要说明的是，本实施例所述的听写方法基于字单元图像的识别结果获得作答图像的答案信息，有助于保证答案信息获取的完整性以及批改检查流程的顺利进行，优选地，通过找行算法对字单元图像进行排序，获得作答图像，可以进一步提高听写结果的批改检查效率和准确率。

S240、将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。

具体地，可以将每个待听写题目在所述作答图像中的答案信息与所述正确答案进行对比；在所述答案信息与所述正确答案相同的情况下，显示正确标识；在所述答案信息与所述正确答案不同的情况下，显示存疑标识。

其中，正确标识与存疑标识之间可以显著区分，正确标识和存疑标识可以为任何颜色、形状等，比如，正确标识可以为“对勾”，那么存疑标识可以为“叉号”；正确标识可以为“绿色三角形”，那么存疑标识可以为“红色三角形”等等，正确标识与存疑标识可以位于作答图像的答案信息上方、下方、左方或右方等均可，本申请对此不做限制。

比如，如图3所示，其中黑色圆圈为正确标识，白色圆圈标识存疑标识，可以看出，答案信息“末”、“和”、“安”正确，答案信息“杨”错误。

需要说明的是，答案信息与正确答案不同包括答案信息错误和遗漏的情况，在答案信息错误或遗落的情况下，均显示存疑标识。在听写结果生成后，可以将听写结果存储至该用户的听写数据中，以便用户随时检查学习。

此外，本实施例所述的听写方法，还可以将存疑的字单元以卡片罗列的方式展示在听写结果显示页面下方的区域中，以方便用户查找和巩固复习。

本实施例所述的听写方法，通过将答案信息与待听写题目的正确答案进行对比，生成听写结果，可以方便、快速的对用户的作答内容进行准确的检查和批改，增强与用户的交互能力，提高用户的体验感。

本实施例提供的听写方法，通过基于听写指令在目标语音题目库中抽取多个待听写题目，可以实现不同用户根据自身需求对于题目难度和数量的灵活选择，通过在待听写题目播放完毕的情况下获取作答图像，并识别作答图像中的答案信息，基于作答图像的答案信息与正确答案的对比生成听写结果，可以实现对题目作答情况的自动批改和检查，智能度高、准确度高、灵活性高。本实施例提供的听写方法，可以提供从读题到答题，再到批改检查的听写练习交互全过程，大大的提升了用户体验感。

此外，本实施例提供的听写方法，在播放待听写题目时，同时播放待听写题目的基础题干与扩展题干，有助于增强学生用户对于待听写题目的理解，帮助学生用户对于待听写题目中的知识点进行进一步的巩固复习。

如图4所示，本实施例提供了一种听写方法，包括步骤S410至步骤S460。

S410、获取原始语音数据和至少一个携带有类别信息的文本题目库。

其中，原始语音数据为预先录制的语料，可以为女声、男声或童声语料，也可以为卡通型、严肃型等各种风格类型的声音语料，以提高对不同年龄阶段用户的吸引力、增大受众范围，本申请对此不做限制。

文本题目库是一种存储有大量文本题目的数据库，比如类别信息为“一年级语文”的文本题目库中存储有一年级语文课本中的生字及生字相关的词语，类别信息为“燕子”的文本题目库中存储有课文《燕子》中的生字及生字相关的词语等，其他可以此类推，不再赘述。

S420、基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

具体地，可以通过TTS语音合成技术将原始语音数据和文本题目合成语音版本的待听写题目。利用语音合成技术合成语音版本的待听写题目，可以针对不同难度、不同类型的题目以及不同年龄阶段的受众人群灵活的选择不同风格的语音，以提高本实施例所述听写方法对目标受众人群的吸引力。

需要说明的是，上述步骤S410和步骤S420均为开始听写前的准备工作，文本题目库、语音题目库可以定期更新，无需每次答题前均重复上述两步。

S430、接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案。

S440、依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像。

S450、识别所述作答图像中的答案信息。

S460、将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。

需要说明的是，上述步骤S430至步骤S460的技术方案与上述实施例的听写方法的技术方案属于同一构思，在此未详细描述的细节内容，均可以参见上述实施例的听写方法的技术方案的描述。

S470、接收标识点击指令，获取并显示所述正确标识以及所述存疑标识对应的待听写题目的答案解析。

其中，标识点击指令为用户点击某个待听写题目对应的正确标识或存疑标识产生的指令，在实际应用中，接收到标识点击指令后，获取并显示上述待听写题目的答案解析，答案解析可以包括正确答案、正确答案的拼音注释、组词、例句、典故、用户的手写答案截图展示等，本申请对此不做限制。

比如，如图3所示，假设点击作答图像“杨”对应的白色圆圈存疑标识，显示答案解析如下：

扬yáng

释义：一般是指手向上挥舞，也可以用作扬帆。

组词：扬言、扬声、扬长避短、扬眉吐气、欲扬先抑

例句：比赛前他便扬言，一定会战胜对方。

如图5所示，本实施例提供了一种听写方法，结合具体例子进行说明，包括步骤S510至步骤S570。

S510、接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案。

在本实施例中，听写指令包括“春夏秋冬，10道题”，基于上述听写指令在类别信息为“春夏秋冬”的语音题目库中抽取10道待听写题目以及每个待听写题目的正确答案[春、夏、秋、冬、日、风、国、家、远、天]。

S520、依次播放所述待听写题目。

在本实施例中，设置读词间隔为10s，读词次数为3次，听写顺序为顺序。

如图6所示，图6是本实施例的播放界面示意图，以“春”为例，该待听写题目为“春，春天的春，春风的春”，在播放待听写题目的同时，界面显示待听写题目中基础题干即待听写字单元的拼音chūn。

此外，在拼音界面下方，还可以显示温馨提示，上述温馨提示包括但不限于注意落笔顺序的提示语、正数题目和倒数题目的听写节点提示等。上述注意落笔顺序的提示语可以为“注意落笔顺序，书写工整”、“坐端正，注意落笔顺序”等，上述正数题目的听写节点提示可以为“你真棒，已听写完5个字词，继续加油”、“你真棒，已听写完10个字词，继续加油”等，上述倒数题目的听写节点提示可以为“只剩5个字词，集中注意力，继续加油”、“最后3个字词，书写工整，继续加油”等，以对学生用户起到良好的提示作用，本申请对此不做限制。

在拼音界面的下方，还可以设置“上一题”、“暂停”、“下一题”选项，以提高听写过程的灵活性，在用户未听清上一题内容的情况下点击“上一题”选项，可以返回至上一题并再次播放题目内容；在用户临时有事的情况下，点击“暂停”选项，可以暂停题目的播放；在用户已经作答完毕的情况下，点击“下一题”选项，可以快进至下一题并继续播放下一题的题目内容，节省时间。

S530、判断待听写题目是否播放完毕，若是，则执行步骤S540，若否，则执行步骤S520。

在本实施例中，在第10题播放完毕后，判断待听写题目全部播放完毕，继续执行步骤S540。

S540、判断是否进行检查，若否，则执行步骤S550，若是，则执行步骤S560。

如图7所示，图7是本实施例的完成听写界面示意图，在待听写题目全部播放完毕后，用户可以通过点击“开始检查”按钮对作答内容进行检查。

S550、完成听写练习。

需要说明的是，在听写完毕并且用户选择不进行检查的情况下完成听写，并对此部分的听写内容显示“未检查”标签，以提醒用户此部分听写内容在听写完毕后未进行检查。

S560、获取作答图像，并识别作答图像中的答案信息。

如图8所示，图8是本实施例的获取作答图像界面示意图，选择拍照上传作答图像，并选择检查单张，调用相机进行拍摄后，获得用户的作答图像，并依次识别作答图像中的答案信息。

S570、将作答图像中的答案信息与待听写题目的正确答案进行对比，生成听写结果。

如图9所示，图9是本实施例的听写结果界面示意图，图中对勾为正确标识，以答案信息“春”为例，点击答案信息“春”对应的正确标识，可以得到图10，图10是本实施例的答案解析界面示意图，其中答案解析包括字词解析、组词、教材例句、释义以及典故五部分内容，可以通过滑动或点击操作选择不同部分的内容进行查看。

如图11所示，本实施例提供一种听写装置，包括：

题目抽取模块1110，被配置为接收听写指令，基于所述听写指令在目标语音题目题库中抽取多个待听写题目以及每个所述待听写题目的正确答案；

题目播放模块1120，被配置为依次播放所述待听写题目，并在所述待听写题目播放完毕的情况下获取作答图像；

答案识别模块1130，被配置为识别所述作答图像中的答案信息；

结果生成模块1140，被配置为将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果。

可选地，所述听写装置，还包括：

数据获取模块，被配置为获取原始语音数据和至少一个携带有类别信息的文本题目库；

题目合成模块，被配置为基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

可选地，所述听写指令包括待听写题目的目标类别和目标数量；

所述题目抽取模块1110，进一步被配置为：

可选地，所述待听写题目包括基础题干和扩展题干；

所述题目播放模块1120，进一步被配置为：

依次播放每个待听写题目的基础题干和扩展题干。

可选地，所述基础题干包括待听写字单元，所述扩展题干包括与所述待听写字单元相关的扩展词单元；

所述题目播放模块1120，进一步被配置为：

可选地，所述题目播放模块1120，进一步被配置为：

获取图像库，并在所述图像库中获取一张或多张作答图像。

可选地，所述答案识别模块1130，进一步被配置为：

将所述作答图像进行文字检测处理，获得多个字单元图像；

可选地，所述答案识别模块1130，进一步被配置为：

将所述作答图像进行文字检测处理，获得多个字单元；

可选地，所述答案识别模块1130，进一步被配置为：

可选地，所述听写装置，还包括：

重新获取模块，被配置为在未识别到所述作答图像中的答案信息的情况下，重新获取作答图像。

可选地，所述结果生成模块1140，进一步被配置为：

可选地，所述听写装置，还包括：

答案解析模块，被配置为接收标识点击指令，获取并显示所述正确标识以及所述存疑标识对应的待听写题目的答案解析。

本实施例提供的听写装置，通过基于听写指令在目标语音题目库中抽取多个待听写题目，可以实现不同用户根据自身需求对于题目难度和数量的灵活选择，通过在待听写题目播放完毕的情况下获取作答图像，并识别作答图像中的答案信息，基于作答图像的答案信息与正确答案的对比生成听写结果，可以实现对题目作答情况的自动批改和检查，智能度高、准确度高、灵活性高。本实施例提供的听写装置，可以提供从读题到答题，再到批改检查的听写练习交互全过程，大大的提升了用户体验感。

此外，本实施例提供的听写装置，在播放待听写题目时，同时播放待听写题目的基础题干与扩展题干，有助于增强学生用户对于待听写题目的理解，帮助学生用户对于待听写题目中的知识点进行进一步的巩固复习。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

识别所述作答图像中的答案信息；

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述听写方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的听写方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述听写方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种听写方法，其特征在于，包括：

识别所述作答图像中的答案信息；

2.根据权利要求1所述的听写方法，其特征在于，在所述接收听写指令之前，还包括：

3.根据权利要求2所述的听写方法，其特征在于，所述听写指令包括待听写题目的目标类别和目标数量；

4.根据权利要求1所述的听写方法，其特征在于，所述待听写题目包括基础题干和扩展题干；

所述依次播放所述待听写题目，包括：

依次播放每个待听写题目的基础题干和扩展题干。

5.根据权利要求4所述的听写方法，其特征在于，所述基础题干包括待听写字单元，所述扩展题干包括与所述待听写字单元相关的扩展词单元；

6.根据权利要求1所述的听写方法，其特征在于，所述获取作答图像，包括：

获取图像库，并在所述图像库中获取一张或多张作答图像。

7.根据权利要求1所述的听写方法，其特征在于，所述识别所述作答图像中的答案信息，包括：

将所述作答图像进行文字检测处理，获得多个字单元图像；

8.根据权利要求7所述听写方法，其特征在于，所述将所述作答图像进行文字检测处理，获得多个字单元图像，包括：

将所述作答图像进行文字检测处理，获得多个字单元；

9.根据权利要求7所述的听写方法，其特征在于，所述将所述字单元图像进行特征提取识别处理，获得所述字单元图像的识别结果，包括：

10.根据权利要求8所述的听写方法，其特征在于，所述基于所述字单元图像的识别结果获得所述作答图像的答案信息，包括：

11.根据权利要求7所述的听写方法，其特征在于，还包括：

12.根据权利要求11所述的听写方法，其特征在于，所述重新获取作答图像，包括：

13.根据权利要求1所述的听写方法，其特征在于，所述将所述答案信息与所述待听写题目的正确答案进行对比，生成听写结果，包括：

14.根据权利要求13所述的听写方法，其特征在于，还包括：

15.一种听写装置，其特征在于，包括：

答案识别模块，被配置为识别所述作答图像中的答案信息；

16.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-14任意一项所述方法的步骤。

17.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-14任意一项所述方法的步骤。