CN108322791A

CN108322791A - 一种语音评测方法及装置

Info

Publication number: CN108322791A
Application number: CN201810136069.5A
Authority: CN
Inventors: 高磊
Original assignee: MIGU Digital Media Co Ltd
Current assignee: MIGU Digital Media Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-07-24
Anticipated expiration: 2038-02-09
Also published as: CN108322791B

Abstract

本发明公开了一种语音评测方法，所述方法包括：根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；接收第二终端发送的第一音频数据；向服务器发送所述第一音频数据，使得所述服务器根据所述第一终端显示的所述音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；接收所述服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与所述第二音频数据的特征匹配度所确定；向所述第一终端发送所述第一音频数据的所述评测结果。本发明还同时公开了一种语音评测装置。

Description

一种语音评测方法及装置

技术领域

本发明涉及语音评测技术，具体涉及一种语音评测方法及装置。

背景技术

在现有技术中，用户可以通过手机或电视遥控器等语音采集端来向电视端发送语音指令，电视端接收到所述语音指令后执行相应的操作。例如，用户通过手机向电视端发送语音指令“关闭电视”，电视端接收到“关闭电视”的语音指令后，执行电视关闭操作。

但是，随着国际化水平的提高，人们的对外交流也越来越多，因此外语的学习变得很重要，具有很强的口语交际能力，能够给自己带来很大的便利，现有技术中的电视端只能单向的执行语音采集端发出的语音指令，缺少电视对语音指令的反馈，从而也无法通过电视端来实现用户进行口语训练的目的。

发明内容

为解决现有存在的技术问题，本发明实施例期望提供一种语音评测方法及装置，能够解决现有技术中无法通过电视实现用户进行口语训练的问题。

本发明实施例的技术方案是这样实现的：

根据本发明实施例中的一方面，提供一种语音评测方法，所述方法包括：

根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；

接收第二终端发送的第一音频数据；

向服务器发送所述第一音频数据，使得所述服务器根据所述第一终端显示的所述音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

接收所述服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与所述第二音频数据的特征匹配度所确定；

向所述第一终端发送所述第一音频数据的所述评测结果。

上述方案中，在向所述第一终端发送用于进行口语评测的音视频数据之前，所述方法还包括：

根据第一终端发送的播放请求，向所述服务器发送内容获取请求；

接收所述服务器根据所述内容获取请求所发送的音视频素材和与所述音视频素材对应的配置文件；

将所述配置文件中的时间戳插入到所述音视频素材中，生成所述音视频数据。

接收所述服务器根据所述内容获取请求所发送的音视频素材；

对所述音视频素材进行视频打点，生成与所述音视频素材对应的配置文件，所述配置文件中至少包括与所述音视频素材对应的时间戳；

将所述时间戳插入到所述音视频素材中，生成所述音视频数据，同时将所述配置文件向所述服务器发送。

上述方案中，对所述音视频素材进行视频打点，包括：

确定所述音视频素材的音视频播放时间；

根据所述音视频播放时间确定所述音视频素材中的开始关键帧位置和结束关键帧位置；

在所述开始关键帧位置和所述结束关键帧位置进行视频打点，生成与所述音视频素材对应的配置文件。

根据本发明实施例的另一方面，提供一种语音评测方法，所述方法包括：

接收第三终端发送的第一音频数据，所述第一音频数据至少包括第二终端向所述第三终端发送的音频数据；

根据第一终端显示的用于进行口语评测的音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

将所述第一音频数据与所述第二音频数据进行特征匹配，得到特征匹配度；

根据所述特征匹配度确定针对所述第一音频数据的评测结果；

向所述第三终端发送所述评测结果。

上述方案中，在接收所述第三终端发送的第一音频数据之前，所述方法还包括：

接收所述第三终端发送的内容获取请求；

根据所述内容获取请求向所述第三终端发送用于进行口语评测的音视频素材和与所述音视频素材对应的配置文件，所述配置文件中包括有用于生成所述音视频数据的时间戳。

接收所述第三终端发送的内容获取请求；

根据所述内容获取请求向所述第三终端发送用于进行口语评测的音视频素材；

接收所述第三终端发送的与所述音视频素材对应的配置文件，所述配置文件中包含有用于生成所述音视频数据的时间戳。

根据本发明实施例的第三方面，提供一种语音评测装置，所述装置包括：第一接收单元、第一发送单元和输出单元；

其中，所述第一接收单元，用于通过第一终端的显示界面显示用于进行口语评测的交互页面时，接收第二终端发送的第一音频数据；还用于接收服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与第二音频数据的特征匹配度所确定；

所述第一发送单元，用于向服务器发送所述第一音频数据，使得所述服务器根据当前所述交互页面显示的音视频文件中的时间戳对所述音视频文件中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

所述输出单元，用于通过所述第一终端的显示界面输出针对所述第一音频数据的所述评测结果。

上述方案中，所述第一终端至少包括电视，所述第二终端至少包括手机或遥控器。

根据本发明实施例的第四方面，提供一种语音评测装置，所述装置包括：存储器和处理器；

其中，所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于运行所述计算机程序时，执行上述语音评测方法中任一项所述方法的步骤。

本发明实施例提供一种语音评测方法及装置，通过根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据，接收第二终端发送的第一音频数据；向服务器发送所述第一音频数据，使得所述服务器根据所述第一终端显示的所述音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；接收所述服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与所述第二音频数据的特征匹配度所确定；向所述第一终端发送所述第一音频数据的所述评测结果。如此，在第三终端接收到第二终端(即语音采集端)发送的音频数据后，能够根据第一终端显示的音视频数据中的时间戳对对所述音视频数据中的音频数据进行数据截取，并根据截取的音频数据对第二终端发送的音频数据进行口语评测，并向第一终端发送针对第二终端发送的音频数据的口语评测结果，这里，第一终端为电视，第二终端为手机或遥控器，由于电视端能针对移动终端进行信息反馈，并且移动终端还能根据电视端显示的提示信息进行语音输入，从而能够实现用户通过移动终端与电视端进行口语评测和语音互动交流的双向交互。

附图说明

图1为本发明实施例一种语音评测方法的流程示意图一；

图2为本发明实施例中语音评测方法的流程示意图二；

图3为本发明实施例语音评测装置的结构组成示意图一；

图4为本发明实施例中语音评测装置的结构组成示意图二；

图5为本发明实施例中语音评测系统的结构组成示意图；

图6为本发明实施例中语音评测装置的结构组成示意图三。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1为本发明实施例一种语音评测方法的流程示意图一，所述方法主要应用于连接电视端与外部信号的机顶盒；如图1所示，所述方法包括：

步骤101，根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；

本发明实施例中，所述第一终端可以为电视。并且，所述第一终端通过机顶盒与外部信号进行连接。

当用户想要使用电视实现口语评测时，可以通过电视向机顶盒发送播放请求，以请求机顶盒向电视输出用于进行口语评测的音视频数据。

本发明实施例中，在机顶盒向第一终端发送用于进行口语评测的音视频数据之前，所述方法还包括：

连接电视和外部信号源的机顶盒根据电视发送的播放请求，向与所述机顶盒对应的服务器发送内容获取请求，以获取进行口语评测的音视频素材文件和与所述音视频素材文件对应的配置文件。

这里，所述音视频素材是由内容提供商上传到所述服务器中的，并由所述服务器中的内容编审平台面向所述内容提供商提供音视频素材文件编辑能力和管理功能，并支持对音视频素材文件的编辑，生成用于增加电视端与用户之间双向交互效果的配置文件。

所述配置文件中包含有与所述音视频素材对应的开始时间戳、结束时间戳和应用场景数据。但是，所述配置文件中并不包含内容提供商上传的原始音视频素材。也就是说，在音视频数据的配置文件中不包含用于在电视端显示的进行口语评测的原始音视频文件，而是包含服务器对原始音视频文件中每段音视频素材进行视频打点的数据。

例如，所述配置文件包括：在一个音视频素材文件中进行视频打点的个数、各个打点的开始时间戳和结束时间戳是多少、各个打点插入的内容类型是什么、各个打点插入的具体内容是什么等。

当服务器接收到机顶盒发送的内容获取请求时，响应所述内容获请求，并通过视频接口将音视频素材文件以及与所述音视频素材文件对应的配置文件一并发送给机顶盒。

当机顶盒接收到服务器发送的音视频素材文件以及与所述音视频素材文件对应的配置文件后，检测当前电视播放的内容是否是进行口语评测的内容，得到检测结果；当所述检测结果表征当前电视播放的内容是针对口语评测的交互内容时，解析所述配置文件，以得到与音视频素材文件对应的应用场景数据和时间戳数据，并将得到的应用场景数据和时间戳数据插入到对应的音视频素材文件中，生成完整的音视频数据，然后，再将所生成的完整的音视频数据向电视端发送，使得将所述音视频数据通过电视的显示屏向用户呈现。

这里，向用户呈现的音视频数据以电视与用户进行双向交互的口语评测的交互页面所呈现。

本发明实施例中，当服务器根据机顶盒发送的内容获取请求，向机顶盒发送的只有音视频素材，而没有与音视频素材对应的配置文件时，由机顶盒生成与所述音视频素材对应的配置文件。

具体地，当机顶盒接收到服务器发送的音视频素材文件后，向电视输出供用户对音视频素材文件进行视频打点的内容，电视接收到供用户对音视频素材文件进行视频打点的内容时，通过显示屏向用户呈现用于进行视频打点的界面。

用户通过当前电视呈现的针对音视频素材文件进行视频打点的内容，向机顶盒发送针对所述音视频素材文件所确定的开始播放时间戳和结束时间戳，并根据确定的所述开始时间戳和所述结束时间戳确定所述音视频素材文件的开始关键帧位置和结束关键帧位置。然后，在确定好的开始关键帧位置和结束关键帧位置插入对应的应用场景内容数据后，点击电视显示屏上的保存图标，以完成针对音视频素材文件的视频打点操作，生成所述音视频素材的配置文件。

机顶盒将生成的针对所述音视频素材文件的配置文件向服务器发送。以使得服务器在接收到机顶盒发送的音频数据时，在电视播放的音视频文件中截取与机顶盒发送的所述音频数据所对应的原始音视频数据。

同时，当用户通过电视向机顶盒发送用于播放进行口语评测的播放请求时，所述机顶盒将生成的音视频数据向电视发送，使得通过电视的显示屏将所述音视频数据向用户呈现。

这里，对于口语评测类的应用场景，服务器还用于在内容服务支撑平台设置用户触发操作的条件，所述用户触发操作的条件包括：开始进行语音输入的开始时间戳和结束语音输入的结束时间戳等。

当机顶盒通过电视的显示屏向用户展示口语测评交互页面过程中，检测到所述电视当前播放的内容满足用户触发操作的条件时，通过电视的显示界面显示进行口语评测的交互页面包括：用于提示用户进行语音输入的信息或提示用户结束语音输入的信息，使得用户通过电视在交互页面输出的信息确定是否通过语音输入设备进行语音输入。

步骤102，接收第二终端发送的第一音频数据；

本发明实施例中，所述第二终端可以是带有语音输入功能的遥控器、手机、手表、麦克风、智能笔等设备。其中，遥控器可以是与电视或机顶盒对应的遥控器。

具体地，当遥控器作为语音输入设备时，其语音传输方式由机顶盒的生产厂家实现，而当智能手机作为语音输入设备时，需要在手机上安装一个与运行在机顶盒上的互动平台APP配套的手机端APP，用户通过打开手机上的手机端APP，即可通过蓝牙传输协议连接机顶盒并向机顶盒进行语音传输。

本发明实施例中，当电视在进行口语评测的交互页面中显示用于提示用户进行语音输入的提示信息时，用户可以通过第二终端进行语音输入。这里，进行语音输入的语种可以是各种语言，包括各地方言。

当第二终端确定用户完成语音输入后，将用户输入的语音数据作为第一音频数据向机顶盒发送。

这里，第二终端确定用户完成语音输入，包括：

第二终端检测用户输入的语音数据；确定在预设时间内未检测到用户输入语音数据时，确定用户完成语音输入。

具体地，第二终端计算距离当前时间最近的一次历史语音数据的接收时间与当前时间的时间差；判断所述时间差是否达到预设时间；确定所述时间差达到预设时间时，确定用户完成语音输入。

例如，当第二终端在预设时间，例如10秒内未接收到用户的语音数据，则确定用户完成语音输入。

本发明实施例中，第二终端确定用户完成语音输入，还包括：

第二终端接收用户触发的指令；确定所述指令是语音完成指令时，确定用户完成语音输入。

这里，用户可以通过第二终端上的物理按键或虚拟按键触发所述第二终端上的语音完成指令，也可以通过向第二终端直接输入语音完成指令。

当第二终端确定用户结束语音输入时，将接收到的语音数据生成音频数据向机顶盒发送。

这里，第二终端与机顶盒之间采用蓝牙传输协议进行语音数据的传输，也就是说，本发明实施例中的机顶盒是蓝牙设备，并且在机顶盒通过蓝牙接收到第二终端发送的第一音频数据后，读取所述第一音频数据。

103，向服务器发送所述第一音频数据，使得所述服务器根据所述第一终端显示的所述音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

本发明实施例中，当机顶盒接收到第二终端发送的第一音频数据后，由所述机顶盒将所述第一音频数据向服务器发送。所述服务器接收到所述第一音频数据后，通过机顶盒获取当前电视端播放的用于进行口语评测的音视频文件，根据当前所述音视频文件中的时间戳，对所述音视频文件中的音频数据进行数据截取，以得到与用户通过第二终端输入的第一音频数据对应的第二音频数据。

步骤104，接收所述服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与所述第二音频数据的特征匹配度所确定；

本发明实施例中，当服务器根据当前电视端播放的音视频文件中的时间戳，得到与用户通过第二终端发送的第一音频数据所对应的第二音频数据后，从所述第一音频数据和第二音频数据中分别提取对应不同特征类型的评测特征。然后将所述第一音频数据中的评测特征与第二音频数据中的评测特征进行匹配，得到所述第一音频数据与所述第二音频数据的特征匹配度；将所述匹配度在评测模型中对应的分数作为所述第一音频数据的评测分数，将所述评测分数向机顶盒发送。

这里，所述特征类型可以包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征等。其中：所述完整性特征用于描述所述第一音频数据中的音频片段序列对应的基本语音单元序列相应于第二音频数据的文本完整度。

步骤105，向所述第一终端发送针对所述第一音频数据的所述评测结果。

本发明实施例中，当机顶盒接收到服务器发送的针对所述第一音频数据的评测分数后，将所述评测分数向电视发送，使得通过电视的显示屏对所述评测分数向用户呈现。从而用户根据所述评测分数可以知晓自己的口语水平。

图2为本发明实施例中语音评测方法的流程示意图二，所述方法主要应用于电视端或与电视端连接的机顶盒的后台服务器，如图2所示，所述方法包括：

步骤201，接收第三终端发送的第一音频数据，所述第一音频数据至少包括第二终端向所述第三终端发送的音频数据；

本发明实施例中，所述第三终端可以为具有蓝牙功能的机顶盒，所述机顶盒是用于连接电视端和外部信号的设备。

所述第二终端可以为具有语音输入功能的手机、遥控器、智能手表、智能笔等设备，其中，遥控器为与电视端或与机顶盒对应的遥控器。

本发明实施例中，当遥控器作为语音输入设备时，其语音传输方式由机顶盒的生产厂家实现，当智能手机作为语音输入设备时，需要在手机上安装一个与运行在机顶盒上的互动平台APP配套的手机端APP，用户通过打开手机端 APP，即可通过蓝牙传输协议连接机顶盒并向机顶盒进行语音传输。

本发明实施例中，当机顶盒通过电视的显示屏显示用于进行口语评测的内容，且确定当前显示的内容满足用户触发操作的条件时，通过电视的显示屏显示用于提示用户进行语音输入的提示信息，用户通过电视的显示屏所显示的提示信息开始向第二终端进行语音输入。

这里，所述用户触发操作的条件由服务器对内容提供商提供的用于进行口语评测的音视频素材文件进行配置时所设置。所述用户触发操作的条件包括：开始进行语音输入的开始时间戳和结束语音输入的结束时间戳。

当第二终端确定用户结束语音输入时，将用户输入的语音数据作为第一音频数据向机顶盒发送。

这里，所述第二终端与机顶盒之音采用的是统一规范的蓝牙传输协议。

当机顶盒接收到第二终端发送的第一音频数据后，读取所述第一音频数据，并将读取出来的所述第一音频数据向服务器发送。这里，用户输入的语音包括方言。

本发明实施例中，所述服务器在接收机顶盒发送的第一音频数据之前，所述服务器还用于对内容提供商提供的用于进行口语评测的音视频素材文件进行配置，以生成与所述音视频素材文件对应的配置文件。

具体地，所述音视频素材文件中包括一个以上的音视频片段，服务器通过对每个音视频片段进行视频打点，以得到所述音视频素材文件的开始播放时间戳和结束播放时间戳，并根据所述开始播放时间戳和所述结束播放时间戳对相应的音视频片段确定开始关键帧位置和结束关键帧位置，然后在所述开始关键帧位置和所述结束关键帧位置插入对应的应用场景内容，以生成所述音视频素材对应的配置文件。

本发明实施例中，音视频素材文件对应的配置文件也可以由内容提供商通过服务器中的第三方能力接口上传到服务器中的，也就是说，是由内容提供商对音视频素材进行视频打点后，通过第三方能力接口发送给服务器的。

所述音视频素材文件所对应的配置文件中至少包括：服务器在音视频文件中进行视频打点的个数、各个打点的时间节点、各个打点插入的内容类型、各个打点插入的具体内容等数据。

当用户通过电视向机顶盒发送用于播放口语评测类的播放请求时，触发所述机顶盒向服务器发送内容获取请求，以从服务器端获取进行口语评测的音视频素材和与所述音视频素材对应的配置文件。

服务器接收到所述机顶盒发送的内容获取请求后，根据所述内容获取请求向所述机顶盒发送用于进行口语评测的音视频素材和与所述音视频素材对应的配置文件，所述配置文件中至少包括与音视频素材文件对应的应用场景数据和开始时间戳以及结束时间戳数据。

当机顶盒接收到服务器发送的音视频素材和与所述音视频素材对应的配置文件后，解析所述配置文件，以得到与音视频素材文件对应的应用场景数据和时间戳，将所述应用场景数据和时间戳插入到对应的音视频素材文件中，形成具有应用场景和时间戳的完整的音视频数据，并将生成的完整的音视频数据向电视发送，使得通过电视的显示屏将带有应用场景和时间戳的音视频数据呈现给用户，以方便用户根据电视呈现的带有应用场景的音视频文件进行口语评测。

这里，所述应用场景包括少儿口语场景、初中口语场景、高中口语场景、大学口语场景、商务英语场景等。

本发明实施例中，用于进行口语评测的音视频素材的配置文件还可以由机顶盒自动生成。

具体地，机顶盒在接收到电视发送的用于播放口语评测类内容的播放请求时，向服务器发送内容获取请求，以获取进行口语评测的音视频素材文件和与所述音视频素材文件对应的配置文件。

当服务器接收到所述内容获取请求时，响应所述内容获取请求，并通过视频接口将音视频素材文件向机顶盒发送。当机顶盒接收到音视频素材文件后，设置所述音视频素材的开始播放时间和结束播放时间，并在确定所述音视频素材的开始播放时间和结束播放时间后，根据设置的所述时间确定所述音视频素材的开始关键帧位置和结束关键帧位置，并在确定的所述关键帧位置插入相应的应用场景内容，生成与所述音视频素材对应的配置文件。

然后，机顶盒将生成的所述音视频素材对应的配置文件向服务器发送。同时将所述配置文件中的开始播放时间戳和结束播放时间戳以及相应的应用场景插入到所述音视频素材中，生成完整的音视频文件，并将生成的音视频文件向电视发送，使得通过电视的显示屏将所述音视频文件向用户呈现。

这里，对于口语评测类的应用场景，服务器还可以在内容服务支撑平台设置用户触发操作的条件，所述用户触发操作的条件包括：开始进行语音输入的开始时间戳和结束语音输入的结束时间戳等。

步骤202，根据第一终端显示的用于进行口语评测的音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

本发明实施例中，当所述服务器接收到所述机顶盒发送的第一音频数据后，获取当前电视播放的进行口语评测的音视频数据，根据所述音视频数据中的时间戳对所述音视频数据中的音频数据进行数据截取，以得到与第二终端发送的第一音频数据对应的第二音频数据。

步骤203，将所述第一音频数据与所述第二音频数据进行特征匹配，得到特征匹配度；

本发实施例中，当服务器根据当前电视端播放的音视频文件中的时间戳，得到与用户通过第二终端发送的第一音频数据所对应的第二音频数据后，从所述第一音频数据和第二音频数据中分别提取对应不同特征类型的评测特征。然后将所述第一音频数据中的评测特征与第二音频数据中的评测特征进行匹配，得到所述第一音频数据与所述第二音频数据的特征匹配度。

步骤204，根据所述特征匹配度确定针对所述第一音频数据的评测结果；

本发明实施例中，服务器将所述匹配度在评测模型中对应的分数作为所述第一音频数据的评测分数。

步骤205，向所述第三终端发送所述评测结果。

本发明实施例中，服务器得出第一音频数据的评测分数后，将所述评测分数向第三终端发送。使得所述第三终端接收到所述第一音频数据的评测分数后，通过第一终端的显示屏显示所述评测分数。从而使得用户根据第一终端输出的评测分数知晓自己在电视端显示的应用场景中的口语水平，方便用户对自己的口语进行练习。

本发明实施例中，服务器还具有第三方能力接口，服务器的内容服务支撑平台通过调用第三方平台接口整合电视与终端的双向互动能力，例如，在口语测评应用场景下，如果内容提供商需要在普通的音视频内容上增加口语评测的功能，则按照内容服务支撑平台的提示信息进行参数设置。例如，是否添加口语评测、评测内容的时间轴等参数。。

图3为本发明实施例语音评测装置的结构组成示意图一；所述装置具体可以是机顶盒，所述机顶盒是用于连接电视与外部信号的设备。如图3所示，所述装置包括：第一发送单元301和第一接收单元302；

其中，所述第一发送单元301，用于根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；还用于向服务器发送第二终端发送的第一音频数据，使得所述服务器根据所述第一终端显示的所述音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；还用于向所述第一终端发送针对所述第一音频数据的所述评测结果；

所述第一接收单元302，用于接收第二终端发送的第一音频数据；还用于接收服务器发送的针对所述第一音频数据的评测结果，所述评测结果是所述服务器根据所述第一音频数据与第二音频数据的特征匹配度所确定；

本发明实施例中，所述第一终端可以是电视，所述第二终端可以是具有语音输入功能的手机、遥控器、智能手表、智能笔等设备，所述第二终端与所述装置之间通过蓝牙传输协议进行数据传输。

具体地，当遥控器作为语音输入设备时，其语音传输方式由机顶盒的生产厂家实现，而当智能手机、智能笔、智能表作为语音输入设备时，需要在所述智能手机、智能表、智能笔上安装一个与运行在机顶盒上的互动平台APP配套的手机端APP，用户通过打开手机、笔、表上的手机端APP，即可通过蓝牙传输协议连接机顶盒并向机顶盒进行语音传输。

本发明实施例中，所述装置还包括：生成单元303；

所述第一发送单元301还用于根据第一终端发送的播放请求中，向所述服务器发送内容获取请求，所述内容获取请求用于获取进行口语评测的音视频素材和与所述音频频素材对应的配置文件；当第一接收单元302接收到所述服务器发送的音视频素材和与所述音视频素材对应的配置文件时，解析所述配置文件，得到所述音视频素材文件对应的应用场景数据和时间戳数据。所述时间戳数据包括开始播放时间惟和结束播放时间戳、然后，触发所述生成单无303将所述应用场景数据和时间戳数据插入到音视频素材中，生成完整的音视频数据，并在生成所述音视频数据后，触发所述第一发送单元301将生成的音视频数据向第一终端发送，使得通过所述电视的显示界面显示与所述音视频数据对应的交互页面。

本发明实施例中，所述生成单元303还用于在所述第一接收单元302只接收到服务器发送的音视频素材文件，而没有接收到与所述音视频素材文件对应的配置文件时，设置所述音视频素材的开始时间戳和结束时间戳，并在确定所述音视频素材的所述时间戳后确定所述音视频素材的开始关键帧位置和结束关键帧位置。然后，在所述关键帧位置插入相应的应用场景内容，以生成所述音视频素材的配置文件。

在所述生成单元303生成所述音视频素材的配置文件后，触发所述第一发送单元301将所述配置文件向服务器发送。同时，将生成的完整的音视频数据向电视发送，使得电视通过显示屏向用户呈现用于进行口语评测的交互页面。

需要说明的是：上述实施例提供的语音评测装置在进行口语评测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将语音评测装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音评测装置与语音评测方法实施例二者属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4为本发明实施例中语音评测装置的结构组成示意图二；所述装置具体可以是机顶盒对应的后台服务器，所述装置包括：第二接收单元401、数据截取单元402、匹配单元403、确定单元404和第二发送单元405；

其中，所述第二接收单元401，用于接收第三终端发送的第一音频数据，所述第一音频数据至少包括第二终端向所述第三终端发送的音频数据；

所述数据截取单元402，用于根据第一终端显示的用于进行口语评测的音视频数据中的时间戳，对所述音视频数据中的音频数据进行数据截取，得到与所述第一音频数据对应的第二音频数据；

所述匹配单元403，用于将所述第一音频数据与所述第二音频数据进行特征匹配，得到特征匹配度；

所述确定单元404，用于根据所述特征匹配度确定所述第一音频数据的评测结果；

所述第二发送单元405，用于向所述第三终端发送所述评测结果。

本发明实施例中，所述第一终端为电视，所述第二终端可以是具有语音输入功能的手机、遥控器等设备，所述第三终端可以是连接电视和外部信号的机顶盒，所述第三终端与第二终端之间通过蓝牙传输协议进行数据传输。

本发明实施例中，所述第二接收单元401还用于接收所述第三终端发送的内容获取请求；所述第二发送单元405还用于根据所述内容获取请求向所述第三终端发送用于进行口语评测的音视频素材和与所述音视频素材对应的配置文件，所述配置文件中包括有用于生成所述音视频数据的时间戳。

本发明实例中，所述第二接收单元401还用于接收所述第三终端发送与所述音视频素材对应的配置文件，所述配置文件中包含有用于生成所述音视频数据的时间戳。

具体地，当第二发送单元405向第三终端只发送了的音视频素材而没有发送与所述音视频素材对应的配置文件时，所述第三终端为接收到的音视频素材设置开始播放时间和结束播放时间，并根据确定的开始播放时间和结束播放时间确定音视频素材的开始关键帧位置和结束关键帧位置，并在该开始关键帧位置和结束关键帧位置处插入对应的应用场景数据，生成该音视频素材文件的配置文件。并将生成的配置文件向服务器发送。

图5为本发明实施例中语音评测系统的结构组成示意图，如图5所示，所述系统包括：服务器501、机顶盒502、语音采集设备503和电视504。其中，服务器501集成了内容提供方、内容编审平台、第三方能力接口、开发能力接口和语音评测模块；机顶盒502中集成了电视端的应用软件；语音采集设备503 集成了语音采集模块和语音解析模块，语音采集设备503包含具有语音输入功能的手机和遥控器，优选遥控器。

本发明实施例中，内容提供方基于学堂互动平台制作丰富的音视频交互内容素材，其操作大致包括以下步骤：

(1)内容提供商向服务器501上传音视频素材；

(2)服务器501在线编辑音视频素材，实现打点弹题、弹幕、广告植入、口语测评等应用；

(3)服务器501生成音视频素材的配置文件，当运行在机顶盒502上的客户端应用播放音视频文件时同步解析所述配置文件，实现在音视频文件插入应用场景。

其中，音视频素材的配置文件指音视频素材中除原始音视频文件之外编辑的数据包数据。例如在一个音视频文件中进行视频打点的个数、各个打点的时间节点是多少、各个打点插入的内容类型是什么、各个打点插入的具体内容是什么。

运行在机顶盒502上的客户端在接收到电视504发送的用于播放进行口语评测的内容播放请求时，解析所述配置文件，以获取到对应音视频文件的应用场景数据，进而实现应用场景的呈现。

本发明实施例在实际实现中，机顶盒502与服务器501之间是通过视频接口进行数据传输的，并不是通过配置文件的形式进行传输。那是因为目前实现的视频打点类型较少，通过视频接口传输数据较为轻便。但是当数据结构复杂后，机顶盒502与服务器501之间则可以以文件的形式传输数据。

机顶盒(OTT TV)设备502为蓝牙设备，并通过蓝牙传输协议接收和读取语音采集设备503发送的语音数据。

在机顶盒的内容支撑平台中集成有软件开发工具包(SDK，Software DevelopmentKit)，该SDK提供有蓝牙服务注册、语音数据收发、语音解析等能力，运行在机顶盒上的第三方APP基于此SDK开发客户端APP可以实现互动平台制作的音视频播放互动。

语音输入设备503包括遥控器和智能手机两种，遥控器作为语音输入设备时，其语音传输存解析方式由机顶盒生产厂家实现，智能手机作为语音输入设备时，需要在手机上安装一个与运行在机顶盒上的互动平台APP配套的手机端 APP，用户打开手机端APP，即可通过蓝牙传输协议连接机顶盒并进行语音传输。

内容编审平台面向内容提供商提供音视频素材编辑能力和管理功能，服务器对音视频素材的编辑时，通过获取音视频的播放时间，并根据该播放时间在 div层所对应的位置上对音视频文件进行视频打点，增加交互效果。

对于口语评测类的应用场景，服务器还可以在管理端平台设置用户触发操作的条件，如开始时间戳、结束时间戳等，服务器在接收到用户发送的音频数据后，通过FFmpeg实现对音视频文件中的音频文件进行数据截取。

这里，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

第三方能力接口：服务器上的内容支撑平台通过调用第三方平台接口整合互动能力，例如，在口语测评应用场景下，内容提供商制作教学素材时需要评测服务，只需要按照内容支撑平台的要求设置相应能力参数即可使用相应服务。

开放能力接口规范：面向语音交互应用开发者提供的开发接口，实现该接口规范的APP可以在机顶盒上播放内容并进行语音互动。

具体实现流程为：电视端软件应用向服务端请求可进行语音评测(口语评测)的内容，并在电视端软件应用中向用户呈现；用户根据电视端软件应用提示，进行语音录入操作(发出声音，说话…)；语音采集模块对用户输出的语音进行采集；语音解析模块对采集的语音信号进行解析并上传至语音评测模块(服务端)进行语音评测；语音评测模块(服务端)将评测结果返回给电视端软件应用，电视端软件应用向用户展现语音评测结果。

图5中实现语音评测的详细步骤如下：

A：用户启动电视端软件应用，进入语音评测业务模块；

B：电视端软件应用向服务端请求语音评测业务模块内容；

C：用户根据电视端软件应用的界面示意，点击语音评测内容原音播放按钮；

D：电视端软件应用播放原音的音视频文件；

E：用户根据电视端软件应用的界面示意，点击语音采集设备中的语音录入按钮；

F：语音采集设备对用户的语音进行采集；

G：通过电视端软件应用预置的智能语音引擎对采集到的语音信号进行解析并转换成音频文件；

H：电视端软件应用将语音采集模块生成的音频文件与语音评测内容原音一同上传至服务器；

I：服务器语音评测模块对语音采集模块生成的音频文件和语音评测内容原音进行比对分析，生成评测结果并将结果返回给电视端软件应用；

J：电视端软件应用将评测结果展现在界面上。

图6为本发明实施例中语音评测装置的结构组成实施例三；如图6所示，所述装置包括：存储器和处理器；

所述处理器，用于运行所述计算机程序时，执行：根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；

接收第二终端发送的第一音频数据；

向所述第一终端发送所述第一音频数据的所述评测结果。

所述处理器，用于运行所述计算机程序时，还执行：根据第一终端发送的播放请求，向所述服务器发送内容获取请求；

所述处理器，用于运行所述计算机程序时，还执行：确定所述音视频素材的音视频播放时间；

另一方面，所述处理器，用于运行所述计算机程序时，执行：接收第三终端发送的第一音频数据，所述第一音频数据至少包括第二终端向所述第三终端发送的音频数据；

向所述第三终端发送所述评测结果。

所述处理器，用于运行所述计算机程序时，还执行：接收所述第三终端发送的内容获取请求；

图6中的语音评测装置可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、个人数字助理、信息推送服务器、内容服务器、身份认证服务器等。图6所示的语音评测装置600包括：至少一个处理器 601、存储器602、至少一个网络接口604和用户接口603。语音评测装置600 中的各个组件通过总线系统605耦合在一起。可理解，总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统605。

其中，用户接口603可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器602可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM， Read OnlyMemory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM， ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM， Static Random Access Memory)、同步静态随机存取存储器(SSRAM， Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM， SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM， SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器 (DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器602用于存储各种类型的数据以支持语音评测装置600的操作。这些数据的示例包括：用于在语音评测装置600上操作的任何计算机程序，如操作系统6021和应用程序6022；其中，操作系统6021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022可以包含各种应用程序，例如媒体播放器 (Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。

上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601 实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器601可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器602，处理器601读取存储器602 中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，语音评测装置600可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器602，上述计算机程序可由语音评测装置600的处理器6S01执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、 ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或 CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：根据第一终端发送的播放请求，向所述第一终端发送用于进行口语评测的音视频数据；

接收第二终端发送的第一音频数据；

向所述第一终端发送所述第一音频数据的所述评测结果。

该计算机程序被处理器运行时，还执行：根据第一终端发送的播放请求，向所述服务器发送内容获取请求；

该计算机程序被处理器运行时，还执行：确定所述音视频素材的音视频播放时间；

这里，所述第一终端至少包括电视，所述第二终端至少包括手机或遥控器。

另一方面，该计算机程序被处理器运行时，还执行：接收第三终端发送的第一音频数据，所述第一音频数据至少包括第二终端向所述第三终端发送的音频数据；

向所述第三终端发送所述评测结果。

该计算机程序被处理器运行时，还执行：接收所述第三终端发送的内容获取请求；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音评测方法，其特征在于，所述方法包括：

接收第二终端发送的第一音频数据；

向所述第一终端发送所述第一音频数据的所述评测结果。

2.根据权利要求1所述的方法，其特征在于，在向所述第一终端发送用于进行口语评测的音视频数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在向所述第一终端发送用于进行口语评测的音视频数据之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，对所述音视频素材进行视频打点，包括：

确定所述音视频素材的音视频播放时间；

5.一种语音评测方法，其特征在于，所述方法包括：

向所述第三终端发送所述评测结果。

6.根据权利要求5所述的方法，其特征在于，在接收所述第三终端发送的第一音频数据之前，所述方法还包括：

接收所述第三终端发送的内容获取请求；

7.根据权利要求5所述的方法，其特征在于，在接收所述第三终端发送的第一音频数据之前，所述方法还包括：

接收所述第三终端发送的内容获取请求；

8.一种语音评测装置，其特征在于，所述装置包括：第一接收单元、第一发送单元和输出单元；

9.根据权利要求8所述的装置，其特征在于，所述第一终端至少包括电视，所述第二终端至少包括手机或遥控器。

10.一种语音评测装置，其特征在于，所述装置包括：存储器和处理器；

所述处理器，用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。