CN110890095A

CN110890095A - 语音检测方法、推荐方法、装置、存储介质和电子设备

Info

Publication number: CN110890095A
Application number: CN201911363628.7A
Authority: CN
Inventors: 徐放; 张頔; 王贺; 张特; 骆曦
Original assignee: Beijing Rice Future Technology Co Ltd
Current assignee: Beijing Rice Future Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-03-17

Abstract

本申请提供的语音检测方法、装置、存储介质和电子设备，获取第一视频，提取所述第一视频中的第一音频；获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；根据所述第一音频和所述第二音频，确定差异点信息。差异点信息中可包括目标用户口语中与第一音频读音差异较大的字词句等信息。目标用户可针对差异点信息，进行后续的较有针对性的练习，以提高目标用户的学习效率。

Description

语音检测方法、推荐方法、装置、存储介质和电子设备

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音检测方法、推荐方法、装置、存储介质和电子设备。

背景技术

随着互联网技术的发展，借助于互联网进行在线学习和在线教学已成为一种趋势。通过互联网在线学习，使学生可以随时随地学习，不必受限于场地、人数等环境因素。

但学生进行语音表达的发声练习时，在线学习系统往往没有反馈结果，学生无法根据反馈结果进行后续较有针对性的学习。

发明内容

为了解决上述问题，本申请实施例提供了一种语音检测方法、装置和电子设备。

第一方面，本申请实施例提供了一种语音检测方法，包括以下步骤：

获取第一视频，提取所述第一视频中的第一音频；

获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

根据所述第一音频和所述第二音频，确定差异点信息。

可选地，所述方法还包括：

对所述第一音频进行识别，确定所述第一视频的字幕，并将所述字幕添加到所述第一视频中；

所述获取来自目标用户的第二音频，包括：

基于所述目标用户的播放指令，播放添加字幕后的所述第一视频；

获取来自所述目标用户的所述第二音频，所述第二音频为所述目标用户基于所述添加字幕后的第一视频生成的。

可选地，所述方法还包括：

识别所述字幕中的关键词；以及

根据用户指令控制词典的开启和/或关闭，所述词典用于对所述关键词进行解析。

可选地，所述方法还包括：

采集来自所述目标用户的第二视频，所述第二视频对应于所述第二音频；

将所述添加字幕后的第一视频和所述第二视频进行合成为目标视频，其中，所述目标视频播放时，以画中画的方式播放所述第一视频和/或所述第二视频。

可选地，所述方法还包括：

根据所述差异点信息，确定差异词，并显示提示信息，所述提示信息包括以下至少之一：所述差异词的词义、所述差异词的发音和包含所述差异词的例句。

可选地，所述方法还包括：

根据所述差异点信息，确定差异词；

根据所述差异词，确定至少一个第一推荐视频，所述第一推荐视频的视频内容包含所述差异词；以及

向所述目标用户推荐所述第一推荐视频。

和/或

根据所述第一视频，确定所述目标用户的兴趣倾向；

根据所述兴趣倾向，确定至少一个第二推荐视频，并向所述目标用户推荐所述第二推荐视频。

第二方面，本申请实施例提供了一种推荐方法，包括上述语音检测方法，还包括：

确定所述第一视频的拍摄者；以及

向所述目标用户推荐所述拍摄者。

第三方面，本申请实施例提供了一种语音检测装置，包括：

提取单元，用于获取第一视频，提取所述第一视频中的第一音频；

获取单元，用于获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

确定单元，用于根据所述第一音频和所述第二音频，确定差异点信息。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第五方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

本申请提供的语音检测方法、装置、存储介质和电子设备，获取第一视频，提取所述第一视频中的第一音频；获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；根据所述第一音频和所述第二音频，确定差异点信息。差异点信息中可包括目标用户口语中与标准音频读音差异较大的字词句等信息。目标用户可针对差异点信息，进行后续的较有针对性的练习，以提高目标用户的学习效率。

附图说明

图1为可以应用本申请实施例的语音检测方法或装置的示例性系统架构的示意图；

图2是本申请实施例提供的一种语音检测方法的流程示意图；

图3是本申请实施例提供的另一种语音检测方法的流程示意图；

图4是本申请实施例提供的又一种语音检测方法的流程示意图；

图5是本申请实施例提供的一种语音检测装置的结构示意图；

图6是本申请实施例提供的一种推荐方法的流程示意图；

图7为本申请实施例所涉及的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

图1为可以应用本申请实施例的语音检测方法或装置的示例性系统架构的示意图。如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，终端104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

终端设备101、102、103可以是设置有语音采集功能的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。目标用户可以使用终端设备101、102、103通过网络104与服务器105交互，进行在线学习或在线教学。终端设备101、102、103采集目标用户发出的音频信号或视频信号，并将音频信号或视频信号发送给服务器105。服务器105提取第一视频中包含的第一音频，第一视频可以是系统中预存的标准视频，也可以是来自于教师录制的视频。服务器105基于第一音频和目标用户的音频信号或视频信号，得到目标用户的差异点信息。目标用户可根据差异点信息进行有针对性的学习，以提升自身的不足。

参见图2，图2是本申请实施例提供的一种语音检测方法的流程示意图，在本申请实施例中，所述方法包括：

S201、获取第一视频，提取所述第一视频中的第一音频。

第一视频可以是系统中预存的标准视频，或来自于教师录制的视频。第一视频中提取出来的第一音频可以是带有标准发音的音频。第一音频作为本申请语音检测方法的比对标准。本申请实施例的方法基于目标用户发出的第二音频与第一音频的匹配程度，对目标用户的语言进行检测。

S202、获取来自目标用户的第二音频，所述第二音频对应于所述第一音频。

用户终端上可安装有麦克风等音频采集设备，采集目标用户的第二音频信息，并将第二音频信息发送给服务器端。用户终端可通过多种方式采集目标用户的第二音频。例如，用户终端播放第一视频，并引导目标用户跟随第一视频进行跟读。用户终端也可直接显示第一音频对应的文本信息，引导目标用户朗读该文本信息。

可选地，上述第一音频和第二音频都以无损格式进行存储，例如WAV、FLAC、APE、ALAC、WavPack(WV)等。通过无损格式存储上述音频数据，相比通过有损格式存储上述音频数据，可提高检测到的语音差异点信息的准确性。

S203、根据所述第一音频和所述第二音频，确定差异点信息。

差异点信息中可包括目标用户口语中与标准音频读音差异较大的字词句等信息。可先分别确定第一音频和第二音频的特征信息，特征信息包括但不限于：音强、音高、音长和音色等。再根据第一音频和第二音频的特征信息，确定第一音频和第二音频中差异较大的读音在第一音频上的位置，并进一步确定所述目标用户发音不标准的字词句等，以生成差异点信息。可将差异点信息记录到目标用户的单词本中，作为用户今后的教学参考或复习内容。

本申请实施例提供的方法，通过将第一视频对应的第一音频和来自目标用户的第二音频进行比对，可得到目标用户的差异点信息。因此，本申请实施例的方法可解决在线学习系统往往没有反馈结果，造成学生无法根据反馈结果进行较有针对性学习的问题。

可选地，步骤S203包括：

根据所述第一音频对应的文字信息和所述第二音频对应的文字信息，确定所述第一音频的校验起始点和校验结束点；

根据所述校验起始点和所述校验结束点，计算所述第一音频的第一语音信息；

计算所述第二音频的第二语音信息；

根据所述第一语音信息和所述第二语音信息，确定所述目标用户的差异点信息。

由于目标用户经常无法完整跟读全部的音频内容，即目标用户发出的第二音频常常是第一音频的一部分。可先通过语音识别技术，分别识别出第一音频对应的文字信息和第二音频对应的文字信息。在第一音频对应的文字信息上，找到与第二音频对应的文字信息匹配的位置信息，即在第一音频上确定出的校验起始点和校验结束点。

第一语音信息为可用于以表征第一音频的特征信息，第一语音信息包括但不限于：音强、音高、音长和音色等。第二语音信息为可用于表征第二音频的特征信息，第二语音信息包括但不限于：音强、音高、音长和音色等。计算校验起始点和校验结束点之间的第一音频的第一语音信息，再根据第一语音信息和第二语音信息，确定目标用户的差异点信息。

可选地，所述根据所述校验起始点和所述校验结束点，计算所述第一音频的第一语音信息，包括：

将所述校验起始点和所述校验结束点之间的所述第一音频拆分成多个第一子音频，并计算所述多个第一子音频的多个第一发声频率，其中，所述第一语音信息包括所述多个第一发声频率；

所述计算所述第二音频的第二语音信息，包括：

将所述第二音频拆分成多个第二子音频，计算所述多个第二子音频的多个第二发声频率，其中，所述第二语音信息包括所述多个第二发声频率；

所述根据所述第一语音信息和所述第二语音信息，确定所述目标用户的差异点信息，包括：

根据所述多个第一发声频率和所述多个第二发声频率，计算所述目标用户的节奏信息；

根据所述节奏信息，确定所述目标用户的差异点信息。

人们说话时，词与词之间存在一定的时间间隔。如某音频为用户说“在线学习”的音频，该音频中可能存在有3个时间间隔，将该音频分为4个子音频。4个子音频分别对应了“在”、“线”、“学”和“习”。

可先预设时间间隔，再以该时间间隔，将音频文件分为多个子音频文件。在较理想的情况下，上述子音频文件分别对应了单个字或词。上述时间间隔可根据实际需要和经验进行设定。需要说明的是，如时间间隔设置的过大，则分割后的子音频文件中可能包含了多个字或词，可能使后续基于子音频文件的差异点信息不准确。如时间间隔设置的过小，则可能将同一单词拆分到不同的子音频文件中。如英文单词“apple”的发音音标为/

/，则可能被拆分到/

/和/pl/的两个子音频文件中。

节奏信息可用于表征用户发声时的韵律和节拍与标准音频的匹配程度。节奏信息可通过分数、等级等多种形式来表示。发声频率是用户发声时声音的振动频率，用户朗读不同字或单词时，其发声频率都是不一样的。可通过发声频率的比对，确定目标用户的节奏信息。用户的发音是否标准，用户的外语说的是否流利和地道，很大程度取决于用户发出音频中的节奏信息。

根据预设时间间隔，将校验起始点和校验结束点之间的第一音频拆分成多个第一子音频，并计算所述多个第一子音频的多个第一发声频率。根据预设时间间隔，将所述第二音频拆分成多个第二子音频，计算所述多个第二子音频的多个第二发声频率。根据所述多个第一发声频率和所述多个第二发声频率，计算所述目标用户的节奏信息。根据所述节奏信息，确定所述目标用户的差异点信息。具体地，如果某一第一发声频率与对应的第二发声频率的匹配程度大于预设匹配值，则对于上述第一发生频率对应的字或词，目标用户可较准确的朗读出来；反之，如果某一第一发声频率与对应的第二发声频率的匹配程度小于预设匹配值，则对于上述第一发生频率对应的字或词，目标用户并不能较好地朗读出来，可将上述第一发生频率对应的字或词添加到差异点信息中。

可选地，所述根据所述节奏信息，确定所述目标用户的差异点信息，包括：

根据所述第一音频对应的文字信息和所述第二音频对应的文字信息，计算所述目标用户的准确率信息；

根据所述节奏信息和所述准确率信息，确定所述目标用户的差异点信息。

准确率信息可通过分数、等级等多种形式来表示。如准确率信息可以是满分为100分或10分的分数。准确率信息还可以表示为准确、较准确、一般、不准确等。

将第一音频拆分成多个第一子音频，将第二音频拆分成多个第二子音频，上述节奏信息和准确率信息都是以子音频为单位进行计算的。具体地，某一第一子音频的文字信息和对应的第二子音频的文字信息相同或相似程度较高，则目标用户对于上述第一子音频对应的字词的准确率为准确；某一第一子音频的文字信息和对应的第二子音频的文字信息相似程度较低，则目标用户对于上述第一子音频对应的字词的准确率为不准确。

可通过多种方式确定目标用户的差异点信息。具体地，对于某一第一子音频来说，在节奏信息和准确率信息都为数值的情况下，可为节奏信息和准确率信息设置不同的系数，再将两者分别乘以对应，最后加和，确定目标用户的口语评分，再根据口语评分确定差异点信息。如口语评分低于预设评分，则将该第一子音频对应的字或词添加到差异点信息中。

节奏信息可用于表征用户发声时的韵律和节拍与标准音频的匹配程度。用户的发音是否标准，用户的外语说的是否流利和地道，很大程度取决于用户发出音频中的节奏信息。本申请实施例提供的确定目标用户的语音差异点信息的方法，综合考虑了目标用户发出的音频信息的节奏信息和准确率信息。因此，本申请实施例提供的确定目标用户的差异点信息的方法可较准确地确定出目标用户的差异点信息。

可选地，所述方法还包括：

差异词为用户没能够准确朗读的单词，将包含有差异词的词义、差异词的发音和包含差异词的例句的提示信息发送给用户，可使用户进一步明确差异词的读音和用法，帮助用户加强对薄弱单词的学习。

可选地，所述方法还包括：

根据所述第一视频，确定所述目标用户的兴趣倾向；

当目标用户播放了至少一个第一视频后，可根据用户播放的第一视频的特征信息，确定目标用户的兴趣倾向。第一视频记录的特征信息包括但不限于：视频题材、视频类型、视频作者、相关人物等。可根据用户的兴趣倾向，为目标用户添加标签，标签可包括兴趣题材、兴趣类型、兴趣人物等。并根据用户的兴趣倾向，向用户推荐相关视频，以使用户可较方便地查找到感兴趣的视频。

参见图3，图3是本申请实施例提供的另一种语音检测方法的流程示意图，在本申请实施例中，所述方法包括：

S301、获取第一视频，提取所述第一视频中的第一音频。

S302、对所述第一音频进行识别，确定所述第一视频的字幕，并将所述字幕添加到所述第一视频中。

S303、基于所述目标用户的播放指令，播放添加字幕后的所述第一视频。

可选地，所述方法还包括：

识别所述字幕中的关键词；

播放所述添加字幕后的第一视频，并根据用户指令控制词典功能的开启，所述词典功能用于对所述关键词进行解析。

可在系统中预先设定第一视频中的关键词，在播放添加字幕后的第一视频的过程中，以高亮或不同颜色等方式突出显示字幕中的关键词。系统可接收用户指令，以控制词典功能的开启或关闭，词典中可包含有对关键词的注释、发音、例句等内容。

可选地，S303可包括：

系统可将第一视频中原有的语音信息去除或静音，使用户可针对添加字幕后的第一视频进行朗读，用户可感觉自己像是在对第一视频进行“配音”。

S304、获取来自所述目标用户的所述第二音频，所述第二音频为所述目标用户基于所述添加字幕后的第一视频生成的。

通过上述方式，用户可通过视频画面同时观看到原有的第一视频和自己的第二视频，提高了用户学习的趣味性。

S305、根据所述第一音频和所述第二音频，确定差异点信息。

本申请实施例提供的语音检测方法，使用户可对添加字幕后的第一视频进行朗读，用户可感觉自己像是在对第一视频进行“配音”，提升了用户学习的乐趣，增加了学习过程中的互动性，可提升用户主动学习的积极性。

参见图4，图4是本申请实施例提供的又一种语音检测方法的流程示意图，在本申请实施例中，所述方法包括：

S401、获取第一视频，提取所述第一视频中的第一音频。

S402、获取来自目标用户的第二音频，所述第二音频对应于所述第一音频。

S403、根据所述第一音频和所述第二音频，确定差异点信息。

S404、根据所述差异点信息，确定差异词。

S405、根据所述差异词，确定至少一个第一推荐视频，所述第一推荐视频的视频内容包含所述差异词。

例如，可将包含有差异词的视频作为第一推荐视频，也可将关键词为差异关键词的视频作为第一推荐视频。本申请实施例提供的语音检测方法，通过差异词，确定并向用法推送推荐视频。用户基于推荐视频可对差异词进行更加全面和系统的学习，有助于用户提升学习能力和效率。

上述图2～图4详细阐述了本申请实施例的语音检测方法。请参见图5，图5是本申请实施例提供的一种语音检测装置的结构示意图，如图5所示，所述语音检测装置包括：

提取单元501，用于获取第一视频，提取所述第一视频中的第一音频；

获取单元502，用于获取来自目标用户的第二音频，所述第二音频对应于所述第一音频；

确定单元503，用于根据所述第一音频和所述第二音频，确定并记录所述目标用户的差异点信息。

可选地，所述装置还包括：

添加单元504，用于识别所述第一音频的文字信息，以确定所述第一视频的字幕，并将所述字幕添加到所述第一视频中；

所述获取单元502具体用于：

可选地，所述获取单元502具体用于：

识别所述字幕中的关键词；

可选地，所述获取单元502具体用于：

将所述添加字幕后的第一视频和所述第二视频组合成为播放视频；

播放所述播放视频。

可选地，所述装置还包括：

显示单元505，用于根据所述差异点信息，确定差异词，并显示提示信息，所述提示信息包括以下至少之一：差异词的词义、差异词的发音和包含差异词的例句。

可选地，所述装置还包括：

第一推荐单元506，用于根据所述差异点信息，确定差异词；

根据所述差异词，确定至少一个第一推荐视频，并向所述目标用户推荐所述第一推荐视频。

可选地，所述装置还包括：

第二推荐单元507，用于根据所述第一视频，确定所述目标用户的兴趣倾向；

本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等。

本申请实施例的各处理单元和/或模块，可通过实现本申请实施例所述的功能的模拟电路而实现，也可以通过执行本申请实施例所述的功能的软件而实现。

参见图6，图6是本申请实施例提供的一种推荐方法的流程示意图，在本申请实施例中，所述方法包括：

S601、获取第一视频，提取所述第一视频中的第一音频。

S602、获取来自目标用户的第二音频，所述第二音频对应于所述第一音频。

S603、根据所述第一音频和所述第二音频，确定差异点信息。

S604、确定所述第一视频的拍摄者。

S605、向所述目标用户推荐所述拍摄者。

用户很可能喜欢第一视频的拍摄者的拍摄内容或拍摄风格等，因此，将第一视频拍摄者推荐给目标用户，可方便目标用户获取到该拍摄者拍摄的其它视频内容及该拍摄者的动态等个人信息。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述语音检测方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

参见图6，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施上述实施例中语音检测方法。具体来讲：

存储器620可用于存储软件程序以及模块，处理器690通过运行存储在存储器620的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器620还可以包括存储器控制器，以提供处理器690和输入单元630对存储器620的访问。

输入单元630可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元630可包括触敏表面631(例如：触摸屏、触摸板或触摸框)。触敏表面631，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631上或在触敏表面631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器690，并能接收处理器690发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的，触敏表面631可覆盖显示面板641，当触敏表面631检测到在其上或附近的触摸操作后，传送给处理器690以确定触摸事件的类型，随后处理器690根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触敏表面631与显示面板641是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面631与显示面板641集成而实现输入和输出功能。

处理器690是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器690可包括一个或多个处理核心；其中，处理器690可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器690中。

具体在本实施例中，终端设备的显示单元是触摸屏显示器，终端设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现上述语音检测方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上介绍仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音检测方法，其特征在于，所述方法包括：

获取第一视频，提取所述第一视频中的第一音频；

根据所述第一音频和所述第二音频，确定差异点信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述获取来自目标用户的第二音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

识别所述字幕中的关键词；以及

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

根据所述差异点信息，确定差异词；

向所述目标用户推荐所述第一推荐视频。

和/或

根据所述第一视频，确定所述目标用户的兴趣倾向；

7.一种推荐方法，包括权利要求1-6任一所述的语音检测方法，其特征在于，所述方法还包括：

确定所述第一视频的拍摄者；以及

向所述目标用户推荐所述拍摄者。

8.一种语音检测装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。