CN106373598A

CN106373598A - 音频重播的控制方法和装置

Info

Publication number: CN106373598A
Application number: CN201610711258.1A
Authority: CN
Inventors: 韩旭
Original assignee: Meizu Technology Co Ltd
Current assignee: Wuhan Xingji Meizu Technology Co ltd
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2017-02-01
Anticipated expiration: 2036-08-23
Also published as: CN106373598B

Abstract

本发明涉及一种音频重播的控制方法和装置，所述方法包括：获取音频文件，根据所述音频文件播放音频；对所述音频中的人声部分进行解析得到断句时间；获取输入的音频重播指令的指令输入时间；从所述断句时间中查找与所述指令输入时间相匹配的断句时间；根据查找到的断句时间重播相应的音频。本发明提供的音频重播的控制方法和装置，无需检测音频播放过程中的声音停顿，同时也排除了背景音乐的干扰，直接根据解析人声部分得到的断句时间重播相应的音频，提高了音频重播的成功率。

Description

音频重播的控制方法和装置

技术领域

本发明涉及音频播放技术领域，特别是涉及音频重播的控制方法和装置。

背景技术

目前在音频文件的播放技术领域中，在音频文件的播放过程中需要对某段音频进行重播，是通过检测音频播放过程中是否有声音停顿来进行重播。

然而，目前音频的播放过程中，往往存在背景音乐，而背景音乐在整个音频文件的播放过程中不存在声音停顿，这样就导致在音频播放过程中不能检测到声音停顿，因此通过检测声音停顿来实现音频的重播的成功率较低。

发明内容

基于此，有必要针对通过检测声音停顿来实现音频重播的成功率较低问题，提供一种音频重播的控制方法。

一种音频重播的控制方法，所述方法包括：

获取音频文件，根据所述音频文件播放音频；

对所述音频中的人声部分进行解析得到断句时间；

获取输入的音频重播指令的指令输入时间；

从所述断句时间中查找与所述指令输入时间相匹配的断句时间；

根据查找到的断句时间重播相应的音频。

在其中一个实施例中，所述对音频中的人声部分进行解析得到断句时间，包括：

获取所述音频的声音频率；

根据所述声音频率提取所述音频中的人声部分；

解析所述人声部分得到断句时间。

检测所述音频中的人声部分是否存在人声停顿；

在检测到人声停顿时，记录所述人声停顿的时间作为断句时间。

语音识别所述音频中的人声部分得到人声部分对应的文字；

对所述人声部分对应的文字进行语义解析确定断句时间。

检测所述音频中的人声部分的声纹是否改变；

在检测到声纹改变时，记录声纹改变时间作为断句时间。

上述音频重播的控制方法，在根据音频文件播放音频时，对音频中的人声部分进行解析，通过解析得到断句时间，只对人声部分进行解析排除了背景声音的干扰，断句时间的确定更加准确。当接收到音频重播指令时，获取音频重播指令的指令输入时间，从断句时间中查找与指令输入时间相匹配的断句时间，根据查找到的断句时间重播相应的音频。这样，无需检测音频播放过程中的声音停顿，同时也排除了背景音乐的干扰，直接根据解析人声部分得到的断句时间重播相应的音频，提高了音频重播的成功率。

一种音频重播的控制装置，所述装置包括：

文件获取模块，用于获取音频文件，根据所述音频文件播放音频；

音频解析模块，用于对所述音频中的人声部分进行解析得到断句时间；

时间获取模块，用于获取输入的音频重播指令的指令输入时间；

时间查找模块，用于从所述断句时间中查找与所述指令输入时间相匹配的断句时间；

音频重播模块，用于根据查找到的断句时间重播相应的音频。

在其中一个实施例中，所述音频解析模块包括：

频率获取模块，用于获取所述音频的声音频率；

人声提取模块，用于根据所述声音频率提取所述音频中的人声部分；

人声解析模块，用于解析所述人声部分得到断句时间。

在其中一个实施例中，所述音频解析模块包括：

人声停顿检测模块，用于检测所述音频中的人声部分是否存在人声停顿；

停顿时间记录模块，用于在检测到人声停顿时，记录所述人声停顿的时间作为断句时间。

在其中一个实施例中，所述音频解析模块包括：

语音识别模块，用于语音识别所述音频中的人声部分得到人声部分对应的文字；

语义解析模块，用于对所述人声部分对应的文字进行语义解析确定断句时间。

在其中一个实施例中，所述音频解析模块包括：

声纹改变检测模块，用于检测所述音频中的人声部分的声纹是否改变；

改变时间记录模块，用于在检测到声纹改变时，记录声纹改变时间作为断句时间。

上述音频重播的控制装置，在根据音频文件播放音频时，对音频中的人声部分进行解析，通过解析得到断句时间，只对人声部分进行解析排除了背景声音的干扰，断句时间的确定更加准确。当接收到音频重播指令时，获取音频重播指令的指令输入时间，从断句时间中查找与指令输入时间相匹配的断句时间，根据查找到的断句时间重播相应的音频。这样，无需检测音频播放过程中的声音停顿，同时也排除了背景音乐的干扰，直接根据解析人声部分得到的断句时间重播相应的音频，提高了音频重播的成功率。

附图说明

图1为一个实施例中音频重播的控制方法的流程示意图；

图2为一个实施例中根据人声部分得到断句时间的步骤的流程示意图；

图3为一个实施例中根据语音识别确定断句时间的步骤的流程示意图；

图4为一个实施例中根据声纹确定断句时间的步骤的流程示意图；

图5为一个实施例中音频重播的控制装置的结构框图；

图6为一个实施例中音频解析模块的结构框图；

图7为另一个实施例中音频解析模块的结构框图；

图8为再一个实施例中音频解析模块的结构框图；

图9为又一个实施例中音频解析模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供一种音频重播的控制方法，本实施例以该方法应用在终端上举例说明，终端上运行有音频重播的控制程序，音频重播的控制程序用于实施音频重播的控制方法。其中，终端具体可以是个人电脑或移动终端，个人电脑具体可以是台式电脑或笔记本电脑，移动终端具体可以是智能手机、平板电脑和个人数字助理中的至少一种。该方法具体包括以下步骤：

S102，获取音频文件，根据音频文件播放音频。

具体地，音频文件为记录声音的数据文件。音频为存储在计算机里的，且能够被人听到的声音。终端上安装有播放音频文件的播放应用。用户可以通过对播放应用进行操作来控制音频的播放。终端在检测到播放应用中输入的音频播放指令，提取音频播放指令中的音频文件标识，根据音频文件标识获取对应的音频文件，将获取到的音频文件添加到播放应用中，在播放应用中播放该音频文件。

S104，对音频中的人声部分进行解析得到断句时间。

具体地，终端在根据音频文件播放音频后，对音频中的人声部分进行识别，根据识别的人声部分的完整语句，并确定完整语句在音频中的结束时间，将完整语句在音频中的结束时间记录为断句时间。

在一个实施例中，终端对音频中的声音进行识别，识别声音中是否存在停顿，若终端识别到音频中的声音存在停顿时，则记录停顿时间点，以记录的停顿时间点为断句时间。声音具体包括背景声音和伴奏声音中的任何一种。

在一个实施例中，S104具体还包括：检测音频中的人声部分是否存在人声停顿；在检测到人声停顿时，记录人声停顿的时间作为断句时间。

具体地，终端在根据音频文件播放音频时，提取音频中的人声部分。终端检测人声部分是否有停顿，检测到人声部分有停顿时，记录停顿时间段。将记录的停顿时间段与预设时间段进行比较，若停顿时间段大于等于预设时间段时，则获取音频的停顿时间段的开始时间或结束时间，并将获取到的开始时间或结束时间存储为音频文件的断句时间。断句时间具体还可以是停顿时间段中的任一时间点。

S106，获取输入的音频重播指令的指令输入时间。

具体地，在需要输入的音频重播时，用户在终端安装的播放应用中输入音频重播指令。终端在检测到播放应用中输入的音频重播指令时，获取音频文件当前的播放时间，以获取到的播放时间作为音频重播指令的指令输入时间。音频重播指令用于控制音频的重复播放。

S108，从断句时间中查找与指令输入时间相匹配的断句时间。

具体地，终端在获取到音频服务指令的指令输入时间后，将指令输入时间与存储的音频文件的断句时间进行比较。终端从存储的断句时间中查找与指令输入时间时间差最小的断句时间，则提取查找到的断句时间，提取到的断句时间为与指令输入时间相匹配的断句时间，相匹配的断句时间包括相邻的断句时间和相等的断句时间。

在一个时间点，终端中存储着音频文件的多个断句时间，多个断句时间为音频文件的播放时间内的多个断句时间。在终端获取到输入的音频重播指令时的指令输入时间后，在存储的多个断句时间中查找与指令输入时间相邻的两个断句时间，指令输入时间在相邻的两个断句时间之间。

S110，根据查找到的断句时间重播相应的音频。

具体地，在终端从存储的断句时间查找到与指令输入时间相匹配的断句时间后，将音频文件的当前播放时间设置为查找到的断句时间，并以查找到的断句时间为开始播放的时间点开始播放音频文件。

在一个实施例中，在终端从存储的断句时间查找到与指令输入时间相邻的两个断句时间后，将较早的断句时间设置为重播开始时间开始播放音频文件。将较晚的断句时间设置为重播结束时间，当前播放时间达到重播结束时间时，结束重播。

本实施例中，在根据音频文件播放音频时，对音频中的人声部分进行解析，通过解析得到断句时间，只对人声部分进行解析排除了背景声音的干扰，断句时间的确定更加准确。当接收到音频重播指令时，获取音频重播指令的指令输入时间，从断句时间中查找与指令输入时间相匹配的断句时间，根据查找到的断句时间重播相应的音频。这样，无需检测音频播放过程中的声音停顿，同时也排除了背景音乐的干扰，直接根据解析人声部分得到的断句时间重播相应的音频，提高了音频重播的成功率。

如图2所示，在一个实施例中，S104具体包括根据人声部分得到断句时间的步骤，该步骤具体包括以下内容：

S202，获取音频的声音频率。

具体地，终端在根据音频文件播放音频时，对播放的音频进行识别，通过对播放音频的识别，提取音频的各种声音的声音频率。

S204，根据声音频率提取音频中的人声部分。

具体地，终端在获取到各种声音的声音频率后，将获取到的声音频率与人声频率进行比较，从音频中提取符合人声频率的声音频率对应的部分，提取到的部分为人身部分。

S206，解析人声部分得到断句时间。

具体地，终端在提取到人声部分后，对提取到的人声部分进行解析得到声波图，波形图与音频文件的播放时间对应。终端检测波形图中波峰值未超过预设值的时间段，若检测到波峰值未超过预设值的时间段后，则以该时间段的开始时间或结束时间为断句时间。

本实施例中，根据声音频率的从音频中提取人声部分，通过对人声部分进行解析的得到断句时间，可以根据人声部分准确确定人的语句停顿对应的断句时间，保证在重播时根据断句时间开语句开始部分进行重播，保证重播语句的完整性。

如图3所示，在一个实施例中，S104具体还包括根据语音识别确定断句时间的步骤，该步骤具体包括以下内容：

S302，语音识别音频中的人声部分得到人声部分对应的文字。

具体地，终端在获取到音频中的人声部分后，对人声部分按照播放时间进行语音识别。终端提取人声部分的特征信息，将提取到的特征信息与语音识别库中特征信息进行匹配，提取匹配的特征信息对应的文字，得到人声部分对应的文字，将提取到的文字按照播放时间的顺序排列，得到人声部分对应的文字串。

S304，对人声部分对应的文字进行语义解析确定断句时间。

具体的，终端将语音识别得到人声部分对应的文字串与语义识别库中的语句进行比对进行语义解析，通过语义解析在根据人声部分对应文字确定完整语句时，提取该完整语句结束时对应的播放时间作为断句时间。

本实施例中，根据语音识别将人声部分转换为人声部分对应的文字，再对文字进行语义解析确定断句时间，通过语音识别和语义解析可以准确确定完整语句的断句时间，从而保证在重播时可以重播完整语句。

如图4所示，在一个实施例中，S104具体包括根据声纹确定断句时间的步骤，该步骤具体包括以下内容：

S402，检测音频中的人声部分的声纹是否改变。

具体地，终端根据音频文件播放音频时，终端从音频中提取符合人声频率的声音作为人声部分，在提取到人声部分后，对人声部分进行声纹识别得到人声部分对应的声纹。在识别到人声部分对应的声纹时，终端定期提取当前播放的人声部分对应的声纹中的特征信息，将提取到的相邻的特征信息进行比较，若特征信息不一致，表明声纹改变，若特征信息一致，表明声纹为改变。声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。声纹识别是生物识别的一种，不同的人对应不同的声纹。

声纹识别(Voiceprint Recognition，VPR)，也称为说话人识别(SpeakerRecognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。本实施例中属于说话人确认的类型，用于确定当前音频中的人声部分与上段音频中的人声部分是否对应同一个人。

S404，在检测到声纹改变时，记录声纹改变时间作为断句时间。

具体地，在终端检测到声纹改变时，终端以声纹改变时对应的人声部分对应的播放时间为断句时间并记录存储。终端还可以以提取检测时间，以检测到声纹变更时对应的播放时间作为断句时间。

在一个实施例中，终端在检测到输入的音频重播指令时，可以提取重播指令中选定的声纹，从音频中提取与选定声纹匹配的音频段，在提去到匹配的音频段后，播放提取到的音频段。

本实施例中，对音频中的人声部分的声纹进行检测，在检测到声纹改变时，表明人声部分对应的发声者发生改变，记录声纹改变时间作为断句时间。在获取到音频重播指令时，按照声纹改变时间对音频进行重播，重播的音频所对应的发声者为同一发声者，保证同一发声者对应的音频的重播完整性。

如图5所示，在一个实施例中，提供一种音频重播的控制装置500，该装置具体包括：文件获取模块502、音频解析模块504、时间获取模块506、时间查找模块508和音频重播模块510。

文件获取模块502，用于获取音频文件，根据音频文件播放音频。

音频解析模块504，用于对音频中的人声部分进行解析得到断句时间。

时间获取模块506，用于获取输入的音频重播指令的指令输入时间。

时间查找模块508，用于从断句时间中查找与指令输入时间相匹配的断句时间。

音频重播模块510，用于根据查找到的断句时间重播相应的音频。

如图6所示，在一个实施例中，音频解析模块504具体包括：频率获取模块504a、人声提取模块504b和人声解析模块504c。

频率获取模块504a，用于获取音频的声音频率。

人声提取模块504b，用于根据声音频率提取音频中的人声部分。

人声解析模块504c，用于解析人声部分得到断句时间。

如图7所示，在一个实施例中，音频解析模块504具体还包括：人声停顿检测模块504d和停顿时间记录模块504e。

人声停顿检测模块504d，用于检测音频中的人声部分是否存在人声停顿。

停顿时间记录模块504e，用于在检测到人声停顿时，记录人声停顿的时间作为断句时间。

本实施例中，检测人声部分是否存在人声停顿，若检测到人声停顿，则记录人声停顿的时间作为断句时间，确保在重播时，从人声停顿的时间开始重播，从而确保重播语句的完整性。

如图8所示，在一个实施例中，音频解析模块504具体还包括：语音识别模块504f和语义解析模块504g。

语音识别模块504f，用于语音识别音频中的人声部分得到人声部分对应的文字。

语义解析模块504g，用于对人声部分对应的文字进行语义解析确定断句时间。

如图9所示，在一个实施例中，音频解析模块504具体包括：声纹改变检测模块504h和改变时间记录模块504i。

声纹改变检测模块504h，用于检测音频中的人声部分的声纹是否改变。

改变时间记录模块504i，用于在检测到声纹改变时，记录声纹改变时间作为断句时间。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音频重播的控制方法，所述方法包括：

获取音频文件，根据所述音频文件播放音频；

对所述音频中的人声部分进行解析得到断句时间；

获取输入的音频重播指令的指令输入时间；

根据查找到的断句时间重播相应的音频。

2.根据权利要求1所述的方法，其特征在于，所述对音频中的人声部分进行解析得到断句时间，包括：

获取所述音频的声音频率；

根据所述声音频率提取所述音频中的人声部分；

解析所述人声部分得到断句时间。

3.根据权利要求1所述的方法，其特征在于，所述对音频中的人声部分进行解析得到断句时间，包括：

检测所述音频中的人声部分是否存在人声停顿；

4.根据权利要求1所述的方法，其特征在于，所述对音频中的人声部分进行解析得到断句时间，包括：

语音识别所述音频中的人声部分得到人声部分对应的文字；

对所述人声部分对应的文字进行语义解析确定断句时间。

5.根据权利要求1所述的方法，其特征在于，所述对音频中的人声部分进行解析得到断句时间，包括：

检测所述音频中的人声部分的声纹是否改变；

在检测到声纹改变时，记录声纹改变时间作为断句时间。

6.一种音频重播的控制装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述音频解析模块包括：

频率获取模块，用于获取所述音频的声音频率；

人声解析模块，用于解析所述人声部分得到断句时间。

8.根据权利要求6所述的装置，其特征在于，所述音频解析模块包括：

9.根据权利要求6所述的装置，其特征在于，所述音频解析模块包括：

10.根据权利要求6所述的装置，其特征在于，所述音频解析模块包括：