CN109635151A

CN109635151A - 建立音频检索索引的方法、装置及计算机设备

Info

Publication number: CN109635151A
Application number: CN201811550607.1A
Authority: CN
Inventors: 郑勇; 王辉
Original assignee: Shenzhen Water World Co Ltd
Current assignee: Shenzhen Water World Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-16

Abstract

本发明提出了一种建立音频检索索引的方法、装置及计算机设备，其中建立音频检索索引的方法包括：将目标音频分成若干个语音段，其中，每个所述语音段中仅包括一个人物的语音；确定各个语音段所对应的人物；根据各个语音段所对应的不同人物，对各个语音段进行分类；将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。在建立了音频检索索引之后，用户能够检索出音频内包含有某个特定人物的语音的所有语音段，以及精准确定检索出来的语音段在音频中的具体播放位置，便于用户对音频进行回看或整理。

Description

建立音频检索索引的方法、装置及计算机设备

技术领域

本发明涉及到索引建立领域，特别是涉及到一种建立音频检索索引的方法、装置及计算机设备。

背景技术

在现有的音频或者视频文件中，人们如果想要回看音频或者视频中的某一部分，一般都是采用快进或者快退，或者手动拉动进度条，以调整到自己想要回看的部分，这种回看方式只适合于纯粹观看或者只是偶尔回看的场景。当人们需要对音频或者视频中的某一个特定人物所说的话进行检索或者整理时，采用这种回看方式就费时费力，而且效率低下。因此，以上问题亟待解决。

发明内容

本发明的主要目的为提供一种建立音频检索索引的方法、装置及计算机设备，可以建立音频文件中的各个语音段与目标音频之间的索引关系。

本发明提出一种建立音频检索索引的方法，包括：

将目标音频分成若干个语音段；其中，每个语音段中仅包括一个人物的语音；

确定各个语音段所对应的人物；

根据各个语音段所对应的不同人物，对各个语音段进行分类；

将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频之间建立索引关系，形成音频检索索引。

进一步地，将目标音频分成若干个语音段的步骤，包括：

识别目标音频中包含的所有原始语音段；

对每个原始语音段的起点和终点进行标记，形成若干个语音段。

进一步地，确定各个语音段所对应的人物的步骤，包括：

在各个语音段之间进行语音特征参数的互相对比；

对语音特征参数相同的语音段做同一分类标记。

进一步地，在在各个语音段之间进行语音特征参数的互相对比的步骤之前，包括：

提取每个语音段的语音特征参数。

进一步地，根据各个语音段所对应的不同人物，对各个语音段进行分类的步骤，包括：

根据分类标记，对各个语音段进行分类。

进一步地，在将分类后的语音段与目标音频进行关联保存，形成音频检索索引的步骤之前，还包括：

参照目标音频的原始播放时间，对每个语音段播放时间的信息进行记录；

根据记录的播放时间的信息，按照播放时间的先后顺序排列各个分类内的语音段。

进一步地，在将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引的步骤之后，还包括：

将每个分类内中的每个语音段的语音识别为文字；

将文字与对应的语音段进行关联保存。

本发明还提出了一种建立音频检索索引的装置，包括：

分割模块，用于将目标音频分成若干个语音段；其中，每个语音段中仅包括一个人物的语音；

确定模块，用于确定各个语音段所对应的人物；

分类模块，用于根据各个语音段所对应的不同人物，对各个语音段进行分类；

第一保存模块，用于将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。

进一步地，分割模块，包括：

识别单元，用于识别目标音频中包含的所有原始语音段；

第一标记单元，用于对每个原始语音段的起点和终点进行标记，形成若干个语音段。

进一步地，确定模块，包括：

对比单元，用于在各个语音段之间进行语音特征参数的互相对比；

第二标记单元，用于对语音特征参数相同的语音段做同一分类标记。

进一步地，确定模块，还包括：

提取单元，用于提取每个语音段的语音特征参数。

进一步地，分类模块，包括：

分类单元，用于根据分类标记，对各个语音段进行分类。

进一步地，还包括：

参照模块，用于参照目标音频的原始播放时间，对每个语音段进行播放时间的信息记录；

排列模块，用于根据播放时间的信息记录，按照播放时间的先后顺序排列各个分类内的语音段。

进一步地，还包括：

语音识别模块，用于对每个分类内中的每个语音段进行文字的语音识别；

第二保存模块，用于将文字与对应的语音段进行关联保存。

本发明还提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述中任一项的建立音频检索索引的方法。

本发明与现有技术相比，有益效果是：本发明提出了一种建立音频检索索引的方法、装置及计算机设备，其中建立音频检索索引的方法包括：将目标音频分成若干个语音段；其中，每个语音段中仅包括一个人物的语音；确定各个语音段所对应的人物；根据各个语音段所对应的不同人物，对各个语音段进行分类；将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频之间建立索引关系，形成音频检索索引。在建立了音频检索索引之后，用户能够检索出音频内包含有某个特定人物的语音的所有语音段，以及精准确定检索出来的语音段在音频中的具体播放位置，便于用户对音频进行回看或整理。

附图说明

图1为本发明建立音频检索索引的方法一实施例的步骤示意图；

图2为本发明建立音频检索索引的装置第一实施例的模块框架示意图；

图3为本发明建立音频检索索引的装置第二实施例的分割模块的模块框架示意图；

图4为本发明建立音频检索索引的装置第三实施例的确定模块的模块框架示意图；

图5为本发明建立音频检索索引的装置第四实施例的确定模块的模块框架示意图；

图6为本发明建立音频检索索引的装置第五实施例的模块框架示意图；

图7为本发明建立音频检索索引的装置第六实施例的模块框架示意图；

图8为本发明建立音频检索索引的装置第七实施例的模块框架示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，本发明一实施例中提出了一种建立音频检索索引的方法，包括：

S1：将目标音频分成若干个语音段，其中，每个语音段中仅包括一个人物的语音；

S2：确定各个语音段所对应的人物；

S3：根据各个语音段所对应的不同人物，对各个语音段进行分类；

S4：将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。

在上述将目标音频分成若干个语音段，其中，每个语音段中仅包括一个人物的语音的步骤S1中，在包含有人物说话或者其他语音的场景的音频文件中，与一些环境噪声不同的是，人物的说话语音并不会是连续不断的一直说下去，而是由许许多多的停顿以及片段组成整个音频，并且在大多数时候(即人物正常对话或独白的时候)，在同一个特定的时间段里，一般都只有一个人物的语音出现，而很少会出现多重语音混杂的场景。因此想要能够在目标音频文件里精准的检索到某个具体的人物所说的语音，首先要把目标文件分割成若干个语音段，其目的有三：一是整个目标音频文件可能较大，直接进行处理比较困难，在分割成若干个语音段之后，能够对其进行分别处理，提高效率；二是通过把目标音频分割成若干个语音段后，能够尽可能的把某个具体人物所说的语音给分割出来，即保证在一个特定语音段里只有一个人物的语音出现，而不会混杂多个人物的语音，方便后续检索。三是通过把目标音频分割成若干个语音段后，能够通过处理把目标音频文件中不包含人物说话语音的语音段给忽略掉，例如环境噪音或者无声场景等，从而只保留目标音频文件中包含人物说话语音的语音段，便于后续对某个人物进行检索。为了保证分割出来的每个语音段中都只包含一个人物的语音，在将目标音频分成若干个语音段时，尽可能把每个语音段的长度分割的短一些，使得同一个语音段里同时包含两个或者多个人物的语音的可能性大大降低。

在上述确定各个语音段所对应的人物的步骤S2中，在一些实施例中，把目标音频分成若干个语音段之后，首先对这些语音段进行语音特征参数的识别和提取，例如声纹特征参数的识别和提取，然后在语音段之间进行声纹特征参数的对比，以确定哪些语音段对应同一人物，哪些语音段不对应同一人物，便于后续对这些语音段根据人物的不同进行分类(聚类)，从而可以根据人物对目标音频文件中的语音段进行检索。

在上述根据各个语音段所对应的不同人物，对各个语音段进行分类的步骤S3中，在步骤S2中，已经对语音段的语音特征参数进行了识别提取以及互相对比，根据互相对比的结果按照所对应人物的不同对这些语音段进行分类，例如把同样都是属于X人物的语音段做同样的标记以分成一类，把同样属于Y人物的语音段做同样的标记以分成一类，以方便后续可以根据人物来对语音段进行检索。

在上述将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引的步骤S4中，在根据人物的不同把所有的语音段进行分类之后，将这些分类与目标音频文件进行关联保存，以在语音段和目标音频间建立索引关系，。例如目标音频文件1中有X、Y和Z三个人物出现，则所有的语音段在步骤S3中就被分成了三个分类：X、Y和Z，然后把这三个分类与目标音频文件1进行关联保存，形成音频检索索引。当需要用到时，我们就可以在目标音频文件1内根据这三个分类进行检索，例如输入X，我们就可以得到目标音频文件1内所有属于X的语音段的搜索结果，即把目标音频文件1内所有X说的语音都提取了出来，以便于我们对X所说的语音进行回看或者总结。当我们需要整理某一个音频文件中某一个特定的人物所说的语音时，采用这种音频检索索引就能十分方便快捷的把该特定人物所说的全部语音给搜索出来。在一些实施例中，将分类与目标音频进行关联保存之后，用户还能够对该分类进行自定义命名，例如系统设定是保存为X、Y和Z三个分类，在检索的时候也是输入X、Y和Z，此时用户可以把X、Y和Z分别自定义为天、地和人，即变成了天、地和人三个分类与目标音频文件1进行关联保存，以方便自己的记忆和检索。

在一些实施例中，将目标音频分成若干个语音段的步骤S1，包括：

S11：识别目标音频中包含的所有原始语音段；

S12：对每个原始语音段的起点和终点进行标记，形成若干个语音段。

在上述识别目标音频中包含的所有原始语音段的步骤S11中，在一些实施例中，通过VAD技术识别出目标音频中包含的所有原始语音段，其中VAD(Voice ActivityDetection)技术又称语音端点检测或者语音边界检测，采用VAD技术对目标音频进行识别，能够自动检测识别人物说话的语音边界，把目标音频中的静音段给去除，如人物对话时之间的停顿、画面转换时无语音画面等，从而只保留下包含有人物说话语音的语音段，便于后续对语音段进行语音特征参数的提取处理。在一些实施例中，VAD技术结合噪音去除技术，在识别目标音频中所有的语音段时，自动去除目标音频中的环境噪声，例如背景的嘈杂声、动物的吼叫声等，以便于更加精准的识别出目标音频中包含有人物台词的语音段。

在上述对每个原始语音段的起点和终点进行标记，形成若干个语音段的步骤S12中，在识别出目标音频中所有的包含人物说话语音的语音段之后，对每个语音段的起点和终点都进行标记，形成若干个语音段，以便于后续对每个语音段进行声纹特征参数的识别、提取以及互相对比的处理。例如，目标音频中的第一个语音段的起点标记为T_S1，其终点标记为T_E1，则T_S1到T_E1之间称之为第一语音段，其中包含了目标音频中某一个特定人物的语音，以此类推，目标音频中的第M个语音段的起点标记为T_SM，其终点标记为T_EM，则T_SM到T_EM之间称之为第M语音段，其中包含了目标音频中某一个特定人物的语音。通过对识别出来的语音段的起点和终点做标记，把目标音频分成了包含有人物说话语音的若干个语音段，在对语音段的起点和终点做标记，可以根据目标音频的不同，调节VAD技术中语音端点的灵敏度，当目标音频中有较多人物在同一个场景中连续的说话时，把语音端点的灵敏度适当调高，例如当其中一个特定人物在说话时稍有停顿，就把这个停顿点作为语音段的终点进行标记，这是即使另外一个人马上接着说话，另外一个人的语音信息也不会同前一个人物的语音信息被划分在同一个语音段中，保证了每个语音段中都只包含了一个人物的语音信息。

在一些实施例中，确定各个语音段所对应的人物的步骤S2，包括：

S21：在各个语音段之间进行语音特征参数的互相对比；

S22：对语音特征参数相同的语音段做同一分类标记。

在上述在各个语音段之间进行语音特征参数的互相对比的步骤S21中，在把目标音频分割成若干个包含人物说话语音的语音段之后，在各个语音段之间通过语音特征参数的对比，以确定哪些语音段对应同一人物，哪些语音段不对应同一人物，便于后续对这些语音段根据人物的不同进行分类(聚类)，由于语音、语调等语音特征的不同，使得每个人物的语音都有属于自己的语音特征参数，不同人物之间的语音特征参数一般存在一个差值范围，在识别和提取了不同语音段的语音特征参数之后，将二者的语音特征参数进行对比。若二者的语音特征参数对比误差小于设定值(该设定值根据实际测试进行选定，该设定值一般较小)，说明二者的的语音特征参数十分接近，认为这两个语音段对应的是同一人物，则对这两个语音段做同样的第一分类标记，表明该两个语音段对应的是同一人物，属于同一分类。

在上述对语音特征参数相同的语音段做同一分类标记的步骤S22中，在一些实施例中，对语音特征参数相同的语音段做同一分类标记的过程为：首先在若干个语音段中选取一个语音段作为第一目标语音段，并对其做分类标记中的第一分类标记，分类标记指的是后续给语音段用于按照人物进行分类的标记，分类标记包括第一分类标记、第二分类标记……以此类推，例如选取第一语音段作为第一目标语音段，在步骤S1中第一语音段的起点和终点分别被做了标记T_S1和T_E1，若把第一语音段选取为第一目标语音段，此时根据原先的起点标记和终点标记读取到第一语音段之后再次对第一语音段做分类标记中的第一分类标记，第一分类标记只是分类标记中的一个分类，即相当于给予第一语音段一个代号，同其他语音段区别开来，该第一分类标记可以在原先的起点标记和终点标记上继续进行标记，例如在T_S1和T_E1的基础上，把第一语音段的起点和终点分别标记为T_S1-X和T_E1-X(即此时的第一分类标记为X),也可以在原先的起点标记和终点标记外进行标记，例如在第一语音段上增加标记为T_X1,这两种标记方式都是为了方便能够给予第一语音段一个特定的分类，给予其一个特定代号，只要能够起到区别作用即可。在另一些实施例中，在从若干个语音段中选取一个语音段做分类标记时，可以按照目标音频的播放时间顺序选取播放时间在最前面的语音段，也可以随机选取一个语音段，只要能够对语音段完成分类即可。然后在第一目标语音段与其余的所有语音段都对比完毕之后，检测是否还有语音段不含分类标记的目的在于检测是否存在语音段与目标语音段对应的不是同一人物，即目标音频中是否存在多个不同的人物。若检测到所有的语音段都含有分类标记，则说明经过语音特征参数的对比之后，所有的语音段都已经确定了属于自己的分类关系，例如则不需要再进行对比，此时结束语音特征参数的对比，可以进入根据分类标记对这些语音段进行分类的步骤。在一些实施例中，若检测到还有语音段不含有分类标记，则说明仍旧有语音段尚未确定分类关系，无法进行分类。此时与之前的进行语音特征参数对比的过程类似，同理在剩余的所有不含分类标记的语音段中再次选取一个语音段作为第二目标语音段，然后给予该第二目标语音段一个分类标记，该分类标记要与之前已有的分类标记区分开，以表明和之前做了分类标记的语音段不属于同一个分类。例如已经存在的分类标记有属于X分类的T_S1-X和T_E1-X，以及属于Y分类的T_S7-Y和T_E7-Y，则此时若剩余的所有不含分类标记的语音段中再次选取了第九语音段作为第二目标语音段，则给其做的分类标记为Z分类的T_S9-Z和T_E9-Z，以此作为一个新的分类和之前存在的分类区别开来。然后继续在除第二目标语音段之外的其余的不含分类标记的语音段中进行逐个选取，作为对比语音段与第二目标语音段进行语音特征参数的对比，若对比语音段与第二目标语音段语音特征参数的对比的误差小于设定值，则认为第二目标语音段与对比语音段对应同一人物，并对对比语音段做与第二目标语音段同样的第二分类标记，重复这个步骤，直到检测到所有的语音段都包含了分类标记之后，才结束语音特征参数的对比。在一些实施例中，语音特征参数相同的标准可以设定为百分百相同，即两个语音段之间的语音特征参数完全相同才认为这两个语音段对应的是同一个人物。在另一些实施例中，由于语音特征参数的测量会出现一定的误差，而且即使是同一个人物，其不同时间段语音的语音特征参数也不一定完全一致，因此若二者的语音特征参数对比误差小于设定值(该设定值根据实际测试进行选定，该设定值一般较小)，就认为这两个语音段对应的是同一人物。

在一些实施例中，语音特征参数包括声纹特征参数；在在各个语音段之间进行语音特征参数的互相对比的步骤S21之前，包括：

S23：提取每个语音段的语音特征参数。

在上述提取每个语音段的语音特征参数的步骤S23中，在进行语音段之间的语音特征参数对比，以确定两个语音段是否对应同一人物时，首先对每个语音段的语音特征参数进行提取，在一些实施例中，该语音特征参数为声纹特征参数，因为每个人的声纹特征参数都不相同，且不同的人之间的声纹特征参数相差一般较大，通过声纹特征参数的对比，能够比较精准的确定两个语音段对应的是否是同一人物。在一些实施例中，提取的声纹特征参数包括基于声道的线性预测倒谱系数(LPCC)和/或基于听觉特性的梅尔频率倒谱系数(MFCC)。

在一些实施例中，根据各个语音段所对应的不同人物，对各个语音段进行分类的步骤S3，包括：

S31：根据分类标记，将各个语音段进行分类。

在上述根据分类标记，将各个语音段进行分类的步骤S31中，在经过语音特征参数的对比之后，所有的语音段都已经做了分类标记，例如属于X分类的T_S1-X和T_E1-X，属于Y分类的T_S7-Y和T_E7-Y，属于Z分类的T_S9-Z和T_E9-Z以及其他分类等，根据这些分类标记，就可以把所有的语音段都进行分类，把具有相同分类标记的语音段全部分成同一类，以便后续进行保存及进行同类检索。

在一些实施例中，在将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引的步骤S4之前，还包括：

S5：参照目标音频的原始播放时间，对每个语音段进行播放时间的信息记录；

S6：根据播放时间的信息记录，按照播放时间的先后顺序排列各个分类内的语音段。

在上述参照目标音频的原始播放时间，对每个语音段进行播放时间的信息记录的步骤S5中，正常的目标音频都有一个原始播放时间，目标音频按照原始播放时间从头到尾进行播放，在把目标音频分割成若干个语音段之后，参照目标音频的原始播放时间，对每个语音段进行时间信息记录，即记录这个语音段是处于目标音频内的何种位置。在一些实施例中，在语音段的起点标记和终点标记上添加时间信息记录，例如在T_S8-X和T_E8-X上添加时间信息记录，使该语音段的起点标记和终点标记变成T_S8-X-36:01和T_E8-X-37:13，此时该语音段的标记所代表的意思是该语音段是目标音频中的第八个语音段，所对应的是X分类，其位置位于目标音频的原始播放时间的36分01秒到37分13秒。

在上述根据播放时间的信息记录，按照播放时间的先后顺序排列各个分类内的语音段的步骤S6中，在对各个语音段进行时间信息记录之后，在分类内按照播放时间的先后顺序排列语音段，例如最后结果中X分类可能有四个语音段，分别为T_S1-X-5:01—T_E1-X-7:13，T_S5-X-12:01—T_E5-X-17:13，T_S8-X-36:01—T_E8-X-37:13以及T_S14-X-45:01—T_E14-X-48:13，在检索的时候，假如输入X，则可以得到以上四个按照时间先后顺序排列的结果，使得检索用户能够快捷的得到目标音频中关于X的所有语音段以及这些语音段各自在目标音频中的位置，一目了然。

在一些实施例中，在将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引的步骤S4之后，还包括：

S7：对每个分类内中的每个语音段进行文字的语音识别；

S8：将文字与对应的语音段进行关联保存。

在上述对每个分类内中的每个语音段进行文字的语音识别的步骤S7中，进一步地，在将分类与目标音频进行关联保存，形成音频检索索引之后，可以对这个分类内的每个语音段进行语音识别，把所有的语音段都转化成文字。

在上述将文字与对应的语音段进行关联保存的步骤S8中，把分类内的所有语音段都语音识别并转化成文字之后，将这些文字与对应的语音段进行关联保存，使得在检索的时候，用户也能够一并看到所检索出的语音段的文字。例如最后结果中X分类可能有四个语音段，分别为T_S1-X-5:01—T_E1-X-7:13(我对你真的是很失望啊……)，T_S5-X-12:01—T_E5-X-17:13(对不起，这个钱我不能拿……)，T_S8-X-36:01—T_E8-X-37:13(哎！咱两谁跟谁啊，拿吧拿吧……)以及T_S14-X-45:01—T_E14-X-48:13(哈哈哈哈，最终我还是拿了…..)，在检索的时候，假如输入X，则可以得到以上四个按照时间先后顺序排列，并且附有识别文字(如上述括号中的文字)的结果，使得检索用户能够快捷的得到目标音频中关于X的所有语音段、这些语音段各自在目标音频中的位置以及这些语音段的具体内容，假如检索用户还想要具体的检索到某一句话，此时就可以直接输入文字，根据语音识别出的文字就可以精准的检索到想要检索的该句话所对应的语音段，进一步提高了检索效率。

本发明提出了一种建立音频检索索引的方法，包括：S1：将目标音频分成若干个语音段，其中，每个语音段中仅包括一个人物的语音；S2：确定各个语音段所对应的人物；S3：根据各个语音段所对应的不同人物，对各个语音段进行分类；S4：将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。在建立了音频检索索引之后，用户能够检索出音频内包含有某个特定人物的语音的所有语音段，以及精准确定检索出来的语音段在音频中的具体播放位置，便于用户对音频进行回看或整理。

如图2所示，本发明还提出了一种建立音频检索索引的装置，包括：

分割模块10，用于将目标音频分成若干个语音段，其中，每个语音段中仅包括一个人物的语音；

确定模块20，用于确定各个语音段所对应的人物；

分类模块30，用于根据各个语音段所对应的不同人物，对各个语音段进行分类；

第一保存模块40，用于将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。

在上述分割模块10中，在包含有人物说话或者其他语音的场景的音频文件中，与一些环境噪声不同的是，人物的说话语音并不会是连续不断的一直说下去，而是由许许多多的停顿以及片段组成整个音频，并且在大多数时候(即人物正常对话或独白的时候)，在同一个特定的时间段里，一般都只有一个人物的语音出现，而很少会出现多重语音混杂的场景。因此想要能够在目标音频文件里精准的检索到某个具体的人物所说的语音，首先要把目标文件分割成若干个语音段，其目的有三：一是整个目标音频文件可能较大，直接进行处理比较困难，在分割成若干个语音段之后，能够对其进行分别处理，提高效率；二是通过把目标音频分割成若干个语音段后，能够尽可能的把某个具体人物所说的语音给分割出来，即保证在一个特定语音段里只有一个人物的语音出现，而不会混杂多个人物的语音，方便后续检索。三是通过把目标音频分割成若干个语音段后，能够通过处理把目标音频文件中不包含人物说话语音的语音段给忽略掉，例如环境噪音或者无声场景等，从而只保留目标音频文件中包含人物说话语音的语音段，便于后续对某个人物进行检索。为了保证分割出来的每个语音段中都只包含一个人物的语音，分割模块10在将目标音频分成若干个语音段时，尽可能把每个语音段的长度分割的短一些，使得同一个语音段里同时包含两个或者多个人物的语音的可能性大大降低。

分割模块10把目标音频分成若干个语音段之后，确定模块20首先对这些语音段进行语音特征参数的识别和提取，在一些实施例中，对语音段进行声纹特征参数的识别和提取，然后在语音段之间进行声纹特征参数的对比，以确定哪些语音段对应同一人物，哪些语音段不对应同一人物，便于后续对这些语音段根据人物的不同进行分类(聚类)，从而可以根据人物对目标音频文件中的语音段进行检索。

在确定模块20中已经对语音段的语音特征参数进行了识别提取以及互相对比，分类模块30根据确定模块20中互相对比的结果对这些语音段进行分类，例如把同样都是属于X人物的语音段做同样的标记以分成一类，把同样属于Y人物的语音段做同样的标记以分成一类，以方便后续可以根据人物来对语音段进行检索。

在分类模块30根据人物的不同把所有的语音段进行分类之后，第一保存模块40将这些分类与目标音频文件进行关联保存。例如目标音频文件1中有X、Y和Z三个人物出现，则所有的语音段在步骤S3中就被分成了三个分类：X、Y和Z，然后把这三个分类与目标音频文件1进行关联保存，形成音频检索索引。当需要用到时，我们就可以在目标音频文件1内根据这三个分类进行检索，例如输入X，我们就可以得到目标音频文件1内所有属于X的语音段的搜索结果，即把目标音频文件1内所有X说的语音都提取了出来，以便于我们对X所说的语音进行回看或者总结。当我们需要整理某一个音频文件中某一个特定的人物所说的语音时，采用这种音频检索索引就能十分方便快捷的把该特定人物所说的全部语音给搜索出来。在一些实施例中，将分类与目标音频进行关联保存之后，用户还能够对该分类进行自定义命名，例如系统设定是保存为X、Y和Z三个分类，在检索的时候也是输入X、Y和Z，此时用户可以把X、Y和Z分别自定义为天、地和人，即变成了天、地和人三个分类与目标音频文件1进行关联保存，以方便自己的记忆和检索。

如图3所示，在一些实施例中，分割模块10，包括：

识别单元101，用于识别目标音频中包含的所有原始语音段；

第一标记单元102，用于对每个原始语音段的起点和终点进行标记，形成若干个语音段。

在上述识别单元101中，在一些实施例中，识别单元101通过VAD技术识别出目标音频中包含的所有原始语音段，其中VAD(Voice ActivityDetection)技术又称语音端点检测或者语音边界检测，采用VAD技术对目标音频进行识别，能够自动检测识别人物说话的语音边界，把目标音频中的静音段给去除，如人物对话时之间的停顿、画面转换时无语音画面等，从而只保留下包含有人物说话语音的语音段，便于后续对语音段进行语音特征参数的提取处理。在一些实施例中，VAD技术结合噪音去除技术，在识别目标音频中所有的语音段时，自动去除目标音频中的环境噪声，例如背景的嘈杂声、动物的吼叫声等，以便于更加精准的识别出目标音频中包含有人物台词的语音段。

在上述第一标记单元102中，在识别单元101识别出目标音频中所有的包含人物说话语音的语音段之后，第一标记单元102对每个语音段的起点和终点都进行标记，形成若干个语音段，以便于后续对每个语音段进行声纹特征参数的识别、提取以及互相对比的处理。例如，目标音频中的第一个语音段的起点标记为T_S1，其终点标记为T_E1，则T_S1到T_E1之间称之为第一语音段，其中包含了目标音频中某一个特定人物的语音，以此类推，目标音频中的第M个语音段的起点标记为T_SM，其终点标记为T_EM，则T_SM到T_EM之间称之为第M语音段，其中包含了目标音频中某一个特定人物的语音。通过对识别出来的语音段的起点和终点做标记，把目标音频分成了包含有人物说话语音的若干个语音段，第一标记单元102在对语音段的起点和终点做标记时，可以根据目标音频的不同，调节VAD技术中语音端点的灵敏度，当目标音频中有较多人物在同一个场景中连续的说话时，把语音端点的灵敏度适当调高，例如当其中一个特定人物在说话时稍有停顿，就把这个停顿点作为语音段的终点进行标记，这是即使另外一个人马上接着说话，另外一个人的语音信息也不会同前一个人物的语音信息被划分在同一个语音段中，保证了每个语音段中都只包含了一个人物的语音信息。

如图4所示，在一些实施例中，确定模块20，包括：

对比单元201，用于在各个语音段之间进行语音特征参数的互相对比；

第二标记单元202，用于对语音特征参数相同的语音段做同一分类标记。

在分割模块10把目标音频分割成若干个包含人物说话语音的语音段之后，对比单元201在各个语音段之间通过语音特征参数的对比，以确定哪些语音段对应同一人物，哪些语音段不对应同一人物，便于后续对这些语音段根据人物的不同进行分类(聚类)，由于语音、语调等语音特征的不同，使得每个人物的语音都有属于自己的语音特征参数，不同人物之间的语音特征参数一般存在一个差值范围，在识别和提取了不同语音段的语音特征参数之后，对比单元201将二者的语音特征参数进行对比。若二者的语音特征参数对比误差小于设定值(该设定值根据实际测试进行选定，该设定值一般较小)，说明二者的的语音特征参数十分接近，认为这两个语音段对应的是同一人物，则对这两个语音段做同样的第一分类标记，表明该两个语音段对应的是同一人物，属于同一分类。

根据对比单元201在各个语音段之间的语音特征参数对比结果，第二标记单元202对各个语音段做分类标记，在一些实施例中，第二标记单元202对语音特征参数相同的语音段做同一分类标记的过程为：首先在若干个语音段中选取一个语音段作为第一目标语音段，并对其做分类标记中的第一分类标记，分类标记指的是后续给语音段用于按照人物进行分类的标记，分类标记包括第一分类标记、第二分类标记……以此类推，例如选取第一语音段作为第一目标语音段，在步骤S1中第一语音段的起点和终点分别被做了标记T_S1和T_E1，若把第一语音段选取为第一目标语音段，此时根据原先的起点标记和终点标记读取到第一语音段之后再次对第一语音段做分类标记中的第一分类标记，第一分类标记只是分类标记中的一个分类，即相当于给予第一语音段一个代号，同其他语音段区别开来，该第一分类标记可以在原先的起点标记和终点标记上继续进行标记，例如在T_S1和T_E1的基础上，把第一语音段的起点和终点分别标记为T_S1-X和T_E1-X(即此时的第一分类标记为X),也可以在原先的起点标记和终点标记外进行标记，例如在第一语音段上增加标记为T_X1,这两种标记方式都是为了方便能够给予第一语音段一个特定的分类，给予其一个特定代号，只要能够起到区别作用即可。在另一些实施例中，在从若干个语音段中选取一个语音段做分类标记时，可以按照目标音频的播放时间顺序选取播放时间在最前面的语音段，也可以随机选取一个语音段，只要能够对语音段完成分类即可。然后在第一目标语音段与其余的所有语音段都对比完毕之后，检测是否还有语音段不含分类标记的目的在于检测是否存在语音段与目标语音段对应的不是同一人物，即目标音频中是否存在多个不同的人物。若检测到所有的语音段都含有分类标记，则说明经过语音特征参数的对比之后，所有的语音段都已经确定了属于自己的分类关系，例如则不需要再进行对比，此时结束语音特征参数的对比，可以进入根据分类标记对这些语音段进行分类的步骤。在一些实施例中，若检测到还有语音段不含有分类标记，则说明仍旧有语音段尚未确定分类关系，无法进行分类。此时与之前的进行语音特征参数对比的过程类似，同理在剩余的所有不含分类标记的语音段中再次选取一个语音段作为第二目标语音段，然后给予该第二目标语音段一个分类标记，该分类标记要与之前已有的分类标记区分开，以表明和之前做了分类标记的语音段不属于同一个分类。例如已经存在的分类标记有属于X分类的T_S1-X和T_E1-X，以及属于Y分类的T_S7-Y和T_E7-Y，则此时若剩余的所有不含分类标记的语音段中再次选取了第九语音段作为第二目标语音段，则给其做的分类标记为Z分类的T_S9-Z和T_E9-Z，以此作为一个新的分类和之前存在的分类区别开来。然后继续在除第二目标语音段之外的其余的不含分类标记的语音段中进行逐个选取，作为对比语音段与第二目标语音段进行语音特征参数的对比，若对比语音段与第二目标语音段语音特征参数的对比的误差小于设定值，则认为第二目标语音段与对比语音段对应同一人物，并对对比语音段做与第二目标语音段同样的第二分类标记，重复这个步骤，直到检测到所有的语音段都包含了分类标记之后，才结束语音特征参数的对比。在一些实施例中，语音特征参数相同的标准可以设定为百分百相同，即两个语音段之间的语音特征参数完全相同才认为这两个语音段对应的是同一个人物。在另一些实施例中，由于语音特征参数的测量会出现一定的误差，而且即使是同一个人物，其不同时间段语音的语音特征参数也不一定完全一致，因此若对比单元201得出二者的语音特征参数对比误差小于设定值(该设定值根据实际测试进行选定，该设定值一般较小)，就认为这两个语音段对应的是同一人物。

如图5所示，在一些实施例中，确定模块20，包括：

提取单元203，用于提取每个语音段的语音特征参数。

在上述提取单元203中，在确定模块20进行语音段之间的语音特征参数对比，以确定两个语音段是否对应同一人物时，提取单元203首先对每个语音段的声纹特征参数进行提取，在一些实施例中，该语音特征参数为声纹特征参数，因为每个人的声纹特征参数都不相同，且不同的人之间的声纹特征参数相差一般较大，通过声纹特征参数的对比，能够比较精准的确定两个语音段对应的是否是同一人物。在一些实施例中，提取的声纹特征参数包括基于声道的线性预测倒谱系数(LPCC)和/或基于听觉特性的梅尔频率倒谱系数(MFCC)。

如图6所示，在一些实施例中，分类模块30，包括：

分类单元301，用于根据分类标记，将各个语音段进行分类。

在上述分类单元301中，在经过确定模块20的语音特征参数对比之后，所有的语音段都已经做了分类标记，例如属于X分类的T_S1-X和T_E1-X，属于Y分类的T_S7-Y和T_E7-Y，属于Z分类的T_S9-Z和T_E9-Z以及其他分类等，根据这些分类标记，分类单元301就可以把所有的语音段都进行分类，把具有相同分类标记的语音段全部分成同一类，以便后续进行保存及进行同类检索。

如图7所示，在一些实施例中，还包括：

参照模块50，用于参照目标音频的原始播放时间，对每个语音段进行播放时间的信息记录；

排列模块60，用于根据播放时间的信息记录，按照播放时间的先后顺序排列各个分类内的语音段。

在上述参照模块50中，正常的目标音频都有一个原始播放时间，目标音频按照原始播放时间从头到尾进行播放，在把目标音频分割成若干个语音段之后，参照目标音频的原始播放时间，对每个语音段进行时间信息记录，即记录这个语音段是处于目标音频内的何种位置。在一些实施例中，在语音段的起点标记和终点标记上添加时间信息记录，例如在T_S8-X和T_E8-X上添加时间信息记录，使该语音段的起点标记和终点标记变成T_S8-X-36:01和T_E8-X-37:13，此时该语音段的标记所代表的意思是该语音段是目标音频中的第八个语音段，所对应的是X分类，其位置位于目标音频的原始播放时间的36分01秒到37分13秒。

在上述排列模块60中，在参照模块50对各个语音段进行时间信息记录之后，排列模块60在分类内按照播放时间的先后顺序排列语音段，例如最后结果中X分类可能有四个语音段，分别为T_S1-X-5:01—T_E1-X-7:13，T_S5-X-12:01—T_E5-X-17:13，T_S8-X-36:01—T_E8-X-37:13以及T_S14-X-45:01—T_E14-X-48:13，在检索的时候，假如输入X，则可以得到以上四个按照时间先后顺序排列的结果，使得检索用户能够快捷的得到目标音频中关于X的所有语音段以及这些语音段各自在目标音频中的位置，一目了然。

如图8所示，在一些实施例中，还包括：

语音识别模块70，用于对每个分类内中的每个语音段进行文字的语音识别；

第二保存模块80，用于将文字与对应的语音段进行关联保存。

在上述语音识别模块70中，进一步地，在第一保存模块40将分类与目标音频进行关联保存，形成音频检索索引之后，可以对这个分类内的每个语音段进行语音识别，把所有的语音段都转化成文字。

在上述第二保存模块80中，语音识别模块70把分类内的所有语音段都语音识别并转化成文字之后，第二保存模块80将这些文字与对应的语音段进行关联保存，使得在检索的时候，用户也能够一并看到所检索出的语音段的文字。例如最后结果中X分类可能有四个语音段，分别为T_S1-X-5:01—T_E1-X-7:13(我对你真的是很失望啊……)，T_S5-X-12:01—T_E5-X-17:13(对不起，这个钱我不能拿……)，T_S8-X-36:01—T_E8-X-37:13(哎！咱两谁跟谁啊，拿吧拿吧……)以及T_S14-X-45:01—T_E14-X-48:13(哈哈哈哈，最终我还是拿了…..)，在检索的时候，假如输入X，则可以得到以上四个按照时间先后顺序排列，并且附有识别文字(如上述括号中的文字)的结果，使得检索用户能够快捷的得到目标音频中关于X的所有语音段、这些语音段各自在目标音频中的位置以及这些语音段的具体内容，假如检索用户还想要具体的检索到某一句话，此时就可以直接输入文字，根据语音识别出的文字就可以精准的检索到想要检索的该句话所对应的语音段，进一步提高了检索效率。

本发明还提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述中任一项建立音频检索索引的方法的步骤，包括：将目标音频分成若干个语音段，其中，每个语音段中仅包括一个人物的语音；确定各个语音段所对应的人物；根据各个语音段所对应的不同人物，对各个语音段进行分类；将分类后的语音段与目标音频进行关联保存，以在语音段和目标音频间建立索引关系，形成音频检索索引。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种建立音频检索索引的方法，其特征在于，包括：

将目标音频分成若干个语音段；其中，每个所述语音段中仅包括一个人物的语音；

确定各个所述语音段所对应的人物；

根据各个所述语音段所对应的不同人物，对各个所述语音段进行分类；

将分类后的所述语音段与所述目标音频进行关联保存，以在所述语音段和所述目标音频之间建立索引关系，形成所述音频检索索引。

2.根据权利要求1所述的建立音频检索索引的方法，其特征在于，所述将目标音频分成若干个语音段的步骤，包括：

识别所述目标音频中包含的所有原始语音段；

对每个所述原始语音段的起点和终点进行标记，形成若干个所述语音段。

3.根据权利要求1所述的建立音频检索索引的方法，其特征在于，所述确定各个所述语音段所对应的人物的步骤，包括：

在各个所述语音段之间进行语音特征参数的互相对比；

对所述语音特征参数相同的所述语音段做同一分类标记。

4.根据权利要求3所述的建立音频检索索引的方法，其特征在于，在所述在各个所述语音段之间进行语音特征参数的互相对比的步骤之前，包括：

提取每个所述语音段的所述语音特征参数。

5.根据权利要求3所述的建立音频检索索引的方法，其特征在于，所述按照各个所述语音段所对应人物的不同，对各个所述语音段进行分类的步骤，包括：

根据所述分类标记，对各个所述语音段进行分类。

6.根据权利要求1所述的建立音频检索索引的方法，其特征在于，在所述将分类后的所述语音段与所述目标音频进行关联保存，形成所述音频检索索引的步骤之前，还包括：

参照所述目标音频的原始播放时间，对每个所述语音段播放时间的信息进行记录；

根据记录的所述播放时间的信息，按照所述播放时间的先后顺序排列各个所述分类内的所述语音段。

7.根据权利要求1所述的建立音频检索索引的方法，其特征在于，在将分类后的所述语音段与所述目标音频进行关联保存，以在所述语音段和所述目标音频间建立索引关系，形成所述音频检索索引的步骤之后，还包括：

将每个所述分类内中的每个所述语音段的语音识别为文字(是不是这样请确认)；

将所述文字与对应的所述语音段进行关联保存。

8.一种建立音频检索索引的装置，其特征在于，包括：

分割模块，用于将目标音频分成若干个语音段；其中，每个所述语音段中仅包括一个人物的语音；

确定模块，用于确定各个所述语音段所对应的人物；

分类模块，用于根据各个所述语音段所对应的不同人物，对各个所述语音段进行分类；

第一保存模块，用于将分类后的所述语音段与所述目标音频进行关联保存，以在所述语音段和所述目标音频间建立索引关系，形成所述音频检索索引。

9.根据权利要求8所述的建立音频检索索引的装置，其特征在于，所述分割模块，包括：

识别单元，用于识别所述目标音频中包含的所有原始语音段；

第一标记单元，用于对每个所述原始语音段的起点和终点进行标记，形成若干个所述语音段。

10.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的建立音频检索索引的方法。