CN110853676A

CN110853676A - 一种音频比对方法、装置及设备

Info

Publication number: CN110853676A
Application number: CN201911128304.5A
Authority: CN
Inventors: 李�浩; 骆明顺
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-02-28
Anticipated expiration: 2039-11-18
Also published as: CN110853676B

Abstract

本申请公开了一种音频比对方法、装置及设备，包括：获取待识别音频；对待识别音频中需要翻译的时间段进行标注；将标注后的音频生成所需的音频格式；获取音频格式的音频，任选标注部分进行比对。本申请通过对需要翻译的时间段进行标注的方式减少了需要比对的内容，降低了比对时长。

Description

一种音频比对方法、装置及设备

技术领域

本申请涉及音频识别技术领域，尤其涉及一种音频比对方法、装置及设备。

背景技术

在公安和司法领域的嫌疑人声纹识别中，在无法通过系统自动识别或者案情特殊的情况下，可能需要专家人工对检材语音和样本语音进行对比分析，得出两份语音是否同属一人的定论。

然而，采用上述的方式将整段的录音材料给到专家从头到尾全部对比，所需要花费的精力巨大，且时间耗费较长；另外当嫌疑人有口音或者方言的时候，专家听不懂的情况下回影响判断结果，需要翻译人员与专家一起进行对比工作或者需要翻译人员记录后给专家，不够便利。

发明内容

本申请实施例提供了一种音频比对方法、装置及设备，使得减少了需要比对的内容，降低了比对时长。

有鉴于此，本申请第一方面提供了一种音频比对方法，所述方法包括：

获取待识别音频；

对所述待识别音频中需要翻译的时间段进行标注；

将所述标注后的音频生成所需的音频格式；

获取所述音频格式的音频，任选标注部分进行比对。

优选地，所述待识别音频为嫌疑人的音频。

优选地，所述对所述待识别音频中需要翻译的时间段进行标注具体为:

对音频中的方言部分或者录音情景部分或者嫌疑人情绪部分进行标注。

优选地，

优选地，所述对所述待识别音频中需要翻译的时间段进行标注，其标注的粒度为句子和/或词语和/或单个文字和/或单个音节和/或单个音素。

优选地，在所述获取待识别音频之后还包括：

采用语音识别技术对音频进行识别，将未能翻译成功的部分作为所述需要翻译的时间段。

优选地，所述音频格式为Wavf音频格式，包括文件头、pcm数据以及文字内容标记信息。

优选地，所述文字内容标记信息中包括内容标记符，内容标记符包括的信息为：开始时间、结束时间、音频具体内容。

本申请第二方面提供一种音频比对装置，所述装置包括：

音频获取单元，用于获取待识别音频；

音频标注单元，对所述待识别音频中需要翻译的时间段进行标注；

格式生成单元，用于将所述标注后的音频生成所需的音频格式；

音频比对单元，用于获取所述音频格式的音频，任选标注部分进行比对。

优选地，还包括：音频识别单元，用于采用语音识别技术对音频进行识别，将未能翻译成功的部分作为所述需要翻译的时间段。

本申请第三方面提供一种音频比对设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的音频比对的方法的步骤。

本申请中，提供了一种音频比对方法，包括：获取待识别音频；对所述待识别音频中需要翻译的时间段进行标注；将所述标注后的音频生成所需的音频格式；获取所述音频格式的音频，任选标注部分进行比对。

从以上技术方案可以看出，本申请实施例具有以下优点：本申请通过对需要翻译的时间段进行标注的方式减少了需要比对的内容，降低了比对时长。

附图说明

图1为本申请一种音频比对方法的一个实施例的方法流程图；

图2为本申请一种音频比对方法的另一个实施例的方法流程图；

图3为本申请一种音频比对装置的一个实施例的装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请一种音频比对方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、获取待识别音频。

需要说明的是，待测的音频可以是嫌疑人音频也可以是任何人的音频，包括带有任何地方方言的音频。

102、对待识别音频中需要翻译的时间段进行标注。

需要说明的是，由于音频中可能出现带有方言的音频以及难以辨别说话内容的音频，因此为了便于后续音频的比对，需要将方言以及难以辨别的音频片段进行标注。

103、将标注后的音频生成所需的音频格式。

需要说明的是，为了便于后续的比对工作，需要将标注好的音频数据生成相应的音频格式文件，以便于能够快速找到带有方言以及难以辨别说话内容的音频片段。

104、获取音频格式的音频，任选标注部分进行比对。

需要说明的是，标注部分可能包括对工作人员有用或者无用的音频片段，因此，可以选择任一需要的片段进行比对翻译。

本申请提供了一种音频比对方法，通过对需要翻译的时间段进行标注的方式减少了需要比对的内容，降低了比对时长。

为了便于理解，请参阅图2，图2为本申请一种音频比对方法的另一个实施例的方法流程图，如图2所示，具体为：

201、获取待识别音频。

需要说明的是，待测的音频可以是嫌疑人音频也可以是任何人的音频，包括带有任何地方方言的音频。在具体的实施例中用于对嫌疑人的音频进行比对，并且识别的部分包括方言部分或者录音情景部分或者嫌疑人情绪部分进行标注。

202、采用语音识别技术对音频进行识别，将未能翻译成功的部分作为需要翻译的时间段。

需要说明的是，可以采用语音识别技术对待识别的音频进行识别，从而能够识别难以翻译的音频部分，以便于减少人为的标注过程。

203、对待识别音频中需要翻译的时间段进行标注。

需要说明的是，由于音频中可能出现带有方言的音频以及难以辨别说话内容的音频，因此为了便于后续音频的比对，需要将方言以及难以辨别的音频片段进行标注，其中标注的音频粒度可以是句子和/或词语和/或单个文字和/或单个音节和/或单个音素。

204、将标注后的音频生成所需的音频格式。

在一种具体实施例中，音频格式为Wavf音频格式，包括文件头、pcm数据以及文字内容标记信息，其中一种实施例中Wavf音频格式的内容具体为：

其中，前44字节为标准wav头，紧接着是pcm数据，在pcm数据的后面是文字内容标记信息，文字内容信息采用JSON格式，可以支持多段标记，通过HPack压缩算法减少体积。单个内容标记包含开始时间、结束时间、音频具体内容以及标记符号信息。其文字内容标记信息具体如下，以下文字内容标记信息的一个实例：

标记内容的数据结构如下：

[

{tag:'你好',start:1818,end:3456},

{tag:'今天天气不错',start:3933,end:7020},

{tag:'ong4',start:8334,end:8640}

]；

其解析wavf音频格式具体为：前44个字节按标准wav头解析，可以得到音频的文件格式、采样率、采样精度、pcm编码格式、pcm数据长度等信息，44字节的wav头长度加上pcmdata总数据长度字节就是标记内容的偏移地址，一直到文件最后一个字节，这部分内容即内容标记信息。

205、获取音频格式的音频，任选标注部分进行比对。

以上是本申请一种音频比对方法的实施例，本申请还提供了一种音频比对装置的实施例，如图3所示的一种音频比对装置的一个实施例的装置结构示意图，包括：

音频获取单元301，用于获取待识别音频。

音频标注单元302，对待识别音频中需要翻译的时间段进行标注。

格式生成单元303，用于将标注后的音频生成所需的音频格式。

音频比对单元304，用于获取音频格式的音频，任选标注部分进行比对。

在具体的实施例中还包括：

音频识别单元，用于采用语音识别技术对音频进行识别，将未能翻译成功的部分作为需要翻译的时间段。

本申请还提供了一种音频比对设备，包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行本申请音频比对方法的实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频比对方法，其特征在于，包括：

获取待识别音频；

对所述待识别音频中需要翻译的时间段进行标注；

将所述标注后的音频生成所需的音频格式；

获取所述音频格式的音频，任选标注部分进行比对。

2.根据权利要求1所述的音频比对方法，其特征在于，所述待识别音频为嫌疑人的音频。

3.根据权利要求1所述的音频比对方法，其特征在于，所述对所述待识别音频中需要翻译的时间段进行标注具体为:

4.根据权利要求3所述的音频比对方法，其特征在于，所述对所述待识别音频中需要翻译的时间段进行标注，其标注的粒度为句子和/或词语和/或单个文字和/或单个音节和/或单个音素。

5.根据权利要求1所述的音频比对方法，其特征在于，在所述获取待识别音频之后还包括：

6.根据权利要求1所述的音频比对方法，其特征在于，所述音频格式为Wavf音频格式，包括文件头、pcm数据以及文字内容标记信息。

7.根据权利要求6所述的音频比对方法，其特征在于，所述文字内容标记信息中包括内容标记符，内容标记符包括的信息为：开始时间、结束时间、音频具体内容。

8.一种音频比对装置，其特征在于，包括：

音频获取单元，用于获取待识别音频；

9.根据权利要求8所述的音频比对装置，其特征在于，还包括：

音频识别单元，用于采用语音识别技术对音频进行识别，将未能翻译成功的部分作为所述需要翻译的时间段。

10.一种音频比对设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的音频比对方法。