CN111429916B

CN111429916B - 一种声音信号记录系统

Info

Publication number: CN111429916B
Application number: CN202010251561.4A
Authority: CN
Inventors: 刘佳; 黄海; 隆弢; 陈龙
Original assignee: Xi'an Shenglian Technology Co ltd
Current assignee: Xi'an Shenglian Technology Co ltd
Priority date: 2020-02-20
Filing date: 2020-04-01
Publication date: 2023-06-09
Anticipated expiration: 2040-04-01
Also published as: CN111429916A

Abstract

本发明实施例提供了一种声音信号记录系统，将分离出的不同声源对应的语音信息发送到语音识别转写服务器，通过语音识别转写服务器将各声源的语音信息转写为文字形式的转写文本，保存转写文本。该声音信号记录系统能够实时自动将双方谈话内容分离，并存储为文字形式，保证了对谈话内容记录的客观性，同时有利于通过文字快速定位感兴趣内容，提高了查找谈话内容中感兴趣内容的效率。

Description

一种声音信号记录系统

技术领域

本发明涉及语音处理技术领域，尤其是涉及一种声音信号记录系统。

背景技术

在一些场合需要对谈话双方的谈话内容进行记录，例如，在公安机关、检察院、法院的审讯室，审讯人员对犯罪嫌疑人进行犯罪行为调查取证过程中，需要对警官和犯罪嫌疑人的谈话内容进行记录。传统的审讯记录由专门的书记员整理，记录编辑工作量大；有时会说的快，记的慢，为争取记录的时间，书记员需要中断审讯。由于无法及时完整地记录审讯内容，因此整理出来的审讯记录会有重要问题遗漏，对后续的办案流程非常不利，此外，对于询问中的细节问题，需要后期反复听录音来回顾以完善审讯记录，这将耗费大量的时间和精力。

由此，在实际应用过程中，对语音信息的记录通过录音完成，这种记录方式不利于查看。

发明内容

本发明实施例提供一种声音信号记录系统，用以解决现有技术中的现有的对语音信息的记录通过录音完成，这种记录方式不利于查看的问题。

针对以上技术问题，第一方面，本发明的实施例提供了一种声音信号记录系统，包括拾音器、记录设备和语音识别转写服务器：

所述拾音器用于接收第一声源和第二声源的混合声音信号，从混合声音信号中分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号；

所述记录设备用于分别将来自所述第一声源的声音信号和来自所述第二声源的声音信号发送到所述语音识别转写服务器；

所述语音识别转写服务器根据来自所述第一声源的声音信号确定第一转写文本，根据来自所述第二声源的声音信号确定第二转写文本，并将所述第一转写文本和所述定第二转写文本发送到所述记录设备；

所述记录设备存储所述第一转写文本和所述定第二转写文本；

其中，所述拾音器、所述记录设备和所述语音识别转写服务器处于同一局域网覆盖范围内。

本发明的实施例提供了一种声音信号记录系统，将分离出的不同声源对应的语音信息发送到语音识别转写服务器，通过语音识别转写服务器将各声源的语音信息转写为文字形式的转写文本，保存转写文本。该声音信号记录系统能够实时自动将双方谈话内容分离，并存储为文字形式，保证了对谈话内容记录的客观性，同时有利于通过文字快速定位感兴趣内容，提高了查找谈话内容中感兴趣内容的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的声音信号记录系统的结构示意图；

图2是本发明另一个实施例提供的呈线性式排布的麦克风阵列的示意图；

图3是本发明另一个实施例提供的声源分离的流程示意图；

图4是本发明另一个实施例提供的语音转写服务器生成转写文本的流程示意图；

图5是本发明另一个实施例提供的审讯场景中对语音信息进行处理的过程示意图；

图6是本发明另一个实施例提供的审讯过程中拾音器、审讯电脑和语音识别转写服务器的交互的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种声音信号记录系统的结构示意图，包括拾音器101、记录设备102和语音识别转写服务器103；

所述拾音器101用于接收第一声源和第二声源的混合声音信号，从混合声音信号中分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号；

所述记录设备102用于分别将来自所述第一声源的声音信号和来自所述第二声源的声音信号发送到所述语音识别转写服务器；

所述语音识别转写服务器103根据来自所述第一声源的声音信号确定第一转写文本，根据来自所述第二声源的声音信号确定第二转写文本，并将所述第一转写文本和所述定第二转写文本发送到所述记录设备；

所述记录设备102存储所述第一转写文本和所述定第二转写文本；

如图1所示，所述拾音器对采集的混合声音信号进行分离后，分别将第一声源的声音信号和第二声源的声音信号发送到语音识别转写服务器，由语音识别转写服务器将第一声源的声音信号转写为文字，得到第一转写文本，将第二声源的声音信号转写为文字，得到第二转写文本。实现了对采集的声音信号的自动转写。此外，通过记录设备102(例如，记录设备102为审讯电脑)上的的软件配置拾音器的工作参数。

特别地，该系统可以应用与审讯过程中，对双方当事人的对话进行采集和分离，转写为文字，或者对法官与当事人的对话进行采集和分离，转写为文字。通常所述记录设备为计算机，例如，记录设备为审讯电脑。

进一步地，还包括：所述记录设备显示所述第一转写文本和所述定第二转写文本。

在本实施例提供的声音信号记录系统中，语音识别转写服务器是一个能够通过已经训练的模型，将声音信号转化为文本的服务器。审讯电脑接收到不同声源的声音信号后，将其发送到语音识别转写服务器，语音识别转写服务器将声音信号转化为本文后，将转化的转写文本发送到审讯设备，以在审讯设备进行显示或存储。

本实施例提供了一种声音信号记录系统，将分离出的不同声源对应的语音信息发送到语音识别转写服务器，通过语音识别转写服务器将各声源的语音信息转写为文字形式的转写文本，保存转写文本。该声音信号记录系统能够实时自动将双方谈话内容分离，并存储为文字形式，保证了对谈话内容记录的客观性，同时有利于通过文字快速定位感兴趣内容，提高了查找谈话内容中感兴趣内容的效率。

具体来说，本实施例提供的系统在将声音信号进行分离并转换为文字的过程包括以下几个步骤：

I)采集语音信息，实时分离所述采集的语音信息；

II)分别对所述实时分离后的语音信息进行增强；

III)对所述分离的语音信息进行解析；

IV)将解析后的所述语音信息进行识别及文字实时转写；

V)显示转写后的文本并存储。

更为具体来说，上述步骤I)-V)可以具体化为：

1)采集语音信息，利用鲁棒的多通道时延估计算法确定双声源信号的入射方位；

2)对不同方位的声源，分离和提取双声源目标信号，对指定锥形区域内的一对一对讲的语音信号实时分离；

3)分离后的两通道语音信号，分别通过语音增强算法，输出两路独立增强的语音信息数据；

4)缓存采集的语音信息，以及分离开的两路独立增强的语音；

5)解析两路独立增强的语音信息，缓存解析的音频数据，发送解析的音频数据到语音识别转写服务器；

6)接收、识别被解析的语音信息数据，转写被解析的语音信息数据，并缓存转写文本结果；

7)对转写文本进行实时显示并存储。

进一步地，在上述各实施例的基础上，所述拾音器还用于通过波束形成算法和降噪算法，分别将来自所述第一声源的声音信号和来自所述第二声源的声音信号进行增强；

所述记录设备还用于，将增强后所述第一声源的声音信号分割成媒体切片后，发送到所述语音识别转写服务器，并将增强后所述第二声源的声音信号分割成媒体切片后，发送到所述语音识别转写服务器；

所述语音识别转写服务器用于接收与所述第一声源的声音信号对应的媒体切片，根据与所述第一声源对应的媒体切片得到所述第一声源的声音信号，将所述第一声源的声音信号转写为文字，得到所述第一转写文本，并接收与所述第二声源的声音信号对应的媒体切片，根据与所述第二声源对应的媒体切片得到所述第二声源的声音信号，将所述第二声源的声音信号转写为文字，得到所述第二转写文本。

进一步地，在上述各实施例的基础上，

所述语音识别转写服务器还用于将所述第一声源的声音信号输入预先训练的语言模型，将由所述语言模型根据所述第一声源的声音信号，输出的文字作为所述第一转写文本；

所述语音识别转写服务器还用于将所述第二声源的声音信号输入预先训练的语言模型，将由所述语言模型根据所述第二声源的声音信号，输出的文字作为所述第二转写文本；

其中，语言模型为预先根据样本声音信号，以及与样本声音信号对应的转写文本为标签进行训练得到。

进一步地，所述记录设备通过HTTP协议将媒体切片发送到所述语音识别转写服务器。

具体地，所述记录设备将分割的媒体切片通过HTTP协议实时发送到所述语音识别转写服务器。

具体地，所述步骤6)中，具体地步骤包括：

a)通过局域网与语音识别服务器进行音频数据的通信，通过HTTP响应解析的媒体切片；

b)对音频数据进行特征提取，并实时监测网络带宽，根据监测的带宽，对媒体切片大小进行切换；

c)经过语音解码、检索算法实现语音识别，将音频数据转写成文本；其中，所述语音解码、检索算法，包括检索文本数据训练的语言模型、字典和经过大量语音数据训练的声学模型；

d)将转写的文本结果通过HTTP协议实时传输、显示及存储。

所述步骤6)中，识别被解析的语音信息数据，包括：

i)、在识别被解析的语音信息数据之前，对语音信息数据进行预处理，包括静音检测、声音分帧处理；

ii)、对语音信息进行特征提取，通过线性预测倒谱系数和梅尔倒谱系数把每一帧语音数据变成一个包含声音信息的多维向量；

iii)、将提取语音特征后的特征矢量，送入经大量语音数据训练的声学模型和经大量文本数据训练的语言模型，通过语音解码和搜索算法实现语音识别，将识别的文本结果实时输出；

其中，所述步骤iii)中，声学模型与语言模型通过词典实现字或词与音素的对应，即中文实现拼音和汉字的对应，英文实现音标与单词的对应。

进一步地，在上述各实施例的基础上，所述拾音器包括麦克风阵列单元、处理单元和输出单元；所述麦克风阵列单元包括麦克风阵列和音频编码单元；

所述麦克风阵列单元用于将采集的所述混合声音信号发送到处理单元；

所述处理单元用于从第一声源和第二声源的混合声音信号中，分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号，将来自所述第一声源的声音信号和来自所述第二声源的声音信号分别发送到所述输出单元；

所述输出单元用于分别输出来自所述第一声源的声音信号和来自所述第二声源的声音信号；

其中，所述音频编码单元用于将麦克风阵列接收的声波转化为电信号，得到声音信号。

进一步地，在上述各实施例的基础上，所述处理单元具体用于：

接收来自第一声源和第二声源的混合声音信号；

将接收的混合声音信号划分为预设帧长的语音帧，对每一语音帧进行传播方向判断，确定每一语音帧对应的传播方向；

根据各语音帧对应的传播方向分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号。

进一步地，在上述实施例的基础上，所述将接收的混合声音信号划分为预设帧长的语音帧，对每一语音帧进行传播方向判断，确定每一语音帧对应的传播方向，包括：

将接收的混合声音信号划分为所述预设帧长的语音帧；

根据接收所述混合声音信号的麦克风阵列中阵元的位置，确定不同阵元组合对应的最大时延差，获取最大时延差大于预设阈值的阵元组合，作为选定阵元组合；

对各语音帧中任一目标语音帧，通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，根据每一选定阵元组合接收所述目标语音帧的时延差，确定所述目标语音帧的传播方向；

其中，阵元组合为麦克风阵列中任意两个麦克风阵元的组合；相邻的语音帧之间存在重叠时间。

进一步地，在上述各实施例的基础上，所述根据接收所述混合声音信号的麦克风阵列中阵元的位置，确定不同阵元组合对应的最大时延差，获取最大时延差大于预设阈值的阵元组合，作为选定阵元组合，包括：

根据公式

确定所述麦克风阵列中不同阵元组合对应的最大时延差，获取最大的三个最大时延差所对应的阵元组合，作为选定阵元组合；

其中，

为由麦克风阵元i和麦克风阵元j组成的阵元组合对应的最大时延差，d_ij为在麦克风阵列中麦克风阵元i和麦克风阵元j之间的距离，c＝340m/s为声速，f_s＝16kHz为采样频率，/>

表示向上取整。

以下以图2所示的呈线性式排布的麦克风阵列为例，介绍如何确定选定阵元组合的过程：

定义图2中的麦克风阵元M8到麦克风阵元M1的方位为0°方向，麦克风阵元M1到麦克风阵元M8的方向为180°方向，相邻的麦克风阵元之间的间距为d＝11mm。

通过公式计算

各阵元组合对应的最大时延差后，取最大的三个最大时延差所对应的阵元组合，即M1和M8阵元组合、M1和M7阵元组合、M2和M8阵元组合、M1和M6阵元组合、M2和M7阵元组合和M3和M8阵元组合，这些阵元组合为选定阵元组合。后续通过选定阵元组合对应的时延差确定声音信号的传播方向。/>

进一步地，在上述各实施例的基础上，所述对各语音帧中任一目标语音帧，通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，包括：

对各语音帧中任一目标语音帧，通过公式

和

计算每一选定阵元组合接收所述目标语音帧的时延差；

其中，

表示选定阵元组合中的麦克风阵元i和麦克风阵元j接收所述目标语音帧的时延差，X_i(ω_k′)和/>

分别表示麦克风阵元i和麦克风阵元j接收到的声音信号的频谱，/>

表示对X_i(ω_k′)和/>

进行快速傅里叶变换后的结果。

具体地，通过广义互相关函数计算时延差的过程为：

对于M1和M8阵元组合，根据M1接收的声音信号和M8接收的声音信号，通过公式

和/>

计算M1和M8接收所述语音帧中声音信号的时延差/>

其中，/>

同理，得到由/>

和/>

分别得到时延差/>

和/>

进一步地，在上述各实施例的基础上，

所述对各语音帧中任一目标语音帧，通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，根据每一选定阵元组合接收所述目标语音帧的时延差，确定所述目标语音帧的传播方向，包括：

将最大时延差相同的选定阵元组合划分在同一分组中；

通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，根据每一选定阵元组合接收所述目标语音帧的时延差，计算每一分组中选定阵元组合的时延差的平均值，作为分组时延差；

根据每一分组的分组时延差和每一分组的设定判断标准判断所述目标语音帧传播方向。

进一步地，在上述各实施例的基础上，

所述根据每一分组的分组时延差和每一分组的设定判断标准判断所述目标语音帧传播方向，包括：

对任一分组，统计所述分组中，分组时延差小于所述分组的设定判断标准的第一数量，以及分组时延差大于所述分组的设定判断标准的第二数量；

若所述第一数量大于所述第二数量，则所述目标语音帧的传播方向为第一方向，若所述第一数量小于所述第二数量，所述目标语音帧的传播方向为第二方向。

其中，对于任一分组，所述分组的设定判断标准等于所述分组的最大时延差的一半。

其中，对选定阵元组合进行分组，包括：使得最大时延差相同的选定阵元组合划分在同一组中。

进一步地，每一分组的设定判断标准为该分组中阵元组合的最大时延差的一半。

例如，上述选定阵元组合进行分组的分组情况如下：

第一分组：M1，M8阵元组合；

第二分组：M1，M7阵元组合、M2，M8阵元组合；

第三分组：M1，M6阵元组合、M2，M7阵元组合、M3，M8阵元组合。

第一分组的分组时延差为

第二分组的分组时延差为/>

第三分组的分组时延差为/>

设定第一分组的设定判断标准为

第二分组的设定判断标准为/>

第三分组的设定判断标准为/>

设定label<0时表示麦克风阵元M8到麦克风阵元M1的方位，表示为0°方向，label>0麦克风阵元M1到麦克风阵元M8的方向，表示为180°方向。

若τ₁小于

(对应label＝-1)，则第一数量加1，若τ₁大于/>

(对应label＝1)，则第二数量加1。若τ₂小于/>

(对应label＝-1)，则第一数量加1，若τ₂大于/>

(对应label＝1)，则第二数量加1。若τ₃小于/>

(对应label＝-1)，则第一数量加1，若τ₃大于

(对应label＝1)，则第二数量加1。

若第一数量cnt1大于cnt2，则该语音帧对应的声源为在M8到M1的方向上的第一声源，第一数量cnt1小于cnt2，则该语音帧对应的声源为在M1到M8的方向上的第二声源。

由上述方法确定每一语音帧对应的声源后，即可将双声源的的声音信号分离开。

进一步地，在上述各实施例的基础上，所述根据各语音帧对应的传播方向分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号，包括：

根据各语音帧对应的传播方向，确定由传播方向为所述第一方向的各语音帧组成的声音信号，作为来自所述第一声源的声音信号；

根据各语音帧对应的传播方向，确定由传播方向为所述第二方向的各语音帧组成的声音信号，作为来自所述第二声源的声音信号。

具体来说，将传播方向均为第一方向的语音帧组成的声音信号作为所述第一声源的声音信号，将传播方向均为第二方向的语音帧组成的声音信号作为所述第二声源的声音信号；其中，所述第一声源位于所述第一方向的反方向上，所述第二声源位于所述第二方向的反方向上。

图3为本实施例提供的双声源的声源分离的流程示意图，参见图3，在声源A和声源B的交谈过程中，麦克风阵列接收声音信号，通过计算判断声音信号的传播方向，根据传播方向分离出由不同声源发出的声音信号，将不同声源的声音信号经过两路通道，进行增强后输出，以便对每一声源输出清晰的语音。

总体来说，本实施例提供的方法包括步骤：(1)先估计声源信号到不同麦克风组合的时延差；(2)根据得到的时延估计判断声源方向；(3)对不同方向的声源进行实时分离。

以双声源为例，假设本实施例中麦克风阵列如图2所示，且麦克风阵列中每一麦克风阵元采用8个驻极体全向麦克风，呈线性式排布，定义M8到M1的方位为0°方向，M1到M8的方向为180°方向，麦克风之间的间距为d＝11mm。接收到声音信号后，声源分离的计算过程具体如下：

(1)选择权重函数Φ(ω_k′)，此时选择Φ(ω_k′)＝1；

(2)进行短时处理。将麦克风接收到的信号分成有一定重合比例的短时语音帧，帧长可从几毫秒到几十毫秒。在双声源分离算法中，选择帧长为4ms，重叠率为75％。通过分帧，获得时刻t的一组阵元组合输出信号：

{x_n(t),x_n(t+1),…，x_n(t+K-1)},n＝1,2,3,6,7,8；

(3)估计x_n(t)的频谱：

其中，FFT{·}为快速傅里叶变换；

(4)计算不同麦克风组合之间的最大时延点：

其中d_ij表示麦克风i与麦克风j之间的距离，c＝340m/s为声速，f_s＝16kHz为采样频率，

为向上取整；

(5)根据

将麦克风组合分为三组，即最大时延点相等的划分为一组：

①M1，M8麦克风对；

②M1，M7麦克风对、M2，M8麦克风对；

③M1，M6麦克风对、M2，M7麦克风对、M3，M8麦克风对；

(6)分别计算步骤(5)中的三组麦克风组中不同麦克风对的广义互相关函数：

①

其中，IFFT{·}为快速傅里叶逆变换；

同理可得：

②

③

(7)获得三组麦克风组中不同麦克风对的时延估计：

①

同理可得：

②

③

(8)由此可得出三个时延：

(9)语音活动检测-Voice Activity Detection,VAD：根据互相关函数的峰值设定适当的门限值，高于门限值则判断当前帧为语音信号；而低于门限值则判断当前帧为噪声信号，取上一帧的时延值作为当前帧的时延值；

(10)对每一分组取最大时延点的一半作为判断标准，设判断角度方向的标志值为label，即

对应于label＝-1；

对应于label＝1；

同理设定如下判断标准：

对应于label＝-1；

对应于label＝1；

对应于label＝-1；

对应于label＝1；

当前帧为语音信号时，对label的计算采用滤波器进行平滑处理，使算法性能更加鲁棒；当前帧为噪声信号时，取上一帧的label值作为当前帧的label值；

(11)根据label值判断声源方向：

label<0判断为0°方向；

label>0判断为180°方向；

(12)分别统计判断为0°方向的个数cnt1和判断为180°方向的个数cnt2：

cnt1>cnt2该帧观测语音信号最终判断为0°方向；

cnt1<cnt2该帧观测语音信号最终判断为180°方向；

(13)优化代码，对语音分离时的误判进行处理，从而实现双声源的自动分离。

以下对广义互相关算法(Generalized Cross-Correlation，GCC)进行介绍：

广义互相关算法(GCC)是目前使用最多的时延估计算法。该方法计算高效，并且决策延迟短，因此具有良好的目标跟踪能力。此外，该方法在系统中易于实现，尤其在信噪比较高的场景中效果较好。然而，在混响较强的室内环境中，GCC算法的估计结果可能会有误差，但不会导致整个分离算法的崩溃。

假设声场中某方向上有一个未知声源，则麦克风陈列(N个阵元)第n个阵元的输出信号可表示如下：

x_n(k)＝a_ns(k-D_n)+b_n(k),n＝1,2,…N (1)

其中a_n是声音传播衰减因子，并且满足0≤a_n≤1；D_n对应于从未知声源到麦克风n的传播时间延迟；s(k)是说话人或扬声器发出的声音，即声源信号，本质上频谱是宽带的；b_n(k)为第n个麦克风接收到的加性噪声。假定b_n(k)服从零均值的高斯分布，且与声源信号s(k),以及其他麦克风上接收的噪声信号均统计不相关。

在该信号模型下，第i个麦克风与第j个麦克风之间的信号时延差可以表示为：

τ_ij＝D_j-D_i (2)

其中,i,j＝1,2,…,N，并且i≠j。时延估计的目标就是根据观测信号x_n(k)得到τ_ij的估计值

根据上述广义互相关算法，假设我们只有两个麦克风，则它们的输出信号分别记为x₁(k)和x₂(k)，它们的互相关函数定义为：

其中，E[·]表示数学期望，将x₁(k)和x₂(k)代入互相关函数(3)可得：

由于b_n(k)是高斯白噪声，且与声源信号、其他麦克风上接收的噪声信号均不相关，因此

根据公式(4)，我们容易得出/>

在p＝D₂-D₁时取得最大值。因此，x₁(k)和x₂(k)的相对到达时间差为：

其中,p∈[-τ_max,τ_max]，τ_max是最大可能时延。

公式(5)的数字实现时，互相关函数(Cross Correlation Function,CCF)未知并且需要估计，通常的做法是用时间平均来替换公式(3)中定义的统计平均。

假设在时刻t我们有一组x_n观测样本，即{x_m(t),x_m(t+1),…,x_m(t+k-1),…,x_m(t+K-1)}，m＝1,2，其相应的互相关函数可以通过下式进行估计：

或者由下式来估计：

其中K是语音帧的大小。式(6)和式(7)之间的区别是前者是有偏估计，而后者是无偏估计。由于前者的估计方差较低并且渐近无偏，因此在许多应用中被广泛采用。

此外，估计互相关函数还可通过离散傅里叶正变换和离散傅里叶逆变换来实现，即：

其中,

为角频率，

是x_n(k)在时间t的短时离散傅里叶变换。(6)和(8)都产生相同的互相关函数估计。然而，由于后者可以使用快速傅立叶变换和快速傅立叶逆变换更高效地实现互相关函数，因此它已被广泛应用于系统中。

综上可知，广义互相关方法通过对传感器输出之间的互功率谱进行加权来实现的，这种加权处理已能够有效地提高时延估计的性能。结合公式(1)中的信号模型，采用GCC方法估计x₁(k)和x₂(k)的相对到达时间差：

其中

是广义互相关函数，

是x₁(k)和x₂(k)的互功率谱，(·)^*为复共轭，Φ(ω′_k)为加权函数(有时也称为预滤波)，因此加权互功率谱为

在实际系统中，互功率谱

的估计通常是将瞬时值替代期望值来实现，即

进一步地，所述麦克风阵列中的麦克风阵元的排列方式包括，均匀线性阵列、非均匀线性阵列和圆环形阵列；

所述麦克风阵列中的麦克风阵元为驻极体全向麦克风或MEMS麦克风；

所述麦克风阵列中的麦克风阵元的灵敏度为-29dB±1dB，频率响应大于或等于100Hz且小于或等于10kHz，信噪比大于或等于60dB。

进一步地，所述处理单元包括采集编码单元、FPGA处理单元和DSP处理单元；

所述采集编码单元接收所述麦克风阵列单元发送的声音信号，对声音信号进行第一预处理，将经过第一预处理的声音信号采用时分复用的方式传输到所述FPGA处理单元；

所述FPGA处理单元对接收到的声音信号进行第二预处理，并将经过第二预处理的声音信号传输到所述DSP处理单元；

所述DSP处理单元对接收的声音信号进行分离，确定来自所述第一声源的声音信号和来自所述第二声源的声音信号，将来自所述第一声源的声音信号和来自所述第二声源的声音信号分别发送到所述FPGA处理单元，由所述FPGA处理单元将来自所述第一声源的声音信号和来自所述第二声源的声音信号分别发送到所述输出单元；

其中，所述第一预处理包括对声音信号进行增益控制、A/D模数转换和自动电平控制；所述第二预处理包括串并转换、数据缓存、高通滤波和并串转换。

需要说明的是，在上述实施例中，阵元组合为接收所述语音信号的麦克风阵列中，任意两个麦克风阵元的组合；第一声源位于所述麦克风阵列的一侧的指定区域内，第二声源位于所述麦克风阵列的另一侧的指定区域内，指定区域的边界线与所述麦克风阵列所在直线之间的夹角小于或等于预设夹角。

具体地，所述步骤2)中，对正前方(0°±60°)和正后方(180°±60°)的指定锥形区域内的一对一对讲语音信号的实时分离；

所述步骤3)中，通过波束形成算法和降噪算法，得到两路独立增强的语音信息数据；

所述步骤4)中，通过USB异步传输实时接收分离后的两路音频数据并对语音信息数据进行缓存。

如图2所示呈线性式排布的麦克风阵列，谈话一方位于该麦克风阵列从麦克风阵元M8到麦克风阵元M1的0°方向上，且与0°方向的夹角为60°的区域内。另一方位于从麦克风阵元M1到麦克风阵元M8的180°方向上，且与180°方向的夹角为60°的区域内。参见图3，在声源A和声源B的交谈过程中，麦克风阵列接收语音信息，通过计算判断语音信息的传播方向，根据传播方向分离出由不同声源发出的语音信息，将不同声源的语音信息经过两路通道，进行增强后输出，以便对每一声源输出清晰的语音。

其中，对每一选定阵元组合通过广义互相关函数对每一选定阵元组合，确定接收所述语音帧中语音信息的时延差，包括：

图4为本实施例提供的语音转写服务器生成转写文本的流程示意图，参见图4，该语音转写服务器，通过数据交互服务的HTTP接收到语音信息后，在语音转写服务中对语音信息进行特征提取，根据提取的特征，通过语音解码和检索算法确定转写文本。其中，语音解码和检索算法，具体通过经过训练的声学模型、字典和经过训练的语言模型根据提取的特征得到转写文本(例如，通过声学模型确定语音信息，在字典中对应的字或词语，然后根据这些词语通过语言模型生成语句，由语音信息对应的各语句组成语言信息的转写文本)，将转写文本通过数据交互服务传输到审讯电脑。

在如图5所示的审讯场景中，对本实施例的语音记录系统进行介绍，在该审讯场景中，通过审讯电脑与语音识别转写服务器交互，将语音信息转换为转写文本，审讯过程中拾音器、审讯电脑和语音识别转写服务器的交互如图6所示。如图6所示，拾音器为双声源实时分离拾音器。拾音器用于通过采集语音信息，确定双声源信号的入射方位，分离和提取双声源目标信号，对指定锥形区域内的一对一对讲语音信号的实时分离，通过语音增强算法，输出两路独立增强的语音信息数据；

总体来说，语音记录系统包括拾音器(拾音器为双声源实时分离拾音器)、审讯电脑(记录设备)、语音识别转写服务器；拾音器与审讯电脑电连，审讯电脑与语音识别转写服务器电连；双声源实时分离拾音器，用于采集语音信息、分离采集的语音信息，以及用于分别对分离后的语音信息进行增强；审讯电脑，用于解析两路独立增强的语音信息；语音识别转写服务器，用于将解析后的语音信息进行文字转换；审讯电脑，用于显示转换后的文字。

进一步地，审讯电脑，用于存储所述双声源实时分离拾音器采集的语音信息，用于存储所述双声源实时分离拾音器分离开的两路独立增强的语音；用于缓存解析的音频数据，用于发送解析的音频数据；

语音识别转写服务器，用于接收、识别被所述审讯电脑解析的语音信息数据，用于转写被解析的语音信息数据，并进行缓存；

审讯电脑与语音识别转写服务器交互通信，所述语音识别转写服务器所转写后的被解析的语音信息数据于所述审讯电脑上显示。

进一步地，双声源实时分离拾音器通过USB异步传输与审讯电脑电连；所述审讯电脑作为客户机通过局域网与语音识别转写服务器进行数据通信；

所述双声源实时分离拾音器，用于对正前方(0°±60°)和正后方(180°±60°)的指定锥形区域内的一对一对讲语音信号的实时分离；所述双声源实时分离拾音器通过波束形成算法和降噪算法，得到两路独立增强的语音信息数据；

所述审讯电脑，用于将语音数据分割成一个个小的媒体切片，通过HTTP请求发送一个小的媒体切片；

所述语音识别转写服务器，用于响应所述审讯电脑解析的媒体切片；用于经过语音解码、检索算法，将音频数据转写成文本，其中，所述语音解码、检索算法，包括检索经过大量语音数据训练的声学模型、字典和经过大量文本数据训练的语言模型；

所述语音识别转写服务器，通过局域网将识别转写的文本结果发送至所述审讯电脑进行显示及存储。

如图5所示，本实施例自动审讯记录系统主要包括三部分：双声源实时分离拾音器、审讯电脑、语音识别转写服务器。该系统能够将审讯人员A与犯罪嫌疑人B的谈话内容实时自动分离，分离后的双通道语音分别通过语音增强算法后，从两个音频通道分别单独输出，输出的语音接入后端智能语音识别转写服务器，可实现语音内容的识别和实时转写，并自动生成审讯记录。

(1)双声源实时分离拾音器：双声源实时分离拾音器采用8个驻极体全向麦克风，呈线性排布，定义M8到M1的方位为0°方向，M1到M8的方向为180°方向。该拾音器主要是基于麦克风阵列的声源分离技术，利用鲁棒的多通道时延估计算法确定双声源信号的入射方向，然后根据声源方位的不同，分离并提取不同方向的声源，分离后的双通道语音通过语音增强算法后，得到两路独立增强的语音输出，其中语音增强算法主要包括波束形成算法和降噪算法，分离后的语音通过波束形成和降噪算法后，能有效地抑制干扰和噪声，从而提高语音识别转写的准确率。

(2)审讯电脑：审讯电脑和双声源拾音器通过USB异步传输，将拾音器虚拟成计算机标准USB声卡，实现即插即用。审讯电脑用上位机记录并保存拾音器采集的语音信息，以及分离开的警官和犯罪嫌疑人的对话语音，将得到的两路独立增强的语音输出接入后端智能语音识别转写服务器。

(3)语音识别转写服务器：语音识别转写服务器主要实现与审讯电脑的语音数据交互和语音识别服务。语音识别转写服务器实时接收来自审讯电脑的语音信息，然后通过语音解码和搜索算法实现语音内容的识别转写，最后将识别转写的文本结果实时输出，反馈至审讯电脑显示，从而自动生成审讯记录。

另外，本发明于双声源的审讯系统，也可扩展为多声源分离识别系统，如多人会议系统；本发明自动审讯记录方法用于均匀线性阵列，也可用于非均匀线性阵列以及圆形阵列(尽管给出的例子是基于均匀线性阵列的)。

该自动审讯记录系统具有如下技术效果：能够将审讯人员和犯罪嫌疑人的对话内容自动分离并实时转写成文字，且能够做到整个审讯过程全部信息的自动记录和存储，极大地减少了书记员的工作量，使审讯记录系统更加智能化。此外，完善的审讯信息记录还能够为后续的办案流程提供客观公正的审讯记录，提升事件处理的效率。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种声音信号记录系统，其特征在于，包括拾音器、记录设备和语音识别转写服务器；

所述拾音器用于接收第一声源和第二声源的混合声音信号；

将所述混合声音信号划分为预设帧长的语音帧；

根据所述语音帧对应的传播方向从混合声音信号中实时分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号；

所述语音识别转写服务器实时根据来自所述第一声源的声音信号确定第一转写文本，实时根据来自所述第二声源的声音信号确定第二转写文本，并将所述第一转写文本和所述定第二转写文本发送到所述记录设备；

2.根据权利要求1所述的声音信号记录系统，其特征在于，

所述拾音器还用于通过波束形成算法和降噪算法，分别将来自所述第一声源的声音信号和来自所述第二声源的声音信号进行增强；

3.根据权利要求2所述的声音信号记录系统，其特征在于，

其中，所述语言模型为预先根据样本声音信号，以及与样本声音信号对应的转写文本为标签进行训练得到。

4.根据权利要求1所述的声音信号记录系统，其特征在于，所述拾音器包括麦克风阵列单元、处理单元和输出单元；所述麦克风阵列单元包括麦克风阵列和音频编码单元；

5.根据权利要求4所述的声音信号记录系统，其特征在于，所述处理单元具体用于：

接收来自第一声源和第二声源的混合声音信号；

将接收的混合声音信号划分为预设帧长的语音帧，对每一语音帧进行传播方向判断，确定每一语音帧对应的传播方向。

6.根据权利要求5所述的声音信号记录系统，其特征在于，所述将接收的混合声音信号划分为预设帧长的语音帧，对每一语音帧进行传播方向判断，确定每一语音帧对应的传播方向，包括：

将接收的混合声音信号划分为所述预设帧长的语音帧；

对各语音帧中任一目标语音帧，通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，根据每一选定阵元组合接收所述目标语音帧的时延差，获取最大的三个最大时延差所对应的阵元组合，确定所述目标语音帧的传播方向；

7.根据权利要求6所述的声音信号记录系统，其特征在于，所述根据接收所述混合声音信号的麦克风阵列中阵元的位置，确定不同阵元组合对应的最大时延差，获取最大时延差大于预设阈值的阵元组合，作为选定阵元组合，包括：

根据公式

其中，

表示向上取整。

8.根据权利要求6所述的声音信号记录系统，其特征在于，所述对各语音帧中任一目标语音帧，通过广义互相关函数，确定每一选定阵元组合接收所述目标语音帧的时延差，根据每一选定阵元组合接收所述目标语音帧的时延差，确定所述目标语音帧的传播方向，包括：

将最大时延差相同的选定阵元组合划分在同一分组中；

9.根据权利要求8所述的声音信号记录系统，其特征在于，所述根据每一分组的分组时延差和每一分组的设定判断标准判断所述目标语音帧传播方向，包括：

10.根据权利要求9所述的声音信号记录系统，其特征在于，所述根据各语音帧对应的传播方向分离出来自所述第一声源的声音信号和来自所述第二声源的声音信号，包括：