CN109192213B

CN109192213B - 庭审语音实时转写方法、装置、计算机设备及存储介质

Info

Publication number: CN109192213B
Application number: CN201810952276.8A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2023-10-20
Anticipated expiration: 2038-08-21
Also published as: CN109192213A

Abstract

本发明公开一种庭审语音实时转写方法、装置、计算机设备及存储介质，该方法包括通过麦克风阵列采集原始语音数据；对原始语音数据进行数据预处理，获取目标语音数据；采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征；基于麦克风阵列标识查询数据库，获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征；基于目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据；采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据；在显示设备实时显示目标文字数据和目标身份数据，解决人工转写过程中效率低下的问题。

Description

庭审语音实时转写方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种庭审语音实时转写方法、装置、计算机设备及存储介质。

背景技术

目前法庭庭审中，通常由书记员事先确认每一当事人的身份信息之后，再对每一当事人陈述的意见或内容进行记录。这种由书记员人工对法庭庭审内容进行整理和记录的方式，可能对当事人陈述的意见或内容造成一定的误差，且通过人工记录速度较慢，影响庭审进程，导致实时转写效率低下。

发明内容

本发明实施例提供一种庭审语音实时转写方法、装置、计算机设备及存储介质，以解决人工转写庭审记录过程中效率低下的问题。

一种庭审语音实时转写方法，包括：

通过麦克风阵列采集原始语音数据，每一所述原始语音数据对应一麦克风阵列标识；

对所述原始语音数据进行数据预处理，获取目标语音数据；

采用MFCC算法对所述目标语音数据进行声纹特征提取，获取目标声纹特征；

基于所述麦克风阵列标识查询数据库，获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征；

基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据；

采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应的目标文字数据；

在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。

一种庭审语音实时转写装置，包括：

采集模块，用于通过麦克风阵列采集原始语音数据，每一所述原始语音数据对应一麦克风阵列标识；

预处理模块，用于对所述原始语音数据进行数据预处理，获取目标语音数据；

声纹特征提取模块，用于采用MFCC算法对所述目标语音数据进行声纹特征提取，获取目标声纹特征；

数据查找模块，用于基于所述麦克风阵列标识查询数据库，获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征；

身份数据获取模块，用于基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据；

文字数据获取模块，用于采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应的目标文字数据；

显示模块，用于在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述庭审语音实时转写方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述庭审语音实时转写方法的步骤。

上述庭审语音实时转写方法、装置、计算机设备及存储介质，该方法包括：通过麦克风阵列采集原始语音数据，每一原始语音数据对应一麦克风阵列标识，以便后续根据原始语音数据获取对应的身份数据和目标文字数据。通过对原始语音数据进行数据预处理，获取目标语音数据，以实现增强原始语音数据，降低原始语音数据噪声，解决外部噪声造成内容误差的问题。采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征，采用MFCC算法提取声纹特征简单方便，且可快速获取到目标声纹特征。基于麦克风阵列标识查询数据库，获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征，通过目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据，将该身份数据作为目标声纹数据对应的目标身份数据，实现方法简单快速，以快速获取到身份数据。采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据，以快速获取目标文字数据。在显示设备上实时显示目标文字数据和对应的目标身份数据，无需人工介入，实时显示身份数据和目标文字数据，提高对法庭庭审内容进行整理和记录的效率，以便提高庭审效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中庭审语音实时转写方法的一应用环境示意图；

图2是本发明一实施例中庭审语音实时转写方法的一流程图；

图3是本发明一实施例中庭审语音实时转写方法的一流程图；

图4是本发明一实施例中庭审语音实时转写方法的一流程图；

图5是本发明一实施例中庭审语音实时转写方法的一流程图；

图6是本发明一实施例中庭审语音实时转写方法的一流程图；

图7是本发明一实施例中庭审语音实时转写方法的一流程图；

图8是本发明一实施例中庭审语音实时转写装置的一原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的庭审语音实时转写方法，可应用在如图1的应用环境中。该庭审语音实时转写方法应用在庭审语音实时转写系统中，该庭审语音实时转写系统包括用户端、服务端和显示设备。其中，用户端通过网络与服务端进行通信，该网络可以是有线网络或者无线网络，用户端将接收到的原始语音数据发送至服务端，服务端对原始语音数据实时转写成目标文字数据，并通过原始语音数据获取对应的身份数据，将目标文字数据与身份信息一一对应，并在显示设备上进行显示，以解决人工转写效率低下的问题。其中，服务端和用户端之间通过网络进行连接，其中，用户端可以为采集原始语音数据的语音采集设备，于本实施例中，该用户端为麦克风阵列。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。

在一实施例中，如图2所示，提供一种庭审语音实时转写方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：通过麦克风阵列采集原始语音数据，每一原始语音数据对应一麦克风阵列标识。

其中，原始语音数据是通过麦克风阵列实时采集的当事人的语音数据。麦克风阵列是将不同麦克风按某种方式放置在不同的空间位置上。该麦克风陈列在空间上接收语音数据，经过一定的处理过程，可以提取语音数据的相关特征信息，如幅度、频率和方向等。麦克风阵列按麦克风在空间位置的不同分布，会有如下的拓扑结构：线性阵列、圆形阵列和球形阵列等。每一麦克风阵列对应一麦克风阵列标识，麦克风阵列采集到的原始语音数据与麦克风阵列标识对应。例如，麦克风阵列标识为A，通过A对应的麦克风阵列采集原始语音数据，将该原始语音数据与A进行对应。

具体地，法庭庭审前，确定每一麦克风阵列所在的位置，对麦克风阵列的位置进行固定，并确定每一麦克风阵列对应的麦克风阵列标识。用户端与服务端通信连接，用户端通过麦克风阵列实时采集当事人的原始语音数据，并将原始语音数据与麦克风阵列标识一一对应。例如，法庭庭审中，固定三个麦克风阵列，通过该三个麦克风阵列实时采集当事人的原始语音数据，其中，当事人可以是被告、原告、被告律师、原告律师、法官和陪审员等，麦克风阵列1采集法官和陪审员的原始语音数据，麦克风阵列2采集原告和原告律师的原始语音数据，麦克风阵列3采集被告和被告律师的原始语音数据，将采集的法官和陪审员的原始语音数据与麦克风阵列1对应，将采集的原告和原告律师的原始语音数据与麦克风阵列2对应，将采集的被告和被告律师的原始语音数据与麦克风阵列3对应。

S20：对原始语音数据进行数据预处理，获取目标语音数据。

其中，目标语音数据是指对参与法庭庭审的当事人的原始语音数据进行预处理后的语音数据。

具体地，通过麦克风阵列采集原始语音数据，由于声音在传播过程中会发生反射等，麦克风阵列采集到的原始语音数据不仅采集到直射部分，还可采集到反射部分，并且反射部分的原始语音数据会产生相关噪声等，需对原始语音数据进行数据预处理，以去除原始语音数据中的噪声，有助于提高后续识别的准确性。本实施例中可通过TDOA(TimeDifference of Arrival，到达时间差)技术先对原始语音数据进行时延估计，再通过TDOA技术进行声源定位，最后通过滤波算法对原始语音数据进行滤波，以实现对原始语音数据进行数据预处理，得到目标语音数据。服务端通过对原始语音数据进行预处理，使得获得的目标语音数据更精准，以便后续对目标语音数据进行相应的操作。

其中，TDOA技术是一种无线定位技术，通过测量原始语音数据到达麦克风的时间，可以确定原始语音数据到麦克风阵列中每个麦克风的距离，利用原始语音数据到各个麦克风的距离，就能确定原始语音数据的空间坐标，但是绝对时间一般比较难测量，通过比较原始语音数据到达各个麦克风的时延差，就能作出以麦克风为焦点，距离差为长轴的双曲线，双曲线的交点就是原始语音数据的起源位置，即该原始语音数据的说话人所在位置。

S30：采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征。

其中，目标声纹特征是指对参与法庭庭审的当事人的目标语音数据提取的声纹特征。本实施例中，该目标声纹特征具体为MFCC特征。

其中，MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，采用MFCC算法对目标语音数据进行声纹特征提取，获取到的MFCC特征即为目标声纹特征。本实施例中，对目标语音数据进行声纹特征提取，获取目标声纹特征，具体包括以下步骤：

(1)对目标语音数据进行预加重处理，获取预处理语音数据。其中，通过对目标语音数据进行预加重处理，能够消除发声过程中声带和嘴唇等造成的干扰，可以有效补偿待识别语音被压抑的高频部分，并且能够突显待识别语音高频的共振峰，加强待识别语音的信号幅度，有助于提取目标语音数据的特征。

(2)采用分帧和加窗的方式对预处理语音数据进行处理，获取语音帧。其中，采用分帧和加窗的方式对加重处理声纹样本进行处理，主要是为了避免相邻两帧的变化过大，通过采用分帧方式进行处理，能够将预处理语音数据分成若干段的语音数据，可以细分预处理语音数据，便于预处理语音数据特征的提取，并通过加窗的方式进行处理，使得分帧后的信号变得连续，每一帧表现出周期函数的特征，便于预处理语音数据特征，其中，可采用汉明窗和汉宁窗来进行处理。

(3)对语音帧进行静默音分离处理，获取目标语音帧。其中，对语音帧进行静默音分离处理，使得获取的目标语音帧为有效的语音帧，将无效的语音帧进行滤除，有效的语音帧为有采集到当事人的原始语音数据的语音帧，为后续提取目标语音数据的特征提供重要的技术基础。

(4)对目标语音帧进行声纹特征提取，获取目标声纹特征。其中，对目标语音帧进行声纹特征提取，获取目标声纹特征，主要是将目标语音中可分性强、稳定性高等特性的声学或语言特征进行提取，以便后续通过目标声纹特征进行语音识别处理。

S40：基于麦克风阵列标识查询数据库，获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征。

其中，身份数据是指参与法庭庭审的当事人的身份信息，可以为姓名、身份证号以及在本次法庭庭审中的身份，如被告、原告、被告律师、原告律师、法官和陪审员等。标准声纹特征是指预先录取的参与法庭庭审的当事人对应的声纹特征。

具体地，预先在数据库中存储麦克风阵列标识、身份数据和与身份数据对应的标准声纹特征，并将麦克风阵列标识、身份数据和与身份数据对应的标准声纹特征一一对应。其中，每一麦克风阵列标识所在位置对应一个或多个身份数据，将麦克风阵列标识所在位置的所有身份数据均与该麦克风阵列标识对应，每一身份数据对应一标准声纹特征。例如，麦克风阵列标识为1，麦克风阵列1所在位置对应原告和原告律师，将麦克风阵列1与原告和原告律师的身份数据进行对应，并预先提取原告和原告律师的身份数据对应的标准声纹特征；在步骤S40中，可通过麦克风阵列1查询数据库，可获取到麦克风阵列1所在位置对应的原告和原告律师的身份数据，并获取原告和原告律师这一身份数据相对应的标准声纹特征，其中，可采用MFCC算法提取原告和原告律师预先上传的语音数据对应的标准声纹特征。

本实施例中，基于麦克风阵列标识查找数据库，获取数据库中存储的与麦克风阵列标识所在位置对应的至少一个身份数据，并获取与该身份数据对应的标准声纹特征，以便后续通过目标声纹特征查找到身份数据和标准声纹特征，为后续步骤提供便利。

S50：基于目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据。

具体地，每一目标声纹特征携带有麦克风阵列标识，通过麦克风阵列标识查找数据库，获取与麦克风阵列标识所在位置对应的至少一个标准声纹特征，将目标声纹特征与每一标准声纹特征进行匹配处理，获取与目标声纹特征匹配的标准声纹特征，将匹配的标准声纹特征对应的身份数据作为目标声纹特征对应的目标身份数据。本实施例中，将目标声纹特征与每一标准声纹特征进行匹配处理，可以是进行相似度计算，获取相似度值，并将最大相似度值对应的身份数据作为目标声纹特征对应的身份数据。通过将目标声纹特征与标准声纹特征进行匹配，将匹配的标准声纹特征对应的身份数据作为目标声纹特征对应的目标身份数据，使得标准声纹特征对应的目标身份数据的获取过程简单，且便于操作。

具体地，进行法庭庭审之前，可先采集参与法庭庭审的当事人的身份数据和身份识别语音数据，获取身份识别语音数据，当参与法庭庭审的当事人的身份识别语音数据采集完毕后，以便对该身份识别语音数据进行声纹提取，获取标准声纹特征，并将该标准声纹特征与其身份数据关联存储。然后在正式庭审时，即执行步骤S10-S50的步骤，以确认每一目标声纹特征对应的身份数据。

S60：采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据。

其中，语音识别模型是预先训练的模型，目标文字数据是指对目标声纹特征进行语音识别获取到的文字数据。

具体地，服务端获取目标声纹特征，将目标声纹特征输入至预先训练好的语音识别模型中，通过语音识别模型可获取到与目标声纹特征对应的目标文字数据。其中，语音识别模型是由声学模型、音素字典和语言模型等组成。声学模型是通过对语音数据进行训练所获得，输入的是目标声纹特征，输出的是音素。音素字典是音素与字的映射关系库，输入的是音素，输出的是字。语言模型是通过对大量的文本信息进行训练获得，可得到字与字之间的相关联概率，输入的是单个的字，输出的是目标文字数据(即将最大概率词序作为目标文字数据)。更具体地，通过将目标声纹特征输入至语音识别模型中的声学模型，获取与目标声纹特征对应的音素，将音素输入至语音识别模型中的音素字典，获取与音素对应的字，将字输入至语音识别模型中的语言模型，获取与字对应的目标文字数据。

S70：在显示设备上实时显示目标文字数据和对应的目标身份数据。

具体地，服务端将一目标声纹特征对应的目标文字数据和对应的目标身份数据进行一一对应，并在显示设备上实时显示。进一步地，原始语音数据中携带有时间标注，在显示设备上实时显示时，根据法庭庭审中当事人的说话先后顺序(时间标注)进行序列显示，如：当事人A：“xxxxxx”；当事人B：“xxxxxx”。

步骤S10-S70中，通过麦克风阵列采集原始语音数据，每一原始语音数据对应一麦克风阵列标识，以便后续根据原始语音数据获取对应的身份数据和目标文字数据。通过对原始语音数据进行数据预处理，获取目标语音数据，以实现增强原始语音数据，降低原始语音数据噪声，解决外部噪声造成内容误差的问题。采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征，采用MFCC算法提取声纹特征简单方便，且可快速获取到目标声纹特征。基于麦克风阵列标识查询数据库，获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征，通过目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据，将该身份数据作为目标声纹数据对应的目标身份数据，实现方法简单快速，以快速获取到身份数据。采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据，以快速获取目标文字数据。在显示设备上实时显示目标文字数据和对应的目标身份数据，无需人工介入，实时显示身份数据和目标文字数据，提高对法庭庭审内容进行整理和记录的效率，以便提高庭审效率。

在一实施例中，麦克风阵列包括至少三个麦克风，麦克风阵列是由不同麦克风按照一定几何结构摆放而组成的整体结构，其中，麦克风阵列中各个麦克风的间距和具体的摆放位置对接收到的原始语音数据起着决定性的作用。

如图3所示，步骤S20中，即对原始语音数据进行数据预处理，获取目标语音数据，包括如下步骤：

S21：采用GCC估计算法估算原始语音数据到达第一麦克风和第二麦克风的时延差。

其中，GCC估计算法(Generalized Cross Correlation，即广义加权相关时延)，相关函数和功率谱密度函数是一对傅里叶变换，在频域利用不同的加权函数对功率谱密度函数进行处理，从而实现原始语音数据的白化处理，即增强信噪比，具有很短的判决时延和较好的跟踪能力，适用于低混响环境，是TDOA技术中常用的估计算法。其中，白化处理是指将原始语音数据进行傅里叶变换，由时间域变到频率域；在有效的频率范围内进行分频率；对分频原始语音数据进行傅里叶反变换，由频率域变到时间域；对各时间域原始语音数据进行时变增益；最后将时变增益原始语音数据重新合成，获取白化处理后的原始语音数据，即获得目标语音数据。

具体地，预先通过GCC估计算法估算出各个麦克风间获取原始语音数据的时延差，主要是求出原始语音数据到达每一麦克风的互功率谱；在一定的频率内进行加权处理，白化处理原始语音数据和噪音，同时增强语音原始语音数据中信噪比的频率比重，进而抑制噪音的功率；最后反变换到时域得到广义互相关函数，使的互相关函数更加尖锐，提高时延估计的准确性，通过互相关函数获取原始语音数据到达麦克风的时延差。

S22：基于原始语音数据到达第一麦克风和第二麦克风的时延差，采用几何定位法获取原始语音数据的空间坐标。

具体地，服务端基于原始语音数据到达第一麦克风和第二麦克风的时延差，通过几何公式获取到原始语音数据的空间坐标。例如，获取原始语音数据到达麦克风1(第一麦克风)和麦克风2(第二麦克风)的时延差，通过几何公式获取到原始语音数据的空间坐标，其中，定位公式为||s-m₁||-||s-m₂||＝τ₁₂*v，s为原始语音数据的空间坐标，1和2为麦克风标识，m₁为麦克风1的空间坐标，m₂为麦克风2的空间坐标，τ₁₂为原始语音数据到达麦克风1和麦克风2的时延差，v为声速。即通过定位公式求出S。采用几何定位方法实现定位，其算法简单，计算量小。

S23：基于原始语音数据的空间坐标，确定麦克风阵列中每一麦克风对应的权重，采用加权公式对原始语音数据进行加权处理，获取待滤波语音数据；其中，加权公式为y(t)为待滤波语音数据，n为麦克风数量，i为第i个麦克风的标识，w_i为第i个麦克风对应的权重，x_i(t)为第i个麦克风接收到的原始语音数据。

具体地，服务端基于计算得出的原始语音数据的空间坐标，获取每一麦克风对应的权重，其中，权重是依据原始语音数据的空间坐标与麦克风坐标间的距离进行确定的，若原始语音数据的空间坐标与麦克风的距离越近，则配置的权重越高。通过加权公式进行计算，加权公式为获取待滤波语音数据，通过为每一麦克风配置相应的权重，使得越靠近原始语音数据的空间坐标的麦克风权重越高，则获取到的待滤波语音数据更偏离于选择原始语音数据的空间坐标的麦克风所采集的到原始语音数据。

S24：采用维纳滤波算法对待滤波语音数据进行滤波处理，获取目标语音数据。

其中，维纳滤波(wienerfiltering)一种基于最小均方误差准则，使得输出与期望输出之间的均方误差为最小的滤波器。维纳滤波器的输出与期望输出之间的均方误差为最小，因此，它是一个最佳滤波系统。

具体地，服务端获取到待滤波语音数据，采用维纳滤波算法对待滤波语音数据进行滤波，主要是通过维纳滤波算法提取被平稳噪声所污染的待滤波语音数据，从连续的或离散的待滤波语音数据中滤除噪声和干扰，以提取有用信息作为目标语音数据。

步骤S21-S24中，通过采用GCC估计算法估算原始语音数据到达每一麦克风的时延，以实现时延估计，以便后续根据时延计算距离差。基于原始语音数据到达每一麦克风的时延，采用几何定位法获取原始语音数据的空间坐标，以实现原始语音数据的空间坐标定位，以便后续根据空间坐标确定每一麦克风的权重。基于原始语音数据的空间坐标，确定麦克风阵列中每一麦克风对应的权重，采用加权公式对原始语音数据进行加权处理，获取待滤波语音数据，对接近空间坐标的麦克风配置高权重，使得获取的原始语音数据更加精准，以实现增强语音数据。采用维纳滤波算法对待滤波语音数据进行滤波处理，获取目标语音数据，以实现待滤波语音数据的滤波处理，使得目标语音数据中不掺杂噪声和干扰。

在一实施例中，如图4所示，步骤S21中，即采用GCC估计算法估算原始语音数据到达第一麦克风和第二麦克风的时延差，具体包括如下步骤：

S211：基于第一麦克风和第二麦克风，获取第一麦克风和第二麦克风的原始互相关函数。

具体地，预设麦克风阵列中包括至少三个麦克风，麦克风所采集到的原始语音数据为x₁(t)＝s(t-τ₁)+n₁(t)，x₂(t)＝s(t-τ₂)+n₂(t)，其中，1和2为麦克风标识，x₁(t)和x₂(t)分别为麦克风1(第一麦克风)和麦克风2(第二麦克风)对应的原始语音数据，s(t)为预设麦克风所采集到的原始语音数据，τ₁和τ₂为原始语音数据到达麦克风1和麦克风2的时延差，n₁(t)和n₂(t)分别为麦克风1和麦克风2接收到的高斯白噪声，那么麦克风1和麦克风2的原始互相关函数为R₁₂(τ)＝E[x₁(t)x₂(t-τ)]；化简为R₁₂(τ)＝E[s(t-τ₁)s(t-τ₁-τ)]＝R_SS(τ-(τ₁-τ₂))，R₁₂(τ)为原始互相关函数，通过原始互相关函数来描述麦克风1和麦克风2共同的特征。

S212：对原始互相关函数做傅里叶变换，获取互功率谱。

其中，傅里叶变换(Fast Fourier Transformation，简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称，简称FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

具体地，将原始互相关函数R₁₂(τ)＝E[s(t-τ₁)s(t-τ₁-τ)]＝R_SS(τ-(τ₁-τ₂))进行傅里叶变换，获取互功率谱为其中，x₁和x₂分别为麦克风1和麦克风2，为麦克风1和麦克分2的互功率谱，/>为对原始互相关函数R₁₂(τ)做傅里叶变换，即对R_SS(τ-(τ₁-τ₂))做傅里叶变换。

S213：对互功率谱进行加权处理，获取加权互功率谱，并对加权互功率谱做反傅里叶变换，获取目标互相关函数。

具体地，通过对互功率谱进行加权处理，并做反傅里叶变换，以获取目标互相关函数/>其中，/>为麦克风1和麦克风2的广义相关加权函数，其中，广义相关加权函数在基本互相关时，/>的值为1，为麦克风1和麦克风2的目标互相关函数，/>为麦克风1和麦克风2的互功率谱，/>为对麦克风1和麦克风2的互功率谱进行广义加权处理，再做反傅里叶变换。通过按照一定的权值对互功率谱进行频域加权，以实现白化处理语音信号和噪音，并增强语音信号中信噪比的频率比重，进而抑制噪音的功率，再通过反傅里叶变换得到互相关函数，以使互相关函数据中峰值更加尖锐，以便后续根据峰值确定时延差。

S214：基于目标互相关函数，获取目标互相关函数的极大值，将极大值作为原始语音数据到达第一麦克风和第二麦克风的时延差。

具体地，服务端获取目标互相关函数将互相关函数峰值所在的点作为极大值，将极大值作为原始语音数据到达麦克风1和麦克风2的时延差，即原始语音数据到达第一麦克风和第二麦克风的时延差。

步骤S211-S214中，基于第一麦克风和第二麦克风，获取第一麦克风和第二麦克风的原始互相关函数，以实现通过原始互相关函数来描述麦克风和麦克风共同的特征。对原始互相关函数做傅里叶变换，获取互功率谱，以编后续根据互功率谱进行加权处理。对互功率谱进行加权处理，获取加权互功率谱，并对加权互功率谱做反傅里叶变换，获取目标互相关函数，以实现对原始语音数据进行白化处理信号和降低噪音，同时增强语音信号中信噪比的频率比重，进而抑制噪音的功率，使得互相关函数据中峰值更加尖锐。基于目标互相关函数，获取目标互相关函数的极大值，将极大值作为原始语音数据到达第一麦克风和第二麦克风的时延差，以实现根据互相关函数据中峰值确定时延差。

在一实施例中，步骤S212中，即基于原始语音数据到达第一麦克风和第二麦克风的时延差，采用几何定位法获取原始语音数据的空间坐标中，具体包括：原始语音数据到达第一麦克风和第二麦克风的时延差和每一麦克风的空间坐标，采用定位公式获取原始语音数据的空间坐标；其中，定位公式为||s-m_i||-||s-m_j||＝τ_ij*v，(i＝1,...,n)(j＝1,...,n)，s为原始语音数据的空间坐标，i和j为麦克风标识，m_i为第i个麦克风的空间坐标，m_j为第j个麦克风的空间坐标，τ_ij为原始语音数据到达麦克风i和麦克风j的时延差，v为声速。

具体地，通过步骤S214可估算出原始语音数据到达第一麦克风和第二麦克风的时延差，获取每一麦克风的空间坐标。其中，在麦克风阵列中已固定麦克风几何结构和位置，当通过几何定位法进行定位时，麦克风阵列中包括至少三个麦克风，采用定位公式对原始语音数据的空间坐标进行定位，即求出定位公式||s-m_i||-||s-m_j||＝τ_ij*v(i＝1,...,n)(j＝1,...,n)中的s，以获取到空间坐标。例如，麦克风阵列中包括麦克风1、麦克风2和麦克风3，其中，原始语音数据到达麦克风1和麦克风2的时延差为τ₁₂，原始语音数据到达麦克风1和麦克风3的时延差为τ₁₃，通过定位公式可得||s-m₁||-||s-m₂||＝τ₁₂*v和||s-m₁||-||s-m₃||＝τ₁₃*v，将预设原始语音数据的空间坐标和每一麦克风坐标导入公式中，可得和其中，原始语音数据的空间坐标处于式(1)和式(2)的双曲线上，其双曲线的交点为原始语音数据的空间坐标，通过该几何定位法获取原始语音的空间坐标，算法简单，计算量小，以实现快速获取到原始语音数据的空间坐标。

在一实施例中，如图5所示，步骤S50中，即基于目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据中，具体包括如下步骤：

S51：将目标声纹特征与每一标准声纹特征进行相似度计算，获取与标准声纹特征相对应的第一相似度。

具体地，数据库中预先存储有与身份数据对应的标准声纹特征，服务端获取目标声纹特征，查找数据库，将目标声纹特征与麦克风阵列标识所在位置对应的标准声纹特征进行相似度计算，获取与标准声纹特征相对应的第一相似度。其中，麦克风阵列标识所在位置对应的标准声纹特征的数量与第一相似度的数量应相同，例如，麦克风阵列1所在位置对应原告和原告律师的标准声纹特征，将目标声纹特征与每一标准声纹特征进行相似度计算，获取与标准声纹特征相对应的第一相似度。此时，第一相似度可以为目标声纹特征为与原告的标准声纹特征的相似度，也可以为目标声纹特征与原告律师的标准声纹特征的相似度。

进一步地，可采用余弦相似度计算公式对目标声纹特征与标准声纹特征进行相似度计算，余弦相似度计算公式为S为相似度，A_i为目标声纹特征，B_i为标准声纹特征，i为第i维特征，n为维度数量。

S52：将第一相似度的最大值对应的标准声纹特征，作为匹配的标准声纹特征，并获取匹配的标准声纹特征对应的目标身份数据。

具体地，服务端获取每一第一相似度，将第一相似度中最大值对应的标准声纹特征作为匹配的标准声纹特征，并根据标准声纹特征查找数据库，获取对应的目标身份数据，例如，目标声纹特征与原告的标准声纹特征的第一相似度为80％，目标声纹特征与原告律师的标准声纹特征的第一相似度为90％，那么，将原告律师的标准声纹特征作为匹配的标准声纹特征，并获取原告律师的身份数据作为目标身份数据。

步骤S51-S52中，通过将目标声纹特征与每一标准声纹特征进行相似度计算，获取与标准声纹特征相对应的第一相似度，以便后续根据第一相似度获取身份数据，通过相似度计算以快速获取到第一相似度，实现方法简单方便。将第一相似度的最大值对应的标准声纹特征，作为匹配的标准声纹特征，并获取匹配的标准声纹特征对应的目标身份数据，以实现快速获取到身份数据，将相似度最大值对应身份数据作为目标声纹特征对应的目标身份数据，以提高获取的身份数据的准确性。

进一步地，在步骤S70中，即在显示设备上实时显示目标文字数据和对应的目标身份数据中，包括：

(1)当第一相似度的最大值大于预设阈值时，在显示设备上实时显示目标文字数据和对应的目标身份数据。

具体地，服务端中预设有与第一相似度进行比较的预设阈值。当第一相似度的最大值大于预设阈值时，在显示设备上将目标文字数据和第一相似度的最大值对应的目标身份数据进行一一对应显示。例如，第一相似度的最大值为90％，而数据库中预设阈值为88％时，则第一相似度的最大值大于预设阈值，在显示设备上将目标文字数据和第一相似度的最大值对应的目标身份数据进行一一对应显示。通过将第一相似度的最大值与预设阈值进行对应，若大于预设阈值时，则在显示设备上实时显示目标文字数据和对应的目标身份数据，以提高获取的身份数据的准确性。

(2)当第一相似度的最大值不大于预设阈值，在显示设备上对目标文字数据对应的目标身份数据进行异常提示；获取身份确认信息，基于身份确认信息对目标文字数据对应的目标身份数据进行修改或确认。

具体地，服务端将第一相似度的最大值与预设阈值进行对比，当第一相似度的最大值不大于预设阈值，在显示设备上对目标文字数据对应的目标身份数据进行异常提示，例如，将目标身份数据进行标红和加粗等处理，以使法庭庭审当事人对该目标文字数据和对应的目标身份数据进行重点关注，并进行目标身份数据的修改确定操作。其中，该对目标身份数据的修改确认操作具体包括：获取用户端发送的身份确认信息，其中身份确认信息包括身份标识，通过身份标识查找数据库，若身份标识与数据库中可修改标识相匹配，则身份验证成，则基于身份确认信息对目标文字数据对应的目标身份数据进行修改或确认。通过身份确认信息，以对文字数据对应的目标身份数据进行修改或确认，避免恶意修改身份数据，以提高目标身份数据和目标文字数据的准确性。

在一实施例中，语音识别模型包括声学模型、音素字典和语言模型。如图6所示，步骤S60中，即采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据中，具体包括以下步骤：

S61：采用声学模型对目标声纹特征进行转换，获取音素数据。

具体地，服务端采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征，其目标声纹特征可以为MFCC特征，假设声学特征为12维，n列的矩阵(即总帧数)，则MFCC特征中包括12维n列矩阵，根据人耳的生理特性，将每一帧波形用12维的向量表示。其中，若干帧波形对应一个状态，每三个状态组合成一个音素，通过声学模型确定每帧波形对应的状态，并根据状态转换成音素数据。进一步地，声学模型由隐马尔可夫模型(HiddenMarkov Model，HMM)对训练语音数据进行训练所获得的模型，通过构建一个网络，从状态网络中寻找帧与状态间最匹配路径，将最匹配路径对应的状态作为目标状态，从状态网络中寻找状态与音素间最匹配路径，将最匹配路径对应的音素作为目标音素，其中，路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径，进而实现将目标声纹特征转换为音素数据。

S62：根据音素字典中音素与字的映射关系，将音素数据转换为目标字。

其中，英语中单词的音标是由音素构成，常用的音素集是卡内基梅隆大学的一套由39个音素构成的英语音素集，汉语中用声母和韵母的组合(即拼音)作为汉语音素集。具体地，建立英语音素集与单词的映射关系，并建立汉语音素集与汉字的映射关系，以获取到音素字典，并根据音素字典将音素数据转换为目标字。

S63：采用语言模型将目标字转换为目标文字数据。

具体地，采用语言模型将目标字转换成目标文字数据，具体包括以下步骤：

(1)通过语言模型将目标字转换成M个词序列，其中，M为大于1的正整数。

其中，将获取到的目标字前后组合得到M个词序列。其中，词序列是指将目标字按照某种标准进行排列的序列。例如，目标字为“被”、“告”、“人”、“因”、“银”“河”“何”、“事”、“是”、......、“被”、“拘”、“留”、“悲”、“剧”和“流”等，将目标字根据预设规则进行前后组合得到词序列为“被告”、“银河”、“是”、“悲剧”和“流”，词序列还可为“被告”、“因”、“何事”、“被”和“拘留”。通过获取目标字进行组合，获取到不同的词序列，以便后续根据词序列获取目标文字数据。

(2)基于M个词序列获取至少一个词序列数据，计算每个词序列数据的发生概率。

其中，词序列数据是指将M个词序列按照某种标准进行排列形成的数据，如步骤(1)中，“被告”、“因”、“何事”、“被”和“拘留”为词序列数据。具体地，根据(1)中获取到的词序列数据，对每个词序列数据进行发生概率计算，得到M个词序列形成的词序列数据的发生概率。对词序列进行发生概率计算具体可使用马尔科夫假设理论：第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。即：

其中，P(T)为整句出现的概率，为第n个分词出现在n-1个分词组成的词序列之后的概率。

例如，词序列1：词序列数据为“被告”、“因”、“何事”、“被”和“拘留”，词序列2：词序列数据为“被告”、“银河”、“是”、“悲剧”和“流”。词序列数据1整句出现的概率P(T)就是各个分词出现概率的乘积，即计算分词“被告”出现在“被告因何事被拘留”词序列的概率P(W₁)，计算分词“因”出现在“被告因何事被拘留”词序列中“被告”之后的概率计算分词“何事”出现在“被告因何事被拘留”词序列中“因”之后的概率/>计算分词“被”出现在“被告因何事被拘留”词序列中“何事”之后的概率/>和计算分词“拘留”出现在“被告因何事被拘留”词序列中“被”之后的概率/>通过公式/>可获取词序列数据为“被告”、“因”、“何事”、“被”和“拘留”对应的出现概率，计算出词序列数据1和词序列数据2对应的发生概率。通过计算出每一词序列数据的发生概率，以便后续根据发生概率获取到目标词序列。

(3)从至少一个词序列数据的发生概率中，选取最大发生概率对应的词序列数据，作为目标词序列。

具体地，针对至少一个词序列数据，通过步骤(2)的计算词序列数据的发生概率，获取每个词序列数据的发生概率，选取最大的发生概率对应的作为有效发生概率，进而找到有效发生概率对应的词序列数据，将该词序列数据作为目标词序列。例如，步骤(2)中，计算出词序列数据1对应的发生概率为90％，词序列数据2对应的发生概率为20％，将词序列数据1和词序列数据2中最大发生概率对应的词序列数据作为目标词序列，即将词序列数据1作为目标词序列。通过将最大发生概率对应的词序列数据作为目标词序列，从而使得选取的目标词序列更为接近当事人表达的含义，提高了转换文字的准确率。

(4)从语言模型中获取与目标词序列对应的文字，作为目标字对应的目标文字数据。

具体地，获取目标词序列，将目标词序列组成文字数据，并将文字数据作为目标字对应的目标文字数据。通过将目标词序列的文字数据作为目标字对应的目标文字数据，以获取到的目标文字数据更加准确。

步骤S61-S63中，采用声学模型对目标声纹特征进行转换，获取音素数据，通过将最匹配路径对应的音素作为目标音素，以便获取到的音素数据更加准确。根据音素字典中音素与字的映射关系，将音素数据转换为目标字，实现音素与字之间的转换。采用语言模型将目标字转换为目标文字数据，使得获取到的的目标文字数据更加接近用户端表达的含义。

在一实施例中，如图7所示，在步骤S60之前，即在采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据的步骤之前，庭审语音实时转写方法还具体包括如下步骤：

S601：根据法律语言生成训练语料库，训练语料库包括训练文字数据。

具体地，训练语料库是对语言模型进行训练的语料库。其中，语料库(Corpus)是指经科学取样和加工的大规模电子文本库。本实施例中，训练语料库中的训练文字数据包含但不限于法律语料和通用语料等，其中，法律语料是进行法庭庭审时，所用到的相关法律条例和法庭庭审常用句子等。通用语料中包含是语言学研究的基础资源，也是经验主义语言研究方法的主要资源，应用于词典编纂、语言教学和传统语言研究，自然语言处理中基于统计或实例的研究等方面。

S602：将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型。

其中，N-gram模型是一种基于统计语言模型的算法，它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成长度是n的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。可以理解地，N-gram模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的目标字转换成词序列数据(即句子)时，可以计算出具有最大概率的句子，从而实现目标字与词序列数据间的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音的重码问题。

具体地，将训练语料库中的训练文字数据输入到N-gram模型进行模型训练，通过N-gram模型对训练语料库中训练文字数据进行统计分析，获取训练文字数据中词序列占整个训练语料库中分词出现次数的词序列频度，其中，分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如，某个词序列“案发当日你在哪里”在整个语料库中出现的次数为100次，整个语料库所有分词出现的次数之和为100000次，则词序列“案发当日你在哪里”的词序列频度为0.0001，通过词序列频度即可获取该词序列的概率。再通过N-gram模型对训练文字数据进行训练，以获取语言模型，以便后续将目标字转换成词序列数据，再获取词序列数据对应的概率，将最大概率的词序列数据作为目标字对应的文字数据，从而实现文字的转换。

S603：基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型。

具体地，声学模型包括状态模型和音素模型，预先将训练语音数据进行声学特征提取，提取的特征包括但不限于梅尔频率倒谱系数，其中，梅尔频率倒谱系数可采用多维特征向量(m维n列)的方式表达，m维1列向量为一帧波形，若干帧波形对应一个状态，每三个状态组合成一个音素。针对每一状态，使用属于该状态的声学特征中的状态特征对初始隐马尔可夫模型进行训练，获得状态模型；针对每一音素，使用属于该音素的声学特征中的音素特征对初始隐马尔可夫模型进行训练，获得音素模型。通过状态模型计算声学特征每一帧波形属于某一状态的概率，通过将最大概率作为目标状态，通过音素模型计算声学特征中每一状态属于某一音素的概率，将最大概率对应的音素作为目标音素。

其中，隐马尔可夫模型是一种统计分析模型，用来描述一个含有隐含未知参数的马尔可夫过程，即从可观察的参数中确定该过程的隐含参数。根据其HMM采用全连接结构或left-right结构，通过训练HMM模型参数λ＝(A，B，π)，找到λ的局部最优解，其中，A，B，π分别为HMM模型中的训练参数，A为与状态转移概率矩阵，B为预设的给定状态下观测向量的概率矩阵，π为初始状态概率矩阵。对HMM模型进行训练的具体步骤如下：

(1)对初始隐马尔可夫模型进行初始化，提取初始状态下的状态转移概率矩阵A(0)和观测向量概率矩阵B(0)，以及初始概率分布π(0)，即λ(0)＝(A(0)，B(0)，π(0))。

(2)将声学特征中音素特征向量或者状态特征向量作为观测向量，使用Baum-Welch算法对初始化后的初始隐马尔可夫模型进行k次递推迭代，其中，k为正整数。其中，Baum-Welch算法是为了解决HMM的参数估计问题而提出的，通过观测向量估计模型参数λ＝(A，B，π)，使得在该模型下观测向量概率P(O|λ)最大，O为观测向量，λ为估计模型参数。

(3)将第k次递推迭代得到的模型参数λ(k+1)＝(A(k+1)，B(k+1)，π(k+1))作为最终模型参数，即为λ的局部最优解。

例如，当k＝10时，λ的局部最优解为λ(10)＝(A(10)，B(10)，π(10))。

S604：基于音素字典、语言模型和声学模型，获取语音识别模型。

具体地，将预先训练好的语言模型、声学模型和音素字典组合成语音识别模型，声学模型是将获取到目标声纹特征进行转换，获取音素数据；音素字典是将音素数据进行转换，获取目标字；语言模型是将目标字转换成词序列数据，将最大发生概率的对应的词序列数据作为目标文字数据，以实现通过语音识别模型将目标声纹特征转换为目标文字数据。

步骤S601-S604，根据法律语言生成训练语料库，训练语料库包括训练文字数据，为后续通过训练文字数据进行训练，以获取语言模型提供技术支持。将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型，以实现语言模型的训练，通过语言模型查找到与目标字对应的最大发生概率的词序列，将最大发生概率的词序列作为目标文字数据，使得获取到的目标文字数据更加精准。基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型，以实现生声学模型的训练，为后续通过声学模型将声纹特征转换为音素提供技术支持。基于音素字典、语言模型和声学模型，以获取语音识别模型，为后续通过语音识别模型对声纹特征进行语音识别，并获取到对应的目标文字数据提供技术支持，通过语音识别模型进行语音识别，提高法庭庭审语音实时转换的效率，解决人工实时转写，导致转写效率低下的问题。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种庭审语音实时转写装置，该庭审语音实时转写装置与上述实施例中庭审语音实时转写方法一一对应。如图8所示，该庭审语音实时转写装置包括采集模块10、预处理模块20、声纹特征提取模块30、数据查找模块40、身份数据获取模块50、文字数据获取模块60和显示模块70。各功能模块详细说明如下：

采集模块10，用于通过麦克风阵列采集原始语音数据，每一原始语音数据对应一麦克风阵列标识。

预处理模块20，用于对原始语音数据进行数据预处理，获取目标语音数据。

声纹特征提取模块30，用于采用MFCC算法对目标语音数据进行声纹特征提取，获取目标声纹特征。

数据查找模块40，用于基于麦克风阵列标识查询数据库，获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征。

身份数据获取模块50，用于基于目标声纹特征与每一标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据。

文字数据获取模块60，用于采用预先训练的语音识别模型对目标声纹特征进行识别，获取与目标声纹特征对应的目标文字数据。

显示模块70，用于在显示设备上实时显示目标文字数据和对应的目标身份数据。

在一实施例中，麦克风阵列包括至少三个麦克风。预处理模块20包括时延差估计单元21、空间坐标获取单元22、加权处理单元23和滤波单24元。

时延差估计单元21，用于采用GCC估计算法估算原始语音数据到达第一麦克风和第二麦克风的时延差。

空间坐标获取单元22，用于基于原始语音数据到达第一麦克风和第二麦克风的时延差，采用几何定位法获取原始语音数据的空间坐标。

加权处理单元23，用于基于原始语音数据的空间坐标，确定麦克风阵列中每一麦克风对应的权重，采用加权公式对原始语音数据进行加权处理，获取待滤波语音数据；其中，加权公式为y(t)为待滤波语音数据，n为麦克风数量，i为第i个麦克风的标识，w_i为第i个麦克风对应的权重，x_i(t)为第i个麦克风接收到的原始语音数据。

滤波单元24，用于采用维纳滤波算法对待滤波语音数据进行滤波处理，获取目标语音数据。

在一实施例中，时延差估计单元21包括原始互相关函数获取子单元211、互功率谱获取子单元212、目标互相关函数获取子单元213和时延差获取子单元214。

原始互相关函数获取子单元211，用于基于第一麦克风和第二麦克风，获取第一麦克风和第二麦克风的原始互相关函数。

互功率谱获取子单元212，用于对原始互相关函数做傅里叶变换，获取互功率谱。

目标互相关函数获取子单元213，用于对互功率谱进行加权处理，获取加权互功率谱，并对加权互功率谱做反傅里叶变换，获取目标互相关函数。

时延差获取子单元214，用于基于目标互相关函数，获取目标互相关函数的极大值，将极大值作为原始语音数据到达第一麦克风和第二麦克风的时延差。

在一实施例中，空间坐标获取单元22还用于基于原始语音数据到达第一麦克风和第二麦克风的时延差和每一麦克风的空间坐标，采用定位公式获取原始语音数据的空间坐标；其中，定位公式为||s-m_i||-||s-m_j||＝τ_ij*v i＝1,...,n(j＝1,...,n)，s为原始语音数据的空间坐标，i和j为麦克风标识，mi为第i个麦克风的空间坐标，mj为第j个麦克风的空间坐标，τ_ij为原始语音数据到达麦克风i和麦克风j的时延差，v为声速。

在一实施例中，身份数据获取模块50包括第一相似度获取单元51和目标身份数据获取单元52。

第一相似度获取单元51，用于将目标声纹特征与每一标准声纹特征进行相似度计算，获取与标准声纹特征相对应的第一相似度。

目标身份数据获取单元52，用于将第一相似度的最大值对应的标准声纹特征，作为匹配的标准声纹特征，并获取匹配的标准声纹特征对应的目标身份数据。

进一步地，显示模块70包括第一判断单元71和第二判断单元72。

第一判断单元71，用于当第一相似度的最大值大于预设阈值时，在显示设备上实时显示目标文字数据和对应的目标身份数据。

第二判断单元72，用于当第一相似度的最大值不大于预设阈值，在显示设备上对目标文字数据对应的目标身份数据进行异常提示；获取身份确认信息，基于身份确认信息对目标文字数据对应的目标身份数据进行修改或确认。

在一实施例中，语音识别模型包括声学模型、音素字典和语言模型。文字数据获取模块60包括音素数据获取单元61、目标字获取单元62和目标文字数据获取单元63。

音素数据获取单元61，用于采用声学模型对目标声纹特征进行转换，获取音素数据。

目标字获取单元62，用于根据音素字典中音素与字的映射关系，将音素数据转换为目标字。

目标文字数据获取单元63，用于采用语言模型将目标字转换为目标文字数据。

在一实施例中，在文字数据获取模块60之前，庭审语音实时转写装置还包括训练语料库获取单元601、语言模型获取单元602、声学模型获取单元603和语音识别模型获取单元604。

训练语料库获取单元601，用于根据法律语言生成训练语料库，训练语料库包括训练文字数据。

语言模型获取单元602，用于将训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型。

声学模型获取单元603，用于基于训练文字数据获取训练语音数据，将训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型。

语音识别模型获取单元604，用于基于音素字典、语言模型和声学模型，获取语音识别模型。

关于庭审语音实时转写装置的具体限定可以参见上文中对于庭审语音实时转写方法的限定，在此不再赘述。上述庭审语音实时转写装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储身份数据和标准声纹特征等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种庭审语音实时转写方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中庭审语音实时转写方法的步骤，例如，图2所示的步骤S10至步骤S70，或者，处理器执行计算机程序时实现上述实施例中庭审语音实时转写装置中的各模块/单元/子单元的功能，例如，图8所示模块10至模块70的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中庭审语音实时转写方法的步骤，例如，图2所示的步骤S10至步骤S70，或者，该计算机程序被处理器执行时实现上述庭审语音实时转写装置中的各模块/单元/子单元的功能，例如，图8所示模块10至模块70的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种庭审语音实时转写方法，其特征在于，包括：

对所述原始语音数据进行数据预处理，获取目标语音数据；

在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据；

所述麦克风阵列包括至少三个麦克风；

所述对所述原始语音数据进行数据预处理，获取目标语音数据，包括：

采用GCC估计算法估算所述原始语音数据到达第一麦克风和第二麦克风的时延差；

基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差，采用几何定位法获取所述原始语音数据的空间坐标；

基于所述原始语音数据的空间坐标，确定所述麦克风阵列中每一麦克风对应的权重，采用加权公式对所述原始语音数据进行加权处理，获取待滤波语音数据；其中，所述加权公式为，/>为待滤波语音数据，n为麦克风数量，i为第i个麦克风的标识，为第i个麦克风对应的权重，/>为第i个麦克风接收到的原始语音数据；

采用维纳滤波算法对所述待滤波语音数据进行滤波处理，获取目标语音数据；

采用GCC估计算法估算所述原始语音数据到达第一麦克风和第二麦克风的时延差，包括：

基于所述第一麦克风和所述第二麦克风，获取所述第一麦克风和所述第二麦克风的原始互相关函数；

对所述原始互相关函数做傅里叶变换，获取互功率谱；

对所述互功率谱进行加权处理，获取加权互功率谱，并对所述加权互功率谱做反傅里叶变换，获取目标互相关函数；

基于所述目标互相关函数，获取所述目标互相关函数的极大值，将所述极大值作为所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差；

所述基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差，采用几何定位法获取所述原始语音数据的空间坐标，包括：

基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差和每一所述麦克风的空间坐标，采用定位公式获取所述原始语音数据的空间坐标；其中，所述定位公式为，s为原始语音数据的空间坐标，i和j为麦克风标识，/>为第i个麦克风的空间坐标，/>为第j个麦克风的空间坐标，/>为原始语音数据到达麦克风i和麦克风j的时延差，v为声速。

2.如权利要求1所述的庭审语音实时转写方法，其特征在于，所述基于所述目标声纹特征与所述标准声纹特征进行匹配处理，获取匹配的标准声纹特征对应的目标身份数据，包括：

将所述目标声纹特征与每一所述标准声纹特征进行相似度计算，获取与所述标准声纹特征相对应的第一相似度；

将所述第一相似度的最大值对应的所述标准声纹特征，作为匹配的标准声纹特征，并获取匹配的标准声纹特征对应的目标身份数据；

所述在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据，包括：

当所述第一相似度的最大值大于预设阈值时，在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据；

当所述第一相似度的最大值不大于预设阈值，在显示设备上对所述目标文字数据对应的所述目标身份数据进行异常提示；获取身份确认信息，基于所述身份确认信息对所述目标文字数据对应的所述目标身份数据进行修改或确认。

3.如权利要求1所述的庭审语音实时转写方法，其特征在于，所述语音识别模型包括声学模型、音素字典和语言模型；

所述采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应的目标文字数据，包括：

采用所述声学模型对所述目标声纹特征进行转换，获取音素数据；

根据所述音素字典中音素与字的映射关系，将所述音素数据转换为目标字；

采用所述语言模型将所述目标字转换为目标文字数据。

4.如权利要求1所述的庭审语音实时转写方法，其特征在于，在所述采用预先训练的语音识别模型对所述目标声纹特征进行识别，获取与所述目标声纹特征对应的目标文字数据的步骤之前，所述庭审语音实时转写方法包括：

根据法律语言生成训练语料库，所述训练语料库包括训练文字数据；

将所述训练语料库中的训练文字数据输入至N-gram模型进行模型训练，获取语言模型；

基于所述训练文字数据获取训练语音数据，将所述训练语音数据输入到隐马尔可夫模型进行模型训练，获取声学模型；

基于音素字典、所述语言模型和所述声学模型，获取语音识别模型。

5.一种庭审语音实时转写装置，其特征在于，用于权利要求1至4任一项所述的庭审语音实时转写方法，所述庭审语音实时转写装置包括：

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述庭审语音实时转写方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述庭审语音实时转写方法的步骤。