CN110049270B

CN110049270B - 多人会议语音转写方法、装置、系统、设备及存储介质

Info

Publication number: CN110049270B
Application number: CN201910182528.8A
Authority: CN
Inventors: 岳鹏昱
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2023-05-30
Anticipated expiration: 2039-03-12
Also published as: CN110049270A

Abstract

本发明涉及人工智能技术领域，公开了一种多人会议语音转写方法，包括以下步骤：在进行会议时，接收麦克风设备上传的参会人员的发言语音；将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本。本发明还公开了一种多人会议语音转写装置、系统、设备及计算机可读存储介质。本发明避免了人工整理会议语音的繁琐与耗时，提升了会议纪要的整理效率，节省了人力，提升了用户使用体验。

Description

多人会议语音转写方法、装置、系统、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多人会议语音转写方法、装置、系统、设备及存储介质。

背景技术

通常会议都会讨论比较重要的话题或者内容，因而需要进行记录。现有会议记录方式通常采用的是视频录像、录音笔录音或者手动记录等方式，因而一般需要人工进行二次整理，比如说提取视频或录音中各参会人员的讲话内容，或者将手动记录的内容整理成电子版会议纪要，整理过程不仅费时耗力，而且容易出错。

发明内容

本发明的主要目的在于提供一种多人会议语音转写方法、装置、系统、设备及存储介质，旨在解决现有现有技术中人工整理会议记录费时耗力且容易出错的技术问题。

为实现上述目的，本发明提供一种多人会议语音转写方法，所述多人会议语音转写方法包括以下步骤：

在进行会议时，接收麦克风设备上传的参会人员的发言语音；

将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本。

可选地，在所述在进行会议时，接收麦克风设备上传的参会人员的发言语音的步骤之前，还包括：

创建会议并配置所述会议的相关信息；

其中，所述相关信息包括：会议主题、会议时间、会议地点、参会人员、麦克风设备、麦克风设备与参会人员的绑定关系。

可选地，所述多人会议语音转写方法还包括：

在进行会议时，接收麦克风设备上传的所述麦克风设备的MAC地址；

根据所述MAC地址，查询麦克风设备与参会人员的绑定关系，以确定所述发言语音对应的参会人员。

录制参会人员的语音数据；

将所述语音数据传输至所述语音识别系统，以供所述语音识别系统提取所述语音数据的声纹特征，并将参会人员的声纹特征加入声纹特征库；

所述多人会议语音转写方法还包括：

接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员。

可选地，所述将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本包括：

计算所述发言语音的能熵比；

基于所述能熵比，对所述发言语音进行静音段与非静音段划分；

当所述发言语音处于静音段时，将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本。

进一步地，为实现上述目的，本发明还提供一种多人会议语音转写装置，所述多人会议语音转写装置包括：

语音接收模块，用于在进行会议时，接收麦克风设备上传的参会人员的发言语音；

语音转写模块，用于将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

纪要生成模块，用于在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本。

可选地，所述多人会议语音转写装置还包括：

创建模块，用于创建会议并配置所述会议的相关信息；

可选地，语音接收模块还用于：在进行会议时，接收麦克风设备上传的所述麦克风设备的MAC地址；

所述多人会议语音转写装置还包括：

查询模块，用于根据所述MAC地址，查询麦克风设备与参会人员的绑定关系，以确定所述发言语音对应的参会人员。

可选地，所述多人会议语音转写装置还包括：

语音录制模块，用于录制参会人员的语音数据；

语音传输模块，用于将所述语音数据传输至所述语音识别系统，以供所述语音识别系统提取所述语音数据的声纹特征，并将参会人员的声纹特征加入声纹特征库；

人员信息接收模块，用于接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员。

可选地，所述语音转写模块包括：

计算单元，用于计算所述发言语音的能熵比；

分段单元，用于基于所述能熵比，对所述发言语音进行静音段与非静音段划分；

语音转写单元，用于当所述发言语音处于静音段时，将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本。

进一步地，为实现上述目的，本发明还提供一种多人会议语音转写系统，所述多人会议语音转写系统包括如上所述的多人会议语音转写装置；

所述多人会议语音转写系统还包括：

麦克风设备，用于采集参会人员的发言语音并上传所述多人会议语音转写装置；

语音识别系统，用于对所述多人会议语音转写装置发送的发言语音进行语音识别并返回对应的翻译文本。

可选地，所述语音识别系统包括：

接收模块，用于接收所述多人会议语音转写装置发送的发言语音；

识别模块，用于将所述发言语音识别为对应的翻译文本；

输出模块，用于输出所述翻译文本；

其中，所述识别模块包括：

分帧单元，用于对所述发言语音进行分帧，得到多个带时序的语音帧；

特征提取单元，用于按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

特征识别单元，用于将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；

音素识别单元，用于基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；

字词识别单元，用于按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；

文本拼接单元，用于将输出的最大概率的字或词拼接为翻译文本。

进一步地，为实现上述目的，本发明还提供一种多人会议语音转写设备，所述多人会议语音转写设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的多人会议语音转写程序，所述多人会议语音转写程序被所述处理器执行时实现如上述任一项多人会议语音转写方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多人会议语音转写程序，所述多人会议语音转写程序被处理器执行时实现如上述任一项多人会议语音转写方法的步骤。

本发明能够自动采集参会人员语音并进行语音识别，进而将发言语音自动转换为对应的文字，实现了从语音到文本的自动翻译，由于会议纪要中的翻译文本采用自动生成方式，因此避免了人工整理的繁琐与耗时，提升了会议纪要整理效率，节省了人力，提升了用户使用体验。

附图说明

图1为本发明实施例方案涉及的多人会议语音转写设备运行环境的结构示意图；

图2为本发明多人会议语音转写方法第一实施例的流程示意图；

图3为本发明多人会议语音转写方法第二实施例的流程示意图；

图4为本发明多人会议语音转写方法第三实施例的流程示意图；

图5为本发明多人会议语音转写方法第四实施例的流程示意图；

图6为图2中步骤S20的细化流程示意图；

图7为本发明多人会议语音转写装置一实施例的功能模块示意图；

图8为本发明多人会议语音转写系统一实施例的功能模块示意图；

图9为本发明多人会议语音转写系统一实施例的场景示意图；

图10为图8中语音识别系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种多人会议语音转写设备。

参照图1，图1为本发明实施例方案涉及的多人会议语音转写设备运行环境的结构示意图。

如图1所示，该多人会议语音转写设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM 存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的多人会议语音转写设备的硬件结构并不构成对多人会议语音转写设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多人会议语音转写程序。其中，操作系统是管理和控制多人会议语音转写设备和软件资源的程序，支持多人会议语音转写程序以及其它软件和/或程序的运行。

在图1所示的多人会议语音转写设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的多人会议语音转写程序，并执行以下法律文书数据处理方法的各实施例的操作。

基于上述多人会议语音转写设备硬件结构，提出本发明多人会议语音转写方法的以下各个实施例。

参照图2，图2为本发明多人会议语音转写方法第一实施例的流程示意图。本实施例中，所述多人会议语音转写方法包括：

步骤S10，在进行会议时，接收麦克风设备上传的参会人员的发言语音；

本实施例中，在进行会议时，参会人员可以通过麦克风设备上的开关按钮开启或关闭麦克风，当麦克风开启时自动采集参会人员的发言语音，并通过树莓派将发言语音上传给多人会议语音转写设备进行处理。

步骤S20，将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

本实施例中，多人会议语音转写设备接收到麦克风设备上传的参会人员的发言语音后，将发言语音传输至后端的语音识别系统进行语音识别，并且接收语音识别系统返回的翻译文本(也即将语音转写为文本)。

本实施例中，语音识别系统具备语音识别功能，能够识别传入的发言语音并转换为文本格式输出。本实施例中，多人会议语音转写设备与语音识别系统采用前后端设置的形式，不仅可以降低多人会议语音转写设备的性能压力，提升数据处理速度，同时还便于后续维护。

可选的，多人会议语音转写设备还提供一发言界面，用于在接收到语音识别系统返回的翻译文本时，按照各参会人员的发言顺序，在该界面上实时动态显示各参会人员的发言所对应的翻译文本。

步骤S30，在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本。

本实施例中，对于会议纪要的格式不限。比如包含有会议基本信息、会议发言内容等。在会议结束时，多人会议语音转写设备将按照预先设定的会议纪要格式生成本次会议的会议纪要。其中，会议纪要中既包含有所有参会人员的发言语音，同时还包含有各发言语音对应的翻译文本。

进一步可选的，多人会议语音转写设备根据预先设定的会议纪要发送方式，将会议纪要自动分发给各相关人员，从而避免人工发送的繁琐，提升了本多人会议语音转写设备的便利性。比如通过微信、邮箱等方式分发。

本实施例中，整个语音多人会议语音转写设备能够自动采集参会人员语音并进行语音识别，进而实现了从语音到文本的自动翻译，由于会议纪要中的翻译文本采用自动生成方式，因此避免了人工整理的繁琐与耗时，提升了会议纪要整理效率，节省了人力，提升了用户使用体验。

参照图3，图3为本发明多人会议语音转写方法第二实施例的流程示意图。基于上述方法第一实施例，本实施例中，在上述步骤S10之前，还包括：

步骤S01，创建会议并配置所述会议的相关信息；

本实施例中，为便于将参会角色与麦克风设备关联，需要预先配置各麦克风设备对应的用户，比如用户A使用麦克风1，用户B使用麦克风2，用户 C使用麦克风3，其中，参会角色由会议记录员手动输入，将输入的参会角色 (如参会人名称)与麦克风设备的MAC地址绑定，从而实现参会角色与麦克风设备的关联关系。

此外，为便于生成会议纪要，还需进一步配置会议纪要的相关参数信息，比如新建一个会议，并配置会议主题、会议时间、参会人员等参数信息。

进一步地，参照图4，图4为本发明多人会议语音转写方法第三实施例的流程示意图。基于上述方法第一实施例，本实施例中，所述多人会议语音转写方法还包括：

步骤S10，在进行会议时，接收麦克风设备上传的参会人员的发言语音以及所述麦克风设备的MAC地址；

步骤S40，根据所述MAC地址，查询麦克风设备与参会人员的绑定关系，以确定所述发言语音对应的参会人员。

由于参会人员较多，且各参会人员的发言顺序通常都是随机的，因此，需要确定发言语音与参会人员的对应关系。本实施例中具体基于麦克风设备的MAC地址进行确定。

本实施例中，基于麦克风设备的MAC地址确定发言语音与参会人员的对应关系。在创建新的会议时，预先将参会角色(如参会人名称)与麦克风设备的MAC地址绑定，从而实现参会角色与麦克风设备的关联关系。在麦克风设备上传发言语音的同时，还上传该麦克风设备的MAC地址。多人会议语音转写设备则根据当前接收到的MAC地址，即可确定当前接收到的发言语音所对应的参会人员。

进一步地，参照图5，图5为本发明多人会议语音转写方法第四实施例的流程示意图。基于上述方法第一实施例，本实施例中，在上述步骤S10之前，还包括：

步骤S02，录制参会人员的语音数据；

步骤S03，将所述语音数据传输至所述语音识别系统，以供所述语音识别系统提取所述语音数据的声纹特征，并将参会人员的声纹特征加入声纹特征库；

本实施例中，步骤S20还包括：

将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本以及所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员。

本实施例中，基于声纹特征确定发言语音与参会人员的对应关系。在会议开始前，由多人会议语音转写设备预先录制所有参会人员的语音数据，然后将带有声纹特征的语音数据发送给语音识别系统进行声纹特征提取，并将提取到的声纹特征加入声纹特征库。当语音识别系统接收到多人会议语音转写设备传输的参会人员的发言语音时，不仅进行语音识别，获得翻译文本，同时还进行声纹识别，确定发言语音对应的参会人员，最后再将翻译文本和确定的参会人员信息回传给多人会议语音转写设备。

参照图6，图6为图2中步骤S20的细化流程示意图。基于上述方法第一实施例，本实施例中，上述步骤S20进一步包括：

步骤S201，计算所述发言语音的能熵比；

步骤S202，基于所述能熵比，对所述发言语音进行静音段与非静音段划分；

步骤S203，当所述发言语音处于静音段时，将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本。

本实施例中，为提升语音识别效率，在进行语音识别之前，先将发言语音进行语音端点检测，以将发言语音划分为静音段(无效语音，比如发言停顿时录入的噪音)和非静音段(有效语音，也即发言内容)，从而剔除发言语音中的无效语音。

通常用户说话语音部分声波的振幅很大，而非用户语音(比如噪声)部分声波的振幅则相对较小，因此，为提升语音端点检测效果，优选采用基于能熵比法对发言语音进行语音端点检测。其中，能熵比是指每一语音帧的对数能量与短时谱熵的比值，通过该比值可有效区分语音端点。

本实施例中，为提升语音识别处理速度，当发言语音处于静音段时，将发言语音中的非静音段语音传输至语音识别系统进行语音识别。

可选的，在进行静音段与非静音段划分时，将非静音段语音保存至队列中；当发言语音处于静音段时，从队列中取出队首的非静音段语音并传输至语音识别系统进行语音识别，进而提升语音识别处理速度与效率。

本实施例中，为提升语音识别效率，在进行语音识别之前，先将发言语音进行语音端点检测，以将发言语音划分为静音段(无效语音，比如发言停顿时录入的噪音)和非静音段(有效语音，也即发言内容)，从而剔除发言语音中的无效语音。当发言语音处于静音段时，将发言语音中的非静音段语音传输至后端进行语音识别，从而提升语音识别处理速度。

进一步可选的，在本发明多人会议语音转写方法一实施例中，语音识别系统具体通过以下方式进行语音识别，具体包括：

1、对发言语音进行分帧处理，得到多个带时序的语音帧；

为了更有效地提取声音特征，因此还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理，进而将需要分析的音频信号从原始信号中提取出来。本实施例的分帧处理就是把声音划分成一小段一小段，每小段称为一帧语音帧，使用移动窗函数来实现分帧处理，得到多个带时序的语音帧。

2、按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

特征提取是将声音信号从时域转换到频域，从而为声学模型提供合适的输入特征向量。本实施例主要采用线性预测倒谱系数(LPCC)和梅尔倒谱系数(MFCC)算法提取声音特征，进而将每一波形语音帧转变成一个包含声音信息的多维向量。

3、将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；

声学模型是对声学、语音学、环境变量、说话人性别、口音等差异的知识表示。声学模型通过对语音数据进行训练而得到，声学模型能够根据声学特性计算每一个特征向量在声学特征上的概率得分，也即建立语音的声音特征到音素之间的映射关系。

4、基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；

字典是字词对应的音素索引集合，是字词和音素之间的映射，通过查找字典，从而确定各音素信息对应的字或词。

5、按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；

语言模型表示某一字序列发生的概率，可通过对文本语言数据进行训练得到，语言模型能够根据语言学特性计算声音信号对应词组序列的概率，也即建立文字对应的音素到文字组成的词组序列的映射关系。

6、将输出的最大概率的字或词拼接为翻译文本。

在得到发言语音可能对应的每一个字或词组发生的概率后，将最大概率的字或词拼接为翻译文本并作为语音识别的结果。

例如，假设有文字内容为“我是机器人”的语音信号，通过特征提取，得到以下特征向量[1 2 3 4 5 6....10]；将该特征向量输入声学模型进行处理，得到对应的音素，也即[1 2 3 4 5 6....10]—>wosijiqirn；然后再通过查找字典，得到个音素对应的字，窝：wo；我：wo；是：si；机： ji；器：qi；人：rn；级：ji；忍：rn；最后再将上述输出结果输入语言模型进行处理，得到对应的字或词组序列，如下所示：我：0.0786，是：0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；通过概率比较，确定每一个字或词组的最大概率：我是：0.0898，机器人：0.6785，拼接后的输出内容为“我是机器人”，完成语音信号的文字翻译。

本发明还提供一种多人会议语音转写装置。

参照图7，图7为本发明多人会议语音转写装置一实施例的功能模块示意图。本实施例中，所述多人会议语音转写装置包括：

语音接收模块10，用于在进行会议时，接收麦克风设备上传的参会人员的发言语音；

语音转写模块20，用于将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

纪要生成模块30，用于在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本。

实施例中，整个语音多人会议语音转写设备能够自动采集参会人员语音并进行语音识别，进而实现了从语音到文本的自动翻译，由于会议纪要中的翻译文本采用自动生成方式，因此避免了人工整理的繁琐与耗时，提升了会议纪要整理效率，节省了人力，提升了用户使用体验。

本发明还提供一种多人会议语音转写系统。

参照图8，图8为本发明多人会议语音转写系统一实施例的功能模块示意图。本实施例中，多人会议语音转写系统包括：麦克风设备100、多人会议语音转写装置200以及语音识别系统300。如图9所示的多人会议语音转写系统的场景示意图。

(1)麦克风设备

麦克风设备用于采集参会人员的发言语音并上传语音转写装置。麦克风设备主要应用于多人发言的会议场景，每一参会人员对应使用一个单独的麦克风进行发言，每一个座位都部署有一个麦克风。本实施例中，麦克风设备为接入有树莓派的麦克风，树莓派是一种微型电脑，可进行数据处理。在进行会议时，参会人员可以通过麦克风设备上的开关按钮开启或关闭麦克风，当麦克风开启时自动采集参会人员的发言语音，并通过树莓派将发言语音上传给后端进行处理。

(2)多人会议语音转写装置(简称语音转写装置)

语音转写装置与前端所有麦克风对应的树莓派建立连接，可以是有线连接，也可以是无线连接。麦克风采集参会人员的发言后进行模数转换形成发言语音流，然后由树莓派将语音流传送给语音转写装置进行处理，比如将语音流与对应参会人员进行关联、将语音流保存为语音文件、将语音流传送给语音识别系统进行语音识别。

(3)语音识别系统

本实施例中，语音识别系统用于对所述多人会议语音转写装置发送的发言语音进行语音识别并返回对应的翻译文本。语音转写装置还与后端语音识别系统建立连接，可以是有线连接，也可以是无线连接。

语音转写装置将树莓派传送的语音流转发给语音识别系统进行识别，然后语音识别系统将语音识别结果回传给语音转写装置，再由语音转写装置将语音识别结果(文本形式的发言内容)与参会人员进行关联。

进一步地，参照图10，图10为图8中语音识别系统一实施例的功能模块示意图。本实施例中，语音识别系统300包括：

接收模块301，用于接收所述多人会议语音转写装置发送的发言语音；

识别模块302，用于将所述发言语音识别为对应的翻译文本；

输出模块303，用于输出所述翻译文本；

其中，所述识别模块302包括：

分帧单元3021，用于对所述发言语音进行分帧，得到多个带时序的语音帧；

特征提取单元3022，用于按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

特征提取是将声音信号从时域转换到频域，从而为声学模型提供合适的输入特征向量。本实施例主要采用线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)算法提取声音特征，进而将每一波形语音帧转变成一个包含声音信息的多维向量。

特征识别单元3023，用于将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；

音素识别单元3024，用于基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；

字词识别单元3025，用于按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；

文本拼接单元3026，用于将输出的最大概率的字或词拼接为翻译文本。

例如，假设有语音信号文字内容为“我是机器人”的语音信号，通过特征提取，得到以下特征向量[1 2 3 4 5 6....10]；将该特征向量输入声学模型进行处理，得到对应的音素，也即[1 2 3 4 5 6....10]—>w o s i j i q i r n；然后再通过查找字典，得到个音素对应的字，窝：w o；我：w o；是： s i；机：j i；器：q i；人：r n；级：j i；忍：r n；最后再将上述输出结果输入语言模型进行处理，得到对应的字或词组序列，如下所示：我：0.0786，是： 0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；通过概率比较，确定每一个字或词组的最大概率：我是：0.0898，机器人：0.6785，拼接后的输出内容为“我是机器人”，完成语音信号的文字翻译。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有多人会议语音转写程序，所述多人会议语音转写程序被处理器执行时实现如上述任一项实施例中所述的多人会议语音转写方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等) 执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种多人会议语音转写方法，其特征在于，所述多人会议语音转写方法包括以下步骤：

在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本；

所述多人会议语音转写方法还包括：

在进行会议时，接收麦克风设备上传的麦克风设备的MAC地址；

根据所述MAC地址，查询麦克风设备与参会人员的绑定关系，以确定所述发言语音对应的参会人员；

在所述在进行会议时，接收麦克风设备上传的参会人员的发言语音的步骤之前，还包括：

录制参会人员的语音数据；

所述多人会议语音转写方法还包括：

接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员；

所述将所述发言语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本，包括：

计算所述发言语音的能熵比；

当所述发言语音处于静音段时，将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

其中，所述语音识别系统通过以下方式进行语音识别：对发言语音进行分帧处理，得到多个带时序的语音帧；按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特征向量；将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；将输出的最大概率的字或词拼接为翻译文本。

2.如权利要求1所述的多人会议语音转写方法，其特征在于，在所述在进行会议时，接收麦克风设备上传的参会人员的发言语音的步骤之前，还包括：

创建会议并配置所述会议的相关信息；

3.一种多人会议语音转写装置，其特征在于，所述多人会议语音转写装置包括：

纪要生成模块，用于在会议结束时，按照预置会议纪要格式，生成本次会议的会议纪要，其中，所述会议纪要包括参会人员的发言语音以及发言语音对应的翻译文本；

人员确定模块，用于在进行会议时，接收麦克风设备上传的麦克风设备的MAC地址；根据所述MAC地址，查询麦克风设备与参会人员的绑定关系，以确定所述发言语音对应的参会人员；

语音传输模块，用于录制参会人员的语音数据；将所述语音数据传输至所述语音识别系统，以供所述语音识别系统提取所述语音数据的声纹特征，并将参会人员的声纹特征加入声纹特征库；

人员接收模块，用于接收所述语音识别系统返回的所述语音识别系统基于声纹特征确定的所述发言语音对应的参会人员；

语音转写模块，还用于计算所述发言语音的能熵比；基于所述能熵比，对所述发言语音进行静音段与非静音段划分；当所述发言语音处于静音段时，将所述发言语音中的非静音段语音传输至语音识别系统进行语音识别，并接收所述语音识别系统返回的翻译文本；

4.一种多人会议语音转写系统，其特征在于，所述多人会议语音转写系统包括权利要求3所述的多人会议语音转写装置；

所述多人会议语音转写系统还包括：

麦克风设备，用于采集参会人员的发言语音并上传到所述多人会议语音转写装置；

5.如权利要求4所述的多人会议语音转写系统，其特征在于，所述语音识别系统包括：

识别模块，用于将所述发言语音识别为对应的翻译文本；

输出模块，用于输出所述翻译文本；

其中，所述识别模块包括：

特征提取单元，用于按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特征向量；

6.一种多人会议语音转写设备，其特征在于，所述多人会议语音转写设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的多人会议语音转写程序，所述多人会议语音转写程序被所述处理器执行时实现如权利要求1-2中任一项多人会议语音转写方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有多人会议语音转写程序，所述多人会议语音转写程序被处理器执行时实现如权利要求1-2中任一项多人会议语音转写方法的步骤。