CN108922538B

CN108922538B - 会议信息记录方法、装置、计算机设备及存储介质

Info

Publication number: CN108922538B
Application number: CN201810528516.1A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2023-04-07
Anticipated expiration: 2038-05-29
Also published as: CN108922538A; WO2019227579A1

Abstract

本发明公开了一种会议信息记录方法、装置、计算机设备及存储介质，所述方法包括：若检测到采集通道产生语音数据，则获取该语音数据和当前时间，并对提取该语音数据的声纹特征，同时通过获取预设的声纹识别模型，来对该声纹特征进行识别，从而确定该声纹特征对应的目标与会人员标识，从而快速准确地确认当前发言人的身份，提高了会议信息记录记录发言人的效率和准确率，同时，对语音数据进行实时识别，生成实时语音文本，将与会人员标识、当前时间和实时语音文本进行关联，得到与会人员标识对应的与会人员在本次会议的发言信息，避免手工记录导致的漏记错记，提高了会议信息记录的效率和准确率。

Description

会议信息记录方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种会议信息记录方法、装置、计算机设备及存储介质。

背景技术

随着科技的进步和计算机网络技术的飞速发展，对用于将各个计算机相互连接的网络计算技术的需求日益高涨。在网络连接环境下，可以顺利地进行计算机资源的共享和信息共享、流通、分发、交换等协同工作。

例如，通过网络来实现多人的协同工作的系统有远程会议系统。采用远程会议系统，在位于相互远离的地点的会议室之间传图像和声音，可以看到映在电视画面上的参加者的面孔来召开会议。实际上彼此位于远程地区的参加者可以如同在同一会议室开会那样讨论事宜。另外，由于各个参加者不需要移动，所以能够有效利用时间和削减差旅费等经费等。

远程会议给我们带来了很大的便利，但是，当远程会议的与会人员众多时，在进行会议信息记录的时候，往往由于与会人员的数量多而导致记错发言人，而且，在多次发言间隔时间短，或者发言时间较长时，容易漏记一些重要信息，这使得会议信息记录的效率低，且准确率不能达到要求。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高会议信息记录的效率和准确率的会议信息记录方法、装置、计算机设备及存储介质。

一种会议信息记录方法，包括：

若接收到采集通道的语音数据传输请求，则获取所述语音数据和当前时间；

对所述语音数据进行声纹特征提取，得到所述语音数据的目标声纹特征；

根据预设的声纹识别模型，对所述目标声纹特征进行声纹识别，确定所述目标声纹特征对应的目标与会人员标识，其中，所述声纹识别模型包括与会人员的基础声纹特征，与会人员标识，以及所述基础声纹特征和所述与会人员标识之间的对应关系；

对所述语音数据进行语音识别，生成实时语音文本；

将所述目标与会人员标识、所述当前时间和所述实时语音文本进行关联记录，得到所述目标与会人员标识对应的目标与会人员的发言信息。

一种会议信息记录装置，包括：

数据收集模块，用于若接收到采集通道的语音数据传输请求，则获取所述语音数据和当前时间；

特征提取模块，用于对所述语音数据进行声纹特征提取，得到所述语音数据的目标声纹特征；

人员确定模块，用于根据预设的声纹识别模型，对所述目标声纹特征进行声纹识别，确定所述目标声纹特征对应的目标与会人员标识，其中，所述声纹识别模型包括与会人员的基础声纹特征，与会人员标识，以及所述基础声纹特征和所述与会人员标识之间的对应关系；

语音识别模块，用于对所述语音数据进行语音识别，生成实时语音文本；

记录生成模块，用于将所述目标与会人员标识、所述当前时间和所述实时语音文本进行关联记录，得到所述目标与会人员标识对应的目标与会人员的发言信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述会议信息记录方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述会议信息记录方法的步骤。

上述会议信息记录方法、装置、计算机设备及存储介质，一方面，若检测到采集通道产生语音数据，则获取该语音数据和当前时间，并对语音数据进行声纹特征提取，得到该语音数据的目标声纹特征，同时通过获取预设的声纹识别模型，来对该目标声纹特征进行识别，从而确定该目标声纹特征对应的目标与会人员标识，使得在远程会议的与会人员较多时，通过声纹识别的方式来快速准确识别当前发言人的身份，提高了会议信息记录中确认并记录发言人的效率以及提升了会议信息记录的准确率；另一方面，对语音数据进行实时识别，生成实时语音文本，将与会人员标识、当前时间和实时语音文本进行关联，得到与会人员标识对应的与会人员在本次会议的发言信息，避免手工记录导致的漏记错记，进一步提高了会议信息记录的效率和准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的会议信息记录方法的应用环境示意图；

图2是本发明实施例提供的会议信息记录方法的实现流程图；

图3是本发明实施例提供的会议信息记录方法中步骤S2的实现流程图；

图4是本发明实施例提供的会议信息记录方法中步骤S4的实现流程图；

图5是本发明实施例提供的会议信息记录方法中构建预设的声纹识别模型的实现流程图；

图6是本发明实施例提供的会议信息记录方法中实时记录纠正的实现流程图；

图7是本发明实施例提供的会议信息记录装置的示意图；

图8是本发明实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示出本发明实施例提供的会议信息记录方法的应用环境。该会议信息记录方法应用在远程会议的会议信息记录场景中。该记录场景包括服务端、客户端和监控端，其中，服务端和客户端之间、服务端和监控端之间通过网络进行连接，与会人员通过客户端发送语音数据到服务端，服务端通过对语音数据进行分析，将语音数据转化为对应的会议记录信息，会议信息记录人员通过监控端监控并根据需要修改服务端的会议记录信息，客户端具体可以但不限于是各种话筒、麦克风、手机和带有录音功能的智能设备，服务端和监控端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。

请参阅图2，图2示出本发明实施例提供的一种会议信息记录方法，以该方法应用在图1中的服务器为例进行说明，详述如下：

S1：若接收到采集通道的语音数据传输请求，则获取该语音数据和当前时间。

具体地，当采集通道向服务端发送数据传输请求时，服务端接收该请求中的语音数据，并获取当前时间，其中，采集通道为本实施例的客户端。

其中，采集通道收集与会人员的会议发言信息，其具体可以是各种话筒、麦克风或其他带有语音传输功能的通讯设备等，此处不作具体限制。

值得说明的是，本发明实施例采用多个采集通道来收集语音数据，一般情况下，远程会议人数较多，4个以上的与会人员使用同一采集通道，会使得距离采集通道较远的与会人员的语音数据容易被识别成背景音，从而在语音信号优化的时候被过滤掉，使得语音识别的准确率变低，而本发明实施例中采用多通道，避免了因为使用同一采集通道的与会人员过多而导致的语音混杂识别率降低的问题，采集通道可以设置每个与会人员一个独立的采集通道，或者是邻近的2至4个人使用同一个采集通道，具体可以根据实际情况来设置，此处不作限制。

S2：对语音数据进行声纹特征提取，得到该语音数据的目标声纹特征。

具体地，对语音数据进行声纹特征提取，具体过程为：通过对语音数据进行语音编码和语音信号的预处理，将语音数据从模拟信号转化成数字信号，进而从该数字信号中进行声纹特征的提取，进而得到语音数据的目标声纹特征。

其中，声纹特征包括但不限于：声学特征、词法特征、韵律特征、语种方言口音信息和通道信息等。

优选地，本发明采用的声纹特征为声学特征。

S3：根据预设的声纹识别模型，对目标声纹特征进行声纹识别，确定该目标声纹特征对应的目标与会人员标识，其中，声纹识别模型包括与会人员的基础声纹特征，与会人员标识，以及基础声纹特征和与会人员标识之间的对应关系。

具体地，预设的声纹识别模型包括：与会人员的基础声纹特征，与会人员标识，以及基础声纹特征和与会人员标识之间的对应关系。在获取到目标声纹特征之后，通过预设的声纹识别模型，对该目标声纹特征进行声纹识别，从而获取到该目标声纹特征对应的目标与会人员标识，进而确定当前进行发言的会与人员。

其中，声纹识别，生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。

容易理解地，本发明实施例采用声纹识别是为了辨认当前发言的与会人员身份，即说话人辨认。

S4：对语音数据进行语音识别，生成实时语音文本。

具体地，通过对语音数据进行语音识别，生成与会人员发言信息的实时语音文本，从而实现了自动记录发言信息，提高了会议记录的效率。

其中，实时语音文本是指根据每次会议发言过程中的停顿静音，对会议发言的语音数据进行切分，得到的一段段切分语音数据，对每段切分语音数据经过语音识别，从而得到对应的识别文本，即为语音识别文本。

例如，在一具体实施方式中，第0秒至第1.8秒获取到一段语音数据，记为语音数据E，第1.8秒到第3秒获取到的语音数据为空，第3秒至第8秒获取到另一端语音数据，记为语音数据F，对语音数据E进行语音识别，得到一个实时语音文本为：“在本季度”，对语音数据F进行语音识别，得到一个实时语音文本为：“我们的业务目标超额完成”。

其中，对语音数据进行语音识别，可采用语音识别算法，也可以使用具有语音识别功能的第三方工具，具体不作限制。语音识别算法包括但不限于：基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。

优选地，本发明实施例采用的语音识别算法为基于声道模型的语音识别算法。

S5：将目标与会人员标识、当前时间和实时语音文本进行关联记录，得到目标与会人员标识对应的目标与会人员的发言信息。

具体地，针对每个实时语音文本，将该实时语音文本和该实时语音文本对应的当前时间，对应的目标与会人员标识进行关联记录，从而得到该目标与会人员标识对应的目标与会人员的发言信息。

例如，在一具体实施方式中，获取到的实时语音文本为“现在我宣布会议正式开始”，对应的当前时间为“2018年4月18日13:52:00”，对应的与会人员标识为“工号003”，将实时语音文本及其对应的当前时间和与会人员标识进行关联记录，得到一条会议信息记录为：“2018年4月18日13:52:00，工号003，现在我宣布会议正式开始”。

优选地，在会议结束后，可以按照时间的先后顺序，对所有会议信息记录进行排序。

在本实施例中，一方面，若检测到采集通道产生语音数据，则获取该语音数据和当前时间，并对语音数据进行声纹特征提取，得到该语音数据的目标声纹特征，同时通过获取预设的声纹识别模型，来对该目标声纹特征进行识别，从而确定该目标声纹特征对应的目标与会人员标识，使得在远程会议的与会人员较多时，通过声纹识别的方式来快速准确识别当前发言人的身份，提高了会议信息记录中确认并记录发言人的效率以及提升了会议信息记录的准确率，另一方面，对语音数据进行实时识别，生成实时语音文本，将与会人员标识、当前时间和实时语音文本进行关联，得到与会人员标识对应的与会人员在本次会议的发言信息，避免手工记录导致的漏记错记，提高了会议信息记录的效率和准确率。

在一实施例中，如图3所示，步骤S2中，即对语音数据进行声纹特征提取，得到该语音数据的目标声纹特征，具体包括如下步骤：

S21：对语音数据进行声纹解析，得到初始声纹。

具体地，利用设备获取的语音数据都是模拟信号，对语音数据进行声纹解析，就是在获取到语音数据后，对语音数据采用脉冲编码调制技术(Pulse Code Modulation，PCM)进行编码，使这些模拟信号转化为数字信号，并将语音数据中的模拟信号每隔预设的时间对一个采样点进行采样，使其离散化，进而对采样信号量化，以二进制码组的方式输出量化后的数字信号，根据语音的频谱范围200-3400Hz，采样率可设置为8KHz，量化精度为16bit。

应理解，此处采样率和量化精度的数值范围，为本发明优选范围，但可以根据实际应用的需要进行设置，此处不做限制。

S22：对初始声纹进行预加重处理，生成具有平坦频谱的加重处理声纹。

具体地，由于声门激励和口鼻辐射会对语音信号的平均功率谱产生影响，导致高频在超过800Hz时会按6dB/倍频跌落，所以在计算语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重(Pre-emphasis)处理，预加重的目的是提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。预加重可使用一阶的数字滤波器来实现，例如：有限脉冲响应(Finite Impulse Response，FIR)滤波器。

值得说明的是，利用设备获取的语音信号都是模拟信号，在对这些模拟信号进行预加重处理之前，需要经过采样和量化将模拟信息转化为数字信号，根据语音的频谱范围200-3400Hz，采样率可设置为8KHz，量化精度为16bit。

语音信号在经过预加重后，频谱的高频部分得到提升，信号也变得平坦，生成具有平坦频谱的加重处理声纹，有利于后续的声纹特征提取。

S23：采用分帧和加窗的方式，对加重处理声纹进行分帧和加窗处理，得到第一基础语音帧。

具体地，声纹信号具有短时平稳的性质，声纹信号在经过预加重处理后，需要对其进行分帧和加窗处理，来保持信号的短时平稳性，通常情况下，每秒钟包含的帧数在33～100帧之间。为了保持帧与帧之间的连续性，使得相邻两帧都能平滑过渡，采用交叠分帧的方式，即在相邻两帧之间保持一个交叉重叠的部分，该部分即为帧移。

优选地，帧移与帧长的比值的取值范围为(0，0.5)。

例如，在一具体实施方式中，预加重后的声纹信号为s'(n)，帧长为N个采样点，帧移为M个采样点。当第l帧对应的采样点为第n个时，原始语音信号x_l(n)与各参数之间的对应关系为：

x_l(n)＝x[(l-1)M+n]

其中，n＝0,1,...,N-1,N＝256。

声纹经过分帧之后，使用相应的窗函数w(n)与预加重后的声纹信号s'(n)相乘，即得到加窗后的语音信号S_w，将该声纹信号作为第一基础语音帧。

其中，窗函数包括但不限于：矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

矩形窗表达式为：

其中，w(n)为窗函数，N为采样点的个数，n为第n个采样点。

汉明窗表达式为：

其中，pi为圆周率，优选地，本发明实施例中pi的取值为3.1416。

汉宁窗表达式为：

对经过预加重处理的声纹进行分帧和加窗处理，使得声纹保持帧与帧之间的连续性，并剔除掉一些异常的信号点，提高了声纹的鲁棒性。

S24：对第一基础语音帧进行静默音分离，得到第一目标语音帧。

具体地，对第一基础语音帧进行静默音分离，得到第一目标语音帧的具体实现过程可参考步骤S42和步骤S43的描述，为避免重复，此处不再赘述。

S25：对每个第一目标语音帧进行声纹特征提取，得到目标声纹特征。

具体地，在经过预加重处理、分帧和加窗和静默音分离之后，获取了稳定性强的声纹，使用该声纹进行声纹特征的提取。

其中，声纹特征提取是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。

优选地，本发明选择提取的声纹特征为声学特征中的线性倒谱特征。

在本实施例中，通过对与会人员发言中的语音数据进行声纹解析，得到初始声纹，并对初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹，采用分帧和加窗的方式，对加重处理声纹进行分帧处理，得到具有鲁棒性的第一基础语音帧，然后对第一基础语音帧进行静默音分离，过滤掉有干扰的静默音，得到第一目标语音帧，使得声纹具有连续性和鲁棒性，进而从该声纹中提取与会人员的的目标声纹特征，提升了目标声纹特征的准确度和鲁棒性，有利于后续进行声纹识别时，提高声纹识别的准确率，从而保证对目标与会人员的准确识别。

在一实施例中，如图4所示，步骤S4中，即对语音数据进行语音识别，生成实时语音文本，具体包括如下步骤：

S41：对语音数据进行语音解析，得到包含第二基础语音帧的帧集合。

具体地，对获取到的语音数据进行语音解析，得到包含第二基础语音帧的帧集合，语音解析包括但不限于：语音编码和语音信号的预处理等。

其中，语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输，语音编码的基本方法可分为波形编码、参量编码和混合编码。

优选地，本提案使用的语音编码方式为波形编码，波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号，波形编码可提供高话音的质量。

其中，语音信号的预处理是指在对语音信号进行分析和处理之前，对其进行预加重、分帧、加窗等预处理操作。语音信号的预处理的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响，从而使得后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

S42：对第二基础语音帧进行静音检测，得到第二基础语音帧中的K个连续静音帧，其中，K为自然数。

具体地，在与会人员持续发言的过程中，语音数据中的语音信号可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。与会人员发言过程中，会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行语音识别并转换文本的时候，需要检测出静默期状态，进而将静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

其中，检测静默音状态的方式包括但不限于：语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。

优选地，本发明实施例使用的对第二基础语音帧进行静音检测，得到第二基础语音帧中的K个连续静音帧的具体实现流程包括步骤A至步骤E，详述如下：

步骤A：计算每帧第二基础语音帧的帧能量。

具体地，帧能量是语音信号的短时能量，反映了语音帧的语音信息的数据量，通过帧能量能够进行判断该语音帧是否为语句帧还是静音帧。

步骤B：针对每帧第二基础语音帧，若该第二基础语音帧的帧能量小于预设的帧能量阈值，则标记该第二基础语音帧为静音帧。

具体地，帧能量阈值为预先设定的参数，若计算得到的第二基础语音帧的帧能量小于预设的帧能量阈值，则将对应的第二基础语音帧标记为静音帧，该帧能量阈值具体可以根据实际需求进行设置，如帧能量阈值设置为0.5，也可以根据计算得到各个第二基础语音帧的帧能量进行具体分析设置，此处不做限制。

例如，在一具体实施方式中，帧能量阈值设置为0.5，对6个第二基础语音帧：J₁、J₂、J₃、J₄、J₅和J₆计算帧能量计算，得到结果分别为：1.6、0.2、0.4、1.7、1.1和0.8，由此结果容易理解，第二基础语音帧J₂和第二基础语音帧J₃为静音帧。

步骤C：若检测到H个连续的静音帧，切H大于预设的连续阈值I，则将该H个连续的静音帧组成的帧集合作为为连续静音帧。

具体地，连续阈值I可以根据实际需要进行预先设置，若存在连续的静音帧的数量为H，切H大于预设的连续阈值I，则将该H个连续的静音帧组成的区间中的所有静音帧进行合并，得到一个连续静音帧。

例如，在一具体实施方式中，预设的连续阈值I为5，在某一时刻，获取到的静音帧状态如表一所示，表一示出了50个第二基础语音帧组成的帧集合，由表一可知，包含连续5个或5个以上的连续的静音帧区间为：帧序号7至帧序号13对应的第二基础语音帧组成的区间P，以及帧序号21至帧序号29对应的第二基础语音帧组成的区间Q，因而，将区间P中包含的帧序号7至帧序号13对应的7个第二基础语音帧进行组合，得到一个连续静音帧P，该连续静音帧P的时长为帧序号7至帧序号13对应的7个第二基础语音帧的时长之和，按此方法，将区间Q中包含的帧序号21至帧序号29对应的第二基础语音帧进行组合，作为另一个连续静音帧Q，连续静音帧Q的时长为帧序号21至帧序号29对应的9个第二基础语音帧的时长之和。

表一

帧序号	1	2	3	4	5	6	7	8	9	10
											是否静音帧	否	否	是	否	否	否	是	是	是	是
帧序号	11	12	13	14	15	16	17	18	19	20
											是否静音帧	是	是	是	否	否	否	否	否	否	否
帧序号	21	22	23	24	25	26	27	28	29	30
											是否静音帧	是	是	是	是	是	是	是	是	是	否
帧序号	31	32	33	34	35	36	37	38	39	40
											是否静音帧	是	是	否	否	否	否	否	否	是	是
帧序号	31	32	33	34	35	36	37	38	39	40
											是否静音帧	否	是	是	否	否	是	否	否	否	否

步骤D：按照步骤A至步骤C的方法，获取连续静音帧的总数K个。

以步骤C中列举的表一为例，获取的连续静音帧为连续静音帧P和连续静音帧Q，因为在步骤C对应的举例中，K的值为2。

S43：根据K个静音帧，将帧集合中包含的第二基础语音帧划分成K+1个第二目标语音帧。

具体地，将步骤S42中得到的K个连续静音帧作为分界点，将帧集合中包含的第二基础语音帧划分开来，得到K+1个第二基础语音帧的集合区间，将每个集合区间中包含的所有第二基础语音帧，作为一个目标语音帧。

例如，在一具体实施方式中，获取到的静音帧的状态如S42中步骤C的表一所示，该表示出了两个连续静音帧，分别为帧序号7至帧序号13对应的7个第二基础语音帧进行组合得到一个连续静音帧P，以及帧序号21至帧序号29对应的9个第二基础语音帧进行组合得到一个连续静音帧Q，将这两个连续静音帧作为分界点，将这个包含50个第二基础语音帧的帧集合划分成了三个区间，分别为：帧序号1至帧序号6对应的第二基础语音帧组成的区间M₁，帧序号14至帧序号20对应的第二基础语音帧组成的区间M₂，以及帧序号30至帧序号50对应的第二基础语音帧组成的区间M₃，将区间M₁中所有的第二基础语音帧进行组合，得到一个组合后的语音帧，作为第二目标语音帧M₁。

S44：将每个第二目标语音帧转换为实时语音文本。

具体地，对每个目标语音帧进行文本转换，得到该目标语音帧对应的实时语音文本。

其中，文本转换可使用支持语音转换文本的工具，也可以使用用于文本转换算法，此处不作具体限制。

在本实施例中，对语音数据进行语音解析，得到包含第二基础语音帧的帧集合，进而对第二基础语音帧进行静音检测，得到第二基础语音帧中的K个连续静音帧，根据这K个连续静音帧，将帧集合中包含的第二基础语音帧划分成K+1个第二目标语音帧，将每个目标语音帧均转换为一个实时语音文本，使得将接收到的语音信号实时转换成一个个独立的实时语音文本，实现了实时对与会人员的发言信息进行准确记录，提高了会议信息记录的准确率和效率。

在一实施例中，如图5所示，在步骤S3之前，该会议信息记录方法还包括如下步骤：

S61：针对每个与会人员进行声纹特征采集，得到每个与会人员的基础声纹特征。

具体地，在会议开始之前，先对与会人员提供预设的语料，在与会人员朗读该语料时进行录音采集，得到录音样本，进而对该录音样本中的语音信号进行声纹特征提取，得到该会人员的基础声纹特征。

其中，预设的语料可以是一篇文章、一个网络新闻或一次会议纪要等，可根据实际需要来进行设置，此处不做具体限制。

例如，在一具体实施方式中，提供一篇专业论文作为预设的语料，针对每个与会人员，收集该与会人员朗读该预设的语料的录音样本，并基于该录音样本来获取该与会人员的基础声纹特征。

其中，对该录音文本中的语音信号进行声纹特征提取，得到该与会人员的基础声纹特征的具体过程，可参考步骤S21至步骤S25的描述，或参考步骤S2的描述，为避免重复，此处不再赘述。

值得说明的是，基础声纹特征是一个包含多个声纹特征的集合。

S62：获取每个与会人员标识，并基于与会人员的基础声纹特征，与会人员标识，以及与会人员的基础声纹特征和与会人员标识之间的对应关系，构建初始声纹识别模型。

具体地，针对每个与会人员，获取该与会人员的与会人员标识，并基于该与会人员标识，该与会人员的基础声纹特征，以及该与会人员基础声纹特征和与会人员标识之间的对应关系，构建该与会人员声纹特征信息的映射，并将该映射存入到初始声纹模型之中。

S63：采用遗传算法对初始声纹识别模型进行训练，生成预设的声纹识别模型。

具体地，在得到初始声纹模型之后，需要对初始声纹模型进行训练，以便提高声纹识别模型的识别率，其中，训练方式包括但不限于：模板匹配方法、最近邻方法、神经网络方法、隐式马尔可夫模型(Hidden Markov Model，HMM)、矢量量化(Vector Quantization，VQ)方法、多项式分类器(Polynomial Classifiers)方法等。

优选地，本发明实施例采用的训练方式为基于神经网络方法的遗传算法(GeneticAlgorithm，GA)，其具体实现过程为：通过将每个与会人员的基础声纹特征作为一个群体，基础声纹特征中的每个声纹特征作为一条染色体，通过使用遗传算法来进行初始化编码、个体评价、选择、交叉和变异，进而得到该群体的最优解或近似解，即该与会人员的基础声纹特征的最优解，在后续通过该声纹识别模型进行识别时，在各个基础声纹特征的最优解中，找出与目标声纹特征最接近的最优解，并根据该最优解对应的声纹特征，确定目标与会人员。

在本实施例中，针对每个与会人员，进行声纹特征采集，得到该与会人员的基础声纹特征，并获取该与会人员标识，并基于与会人员的基础声纹特征，与会人员标识，以及与会人员的基础声纹特征和与会人员标识之间的对应关系，构建初始声纹识别模型，进而采用遗传算法对初始声纹识别模型进行训练，生成预设的声纹识别模型，使得在后续对目标声纹特征进行识别时，可以快速准确的确定目标声纹特征对应的与会人员标识，从而实现自动准确记录当前发言的与会人员标识，有利于提高会议信息记录的效率和准确性。

在一实施例中，服务端将实时语音文本发送给监控端，并接收监控端反馈的修改文本，如图6所示，在步骤S4之后，在步骤S5之前，该会议信息记录方法还包括如下步骤：

S71：将实时语音文本发送给会议信息记录的监控端。

具体地，在对语音数据进行语音识别，生成实时语音文本之后，将该实时语音文本发送到监控端，监控端的会议信息记录人员对该实时语音文本进行检查，若用户发现该实时语音文本不正确，则通过监控端向服务端反馈该实时语音文本对应的修改文本。

例如，在一具体实施方式中，一监控端接收到的实时语音文本为“0068-下一年度经济与行业行驶分析”，经过该监控端用户的确认，发现该实时语音文本不正确，请该实时语音文本修改为“0068-下一年度经济与行业形式分析”，并将修改后的文本作为修改文本，发送给服务端。

S72：若接收到监控端反馈的修改文本，则使用该修改文本替换实时语音文本。

具体地，服务端在接收到在监控端发送的修改文本后，获取该修改文本对应的实时语音文本，并使用该修改文本来替换该实时语音文本。

其中，修改文本与实时语音文本的对应关系，可以通过实时语音文本中的序号或者其他标识字符来确定，也可以根据实际需要来设置，此处不作具体限制。

以步骤S71中的修改文本为例，根据修改文本“0068-下一年度经济与行业形式分析”确定该修改文本对应的实时语音文本为序号“0068”的实时语音文本，进而找到序号“0068”的实时语音文本“0068-下一年度经济与行业行驶分析”，并将该实时语音文本用修改文本替换。

在本实施例中，将实时语音文本发送给会议信息记录的监控端，监控端用户对实时语音文本进行核实，若监控端用户核实结果为该实时语音文本存在错误，则对该实时语音文本进行修改，生成修改文本，并通过监控端将修改文本发送给服务端，服务端在接收到在监控端发送的修改文本后，将对应的实时语音文本替换成该修改文本，提升了会议信息记录的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种会议信息记录装置，该会议信息记录装置与上述实施例中会议信息记录方法一一对应。如图7所示，该会议信息记录装置包括数据收集模块10、特征提取模块20、人员确定模块30、语音识别模块40和记录生成模块50。各功能模块详细说明如下：

数据收集模块10，用于若接收到采集通道的语音数据传输请求，则获取该语音数据和当前时间；

特征提取模块20，用于对语音数据进行声纹特征提取，得到该语音数据的目标声纹特征；

人员确定模块30，用于根据预设的声纹识别模型，对目标声纹特征进行声纹识别，确定该目标声纹特征对应的目标与会人员标识，其中，声纹识别模型包括与会人员的基础声纹特征，与会人员标识，以及基础声纹特征和与会人员标识之间的对应关系；

语音识别模块40，用于对语音数据进行语音识别，生成实时语音文本；

记录生成模块50，用于将目标与会人员标识、当前时间和实时语音文本进行关联记录，得到目标与会人员标识对应的目标与会人员的发言信息。

进一步地，特征提取模块20包括：

声纹解析单元21，用于对语音数据进行声纹解析，得到初始声纹；

加重处理单元22，用于对初始声纹进行预加重处理，生成具有平坦频谱的加重处理声纹；

分帧加窗单元23，用于采用分帧和加窗的方式，对加重处理声纹进行分帧和加窗处理，得到第一基础语音帧；

静默音分离单元24，用于对第一基础语音帧进行静默音分离，得到第一目标语音帧；

特征提取单元25，用于对每个第一目标语音帧进行声纹特征提取，得到目标声纹特征。

进一步地，语音识别模块40包括：

语音解析单元41，用于对语音数据进行语音解析，得到包含第二基础语音帧的帧集合；

静音检测单元42，用于对第二基础语音帧进行静音检测，得到第二基础语音帧中的K个连续静音帧，其中，K为自然数；

语音切分单元43，用于根据K个静音帧，将帧集合中包含的第二基础语音帧划分成K+1个第二目标语音帧；

文本转化单元44，用于将每个第二目标语音帧转换为实时语音文本。

进一步地，该会议信息记录装置还包括：

声纹采集模块61，用于针对每个与会人员进行声纹特征采集，得到每个与会人员的基础声纹特征；

模型构建模块62，用于获取每个与会人员标识，并基于与会人员的基础声纹特征，与会人员标识，以及与会人员的基础声纹特征和与会人员标识之间的对应关系，构建初始声纹识别模型；

模型训练模块63，用于采用遗传算法对初始声纹识别模型进行训练，生成预设的声纹识别模型。

进一步地，该会议信息记录装置还包括：

文本传输模块71，用于将实时语音文本发送给会议信息记录的监控端；

文本替换模块72，用于若接收到监控端反馈的修改文本，则使用该修改文本替换实时语音文本。

关于会议信息记录装置的具体限定可以参见上文中对于会议信息记录方法的限定，在此不再赘述。上述会议信息记录装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储会议信息记录方法中的与会人员的基础声纹特征和会议信息记录。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会议信息记录方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例会议信息记录方法的步骤，例如图2所示的步骤S1至步骤S5。或者，处理器执行计算机程序时实现上述实施例会议信息记录装置的各模块/单元的功能，例如图7所示的模块10至模块50。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例会议信息记录方法的步骤，或者，计算机程序被处理器执行时实现上述实施例会议信息记录装置的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种会议信息记录方法，其特征在于，所述会议信息记录方法包括：

若接收到采集通道的语音数据传输请求，则获取所述语音数据和当前时间，所述采集通道的数量为多个，若干邻近的与会人员使用一个独立的采集通道；

对所述语音数据进行语音识别，生成实时语音文本；

将所述目标与会人员标识、所述当前时间和所述实时语音文本进行关联记录，得到所述目标与会人员标识对应的目标与会人员的发言信息；

其中，所述对所述语音数据进行语音识别，生成实时语音文本包括：

对所述语音数据进行语音解析，得到包含第二基础语音帧的帧集合；

对所述第二基础语音帧进行静音检测，得到所述第二基础语音帧中的K个连续静音帧，其中，K为自然数；

根据K个所述静音帧，将所述帧集合中包含的所述第二基础语音帧划分成K+1个第二目标语音帧；

将每个所述第二目标语音帧转换为所述实时语音文本；

其中，所述对所述第二基础语音帧进行静音检测，得到所述第二基础语音帧中的K个连续静音帧包括：

步骤A：计算每帧第二基础语音帧的帧能量；

步骤B：针对每帧第二基础语音帧，若该第二基础语音帧的帧能量小于预设的帧能量阈值，则标记该第二基础语音帧为静音帧；

步骤C：若检测到H个连续的静音帧，且H大于预设的连续阈值I，则将该H个连续的静音帧组成的帧集合作为为连续静音帧；

步骤D：按照步骤A至步骤C的方法，得到K个连续静音帧。

2.如权利要求1所述的会议信息记录方法，其特征在于，所述对所述语音数据进行声纹特征提取，得到所述语音数据的目标声纹特征包括：

对所述语音数据进行声纹解析，得到初始声纹；

对所述初始声纹进行预加重处理，生成具有平坦频谱的加重处理声纹；

采用分帧和加窗的方式，对所述加重处理声纹进行分帧和加窗处理，得到第一基础语音帧；

对所述第一基础语音帧进行静默音分离，得到第一目标语音帧；

对每个所述第一目标语音帧进行声纹特征提取，得到所述目标声纹特征。

3.如权利要求1所述的会议信息记录方法，其特征在于，在所述根据预设的声纹识别模型，对所述目标声纹特征进行声纹识别，确定所述目标声纹特征对应的目标与会人员标识之前，所述会议信息记录方法还包括：

针对每个与会人员进行声纹特征采集，得到每个与会人员的基础声纹特征；

获取每个与会人员标识，并基于所述与会人员的基础声纹特征，所述与会人员标识，以及与会人员的基础声纹特征和与会人员标识之间的对应关系，构建初始声纹识别模型；

采用遗传算法对所述初始声纹识别模型进行训练，生成所述预设的声纹识别模型。

4.如权利要求1所述的会议信息记录方法，其特征在于，在对所述语音数据进行实时识别，生成实时语音文本之后，在所述将所述目标与会人员标识、所述当前时间和所述实时语音文本进行关联，得到所述目标与会人员在本次会议的发言信息的步骤之前，且在所述对所述语音数据进行语音识别，生成实时语音文本的步骤之后，所述会议信息记录方法还包括：

将所述实时语音文本发送给会议信息记录的监控端；

若接收到所述监控端反馈的修改文本，则使用所述修改文本替换所述实时语音文本。

5.一种会议信息记录装置，其特征在于，所述会议信息记录装置包括：

数据收集模块，用于若接收到采集通道的语音数据传输请求，则获取所述语音数据和当前时间，所述采集通道数量为多个，若干邻近的与会人员使用一个独立的采集通道；

记录生成模块，用于将所述目标与会人员标识、所述当前时间和所述实时语音文本进行关联记录，得到所述目标与会人员标识对应的目标与会人员的发言信息；

其中，所述语音识别模块包括：

语音解析单元，用于对所述语音数据进行语音解析，得到包含第二基础语音帧的帧集合；

静音检测单元，用于对所述第二基础语音帧进行静音检测，得到所述第二基础语音帧中的K个连续静音帧，其中，K为自然数；

语音切分单元，用于根据K个所述静音帧，将所述帧集合中包含的所述第二基础语音帧划分成K+1个第二目标语音帧；

文本转化单元，用于将每个所述第二目标语音帧转换为所述实时语音文本；

其中，所述静音检测单元包括：

步骤A：计算每帧第二基础语音帧的帧能量；

步骤D：按照步骤A至步骤C的方法，得到K个连续静音帧。

6.如权利要求5所述的会议信息记录装置，其特征在于，所述特征提取模块包括：

声纹解析单元，用于对所述语音数据进行声纹解析，得到初始声纹；

加重处理单元，用于对所述初始声纹进行预加重处理，生成具有平坦频谱的加重处理声纹；

分帧加窗单元，用于采用分帧和加窗的方式，对所述加重处理声纹进行分帧和加窗处理，得到第一基础语音帧；

静默音分离单元，用于对所述第一基础语音帧进行静默音分离，得到第一目标语音帧；

特征提取单元，用于对每个所述第一目标语音帧进行声纹特征提取，得到所述目标声纹特征。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述会议信息记录方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述会议信息记录方法的步骤。