CN109473102A

CN109473102A - 一种机器人秘书智能会议记录方法及系统

Info

Publication number: CN109473102A
Application number: CN201710799232.1A
Authority: CN
Inventors: 朱碧兰; 刘建生
Original assignee: Shanghai Newreal Auto-system Co Ltd
Current assignee: Shanghai Newreal Auto-system Co Ltd
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2019-03-15

Abstract

本发明涉及一种机器人秘书智能会议记录方法及系统，方法包括如下步骤：S1.从麦克风接收语音并处理语音，将其转换为文本；S2.话者识别：S21.语音活动检测；S22.梅尔频率倒谱系数特征提取；S23.构造高斯混合模型；S3.说话者声音的分段。本发明的有益效果在于：智能化程度较高，话者语音识别效果好，能够提供令人满意的用户体验。

Description

一种机器人秘书智能会议记录方法及系统

技术领域

本发明涉及智能通讯技术领域，尤其涉及一种机器人秘书智能会议记录方法及系统。

背景技术

随着人工智能和智能机器人的发展，智能会议记录系统得到了应用，并且高性能的智能会议记录系统变得至关重要，尤其是智能服务机器人作为智能个人助理，能够提供令人满意的用户体验。智能会议记录系统需要几种重要的关键技术，即语音识别，话者识别和音箱声音分割，随着深入学习和神经网络的发展，语音识别已经大大提高，实现了接近人类识别能力的高性能。话者识别是通过声音特征(语音生物识别)来鉴定说话人，扬声器识别可以根据不同的类别进行分类：文本依赖或独立文本，验证(决定该人是否)或识别 (通过其声音来决定该人是谁)。话者识别能力可能受到年龄、健康状况、情绪状态、扬声器的工作量、背景噪声和录音设备性能的干扰，话者识别是人机互动(HCI)的重要组成部分。说话人确认对于电信、电话银行和电话预约服务等商业应用来说可能至关重要。

对于话者识别系统，将高斯混合模型(GMM)应用于从语音中提取的混合频率系数(MFCC)特征，以识别声音属于哪个说话者是比较流行的。话者识别已经被广泛应用于许多场合，然而，它仅适用于单个扬声器的声音，并且在应用说话者识别程序之前，包括多个说话者的声音需要被分成多个扬声器的部分。

发明内容

有鉴于此，本发明的目的是提供一种机器人秘书智能会议记录方法及系统，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

一方面，提供一种机器人秘书智能会议记录方法，包括如下步骤：

S1.从麦克风接收语音并处理语音，将其转换为文本；

S2.话者识别：

S21.语音活动检测：先对信号进行滤波以去除沉默部分，应用LTSD算法来去除静音部分，其中语音被分割成重叠的帧，并且对于每个帧给出在该帧中存在语音活动的概率的分数，这个概率将被累积，以提取所有的声音活动；

S22.梅尔频率倒谱系数特征提取：

S221.语音被分成长度为L的连续的短时间帧，其中相邻的帧已经重叠R，然后这些帧被汉明窗分隔成多个窗口；对窗口信号应用离散傅里叶变换来计算频谱；

S222.在信号频谱上应用梅尔倒频谱系数，然后根据频谱上的梅尔倒频谱系数应用滤波器组，计算每个存储体下的能量对数，并执行离散余弦变换以获得数组，使用阵列中的第一个k项作为特征；

S23.构造高斯混合模型：对于每个数据点，估计每个高斯产生的概率；修改高斯混合模型的参数，使数据的可能性最大化；

S3.说话者声音的分段：

基于分割的方法应用语音活动检测算法来检测语音和非语音帧，以将记录的声音分段成说话者部分，然后将高斯混合模型应用于每个部分的梅尔频率倒谱系数特征，以识别来自哪个说话人。

上述机器人秘书智能会议记录方法，其中，在步骤S1中，当提取声音时，将每段声音分成扬声器的声部，如果最后一个部分是语音，则在中间部分切割，同时将最后一个语音部分结合到下一个部分，并再次处理，最后将分段说话者的声音发送到语音识别服务器，获得结果文本。

上述机器人秘书智能会议记录方法，其中，在步骤S23中，高斯混合模型假定属于该模型的特征向量x的概率如下：

其中，

条件是

上述机器人秘书智能会议记录方法，其中，在步骤S3中，应用语音活动检测来检测语音和非语音帧，然后相邻帧被级联，并且连续帧与具有无语音帧的语音帧和片段一起形成，具有语音帧和无语音帧的片段如果宽度小于阈值，则被去除。

另一方面，提供一种机器人秘书智能会议记录系统，基于如上述任意一项所述的机器人秘书智能会议记录方法实现。

与已有技术相比，本发明的有益效果在于：

智能化程度较高，话者语音识别效果好，能够提供令人满意的用户体验。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明的会议记录语音处理示意图；

图2示出了本发明的识别结果示意图；

图3示出了本发明基于分割的方法分割会议语音示意图。

图4示出了本发明语音帧格示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明与会者在会议前需要将其声音登记到系统。从麦克风提取会议语音，并且处理语音的同时转换为文本是非常必要的，因为如果在会议后处理语音，长时间等待处理结果是不方便的。因此，应用多线程同时进行两项工作(从麦克风接收语音并处理语音，将其转换为文本)。

当提取声音时，将它分成许多部分，并将每段声音分成扬声器的声部。如果最后一个部分是语音，则在中间部分切割，短语部分容易造成说话者识别错误。为了解决这个问题，将最后一个语音部分结合到下一个部分，并再次处理，如图1所示。最后，将分段说话者的声音发送到语音识别服务器，获得结果文本，如图2所示。

话者识别，识别的处理步骤如下：

语音活动检测：

首先必须先对信号进行滤波以去除沉默部分，否则识别可能会受到严重的偏差。

应用LTSD(长期光谱发散)算法来去除静音部分，其中语音被分割成重叠的帧，并且对于每个帧给出在该帧中存在语音活动的概率的分数。这个概率将被累积，以提取所有的声音活动。

梅尔频率倒谱系数(特征提取：梅尔频率倒谱系数(MFCC)是一种声音的短期功率谱，在非线性梅尔级频率的范围内，它是基于对数功率谱的线性余弦变换。

梅尔频率倒谱系数(MFCC)是自动语音识别(ASR)中最广泛使用的特征，也可应用于话者识别。

提取的梅尔频率倒谱系数(MFCC)特征，首先，语音被分成长度为L的连续的短时间帧，其中相邻的帧已经重叠R。然后这些帧被汉明窗(Hamming Window)分隔成多个窗口。说话者信号-预加强-分隔窗口-离散傅里叶变换-梅尔滤波器组-记录-离散余弦转换 -梅尔频率倒谱系数。然后，对窗口信号应用离散傅里叶变换(DFT)来计算其频谱。

人类听觉对所有频段不是同等敏感的，而在较高频率下它的分辨率较低。梅尔倒频谱系数将频域扩展到更符合人类听觉感知的程度，它大约是在1千赫兹以下，在1千赫对数以上。

在信号频谱上应用梅尔倒频谱系数。然后，根据频谱上的梅尔倒频谱系数应用滤波器组，计算每个存储体下的能量对数，并执行离散余弦变换(DCT)以获得数组。然后，使用阵列中的第一个k项作为特征。

高斯混合模型：高斯混合模型通常用于语音/话者识别等声学学习任务。高斯混合模型假定属于该模型的特征向量x的概率如下：

其中，

条件是

因此，高斯混合模型只是多元高斯分布的加权组合。高斯混合模型可以描述具有多个簇的特征向量的分布。

高斯混合模型的模拟是找出μi、Σi、wi最佳参数的过程，以便模型以最大似然估计所有模拟数据。更具体地说，期望最大化(EM)算法用于最大化可能性。高斯混合模型模拟情况下算法的一次迭代的两个步骤是：

对于每个数据点(特征向量)，估计每个高斯产生的概率。

修改高斯混合模型的参数，使数据的可能性最大化。

模拟后，该模型可以给出每个输入特征向量的适应度，测量向量属于该模型的概率。

因此，在话者识别的过程中，可以为每个演讲者模拟高斯混合模型。然后对于输入信号，提取其特征向量的列表，并计算向量属于每个模型的总体似然性。选择最佳输入模式的说话人作为答案。

关于说话者声音的分段，尝试两种方法来分割会议语音：基于分段的方法和无分割的方法。

采用基于分割的方法，基于分割的方法应用语音活动检测(VAD)算法来检测语音和非语音帧，以将记录的声音分段成说话者部分。然后，将高斯混合模型应用于每个部分的梅尔频率倒谱系数(MFCC)特征，以识别来自哪个说话人。

它应用语音活动检测(VAD)来检测语音和非语音帧，然后相邻帧被级联，并且连续帧与具有无语音帧的语音帧和片段一起形成，如图3所示，具有语音帧和无语音帧的片段如果宽度小于阈值，则被去除。

若采用无分割的方法，语音信号被分成连续的短时帧。对于输入信号，获得帧列表，并从每帧提取梅尔频率倒谱系数(MFCC)特征向量。为每一个说话者模拟一个高斯混合模型，每个说话者高斯混合模型给出了每个帧的特征向量的适合度，测量了这个向量属于这个模型的概率的对数。然后，对于帧列表，从说话者高斯混合模型列表中获得分数列表，并构建如图4所示的语音帧格。

将最优路径作为分割结果搜索到语音帧格中。使用帧同步波束搜索策略来扩展搜索空间，并且通过累加说话者高斯混合模型的分数来评估可能的搜索路径。当相同扬声器的连续帧形成的分段的宽度小于阈值时，将其移除。如果在同一帧结束的两个分段具有相同的分数，将删除较短的分数。

具体实验时，评估话者识别，说话人语音分割和会议录音系统的成果。首先，评估话者识别，要求5位发言人演讲3段话，每个演讲的时间长度超过3分钟，共发表了15场演讲。对于每个演讲者，使用发言人的两段话来模拟高斯混合模型，并使用剩下的演讲来测试结果，所有演讲都可以正确识别。

其次，评估说话者的语音分割，收集了10段演讲，并且每段话包含了两位或三位发言者的声音，他们都是确认评估的5位成员。比较两种方法：通过使用10段演讲进行基于分割和无分割的方法来评估其在使用话者识别评估的高斯混合模型模拟的表现。表1 显示结果。

表1分段结果

从这些结果可以看出基于分割的方法表现更好。基于分割的方法尝试以真实边界选择候选分割，导致减少混淆并且改善分割精度。

最后，对机器人系统(Windows电话系统)上的会议记录系统进行评估。在两种环境中测试系统：嘈杂的环境，比如咖啡厅和无噪音的安静环境，比如会议室。在每种环境中，收集了5段声音记录，其中每段声音记录有2-5个参与者。应用基于分割的方法进行评估。在会议之前，要求参加者注册他们的声音来模拟高斯混合模型。通过百度语音识别服务器评估了10个会议声音记录的演讲者识别率，说话者语音分割率和话者识别率的表现。表2显示了结果。

表2会议记录结果

从这些结果可以看出，系统在安静的环境下表现良好，而在嘈杂的环境下性能下降。需要应用降噪技术来获得更好的效果。

从上述实施例可以看出，本发明的优势在于：

以上对本发明的具体实施例进行了详细描述，但本发明并不限制于以上描述的具体实施例，其只是作为范例。对于本领域技术人员而言，任何等同修改和替代也都在本发明的范畴之中。因此，在不脱离本发明的精神和范围下所作出的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.一种机器人秘书智能会议记录方法，其特征在于，包括如下步骤：

S1.从麦克风接收语音并处理语音，将其转换为文本；

S2.话者识别：

S22.梅尔频率倒谱系数特征提取：

S3.说话者声音的分段：

2.如权利要求1所述机器人秘书智能会议记录方法，其特征在于，在步骤S1中，当提取声音时，将每段声音分成扬声器的声部，如果最后一个部分是语音，则在中间部分切割，同时将最后一个语音部分结合到下一个部分，并再次处理，最后将分段说话者的声音发送到语音识别服务器，获得结果文本。

3.如权利要求1所述机器人秘书智能会议记录方法，其特征在于，在步骤S23中，高斯混合模型假定属于该模型的特征向量x的概率如下：

其中，

条件是

4.如权利要求1所述机器人秘书智能会议记录方法，其特征在于，在步骤S3中，应用语音活动检测来检测语音和非语音帧，然后相邻帧被级联，并且连续帧与具有无语音帧的语音帧和片段一起形成，具有语音帧和无语音帧的片段如果宽度小于阈值，则被去除。

5.一种机器人秘书智能会议记录系统，其特征在于，基于如上述权利要求1至4中任意一项所述的机器人秘书智能会议记录方法实现。