CN118335115A

CN118335115A - 一种营业厅场景用定向收音语音分析系统

Info

Publication number: CN118335115A
Application number: CN202410503763.1A
Authority: CN
Inventors: 吕静
Original assignee: Shanghai Rongda Digital Technology Co ltd
Current assignee: Shanghai Rongda Digital Technology Co ltd
Priority date: 2024-04-25
Filing date: 2024-04-25
Publication date: 2024-07-12

Abstract

本发明的一种营业厅场景用定向收音语音分析系统，属于语音分析处理技术领域。通过远程控制模块对所属区域内的录音设备进行实时监控，且录音设备采集所属营业厅的语音对话信息，且通过音频效果处理模块和音频优化模块进行定向拾音和语音处理，可以得到干净纯粹的客服和客户两个人的声音，并进行分析，有利于准确的筛选出营业厅服务中的质量问题。

Description

一种营业厅场景用定向收音语音分析系统

技术领域

本发明属于语音分析处理技术领域，具体来说是一种营业厅场景用定向收音语音分析系统。

背景技术

随着人工智能技术的不断发展，AI技术在各个行业的应用不断深化，目前人工智能已迈入发展的快车道，其将持续推动传统产业的数字化与智能化升级，引领涵盖经济、文化各类产业的变革。移动互联全媒体时代下的客户对服务也提出了更高的要求：要求及时、快速、准确的全渠道服务。

现有的智能化服务很多都是针对互联网APP渠道、电话渠道等应用AI技术进行服务质检工作。但是对线下的服务环节相对欠缺，营业厅场景的服务质量监控具有延时性、隐蔽性、不可追溯性等特点，导致出现服务纠纷时无法还原现场，并且无法准实时地给到管理者相关的数据支撑，以便及时发现服务问题并进行纠正。

发明内容

1.发明要解决的技术问题

本发明的目的在于解决现有线下语音服务难以进行准确的语音采集并进行监督的问题。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种营业厅场景用定向收音语音分析系统，包括

设备管理模块，所述设备管理模块与录音采集模块通讯连接并监测录音采集模块的录音设备的运行状态；

录音采集模块，所述录音采集模块通过录音设备采集音频数据；

远程控制模块，所述远程控制模块与录音采集模块通讯连接并控制录音采集模块的运行状态；

音频效果处理模块，所述音频效果处理模块通讯连接并控制录音采集模块的录音参数以保证录音质量；

音频优化模块，所述音频优化模块与音频效果处理模块通讯连接并对用于对音频效果处理模块处理后采集的音频数据进行优化；

语音转写模块，所述语音转写模块与音频优化模块通讯连接并对音频优化模块优化后的音频数据进行语音转文本操作；

语音分析模块，所述语音分析模块与语音转写模块通讯连接并对语音转写模块处理得到的文本数据进行分析并生成分析结果；

数据分析模块，所述数据分析模块与语音分析模块通讯连接并根据分析结果的历史数据生成可视化数据报表。

优选地，所述语音分析模块还连接有质检模型和评分策略模型。

优选地，所述音频效果处理模块包括有定向拾音单元，所述定向拾音单元具体通过如下算法进行定向拾音，

具体为

使用固定的红外传感器和不同方向上的麦克风阵列，判断是否开启和获取来自不同方向的音频；

对于每个方向，通过计算阵列上每个麦克风的增益差异来获得方向特征；

将方向特征输入到神经网络模型中进行处理，得到每个频点在不同方向上的概率分布；

选择最大概率所对应的方向作为声源的方向，并将声源方向与原始音频信号进行对比，判断是否符合要求。

优选地，所述音频效果处理模块还包括语音增强单元，所述语音增强单元具体通过如下算法进行语音增强：

特征提取，将音频STFT(short-time Fourier transform，短时傅里叶变换)后的特征经过滤波器处理后做对数变换再做DCT得到BFCC(Bark-frequency cepstralcoefficients,树皮频率倒谱系数)，将该特征和Pitch analysis(音高分析)得到的人声的基频信息(PITCH)组合作为神经网络模型的输入特征；且在神经网络模型的降噪部分，频带划分选择使用Opus的pitch计算代码，在低频区，每个频带最少有4个bins，并且使用的是三角频带(滤波)而非矩形频带，每个三角的峰值和其相邻三角的边界点重合，band的数量为34；

用ω_b(k)表示第b个band在频率k处的幅度，有∑_bw_b(k)＝1，对于频率信号X(k)，某一个band的能量为E_b＝∑_kw_b(k)|X(k)|²，每个band的增益为其中E_s(b)为纯净语音的band能量，E_x(b)为带噪语音的band能量；由于噪声和语音不相关，因而带噪语音的能量必然大于纯净语音的能量，即E_s<E_x，对于每个频带，语音越纯净，g_b越大，当g_b大于设定值时，判断为纯净语音并进行增强，当g_b小于设定值时，判断为噪语音并进行降低。

优选地，所述神经网络模型为通过训练来学习并理解不同方向上声音信号的特征。

优选地，所述音频效果处理模块还包括回声消除单元，所述回声消除单元通过接入回采线，采集扬声器声音来进行回声消除。

优选地，所述音频效果处理模块上还包括混响抑制单元，所述混响抑制单元用于将混响语音从麦克风录取的语音中滤除，留下干净的直达波信号。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

本发明的一种营业厅场景用定向收音语音分析系统，包括设备管理模块，设备管理模块与录音采集模块通讯连接并监测录音采集模块的录音设备的运行状态；录音采集模块，录音采集模块通过录音设备采集音频数据；远程控制模块，远程控制模块与录音采集模块通讯连接并控制录音采集模块的运行状态；音频效果处理模块，音频效果处理模块通讯连接并控制录音采集模块的录音参数以保证录音质量；音频优化模块，音频优化模块与音频效果处理模块通讯连接并对用于对音频效果处理模块处理后采集的音频数据进行优化；语音转写模块，语音转写模块与音频优化模块通讯连接并对音频优化模块优化后的音频数据进行语音转文本操作；语音分析模块，语音分析模块与语音转写模块通讯连接并对语音转写模块处理得到的文本数据进行分析并生成分析结果；数据分析模块，数据分析模块与语音分析模块通讯连接并根据分析结果的历史数据生成可视化数据报表。录音设备设置于营业厅内且进行结构化展现区域-营业厅-设备的对应绑定。通过远程控制模块对所属区域内的录音设备进行实时监控，且录音设备采集所属营业厅的语音对话信息，且通过音频效果处理模块和音频优化模块进行定向拾音和语音处理，可以得到干净纯粹的客服和客户两个人的声音，并进行分析，有利于准确的筛选出营业厅服务中的质量问题。

附图说明

图1为本发明的一种营业厅场景用定向收音语音分析系统的结构示意图；

图2为实施例的定向拾音算法的示意图。

示意图中的标号说明：

100、设备管理模块；200、录音采集模块；300、远程控制模块；400、音频效果处理模块；500、音频优化模块；600、语音转写模块；700、质检模型；800、语音分析模块；900、评分策略模型；1000、数据分析模块。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

参照附图1，本实施例的一种营业厅场景用定向收音语音分析系统，包括

设备管理模块100，所述设备管理模块100与录音采集模块200通讯连接并监测录音采集模块200的录音设备的运行状态；

录音采集模块200，所述录音采集模块200通过录音设备采集音频数据；

远程控制模块300，所述远程控制模块300与录音采集模块200通讯连接并控制录音采集模块200的运行状态；

音频效果处理模块400，所述音频效果处理模块400通讯连接并控制录音采集模块200的录音参数以保证录音质量；

音频优化模块500，所述音频优化模块500与音频效果处理模块400通讯连接并对用于对音频效果处理模块400处理后采集的音频数据进行优化；

语音转写模块600，所述语音转写模块600与音频优化模块500通讯连接并对音频优化模块500优化后的音频数据进行语音转文本操作；

语音分析模块800，所述语音分析模块800与语音转写模块600通讯连接并对语音转写模块600处理得到的文本数据进行分析并生成分析结果；

数据分析模块1000，所述数据分析模块1000与语音分析模块800通讯连接并根据分析结果的历史数据生成可视化数据报表。

本实施例的录音设备设置于营业厅内且进行结构化展现区域-营业厅-设备的对应绑定。

本实施例的系统，通过远程控制模块300对所属区域内的录音设备进行实时监控，且录音设备采集所属营业厅的语音对话信息，且通过音频效果处理模块400和音频优化模块500进行定向拾音和语音处理，可以得到干净纯粹的客服和客户两个人的声音，并进行分析，有利于准确的筛选出营业厅服务中的质量问题。

此外，所述语音分析模块800还连接有质检模型700和评分策略模型900。所属质检模型700用于被语音分析模块800调用并对语音分析结果进行质检，所属评分策略模型900用于被语音分析模块800调用并对语音分析结果进行评分。

本实施例的音频效果处理模块400包括有定向拾音单元，所述定向拾音单元具体通过如下算法进行定向拾音，

具体为

传统的定向拾音算法例如GSC算法，是通过语音达到方向的先验TDOA信息，以及使用与达到方向TDOA信息相互正交的TDOA组成的阻塞矩阵完成对目标语音增强以及消除旁瓣的工作。然而由于语音是一个宽带信号，麦克风的拓扑结构不能在所有频率上避免的空间混叠的发生，以及语音和干扰并非不相关的信号，再加上阵列误差等种种因素，致使传统的GSC算法，并不能很好的抑制阵列语音的旁瓣信号，本实施的系统定向拾音技术在些基础上结合AI神经网络，通过不同方向阵列增益的基础计算，输送给神经网络大致的方向信息，再通过神经网络最终判断出每个频点的方向。优化干扰以及噪声的协方差矩阵计算，最后通过优化后的MVDR算法得到更加干净的目标语音。

使用不同方向上的麦克风阵列和固定的红外传感器，获取来自不同方向的音频。对于每个方向，通过计算阵列上每个麦克风的增益差异来获得方向特征。可以通过计算麦克风之间的TDOA(时间差)或ADOA(幅度差)来实现。再将方向特征输入到AI神经网络中进行处理。神经网络可以通过训练来学习并理解不同方向上声音信号的特征。

通过神经网络的输出，可以得到每个频点在不同方向上的概率分布。根据这些概率分布，可以确定声源的方向。选择最大概率所对应的方向作为声源的方向。将声源方向与原始音频信号进行对比，以验证定向拾音系统的性能。

参照附图2定向拾音算法描述如下所示：

假设0、1、…N-1阵元的均匀线阵中，参考阵元接收的信号为s(t)，则第n个阵元接收到的信号为s(t-τn)，傅里叶变换如下

阵列接收的信号可以表示为

最后，根据不同信号到达的延时差，再结合CCF(互相关)、GCC(广义互相关)和GCC-PHAT相位差来估算各个阵列信号之间的时延差。

如下所示为一组定向拾音和AI神经网络的方向估计结果，案例中频点100Hz在方向1上具有概率更大，频点500Hz在方向3上概率更大，频点1KHz在方向1上概率更大，通过此简单的模型可以判断方向1为声源的最大可能性的方向。

频点(Hz)	方向1概率	方向2概率	方向3概率
				100	0.6	0.3	0.2
500	0.1	0.3	0.6
				1000	0.8	0.1	0.1

音频效果处理模块400还包括语音增强单元，所述语音增强单元具体通过如下算法进行语音增强：

所述神经网络模型为通过训练来学习并理解不同方向上声音信号的特征。

所述音频效果处理模块400包括回声消除单元，所述回声消除单元通过接入回采线，采集扬声器声音来进行回声消除。所述音频效果处理模块400还包括混响抑制单元，所述混响抑制单元用于将混响语音从麦克风录取的语音中滤除，留下干净的直达波信号。

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种营业厅场景用定向收音语音分析系统，其特征在于：包括

设备管理模块(100)，所述设备管理模块(100)与录音采集模块(200)通讯连接并监测录音采集模块(200)的录音设备的运行状态；

录音采集模块(200)，所述录音采集模块(200)通过录音设备采集音频数据；

远程控制模块(300)，所述远程控制模块(300)与录音采集模块(200)通讯连接并控制录音采集模块(200)的运行状态；

音频效果处理模块(400)，所述音频效果处理模块(400)通讯连接并控制录音采集模块(200)的录音参数以保证录音质量；

音频优化模块(500)，所述音频优化模块(500)与音频效果处理模块(400)通讯连接并对用于对音频效果处理模块(400)处理后采集的音频数据进行优化；

语音转写模块(600)，所述语音转写模块(600)与音频优化模块(500)通讯连接并对音频优化模块(500)优化后的音频数据进行语音转文本操作；

语音分析模块(800)，所述语音分析模块(800)与语音转写模块(600)通讯连接并对语音转写模块(600)处理得到的文本数据进行分析并生成分析结果；

数据分析模块(1000)，所述数据分析模块(1000)与语音分析模块(800)通讯连接并根据分析结果的历史数据生成可视化数据报表。

2.根据权利要求1所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述语音分析模块(800)还连接有质检模型(700)和评分策略模型(900)。

3.根据权利要求1所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述音频效果处理模块(400)包括有定向拾音单元，所述定向拾音单元具体通过如下算法进行定向拾音，

具体为

4.根据权利要求3所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述音频效果处理模块(400)还包括语音增强单元，所述语音增强单元具体通过如下算法进行语音增强：

5.根据权利要求4所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述神经网络模型为通过训练来学习并理解不同方向上声音信号的特征。

6.根据权利要求4所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述音频效果处理模块(400)还包括回声消除单元，所述回声消除单元通过接入回采线，采集扬声器声音来进行回声消除。

7.根据权利要求4所述的一种营业厅场景用定向收音语音分析系统，其特征在于：所述音频效果处理模块(400)还包括混响抑制单元，所述混响抑制单元用于将混响语音从麦克风录取的语音中滤除，留下干净的直达波信号。