CN112185360A - 语音数据识别方法、多人会议的语音激励方法及相关设备 - Google Patents
语音数据识别方法、多人会议的语音激励方法及相关设备 Download PDFInfo
- Publication number
- CN112185360A CN112185360A CN202011042332.8A CN202011042332A CN112185360A CN 112185360 A CN112185360 A CN 112185360A CN 202011042332 A CN202011042332 A CN 202011042332A CN 112185360 A CN112185360 A CN 112185360A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- audio data
- terminal
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000005284 excitation Effects 0.000 title abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 67
- 238000007667 floating Methods 0.000 claims abstract description 45
- 238000006243 chemical reaction Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008450 motivation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 21
- 238000001514 detection method Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 10
- 230000000306 recurrent effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- QBPFLULOKWLNNW-UHFFFAOYSA-N chrysazin Chemical compound O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=CC=C2O QBPFLULOKWLNNW-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种语音数据识别方法、多人会议的语音激励方法及相关设备,语音数据识别方法包括:接收终端设备发送的音频数据;将该终端设备的音频数据输入经训练的语音识别模型;对该终端设备的音频数据进行计算,其中,语音识别模型包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,定点浮点转换步骤包括:在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;根据经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。本发明提升语音活动检测技术的识别准确性,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性。
Description
技术领域
本发明涉及在线会议领域,尤其涉及一种语音数据识别方法、多人会议的语音激励方法及相关设备。
背景技术
语音活动检测技术(Voice Activity Detection,VAD),是在连续信号中检测出语音片段的技术,最早应用于传统的电话业务,目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话费资源的作用。随着多媒体技术的发展,VAD技术被广泛应用于语音编码、说话人识别、语音识别等领域。
早期的语音活动检测方法主要是基于声学特征提取的,比如时域上的基于短时能量(short time energy,STE)和过零率(zero cross counter,ZCC)的语音端点检测方法,在高信噪比(Signal-to-noise ratio,SNR)的情况下,语音片段的STE相对较大,ZCC相对较小;而非语音片段则相反,故而可以通过测试语音信号的这两个特征并且与两个门限(阈值)进行对比,从而判断语音信号与非语音信号。该方法计算量小,可以满足实时性的要求,且在高信噪比的条件下检测效果好,所以被广泛应用于语音信号处理的各个领域。但当有背景噪声时,其性能却有很大程度的下降,因此许多学者又进行了一些改进。比如频域上的,基于信息熵的语音端点检测算法、基于美尔倒谱的语音端点检测算法等。但无论时基于时域还是基于频域,都有各自的优点和不足,于是又出现了时频域相结合的方法,结果却都不是很理想。
语音激励技术(voice activated)是一种智能的会控技术,就是服务器在多个混音的客户端中,选出其中的某一路做为发言人,着重突出这一路音频输出,或将此路视频放大,头像进行闪烁显示等等。以往筛选发言人都是采用的能量筛选法,也即计算每一路参与混音的客户端发过来的音频包中的能量值大小,然后进行排序,选择出最大能量值的客户端作为被激励的对象。
目前,发明人也有利用VAD技术分辨出语音成员和非语音的成员,然后在语音成员中再进行能量值的比对,选出声音最高的客户端作为发言人。由此,对VAD检测的准确性就提出了较高的要求。然而,就目前的语音活动检测技术的识别准确性皆无法保证。
因此,如何提升语音活动检测技术的识别准确性,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种语音数据识别方法、多人会议的语音激励方法及相关设备,提升语音活动检测技术的识别准确性,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性。
根据本发明的一个方面,提供一种语音数据识别方法,包括:
接收终端设备发送的音频数据;
将该终端设备的音频数据作为一经训练的语音识别模型的输入;
采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,所述定点浮点转换步骤包括:
在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;
在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;
根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
在本发明的一些实施例中,所述语音识别模型为序列神经网络模型,所述序列神经网络模型的计算单元至少包括更新单元和/或隐藏层计算单元,其中,所述更新单元和/或隐藏层计算单元执行所述定点浮点转换步骤。
在本发明的一些实施例中,所述定点浮点转换步骤由浮点数字信号处理芯片执行。
在本发明的一些实施例中,至少部分所述计算单元对输入该计算单元的数据并行执行乘法、加法、减法中的一种或多种运算。
在本发明的一些实施例中,所述语音识别模型训练时,各计算单元不执行所述定点浮点转换步骤。
根据本发明的又一方面,还提供一种多人会议的语音激励方法,包括:
采用如上所述的语音数据识别方法,识别与会的终端设备的音频数据是否为语音数据;
当识别该与会的终端设备的音频数据为语音数据时,根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值。
在本发明的一些实施例中,所述根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值之后还包括:
判断各所述与会的终端设备中是否存在设定发言终端;
若各所述与会的终端设备中不存在设定发言终端,则将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端;
若各所述与会的终端设备中存在设定发言终端,则:
当该设定发言终端的音频数据为语音数据,且该设定发言终端的语音能量值不为零时,则不对所述设定发言终端进行变更;
当该设定发言终端的音频数据不为语音数据,或者该设定发言终端的语音能量值为零时,则将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端。
根据本发明的又一方面,还提供一种语音数据识别装置,其特征在于,包括:
接收模块,配置成接收终端设备发送的音频数据;
语音识别模块,配置成将该终端设备的音频数据作为一经训练的语音识别模型的输入;
采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,所述定点浮点转换步骤包括:
在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;
在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;
根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
根据本发明的又一方面,还提供一种多人会议的语音激励装置,包括:
语音数据识别装置,配置成采用如上所述的语音数据识别方法,识别与会的终端设备的音频数据是否为语音数据;
计算模块,配置成当识别该与会的终端设备的音频数据为语音数据时,根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
由此可见,本发明提供的方案,与现有技术相比,具有如下优势:
1)采用经训练的语音识别模型,对该与会终端的音频数据进行计算,以根据所述经训练的语音识别模型的计算结果判断该与会终端的音频数据是否为语音数据,在应用至背景噪音较大的场景中时,相比背景技术部分的语音端点检测算法及其改进,具有更高的识别准确率,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性;
2)在执行语音识别时,考虑到系统的负载均衡,在语音识别模型中的至少部分计算单元中执行顶点浮点转化的步骤,从而避免数据饱和溢出的同时,便于运算的并行执行,从而提高语音识别模型的执行效率,降低系统资源消耗。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的语音数据识别方法的流程图。
图2示出了根据本发明具体实施例的循环神经网络模型的示意图。
图3示出了根据本发明具体实施例的训练循环神经网络模型的示意图。
图4示出了根据本发明实施例的多人会议的语音激励方法的流程图。
图5示出了根据本发明具体实施例的确定设定发言终端的流程图。
图6示出了根据本发明实施例的语音数据装置的模块图。
图7示出了根据本发明实施例的多人会议的语音激励装置的模块图。
图8示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图9示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
为了克服上述现有技术存在的缺陷,本发明提供一种语音数据识别方法、多人会议的语音激励方法及相关设备,提升语音活动检测技术的识别准确性,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性。具体而言,本发明提供的语音数据识别方法和/或多人会议的语音激励方法及相关设备,可以在会议服务器、多点控制单元等执行,或者在与会议服务器、多点控制单元通信连接的模块中执行,本发明并非以此为限制。
首先参见图1,图1示出了根据本发明实施例的语音数据识别方法的流程图。图1共示出了如下步骤:
步骤S110:接收终端设备发送的音频数据。
具体而言,终端设备例如可以是安装在终端设备上的客户端,本发明并非以此为限制。
步骤S120:将该终端设备的音频数据作为一经训练的语音识别模型输入。
步骤S130:采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤。
在本发明的一些实施例中,所述语音识别模型为可以是序列神经网络模型。本发明并非以此为限制,其它类型的深度学习模型、机器学习模型皆在本发明的保护范围之内。具体而言,由于序列神经网络模型为基于序列的模型,其能够参考先前的数据,从而推测当前的音频数据是否为语音数据(例如,可以将音频数据划分为噪声(或背景音)或语音数据)。
在一些具体实施例中,序列神经网络模型可以为循环神经网络模型,参见图2和图3。图2示出了根据本发明具体实施例的循环神经网络模型的示意图。图3示出了根据本发明具体实施例的训练循环神经网络模型的示意图。
具体而言,循环神经网络模型(Recurrent Neural Network,RNN)是一类用于处理序列数据的神经网络,是一个包含多个隐藏层且具有“记忆”能力的神经网络,它可以前向计算产生结果,反向计算模型更新,以进行不断的“学习”,从而提高识别准确率。
如图2,输入层(输入x是由音频数据转换获得的一个n维向量)经过计算,获得隐藏层(得到序列h),隐藏层经过计算获得输出层(输出序列o,输出获得的数据用于识别输入的音频数据是否为语音数据),按照时间展开要预测t时刻的隐藏值ht,需要用到上一时刻(t-1)的隐藏值ht-1和当前时刻的输入xt,然后得到t时刻的隐藏值ht:
ht=fW(ht-1,U*xt)
其中,ht代表t时刻的隐藏值;fw代表参数为W的激活函数(本实施例中,可以使用tanh激活函数),W是隐藏层之间的参数(各时刻可共用同一参数W);ht-1代表t-1时刻的隐藏值;参数U为输入层至隐藏层的权重系数(各时刻可共用同一参数U);xt为t时刻的输入。
然后利用当前时刻的隐藏值ht,通过一激活函数(例如ReLU函数)得到t时刻的输出:
o(t)=max(0,V*ht+c)
其中,ot代表t时刻推测出的输出(例如为VAD值,用于识别输入的音频数据是否为语音数据);参数V为隐藏层至输出层的权重系数(各时刻可共用同一参数V);ht代表t时刻隐层的隐藏值。
由此,每一时刻的预测结果是带着之前的隐藏值ht,从而在预测当前是语音数据还是非语音数据时,有效提高预测准确率。
进一步地,如在前描述的,输入层到隐藏层的权重用U表示,隐藏层间的权重用W表示,隐藏层到输出层的权重用V表示。
在对循环神经网络模型进行训练时,可以采用时间反向传播(back-propagationthrough time,BPTT),沿着需要优化的参数的负梯度方法不断寻找更优的点直至收敛,如图3。
为了找出模型最好的参数:U,W,V,需要获知当前参数得到的结果的评价。因此,可以对循环神经网络模型定义一损失函数:训练时给出t时刻标准样本yt(实际VAD值),与t时刻推测出的结果ot进行比较,得到t时刻损失函数L(t)。
然后求解参数V的偏导数:
W和U的偏导的求解由于需要涉及到历史数据,也就是RNN的记忆功能,需要依赖当前的隐藏值ht,因此,以参数W为例,可以按如下公式求解其偏导数:
参数U可以采用与参数W相同的方式求解。
完成循环神经网络模型训练时,可以将获得的参数:U,W,V,保存为常量参数。
以上仅仅是示意性地描述本发明采用的一种序列神经网络模型,本发明并非以此为限制,其它序列神经网络模型,诸如长短期记忆网络模型、双向循环神经网络等皆在本发明的保护范围之内。
具体而言,为了更好的训练语音识别模型,因此,可以采用不同会议场景的样本,比如安静会议室内的空调噪声,开窗会议室内听到的车辆声,以及大会议室内空旷的风声等,由此,使得训练语音识别模型获得充分的学习。
具体而言,所述语音识别模型训练是在系统调试状态(非工作状态)下完成的,因此无需考虑系统其它任务执行的负载以及系统资源的消耗(例如CPU消耗),仅需考虑模型训练精度,由此,语音识别模型的各计算单元不执行定点浮点转换步骤。
然而,在系统工作状态下,例如多路与会的终端设备输入音频数据时,需要同时执行经训练的语音识别模型的处理,此时,系统将会存在较大的负载和较大的资源消耗。具体而言,序列神经网络模型的计算单元至少包括更新单元(例如长短期记忆网络模型中的更新门,用于根据设定的函数判断是否需要对数值进行更新)、隐藏层计算单元(例如,各类序列模型中的隐藏值/中间值的计算,用于根据设定的函数对输入数据和/或在先的中间值进行计算)以及输出计算单元(用于对隐藏值/中间值进行计算获得模型输出)。而在系统工作状态时,资源消耗主要集中在更新单元、隐藏层计算单元以及输出计算单元。在前述的实施例中,输出计算单元选用的是ReLU函数,其对系统资源消耗较小,因此可以忽略不计。由此,本发明通过定点浮点转换步骤来降低更新单元和/或隐藏层计算单元的系统负载和资源消耗。具体而言,更新单元以及隐藏层计算单元的计算通常需要用到大量的乘法,而常用的音频数据的位深度是16位或32位,那么,更新单元以及隐藏层计算单元的计算使用的乘法运算大多是16位乘于16位结果为32位,或者32位乘于32位结果为64位的运算。然而,在进行运算并行时,会因为寄存器位数限制而无法进行运算优化,同时,这样的运算还可能会存在饱和以及溢出的问题。
因此,在本发明的一些实施例中,在所述更新单元和/或隐藏层计算单元执行所述定点浮点转换步骤。
具体而言,所述定点浮点转换步骤包括:在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元。
进一步地,定点浮点转换步骤利用了浮点数在计算机中的存储机制(按照符号位、指数位和尾数位的存储方式)来进行转换。在一些具体实现中,所述定点浮点转换步骤由浮点数字信号处理(Digital Signal Process,DPS)芯片执行。由此,可以利用支持浮点数据运算的浮点DSP芯片进行浮点数的运算。具体而言,至少部分所述计算单元对输入该计算单元的数据经由浮点化后并行执行乘法、加法、减法中的一种或多种运算。例如,可以采用并行指令使得多路数据并行执行乘法、加法、减法运算,或者可以实现在乘法后同时进行加减运算等,以避免饱和以及溢出的问题。本发明是可以实现不同的优化策略,从而提升经训练的语音识别模型的识别效率,同时,降低多路音频数据处理时的系统负载和系统资源的的消耗。
步骤S140:根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
具体而言,接受的终端设备的音频数据,可以先经过解码,然后输入至经训练的语音识别模块,将语音识别模块的输出作为VAD值,通过VAD值判断出客户端传入的音频数据是语音数据还是非语音数据(例如,VAD大于0的为语音数据,等于0为非语音数据)。其中,由于经训练的语音识别模块处理的是经解码的音频数据,因此,对于已确定不做解码处理的与会终端不执行语音识别,默认其VAD值为零,由此进一步降低系统负载,提高系统识别效率。
具体而言,在视频会议中,上述终端设备发送的音频数据,可以以帧为单位,进行语音识别,本发明并非以此为限制,在语音会议,可以以设定的时间间隔为单位,来进行语音识别。
本发明提供的语音数据识别方法中,一方面,采用经训练的语音识别模型,对该终端设备的音频数据进行计算,以根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据,在应用至背景噪音较大的场景中时,相比背景技术部分的语音端点检测算法及其改进,具有更高的识别准确率;另一方面,在执行语音识别时,考虑到系统的负载均衡,在语音识别模型中的至少部分计算单元中执行顶点浮点转化的步骤,从而避免数据饱和溢出的同时,便于运算的并行执行,从而提高语音识别模型的执行效率,降低系统资源消耗。
本发明还提供一种基于语音数据识别方法的多人会议的语音激励方法,如图4所示。图4共示出如下步骤:
步骤S150:采用如上述任一实施例的语音数据识别方法,识别与会的终端设备的音频数据是否为语音数据。
步骤S160:当识别该与会的终端设备的音频数据为语音数据时,根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值。
具体而言,在一些实现中,音频数据的能量值使用的是RMS(root mean square)均方根算法。音频数据的能量值rms根据如下公式计算:
其中,xt为t时刻的解码后的音频值,xmax为各时刻最大的解码后的音频值。
由此,本发明提供的多人会议的语音激励方法中,一方面与具有更高的识别准确率的语音数据识别方法结合,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性;另一方面,先使用语音识别筛选各与会的终端设备的音频数据,再使用RMS值评估声音中的能量值,可以大大减少对有效语音的误判,规避了嘈杂的环境噪声,背景音乐等情况带来的影响。
下面参见图5,图5示出了根据本发明具体实施例的确定设定发言终端的流程图。在根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值之后还可以执行如下步骤:
步骤S171:判断各所述与会的终端设备中是否存在设定发言终端;
若各所述与会的终端设备中不存在设定发言终端,则执行步骤S172:将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端;
若各所述与会的终端设备中存在设定发言终端,则执行步骤S173:判断是否满足该设定发言终端的音频数据为语音数据,且该设定发言终端的语音能量值不为零;
若满足该设定发言终端的音频数据为语音数据,且该设定发言终端的语音能量值不为零,则执行步骤S174:不对所述设定发言终端进行变更;
若该设定发言终端的音频数据不为语音数据,或者该设定发言终端的语音能量值为零时,则执行步骤S175:将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端。
由此,通过设定发言终端为优选的终端,从而在各与会的终端设备中,着重突出这一路音频输出,或将此路视频放大,头像进行闪烁显示等等,保证了发言人在发言过程中的连续性。不会出现由于其他与会的终端设备的“私下讨论”声音盖过发言人声音而打断发言人说话的情况。
进一步地,本发明实现了智能语音激励会议,降低了对参会人员的会议操作技术要求,不用设置专门的会管,就可以满足远程教育,个人演讲等会议场景的要求。
以上示例性地示出本发明的多个实现方式,本发明并非以此为限制,各实施方式中,步骤的增加、省略、顺序变换皆在本发明的保护范围之内;各实施方式可以单独或组合来实现。
下面结合图6描述本发明提供的语音数据识别装置200。语音数据识别装置200包括接收模块210以及语音识别模块220。
接收模块210配置成接收终端设备发送的音频数据;
语音识别模块220配置成配置成将该终端设备的音频数据作为一经训练的语音识别模型的输入;采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,所述定点浮点转换步骤包括:在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
本发明提供的语音数据识别装置中,一方面,采用经训练的语音识别模型,对该终端设备的音频数据进行计算,以根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据,在应用至背景噪音较大的场景中时,相比背景技术部分的语音端点检测算法及其改进,具有更高的识别准确率;另一方面,在执行语音识别时,考虑到系统的负载均衡,在语音识别模型中的至少部分计算单元中执行顶点浮点转化的步骤,从而避免数据饱和溢出的同时,便于运算的并行执行,从而提高语音识别模型的执行效率,降低系统资源消耗。
下面结合图7描述本发明提供的多人会议的语音激励装置300。多人会议的语音激励装置300包括语音数据识别装置310以及计算模块320。
语音数据识别装置310配置成采用如上所述的语音数据识别方法,识别与会的终端设备的音频数据是否为语音数据;
计算模块320配置成当识别该与会的终端设备的音频数据为语音数据时,根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值。
本发明提供的语音数据识别装置中,一方面与具有更高的识别准确率的语音数据识别方法结合,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性;另一方面,先使用语音识别筛选各与会的终端设备的音频数据,再使用RMS值评估声音中的能量值,可以大大减少对有效语音的误判,规避了嘈杂的环境噪声,背景音乐等情况带来的影响。
本发明可以通过软件、硬件、固件及其任意结合的方式实现语音数据识别装置200和/或多人会议的语音激励装置300。图6和图7仅仅是示意性的示出本发明提供的语音数据识别装置200和/或多人会议的语音激励装置300,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述语音数据识别方法和/或多人会议的语音激励方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,若所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述语音数据识别方法和/或多人会议的语音激励方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适若的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述语音数据识别方法和/或多人会议的语音激励方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的电子设备600。图9显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述语音数据识别方法和/或多人会议的语音激励方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应若明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述语音数据识别方法和/或多人会议的语音激励方法。
由此可见,本发明提供的方案,与现有技术相比,具有如下优势:
1)采用经训练的语音识别模型,对该与会终端的音频数据进行计算,以根据所述经训练的语音识别模型的计算结果判断该与会终端的音频数据是否为语音数据,在应用至背景噪音较大的场景中时,相比背景技术部分的语音端点检测算法及其改进,具有更高的识别准确率,从而与语音激励技术结合进行多人会议,以保证会议进行的稳定性;
2)在执行语音识别时,考虑到系统的负载均衡,在语音识别模型中的至少部分计算单元中执行顶点浮点转化的步骤,从而避免数据饱和溢出的同时,便于运算的并行执行,从而提高语音识别模型的执行效率,降低系统资源消耗。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种语音数据识别方法,其特征在于,包括:
接收终端设备发送的音频数据;
将该终端设备的音频数据作为一经训练的语音识别模型的输入;
采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,所述定点浮点转换步骤包括:
在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;
在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;
根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
2.如权利要求1所述的语音数据识别方法,其特征在于,所述语音识别模型为序列神经网络模型,所述序列神经网络模型的计算单元至少包括更新单元和/或隐藏层计算单元,其中,所述更新单元和/或隐藏层计算单元执行所述定点浮点转换步骤。
3.如权利要求1所述的语音数据识别方法,其特征在于,所述定点浮点转换步骤由浮点数字信号处理芯片执行。
4.如权利要求3所述的语音数据识别方法,其特征在于,至少部分所述计算单元对输入该计算单元的数据并行执行乘法、加法、减法中的一种或多种运算。
5.如权利要求1至4任一项所述的语音数据识别方法,其特征在于,所述语音识别模型训练时,各计算单元不执行所述定点浮点转换步骤。
6.一种多人会议的语音激励方法,其特征在于,包括:
采用如权利要求1至5任一项所述的语音数据识别方法,识别与会的终端设备的音频数据是否为语音数据;
当识别该与会的终端设备的音频数据为语音数据时,根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值。
7.如权利要求6所述的多人会议的语音激励方法,其特征在于,所述根据该与会的终端设备的音频数据计算该与会的终端设备的语音能量值之后还包括:
判断各所述与会的终端设备中是否存在设定发言终端;
若各所述与会的终端设备中不存在设定发言终端,则将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端;
若各所述与会的终端设备中存在设定发言终端,则:
当该设定发言终端的音频数据为语音数据,且该设定发言终端的语音能量值不为零时,则不对所述设定发言终端进行变更;
当该设定发言终端的音频数据不为语音数据,或者该设定发言终端的语音能量值为零时,则将音频数据为语音数据,且所述语音能量值最高的与会的终端设备设置为设定发言终端。
8.一种语音数据识别装置,其特征在于,包括:
接收模块,配置成接收终端设备发送的音频数据;
语音识别模块,配置成将该终端设备的音频数据作为一经训练的语音识别模型的输入;
采用所述经训练的语音识别模型,对该终端设备的音频数据进行计算,其中,所述语音识别模型至少包括多个相接的计算单元,至少部分计算单元执行定点浮点转换步骤,所述定点浮点转换步骤包括:
在执行计算之前,将输入该计算单元的数据自定点数转换为浮点数;
在执行计算之后,将输出的浮点数转换为定点数以输出至下一计算单元;
根据所述经训练的语音识别模型的计算结果判断该终端设备的音频数据是否为语音数据。
9.一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至5任一项所述的语音数据识别方法;和/或如权利要求6至7任一项所述的多人会议的语音激励方法。
10.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的语音数据识别方法;和/或如权利要求6至7任一项所述的多人会议的语音激励方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042332.8A CN112185360B (zh) | 2020-09-28 | 2020-09-28 | 语音数据识别方法、多人会议的语音激励方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042332.8A CN112185360B (zh) | 2020-09-28 | 2020-09-28 | 语音数据识别方法、多人会议的语音激励方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112185360A true CN112185360A (zh) | 2021-01-05 |
CN112185360B CN112185360B (zh) | 2024-07-02 |
Family
ID=73943878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011042332.8A Active CN112185360B (zh) | 2020-09-28 | 2020-09-28 | 语音数据识别方法、多人会议的语音激励方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185360B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101867768A (zh) * | 2010-05-31 | 2010-10-20 | 杭州华三通信技术有限公司 | 一种视频会议会场画面控制方法及其装置 |
CN102131071A (zh) * | 2010-01-18 | 2011-07-20 | 华为终端有限公司 | 视频画面切换的方法和装置 |
CN102857732A (zh) * | 2012-05-25 | 2013-01-02 | 华为技术有限公司 | 一种多画面视讯会议中的画面控制方法、设备及系统 |
CN106409309A (zh) * | 2016-10-21 | 2017-02-15 | 深圳市音络科技有限公司 | 一种音质增强的方法和麦克风 |
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110276447A (zh) * | 2018-03-14 | 2019-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
CN111488976A (zh) * | 2019-01-28 | 2020-08-04 | 中科寒武纪科技股份有限公司 | 神经网络计算装置、神经网络计算方法及相关产品 |
-
2020
- 2020-09-28 CN CN202011042332.8A patent/CN112185360B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102131071A (zh) * | 2010-01-18 | 2011-07-20 | 华为终端有限公司 | 视频画面切换的方法和装置 |
CN101867768A (zh) * | 2010-05-31 | 2010-10-20 | 杭州华三通信技术有限公司 | 一种视频会议会场画面控制方法及其装置 |
CN102857732A (zh) * | 2012-05-25 | 2013-01-02 | 华为技术有限公司 | 一种多画面视讯会议中的画面控制方法、设备及系统 |
CN106409309A (zh) * | 2016-10-21 | 2017-02-15 | 深圳市音络科技有限公司 | 一种音质增强的方法和麦克风 |
CN110276447A (zh) * | 2018-03-14 | 2019-09-24 | 上海寒武纪信息科技有限公司 | 一种计算装置及方法 |
CN111488976A (zh) * | 2019-01-28 | 2020-08-04 | 中科寒武纪科技股份有限公司 | 神经网络计算装置、神经网络计算方法及相关产品 |
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
SIBO TONG 等: "A comparative study of robustness of deep learning approaches for VAD", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》, pages 1 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN112185360B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11158304B2 (en) | Training method of speech signal processing model with shared layer, electronic device and storage medium | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
US8428946B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US7418383B2 (en) | Noise robust speech recognition with a switching linear dynamic model | |
KR20140147587A (ko) | Wfst를 이용한 음성 끝점 검출 장치 및 방법 | |
CN111640456B (zh) | 叠音检测方法、装置和设备 | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
CN108922553A (zh) | 用于音箱设备的波达方向估计方法及系统 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN113450771B (zh) | 唤醒方法、模型训练方法和装置 | |
EP2745293B1 (en) | Signal noise attenuation | |
Shi et al. | Spectrograms fusion-based end-to-end robust automatic speech recognition | |
CN114596870A (zh) | 实时音频处理方法和装置、计算机存储介质、电子设备 | |
Gamper et al. | Predicting word error rate for reverberant speech | |
US10650803B2 (en) | Mapping between speech signal and transcript | |
CN113113038A (zh) | 回声消除方法、装置及电子设备 | |
CN116580713A (zh) | 一种车载语音识别方法、装置、设备和存储介质 | |
CN112951219A (zh) | 噪声拒识方法和装置 | |
CN112185360B (zh) | 语音数据识别方法、多人会议的语音激励方法及相关设备 | |
CN116306889A (zh) | 模型训练方法、装置、电子设备及介质 | |
CN115101088A (zh) | 音频信号恢复方法、装置、电子设备及介质 | |
Zhang et al. | Incorporating phase-encoded spectrum masking into speaker-independent monaural source separation | |
WO2021062705A1 (zh) | 一种单声道鲁棒性的语音关键词实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |