CN112151066A - 基于声音特征识别的语言冲突监测方法、介质及设备 - Google Patents
基于声音特征识别的语言冲突监测方法、介质及设备 Download PDFInfo
- Publication number
- CN112151066A CN112151066A CN202010929819.1A CN202010929819A CN112151066A CN 112151066 A CN112151066 A CN 112151066A CN 202010929819 A CN202010929819 A CN 202010929819A CN 112151066 A CN112151066 A CN 112151066A
- Authority
- CN
- China
- Prior art keywords
- sound
- signal
- voice
- short
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012544 monitoring process Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000013019 agitation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于声音特征识别的语言冲突监测方法、介质及设备,其中方法包括:提取每个历史语音数据对应的第一声音特征参数,并根据第一声音特征参数生成第一声音特征向量;根据第一声音特征向量训练得到语言冲突识别模型;对待检测语音数据进行预处理,以生成对应的短帧声音信号,并对短帧声音信号进行端点检测,以提取人声语音信号;对人声语音信号进行特征提取,以提取第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量;将第二声音特征向量输入到语言冲突识别模型中,以通过语言冲突识别模型判断待检测语音数据是否存在语言冲突;能够实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
Description
技术领域
本发明涉及语音监测技术领域,特别涉及一种基于声音特征识别的语言冲突监测方法、一种计算机可读存储介质以及一种计算机设备。
背景技术
在现实生活中,尤其对于服务行业而言,服务人员与客户之间发生语言冲突的事件时有发生,而如果管理人员对类似的语言冲突不加以及时制止的话;往往容易导致吵架甚至打架事件的发生,造成严重的后果。
相关技术中,多采用先将语音转换为文本,然后提取和识别文本是否存在不文明关键词的形式来判断语言冲突;然而,这种方式对于语言冲突的识别准确率低,并且,识别效率低下,难以有效制止冲突事件的发生。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于声音特征识别的语言冲突监测方法,能够实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
为达到上述目的,本发明第一方面实施例提出了一种基于声音特征识别的语言冲突监测方法,包括以下步骤:获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据所述第一声音特征参数生成第一声音特征向量;将所述第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;获取待检测语音数据,并对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号;对所述人声语音信号进行特征提取,以提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量;将所述第二声音特征向量输入到所述语言冲突识别模型中,以通过所述语言冲突识别模型判断所述待检测语音数据是否存在语言冲突。
根据本发明实施例的基于声音特征识别的语言冲突监测方法,首先,获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据第一声音特征参数生成第一声音特征向量;接着,将第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;然后,获取待检测语音数据,并对待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以提取短帧声音信号中的人声语音信号;接着,对人声语音信号进行特征提取,以提取人声语音信号对应的第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量;然后,将第二声音特征向量输入到语言冲突识别模型中,以通过语言冲突识别模型判断待检测语音数据是否存在语言冲突;从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
另外,根据本发明上述实施例提出的基于声音特征识别的语言冲突监测方法还可以具有如下附加的技术特征:
可选地,所述第一声音特征参数包括:共振峰特征向量、短时平均能量特征和梅尔倒谱系数特征向量。
可选地,对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,包括:通过防混叠的模拟带通滤波器对所述待检测语音数据进行滤波,以生成模拟声音信号,并对所述模拟声音信号进行采样,以得到离散的时域声音信号;通过一阶FIR数字高通滤波器对所述时域声音信号进行提升,并对提升后的时域声音信号进行交叠分帧,以生成对应的短帧声音信号。
可选地,根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号,包括:获取所述短帧声音信号对应的频谱,并根据所述频谱中每个元音对应的频点所具有的平均能量值计算与其相隔半个共振峰频率跨度的两个相邻频点所具有平均能量值的差,以获取峰邻平均能量差;对所述峰邻平均能量差进行加权求和,以得到每个元音对应的PND值,并根据每个元音对应的PND值获取所述短帧声音信号中的最大PND值,以及根据多个短帧声音信号对应的最大PND值确定信号阈值;根据每个短帧声音信号对应的最大PND值和所述信号阈值判断该短帧声音信号中是否包含人声语音信号。
可选地,所述峰邻平均能量差、PND值、最大PND值和信号阈值根据以下公式计算:
其中,PND1,1(i)表示第一个元音的峰邻平均能量差,fmt1,1表示第一个元音的第一个共振峰频率,fmtL表示每个共振峰所跨越的最大频率范围;
其中,PNDm(i)表示PND值,w表示参数矩阵;
其中,PND(i)表示最大PND值;
可选地,提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量,包括:提取所述人声语音信号的共振峰特征参数,并计算所述人声语音信号的归一化短时平均能量,以及提取所述人声语音信号的梅尔倒谱系数特征向量;根据所述人声语音信号的共振峰特征参数、人声语音信号的归一化短时平均能量和所述人声语音信号的梅尔倒谱系数特征向量生成第二声音特征向量。
可选地,根据以下公式提取所述人声语音信号的梅尔倒谱系数特征向量:
FSPi(k)=|FFT(SPi(n))|2
其中,FSPi(k)表示能量谱函数,(SPi(n)表示人声语音信号,FFT表示快速傅里叶变换;
其中,FMi(m)表示梅尔滤波器,Hm(k)表示梅尔滤波器组系数;
FMi'(m)=lg(FMi(m))
其中,Cmfcci(j)表示第i帧人声语音信号的第j个梅尔频率倒谱系数;
其中,C(i)表示第i帧人声语音信号的梅尔频率倒谱系数均值;
其中,Dmfcci(j)表示第i帧人声语音信号的一阶差分梅尔频率倒谱系数,Dmfcci'(j)表示第i帧人声语音信号的二阶差分梅尔频率倒谱系数,T表示差分窗口的长度,;
其中,D(i)表示一阶差分梅尔频率倒谱系数的均值,D'(i)表示二阶差分梅尔频率倒谱系数的均值;
M(i)=[C(i),D(i),D'(i)]
其中,M(i)表示梅尔倒谱系数特征向量。
可选地,还包括:对所述第二声音特征向量进行存储,并根据存储的多个第二声音特征向量生成训练样本,以及根据所述训练样本对所述语言冲突识别模型进行更新。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于声音特征识别的语言冲突监测程序,该基于声音特征识别的语言冲突监测程序被处理器执行时实现如上述的基于声音特征识别的语言冲突监测方法。
根据本发明实施例的计算机可读存储介质,通过存储基于声音特征识别的语言冲突监测程序,以使得处理器在执行该基于声音特征识别的语言冲突监测程序时,实现如上述的基于声音特征识别的语言冲突监测方法从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如上述的基于声音特征识别的语言冲突监测方法。
根据本发明实施例的计算机设备,通过存储器对基于声音特征识别的语言冲突监测程序进行存储,以使得处理器在执行该基于声音特征识别的语言冲突监测程序时,实现如上述的基于声音特征识别的语言冲突监测方法从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
附图说明
图1为根据本发明实施例的基于声音特征识别的语言冲突监测方法的流程示意图;
图2为根据本发明实施例的不同状态下同一语音信号共振峰频谱对比示意图;
图3为根据本发明实施例的不同状态下归一化短时平均能量对比示意图;
图4为根据本发明实施例的不同状态下同一语音信号梅尔频率倒谱特征对比示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,在进行语言冲突的监测时,对于语言冲突的识别准确率低,并且,识别效率低下,难以有效制止冲突事件的发生;根据本发明实施例的基于声音特征识别的语言冲突监测方法,首先,获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据第一声音特征参数生成第一声音特征向量;接着,将第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;然后,获取待检测语音数据,并对待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以提取短帧声音信号中的人声语音信号;接着,对人声语音信号进行特征提取,以提取人声语音信号对应的第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量;然后,将第二声音特征向量输入到语言冲突识别模型中,以通过语言冲突识别模型判断待检测语音数据是否存在语言冲突;从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的基于声音特征识别的语言冲突监测方法的流程示意图,如图1所示,该基于声音特征识别的语言冲突监测方法包括以下步骤:
S101,获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据第一声音特征参数生成第一声音特征向量。
作为一种示例,历史语音数据包括男语音数据和女语音数据,而男语音数据和女语音数据中,分别包括:生气、高兴、害怕、悲伤、惊讶、平静等不同情绪下的语音数据;接着,选取合适的声音特征参数,以根据选取的声音特征参数对历史语音数据进行第一声音特征参数的提取,并根据第一声音特征参数生成第一声音特征向量。
其中,第一声音特征参数的选取方式可以有多种。
作为一种示例,第一声音特征参数包括:共振峰特征向量、短时平均能量特征和梅尔倒谱系数特征向量。
作为另一种示例,在人发生语言冲突时,情绪往往较为激动,使得声道的特性发生改变,从而导致人的声道即使在说出同一句话的时候也会产生差异,直观的表现就是语音信号的共振峰的变化。图2是在语音库中,人类在情绪激动与平静状态下对同一句话的语音信号的不同演绎所获得的共振峰频谱图。图的上半张是在平静状态下的共振峰频图谱,下半张是情绪愤怒时的共振峰频图谱。从图中可以看到,相比于平静状态下的共振峰频谱图,情绪激动状态下的第一共振峰(图中第一条红色虚线位置)出现的位置明显会靠后,并且第一共振峰的幅度较平静时会高出将近2dB。第二、三共振峰也会有小幅的提升。因此,可以选择语音信号第一、二、三共振峰的频率与幅度作为识别模型的输入参数有利于更好地识别语言冲突事件的发生;即言,将共振峰特征向量作为第一声音特征参数之一。
其次,语言冲突时,人的音量会不自觉提高,整个语句的短时能量会变大。更为突出的是重音点的幅值较平常会高很多甚至出现破音,这就导致重音点的能量会急剧增高,与非重音段形成极大的反差,进一步导致该语句的归一化短时平均能量会处于一个较低的值。图3是生活中常见的10句话在平静与愤怒时的归一化短时平均能量对比图。从图中可以看出,对于同一句话,愤怒情况下归一化短时平均能量都会低于平静状态。而且,数值基本上都在0.1以下,因此,选取短时平均能量特征作为第一声音特征参数之一。
然后,人类本身的听觉系统就可以很容易的辨认语言冲突的情况,而梅尔频率倒谱系数是基于语音人耳特性提出的一种谱特征。因此,通过梅尔频率倒谱系数(MFCC)也可以辅助进行对语言冲突情况的辨别。MFCC参数表述信号的静态特征,而差分MFCC则表征信号的动态特征,所以分别求取语音信号MFCC均值,差分MFCC均值,以及二阶差分MFCC均值。图4即为针对同一句话,激动和平静状态下语音信号的上述三个均值的对比图,从图中可以看出愤怒时三个均值的变化较为剧烈,且最大与最小值的差值较大。因此,将梅尔频率倒谱系数特征向量作为第一声音特征参数之一;从而,在得到三个第一声音特征参数之后,根据三个第一声音特征参数组成第一声音特征向量。
S102,将第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型。
作为一种示例,选取支持向量机作为识别模型,该支持向量机的计算过程简单,收敛速度快;在得到第一声音特征向量之后,将该第一声音特征向量输入到支持向量机中进行训练,以训练得到语言冲突识别模型,从而,后续可以根据训练得到的语言冲突识别模型对语音数据进行分类识别。
S103,获取待检测语音数据,并对待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以提取短帧声音信号中的人声语音信号。
也就是说,在监测环境中,通过用户身上配备的语音分析设备实时获取周边的声音环境,以获取待检测语音数据,然后,对待检测语音数据进行预处理,以生成对应的短帧声音信号;接着,根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以滤除其中的背景声音信号,以提取出短帧声音信号中的人声语音信号。
在一些实施例中,对待检测语音数据进行预处理,以生成对应的短帧声音信号,包括:通过防混叠的模拟带通滤波器对待检测语音数据进行滤波,以生成模拟声音信号,并对模拟声音信号进行采样,以得到离散的时域声音信号;通过一阶FIR数字高通滤波器对时域声音信号进行提升,并对提升后的时域声音信号进行交叠分帧,以生成对应的短帧声音信号。
作为一种示例,假设待检测语音数据为S(t),首先,对S(t)使用一个防混叠的带通滤波器将集中在300-3400Hz内的语音信号的频谱分量提取出来,以去除带外噪声的干扰,防止混叠失真,得到滤波后的模拟声音信号Sf(t);接着,通过模数转换器(AD)对滤波后的模拟声音信号Sf(t)进行采样,得到离散的时域声音信号Sf(n),其中n=1,2,3…NsamMAX,NsamMAX是最大采样点数;根据奈奎斯特准则,采样率大于等于7.8KHz,实际中的采样率通常采用8KHz;然后,将步骤3-2中获得的离散的时域声音信号Sf(n)通过一个一阶FIR数字高通滤波器,对Sf(n)的高频分量幅度进行适当的提升,其中FIR滤波器的传递函数为可以表示为:
H(z)=1-αz-1
上式中,α为预加重系数,0.9<α<1。由此,通过预加重后得到的声音信号Sp-em(n),其可表示为:
Sp-em(n)=Sf(n)-αSf(n-1)
可以理解,人发音时,语音会受到口鼻辐射和声门激励等影响,致使800Hz以上的语音信号呈现6dB每频程的衰减趋势,导致高频部分的频谱特性被弱化,因此需要对上述离散的时域语音信号进行预加重处理,使得其能够按照6dB/octd的比例对信号加以加重,放大语音信号的高频分量,使得输出信号的频谱更加均匀。
接着,根据人类的声音特征会在10-30ms内保持平稳的特性,需要对上述取的对上述预加重处理后的数字声音信号Sp-em(n)进行交叠分帧,使之成为30ms左右的小片段,便于更好的提取其稳定的声音特征。分帧的方式通过滑动窗的方式来实现,这里采用汉明窗作为滑动窗函数,其中汉明窗函数可以表示如下:
上式中L为汉明窗的长度,也是分帧后每一帧声音信号的最大长度。经由滑动汉明窗处理即可得到第i帧短帧声音信号Si(n)如下式所示,其中i=1,2,3…N,表示第i帧的声音信号,N是将Sp-em(n)进行分帧后的最大帧数。
在一些实施例中,根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以提取短帧声音信号中的人声语音信号,包括:获取短帧声音信号对应的频谱,并根据频谱中每个元音对应的频点所具有的平均能量值计算与其相隔半个共振峰频率跨度的两个相邻频点所具有平均能量值的差,以获取峰邻平均能量差;对峰邻平均能量差进行加权求和,以得到每个元音对应的PND值,并根据每个元音对应的PND值获取短帧声音信号中的最大PND值,以及根据多个短帧声音信号对应的最大PND值确定信号阈值;根据每个短帧声音信号对应的最大PND值和信号阈值判断该短帧声音信号中是否包含人声语音信号。
在一些实施例中,峰邻平均能量差、PND值、最大PND值和信号阈值根据以下公式计算:
其中,PND1,1(i)表示第一个元音的峰邻平均能量差,fmt1,1表示第一个元音的第一个共振峰频率,fmtL表示每个共振峰所跨越的最大频率范围;
其中,PNDm(i)表示PND值,w表示参数矩阵;
其中,PND(i)表示最大PND值;
S104,对人声语音信号进行特征提取,以提取人声语音信号对应的第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量。
在一些实施例中,提取人声语音信号对应的第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量,包括:提取人声语音信号的共振峰特征参数,并计算人声语音信号的归一化短时平均能量,以及提取人声语音信号的梅尔倒谱系数特征向量;根据人声语音信号的共振峰特征参数、人声语音信号的归一化短时平均能量和人声语音信号的梅尔倒谱系数特征向量生成第二声音特征向量。
作为一种示例,语音信号谱包络中包含有共振峰信息,其最大值就是共振峰,提取共振峰特征参数,其实就是估计语音信号的频谱包络。提取共振峰特征参数有线性预测法和倒谱法。其中,线性预测法(LPC)包含用内插的方法(内插法)和用线性预测系数求取复数根的方法(求根法)。本发明使用标准的求根法求取共振峰参数并选取共振峰峰值的第一、二、三共振峰频率以及相应频率位置的幅度作为提取的特征参数,组成共振峰特征向量记为Formants(i)=[F1(i),F2(i),F3(i)],式中每个共振峰信息包含频率和幅度两个分量。由于求根法是业界用来计算共振峰的通用方法,这里就不再赘述。
作为另一种示例,求取第i帧人声语音信号SPi(n)的归一化短时平均能量E(i)。首先短时能量的定义是一帧样点值的加权平方求和,考虑到不同的语音输入信号可能整体的音量会有波动,为了减少输入信号音量不一致所带来的影响,这里对短时能量进行归一化处理,即将获取的每帧信号的短时能量除以该帧信号中的能量最大样点的能量值E(i)max。再考虑到尾帧的长度可能与正常帧的长度略有不同,导致短时能量偏小的问题,进一步对归一化短时能量取平均数,从而得到第i帧人声语音信号的归一化短时平均能量E(i)如下式表示:
在上式子中,L是第i帧声音信号的总长度。
在一些实施例中,根据以下公式提取人声语音信号的梅尔倒谱系数特征向量:
FSPi(k)=|FFT(SPi(n))|2
其中,FSPi(k)表示能量谱函数,(SPi(n)表示人声语音信号,FFT表示快速傅里叶变换;
其中,FMi(m)表示梅尔滤波器,Hm(k)表示梅尔滤波器组系数;
FMi'(m)=lg(FMi(m))
其中,Cmfcci(j)表示第i帧人声语音信号的第j个梅尔频率倒谱系数;
其中,C(i)表示第i帧人声语音信号的梅尔频率倒谱系数均值;
其中,Dmfcci(j)表示第i帧人声语音信号的一阶差分梅尔频率倒谱系数,Dmfcci'(j)表示第i帧人声语音信号的二阶差分梅尔频率倒谱系数,T表示差分窗口的长度,;
其中,D(i)表示一阶差分梅尔频率倒谱系数的均值,D'(i)表示二阶差分梅尔频率倒谱系数的均值;
M(i)=[C(i),D(i),D'(i)]
其中,M(i)表示梅尔倒谱系数特征向量。
S105,将第二声音特征向量输入到语言冲突识别模型中,以通过语言冲突识别模型判断待检测语音数据是否存在语言冲突。
即言,将第二声音特征向量输入到预先训练好的语言冲突识别模型中,以通过该语言冲突识别模型判断待检测语音数据是否存在语言冲突。
在一些实施例中,为了进一步提高本发明实施例所提出的基于声音特征识别的语言冲突监测方法的识别精度,该方法还包括:对第二声音特征向量进行存储,并根据存储的多个第二声音特征向量生成训练样本,以及根据训练样本对语言冲突识别模型进行更新。
即言,通过对获取到的第二声音特征向量进行存储,以通过存储的第二声音特征向量作为训练样本进行语言冲突识别模型的更新,从而,可以使得识别模型的判断结果随着监测时间的增长而更加地准确。
根据本发明实施例的基于声音特征识别的语言冲突监测方法,首先,获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据第一声音特征参数生成第一声音特征向量;接着,将第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;然后,获取待检测语音数据,并对待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对短帧声音信号进行端点检测,以提取短帧声音信号中的人声语音信号;接着,对人声语音信号进行特征提取,以提取人声语音信号对应的第二声音特征参数,并根据第二声音特征参数生成第二声音特征向量;然后,将第二声音特征向量输入到语言冲突识别模型中,以通过语言冲突识别模型判断待检测语音数据是否存在语言冲突;从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有基于声音特征识别的语言冲突监测程序,该基于声音特征识别的语言冲突监测程序被处理器执行时实现如上述的基于声音特征识别的语言冲突监测方法。
根据本发明实施例的计算机可读存储介质,通过存储基于声音特征识别的语言冲突监测程序,以使得处理器在执行该基于声音特征识别的语言冲突监测程序时,实现如上述的基于声音特征识别的语言冲突监测方法从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如上述的基于声音特征识别的语言冲突监测方法。
根据本发明实施例的计算机设备,通过存储器对基于声音特征识别的语言冲突监测程序进行存储,以使得处理器在执行该基于声音特征识别的语言冲突监测程序时,实现如上述的基于声音特征识别的语言冲突监测方法从而实现对语言冲突的准确识别,并且,识别效率高,进而防止冲突事件的发生。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于声音特征识别的语言冲突监测方法,其特征在于,包括以下步骤:
获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据所述第一声音特征参数生成第一声音特征向量;
将所述第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;
获取待检测语音数据,并对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号;
对所述人声语音信号进行特征提取,以提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量;
将所述第二声音特征向量输入到所述语言冲突识别模型中,以通过所述语言冲突识别模型判断所述待检测语音数据是否存在语言冲突。
2.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,所述第一声音特征参数包括:共振峰特征向量、短时平均能量特征和梅尔倒谱系数特征向量。
3.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,包括:
通过防混叠的模拟带通滤波器对所述待检测语音数据进行滤波,以生成模拟声音信号,并对所述模拟声音信号进行采样,以得到离散的时域声音信号;
通过一阶FIR数字高通滤波器对所述时域声音信号进行提升,并对提升后的时域声音信号进行交叠分帧,以生成对应的短帧声音信号。
4.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号,包括:
获取所述短帧声音信号对应的频谱,并根据所述频谱中每个元音对应的频点所具有的平均能量值计算与其相隔半个共振峰频率跨度的两个相邻频点所具有平均能量值的差,以获取峰邻平均能量差;
对所述峰邻平均能量差进行加权求和,以得到每个元音对应的PND值,并根据每个元音对应的PND值获取所述短帧声音信号中的最大PND值,以及根据多个短帧声音信号对应的最大PND值确定信号阈值;
根据每个短帧声音信号对应的最大PND值和所述信号阈值判断该短帧声音信号中是否包含人声语音信号。
6.如权利要求1-5中任一项所述的基于声音特征识别的语言冲突监测方法,其特征在于,提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量,包括:
提取所述人声语音信号的共振峰特征参数,并计算所述人声语音信号的归一化短时平均能量,以及提取所述人声语音信号的梅尔倒谱系数特征向量;
根据所述人声语音信号的共振峰特征参数、人声语音信号的归一化短时平均能量和所述人声语音信号的梅尔倒谱系数特征向量生成第二声音特征向量。
7.如权利要求6所述的基于声音特征识别的语言冲突监测方法,其特征在于,根据以下公式提取所述人声语音信号的梅尔倒谱系数特征向量:
FSPi(k)=|FFT(SPi(n))|2
其中,FSPi(k)表示能量谱函数,(SPi(n)表示人声语音信号,FFT表示快速傅里叶变换;
其中,FMi(m)表示梅尔滤波器,Hm(k)表示梅尔滤波器组系数;
FMi'(m)=lg(FMi(m))
其中,Cmfcci(j)表示第i帧人声语音信号的第j个梅尔频率倒谱系数;
其中,C(i)表示第i帧人声语音信号的梅尔频率倒谱系数均值;
其中,Dmfcci(j)表示第i帧人声语音信号的一阶差分梅尔频率倒谱系数,Dmfcci'(j)表示第i帧人声语音信号的二阶差分梅尔频率倒谱系数,T表示差分窗口的长度,;
其中,D(i)表示一阶差分梅尔频率倒谱系数的均值,D'(i)表示二阶差分梅尔频率倒谱系数的均值;
M(i)=[C(i),D(i),D'(i)]
其中,M(i)表示梅尔倒谱系数特征向量。
8.如权利要求1-5中任一项所述的基于声音特征识别的语言冲突监测方法,其特征在于,还包括:
对所述第二声音特征向量进行存储,并根据存储的多个第二声音特征向量生成训练样本,以及根据所述训练样本对所述语言冲突识别模型进行更新。
9.一种计算机可读存储介质,其特征在于,其上存储有基于声音特征识别的语言冲突监测程序,该基于声音特征识别的语言冲突监测程序被处理器执行时实现如权利要求1-8中任一项所述的基于声音特征识别的语言冲突监测方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-8中任一项所述的基于声音特征识别的语言冲突监测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929819.1A CN112151066A (zh) | 2020-09-07 | 2020-09-07 | 基于声音特征识别的语言冲突监测方法、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929819.1A CN112151066A (zh) | 2020-09-07 | 2020-09-07 | 基于声音特征识别的语言冲突监测方法、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151066A true CN112151066A (zh) | 2020-12-29 |
Family
ID=73889337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010929819.1A Pending CN112151066A (zh) | 2020-09-07 | 2020-09-07 | 基于声音特征识别的语言冲突监测方法、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151066A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113520393A (zh) * | 2021-06-08 | 2021-10-22 | 深圳市镜象科技有限公司 | 冲突事件的检测方法、装置、可穿戴设备及存储介质 |
CN116801456A (zh) * | 2023-08-22 | 2023-09-22 | 深圳市创洺盛光电科技有限公司 | Led灯具的智能化控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115033A (ko) * | 2009-04-17 | 2010-10-27 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
CN106531195A (zh) * | 2016-11-08 | 2017-03-22 | 北京理工大学 | 一种对话冲突检测方法及装置 |
US20170133041A1 (en) * | 2014-07-10 | 2017-05-11 | Analog Devices Global | Low-complexity voice activity detection |
CN111326172A (zh) * | 2018-12-17 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 冲突检测方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-09-07 CN CN202010929819.1A patent/CN112151066A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115033A (ko) * | 2009-04-17 | 2010-10-27 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
US20170133041A1 (en) * | 2014-07-10 | 2017-05-11 | Analog Devices Global | Low-complexity voice activity detection |
CN106531195A (zh) * | 2016-11-08 | 2017-03-22 | 北京理工大学 | 一种对话冲突检测方法及装置 |
CN111326172A (zh) * | 2018-12-17 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 冲突检测方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
IN-CHUL YOO ET AL.: "《Formant-Based Robust Voice Activity Detection》", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, vol. 23, no. 12, pages 2238 - 2245 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113520393A (zh) * | 2021-06-08 | 2021-10-22 | 深圳市镜象科技有限公司 | 冲突事件的检测方法、装置、可穿戴设备及存储介质 |
CN113520393B (zh) * | 2021-06-08 | 2022-01-21 | 深圳市镜象科技有限公司 | 冲突事件的检测方法、装置、可穿戴设备及存储介质 |
CN116801456A (zh) * | 2023-08-22 | 2023-09-22 | 深圳市创洺盛光电科技有限公司 | Led灯具的智能化控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410623B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN108682432B (zh) | 语音情感识别装置 | |
JPH10133693A (ja) | 音声認識装置 | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
CA2483607C (en) | Syllabic nuclei extracting apparatus and program product thereof | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Prakash et al. | Fourier-Bessel cepstral coefficients for robust speech recognition | |
Omar et al. | Feature fusion techniques based training MLP for speaker identification system | |
JP2007328288A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Singh et al. | A comparative study on feature extraction techniques for language identification | |
Chen et al. | Teager Mel and PLP fusion feature based speech emotion recognition | |
Bonifaco et al. | Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction | |
JP2008224911A (ja) | 話者認識システム | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Mahesha et al. | Vector Quantization and MFCC based classification of Dysfluencies in Stuttered Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |