CN106531195B - 一种对话冲突检测方法及装置 - Google Patents

一种对话冲突检测方法及装置 Download PDF

Info

Publication number
CN106531195B
CN106531195B CN201610983739.8A CN201610983739A CN106531195B CN 106531195 B CN106531195 B CN 106531195B CN 201610983739 A CN201610983739 A CN 201610983739A CN 106531195 B CN106531195 B CN 106531195B
Authority
CN
China
Prior art keywords
signal segment
speech signal
dialogue
speech
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610983739.8A
Other languages
English (en)
Other versions
CN106531195A (zh
Inventor
谢湘
肖艳红
徐利强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201610983739.8A priority Critical patent/CN106531195B/zh
Publication of CN106531195A publication Critical patent/CN106531195A/zh
Application granted granted Critical
Publication of CN106531195B publication Critical patent/CN106531195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明公开了一种对话冲突检测方法及装置,应用于电子设备,该方法包括:针对待检测语音信号,将待检测语音信号划分为多个语音信号片段;针对每个语音信号片段,确定该第一语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值和方差,并识别该第一语音信号片段的无声段持续时间;并根据对话冲突检测模型确定当前待检测语音信号片段的冲突等级;根据冲突等级判断该语音信号片段是否为对话冲突语音片段。由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段基因频率的均值、方差及极差等少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。

Description

一种对话冲突检测方法及装置
技术领域
本发明涉及音视频处理技术领域,特别涉及一种对话冲突检测方法及装置。
背景技术
随着我国经济的飞速发展,民众对衣食住行体验的要求越来越高,而先进的语音检测系统是提高民众体验的一种有效途径。对话冲突检测系统更是语音检测系统中的关键,而且对话冲突检测系统不仅可以提取语音中的对话冲突片段,减少语音剪切中的工作量和提高准确性,还可以根据对话冲突检测识别出情绪的变化,在情感识别,智能监控等领域有广阔的应用前景。
目前语音检测领域在进行对话冲突检测时,将待检测的语音信号划分为多个语音信号片段,对待检测的语音信号片段中的每个语音帧提取基因频率和多维语音特征参数,得到动辄成千上万维的参数,在对语音信号片段进行判断时,根据对话冲突检测模型,确定每个语音信号片段的冲突等级时,需要对成千上万维的参数进行运算,造成计算量过大,效率低、反应速度慢的问题。
发明内容
本发明提供一种对话冲突检测方法及装置,用以解决现有技术中对话冲突检测时,运算的参数量过多,造成计算量过大,效率低、反应速度慢的问题。
为达到上述目的,本发明实施例公开了一种对话冲突检测方法,该方法包括:
针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段;
针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
进一步地,预先对所述对话冲突检测模型的训练过程包括:
针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;
根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;
将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
进一步地,所述对所述对话冲突检测模型进行训练包括:
采用支持向量机SVM方法,对所述对话冲突检测模型进行训练;或,
采用极限学习机ELM方法,对所述对话冲突检测模型进行训练。
进一步地,所述根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段包括:
识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;
如果是,确定该第一语音信号片段为对话冲突语音信号片段;
如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
进一步地,所述确定提取的该第一语音信号片段中每个语音帧的基因频率的极值包括:
确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;
并根据所述最大值和最小值,确定该第一语音信号片段的极差。
进一步地,提取该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数之前,所述方法还包括:
针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
进一步地,所述针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧包括:
针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
进一步地,所述将该第一语音信号片段划分为多个语音帧之后,所述方法还包括:
对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
本发明实施例公开了一种对话冲突检测装置,应用于电子设备,所述装置包括:
划分模块,用于针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段;
判断模块,用于针对每个第一语音信号片段,针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
进一步地,所述装置还包括:
训练模块,用于针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
进一步地,所述判断模块,具体用于识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;如果是,确定该第一语音信号片段为对话冲突语音信号片段;如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
进一步地,所述判断模块,具体用于确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;并根据所述最大值和最小值,确定该第一语音信号片段的极差。
进一步地,所述划分模块,还用于针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
进一步地,所述划分模块,具体用于针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
进一步地,所述装置还包括:
过滤模块,用于对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
本发明实施例公开了一种对话冲突检测方法及装置,应用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的语音信号片段;针对每个语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间这些少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种对话冲突检测过程示意图;
图2为本发明实施例3提供的一种对话冲突检测过程示意图;
图3为本发明实施例5提供的一种对话冲突检测过程示意图;
图4为本发明实施例6提供的一种对话冲突检测装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的一种对话冲突检测过程示意图,该过程包括:
S101:针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段。
本发明实施例提供的笑声检测方法应用于电子设备,该电子设备可以为音频采集设备,如录音笔、录音机等,也可以是手机、平板电脑、个人电脑等设备。
在实际对话中,对话者的对话冲突可能是连续的,也可能是分散的,而体现在语音信号中,可能就是语音信号中某一段连续的语音信号段存在对话冲突,或者语音信号中一些分散的语音信号段存在对话冲突。在本发明实施例中,为了提高对话冲突检测的准确性,将待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段,针对每个第一语音信号片段检测该第一语音信号片段中是否存在对话冲突,即检测该第一语音信号片段是否为对话冲突语音信号片段。
具体的,针对待检测的语音信号,将所述待检测的语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段,该设定的时长阈值可以是40秒、30秒等,具体的,可以根据检测时需要的精度设定。每个第一语音信号片段的长度可以相同,或不同,每个第一语音信号片段的长度只要不大于设定时长阈值即可。
S102:针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)及一阶二阶差分特征参数,确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间。
具体的,针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数,并根据该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数,确定该第一语音信号片段的基因频率的均值、方差及极值,并确定MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间。即根据上述操作可以得到每个第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值、方差,以及该第一语音信号片段的无声段持续时间这些参数。
在本发明实施例中识别第一语音信号片段的无声段持续时间和提取第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数,属于现有技术,在本发明实施例中对该过程不进行赘述。
S103:根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级。
在本发明实施例中,预先对对话冲突检测模型进行训练,并且在对对话冲突检测模型进行训练时,也是根据训练集中每个语音信号片段对应的基因频率的均值、方差、及极值,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间,对对话冲突检测模型训练完成的。训练完成的对话冲突检测模型可以根据输入的语音信号片段对应的基因频率的均值、方差、及极值,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间,确定输入的语音信号片段的对话冲突等级。
S104:根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
具体的,当该第一语音信号片段的对话冲突等级大于设定阈值时,则说明该第一语音信号片段中存在对话冲突,判断该第一语音信号片段为对话冲突语音信号片段。
由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间这些少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。
实施例2:
本发明实施例中的对话冲突检测模型是根据训练集中的每个语音信号片段训练得到的,在本发明实施例中,预先对所述对话冲突检测模型的训练过程包括:
针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;
根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;
将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
在本发明实施例中,训练集中保存着大量由语音信号划分的,长度相同或者不同,但都不大于设定时长阈值的,已知对话冲突等级的第二语音信号片段。
具体的,训练集中包含大量的已知对话冲突等级的第二语音信号片段,针对每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间。
根据每个第二语音信号片段的冲突等级,为每个第二语音信号片段添加相应的冲突等级标签,将所述添加标签后的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。具体的,对对话冲突检测模型进行训练的过程属于现有技术,在本发明实施例中对该过程不在进行赘述。
对话冲突检测模型训练完成后,当语音信号片段的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间输入到对话冲突检测模型后,对话冲突检测模型可以识别该语音信号片段的对话冲突等级,确定该语音信号片段的对话冲突等级。
在本发明实施例中,对所述对话冲突检测模型进行训练包括:
采用支持向量机(Support Vector Machine,SVM)方法,对所述对话冲突检测模型进行训练;或,
采用极限学习机(Extreme Learning Machine,ELM)方法,对所述对话冲突检测模型进行训练。
在本发明实施例中使用支持向量机SVM或极限学习机ELM,属于现有技术,在本发明实施例中对该过程不再进行叙述。为了在不降低检测精度的前提下,提高训练的效率,在本发明实施例中可以采用ELM方法对对话冲突检测模型进行训练。
实施例3:
当语音信号片段的对话冲突等级大于设定阈值时,则可以判定该语音信号片段为对话冲突语音信号片段,所述根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段包括:
识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;
如果是,确定该第一语音信号片段为对话冲突语音信号片段;
如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
图2为本发明实施例提供的一种对话冲突检测过程示意图,该过程如下:
S201:针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段。
S202:针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数,确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间。
S203:根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级。
S204:识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值,如果是,进行S205,如果否,进行S206。
S205:确定该第一语音信号片段为对话冲突语音信号片段。
S206:确定该第一语音信号片段不为对话冲突语音信号片段。
实施例4:
为了提高检测的准确性,在上述各实施例的基础上,在本发明实施例中,所述确定提取的该第一语音信号片段中每个语音帧的基因频率的极值包括:
确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;
并根据所述最大值和最小值,确定该第一语音信号片段的极差。
具体的,根据提取的该第一语音信号片段中每个语音帧的基因频率,确定提取的该第一语音信号片段中每个语音帧的基因频率中的最大值、最小值,并根据所述基因频率的最大值、最小值,确定该第一语音信号片段的极差。
实施例5:
为了提高检测的准确性,在上述各实施例的基础上,在本发明实施例中提取该第一语音信号片段中每个语音帧的基因频率及语音特征参数之前,所述方法还包括:
针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
具体的,针对每个第一语音信号片段进行分帧处理,将该第一语音信号片段划分为多个语音帧,针对每个第一语音信号片段进行分帧处理是现有技术,在本发明实施例中不在进行赘述。
为了提高检测的准确性,避免语音信号片段字长及其中的静音帧和噪声帧对检测过程进行干扰,所述针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧包括:
针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
所述将该第一语音信号片段划分为多个语音帧之后,所述方法还包括:
对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
具体的,为了缓解高频信号的衰减,减少高频信号的损失,从而使信号的频谱更加平坦,在对第一语音信号片段进行分帧处理之前,首先对第一语音信号片段进行预加重处理,即使第一语音信号片段通过一个一阶有限的激励加响应高通滤波器,使信号变得平坦,对处理过的第一语音信号片段进行处理,将其划分为多个语音帧。对第一语音信号片段进行预加重处理及分帧处理的过程是现有技术,在本发明实施例中对此不在进行赘述。
将第一语音信号片段划分为多个语音帧后,对每个语音帧进行端点检测,找出每个语音帧中语音的开始和终止点,从而去除语音帧中的噪声帧和静音帧。对语音帧进行端点检测,去除语音帧中的噪声帧和静音帧属于现有技术,在本发明实施例中对该过程不进行说明。
图3为本发明实施例提供的一种对话冲突检测过程示意图,该过程包括:
S301:针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段。
S302:针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧;对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
S303:提取该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数,确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间。
S304:根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级。
S305:识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值,如果是,进行S306,如果否,进行S307。
S306:确定该第一语音信号片段为对话冲突语音信号片段。
S307:确定该第一语音信号片段不为对话冲突语音信号片段。
实施例6:
图4为本发明实施例提供的一种对话冲突检测装置结构示意图,应用于电子设备,该装置包括:
划分模块42,用于针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段;
判断模块43,用于针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
所述装置还包括:
训练模块41,用于针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
所述判断模块43,具体用于识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;如果是,确定该第一语音信号片段为对话冲突语音信号片段;如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
所述判断模块43,具体用于确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;并根据所述最大值和最小值,确定该第一语音信号片段的极差。
所述划分模块42,还用于针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
所述划分模块42,具体用于针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
所述装置还包括:
过滤模块44,用于对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
本发明实施例公开了一种对话冲突检测方法及装置,应用于电子设备,该方法包括:针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的语音信号片段;针对每个语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。由于在本发明实施例中,在进行对话冲突检测时,只需对语音信号片段的基因频率的均值、方差及极差,MFCC及一阶二阶差分特征参数的均值及方差和该语音信号片段的无声段持续时间这些少量的参数进行运算,极大的减少了对话冲突检测时的计算量,提高了对话冲突检测的效率及反应速度。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种对话冲突检测方法,其特征在于,应用于电子设备,所述方法包括:
针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段;
针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
2.如权利要求1所述的方法,其特征在于,预先对所述对话冲突检测模型的训练过程包括:
针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;
根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;
将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
3.如权利要求2所述的方法,其特征在于,所述对所述对话冲突检测模型进行训练包括:
采用支持向量机SVM方法,对所述对话冲突检测模型进行训练;或,
采用极限学习机ELM方法,对所述对话冲突检测模型进行训练。
4.如权利要求1或2所述的方法,其特征在于,所述根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段包括:
识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;
如果是,确定该第一语音信号片段为对话冲突语音信号片段;
如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
5.如权利要求1所述的方法,其特征在于,所述确定提取的该第一语音信号片段中每个语音帧的基因频率的极值包括:
确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;
并根据所述最大值和最小值,确定该第一语音信号片段的极差。
6.如权利要求1所述的方法,其特征在于,提取该第一语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数之前,所述方法还包括:
针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
7.如权利要求6所述的方法,其特征在于,所述针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧包括:
针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
8.如权利要求7所述的方法,其特征在于,所述将该第一语音信号片段划分为多个语音帧之后,所述方法还包括:
对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
9.一种对话冲突检测装置,其特征在于,应用于电子设备,所述装置包括:
划分模块,用于针对待检测语音信号,将所述待检测语音信号划分为多个时长不大于设定时长阈值的第一语音信号片段;
判断模块,用于针对每个第一语音信号片段,提取该第一语音信号片段中每个语音帧的基因频率、梅尔频率倒谱系数MFCC及一阶二阶差分特征参数;确定提取的该第一语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第一语音信号片段的无声段持续时间;根据预先训练完成的对话冲突检测模型,和该第一语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第一语音信号片段的无声段持续时间,确定该第一语音信号片段的对话冲突等级;根据所述对话冲突等级是否大于设定阈值,判断该第一语音信号片段是否为对话冲突语音信号片段。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
训练模块,用于针对训练集中每个第二语音信号片段,提取该第二语音信号片段中每个语音帧的基因频率、MFCC及一阶二阶差分特征参数;确定提取的该第二语音信号片段中每个语音帧的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差,并识别该第二语音信号片段的无声段持续时间;根据每个第二语音信号片段的对话冲突等级,为每个第二语音信号片段添加对应的冲突等级标签;将所述添加标签后的第二语音信号片段对应的基因频率的均值、方差及极值,MFCC及一阶二阶差分特征参数的均值及方差和该第二语音信号片段的无声段持续时间输入对话冲突检测模型,对对话冲突检测模型进行训练。
11.如权利要求9或10所述的装置,其特征在于,所述判断模块,具体用于识别该第一语音信号片段的对话冲突等级,判断所述对话冲突等级是否大于设定阈值;如果是,确定该第一语音信号片段为对话冲突语音信号片段;如果否,确定该第一语音信号片段不为对话冲突语音信号片段。
12.如权利要求9所述的装置,其特征在于,所述判断模块,具体用于确定提取的该第一语音信号片段中每个语音帧的基因频率的最大值、最小值;并根据所述最大值和最小值,确定该第一语音信号片段的极差。
13.如权利要求9所述的装置,其特征在于,所述划分模块,还用于针对每个第一语音信号片段,将该第一语音信号片段划分为多个语音帧。
14.如权利要求13所述的装置,其特征在于,所述划分模块,具体用于针对每个第一语音信号片段进行预加重处理,将预加重处理后的该第一语音信号片段划分为多个语音帧。
15.如权利要求14所述的装置,其特征在于,所述装置还包括:
过滤模块,用于对每个语音帧进行端点检测,去除所述语音帧中的噪声帧和静音帧。
CN201610983739.8A 2016-11-08 2016-11-08 一种对话冲突检测方法及装置 Active CN106531195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610983739.8A CN106531195B (zh) 2016-11-08 2016-11-08 一种对话冲突检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610983739.8A CN106531195B (zh) 2016-11-08 2016-11-08 一种对话冲突检测方法及装置

Publications (2)

Publication Number Publication Date
CN106531195A CN106531195A (zh) 2017-03-22
CN106531195B true CN106531195B (zh) 2019-09-27

Family

ID=58350219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610983739.8A Active CN106531195B (zh) 2016-11-08 2016-11-08 一种对话冲突检测方法及装置

Country Status (1)

Country Link
CN (1) CN106531195B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147798B (zh) * 2018-07-27 2023-06-09 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质
CN111326172A (zh) * 2018-12-17 2020-06-23 北京嘀嘀无限科技发展有限公司 冲突检测方法、装置、电子设备及可读存储介质
CN110401781B (zh) * 2019-07-25 2021-04-02 上海掌学教育科技有限公司 一种虚假通话检测系统、方法及介质
CN111599379B (zh) * 2020-05-09 2023-09-29 北京南师信息技术有限公司 冲突预警方法、装置、设备、可读存储介质和分诊系统
CN112151066A (zh) * 2020-09-07 2020-12-29 厦门大学 基于声音特征识别的语言冲突监测方法、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103155674A (zh) * 2010-03-30 2013-06-12 高通股份有限公司 共存管理中的语音活动检测
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
KR101481060B1 (ko) * 2013-10-17 2015-01-21 전북대학교산학협력단 판소리 자동 채보 장치 및 방법
CN105810213A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种典型异常声音检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103155674A (zh) * 2010-03-30 2013-06-12 高通股份有限公司 共存管理中的语音活动检测
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
KR101481060B1 (ko) * 2013-10-17 2015-01-21 전북대학교산학협력단 판소리 자동 채보 장치 및 방법
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN105810213A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种典型异常声音检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
连续语音中的笑声检测研究与实现;徐利强等;《声学技术》;20161231;第35卷(第6期);第581-584页 *

Also Published As

Publication number Publication date
CN106531195A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106531195B (zh) 一种对话冲突检测方法及装置
CN108630193B (zh) 语音识别方法及装置
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN105096941A (zh) 语音识别方法以及装置
US20220036903A1 (en) Reverberation compensation for far-field speaker recognition
CN105810213A (zh) 一种典型异常声音检测方法及装置
CN106356077B (zh) 一种笑声检测方法及装置
CN111627423B (zh) Vad尾点检测方法、装置、服务器和计算机可读介质
CN103500579B (zh) 语音识别方法、装置及系统
WO2021082572A1 (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
CN103971681A (zh) 一种语音识别方法及系统
CN108257592A (zh) 一种基于长短期记忆模型的人声分割方法及系统
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN104409080A (zh) 语音端点检测方法和装置
CN103337241B (zh) 一种语音识别方法和装置
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN111312218A (zh) 神经网络的训练和语音端点检测方法及装置
CN106548786A (zh) 一种音频数据的检测方法及系统
CN105825848A (zh) 一种语音识别方法、装置及终端
CN108172219A (zh) 识别语音的方法和装置
CN112331188A (zh) 一种语音数据处理方法、系统及终端设备
CN111816216A (zh) 语音活性检测方法和装置
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
CN113658586B (zh) 语音识别模型的训练方法、语音交互方法及装置
CN112802498B (zh) 语音检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant