CN111276156B - 一种实时语音流监控的方法 - Google Patents

一种实时语音流监控的方法 Download PDF

Info

Publication number
CN111276156B
CN111276156B CN202010062741.8A CN202010062741A CN111276156B CN 111276156 B CN111276156 B CN 111276156B CN 202010062741 A CN202010062741 A CN 202010062741A CN 111276156 B CN111276156 B CN 111276156B
Authority
CN
China
Prior art keywords
voice
thread
sample
monitoring
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010062741.8A
Other languages
English (en)
Other versions
CN111276156A (zh
Inventor
邝翠珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Digital Galaxy Technology Co ltd
Original Assignee
Shenzhen Digital Galaxy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Digital Galaxy Technology Co ltd filed Critical Shenzhen Digital Galaxy Technology Co ltd
Priority to CN202010062741.8A priority Critical patent/CN111276156B/zh
Publication of CN111276156A publication Critical patent/CN111276156A/zh
Application granted granted Critical
Publication of CN111276156B publication Critical patent/CN111276156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种实时语音流监控的方法,公开了对wav语音数字信号流监控时不识别成文字,根据被监测人的语音特征为基础,将预制设定的“关键词”创建、克隆成语音并获取基准声学特征参数;在语音流上以时间间隔较大的周期采集到的语音片段样本,判断非静音后判定为说话语音时;开启多线程分层协调监控的技术步骤,最大化的节省运算资源,实现连续不间断语音流的监控。

Description

一种实时语音流监控的方法
技术领域
本发明涉及监控技术领域,具体涉及一种实时语音流监控的方法。
背景技术
在安全监控领域、视频监控已经是现今的主流、但在视频中进行特定对象的智能检索,目前即便在最前沿的研究也只是处于启蒙的范畴,并且视频监控只能对已经发生的安全事件进行取证,无法预判潜在的安全风险、进行有效的预防控制,语音则在一定程度上代表人的思想,如果在公共设施、场所做有效的语音监控就能预防安全风险,实时语音识别过滤报警全覆盖,相对于视频安全识别监管,智能语音监管的数据流相对较少,语音音频可以实现实时全覆盖,可以提升公共安全的控制能力.但是现有技术的语音识别的基本原理是采用检索语音语库进行概率比对,采用概率最大的对应来识别,先把语音流转化成文字,消耗巨大的运算能力且正确率有待进一步提高,做成实时连续不断的高效的语音监控应用可以满足于许多基础设施安全监控的需要, 如:银行柜员机、大街小巷内、广场、博物馆、智能楼宇、;医院重症病人监控、远程室内老人、儿童活动监护等等应用场景。
现今语音技术的研究主要集中在声学模型、语音声学特征参数获得、声纹身份识别、识别算法和语音信号编码采样去噪处理方面。语音应用技术及相关产品主要集中在通信领域,如人机对话、语音替代打字的文本输入。在其他领域如的应用技术开发相对较少,国内外还没有将语音识别技术应用于安全智能监控、语音报警等方面的主流研发意识。特别是针对时候语音流的研究更是鲜有见闻。 一方面,在一些重要公共空间,如公厕、街头小巷、公园广场等场合,如果能对安全进行预警和及时报警,就能有效避免造成重大人身伤害或财产的损失。另外一方面,随着国家经济发展和人们生活水平的提高,人们对生活舒适、高效安全的人文环境的需要和要求也相应的提高,特别是安全意识也被提升到一个新高度。但是现今社会人们的工作压力的普遍增大、生活节奏较快,在工作和社会事务上花费的个人时间也越来越多,容易忽略家庭的安全,一些家庭意外发生安全事故因为没有及时信息传达,造成家庭的损失。例如:a、独居的独居的人士突然得病而丧失行动能力,无法外出就诊或电话求救,从而失去最佳救助的黄金时间;b、人们遇到犯罪行为,即便被害人大声呼救,也往往难以得到及时救助;c、发生火灾,浓烟弥漫,找不到电话,无法通过电话报警;诸如此类的事件如果具有语音安全监控就会及时报警,从而使得伤害和损失得到最大可能的挽救,解除险情;综上所述,语音监控安防技术特别是对语言流的实时监控方面的技术需要开拓性研究及进一步发展完善,以满足当下安防领域的新需求。
发明内容
鉴于以上背景技术所述的问题,对wav语音数字信号流监控时不转文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的数字信号波段,推出实用高效的语音监控的技术解决方案,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阈值的开始对语音流进行精细验证,小于阈值的放过,这样变通获得监测的效果,具体技术方案如下:
一种实时语音流监控的方法,其特征在于包含以下步骤:对wav语音数字信号流监控时不转文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的数字信号波段,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阈值的开始对语音流进行精细验证,小于阈值的放过。
配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句。
创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音;计算基准语音连续帧的短时能量谷值;并结合过零率、短时能量、基音周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段。
获得语音特征参数值:获得监测基准语音中首个音节的语音段、监测基准语音包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值,其中基准语音时长为T0,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为 X1、X2、X3数组。
做好以上步骤的技术部署后,实施多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控,强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式。
采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2。
避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2单独成可执行文件exe,使用vb语言通过配置Picture或text控件的LinkTopic、LinkMode 参数 使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序;采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容。
线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧的峰值的数据组存储在语音流监控系统中,并计算相应的语音短时能量值,获得语音中汉字对于的语音部分的声学特征,采样周期小于200毫秒,语音中单个汉字对应的语音片段,获得2-3个采样点,采用55ms的时长为分帧长度,即T2等于55ms。
获得分割帧音频数据中的代表性点的最大值, 计算样本单元音频的能量,并进行能量去除纲量归一化运算,所得每帧T2长度峰值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阈值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述数据样本推送给线程3,并开启线程3的技术算法模块。
线程3分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证。
在样本音频数据中取声学特征参数包括:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值;和谐度比对判定语音样本为音乐声时,终止所述判定语音的类别,线程3设定为接受下一个语音样本的状态;反之判定语音样本为说话语音,则将样本通过线程通讯推送给线程4。
线程4分类识别二,在语音流监控系统预制存储包括钢琴曲、交响乐、京剧、流行歌曲和人说话语音类别的3s语音片断的语音特征数据;每个类别取300个典型语音片断的类型标样数据组,将通过线程3推送过来的语音样本的语音特征参数,分别和类型标样数据计算基于隐马尔可夫统计模型的对数后验概率,计算样本语音特征参数分别和每一类类型标样语音特征参数后验概率的平均概率,并进行比对大小,当且当对应人说话语音类标样的平均概率并非最大值时,则终止所述的运算,线程4设置为等待新语音样本的状态;否则判定为该语音样本为人说话语音,并通过分类器进行验证。
通过分类器验证为说话语音时,开启语音内容监控线程的内容监控模块,将样本在语音流上的时间戳TC提交给语音内容监控线程,否则关闭语音内容监控线程。
线程5语音内容监控线程,其中包括采样2模块用于获得采样样本2的样本:设定采样周期间隔参数Z11的值为初始数值Z10,并设定取样时长T11,从当前处理或获得语音数字信号开始,持续T11时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,开启线程6程序并将样本单元通过线程通讯提交给线程6。
线程6:基音周期算法分割音节监测:采用基音周期算法中,周期内部单元的分割法,获得音节的分割,进而对音节和标样第一个音节比后验证概率,检验是标样起始的概率;
A、在 MATLAB中导入语音工具箱voicebox;
B、使用readwav读取待分析的样本语音,enframe完成分帧,设计低通滤波器滤波;为提高基音检测的可靠性,现有技术有端点检测和带通数字滤波器预处理技术方法对语音信号进行预处理,本技术方案采用端点检测保留语音包含话段的头尾,有效区别有用信息和噪声,为了防止共振峰第一峰值的干扰用带通滤波器预处理,滤波器的频率为220Hz;
C、使用MAX函数获取前后各55个最大值,计算平均值,并以该平均值的一半作为预设阈值;
D、根据步骤c中的预设阈值对样本语音信号各分帧比对,取大于阈值的数值形成数值组,临近的最小值为分界点,进行语音切割获得语音片段组
Figure 647191DEST_PATH_IMAGE001
Figure 207486DEST_PATH_IMAGE002
Figure 41449DEST_PATH_IMAGE003
、……
Figure 54405DEST_PATH_IMAGE004
对所切割的语音段分别获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值,采用S103相同的分类方法选出所述参数获得3、9、18维的特征向量与S103步骤数组X1、X2、X3数组对应的Y1、Y2、Y3数组;
进行循环验证运算:
a、依顺序取一语音段Q的数据获得相应的Y1、Y2、Y3数组;
b、以X1为基准观察Y1的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
c、以X2为基准观察Y2的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
d、以X3为基准观察Y3的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
e、以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0长度的语音片段,获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值,并和基准语音相应的数据依据隐马尔可夫统计模型的对数后验概率P0;
f、将P0和设定判定阈值比对,P0大于判定阈值启动监测报警处理模块;
g、返回到a步骤进行循环运算。
监测报警处理模块将接收到的信息储存到数据,并在监测用户界面显示文字、图形对用户进行提示。
所述一种实时语音流监控的方法,其特征在于还包含:获得语音克隆的所需要的信息完备时:选择使用含口音的克隆技术将监测的关键字句模拟克隆成被监测人的语音内容,并获得语音特征,即经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元为音库内容,保留了用户个性化的语音中口音和声韵特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆,将监控内容的关键字、字词、句克隆成语音文件,替换语音信息中的文字转语音的监测基准语音。
所述一种实时语音流监控的方法,其特征在于还包含:线程3分类识别一中,根据参数在样本上取对应一段大尺度音频的数据,计算梅尔频率 进行归一化处理后,获得的和谐度数值结果和设定的一个阈值比对,粗略区别是说话语音、音乐声,兼顾考虑到短时间长度可以提高运算效率, 在样本上取对应一段3s音频的数据进行梅尔频率计算。
所述一种实时语音流监控的方法,其特征在于还包括:所述线程4分类识别二中,采用距离分类器说话语音甄别分类。
所述一种实时语音流监控的方法,其特征在于还包括:所述线程6打包生成的exe文件设置成可重复运行的模式,在数据库设定位置的表格对应栏的数据记录对应线程6被启动到运行进程的次数N,线程6程序加载时以App.PrevInstance判定是否已经加载该线程6成为运行的进程,判定是时,N值加1,否时N赋值为1,先线程6关闭退出事件过程中,加入N更新赋值为N减一的结果值,每次N值变动都修改到数据库设定位置的表格对应栏的数据。
所述一种实时语音流监控的方法,其特征在于还包括:所述线程6中对数后验概率P0校正,分别以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0以及时长TO依次加1、T0依次减1长度的语音片段,分别和基准语音数据计算隐马尔可夫统计模型的对数后验概率获得P1、P2数组;并在P1、P2数组的结果和前一结果数值开始减小时停止语音时长递增1或递减的语音段取样计算,在P0和P1、P2数组成员中,比对获得最大值重新赋值给P0优化校正。
附图说明
图1 为一种实时语音流监控的方法整体逻辑框架图。
具体实施方式
系统设置。配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句。
创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音。
克隆语音文件:在获得被语音监测人更多信息,获得语音克隆的所需要的信息完备时:选择使用含口音的克隆技术将监测的关键字句模拟克隆成被监测人的语音内容,并获得语音特征,即经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元为音库内容,保留了用户个性化的语音中口音和声韵特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆,将监控内容的关键字、字词、句克隆成语音文件,替换语音信息中的文字转语音的监测基准语音。
计算基准语音连续帧的短时能量谷值。并结合过零率、短时能量、基音周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段。
获得语音特征参数值:获得监测基准语音中首个音节的语音段、监测基准语音包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,其中基准语音时长为T0,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为 X1、X2、X3数组。
做好以上步骤的技术部署后,实施本技术方案量身定制创立的多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控 ,最大化的节省运算资源,实现连续不间断语音流的监控。
强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式。
采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2。
线程通讯提交给另外线程,关键要素之一在于线程之间的数据交换,不同程序语言都给于了相关的常规技术方法,以vb语音进程通讯实施例:线程2精细进程不影响采用线程,避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2独成可执行文件exe,通过同步通讯实现进程间的数据交换,进程之间的通讯具体实施例1:使用vb语言通过配置Picture或text控件的LinkTopic、LinkMode 参数 使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序。采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容。
线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧的峰值的数据组存储在语音流监控系统中,并计算相应的语音短时能量值:
Figure 936910DEST_PATH_IMAGE005
一般人说汉语的速度在每分钟120-300个字,也就是每秒约2-5字,因此要获得语音中汉字对于的语音部分的声学特征,采样周期必须小于200毫秒,本技术方案根据实验优选的保证语音中单个汉字对应的语音片段,至少获得2-3个采样点。
采用55ms的时长为分帧长度。即T2等于55ms;
落实到程序运算中的一种短时能量matlab 实施例:
x = max(abs(double(x))) % 获得分割帧音频数据中的代表性点的最大值。
Figure 351711DEST_PATH_IMAGE006
= x/sqrt(sum(x.*x)) % 计算样本单元音频的能量,并进行能量去除纲量归一化运算。
以上的技术算法计算所得每帧T2长度峰值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阈值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述数据样本推送给线程3,并开启S107的技术算法模块。
线程3,分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证;具体技术方法步骤为:
在样本音频数据中取声学特征参数包括:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值。
根据上述参数在样本上取对应一段大尺度音频的数据,计算梅尔频率,所依据的mel频率计算公式 为:
mel_frequency = 1127.0 * ln(1.0 + frequency / 700.0)
通过上述计算,进行归一化处理后,获得的和谐度数值结果和设定的一个阈值比对,粗略区别是说话语音、音乐声,其中影响这种分类的准确性关键因素是取样本数据对应样中音频的时间长度,通过实验分别为60s、20s,10s,5s,3s,1 S、0.5s时间长度计算的结果,兼顾考虑到短时间长度可以提高运算效率,在样本上取对应一段3s音频的数据进行梅尔频率计算。
和谐度比对判定语音样本为音乐声时,终止所述判定语音的类别,线程3设定为接受下一个语音样本的状态;反之判定语音样本为说话语音,则将样本通过线程通讯推送给线程4。
线程4分类识别二,在语音流监控系统预制存储包括钢琴曲、交响乐、京剧、流行歌曲和人说话语音类别的3s语音片断的语音特征数据;每个类别取300个典型语音片断的标样数据组,将通过线程3推送过来的语音样本的语音特征参数,分别和类型标样数据计算基于隐马尔可夫统计模型的对数后验概率:
Figure 294259DEST_PATH_IMAGE007
其中
Figure 797440DEST_PATH_IMAGE008
表示音素
Figure 218057DEST_PATH_IMAGE009
所对应的第i 段样本语音的起始时间、Z代表样本语音中因素总个数、
Figure 752944DEST_PATH_IMAGE010
为给定音素 q下观察矢量
Figure 866393DEST_PATH_IMAGE011
的概率分布音素总数。
计算样本语音特征参数于每一类标样语音特征参数的平均概率,并进行比对大小,当且当对应人说话语音类类型标样的平均概率并非最大值时,则终止所述的运算,线程4设置为等待新语音样本的状态。否则判定为该语音样本为人说话语音,并通过分类器进行验证。
常见的分类器,分别为帕森分类器、朴素贝叶斯分类器、近邻法分类器、决策树分类器、最小Mahalanobis距离分类器、逻辑回归分类器、支持向量机的二次分类器、Fisher准则分类器和BP神经网络分类器,在现在声学技术领域,已经形成了共识,即用于语音整体分类使用BP神经网络分类器,各种类别的效果较好,但基于本技术方案中只需要精准将说话语言分类出来,而对其他的类别区别是否精准不影响技术效果,因此我们经过技术实验的从新核实。
采用距离分类器具有更好的技术效果,说话语音甄别分类的准确率达到91.2%。
通过分类器验证为说话语音时,开启语音内容监控线程的内容监控模块,将样本在语音流上的时间戳TC提交给语音内容监控线程,否则关闭语音内容监控线程。
线程5语音内容监控线程,其中包括采样2模块用于获得采样样本2的样本:设定采样周期间隔参数Z11的值为初始数值Z10,并设定取样时长T11,从当前处理或获得语音数字信号开始,持续T11时长的时间,其间语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,开启线程6程序并将样本单元通过线程通讯提交给线程6。
线程6打包生成的exe文件设置成可重复运行的模式,在数据库设定位置的表格对应栏的数据记录对应线程6被启动到运行进程的次数N,线程6程序加载时以App.PrevInstance判定是否已经加载该线程6成为运行的进程,判定是时,N值加1,否时N赋值为1,先线程6关闭退出事件过程中,加入N更新赋值为N减一的结果值,每次N值变动都修改到数据库设定位置的表格对应栏的数据。
线程6:基音周期算法分割音节监测的具体实施:要监测到和表样一致对应的语音片段,首先是监测到表样语音起始音节具备合格的后验证概率的相似度,根据现代声学的研究,人说话发音时,声带振动产生浊音、由空气摩擦产生清音。人讲话时肺部的胀缩驱动气流冲击嗓子的声门,致使声门一张一合,在时间上延展就会形成近似周期性的气流脉冲,经过声道谐振及唇齿辐射最终形成说话的声音。所述近似周期在声学上称之为基音周期,基音周期就衡量声门相邻两次开闭之间的时间间隔或开闭的频率的参数,和说话声音中的音节、浊音、清音有对应关系和因果关联。现有技术基音周期的估算方法中较常用的有自相关法,自相关函数法、基频用的倒谱法、线性预测法,谱减—自相关函数法、平均幅度差函数法。本发明的技术方案,采用基音周期算法中,周期内部单元的分割法,获得音节的分割,进而对音节和标样第一个音节比后验证概率,检验是标样起始的概率。
A、在 MATLAB中导入语音工具箱voicebox。
B、使用readwav读取待分析的样本语音,enframe完成分帧,设计低通滤波器滤波。为提高基音检测的可靠性,现有技术有端点检测和带通数字滤波器预处理技术方法对语音信号进行预处理,本技术方案采用端点检测保留语音包含话段的头尾,有效区别有用信息和噪声,为了防止共振峰第一峰值的干扰用带通滤波器预处理,滤波器的频率为220Hz。
C、使用MAX函数获取前后各55个最大值,计算平均值,并以该平均值的一半作为预设阈值。
D、根据步骤c中的预设阈值对样本语音信号各分帧比对,取大于阈值的数值形成数值组,临近的最小值为分界点,进行语音切割获得语音片段组
Figure 853941DEST_PATH_IMAGE001
Figure 78249DEST_PATH_IMAGE002
Figure 202063DEST_PATH_IMAGE003
、……
Figure 486414DEST_PATH_IMAGE004
对所切割的语音段分别获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,采用S103相同的分类方法选出所述参数获得3、9、18维的特征向量与S103步骤数组X1、X2、X3数组对应的Y1、Y2、Y3数组,进行循环验证运算。
a、依顺序取一语音段Q的数据获得相应的Y1、Y2、Y3数组。
b、以X1为基准观察Y1的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步。
c、以X2为基准观察Y2的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步。
d、以X3为基准观察Y3的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步。
e、以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0长度的语音片段,获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,并和基准语音相应的数据依据隐马尔可夫统计模型的对数后验概率P0。
分别以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0以及时长TO依次加1、T0依次减1长度的语音片段,分别和基准语音数据计算隐马尔可夫统计模型的对数后验概率获得P1、P2数组;并在P1、P2数组的结果和前一结果数值开始减小时停止语音时长递增1或递减的语音段取样计算,在P0和P1、P2数组成员中,在P0和P1、P2数组成员中,比对获得最大值重新赋值给P0进行优化校正。
f、将P0和设定判定阈值比对,P0大于判定阈值启动监测报警处理模块。
g、返回到a步骤进行循环运算。
、监测报警处理模块将接收到的信息储存到数据,并在监测用户界面显示文字、图形对用户进行提示。
特别申明:在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (6)

1.一种实时语音流监控的方法,其特征在于包含以下步骤:对wav语音数字信号流监控时不识别成文字,通过监测语音流的实时数据,在wav语音数字信号层做监控字词所映射的声学特征参数,一方面,根据被监测人的语音特征为基础,获得语音克隆的基础条件参数,将预制设定的“关键词”创建、克隆成语音,获取标样语音特征;另一方面,在语音流上以时间间隔较大的周期采集到的语音片段样本,获得样本语音特征;标样、大尺度取样得到的样本语音特征进行比对获得概率值,将大于阈值的开始对语音流进行精细验证,小于阈值的放过;
S101、配置语音流监控系统数据库/系统环境,配置设定监控内容的关键字/词/句的用户界面、相应的程式以及匹配的存储数据库表格,并设定监控字词句;
S102、创建语音文件,根据第三方翻译平台的接口,部署语音流监控系统内部的标准提交接收返回模块,将监控设置指定的字/词/句按照平台自定的格式提交到接口,并获得相应的语音文件;作为监测基准语音;
计算基准语音连续帧的短时能量谷值;并结合过零率、短时能量以及基音周期声学参数,对基准语音中首个音节进行精确定位分割,并获得首个音节的语音段;
S103、获得语音特征参数值:获得监测基准语音中首个音节的语音段,监测基准语音包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值,其中基准语音时长为T0,选出所述参数获得3、9、18维的特征向量,其中首个音节的语音段对应的参数为 X1、X2、X3数组;
S104、做好以上步骤的技术部署后,实施多线程分层协调监控的技术步骤;即由粗略到精细验证的多线程监控,强制固定一个频率对被监测音频流数据进行采样、统一转换成混和单声道WAV格式;
S105、采样线程:设定采样周期间隔参数Z1的值为初始数值Z0,并设定取样时长T1,从当前处理获得语音数字信号开始,持续T1时长的时间,期间 语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,并将样本单元通过线程通讯提交给线程2;
避免造成卡顿漏采样,分别将线程包含但不限于采样线程、线程2单独成可执行文件exe,使用vb语言通过配置Picture或text控件的LinkTopic、LinkMode 参数使得适合于同步通讯,采用进程程序中使用控件的LinkExecute命令将指定的信息传送给其他进行的程序;采用线程程序和其他线程程序分别首先配置好工程的名称及程序控件的相关属性,使得符合结合上述通讯的接收条件,通过Form_LinkExecute事件过程,接收通讯的信息内容;
S106、线程2,在每样本单元语音信号,按照每T2长度分成N个帧获取对应的语音信号数据中各帧的最大值X,其中T2小于T1且T1为T2的整数倍,将该最大值作为当前样本单元语音信号数据对于帧的峰值,将所述帧的峰值的数据组存储在语音流监控系统中,并计算相应的语音短时能量值,获得语音中汉字对于的语音部分的声学特征,采样周期小于200毫秒,语音中单个汉字对应的语音片段,获得2-3个采样点,
采用55ms的时长为分帧长度,即T2等于55ms;
获得分割帧音频数据中的代表性点的最大值,计算样本单元音频的能量,并进行能量去除纲量归一化运算,所得每帧T2长度峰值的均方根的T1对应样本单元的短时能量级别参数,并设定一个静音判断阈值,判断当前帧是否为静音帧;如果判断当前帧属于静音帧;则终止进一步识别的进程继续等待分析采样数据样本;如果判断当前帧不属于静音帧,将所述数据样本推送给线程3,并开启线程3的技术算法模块;
S107、线程3分类识别一,判定语音的类别,回调采样线程的采样周期,并决定是否进一步将样本提交个下一个线程中的内需监测模块验证;
在样本音频数据中取声学特征参数包括:短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值;
和谐度比对判定语音样本为音乐声时,终止所述判定语音的类别,线程3设定为接受下一个语音样本的状态;反之判定语音样本为说话语音,则将样本通过线程通讯推送给线程4;
S108、线程4分类识别二,在语音流监控系统预制存储包括钢琴曲、交响乐、京剧、流行歌曲和人说话语音类别的3s语音片断的语音特征数据;每个类别取300个典型语音片断的类型标样数据组,将通过线程3推送过来的语音样本的语音特征参数,分别和类型标样数据计算基于隐马尔可夫统计模型的对数后验概率,计算样本语音特征参数分别和每一类类型标样语音特征参数后验概率的平均概率,并进行比对大小,当且当对应人说话语音类标样的平均概率并非最大值时,则终止所述的运算,线程4设置为等待新语音样本的状态;否则判定为该语音样本为人说话语音,并通过分类器进行验证;
通过分类器验证为说话语音时,开启语音内容监控线程的内容监控模块,将样本在语音流上的时间戳TC提交给语音内容监控线程,否则关闭语音内容监控线程;
S109、线程5语音内容监控线程,其中包括采样2模块用于获得采样样本2的样本:设定采样周期间隔参数Z11的值为初始数值Z10,并设定取样时长T11,从当前处理或获得语音数字信号开始,持续T11时长的时间,期间 语音数字信号的集合为一个样本单元,此后间隔时长Z1后继续提取所述样本单元,周而复始,开启线程6程序并将样本单元通过线程通讯提交给线程6;
S110、线程6:基音周期算法分割音节监测:采用基音周期算法中,周期内部单元的分割法,获得音节的分割,进而对音节和标样第一个音节比后验证概率,检验是标样起始的概率;
A、在 MATLAB中导入语音工具箱voicebox;
B、使用readwav读取待分析的样本语音,enframe完成分帧,设计低通滤波器滤波;为提高基音检测的可靠性,采用端点检测保留语音包含话段的头尾,有效区别有用信息和噪声,为了防止共振峰第一峰值的干扰用带通滤波器预处理,滤波器的频率为220Hz;
C、使用MAX函数获取前后各55个最大值,计算平均值,并以该平均值的一半作为预设阈值;
D、根据步骤c中的预设阈值对样本语音信号各分帧比对,取大于阈值的数值形成数值组,临近的最小值为分界点,进行语音切割获得语音片段组
Figure 435922DEST_PATH_IMAGE001
Figure 141710DEST_PATH_IMAGE002
Figure 476876DEST_PATH_IMAGE003
、……
Figure 268114DEST_PATH_IMAGE004
对所切割的语音段分别获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率、高过零率比率的具体参数值,采用S103相同的分类方法选出所述参数获得3、9、18维的特征向量与S103步骤数组X1、X2、X3数组对应的Y1、Y2、Y3数组;
进行循环验证运算:
a、依顺序取一语音段Q的数据获得相应的Y1、Y2、Y3数组;
b、以X1为基准观察Y1的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
c、以X2为基准观察Y2的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
d、以X3为基准观察Y3的隐马尔可夫统计模型的对数后验概率,设定一个阈值比对,比对结果小于所述阈值则返回到a步骤比对验证的开始重新进行验证运算,比对结果大于等于所述阈值则进入下一步;
e、以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0长度的语音片段,获得包括语音时长、声学特征参数、短时能量、短时过零率、谱矩、带宽、频谱滚动频率、谱通量、低短时能量、基音周期、基音频率以及高过零率比率的具体参数值,并和基准语音相应的数据依据隐马尔可夫统计模型的对数后验概率P0;
f、将P0和设定判定阈值比对,P0大于判定阈值启动监测报警处理模块;
g、返回到a步骤进行循环运算;
S111、监测报警处理模块将接收到的信息储存到数据,并在监测用户界面显示文字、图形对用户进行提示。
2.根据权利要求1所述的一种实时语音流监控的方法,其特征在于还包含:获得语音克隆的所需要的信息完备时:选择使用含口音的克隆技术将监测的关键字句模拟克隆成被监测人的语音内容,并获得语音特征,即经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元为音库内容,保留了用户个性化的语音中口音和声韵特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆,将监控内容的关键字、字词以及句克隆成语音文件,替换语音信息中的文字转语音的监测基准语音。
3.根据权利要求1所述的一种实时语音流监控的方法,其特征在于还包含:线程3分类识别一中,根据参数在样本上取对应一段大尺度音频的数据,计算梅尔频率进行归一化处理后,获得的和谐度数值结果和设定的一个阈值比对,粗略区别是说话语音、音乐声,兼顾考虑到短时间长度可以提高运算效率,在样本上取对应一段3s音频的数据进行梅尔频率计算。
4.根据权利要求1所述的一种实时语音流监控的方法,其特征在于还包括:所述线程4分类识别二中,采用距离分类器说话语音甄别分类。
5.根据权利要求1所述的一种实时语音流监控的方法,其特征在于还包括:所述线程6打包生成的exe文件设置成可重复运行的模式,在数据库设定位置的表格对应栏的数据记录对应线程6被启动到运行进程的次数N,线程6程序加载时以App.PrevInstance判定是否已经加载该线程6成为运行的进程,判定是时,N值加1,否时N赋值为1,先线程6关闭退出事件过程中,加入N更新赋值为N减一的结果值,每次N值变动都修改到数据库设定位置的表格对应栏的数据。
6.根据权利要求1所述的一种实时语音流监控的方法,其特征在于还包括:所述线程6中对数后验概率P0校正,分别以当前语音段起始点的时间戳为起点,在被监测语音流上取基准语音时长T0以及时长TO依次加1、T0依次减1长度的语音片段,分别和基准语音数据计算隐马尔可夫统计模型的对数后验概率获得P1、P2数组;并在P1、P2数组的结果和前一结果数值开始减小时停止语音时长递增1或递减的语音段取样计算,在P0和P1、P2数组成员中,比对获得最大值重新赋值给P0优化校正。
CN202010062741.8A 2020-01-20 2020-01-20 一种实时语音流监控的方法 Active CN111276156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062741.8A CN111276156B (zh) 2020-01-20 2020-01-20 一种实时语音流监控的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062741.8A CN111276156B (zh) 2020-01-20 2020-01-20 一种实时语音流监控的方法

Publications (2)

Publication Number Publication Date
CN111276156A CN111276156A (zh) 2020-06-12
CN111276156B true CN111276156B (zh) 2022-03-01

Family

ID=71003341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062741.8A Active CN111276156B (zh) 2020-01-20 2020-01-20 一种实时语音流监控的方法

Country Status (1)

Country Link
CN (1) CN111276156B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11817100B2 (en) 2020-06-26 2023-11-14 International Business Machines Corporation System for voice-to-text tagging for rich transcription of human speech
CN113051372B (zh) * 2021-04-12 2024-05-07 平安国际智慧城市科技股份有限公司 材料数据的处理方法、装置、计算机设备和存储介质
CN113409815B (zh) * 2021-05-28 2022-02-11 合肥群音信息服务有限公司 一种基于多源语音数据的语音对齐方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN101436403B (zh) * 2007-11-16 2011-10-12 创而新(中国)科技有限公司 声调识别方法和系统
CN101261832B (zh) * 2008-04-21 2011-05-25 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN103247293B (zh) * 2013-05-14 2015-04-08 中国科学院自动化研究所 一种语音数据的编码及解码方法
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其系统

Also Published As

Publication number Publication date
CN111276156A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
Zhang et al. Hierarchical classification of audio data for archiving and retrieving
CN111276156B (zh) 一种实时语音流监控的方法
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
JP2019514045A (ja) 話者照合方法及びシステム
US20080046241A1 (en) Method and system for detecting speaker change in a voice transaction
Gerhard Audio signal classification: History and current techniques
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CA2167200A1 (en) Multi-language speech recognition system
CN108711429B (zh) 电子设备及设备控制方法
Ryant et al. Highly accurate mandarin tone classification in the absence of pitch information
Mporas et al. Estimation of unknown speaker’s height from speech
Jawarkar et al. Use of fuzzy min-max neural network for speaker identification
Kim et al. Hierarchical approach for abnormal acoustic event classification in an elevator
Meftah et al. Speaker identification in different emotional states in Arabic and English
Mori et al. Conversational and Social Laughter Synthesis with WaveNet.
CN113129895B (zh) 一种语音检测处理系统
CN110853669A (zh) 音频识别方法、装置及设备
Hafen et al. Speech information retrieval: a review
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Ozseven Evaluation of the effect of frame size on speech emotion recognition
US20230148275A1 (en) Speech synthesis device and speech synthesis method
Scherer et al. Emotion recognition from speech using multi-classifier systems and rbf-ensembles
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Li et al. Characteristics-based effective applause detection for meeting speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant