CN105913849A - 一种基于事件检测的说话人分割方法 - Google Patents
一种基于事件检测的说话人分割方法 Download PDFInfo
- Publication number
- CN105913849A CN105913849A CN201610269816.3A CN201610269816A CN105913849A CN 105913849 A CN105913849 A CN 105913849A CN 201610269816 A CN201610269816 A CN 201610269816A CN 105913849 A CN105913849 A CN 105913849A
- Authority
- CN
- China
- Prior art keywords
- speaker
- event detection
- dividing method
- segmentation result
- speaker segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000012937 correction Methods 0.000 claims abstract description 14
- 241001185697 Fenestella Species 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于事件检测的说话人分割方法,属于音频信号处理技术领域;该方法包括说话人分割、事件检测、说话人分割结果修正三个步骤:说话人分割步骤对输入音频通过采用现有距离度量法确定说话人跳变点,并依据跳变点分割音频得到不同长度的音频段,即初始说话人分割结果;事件检测步骤基于事件的时域特征检测出输入音频的事件点;说话人分割结果修正步骤基于事件点对初始说话人分割结果进行基于概率统计的修正,从而得到最终的说话人分割结果。对比现有技术,针对对讲语音本发明方法能够充分利用音频中的信息进行说话人分割,在信道变化、噪声大且说话人较多的情况下,比现有说话人分割方法有较大的性能提升。
Description
技术领域
本专利涉及一种说话人分割方法,特别涉及一种基于事件检测的说话人分割方法,属于音频信号处理技术领域。
背景技术
随着音频获取途径和数量的快速增加,音频管理变得越来越复杂,近几年说话人分割聚类在国际上逐渐成为热点研究问题,国外许多大学和研究机构都开展了相关研究工作,美国国家标准技术局(National Institute of Standards andTechnology,NIST)在1999年组织的说话人识别评测任务中就增加了两人电话语音的分割聚类项目,2002年NIST提出的富信息转写(Rich Transcription,RT)评测正式开展对说话人分割聚类的研究。
目前主流的说话人分割算法有距离度量法和模型法,距离度量法需根据相邻语音段之间距离,确定两个音段之间是否存在说话人变换点。一个典型的方法是变窗长变换点检测方法,即利用贝叶斯信息判决(Bayesian InformationCriterion,BIC)距离是否超过固定阈值,判断窗内前后两个语音段之间是否存在变换点,如果不存在则增加窗长,直到检测出说话人变换点。模型法常见使用GMM和SVM,计算相邻模型之间的相似度距离,根据经验阈值判别说话人变换点是否存在。从以上分析中能够看出,说话人分割方法没有充分利用音频的其他辅助信息,对于噪声强度比较大且信道一直变化的音频性能比较差。
本专利在原有分割算法的基础上,提出一种事件检测的方法,充分利用音频的其他信息,辅助进行说话人分割,实验证明该方法能够显著的提升说话人分割的性能。
发明内容
本发明的目的是充分利用音频信息来提升说话人分割的性能,提出了一种基于事件检测的方法辅助进行说话人分割,可用于说话人分割的音频分析。
本发明的思想是在现有说话人分割算法进行说话人分割的基础上,通过对音频中的事件检测,使用此额外信息修正分割结果以得到更好的说话人分割性能。
为了达到上述目的,本发明是通过以下技术方案实现的:
一种基于事件检测的说话人分割方法,包括说话人分割、事件检测、说话人分割结果修正三个步骤:说话人分割步骤对输入音频通过采用现有分割方法确定分割音频得到初始说话人分割结果;事件检测步骤基于事件的时域特征检测出输入音频的事件点;说话人分割结果修正步骤基于事件点对初始说话人分割结果进行基于概率统计的修正,从而得到最终的说话人分割结果。
作为优选,所述现有分割方法为基于BIC距离度量准则,使用大小窗的距离度量法。
作为优选,所述大小窗的设置为:大窗为600、窗移为120,小窗为300、窗移为60。
作为优选,所述事件为按键音。
作为优选,所述事件的时域特征为按键音的短时能量、过零率和短时能量比特征,其波形为先上升接着保持然后下降或者上升后马上下降。
作为优选,所述检测出输入音频的事件点采用基于事件的特征构造的滤波器实现。
作为优选,所述检测出输入音频的事件点结果为2组,分别为根据窄幅度范围T1和宽幅度范围T2检测出的事件点结果R1和R2。
作为优选,所述T1为1/4的事件特征幅度平均值到1/2的事件特征幅度平均值;所述T2为1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。
作为优选,所述修正通过以下过程完成:根据R1以及初始说话人分割结果,检查说话人分割结果中音频段中间是否存在事件点,如果存在,则将音频在事件点处分为两个说话人;根据R2以及说话人分割结果,若音频段中未出现按键音,且两段音频的中间间隔不超过预设阈值M,则将该相邻的音频段合并。
作为优选,所述M=0.5。
有益效果
对比现有技术,针对对讲语音本发明方法能够充分利用音频中的信息进行说话人分割,在信道变化、噪声大且说话人较多的情况下,比现有说话人分割方法有较大的性能提升。
附图说明
图1为本发明实施例一种基于事件检测的说话人分割方法流程示意图;
图2为本发明实施例中音频(Speech)、短时能量(Energy)、过零率(ZCR)、短时能量比(Energy-Ratio)和从音频中检测出的按键音(Key)的波形示意图;
图3为本发明实施例中将图2放大后的按键音位置(Speech)、短时能量(Energy)、过零率(ZCR)和短时能量比(Energy-Ratio)的波形示意图。
图4为本发明实施例中,得到初步说话人分割结果和按键音位置后,进行说话人分割修正的流程示意图。
具体实施方式
下面结合附图对本发明方法的实施方式作详细说明。
下面以直升机实际作业时录制的话音数据作为实验数据对本发明方法的实施过程进行说明。该话音数据的采样率为16KHZ,精度为16bit,共包括15个小时语音,包含飞机启动到关机的所有过程,随着飞行状态的变化,话音信道、背景噪声变化较大。记录中出现的人数在120左右,跳变点个数为18000个,按键音9000个。
下面对于音频提取特征和按键音检测的所有过程,均采用每帧去20ms,帧移为10ms进行处理。
对以上输入音频数据,如图1所示,采用本发明方法进行说话人分割的步骤如下:
步骤1:说话人分割;
本步骤可以采用任何现有说话人分割方法确定说话人跳变点,本实施例以距离度量法为例进行本步骤的说话人分割,具体是采用基于BIC距离度量准则,使用大小窗的方法,即:首先使用较大窗和窗移检测出可能存在的跳变点,计算每段相似度的值,对于可能存在的跳变点区间,再使用小窗进一步精确检测,不存在则将大窗往右移动,直到将所有音频分割完成;分割完成后进行验证,最终通过计算相邻音频的距离大小来决定是否保留分割点。
为了能够快速实现上述说话人分割,亦可直接采用现有工具实现,如通过以下过程采用现有工具完成:
1.1对输入音频使用spro工具提取39维MFCC参数,高通滤波器设置为0.98得到音频特征,并将特征归一化;
1.2使用audioseg工具(https://gforge.inria.fr/frs/?group_id=533)进行VAD(voice activity detection)处理,输出存在语音的部分;将存在语音的部分进行说话人分割,经过实验测试,大窗设置为600、窗移设为120,小窗设置为300、窗移设置为60,说话人分割性能达到最佳,此时得到初步的说话人分割结果。
步骤2:事件检测;
事件检测根据事件的时域特征进行检测,即通过对本实施例使用的直升机作业话音中挖掘辅助说话人分割的相关信息。
通过对地面控制中心和驾驶员说话的语音分析发现,当地面与直升机对话时,任何一方话音结束时都会关闭频道,从而在语音中就会出现一个按键音,因此,本实施例将按键音作为事件,通过分析音频中按键音的波形,可以得到按键音的短时能量、过零率和短时能量比特征,因此,本实施例中就将这三个特征作为该按键音事件的时域特征。其详细波形如图2所示,图2中波形从上到下分别为音频(横轴是时间、纵轴是归一化之后的幅度)、短时能量(横轴是帧数、纵轴是归一化后一帧的能量)、过零率(横轴是帧数,纵轴是归一化后一帧内的过零个数)、短时能量比(横轴是帧数,纵轴是归一化后该帧与前一帧的短时能量比),图3从上到下依次是按键音位置放大后音频、短时能量、过零率和短时能量比的波形。从图中能够看出,按键音所在位置的短时能量、过零率和短时能量比是先上升接着保持然后下降或者上升后马上下降的过程,而其他非按键音位置不会同时有这样的特性;因此可以按照这种特征构造出滤波器,即满足先上升接着保持然后下降或者上升后马上下降可能是按键音的位置,接着统计短时能量、过零率和短时能量比的幅度,根据设定幅度范围能够更准确的确定该位置是否为按键音位置。此处幅度范围的具体设定可以通过试验根据准确率和召回率获得。在本实施例中,将三个特征幅度范围设定为1/4的平均值到1/2的平均值,得到一组按键音检出结果,记为R1,对应高准确率;将三个特征的幅度范围设定为1/8平均值到8倍平均值,此时得到另外一组按键音检出结果,记为R2,对应高召回率。
步骤3:说话人分割结果修正;
通过对步骤1得到的初始说话人分割结果进行分析发现,主要有两种分割错误:(1)地面控制中心和驾驶员说话中间由于间隔小且存在噪声干扰,分割算法未将两个说话人分开;(2)地面控制中心或驾驶员说话中间有停顿或者换气,分割算法将相同的人分割成两个。
由于对讲双方具有任一一方说完话都会关闭通信,因而在音频中会出现一个按键音的特点,由此上面两种错误能够利用按键音的位置进行修正。具体修正方式如下:对于错误(1),检查说话人分割结果的音频段中间是否存在按键音,在按键音的准确率非常高的基础上,如果存在按键音,则将音频分为两个说话人。对于错误(2),分割算法的分割结果,在按键音的召回率非常高的基础上,若音频段中未出现按键音,且两段音频的中间间隔不超过一定范围M,则将该相邻的音频段进行合并。
基于以上分析,如图5所示,本步骤通过以下过程完成修正:根据R1和步骤1说话人分割结果,检查说话人分割结果中音频段中间是否存在按键音,如果存在按键音,则将音频分为两个说话人;根据R2以及说话人分割结果,若音频段中未出现按键音,且两段音频的中间间隔不超过预设阈值M,则将该相邻的音频段合并,得到最终的说话人分割结果。作为优选,本实施例设置M=0.5。
由以上具体实施例的实施过程可知,基于不同的音频来源需要分析其中存在的相关辅助信息,并根据辅助信息的特征对已有的分割结果进行修正,从而可以获得更好的说话人分割结果。对于不同类型的音频来源其辅助信息必然不同,根据上述过程,本领域技术人员不难根据本发明方法的思想挖掘其辅助信息,因此,此处无需给出更多的实施例进行说明。
试验结果
在实验中,对以上语音数据分割结果显示,步骤1产生的结果综合性能F值是65.47%,在按键音识别的辅助下,步骤3的综合性能F值提升到77.18%,性能提升了11.71%。因此对于直升机话音,按键音检测能在很大程度上修正说话人分割的结果,带来较大的性能提升。
为了说明本专利的内容及实施方法,本说明书给出了具体实施过程。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本专利所述方法。本领域的技术人员应理解:在不脱离本专利及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
Claims (10)
1.一种基于事件检测的说话人分割方法,其特征在于:,包括说话人分割、事件检测、说话人分割结果修正三个步骤:说话人分割步骤对输入音频通过采用现有分割方法确定分割音频得到初始说话人分割结果;事件检测步骤基于事件的时域特征检测出输入音频的事件点;说话人分割结果修正步骤基于事件点对初始说话人分割结果进行修正得到最终的说话人分割结果。
2.根据权利要求1所述的一种基于事件检测的说话人分割方法,其特征在于:所述现有分割方法为基于BIC距离度量准则,使用大小窗的距离度量法。
3.根据权利要求2所述的一种基于事件检测的说话人分割方法,其特征在于:所述大小窗的设置为:大窗为600、窗移为120,小窗为300、窗移为60。
4.根据权利要求1所述的一种基于事件检测的说话人分割方法,其特征在于:所述事件为按键音。
5.根据权利要求4所述的一种基于事件检测的说话人分割方法,其特征在于:所述事件的时域特征为按键音的短时能量、过零率和短时能量比特征,其波形为先上升接着保持然后下降或者上升后马上下降。
6.根据权利要求1任一所述的基于事件检测的说话人分割方法,其特征在于:所述检测出输入音频的事件点采用基于事件的特征构造的滤波器实现。
7.根据权利要求1-6任一所述的一种基于事件检测的说话人分割方法,其特征在于:所述检测出输入音频的事件点结果为2组,分别为根据窄幅度范围T1和宽幅度范围T2检测出的事件点结果R1和R2。
8.根据权利要求7所述的一种基于事件检测的说话人分割方法,其特征在于:所述T1为1/4的事件特征幅度平均值到1/2的事件特征幅度平均值;所述T2为1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。
9.根据权利要求7所述的一种基于事件检测的说话人分割方法,其特征在于:所述修正通过以下过程完成:根据R1以及初始说话人分割结果,检查说话人分割结果中音频段中间是否存在事件点,如果存在,则将音频在事件点处分为两个说话人;根据R2以及说话人分割结果,若音频段中未出现按键音,且两段音频的中间间隔不超过预设阈值M,则将该相邻的音频段合并。
10.根据权利要求9所述的一种基于事件检测的说话人分割方法,其特征在于:所述M=0.5。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2015108343343 | 2015-11-27 | ||
CN201510834334 | 2015-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105913849A true CN105913849A (zh) | 2016-08-31 |
CN105913849B CN105913849B (zh) | 2019-10-25 |
Family
ID=56752171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610269816.3A Expired - Fee Related CN105913849B (zh) | 2015-11-27 | 2016-04-28 | 一种基于事件检测的说话人分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913849B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297824A (zh) * | 2016-09-30 | 2017-01-04 | 西安交通大学 | 一种基于分层可靠度变化趋势的音频分割方法 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108074574A (zh) * | 2017-11-29 | 2018-05-25 | 维沃移动通信有限公司 | 音频处理方法、装置及移动终端 |
WO2018113243A1 (zh) * | 2016-12-19 | 2018-06-28 | 平安科技(深圳)有限公司 | 语音分割的方法、装置、设备及计算机存储介质 |
CN108419124A (zh) * | 2018-05-08 | 2018-08-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN109979467A (zh) * | 2019-01-25 | 2019-07-05 | 出门问问信息科技有限公司 | 人声过滤方法、装置、设备及存储介质 |
CN110024027A (zh) * | 2016-12-02 | 2019-07-16 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
CN112735385A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN114974258A (zh) * | 2022-07-27 | 2022-08-30 | 深圳市北科瑞声科技股份有限公司 | 基于语音处理的说话人分离方法、装置、设备及存储介质 |
CN112735385B (zh) * | 2020-12-30 | 2024-05-31 | 中国科学技术大学 | 语音端点检测方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
US20060161339A1 (en) * | 2005-01-20 | 2006-07-20 | Fred Holmes | System and method for precision acoustic event detection |
CN101685446A (zh) * | 2008-09-25 | 2010-03-31 | 索尼(中国)有限公司 | 音频数据分析装置和方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
-
2016
- 2016-04-28 CN CN201610269816.3A patent/CN105913849B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060161339A1 (en) * | 2005-01-20 | 2006-07-20 | Fred Holmes | System and method for precision acoustic event detection |
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
CN101685446A (zh) * | 2008-09-25 | 2010-03-31 | 索尼(中国)有限公司 | 音频数据分析装置和方法 |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
Non-Patent Citations (1)
Title |
---|
石自强等: "鲁棒声学事件检测综述", 《智能计算机与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297824A (zh) * | 2016-09-30 | 2017-01-04 | 西安交通大学 | 一种基于分层可靠度变化趋势的音频分割方法 |
CN110024027A (zh) * | 2016-12-02 | 2019-07-16 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
WO2018113243A1 (zh) * | 2016-12-19 | 2018-06-28 | 平安科技(深圳)有限公司 | 语音分割的方法、装置、设备及计算机存储介质 |
CN108074574A (zh) * | 2017-11-29 | 2018-05-25 | 维沃移动通信有限公司 | 音频处理方法、装置及移动终端 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108419124A (zh) * | 2018-05-08 | 2018-08-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN108419124B (zh) * | 2018-05-08 | 2020-11-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN109979467A (zh) * | 2019-01-25 | 2019-07-05 | 出门问问信息科技有限公司 | 人声过滤方法、装置、设备及存储介质 |
CN112735385A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN112735385B (zh) * | 2020-12-30 | 2024-05-31 | 中国科学技术大学 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN114974258A (zh) * | 2022-07-27 | 2022-08-30 | 深圳市北科瑞声科技股份有限公司 | 基于语音处理的说话人分离方法、装置、设备及存储介质 |
CN114974258B (zh) * | 2022-07-27 | 2022-12-16 | 深圳市北科瑞声科技股份有限公司 | 基于语音处理的说话人分离方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105913849B (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913849A (zh) | 一种基于事件检测的说话人分割方法 | |
EP3614377A1 (en) | Object identifying method, computer device and computer readable storage medium | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
CN109903752B (zh) | 对齐语音的方法和装置 | |
KR102018331B1 (ko) | 음성 인식 시스템에서의 발화 검증 장치 및 그 방법 | |
Ghaemmaghami et al. | Speaker attribution of multiple telephone conversations using a complete-linkage clustering approach | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
CN103714826A (zh) | 面向声纹鉴定的共振峰自动匹配方法 | |
CN105575402A (zh) | 网络教学实时语音分析方法 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
CN104732984B (zh) | 一种快速检测单频提示音的方法及系统 | |
JP2012032557A (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
Kitaoka et al. | Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance | |
TW200811833A (en) | Detection method for voice activity endpoint | |
CN110600010B (zh) | 一种语料提取方法及装置 | |
Sailor et al. | Fusion of magnitude and phase-based features for objective evaluation of TTS voice | |
RU2530314C1 (ru) | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке | |
Pal et al. | Modified energy based method for word endpoints detection of continuous speech signal in real world environment | |
CN108573712B (zh) | 语音活性检测模型生成方法、系统及语音活性检测方法、系统 | |
Nagesh et al. | A robust speech rate estimation based on the activation profile from the selected acoustic unit dictionary | |
Vlaj et al. | Quick and efficient definition of hangbefore and hangover criteria for voice activity detection | |
de Campos Niero et al. | A comparison of distance measures for clustering in speaker diarization | |
Kudashev et al. | Speaker diarization system based on probability linear discriminant analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191025 |
|
CF01 | Termination of patent right due to non-payment of annual fee |