CN106340299A - 一种复杂环境下的说话人识别系统及方法 - Google Patents
一种复杂环境下的说话人识别系统及方法 Download PDFInfo
- Publication number
- CN106340299A CN106340299A CN201610839912.7A CN201610839912A CN106340299A CN 106340299 A CN106340299 A CN 106340299A CN 201610839912 A CN201610839912 A CN 201610839912A CN 106340299 A CN106340299 A CN 106340299A
- Authority
- CN
- China
- Prior art keywords
- unit
- signal
- voice
- training
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 238000009432 framing Methods 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 8
- 238000003032 molecular docking Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 210000003205 muscle Anatomy 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000000151 deposition Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种复杂环境下的说话人识别系统及方法,涉及导航领域。其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。本发明具有识别准确、成本低、智能化和运行效率高等优点。
Description
技术领域
本发明涉及生物识别领域,特别涉及一种复杂环境下的说话人识别系统及方法。
背景技术
随着网络信息化技术的迅猛发展,身份验证的数字化、隐性化、便捷化显得越来越重要。语言作为人类的自然属性之一,说话人语言具有各自的生物特征,这使得通过语音分析进行说话人识别(Speaker Recognition, RS)成为可能。人的语音可以非常自然的产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备,因此采用说话人语音进行说话人识别和其他传统的生物识别技术相比,具有更为简便、准确、经济及可扩展性良好等众多优势。
发明内容
鉴于此,本发明提供了一种复杂环境下的说话人识别系统及方法,本发明具有识别准确、成本低、智能化和运行效率高等优点。
本发明采用的技术方案如下:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
。
采用以上技术方案,本发明产生了以下有益效果:
1:成本低:本发明的说话人识别系统各个部分不同于常见的语音识别系统,主要过程在于对语音信号的预处理;一般的语音识别系统主要是在语音的匹配和模式建立上投入较大。相较于这样的系统,本发明的系统无需性能强大的处理器对接收到的信号进行处理,对于语音的匹配和判断,采用一般的单片机就能完成。而语音的预处理相较于语音的匹配处理器来说成本较低,整体上降低了整个系统的成本。
2、运行效率高:本发明对于模式建立的部分和识别的部分采用了独立的预处理装置和特征提取单元,提升了系统处理的效率,还可以针对识别过程和训练建立过程中的不同进行不同的操作。
采用以上技术方案,本发明产生了以下有益效果:
1:成本低:本发明的说话人识别系统各个部分不同于常见的语音识别系统,主要过程在于对语音信号的预处理;一般的语音识别系统主要是在语音的匹配和模式建立上投入较大。相较于这样的系统,本发明的系统无需性能强大的处理器对接收到的信号进行处理,对于语音的匹配和判断,采用一般的单片机就能完成。而语音的预处理相较于语音的匹配处理器来说成本较低,整体上降低了整个系统的成本。
2、运行效率高:本发明对于模式建立的部分和识别的部分采用了独立的预处理装置和特征提取单元,提升了系统处理的效率,还可以针对识别过程和训练建立过程中的不同进行不同的操作。
3、识别准确:本发明的系统采用独特的预加重算法和分帧加窗算法,针对语音信号的不同,采用不同的频率进行处理,保证语音信号不会在处理的过程中失真,提升识别的准确性。
4、智能化:本发明的系统对于训练集的建立和语音信号的识别都采用自动识别,最大程度保证了系统的智能化。
附图说明
图1是本发明的一种复杂环境下的说话人识别系统及方法的系统结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有防跌倒方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明实施例1中提供了一种复杂环境下的说话人识别系统,系统结构如图1所示:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
本发明实施例2中提供了一种复杂环境下的说话人识别系统的方法:
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
。
本发明实施例3中提供了一种复杂环境下的说话人识别系统及方法,系统结构如图1所示:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的防跌倒方法或过程的步骤或任何新的组合。
Claims (8)
1.一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
2.如权利要求1所述的复杂环境下的说话人识别系统,其特征在于,所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
3.如权利要求1或2所述的复杂语音下的说话人识别系统,其特征在于,所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
4.如权利要求3所述的复杂语音下的说话人识别系统,其特征在于,所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
5.如权利要求4所述的复杂语音下的说话人识别系统,其特征在于,所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
6.一种基于权利要去1至5之一所述的复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
7.如权利要求6所述的复杂语音下的说话人识别方法,其特征在于,所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
8.如权利要求7所述的复杂语音下的说话人识别方法,其特征在于,所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839912.7A CN106340299A (zh) | 2016-09-21 | 2016-09-21 | 一种复杂环境下的说话人识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839912.7A CN106340299A (zh) | 2016-09-21 | 2016-09-21 | 一种复杂环境下的说话人识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106340299A true CN106340299A (zh) | 2017-01-18 |
Family
ID=57840257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610839912.7A Withdrawn CN106340299A (zh) | 2016-09-21 | 2016-09-21 | 一种复杂环境下的说话人识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106340299A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN109785846A (zh) * | 2019-01-07 | 2019-05-21 | 平安科技(深圳)有限公司 | 单声道的语音数据的角色识别方法及装置 |
CN110291760A (zh) * | 2017-02-14 | 2019-09-27 | 微软技术许可有限责任公司 | 用于导出用户意图的解析器 |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
-
2016
- 2016-09-21 CN CN201610839912.7A patent/CN106340299A/zh not_active Withdrawn
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US11194998B2 (en) | 2017-02-14 | 2021-12-07 | Microsoft Technology Licensing, Llc | Multi-user intelligent assistance |
CN110291760A (zh) * | 2017-02-14 | 2019-09-27 | 微软技术许可有限责任公司 | 用于导出用户意图的解析器 |
US10957311B2 (en) | 2017-02-14 | 2021-03-23 | Microsoft Technology Licensing, Llc | Parsers for deriving user intents |
US10984782B2 (en) | 2017-02-14 | 2021-04-20 | Microsoft Technology Licensing, Llc | Intelligent digital assistant system |
US11004446B2 (en) | 2017-02-14 | 2021-05-11 | Microsoft Technology Licensing, Llc | Alias resolving intelligent assistant computing device |
CN110291760B (zh) * | 2017-02-14 | 2021-12-10 | 微软技术许可有限责任公司 | 用于导出用户意图的解析器 |
US11017765B2 (en) | 2017-02-14 | 2021-05-25 | Microsoft Technology Licensing, Llc | Intelligent assistant with intent-based information resolution |
US11126825B2 (en) | 2017-02-14 | 2021-09-21 | Microsoft Technology Licensing, Llc | Natural language interaction for smart assistant |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN107818797B (zh) * | 2017-12-07 | 2021-07-06 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN109785846A (zh) * | 2019-01-07 | 2019-05-21 | 平安科技(深圳)有限公司 | 单声道的语音数据的角色识别方法及装置 |
CN109785846B (zh) * | 2019-01-07 | 2024-05-28 | 平安科技(深圳)有限公司 | 单声道的语音数据的角色识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106340299A (zh) | 一种复杂环境下的说话人识别系统及方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US9542938B2 (en) | Scene recognition method, device and mobile terminal based on ambient sound | |
CN107068154A (zh) | 基于声纹识别的身份验证的方法及系统 | |
CN106971741A (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
CN106448684A (zh) | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 | |
CN108831440A (zh) | 一种基于机器学习及深度学习的声纹降噪方法及系统 | |
CN110148425A (zh) | 一种基于完整局部二进制模式的伪装语音检测方法 | |
WO2018166316A1 (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN109256139A (zh) | 一种基于Triplet-Loss的说话人识别方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN103871423A (zh) | 一种基于nmf非负矩阵分解的音频分离方法 | |
CN113566948A (zh) | 机器人化煤机故障音频识别及诊断方法 | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
CN109448700A (zh) | 一种基于改进mfcc算法的嵌入式语音识别系统及方法 | |
CN106604193A (zh) | 应用于受话器的缺陷检测方法及系统 | |
CN105916090A (zh) | 一种基于智能化语音识别技术的助听器系统 | |
CN115457980A (zh) | 一种无参考语音的自动化语音质量评估方法及系统 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN110610204B (zh) | 一种基于频率相关性的心音连通网络特征提取方法 | |
CN116504253A (zh) | 一种基于频率动态卷积模型的鸟类声音识别方法和系统 | |
CN109919101A (zh) | 一种基于手机客户端的用户体验评价方法及系统 | |
WO2023036016A1 (zh) | 一种应用于电力作业中的声纹识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170118 |