CN106340299A - 一种复杂环境下的说话人识别系统及方法 - Google Patents

一种复杂环境下的说话人识别系统及方法 Download PDF

Info

Publication number
CN106340299A
CN106340299A CN201610839912.7A CN201610839912A CN106340299A CN 106340299 A CN106340299 A CN 106340299A CN 201610839912 A CN201610839912 A CN 201610839912A CN 106340299 A CN106340299 A CN 106340299A
Authority
CN
China
Prior art keywords
unit
signal
voice
training
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610839912.7A
Other languages
English (en)
Inventor
谢敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Chuanghui Keda Technology Co Ltd
Original Assignee
Chengdu Chuanghui Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Chuanghui Keda Technology Co Ltd filed Critical Chengdu Chuanghui Keda Technology Co Ltd
Priority to CN201610839912.7A priority Critical patent/CN106340299A/zh
Publication of CN106340299A publication Critical patent/CN106340299A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种复杂环境下的说话人识别系统及方法,涉及导航领域。其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。本发明具有识别准确、成本低、智能化和运行效率高等优点。

Description

一种复杂环境下的说话人识别系统及方法
技术领域
本发明涉及生物识别领域,特别涉及一种复杂环境下的说话人识别系统及方法。
背景技术
随着网络信息化技术的迅猛发展,身份验证的数字化、隐性化、便捷化显得越来越重要。语言作为人类的自然属性之一,说话人语言具有各自的生物特征,这使得通过语音分析进行说话人识别(Speaker Recognition, RS)成为可能。人的语音可以非常自然的产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备,因此采用说话人语音进行说话人识别和其他传统的生物识别技术相比,具有更为简便、准确、经济及可扩展性良好等众多优势。
发明内容
鉴于此,本发明提供了一种复杂环境下的说话人识别系统及方法,本发明具有识别准确、成本低、智能化和运行效率高等优点。
本发明采用的技术方案如下:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
采用以上技术方案,本发明产生了以下有益效果:
1:成本低:本发明的说话人识别系统各个部分不同于常见的语音识别系统,主要过程在于对语音信号的预处理;一般的语音识别系统主要是在语音的匹配和模式建立上投入较大。相较于这样的系统,本发明的系统无需性能强大的处理器对接收到的信号进行处理,对于语音的匹配和判断,采用一般的单片机就能完成。而语音的预处理相较于语音的匹配处理器来说成本较低,整体上降低了整个系统的成本。
2、运行效率高:本发明对于模式建立的部分和识别的部分采用了独立的预处理装置和特征提取单元,提升了系统处理的效率,还可以针对识别过程和训练建立过程中的不同进行不同的操作。
采用以上技术方案,本发明产生了以下有益效果:
1:成本低:本发明的说话人识别系统各个部分不同于常见的语音识别系统,主要过程在于对语音信号的预处理;一般的语音识别系统主要是在语音的匹配和模式建立上投入较大。相较于这样的系统,本发明的系统无需性能强大的处理器对接收到的信号进行处理,对于语音的匹配和判断,采用一般的单片机就能完成。而语音的预处理相较于语音的匹配处理器来说成本较低,整体上降低了整个系统的成本。
2、运行效率高:本发明对于模式建立的部分和识别的部分采用了独立的预处理装置和特征提取单元,提升了系统处理的效率,还可以针对识别过程和训练建立过程中的不同进行不同的操作。
3、识别准确:本发明的系统采用独特的预加重算法和分帧加窗算法,针对语音信号的不同,采用不同的频率进行处理,保证语音信号不会在处理的过程中失真,提升识别的准确性。
4、智能化:本发明的系统对于训练集的建立和语音信号的识别都采用自动识别,最大程度保证了系统的智能化。
附图说明
图1是本发明的一种复杂环境下的说话人识别系统及方法的系统结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有防跌倒方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明实施例1中提供了一种复杂环境下的说话人识别系统,系统结构如图1所示:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
本发明实施例2中提供了一种复杂环境下的说话人识别系统的方法:
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
本发明实施例3中提供了一种复杂环境下的说话人识别系统及方法,系统结构如图1所示:
一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
一种基于复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的防跌倒方法或过程的步骤或任何新的组合。

Claims (8)

1.一种复杂环境下的说话人识别系统,其特征在于,所述系统包括:训练语音预处理装置;所述训练语音预处理装置信号连接于训练语音特征提取单元;所述训练语音特征提取单元信号连接于训练建模单元;所述训练建模单元信号连接于模型参数库;系统还包括:测试语音预处理装置;所述测试语音预处理装置信号连接于测试语音特征提取单元;所述测试语音特征提取单元信号连接于模式匹配单元;所述模式匹配单元分别信号连接于判决输出单元和模型参数库。
2.如权利要求1所述的复杂环境下的说话人识别系统,其特征在于,所述训练语音预处理装置包括:语音采集单元、预加重单元、分帧加窗单元和端点检测单元;所述语音采集单元信号连接于预加重单元,用于采集语音信号,将该模拟的语音信号转换为数字语音信号,将转换后的信号发送到预加重单元;所述预加重单元信号连接于分帧加窗单元,用于对接收到的数字语音信号进行预加重处理,将处理后的信号发送至分帧加窗单元;所述分帧加窗处理单元信号连接于端点检测单元,用于对接收到的信号进行端点检测,将检测处理后的信号发送至训练语音特征提取单元。
3.如权利要求1或2所述的复杂语音下的说话人识别系统,其特征在于,所述训练语音特征提取单元包括:DFT变换模块和特征矢量提取模块;所述DFT变换模块信号连接于特征量提取模块,用于对接收到的信号进行DFT变换,得到DFT变换后的信号,将信号发送至特征矢量提取模块;所述特征适量提取模块信号连接于训练建模单元,用于对接收到的信号进行特征矢量提取,将提取结果发送到训练建模单元。
4.如权利要求3所述的复杂语音下的说话人识别系统,其特征在于,所述训练建模单元包括:闪存和模型建立单元;所述模型建立单元信号连接于闪存,用于对特征量提取模块发送过来的信号进行特征量提取,将提取后的特征量发送到闪存中进行暂存,当提取的特征量数量达到设定的阈值时,对闪存中存储的特征量求取平均值,将平均值发送至模型参数库中进行存储。
5.如权利要求4所述的复杂语音下的说话人识别系统,其特征在于,所述模式匹配单元包括:阈值设定单元和距离度量计算单元;所述阈值设定单元,信号连接于判决输出单元,用于设定判决阈值,将设定的阈值发送给判决输出单元;所述距离度量计算单元,用于计算测试语音的特征量和模型参数库中的特征量的距离度量,将计算得到的距离度量发送给判决输出单元。
6.一种基于权利要去1至5之一所述的复杂语音下的说话人识别系统的方法,其特征在于,所述方法包括以下步骤:
步骤1:系统启动,系统初始化;
步骤2:训练语音预处理装置采集到用于建立匹配模板的训练语音信号,对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给训练语音特征提取单元;
步骤3:训练语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给训练建模单元;
步骤4:训练建模单元对接收到的特征矢量进行特征量求取,根据求取的特征量监理模型参数库;
步骤5:测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号,将采集到的语音信号进行预加重、分帧加窗和端点检测处理,将处理后的结果发送给测试语音特征提取单元;
步骤6:测试语音特征提取单元对接收到的信号进行特征矢量提取,将得到的结果发送给模式匹配单元;
步骤7:模式匹配单元对接收到的信号进行模式匹配,得到距离度量,将距离度量发送给判决输出单元;
步骤8:判决输出单元对接收到的信号进行判定,根据判定结果得出识别结果。
7.如权利要求6所述的复杂语音下的说话人识别方法,其特征在于,所述训练建模单元对接收到的信号进行预加重处理的方法为:采用如下公式对接收到的信号进行变换处理:,对语音信号的高频部分加以提升,使信号的频谱变得平坦。
8.如权利要求7所述的复杂语音下的说话人识别方法,其特征在于,所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤:
步骤1:对接受到的信号进行采样频率为:22020Hz的采样处理;采样后的帧长为256,帧移为128;
步骤2:分帧后,对每帧信号进行加窗处理,处理公式如下:
CN201610839912.7A 2016-09-21 2016-09-21 一种复杂环境下的说话人识别系统及方法 Withdrawn CN106340299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610839912.7A CN106340299A (zh) 2016-09-21 2016-09-21 一种复杂环境下的说话人识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610839912.7A CN106340299A (zh) 2016-09-21 2016-09-21 一种复杂环境下的说话人识别系统及方法

Publications (1)

Publication Number Publication Date
CN106340299A true CN106340299A (zh) 2017-01-18

Family

ID=57840257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610839912.7A Withdrawn CN106340299A (zh) 2016-09-21 2016-09-21 一种复杂环境下的说话人识别系统及方法

Country Status (1)

Country Link
CN (1) CN106340299A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818797A (zh) * 2017-12-07 2018-03-20 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN109785846A (zh) * 2019-01-07 2019-05-21 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置
CN110291760A (zh) * 2017-02-14 2019-09-27 微软技术许可有限责任公司 用于导出用户意图的解析器
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11194998B2 (en) 2017-02-14 2021-12-07 Microsoft Technology Licensing, Llc Multi-user intelligent assistance
CN110291760A (zh) * 2017-02-14 2019-09-27 微软技术许可有限责任公司 用于导出用户意图的解析器
US10957311B2 (en) 2017-02-14 2021-03-23 Microsoft Technology Licensing, Llc Parsers for deriving user intents
US10984782B2 (en) 2017-02-14 2021-04-20 Microsoft Technology Licensing, Llc Intelligent digital assistant system
US11004446B2 (en) 2017-02-14 2021-05-11 Microsoft Technology Licensing, Llc Alias resolving intelligent assistant computing device
CN110291760B (zh) * 2017-02-14 2021-12-10 微软技术许可有限责任公司 用于导出用户意图的解析器
US11017765B2 (en) 2017-02-14 2021-05-25 Microsoft Technology Licensing, Llc Intelligent assistant with intent-based information resolution
US11126825B2 (en) 2017-02-14 2021-09-21 Microsoft Technology Licensing, Llc Natural language interaction for smart assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
CN107818797A (zh) * 2017-12-07 2018-03-20 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN107818797B (zh) * 2017-12-07 2021-07-06 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN109785846A (zh) * 2019-01-07 2019-05-21 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置
CN109785846B (zh) * 2019-01-07 2024-05-28 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置

Similar Documents

Publication Publication Date Title
CN106340299A (zh) 一种复杂环境下的说话人识别系统及方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
CN110176226A (zh) 一种语音识别、及语音识别模型训练方法及装置
CN107068154A (zh) 基于声纹识别的身份验证的方法及系统
CN106971741A (zh) 实时将语音进行分离的语音降噪的方法及系统
CN106448684A (zh) 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN108831440A (zh) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN110459214A (zh) 语音交互方法及装置
CN107993663A (zh) 一种基于Android的声纹识别方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN110148425A (zh) 一种基于完整局部二进制模式的伪装语音检测方法
CN110222708A (zh) 一种基于集成决策树的跌倒检测方法和系统
WO2018166316A1 (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN110176250B (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN103730112A (zh) 语音多信道模拟与采集方法
CN109584893A (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN109448700A (zh) 一种基于改进mfcc算法的嵌入式语音识别系统及方法
CN106604193A (zh) 应用于受话器的缺陷检测方法及系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN115457980A (zh) 一种无参考语音的自动化语音质量评估方法及系统
CN110610204B (zh) 一种基于频率相关性的心音连通网络特征提取方法
CN111145726A (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN111862991A (zh) 一种婴儿哭声的识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170118