CN106128465A - 一种声纹识别系统及方法 - Google Patents
一种声纹识别系统及方法 Download PDFInfo
- Publication number
- CN106128465A CN106128465A CN201610456548.6A CN201610456548A CN106128465A CN 106128465 A CN106128465 A CN 106128465A CN 201610456548 A CN201610456548 A CN 201610456548A CN 106128465 A CN106128465 A CN 106128465A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- cnn
- module
- result
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001755 vocal effect Effects 0.000 claims abstract description 65
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000013011 mating Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 30
- 210000000056 organ Anatomy 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002463 transducing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理技术及人工智能领域,尤其涉及了一种声纹识别系统,其包括声谱图转换模块、CNN声纹特征提取模块、CNN参数模块、用户声纹特征模型库模块和声纹特征谱匹配解码模块,外部声音输入所述声谱图转换模块,所述声谱图转换模块将所述外部声音进行转换并将转换结果输入所述CNN声纹特征提取模块,所述CNN声纹特征提取模块从所述CNN参数模块中读取CNN参数结合所述转换结果进行声纹特征提取并将提取结果输入所述声纹特征谱匹配解码模块,在所述声纹特征谱匹配解码模块中,将所述提取结果与所述用户声纹特征模型库中的用户声纹特征进行匹配解码识别,识别结果输出即为身份识别结果,本发明还公开了一种声纹识别方法,本发明将语音转成频率‑时间的二维声谱图,利用CNN进行声谱图的特征提取,从而实现了更为准确的声纹识别。
Description
技术领域
本发明涉及信息技术领域、传感信号处理以及人工智能领域,特别涉及一种基于卷积神经网络的声纹识别系统及方法。
背景技术
随着信息技术发展,互联网的普及,以及物联网时代的到来,需要用到人的身份识别的应用场合越来越多,传统需求方面,有各种网上账户的需要,在线支付,或者门禁等等,而随着物联网及人工智能的应用推广,越来越多的电器或者设备将具有更多的智能,设备也将根据不同人的习惯特点进行特色的服务,此时就需要身份识别。
这种情况下,对身份识别的安全性、可靠性和便利性要求越来越高,传统的依靠输入密码的方式非常麻烦,容易遗忘和被盗,近来身份识别技术逐渐往人的生理特征识别技术方面发展,比如指纹,人脸,声纹识别等等。
声纹识别是其中可能被广泛应用的一种生理特征识别技术,其具有稳定性,安全性,和方便性,相对于指纹,密码等,可以实现无接触的识别,甚至可以在人机对话过程中自动完成,声纹是指说话人语音频谱的信息图,由于每个人的发音器官不同,所发出来的声音及音调各不相同,因此,声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性,将会有很广泛的应用。
目前声纹识别的流程方法是首先对说话人的语音特征进行提取,建立声纹模型库,在识别过程中根据系统已有的声纹模型库对输入语音的特征参数进行模式匹配计算,从而实现识别判断,这种参数的提取主要是基于说话人发生器官,如声门、鼻道等的特殊结构而提取出说话人话音的短时谱特征(即基音频率谱及其固有特征)。
然而相较于指纹识别和人脸识别已经开始广泛应用,声纹识别技术的准确性和成熟度目前还不够高,当前的技术方法仍然具有其局限性,仅仅根据短时谱特征来进行判别,其特征维度不够,从而导致对个体差异的适应不够。
当前人工智能采用人工神经网络模型进行大数据训练之所以能够取得非常高的智能识别准确度,就在于通过神经网络模型和大数据结合能够训练出更多维度特征模型来,从而实现更高精度的匹配识别。
发明内容
本发明的目的在于提供一种能够获得高精度匹配识别的基于卷积神经网络(CNN)的声纹识别方法。
为了达到上述目的,本发明提供了如下技术方案。
一种声纹识别系统,其包括:声谱图转换模块、CNN声纹特征提取模块、CNN参数模块、用户声纹特征模型库模块和声纹特征谱匹配解码模块,外部声音输入所述声谱图转换模块,所述声谱图转换模块将所述外部声音进行转换并将转换结果输入所述CNN声纹特征提取模块,所述CNN声纹特征提取模块从所述CNN参数模块中读取CNN参数结合所述转换结果进行声纹特征提取并将提取结果输入所述声纹特征谱匹配解码模块,在所述声纹特征谱匹配解码模块中,将所述提取结果与所述用户声纹特征模型库中的用户声纹特征进行匹配解码识别,识别结果输出即为身份识别结果。
作为本发明的优选方案,所述CNN参数是在上述声纹识别系统识别前由大数据训练得到,所述用户声纹特征是在使用上述声纹识别系统前由所述声谱图转换模块、CNN声纹特征提取模块和CNN参数模块运行采集而成并存放入所述用户声纹特征模型库待调用。
一种包含上述声纹识别系统的声纹识别方法,其包括以下步骤:
步骤一、将外部声音进行短时分帧,并按帧读入语音数据,为保证所述帧与帧之间的连续性,所述帧与帧切割边缘可以有一定的重复;
步骤二、检测所述语音数据,判断所述语音数据是语音帧还是非语音帧,是则进入下一步骤,否则结束流程,当检测到所述语音数据是语音帧时,将所述语音帧及所述语音帧开始前或结束后靠近部分的语音帧一起输出;
步骤三、将所述语音帧及所述语音帧开始前或结束后靠近部分的语音帧进行频率转换,即进行快速傅立叶变换(FFT),形成语音频谱数据;
步骤四、将所述语音频谱数据按照矩阵方式进行存放,所述矩阵的行是时间帧序列,所述矩阵的列是频率序列,所述矩阵就是二维的时间-频率声谱图,所述时间-频率声谱图是将频率当作一维,时间当作另一维,构成的二维图谱,也叫声谱图;
步骤五、所述时间-频率声谱图在CNN中进行声纹特征提取获得声纹特征;
步骤六、将所述声纹特征与用户声纹特征进行声纹特征匹配识别;
步骤七、识别结果输出。
作为本发明的优选方案,所述CNN参数在进行声纹识别前由大数据训练得到。
作为本发明的优选方案,所述用户声纹特征是在进行声纹识别前运行所述步骤一至步骤五后获得的结果,并将所述用户声纹特征放入所述声纹特征模型库中。
本发明声纹识别方法包括了3个过程:
过程一、所述CNN参数的大数据训练过程,该过程所用到的系统与前述所述用户声纹特征采集过程和所述声纹识别过程一样,即运行所述步骤一至步骤七,只是在流程上需要不断根据结果调整所述CNN参数,首先需要收集到大量的人声数据,每个人的声音数据需要多个,其次将部分所述人声数据用于特征采集,剩余部分所述人声数据用于声纹识别,当识别输出的身份匹配不正确时,修正所述CNN参数,直到最终识别正确;
过程二、所述用户声纹特征采集过程,所述用户声纹特征是在进行声纹识别前运行所述步骤一至步骤五后获得的结果,并将所述用户声纹特征放入所述声纹特征模型库中;
过程三、所述声纹识别过程,所述声纹识别过程是在所述CNN参数的大数据训练过程和所述用户声纹特征采集过程完成之后所进行的过程,运行所述步骤一至步骤七后获得的结果。
与现有技术相比,本发明的有益效果:
本发明将语音转成频率-时间的二维声谱图,利用卷积神经网络进行声谱图的特征提取,从而实现了更为准确的声纹识别。
附图说明
图1为本发明框图;
图2为本发明流程图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种声纹识别系统,其包括:声谱图转换模块、CNN声纹特征提取模块、CNN参数模块、用户声纹特征模型库模块和声纹特征谱匹配解码模块,外部声音输入声谱图转换模块,声谱图转换模块将外部声音进行转换并将转换结果输入CNN声纹特征提取模块,CNN声纹特征提取模块从CNN参数模块中提取CNN参数结合转换结果进行声纹特征提取并将提取结果输入声纹特征谱匹配解码模块,在声纹特征谱匹配解码模块中,将提取结果与用户声纹特征模型库中的用户声纹特征进行匹配解码识别,识别结果输出即为身份识别结果,前述CNN参数是由大数据训练得到。
如图2所示,一种包含上述声纹识别系统的声纹识别方法,其包括以下步骤:
步骤一、将外部声音进行短时分帧,并按帧读入语音数据,本实施例中上述帧的时长为25ms,为保证所述帧与帧之间的连续性,所述帧与帧切割边缘可以有5ms重复;
步骤二、检测所述语音数据,判断语音数据是语音帧还是非语音帧,是则进入下一步骤,否则结束流程,当检测到语音数据是语音帧时,将语音帧及前述语音帧开始前或结束后时长为5ms的语音帧一起输出;
步骤三、将所述语音帧进行频率转换,即进行快速傅立叶变换(FFT),形成语音频谱数据;
步骤四、将所述语音频谱数据按照矩阵方式进行存放,所述矩阵的行是时间帧序列,所述矩阵的列是频率序列,所述矩阵就是二维的时间-频率声谱图;
步骤五、所述时间-频率声谱图在CNN中进行声纹特征提取获得声纹特征;
步骤六、将所述声纹特征与用户声纹特征进行声纹特征匹配识别;
步骤七、识别结果输出。
CNN参数是在进行声纹识别前由大数据训练得到,前述的训练过程所用到的系统与前述用户声纹特征采集过程和声纹识别过程一样,即运行前述步骤一至步骤七,只是在流程上需要不断根据结果调整CNN参数,首先需要收集到大量的人声数据,每个人的声音数据需要多个,其次将部分人声数据用于特征采集,剩余部分人声数据用于声纹识别,当识别输出的身份匹配不正确时,修正所述CNN参数,直到最终识别正确。
用户声纹特征是在进行声纹识别前运行上述步骤一至步骤五后获得的结果,并将用户声纹特征放入声纹特征模型库中待进行声纹识别时调用。
Claims (5)
1.一种声纹识别系统,其包括:声谱图转换模块、CNN声纹特征提取模块、CNN参数模块、用户声纹特征模型库模块和声纹特征谱匹配解码模块,外部声音输入所述声谱图转换模块,所述声谱图转换模块将所述外部声音进行转换并将转换结果输入所述CNN声纹特征提取模块,所述CNN声纹特征提取模块从所述CNN参数模块中提取CNN参数结合所述转换结果进行声纹特征提取并将提取结果输入所述声纹特征谱匹配解码模块,在所述声纹特征谱匹配解码模块中,将所述提取结果与所述用户声纹特征模型库中的用户声纹特征进行匹配解码识别,识别结果输出即为身份识别结果。
2.根据权利要求1所述的声纹识别系统,其特征在于:所述CNN参数由大数据训练得到。
3.一种包含权利要求1的一种声纹识别系统的声纹识别方法,其包括以下步骤:
步骤一、将外部声音进行短时分帧,并按帧读入语音数据;
步骤二、检测所述语音数据,判断所述语音数据是语音帧还是非语音帧,是则进入下一步骤,否则结束流程;
步骤三、将所述语音帧进行频率转换,即进行快速傅立叶变换(FFT),形成语音频谱数据;
步骤四、将所述语音频谱数据按照矩阵方式进行存放,所述矩阵的行是时间帧序列,所述矩阵的列是频率序列,所述矩阵就是二维的时间-频率声谱图;
步骤五、所述时间-频率声谱图在CNN中进行声纹特征提取获得声纹特征;
步骤六、将所述声纹特征与用户声纹特征进行声纹特征匹配识别;
步骤七、识别结果输出。
4.根据权利要求3所述的声纹识别方法,其特征在于:所述CNN参数在进行声纹识别前由大数据训练得到。
5.根据权利要求3所述的声纹识别方法,其特征在于:所述用户声纹特征是在进行声纹识别前运行所述步骤一至步骤五后获得的结果,并将所述用户声纹特征放入所述声纹特征模型库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610456548.6A CN106128465A (zh) | 2016-06-23 | 2016-06-23 | 一种声纹识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610456548.6A CN106128465A (zh) | 2016-06-23 | 2016-06-23 | 一种声纹识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106128465A true CN106128465A (zh) | 2016-11-16 |
Family
ID=57269337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610456548.6A Pending CN106128465A (zh) | 2016-06-23 | 2016-06-23 | 一种声纹识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106128465A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN106782568A (zh) * | 2016-11-22 | 2017-05-31 | 合肥星服信息科技有限责任公司 | 一种频率极值和均值结合的声纹过滤方法 |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
CN107293290A (zh) * | 2017-07-31 | 2017-10-24 | 郑州云海信息技术有限公司 | 建立语音声学模型的方法和装置 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108962231A (zh) * | 2018-07-04 | 2018-12-07 | 武汉斗鱼网络科技有限公司 | 一种语音分类方法、装置、服务器及存储介质 |
CN109326294A (zh) * | 2018-09-28 | 2019-02-12 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
CN109493873A (zh) * | 2018-11-13 | 2019-03-19 | 平安科技(深圳)有限公司 | 牲畜声纹识别方法、装置、终端设备及计算机存储介质 |
CN110517660A (zh) * | 2019-08-22 | 2019-11-29 | 珠海格力电器股份有限公司 | 基于嵌入式Linux实时内核的降噪方法和装置 |
CN110517697A (zh) * | 2019-08-20 | 2019-11-29 | 中信银行股份有限公司 | 用于交互式语音应答的提示音智能打断装置 |
CN110648669A (zh) * | 2019-09-30 | 2020-01-03 | 上海依图信息技术有限公司 | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 |
WO2020052135A1 (zh) * | 2018-09-10 | 2020-03-19 | 珠海格力电器股份有限公司 | 音乐推荐的方法、装置、计算装置和存储介质 |
US10621972B2 (en) * | 2017-03-21 | 2020-04-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device extracting acoustic feature based on convolution neural network and terminal device |
CN111048072A (zh) * | 2019-11-21 | 2020-04-21 | 中国南方电网有限责任公司 | 一种应用于电力企业的声纹识别方法 |
CN111275858A (zh) * | 2020-01-22 | 2020-06-12 | 广东快车科技股份有限公司 | 一种声纹识别的授信方法及系统 |
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
CN113697321A (zh) * | 2021-09-16 | 2021-11-26 | 安徽世绿环保科技有限公司 | 一种垃圾分类站用垃圾袋赋码系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN103280219A (zh) * | 2013-05-16 | 2013-09-04 | 中山大学 | 一种基于Android平台的声纹认证方法 |
CN104050147A (zh) * | 2013-03-13 | 2014-09-17 | 刘湘辉 | 将时域信号转换成频域信号的方法与系统 |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105096937A (zh) * | 2015-05-26 | 2015-11-25 | 努比亚技术有限公司 | 语音数据处理方法及终端 |
CN105488227A (zh) * | 2015-12-29 | 2016-04-13 | 惠州Tcl移动通信有限公司 | 一种电子设备及其基于声纹特征处理音频文件的方法 |
-
2016
- 2016-06-23 CN CN201610456548.6A patent/CN106128465A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN104050147A (zh) * | 2013-03-13 | 2014-09-17 | 刘湘辉 | 将时域信号转换成频域信号的方法与系统 |
CN103280219A (zh) * | 2013-05-16 | 2013-09-04 | 中山大学 | 一种基于Android平台的声纹认证方法 |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105096937A (zh) * | 2015-05-26 | 2015-11-25 | 努比亚技术有限公司 | 语音数据处理方法及终端 |
CN105488227A (zh) * | 2015-12-29 | 2016-04-13 | 惠州Tcl移动通信有限公司 | 一种电子设备及其基于声纹特征处理音频文件的方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782568A (zh) * | 2016-11-22 | 2017-05-31 | 合肥星服信息科技有限责任公司 | 一种频率极值和均值结合的声纹过滤方法 |
US10621971B2 (en) | 2016-12-28 | 2020-04-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for extracting speech feature based on artificial intelligence |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN106710589B (zh) * | 2016-12-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
US10957339B2 (en) | 2017-03-10 | 2021-03-23 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speaker recognition method and apparatus, computer device and computer-readable medium |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
US10621972B2 (en) * | 2017-03-21 | 2020-04-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device extracting acoustic feature based on convolution neural network and terminal device |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
CN107293290A (zh) * | 2017-07-31 | 2017-10-24 | 郑州云海信息技术有限公司 | 建立语音声学模型的方法和装置 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107731233A (zh) * | 2017-11-03 | 2018-02-23 | 王华锋 | 一种基于rnn的声纹识别方法 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108198574B (zh) * | 2017-12-29 | 2020-12-08 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN108962231A (zh) * | 2018-07-04 | 2018-12-07 | 武汉斗鱼网络科技有限公司 | 一种语音分类方法、装置、服务器及存储介质 |
WO2020052135A1 (zh) * | 2018-09-10 | 2020-03-19 | 珠海格力电器股份有限公司 | 音乐推荐的方法、装置、计算装置和存储介质 |
CN109326294A (zh) * | 2018-09-28 | 2019-02-12 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
CN109326294B (zh) * | 2018-09-28 | 2022-09-20 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
CN109493873A (zh) * | 2018-11-13 | 2019-03-19 | 平安科技(深圳)有限公司 | 牲畜声纹识别方法、装置、终端设备及计算机存储介质 |
CN110517697A (zh) * | 2019-08-20 | 2019-11-29 | 中信银行股份有限公司 | 用于交互式语音应答的提示音智能打断装置 |
CN110517660A (zh) * | 2019-08-22 | 2019-11-29 | 珠海格力电器股份有限公司 | 基于嵌入式Linux实时内核的降噪方法和装置 |
CN110648669A (zh) * | 2019-09-30 | 2020-01-03 | 上海依图信息技术有限公司 | 多频分路声纹识别方法、装置、系统及计算机可读存储介质 |
CN111048072A (zh) * | 2019-11-21 | 2020-04-21 | 中国南方电网有限责任公司 | 一种应用于电力企业的声纹识别方法 |
CN111275858A (zh) * | 2020-01-22 | 2020-06-12 | 广东快车科技股份有限公司 | 一种声纹识别的授信方法及系统 |
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
CN113697321A (zh) * | 2021-09-16 | 2021-11-26 | 安徽世绿环保科技有限公司 | 一种垃圾分类站用垃圾袋赋码系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106128465A (zh) | 一种声纹识别系统及方法 | |
CN108460081B (zh) | 语音数据库创建方法、声纹注册方法、装置、设备及介质 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN111370003B (zh) | 一种基于孪生神经网络的声纹比对方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
CN106782521A (zh) | 一种语音识别系统 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
CN101887722A (zh) | 快速声纹认证方法 | |
EP1280137B1 (en) | Method for speaker identification | |
CN111816203A (zh) | 基于音素级分析抑制音素影响的合成语音检测方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN105679323B (zh) | 一种号码发现方法及系统 | |
Hong et al. | Combining deep embeddings of acoustic and articulatory features for speaker identification | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN109065026A (zh) | 一种录音控制方法及装置 | |
Tan et al. | Denoised senone i-vectors for robust speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161116 |