CN113113022A - 一种基于说话人声纹信息的自动识别身份的方法 - Google Patents
一种基于说话人声纹信息的自动识别身份的方法 Download PDFInfo
- Publication number
- CN113113022A CN113113022A CN202110406400.2A CN202110406400A CN113113022A CN 113113022 A CN113113022 A CN 113113022A CN 202110406400 A CN202110406400 A CN 202110406400A CN 113113022 A CN113113022 A CN 113113022A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- speaker
- voice
- conference
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于说话人声纹信息的自动识别身份的方法和存储方法,会议开始前,语音降噪模块录制一段环境音作为会议的背景噪声;语音分割模块将连续的会议录音分隔根据发言间隔分割为录音片段;声纹识别模块以所述语音片段作为输入,输出一段固定长度的向量作为该语音片段的声纹向量;会议说话人识别模块将所述声纹向量和本地声纹库中所有的声纹向量进行比对,选取本地声纹库中相似度最高的一条声纹,根据相似度,判断说话人是否为已注册人;若两条声纹向量的相似度大于阈值0.7,则判断两条声纹属于同一说话人,为已注册人;反之则不属于同一说话人,为未注册人。
Description
技术领域
本发明涉及多媒体技术领域,更具体的是,本发明涉及用于说话人声纹信息自动识别身份的方法和存储方法。
背景技术
每个人的声音都有自己的生物特征。声纹识别是一种利用说话人的声音来识别说话人身份的技术。声纹识别技术像指纹识别一样具有高度的安全性和可靠性,可以在任何场合做身份识别。如在刑事调查、银行、证券、保险等金融领域。与传统的识别技术相比,声纹识别的优点是声纹提取过程简单,成本低,具有独特性,不易伪造和造假。
目前常见的会议记录软件专注于录音与语音识别,均未做到说话人识别的功能,往往是只进行会议内容的记录,并不进行说话人的标记。在做会议记录时,通常需要对会议进行录音,由后期的会议整理人员进行手动标记,这样的方式费时费力,而且容易疏漏。
发明内容
本发明设计开发了一种说话基于说话人声纹信息的自动识别身份的方法,自动识别会议中的发言人身份。
本发明的另一个技术问题是,对说话人的身份进行标记,并且声纹识别陌生人并进行存储。
一种基于说话人声纹信息的自动识别身份的方法,
会议开始前,语音降噪模块录制一段环境音作为会议的背景噪声;
语音分割模块将连续的会议录音分隔根据发言间隔分割为录音片段;
声纹识别模块以所述语音片段作为输入,输出一段固定长度的向量作为该语音片段的声纹向量;
会议说话人识别模块将所述声纹向量和本地声纹库中所有的声纹向量进行比对,选取本地声纹库中相似度最高的一条声纹,根据相似度,判断说话人是否为已注册人;
其中,比较两条声纹向量a,b的相似度:
若两条声纹向量的相似度大于阈值0.7,则判断两条声纹属于同一说话人,为已注册人;反之则不属于同一说话人,为未注册人。
作为一种优选,利用说话人发言的间隙将会议录音分割为录音片段。
作为一种优选,会议过程中持续录音,当检测到的分贝数大于背景噪声分贝数的1.5倍时,判定当前有发言人正在发言,当检测到分贝数小于背景噪声分贝数的1.5倍并且持续大于200毫秒时,判定说话人的间隙,进行语音切割。
作为一种优选,所述声纹识别模块提取语音片段的MFCC作为语音特征,将语音特征输入时延神经网络的深度神经网络模型提取第一个全连接层的输出作为声纹向量;
其中,时延神经网络包括:第一时延神经网络层,跨度[-2,2];第二时延神经网络层,跨度[-1,2];第三时延神经网络层,跨度[-3,3];第四时延神经网络层,跨度[7,2];统计池化层;全连接层;
输入参数为长度为256的23维MFCC语音特征,输出为第一个全连接层的输出,为一个512维向量作为该语音片段的声纹向量。
作为一种优选,当最大相似度小于阈值,认为该段录音片段属于陌生说话人,会将该录音片段标记为陌生人并编号后加入本地声纹库。
作为一种优选,还包括:声纹特征存储与更新模块,用于在运行系统与物理介质间进行声纹特征的读取与存储,声纹特征由身份信息和一条或多条声纹向量构成,以JSON格式存储在物理介质上。
本发明所述的有益效果:自动识别会议中的发言人身份,识别陌生人并标注在会议记录文档中,无需后期人工标注说话人身份,实现会议记录的完全自动化。
附图说明
图1为本发明实施例的工作流程图。
图2为本发明声纹比对和更新算法的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明技术方案包括:声纹信息读取模块,语音降噪模块,语音分割模块,声纹识别模块,会议说话人识别模块,声纹特征的更新存储模块和会议文档的生成模块。
声纹信息读取模块:作为一种优选,读取声纹信息的方式有两种,分别是从物理介质上直接导入和通过自动会议记录系统实时录制获取。
若选择从物理介质上直接导入,则通过用户指定存储位置上的声纹信息文件导入,系统读取文件中的身份以及对应的声纹向量,在内部声纹库中形成一个说话人身份对应一条或多条声纹向量的映射关系,内部声纹库中的说话人身份是彼此不同的,作为一种优选,可以使用说话人姓名加编号的方式来表示身份。
若选择通过自动会议记录软件实时录制获取声纹信息,首先需要手动输入说话人身份标识例如姓名或者工号,系统会确认本地声纹库中没有重名的身份标识。系统会显示一段文字要求用户朗读并录制一段音频,随后利用声纹识别算法获取该段音频中的声纹作为该用户的声纹信息加入本地声纹库。
语音降噪模块:认为会议中存在的噪声都是平稳的缓慢变化的,这包括会议环境的噪声和麦克风的信道噪声,假设语音中的噪声都是加性噪声,作为优选,使用谱减法进行语音降噪。系统在会议开始前会要求用户录制一段环境音作为会议的背景噪声。
作为一种优选,使用如下谱减算法进行去噪:
D(w)=PS(w)-αPn(w)
with α≥1,and 0<β<1
其中D(w)为差值频谱,Ps(w)为带噪语音频谱,Pn(w)为背景噪声频谱。
P′s(w)为经过谱减法去噪后的音频频谱。α为相减因子,β为频谱下限阈值参数。本实施例中α确定为2,β确定为0.2。
语音分割模块:该模块将连续的会议录音分隔根据发言间隔分割为录音片段。作为一种优选,使用语音活动检测(VAD)方法实时利用说话人发言的间隙将录音分段。
会议过程中系统持续录音,当分贝数大于背景噪声分贝数的α倍时,系统判定当前有发言人正在发言,当分贝数小于背景噪声分贝数的α倍并且持续大于t毫秒时,系统判定发言人停止一段发言,进行语音切割。这里的α和t均为系统内预设好的参数,作为一种优选,分别为1.5和200毫秒。
声纹比对和更新算法的流程图如图2所示。
声纹识别模块:声纹识别模块以语音分割模块输出的一定长度的语音片段作为输入,输出一段固定长度的向量作为该语音片段的声纹信息。
声纹向量是由端到端的声纹识别模型如X-Vector,CTDNN等生成,具体方法是将一段语音片段经过短时傅里叶变换后生成的梅尔倒谱图输入模型,在前向传播的过程中截取中间输出固定位置的参数作为该段语音的声纹向量。
作为一种优选,该声纹识别模块首先提取语音片段的梅尔倒谱系数(MFCC)作为语音特征,将语音特征输入训练好的基于时延神经网络(TDNN)的深度神经网络模型提取第一个全连接层的输出作为声纹信息。
尽管声纹识别是一种现有技术,但是作为一种优选,本发明可以使用的神经网络模型(共八层)每层参数如下:
1.时延神经网络层,跨度[-2,2]
2.时延神经网络层,跨度[-1,2]
3.时延神经网络层,跨度[-3,3]
4.时延神经网络层,跨度[7,2]
5.统计池化层
6.全连接层
7.全连接层
8.Softmax输出层
在训练声纹识别网络时使用完整的网络,而实际提取声纹时仅使用到前6层网络,第七层和第八层的输出被舍弃。
作为一种优选,网络使用了Dropout方法进行训练,具体来说,第一层网络的dropout保留比例设置为1以保留输入特征不变以外,其他网络层均设置dropout保留比例为0.5作为网络参数的正则化。
在一次前向传播的过程中,网络参数根据dropout保留比例随机置零。
每层网络之前额外加入批量归一化(Batch Normalization)层进行输入数据的归一化。记给定的批量数据集为B,则归一化函数如下所示:
网络在训练时输入参数为长度为256的23维MFCC特征,输出为对应说话人的概率,基于开源的VoxCeleb1说话人识别数据集,使用交叉熵作为分类损失进行训练。
网络在实际提取声纹时输入参数为长度为256的23维MFCC特征,输出为第一个全连接层的输出,为一个512维向量作为该语音片段的声纹信息。
系统利用正规化余弦相似度比较两条声纹向量a,b的相似度:
其中a,b是给定的声纹向量,ai表示向量a第i个维度的数值,bi表示向量b第i个维度的数值。
该相似度函数的输出的值域为[0,1]。
若两条声纹向量的相似度大于系统设置的阈值0.7,则判断两条声纹属于同一说话人,反之则不属于同一说话人。
会议说话人识别模块:该模块用于在会议进行中实时识别录音片段的说话人身份。
对于一条录音片段,其输入声纹识别模块得到该条语音的声纹向量,将提取到的声纹向量和本地声纹库中所有的声纹向量进行比对,选取本地声纹库中相似度最高的一条声纹,根据相似度是否高于系统设置的阈值分为两种情况:
第一种情况是本地声纹库中最大相似度大于阈值,此时是在会议场景中识别已经注册身份的说话人,就以本地声纹库中该条声纹的身份作为该段录音片段的身份。
第二种情况是本地声纹库中的最大相似度小于阈值,此时认为该段录音片段属于陌生说话人,会将该录音片段标记为陌生人并编号后加入本地声纹库。后续再有与该录音片段属于同一说话人的录音进入系统时,系统会将其识别为同一说话人。
声纹特征存储与更新模块:本模块用于在运行系统与物理介质间进行声纹特征的读取与存储,声纹特征由身份信息和一条或多条声纹向量构成,以JSON格式存储与物理介质上。
系统可以主动注册新的说话人,要求用户输入说话人标识符,并录制一段音频,系统将该段音频输入声纹识别模块后生成的声纹向量和说话人标识符组合成一条新的声纹特征加入声纹库中。
在会议过程中已注册说话人的声纹特征也会得到实时更新来获得更准确的说话人识别结果。
具体来说,当一条录音片段的声纹的身份被识别为某一注册说话人后,其声纹向量将和该注册说话人身份对应的所有声纹向量进行相似度计算并替换掉声纹库中存在的相似度最低的声纹向量,可以增强未来同一个说话人的语音声纹识别功能的准确性与敏感性。
JSON格式的声纹特征独立于系统,作为优选,可以是独立的文件,可以在不同的终端间流通,可以被不同设备上的自动会议记录系统读取。
会议文档生成模块:系统会实时记录会议内容,将说话人身份和当前语音片段语音识别的结果显示在同一行。不同的发言内容按照时间顺序实时显示在系统界面上。作为一种优选,对于系统中存储的经过语音识别和声纹识别的会议录音片段,按照时间顺序在屏幕上依次显示说话人姓名和发言内容。
系统的操作员可以实时修改已经识别的语音内容来修正语音识别和声纹识别可能出现的差错。在会议结束后,系统将完整的会议记录内容保存在存储介质上供读取和编辑。
如图1所示,系统启动时从物理介质上导入存储好的说话人声纹信息加入本地声纹库;系统在会议过程中进行实时录音并根据说话人对会议录音进行分段;系统对会议录音分段进行降噪处理;系统对录音分段进行语音识别,并记录结果;系统对录音分段利用深度学习模型进行声纹识别,输出该条录音的声纹信息并和本地声纹库中的声纹信息进行比对,若无法匹配则更新本地声纹库;系统将说话人身份和其发言内容整理,同时显示在系统显示屏上;系统在会议结束后,对会议内容进行整理,输出完整会议记录文档;系统在系统关闭前,保存更新后的本地声纹库到物理介质上。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (6)
2.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法,其特征在于,利用说话人发言的间隙将会议录音分割为录音片段。
3.如权利要求2所述的基于说话人声纹信息的自动识别身份的方法,其特征在于,会议过程中持续录音,当检测到的分贝数大于背景噪声分贝数的1.5倍时,判定当前有发言人正在发言,当检测到分贝数小于背景噪声分贝数的1.5倍并且持续大于200毫秒时,判定说话人的间隙,进行语音切割。
4.如权利要求1或3所述的基于说话人声纹信息的自动识别身份的方法,其特征在于,所述声纹识别模块提取语音片段的MFCC作为语音特征,将语音特征输入时延神经网络的深度神经网络模型提取第一个全连接层的输出作为声纹向量;
其中,时延神经网络包括:第一时延神经网络层,跨度[-2,2];第二时延神经网络层,跨度[-1,2];第三时延神经网络层,跨度[-3,3];第四时延神经网络层,跨度[7,2];统计池化层;全连接层;
输入参数为长度为256的23维MFCC语音特征,输出为第一个全连接层的输出,为一个512维向量作为该语音片段的声纹向量。
5.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法,其特征在于,当最大相似度小于阈值,认为该段录音片段属于陌生说话人,会将该录音片段标记为陌生人并编号后加入本地声纹库。
6.如权利要求5所述的基于说话人声纹信息的自动识别身份的方法,其特征在于,还包括:
声纹特征存储与更新模块,用于在运行系统与物理介质间进行声纹特征的读取与存储,声纹特征由身份信息和一条或多条声纹向量构成,以JSON格式存储在物理介质上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406400.2A CN113113022A (zh) | 2021-04-15 | 2021-04-15 | 一种基于说话人声纹信息的自动识别身份的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406400.2A CN113113022A (zh) | 2021-04-15 | 2021-04-15 | 一种基于说话人声纹信息的自动识别身份的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113113022A true CN113113022A (zh) | 2021-07-13 |
Family
ID=76717369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110406400.2A Pending CN113113022A (zh) | 2021-04-15 | 2021-04-15 | 一种基于说话人声纹信息的自动识别身份的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113022A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571101A (zh) * | 2021-09-10 | 2021-10-29 | 深圳市升迈电子有限公司 | 智能录音方法、装置、设备及存储介质 |
CN114780787A (zh) * | 2022-04-01 | 2022-07-22 | 杭州半云科技有限公司 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
CN115116446A (zh) * | 2022-06-21 | 2022-09-27 | 成都理工大学 | 一种噪声环境下说话人识别模型构建方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106657865A (zh) * | 2016-12-16 | 2017-05-10 | 联想(北京)有限公司 | 会议纪要的生成方法、装置及视频会议系统 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN107689225A (zh) * | 2017-09-29 | 2018-02-13 | 福建实达电脑设备有限公司 | 一种自动生成会议记录的方法 |
CN108899052A (zh) * | 2018-07-10 | 2018-11-27 | 南京邮电大学 | 一种基于多带谱减法的帕金森语音增强方法 |
CN109360553A (zh) * | 2018-11-20 | 2019-02-19 | 华南理工大学 | 一种用于语音识别的新型时延递归神经网络 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110838295A (zh) * | 2019-11-17 | 2020-02-25 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111863001A (zh) * | 2020-06-17 | 2020-10-30 | 广州华燎电气科技有限公司 | 一种多方通话系统中抑制背景噪声的方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
-
2021
- 2021-04-15 CN CN202110406400.2A patent/CN113113022A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106657865A (zh) * | 2016-12-16 | 2017-05-10 | 联想(北京)有限公司 | 会议纪要的生成方法、装置及视频会议系统 |
CN107146624A (zh) * | 2017-04-01 | 2017-09-08 | 清华大学 | 一种说话人确认方法及装置 |
CN107689225A (zh) * | 2017-09-29 | 2018-02-13 | 福建实达电脑设备有限公司 | 一种自动生成会议记录的方法 |
CN108899052A (zh) * | 2018-07-10 | 2018-11-27 | 南京邮电大学 | 一种基于多带谱减法的帕金森语音增强方法 |
CN109360553A (zh) * | 2018-11-20 | 2019-02-19 | 华南理工大学 | 一种用于语音识别的新型时延递归神经网络 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
CN110838295A (zh) * | 2019-11-17 | 2020-02-25 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN111863001A (zh) * | 2020-06-17 | 2020-10-30 | 广州华燎电气科技有限公司 | 一种多方通话系统中抑制背景噪声的方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
宋知用: "《MATLAB语音信号分析与合成》", 北京航空航天大学出版社 * |
李铮等: "说话人识别系统中特征提取的优化方法", 《厦门大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571101A (zh) * | 2021-09-10 | 2021-10-29 | 深圳市升迈电子有限公司 | 智能录音方法、装置、设备及存储介质 |
CN114780787A (zh) * | 2022-04-01 | 2022-07-22 | 杭州半云科技有限公司 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
CN115116446A (zh) * | 2022-06-21 | 2022-09-27 | 成都理工大学 | 一种噪声环境下说话人识别模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136727B (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN113113022A (zh) | 一种基于说话人声纹信息的自动识别身份的方法 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
Heck et al. | Robustness to telephone handset distortion in speaker recognition by discriminative feature design | |
CN111243603B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
US20070233484A1 (en) | Method for Automatic Speaker Recognition | |
CN111339913A (zh) | 一种视频中的人物情绪识别方法及装置 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
CN111091840A (zh) | 一种建立性别识别模型的方法及性别识别方法 | |
CN111429919B (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
Raghib et al. | Emotion analysis and speech signal processing | |
Al-Shayea et al. | Speaker identification: A novel fusion samples approach | |
Moumin et al. | Automatic Speaker Recognition using Deep Neural Network Classifiers | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN111951809A (zh) | 多人声纹辨别方法及系统 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
Al-Qaisi | Arabic word dependent speaker identification system using artificial neural network | |
CN113838469A (zh) | 一种身份识别方法、系统及存储介质 | |
Shome et al. | Effect of End Point Detection on Fixed Phrase Speaker Verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |