CN111951809A - 多人声纹辨别方法及系统 - Google Patents

多人声纹辨别方法及系统 Download PDF

Info

Publication number
CN111951809A
CN111951809A CN201910401565.3A CN201910401565A CN111951809A CN 111951809 A CN111951809 A CN 111951809A CN 201910401565 A CN201910401565 A CN 201910401565A CN 111951809 A CN111951809 A CN 111951809A
Authority
CN
China
Prior art keywords
frequency domain
voice
voice information
test
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910401565.3A
Other languages
English (en)
Other versions
CN111951809B (zh
Inventor
陈佩云
陈晓攀
李孝超
刘运卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jintong Technology Co ltd
Original Assignee
Shenzhen Ziwan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ziwan Technology Co Ltd filed Critical Shenzhen Ziwan Technology Co Ltd
Priority to CN201910401565.3A priority Critical patent/CN111951809B/zh
Publication of CN111951809A publication Critical patent/CN111951809A/zh
Application granted granted Critical
Publication of CN111951809B publication Critical patent/CN111951809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了多人声纹辨别方法及系统,所述方法包括:采集待分类语音信息;将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人声纹分类辨别。本发明为了解决现有声纹辨别中需提前存储预识别的声纹信息,辨别人数有限的技术问题,故提出多人声纹辨别方案:通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算,并根据相似度值进行多人声纹的分类辨别,能够达到无需对用户的声音进行预先存储,从而实现多人声纹分类辨别。

Description

多人声纹辨别方法及系统
技术领域
本发明属于声纹辨别技术领域,尤其涉及多人声纹辨别方法及系统。
背景技术
目前,语音识别技术已经日趋成熟,语音识别技术也已广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、语音输入、音频转译等服务领域。与语音识别联系紧密的声纹辨别技术也有一定的发展,例如科大讯飞推出的声纹辨别功能,可用来实现考勤,门禁等相关功能。现有的声纹辨别技术大多都能够实现1对1或者N对1的辨别(提前采集一人的声纹信息识别这一人或者提前采集N人识别其中某一人)。百度输入法v8.0中的语音速记功能中的多人模式能够实现在2-3人的小型会议中,对声纹进行分析自动区分发言人。
但现阶段的声纹识别有局限性,大部分产品必须提前对用户进行声纹采集后才能使用,而对于用户没有提前录入声纹信息的长段语音则不能辨别音频中有几个人说话,说了哪几段话。而百度的声纹识别则局限在2-3个人的小型会议场景。基于上述技术问题,本文提出的声纹辨别技术通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算,并根据相似度值进行多人声纹的分类辨别,能够达到无需对用户的声音进行预先存储,从而实现多人声纹分类辨别。
发明内容
鉴于此,本发明实施例提供了多人声纹辨别方法及系统,现有声纹辨别需提前存储预识别的声纹信息,辨别人数有限,无法实现无需预先存储声纹信息进行多人语音辨别;本发明通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算,并根据相似度值进行多人声纹的分类辨别,能够达到无需对用户的声音进行预先存储,从而实现多人声纹分类辨别。
第一方面,提供了一种多人声纹辨别方法,所述方法包括步骤:
采集待分类语音信息;
将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;
将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别。
进一步地,所述采集到的待分类语音信息切割为多段测试语音步骤包括:
以所述待分类语音信息的静默值以及静默时间作为依据做切割。
进一步地,所述时域到频域的转换的步骤具体包括:
将所述多段测试语音做离散傅里叶变换转化,并根据转化后的值绘制出测试频域波形图集。
进一步地,所述训练好的分类模型的训练步骤包括:
采集各类人群的建模语音信息;
将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图;
根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
进一步地,在训练时,采用了Inception-v3模型进行迁移学习缩短训练时间,输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。
进一步地,训练出损失值小于5%的分类模型。
进一步地,采集所述待分类语音信息和所述建模语音信息的设备型号相同。
进一步地,在此处以静默值小于-50dBFs,静默时间大于500ms为依据做切割。
第二方面,提供了一种多人声纹辨别系统,所述系统包括:
待分类语音信息采集模块:用于采集待分类语音信息;
待分类语音信息处理模块:用于将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;
声纹辨别模块:用于将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别。
进一步地,所述系统还包括:
语音信息采集模块,用于采集各类人群的建模语音信息;
语音信息处理模块,用于将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图;
分类模型训练模块,用于根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
与现有技术相比,本发明通过语音采集设备采集待分类语音信息并将待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进而实现了多人声纹分类辨别;从而提出了一种多人声纹辨别方案:通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算,并根据相似度值进行多人声纹的分类辨别,能够达到无需对用户的声音进行预先存储,从而实现多人声纹分类辨别。
附图说明
图1是本发明实施例提供的多人声纹辨别方法的流程图。
图2是本发明实施例提供的多人声纹辨别系统的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过采集待分类语音信息;将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人声纹分类辨别;为了解决现有声纹辨别需提前存储预识别的声纹信息,辨别人数有限,无法实现无需预先存储声纹信息进行多人语音辨别的问题。
本发明实施例还提供了相应的装置,以下分别进行详细的说明。
图1示出了本发明实施例提供的多人声纹辨别方法的流程图。
在本发明实施例中,所述多人声纹辨别方法应用于两个人及以上人对话需要记录区别的场景中,例如会议记录、采访、演讲记录、课堂讲座记录等。
参阅图1,所述多人声纹辨别方法包括:
S10,采集待分类语音信息。
在本发明实施例中,需要在训练好分类模型后,采用语音采集设备对待分类语音进行采集。
其中,分类模型的训练包括:
首先利用和采集待分类语音的同类型设备对建模语音进行采集。
然后将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图。
接着根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
在训练时,采用了Inception-v3模型进行迁移学习缩短训练时间,输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。
最后训练出损失值小于5%的分类模型,得到分类模型;所述损失值根据情况可以在分类模型训练完成后通过后期模拟测试调整。
具体实施时,为了减少因不同设备而造成的干扰,采用和采集待分类语音的同类型设备录取了N(≥2)个人在不同场景下说话的语音,按照不同的人进行分类,设置的分类即为N类。为了能够更快捷的找到每个人声纹的特征点,将采集到的建模语音信息进行时域到频域的转换,具体通过离散傅里叶进行转换,能够绘制出若干的频谱图,将每个人的语音信息的频谱图作为音频文件的输出即完成了将原始的音频信号到频域波形图的转换,此时的数据集依然是按照不同的人进行分类N,而数据集的内容则是每个类别语音对应的频谱图。
其中,将每个人的频谱图数据分为训练集、测试集、验证集投入神经网络中进行学习,训练时采用了Inception-v3模型进行迁移学习缩短训练时间,提高训练效果。当损失值小于5%(此参数可根据情况优化调节)时即可停止训练,得到分类模型。
S12,将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集。
其中,待分类语音信息的切割以静默值、静默时间作为依据做切割,具体的在此处以静默值小于-50dBFs,静默时间大于500ms为依据做切割。切割语音数据的每一小段作为一个数据单元的测试语音,完成后可得到M个片段的数据。同样为了能够更快捷的找到每个人声纹的特征点,将采集到的建模语音信息进行时域到频域的转换,具体通过离散傅里叶进行转换,通过设置转换时间来绘制频谱图,转换之后数据单元的个数仍为M个频谱图合集,而每个频谱图合集中会有相应数量的频谱图,对应的频谱图合集分别为m1,m2,m3…mM
S13,将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别。
其中相似度的运算具体为:
首先获取M个频谱图合集,计算出每个合集中每一张频谱图与每个分类的相似度,计算时应该把每个合集的所有频谱图与每个分类相似度求出,再求其均值,得到的即为这个合集的特征值。
然后给出所述声纹辨别模型中与频谱图合集m1相似度值最大的a,b,c三类,其中{a,b,c}∈N;将频谱图合集m1与a,b,c三类的相似度值作为特征依据对频谱图合集m2进行辨别;当与频谱图合集m1特征相似度值≥85%,判断与频谱图合集m1为同一类,即同一人的语音;否则判定为新的一类数据,即第二人的语音;
并将频谱图合集m1、频谱图合集m2的相似度值作为特征依据对第三段语音进行辨别;
最后,与前两个合集中某一合集特征相似度值≥85%,判断与该段语音为同一类,否则定为新的一类数据,依次类推,将M个合集运行完,得到M段语音的分类结果。
本发明实施例提供的多人声纹辨别结合了音频信号到频域波形图的转换,较传统的方案有以下提升:
1、实现多人声纹辨别,无需提前对用户进行声纹采集。
2、打破传统方案对人数的限制,能够实现大于2人及以上的多人长段音频进行精准的多人声纹辨别,在音频噪音不大的环境下能够辨别音频中的说话人人数,以及分别说了那几段话。
3、将采集的语音信息进行时域到频域的转换,并以频域波形图的形式作为输出,能够更快捷的找到每个人声纹的特征点。
4、训练时采用了Inception-v3模型进行迁移学习缩短训练时间,提高训练效果。
应理解,在上述实施例中,各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2示出了本发明实施例提供的多人声纹辨别系统的原理图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,所述系统用于实现上述图1实施例中所述的多人声纹辨别方法,可以是内置于计算机、服务器的软件单元、硬件单元或者软硬件结合的单元。
参阅图2,所述系统包括:
待分类语音信息采集模块21:用于采集待分类语音信息;具体如上所述,不再赘述。
待分类语音信息处理模块22,用于将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;具体如上所述,不再赘述。
声纹辨别模块23,用于将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别;具体如上所述,不再赘述。
进一步地,所述多人声纹辨别系统还包括:
语音信息采集模块,用于采集各类人群的建模语音信息;
语音信息处理模块,用于将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图;
分类模型训练模块,用于根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
需要说明的是,本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实例中的相关描述,此处不再赘述。
综上所述,本发明实施例通过使用设备采集待分类语音信息;并将所述待分类语音信息切割为多段测试语音,然后利用离散傅里叶分别进行时域到频域的转换,并输出对应的测试频域波形图集;将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别;从而提出了一种新的声纹辨别方法,实现了无需对用户的声音进行预先存储,对多人声纹进行分类辨别,打破了传统声纹辨别方法对人数的限制,是的运用场景和运用的便捷性大大提升。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种多人声纹辨别方法,其特征在于,包括步骤:
采集待分类语音信息;
将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;
将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别。
2.如权利要求1所述的多人声纹辨别方法,其特征在于,所述采集到的待分类语音信息切割为多段测试语音步骤包括:
以所述待分类语音信息的静默值以及静默时间作为依据做切割。
3.如权利要求1所述的多人声纹辨别方法,其特征在于,所述时域到频域的转换的步骤具体包括:
将所述多段测试语音做离散傅里叶变换转化,并根据转化后的值绘制出测试频域波形图集。
4.如权利要求1所述的多人声纹辨别方法,其特征在于,所述训练好的分类模型的训练步骤包括:
采集各类人群的建模语音信息;
将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图;
根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
5.如权利要求4所述的多人声纹辨别方法,其特征在于,在训练时,采用了Inception-v3模型进行迁移学习缩短训练时间,输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。
6.如权利要求4所述的多人声纹辨别方法,其特征在于,训练出损失值小于5%的分类模型。
7.如权利要求4所述多人声纹辨别方法,其特征在于,采集所述待分类语音信息和所述建模语音信息的设备型号相同。
8.如权利要求2所述的多人声纹辨别方法,其特征在于,在此处以静默值小于-50dBFs,静默时间大于500ms为依据做切割。
9.一种多人声纹辨别系统,其特征在于,包括,
待分类语音信息采集模块:用于采集待分类语音信息;
待分类语音信息处理模块:用于将所述待分类语音信息切割为多段测试语音,然后分别进行时域到频域的转换,并输出对应的测试频域波形图集;
声纹辨别模块:用于将测试频域波形图集投入预先训练好的分类模型中,对每段测试语音与分类模型中的语音进行相似度运算,根据相似度值对各段语音进行多人分类辨别。
10.如权利要求9所述的多人声纹辨别系统,其特征在于,还包括:
语音信息采集模块,用于采集各类人群的建模语音信息;
语音信息处理模块,用于将采集到的各类人群的建模语音信息进行时域到频域的转换,并输出对应的建模频域形波图;
分类模型训练模块,用于根据人群类别设置分类,将得到的建模频域波形图分集,并投入训练,当损失值小于预设损失值,停止训练以获得分类模型。
CN201910401565.3A 2019-05-14 2019-05-14 多人声纹辨别方法及系统 Active CN111951809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910401565.3A CN111951809B (zh) 2019-05-14 2019-05-14 多人声纹辨别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910401565.3A CN111951809B (zh) 2019-05-14 2019-05-14 多人声纹辨别方法及系统

Publications (2)

Publication Number Publication Date
CN111951809A true CN111951809A (zh) 2020-11-17
CN111951809B CN111951809B (zh) 2024-06-21

Family

ID=73336305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910401565.3A Active CN111951809B (zh) 2019-05-14 2019-05-14 多人声纹辨别方法及系统

Country Status (1)

Country Link
CN (1) CN111951809B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436634A (zh) * 2021-07-30 2021-09-24 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备
CN113555032A (zh) * 2020-12-22 2021-10-26 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100376A1 (en) * 2008-10-17 2010-04-22 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统
EP3346463A1 (en) * 2017-01-10 2018-07-11 Fujitsu Limited Identity verification method and apparatus based on voiceprint
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108648760A (zh) * 2018-04-17 2018-10-12 四川长虹电器股份有限公司 实时声纹辨识系统与方法
CN109524014A (zh) * 2018-11-29 2019-03-26 辽宁工业大学 一种基于深度卷积神经网络的声纹识别分析方法
CN109582822A (zh) * 2018-10-19 2019-04-05 百度在线网络技术(北京)有限公司 一种基于用户语音的音乐推荐方法及装置
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100376A1 (en) * 2008-10-17 2010-04-22 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus
EP3346463A1 (en) * 2017-01-10 2018-07-11 Fujitsu Limited Identity verification method and apparatus based on voiceprint
CN107610709A (zh) * 2017-08-01 2018-01-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN108648760A (zh) * 2018-04-17 2018-10-12 四川长虹电器股份有限公司 实时声纹辨识系统与方法
CN109582822A (zh) * 2018-10-19 2019-04-05 百度在线网络技术(北京)有限公司 一种基于用户语音的音乐推荐方法及装置
CN109524014A (zh) * 2018-11-29 2019-03-26 辽宁工业大学 一种基于深度卷积神经网络的声纹识别分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁冬兵;: "TL-CNN-GAP模型下的小样本声纹识别方法研究", 电脑知识与技术, no. 24, pages 177 - 178 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555032A (zh) * 2020-12-22 2021-10-26 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN113436634A (zh) * 2021-07-30 2021-09-24 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备
CN113436634B (zh) * 2021-07-30 2023-06-20 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备

Also Published As

Publication number Publication date
CN111951809B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN107154257B (zh) 基于客户语音情感的客服服务质量评价方法及系统
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN111429935B (zh) 一种语音话者分离方法和装置
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
CN113113022A (zh) 一种基于说话人声纹信息的自动识别身份的方法
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN111951809B (zh) 多人声纹辨别方法及系统
Yudin et al. Speaker’s voice recognition methods in high-level interference conditions
Charisma et al. Speaker recognition using mel-frequency cepstrum coefficients and sum square error
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
AU2018102038A4 (en) A Speaker Identification Method Based on DTW Algorithm
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN117612567A (zh) 基于语音情感识别的家宽装维满意度推理方法及系统
Abushariah et al. Voice based automatic person identification system using vector quantization
Ahmad et al. The impact of low-pass filter in speaker identification
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN113838469A (zh) 一种身份识别方法、系统及存储介质
CN106887229A (zh) 一种提升声纹识别准确度的方法和系统
CN112634942B (zh) 一种手机录音原始性的鉴定方法、存储介质及设备
Lee et al. Robust feature extraction for mobile-based speech emotion recognition system
US20230005479A1 (en) Method for processing an audio stream and corresponding system
CN112151070B (zh) 一种语音检测的方法、装置及电子设备
NISSY et al. Telephone Voice Speaker Recognition Using Mel Frequency Cepstral Coefficients with Cascaded Feed Forward Neural Network
Alamri Text-independent, automatic speaker recognition system evaluation with males speaking both Arabic and English
Ayoub et al. Investigation of the relation between amount of VoIP speech data and performance in speaker identification task over VoIP networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 518000 East Block 1401A12, Tian'an Innovation Technology Plaza (Phase II), No. 2 Tairan 10th Road, Tian'an Community, Shatou Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Dongchen Digital Intelligence Technology Co.,Ltd.

Address before: 518000, Building 301, C57, Longxiang Mountain Villa, Longxiang North Road, Baishisha Community, Fuyong Street, Bao'an District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Ziwan Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right

Effective date of registration: 20240522

Address after: 518000, B09, 2nd Floor, Dongfang Yayuan, Baomin Second Road, Chentian Community, Xixiang Street, Bao'an District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jintong Technology Co.,Ltd.

Country or region after: China

Address before: 518000 East Block 1401A12, Tian'an Innovation Technology Plaza (Phase II), No. 2 Tairan 10th Road, Tian'an Community, Shatou Street, Futian District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Dongchen Digital Intelligence Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant