CN114023329A - 跨信道声纹比对方法、系统、计算机设备及存储介质 - Google Patents

跨信道声纹比对方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114023329A
CN114023329A CN202111192550.4A CN202111192550A CN114023329A CN 114023329 A CN114023329 A CN 114023329A CN 202111192550 A CN202111192550 A CN 202111192550A CN 114023329 A CN114023329 A CN 114023329A
Authority
CN
China
Prior art keywords
voice data
target voice
voiceprint
voiceprint feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111192550.4A
Other languages
English (en)
Inventor
张星东
招梓枫
李为州
丁卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Longyuan Information Technology Co ltd
Original Assignee
Nanjing Longyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Longyuan Information Technology Co ltd filed Critical Nanjing Longyuan Information Technology Co ltd
Priority to CN202111192550.4A priority Critical patent/CN114023329A/zh
Publication of CN114023329A publication Critical patent/CN114023329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方案涉及一种跨信道声纹比对方法。所述方法包括:获取通过第一信道、第二信道采集的第一语音数据、第二语音数据并进行数据预处理,得到第一目标语音数据、第二目标语音数据;通过重采样算法对第一目标语音数据、第二目标语音数据的采样频率进行处理使其频率相同;查找与第一目标语音数据、第二目标语音数据的状态属性对应的声纹特征提取模型,通过声纹特征提取模型得到第一声纹特征、第二声纹特征;计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到比对结果。通过对不同信道采集的语音数据进行预处理、重采样处理等,将语音数据的采样频率统一,进而对识别的声纹特征进行比对,可以提高声纹比对的精确度。

Description

跨信道声纹比对方法、系统、计算机设备及存储介质
技术领域
本发明涉及声纹比对技术领域,特别是涉及一种跨信道声纹比对方法、系统、计算机设备及存储介质。
背景技术
声纹识别是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别,不同的任务和应用会使用不同的声纹识别技术。随着声纹识别技术的逐渐成熟,声纹识别正逐渐应用到银行业,典型应用场景为电话银行,电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段,主要是将用户的声纹与预先存储的声纹进行比对,从而确定用户身份,还可以基于声纹比对搭建声纹黑名单,在抵制电话诈骗的场景下有着广阔的应用空间。声纹识别应用在同信道时识别结果比较精确,在实际应用中,用户通过移动终端注册声纹,银行业务系统使用声纹识别来对用户的身份进行认证来保障业务安全。而通过移动终端网络信道采集的采样率为16kHz的语音,通过电话信道采集的采样率为8kHz的语音,二者不属于同信道。
因此,由于采集语音的信道采样率不同,传统的声纹比对方法存在比对精确度较低的问题。
发明内容
基于此,为了解决上述技术问题,提供一种跨信道声纹比对方法、系统、计算机设备和存储介质,可以提高声纹比对的精确度。
一种跨信道声纹比对方法,所述方法包括:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
在其中一个实施例中,所述分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据,包括:
分别将所述第一语音数据、所述第二语音数据输入至活动音检测模型中;
通过所述活动音检测模型切除所述第一语音数据中的静默或非语音片段,检测所述第一语音数据中的第一有效语音片段,将所述第一有效语音片段拼接为所述第一目标语音数据;
通过所述活动音检测模型切除所述第二语音数据中的静默或非语音片段,检测所述第二语音数据中的第二有效语音片段,将所述第二有效语音片段拼接为所述第二目标语音数据。
在其中一个实施例中,所述通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,包括:
通过重采样算法对所述第一目标语音数据的采样频率进行降采样处理,使得所述第一目标语音数据的采样频率与所述第二目标语音数据的采样频率相同;
将进行降采样处理后的所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
在其中一个实施例中,所述方法还包括:
查找与进行降采样处理后的所述第一目标语音数据的采样频率对应的第一采样率,并查找与所述第一采样率对应且与所述第一语音属性对应的所述第一声纹特征提取模型;
分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;
所述计算所述第一声纹特征与所述第二声纹特征的余弦相似度,包括:
计算所述第一组第一声纹特征与所述第一组第二声纹特征的第一余弦相似度。
在其中一个实施例中,所述方法还包括:
查找与所述第二目标语音数据调整后的采样频率对应的第二采样率,并查找与所述第二采样率对应且与所述第二语音属性对应的所述第二声纹特征提取模型;
分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;
所述计算所述第一声纹特征与所述第二声纹特征的余弦相似度,包括:
计算所述第二组第一声纹特征与所述第二组第二声纹特征的第二余弦相似度。
在其中一个实施例中,根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果,包括:
分别对所述第一余弦相似度、所述第二余弦相似度进行打分,得到第一打分结果、第二打分结果;
对所述第一打分结果、所述第二打分结果进行分数融合得到分数融合结果,根据所述分数融合得到所述比对结果。
一种跨信道声纹比对系统,所述系统包括:
数据处理模块,用于获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
重采样模块,用于通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
性别年龄识别模块,用于将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
声纹特征提取模块,用于查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
声纹比对模块,用于计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
上述跨信道声纹比对方法、系统、计算机设备和存储介质,通过获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。通过对不同信道采集的语音数据进行数据预处理、重采样处理等,将语音数据的采样频率统一,由于语音数据的频率相同,将两个语音数据输入到声纹特征提取模型中,并对识别的声纹特征进行比对,可以提高声纹比对的精确度。
附图说明
图1为一个实施例中跨信道声纹比对方法的应用环境图;
图2为一个实施例中跨信道声纹比对方法的流程示意图;
图3为一个实施例中跨信道声纹比对系统的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述信道、语音数据等,但这些信道、语音数据不受这些术语限制。这些术语仅用于将第一个语音数据与另一个语音数据区分。举例来说,在不脱离本申请的范围的情况下,可以将第一语音数据称为第二语音数据,且类似地,可将第二语音数据称为第一语音数据。第一语音数据和第二语音数据两者都是语音数据,但其不是同一语音数据。
本申请实施例提供的跨信道声纹比对方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;计算机设备110可以通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;计算机设备110可以使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;计算机设备110可以使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;计算机设备110可以对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;计算机设备110可以将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;计算机设备110可以查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;计算机设备110可以将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征;计算机设备110可以计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种跨信道声纹比对方法,包括以下步骤:
步骤202,获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据。
其中,第一信道可以是麦克风信道,麦克风信道的采样频率可以是48kHZ;第二信道可以是通话信道,通话信道的采样频率可以是8kHZ。计算机设备可以同时获取通过第一信道采集到的第一语音数据,以及通过第二信道采集的第二语音数据。
计算机设备可以分别对采集到的第一语音数据、第二语音数据进行数据预处理,即,除去第一语音数据、第二语音数据中的静默或者非语音片段,从而得到第一目标语音数据、第二目标语音数据。
步骤204,通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据。
重采样算法可以用于调整数据的采样频率。在本实施例中,计算机设备在对语音数据进行预处理后,可以进行信道预处理,即,将通话信道的8kHz语音数据与麦克风信道的48kHz语音数据进行对齐。具体的,计算机设备可以通过重采样算法对第一目标语音数据的采样频率即48kHz进行降采样处理,并通过重采样算法对第二目标语音数据的采样频率即8kHz进行上采样处理,使得第一目标语音数据、第二目标语音数据的采样频率相同。其中,计算机设备在进行重采样时,由于重采样过程中输出信号内部没有时序依赖性,计算机设备可以将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段,并使用处理器进行多线程并行计算,每个线程处理一个信号分段,最后将各分段汇总,得到频率相同的第一目标语音数据、第二目标语音数据。
步骤206,将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性。
性别年龄识别模型可以用于识别语音发出者的性别、年龄。其中,性别和年龄的状态属性可以用于表示语音发出者的性别、年龄等状态属性,可以包括男童、女童、年轻男子、年轻女子、中年男子、中年女子、老年男子、老年女子等。
计算机设备可以将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,从而得到语音数据对应的性别和年龄的状态属性。
步骤208,查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征。
不同的语音数据可以对应有不同的声纹特征提取模型,声纹特征提取模型可以用于识别语音数据中的声纹特征。计算机设备在得到状态属性后,可以在数据库中查找对应的声纹特征提取模型。
计算机设备可以将频率相同的第一目标语音数据、第二目标语音数据输入到声纹特征提取模型中,从而得到第一声纹特征、第二声纹特征。
步骤210,计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。
在本实施例中,计算机设备获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,得到频率相同的第一目标语音数据、第二目标语音数据;将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征;计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。通过对不同信道采集的语音数据进行数据预处理、重采样处理等,将语音数据的采样频率统一,由于语音数据的频率相同,将两个语音数据输入到声纹特征提取模型中,并对识别的声纹特征进行比对,可以提高声纹比对的精确度。
在一个实施例中,提供的一种跨信道声纹比对方法还可以包括对语音数据进行预处理的过程,具体过程包括:分别将第一语音数据、第二语音数据输入至活动音检测模型中;通过活动音检测模型切除第一语音数据中的静默或非语音片段,检测第一语音数据中的第一有效语音片段,将第一有效语音片段拼接为第一目标语音数据;通过活动音检测模型切除第二语音数据中的静默或非语音片段,检测第二语音数据中的第二有效语音片段,将第二有效语音片段拼接为第二目标语音数据。
活动音检测模型可以用于检测语音数据中的活动音,并切除语音数据中的静默或者非语音片段。
计算机设备可以将第一语音数据、第二语音数据输入到活动音检测模型中,分别检测出第一语音数据中的第一有效语音片段,以及第二语音数据中的第二有效语音片段,同时,活动音检测模型可以切除第一语音数据、第二语音数据中的静默或非语音片段,并将第一有效语音片段拼接为第一目标语音数据,将第二有效语音片段拼接为第二目标语音数据。
在本实施例中,活动音检测模型可以是预先训练好的深度神经网络模型,其中,通过对训练数据提取MFCC特征,分别对有声和静默片段打上“0”和“1”的标签,输入深度神经网络模型进行训练,建立起一个可以识别有声和静默片段的二分类识别模型,用于进行活动音检测。在预处理中,使用该训练好的深度神经网络模型检测有效语音片段,切除静默或非语音片段,将有效语音片段重新拼接为一条录音用于后续处理。
在一个实施例中,提供的一种跨信道声纹比对方法还可以包括重采样处理的过程,具体过程包括:通过重采样算法对第一目标语音数据的采样频率进行降采样处理,使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同;将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
在进行重采样算法进行处理之前,计算机设备可以将第一目标语音数据以及第二目标语音数据的编码格式统一转码为PCM编码格式。接着,计算机设备可以通过重采样算法对第一目标语音数据的采样频率进行降采样处理,由于第一目标语音数据的采样频率是48kHZ,计算机设备可以对48kHZ的麦克风信道语音数据进行降采样处理:s8k(n)=s48k(6n),n=1,2,…,N。其中,s48k为原始48kHz信号,s8k为对其降采样得到的8kHz信号,n表示离散时间点,N为s8k的采样点总数,至此,8kHz的通话信道录音和48kHz的麦克风信道录音在8kHz得到第一次对齐,即一目标语音数据的采样频率与第二目标语音数据的采样频率相同。
接着,计算机设备可以将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,即,将两个不同信道的8kHz语音数据通过最邻近插值法进行上采样:s16k(2n)=s8k(n),n=1,2,…,N,s16k(2n+1)=s8k(n),n=1,2,…,N。其中,s8k为8kHz信号,s16k为对其上采样得到的16kHz信号,n表示离散时间点,N为s8k的采样点总数,至此,8kHz的通话信道录音和48kHz的麦克风信道录音在16kHz得到第二次对齐,即得到频率相同的第一目标语音数据、第二目标语音数据。
在一个实施例中,提供的一种跨信道声纹比对方法还可以包括计算余弦相似度的过程,具体过程包括:查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率,并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。
不同的采样率可以对应有不同的声纹特征提取模型。计算机设备可以查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率,并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型。其中,计算机设备对8kHz通话信道语音数据、48kHz麦克风信道语音数据两个不同采样率的录音在8kHz进行了第一次对齐,在对齐之后,计算机设备可以获取到8kHz的第一采样率,从而查找到使用8kHz输入且与第一语音属性对应的第一声纹特征提取模型。
计算机设备可以将8kHz的通话信道语音数据、8kHz麦克风信道语音数据输入至第一声纹特征提取模型,从而得到第一组通话录音声纹特征和第一组麦克风录音声纹特征。计算机设备可以计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。
在又一个实施例中,提供的一种跨信道声纹比对方法还可以包括计算余弦相似度的过程,具体过程包括:查找与第二目标语音数据调整后的采样频率对应的第二采样率,并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。
计算机设备对8kHz通话信道语音数据、8kHz麦克风信道语音数据两个不同采样率的录音在16kHz进行了第二次对齐,在对齐之后,计算机设备可以获取到16kHz的第二采样率,从而查找到使用16kHz输入且与第二语音属性对应的第二声纹特征提取模型。
计算机设备可以将16kHz的通话信道语音数据、16kHz麦克风信道语音数据输入至第二声纹特征提取模型,从而得到第二组通话录音声纹特征和第二组麦克风录音声纹特征。计算机设备可以计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。
在一个实施例中,提供的一种跨信道声纹比对方法还可以包括得到声纹比对结果的过程,具体过程包括:分别对第一余弦相似度、第二余弦相似度进行打分,得到第一打分结果、第二打分结果;对第一打分结果、第二打分结果进行分数融合得到分数融合结果,根据分数融合得到比对结果。
其中,计算机设备中可以存储有预先设置好的声纹比对的分数阈值。计算机设备在得到第一打分结果、第二打分结果后,可以进行分数融合,从而得到分数融合结果。计算机设备可以将得到的分数融合结果与预先设置好的分数阈值进行比较,当分数融合结果在分数阈值内时,计算机设备可以得到比对一致的结果,即第一语音数据与第二语音数据是同一人发出的;当分数融合结果不在分数阈值内时,计算机设备可以得到比对不一致的结果,即第一语音数据与第二语音数据不是同一人发出的。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种跨信道声纹比对系统,包括:数据处理模块310、重采样模块320、性别年龄识别模块330、声纹特征提取模块340和声纹比对模块350,其中:
数据处理模块310,用于获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
重采样模块320,用于通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
性别年龄识别模块330,用于将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
声纹特征提取模块340,用于查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征;
声纹比对模块350,用于计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。
在一个实施例中,数据处理模块310还用于分别将第一语音数据、第二语音数据输入至活动音检测模型中;通过活动音检测模型切除第一语音数据中的静默或非语音片段,检测第一语音数据中的第一有效语音片段,将第一有效语音片段拼接为第一目标语音数据;通过活动音检测模型切除第二语音数据中的静默或非语音片段,检测第二语音数据中的第二有效语音片段,将第二有效语音片段拼接为第二目标语音数据。
在一个实施例中,重采样模块320还用于通过重采样算法对第一目标语音数据的采样频率进行降采样处理,使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同;将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
在一个实施例中,声纹比对模块350还用于查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率,并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。
在一个实施例中,声纹比对模块350还用于查找与第二目标语音数据调整后的采样频率对应的第二采样率,并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。
在一个实施例中,声纹比对模块350还用于分别对第一余弦相似度、第二余弦相似度进行打分,得到第一打分结果、第二打分结果;对第一打分结果、第二打分结果进行分数融合得到分数融合结果,根据分数融合得到比对结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种跨信道声纹比对方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征;
计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别将第一语音数据、第二语音数据输入至活动音检测模型中;通过活动音检测模型切除第一语音数据中的静默或非语音片段,检测第一语音数据中的第一有效语音片段,将第一有效语音片段拼接为第一目标语音数据;通过活动音检测模型切除第二语音数据中的静默或非语音片段,检测第二语音数据中的第二有效语音片段,将第二有效语音片段拼接为第二目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过重采样算法对第一目标语音数据的采样频率进行降采样处理,使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同;将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率,并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:查找与第二目标语音数据调整后的采样频率对应的第二采样率,并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对第一余弦相似度、第二余弦相似度进行打分,得到第一打分结果、第二打分结果;对第一打分结果、第二打分结果进行分数融合得到分数融合结果,根据分数融合得到比对结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对第一语音数据、第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理,将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与状态属性对应的声纹特征提取模型,并将第一目标语音数据输入至声纹特征提取模型中,得到第一声纹特征;将第二目标语音数据输入至声纹特征提取模型中,得到第二声纹特征;
计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别将第一语音数据、第二语音数据输入至活动音检测模型中;通过活动音检测模型切除第一语音数据中的静默或非语音片段,检测第一语音数据中的第一有效语音片段,将第一有效语音片段拼接为第一目标语音数据;通过活动音检测模型切除第二语音数据中的静默或非语音片段,检测第二语音数据中的第二有效语音片段,将第二有效语音片段拼接为第二目标语音数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过重采样算法对第一目标语音数据的采样频率进行降采样处理,使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同;将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率,并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:查找与第二目标语音数据调整后的采样频率对应的第二采样率,并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型;分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对第一余弦相似度、第二余弦相似度进行打分,得到第一打分结果、第二打分结果;对第一打分结果、第二打分结果进行分数融合得到分数融合结果,根据分数融合得到比对结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将第一目标语音数据划分为各个第一数据子分段,将第二目标语音数据划分为各个第二数据子分段;使用处理器对各个第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个第一计算结果进行汇总,并对各个第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种跨信道声纹比对方法,其特征在于,所述方法包括:
获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
查找与所述状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
2.根据权利要求1所述的跨信道声纹比对方法,其特征在于,所述分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据,包括:
分别将所述第一语音数据、所述第二语音数据输入至活动音检测模型中;
通过所述活动音检测模型切除所述第一语音数据中的静默或非语音片段,检测所述第一语音数据中的第一有效语音片段,将所述第一有效语音片段拼接为所述第一目标语音数据;
通过所述活动音检测模型切除所述第二语音数据中的静默或非语音片段,检测所述第二语音数据中的第二有效语音片段,将所述第二有效语音片段拼接为所述第二目标语音数据。
3.根据权利要求1所述的跨信道声纹比对方法,其特征在于,所述通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,包括:
通过重采样算法对所述第一目标语音数据的采样频率进行降采样处理,使得所述第一目标语音数据的采样频率与所述第二目标语音数据的采样频率相同;
将进行降采样处理后的所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率通过最邻近插值法进行上采样处理,得到频率相同的第一目标语音数据、第二目标语音数据。
4.根据权利要求3所述的跨信道声纹比对方法,其特征在于,所述方法还包括:
查找与进行降采样处理后的所述第一目标语音数据的采样频率对应的第一采样率,并查找与所述第一采样率对应且与所述第一语音属性对应的所述第一声纹特征提取模型;
分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第一声纹特征提取模型,得到第一组第一声纹特征、第一组第二声纹特征;
所述计算所述第一声纹特征与所述第二声纹特征的余弦相似度,包括:
计算所述第一组第一声纹特征与所述第一组第二声纹特征的第一余弦相似度。
5.根据权利要求4所述的跨信道声纹比对方法,其特征在于,所述方法还包括:
查找与所述第二目标语音数据调整后的采样频率对应的第二采样率,并查找与所述第二采样率对应且与所述第二语音属性对应的所述第二声纹特征提取模型;
分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第二声纹特征提取模型,得到第二组第一声纹特征、第二组第二声纹特征;
所述计算所述第一声纹特征与所述第二声纹特征的余弦相似度,包括:
计算所述第二组第一声纹特征与所述第二组第二声纹特征的第二余弦相似度。
6.根据权利要求5所述的跨信道声纹比对方法,其特征在于,根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果,包括:
分别对所述第一余弦相似度、所述第二余弦相似度进行打分,得到第一打分结果、第二打分结果;
对所述第一打分结果、所述第二打分结果进行分数融合得到分数融合结果,根据所述分数融合得到所述比对结果。
7.一种跨信道声纹比对系统,其特征在于,所述系统包括:
数据处理模块,用于获取通过第一信道采集的第一语音数据,以及通过第二信道采集的第二语音数据,并分别对所述第一语音数据、所述第二语音数据进行数据预处理,得到第一目标语音数据、第二目标语音数据;
重采样模块,用于通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理,将所述第一目标语音数据划分为各个第一数据子分段,将所述第二目标语音数据划分为各个第二数据子分段;使用处理器对各个所述第一数据子分段进行多线程并行计算,得到各个第一计算结果;使用处理器对各个所述第二数据子分段进行多线程并行计算,得到各个第二计算结果;对各个所述第一计算结果进行汇总,并对各个所述第二计算结果进行汇总,得到频率相同的第一目标语音数据、第二目标语音数据;
性别年龄识别模块,用于将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中,得到性别和年龄的状态属性;
声纹特征提取模块,用于查找与所述性别和年龄的状态属性对应的声纹特征提取模型,并将所述第一目标语音数据输入至所述声纹特征提取模型中,得到第一声纹特征;将所述第二目标语音数据输入至所述声纹特征提取模型中,得到第二声纹特征;
声纹比对模块,用于计算所述第一声纹特征与所述第二声纹特征的余弦相似度,并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。
8.根据权利要求7所述的跨信道声纹比对系统,其特征在于,所述数据处理模块还用于:分别将所述第一语音数据、所述第二语音数据输入至活动音检测模型中;通过所述活动音检测模型切除所述第一语音数据中的静默或非语音片段,检测所述第一语音数据中的第一有效语音片段,将所述第一有效语音片段拼接为所述第一目标语音数据;通过所述活动音检测模型切除所述第二语音数据中的静默或非语音片段,检测所述第二语音数据中的第二有效语音片段,将所述第二有效语音片段拼接为所述第二目标语音数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111192550.4A 2021-10-13 2021-10-13 跨信道声纹比对方法、系统、计算机设备及存储介质 Pending CN114023329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111192550.4A CN114023329A (zh) 2021-10-13 2021-10-13 跨信道声纹比对方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111192550.4A CN114023329A (zh) 2021-10-13 2021-10-13 跨信道声纹比对方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114023329A true CN114023329A (zh) 2022-02-08

Family

ID=80055922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111192550.4A Pending CN114023329A (zh) 2021-10-13 2021-10-13 跨信道声纹比对方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114023329A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009333A1 (en) * 1996-11-22 2003-01-09 T-Netix, Inc. Voice print system and method
CN109147795A (zh) * 2018-08-06 2019-01-04 珠海全志科技股份有限公司 声纹数据传输、识别方法、识别装置和存储介质
CN109346086A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备和计算机可读存储介质
CN109473105A (zh) * 2018-10-26 2019-03-15 平安科技(深圳)有限公司 与文本无关的声纹验证方法、装置和计算机设备
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN113257255A (zh) * 2021-07-06 2021-08-13 北京远鉴信息技术有限公司 一种伪造语音的识别方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009333A1 (en) * 1996-11-22 2003-01-09 T-Netix, Inc. Voice print system and method
CN109147795A (zh) * 2018-08-06 2019-01-04 珠海全志科技股份有限公司 声纹数据传输、识别方法、识别装置和存储介质
CN109346086A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备和计算机可读存储介质
CN109473105A (zh) * 2018-10-26 2019-03-15 平安科技(深圳)有限公司 与文本无关的声纹验证方法、装置和计算机设备
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN113257255A (zh) * 2021-07-06 2021-08-13 北京远鉴信息技术有限公司 一种伪造语音的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
CN111145782B (zh) 重叠语音识别方法、装置、计算机设备和存储介质
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN110232932B (zh) 基于残差时延网络的说话人确认方法、装置、设备及介质
CN108989341B (zh) 语音自主注册方法、装置、计算机设备及存储介质
CN112289323B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN108417216B (zh) 语音验证方法、装置、计算机设备和存储介质
CN111311327A (zh) 基于人工智能的服务评价方法、装置、设备及存储介质
US9646613B2 (en) Methods and systems for splitting a digital signal
US6697779B1 (en) Combined dual spectral and temporal alignment method for user authentication by voice
KR20170105034A (ko) 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법
Reynolds Automatic speaker recognition: Current approaches and future trends
CN108922544A (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
CN110570876A (zh) 歌声合成方法、装置、计算机设备和存储介质
US6389392B1 (en) Method and apparatus for speaker recognition via comparing an unknown input to reference data
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
JP2005512246A (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP4652232B2 (ja) 話者の圧縮表現用の音声信号の分析のための方法およびシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination