CN106796803B - 用于在音频通信中将语音数据与背景数据分离的方法和装置 - Google Patents

用于在音频通信中将语音数据与背景数据分离的方法和装置 Download PDF

Info

Publication number
CN106796803B
CN106796803B CN201580055548.9A CN201580055548A CN106796803B CN 106796803 B CN106796803 B CN 106796803B CN 201580055548 A CN201580055548 A CN 201580055548A CN 106796803 B CN106796803 B CN 106796803B
Authority
CN
China
Prior art keywords
spectral
audio communication
caller
model
speech model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580055548.9A
Other languages
English (en)
Other versions
CN106796803A (zh
Inventor
A.奥泽罗夫
Q.K.N.董
L.谢瓦利尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital Madison Patent Holdings SAS
Original Assignee
InterDigital Madison Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital Madison Patent Holdings SAS filed Critical InterDigital Madison Patent Holdings SAS
Publication of CN106796803A publication Critical patent/CN106796803A/zh
Application granted granted Critical
Publication of CN106796803B publication Critical patent/CN106796803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

提出一种用于在音频通信中将语音数据与背景数据分离的方法和装置。该方法包括:将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据分离;以及在音频通信期间根据语音数据和背景数据更新语音模型。

Description

用于在音频通信中将语音数据与背景数据分离的方法和装置
技术领域
本发明通常涉及在通信中抑制声学噪声。特别地,本发明涉及用于在音频通信中将语音数据与背景数据分离的方法和装置。
背景技术
本节旨在向读者介绍可能与下面描述和/或要求保护的本公开的各方面有关的技术的各方面。相信该讨论有助于向读者提供背景信息以便于更好地理解本公开的各方面。因此,应当理解的是,要在该角度阅读这些陈述,而不是作为对现有技术的承认。
音频通信,尤其是无线通信可能在嘈杂环境中(例如在具有高交通量的街道上或者酒吧里)进行。在这种情况下,由于背景噪声,通信中的一方通常很难听懂语音。因此,音频通信中的一个重要课题是抑制不期望的背景噪声并且同时保持目标语音,这将有益于提高语音可懂度。
存在在收听人的通信设备上实现抑制的噪声抑制的远端实现,以及在讲话人的通信设备上实现的近端实现。可以理解的是,所提及的收听人或讲话人的通信设备可以是智能电话、平板等。从商业角度来看,远端实现更具吸引力。
现有技术包括为音频通信提供噪声抑制的多个已知的解决方案。
在这方面,已知的解决方案之一称为语音增强。Y.Ephraim和D.Malah撰写的参考文献“Speech enhancement using a minimum mean square error short-time spectralamplitude estimator”IEEE声学语音信号处理学报,32,1109-1121,1984(在下文中称为参考文献1)中讨论了一个示例性方法。然而,这样的语音增强的解决方案具有一些缺点。语音增强仅抑制由固定噪声(即,具有时间不变频谱特性的嘈杂声音)表示的背景。
另一个已知的解决方案称为在线源分离。L.S.R Simon和E.Vincent于2012年3月的以色列特拉维夫市的潜变量分析与信号分离国际会议中撰写的参考文献“A generalframework for online audio source separation”(在下文中称为参考文献2)中讨论了一个示例性方法。在线源分离的解决方案允许处理非固定背景,这通常基于两个源:语音和背景的高级频谱模型。然而,在线源分离强烈依赖于源模型是否良好表示要分离的实际源的事实。
因此,仍然存在增强用于将语音数据与音频通信的背景数据分离的音频通信中的噪声抑制以使语音质量得以提高的需要。
发明内容
本发明公开描述了用于在音频通信中将语音数据与背景数据分离的方法和装置。
根据第一方面,提出一种用于在音频通信中将语音数据与背景数据分离的方法和装置。该方法包括:将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据分离;以及在音频通信期间根据语音数据和背景数据更新语音模型。
在实施例中,将经更新的语音模型应用到音频通信。
在实施例中,根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的呼叫者相关联的语音模型。
在实施例中,根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信的呼叫者相关联的语音模型。
在实施例中,该方法还包括在音频通信之后存储经更新的语音模型,以在与用户的下个音频通信中使用。
在实施例中,该方法还包括在音频通信之后根据呼叫者的呼叫频率和呼叫持续时间将语音模型改变为与音频通信的呼叫者相关联。
根据第二方面,提出一种用于在音频通信中将语音数据与背景数据分离的装置。该装置包括:应用单元,用于将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据分离;以及更新单元,用于在音频通信期间根据语音数据和背景数据更新语音模型。
在实施例中,应用单元将经更新的语音模型应用到音频通信。
在实施例中,应用单元根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的呼叫者相关联的语音模型。
在实施例中,应用单元根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信的呼叫者相关联的语音模型。
在实施例中,该装置还包括存储单元,用于在音频通信之后存储经更新的语音模型,以在与用户的下个音频通信中使用。
在实施例中,该装置还包括改变单元,用于在音频通信之后根据呼叫者的呼叫频率和呼叫持续时间将语音模型改变为与音频通信的呼叫者相关联。
根据第三方面,提出一种可从通信网络下载和/或记录在计算机可读取的介质上和/或可由处理器执行的计算机程序产品。该计算机程序产品包括用于实现根据本发明公开的第二方面的方法的步骤的程序代码指令。
根据第四方面,提出一种非临时性计算机可读介质,包括在其上记录并且能够由处理器运行的计算机程序产品。该非临时性计算机可读介质包括用于实现根据本发明公开的第二方面的方法的步骤的程序代码指令。
应当理解的是,将在本发明的以下详细描述中找到本发明的更多方面和优点。
附图说明
包括附图以与用于解释实施例原理的描述一起提供对本发明的实施例的进一步理解。本发明不限于实施例。
附图中:
图1是示出根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离的方法的流程图;
图2图示了可以实现本公开的示例性系统;
图3是示出用于在音频通信中将语音数据与背景数据分离的示例性处理的图;以及
图4是根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离的装置的框图。
具体实施方式
现在将结合附图详细描述本发明的实施例。在以下描述中,为了简明,可以省略对已知功能和配置的一些详细描述。
图1是示出根据本发明的实施例的用于在语音通信中将语音数据与背景数据分离的方法的流程图。
如图1所示,在步骤S101,将语音模型应用到音频通信,以用于将语音数据与语音通信的背景数据分离。
语音模型可以使用任何已知的音频源分离算法来将语音数据与音频通信的背景数据分离,诸如A.Ozerov、E.Vincent和F.Bimbot撰写的参考文献“A general flexibleframework for the handling of prior information in audio source separation”IEEE视频、语音和语言处理学报,第20卷,第4期,第1118-1133页,2012(在下文中称为参考文献3)中描述的语音模型。在这个意义上,这里的术语“模型”是指本技术领域中的任何算法/方法/方案/处理。
语音模型还可以是频谱源模型,其可以被理解为描述感兴趣的音频源(这里为语音或特定讲话者的语音)的特性频谱图案的字典。例如,对于非负矩阵分解(NMF)源频谱模型,这些频谱图案与非负系数组合以描述特定时间帧处的混合物中的对应源(这里为语音)。对于高斯混合模型(GMM)源频谱模型,仅选择一个最可能的频谱图案来描述特定时间帧处的混合物中的对应源(这里为语音)。
可以与音频通信的呼叫者相关联地应用语音模型。例如,根据呼叫者的先前音频通信,与音频通信的该呼叫者相关联地应用语音模型。在这种情况下,语音模型可以称为“讲话者模型”。关联可以基于呼叫者的ID,例如,呼叫者的电话号码。
数据库可以被构建为包含与音频通信的呼叫历史中的N个呼叫者相对应的N个语音模型。
在开始音频通信时,从数据库中选择被分配给呼叫者的讲话者模型并将其应用到音频通信。可以基于其呼叫频率和总呼叫持续时间从呼叫历史中的所有呼叫者中选择N个呼叫者。也就是说,较频繁地呼叫以及具有较长的累积呼叫持续时间的呼叫者将具有用于被包括在利用讲话者模型分配的N个呼叫者的列表中的优先级。可以根据用于音频通信的通信设备的存储器容量来设置数量N,其例如可以是5、10、50、100等等。
不与音频通信的呼叫者相关联的普通语音模型可以根据用户的呼叫频率或总呼叫持续时间被分配给不在呼叫历史中的呼叫者。也就是说,新的呼叫者可以被分配普通语音模型。在呼叫历史中但不经常呼叫的呼叫者也可以被分配普通语音模型。
类似于讲话者模型,普通语音模型可以是任何已知的音频源分离算法,以将语音数据与音频通信的背景数据分离。例如,其可以是源频谱模型,或者如NMF或GMM的一些普遍模型的特性频谱图案的字典。普通语音模型与讲话者模型之间的区别在于普通语音模型从一些语音样本(诸如来自多个不同讲话者的语音样本的数据集)离线学习(或训练)。因此,在讲话者模型倾向于描述特定呼叫者的语音和发音的同时,普通语音模型倾向于描述通常的人类语音而不关注于特定讲话者。
可以将多个普通语音模型设置为与不同类别的讲话者相对应,例如,按照男/女和/或成人/小孩。在这种情况下,检测讲话者类别以确定讲话者的性别和/或平均年龄。根据检测结果,可以选择合适的普通语音模型。
在步骤S102,在音频通信期间根据语音数据和背景数据更新语音模型。
通常,以上适应可以基于使用已知的频谱源模型适应算法对音频通信的“仅语音(无噪声)”段和“仅背景”段的检测。下面将参考特定系统给出这方面的更详细的描述。
经更新的语音模型将用于当前音频通信。
该方法还可以包括步骤S103,在音频通信之后,将经更新的语音模型存储在数据库中,以在与用户的下个音频通信中使用。在语音模型为讲话者模型的情况下,如果数据库中有足够空间,则经更新的语音模型将被存储在数据库中。如果语音模型是讲话者模型,则该方法还可以包括例如根据呼叫频率和总呼叫持续时间,将经更新的普通语音模型存储在数据库中作为语音模型。
根据实施例的方法,在开始音频通信时,例如根据到来呼叫的呼叫者ID,将首先检查对应的讲话者模型是否已经存储在语音模型数据库中。如果讲话者模型已经在数据库中,则将使用讲话者模型作为用于该音频通信的语音模型。可以在音频通信期间更新讲话者模型。这是因为,例如,呼叫者的发音可能由于一些疾病而改变。
如果在语音模型数据库中没有对应的讲话者模型,则将使用普通语音模型作为用于该音频通信的语音模型。也可以在呼叫期间更新普通语音模型以更好地适应该呼叫者。对于普通语音模型,可以确定普通语音模型是否可以在呼叫结束时改变为与音频通信的呼叫者相关联的讲话者模型。例如,例如根据呼叫者的呼叫频率和总呼叫持续时间,如果确定普通语音模型应被改变为呼叫者的讲话者模型,则将该普通语音模型存储在数据库中作为与该呼叫者相关联的讲话者模型。可以理解的是,如果数据库具有有限空间,则可以丢弃变得较不频繁的一个或多个讲话者模型。
图2图示了可以实现本公开的示例性系统。系统可以是涉及两方或更多方之间的音频通信的任何种类的通信系统,诸如电话系统或移动通信系统。在图2的系统中,描述了在线源分离的远端实现。然而,可以理解的是,本发明的实施例也可以以诸如近端实现之类的其他方式来实现。
如图2所示,语音模型数据库包含最多N个讲话者模型。如图2所示,讲话者模型与相应的呼叫者相关联,诸如马克思的模型、安娜的模型、鲍勃的模型、约翰的模型等。
对于讲话者模型,所有先前呼叫者的总呼叫持续时间根据他们的ID来累积。通过每个呼叫者的“总呼叫持续时间”,其意味着该呼叫者呼叫了的总时间,即“时间_呼叫_1+时间_呼叫_2+...+时间_呼叫_K”。因此,在某种意义上,“总呼叫持续时间”反映呼叫者的信息呼叫频率和呼叫持续时间二者。呼叫持续时间用于识别最频繁的呼叫者以用于分配讲话者模型。在实施例中,“总呼叫持续时间”可以仅在时间窗口内(例如在过去12个月内)计算。这将有助于丢弃过去呼叫很多但一段时间不再呼叫的那些呼叫者的讲话者模型。
可以理解的是,其他算法也可以用于识别最频繁的呼叫者。例如,为此目的可以考虑呼叫频率和/或呼叫时间的组合。将不给出进一步的细节。
如图2所示,数据库还包含不与音频通信的特定呼叫者相关联的普通语音模型。可以根据一些语音信号数据集对普通语音模型进行训练。
当新的呼叫进入时,通过使用与呼叫者相对应的呼叫者模型或者不依赖于呼叫者的普通语音模型,从数据库应用语音模型。
如图2所示,当鲍勃正在呼叫时,从数据库中选择呼叫者模型“鲍勃的模型”,并将其应用到该呼叫,因为该呼叫者模型根据呼叫历史被分配给鲍勃。
在该实施例中,鲍勃的模型可以是背景源模型,其也是源频谱模型。背景源模型可以是特性频谱图案的字典(例如,NMF或GMM)。因此,背景源模型的结构可以与语音源模型完全相同。主要区别在于模型参数值,例如,背景模型的特性频谱图案应描述背景,而语音模型的特性频谱图案应描述语音。
图3是示出在音频通信中将语音数据与背景数据分离的示例性处理的图。
在图3所示的处理中,在呼叫期间,执行以下步骤:
1.启动检测器以用于检测以下三个状态中的当前信号状态:
a.仅语音。
b.仅背景
c.语音+背景。
本领域中已知的检测器可以用于以上目的,例如,Shafran,I.和Rose,R.2003年在IEEE声学、语音和信号处理国际会议(ICASSP)的会议录第1卷432-435中撰写的参考文献“Robust speech detection and segmentation for real-time ASR applications”(在下文中称为参考文献4)中讨论的检测器。与音频事件检测的许多其他方法一样,该方法主要依赖于以下步骤。将信号切割成时间帧,并且对于每个帧计算一些特征,例如,Mel频率倒谱系数(MFCC)的向量。分类器,例如基于多个GMM的分类器,每个GMM表示一个事件(这里有三个事件:“仅语音”、“仅背景”和“语音+背景”),然后被应用到每个特征向量以检测给定的时间的对应音频事件。该分类器,例如基于GMM的分类器,需要根据一些音频数据进行离线预训练,其中音频事件标签是已知的(例如,由人标记)。
2.在“仅语音”状态中,例如使用参考文献2中描述的算法,讲话者源模型在线学习。在线学习意味着模型(这里为讲话者模型)参数需要连续更新,连同可在呼叫进行中获得的新的信号观察结果。换句话说,该算法只能使用过去的声音样本,并且不应存储太多的先前声音样本(这是由于设备存储器限制)。根据参考文献2中描述的方法,使用从小固定数(例如10个)的最近帧提取的统计信息来平稳地更新讲话者模型(根据参考文献2其为NMF模型)参数。
3.在“仅背景”状态中,例如使用参考文献2中描述的算法,对背景源模型进行在线学习。与前一项中描述的讲话者模型完全一样地执行该在线背景源模型学习。
4.在“语音+背景”状态中,假设背景源模型是固定的,例如使用Z.Duan、G.J.Mysore和P.Smaragdis在潜变量分析和源分离国际会议(LVA/ICA)2012年,施普林格中的“Online PLCA for real-time semi-supervised source separation”(在下文中称为参考文献5)中描述的算法,使讲话者模型在线适应。该方法类似于在以上的步骤2和3中说明的方法。它们之间的唯一区别在于该在线适应是根据源的混合物(“语音+背景”)进行的,而不是纯净源(“仅语音或仅背景”)。为了以上目的,应用与在线学习(项2和3)类似的处理。区别在于,在这种情况下,对讲话者源模型和背景源模型进行联合解码,并且讲话者模型持续更新,而背景模型保持固定。
替选地,假设讲话者源模型是固定的,则可以使背景源模型适应。然而,更新讲话者源模型可能更有利,因为在“通常的嘈杂情况”中,相比无背景段(“仅语音”检测),通常更可能具有无语音段(“仅背景”检测)。换句话说,可以对背景源模型进行足够良好训练(关于无语音段)。因此,关于“语音+背景”段,使讲话者源模型适应可能更有利。
5.最后,将源分离持续应用到估计纯净语音(参见图3)。该源分离处理基于维纳滤波器,其为具有从两个模型(讲话者源模型和背景源模型)和嘈杂语音中估计的参数的自适应滤波器。参考文献2和5在这方面给出了更多细节。将不提供进一步信息。
在呼叫结束时,执行以下步骤:
1.更新该用户的总呼叫持续时间。如果持续时间已被存储,则可以通过增加该持续时间来简单地完成,或者如果该用户第一次呼叫,则通过当前呼叫持续时间对其进行初始化来简单地完成。
2.如果讲话者的语音模型已经在模型数据库中,则在数据库中对其进行更新。
3.否则,如果语音模型不在数据库中,则仅在数据库由少于N个讲话者模型组成的情况下或者在该讲话者在前N个呼叫持续时间中的情况下等等(在任何情况下,从数据库中移除较不频繁的讲话者的模型,使得其中总有最多N个模型),将讲话者模型添加到数据库。
要注意的是,本发明依赖于同一人使用同一电话号码的假设,这通常是移动电话的情况。对于家庭固定电话,其可能不太正确,因为例如所有家庭成员都可能使用这样的电话。然而,在家庭电话的情况下,背景抑制并不那么重要。事实上,通常可能简单地关闭音乐或者请其他人安静地讲话。换句话说,在大多数情况下,当背景抑制为必要时,该假设成立,而如果不是必要的(实际上,一个人可以借用一些其他人的移动电话来讲话),则所提出的系统不会因为连续的讲话者模型重新适应新条件而失败。
本发明的实施例提供一种用于在音频通信中将语音数据与背景数据分离的装置。图4是根据本发明的实施例的用于在音频通信中将语音数据与背景数据分离的装置的框图。
如图4所示,用于在音频通信中将语音数据与背景数据中分离的装置400包括应用单元401,用于将语音模型应用到音频通信,以用于将语音数据与音频通信的背景数据分离;以及更新单元402,用于在音频通信期间根据语音数据和背景数据更新语音模型。
装置400还可以包括存储单元403,用于在音频通信之后存储经更新的语音模型,以在与用户的下个音频通信中使用。
装置400还可以包括改变单元404,用于在音频通信之后,根据呼叫者的呼叫频率和呼叫持续时间,将语音模型改变为与音频通信的呼叫者相关联。
本发明的实施例提供一种可从通信网络下载和/或记录在计算机可读取的介质上和/或可由处理器执行的计算机程序产品,包括用于实现上述方法的步骤的程序代码指令。
本发明的实施例提供一种非临时性计算机可读介质,包括在其上记录并且能够由处理器运行的计算机程序产品,包括用于实现上述方法的步骤的程序代码指令。
应当理解的是,本发明可以以各种形式的硬件、软件、固件、专用处理器或其组合来实现。此外,软件优选地实现为有形地体现在程序存储设备上的应用程序。应用程序可以被上传到包括任何合适架构的机器并由其执行。优选地,机器在具有诸如一个或多个中央处理单元(CPU)、随机存取存储器(RAM)和输入/输出(I/O)接口的硬件的计算机平台上实现。计算机平台还包括操作系统和微指令代码。在此描述的各种过程和功能可以是微指令代码的一部分或者是经由操作系统执行的应用程序的一部分(或其组合)。此外,诸如附加数据存储设备和打印设备之类的各种其他外围设备可以连接到计算机平台。
还应当理解的是,由于附图中描绘的一些组成系统组件和方法步骤优选以软件实现,所以系统组件(或处理步骤)之间的实际连接可以根据对本发明进行编程的方式而不同。鉴于在此的教导,相关领域的普通技术人员将能够想到本发明的这些和类似的实现方式或配置。

Claims (18)

1.一种用于在音频通信中将语音数据与背景数据分离的方法,所述方法在被配置为接收来自呼叫者的呼叫的装置中实现并且所述方法包括:
在开始所述音频通信时,确定与所述音频通信的呼叫者相关联的语音模型是否可用;
基于所述确定的结果从多个频谱语音模型中选择频谱语音模型,其中所述多个频谱语音模型包括不与呼叫者相关联的普通频谱语音模型以及与根据呼叫者的呼叫频率和呼叫持续时间从呼叫历史中的所有呼叫者中选择的呼叫者相关联的N个语音模型;
将所选择的频谱语音模型应用(S101)到所述音频通信,以用于将所述语音数据与所述音频通信的所述背景数据分离;以及
在所述音频通信期间根据所分离的语音数据和背景数据更新(S102)频谱语音模型。
2.根据权利要求1所述的方法,其中,将经更新的频谱语音模型应用到所述音频通信。
3.根据权利要求1或2所述的方法,其中,根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的所述呼叫者相关联的频谱语音模型。
4.根据权利要求1或2所述的方法,其中,根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信的所述呼叫者相关联的频谱语音模型。
5.根据权利要求1-3中任一项所述的方法,还包括:
在所述音频通信之后存储(S103)经更新的频谱语音模型,以在下个音频通信中使用。
6.根据权利要求4所述的方法,还包括:
在所述音频通信之后根据呼叫者的呼叫频率和呼叫持续时间将所述频谱语音模型改变为与所述音频通信的呼叫者相关联。
7.一种用于接收呼叫的被配置为在音频通信中将语音数据与背景数据分离的装置(400),包括:
应用单元(401),被配置为:
在开始所述音频通信时,确定与所述音频通信的呼叫者相对应的语音模型是否可用;
基于所述确定的结果从多个频谱语音模型中选择频谱语音模型,其中所述多个频谱语音模型包括不与呼叫者相关联的普通频谱语音模型以及与根据呼叫者的呼叫频率和呼叫持续时间从呼叫历史中的所有呼叫者中选择的呼叫者相关联的N个语音模型;
将所选择的频谱语音模型应用到所述音频通信,以用于将所述语音数据与所述音频通信的所述背景数据分离;以及
更新单元(402),被配置为在所述音频通信期间根据所分离的语音数据和背景数据更新频谱语音模型。
8.根据权利要求7所述的装置(400),其中,应用单元(401)被配置为将经更新的频谱语音模型应用到所述音频通信。
9.根据权利要求7或8所述的装置(400),其中,应用单元(401)被配置为根据呼叫者的呼叫频率和呼叫持续时间应用与音频通信的所述呼叫者相关联的频谱语音模型。
10.根据权利要求7或8所述的装置(400),其中,应用单元被配置为根据呼叫者的呼叫频率和呼叫持续时间应用不与音频通信的所述呼叫者相关联的频谱语音模型。
11.根据权利要求7-9中任一项所述的装置(400),还包括:
存储单元(403),被配置为在所述音频通信之后存储经更新的频谱语音模型,以在下个音频通信中使用。
12.根据权利要求10所述的装置(400),还包括:
改变单元(404),被配置为在所述音频通信之后根据呼叫者的呼叫频率和呼叫持续时间将所述频谱语音模型改变为与所述音频通信的呼叫者相关联。
13.一种非临时性计算机可读介质,具有存储在其上的计算机程序,所述计算机程序包括可由处理器执行以用于实现根据权利要求1至6中的至少一项所述的方法的步骤的程序代码指令。
14.根据权利要求1所述的方法,其中,所述频谱语音模型包括从由以下内容组成的组中选择的频谱语音模型:非负矩阵分解(NMF)、高斯混合模型(GMM)、源频谱模型以及特性频谱图案的字典。
15.一种用于在音频通信中将语音数据与背景数据分离的方法,所述方法在被配置为接收来自呼叫者的呼叫的装置中实现并且所述方法包括:
在开始所述音频通信时,确定与所述音频通信的呼叫者相对应的频谱语音模型是否可用;
基于所述确定的结果从多个频谱语音模型中选择频谱语音模型,其中所述多个频谱语音模型包括不与呼叫者相关联的普通频谱语音模型以及与根据呼叫者的呼叫频率和呼叫持续时间从呼叫历史中的所有呼叫者中选择的呼叫者相关联的N个语音模型;
其中如果与所述呼叫者相对应的频谱语音模型可用,则选择所述频谱语音模型是选择与所述呼叫者相对应的所述频谱语音模型作为所选择的频谱语音模型;
其中如果与所述呼叫者相对应的频谱语音模型不可用,则选择所述频谱语音模型是选择普通频谱语音模型作为所选择的频谱语音模型;
将所选择的频谱语音模型应用到所述音频通信,以用于将所述语音数据与所述音频通信的所述背景数据分离;以及
在所述音频通信期间根据所分离的语音数据和背景数据更新所选择的频谱语音模型。
16.根据权利要求15所述的方法,其中,从多个频谱语音模型中选择频谱语音模型包括从数据库中选择频谱语音模型。
17.一种用于接收呼叫的被配置为在音频通信中将语音数据与背景数据分离的装置,包括:
应用单元,被配置为:
在开始所述音频通信时,确定与所述音频通信的呼叫者相对应的频谱语音模型是否可用;
基于所述确定的结果从多个频谱语音模型中选择频谱语音模型,其中所述多个频谱语音模型包括不与呼叫者相关联的普通频谱语音模型以及与根据呼叫者的呼叫频率和呼叫持续时间从呼叫历史中的所有呼叫者中选择的呼叫者相关联的N个语音模型,
其中如果与所述呼叫者相对应的频谱语音模型可用,则选择所述频谱语音模型是选择与所述呼叫者相对应的所述频谱语音模型作为所选择的频谱语音模型,以及
其中如果与所述呼叫者相对应的频谱语音模型不可用,则选择所述频谱语音模型是选择普通频谱语音模型作为所选择的频谱语音模型;以及
将所选择的频谱语音模型应用到所述音频通信,以用于将所述语音数据与所述音频通信的所述背景数据分离;以及
更新单元,被配置为在所述音频通信期间根据所分离的语音数据和背景数据更新频谱语音模型。
18.根据权利要求1所述的方法,其中,所述频谱语音模型包括预训练的频谱语音模型。
CN201580055548.9A 2014-10-14 2015-10-12 用于在音频通信中将语音数据与背景数据分离的方法和装置 Active CN106796803B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14306623.1 2014-10-14
EP14306623.1A EP3010017A1 (en) 2014-10-14 2014-10-14 Method and apparatus for separating speech data from background data in audio communication
PCT/EP2015/073526 WO2016058974A1 (en) 2014-10-14 2015-10-12 Method and apparatus for separating speech data from background data in audio communication

Publications (2)

Publication Number Publication Date
CN106796803A CN106796803A (zh) 2017-05-31
CN106796803B true CN106796803B (zh) 2023-09-19

Family

ID=51844642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580055548.9A Active CN106796803B (zh) 2014-10-14 2015-10-12 用于在音频通信中将语音数据与背景数据分离的方法和装置

Country Status (7)

Country Link
US (1) US9990936B2 (zh)
EP (2) EP3010017A1 (zh)
JP (1) JP6967966B2 (zh)
KR (2) KR20230015515A (zh)
CN (1) CN106796803B (zh)
TW (1) TWI669708B (zh)
WO (1) WO2016058974A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621990B2 (en) 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
US10811007B2 (en) * 2018-06-08 2020-10-20 International Business Machines Corporation Filtering audio-based interference from voice commands using natural language processing
CN112562726B (zh) * 2020-10-27 2022-05-27 昆明理工大学 一种基于mfcc相似矩阵的语音音乐分离方法
US11462219B2 (en) 2020-10-30 2022-10-04 Google Llc Voice filtering other speakers from calls and audio messages
WO2022201853A1 (ja) 2021-03-23 2022-09-29 東レエンジニアリング株式会社 積層体製造装置及び自己組織化単分子膜の形成方法
TWI801085B (zh) * 2022-01-07 2023-05-01 矽響先創科技股份有限公司 智能網路通訊之雜訊消減方法

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265217A (zh) * 1997-07-02 2000-08-30 西莫克国际有限公司 在语音通信系统中语音增强的方法和装置
CN1313983A (zh) * 1999-06-15 2001-09-19 松下电器产业株式会社 噪声信号编码装置及语音信号编码装置
US20030216911A1 (en) * 2002-05-20 2003-11-20 Li Deng Method of noise reduction based on dynamic aspects of speech
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
CN1514432A (zh) * 2002-12-18 2004-07-21 ���µ�����ҵ��ʽ���� 语音处理中基于高斯模型的动态时间弯曲系统和方法
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
CN101166017A (zh) * 2006-10-20 2008-04-23 松下电器产业株式会社 用于声音产生设备的自动杂音补偿方法及装置
US20100131086A1 (en) * 2007-04-13 2010-05-27 Kyoto University Sound source separation system, sound source separation method, and computer program for sound source separation
US20100332237A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and sound quality correction program
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
CN102903360A (zh) * 2011-07-26 2013-01-30 财团法人工业技术研究院 以麦克风阵列为基础的语音辨识系统与方法
CN102903368A (zh) * 2011-07-29 2013-01-30 杜比实验室特许公司 用于卷积盲源分离的方法和设备
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103098132A (zh) * 2010-08-25 2013-05-08 旭化成株式会社 声源分离装置、声源分离方法、以及程序
JP2013114151A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法及びプログラム
CN103238181A (zh) * 2010-12-07 2013-08-07 三菱电机株式会社 用于恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分的方法
CN103426437A (zh) * 2012-05-04 2013-12-04 索尼电脑娱乐公司 使用利用混合多元概率密度函数的独立分量分析的源分离
US20130332165A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103617798A (zh) * 2013-12-04 2014-03-05 中国人民解放军成都军区总医院 一种强背景噪声下的语音提取方法
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5946654A (en) 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
JP2002330193A (ja) * 2001-05-07 2002-11-15 Sony Corp 通話装置および方法、記録媒体、並びにプログラム
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
US7231019B2 (en) 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
JP2007184820A (ja) * 2006-01-10 2007-07-19 Kenwood Corp 受信装置及び受信音声信号の補正方法
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8077836B2 (en) * 2008-07-30 2011-12-13 At&T Intellectual Property, I, L.P. Transparent voice registration and verification method and system
US9886968B2 (en) * 2013-03-04 2018-02-06 Synaptics Incorporated Robust speech boundary detection system and method

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265217A (zh) * 1997-07-02 2000-08-30 西莫克国际有限公司 在语音通信系统中语音增强的方法和装置
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
CN1313983A (zh) * 1999-06-15 2001-09-19 松下电器产业株式会社 噪声信号编码装置及语音信号编码装置
US20030216911A1 (en) * 2002-05-20 2003-11-20 Li Deng Method of noise reduction based on dynamic aspects of speech
CN1514432A (zh) * 2002-12-18 2004-07-21 ���µ�����ҵ��ʽ���� 语音处理中基于高斯模型的动态时间弯曲系统和方法
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
CN101166017A (zh) * 2006-10-20 2008-04-23 松下电器产业株式会社 用于声音产生设备的自动杂音补偿方法及装置
US20100131086A1 (en) * 2007-04-13 2010-05-27 Kyoto University Sound source separation system, sound source separation method, and computer program for sound source separation
US20100332237A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and sound quality correction program
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
CN103098132A (zh) * 2010-08-25 2013-05-08 旭化成株式会社 声源分离装置、声源分离方法、以及程序
CN103238181A (zh) * 2010-12-07 2013-08-07 三菱电机株式会社 用于恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分的方法
CN102903360A (zh) * 2011-07-26 2013-01-30 财团法人工业技术研究院 以麦克风阵列为基础的语音辨识系统与方法
CN102903368A (zh) * 2011-07-29 2013-01-30 杜比实验室特许公司 用于卷积盲源分离的方法和设备
JP2013114151A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置、方法及びプログラム
CN103426437A (zh) * 2012-05-04 2013-12-04 索尼电脑娱乐公司 使用利用混合多元概率密度函数的独立分量分析的源分离
US20130332165A1 (en) * 2012-06-06 2013-12-12 Qualcomm Incorporated Method and systems having improved speech recognition
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103617798A (zh) * 2013-12-04 2014-03-05 中国人民解放军成都军区总医院 一种强背景噪声下的语音提取方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Online PLCA for Real-Time Semi-supervised Source Separation;Zhiyao Duan et al.;《LVA/ICA 2012: Latent Variable Analysis and Signal Separation》;20121231;第34-41页 *
石来德 等.倒频谱分析.《机械参数测试与分析技术》.2009,第285-288页. *

Also Published As

Publication number Publication date
EP3207543B1 (en) 2024-03-13
EP3207543A1 (en) 2017-08-23
CN106796803A (zh) 2017-05-31
TWI669708B (zh) 2019-08-21
US9990936B2 (en) 2018-06-05
JP2017532601A (ja) 2017-11-02
KR20170069221A (ko) 2017-06-20
WO2016058974A1 (en) 2016-04-21
EP3010017A1 (en) 2016-04-20
KR20230015515A (ko) 2023-01-31
TW201614642A (en) 2016-04-16
US20170309291A1 (en) 2017-10-26
JP6967966B2 (ja) 2021-11-17

Similar Documents

Publication Publication Date Title
CN106796803B (zh) 用于在音频通信中将语音数据与背景数据分离的方法和装置
US11894014B2 (en) Audio-visual speech separation
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN114175144A (zh) 用于训练声学模型的每一代的数据增强
WO2014069122A1 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
Xu et al. Listening to sounds of silence for speech denoising
Govindan et al. Adaptive wavelet shrinkage for noise robust speaker recognition
CN108198569A (zh) 一种音频处理方法、装置、设备及可读存储介质
JP2023552090A (ja) 連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法
Gupta et al. Speech feature extraction and recognition using genetic algorithm
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
CN113921026A (zh) 语音增强方法和装置
CN111508512A (zh) 语音信号中的摩擦音检测
Han et al. Reverberation and noise robust feature compensation based on IMM
Raikar et al. Single channel joint speech dereverberation and denoising using deep priors
Longueira et al. A fully convolutional neural network approach to end-to-end speech enhancement
KR20210010133A (ko) 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
AU2021107566A4 (en) Mobile device with whisper function
Kim et al. Adaptive single-channel speech enhancement method for a Push-To-Talk enabled wireless communication device
Boril et al. A study on combined effects of reverberation and increased vocal effort on asr
Bhat Smartphone-Based Single and Dual Microphone Speech Enhancement Algorithms for Hearing Study
CN112397083A (zh) 语音处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190610

Address after: Paris France

Applicant after: Interactive digital CE patent holding Co.

Address before: I Si Eli Murli Nor, France

Applicant before: THOMSON LICENSING

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210127

Address after: Paris France

Applicant after: Interactive Digital Madison Patent Holdings

Address before: Paris France

Applicant before: Interactive Digital CE Patent Holding Co.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant