CN101887728A - 多传感语音增强方法和装置 - Google Patents

多传感语音增强方法和装置 Download PDF

Info

Publication number
CN101887728A
CN101887728A CN2010101674319A CN201010167431A CN101887728A CN 101887728 A CN101887728 A CN 101887728A CN 2010101674319 A CN2010101674319 A CN 2010101674319A CN 201010167431 A CN201010167431 A CN 201010167431A CN 101887728 A CN101887728 A CN 101887728A
Authority
CN
China
Prior art keywords
signal
noise
alternative sensor
estimation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101674319A
Other languages
English (en)
Other versions
CN101887728B (zh
Inventor
A·阿塞罗
J·G·德罗普
邓立
M·J·辛克莱尔
黄学东
郑砚丽
张正友
刘自成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101887728A publication Critical patent/CN101887728A/zh
Application granted granted Critical
Publication of CN101887728B publication Critical patent/CN101887728B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

一种方法和系统使用从一不同于气导麦克风的传感器接收的备选传感器信号来估算干净语音值。所述估算或者单独,或者结合气导麦克风信号来使用备选传感器信号。在不使用根据从气导麦克风收集的含噪声的训练数据训练的模型的情况下估算干净语音值。在一个实施例中,向从备选传感器信号形成的矢量添加纠正矢量以形成应用到气导麦克风信号的滤波器,以生成干净语音估算。在其它实施例中,根据备选传感器信号确定语音信号的音调,并将其用于分解气导麦克风信号。分解的信号然后用于确定干净信号估算。

Description

多传感语音增强方法和装置
本申请是提交于2004年11月26日的200410095649.2号专利申请的分案申请。
技术领域
本发明涉及降噪,尤其涉及从语音信号中移除噪声。
背景技术
语音识别和语音传输的一个常见问题是附加噪声对语音信号的破坏。具体地,由于另一说话者的语音的破坏已被证明是难以检测和/或纠正的。
移除噪声的一种技术试图使用在各种条件下收集的一组含噪声的训练信号以对噪声模型化。这些训练信号在要解码或传输的测试信号之前接收,并仅用于训练目的。尽管这些系统试图构建考虑噪声的模型,然而它们仅当训练信号的噪声条件与测试信号的噪声条件相匹配时有效。由于大量可能的噪声与噪声似乎无穷的组合,很难从训练信号构建处理每一测试条件的噪声模型。
移除噪声的另一技术是估算测试信号中的噪声,然后从含噪声的语音信号中减去该噪声。通常,这些系统从测试信号的前几帧估算噪声。由此,如果噪声随时间变化,则对当前帧的噪声估算是不准确的。
现有技术中用于估算语音信号中的噪声的一种系统使用人类语音的谐波。人类语音的谐波在频谱中产生峰值。通过标识这些峰值之间的空值,这些系统标识噪声的频谱。然后从含噪声的语音信号的频谱中减去该噪声频谱,以提供干净的语音信号。
语音的谐波也在语音编码中使用,以减少当对语音进行编码用于在数字通信路径上传输时必须发送的数据量。这些系统试图将语音信号分离成谐波分量和随机分量。然后对每一分量单独编码用于传输。一个特定的系统使用谐波+噪声模型,其中,正弦和模型适合语音信号以执行分解。
在语音编码中,进行分解以找出准确表示输入的含噪声的语音信号的语音信号的参数化。分解没有降噪能力。
近来,开发了一种系统,该系统试图通过使用备选传感器,如骨导(boneconduction)麦克风和气导(air conduction)麦克风的组合来移除噪声。该系统使用三个训练信道来训练:含噪声的备选传感器训练信号、含噪声的气导麦克风训练信号以及干净气导麦克风训练信号。每一信号都被变换到特征域。含噪声的备选传感器信号和含噪声的气导麦克风信号的特征被组合成表示含噪声的信号的单个矢量。干净气导麦克风信号的特征形成单个干净矢量。这些矢量然后用于训练含噪声的矢量和干净矢量之间的映射。一旦被训练,映射被应用到从含噪声的备选传感器测试信号和含噪声的气导麦克风测试信号的组合形成的含噪声的矢量。该映射产生一干净信号矢量。
当测试信号的噪声条件与训练信号的噪声条件不相匹配时,该系统并非最佳,因为映射被设计成用于训练信号的噪声条件。
发明内容
一种方法和系统使用从不同于气导麦克风的传感器接收的备选传感器信号,以估算干净语音值。干净语音值在不使用根据从气导麦克风收集的含噪声的训练数据训练的模型的情况下来估算。在一个实施例中,向从备选传感器信号形成的矢量添加纠正矢量,以形成应用到气导麦克风信号以产生干净语音估算的滤波器。在其它实施例中,语音信号的音调根据备选传感器信号来确定,并用于分解气导麦克风信号。分解的信号然后用于标识干净信号估算。
附图说明
图1是可在其中实践本发明的一个计算环境的框图。
图2是可在其中实践本发明的替换计算环境的框图。
图3是本发明的通用语音处理系统的框图。
图4是用于在本发明的一个实施例中训练降噪参数的系统的框图。
图5是在图4的系统中训练降噪参数的流程图。
图6是用于在本发明的一个实施例中从含噪声的测试语音信号标识干净语音信号的估算的系统的框图。
图7是使用图6的系统标识干净语音信号的估算的方法的流程图。
图8是用于标识干净语音信号的估算的替换系统的框图。
图9是用于标识干净语音信号的估算的第二替换系统的框图。
图10是使用图9的系统标识干净语音信号的估算的方法的流程图。
图11是骨导麦克风的框图。
具体实施方式
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。
本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明被设计成在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质可包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也可包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
图2是移动设备200的框图,它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备进行通信的通信接口208。在一个实施例中,上述组件被耦合在一起,用于通过合适的总线210彼此通信。
存储器204被实现为诸如具有电池后备模块(未示出)的随机存取存储器(RAM)的非易失电子存储器,使得当移动设备200的总电源被关闭时,储存在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用于存储,如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中,操作系统212较佳地由处理器202从存储器204执行。在一个较佳的实施例中,操作系统212是可从微软公司购买的
Figure GSA00000097389400061
CE品牌操作系统。操作系统212较佳地被设计成用于移动设备,并实现可由应用程序214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对所展现的应用编程接口和方法的调用,由应用程序214和操作系统212来维护。
通信接口208表示允许移动设备200发送和接收信息的众多设备和技术。仅举几个例子,这类设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可直接连接到计算机以与其交换数据。在这一情况下,通信接口208可以是红外收发器或串行或并行通信连接,它们全都能够发送流信息。
输入/输出组件206包括各种输入设备,如触敏屏幕、按钮、滚轴和麦克风,以及各种输出设备,包括音频发生器、振荡装置和显示器。上文列出的设备作为示例,并不需要都在移动设备200上存在。另外,其它输入/输出设备也可附加到本发明的范围之内的移动设备200上或在其中找到。
图3提供了本发明的实施例的基本框图。在图3中,说话者300生成由气导麦克风304和备选传感器306检测的语音信号302。备选传感器的示例包括测量用户的喉部震动的喉式麦克风、位于或邻近用户的面部或颅骨(如上颚)上或在用户的耳内,并传感对应于由用户生成的语音的颅骨和上颚的震动的骨导传感器。气导麦克风304是常用于将音频空气波转换成电信号的麦克风类型。
气导麦克风304也接收由一个或多个噪声源310生成的噪声308。根据备选传感器的类型和噪声级别,噪声308也可由备选传感器306检测。然而,在本发明的实施例中,备选传感器306通常对环境噪声比气导麦克风304更不敏感。由此,由备选传感器306生成的备选传感器信号312一般比由气导麦克风304生成的气导麦克风信号314包括更少的噪声。
备选传感器信号312和气导麦克风信号314被提供到估算干净信号318的干净信号估算器316。干净信号估算318被提供到语音处理320。干净信号估算318可以是经滤波的时域信号或特征域矢量。如果干净信号估算318是时域信号,则语音处理320可采用听众、语音编码系统或语音识别系统的形式。如果干净信号估算318是特征域矢量,则语音处理320通常是语音识别系统。
本发明提供了使用气导麦克风信号314和备选传感器信号312来估算干净语音的若干方法和系统。一种系统使用立体声训练数据来训练用于备选传感器信号的纠正矢量。当这些纠正矢量稍后被添加到测试备选传感器矢量时,它们提供了干净信号矢量的估算。该系统的一个进一步外延是首先跟踪时变失真,然后将该信息结合到纠正矢量的计算和干净语音的估算中。
第二种系统提供了由纠正矢量生成的干净信号估算和通过从气导信号中减去气导测试信号中的当前噪声估算形成的估算之间的内插。第三种系统使用备选传感器信号来估算语音信号的音调,并然后使用估算的音调来标识对干净信号的估算。这些系统的每一个在后文单独讨论。
训练立体声纠正矢量
图4和5提供了用于对依赖于纠正矢量来生成干净语音的估算的本发明的两个实施例训练立体声纠正矢量的框图和流程图。
标识纠正矢量的方法在图5的步骤500开始,其中,将一“干净”气导麦克风信号转换成特征矢量序列。为完成这一转换,图4的说话者对气导麦克风说话,后者将音频波转换成电信号。然后由模-数转换器对电信号进行采样,以生成一列数字值,由帧构造器416将它们组合成值的帧。在一个实施例中,模-数转换器414以16kHz和每样值16比特对模拟信号进行采样,由此创建了每秒32千字节的语音数据,并且帧构造器416每隔10毫秒创建包括25毫秒数据值的新帧。
帧构造器416提供的每一数据帧由特征提取器418转换成特征矢量。在一个实施例中,特征提取器418形成倒谱特征。这类特征的示例包括LPC导出的倒谱和梅尔频率倒谱系数。可用于本发明的其它可能的特征提取模块的示例包括用于执行线性预测编码(LPC)、透视线性预测(PLP)以及听觉模型特征提取的模块。注意,本发明不限于这些特征提取模块,可在本发明的环境中使用其它模块。
在图5的步骤502,将备选传感器信号转换成特征矢量。示出尽管步骤502的转换出现在步骤500的转换之后,然而在本发明中,在步骤500之前、期间或之后,可执行转换的任一部分。步骤502的转换通过类似于上文对步骤500所描述的过程来执行。
在图4的实施例中,当备选传感器402检测到与由说话者400的语音生成相关联的物理事件,如骨震动或面部运动,则过程开始。如图11所示,在骨导传感器1100的一个实施例中,软弹性体桥1102粘附到普通气导麦克风1106的隔膜1104上。该软性桥1102将震动从用户的皮肤接触部1108直接传导到麦克风1106的隔膜1104。隔膜1104的运动由麦克风1106中的转换器1110转换成电信号。备选传感器402将这一物理事件转换成由模-数转换器404采样的模拟电信号。A/D转换器404的采样特征与上述A/D转换器414的特征相同。A/D转换器404提供的样值由帧构造器406集合成帧,后者以类似于帧构造器416的方式起作用。这些样值帧然后由使用与特征提取器418相同的特征提取方法的特征提取器408转换成特征矢量。
备选传感器信号和气导信号的特征矢量被提供到图4的降噪训练器420。在图5的步骤504,降噪训练器420将备选传感器信号的特征矢量组合成混合分量。这一组合可通过使用最大似然性训练技术将类似的特征矢量组合在一起,或通过将表示语音信号的时间片段的特征矢量组合在一起来完成。本领域的技术人员将认识到,可以使用组合特征矢量的其它技术,并且上文列出的两种技术仅作为示例提供。
在图5的步骤508,降噪训练器420然后对每一混合分量s确定一纠正矢量rs。在一个实施例中,每一混合分量的纠正矢量使用最大似然性准则来确定。在这一技术中,纠正矢量计算如下:
r s = Σ t p ( s | b t ) ( x t - b t ) Σ t p ( s | b t ) 公式1
其中,xt是帧t的气导传感矢量的值,bt是帧t的备选传感器矢量的值。在公式1中:
p ( s | b t ) = p ( b t | s ) p ( s ) Σ s p ( b t | s ) p ( s ) 公式2
其中,p(s)仅是众多混合分量的其中之一,p(bt|s)被模型化为高斯分布:
p(bt|s)=N(bt,μb,Γb)       公式3
它具有使用期望值最大化(EM)算法来训练的平均值μb和方差Γb,其中,每一迭代包括以下步骤:
γs(t)=p(s|bt)                公式4
μ s = Σ t γ s ( t ) b t Σ t γ s ( t ) 公式5
Γ s = Σ t γ s ( t ) ( b t - μ s ) ( b t - μ s ) T Σ t γ s ( t ) 公式6
公式4是EM算法中的E步骤,它使用先前所估算的参数。公式5和公式6是M步骤,它们使用E步骤的结果更新参数。
算法的E步骤和M步骤迭代,直到确定模型参数的稳定值。这些参数然后用于评估公式1以形成纠正矢量。纠正矢量和模型参数然后储存在降噪参数存储422中。
在步骤508对每一混合分量确定了纠正矢量之后,训练本发明的降噪系统的过程完成。一旦对每一混合分量确定了纠正矢量,则该矢量可在本发明的降噪技术中使用。下文讨论使用纠正矢量的两个单独的降噪技术。
使用纠正矢量和噪声估算的降噪
图6框图和图7的流程图分别示出了基于纠正矢量和噪声估算在含噪声的语音信号中降噪的系统和方法。
在步骤700,由气导麦克风604检测的音频测试信号被转换成特征矢量。由麦克风接收的音频测试信号包括来自说话者600的语音和来自一个或多个噪声源602的附加噪声。由麦克风604检测的音频测试信号被转换成提供给模-数转换器606的电信号。
模-数转换器606将来自麦克风604的模拟信号转换成一系列数字值。在若干实施例中,模-数转换器606以16kHz和每样值和6比特对模拟信号进行采样,由此创建了每秒32千字节的语音数据。这些数字值提供给帧构造器607,在一个实施例中,帧构造器607将这些值组合成每隔10毫秒开始的25毫秒帧。
由帧构造器607创建的数据帧被提供给特征提取器610,它从每一帧提取特征。在一个实施例中,该特征提取器不同于用于训练纠正矢量的特征提取器408和418。具体地,在本实施例中,特征提取器610生成功率谱值而非倒谱值。提取的特征被提供到干净信号估算器622、语音检测单元626和噪声模型训练器624。
在步骤702,与由说话者600的语音产生相关联的物理事件,如骨震动或面部运动,被转换成特征矢量。尽管在图7中被示出为单独的步骤,然而本领域的技术人员将认识到,该步骤的部分可在与步骤700相同的时刻完成。在步骤702,物理事件由备选传感器614检测。备选传感器614基于物理事件生成模拟电信号。该模拟电信号由模-数转换器616转换成数字信号,并且由帧构造器617将所得的数字样值组合成帧。在一个实施例中,模-数转换器616和帧构造器617以类似于模-数转换器606和帧构造器607的方式操作。
数字值的帧被提供给特征提取器620,它使用用于训练纠正矢量的同一特征提取技术。如上所述,这一特征提取模块的示例包括用于执行线性预测编码(LPC)、LPC导出倒谱、透视线性预测(PLP)、听觉模型特征提取和梅尔频率倒谱系数(MFCC)特征提取的模块。然而,在许多实施例中,可使用产生倒谱特征的特征提取技术。
特征提取模块产生特征矢量流,它们的每一个都与语音信号的单独一帧相关联。该特征矢量流被提供给干净信号估算器622。
来自帧构造器617的值的帧也被提供给特征提取器621,在一个实施例中,特征提取器621提取每一帧的能量。每一帧的能量值被提供给语音检测单元626。
在步骤704,语音检测单元626使用备选传感器信号的能量特征来确定何时可能存在语音。该信息被传递到噪声模型训练器624,它试图在步骤706在没有语音的周期内模型化噪声。
在一个实施例中,语音检测单元626首先搜索帧能量值的序列以找出能量中的峰值。它然后搜索峰值后的谷值。谷值能量被称为能量分隔符d。为确定帧是否包含语音,就确定帧能量e与能量分隔符d之比k∶k=e/d。然后确定帧的语音置信度q如下:
q = 0 : k < 1 k - 1 &alpha; - 1 : 1 &le; k &le; &alpha; 1 : k > &alpha; 公式7
其中,α定义了两种状态之间的转换,在一个实现中被设为2。最后,使用该帧的相邻5帧(包括该帧本身)的平均置信度值作为该帧的最终置信度。
在一个实施例中,使用一固定阈值来确定是否存在语音,使得如果置信度超出阈值,该帧被认为是包含了语音,并且如果置信度值未超出阈值,则该帧被认为是包含非语音。在一个实施例中,使用0.1的阈值。
对于由语音检测单元626检测的每一非语音帧,噪声模型训练器624在步骤706更新噪声模型625。在一个实施例中,噪声模型625是具有平均值μn和方差∑n的高斯模型。该模型基于最近几个非语音帧的移动窗口。从该窗口中的诸非语音帧确定平均值和方差的技术在本领域中是众所周知的。
参数存储422中的纠正矢量和模型参数和噪声模型625然后与备选传感器的特征矢量b以及含噪声的气导麦克风信号的特征矢量Sy一起提供给干净信号估算器622。在步骤708,干净信号估算器622基于备选传感器特征矢量、纠正矢量和备选传感器的模型参数估算干净语音信号的初始值。具体地,干净信号的备选传感器估算计算如下:
x ^ = b + &Sigma; s p ( s | b ) r s 公式8
其中,是倒谱域中的干净信号估算,b是备选传感器特征矢量,p(s|b)使用上文的公式2来确定,rs是混合分量s的纠正矢量。由此,公式8中干净信号的估算通过向纠正矢量的加权和添加备选传感器特征矢量来形成,其中,该加权基于给定备选传感器特征矢量时混合分量的概率。
在步骤710,通过将备选传感器干净语音估算与从含噪声的气导麦克风矢量及噪声模型形成的干净语音估算相组合,对初始备选传感器干净语音估算进行净化。这可获得经净化的干净语音估算628。为将初始干净信号估算的倒谱值与含噪声的气导麦克风的功率谱特征矢量相组合,使用以下公式将该倒谱值变换到功率谱域:
S ^ x | b = e C - 1 x ^ 公式9
其中,C-1是离散余弦反变换,
Figure GSA00000097389400122
是基于备选传感器的干净信号的功率谱估算。
一旦将来自备选传感器的干净信号初始估算置于功率谱域中,可将其与含噪声的气导麦克风矢量及噪声模型相组合,如下:
S ^ x = ( &Sigma; n - 1 + &Sigma; x | b - 1 ) - 1 [ &Sigma; n - 1 ( S y - &mu; n ) + &Sigma; x | b - 1 S ^ x | b ] 公式10
其中,
Figure GSA00000097389400124
是功率谱域中经净化的干净信号估算,Sy是含噪声的气导麦克风特征矢量,(μn,∑n)是先前的噪声模型的平均值和协方差(见624),是基于备选传感器的初始干净信号估算,∑x|b是给定备选传感器的测量时对干净语音的条件概率分布的协方差矩阵。∑x|b可计算如下。设J表示公式9的右侧的函数的雅可比行列式(Jacobian)。设∑为
Figure GSA00000097389400128
的协方差矩阵。则
Figure GSA00000097389400129
的协方差为
&Sigma; x | b = J&Sigma; J T 公式11
在一个简化的实施例中,将公式10重写成以下公式:
S ^ x = &alpha; ( f ) ( S y - &mu; n ) + ( 1 - &alpha; ( f ) ) S ^ x | b 公式12
其中,α(f)是时间和频带的函数。由于当前使用的备选传感器具有高达3KHz的带宽,因此对低于3KHz的频带选择α(f)为0。基本上,信任来自低频带的备选传感器的初始干净信号估算。对于高频带,来自备选传感器的初始干净信号估算不够可靠。直观上,当对于当前帧的频带的噪声较小时,备选择较大的α(f),使得可以对该频带使用更多来自气导麦克风的信息。否则,将通过选择较小的α(f)使用更多来自备选传感器的信息。在一个实施例中,使用来自备选传感器的初始干净信号估算以对每一频带确定噪声级别。设E(f)表示频带f的能量。设M=MaxfE(f)。作为f的函数,α(f)定义如下:
&alpha; ( f ) = E ( f ) M : f &GreaterEqual; 4 K f - 3 K 1 K &alpha; ( 4 K ) : 3 K < f < 4 K 0 : f &le; 3 K 公式13
其中,使用线性内插从3K过渡到4K以确保α(f)的平滑性。
功率谱域中经净化的干净信号估算可用于构造维纳(Weiner)滤波器,以对含噪声的气导麦克风信号进行滤波。具体地,设置维纳滤波器H,使得:
H = S ^ x S y 公式14
然后可将该滤波器应用到时域含噪声的气导麦克风信号以产生经降噪的或干净时域信号。经降噪的信号可被提供给听众或应用到语音识别器。
注意,公式12提供了经净化的干净信号估算,它是两个因子的加权和,其中一个因子是来自备选传感器的干净信号估算。可扩展该加权和以包括额外的备选传感器的额外因子。由此,可使用一个以上备选传感器来生成干净信号的独立估算。然后可使用公式12来组合这些多个估算。
使用纠正矢量而不使用噪声估算来降噪
图8提供了在本发明中估算干净语音值的替换系统的框图。图8的系统类似于图6的系统,除在不需要气导麦克风或噪声模型的情况下形成干净语音值的估算之外。
在图8中,与产生语音的说话者800相关联的物理事件由备选传感器802、模-数转换器804、帧构造器806和特征提取器808以类似于上文对图6的备选传感器614、模-数转换器616、帧构造器617和特征提取器618所讨论的类似方式转换成特征矢量。来自特征提取器808的特征矢量和降噪参数422被提供给干净信号估算器810,它使用上文的公式8和9确定干净信号值812的估算
Figure GSA00000097389400133
功率谱域中的干净信号估算
Figure GSA00000097389400134
可用于构造维纳滤波器以对含噪声的气导麦克风信号进行滤波。具体地,设置维纳滤波器H,使得:
H = S ^ x | b S y 公式15
该滤波器然后可应用到时域的含噪声的气导麦克风信号以产生经降噪的或干净的信号。经降噪的信号可被提供给听众或应用到语音识别器。
可选地,公式8中计算的倒谱域中的干净信号估算
Figure GSA00000097389400141
可直接应用到语音识别系统。
使用音调跟踪的降噪
图9的框图和图10的流程图示出了生成干净语音信号的估算的替换技术。具体地,图9和10的实施例通过使用备选传感器,然后使用音调将含噪声的气导麦克风信号分解成谐波分量和随机分量来标识语音信号的音调,以确定干净语音估算。由此,含噪声的信号被表示为:
y=yh+yr            公式16
其中,y是含噪声的信号,yh是谐波分量,yr是随机分量。使用谐波分量和随机分量的加权和来形成表示经降噪的语音信号的经降噪的特征矢量。
在一个实施例中,谐波分量被模型化为谐波上相关的正弦和,使得:
y h = &Sigma; k = 1 K a k cos ( k &omega; 0 t ) + b k sin ( k &omega; 0 t ) 公式17
其中,ω0是基频或音调频率,K是信号中的谐波总数。
由此,为标识谐波分量,必须确定音调频率和振幅参数{a1a2…akb1b2…bk}的估算。
在步骤1000,收集含噪声的语音信号,并将其转换成数字样值。为完成这一转换,气导麦克风904将来自说话者900和一个或多个附加噪声源902的音频波转换成电信号。然后由模-数转换器906对该电信号进行采样,以生成一列数字值。在一个实施例中,模-数转换器906以16kHz和每样值16比特对模拟信号进行采样,由此创建每秒32千字节的语音数据。在步骤1002,数字样值由帧构造器908组合成帧。在一个实施例中,帧构造器908每隔10毫秒创建包含25毫秒数据值的新帧。
在步骤1004,与语音产生相关联的物理事件由备选传感器944检测。在本实施例中,能够检测谐波分量的备选传感器,如骨导传感器最适合用作备选传感器944。注意,尽管示出步骤1004从步骤1000分离,然而本领域的技术人员将认识到,这些步骤可在同一时刻执行。由备选传感器944生成的模拟信号由模-数传感器946转换成数字样值。数字样值然后由帧构造器948在步骤1006组合成帧。
在步骤1008,备选传感器信号的帧由音调跟踪器950用于标识语音的音调频率或基频。
可使用任意数量的可用音调跟踪系统来确定音调频率的估算。在许多这样的系统中,候选音调用于标识备选传感器信号的各片段中心之间的可能间距。对于每一候选音调,在语音的两连续片段之间确定相关。一般而言,提供最佳相关的候选音调是该帧的音调频率。在某些系统中,使用额外的信息来净化音调选择,如信号能量和/或期望的音调跟踪。
给定来自音调跟踪器950的音调估算,可在步骤1010将气导信号矢量分解成谐波分量和随机分量。为完成这一过程,将公式17重写为:
y=Ab                公式18
其中,y是含噪声的语音信号的N样值的矢量,A是N×2K的矩阵,由以下公式给出:
A=[AcosAsin]                    公式19
其元素为
Acos(k,t)=cos(kω0t)  Asin(k,t)=sin(kω0t)    公式20
且b是2K×1的矢量,由以下公式给出:
bT=[a1a2…akb1b2…bk]                公式21
然后,振幅系数的最小二乘解为:
b ^ = ( A T A ) - 1 A T y 公式22
使用
Figure GSA00000097389400152
可确定含噪声的语音信号的谐波分量的估计,为:
y h = A b ^ 公式23
然后计算随机分量的估算,为:
yr=y-yh                公式24
由此,使用上述公式18-24,谐波分解单元910能够生成谐波分量样值矢量912,yh,以及随机分量样值矢量914,yr
在将帧的样值分解成谐波和随机样值之后,在步骤1012对谐波分量确定比例参数或权值。该比例参数用作后文进一步讨论的经降噪的语音信号的计算的一部分。在一个实施例中,比例参数计算如下:
&alpha; h = &Sigma; i y h ( i ) 2 &Sigma; i y ( i ) 2 公式25
其中,αh是比例参数,yh(i)是谐波分量样值yh的矢量中的第i个样值,y(i)是该帧含噪声的语音信号的第i个样值。在公式25中,分子是谐波分量的每一样值的能量的总和,分母是含噪声信号的每一样值的能量的总和。由此,比例参数是该帧的谐波能量与该帧的总能量之比。
在替换的实施例中,使用概率性的有声-无声检测单元来设置比例参数。这些单元提供了语音的特定帧为有声而非无声的概率,有声意味着声带在帧期间共振。该帧是来自语音的有声区域的概率可直接用作比例参数。
在确定了比例参数之后,或正在确定时,在步骤1014确定谐波分量样值矢量和随机分量样值矢量的梅尔频谱。这涉及将每一样值矢量通过离散傅立叶变换(DFT)918以产生谐波分量频率值矢量922和随机分量频率值矢量920。然后由梅尔加权单元924使用沿梅尔比例应用的一系列三角加权函数来平滑由频率值矢量表示的功率谱。这可获得谐波分量梅尔谱矢量928,Yh和随机分量梅尔谱矢量926,Yr
在步骤1016,将谐波分量和随机分量的梅尔谱组合成一加权和来形成经降噪的梅尔谱估算。该步骤由加权和计算器930使用上文所确定的比例因子在以下公式中执行:
X ^ ( t ) = &alpha; h ( t ) Y h ( t ) + &alpha; r Y r ( t ) 公式26
其中,
Figure GSA00000097389400163
是经降噪的梅尔谱估算,Yh(t)是谐波分量梅尔谱,Yr(t)是随机分量梅尔谱,αh(t)是上文确定的比例因子,αr是随机分量的固定比例因子,在一个实施例中,它被设为1,时间下标t用于强调谐波分量的比例因子是对每一帧确定的,而随机分量的比例因子保持固定。注意,在其它实施例中,随机分量的比例因子可对每一帧确定。
在步骤1016计算了经降噪的梅尔谱之后,在步骤1018,确定梅尔谱的对数932,并将其应用到离散余弦变换934。这产生表示经降噪的语音信号的梅尔频率倒谱系数(MFCC)特征矢量936。
对含噪声的信号的每一帧生成单独的经降噪的MFCC特征矢量。这些特征矢量可用于任一期望的目的,包括语音增强和语音识别。对于语音增强,MFCC特征矢量可被变换到功率谱域,并可与含噪声的气导信号一起使用来形成维纳滤波器。
尽管参考具体的实施例描述了本发明,本领域的技术人员将认识到,可在不脱离本发明的精神和范围的情况下在形式和细节上作出修改。

Claims (2)

1.一种确定干净语音值的估算的方法,其特征在于,所述方法包括:
从一不同于气导麦克风的备选传感器接收一备选传感器信号;
从一气导麦克风接收一气导麦克风信号;
基于所述备选传感器信号标识一语音信号的音调;
使用所述音调将所述气导麦克风信号分解成一谐波分量和一随机分量;
为所述谐波分量确定一比例参数,所述比例参数是所述气导麦克风信号的谐波能量与总能量之比;以及
使用所述谐波分量、所述随机分量和所述比例参数来估算所述干净语音值。
2.如权利要求1所述的方法,其特征在于,接收备选传感器信号包括从一骨导麦克风接收一备选传感器信号。
CN2010101674319A 2003-11-26 2004-11-26 多传感语音增强方法 Expired - Fee Related CN101887728B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/724,008 2003-11-26
US10/724,008 US7447630B2 (en) 2003-11-26 2003-11-26 Method and apparatus for multi-sensory speech enhancement

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2004100956492A Division CN1622200B (zh) 2003-11-26 2004-11-26 多传感语音增强方法和装置

Publications (2)

Publication Number Publication Date
CN101887728A true CN101887728A (zh) 2010-11-17
CN101887728B CN101887728B (zh) 2011-11-23

Family

ID=34465721

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2010101674319A Expired - Fee Related CN101887728B (zh) 2003-11-26 2004-11-26 多传感语音增强方法
CN2004100956492A Expired - Fee Related CN1622200B (zh) 2003-11-26 2004-11-26 多传感语音增强方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2004100956492A Expired - Fee Related CN1622200B (zh) 2003-11-26 2004-11-26 多传感语音增强方法和装置

Country Status (10)

Country Link
US (1) US7447630B2 (zh)
EP (2) EP1536414B1 (zh)
JP (3) JP4986393B2 (zh)
KR (1) KR101099339B1 (zh)
CN (2) CN101887728B (zh)
AU (1) AU2004229048A1 (zh)
BR (1) BRPI0404602A (zh)
CA (2) CA2786803C (zh)
MX (1) MXPA04011033A (zh)
RU (1) RU2373584C2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871419A (zh) * 2012-12-11 2014-06-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN107910011A (zh) * 2017-12-28 2018-04-13 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN110931027A (zh) * 2018-09-18 2020-03-27 北京三星通信技术研究有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
CN112767963A (zh) * 2021-01-28 2021-05-07 歌尔科技有限公司 一种语音增强方法、装置、系统及计算机可读存储介质

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
JP3815388B2 (ja) * 2002-06-25 2006-08-30 株式会社デンソー 音声認識システムおよび端末
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20060020454A1 (en) * 2004-07-21 2006-01-26 Phonak Ag Method and system for noise suppression in inductive receivers
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
KR100778143B1 (ko) 2005-08-13 2007-11-23 백다리아 후두 임피던스 신호를 이용하는 넥마이크를 구비한 골도헤드셋
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
JP4316583B2 (ja) 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8019089B2 (en) * 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
EP2007167A3 (en) * 2007-06-21 2013-01-23 Funai Electric Advanced Applied Technology Research Institute Inc. Voice input-output device and communication device
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
ES2613693T3 (es) 2008-05-09 2017-05-25 Nokia Technologies Oy Aparato de audio
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
DE102010029091B4 (de) * 2009-05-21 2015-08-20 Koh Young Technology Inc. Formmessgerät und -verfahren
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
CN101916567B (zh) * 2009-11-23 2012-02-01 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8645132B2 (en) * 2011-08-24 2014-02-04 Sensory, Inc. Truly handsfree speech recognition in high noise environments
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP6031041B2 (ja) 2010-11-24 2016-11-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 複数のオーディオセンサを有する装置とその動作方法
WO2012069020A1 (zh) * 2010-11-25 2012-05-31 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9076446B2 (en) * 2012-03-22 2015-07-07 Qiguang Lin Method and apparatus for robust speaker and speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
JP6005476B2 (ja) * 2012-10-30 2016-10-12 シャープ株式会社 受話装置、制御プログラム、記録媒体
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US20150118960A1 (en) * 2013-10-28 2015-04-30 Aliphcom Wearable communication device
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
GB2546981B (en) 2016-02-02 2019-06-19 Toshiba Res Europe Limited Noise compensation in speaker-adaptive systems
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10319377B2 (en) * 2016-03-15 2019-06-11 Tata Consultancy Services Limited Method and system of estimating clean speech parameters from noisy speech parameters
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10062373B2 (en) * 2016-11-03 2018-08-28 Bragi GmbH Selective audio isolation from body generated sound system and method
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
GB201713946D0 (en) * 2017-06-16 2017-10-18 Cirrus Logic Int Semiconductor Ltd Earbud speech estimation
EP3714452B1 (en) * 2017-11-23 2023-02-15 Harman International Industries, Incorporated Method and system for speech enhancement
US11500610B2 (en) 2018-07-12 2022-11-15 Dolby Laboratories Licensing Corporation Transmission control for audio device using auxiliary signals
JP7172209B2 (ja) * 2018-07-13 2022-11-16 日本電気硝子株式会社 封着材料
CN109308903B (zh) * 2018-08-02 2023-04-25 平安科技(深圳)有限公司 语音模仿方法、终端设备及计算机可读存储介质
CN109978034B (zh) * 2019-03-18 2020-12-22 华南理工大学 一种基于数据增强的声场景辨识方法
JP7234100B2 (ja) * 2019-11-18 2023-03-07 株式会社東海理化電機製作所 学習データ拡張方法、および学習データ生成装置
CN112055278B (zh) * 2020-08-17 2022-03-08 大象声科(深圳)科技有限公司 融合入耳麦克风和耳外麦克风的深度学习降噪设备
EP4198975A1 (en) * 2021-12-16 2023-06-21 GN Hearing A/S Electronic device and method for obtaining a user's speech in a first sound signal

Family Cites Families (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
JPH07101853B2 (ja) 1991-01-30 1995-11-01 長野日本無線株式会社 雑音低減方法
US5241692A (en) 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
JPH05276587A (ja) 1992-03-30 1993-10-22 Retsutsu Corp:Kk イヤーマイクロフォン
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
JP3082825B2 (ja) 1994-08-29 2000-08-28 日本電信電話株式会社 通信装置
EP0984660B1 (en) 1994-05-18 2003-07-30 Nippon Telegraph and Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducer part
JP3488749B2 (ja) 1994-08-23 2004-01-19 株式会社ダッド・ジャパン 骨伝導型マイクロホン
JP3306784B2 (ja) 1994-09-05 2002-07-24 日本電信電話株式会社 骨導マイクロホン出力信号再生装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
JP2835009B2 (ja) 1995-02-03 1998-12-14 岩崎通信機株式会社 骨導気導複合型イヤーマイクロホン装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
JP3264822B2 (ja) 1995-04-05 2002-03-11 三菱電機株式会社 移動体通信機器
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
GB9512284D0 (en) 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JPH09284877A (ja) 1996-04-19 1997-10-31 Toyo Commun Equip Co Ltd マイクシステム
JP3097901B2 (ja) 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
CN2318770Y (zh) * 1997-03-28 1999-05-12 徐忠义 抗强音频干扰的送话器
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) * 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US5913187A (en) 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
US6434239B1 (en) * 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
JPH11265199A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
EP1586980B1 (en) 1998-03-18 2007-07-04 Nippon Telegraph and Telephone Corporation Wearable communication device for inputting commands via detection of tapping shocks or vibration of fingertips
EP1080361A4 (en) 1998-05-19 2005-08-10 Spectrx Inc APPARATUS AND METHOD FOR DETERMINING THE CHARACTERISTICS OF FABRICS
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
US6253171B1 (en) 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
JP2000250577A (ja) 1999-02-24 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
JP4245720B2 (ja) * 1999-03-04 2009-04-02 日新製鋼株式会社 高温酸化特性を改善した高Mnオーステナイト系ステンレス鋼材
JP2000261530A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2000261529A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
JP2000354284A (ja) * 1999-06-10 2000-12-19 Iwatsu Electric Co Ltd 送受一体形電気音響変換器を用いる送受話装置
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6603823B1 (en) 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6529868B1 (en) 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20020039425A1 (en) 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7020605B2 (en) 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6754623B2 (en) 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
JP3678694B2 (ja) * 2001-11-02 2005-08-03 Necビューテクノロジー株式会社 対話型端末装置、その通話制御方法、およびそのプログラム
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
GB2421668B (en) 2002-06-24 2007-01-03 Samsung Electronics Co Ltd Usage position detection
US7092529B2 (en) * 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US7516067B2 (en) 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871419A (zh) * 2012-12-11 2014-06-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN105578115B (zh) * 2015-12-22 2016-10-26 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN107910011A (zh) * 2017-12-28 2018-04-13 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11064296B2 (en) 2017-12-28 2021-07-13 Iflytek Co., Ltd. Voice denoising method and apparatus, server and storage medium
CN110931027A (zh) * 2018-09-18 2020-03-27 北京三星通信技术研究有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
CN112767963A (zh) * 2021-01-28 2021-05-07 歌尔科技有限公司 一种语音增强方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
JP2011203759A (ja) 2011-10-13
KR20050050534A (ko) 2005-05-31
EP1536414A2 (en) 2005-06-01
EP1536414A3 (en) 2007-07-04
CA2485800C (en) 2013-08-20
JP4986393B2 (ja) 2012-07-25
AU2004229048A1 (en) 2005-06-09
KR101099339B1 (ko) 2011-12-26
BRPI0404602A (pt) 2005-07-19
JP5147974B2 (ja) 2013-02-20
US7447630B2 (en) 2008-11-04
CA2485800A1 (en) 2005-05-26
RU2373584C2 (ru) 2009-11-20
US20050114124A1 (en) 2005-05-26
CN101887728B (zh) 2011-11-23
CN1622200A (zh) 2005-06-01
RU2004131115A (ru) 2006-04-10
CN1622200B (zh) 2010-11-03
JP5247855B2 (ja) 2013-07-24
CA2786803C (en) 2015-05-19
MXPA04011033A (es) 2005-05-30
JP2011209758A (ja) 2011-10-20
EP2431972A1 (en) 2012-03-21
JP2005157354A (ja) 2005-06-16
EP1536414B1 (en) 2012-05-23
CA2786803A1 (en) 2005-05-26
EP2431972B1 (en) 2013-07-24

Similar Documents

Publication Publication Date Title
CN101887728B (zh) 多传感语音增强方法
CN100583909C (zh) 移动设备上多传感语音增强的装置
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
CN101606191B (zh) 使用语音状态模型的多传感语音增强
CN101199006B (zh) 使用先验无噪声语音的多传感语音增强方法和系统
CN1584984B (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
CN106663446A (zh) 知晓用户环境的声学降噪
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.
JP3939955B2 (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法
Elbaz et al. End to end deep neural network frequency demodulation of speech signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111123

Termination date: 20191126