CN101199006B - 使用先验无噪声语音的多传感语音增强方法和系统 - Google Patents

使用先验无噪声语音的多传感语音增强方法和系统 Download PDF

Info

Publication number
CN101199006B
CN101199006B CN2006800195287A CN200680019528A CN101199006B CN 101199006 B CN101199006 B CN 101199006B CN 2006800195287 A CN2006800195287 A CN 2006800195287A CN 200680019528 A CN200680019528 A CN 200680019528A CN 101199006 B CN101199006 B CN 101199006B
Authority
CN
China
Prior art keywords
signal
variance
air transmitted
value
noiseless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800195287A
Other languages
English (en)
Other versions
CN101199006A (zh
Inventor
刘自成
A·艾斯洛
Z·张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101199006A publication Critical patent/CN101199006A/zh
Application granted granted Critical
Publication of CN101199006B publication Critical patent/CN101199006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Time-Division Multiplex Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Meter Arrangements (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

一种使用备选传感器信号、空气传导麦克风信号来确定备选传感器信道响应的方法和装置。然后,该信道响应和无噪声语音值的先验概率分布被用于估计无噪声语音值。

Description

使用先验无噪声语音的多传感语音增强方法和系统
发明背景
语音识别和语音传输的共同问题是语音信号受加性噪声的污染。特别是因其他说话者的语音所导致的污染已被证实是难以检测和/或校正的。
近来,已研发出一种系统,试图利用另一备选传感器(诸如骨传导麦克风)和一空气传导麦克风来移去噪声。该系统的训练使用三个训练信道:噪声备选传感器训练信号、噪声空气传导麦克风训练信号、和无噪声(clean)空气传导麦克风训练信号。这些信号的每一个都被转换成一个特征域。噪声备选传感器信号和噪声空气传导麦克风信号的特征被组合成表示噪声信号的单个向量。无噪声空气传导麦克风信号的特征形成单个无噪声向量。这些向量然后用于训练噪声向量和无噪声向量之间的映射。一当经训练,这些映射便用于由噪声备选传感器测试信号和噪声空气传导麦克风测试信号形成的噪声向量。这个映射生成一无噪声向量。
当测试信号的噪声条件与训练信号的噪声条件不匹配时这一系统是次最佳的,因为这些映射是针对训练信号的噪声条件设计的。
发明概述
一种方法和装置使用备选传感器信号和空气传导麦克风信号来确定备选传感器的信道响应。然后,该信道响应和无噪声语音值的先验慨率分布被用于估计无噪声语音值。
附图简述
图1是可实践本发明实施例的一个计算环境的框图。
图2是可实践本发明实施例的另一个可选的计算环境的框图。
图3是本发明的一个实施例的一般语音处理系统的框图。
图4是在本发明的一个实施例情况下的用于增强语音的系统的框图。
图5是在本发明的一个实施例情况下的用于增强语音的流程框图。
图6是在本发明的另一个实施例情况下的用于增强语音的流程框图。
发明实施例的详细说明
图1说明了可实现本发明实施例的一个适合的计算系统环境100的示例。计算系统环境100仅是适合的计算系统环境的一个示例而且并不旨在建议对本发明的使用或功能性的范围作任何限制。计算系统环境100也不应被解释为关于示例的操作环境100所说明的任何一个组件或其组合具有任何依赖性或要求。
本发明可与许多其它通用或专用计算系统环境或配置一起工作。适合于本发明使用的公知的计算系统、环境、和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费类电子产品、网络PC、微型计算机、大型计算机、电话系统、包括任何上述系统或装置的分布式计算环境,以及类似计算环境。
本发明可在计算机可执行指令,诸如由计算机执行的程序模块的一般环境下描述。通常,程序模块包括执例程、程序、对象、组件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。本发明设计为在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中程序模块可位于包括内存存储装置的本地和远程计算机存储器媒体中。
参考图1,用于实现本发明实施例的示例系统包括以计算机100形式的通用计算装置。计算机100的组件可包括,但不限于,处理单元120、系统存储器130、和将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是若干种总线结构的任何一种,包括存储器总线或存储器控制器、外设总线以及使用各种总线结构的任一种的局部总线。作为示例,但非限制,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、视频电子协会(VESA)本地总线、以及外围组件互联(PCI)总线(也称之为Mezzanine总线)。
计算机100通常包括各种计算机可读媒体。计算机可读媒体可以是可由计算机100访问的任何可供使用的媒体并包括易失性和非易失性媒体,可移动和不可移动媒体。作为示例,但非限制,计算机可读媒体可以包括计算机存储媒体和通信媒体。计算机存储媒体包括以任何存储信息的方法和技术实现的易失性和非易失性、可移动和不可移动媒体,这些信息诸如计算机可读指令、数据结构、程序模块和其 它数据。计算机存储媒体包括,但不限于,RAM、ROM、EEPROM、快闪存储器、或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它存储装置、或可被用于存储所希望的信息即刻被计算机100访问的任何其它媒体。通信媒体通常体现为计算机可读指令、数据结构、程序模块和在诸如载波或其它传输机制的已调制数字信号中的其它数据并包括任何信息传递媒体。术语“已调制数字信号”是指在信号中以对信息进行编码的这种方式设置或改变了该信号的一个或多个特征的一种信号。作为示例,但非限制,通信媒体包括诸如有线网络或直接连线连接的有线媒体,而无线媒体诸如声学、RF、红外和其它无线媒体。上述任何的组合也应该包括在计算机可读媒体的范围内。
系统存储器130包括诸如只读存储器(ROM)131和随机读写存储器(RAM)132的易失性和非易失性存储器形式的计算机存储媒体。基本输入输出系统133(BIOS)通常存储在ROM131中,它包含了基本例程,帮助在诸如启动期间在计算机100元件之间传递信息。RAM132通常包含可由处理单元120直接访问和/或当前正由处理单元120操作的数据和/或程序模块。作为示例,但非限制,图1例示了操作系统134、应用程序135、其他程序模块136、和程序数据137。
计算机100还包括其它可移动/不可移动、易失性/非易失性计算机存储媒体。仅作为示例,图1示出了硬盘驱动器141对不可移动、非易失性磁性可移动、非易失性磁盘152的读写,对可移动、非易失性磁盘152的读写,以及对诸如CD ROM的可移动、非易失性光盘156或其它光学媒体的读写。可用于示例操作环境的其它可移动/不可移动、易失性/非易失性计算机存储媒体包括,但不限于磁带盒盘、快闪存储器卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140的不可移动存储器接口连接至系统总线121,而磁盘驱动器151和光盘驱动器155通常由诸如接口150的可移动存储器接口连接至系统总线121。
上述和图1所示的驱动器和它们相关联的计算机存储媒体提供了关于计算机可读指令、数据结构、程序模块和用于计算机110的其它数据的存储。在图1中,例如,硬盘驱动器141被示为存储操作系统144、应用程序145、其他程序模块146、和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其他程序模块136、和程序数据137相同或不同。操作系统144、应用程序145、其他程序 模块146、和程序数据147在这里被给以不同的标号是为了说明它们至少是不同的副本。
用户可通过诸如键盘126、话筒163、和指点装置161(例如鼠标)、滚动球或触摸垫之类输入装置把命令或信息输入到个人计算机110中。其它输入装置(未示出)可包括操纵杆、游戏垫、卫星天线、扫描器等等。这些和其它输入装置经常通过耦合到系统总线的用户输入接口160连到处理单元120,但也可以被其它接口和总线结构,诸如平行端口、游戏端口或通用串行总线(USB)所连接。监视器191或其它类型显示装置也可通过接口,例如视频接口190连到系统总线121。除了监视器外,计算机还可包括其它外围输出设备,例如扬声器197和打印机196,它们可通过输出外围接口195被连接。
计算机110利用与一个或多个远程计算机(例如远程计算机180)的逻辑连接而工作在联网络环境中。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等装置或其它公共网络节点、并且典型地包括了与计算机110相关的上述许多或全部元件。图1描述的逻辑连接包括一局域网(LAN)171和一广域网(WAN)173,但也可包括其它网络。这种连网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。
当使用在LAN连网环境中时,计算机110通过网络接口或适配器170连到LAN 171。当使用在WAN连网环境中时,计算机110典型地包括一调制解调器172或用于在广域网173上,例因特网上,建立通信的其它装置。调制解调器172,可内置或外置,经用户输入接口160或其它合适的机制与系统总线121相连。在网络环境中,所述的与计算机110相关或部分相关的程序模块可存储在远程存储器存储装置中。作为示例,但非限制,图1说明的远程应用程序185被示为驻留在远程计算机180内。将会理解所示的连接是示例性的,也可使用在计算机间建立通信链路的其它装置。
图2是移动装置200的框图,这是一个示例性计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206、以及用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中,上述提到的组件通过适当的中总线210耦合用于互相通信。
存储器204实现为非易失性电子存储器,诸如具有后备电池模块(未示出) 的随机读写存储器(RAM)使得存储在存储器204中的信息在移动装置200的普通电源断电时不至于丢失。存储器204较佳地分配为用于程序执行得可寻址存储器,然而存储器204另一部分较佳地用于存储体,诸如模拟磁盘驱动器上的存储。
存储器204包括一个操作系统212、各应用程序214以及一个对象存储体216。在操作期间,操作系统212较佳地由处理器202从存储器204中执行。在一个较佳实施例中,操作系统212是WINDOWS
Figure 2006800195287_0
CE品牌的操作系统,可从微软公司购得。操作系统212较佳地设计为用于移动装置,并实现通过一组曝露的应用程序接口和方法可由应用程序214使用的数据库特征。对象存储体216中的对象由应用程序214和操作系统212维护,至少部分地响应于对曝露的应用程序接口和方法的调用。
通信接口208代表了允许移动装置200发送信息的众多装置和技术。这些装置可包括有线和无线调制解调器、卫星接收机和调谐器等。移动装置200也可直接连接到计算机以在它们之间交换数据。在这种情况下,通信接口208可以是红外收发机或串行或并行通信连接,所有这些都能发送流信息。
输入/输出组件206包括各种输入装置,诸如触敏屏、按钮、滚动条和话筒,以及包括音频产生器、振动装置和显示器在内的各种输出装置。上述罗列的装置仅是示例且不必都在移动装置上存在。另外,其它输入/输出装置也可以在本发明的范围内被附加到移动装置或可在移动装置找到。
图3提供了本发明各实施例的基本框图。在图3中,扬声器300生成语音信号(X.),该语音信号由一个空气传导传感器和另一个备选传感器检测。各种备选传感器的示例包括测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨(诸如颚骨)或在用户耳内的骨传导传感器以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器。空气传导麦克风304是一种通常用于将音频空气波转换成电信号的麦克风。
空气传导麦克风304也接受由一个或多个噪声源产生的环境噪声308(Z)。取决于环境噪声的类型和环境噪声的水平,环境噪声308也可以由另一个备选传感器306检测。然而,在本设施例的情况下,备选传感器306对环境噪声的灵敏度性通常要比空气传导麦克风304差。因而,由备选传感器306产生的备选传感器信号316(B)通常要比由空气传导麦克风304产生的空气传导麦克风信号318(Y)包 括的噪声少。虽然备选传感器306对环境噪声的灵敏度较差,但却产生相同的传感器噪声320(W)。
从扬声器300到备选传感器信号316的路径可以被建模为具有信道响应H的信道。从环境噪声308到备选传感器信号316的路径可以被建模为具有信道响应G的信道。
备选传感器信号316(B)和空气传导麦克风信号318(Y)被提供给无噪声信号估计器322,用于估计一无污染噪声信号324。无噪声信号估计324提供给语音处理328。无噪声信号估计324可以或者是经滤波的时域信号或者是傅里叶变换向量。如果无噪声信号估计324是时域信号,语音处理328可以采取收听者、语音编码系统或与语音识别系统的形式。如果无噪声信号估计324是傅里叶变换向量,语音处理328典型的将是语音识别系统、或某种傅里叶反变换将傅里叶变换向量转换为波形。
在直接滤波增强322中,备选传感器信号316和麦克风信号318被转换到用于估计无噪声语音的频域。如图4所示,备选传感器信号316和空气传导麦克风信号318分别被提供给模数转换器404和414,以产生一数字值序列,该序列分别由帧构成器406和414分组成值的帧。在一个实施例中,A/D转换器404和414以16KHz和每采样16比特采样模拟信号。由此创建每秒32千字节的语音数据,而帧构成器406和414每10毫秒创建一新的相应帧,每帧包括20毫秒宽的数据。
由帧构成器406和416提供的每个相应数据帧分别用快速傅里叶变换(FFT)408和418转换成频域。
备选传感器信号和空气传导麦克风信号的频域值被提供给无噪声信号估计器420,以使用频域值估计无噪声语音信号324。
在某些实施例的情况下,使用傅里叶反变换422将无噪声语音信号324转换回时域。这就创建了无噪声语音信号324的时域版本。
本发明的各实施例提供了用于估计无噪声语音信号324的直接滤波技术。在直接滤波的情况下,备选传感器的信道响应的最大似然估计由最小化与信道响应相关的函数确定。这些估计然后通过最小化与信道响应相关的函数而被用于确定无噪声语音信号的最大似然估计。
在本发明的一个实施例情况下,对应于由备选传感器检测的背景语音的信道 响应G被认为等于零。这就导致在无噪声语音信号和空气传导麦克风信号及备选传感器信号之间的一个模型:
y(t)=x(t)+z(t)         式1
b(t)=h(t)*x(t)+w(t)    式2
其中,y(t)是空气传导麦克风信号,b(t)是备选传感器信号,z(t),是环境噪声  w(t)是备选传感器噪声,而h(t)是对与备选传感器关联的无噪声语音信号的信道响应。因此,在式2中,备选传感器信号被建模为无噪声语音的经滤波版本,其中滤波器具有冲击响应h(t)。
在频域,式1和式2可表达为:
Yt(k)=Xt(k)+Zt(k)         式3
Bt(k)=Ht(k)Xt(k)+Wt(k)    式4
其中,符号Yt(k),表示围绕时间中心t的信号帧的第k次频率分量。这一符号也应用于Xt(k)、Zt(k)、Ht(k)、Wt(k)、和Bt(k)。在下面的讨论中,为清楚起见,忽略了对频率分量中k的引用。然而,本领域的熟练技术人员将认识到以下执行的计算是基于每个频率分量的。
在这个实施例情况下,噪声z(t)和w(t)的实部和虚部被建模为独立零均值的高斯分布如下:
Z t = N ( O , σ z 2 ) 式5
W t = N ( O , σ w 2 ) 式6
其中σz 2是噪声Zt的方差,而σw 2是噪声Wt的方差。Ht也被建模为高斯分布如下:
H t = N ( H 0 , σ H 2 ) 式7
其中H0是信道响应的均值而σH 2是信道响应的方差。
给定这些模型参数后,无噪声语音值Xt和信道响应Ht的概率由如下条件概率描述:
p(Xt,Ht|Yt,Bt,H0,σz 2,σw 2,σH 2)             式8
它正比于;
p(Yt,Bt|Xt,Ht,σz 2,σw 2)p(Ht|H0,σH 2)p(Xt)    式9
式9又等于:
p(Yt|Xt,σz 2)p(Bt|Xt,Ht,σw 2)p(Ht|H0,σH 2)p(Xt)
式10
在一个实施例中信道响应的先验概率p(Ht|H0,σH 2)被忽略了而且其余概率的每一个被处理为具有无噪声语音的先验概率的高斯分布p(Xt),p(Xt)被处理为具有方差σx,t 2的零均值高斯分布如下:
X t = N ( 0 , σ x , t 2 ) 式11
使用这一简化和式10,在t时对于帧Xt的最大似然估计可通过最小化下式确定:
F t = 1 2 σ z 2 | Y t - X t | 2 + 1 2 σ w 2 | B t - H t X t | 2 + | X t | 2 2 σ x , t 2 式12
由于式12是关于Xt最小化的,可取关于Xt的偏导数以决定最小化函数的Xt值。具体说, ∂ F ∂ X t = 0 给出:
X t = σ x , t 2 ( σ w 2 Y t + σ z 2 H t * B t ) σ x , t 2 ( σ w 2 + σ z 2 | H t | 2 + σ z 2 σ w 2 ) 式13
其中Ht *表示Ht的复共轭而|Ht|表示复数值Ht的幅度。信道响应Ht是从整个发音通过最小化下式而确定的:
F = Σ t = 1 T ( 1 2 σ z 2 | Y t - X t | 2 + 1 2 σ w 2 | B t - H t X t | 2 ) 式14
将式13中计算的Xt表达式代入式14,将偏导数设为零: ∂ F ∂ X t = 0 , 并且接着假设H在所有时间帧T上是常数,给出解为:
H = Σ t = 1 T ( σ z 2 | B t | 2 - σ w 2 | Y t | 2 ) ± ( Σ t = 1 T ( σ z 2 | B t | 2 - σ w 2 | Y t | 2 ) ) 2 + 4 σ z 2 σ w 2 | Σ t = 1 T B t * Y t | 2 2 σ z 2 Σ t = 1 T B t * Y t
式15
在式15中,H的估计要求以如下形式计算在最后T帧上的若干求和式:
S ( T ) = Σ t = 1 T s t 式16
其中,st是(σz 2|Bt|2w 2|Yt|2)或Bt *Yt
用这公式,第一帧(t=1)与最后一帧(t=T)。然而,在其它实施例中,较佳的是最后帧对H估计的比老的帧贡献更多。一种达到这点的技术是“指数老化”,这时式16的求和式被替换为:
S ( T ) = Σ t = 1 T c T - t s t 式17
其中c≤1。如果c=1,则式17等效于式16。如果c<1,则最后一帧被加权为1,最后帧以前的帧被加权为c(即,其贡献小于最后帧),且第一帧用cT-1加权。(即,其贡献显著小于最后帧)。例如,令c=99和T=100,则对第一帧的加权仅是0.9999=0.37。
在一个实施例情况下,式17被递归估计为:
S(T)=cS(T-1)+sT      式18
由于式18自动对老帧的加权较少,不必使用固定的窗口长度,最后T帧的数据不必存储在存储器中。而是仅在先前帧处的S(T-1)的值需要被存储。
使用式18,式15变为:
H T = J ( T ) ± ( J ( T ) ) 2 + 4 σ z 2 σ w 2 | K ( T ) | 2 2 σ z 2 K ( T ) 式19
其中:
J ( T ) = cJ ( T - 1 ) + ( σ z 2 | B T | 2 - σ w 2 | Y T | 2 ) 式20
K ( T ) = cK ( T - 1 ) + B T * Y T 式21
在式20和式21中的c值提供了用于计算当前值J(T)和K(T)的过去帧的数目的有效长度。具体说,该有效长度给定为:
L ( T ) = Σ t = 1 T c T - t = Σ i = 0 T - 1 c i = 1 - c T 1 - c 式22
渐近的有效长度给定为:
L = lim T → ∞ L ( T ) = 1 1 - c 式23
或的等效地,
c = L - 1 L 式24
因而,使用式24,可设置c以达到式19中的不同有效长度。例如,为了达到200帧的有效长度,c被设置为:
c = 199 200 = 0.995 式25
一旦使用式15已估计了H,它可被用于式13中替代所有的Ht以确定在每一时间帧t处Xt的单独值。或者另一方面,也可用式19来估计每一时间帧t处的Ht,每一帧处的Ht值然后可用于式13中以确定Xt
图5提供了使用式13和式15估计针对一发音的无噪声语音值的本发明的一个方法的流程框图。
在步骤500,空气传导麦克风信号和备选传感器信号的帧的频率分量是跨整个发音被捕获的。
在步骤502,环境噪声σz 2和备选传感器噪声σw 2的方差可分别从空气传导麦克风信号和备选传感器信号的帧确定,它们是在当说话者不说话的期间在发音的早期捕获的。
该方法通过识别备选传感器信号的低能量部分而确定何时说话者不说话,因为备选传感器噪声的能量比由备选传感器信号捕获的语音信号小得多。在其它实施例中,已知的语音检测技术可应用于空气传导麦克风信号以识别何时说话者在说话。在说话者被认为不说话的期间,Xt假设为零且来自空气传导麦克风或备选传感器的任何信号都被认为是噪声。这些噪声值的采样是从非语音帧采集的并被用于估计空气传导信号和备选传感器信号中噪声的方差。
在步骤504,确定无噪声语音先验概率分布的方差,σx,t 2。在一个实施例情况下,该方差被计算为:
σ x , t 2 = 1 ( m + k + 1 ) Σ d = t - k t + m | Y d | 2 - σ v 2 式26
其中|Yd|2是空气传导信麦克风信号的能量而求和是在一组语音帧上执行的,该组语音帧包括当前语音帧前的k个语音帧和当前语音帧后的m个语音帧。为了避免方差σx,t 2为负值或零值,本发明的某些实施例使用(0.01·σv 2)作为σx,t 2的最低可能值。
在另一个实施例中,实时实现是使用仅依赖于前面语音帧中的无噪声语音信号的方差的平滑技术实现的,使得:
σ x , t 2 = p max ( | Y d | 2 - σ v 2 , α | Y d | 2 ) + ( 1 - p ) σ x , t - 1 2 式27
其中σx,t-1 2是来自包含语音的最后帧的无噪声语音先验概率分布的方差,p是范围为0到1之间的平滑因子,α是小常数,而max(|Yd|2v 2,α|Yd|2)表示选择|Yd|2v 2和α|Yd|2中的较大者以确保σx,t 2为正值。在一特定实施例情况下,平滑因子具有值0.08而α=0.01。
在步骤506,跨发音的所有帧的备选传感器信号和空气传导麦克风信号的值被用于使用上述式15来确定H的值。在步骤508,H的这一值与空气传导麦克风 信号和备选传感器信号在每个时间帧处的各个值一起被用于使用上述式13确定每个时间帧的增强或减噪的语音值。
在其它实施例中,不是使用发音的所有帧用式15来确定H的单个值,而是对每个帧使用式19来确定Ht。Ht的值然后被用于使用上述式13对帧计算Xt
在本发明的第二实施例中,备选传感器对环境噪声的信道响应被认为是非零的。在这一实施例中,空气传导麦克风信号和备选传感器信号被建模为:
Yt(k)=Xt(k)+Zt(k)                    式28
Bt(k)=Ht(k)Xt(k)+Gt(k)Zt(k)+Wt(K)    式29
其中备选传感器对环境噪声的信道响应是非零值Gt(k)。
无噪声语音Xt的最大似然比可通过最小化目标函数而找到,导致无噪声语音的下式成立:
X t = σ x , t 2 ( σ w 2 Y t + σ z 2 ( H - G ) * ( B t - GY t ) ) σ x , t 2 ( σ w 2 + σ z 2 | H - G | 2 ) + σ z 2 σ w 2 式30
为了求解式30,必须知道方差σx,t 2、σw 2、和σz 2以及信道响应值H和G。图6提供了用于识别这些值并确定对于每一帧的增强语音值的流程框图。
在步骤600,发音帧被标识出用户在哪里没说话。这些帧然后分别被用于确定备选传感器和环境噪声的方差σw 2、和σz 2
为了识别用户在哪里没说话,可检查备选传感器信号。由于备选传感器信号将产生比噪声小得多的背景信号值,如果备选传感器信号的能量较低,可假设发言者没在说话。
在以确定了环境噪声和备选传感器噪声的方差后,图6的方法在步骤602继续,在这里使用上述式26或式27确定无噪声语音先验概率的方差σx,t 2。如上所述,仅包含语音的这些帧被用于确定先验无噪声语音的方差。
在步骤602,标识了用户在那里没说话那些帧被用于估计备选传感器对于环境噪声的信道响应G。具体说,可确定如下:
G = Σ t = 1 D Y * B Σ t = 1 D Y * Y 式31
其中D是用户在没说话的帧数。式31中,假设G在经过发音的所有帧时保持常数且不再依赖于时间帧t。式31中,对t的求和可用关于上述式16-25讨论 的指数衰减计算代替。
在步骤606,备选传感器对于背景语音的信道响应的值G用于确定备选传感器对于无噪声语音的信道响应。具体说,H可计算为:
H = G + Σ t = 1 T ( σ v 2 | B t - GY t | 2 - σ w 2 | Y t | 2 ) ± ( Σ t = 1 T ( σ v 2 | B t - GY t | 2 - σ w 2 | Y t | 2 ) ) 2 + 4 σ v 2 σ w 2 | Σ t = 1 T ( B t - GY t ) * Y t | 2 2 σ v 2 Σ t = 1 T ( B t - GY t ) * Y t
式32
式32中,对t的求和可用关于上述式16-25讨论的递归指数衰减计算代替。在H已在步骤606确定后,式30可用于确定所有帧的无噪声语音值。在某些实施例情况下,使用式30中,项Bt-GYt可用( 
Figure S2006800195287D00122
)Bt代替,因为已发觉精确确定背景语音和其在备选传感器中的泄漏之间的相位差是困难的。
如果递归指数衰减计算被用于替代式32中的求和,可对每个时间帧确定一个单独的Ht值并可把它用作式30中的H。
虽然本发明已参考特定的实施例作了描述,本领域的技术人员将认识到可在形式和细节方面做出改变而不脱离本发明的精神和范围。

Claims (13)

1.一种用于确定表示无噪声语音信号一部分的无噪声语音值的估计的方法,所述方法包括:
使用除了空气传导麦克风以外的一个备选传感器来生成备选传感器信号,其中所述备选传感器是测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨或在用户耳内的骨传导传感器、以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器之一;
使用所述空气传导麦克风来生成空气传导麦克风信号;
使用备选传感器信号和空气传导麦克风信号来估计所述备选传感器信号的信道响应的值;以及
使用所述信道响应和所述无噪声语音值的先验概率来确定所述无噪声语音值。
2.如权利要求1所述的方法,其特征在于,所述无噪声语音值的先验概率具有由方差定义的一种分布。
3.如权利要求2所述的方法,进一步包括基于所述空气传导麦克风信号来确定所述分布的方差。
4.如权利要求3所述的方法,其特征在于,基于所述空气传导麦克风信号确定所述方差包括形成所述空气传导麦克风信号的多个帧的能量值之和。
5.如权利要求4所述的方法,其特征在于,空气传导麦克风信号的各帧全部包含语音。
6.如权利要求3所述的方法,其特征在于,确定所述分布的方差进一步包括基于所述空气传导麦克风信号的当前帧以及和所述无噪声语音信号的前一帧相关联的分布的方差来确定与所述无噪声语音信号的当前帧相关联的方差。
7.如权利要求6所述的方法,其特征在于,确定所述分布的方差进一步包括限制所述分布的方差的值使得所述分布的方差总是超过某个最小值。
8.一种用于确定表示无噪声语音信号一部分的无噪声语音值的估计的系统,所述系统包括:
用于使用除了空气传导麦克风以外的一个备选传感器来生成备选传感器信号的装置,其中所述备选传感器是测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨或在用户耳内的骨传导传感器、以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器之一;
用于使用所述空气传导麦克风来生成空气传导麦克风信号的装置;
用于使用备选传感器信号和空气传导麦克风信号来估计所述备选传感器信号的信道响应的值的装置;以及
用于使用所述信道响应和所述无噪声语音值的先验概率来确定所述无噪声语音值的装置。
9.如权利要求8所述的系统,其特征在于,所述无噪声语音值的先验概率具有由方差定义的一种分布。
10.如权利要求9所述的系统,其特征在于,进一步包括用于基于所述空气传导麦克风信号来确定所述分布的方差的装置。
11.如权利要求10所述的系统,其特征在于,用于基于所述空气传导麦克风信号确定所述方差的装置包括用于形成所述空气传导麦克风信号的多个帧的能量值之和的装置。
12.如权利要求10所述的系统,其特征在于,用于确定所述分布的方差的装置进一步包括用于基于所述空气传导麦克风信号的当前帧以及和所述无噪声语音信号的前一帧相关联的分布的方差来确定与所述无噪声语音信号的当前帧相关联的方差的装置。
13.如权利要求12所述的系统,其特征在于,用于确定所述分布的方差的装置进一步包括用于限制所述分布方差的值使得所述分布的方差总是超过某个最小值的装置。
CN2006800195287A 2005-06-20 2006-06-06 使用先验无噪声语音的多传感语音增强方法和系统 Active CN101199006B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
US11/156,434 2005-06-20
PCT/US2006/022058 WO2007001768A2 (en) 2005-06-20 2006-06-06 Multi-sensory speech enhancement using a clean speech prior

Publications (2)

Publication Number Publication Date
CN101199006A CN101199006A (zh) 2008-06-11
CN101199006B true CN101199006B (zh) 2011-08-24

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800195287A Active CN101199006B (zh) 2005-06-20 2006-06-06 使用先验无噪声语音的多传感语音增强方法和系统

Country Status (14)

Country Link
US (1) US7346504B2 (zh)
EP (1) EP1891627B1 (zh)
JP (1) JP4975025B2 (zh)
KR (1) KR101422844B1 (zh)
CN (1) CN101199006B (zh)
AT (1) ATE476734T1 (zh)
AU (1) AU2006262706B2 (zh)
BR (1) BRPI0611649B1 (zh)
CA (1) CA2607981C (zh)
DE (1) DE602006015954D1 (zh)
MX (1) MX2007014562A (zh)
NO (1) NO339834B1 (zh)
RU (1) RU2407074C2 (zh)
WO (1) WO2007001768A2 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622200A (zh) * 2003-11-26 2005-06-01 微软公司 多传感语音增强方法和装置

Family Cites Families (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
EP0984661B1 (en) 1994-05-18 2002-08-07 Nippon Telegraph and Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducer part
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
WO1999060377A1 (en) 1998-05-19 1999-11-25 Spectrx, Inc. Apparatus and method for determining tissue characteristics
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
US6912287B1 (en) 1998-03-18 2005-06-28 Nippon Telegraph And Telephone Corporation Wearable communication device
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US7433484B2 (en) 2003-01-30 2008-10-07 Aliphcom, Inc. Acoustic vibration sensor
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7047047B2 (en) 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622200A (zh) * 2003-11-26 2005-06-01 微软公司 多传感语音增强方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2004-279768A 2004.10.07
JP特开平9-284877A 1997.10.31
Yanli Zheng,et al..Air- and bone-conductive integrated microphones for robust speech detection and enhancement.《2003 IEEE Workshop on Automatic Speech Recognition and Understanding, 2003.ASRU "03》.2003,249-254. *

Also Published As

Publication number Publication date
WO2007001768A3 (en) 2007-12-13
NO20075732L (no) 2008-03-17
NO339834B1 (no) 2017-02-06
RU2007147463A (ru) 2009-06-27
CA2607981A1 (en) 2007-01-04
DE602006015954D1 (de) 2010-09-16
EP1891627A4 (en) 2009-07-22
EP1891627B1 (en) 2010-08-04
AU2006262706B2 (en) 2010-11-25
CN101199006A (zh) 2008-06-11
KR20080018163A (ko) 2008-02-27
CA2607981C (en) 2014-08-19
WO2007001768A2 (en) 2007-01-04
EP1891627A2 (en) 2008-02-27
MX2007014562A (es) 2008-01-16
KR101422844B1 (ko) 2014-07-30
AU2006262706A1 (en) 2007-01-04
BRPI0611649A2 (pt) 2010-09-28
BRPI0611649B1 (pt) 2019-09-24
US7346504B2 (en) 2008-03-18
US20060287852A1 (en) 2006-12-21
ATE476734T1 (de) 2010-08-15
JP4975025B2 (ja) 2012-07-11
RU2407074C2 (ru) 2010-12-20
JP2008544328A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
CN101199006B (zh) 使用先验无噪声语音的多传感语音增强方法和系统
CN100583243C (zh) 多传感器语音增强的方法和装置
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
CN101606191B (zh) 使用语音状态模型的多传感语音增强
US7542900B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
CN106486131A (zh) 一种语音去噪的方法及装置
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.
KR20050000541A (ko) 잡음 감소와 관련된 불확실성을 결정하는 방법
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
US20030216914A1 (en) Method of pattern recognition using noise reduction uncertainty
CN115691473A (zh) 一种语音端点检测方法、装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150424

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150424

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.