CN1559067A - 用于信号内容检测的概率网络 - Google Patents

用于信号内容检测的概率网络 Download PDF

Info

Publication number
CN1559067A
CN1559067A CNA02818839XA CN02818839A CN1559067A CN 1559067 A CN1559067 A CN 1559067A CN A02818839X A CNA02818839X A CN A02818839XA CN 02818839 A CN02818839 A CN 02818839A CN 1559067 A CN1559067 A CN 1559067A
Authority
CN
China
Prior art keywords
value
probability
probable value
initial
estimator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA02818839XA
Other languages
English (en)
Other versions
CN1238831C (zh
Inventor
穆拉特・埃伦
穆拉特·埃伦
姆・利哈乔夫
马克西姆·利哈乔夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN1559067A publication Critical patent/CN1559067A/zh
Application granted granted Critical
Publication of CN1238831C publication Critical patent/CN1238831C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种方法和装置,其使用概率网络来估计概率值并将这些概率值组合为总的概率值,每个概率值代表至少部分信号表示了内容的概率,这些内容比如话音活动。本发明可通过使用一些概率估计结果并抛弃其他概率估计结果,而使自身与特定系统和/或信号特征符合。

Description

用于信号内容检测的概率网络
技术领域
本发明一般地涉及概率网络,更特别地涉及实现检测信号内容的概率网络。
背景技术
承载了内容的模拟信号和数字位流信号可以使用电流、电磁辐射(无线电波和光波)、声波以及其他的传输和存储装置作为内容载体,所述内容例如声音、图像和传真图案。例如,当发送者的话音信号通过电话线、光纤电缆、蜂窝电话传输天线以及扬声器传播时,电话系统可在单个连接中使用多种载体。无论载体是什么,信号的特定间隔可以表示内容,而信号的其他间隔或特征仅表示有载体存在,而不包括或叠加有任何内容。有时,将信号包含内容的部分与信号不包含内容的部分分隔是有好处的。
话音活动检测(VAD)和数据压缩是依赖于将信号内容部分与非内容部分分隔的技术的例子。根据存在话音活动或语音流的方向,扬声器电话或蜂窝电话系统使用VAD来切换信号传输的进行和中断。在用于口述和转录的麦克风及数字录音机中,在噪声抑制系统中以及在语音合成器、语音激活应用和语音识别产品中,也可以使用VAD。通过防止记录和传输那些不包含话音活动的不需要的信号或数字位流,VAD被使用来节省数据存储空间和传输带宽。
VAD通常依赖于对信号的一个或多个属性的测量来估计在信号的间隔中何时有话音活动。例如,能级是这样的信号属性,其可以使用信号的电压电平的均方根来测量,以估计信号的哪个间隔包含话音活动。同样的能级测量可以被用在估计存在话音活动的不同方法中。例如,授予Cason的美国专利No.6,249,757指出了一种VAD系统,其使用两个信号滤波器来提供通信信号中的总能量和噪声基底之间的差值。将该信号被划分为若干个帧以用于谱分析。如果总能量和噪声基底之间的差值超过阈值,那么就检测到话音活动。授予Mekuria的美国专利No.6,023,674指出了一种周期检测器,其从信号提取声调(pitch)频率并且使用非线性信号处理块来确定语音音轨。
有很多种方法使用能量测量和/或其他信号属性来估计信号中存在有话音活动。能级估计、过零(zero-crossing)估计以及回波消除是公知的估计或帮助估计信号中存在话音活动的方法。音调检测机制(tone detectionmechanism,DTMF)的音调分析,通过排除产生错误的VAD检测的DTMF音调,可以用来帮助估计存在话音活动。信号斜率分析、信号平均方差分析、相关系数分析、纯谱分析和其他方法可以被用来估计话音活动。对于检测话音活动,每种VAD方法都有不足,这取决于实现这种方法的应用和被处理的信号。
数据压缩是另一种依赖于信号内容检测的技术。数据压缩正日益被使用来减少存储或传输数字数据所需的位数。例如,用于图像或电影数字表示的JPEG和MPEG标准,允许多种数据压缩方案使用紧凑标记来表示图片空的或重复的部分。这通常节省非压缩图像所需存储空间和传输带宽的很大一部分。
虽然使用VAD检测载波信号中话音活动的间隔,以及为数据压缩而检测信号的可压缩部分是使用信号内容检测的应用的两个例子,后者比如静音压缩记录(Silence Compression Record),但是还有许多其他可以使用本发明的应用,例如,分辨随机无线电波中的通信模式,搜索随机数据的模式以及计算设备间的通信同步。
附图说明
图1是包含内容间隔的模拟信号的图形化表示;
图2是包含内容间隔的数字位流的图形化表示;
图3是适于本发明使用的计算设备的框图;
图4是信念网络的图形化表示;
图5是图4的信念网络的图形化表示,其中从网络中去掉了一些变量并添加了一个变量;
图6是本发明一个装置实施例的框图;
图7是本发明一个组合器实施例的框图;
图8是本发明的话音活动检测装置的框图;
图9是本发明第一方法实施例的流程图;
图10是本发明第二方法实施例的流程图;
图11是本发明第三方法实施例的流程图;
图12是一种机器可读介质的图形化表示,其具有的指令用于执行本发明的一个或多个方法和/或装置。
具体实施方式
在这里说明了一种使用概率网络对信号内容的间隔进行检测的方法和装置,该概率网络可以在运行时进行配置。
根据本发明的一个方面,概率网络包括贝叶斯信念网络(Bayes beliefnetwork)。贝氏网络表示一个系统子部分状态之间的概率关系。状态能够进行变化,所以被称为节点或变量。信念网络可以图像化为有向无环图(acyclic directed graph),其中变量是图形中的节点,这些节点由代表各变量间关系的直线或弧线连接。与信念网络中每个变量相关的是概率分布的集合。使用条件概率符号,变量“x”的概率分布的集合,可以用p(x|n)表示,其中“p”表示概率分布,“n”表示变量“x”的一个或多个直接前趋(predecessor)或“双亲”(parent)。双亲是与变量“x”相连接、并且对x的概率状态施加影响的任何其他变量。如下读出表达式p(x|n):“给定x的直接前趋n时,变量x的概率分布。”
概率分布明确了变量间关系的强度。例如,如果n是x的双亲,并且n有两个状态(例如,“true(真)”和“false(假)”),那么与n相关的是单一概率分布p(n|φ),与x相关的是两个概率分布p(x|nTRUE)和p(x|nFALSE)。概率分布可以是在前或在后的。在前的概率分布指在新数据被输入到网络中之前的概率分布,而在后的概率分布指在新数据被输入到网络之后的概率分布。
在比如用于VAD和数据压缩的方法和装置的应用中,可以实现决策理论和概率推理。可以采用概率贝叶斯信念网络(“网络”)的变体作为决定工具。给定网络中其他相关变量的数据,网络能够为计算该网络中的变量集合的概率分布提供直观的推理。在具有多个部分(步骤、状态和/或模块)的实际方法或设备中,可以采用网络来描述若干部分之间的概率关系,并对来自其他部分的行为、状态和/或输入使用概率推理而对一个或多个部分做出决定。
本发明使用概率网络来检测、决定和/或估计(“检测”)在至少部分信号中是否存在内容。内容是任何被信号或载体(“信号”)的间隔、属性和/或特征(总称为“部分”)承载、包括或叠加的数据、样式、主观上有意义的信号属性和/或主观上有意义的信号特征。
在概率网络中可以组合进多种用于检测信号内容的方法和/或模块(“估计器”)。即使在运行时,也能对网络进行调整,以使估计器启动和/或禁止。于是,通过仅启动一定数量的估计器并在概率上对它们进行组合,来比任何单个估计器或固定的一组估计器更加精确地检测内容的存在,该网络可以被用于改善内容检测技术,比如VAD和数据压缩。或者,通过启动所有估计器,但是仅从估计器选择一些概率值用在网络中,而丢弃其他的概率值,本发明也可以改善内容检测。本发明的网络可以通过启动一些估计器并禁止其他的估计器,而在运行时手动地配置、或自动地使自己符合系统和/或信号条件。
除了在运行时使一定数目的估计器容易被启动或禁止以符合系统和/或信号的特征外,该网络还允许向网络增加任意数目的新估计器。例如,新估计器可以包括进行内容检测的硬件插入模块、软件模块和/或算法。被添加到网络中的新估计器可以是对公知的内容检测模块的改进版本,或可以是还未发明的内容检测方法和模块。
只要是每个估计器能够对信号中的内容存在进行估计并能够将估计结果传递到网络,具有众多物理和功能特征的估计器都可以被本发明的网络所使用。一般,估计结果可以是概率值。一些估计器可以如同切换开关一样来工作,该切换开关具有对应于信号中存在内容的概率为100%的“开”状态,和对应于概率为0%的“关”状态。应该注意的是,概率通常被表述为整数0和1之间的值,其中0等于概率为0%,1等于概率为100%。如果事件的概率为p,那么反概率即不发生该事件的概率表述为(1-p)。例如,发生的概率值为0.6(60%)的事件的反概率值(不发生的概率)为0.4(40%)。
在使用有效的概率推理来组合来自所有被启动的估计器的初始概率估计结果时,本发明对信号中是否存在内容做出决定,这通常比仅仅对初始概率估计结果进行平均要更复杂。该网络可以考虑一个或多个正被处理的信号的部分表示了内容的在前的概率。
已经使用C计算机编程语言的各个版本和Matlab,在自动语音识别和静音压缩记录应用的框架内采用了本发明,Matlab是一种计算机编程环境语言。本发明也已经在56300 Motorola DSP芯片上实现。
图1示出了承载了内容的无线信号的例子。调幅(AM)无线电波在载波的幅度变化中承载了比如话音活动的内容100。内容间隔100可以由没有内容的间隔102分隔开。调频(FM)无线电波在载波的频率变化中承载了比如话音活动的内容104。内容间隔104可以由没有内容的间隔106分隔开。
图2示出了数字位流,其中内容200由高、低位的有序序列表示。没有内容的间隔202可以散布在具有内容的间隔200中。虽然图1、2示出了承载内容的信号的具体例子,但是本发明可以适用于任何承载内容的信号。
图3示出了适于实现本发明一些实施例的计算机系统。计算机系统300包括处理器302、存储器304和存储装置306。处理器302访问存储装置306上的数据,包括计算机程序。此外,处理器302将计算机程序转移到存储器304,并执行已驻留于存储器的程序。本领域的普通技术人员将意识到,适于实现本发明的计算机系统可以包括附加的或不同的部件。其他设备也可以使用本发明,包括蜂窝电话、扬声器电话、手持个人数字助理和自然语言处理器。
图4示出了以多树(poly-tree)400表示的单一连接的贝叶斯信念网络,多树400具有变量“x1”402、“x2”404、“x3”406、“xn”408和变量“x5”410。因为变量x1 402、x2 404、x3 406和xn 408每一个都与公共变量x5 410有单独的链接,但在它们自身之间没有多重连接,所以网络被称为单一连接的。信念网络表示对于网络中n个变量的全联合概率分布(full joint probability distribution)。所以,给定其余变量的数据时,该网络允许获得网络中任意变量的概率。换句话说,在信念网络中对任何变量的查询都能够从全联合概率中计算得到。
能够使用等式(1)能够计算全联合概率分布:
p ( x 1 , . . . , x n ) = Π i = 1 n p ( x i | π i ) - - ( 1 )
其中,x1...xn是n个相互独立的变量,给定它们在信念网络中对应的在前值π1...πn;πi是xi的直接前趋(双亲)集合;如果πi不是空集,那么项p(xii)是变量xi的条件概率,否则是xi的边际概率。变量x5 410总的概率值取决于变量x1 402、x2 404、x3 406和xn 408单独的概率分布,这是由于在所图示的多树400中这些变量是变量x5 410的直接前趋。当给定每个单独的前趋变量的概率分布时,分别考虑的变量x5 410单独的概率表示为p(x5|x1)、p(x5|x2)、p(x5|x3)以及p(x5|xn)。给定所有前趋变量的联合概率,变量x5 410的概率查询表示为p(x5|x1,x2,x3,xn)。
图5示出了子集信念网络500新的查询(该子集图示为图4的单连通贝叶斯信念网络的一个多树子集),该子集信念网络具有被边际化(被移除或禁止)的变量“x1”502、“x3”506和“xn”508,以及向查询添加的新变量“x4”507。出于计算上仅考虑初始网络的子集和/或扩展,可以向信念网络添加或从中移除变量,而不改变初始网络的结构。
新查询中变量的概率分布能够通过首先计算子集网络500的完全联合概率而得到。变量x5 510总的概率值现在取决于变量x2 504和x4 507的单独的概率分布,这是由于在所图示的多树500中这些变量是变量x5 510的直接前趋。给定从每个单独的前趋变量得到的概率分布,变量x5 510单独的概率表示为p(x5|x2)和p(x5|x4)。给定从被启动的前趋变量x2和x4得到的联合概率分布,子集信念网络500中变量x5 510的概率分布是p(x5|x2,x4)。
图6示出了本发明的一个实施例,其中,在概率网络600中估计器602、604和606被耦合到组合器610。通常,能有n个估计器,每个都基于它们自己对一个或多个信号属性的测量来估计信号内容的概率。在该实施例中,估计器602、604和606每个都估计正被测量的信号部分表示了内容的初始概率,并可以使用任何可以使用的方法来获得初始概率估计结果,这包括测量至少部分信号的一个或多个属性。虽然所图示的实施例600有三个估计器,但是可以使用任意数目的估计器,包括一个估计器。在一个实施例中,组合器610直接将来自每个估计器的每个初始概率值组合为总的概率值。在其他实施例中,组合器610可以仅在每个初始概率值被在前概率因子加权后再对初始概率值进行组合。在前概率因子可以是来自一个或多个估计器的在前初始概率值,或可以表示来自组合器610的在前的总概率值。
网络600所获得的总的概率值可以与预建立的或运行时建立的阈值进行比较,以决定正被处理的信号部分是否代表内容。或者,总的概率值可以被用作另一个设备、过程和/或概率网络的输入。
在一个实施例中,假定给定变量c的值时x1,...,xn是n个相互独立的变量,使用等式(2)对图6所示的网络可以获得信号内容“c”总的概率值。
p ( c | x 1 , . . . , x n ) = Π i = 1 n [ p ( c | xi ) ] * ( 1 - p ( s ) ) n - 1 Π i = 1 n [ p ( c | xi ) ] * ( 1 - p ( s ) ) n - 1 + Π i = 1 n [ 1 - p ( c | xi ) ] * p ( s ) n - 1 - - - ( 2 )
其中,n是被启动单元的数目,p(c)是在前的总概率值。换句话说,p(c)是在不知道其他信息时信号内容的概率。如上所讨论的,信号内容总的概率p(c|x1,...,xn)可以与阈值进行比较以决定当前的信号间隔是否包含内容。当模块被启动或禁止时,等式(2)中n的值改变,但是该等式可以被编码成很容易地在运行时进行变化。或者,等式(2)可以被编码,以通常使用相同数目的n个模块。在一个实施例中,使用等式(2)的组合器610可以组合仅来自被启动的估计器的初始概率值。因此,例如如果估计器1602被禁止或它的数据就是不可用,那么条件概率p(c|x1)能够被设定为0.5,这自动地禁止了估计器x1对关于内容是否出现在部分信号中总的判决的贡献。表示中性概率的值0.5取消了估计器在等式(2)中的贡献。网络可以通过仅使用来自被启动的估计器的数据,仅使用可用的数据(由此忽视不具有可用数据的估计器)和/或主动地启动和禁止多个估计器,使其自己符合特定系统或特定信号的特征。等式(2)允许很容易地添加新的估计器,而不改变作为基础的概率网络600。而且,每个估计器对信号内容总概率的贡献,能够很容易地通过设定第i个估计器的条件概率p(c|xi)的上、下限进行控制。这是一个更通常的方法,其中只要上限等于下限且等于0.5时,该估计器就被禁止,只要上限被设定为1且下限被设定为0时,那么该估计器就是完全启动的。
图7示出了本发明新的组合器700的一个实施例,根据等式(2),组合器700部分地基于至少一个在前概率值,将来自估计器的初始概率值x、y和z组合为当前的总概率值p(c|x,y,z)。在前的总概率值“P”可以被用作在前概率值。在这个实施例中,第一反转器702将根据自估计器引导到组合器700的初始概率值x、y和z获得初始反概率值(1-x)、(1-y)和(1-z)。第二反转器704获得在前的总概率值P的取反(1-P)。第一模块706获得包括初始概率值的乘积的第一量Q1。第二模块708获得包括将在前反概率值进行乘方的第二量Q2,指数等于初始概率值的数目。在这个实施例中,估计器的数目减一(n-1)被用作指数。第三模块710获得第三量Q3,其包括初始反概率值的乘积。第四模块712获得包括将在前初始概率值进行乘方的第四量Q4,指数等于初始概率值的数目。在这个实施例中,估计器的数目减一(n-1)被用作指数。第五模块714将第一量Q1与第二量Q2相乘得到第五量Q5。第六模块716将第一量Q3与第二量Q4相乘得到第六量Q6。第七模块718通过将第五量Q5除以第五量Q5与第六量Q6的和,而获得总的概率值p(c|x1...xn)。
虽然为了便于说明,一直用术语“模块”来描述组合器700,但一个或多个电路、元件、寄存器、处理器、软件子程序或任何它们的组合都可以来替代一个、几个或所有的模块。
图8是出了本发明的一个实施例——VAD装置800,其使用具有实现等式(2)的组合器802的概率网络。该组合器接收来自三个估计器的输入:基于能量单元(E)804、过零单元(Z)806和回波消除器信息单元(I)808。基于能量单元(E)804可以从输入信号所估计的能级特征E来计算话音活动概率值p(c|E)。过零单元(Z)806可以从输入信号所估计的过零率Z来计算话音活动概率值p(c|Z)。回波消除器信息单元(I)808如果可用的话,则可以基于来自回波消除器的信息来计算话音活动概率值p(c|I),回波消除器可以使用远端话音活动、近端话音活动和/或收敛来辨别驻留回波和真正的近端话音活动间隔。
组合器802使用等式(2)将初始概率值p(c|E)、p(c|Z)和p(c|I)组合为总的概率值p(c|E,Z,I)。根据来自单元E 804、Z 806和I808的初始概率值,实体p(c|E,Z,I)是信号内容“c”总的条件概率。虽然在其他实施例中,组合器802在等式(2)中能够使用在前的概率值,但是在本实施例中图示的VAD组合器802假设了中性的在前概率,将一般的等式(2)中使用的在前概率值设定为值0.5(50%)。在一般的等式(2)中,消去中性概率,得到简化的一般等式(3):
p ( c | x 1 , . . . , x n ) = Π i = 1 n [ p ( c | x i ) ] Π i = 1 n p ( c | x i ) + Π i = 1 n [ 1 - p ( c | x i ) ] - - ( 3 )
当来自单元E 804、Z 806和I808的初始概率值被插入等式(3)时,总的概率值p(c|E,Z,I)由下式给出。
p = ( c | E , Z , I ) = p ( c | E ) * p ( c | Z ) * p ( c | I ) p ( c | E ) * p ( c | Z ) * p ( c | I ) + ( 1 - p ( c | E ) ) * ( 1 - p ( c | Z ) ) * ( 1 - p ( c | I ) ) - - ( 4 )
在示出的VAD装置800的实施例中,反转器810和第一模块812每个都接收来自估计器E 804、Z 806和I808的初始概率估计结果。反转器810从初始概率值获得初始反概率值(1-p(c|E))、(1-p(c|Z))和(1-p(c|I)),并将初始反概率值传递到第三模块814。然而,初始概率值是信号至少部分代表内容的概率,初始反概率值是没有部分信号代表内容的概率。每个初始反概率值可以通过从整数1中减去每个初始概率值得到,概率值以整数0和1之间包含的值表示。
第一模块812通过将每个初始概率值相乘到一起而得到第一乘积Π1:Π1=p(c|E)×p(c|Z)×p(c|I)。第二模块814通过将每个初始反概率值相乘到一起而得到第二乘积Π2:Π2=(1-p(c|E))×(1-p(c|Z))×(1-p(c|I))。第三模块816通过将第一乘积Π1除以第一乘积Π1与第二乘积Π2的和,得到总的概率值:p(c|E,Z,I)=Π1/(Π12)。
由图示的实施例进行的话音活动检测例子中,基于能量单元(E)804将初始概率值p(c|E)0.6传给组合器802,过零单元(Z)806将初始概率值p(c|Z)0.7传给组合器802,回波消除器信息单元(I)808将初始概率值p(c|I)0.4传给组合器802。组合器802的反转器810得到与每个初始概率值相对应的初始反概率值。对于基于能量单元804,初始反概率值为(1-p(c|E))=0.4;对于过零单元806,初始反概率值为(1-p(c|z))=0.3;对于回波消除器信息单元808,初始反概率值为(1-p(c|I))=0.6。第一模块812将每个初始概率值相乘到一起而得到第一乘积:Π1=p(c|E)×p(c|Z)×p(c|I)=0.6×0.7×0.4=0.168。第二模块814将每个初始反概率值相乘到一起而得到第二乘积:Π2=(1-p(c|E))×(1-p(c|Z))×(1-p(c|I))=0.4×0.3×0.6=0.072。第三模块816将第一乘积Π1除以第一乘积Π1与第二乘积Π2的和,得到代表信号中话音活动可能性的总概率值:p(c|E,Z,I)=Π1/(Π12)=0.168/(0.168+0.072)=0.7。该总概率值可以不受限制的方式被使用来检测话音活动是否存在,这包括将总概率值与阈值相比较。
在组合器802或网络中可以包括优化器818以使网络符合正被处理的特定系统或特定信号。优化器818是改善了信号内容检测的任何装置。优化器818可以过滤来自估计器的概率值、或启动和/或禁止估计器以对内容检测进行优化。例如,优化器818可以通过抛弃偏离所有初始概率值的平均太多的异常初始概率值,而发挥作用。在其他变体中,优化器818可以自己测量正被估计器处理的同一信号的一个或多个属性,并且基于对输入的比较进行优化。在另外的变体中,优化器818可以与利用总概率值的实体相链接,并基于最终结果对内容检测进行优化。例如,优化器818可以通过试错地启动或禁止估计器,寻找没有话音剪裁(voice clipping)和其他错误的“干净”VAD结果。取决于所图示的3个话音活动估计器804、806和808在运行时的可用性、计算资源以及在其中使用VAD的框架,优化器818可以启动或限制一些或所有的估计器。由于估计器被组合到一个网络中,该网络能够在运行时被调整和优化来启动或禁止话音活动估计器而不用重构网络,所以其他的估计器也可以由优化器添加,并在运行时被配置。本发明的概率网络使图示的VAD装置800更加容忍话音活动估计器的初始概率值估计结果中的噪声。
尽管为了便于说明,一直用术语“模块”来描述组合器802,但是一个或多个电路、元件、寄存器、处理器、软件子程序或它们的任何组合都能够替代一个、几个或所有模块。
图9示出了本发明的第一方法实施例。估计初始概率值902,其代表至少部分信号表示了内容的概率,并使用概率网络将初始概率值组合为总的概率值904,其代表至少部分信号表示了内容的总概率。在一些实施例中,信号内容可以是音调或话音活动,比如语音、近端语音和远端语音。如所讨论的那样,内容也可以是图片、传真和任何其他重要的数据、信号属性或信号特征。可以通过测量信号属性或通过比如使用估值设备的任何其他方式,可以获得对初始概率值的估计。可以使用多个估计器来进行估计,其中一些可以被启动,而另一些被禁止。在一个实施例中,只有来自被启动的估计器的初始概率值被组合到总概率值中。通过仅组合一些初始概率值或通过启动和/或禁止估计器对信号内容检测进行优化906可以被包括在方法中。
图10示出了本发明使用概率网络方法的第二方法实施例。概率网络可以使用概率比率。获得初始概率值1002,每个值代表至少部分信号表示了内容的概率。从每个对应的初始概率值获得反概率值1004。每个初始反概率值是所有信号部分都未表示内容的概率。通过将所有的初始概率值相乘到一起而获得第一乘积Π1 1006。通过将每个初始反概率值相乘到一起而得到第二乘积Π2 1008。通过将第一乘积Π1除以第一乘积Π1与第二乘积Π2的和,得到总的概率值1010。通过仅使用一些初始概率值或通过启动和/或禁止估计器对内容检测进行优化1012可以被包括在方法中。
图11示出了本发明使用包括至少一个在前概率的概率网络方法的第三方法实施例。获得初始概率值的量“n”1102,还获得初始反概率值1104。每个概率值是至少部分信号表示了内容的概率,而每个反概率值包括所有信号部分都未表示内容的概率。获得在前概率值1106,还获得或计算在前概率值的取反1108。将初始概率值相乘到一起而获得第一量1110。将在前反概率值进行乘方来产生第二量1112,指数包括初始概率值的数目,比如为初始概率值的数目n减去1:(n-1)。将初始反概率值相乘到一起而得到第三量1114。将在前概率值进行乘方产生第四量1116,指数包括初始概率值的数目,比如为初始概率值的数目n减去1:(n-1)。第一和第二量相乘得到第五量1118。第三和第四量相乘得到第六量1120。通过将第五量除以第五量与第六量的和得到当前的总概率值1122。通过仅使用一些初始概率值或通过启动和/或禁止估计器对内容检测进行优化1124可以被包括在方法中。
图12示出了包括提供指令1204的机器可读介质1202的装置,指令1204使机器对至少部分信号表示了内容的初始概率值进行估计,并将每个初始概率值组合为总的概率值。该装置还可以包括指令,其基于例如使用一个或多个估计器对信号属性进行测量,来估计初始概率值。为了使装置符合特定系统或信号特征,指令可以使估计器或其他概率估计装置启动或禁止。在一些实施例中,指令包括使用概率网络来获得总的概率值。概率网络可以使用概率比率,其中可以包括至少一个在前概率值。指令也可以包括为每个初始概率值获得对应的初始反概率值的指令、通过将所有初始概率值相乘到一起而获得第一乘积的指令、将初始反概率值相乘到一起而获得第二乘积的指令、通过将第一乘积除以第一乘积与第二乘积的和得到总的概率值的指令。该装置还可以包括指令,其启动和/或禁止估计器或其他概率估计装置来对信号内容检测进行优化。
这些方法以它们最基本的形式进行说明,但是在不背离基本范围的情形下,可以进行添加和删除。本领域普通技术人员应该清楚的是,可以进行许多进一步的修改和变通。具体的实施例不是被提供来对本发明进行限制的,而是对其进行说明。本发明的范围不是由以上提供的特定例子确定,而仅由权利要求确定。

Claims (84)

1.一种方法,包括:
估计至少部分信号表示了内容的概率值;以及
将每个概率值组合为总的概率值。
2.如权利要求1的方法,其中,所述内容是从以下组成的组中选出的话音活动:音调、语音、近端话音活动和远端话音活动。
3.如权利要求1的方法,其中,所述内容是用于数据压缩的数据。
4.如权利要求1的方法,还包括基于对至少一个信号属性的测量,来估计概率值。
5.如权利要求1的方法,还包括使用至少一个估计器来估计概率值。
6.如权利要求5的方法,还包括使用多个估计器对至少一个信号属性进行测量,在所述多个估计器中,一些估计器被启动而其他的估计器被禁止。
7.如权利要求6的方法,其中,将每个概率值组合为总的概率值包括将来自被启动的估计器的概率值进行组合。
8.如权利要求1的方法,其中,将每个概率值组合为总的概率值包括使用概率网络进行组合。
9.如权利要求8的方法,还包括使用这样的概率网络,所述概率网络使用概率比率。
10.如权利要求9的方法,其中,使用概率网络包括,将至少部分信号表示了内容的概率值的乘积,除以将至少部分信号表示了内容的概率值的乘积加上所有信号部分都未表示内容的概率值的乘积的和。
11.如权利要求9的方法,还包括
为每个概率值获得对应的反概率值;
通过将所有概率值相乘到一起而获得第一乘积;
通过将所有反概率值相乘到一起而获得第二乘积;以及
通过将所述第一乘积除以所述第一乘积与所述第二乘积的和而获得总的概率值。
12.如权利要求11的方法,其中,每个概率值是至少部分信号表示了内容的概率,每个反概率值是所有信号部分都未表示内容的概率。
13.如权利要求11的方法,其中,每个反概率值是通过从值1中减去每个概率值而获得,所述每个概率值以0到1之间所包括的值表示。
14.如权利要求1的方法,所述将每个概率值组合为总的概率值还包括至少部分基于至少一个在前概率值进行组合。
15.如权利要求14的方法,所述组合还包括至少部分基于在前的总概率值进行组合。
16.如权利要求15的方法,还包括使用中性的在前总概率值来获得总的概率值。
17.如权利要求14的方法,还包括使用概率网络。
18.如权利要求14的方法,还包括使用这样的概率网络,所述概率网络使用概率比率。
19.如权利要求18的方法,其中使用概率网络包括,将由在前概率因子加权的概率值的乘积,除以由在前概率因子加权的概率值的乘积与由在前概率因子加权的反概率值的乘积的和。
20.如权利要求18的方法,还包括:
估计初始概率值;
获得初始反概率值;
获得在前的总反概率值;
获得包括初始概率值的乘积的第一量;
获得包括将在前的总反概率值进行乘方的第二量;
获得包括所有初始反概率值的乘积的第三量;
获得包括将在前的总概率值进行乘方的第四量;
将所述第一量与所述第二量相乘获得第五量;
将所述第三量与所述第四量相乘获得第六量;以及
通过将所述第五量除以所述第五量与所述第六量的和而获得当前的总概率值。
21.如权利要求20的方法,其中,每个概率值是至少部分信号表示了内容的概率,每个反概率值包括所有信号部分都未表示内容的概率。
22.如权利要求20的方法,其中,每个反概率值是通过从值1中减去对应的概率值而获得,所述概率值以0到1之间所包括的值表示。
23.如权利要求1的方法,还包括通过使用概率网络来组合概率值而对内容检测进行优化,所述概率网络选择要组合的概率值。
24.如权利要求23的方法,还包括抛弃偏离所有概率值的平均值的概率值。
25.如权利要求1的方法,还包括使用估计器来估计至少部分信号表示了内容的概率值,并且启动和/或禁止一些估计器以对内容检测进行优化。
26.如权利要求25的方法,还包括基于信号类型来启动和/或禁止一个或多个估计器。
27.如权利要求25的方法,还包括基于是否存在至少一个信号特征来启动和/或禁止一个或多个估计器。
28.一种装置,包括:
至少一个估计器,估计至少部分信号表示了内容的初始概率值;以及
组合器,将每个初始概率值组合为总的概率值。
29.如权利要求28的装置,其中,所述内容是从以下组成的组中选出的话音活动:音调、语音、近端语音和远端语音。
30.如权利要求28的装置,其中,所述内容是用于数据压缩的数据。
31.如权利要求28的装置,其中,所述至少一个估计器通过测量信号的属性来估计初始概率值。
32.如权利要求28的装置,所述至少一个估计器还包括多个估计器,其中一些估计器被启动而其他的估计器被禁止。
33.如权利要求32的装置,所述组合器仅对来自被启动的估计器的初始概率值进行组合。
34.如权利要求28的装置,还包括概率网络。
35.如权利要求28的装置,所述组合器还包括一个或多个模块,所述一个或多个模块:
为每个初始概率值获得对应的初始反概率值;
获得包括由初始概率值相乘到一起的乘积的第一乘积;
获得包括由初始反概率值相乘到一起的乘积的第二乘积;
通过将所述第一乘积除以所述第一乘积与所述第二乘积的和而获得总的概率值。
36.如权利要求28的装置,其中,每个初始概率值是至少部分信号表示了内容的概率,每个初始反概率值是所有信号部分都未表示内容的概率。
37.如权利要求28的装置,其中,每个初始反概率值是通过从值1中减去每个初始概率值而获得,所述每个初始概率值以0到1之间所包括的值表示。
38.如权利要求28的装置,所述组合器至少部分基于至少一个在前概率值,将每个初始概率值组合为当前时间间隔的总的概率值。
39.如权利要求38的装置,其中,所述至少一个在前概率值是在前的总概率值。
40.如权利要求39的装置,其中,中性概率值被用于所述在前的总概率值。
41.如权利要求39的装置,所述组合器还包括一个或多个模块,所述模块:
获得若干个初始反概率值;
获得在前反概率值;
获得包括初始概率值的乘积的第一量;
获得包括将所述在前反概率值进行乘方的第二量;
获得包括初始反概率值的乘积的第三量;
获得包括将所述在前概率值进行乘方的第四量;
将所述第一量与所述第二量相乘获得第五量;
将所述第三量与所述第四量相乘获得第六量;以及
通过将所述第五量除以所述第五量与所述第六量的和而获得总的概率值。
42.如权利要求41的装置,其中,每个概率值是至少部分信号表示了内容的概率,每个反概率值包括所有信号部分都未表示内容的概率。
43.如权利要求41的装置,其中,每个反概率值是通过从值1中减去每个概率值而获得,所述每个概率值以0到1之间所包括的值表示。
44.如权利要求28的装置,还包括优化内容检测的优化器。
45.如权利要求44的装置,所述优化器通过使用概率网络来组合概率值而检测内容,所述概率网络可选择要组合的概率值。
46.如权利要求45的装置,所述优化器抛弃偏离所有概率值的平均值的概率值。
47.如权利要求44的装置,所述优化器启动和/或禁止一些估计器来优化对内容的检测。
48.如权利要求47的装置,所述优化器基于信号类型来启动和/或禁止一个或多个估计器。
49.如权利要求47的装置,所述优化器基于是否存在至少一个信号特征来启动和/或禁止一个或多个估计器。
50.一种装置,包括:
提供指令的机器可读介质,所述指令使机器对至少部分信号表示了内容的初始概率值进行估计,并且使机器将每个初始概率值组合为总的概率值。
51.如权利要求50的装置,其中,所述内容是从以下组成的组中选出的话音活动:音调、语音、近端语音和远端语音。
52.如权利要求50的装置,其中,所述内容是用于数据压缩的数据。
53.如权利要求50的装置,还包括基于对信号属性的测量来估计初始概率值的指令。
54.如权利要求50的装置,还包括基于使用至少一个估计器对信号属性的测量,来估计初始概率值的指令。
55.如权利要求54的装置,还包括使用多个估计器测量属性的指令,在所述多个估计器中,一些估计器被启动而其他的估计器被禁止。
56.如权利要求55的装置,还包括仅对来自被启动的估计器的初始概率值进行组合的指令。
57.如权利要求50的装置,还包括使用概率网络获得总的概率值的指令。
58.如权利要求57的装置,还包括使用这样的概率网络的指令,所述概率网络使用概率比率。
59.如权利要求58的装置,还包括使用概率网络方法的指令,所述概率网络方法包括:获得初始反概率值;以及通过将初始概率值的乘积除以将初始概率值的乘积与初始反概率值的乘积相加的和而获得总的概率值。
60.如权利要求58的装置,还包括用于如下操作的指令:
为每个初始概率值获得对应的初始反概率值;
通过将所有初始概率值相乘到一起而获得第一乘积;
通过将初始反概率值相乘到一起而获得第二乘积;以及
通过将所述第一乘积除以所述第一乘积与所述第二乘积的和而获得总的概率值。
61.如权利要求50的装置,还包括通过使用概率网络来组合概率值而对内容检测进行优化的指令,所述概率网络选择要组合的概率值。
62.如权利要求61的装置,还包括抛弃偏离所有概率值的平均值的概率值的指令。
63.如权利要求50的装置,还包括这样的指令:使用估计器来估计至少部分信号表示了内容的概率值,并且启动和/或禁止一些所述估计器以对内容检测进行优化。
64.如权利要求63的装置,还包括基于信号类型来启动和/或禁止一个或多个估计器的指令。
65.如权利要求63的装置,还包括基于是否存在至少一个信号特征来启动和/或禁止一个或多个估计器的指令。
66.一种话音活动检测器,包括:
至少一个话音活动估计器,估计至少部分信号表示了话音活动的初始概率值;以及
组合器,将每个初始概率值组合为总的概率值。
67.如权利要求66的话音活动估计器,其中,所述话音活动是从以下组成的话音活动组中选出的:音调、语音、近端语音和远端语音。
68.如权利要求66的话音活动估计器,其中,至少一个话音活动检测器是从以下组成的组中选出的:基于能量的话音活动估计器、过零话音活动估计器和回波消除器话音活动估计器。
69.如权利要求66的话音活动估计器,所述至少一个话音活动估计器通过测量所述信号的属性来估计初始概率值。
70.如权利要求66的话音活动估计器,所述至少一个话音活动估计器还包括多个估计器,其中一些估计器被启动而其他的估计器被禁止。
71.如权利要求70的话音活动估计器,所述组合器仅对来自被启动的估计器的初始概率值进行组合。
72.如权利要求66的话音活动估计器,还包括概率网络。
73.如权利要求66的话音活动估计器,所述组合器还包括一个或多个模块,所述模块:
为每个初始概率值获得对应的初始反概率值;
获得包括由初始概率值相乘到一起的乘积的第一乘积;
获得包括由初始反概率值相乘到一起的乘积的第二乘积;
通过将所述第一乘积除以所述第一乘积与所述第二乘积的和而获得总的概率值。
74.如权利要求66的话音活动估计器,所述组合器至少部分基于至少一个在前概率值,将每个初始概率值组合为当前时间间隔的总的概率值。
75.如权利要求74的话音活动估计器,其中,所述至少一个在前概率值是在前的总概率值。
76.如权利要求75的话音活动估计器,其中,中性概率值的值被用于所述在前的总概率值。
77.如权利要求75的话音活动估计器,所述组合器还包括一个或多个模块,所述模块:
获得若干个初始反概率值;
获得在前反概率值;
获得包括初始概率值的乘积的第一量;
获得包括将所述在前反概率值进行乘方的第二量;
获得包括初始反概率值的乘积的第三量;
获得包括将所述在前概率值进行乘方的第四量;
将所述第一量与所述第二量相乘获得第五量;
将所述第三量与所述第四量相乘获得第六量;以及
通过将所述第五量除以所述第五量与所述第六量的和,得到总的概率值。
78.如权利要求66的话音活动估计器,还包括改进话音活动检测的优化器。
79.如权利要求78的话音活动估计器,所述优化器通过使用概率网络来组合概率值而检测话音活动,所述概率网络可选择要组合的概率值。
80.如权利要求79的话音活动估计器,所述优化器抛弃偏离所有概率值的平均值的概率值。
81.如权利要求78的话音活动估计器,所述优化器启动和/或禁止一些话音活动估计器来优化对话音活动的检测。
82.如权利要求81的话音活动估计器,所述优化器基于信号类型来启动和/或禁止一个或多个话音活动估计器。
83.如权利要求81的话音活动估计器,所述优化器基于是否存在一个信号特征来启动和/或禁止一个或多个话音活动估计器。
84.如权利要求81的话音活动估计器,所述优化器通过试错来启动和/或禁止一个或多个话音活动估计器,以获得最优的话音活动检测。
CNB02818839XA 2001-09-25 2002-09-05 用于信号内容检测的概率网络 Expired - Fee Related CN1238831C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/963,177 2001-09-25
US09/963,177 US7136813B2 (en) 2001-09-25 2001-09-25 Probabalistic networks for detecting signal content

Publications (2)

Publication Number Publication Date
CN1559067A true CN1559067A (zh) 2004-12-29
CN1238831C CN1238831C (zh) 2006-01-25

Family

ID=25506850

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB02818839XA Expired - Fee Related CN1238831C (zh) 2001-09-25 2002-09-05 用于信号内容检测的概率网络

Country Status (5)

Country Link
US (1) US7136813B2 (zh)
EP (1) EP1433163A1 (zh)
CN (1) CN1238831C (zh)
TW (1) TWI292902B (zh)
WO (1) WO2003028008A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071304A1 (en) * 2003-09-29 2005-03-31 Biotronik Mess-Und Therapiegeraete Gmbh & Co. Apparatus for the classification of physiological events
US20060035593A1 (en) * 2004-08-12 2006-02-16 Motorola, Inc. Noise and interference reduction in digitized signals
US20070239408A1 (en) * 2006-03-07 2007-10-11 Manges Joann T Threat matrix analysis system
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
US8180886B2 (en) * 2007-11-15 2012-05-15 Trustwave Holdings, Inc. Method and apparatus for detection of information transmission abnormalities
US9538141B2 (en) 2007-12-31 2017-01-03 Alcatel Lucent Method and apparatus for controlling presentation of content at a user terminal
US20090168752A1 (en) 2007-12-31 2009-07-02 Jonathan Segel Method and apparatus for distributing content
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
TWI408673B (zh) * 2010-03-17 2013-09-11 Issc Technologies Corp Voice detection method
US9066104B2 (en) 2011-01-14 2015-06-23 Google Inc. Spatial block merge mode
US9531990B1 (en) 2012-01-21 2016-12-27 Google Inc. Compound prediction using multiple sources or prediction modes
US8737824B1 (en) 2012-03-09 2014-05-27 Google Inc. Adaptively encoding a media stream with compound prediction
US9628790B1 (en) 2013-01-03 2017-04-18 Google Inc. Adaptive composite intra prediction for image and video compression
US9374578B1 (en) 2013-05-23 2016-06-21 Google Inc. Video coding using combined inter and intra predictors
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9306678B2 (en) * 2014-04-24 2016-04-05 Comcast Cable Communications, Llc Data interpretation with noise signal analysis
US20230421952A1 (en) * 2020-12-03 2023-12-28 Dolby Laboratories Licensing Corporation Subband domain acoustic echo canceller based acoustic state estimator

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
FR2677828B1 (fr) 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5465317A (en) 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
JP3484757B2 (ja) 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5570556A (en) * 1994-10-12 1996-11-05 Wagner; Thomas E. Shingles with connectors
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6347297B1 (en) 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109036471B (zh) * 2018-08-20 2020-06-30 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Also Published As

Publication number Publication date
US20030061040A1 (en) 2003-03-27
TWI292902B (en) 2008-01-21
EP1433163A1 (en) 2004-06-30
US7136813B2 (en) 2006-11-14
CN1238831C (zh) 2006-01-25
WO2003028008A1 (en) 2003-04-03

Similar Documents

Publication Publication Date Title
CN1238831C (zh) 用于信号内容检测的概率网络
CN101958119B (zh) 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
Mitra et al. State-dependent routing on symmetric loss networks with trunk reservations. I
CN1116744C (zh) 在时域回声消除过程中存在单音时避免假收敛的系统和方法
CN1111973C (zh) 改进了的数字蜂窝应用的回波消除器
CN1901659A (zh) 通过亮度和色度暂态改进来增强视频清晰度和对比度
CN103765790A (zh) 通信网络中的信标选择
CN1350727A (zh) 纯延迟估计
CN101471825B (zh) 利用声望模型的p2p流媒体系统节点有效性的检测方法
CN104918077A (zh) 一种视频传输方法、装置及系统
Wang et al. Deep joint source-channel coding for multi-task network
CN1278975A (zh) 自适应最大似然序列检测的系统和方法
AU7999598A (en) A process for reducing interference in the communication signal transmission
CN1084979C (zh) 对运行在同一个信道中的信号进行分离的方法和装置
CN113923743A (zh) 电力地下管廊的路由选择方法、装置、终端及存储介质
CN1960556A (zh) 迭代信道预测
CN112182188A (zh) 一种基于知识图谱的问答方法及装置、存储介质
CN111882119A (zh) 基于sa-bp神经网络的电池soh预测优化方法
CN113923691B (zh) 基于5g信令数据的客户感知评估方法及装置
CN114826459B (zh) 基于跨域推理的频谱地图精确构建方法
CN115955469A (zh) 一种流媒体数据分发传输方法、系统及相关设备
CN114003727A (zh) 一种知识图谱路径的检索方法及其系统
CN110880957B (zh) 声波通信方法及装置、电子设备
CN111432447A (zh) 消息传输方法、系统、终端设备及存储介质
CN112102150B (zh) 自适应短视频内容增强系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060125

Termination date: 20110905