CN101568957B

CN101568957B - 用于语音分段的方法和设备

Info

Publication number: CN101568957B
Application number: CN2006800568140A
Authority: CN
Inventors: R·杜; Y·陶; D·祝
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2012-05-02
Anticipated expiration: 2026-12-27
Also published as: KR20120008088A; CN101568957A; US20100153109A1; US20130238328A1; KR101140896B1; EP2100294A1; US8442822B2; KR20090094106A; JP2010515085A; EP2100294A4; JP5453107B2; WO2008077281A1; US8775182B2

Abstract

描述了用于语音分段的机器可读介质、方法、设备和系统。在一些实施例中，可确定模糊规则以区分语音段和非语音段。模糊规则的前件可包括输入变量和输入变量隶属关系。模糊规则的后件可包括输出变量和输出变量隶属关系。可从段提取输入变量的实例。可训练与输入变量隶属关系关联的输入变量隶属函数以及与输出变量隶属关系关联的输出变量隶属函数。可运算输入变量的实例、输入变量隶属函数、输出变量和输出变量隶属函数，以确定段是语音段还是非语音段。

Description

用于语音分段的方法和设备

背景技术

语音分段可以是将非结构化信息分类为语音段和非语音段的非结构化信息检索的步骤。各种方法可应用于语音分段。最常用的方法是从区分语音段和非语音段的媒体资源手动提取语音段。

附图说明

在附图中示出本文所述的本发明，这是为了举例而不是为了限制。为了图示的简洁和清楚起见，图中所示的元件不一定按比例绘制。例如，为了清楚起见，一些元件的尺寸可能相对于其它元件经过放大。此外，在认为适当的情况下，附图标记在附图中重复，以指明对应或相似的元件。

图1示出包括语音分段系统的计算平台的实施例。

图2示出语音分段系统的实施例。

图3示出模糊规则以及语音分段系统如何运算模糊规则来确定段是否为语音的实施例。

图4示出通过语音分段系统进行语音分段的方法的实施例。

具体实施方式

以下描述说明用于语音分段的方法和设备的技术。在以下描述中，提出了例如逻辑实现、伪代码、指定运算数的方式、资源划分/共享/重复实现、系统组件的类型和相互关系以及逻辑划分/综合选择等许多具体细节，以提供对本发明的更透彻理解。但是，即使没有这类具体细节也可实施本发明。在其它情况下，没有详细示出控制结构、门级电路和完整的软件指令序列，以免影响对本发明的理解。通过所包含的描述，本领域的技术人员将能够实现适当的功能性而无需过度实验。

说明书中“一个实施例”、“实施例”、“示例实施例”等提法指明所述的实施例可包括特定特征、结构或特性，但可能不一定每一个实施例都包括该特定特征、结构或特性。而且，这类词语不一定指同一个实施例。此外，在结合实施例来描述特定特征、结构或特性时，无论是否明确描述，均认为结合其它实施例来实现这种特征、结构或特性是处于本领域的技术人员的知识范围之内的。

本发明的实施例可通过硬件、固件、软件或者它们的任何组合来实现。本发明的实施例还可实现为存储于机器可读介质上的指令，所述指令可由一个或多个处理器读取和运行。机器可读介质可包括用于存储或传送机器(例如计算装置)可读形式的信息的任何机构。例如，机器可读介质可包括：只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪速存储器装置；电、光、声或其它形式的传播信号(例如载波、红外信号、数字信号等)等等。

包括语音分段系统121的计算平台10的实施例如图1所示。计算平台的示例可包括大型计算机、小型计算机、个人计算机、便携计算机、膝上型计算机以及用于收发和处理数据的其它装置。

计算平台10可包括一个或多个处理器11、存储器12、芯片组13、I/O装置14以及可能的其它组件。一个或多个处理器11在通信上经由一个或多个总线、如处理器总线与各种组件(例如存储器12)耦合。处理器11可实现为具有可运行代码的一个或多个处理核心的集成电路(IC)。处理器20的示例可包括

Core^TM、

Celeron^TM、

Pentium^TM、

Xeon^TM、

Itanium^TM体系结构，这些体系结构可从加利福尼亚州的圣克拉拉市的英特尔公司得到。

存储器12可存储将由处理器11运行的代码。存储器12的示例可包括例如以下半导体装置其中之一或者它们的组合：同步动态随机存取存储器(SDRAM)装置，RAMBUS动态随机存取存储器(RDRAM)装置、双倍数据速率(DDR)存储器装置、静态随机存取存储器(SRAM)和闪速存储器装置等。

芯片组13可提供处理器11、存储器12、I/O装置14以及可能的其它组件之间的一个或多个通信路径。芯片组13还可包括分别与上述组件进行通信的集线器。例如，芯片组13可包括存储控制器集线器、输入/输出控制器集线器以及可能的其它集线器。

I/O装置14可向计算平台10输入或者从计算平台10输出数据、如媒体数据。I/O装置14的示例可包括网卡、蓝牙装置、天线以及可能的用于收发数据的其它装置。

在图1所示的实施例中，存储器12还可包括实现为媒体资源120、语音分段系统121、语音段122和非语音段123的代码。

媒体资源120可包括音频资源和视频资源。媒体资源120可由例如I/O装置14、盘存储装置(未示出)和音频/视频装置(未示出)等各种组件来提供。

语音分段系统121可将媒体120分为多个媒体段，确定媒体段是语音段122还是非语音段123，并且将该媒体段标记为语音段122或者非语音段123。语音分段可用于各种情况。例如，语音分类和分段可用于音频-文本映射。在这种情况下，语音段122可经过音频-文本对齐，从而选择与语音段映射的文本。

语音分段系统121可使用模糊推理技术来区分语音段122和非语音段123。图2中提供更多细节。

图2示出语音分段系统121的实施例。语音分段系统121可包括模糊规则20、媒体分割逻辑21、输入变量提取逻辑22、隶属函数训练逻辑23、模糊规则运算逻辑24、解模糊化逻辑25、标记逻辑26以及可能的用于语音分段的其它组件。

模糊规则20可存储一个或多个模糊规则，它们可根据例如媒体120的特性和关于语音数据的先验知识等各种因素来确定。模糊规则可以是确定媒体段是语音还是非语音的语言规则，并且可采取各种形式、如“如果-则”形式。“如果-则”规则可包括前件部分(“如果”)和后件部分(“则”)。前件可指定获得后件的条件。

前件可包括指明媒体数据的各种特性的一个或多个输入变量。例如，输入变量可从包括如下各项的一组特征选取：高过零率比(HZCRR)、“低能量”帧的百分比(LEFP)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。后件可包括输出变量。在图2的实施例中，输出变量可以是语音似然。

下面可以是用于高SNR(信噪比)环境下的媒体的模糊规则的示例。

规则一：如果LEFP为高或者SFV为低，则语音似然为语音；以及

规则二：如果LEFP为低并且HZCRR为高，则语音似然为非语音。

下面可以是用于低SNR环境下的媒体的模糊规则的另一个示例。

规则一：如果HZCRR为低，则语音似然为非语音；

规则二：如果LEFP为高，则语音似然为语音；

规则三：如果LEFP为低，则语音似然为非语音；

规则四：如果SCV为高并且SFV为高且SRPV为高，则语音似然为语音；

规则五：如果SCV为低并且SFV为低且SRPV为低，则语音似然为非语音；

规则六：如果4Hz非常高，则语音似然为语音；以及

规则七：如果4Hz为低，则语音似然为非语音。

规则的每个语句可允许其中的部分隶属关系的可能性。换言之，规则的每个语句可以是输入变量或输出变量属于隶属关系的程度问题。在上述规则中，每个输入变量可采用定义为“低”和“高”的两个隶属函数。输出变量可采用定义为“语音”和“非语音”的两个隶属函数。应当理解，模糊规则可将不同的输入变量与不同的隶属函数关联。例如，输入变量LEFP可采用“中等”和“低”隶属函数，而输入变量SFV可采用“高”和“中等”隶属函数。

隶属函数训练逻辑23可训练与每个输入变量关联的隶属函数。隶属函数可通过各种模式来形成。例如，最简单的隶属函数可通过直线、三角形或梯形来形成。两个隶属函数可基于以下高斯分布曲线来构建：简单高斯曲线以及两个不同高斯曲线的双边合成。广义钟形隶属函数通过三个参数来指定。

媒体分割逻辑21可将媒体资源120分为多个媒体段，例如1秒窗口中的每个媒体段。输入变量提取逻辑22可根据模糊规则20从每个媒体段提取输入变量的实例。模糊规则运算逻辑24可根据模糊规则20来运算输入变量的实例、与输入变量关联的隶属函数、输出变量以及与输出变量关联的隶属函数，以得到可表示输出变量(即语音似然)属于隶属关系(即语音或非语音)的可能性的完整模糊结论。

解模糊化逻辑25可对来自模糊规则运算逻辑24的模糊结论进行解模糊化，以得到输出变量的确切数值(definite number)。各种方法可应用于解模糊化。例如，加权矩心方法可用于查找来自每个模糊规则的每个输出的加权合并的矩心。矩心可标识输出变量(即语音似然)的确切数值。

标记逻辑26可根据每个媒体段的语音似然的确切数值将该媒体段标记为语音段或非语音段。

图3示出模糊规则20以及语音分段系统121如何运算模糊规则来确定段是否为语音的实施例。如图所示，模糊规则20可包括两个规则：

规则一：如果LEFP为高或者SFV为低，则语音似然为语音；以及

规则二：如果LEFP为低并且HZCRR为高，则语音似然为非语音。

首先，模糊规则运算逻辑24可根据所提取的输入变量的实例和隶属函数对每个规则的每个输入变量进行模糊化。如上所述，模糊规则的每个语句可允许其中的部分隶属关系的可能性，并且语句的真实性可成为程度的问题。例如，语句‘LEFP为高’可允许LEFP为高的部分程度。LEFP属于“高”隶属关系的程度可通过0与1之间的隶属值来表示。如图3的框B₀₀所示，与LEFP关联的“高”隶属函数可将LEFP实例映射到其适当的隶属值。利用与输入变量关联的隶属函数和所提取的输入变量的实例(例如LEFP＝0.7、HZCRR＝0.8、SFV＝0.1)来得到隶属值的过程可称作“对输入进行模糊化”。因此，如图3所示，规则一的输入变量“LEFP”可模糊化为“高”隶属值0.4。类似地，规则一的输入变量“SFV”可模糊化为“低”隶属值0.8；规则二的输入变量“LEFP”可模糊化为“低”隶属值0.1；以及输入变量“HZCRR”可模糊化为“高”隶属值0.5。

其次，模糊规则运算逻辑24可运算每个规则的模糊化输入，以得到规则的模糊化输出。如果规则的前件包括一个以上部分，则模糊逻辑运算符(例如AND、OR、NOT)可用于获得表示前件的结果的值。例如，规则一可具有两个部分“LEFP为高”和“SFV为低”。规则一可利用模糊逻辑运算符“OR”来取模糊化输入的最大值，即模糊化输入0.4和0.8的最大值0.8作为规则一的前件的结果。规则二可具有另外两个部分“LEFP为低”和“HZCRR为高”。规则二可利用模糊逻辑运算符“AND”来取模糊化输入的最小值，即模糊化输入0.1和0.5的最小值0.1作为规则二的前件的结果。

第三，对于每个规则，模糊规则运算逻辑24可利用与输出变量“语音似然”关联的隶属函数和规则前件的结果来得到指明语音似然属于隶属关系(即语音或非语音)的程度集的隶属值集。对于规则一，通过将语音似然属于“语音”隶属关系的最高程度限制为从规则一的前件所得到的值、即值0.8，模糊规则运算逻辑24可应用蕴涵(implication)方法来改造“语音”隶属函数。图3的框B₀₄示出语音似然可属于规则一的“语音”隶属关系的程度集。类似地，图3的框B₁₄示出语音似然可属于规则二的“非语音”隶属关系的另一程度集。

第四，解模糊化逻辑25可对每个规则的输出进行解模糊化，以得到输出变量“语音似然”的解模糊化值。来自每个规则的输出可以是可表示输出变量“语音似然”属于隶属关系的程度的完整模糊集。获得输出的绝对值的过程称作“解模糊化”。各种方法可应用于解模糊化。例如，解模糊化逻辑25可通过利用上述加权矩心方法来得到输出的绝对值。

更具体来说，解模糊化逻辑25可向每个规则的每个输出分配权重，例如图3的框B₀₄所示的程度集和图3的框B₁₄所示的程度集。例如，解模糊化逻辑25可向规则一的输出和规则二的输出分配权重“1”。然后，解模糊化逻辑25可合并加权输出，并且得到可限定输出值的范围的并集。图3的框B₂₀可示出合并的结果。最后，解模糊化逻辑25可查找合并的矩心作为输出“语音似然”的绝对值。如图3所示，语音似然值可以为0.8，语音分段系统121可根据它来确定媒体段是语音还是非语音。

图4示出通过语音分段系统121进行语音分段的方法的实施例。在框401，媒体分割逻辑21可将媒体120分为多个媒体段，例如1秒窗口中的每个媒体段。在框402，模糊规则20可包括一个或多个规则，它们可指定确定媒体段是语音还是非语音的条件。模糊规则可根据媒体120的特性和关于语音数据的先验知识来确定。

在框403，隶属函数训练逻辑23可训练与每个模糊规则的每个输入变量关联的隶属函数。隶属函数训练逻辑23还可训练与模糊规则的输出变量“语音似然”关联的隶属函数。在框404，输入变量提取逻辑22可按照每个模糊规则的前件从每个媒体段提取输入变量。在框405，模糊规则运算逻辑24可通过利用所提取的输入变量的实例和与输入变量关联的隶属函数对每个模糊规则的每个输入变量进行模糊化。

在框406，模糊规则运算逻辑24可得到表示前件的结果的值。如果前件包括一个部分，则来自那个部分的模糊化输入可以为该值。如果前件包括一个以上部分，则模糊规则运算逻辑24可通过采用如模糊规则所表示的例如AND、OR或NOT等模糊逻辑运算符来运算来自每个部分的每个模糊化输入来得到该值。在框407，模糊规则运算逻辑24可应用蕴涵方法来截断与每个模糊规则的输出变量关联的隶属函数。截断的隶属函数可限定输出变量属于隶属关系的程度的范围。

在框408，解模糊化逻辑25可将权重分配给来自每个模糊规则的每个输出，并且合并加权输出以得到输出并集。在框409，解模糊化逻辑25可应用矩心方法来查找输出并集的矩心作为输出变量“语音似然”的值。在框410，标记逻辑26可根据语音似然值来标记媒体段是语音还是非语音。

虽然参照示例实施例描述了本发明的某些特征，但是该描述不是要理解为限制性的。本发明所涉及的领域的技术人员清楚知道的本发明的示例实施例的各种修改以及本发明的其它实施例被认为落入本发明的精神和范围之内。

Claims

1.一种用于语音分段的方法，包括：

确定模糊规则以区分语音段和非语音段，其中所述模糊规则的前件包括输入变量和输入变量隶属关系，以及所述模糊规则的后件包括输出变量和输出变量隶属关系；

从段提取所述输入变量的实例；

训练与所述输入变量隶属关系关联的输入变量隶属函数以及与所述输出变量隶属关系关联的输出变量隶属函数；以及

运算所述输入变量的所述实例、所述输入变量隶属函数、所述输出变量和所述输出变量隶属函数，以确定所述段是所述语音段还是所述非语音段。

2.如权利要求1所述的方法，其中，所述前件允许所述输入变量属于所述输入变量隶属关系的第一部分程度。

3.如权利要求1所述的方法，其中，所述后件允许所述输出变量属于所述输出变量隶属关系的第二部分程度。

4.如权利要求1所述的方法，其中，所述输入变量包括从包括如下各项的组所选取的至少一个变量：低能量帧的百分比(LEFP)、高过零率比(HZCRR)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。

5.如权利要求4所述的方法，其中，所述输出变量是语音似然。

6.如权利要求5所述的方法，其中，所述模糊规则包括：

第一规则，所述第一规则陈述：如果LEFP为高或者SFV为低，则所述语音似然为语音；以及

第二规则，所述第二规则陈述：如果LEFP为低并且HZCRR为高，则所述语音似然为非语音。

7.如权利要求5所述的方法，其中，所述模糊规则包括：

第一规则，所述第一规则陈述：如果HZCRR为低，则所述语音似然为非语音；

第二规则，所述第二规则陈述：如果LEFP为高，则所述语音似然为语音；

第三规则，所述第三规则陈述：如果LEFP为低，则所述语音似然为非语音；

第四规则，所述第四规则陈述：如果SCV为高并且SFV为高且SRPV为高，则所述语音似然为语音；

第五规则，所述第五规则陈述：如果SCV为低并且SFV为低且SRPV为低，则所述语音似然为非语音；

第六规则，所述第六规则陈述：如果4Hz为高，则所述语音似然为语音；以及

第七规则，所述第七规则陈述：如果4Hz为低，则所述语音似然为非语音。

8.如权利要求1所述的方法，其中，所述运算还包括：

根据所述输入变量的所述实例和所述输入变量隶属函数对所述输入变量进行模糊化，以提供指明所述输入变量属于所述输入变量隶属关系的第一程度的模糊化输入；

根据所述模糊化输入来改造所述输出变量隶属函数，以提供指明所述输出变量属于所述输出变量隶属关系的一组第二程度的输出集；

对所述输出集进行解模糊化，以提供解模糊化输出；以及

根据所述解模糊化输出来标记所述段是所述语音段还是所述非语音段。

9.如权利要求8所述的方法，其中，所述解模糊化还包括：

如果所述模糊规则包括一个规则，则查找所述输出集的矩心，以提供所述解模糊化输出；

如果所述模糊规则包括多个规则，则

将多个权重中的每个权重与通过所述多个规则中的每个规则所得到的输出集相乘，以提供多个加权输出集中的每个加权输出集；

合并所述多个加权输出集，以提供输出并集；以及

查找所述输出并集的矩心，以提供所述解模糊化输出。

10.一种用于语音分段的装置，包括：

用于确定模糊规则以区分语音段和非语音段的部件，其中所述模糊规则的前件包括输入变量和输入变量隶属关系，以及所述模糊规则的后件包括输出变量和输出变量隶属关系；

用于从段提取所述输入变量的实例的部件；

用于训练与所述输入变量隶属关系关联的输入变量隶属函数以及与所述输出变量隶属关系关联的输出变量隶属函数的部件；以及

用于运算所述输入变量的所述实例、所述输入变量隶属函数、所述输出变量和所述输出变量隶属函数以确定所述段是所述语音段还是所述非语音段的部件。

11.如权利要求10所述的装置，其中，所述前件允许所述输入变量属于所述输入变量隶属关系的第一部分程度。

12.如权利要求10所述的装置，其中，所述后件允许所述输出变量属于所述输出变量隶属关系的第二部分程度。

13.如权利要求10所述的装置，其中，所述输入变量包括从包括如下各项的组所选取的至少一个变量：低能量帧的百分比(LEFP)、高过零率比(HZCRR)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。

14.如权利要求13所述的装置，其中，所述输出变量是语音似然。

15.如权利要求14所述的装置，其中，所述模糊规则包括：

第一规则，所述第一规则陈述：如果LEFP为高或者SPV为低，则所述语音似然为语音；以及

16.如权利要求14所述的装置，其中，所述模糊规则包括：

17.如权利要求10所述的装置，其中，用于运算的部件包括：

用于根据所述输入变量的所述实例和所述输入变量隶属函数对所述输入变量进行模糊化以提供指明所述输入变量属于所述输入变量隶属关系的第一程度的模糊化输入的部件；

用于根据所述模糊化输入来改造所述输出变量隶属函数以提供指明所述输出变量属于所述输出变量隶属关系的一组第二程度的输出集的部件；

用于对所述输出集进行解模糊化以提供解模糊化输出的部件；以及

用于根据所述解模糊化输出来标记所述段是所述语音段还是所述非语音段的部件。

18.如权利要求17所述的装置，其中，用于解模糊化的部件包括：

用于如果所述模糊规则包括一个规则，则查找所述输出集的矩心以提供所述解模糊化输出的部件；

用于如果所述模糊规则包括多个规则，则进行以下操作的部件：

将多个权重中的每个权重与通过所述多个规则中的每个规

则所得到的输出集相乘，以提供多个加权输出集中的每个加权输出集；

合并所述多个加权输出集，以提供输出并集；以及

查找所述输出并集的矩心，以提供所述解模糊化输出。