CN101568957B - 用于语音分段的方法和设备 - Google Patents
用于语音分段的方法和设备 Download PDFInfo
- Publication number
- CN101568957B CN101568957B CN2006800568140A CN200680056814A CN101568957B CN 101568957 B CN101568957 B CN 101568957B CN 2006800568140 A CN2006800568140 A CN 2006800568140A CN 200680056814 A CN200680056814 A CN 200680056814A CN 101568957 B CN101568957 B CN 101568957B
- Authority
- CN
- China
- Prior art keywords
- rule
- output
- speech
- voice
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 title abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000004907 flux Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 26
- 238000000605 extraction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
描述了用于语音分段的机器可读介质、方法、设备和系统。在一些实施例中,可确定模糊规则以区分语音段和非语音段。模糊规则的前件可包括输入变量和输入变量隶属关系。模糊规则的后件可包括输出变量和输出变量隶属关系。可从段提取输入变量的实例。可训练与输入变量隶属关系关联的输入变量隶属函数以及与输出变量隶属关系关联的输出变量隶属函数。可运算输入变量的实例、输入变量隶属函数、输出变量和输出变量隶属函数,以确定段是语音段还是非语音段。
Description
背景技术
语音分段可以是将非结构化信息分类为语音段和非语音段的非结构化信息检索的步骤。各种方法可应用于语音分段。最常用的方法是从区分语音段和非语音段的媒体资源手动提取语音段。
附图说明
在附图中示出本文所述的本发明,这是为了举例而不是为了限制。为了图示的简洁和清楚起见,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其它元件经过放大。此外,在认为适当的情况下,附图标记在附图中重复,以指明对应或相似的元件。
图1示出包括语音分段系统的计算平台的实施例。
图2示出语音分段系统的实施例。
图3示出模糊规则以及语音分段系统如何运算模糊规则来确定段是否为语音的实施例。
图4示出通过语音分段系统进行语音分段的方法的实施例。
具体实施方式
以下描述说明用于语音分段的方法和设备的技术。在以下描述中,提出了例如逻辑实现、伪代码、指定运算数的方式、资源划分/共享/重复实现、系统组件的类型和相互关系以及逻辑划分/综合选择等许多具体细节,以提供对本发明的更透彻理解。但是,即使没有这类具体细节也可实施本发明。在其它情况下,没有详细示出控制结构、门级电路和完整的软件指令序列,以免影响对本发明的理解。通过所包含的描述,本领域的技术人员将能够实现适当的功能性而无需过度实验。
说明书中“一个实施例”、“实施例”、“示例实施例”等提法指明所述的实施例可包括特定特征、结构或特性,但可能不一定每一个实施例都包括该特定特征、结构或特性。而且,这类词语不一定指同一个实施例。此外,在结合实施例来描述特定特征、结构或特性时,无论是否明确描述,均认为结合其它实施例来实现这种特征、结构或特性是处于本领域的技术人员的知识范围之内的。
本发明的实施例可通过硬件、固件、软件或者它们的任何组合来实现。本发明的实施例还可实现为存储于机器可读介质上的指令,所述指令可由一个或多个处理器读取和运行。机器可读介质可包括用于存储或传送机器(例如计算装置)可读形式的信息的任何机构。例如,机器可读介质可包括:只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪速存储器装置;电、光、声或其它形式的传播信号(例如载波、红外信号、数字信号等)等等。
包括语音分段系统121的计算平台10的实施例如图1所示。计算平台的示例可包括大型计算机、小型计算机、个人计算机、便携计算机、膝上型计算机以及用于收发和处理数据的其它装置。
计算平台10可包括一个或多个处理器11、存储器12、芯片组13、I/O装置14以及可能的其它组件。一个或多个处理器11在通信上经由一个或多个总线、如处理器总线与各种组件(例如存储器12)耦合。处理器11可实现为具有可运行代码的一个或多个处理核心的集成电路(IC)。处理器20的示例可包括CoreTM、CeleronTM、PentiumTM、XeonTM、ItaniumTM体系结构,这些体系结构可从加利福尼亚州的圣克拉拉市的英特尔公司得到。
存储器12可存储将由处理器11运行的代码。存储器12的示例可包括例如以下半导体装置其中之一或者它们的组合:同步动态随机存取存储器(SDRAM)装置,RAMBUS动态随机存取存储器(RDRAM)装置、双倍数据速率(DDR)存储器装置、静态随机存取存储器(SRAM)和闪速存储器装置等。
芯片组13可提供处理器11、存储器12、I/O装置14以及可能的其它组件之间的一个或多个通信路径。芯片组13还可包括分别与上述组件进行通信的集线器。例如,芯片组13可包括存储控制器集线器、输入/输出控制器集线器以及可能的其它集线器。
I/O装置14可向计算平台10输入或者从计算平台10输出数据、如媒体数据。I/O装置14的示例可包括网卡、蓝牙装置、天线以及可能的用于收发数据的其它装置。
在图1所示的实施例中,存储器12还可包括实现为媒体资源120、语音分段系统121、语音段122和非语音段123的代码。
媒体资源120可包括音频资源和视频资源。媒体资源120可由例如I/O装置14、盘存储装置(未示出)和音频/视频装置(未示出)等各种组件来提供。
语音分段系统121可将媒体120分为多个媒体段,确定媒体段是语音段122还是非语音段123,并且将该媒体段标记为语音段122或者非语音段123。语音分段可用于各种情况。例如,语音分类和分段可用于音频-文本映射。在这种情况下,语音段122可经过音频-文本对齐,从而选择与语音段映射的文本。
语音分段系统121可使用模糊推理技术来区分语音段122和非语音段123。图2中提供更多细节。
图2示出语音分段系统121的实施例。语音分段系统121可包括模糊规则20、媒体分割逻辑21、输入变量提取逻辑22、隶属函数训练逻辑23、模糊规则运算逻辑24、解模糊化逻辑25、标记逻辑26以及可能的用于语音分段的其它组件。
模糊规则20可存储一个或多个模糊规则,它们可根据例如媒体120的特性和关于语音数据的先验知识等各种因素来确定。模糊规则可以是确定媒体段是语音还是非语音的语言规则,并且可采取各种形式、如“如果-则”形式。“如果-则”规则可包括前件部分(“如果”)和后件部分(“则”)。前件可指定获得后件的条件。
前件可包括指明媒体数据的各种特性的一个或多个输入变量。例如,输入变量可从包括如下各项的一组特征选取:高过零率比(HZCRR)、“低能量”帧的百分比(LEFP)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。后件可包括输出变量。在图2的实施例中,输出变量可以是语音似然。
下面可以是用于高SNR(信噪比)环境下的媒体的模糊规则的示例。
规则一:如果LEFP为高或者SFV为低,则语音似然为语音;以及
规则二:如果LEFP为低并且HZCRR为高,则语音似然为非语音。
下面可以是用于低SNR环境下的媒体的模糊规则的另一个示例。
规则一:如果HZCRR为低,则语音似然为非语音;
规则二:如果LEFP为高,则语音似然为语音;
规则三:如果LEFP为低,则语音似然为非语音;
规则四:如果SCV为高并且SFV为高且SRPV为高,则语音似然为语音;
规则五:如果SCV为低并且SFV为低且SRPV为低,则语音似然为非语音;
规则六:如果4Hz非常高,则语音似然为语音;以及
规则七:如果4Hz为低,则语音似然为非语音。
规则的每个语句可允许其中的部分隶属关系的可能性。换言之,规则的每个语句可以是输入变量或输出变量属于隶属关系的程度问题。在上述规则中,每个输入变量可采用定义为“低”和“高”的两个隶属函数。输出变量可采用定义为“语音”和“非语音”的两个隶属函数。应当理解,模糊规则可将不同的输入变量与不同的隶属函数关联。例如,输入变量LEFP可采用“中等”和“低”隶属函数,而输入变量SFV可采用“高”和“中等”隶属函数。
隶属函数训练逻辑23可训练与每个输入变量关联的隶属函数。隶属函数可通过各种模式来形成。例如,最简单的隶属函数可通过直线、三角形或梯形来形成。两个隶属函数可基于以下高斯分布曲线来构建:简单高斯曲线以及两个不同高斯曲线的双边合成。广义钟形隶属函数通过三个参数来指定。
媒体分割逻辑21可将媒体资源120分为多个媒体段,例如1秒窗口中的每个媒体段。输入变量提取逻辑22可根据模糊规则20从每个媒体段提取输入变量的实例。模糊规则运算逻辑24可根据模糊规则20来运算输入变量的实例、与输入变量关联的隶属函数、输出变量以及与输出变量关联的隶属函数,以得到可表示输出变量(即语音似然)属于隶属关系(即语音或非语音)的可能性的完整模糊结论。
解模糊化逻辑25可对来自模糊规则运算逻辑24的模糊结论进行解模糊化,以得到输出变量的确切数值(definite number)。各种方法可应用于解模糊化。例如,加权矩心方法可用于查找来自每个模糊规则的每个输出的加权合并的矩心。矩心可标识输出变量(即语音似然)的确切数值。
标记逻辑26可根据每个媒体段的语音似然的确切数值将该媒体段标记为语音段或非语音段。
图3示出模糊规则20以及语音分段系统121如何运算模糊规则来确定段是否为语音的实施例。如图所示,模糊规则20可包括两个规则:
规则一:如果LEFP为高或者SFV为低,则语音似然为语音;以及
规则二:如果LEFP为低并且HZCRR为高,则语音似然为非语音。
首先,模糊规则运算逻辑24可根据所提取的输入变量的实例和隶属函数对每个规则的每个输入变量进行模糊化。如上所述,模糊规则的每个语句可允许其中的部分隶属关系的可能性,并且语句的真实性可成为程度的问题。例如,语句‘LEFP为高’可允许LEFP为高的部分程度。LEFP属于“高”隶属关系的程度可通过0与1之间的隶属值来表示。如图3的框B00所示,与LEFP关联的“高”隶属函数可将LEFP实例映射到其适当的隶属值。利用与输入变量关联的隶属函数和所提取的输入变量的实例(例如LEFP=0.7、HZCRR=0.8、SFV=0.1)来得到隶属值的过程可称作“对输入进行模糊化”。因此,如图3所示,规则一的输入变量“LEFP”可模糊化为“高”隶属值0.4。类似地,规则一的输入变量“SFV”可模糊化为“低”隶属值0.8;规则二的输入变量“LEFP”可模糊化为“低”隶属值0.1;以及输入变量“HZCRR”可模糊化为“高”隶属值0.5。
其次,模糊规则运算逻辑24可运算每个规则的模糊化输入,以得到规则的模糊化输出。如果规则的前件包括一个以上部分,则模糊逻辑运算符(例如AND、OR、NOT)可用于获得表示前件的结果的值。例如,规则一可具有两个部分“LEFP为高”和“SFV为低”。规则一可利用模糊逻辑运算符“OR”来取模糊化输入的最大值,即模糊化输入0.4和0.8的最大值0.8作为规则一的前件的结果。规则二可具有另外两个部分“LEFP为低”和“HZCRR为高”。规则二可利用模糊逻辑运算符“AND”来取模糊化输入的最小值,即模糊化输入0.1和0.5的最小值0.1作为规则二的前件的结果。
第三,对于每个规则,模糊规则运算逻辑24可利用与输出变量“语音似然”关联的隶属函数和规则前件的结果来得到指明语音似然属于隶属关系(即语音或非语音)的程度集的隶属值集。对于规则一,通过将语音似然属于“语音”隶属关系的最高程度限制为从规则一的前件所得到的值、即值0.8,模糊规则运算逻辑24可应用蕴涵(implication)方法来改造“语音”隶属函数。图3的框B04示出语音似然可属于规则一的“语音”隶属关系的程度集。类似地,图3的框B14示出语音似然可属于规则二的“非语音”隶属关系的另一程度集。
第四,解模糊化逻辑25可对每个规则的输出进行解模糊化,以得到输出变量“语音似然”的解模糊化值。来自每个规则的输出可以是可表示输出变量“语音似然”属于隶属关系的程度的完整模糊集。获得输出的绝对值的过程称作“解模糊化”。各种方法可应用于解模糊化。例如,解模糊化逻辑25可通过利用上述加权矩心方法来得到输出的绝对值。
更具体来说,解模糊化逻辑25可向每个规则的每个输出分配权重,例如图3的框B04所示的程度集和图3的框B14所示的程度集。例如,解模糊化逻辑25可向规则一的输出和规则二的输出分配权重“1”。然后,解模糊化逻辑25可合并加权输出,并且得到可限定输出值的范围的并集。图3的框B20可示出合并的结果。最后,解模糊化逻辑25可查找合并的矩心作为输出“语音似然”的绝对值。如图3所示,语音似然值可以为0.8,语音分段系统121可根据它来确定媒体段是语音还是非语音。
图4示出通过语音分段系统121进行语音分段的方法的实施例。在框401,媒体分割逻辑21可将媒体120分为多个媒体段,例如1秒窗口中的每个媒体段。在框402,模糊规则20可包括一个或多个规则,它们可指定确定媒体段是语音还是非语音的条件。模糊规则可根据媒体120的特性和关于语音数据的先验知识来确定。
在框403,隶属函数训练逻辑23可训练与每个模糊规则的每个输入变量关联的隶属函数。隶属函数训练逻辑23还可训练与模糊规则的输出变量“语音似然”关联的隶属函数。在框404,输入变量提取逻辑22可按照每个模糊规则的前件从每个媒体段提取输入变量。在框405,模糊规则运算逻辑24可通过利用所提取的输入变量的实例和与输入变量关联的隶属函数对每个模糊规则的每个输入变量进行模糊化。
在框406,模糊规则运算逻辑24可得到表示前件的结果的值。如果前件包括一个部分,则来自那个部分的模糊化输入可以为该值。如果前件包括一个以上部分,则模糊规则运算逻辑24可通过采用如模糊规则所表示的例如AND、OR或NOT等模糊逻辑运算符来运算来自每个部分的每个模糊化输入来得到该值。在框407,模糊规则运算逻辑24可应用蕴涵方法来截断与每个模糊规则的输出变量关联的隶属函数。截断的隶属函数可限定输出变量属于隶属关系的程度的范围。
在框408,解模糊化逻辑25可将权重分配给来自每个模糊规则的每个输出,并且合并加权输出以得到输出并集。在框409,解模糊化逻辑25可应用矩心方法来查找输出并集的矩心作为输出变量“语音似然”的值。在框410,标记逻辑26可根据语音似然值来标记媒体段是语音还是非语音。
虽然参照示例实施例描述了本发明的某些特征,但是该描述不是要理解为限制性的。本发明所涉及的领域的技术人员清楚知道的本发明的示例实施例的各种修改以及本发明的其它实施例被认为落入本发明的精神和范围之内。
Claims (18)
1.一种用于语音分段的方法,包括:
确定模糊规则以区分语音段和非语音段,其中所述模糊规则的前件包括输入变量和输入变量隶属关系,以及所述模糊规则的后件包括输出变量和输出变量隶属关系;
从段提取所述输入变量的实例;
训练与所述输入变量隶属关系关联的输入变量隶属函数以及与所述输出变量隶属关系关联的输出变量隶属函数;以及
运算所述输入变量的所述实例、所述输入变量隶属函数、所述输出变量和所述输出变量隶属函数,以确定所述段是所述语音段还是所述非语音段。
2.如权利要求1所述的方法,其中,所述前件允许所述输入变量属于所述输入变量隶属关系的第一部分程度。
3.如权利要求1所述的方法,其中,所述后件允许所述输出变量属于所述输出变量隶属关系的第二部分程度。
4.如权利要求1所述的方法,其中,所述输入变量包括从包括如下各项的组所选取的至少一个变量:低能量帧的百分比(LEFP)、高过零率比(HZCRR)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。
5.如权利要求4所述的方法,其中,所述输出变量是语音似然。
6.如权利要求5所述的方法,其中,所述模糊规则包括:
第一规则,所述第一规则陈述:如果LEFP为高或者SFV为低,则所述语音似然为语音;以及
第二规则,所述第二规则陈述:如果LEFP为低并且HZCRR为高,则所述语音似然为非语音。
7.如权利要求5所述的方法,其中,所述模糊规则包括:
第一规则,所述第一规则陈述:如果HZCRR为低,则所述语音似然为非语音;
第二规则,所述第二规则陈述:如果LEFP为高,则所述语音似然为语音;
第三规则,所述第三规则陈述:如果LEFP为低,则所述语音似然为非语音;
第四规则,所述第四规则陈述:如果SCV为高并且SFV为高且SRPV为高,则所述语音似然为语音;
第五规则,所述第五规则陈述:如果SCV为低并且SFV为低且SRPV为低,则所述语音似然为非语音;
第六规则,所述第六规则陈述:如果4Hz为高,则所述语音似然为语音;以及
第七规则,所述第七规则陈述:如果4Hz为低,则所述语音似然为非语音。
8.如权利要求1所述的方法,其中,所述运算还包括:
根据所述输入变量的所述实例和所述输入变量隶属函数对所述输入变量进行模糊化,以提供指明所述输入变量属于所述输入变量隶属关系的第一程度的模糊化输入;
根据所述模糊化输入来改造所述输出变量隶属函数,以提供指明所述输出变量属于所述输出变量隶属关系的一组第二程度的输出集;
对所述输出集进行解模糊化,以提供解模糊化输出;以及
根据所述解模糊化输出来标记所述段是所述语音段还是所述非语音段。
9.如权利要求8所述的方法,其中,所述解模糊化还包括:
如果所述模糊规则包括一个规则,则查找所述输出集的矩心,以提供所述解模糊化输出;
如果所述模糊规则包括多个规则,则
将多个权重中的每个权重与通过所述多个规则中的每个规则所得到的输出集相乘,以提供多个加权输出集中的每个加权输出集;
合并所述多个加权输出集,以提供输出并集;以及
查找所述输出并集的矩心,以提供所述解模糊化输出。
10.一种用于语音分段的装置,包括:
用于确定模糊规则以区分语音段和非语音段的部件,其中所述模糊规则的前件包括输入变量和输入变量隶属关系,以及所述模糊规则的后件包括输出变量和输出变量隶属关系;
用于从段提取所述输入变量的实例的部件;
用于训练与所述输入变量隶属关系关联的输入变量隶属函数以及与所述输出变量隶属关系关联的输出变量隶属函数的部件;以及
用于运算所述输入变量的所述实例、所述输入变量隶属函数、所述输出变量和所述输出变量隶属函数以确定所述段是所述语音段还是所述非语音段的部件。
11.如权利要求10所述的装置,其中,所述前件允许所述输入变量属于所述输入变量隶属关系的第一部分程度。
12.如权利要求10所述的装置,其中,所述后件允许所述输出变量属于所述输出变量隶属关系的第二部分程度。
13.如权利要求10所述的装置,其中,所述输入变量包括从包括如下各项的组所选取的至少一个变量:低能量帧的百分比(LEFP)、高过零率比(HZCRR)、谱矩心方差(SCV)、谱通量方差(SFV)、谱滚降点方差(SRPV)和4Hz调制能量(4Hz)。
14.如权利要求13所述的装置,其中,所述输出变量是语音似然。
15.如权利要求14所述的装置,其中,所述模糊规则包括:
第一规则,所述第一规则陈述:如果LEFP为高或者SPV为低,则所述语音似然为语音;以及
第二规则,所述第二规则陈述:如果LEFP为低并且HZCRR为高,则所述语音似然为非语音。
16.如权利要求14所述的装置,其中,所述模糊规则包括:
第一规则,所述第一规则陈述:如果HZCRR为低,则所述语音似然为非语音;
第二规则,所述第二规则陈述:如果LEFP为高,则所述语音似然为语音;
第三规则,所述第三规则陈述:如果LEFP为低,则所述语音似然为非语音;
第四规则,所述第四规则陈述:如果SCV为高并且SFV为高且SRPV为高,则所述语音似然为语音;
第五规则,所述第五规则陈述:如果SCV为低并且SFV为低且SRPV为低,则所述语音似然为非语音;
第六规则,所述第六规则陈述:如果4Hz为高,则所述语音似然为语音;以及
第七规则,所述第七规则陈述:如果4Hz为低,则所述语音似然为非语音。
17.如权利要求10所述的装置,其中,用于运算的部件包括:
用于根据所述输入变量的所述实例和所述输入变量隶属函数对所述输入变量进行模糊化以提供指明所述输入变量属于所述输入变量隶属关系的第一程度的模糊化输入的部件;
用于根据所述模糊化输入来改造所述输出变量隶属函数以提供指明所述输出变量属于所述输出变量隶属关系的一组第二程度的输出集的部件;
用于对所述输出集进行解模糊化以提供解模糊化输出的部件;以及
用于根据所述解模糊化输出来标记所述段是所述语音段还是所述非语音段的部件。
18.如权利要求17所述的装置,其中,用于解模糊化的部件包括:
用于如果所述模糊规则包括一个规则,则查找所述输出集的矩心以提供所述解模糊化输出的部件;
用于如果所述模糊规则包括多个规则,则进行以下操作的部件:
将多个权重中的每个权重与通过所述多个规则中的每个规
则所得到的输出集相乘,以提供多个加权输出集中的每个加权输出集;
合并所述多个加权输出集,以提供输出并集;以及
查找所述输出并集的矩心,以提供所述解模糊化输出。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2006/003612 WO2008077281A1 (en) | 2006-12-27 | 2006-12-27 | Method and apparatus for speech segmentation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101568957A CN101568957A (zh) | 2009-10-28 |
CN101568957B true CN101568957B (zh) | 2012-05-02 |
Family
ID=39562073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800568140A Expired - Fee Related CN101568957B (zh) | 2006-12-27 | 2006-12-27 | 用于语音分段的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8442822B2 (zh) |
EP (1) | EP2100294A4 (zh) |
JP (1) | JP5453107B2 (zh) |
KR (2) | KR20120008088A (zh) |
CN (1) | CN101568957B (zh) |
WO (1) | WO2008077281A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2100294A4 (en) * | 2006-12-27 | 2011-09-28 | Intel Corp | METHOD AND DEVICE FOR LANGUAGE SEGMENTATION |
FR2946175B1 (fr) * | 2009-05-29 | 2021-06-04 | Voxler | Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke |
US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
CN102915728B (zh) * | 2011-08-01 | 2014-08-27 | 佳能株式会社 | 声音分段设备和方法以及说话者识别系统 |
US9792553B2 (en) * | 2013-07-31 | 2017-10-17 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework |
US20150039541A1 (en) * | 2013-07-31 | 2015-02-05 | Kadenze, Inc. | Feature Extraction and Machine Learning for Evaluation of Audio-Type, Media-Rich Coursework |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
CN1316726A (zh) * | 2000-02-02 | 2001-10-10 | 摩托罗拉公司 | 语音识别的方法和装置 |
WO2005070130A2 (en) * | 2004-01-12 | 2005-08-04 | Voice Signal Technologies, Inc. | Speech recognition channel normalization utilizing measured energy values from speech utterance |
CN1790482A (zh) * | 2005-12-19 | 2006-06-21 | 危然 | 一种增强语音识别系统模板匹配精确度的方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696040A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with energy normalization and silence suppression |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5673365A (en) * | 1991-06-12 | 1997-09-30 | Microchip Technology Incorporated | Fuzzy microcontroller for complex nonlinear signal recognition |
JP2797861B2 (ja) * | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JPH06119176A (ja) * | 1992-10-06 | 1994-04-28 | Matsushita Electric Ind Co Ltd | ファジィ演算装置 |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5841948A (en) * | 1993-10-06 | 1998-11-24 | Motorola, Inc. | Defuzzifying method in fuzzy inference system |
US5524176A (en) * | 1993-10-19 | 1996-06-04 | Daido Steel Co., Ltd. | Fuzzy expert system learning network |
WO1995029737A1 (en) * | 1994-05-03 | 1995-11-09 | Board Of Regents, The University Of Texas System | Apparatus and method for noninvasive doppler ultrasound-guided real-time control of tissue damage in thermal therapy |
JP2759052B2 (ja) * | 1994-05-27 | 1998-05-28 | 東洋エンジニアリング株式会社 | 尿素プラント合成管の液面制御装置及び液面制御方法 |
US5704200A (en) * | 1995-11-06 | 1998-01-06 | Control Concepts, Inc. | Agricultural harvester ground tracking control system and method using fuzzy logic |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6215115B1 (en) * | 1998-11-12 | 2001-04-10 | Raytheon Company | Accurate target detection system for compensating detector background levels and changes in signal environments |
JP2000339167A (ja) | 1999-05-31 | 2000-12-08 | Toshiba Mach Co Ltd | ファジィ推論におけるメンバーシップ関数のチューニング方法 |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
JP2002116912A (ja) * | 2000-10-06 | 2002-04-19 | Fuji Electric Co Ltd | ファジイ推論演算処理方法 |
US6873718B2 (en) * | 2001-10-12 | 2005-03-29 | Siemens Corporate Research, Inc. | System and method for 3D statistical shape model for the left ventricle of the heart |
US7716047B2 (en) * | 2002-10-16 | 2010-05-11 | Sony Corporation | System and method for an automatic set-up of speech recognition engines |
US7003366B1 (en) * | 2005-04-18 | 2006-02-21 | Promos Technologies Inc. | Diagnostic system and operating method for the same |
US20080294433A1 (en) | 2005-05-27 | 2008-11-27 | Minerva Yeung | Automatic Text-Speech Mapping Tool |
US20070183604A1 (en) * | 2006-02-09 | 2007-08-09 | St-Infonox | Response to anomalous acoustic environments |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
EP2100294A4 (en) | 2006-12-27 | 2011-09-28 | Intel Corp | METHOD AND DEVICE FOR LANGUAGE SEGMENTATION |
-
2006
- 2006-12-27 EP EP06840655A patent/EP2100294A4/en not_active Withdrawn
- 2006-12-27 US US12/519,758 patent/US8442822B2/en not_active Expired - Fee Related
- 2006-12-27 KR KR1020127000010A patent/KR20120008088A/ko not_active Application Discontinuation
- 2006-12-27 JP JP2009543317A patent/JP5453107B2/ja not_active Expired - Fee Related
- 2006-12-27 WO PCT/CN2006/003612 patent/WO2008077281A1/en active Application Filing
- 2006-12-27 KR KR1020097013177A patent/KR101140896B1/ko active IP Right Grant
- 2006-12-27 CN CN2006800568140A patent/CN101568957B/zh not_active Expired - Fee Related
-
2013
- 2013-04-12 US US13/861,734 patent/US8775182B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
CN1316726A (zh) * | 2000-02-02 | 2001-10-10 | 摩托罗拉公司 | 语音识别的方法和装置 |
WO2005070130A2 (en) * | 2004-01-12 | 2005-08-04 | Voice Signal Technologies, Inc. | Speech recognition channel normalization utilizing measured energy values from speech utterance |
CN1790482A (zh) * | 2005-12-19 | 2006-06-21 | 危然 | 一种增强语音识别系统模板匹配精确度的方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20120008088A (ko) | 2012-01-25 |
CN101568957A (zh) | 2009-10-28 |
US20100153109A1 (en) | 2010-06-17 |
US20130238328A1 (en) | 2013-09-12 |
KR101140896B1 (ko) | 2012-07-02 |
EP2100294A1 (en) | 2009-09-16 |
US8442822B2 (en) | 2013-05-14 |
KR20090094106A (ko) | 2009-09-03 |
JP2010515085A (ja) | 2010-05-06 |
EP2100294A4 (en) | 2011-09-28 |
JP5453107B2 (ja) | 2014-03-26 |
WO2008077281A1 (en) | 2008-07-03 |
US8775182B2 (en) | 2014-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101568957B (zh) | 用于语音分段的方法和设备 | |
CN111475649B (zh) | 基于深度学习的虚假新闻预测方法、系统、装置、介质 | |
CN109034201B (zh) | 模型训练及规则挖掘方法和系统 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
CN103489445B (zh) | 一种识别音频中人声的方法及装置 | |
CN107133238A (zh) | 一种文本信息聚类方法和文本信息聚类系统 | |
KR20180077846A (ko) | 논쟁 유발성 문서 판별 장치 및 방법 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 | |
Abdelhamid et al. | Automatic bank fraud detection using support vector machines | |
CN111859011B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN112747924A (zh) | 一种基于注意力机制和残差神经网络的轴承寿命预测方法 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
Siddiqua et al. | Tweet stance detection using multi-kernel convolution and attentive lstm variants | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
Kiela et al. | Context-attentive embeddings for improved sentence representations | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
KR102409019B1 (ko) | 금융 거래 위험 평가 시스템과 방법 및 이를 위한 컴퓨터 프로그램 | |
CN114372495A (zh) | 基于深度空间残差学习的电能质量扰动分类方法及系统 | |
CN110399984B (zh) | 一种信息的预测方法、系统以及电子设备 | |
CN111475587B (zh) | 风险识别的方法和系统 | |
CN111539576B (zh) | 一种风险识别模型的优化方法及装置 | |
Sudhakar et al. | A novel learning vector quantization with hamming distance measure for effective prediction of fake news | |
Zhang et al. | Text-Independent Speaker Identification Using a Single-Scale SincNet-DCGAN Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120502 Termination date: 20171227 |