CN1819017A - 提取特征向量用于语音识别的方法 - Google Patents

提取特征向量用于语音识别的方法 Download PDF

Info

Publication number
CN1819017A
CN1819017A CN200510137026.1A CN200510137026A CN1819017A CN 1819017 A CN1819017 A CN 1819017A CN 200510137026 A CN200510137026 A CN 200510137026A CN 1819017 A CN1819017 A CN 1819017A
Authority
CN
China
Prior art keywords
voice
parameter
extracts
sound
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200510137026.1A
Other languages
English (en)
Inventor
金灿佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN1819017A publication Critical patent/CN1819017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

揭示了一种用于识别语音能够达到高识别率的方法。所述方法包括从输入信号中提取表示该输入信号的作为话音还是非话音声音特征的参数,从输入信号中提取对应于语音完整频谱形状的至少一个特征向量,以及在训练阶段和识别阶段使用提取出的参数以及提取出的至少一个特征向量来识别语音。

Description

提取特征向量用于语音识别的方法
技术领域
本发明涉及语音识别,尤其涉及提取特征向量以实现高语音识别率的方法。
背景技术
在语音识别邻域,主要使用的两种语音识别方法是隐马尔可夫模型(HMM)和动态时间偏斜(DTW)。
在基于HMM的语音识别方法中,HMM参数是在训练阶段获取的并且存储在语音数据库中,并且马尔可夫处理器使用最大似然(ML)方法搜索具有最高识别率的模型。提取语音识别所必须的特征向量,并且使用提取的特征向量执行训练和语音识别。
在所述训练阶段,通常使用最大期望值(EM)算法或Baum-Welch重估算法获取HMM参数。Viterbi算法通常用于语音识别阶段。
为了增加语音识别率,可执行Wiener滤波预处理。也可通过使用诸如语言模型的考虑语法的技术来增加语音识别速率。
因为可对于连续语音识别(CSR)使用基于HMM的语音识别方法适用于大量的词汇识别并提供卓越的识别率,所以近来基于HMM的语音识别方法得到愈加广泛的应用。
在基于DTW的语音识别方法中,比较通用模式和给定输入模式并且确定它们之间的类似性。例如,一个单词或单词序列的持续时间是基于说话人是谁、说话人的感情以及说话人说话所处环境而变化的。基于DTW的语音识别方法作为用于非线性优化这一持续时间之间偏差的方法在作为用于非线性优化这一持续时间之间偏差的方法的部分优化基础上执行总体优化。
DTW通常用于识别单独的词,并且通常联合小量词汇表使用。可通过添加对应于新词汇的新模式很方便地修改该词汇表。
HMM和DTW识别方法通过提取涉及语音的完整频谱形状执行语音识别。然而这些方法的一个限制是它们不考虑组成语音的话音与非话音声音的区别。
发明内容
由上所述,本发明通过其各个方面、实施例和/或特定特征或子组件的一个或多个,旨在实现如下特指优点的一个或多个。
本发明的一个目标是提供一种方法用于提取特征向量以完成高速率语音识别。为了完成这些和其他优点并与本发明的目的相一致,作为在此具体表达并广泛描述提取特征向量用于语音识别的方法包括从输入信号中提取一个表示所述输入信号的某一表征是话音还是非话音声音的参数,以及基于提取出的参数识别语音。本方法还包括基于提取出的参数提取特征向量。
优选地,使用如下方程计算该参数: η = max r x ‾ [ n ] r x ‾ [ 0 ]
其中, r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k ,
η表示提取出的参数,而Nf表示确定某声音是话音还是非话音的帧的长度。优选地,k的值为1,2和3其中之一。
提取出的参数大于或等于当输入信号包括话音声音时的阈值,并且小于当输入信号包括非话音声音时的阈值。对语音的识别可以包括利用基于隐马尔可夫模型的识别方法、基于动态时间偏斜的识别方法以及基于神经网络的识别方法中的一种。也可使用其他语音识别方法和模型。
根据一个实施例,本方法可包括基于提取出的参数生成指明输入信号是包括话音声音还是非话音声音的一个比特,并且基于该生成的比特识别所述语音。本方法还包括将差分系数和加速系数的至少一个添加给提取参数。
根据另一个实施例,本方法还包括从所述输入信号中提取对应于话音的完整频谱形状的至少一个特征向量,并且基于提取出的特征向量以及提取出的参数的至少一个来识别语音。能在可用的节距(pitch)范围内计算该参数。
也提供包括了用来识别语音的程序的计算机可读介质。该程序包括指令,用于从输入信号中提取一个表示输入信号的某一表征是话音还是非话音声音的参数,并且基于该提取出的参数识别语音。该程序还包括基于提取出的参数提取特征向量的指令。
优选地,使用如下方程计算该参数: η = max r x ‾ [ n ] r x ‾ [ 0 ]
其中, r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k ,
η表示提取出的参数,而Nf表示确定某声音是话音还是非话音的帧的长度。优选地,k的值为1,2和3其中之一。
提取出的参数大于或等于当输入信号包括话音声音时的阈值,并且小于当输入信号包括非话音声音时的阈值。用于识别语音的指令可以包括利用基于隐马尔可夫模型的识别方法、基于动态时间偏斜的识别方法以及基于神经网络的识别方法中的一种的指令。也可使用其他语音识别模型和方法。
根据一个实施例,该程序也可包括基于提取出的参数生成指明输入信号是包括话音声音还是非话音声音的一个比特,并且基于该生成的比特识别所述语音。该程序还可包括将差分系数和加速系数中的至少一个添加给提取出参数的指令。
本发明上述的和其他的目标、特征、方面和优点从随后结合了附图的详细描述中,本发明上述的和其他的目标、特征、方面和优点将变得显而易见。
附图说明
随后将通过本发明实施例的非限制性实例并参考附图,本发明将进行进一步地详细描述,所述附图中相同的编号表示类似的部件。
在附图中:
图1是示出了根据本发明提取特征向量用于语音识别的方法的流程图;以及
图2A-2D示出了话音和非话音声音的典型波形。
具体实施方式
现将对本发明的较佳实施例做出详细参考,并将结合附图示出本发明的实例。
本发明的一种方法包括基于对某声音是话音的还是非话音的判定生成一个参数,并且在训练阶段和识别阶段使用该参数,连同涉及语音完整频谱形状的特征向量。将使用存储在记录介质(诸如但不限于存储器)内的计算机程序实现本方法。
人类语音包括话音声音和非话音声音。当说话期间声带振动就会产生话音声音,而当声带不振动所产生的话音就是非话音声音。
所有的元音以及爆破音[b]、[d]和[g]都是话音声音。而爆破音[k]、[p]和[t]以及摩擦音[f]、[th]、[s]和[sh]是非话音声音。虽然爆破音[p]和[b](以及[d]和[t]、[g]和[k])的发音类似,但是基于该爆破音是话音的还是非话音的(例如‘pig’对‘big’)会形成完全不同的单词。因此,一个音素可被分类成话音声音或者非话音声音。
下文中,将参考附图描述本发明的较佳实施例。
本领域普通技术人员应该理解的是在对本发明的描述中,如果认为对相关已知功能或结构的详细解释会不必要地转移本发明的主旨,那么就省略这些解释。
图1是示出了根据本发明提取特征向量用于语音识别的方法的流程图。
参考图1,从话音信号中提取涉及第一输入话音信号整体频谱形状的特征向量(S110)。
涉及所述话音信号整体频谱形状的特征向量可以包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)以及知觉线性预测系数(PLPC)等等中的至少一种。
根据本发明的所述方法,也可从话音信号中涉及存在于话音信号中的话音和非话音声音的特征向量(S120)。例如可以通过提取涉及该声音是话音的还是非话音的参数、实验性地获取适当的增益值(G)并且加权所述提取出的参数来生成特征向量。
可使用多种方法确定某声音是话音的还是非话音的。相对简单的方法包括使用如下方程式:
r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k
在这里,Nf表示确定某声音是话音还是非话音的帧长度。如果k=1,那么上述方程式表示平均幅度差函数(AMDF)。如果k=2,那么上述方程式就类似于自相关函数的平方。
所述k值可以是从1到3的任意常数。实验法已经示出当k=2时出现最佳结果。然而,k=1具有的优势在于不需要乘法。这样为了节距提取,最适k值应该是1或2。虽然k值可以是从1到3的任意常数,但是在如下描述的实施例中,k的值为2。当k=2时会导致如下方程式所示的自相关函数,并将参考图2A-2D对其进行描述。所述方程式为:
r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k
图2A-2D示出了话音和非话音声音的典型波形。图2A和2B示出了话音声音,图2C和2D示出了非话音声音,而图2B和2D示出了自相关函数。
如图2A和2B所示,话音声音的波形包括了重复模式。而图2C和2D中示出的非话音声音的波形则不包括重复模式。
如果在节距可能存在的范围内检查maxr x [n],那么r x 0]与maxr x [n]在图2B中几乎相同,但是在图2D中大为不同。
r x [0]与maxr x [n]的比率(η)可由以下方程式表示:
η = max r x ‾ [ n ] r x ‾ [ 0 ]
假设可用的节距范围是50到500Hz,那么在8kHz的采样频率下,n的值是从16到160。
如果 η = max η x ‾ [ n ] r x ‾ [ 0 ] 并且16≤n≤160,那么η值在如图2B中所示的话音信号中约为0.75,而在如图2D中所示的非话音信号中约为0.25。
因此,如果输入信号的η值较大,那么该输入信号就很可能是话音信号。如果输入信号的η值较小,那么该输入信号就很可能是非话音信号。所以通过对η值和阈值的比较,如果η值大于或等于该阈值就确定某输入信号是话音信号而如果η值小于该阈值就确定输入信号是非话音信号。
所述n的范围可根据采样速率变化。
此外,可以生成表示参数η的值是大于还是小于所述阈值的1比特指示符。然而优选地是参数η本身可用于提取特征向量,因为如果不正确地生成1比特指示符,则可能劣化识别符的性能。
在训练阶段和识别阶段内利用提取出的特征向量(S130)。提取出的向量可以通过基于HMM或基于DTW的方法添加参数用于增加识别率,并且可在使用神经网络的语音识别方法中使用。
此外为了改善性能,也可利用诸如差分系数或加速系数的特征向量。
如上所述,通过生成以输入信号是话音的还是非话音声音为特征的参数以及通过在训练阶段和识别阶段利用该参数用于语音识别,本发明的提取特征向量用于语音识别的方法达到了改善语音识别率的目的。
因为本发明在不背离其精神或本质特性的情况下能够以不同的形式被具体表达,所以应该理解上述实施例不限于任何前述细节;除非特别指出,否则上述实施例应被广泛解释为落于所附权利要求限定的精神和范围之内,因此所有的改变和修改都落于权利要求或旨在包含所述权利要求的等效物范围内。
在一个实施例中,诸如专用集成电路、可编程逻辑阵列或其他硬件设备的专用的硬件实现可被构建,用于实现在此描述的一种或多种方法。应用可以包括各种实施例的装置和系统,它们可广泛地包括各种电子或计算机系统。在此描述的一个或多个实施例可以使用带有可在各模块间通信的相关控件和数据信号的两个或更多指定的互连硬件模块或者设备,或是作为应用专用集成电路的部分来实现各种功能。因此,本发明包括软件、固件和硬件实现。
与本发明揭示的各个实施例相一致,可通过计算机可执行的软件程序实现在此描述的本方法。此外在一个示例的非限制性实施例中,实现可包括分布式处理、组件/目标分布式处理以及并行处理。另外还可以构建虚拟计算机系统处理用于实现在此描述的一种或多种方法和功能。
本发明的揭示还考虑到包括有指令或接收并处理响应于某传播信号的指令的计算机可读介质。术语“计算机可读介质”包括单介质或多介质,诸如集中式或分布式数据库和/或存储一个或多个指令集的相关高速缓存和服务器。术语“计算机可读介质”还包括能够存储、编码或执行可由处理器执行的指令集的任何介质,或者是使得计算机系统执行在此揭示的方法和操作的任何一个或多个的任何介质。
在特定的非限制性的典型实施例中,计算机可读介质包括诸如存储器卡或其他装有一个或多个非易失性只读存储器的封装的固态存储器,此外,计算机可读介质可以是随机存取存储器或者其他易失性的可重写的存储器。另外,计算机可读介质包括磁光或光学介质,诸如盘片、磁带或者能够捕获诸如在传输设备上通信的信号的载波信号的其他存储设备。电子邮件附件的数字文件或者其他自包含的信息归档文件或者归档文件组也可考虑作为等效于实际存储介质的分布式介质。因此,该揭示可考虑包括任何计算机可读介质或者可存储数据或指令的分布式介质以及任何其他的等效和后续媒介。
虽然本发明的说明描述的组件和功能可在参考了特定标准和协议的特定实施例中实现,但是本发明不限于这些标准和实施例。每一个标准、协议或语音都表示了最新的实例。本质上功能相同但更快或更有效的等效物周期性地代替这些标准。因此,具有相同或类似功能的代替标准和协议都被认为是等效的。
在此描述的实施例的说明旨在提供对各种实施例结构的大致理解。这些说明并非旨在用作对利用可在此描述的结构或方法的所述装置和相同的元素和特征的完全描述。许多其他实施例在本领域普通技术人员阅读过该揭示后将变得显而易见。可以利用并从该揭示中导出其他实施例,使得做出结构上和逻辑上的代替和改变都不背离本揭示的范围。此外,该说明仅仅是代表性的。因此,该揭示和图像应被认为是示意性的,而不是限制性的。
该揭示的一个或多个实施例在此可被单独地和/或统一地称为术语“发明”,仅出于方便使用该术语,而并非自愿限制对任何特定发明或发明概念的应用的范围限制。此外,虽然已经在此示出并描述了特定实施例,但应该认识到任何设计用于完成相同或类似目的的后续结构都可代替示出的特定实施例。该揭示旨在覆盖任何或全部的各个实施例的后续改编或者变化。上述实施例的组合以及未在此特定描述的其他实施例对于阅读了该说明的本领域普通技术人员来说都是显而易见的。
以上揭露的主题被认为是示意性而非限制性的,并且所附权利要求旨在覆盖所有落于本发明真实精神和范围内的修改、增强和其他实施例。这样为了法律允许的最大范围,本发明的范围是由随后的权利要求及其等效物的最广可允许解释所确定的,并且不被前述详细描述所限制。
虽然在此描述的本发明参考了若干典型实施例,但是可以理解的是已使用的词汇是描述性和说明性的词汇,而非限制性的词汇。因为本发明能够以不同形式被具体表达而不背离其精神和本质特征,所以应该理解除非特别指出,上述实施例不限于前述任何细节。而且上述实施例应该被解释为位于由所附权利要求限定的本发明的精神和范围内。因此,正如在此陈述并改进地,可在所附权利要求的范围内做出改变,而不背离本发明在其各个方面的范围和精神。

Claims (29)

1.一种用于识别语音的方法,包括:
从输入信号中提取一参数,它表示作为话音或非话音声音的输入信号的表征;以及
基于所述提取出的参数识别语音。
2.如权利要求1所述的方法,其特征在于,还包括基于所述提取出的参数提取特征向量。
3.如权利要求1所述的方法,其特征在于,使用如下方程式计算该参数:
η = max r x ‾ [ n ] r x ‾ [ 0 ] 其中,
r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k ,
η表示提取出的参数,而Nf表示确定声音是话音还是非话音的帧的长度。
4.如权利要求3所述的方法,其特征在于,k值为1,2和3其中之一。
5.如权利要求1所述的方法,其特征在于,当输入信号包括话音声音时,所述提取出的参数大于或等于阈值。
6.如权利要求1所述的方法,其特征在于,当输入信号包括非话音声音时,所述提取出的参数小于阈值。
7.如权利要求1所述的方法,其特征在于,识别语音包括利用基于隐马尔可夫模型的识别方法。
8.如权利要求1所述的方法,其特征在于,识别语音包括利用基于动态时间偏斜的识别方法。
9.如权利要求1所述的方法,其特征在于,识别语音包括利用基于神经网络的识别方法。
10.如权利要求1所述的方法,其特征在于,还包括:
基于所述提取出的参数,生成指示所述输入信号包括话音声音还是非话音声音的比特;以及
基于已生成的比特识别所述语音。
11.如权利要求1所述的方法,其特征在于,还包括添加差分系数和加速系数的至少一个给所述提取出的参数。
12.一种用于识别语音的方法,包括:
从输入信号中提取对应于语音的全部频谱形状的至少一个特征向量;
从所述输入信号中一参数,它表示作为话音或非话音声音的输入信号的表征;以及
基于至少一个提取出的特征向量以及提取出的参数识别语音。
13.如权利要求12所述的方法,其特征在于,在可用间距范围内使用如下方程式计算参数:
η = max r x ‾ [ n ] r x ‾ [ 0 ] 其中,自相关函数 r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k , η表示提取出的参数,而Nf表示确定某声音是话音还是非话音的帧的长度。
14.如权利要求12所述的方法,其特征在于,当输入信号包括话音声音时,所述提取出的参数大于或等于阈值。
15.如权利要求12所述的方法,其特征在于,当输入信号包括非话音声音时,所述提取出的参数小于阈值。
16.如权利要求12所述的方法,其特征在于,识别语音包括利用隐马尔可夫模型识别方法、动态时间偏斜识别方法以及神经网络识别方法中的一种。
17.如权利要求12所述的方法,其特征在于,还包括:
基于所述提取出的参数,生成指示所述输入信号包括话音声音或非话音声音的比特;以及
基于已生成的比特识别所述语音。
18.如权利要求12所述的方法,其特征在于,还包括添加差分系数和加速系数的至少一个给所述提取出的参数。
19.一种包括用于识别语音的程序的计算机可读介质,所述程序包括指令用于:
从输入信号中提取一参数,它表示作为话音或非话音声音的输入信号的表征;以及
基于所述提取出的参数识别语音。
20.如权利要求19所述的计算机可读介质,其特征在于,所述程序还包括基于所述提取出的参数提取特征向量的指令。
21.如权利要求19所述的计算机可读介质,其特征在于,使用如下方程式计算该参数:
η = max r x ‾ [ n ] r x ‾ [ 0 ] 其中,
r x ‾ ( k ) [ n ] = 1 N f { Σ n = 0 N f - 1 | x [ n ] - x [ n - m ] | k } 1 k ,
η表示提取出的参数,而Nf表示确定某声音是话音还是非话音的帧的长度。
22.如权利要求21所述的计算机可读介质,其特征在于,k值为1,2和3其中之一。
23.如权利要求19所述的计算机可读介质,其特征在于,当输入信号包括话音声音时,所述提取出的参数大于或等于阈值。
24.如权利要求19所述的计算机可读介质,其特征在于,当输入信号包括非话音声音时,所述提取出的参数小于阈值。
25.如权利要求19所述的计算机可读介质,其特征在于,用于识别语音的指令包括利用基于隐马尔可夫模型的识别方法的指令。
26.如权利要求19所述的计算机可读介质,其特征在于,用于识别语音的指令包括利用基于动态时间偏斜的识别方法的指令。
27.如权利要求19所述的计算机可读介质,其特征在于,用于识别语音的指令包括利用基于神经网络的识别方法的指令。
28.如权利要求19所述的计算机可读介质,其特征在于,所述程序还包括指令用于:
基于所述提取出的参数,生成指示所述输入信号包括话音信号或非话音声音的比特;以及
基于已生成的比特识别所述语音。
29.如权利要求19所述的计算机可读介质,其特征在于,所述程序还包括用于添加差分系数和加速系数的至少一个给所述提取出的参数的指令。
CN200510137026.1A 2004-12-13 2005-12-13 提取特征向量用于语音识别的方法 Pending CN1819017A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105110 2004-12-13
KR1020040105110A KR20060066483A (ko) 2004-12-13 2004-12-13 음성 인식을 위한 특징 벡터 추출 방법

Publications (1)

Publication Number Publication Date
CN1819017A true CN1819017A (zh) 2006-08-16

Family

ID=36228759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510137026.1A Pending CN1819017A (zh) 2004-12-13 2005-12-13 提取特征向量用于语音识别的方法

Country Status (5)

Country Link
US (1) US20060129392A1 (zh)
EP (1) EP1675102A3 (zh)
JP (1) JP2006171750A (zh)
KR (1) KR20060066483A (zh)
CN (1) CN1819017A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
US10062378B1 (en) 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN111798871A (zh) * 2020-09-08 2020-10-20 共道网络科技有限公司 会话环节识别方法、装置及设备、存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009014991A1 (de) 2008-03-26 2010-08-05 Ident Technology Ag System und Verfahren zur multidimensionalen Gestenauswertung
KR101094763B1 (ko) 2010-01-29 2011-12-16 숭실대학교산학협력단 사용자 인증을 위한 특징벡터 추출장치 및 방법
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
CN103258531B (zh) * 2013-05-29 2015-11-11 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
CN105719645B (zh) * 2014-12-17 2020-09-18 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
WO2018154372A1 (en) * 2017-02-24 2018-08-30 International Business Machines Corporation Sound identification utilizing periodic indications
US10062378B1 (en) 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
US10460723B2 (en) 2017-02-24 2019-10-29 International Business Machines Corporation Sound identification utilizing periodic indications
GB2574164A (en) * 2017-02-24 2019-11-27 Ibm Sound identification utilizing periodic indications
US10832661B2 (en) 2017-02-24 2020-11-10 International Business Machines Corporation Sound identification utilizing periodic indications
GB2574164B (en) * 2017-02-24 2021-12-29 Ibm Sound identification utilizing periodic indications
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN111798871A (zh) * 2020-09-08 2020-10-20 共道网络科技有限公司 会话环节识别方法、装置及设备、存储介质

Also Published As

Publication number Publication date
EP1675102A3 (en) 2006-07-26
KR20060066483A (ko) 2006-06-16
EP1675102A2 (en) 2006-06-28
JP2006171750A (ja) 2006-06-29
US20060129392A1 (en) 2006-06-15

Similar Documents

Publication Publication Date Title
CN1819017A (zh) 提取特征向量用于语音识别的方法
Ghai et al. Literature review on automatic speech recognition
US11538455B2 (en) Speech style transfer
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN107731233B (zh) 一种基于rnn的声纹识别方法
US8812315B2 (en) System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
EP1571652A2 (en) Combining active and semi-supervised learning for spoken language understanding
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
US20070239444A1 (en) Voice signal perturbation for speech recognition
WO2003010753A1 (en) Pattern recognition using an observable operator model
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
US20220068257A1 (en) Synthesized Data Augmentation Using Voice Conversion and Speech Recognition Models
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
US11475874B2 (en) Generating diverse and natural text-to-speech samples
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
KR20180028893A (ko) 음성 인식 시스템 및 방법
Nanavare et al. Recognition of human emotions from speech processing
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
EP3718107B1 (en) Speech signal processing and evaluation
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN1864202A (zh) 语音识别系统的环境失配的自适应
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication