CN101076851B - 口语识别系统以及用于训练和操作该系统的方法 - Google Patents

口语识别系统以及用于训练和操作该系统的方法 Download PDF

Info

Publication number
CN101076851B
CN101076851B CN2005800391610A CN200580039161A CN101076851B CN 101076851 B CN101076851 B CN 101076851B CN 2005800391610 A CN2005800391610 A CN 2005800391610A CN 200580039161 A CN200580039161 A CN 200580039161A CN 101076851 B CN101076851 B CN 101076851B
Authority
CN
China
Prior art keywords
language
training
vector
voice
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800391610A
Other languages
English (en)
Other versions
CN101076851A (zh
Inventor
李海州
马斌
G·M·怀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN101076851A publication Critical patent/CN101076851A/zh
Application granted granted Critical
Publication of CN101076851B publication Critical patent/CN101076851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measuring Volume Flow (AREA)
  • Rehabilitation Tools (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

一种训练口语识别系统以将未知语言识别为多种已知候选语言中的一种的方法,其包括如下处理:生成包括多个声音标记的声音目录,从所述已知候选语言的子集提供所述集体的多个声音标记。所述方法进一步包括提供多个训练样本,每个训练样本由一种已知候选语言构成。进一步包括从各个训练数据库生成一个或多个训练向量的处理,其中,每个训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数。所述方法进一步包括将各个训练向量与相对应的训练样本的候选语言相关联。

Description

口语识别系统以及用于训练和操作该系统的方法
相关申请的交叉引用
此申请对在2004年9月17日提交的美国临时申请60/611,022主张优先权,并将其全部内容在此引用作为参考。
技术领域
本发明涉及语言识别系统以及用于训练和操作所述系统的方法。
背景技术
随着全球化、国际商务以及安全考虑的增长,对多语言语音应用,具体地,对自动语言识别(LID)的需求越来越强烈。自动语言识别的可能应用包括自动呼叫路由、音频挖掘以及语音自动维护系统(voice automatedattendant system)。
基于声学音位结构学的LID表示一种在本领域中使用的语言识别系统,如图1中对其进行阐述。所述系统通常包括四个可操作阶段,以处理语音片段并将其分类到多个可能的候选语言中的一个。初始地训练所述系统,借此对所述系统进行编程,以识别各候选语言的具体特征。在训练之后,进行语言识别操作,借此处理未知语言的语音样本,并将其与先前编程的特征进行比较,以确定存在或不存在所述特征,与所述样本具有最大数量的相关的候选语言被认为是所述样本的语言。
常规系统存在几个缺点,一个缺点是,需要针对具体语言的开发工作以加入新的候选语言。这种要求引起了声学和语言建模的高成本,并且需要语音数据抄录工作。于是,关于加入新语言,常规系统并不具有很好的可扩展性。
因此,需要改进的口语识别系统,其对于新的候选语言具有更好的可扩展性。
发明内容
本发明提供了一种仅利用候选语言的声音字母表的子集来识别口语的系统和方法。因为仅使用了所述候选的声音字母表的子集,语音训练和识别操作更快、存储效率更高。
在一个代表性实施例中,提出了一种训练口语识别系统以将未知语言识别为多个已知的候选语言中的一个的方法,所述方法包括如下处理:生成包括多个声音标记(sound token)的声音目录,其中从所述已知的候选语言的子集提供所述集体的(collective)多个声音标记。所述方法进一步包括提供多个训练样本,每个训练样本由一个已知的候选语言构成。进一步包括从各个训练样本生成一个或多个训练向量的处理,其中,每个训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数。所述方法进一步包括将各训练向量与相对应的训练样本的候选语言相关联。
参考如下附图和示例性实施例的详细描述,将更好地理解本发明的这些和其它特征。
附图说明
图1阐明了本领域中已知的口语识别系统;
图2阐明了根据本发明的口语识别系统;
图3阐明了一种根据本发明的用于训练口语识别系统的方法;
图4阐明了一种根据本发明的识别未知语言样本的语言的方法;
图5A阐明了根据本发明提供的口语识别系统的分类出错率(classification error rate);
图5B阐明了与现有技术的声学音位结构学系统相比的本发明的口语识别系统的分类出错率;
图6阐明了作为用于本发明的口语识别系统的训练数据的函数的示例性分类出错率。
为简明起见,在后续附图中保留在前识别的特征的参考数字。
具体实施方式
语言识别系统
图2阐明了根据本发明的口语识别系统。所述系统200包括声音识别器210和声音分类器220。任选地,所述系统200可包括数据库230,用于存储训练样本2321-n,以及数据库240,用于存储训练向量2421-n。可选地,数据库230和240可以远离所述系统200。
所述声音识别器200包括被连接以接收训练样本2301-n的输入,声音识别器200还可进行操作,以接收(经由相同的输入或另一个输入)未知语言样本250。读者将知道,可以以几种不同形式提供所述训练和/或未知语言样本,例如,作为实况或记录的声音,所述语音本身可为任何格式,如,模拟或数字形式。
各训练样本230i包括一个或多个预先定义的语音话语(speechutterance),其由将被系统识别的所述候选语言之一组成。所述定义各个训练样本230i的一个或多个训练话语(training utterance),被选择以提供在该特定候选语言中使用的大多数音素或其它音位结构标志。各训练样本可以采用任何持续时间的任何数量的训练话语,在示例性实施例中,使用100-3000个分开的训练话语,每个语音话语长5到15秒。进一步的例子,所述未知语音样本250具有与所述语音话语相似的持续时间,例如,持续时间在5-15秒之间。
声音识别器210可操作以,在语言训练模式下的系统操作期间从所接收的训练样本230i生成训练向量240i,并且,在识别模式下的操作期间从所述未知语言样本250生成未知语言向量260。如所示,分别向数据库240和声音分类器220提供生成的训练和未知语言向量240i和260(以下对它们进行描述)。在本发明的可选实施例中,声音识别器210被配置成为各训练样本230i中包括的各个语音话语或其组合来生成训练向量。在这样的情况中,所得到的对应于所述相同训练样本中的不同语音话语的训练向量,被集合地处理,以形成在语言识别处理中使用的统计模型,这将在以下进行进一步描述。
在操作的训练和识别模式中,声音识别器210生成作为音素212的函数的训练和未知语言向量240i和260,该音素可以被提供给声音识别器210或者在声音识别器210中进行本地存储。在具体实施例中,从系统200可进行识别的n种候选语言的子集中获得音素212。由于这样的观察结果,即尽管在音位结构意义上有所不同,许多语言采用相同的音素,于是可以使用从所述n种候选语言的子集得到的一小组音素来识别大量语言。在本发明中,声音识别器210利用作为其字母表的更小的音素集来生成向量240i和260,该向量对所提供的训练或未知语言样本的音位结构特征建模,所述音素集包括至少一些可为两种或多种候选语言重用的音素。注意到,尽管是针对音素来描述所述训练和未知语言向量的前述生成,可以理解的是,可以使用任何音位结构标志。另外,也可以使用声学稳态声音标记。进一步,可以使用诸如音节的语音子字作为声音标记。术语“声音标记”被用来描述这些参数的每一个。
系统200进一步包括声音分类器220,其被连接以在训练模式操作期间接收训练向量240i,以及在语音识别模式操作期间接收未知语言向量260。所述声音分类器可进行操作以将未知语音样本250的语言识别为与未知语言向量260最相关(closest correlation)的训练向量相关联的语言。
系统训练的方法
图3阐明了一种根据本发明的用于训练口语识别系统200的方法。初始时,在302,利用从系统200可进行识别的候选语言的子集获取的声音标记来生成声音目录(例如,图2中的212)。在以下阐明的示例性实施例中,所述声音目录由来自三种语言的声音标记组成,而所述语音识别系统能够识别六种不同的候选语言。当然,也可以有其它设计,例如,系统可以利用来自所述候选语言中的单一一种的声音标记来识别多种候选语言。由上可见,声音目录212可以被形成为系统200的一部分,或者也可以远离系统200。
在304,提供在各候选语言中构成的训练样本230i。可以在所述系统中本地地提供训练样本230i,或者从外部源进行提供。
接下来在306,从各个训练样本230i生成一个或多个训练向量240i,该训练向量被生成为前述声音标记的函数。对于V个声音标记的系统,在此处理的一个实施例中,训练向量240i由声音标记序列m1 n,...,ml n,...,mL n中的声音标记的计数组成,其中n是候选语言指数,L是声音标记序列的长度。因此,各训练向量240i具有D=V维,各元素表示各个声音标记的计数。令v为所述声音目录中的第v个声音标记,且cv n是所述声音标记序列m1 n,...,ml n,...,mL n中的所述第v个声音标记的出现次数除以所有声音标记的总出现次数。
c v n = c ( v ) Σ v c ( v )
在本发明的另一个实施例中,训练向量240i由声音标记序列m1 n,...,ml n,...,mL n中的声音标记对的计数组成。由于V个声音标记的声音目录导致N=V×V个声音标记对,每个训练向量240i具有N=V×V维,每个元素表示各声音标记对{vjvk}的计数。
c v j v k n = c ( v j v k ) Σ v j v k c ( v j v k )
本发明的另一个实施例包括诸如声音标记三元组、四元组的更大音位结构单元。本领域技术人员将了解本发明也可以具有其它实施例。
在具体实施例中,作为上述本发明一个实施例中的声音识别器处理的一部分进行处理306。进一步由上可见,所述训练样本230i的每一个可包括几个语音话语,该话语的每一个(或两个或多个的组合)被用于作为基础以生成训练向量240i,此训练向量的集合可被用来形成用于确定未知语言样本的语言类型的统计模型。在308,各训练向量240i被与相应训练样本230的候选语言相关联。与语言n相关联的训练向量240n的集合被用于表示第n种语言。进一步,基于所述训练向量240n的集合为每种语言n构造统计模型λn。这样,通过统计模型表示训练向量的集合。在此处理的示例性实施例中,使用训练向量的集合的算术平均值来形成均值向量,所述均值向量形成统计模型λn的基础。
语言识别的方法
图4阐明了一种根据本发明的识别未知语言样本的语言的方法。所述处理主要建立在前述训练处理之上,在其中,利用从候选语言的子集获得的音位结构标志的字母表来训练系统200,从而识别n种候选语言。
在所示出的示例性实施例中,所述处理从402开始,在此步骤中,接收未知语言样本,由此生成未知语言向量,所述未知语言向量被定义为前述从候选语言子集获取的声音标记的函数。所述未知语言向量的示例性实施例包括如上所述的声音标记的向量或声音标记对、声音标记三元组和四元组的向量。
在404中,未知语言向量被与一个或多个训练向量240相关联,其中,将与所述未知语言向量最相关的训练向量的相关联的语言识别为所述未知语言样本的语言。在处理404的具体实施例中,未知语言向量X被提取,并被用于与各个训练向量统计模型λn相关联,以确定在未知语言向量和语言n之间的相关性:
n ^ = arg max n P ( X / λ n )
其中,将表现出最相关(呈现最高概率)的统计模型当作最优统计模型,并且将其对应语言判断为所述未知语言样本的语言。
在本发明的进一步实施例中,可以记录所述声音标记以及其不同阶(诸如对、三元组和四元组)的组合的计数的频率,并且将其安排在所述语言向量中。这种向量的实现允许全局评价以及在所述未知语言向量和训练向量之间的相关,或者从所述训练向量得到的统计模型,而不是在音素n元(phone n-gram)语言模型中使用的较短持续时间分析。本发明不仅像现有技术一样通过利用声音标记对、三元组和四元组作为语言向量的元素来并入局部声音标记同现的统计,而且并入长距离的分离的声音标记的统计,在该声音标记中,例如,通过10-20秒并利用数百个插入声音来分离声音。
示例性系统实施例以及性能
构造了语言识别系统200的示例性实施例,利用仅来自汉语普通话、英语和韩语这三种语言的音素来识别汉语普通话、汉语广东话、汉语上海方言、日语、韩语以及英语这六种候选语言。系统200在声音识别器之前实现预处理,包括为每个语音帧提取39维特征向量,该特征向量由12个Mel频率倒谱系数和归一化能量,以及一阶和二阶导数构成。在所述训练和识别模式中,为声学归一化提供基于句子的倒谱均值减。随后向声音识别器210提供所述39维向量。
训练样本230的训练语料库被用来训练所述语言识别模式中使用的后一种系统所需要的声音目录210。通常需要约10个小时的语音进行训练。所述具体实施例使用了利用8kHz采样率数字化的电话语音输入进行测试。其使用124个音素,此124个音素由分别来自训练语料库中的汉语普通话、英语和韩语的43、44和37个音素组成。与应用中的术语一致,将这些音素称为“声音标记”。如上所述,可以将基本“声音标记”的目录定义为音素集、声学稳态声音标记等。
通过从左至右三发射状态CDHMM对各个声音标记建模,每个状态具有32个高斯混合分量。除了从这些状态发出的124个声音标记之外,建立多个噪声模型,以吸收不同类型的噪声事件。使用一组基于广义“声音”定义的平坦模型作为参考基础,以获取声学置信度得分。自适应话音检测器被用于检测语音的起点和终点。声音分类器220被实现为支持向量机(SVM),尽管在其它实现中,可以使用潜在语义分析(LSA)、人工神经网络,或者任何其它高维向量分类器。在语言识别操作期间,声音识别器210将未知语言的输入语音转换为声音序列。所述声音分类器首先从序列提取未知语言向量,然后对于所有感兴趣的训练向量测量所述未知语言向量,将训练向量相对于所述未知语言向量具有最高相似度得分的语言作为识别的结果语言。在所述声音分类器使用的时间窗的长度从5到10到15秒变化。训练例的数目从100到3000变化。
图5A阐明了作者为Ma Bin和Li Haizhou的“Spoken LanguageIdentification Using Bag of Sounds”(March 21,2005,InternationalConference on Chinese Computing 2005)中报告的口语识别系统的分类出错率,将此文章通过引用在此引入。对于每种语言,构造用于训练和测试声音分类器220的分离的数据库,并且在测试中不使用所述训练数据库。
对于在5、10和15秒的每个测试集,使用2000个训练向量建立SVM分类器220。测试语料库包括500个5、10和15秒的未知语言向量。图5A示出了更长的输入话语导致更好的分类准确度,如所期望的。在10秒钟测试中对于六种语言的平均准确度是,正确率98.1%,出错率1.9%。
图5B阐明了,与前述Ma Bin的文献中报告的现有技术的声学音位结构学系统(标示为AP)相比,本发明的口语识别系统(标示为BOS)的分类出错率。所述测试包括汉语普通话、英语和韩语这三种基准语言。构造三个单语言音素识别器以及它们各自的音素二元语言模型。在声学解码中使用电话环语法(phone loop grammar),并且使用音素二元来得到最终的音素序列。通过三个并行的声学音位结构解码器提供未知语言样本,组合的声学和语言模型得分的获胜者得到全部。本发明提供了与现有技术的声学音位结构系统相比大大改进的准确率,这非常明显。
图6阐明了作为用于本发明的口语识别系统的训练样本的数目的函数的示例性分类出错率。对于5、10和15秒的每个训练样本,训练样本的数目从100到3000变化。所述数据指示需要较少的长持续时间的训练样本。例如,为得到约百分之二的可接受错误率,仅需要100个15秒持续时间的训练会话,而为实现相同的准确率,需要约2000个十秒的训练样本。
本领域技术人员可以很容易地理解,可以在硬件、软件、固件或这些实施方式的组合中适当地实现上述处理。另外,上述处理的部分或者全部可以被实现为在计算机可读介质(可移动硬盘、易失或非易失存储器、嵌入式处理器等)上驻留的计算机可读指令代码,所述指令代码可进行操作以对其它可编程设备的计算机进行编程,从而执行所期望的函数。
已经呈现了上述描述以用于阐明和描述。并非将本发明穷尽或限制为所公开的具体形式,很明显,根据所公开的资料可以得到许多修改和变型。选择上述实施例,以最好地解释本发明的原理及其实际应用,从而使得本领域技术人员能够以各种实施例以及利用适合于其所考虑的具体应用的各种修改来最好地利用本发明。由后附的权利要求来定义本发明的范围。

Claims (9)

1.一种操作口语识别系统的方法,将未知语言识别为多种已知的候选语言中的一种,所述方法包括如下步骤:
生成包括多个声音标记的声音目录,从所述已知的候选语言的子集提供集体的多个声音标记;
提供多个训练样本,每个所述训练样本由一种所述已知的候选语言构成;
从各个所述训练样本生成一个或多个训练向量,其中,每个所述训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数;以及
将各个所述训练向量与相对应的所述训练样本的候选语言相关联;
从未知语言样本生成未知语言向量,所述未知语言向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数;以及将所述未知语言向量与多个所述训练向量相关;
其中,将与所述未知语言向量最相关的训练向量所相关联的语言识别为所述未知语言样本的语言;
其中,生成一个或多个训练向量包括生成对应于一种候选语言的多个训练向量,所述方法进一步包括:从与所述候选语言相关联的所述多个训练向量构造统计模型;
其中使用所述多个训练向量的算术平均值来形成均值训练向量,所述均值训练向量形成统计模型λn的基础,该统计模型被用于确定在所述均值训练向量和与未知语言样本相关联的未知语言向量之间的相关性。
2.根据权利要求1所述的方法,其中,所述声音目录包括V个所述声音标记,所述训练向量包括在声音标记序列中的声音标记的计数,其中n是候选语言指数,L是该声音标记序列的长度,其中,所述声音标记的计数包括
Figure FSB00000596644600012
其中v被定义为所述声音目录中的第v个声音标记,且被定义为所述声音标记序列
Figure FSB00000596644600014
中的所述第v个声音标记的出现次数除以所有声音标记的总出现次数:
c v n = c ( v ) Σ v c ( v ) .
3.根据权利要求1所述的方法,其中,所述声音目录包括V个声音标记,所述训练向量包括在声音标记序列
Figure FSB00000596644600022
中的声音标记对的计数,其中n是候选语言指数,L是该声音标记序列的长度,其中,所述声音标记对的计数包括其中,被定义为在所述声音标记序列中的声音标记对的出现次数除以所有声音标记对{vjvk}的总出现次数:
c v j v k n = c ( v j v k ) Σ v j v k c ( v j v k ) .
4.一种口语识别系统,其可进行操作以将未知语言样本的语言识别为一种或多种已知候选语言,所述口语识别系统包括:
(i)用于生成包括多个声音标记的声音目录的装置,其中从所述已知候选语言的子集提供多个声音标记,
(ii)用于提供训练样本的装置,其中该训练样本由所述已知候选语言构成,
(iii)用于从各个所述训练样本生成一个或多个训练向量的装置,其中,每个所述训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数,
(iv)用于将各个所述训练向量与相对应的所述训练样本的候选语言相关联的装置,以及
(v)用于识别所述未知语言样本的语言的装置,包括:
用于从所述未知语言样本生成未知语言向量的装置,所述未知语言向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数;以及
用于将所述未知语言向量与多个所述训练向量相关的装置,
其中,与所述未知语言向量最相关的训练向量所相关联的语言被识别为所述未知语言样本的语言;
其中,生成一个或多个训练向量包括生成对应于一种候选语言的多个训练向量,并从与所述候选语言相关联的所述多个训练向量构造统计模型;
其中使用所述多个训练向量的算术平均值来形成均值训练向量,所述均值训练向量形成统计模型λn的基础,该统计模型被用于确定在所述均值训练向量和与未知语言样本相关联的未知语言向量之间的相关性。
5.根据权利要求4所述的系统,其中,通过统计模型λn表示对应于候选语言n的一个或多个训练向量,并且其中,所述相关包括将未知语言向量X与一个或多个训练向量统计模型λ相关,以确定在所述未知语言向量和语言n之间的相关性:
n ^ = arg max n P ( X / λ n )
由此,将表现出最高概率的统计模型视为最优统计模型,并且将其对应的语言判断为所述未知语言样本的语言。
6.一种口语识别系统,其可进行操作以将未知语言识别为一种或多种已知候选语言,所述系统包括:
声音识别器,其被连接以接收未知语言样本,所述声音识别器可进行操作以从所述未知语言样本生成未知语言向量,所述未知语言向量被定义为多个声音标记的函数,其中从所述候选语言的子集提供所述多个声音标记;以及
声音分类器,其被连接以接收所述未知语言向量,所述声音分类器可进行操作以将所述未知语言向量与一个或多个预定义的训练向量相关,所述训练向量的每一个与候选语言相关联,所述声音分类器可进行操作以将所述未知语言样本的语言识别为与所述未知语言向量最相关的训练向量的语言;
其中,生成一个或多个预定义训练向量包括生成对应于一种候选语言的多个训练向量,并从与所述候选语言相关联的所述多个训练向量构造统计模型;
其中使用所述多个训练向量的算术平均值来形成均值训练向量,所述均值训练向量形成统计模型λn的基础,该统计模型被用于确定在所述均值训练向量和与未知语言样本相关联的未知语言向量之间的相关性。
7.根据权利要求6所述的口语识别系统,其中,所述声音识别器进一步可进行操作以接收多个训练样本,每个所述训练样本由候选语言中的一种构成,所述声音识别器进一步包括:
声音目录,其包括从所述候选语言的子集提供的所述多个声音标记;以及
用于从所述训练样本生成候选语言向量的装置,所述候选语言向量与所述候选语言中的一种相关联,并且所述候选语言向量被定义为从所述候选语言的子集提供的所述多个声音标记的函数。
8.根据权利要求7所述的系统,其中,所述声音目录包括V个声音标记,每个训练向量包括在声音标记序列
Figure FSB00000596644600041
中的声音标记的计数,其中n是候选语言指数,L是该声音标记序列的长度,其中,所述声音标记的计数包括
Figure FSB00000596644600042
其中v被定义为所述声音目录中的第v个声音标记,且
Figure FSB00000596644600043
被定义为所述声音标记序列
Figure FSB00000596644600044
中的所述第v个声音标记的出现次数除以所有声音标记的总出现次数:
c v n = c ( v ) Σ v c ( v ) .
9.根据权利要求7所述的系统,其中,所述声音目录包括V个声音标记,每个训练向量包括在声音标记序列
Figure FSB00000596644600046
中的声音标记对的计数,其中n是候选语言指数,L是该声音标记序列的长度,其中,所述声音标记对的计数包括
Figure FSB00000596644600047
其中,
Figure FSB00000596644600048
被定义为在所述声音标记序列
Figure FSB00000596644600049
中的声音标记对的出现次数除以所有声音标记对{vjvk}的总出现次数: c v j v k n = c ( v j v k ) Σ v j v k c ( v j v k ) .
CN2005800391610A 2004-09-17 2005-09-19 口语识别系统以及用于训练和操作该系统的方法 Active CN101076851B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US61102204P 2004-09-17 2004-09-17
US60/611,022 2004-09-17
PCT/IB2005/002760 WO2006030305A1 (en) 2004-09-17 2005-09-19 Spoken language identification system and methods for training and operating same

Publications (2)

Publication Number Publication Date
CN101076851A CN101076851A (zh) 2007-11-21
CN101076851B true CN101076851B (zh) 2011-12-28

Family

ID=36059734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800391610A Active CN101076851B (zh) 2004-09-17 2005-09-19 口语识别系统以及用于训练和操作该系统的方法

Country Status (7)

Country Link
US (1) US7917361B2 (zh)
EP (1) EP1800293B1 (zh)
CN (1) CN101076851B (zh)
AT (1) ATE505785T1 (zh)
DE (1) DE602005027480D1 (zh)
TW (1) TWI330824B (zh)
WO (1) WO2006030305A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185376B2 (en) * 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
US20090187399A1 (en) * 2008-01-22 2009-07-23 O'dell Robert B Using Homophones and Near-Homophones to Improve Methods of Computer Text Entry for Chinese Characters
EP2107554B1 (en) * 2008-04-01 2011-08-10 Harman Becker Automotive Systems GmbH Generation of multilingual codebooks for speech recognition
US20100088097A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation User friendly speaker adaptation for speech recognition
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US9966064B2 (en) 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578465B (zh) 2013-10-18 2016-08-17 威盛电子股份有限公司 语音辨识方法及电子装置
US9189742B2 (en) 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US10089977B2 (en) * 2015-07-07 2018-10-02 International Business Machines Corporation Method for system combination in an audio analytics application
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
CN107871496B (zh) * 2016-09-23 2021-02-12 北京眼神科技有限公司 语音识别方法和装置
CN109145145A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
US10579733B2 (en) 2018-05-10 2020-03-03 Google Llc Identifying codemixed text
WO2021248032A1 (en) * 2020-06-05 2021-12-09 Kent State University Method and apparatus for identifying language of audible speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1140870A (zh) * 1995-04-07 1997-01-22 索尼公司 语言识别方法和装置及语言翻译系统
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US580571A (en) * 1897-04-13 Car hand-strap
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
GB9927528D0 (en) * 1999-11-23 2000-01-19 Ibm Automatic language identification
TW508564B (en) 2000-05-16 2002-11-01 Jia-Chi Feng Method and system for phonetic recognition
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
US7319958B2 (en) * 2003-02-13 2008-01-15 Motorola, Inc. Polyphone network method and apparatus
US7689404B2 (en) * 2004-02-24 2010-03-30 Arkady Khasin Method of multilingual speech recognition by reduction to single-language recognizer engine components

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
CN1140870A (zh) * 1995-04-07 1997-01-22 索尼公司 语言识别方法和装置及语言翻译系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
C.Corredor-Ardoy et al.language identification with language-independent acoustic models.Proc. EUROSPEECH.1997,1第55-58页. *
C.Corredor-Ardoy et al.language identification with language-independent acoustic models.Proc. EUROSPEECH.1997,1第55页第3-9行,第57页第4-8行. *
K. M. Berkling et al.Language Identification of Six Languages Based on a Common Set of Broad Phonemes.Pro. International Conference on Spoken Language Processing.1994,4第1891-1894页. *
M. A. Zissman et al.Automatic language identification.Speech Communication.2001,35(1),第115-24页. *
Marc A. Zissman.Comparison of Four Approaches to Automatic Language Identification of Telephone Speech.IEEE Transcation on Speech and Audio Processing.1996,4(1),第36页第2段,第6-9段. *
Xuedong Huang, Alex Acero, Hsiao Wuen Hon.Spoken Language Processing.Spoken Language Processing.Prentice Hall PTR,2001,第552-553页. *
Y. K. Muthusamy et al.Reviewing automatic language identification.IEEE Signal Processing Magazine.1994,11(4),第33-41页. *

Also Published As

Publication number Publication date
TW200614149A (en) 2006-05-01
CN101076851A (zh) 2007-11-21
US7917361B2 (en) 2011-03-29
ATE505785T1 (de) 2011-04-15
EP1800293B1 (en) 2011-04-13
DE602005027480D1 (de) 2011-05-26
TWI330824B (en) 2010-09-21
EP1800293A1 (en) 2007-06-27
EP1800293A4 (en) 2007-09-19
US20070299666A1 (en) 2007-12-27
WO2006030305A1 (en) 2006-03-23

Similar Documents

Publication Publication Date Title
CN101076851B (zh) 口语识别系统以及用于训练和操作该系统的方法
CN102227767B (zh) 自动语音-文本转换系统和方法
US10977299B2 (en) Systems and methods for consolidating recorded content
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
EP0708960B1 (en) Topic discriminator
CN101326572B (zh) 具有巨大词汇量的语音识别系统
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US20140142940A1 (en) Diarization Using Linguistic Labeling
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
US20030040907A1 (en) Speech recognition system
KR20170088164A (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
Gandhe et al. Using web text to improve keyword spotting in speech
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
JP2011053569A (ja) 音響処理装置およびプログラム
Penagarikano et al. Improved modeling of cross-decoder phone co-occurrences in SVM-based phonotactic language recognition
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
CN115512692A (zh) 语音识别方法、装置、设备及存储介质
CN111402887A (zh) 一种语音转义文字的方法及装置
CN107924677B (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
Rao et al. Automatic pronunciation verification for speech recognition
Wang et al. Code-Switching Detection Using ASR-Generated Language Posteriors
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant