CN1688999A

CN1688999A - 根据书写文本进行基于可缩放神经网络的语言识别

Info

Publication number: CN1688999A
Application number: CNA038244195A
Authority: CN
Inventors: J·田; J·索恩陶斯塔
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2002-10-22
Filing date: 2003-07-21
Publication date: 2005-10-26
Anticipated expiration: 2023-07-21
Also published as: EP1554670A1; KR20050070073A; CA2500467A1; EP1554670A4; CN1688999B; JP2006504173A; JP2009037633A; WO2004038606A1; BR0314865A; AU2003253112A1; US20040078191A1; KR100714769B1

Abstract

一种根据书写文本执行语言识别的方法，其中采用基于神经网络(20)的语言识别系统来在多种语言中识别字母字符串的语言。利用标准字母字符(22)集，将该字符串映射成映射字母字符串(10)，以使NN－LID(20)系统可以基于标准集(22)确定该映射字符串为所述多种语言之一的概率。所述标准集的字符是从语言相关集的字母字符中选择的。还根据该语言相关集，利用评分系统(30)来确定所述字符串属于各语言的概率。

Description

根据书写文本进行基于可缩放神经网络的语言识别

发明领域

本发明总体上涉及一种用于基于给定的一个或多个单词如移动设备电话簿中的名称来识别语言的方法和系统，以及涉及一种用于语音驱动名称拨号或命令控制应用的多语言语音识别系统。

发明背景

移动电话中的电话簿或联系人列表可能含有以不同语言书写的联系人名称。例如，诸如“Smith”、“Poulenc”、“Szabolcs”、“Mishima”和“Maalismaa”等名称可能分别是英文名、法文名、匈牙利文名、日文名和芬兰土语名。识别电话簿中的联系人属于哪种语族或语言是很有利或必要的。

目前，自动语音识别(ASR)技术已经应用于移动电话和其它手持通信设备。发言者训练的名称拨号器可能是最广泛应用的ASR应用之一。在发言者训练的名称拨号器中，用户必须训练用于识别的模型，即与发言者相关的名称拨号(SDND)。依靠更高级技术的应用无需用户训练任何识别模型。而是基于多语言单词的表音法自动生成识别模型。基于多语言单词的表音法对发音进行建模的技术应用于例如与多语言发言者无关的名称拨号(ML-SIND)系统中，如Viikki等人所公开的那样，参见“移动通信系统中与发言者和语言无关的语音识别”(″Speaker-and Language-Independent SpeechRecognition in Mobile Communication Systems″，in Proceedings ofInternational Conference on Acoustics，Speech，and Signal Processing，Salt Lake City，Utah，USA 2002)。因为全球化及移动电话市场和未来应用的国际化特性，对多语言语音识别系统的需求迅速增长。自动语言识别是采用动态单词表的多语言系统的主要部分。一般来说，多语言语音识别引擎由三个关键模块构成：自动语言识别(LID)模块、在线语言特定的文本-音素建模(TTP)模块和多语言声音建模模块，如图1所示。本发明涉及第一个模块。

当用户向现用单词表添加新单词或单词集时，首先由LID模块为每个单词指定语言标记。基于这些语言标记，应用适当的语言特定的TTP模块，以便生成与词汇项的书写形式相关联的多语言音素序列。最后，根据标音法级联多语言声模型构造每个词汇输入的识别模型。

自动LID可以分为两类：基于语音的LID和基于文本的LID，即根据语音或书写文本进行语言识别。大多数基于语音的LID方法采用音位结构学方法，其中首先采用标准语音识别方法由语音信号识别出与说话相关的音素。然后通过语言特定的统计模型对这些音素序列重新评分。例如Schulze(EP2014276 A2)中公开了基于n元语法和口语单词信息的自动语言识别。

通过假定语言识别可以通过音素序列图案的特征来鉴别，对于正确的语言，重新评分将会给出最高评分。根据文本的语言识别通常通过收集字母在其它字母上下文中的语言特定的n元语法统计数字来解决。这种方法已在Schmitt(美国专利号5062143)中公开。

虽然基于n元语法的方法对于输入文本量相当大(例如10个单词或更多)的情况效果非常好，但对于非常短的文本，则往往失效。这在由常见单词收集n元语法，随后将其应用于识别固有名称的语言标记时尤其正确。固有名称与常见单词相比具有非常不规则的字素统计信息，因为它们常常源于不同的语言。对于短文本段，用于LID的其它方法可能会更合适。例如Kuhn等人(美国专利号6016471)公开了一种采用判决树来生成拼写单词的多种发音并对其进行评分的方法和装置。

判决树已经成功应用于文本-音素映射和语言识别。与神经网络法相似，可以采用判决树来确定单词中每个字母的语言标记。与神经网络法不同的是，字母表中的每个不同字符均有一个判决树。虽然基于判决树的LID对已训练的集合而言效果非常好，但对确认集(validation set)而言，达不到同样的效果。而且，基于判决树的LID需要更多的存储空间。

已经成功应用于文本-音素映射任务的简单神经网络体系结构是多层感知器(MLP)。因为TTP和LID是相似的任务，所以此体系结构同样适用于LID。MLP由安排的多层单元(神经)构成，以便信息从网络输入层流到网络输出层。基本的基于神经的LID模型是标准的两层MLP，如图2所示。在MLP网络中，字母以顺序方式一次呈现一个，网络给出每个呈现字母的语言后验概率估计。为了将字形上下文纳入考虑，还可以将所考虑字母两侧的字母用作网络的输入。因此，将一个字母窗口作为输入提供给神经网络。图2显示了一个典型的MLP，其上下文大小为当前字母l₀的两侧各具有四个字母l_-4...l₄。中间字母l₀是对应于网络输出的字母。因此，该MLP的输出是给定上下文l_-4...l₄中最中间字母l₀的估计语言概率。在该字符集合中定义了一个空字母，此空字母用于表示单词中第一个字母左边的字母和最后一个字母右边的字母。

因为神经网络输入单元是连续取值的，所以需要将输入窗口中的字母转换为某些数值形式的量或表示。表I显示了表示用于语言识别的字母表的正交码本的一个实例。表I中的最后一行是空字母的代码。该正交码的大小与字母集中的字母数相等。正交编码方案的一个重要特性是，它没有在不同字母之间引入任何关联性。

字母	代码
字母	代码	a	100...0000
b	010...0000	a	100...0000
b	010...0000	...	...

表1正交字母编码方案

除表I所示的正交字母编码方案之外，也可以采用其它方法。例如，可以采用自组织码本，如Jensen和Riis所著论文“用于文本-音素神经网络模型的自组织字母码本”(″Self-organizing LetterCode-book for Text-to-phoneme Neural Network Model″，in Proceedingsof International Conference on Spoken Language Processing，Beijing，China，2000)中所述那样。当采用自组织码本时，该字母编码方案的编码方法是基于MLP的训练数据来构建的。采用自组织码本，可以减少MLP的输入单元数，由此减少存储网络参数所需的存储容量。

一般来说，MN-LID模型所需的以字节计的存储容量直接与下列量成比例：

Mems＝(2*ContS+1)×AlphaS×HiddenU+(HiddenU×LangS) (1)

其中MemS、ContS、AlphaS，HiddenU和LangS分别表示LID的存储容量、上下文大小、字母集的大小、神经网络中隐藏单元的数量和LID支持的语言数量。对输入窗口的字母进行编码，并将编码的输入馈送到神经网络。神经网络的输出单元对应于语言。在输出层上应用Softmax归一化，输出单元的值是对应语言的后验概率。Softmax归一化确保网络输出在[0，1]的范围内，根据如下公式所有网络输出之和等于1：

P_{i} = \frac{e^{y_{i}}}{Σ_{j = 1}^{C} e^{y_{j}}}

在上述公式中，y_i和P_i表示softmax归一化前后的第i个输出值。C是输出层中的单元数量，表示类或目标语言的数量。用softmax归一化的神经网络输出将在针对N个分类之一训练且该网络足够复杂并训练到全局最小值时逼近类后验概率(class posterior probability)。

然后对每个字母计算语言概率。在计算概率之后，通过将该单词中各字母的概率进行综合而得到语言评分。总而言之，基于NN的LID的语言主要由如下公式确定：

{lang}^{*} = \underset{i}{\arg \max} P ({lang}_{i} | word)

应用贝叶斯规则

= \underset{i}{\arg \max} \frac{P ({lang}_{i}) \cdot P (word | {lang}_{i})}{P (word)}

假定P(word)和P(lang_i)是常量 (2)

= \underset{i}{\arg \max} P (word | {lang}_{i})

其中0＜i＜LangS。图3显示了基准NN-LID方案。在图3中，字母集至少是NN-LID方案支持的所有语言的语言相关集的并集。

因此，当语言数量增加时，整个字母集的大小(AlphaS)也相应增加，而LID模型的大小(MemS)也成比例地增加。字母集大小的增加是由于增加了语言的特殊字符所致。例如，除标准的拉丁a-z字母表外，法语还有特殊字符à、、 é、ê、ё、 、、ù、 ü；葡萄牙语含有特殊字符à、á、、

é、ê、ò、ó、 ú、ü；以及西班牙语含有特殊字符á、é、

ó、ú、ü等。再者，西里尔语还有不同于拉丁字母的西里尔字母。

与正常的PC环境相比，嵌入式系统中的实现资源在处理能力和存储容量方面均不足。因此，紧凑的ASR引擎实现方案在嵌入式系统如移动电话中是必需的。大多数现有技术方法根据语音输入执行语言识别。这些方法无法应用于仅基于文本输入工作的系统。目前，还没有可以满足目标硬件设定的存储要求的NN-LID系统。

因此，希望且有利的是，提供一种可以满足目标硬件设定的存储要求的NN-LID方法和设备，以便该方法和系统可以应用于嵌入式系统中。

发明概要

本发明的主要目的在于提供一种用于多语言语音识别系统中实现语言识别的方法和设备，这种方法和设备可以满足移动电话设定的存储要求。具体地说，语言识别由基于神经网络的系统根据书写文本来执行。此目的可以通过将缩减的字母字符集合用于基于神经网络的语言识别而实现，其中缩减的字母字符集中的字母字符的数量比要识别的所有语言的语言相关字母字符集的并集小得多。再者，将一种依赖于所有各语言相关集合的评分系统用于计算给定语言前提下单词的字母集的概率。最后，通过将所述神经网络提供的语言评分与所述评分系统的概率进行综合来执行语言识别。

因此，根据本发明的第一方面，提供一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法，其中每种语言具有各自的字母字符集。所述方法的特征在于：

将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串；

获得表示所述映射字母字符串属于所述多种语言中各种语言的概率的第一值；

获得表示所述字母字符串中的字母字符在各字母字符集中的匹配情况的第二值；以及

基于所述第一和第二值确定所述字符串的语言。

或者，将所述多种语言分类成多个含有一个或多个成员的组；其中每组具有各自的字母字符集，以便获得表示所述字母字符串中的字母字符在每组各自的字母字符集中的匹配情况的第二值。

该方法的特征还在于：

所述参考字母字符集中的字母字符的数量少于所述所有各字母字符集的并集。

最好，所述第一值是基于所述参考字母字符集获得的，所述参考字母字符集包括最小的标准字母字符集，以便所述多种语言中每种语言各自的字母字符集中的每个字母字符可以唯一地映射到标准字母字符之一。

最好，所述参考字母字符集还包含至少一个与所述标准字母字符不同的符号，以便至少一个所述各字母字符集中的每个字母字符可以唯一地映射到所述至少一个符号和所述标准字母字符之一的组合。

最好，所述自动语言识别系统是基于神经网络的系统

最好，所述第二值是从指定给所述字符串属于所述多种语言中给定的一种的概率的比例系数获得的，以及语言是根据所述多种语言中所述第一值和所述第二值的乘积的最大值来确定的。

根据本发明的第二方面，提供一种用于在多种语言中识别字母字符串的语言的语言识别系统，其中每种语言具有各自的字母字符集。所述系统的特征在于：

参考字母字符集；

映射模块，用于将所述字母字符串映射到参考字母字符集中的映射字母字符串，以提供表示所述映射字符串的另一个信号；

第一语言鉴别模块，用于响应所述信号，基于所述参考字母字符集确定所述映射字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第一信息；

第二语言鉴别模块，用于基于所述各字母字符集确定所述字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第二信息；以及

判决模块，用于响应所述第一信息和第二信息，基于所述第一和第二信息确定所述字符串属于所述多种语言之一的联合概率。

或者，将所述多种语言分类成多个含有一个或多个成员的组，所述多组中的每组具有各自的字母字符集，以便使第二语言鉴别模块可以基于所述各组的字母字符集确定所述字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第二信息。

最好，所述第一语言鉴别模块是包括多个隐藏单元的基于神经网络的系统；所述语言识别系统包括存储单元，用于存储部分基于所述多个隐藏单元的多种形式的所述参考字母字符集；以及所述隐藏单元的数量可以根据存储要求按比例调整。最好，可以增加所述隐藏单元的数量，以提高所述语言识别系统的性能。

根据本发明的第三方面，提供一种电子设备，它包括：

用于在所述设备中提供表示字母字符串的信号的模块；

语言识别系统，用于响应所述信号，在多种语言中识别所述字母字符串的语言，其中所述多种语言中的每种语言具有各自的字母字符集，所述系统包括：

参考字母字符集；

映射模块，用于将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串，以提供表示所述映射字符串的另一个信号；

第一语言鉴别模块，用于响应所述另一个信号，基于所述参考字母字符集确定所述映射字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第一信息；

第二语言鉴别模块，用于响应所述字符串，基于所述各字母字符集确定所述字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第二信息；

所述电子设备可以是手持设备，如移动电话、个人数字助理(PDA)、通信器所述电子设备可以是手持设备(如移动电话)。

下文将参考图4-6阐述本发明。

附图简介

图1是说明现有技术多语言ASR系统体系结构的示意图。

图2是说明现有技术两层神经网络体系结构的示意图。

图3是说明现有技术中基准NN-LID方案的框图。

图4是说明根据本发明的语言识别方案的框图。

图5是说明根据本发明的语言识别方法的流程图。

图6是说明根据本发明，采用所述语言识别方法和系统的电子设备的示意图。

发明的详细说明

从公式(1)可以看到，基于神经网络的语言识别(NN-LID)系统的存储容量由如下两项来确定：1}(2*ContS+1)×AphaS×HiddenU；以及2)HiddenU×LangS，其中ContS、AlphaS、HiddenU和LangS分别表示上下文大小、字母集的大小、神经网络中隐藏单元的数量和LID支持的语言数量。一般来说，LID支持的语言数量即LangS没有字母集的大小增加得快，而且项(2*ContS+1)远大于1。因此，公式(1)的第一项显然是主项。再者，因为LangS和ContS是预定义的，以及HiddenU控制LID系统的鉴别能力，所以存储容量主要由AlphaS确定。AlphaS是要在NN-LID系统中使用的与语言无关的集合大小。

本发明通过定义一个缩减的字母字符或符号集合作为要在NN-LID中使用的标准语言无关集SS来缩减存储容量。SS是从多种语言特定的或语言相关的字母集LS_I导出的，其中0＜i＜LangS，LangS是LID支持的语言数。假设LS_i是与第i种语言相关的集合，而SS是标准集，则有：

LS_i＝{c_i，1，c_i，2，...，c_i，ni}；i＝1，2，...，LangS (3)

SS＝{s₁，s₂，...，s_M}； (4)

c_i，k和s_k分别是与第i种语言相关的集合和标准集中的第k个字符，ni和M分别是与第i种语言相关的集合和标准字母集的大小。可以理解，所有语言相关字母集的并集保留了所支持的每种语言中的所有特殊字符。例如，如果葡萄牙语是LID支持的语言之一，则并集至少保留这些特殊字符：à、á、、

é、ê、ò、ó、

ú、ü。但在标准集中，取消了部分或所有这些特殊字符，以便缩减大小M，也即公式(1)中的AlphaS。

根据本发明，在NN-LID系统中，因为采用了标准集SS来取代所有语言相关集的并集，所以必须执行映射操作过程。从语言相关集到标准集的映射可以定义为：c_i，k→s_j c_i，k∈LS_i，s_j∈SS，c_i，k (5)

字母表大小从缩减到M(SS的大小)。为了进行映射，例如，可以采用将字母字符从每种语言映射到标准集的映射表。或者，也可以采用只将特殊字符从每种语言映射到标准集的映射表。标准集SS可以由标准字符如{a，b，c，..，z}构成；或者由定制的字母符号构成；或者由二者组合构成。

从公式(6)可以理解，以语言相关字母集书写的任何单词可以映射(分解)为以标准字母集书写的对应单词。例如，以语言相关字母集书写的单词hkkinen映射到以标准集书写的单词hakkinen。随后将以语言相关字母集书写的单词如hkkinen表示为word，以标准集书写的对应单词hakkinen表示为word_s。

给定了语言相关集以及以标准集书写的word_s，则近似确定了以语言相关集书写的word(单词)。因此可以合理地假定：

(word)(word_s，alphabet) (7)

这里alphabet是word中的单个字母。因为word_s和alphabet是无关的事件，所以公式(2)可以重新书写为：

{lang}^{*} = \underset{i}{\arg \max} P (word | {lang}_{i})

= \underset{i}{\arg \max} P ({word}_{s}, alphabet | {lang}_{i}) - - - (8)

= \underset{i}{\arg \max} P ({word}_{s} | {lang}_{i}) \cdot P (alphabet | {lang}_{i})

公式(8)右边的第一项是利用NN-LID来估计的。因为LID是基于word_s而非word来执行的，所以使用标准字母集就足够了，而不必采用所有语言相关集的并集

标准集由“最小”数量的字符构成，因此其大小M远远小于根据公式(1)，可以看出NN-LID模型的大小已缩减，因为AlphaS已减小。例如，当NN-LID方案中包括25种语言(含比利时语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、冰岛语、意大利语、拉脱维亚语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语、英语和乌克兰语时，并集的大小为133。相反，标准集的大小可以缩减为ASCII字母集中的27个。

公式(8)右边的第二项是给定第i种语言时单词字母串的概率。为了确定该字母串的概率，我们可以先按如下公式计算频率Freq(x)：

然后，可以计算P(alphabet|lang_i)的概率。可以通过硬判决或软判决来估计此字母概率。就硬判决而言，有：

就软判决而言，有：

因为多语言发音方法需要n次最佳LID判决来查找多语言发音，而硬判决有时无法满足此要求，所以首选软判决。系数α用于进一步将匹配的语言和不匹配的语言分成两组。该系数α可以任意选择。基本上，可以采用任何小值，如0.05。如公式(1)所示，NN-LID模型的大小得到了显著的缩减。因此，甚至可以添加更多的隐藏单元，以增强鉴别能力。例如，以芬兰语名称“hkkinen”为例，有：

假设对于Freq(alphabet|lang_i)＜1，α＝0.05，可得到如下字母评分：

P(alphabet|英语)＝0.04

P(alphabet|芬兰语)＝1.0

P(alphabet|瑞典语)＝1.0

P(alphabet|俄语)＝0.0

应注意，确定概率P(word_s|lang_i)的方式与确定概率P(alphabet|lang_i)的方式不同。前者基于标准集SS来计算，而后者则基于各语言相关集LS_i来计算。因此，判决过程包括两个独立的步骤，这两个步骤可以同时执行或按顺序执行。这两个独立的判决过程步骤可以参见图4，图4是根据本发明的语言识别系统100的示意图。如图所示，响应于输入的单词，映射模块10基于映射表12将表示映射word_s的信息或信号110提供给NN-LID模块20。响应于信号110，NN-LID模块20基于标准集22计算概率P(alphabet|lang_i)，并将表示该概率的信息或信号120提供给判决模块40。字母评分模块30独立地使用各语言相关集32计算概率P(alphabet|lang_i)，并将表示该概率的信息或信号130提供给判决模块40。判决模块40识别出的该输入单词的语言以信息或信号140表示。

根据本发明，基于神经网络的语言识别是基于大小为M的缩减字符集来实现的。M可以根据存储要求按比例调整。再者，可以增加隐藏单元的数量来增强NN-LID的性能，而不会增加存储预算。

如上所述，当将所有语言相关字母集映射到标准集时，NN-LID模型的大小被缩减。然后根据单词中的字母定义，利用字母评分将所支持的语言划分成匹配的组和不匹配的组。例如，如果字母“”出现在给定单词中，则该单词只属于芬兰语/瑞典语组。然后，NN-LID仅在作为匹配组的芬兰语和瑞典语之间识别语言。在LID对该匹配组进行识别操作后，它接着对不匹配组进行语言识别。这样，便可以使搜索空间最小化。但是，当由于更多的语言被映射到标准集而使某种语言的字母集与标准字母集相同或接近时，会产生混淆。例如，最初定义了标准字母集SS＝{a、b、c、...、z、#}，其中“#”表示空字符，因此标准字母集的大小是27。对于表示俄语名称“борис”的单词(映射可能是“б-＞b”等)，则对应的映射名称为SS上的word_s“boris”。这会破坏基于标准集的NN-LID的性能，因为名称“boris”看上去像是德语或甚至英语。

为了克服该缺点，可以增加隐藏单元的数量来增强神经网络的鉴别能力。再者，可以将语言相关集中的一个非标准字符映射为标准集中的一个字符串。这样，神经网络中的混淆得以减少。因此，虽然通过映射到标准集而使字母大小得以缩减(弱化了鉴别性)，但单词长度因单字符到字符串映射而增长(增加了鉴别性)。在这种单字符-字符串转换之后，鉴别性信息几乎保持不变。这样，通过引入更多字符从原始表示对鉴别性信息进行转换，增加了单词长度，如下所示：

c_i，k→s_j1s_j2… c_i，k∈LS_i，s_ji∈SS，c_i，k (12)

通过这种转换，非标准字符可以通过标准字符构成的字符串来表示，而不会显著地增加混淆。再者，标准集可以通过添加定义为鉴别性字符的有限数量的定制字符来扩充。在我们的试验中，我们定义了三个鉴别性字符。这些鉴别性字符可以与先前定义的标准字母集SS＝{a、b、c、...、z、#}中的27个字符相区别。例如，扩充的标准集还包括鉴别性字符s₁、s₂、s₃，于是SS＝{a、b、c、...、z、#、s₁、s₂、s₃}。因此，可以将一个非标准字符映射为扩充标准集中的一个字符串。例如，可以对西里尔字符执行映射，例如，“б-＞bs₁”。俄语名称“борис”按如下方式映射：

борис-＞bs₁os₁rs₁is₁ss₁

利用此方法，不仅可以提高识别俄语文本的性能，而且还因减少了混淆而可提高英语文本识别性能。

我们已经对25种语言进行了试验，这些语言包括比利时语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、冰岛语、意大利语、拉脱维亚语、挪威语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语、英语以及乌克兰语。对于每种语言，各选择了10000个常见单词构成的集合，并通过组合这些集合得到LID的训练数据。标准集由[a-z]集合、空字符(表III中标记为ASCII)及鉴别性字符(在表III中标记为EXTRA)构成。标准字母字符或符号的数量为30。表II给出了使用全部语言相关字母(总共133个)以及30和40个隐藏单元时的基准结果。如表II所示，当在基准NN-LID系统中使用30个隐藏单元时，基准NN-LID模型的存储容量已经很大。

表III显示根据本发明的NN-LID方案的结果。可以看出，根据本发明的NN-LID结果不如一起使用27个字符的标准集及40个隐藏单元时的基准结果。通过添加鉴别性字符使标准集扩充到30个字符，LID识别率仅稍低于基准识别率-总计88.78对总计89.93。但是，存储容量从47.7KB减少到11.5KB。这提示可以通过大量增加隐藏单元来提高LID识别率。

当隐藏单元的数量增加到80个时，本发明的LID识别率显然好于基准识别率。对于27个ASCII字符的标准集，80个隐藏单元的LID识别率已经超过了基准方案-90.44对89.93。较之采用40个隐藏单元的基准方案，采用30个字符的扩充集的LID进一步得到改善，同时可节省50％以上的存储容量。

设置，25种语言，AlphaSize：133	第一最佳	第二最佳	第三最佳	第四最佳	总计(第四最佳)	存储容量(KB)
设置，25种语言，AlphaSize：133	第一最佳	第二最佳	第三最佳	第四最佳	总计(第四最佳)	存储容量(KB)	40个隐藏单元	67.81	12.32	6.12	3.69	89.93	47.7
30个隐藏单元	65.25	12.82	6.31	4.11	88.49	35.8	40个隐藏单元	67.81	12.32	6.12	3.69	89.93	47.7

表II

设置，25种语言字母评分	第一最佳	第二最佳	第三最佳	第四最佳	总计(第四最佳)	存储容量(KB)
设置，25种语言字母评分	第一最佳	第二最佳	第三最佳	第四最佳	总计(第四最佳)	存储容量(KB)	ASCII，40个隐藏单元AlphaSize：27	57.36	17.67	8.13	4.61	87.77	10.5
ASCII，80个隐藏单元AlphaSize：27	65.59	13.94	6.85	4.06	90.44	20.9	ASCII，40个隐藏单元AlphaSize：27	57.36	17.67	8.13	4.61	87.77	10.5
ASCII，80个隐藏单元AlphaSize：27	65.59	13.94	6.85	4.06	90.44	20.9	ASCE+Extra，40个隐藏单元，AlphaSize：30	64.16	14.14	6.45	4.03	88.78	11.5
ASCII+Extra，80个隐藏单元，AlphaSize：30	71.01	11.98	5.44	3.30	91.73	23	ASCE+Extra，40个隐藏单元，AlphaSize：30	64.16	14.14	6.45	4.03	88.78	11.5

表III

根据本发明的可缩放NN-LID方案可以许多种不同的方式来实现。但是，最重要的特征之一是，将语言相关的字符映射到可以定制的标准字母集。为了进一步增强NN-LID的性能，可以采用多种技术。这些技术包括：1)添加更多的隐藏单元；2)利用语言相关的字符提供的信息将语言分成匹配组和不匹配组；3)将字符映射为字符串；以及4)定义鉴别性字符。

可以通过定义语言相关字符到标准集的映射，并选择适当的神经网络隐藏单元数量来使LID性能逼近基准系统，这样来按比例调整NN-LID的存储要求，以满足目标硬件要求。

如图5所示，可以将根据本发明，根据书写文本进行基于可缩放神经网络的语言识别的方法概括为流程图200。在获得书写文本中的word(单词)之后，在步骤210将该单词映射成word_s或标准集SS的字母字符串。在步骤220，对第i种语言计算概率P(word_s|lang_i)。在步骤230，对第i种语言计算概率P(alphabet|lang_i)。在步骤240，对第i种语言计算联合概率P(word_s|lang_i)P(alphabet|lang_i)。在计算了所支持的每种语言中的联合概率(如在步骤242所作判断)之后，在步骤250利用公式8决定该输入单词的语言。

根据本发明，根据书写文本进行基于可缩放神经网络的语言识别方法适用于多语言自动语音识别(ML-ASR)系统。它是与多语言发言者无关的名称拨号(ML-SIND)系统的主要部分。本发明可以在手持电子设备如移动电话、个人数字助理(PDA)、通信器等上实施。本发明不依赖于设备的任何特定操作系统。具体地说，本发明的方法和设备适用于手持电子设备中的联系人列表或电话簿。联系人列表还可以电子形式的业务名片(如vCard)实现，以便组织目录信息，如名称、地址、电话号码、电子邮件地址和因特网URL。再者，本发明的自动语言识别方法并不局限于识别人名、公司名和实体名，而是还包括识别街道名、城市名、Web网页地址名、职务头衔名、电子邮件地址的某个部分等，条件是所述字符串在某种语言中具有一定意义。图6是手持电子设备的示意图，其中采用了利用本发明NN-LID方案的ML-SIND或ML-ASR。

如图6所示，设备300中的一些基本单元为显示器302、文本输入模块304和LID系统306。LID系统306包括映射模块310，用于将文本输入模块302提供的word(单词)映射成使用标准集322的字符的words。LID系统306还包括NN-LID模块320、字母评分模块330、多种语言相关字母集332和判决模块340，它类似于图4所示的语言识别系统100。

应该注意的是，虽然首选表I所示的正交字母编码方案，但也可以采用其它编码方法。例如，可以采用自组织码本。此外，根据公式(12)，在我们的试验中采用了两个字符的字符串来映射非标准字符。此外，还可以采用三个或更多字符或符号的字符串。

应该注意的是，在本发明的基于神经网络的语言识别系统所采用的语言中，两种或多种语言共享同一个字母字符集是可能的。例如，在上述试验所采用的25种语言中，瑞典语和芬兰语共享同一个字母字符集，丹麦语和挪威语也是如此。因此，不同语言相关字符集的数量少于要识别的语言的数量。因此，基于语言相关字符集的同一性，可以将这些语言分类为语言组。在这些语言组中，一些组具有两个或多个成员，而一些组则只有一个成员。取决于所用的语言，有可能任何两种语言均不共享相同的字母字符集。在这种情况下，语言组的数量将等于语言的数量，而且每个组只有一个成员。

因此，虽然本发明是参考优选实施例来描述的，但本技术领域人员会理解，在不背离本发明范围的前提下，可以在形式和细节上对本发明进行上述及其它各种更改、省略以及背离。

Claims

1.一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法，其中所述多种语言中的每种语言具有各自的字母字符集，所述方法的特征在于：

获得表示所述字符串中的字母字符在所述各字母字符集中的匹配情况的第二值；以及

基于所述第一和第二值确定所述字符串的语言。

2.如权利要求1所示的方法，其特征在于还包括如下步骤：

3.如权利要求1所述的方法，其特征在于：所述第一值是基于所述参考字母字符集获得的。

4.如权利要求3所述的方法，其特征在于：所述参考字母字符集包括最小的标准字母字符集，使得所述多种语言中每种语言各自的字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一。

5.如权利要求3所述的方法，其特征在于：所述参考字母字符集由最小的标准字母字符集和空符号构成，使得所述多种语言中每种语言各自的字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一。

6.如权利要求5所述的方法，其特征在于：所述映射字符串中的字母字符的数量等于所述字符串中的字母字符的数量。

7.如权利要求4所述的方法，其特征在于：所述参考字母字符集包括所述最小的标准字母字符集和与所述标准字母字符不同的至少一个符号，以便至少一个所述各字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符之一和所述至少一个符号的组合。

8.如权利要求4所述的方法，其特征在于：所述参考字母字符集包括所述最小的标准字母字符集和与所述标准字母字符不同的多个符号，以便至少一个所述各字母字符集中的每个字母字符可以唯一地映射到所述标准字母字符和所述多个符号中所述至少一个符号的组合。

9.如权利要求8所述的方法，其特征在于：所述符号数量可以根据所述自动语言识别系统的期望性能来调整。

10.如权利要求1所述的方法，其特征在于：所述自动语言识别系统是包括多个隐藏单元的基于神经网络的系统；以及所述隐藏单元的数量可以根据所述自动语言识别系统的期望性能来调整。

11.如权利要求3所述的方法，其特征在于：所述自动语言识别系统是基于神经网络的系统，以及所述概率是由所述基于神经网络的系统来计算的。

12.如权利要求1所述的方法，其特征在于：所述第二值是从指定给所述字符串属于所述多种语言中给定的一种的概率的比例系数获得的。

13.如权利要求12所述的方法，其特征在于：所述语言是根据所述多种语言中所述第一值和所述第二值的乘积的最大值来确定的。

14.一种基于自动语言识别系统在多种语言中识别字母字符串的语言的方法，所述多种语言分类成多种语言组；其中每个组具有各自的字母字符集；所述方法的特征在于：

将所述字母字符串映射到从参考字母字符集中选择的映射字母字符串，

基于所述第一和第二值确定所述字符串的语言。

15.如权利要求14所述的方法，其特征在于还在于：

16.如权利要求14所述的方法，其特征在于：所述第一值是基于所述参考字母字符集获得的。

17.一种用于在多种语言中识别字母字符串的语言的语言识别系统，所述多种语言中的每种语言具有各自的字母字符集，所述系统的特征在于：

参考字母字符集；

映射模块，用于将所述字母字符串映射到从所述参考字母字符集中选择的映射字母字符串，以提供表示该映射字符串的信号；

18.如权利要求17所述的系统，其特征在于：它还包括：

19.如权利要求17所述的语言识别系统，其特征在于：

所述第一语言鉴别模块是包括多个隐藏单元的基于神经网络的系统；所述语言识别系统包括存储单元，用于存储部分基于所述多个隐藏单元的多种形式的所述参考字母字符集；以及

所述隐藏单元的数量可以根据所述存储单元的大小来按比例调整。

20.如权利要求17所示的语言识别系统，其特征在于：

所述第一语言鉴别模块是包括多个隐藏单元的基于神经网络的系统；以及

可以增加所述隐藏单元的数量，以提高所述语言识别系统的性能。

21.一种电子设备，包括：

用于提供表示字母字符集的信号的模块；

语言识别系统，用于响应所述信号，在多种语言中识别所述字母字符串的语言；所述多种语言中的每种语言具有各自的字母字符集，所述系统的特征在于它包括：

参考字母字符集；

映射模块，用于将所述字母字符串映射到从所述参考字母字符集中选择的映射字母字符串，以提供表示所述映射字符串的另一个信号；

第二语言鉴别模块，用于响应所述第一信号，基于所述各字母字符集确定所述字符串属于所述多种语言中各种语言的概率，以提供表示该概率的第二信息；

22.如权利要求21所述的设备，其特征在于：所述参考字母字符集中的字母字符的数量少于所述所有各字母字符集的并集。

24.如权利要求21所述的电子设备，其特征在于包括手持设备。

25.如权利要求21所述的电子设备，其特征在于包括移动电话。