CN102280106A

CN102280106A - 用于移动通信终端的语音网络搜索方法及其装置

Info

Publication number: CN102280106A
Application number: CN2010102040490A
Authority: CN
Inventors: 史媛媛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-06-12
Filing date: 2010-06-12
Publication date: 2011-12-14

Abstract

本发明提供一种用于移动通信终端的语音网络搜索方法及其装置。所述语音网络搜索方法包括以下步骤：当用户启动语音网络搜索功能时，接收用户输入的语音信号；基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据；根据识别出的文本数据启动互联网搜索；记录并存储搜索结果；显示搜索结果；收集各种原始文本数据，并对原始文本数据进行正规化；使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型。

Description

用于移动通信终端的语音网络搜索方法及其装置

技术领域

本发明涉及语音网络搜索技术，更具体地讲，涉及一种用于移动通信终端的具有声学模型自适应和语言模型自适应的语音网络搜索方法及其装置。

背景技术

近年来，在移动平台上进行互联网访问和搜索已经变得非常普及。对于中文网络搜索用户来说，需要首先在搜索窗口键入想要搜索的字符或在显示屏幕上写入这种字符。然后，基于查询关键字开始网络搜索，并在显示屏幕上显示得到的搜索结果。

随着语音识别技术的发展，已经提出了使用语音输入进行网络识别的方法。然而，尽管语音网络搜索方法能够极大地方便用户，但是还存在着严重的不足。

例如，现有的语音识别技术对新用户的识别精度较低。特别是，如果使用嵌入式自动语音识别引擎，则通常不具有处理不同说话人、语音收录信道、发音、口音等的能力。因此，新用户的语音识别精度很低。

此外，在语音网络搜索处理中经常出现严重的未登陆词识别(OOV)错误。这是因为嵌入到移动通信终端的存储器大小有限。举例来说，第2009055179号美国专利申请通过分析用户的网络搜索日志来更新识别器的语法。第2008256033号美国专利申请首先进行粗略搜索，然后基于从通过粗略搜索获得的搜索结果文本内容，产生更准确的语言词格模型，优化语音识别结果，提高最终执行搜索的精确程度。然而，上述方法都不能更新语言模型，这非常严重地影响着识别精度。

另外，移动通信终端中没有用于在线更新语言模型的数据。语言模型对于高性能语音识别起着关键作用。然而，移动通信终端中的语言模型总是保持不变，这严重限制了改进识别精度和语音网络搜索精度的潜力。

因此，需要一种能够进行声学模型自适应和语言模型自适应的语音网络搜索方法。

发明内容

在下面的描述中将部分地阐明本发明另外的方面和/或优点，通过描述，其会变得更加清楚，或者通过实施本发明可以了解。

根据本发明的一方面，提供一种用于移动通信终端的语音网络搜索方法，所述语音网络搜索方法包括以下步骤：当用户启动语音网络搜索功能时，接收用户输入的语音信号；基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据；根据识别出的文本数据启动互联网搜索；记录并存储搜索结果；显示搜索结果；收集各种原始文本数据，并对原始文本数据进行正规化；使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型，其中，调整声学模型的步骤包括：确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足数据累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类；其中，调整语言模型的步骤包括：根据正规化的文本数据，通过提取用于训练语言模型的初始词典并基于提取的初始词典由矢量空间模型重新聚类主题来执行语言模型重新训练，或者通过主题映射和调整主题在语言模型中的权重来执行语言模型自适应；通过正规化文本数据、分词和未知词语检测来产生用户词典，并通过执行隐式网络搜索重复正规化文本数据、分词和未知词语检测来更新或者扩展用户词典。

根据本发明的另一方面，提供一种用于移动通信终端的语音网络搜索装置，所述语音网络搜索装置包括：用户接口单元，当用户启动语音网络搜索功能时，接收用户输入的语音信号；语音识别引擎，基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据；网络搜索单元，根据识别出的文本数据启动互联网搜索；内容分析单元，记录并存储搜索结果；智能显示单元，显示搜索结果；上下文提取单元，收集各种原始文本数据，并对原始文本数据进行正规化；用户自适应单元，使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型，其中，用户自适应单元包括声学模型自适应模块，所述声学模型自适应模块确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足数据累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类；其中，用户自适应单元还包括语言模型自适应模块，所述语言模型自适应模块根据正规化的文本数据，通过提取用于训练语言模型的初始词典并基于提取的初始词典由矢量空间模型重新聚类主题来执行语言模型重新训练，或者通过主题映射和调整主题在语言模型中的权重来执行语言模型自适应；驱动上下文提取单元进行正规化文本数据、分词和未知词语检测以产生用户词典，并驱动网络搜索单元执行隐式网络搜索以重复正规化文本数据、分词和未知词语检测来更新或者扩展用户词典。

附图说明

通过下面结合附图对实施例进行的描述，本发明的这些和/或其他方面和优点将会变得清楚和更易于理解，其中：

图1示出根据本发明实施例的嵌入式语音网络搜索设备的框图；

图2显示了收集声学数据的信道；

图3示出根据本发明的实施例的语言识别系统的自适应方法的流程图；

图4示出根据本发明的实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图5示出根据本发明的另一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图6示出根据本发明的又一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图7示出根据本发明的再一实施例的利用输入的语音信号的特征确定自适应方法的流程图；

图8示出离线处理的流程图；

图9示出在线处理的流程图；

图10示出用户自适应单元中的LM自适应模块及其操作方法；

图11示出LM重新训练单元的操作；

图12示出根据本发明实施例的产生用户词典的方法的框图；

图13示出根据本发明实施例的收集原始文本数据的示图；

图14示出根据本发明实施例的用于移动通信终端的语音网络搜索方法的整体流程图。

具体实施方式

现在对本发明实施例进行详细的描述，其示例表示在附图中，其中，相同的标号始终表示相同的部件。下面通过参照附图对实施例进行描述以解释本发明。

图1示出根据本发明实施例的嵌入式语音网络搜索设备的框图。虚线框中的各个部件是嵌入到移动通信终端中的基本功能块，这些基本功能块组成语音网络搜索(VWS)引擎。通常，VWS引擎接收用户的语音，将语音转换为查询文本，并通过3G、WIFI、WAP或GPRS协议开始互联网搜索。

VWS引擎包括用户接口单元、语音识别引擎、声学模型(AM)、语言模型(LM)、网络搜索单元、内容分析单元、上下文提取单元、智能显示单元和用户自适应单元。

具体地讲，用户接口单元包括用于获取语音输入的接口(UI)和信道。通常，当用户启动语音网络搜索功能时，例如，点击屏幕上的语音网络搜索快捷键等，屏幕上示出软件UI以立即允许语音输入。可以按下或点击移动通信终端上的一些软件/硬件按钮来允许语音输入。在用户讲话后，用户的语音通过语音编码器信道被接收。采样的语音信号被存储在移动通信终端的存储空间中。

语音识别引擎将采样的语音信号“识别”为指示发音或文字假设的文本。具体地，首先，语音识别引擎基于描述语音的声学信息的声学模型，在发音符号指示的声学级上识别用户所讲的内容。然后，语音识别引擎基于描述文本的语言信息的语言模型，对发音和文本字符之间的关系进行建模，从而在字符指示的文本级上识别所讲的内容。在本发明中，语音识别引擎可以根据现有技术中的各种方法来构建，在此不做进一步详细描述。

网络搜索单元根据语音识别单元识别出的文本启动互联网搜索。网络搜索单元可以通过3G、WIFI、WAP或GPRS协议连接到数据服务器和搜索引擎来进行互联网搜索。在执行互联网搜索之后，内容分析单元将搜索结果记录并存储在移动通信终端的存储空间中，并将搜索结果传送到智能显示单元，以便在移动通信终端的屏幕上进行显示。同时，用户可以进行操作以在互联网上进行进一步搜索或在互联网上进行浏览。在这种情况下，内容分析单元还将进一步搜索的结果和浏览的内容记录并存储在移动通信终端的存储空间中。另外，存储/记录的搜索结果和浏览内容还可基于用户和/或应用程序的需要而通过智能显示单元被显示。

内容分析单元收集的数据被输入到上下文提取单元。除了搜索和浏览的信息之外，通过其他来源获得的数据(例如GPS数据、即时通讯数据、电子邮件数据等)也被输入到上下文提取单元。上下文提取单元收集各种原始文本数据。图中的互联网访问数据、GPS数据和消息数据示意性地表示数据来源。基本上，这些文本数据用于调整语言模型。

用户自适应单元用于调整声学模型和语言模型。对于声学模型(AM)自适应，使用并分析语音信号来调整声学模型。对于语言模型(LM)自适应，使用收集的文本数据产生用户词典，扩展用户词典，并调整语言模型。此时，需要对收集的原始文本数据进行正规化以用于LM自适应。具体地，用户自适应单元可包括用于AM自适应的AM自适应模块和用于LM自适应的LM自适应模块。

一般来说，运行VWS引擎以识别用户所讲的搜索请求，启动互联网搜索，获得搜索结果，并在屏幕上显示搜索结果。为了实现高性能的VWS，VWS引擎还通过互联网访问、GPS应用、即时通讯、电子邮件等收集数据。移动电话上的应用程序提供语音和语言信息，无论是口语形式还是文本形式。基于这些收集的数据，VWS引擎提取语音和语言的相关信息，并使用该信息来调整语音识别引擎所用的声学模型和语言模型。通过调整(更新)声学模型和语言模型，将显著地改善VWS性能。

在下文中，将详细描述根据本发明实施例的AM自适应和LM自适应。

AM自适应

如上所述，用户自适应单元中的AM自适应模块用于AM自适应。在大多数情况下，静态的独立于讲话者的声学模型不能很好地识别每个人的语音，导致低的识别精度，而根据本发明实施例的AM自适应通过使用无监督AM自适应来解决识别精度不高的问题。所谓无监督自适应，就是不需要用户事先录制已知文本内容的语音，而是随着用户的使用，根据用户使用过程中说的话，进行自适应。显然，在这种情况下，执行自适应的模块并不知道正确的文本内容，所以被称为无监督自适应。无监督自适应是在用户不自觉的前提下，提高识别器的识别性能，是相比于传统自适应更好的方法。通过无监督AM自适应，更新声学模型以匹配当前的语音收录信道、话者的语音(年龄、性别)和发音(口音)等。可以采用不同的方法来实现AM自适应，例如，本征空间(eigen space)方法、最大似然线性回归算法(MLLR)、最大后验概率(MAP)方法等。

为了实现无监督AM自适应，需要收集大量声学数据。图2显示了收集声学数据的信道。

如图2所示，不仅用于网络搜索的语音输入，而且其他移动电话功能(例如，语音消息、语音呼叫等)的语音输入，都可以用于AM自适应。首先通过麦克风接收语音输入，然后通过编解码器进行采样，再进进行倒频谱特征估计。其后，倒频谱被正规化并被输入到用于无监督AM自适应的用户自适应单元。鉴于一些移动通信终端语音输入在嘈杂的环境下被记录，可使用改善特征提取的噪声鲁棒性方案。例如，可使用两个麦克风或天线阵来允许麦克风阵列语音输入。然后采用语音增强方法(即，通过增强模块)来改善输入信号的信噪比，然后，通过特征提取模块提取更多的噪声鲁棒性特征。

在声学模型中，特征空间中的声音单元(acoustic unit)的特征分布一般使用高斯混合(Gaussian mixture)分布，即多个高斯的线性加权组合，来建立模型。在本发明中，通过更新高斯分布的参数来更新AM的参数，从而实现语音识别系统的自适应。即，高斯分布的参数作为AM的参数被更新，从而进行自适应。

通常，以不同的级别来定义声音单元。在小型语音识别系统中，以音节来定义声音单元。在大型语音系统中，以音素来定义声音单元。根据声音识别系统的复杂度和任务要求，存在不同数量的声音单元。隐马尔可夫模型(HMM)被广泛用于声音单元的AM的建模。每个HMM包括一个状态序列，该状态序列包括多个状态。每个状态通过高斯混合分布(即，线性加权的多高斯)被建模。

在本发明中，根据声音单元的相似度，利用树形结构对声音单元进行分类或聚类。作为第一层的树的根节点表示所有的声音单元，在树的其他层，逐层对声音单元进行进一步分类。例如，可以建立三层的树，根节点表示所有的声音单元，第二层包括两个节点，其中，一个节点表示所有的元音，另一节点表示所有的辅音，第三层为作为叶节点的每个元音和辅音。可以以这样的方式建立树，即，逐层进行分类，直到无法再分类为止，此时的节点为树的叶节点。树的层数取决于具体的分类方式。

可以利用不同的树产生算法来建立树(例如，语音识别技术中常用的决策树)。由于利用树形结构对声音单元进行分类是公知的技术，将不再进行赘述。与现有技术中建立树的目的是用于训练不同的是，在本发明中，建立树的目的是以分层形式对声音单元进行建模，以用于AM的自适应。根节点表示所有的声音单元(即，所有声音单元被分为一类)，叶节点表示最基本的声音单元(即，每个声音单元作为一类)，在其他层，声音单元被不同地分类，每个节点表示一类。

鉴于声音单元通过HMM建模，而HMM通过一系列状态的高斯混合分布建模。因此，一个声音单元在特征空间的分布是由这一系列状态对应的高斯分布来表达的。当树形结构的节点对应了不同的声音单元的聚类时，在特征空间上，聚到一类的声音单元所对应的高斯分布也就被归并为一类。这些高斯分布是通过参数共享的方式被训练(参数共享的训练算法是公知的，将不再赘述)，继而进行自适应参数调整的。

在本发明中，基于声音单元的树形结构来执行语音识别系统的自适应。更具体地说，高层(即，接近根节点)的类，用于利用本征空间方法来执行自适应；中间层的类，用于利用线性变换方法来执行自适应；低层的类，用于利用最大后验概率(MAP)方法来执行自适应。

应该理解，这里高层、中间层和低层的每个可以不限于一个层，不应仅将树形结构理解为包括三个层。也即，将树形结构的层分为高层、中间层和低层三个部分。

图3示出根据本发明的实施例的语言识别系统的自适应方法的流程图。

在步骤301，计算输入的语音信号的特性参数，即，数据量参数和内容差异参数。内容差异参数可以是例如，对类累积的高斯混合的似然度(AGML-C)、对节点下的类累积的高斯混合的似然度(AGML-N)。

数据量表示输入的语音信号的数据量的大小。等式(1)示出计算数据量的一个示例。

D (T) = \underset{frm}{Σ} d (frm) - - - (1)

其中，d(frm)表示特征帧frm的时间长度，D(T)表示输入的语音信号的所有T个特征帧frm的时间长度。

上述输入的语音信号可以是在自然语音时间段(例如，输入的语音信号中的一句话、一段话等，判断自然语音时间段的技术是公知的，将不再赘述)或者固定的时间段期间输入的。此外，也可以使用其他任意时间间隔期间输入的语音信号来执行自适应，但优选使用自然语音时间段。由于使用不同的时间段输入的语音信号来进行自适应，从而实现了无监督自适应。

AGML-C表示：关于输入的语音信号的预定特征帧，在声音单元的树形结构中的一个类的所有状态的所有高斯混合的似然度的累计值。可通过等式(2)来计算AGML-C：

R_s，m＝∑r_s，m(t) (2)

这里，r_s，m(t)表示关于输入的语音信号中的第t个特征向量，状态s的高斯混合m的似然度。

对于不与所述预定特征向量的发音假设相应的状态s，r_s，m(t)＝0。换句话说，由于输入的语音信号的发音假设可能不会对应于所有类包含的所有状态，此时对这些没有对应的发音假设的状态的高斯混合累积的高斯混合的似然度为零。因此对于不等于0的AGML-C也可以认为是：对存在与预定时刻t的发音假设相应的状态的一个类中的所述相应状态的所有高斯混合的似然度进行累积。

对于与所述预定特征向量的发音假设相应的状态s，r_s，m(t)可通过下面的等式(3)被表示：

r_{s, m} (t) = \underset{S_{1}, S_{2}, \cdot \cdot \cdot, S_{t - 1}, S_{t + 1}, \cdot \cdot \cdot, S_{T} = q; S_{t} = (s, m)}{Σ} \log (p (O, S_{1}, S_{2}, \cdot \cdot \cdot, S_{t}, \cdot \cdot \cdot, S_{T} | Φ)) / \log (p (O | Φ)) - - - (3)

这里，O是输入的语音信号的特征序列，S_t是第t个特征向量对应的状态s的高斯混合m，“S₁，S₂，…，S_t-1，S_t+1，…，S_T＝q；S_t＝(s，m)”表示第t个特征向量必须对应状态s的高斯混合m，而其它的特征向量可以对应任意状态q。这样，与T个特征向量构成的特征向量序列对应的状态序列就有很多种可能性。求和公式即对所有这些可能状态序列的似然度求和。Φ是语音识别器的参数空间。

计算等式(3)时，需要明确第t特征向量对应的是哪一个状态，这个信息通过与第t个特征向量对应的发音假设得到。通过与特征序列对应的发音假设序列，由于发音单元由HMM建模，就得到了对应HMM序列的状态序列，进而得到第t个特征向量对应的具体状态。

AGML-N表示：关于预定特征帧，在声音单元的树形结构中，对一个节点下的所有类累积的高斯混合的似然度，也即，一个类的所有子类的所有状态的所有高斯混合的似然度的累计值或者一个类的所有子类的AGML-C之和。可利用获取AGML-C的方式，来获取一个节点下的每个类的AGML-C。

在步骤302，基于在步骤301计算的数据量和内容差异参数，确定使用的自适应方法，即，确定使用本征空间方法、线性变换方法和MAP方法之一。

具体地说，对于本征空间方法、线性变换方法和MAP方法，所使用的类依次远离树形结构的根节点，需要的数据量依次增多。因此，可以根据数据量来判断使用的自适应方法。即，对于数据量小的语音信号，可利用本征空间方法；对于数据量大的语音信号，可利用基于MAP方法；对于数据量中等的语音信号，可利用线性变换方法。根据语音识别系统的不同，可根据实验的方式来确定具体的用于进行判断的数据量的阈值。

然而，对于同样数据量的语音信号，其语音内容的差异可能是不同的。例如，一段时间较长但内容重复的语音信号，尽管其数据量较大，但由于内容重复，因此其有效的数据量仍然不多，也即，实际上对应于语音单元的树形结构的类仍然接近根节点。因此，仍适于本征空间方法。因此，仅利用数据量不能精确地判断使用哪种方法。因此，需要输入的语音信号的内容差异参数来矫正。

内容差异参数越大，则输入的语音信号在树形结构的各个层的数据累积程度越大。即，随着内容差异参数的增大，按照层的从高到低的次序，依次满足与层对应的自适应方法所需的数据累积。具体地说，在本实施例中，随着内容差异参数的增大，依次满足本征空间方法、线性变换方法和MAP方法的数据累积条件。

应该理解，在树形结构中，对同一输入的语音信号，在某个层的数据累积程度比该层之上的层的数据累积程度低。

作为本发明的内容差异参数的AGML-C和AGML-N能够体现语音信号的内容的差异程度。具体地说，AGML-C体现了语音信号的内容在每个具体的类的高斯混合估计的数据累积充分程度，一个类累积的高斯混合的似然度越大说明在这个类的数据累积程度越高。AGML-N体现了语音信号的内容的在每个节点的子节点或者说在发音单元的每个类的子类上的数据累积的充分程度。因此，可以进一步利用AGML-C和/或AGML-N来矫正利用数据量判断的结果。

尽管使用了AGML-C和AGML-N作为内容差异参数。然而，本领域的技术人员可以理解，也可以利用其他反映语音信号的内容的差异程度的参数来代替AGML-C和AGML-N。

此外，也可仅利用数据差异参数，选择满足数据累积条件的自适应方法来执行自适应。

在本发明中，当确定存在至少两个可用的自适应方法时，可根据需要来进行选择。此时，越低的层对应的自适应方法精度越高，越高的层对应的自适应方法速度越快。

图4示出根据本发明的实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤401，获取输入的语音信号的数据量。

在步骤402，确定数据量是否大于第一阈值。

当在步骤402确定数据量不大于第一阈值时，在步骤403使用本征空间方法来执行自适应。

当在步骤402确定数据量大于第一阈值时，在步骤404确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤404确定不都大于第二阈值时，在步骤405使用本征空间方法执行自适应。

当在步骤404确定都大于第二阈值时，在步骤406使用线性变换方法执行自适应。

图5示出根据本发明的另一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤501，获取输入的语音信号的数据量。

在步骤502，确定数据量是否大于第一阈值。

当在步骤502确定数据量不大于第一阈值时，在步骤503使用本征空间方法来执行自适应。

当在步骤502确定数据量大于第一阈值时，在步骤504确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤504确定不都大于第二阈值时，在步骤505使用本征空间方法执行自适应。

当在步骤504确定都大于第二阈值时，在步骤506确定低层的所有类的AGML-C是否都大于第三阈值。当在步骤506确定不都大于第三阈值时，在步骤507使用线性变换方法执行自适应。当在步骤506确定都大于第三阈值时，在步骤508使用MAP方法执行自适应。

图6示出根据本发明的又一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤601，获取输入的语音信号的数据量。

在步骤602，确定数据量是否大于第一阈值。

当在步骤602确定数据量不大于第一阈值时，在步骤603使用本征空间方法来执行自适应。

当在步骤602确定数据量大于第一阈值时，在步骤604确定关于输入的语音信号中的预定特征帧树形结构的中间层的所有类的AGML-C是否都大于第二阈值。

当在步骤604确定不都大于第二阈值时，在步骤605使用本征空间方法执行自适应。

当在步骤605确定都大于第二阈值时，在步骤606确定关于输入的语音信号中的预定特征帧中间层的所有节点的AGML-N是否都大于第四阈值。当在步骤606确定不都大于第四阈值时，在步骤607使用线性变换方法执行自适应。当在步骤606确定都大于第四阈值时，在步骤608使用MAP方法执行自适应。

可选择地，在另一实施例中，在步骤606确定中间层的所有节点的AGML-N是否都大于第四阈值和/或低层的所有类的AGML-C是否都大于第三阈值。当确定都大于第四阈值和/或都大于第三阈值时，使用MAP方法执行自适应；否则使用线性变换方法执行自适应。

图7示出根据本发明的再一实施例的利用输入的语音信号的特征确定自适应方法的流程图。

在步骤701，获取输入的语音信号的数据量。

在步骤702，确定数据量是否大于第一阈值。

当在步骤702确定数据量不大于第一阈值时，在步骤703使用本征空间方法来执行自适应。

当在步骤702确定数据量大于第一阈值时，在步骤704确定关于输入的语音信号中的预定特征帧树形结构的高层的所有节点的AGML-N是否都大于第五阈值。

当在步骤704确定不都大于第五阈值时，在步骤705使用本征空间方法执行自适应。

当在步骤705确定都大于第五阈值时，在步骤706确定关于输入的语音信号中的预定特征帧中间层的所有节点的AGML-N是否都大于第六阈值。当在步骤706确定不都大于第六阈值时，在步骤707使用线性变换方法执行自适应。当在步骤706确定都大于第六阈值时，在步骤708使用MAP方法执行自适应。

可根据语音识别系统的不同，以实验的方式来确定上面所使用的阈值。所述输入的语音信号中的预定特征帧优选在输入的语音信号中的最末的特征帧。

在另外的实施例中，可不使用数据量来选择自适应方法。即，在图4-6示出的实施例中，可省略步骤401-403、501-503、601-603以及701-703。此时，仅利用输入的语音信号在各个层的数据累积程度来选择自适应方法。即，按照从高层到低层的次序，如果某层已经达到预定的数据累积程度，则即使比该层高的层也达到预定的数据累积程度，也使用与该层对应的自适应方法。

在图4至图7示出的实施例中使用关于输入的语音信号中的预定特征帧的AGML-N和/或AGML-C来对基于数据量的判断结果进行修正。然而，这仅是示例性的。也可以利用其他方式来使用AGML-N和/或AGML-C。

例如，可获取关于输入的语音信号的所有特征帧的所有类的AGML-C，计算每个层的类的AGML-C之和。在一个示例中，确定与多个层对应的多个自适应方法中AGML-C之和能够使用满足的方法。可选地，如果高层的类的AGML-C之和最大，则选择本征空间方法；如果中间的类的AGML-C之和最大，则选择线性变换方法；如果低层的类的AGML-C之和最大，则选择MAP方法。

在本发明中，利用基于输入的语音信号的特征从本征空间方法、线性变换方法和MAP方法选择的一种方法来对高斯分布的参数进行更新或自适应。然而，上述三种方法仅是示例性的，其分别作为适合使用语音单元的树形结构的高层的类、中间层的类和低层的类的自适应方法的示例。因此，本领域的技术人员可以理解，也可以使用其他的适用于树形结构的高层的类、中间层的类和低层的类的自适应方法来代替本征空间方法、线性变换方法和MAP方法。可利用公知的本征空间方法、线性变换方法和MAP方法用于上述语音识别的自适应方法，将不再赘述。

下面详述描述根据本发明的本征空间方法。

根据本发明的本征空间方法包括离线处理和在线处理。

在离线处理中，提取超向量空间的本征向量，在超向量空间中，超向量通过连接作为高斯分布的参数中的“平均值”的向量而形成。

图8示出离线处理的流程图。

具体地说，在步骤801，利用声音单元的树形结构，获取高斯分布参数的聚类信息，即，得到不同类中的不同声音单元的高斯分布参数。这里，高斯分布参数中的“平均值”向量将通过自适应进行被更新。在步骤802，通过将包括在由树形结构的一个类中的不同声音单元的高斯分布的“平均值”向量连接成一个“平均值”超向量a来建立超向量空间。对不同的类建立不同的超向量空间。在步骤803，从每个超向量空间提取一组本征向量。这样，在树形结构中存在多少类，就提取到多少组本征向量。每组本征向量展开为一个超向量空间。

等式(4)示出本征向量的提取公式。

\overset{&OverBar;}{a} = \frac{1}{R} Σ_{r = 1}^{R} a^{(r)}

S_{a} = \frac{1}{R} Σ_{r = 1}^{R} (a^{(r)} - \overset{&OverBar;}{a}) {(a^{(r)} - \overset{&OverBar;}{a})}^{T} = E_{a} Λ_{a} E_{a}^{T} - - - (4)

E_a＝[v⁽¹⁾…v^D]

其中，

是超向量a的平均值向量，a^(r)是是语音资料库中说话人(r)的超向量，R是语音资料库中说话人的数量；S_a是超向量的平均值归一化发散矩阵，从该发散矩阵可提取本征向量和本征系数；E_a表示一组本征向量。

在在线处理中，使用输入的语音信号来估计最优本征系数，然后利用最优本征系数来获取新的超向量a，从而利用新的超向量a来更新“平均值”向量。

最优本征系数是通过输入的语音信号来估计的。等式(5)示出该最优化估计的优化目标函数。

{\hat{W}}_{a} = \underset{W_{a}}{\arg \max} p (O | a = \overset{&OverBar;}{a} + {\tilde{E}}_{a} W_{a}) - - - (5)

其中，O是从输入的语音信号提取的特征帧，

是最优本征系数，W_a是本征系数，

是本征向量，

是“平均值”超向量的平均值，a是“平均值”超向量。因此，等式(5)表示对本征系数W_a进行最优化，使得特征帧O的观测概率最大化。满足该最大化条件的本征系数W_a即为最优本征系数

图9示出在线处理的流程图。

具体地说，在步骤901，关于输入的语音信号的各个特征帧累积各个类的高斯混合的似然值，其被表示为：

Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t)

其中，T表示输入的语音信号的特征帧的数量，N表示类的状态的数量，j表示第j状态，M表示每个状态的高斯混合的数量，k表示第k高斯分布，r_jk(t)是第t个特征向量对应的状态j的高斯混合k的似然度积累量，可根据等式(3)计算。这里的

与等式(2)表示的内容相同。

在步骤902，利用在步骤901获得的对不同类累积的高斯混合的似然度、超向量平均值

以及在离线处理中获得的本征向量，来估计最优本征系数。等式(5)的结果可通过等式(6)给出计算公式来计算。

Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t) {(O (t) - {\overset{&OverBar;}{a}}_{jk})}^{T} Σ_{jk}^{- 1} v_{jk}^{(i)} = Σ_{t = 1}^{T} Σ_{j = 1}^{N} Σ_{k = 1}^{M} r_{jk} (t) {(Σ_{p = 1}^{K} {\hat{W}}_{a} (p) v_{jk}^{(p)})}^{T} Σ_{jk}^{- 1} v_{jk}^{(i)}, &ForAll; i - - - (6)

这里，O(t)是第t个特征帧，∑_jk是第j状态的高斯混合k的协方差矩阵，

是第j类的与高斯分布参数“平均值”相应的超向量的平均值，v_jk是与第j状态的高斯混合k相应的本征向量，K为本征向量的数量，i为小于K大于等于1的任意自然数。

显然，等式(6)是一个线性方程组，可通过计算该线性方程组来获得最优本征系数

的解。

在步骤903，利用在步骤902获得的最优本征系数

来获得“平均值”超向量a，以更新AM的参数。等式(7)给出了用于更新的公式。

a = \overset{&OverBar;}{a} + + {\tilde{E}}_{a} W_{a} - - - (7)

这里，从更新的a提取更新的高斯分布的参数“平均值”来用作自适应后的AM参数。

应该理解，在本发明中，本征空间方法不限于上面描述的本发明的实施例，也可以利用其他的本征空间方法。

在本发明中，根据输入到语音识别系统中的语音信号的数据量特征以及内容差异特征，来选择适用于在不同数量的聚类上执行自适应的方法，从而解决了存在自适应性能的饱和度和自适应速度的问题。并且以预定的时间间隔执行自适应，从而随着语音识别系统的使用不断执行自适应，而不需要利用专门的测试数据进行自适应的过程，实现了无监督自适应。

LM自适应

根据本发明的LM自适应包括在线产生和扩展用户词典以及更新语言模型参数。

图10示出用户自适应单元中的LM自适应模块及其操作方法。LM自适应模块可包括确定单元、主题映射单元、调整单元、提取单元和LM重新训练单元。

LM自适应的输入为正规化的文本数据。首先，确定单元确定是要调整LM还是只要重新训练LM(1001)。具体地讲，在具有足够的文本数据的情况下，可以执行LM重新训练，否则，执行LM自适应。

假设初始LM为由几个主题LM组合的集成LM，每个主题LM是集成LM的组成部分，并在集成LM中具有特定的权重。简单的集成LM可以是仅具有一个主题LM的普通LM。

对于调整LM(即，LM自适应)，主题映射单元通过使用矢量空间模型将收集的语料映射成相应的主题(1002)。其中，语料中的每个文本被表示成矢量空间中的一个矢量，由矢量相似性度量方法对全部矢量进行分类，并映射到初始模型所包含的指定的若干个主题。然后，调整单元调整所述主题在初始LM中的权重(1003)。(有关不同主题在语言模型中的权重调整方法，在本段后增加)。将调整后的LM重新存储为调整的LM。语言模型(LM)可具有如等式(8)所示的构成：

p (w_{i} | w_{i - 2} w_{i - 1}) = Σ_{t = 1}^{T} λ_{t} P_{' t} (w_{i} | w_{i - 2} w_{i - 1}), Σ_{t = 1}^{T} λ_{t} = 1 - - - (8)

p(w_i|w_i-2w_i-1)就是使用在语音识别引擎中的语言模型的具体形式，这里示出了三词模型，其中，w_i表示当前词；w_i-1表示前一个词；w_i-2表示再前一个词。p(w_i|w_i-2w_i-1)表示知道前两个词时当前词的出现概率。例如，如果已经识别出了前文的内容是“中华”+“人民”，此时，当前词是“共和国”的概率就比“东河谷”要高得多。所述概率是按照不同主题来统计的。下标t表示不同的主题，λ_t表示各个主题的权重。相同的三个词，在不同主题中的条件概率一般是不同的。这样构成了基于主题的LM。P_′t(w_i|w_i-2w_i-1)就表示不同主题下知道前两个词时当前词的出现概率，即，不同主题的语言模型。对不同的三词条件概率进行线性加权组合，就是最终的三词条件概率。

以下详细描述一种权重调整方法。

有关不同主题权重如何调整的问题，可以在ASR相关学术会议论文以及学术杂志中查找到。例如，可以借鉴“discriminative language model adaptationfor mandarin broadcast speech transcription and translation，X.A.Liu，et.al.ASRU07”中公开的方法，采用基于复杂度最小的最大似然估计算法，估计权重的最优数值。一个更加简单实用的方法是：移动通信终端上已经采集了用户的文本信息(即，语料)，利用这些文本信息，计算新的语言模型(采用不同的权重数值)。对于语料的复杂度，不同的权重数值假设，可以计算得到不同的复杂度。取复杂度最小的权重数值，作为最优的权重估计。当主题数量比较少时，例如，只有2个主题时，权重数值就可以假设成0.1、0.2等，去计算不同权重假设时的用户语料复杂度，复杂度最小的权重数值，就作为最合适的使用。当主题比较多时，例如，几十个主题时，这样的搜索相对繁琐。一个可行的处理方案是：虽然事先预定了几十个主题，但是一般做完主题映射后，都会找到几个(例如，小于5个)对应主题。此时，对其他无关主题，权重就设定一个最小的权重阈值，比如0.01；而只对这几个对应主题的权重进行基于语料复杂度最小的最优权重估计。

对于LM重新训练，提取单元从正规化的原始文本数据构成的语料中提取用于训练LM的初始词典(1004)。LM重新训练单元基于提取的初始词典由矢量空间模型重新聚类主题，并重新训练LM(1005)。重新聚类主题时，并不预先指定文本类别的数目及定义。将语料中的每个文本表示成矢量空间中的一个矢量，由矢量相似性度量方法对全部矢量进行无监督自动聚类，聚成若干文本类别。

下面参照图11详细描述LM重新训练单元的操作。

LM重新训练单元包括文本特征提取器、主题聚类器、主题LM训练器和组合器。

具体地讲，如图11所示，文本特征提取器从收集的语料中提取文本特征(例如，TF-IDF特征)以形成文本特征集(1101)。主题聚类器将文本特征提取器形成的文本特征集自动聚类成几个主题(1102)。直观地理解，主题聚类器将相同的主题聚类到一起。这是因为，在某种主题下，使用的词有某种规律或者共性。因此，这是一种词驱动的文本主题聚类方法。图中给出了使用LDA(Latent Dirichlet Analysis)方法进行主题聚类。主题LM训练器对不同主题的LM进行训练(1103)，例如，使用最大似然法进行训练。最后，组合器可通过对不同主题的LM进行线性加权组合来产生重新训练的LM(1104)，其中，每个主题的LM在重新训练的LM中具有新的权重，且每个主题的LM的权重之和为1。这里，新的权重的估计方法，也可以参考上述权重调整方法。重新训练的LM与初始LM具有不同的组成。

以下描述用于LM的用户词典的产生和更新。

图12示出根据本发明实施例的产生用户词典的方法的框图。首先，对通过不同来源收集的各种原始文本数据进行文本正规化。如上所述，原始文本数据可以来自搜索结果和浏览的文本。此外，还可以从其他来源获得原始文本数据。稍后将对此进行描述。文本正规化操作可以去除错误、符号以及不相关的干扰等，并将罗马数字改变为中文字符。通过文本正规化可以将原始文本正规化为净化的文本。例如，在一个网络文本中，会有中文、英文、其他语言、符号、甚至乱码。如果后续需要进行中文处理，则需要将非中文部分、符号和乱码都去掉。在进行文本正规化之后，对净化的文本执行分词。这样，句子被切分为词语序列。同时，可执行未知词语检测以确定对于用户词典来说是新的词语。以上操作属于自然语言处理(NLP)，可以由LM自适应模块驱动上下文提取单元来执行。

然后，通过LM自适应模块执行主题映射以将词语和相关的主题匹配。同时，如果用户词典已经产生，则可在分词和未知词语检测之后基于新发现的词语更新用户词典。最后，在执行LM自适应之后，LM自适应模块可以基于新发现的词语产生并输出用户词典。实际上，可以产生多个用户词典，并且用户词典可以与初始词典相结合，以用于重新训练LM的操作。

在如上所述基于原始文本数据产生或更新的用户词典之后，可以从用户词典中选择关键词以启动隐式网络搜索。这种隐式网络搜索可以由独立于语音搜索引擎一个模块启动，也可以由语音搜索引擎(例如，网络搜索单元)自己来启动。所谓隐式网络搜索，就是将现有的语料作为种子并基于种子在网络上搜索更多的相关语料。通过隐式搜索处理，可以从互联网收集数据，而隐式搜索的搜索结果组成了新获得的原始文本数据。例如，当用户对“超级女声”进行搜索时，会获得很多相关的网络内容(文本内容)。一般的语音网络搜索系统把搜索结果呈现给用户后，就停止处理。但是，根据本发明的语音网络搜索引擎可将获得的网络内容都下载下来作为原始文本数据，从而得到更多和超级女声相关的关键词内容，例如“李宇春”等。然后，通过如图12所述的LM的词典的产生和更新处理，将诸如“李宇春”的词语加入到用户词典中，从而可以连续地扩展用户词典。

根据本发明的实施例，可以由LM自适应模块驱动网络搜索单元执行隐式网络搜索，并通过上下文提取单元将搜索结果加入到原始文本数据中。

基于以上描述可知，如何获得原始文本数据对于LM自适应是非常重要的。图13示出根据本发明实施例的收集原始文本数据的示图。

参照图13，有两种方式收集原始文本数据，即，本地数据收集和网络数据收集。本地数据收集使用消息、电子邮件等存储在移动通信终端中的文本数据。除了文本数据之外，本地数据收集还可以使用语音数据，例如，语音消息的记录、电话呼叫的记录。然后，通过语音识别引擎将语音数据转写为文本数据。最后，上下文提取单元将通过以上方式收集的文本数据作为原始文本数据存储在移动通信终端的存储空间中。原始文本数据构成用于LM自适应的语料。另一方面，网络数据收集依赖于移动通信终端的网络操作。通过收集网络搜索日志以及浏览日志，上下文提取单元可将大量的文本数据作为原始文本数据存储在移动通信终端的存储空间中。如图12所示，移动通信终端的网络操作可包括显式搜索、隐式搜索、基于位置的搜索等。显式搜索表示由用户启动的搜索操作，包括上述语音网络搜索。隐式搜索表示由VWS引擎(例如，网络搜索单元)启动的搜索操作。基于位置的搜索表示GPS搜索。所有这些搜索的搜索日志可以被上下文提取单元作为原始文本数据来存储。此外，在收集到原始文本数据之后，上下文提取单元还对原始文本数据进行正规化。

参照图14，在步骤1401，当用户启动语音网络搜索功能时，用户接口单元接收用户输入的语音信号。在步骤1402，语音识别引擎基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据。在步骤1403，网络搜索单元根据识别出的文本数据启动互联网搜索。在步骤1404，内容分析单元记录并存储搜索结果。在步骤1405，智能显示单元显示搜索结果。在步骤1406，上下文提取单元收集各种原始文本数据，并对原始文本数据进行正规化。在步骤S1407，用户自适应单元使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型。具体地讲，用户自适应单元的声学模型自适应模块确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足数据累积条件的自适应方法，以执行自适应。这里，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类。另一方面，用户自适应单元的语言模型自适应模块根据正规化的文本数据，通过提取用于训练语言模型的词典并基于提取的词典由矢量空间模型重新聚类主题来执行语言模型重新训练，或者通过主题映射和调整主题在语言模型中的权重来执行语言模型自适应；通过正规化文本数据、分词和未知词语检测来产生用户词典，并通过执行隐式网络搜索重复正规化文本数据、分词和未知词语检测来更新或者扩展用户词典。

综上所述，与现有的语音网络搜索技术相比，本发明具有如下特点：(1)嵌入式大词汇量语音识别；(2)无监督声学模型自适应；(3)无监督词典更新和语言模型自适应；(4)根据网络搜索结果更新和调整词典以及语言模型。因此，本发明提供了与分布式方案相比成本很低的语音网络搜索方案，能够通过快速和无监督声学模型自适应设备来补偿声学层失配，并且能够与互联网搜索结果同步地更新词典和语言模型。

虽然已经参照本发明的特定示例性实施例显示和描述了本发明，但是本领域技术人员应该理解，在不脱离由权利要求及其等同物限定的本发明的精神和范围的情况下，可在形式和细节上进行各种改变。

Claims

1.一种用于移动通信终端的语音网络搜索方法，所述语音网络搜索方法包括以下步骤：

当用户启动语音网络搜索功能时，接收用户输入的语音信号；

基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据；

根据识别出的文本数据启动互联网搜索；

记录并存储搜索结果；

显示搜索结果；

收集各种原始文本数据，并对原始文本数据进行正规化；

使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型，

其中，调整声学模型的步骤包括：确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足数据累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类；

其中，调整语言模型的步骤包括：根据正规化的文本数据，通过提取用于训练语言模型的初始词典并基于提取的初始词典由矢量空间模型重新聚类主题来执行语言模型重新训练，或者通过主题映射和调整主题在语言模型中的权重来执行语言模型自适应；通过正规化文本数据、分词和未知词语检测来产生用户词典，并通过执行隐式网络搜索重复正规化文本数据、分词和未知词语检测来更新或者扩展用户词典。

2.根据权利要求1所述的语音网络搜索方法，其中，内容差异参数是对类累积的高斯混合的似然度AGML-C和对节点下的类累积的高斯混合的似然度AGML-N中的至少一个。

3.根据权利要求2所述的语音网络搜索方法，其中，AGML-C表示：关于语音信号的预定特征帧，在所述树形结构中的一个类中的所有状态的所有高斯混合的似然度的累计值。

4.根据权利要求2所述的语音网络搜索方法，其中，AGML-N表示：关于语音信号的预定特征帧，所述树形结构中的一个节点下的所有类的AGML-C之和。

5.根据权利要求1所述的语音网络搜索方法，其中，第一自适应方法是本征空间方法；第二自适应方法是线性变换方法；第三自适应方法是最大后验概率方法。

6.根据权利要求2所述的语音网络搜索方法，其中，调整声学模型的步骤还包括：确定输入的语音信号的数据量参数，其中，基于输入的语音信号的数据量和内容差异参数来选择满足数据量条件和数据累积条件的自适应方法。

7.根据权利要求6所述的语音网络搜索方法，其中，数据量参数是输入的语音信号的所有特征帧的时间长度。

8.根据权利要求6所述的语音网络搜索方法，其中，基于输入的语音信号的数据量和所述数据累积程度来选择满足数据量条件和数据累积条件的自适应方法的步骤包括：

确定数据量参数是否大于第一阈值；

当确定数据量参数不大于第一阈值时，选择第一自适应方法；

当确定数据量参数大于第一阈值时，确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第二阈值；

当确定不都大于第二阈值时，选择第一自适应方法。

9.根据权利要求8所述的语音网络搜索方法，其中，当确定都大于第二阈值时，选择第二自适应方法。

10.根据权利要求8所述的语音网络搜索方法，其中，当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第三阈值；当确定都大于第三阈值时，选择第三自适应方法；当确定不都大于第三阈值时，选择第二自适应方法。

11.根据权利要求8所述的语音网络搜索方法，其中，当确定都大于第二阈值时，确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第四阈值；当确定都大于第四阈值时，选择第三自适应方法；当确定不都大于第四阈值时，选择第二自适应方法。

12.根据权利要求2所述的语音网络搜索方法，其中，选择满足数据累积条件的自适应方法的步骤包括：

确定关于输入的语音信号中的预定特征帧，所述树形结构的中间层的所有类的AGML-C是否都大于第五阈值；

当确定不都大于第五阈值时，选择第一自适应方法。

13.根据权利要求12所述的语音网络搜索方法，其中，当确定都大于第五阈值时，选择第二自适应方法。

14.根据权利要求12所述的语音网络搜索方法，其中，当确定都大于第五阈值时，确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第六阈值；当确定都大于第六阈值时，选择第三自适应方法；当确定不都大于第六阈值时，选择第二自适应方法。

15.根据权利要求12所述的语音网络搜索方法，其中，当确定都大于第五阈值时，确定关于所述预定特征帧所述树形结构的中间层的所有节点的AGML-N是否都大于第七阈值；当确定都大于第七阈值时，选择第三自适应方法；当确定不都大于第七阈值时，选择第二自适应方法。

16.根据权利要求1所述的语音网络搜索方法，其中，在调整语言模型的步骤中，如果存在足够的文本数据，则执行语言模型重新训练，否则执行语言模型自适应。

17.根据权利要求16所述的语音网络搜索方法，其中，执行语言模型重新训练的步骤包括：

从收集的语料中提取用于训练LM的初始词典，其中，所述语料由正规化的文本数据构成；

基于提取的初始词典由矢量空间模型重新聚类主题，并重新训练语言模型。

18.根据权利要求16所述的语音网络搜索方法，其中，执行语言模型自适应的步骤包括：

通过使用矢量空间模型将收集的语料映射成相应的主题，其中，所述语料由正规化的文本数据构成；

调整所述主题在原有语言模型中的权重，并存储调整后的语言模型。

19.根据权利要求17所述的语音网络搜索方法，其中，重新训练语言模型的步骤包括：

从收集的语料中提取文本特征以形成文本特征集；

将文本特征提取器形成的文本特征集自动聚类成几个主题；

对不同主题的语言模型进行训练；

通过对不同主题的语言模型进行线性加权组合来产生重新训练的语言模型，其中，加权之和为1。

20.根据权利要求1所述的语音网络搜索方法，其中，产生用户词典的步骤包括：

对通过不同来源收集的各种原始文本数据进行文本正规化；

对正规化的文本数据执行分词；

执行未知词语检测以确定新的词语；

基于新的词语产生并输出用户词典。

21.根据权利要求20所述的语音网络搜索方法，其中，更新或者扩展用户词典的步骤包括：基于新的词语更新用户词典。

22.根据权利要求20所述的语音网络搜索方法，其中，更新或者扩展用户词典的步骤包括：

从用户词典中选择关键词以启动隐式网络搜索；

将隐式网络搜索的搜索结果组成新的原始文本数据；

对新的原始文本数据执行文本正规化、分词和位置词语检测来扩展已有的用户词典。

23.根据权利要求1所述的语音网络搜索方法，其中，收集原始文本数据包括本地数据收集和网络数据收集。

24.根据权利要求23所述的语音网络搜索方法，其中，在本地数据收集中，将消息、电子邮件等存储在移动通信终端中的文本数据作为原始文本数据，并且将语音消息、电话呼叫转写为文本数据作为原始文本数据。

25.根据权利要求23所述的语音网络搜索方法，其中，在网络数据收集中，将网络搜索日志以及浏览日志作为原始文本数据。

26.一种用于移动通信终端的语音网络搜索装置，所述语音网络搜索装置包括：

用户接口单元，当用户启动语音网络搜索功能时，接收用户输入的语音信号；

语音识别引擎，基于声学模型在发音符号指示的声学级上识别用户输入的语音信号，并基于语言模型将识别的语音信号转写为文本数据；

网络搜索单元，根据识别出的文本数据启动互联网搜索；

内容分析单元，记录并存储搜索结果；

智能显示单元，显示搜索结果；

上下文提取单元，收集各种原始文本数据，并对原始文本数据进行正规化；

用户自适应单元，使用并分析语音信号来调整声学模型，并且使用正规化的文本数据调整语言模型，

其中，用户自适应单元包括声学模型自适应模块，所述声学模型自适应模块确定输入的语音信号的内容差异参数，以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度；从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足数据累积条件的自适应方法，以执行自适应，其中，对语音识别系统的特征空间中的声音单元建立所述树形结构，从而以树形结构的形式对声音单元进行聚类；

其中，用户自适应单元还包括语言模型自适应模块，所述语言模型自适应模块根据正规化的文本数据，通过提取用于训练语言模型的初始词典并基于提取的初始词典由矢量空间模型重新聚类主题来执行语言模型重新训练，或者通过主题映射和调整主题在语言模型中的权重来执行语言模型自适应；驱动上下文提取单元进行正规化文本数据、分词和未知词语检测以产生用户词典，并驱动网络搜索单元执行隐式网络搜索以重复正规化文本数据、分词和未知词语检测来更新或者扩展用户词典。

27.根据权利要求26所述的语音网络搜索装置，其中，内容差异参数是对类累积的高斯混合的似然度AGML-C和对节点下的类累积的高斯混合的似然度AGML-N中的至少一个。

28.根据权利要求26所述的语音网络搜索装置，其中，AGML-C表示：关于语音信号的预定特征帧，在所述树形结构中的一个类中的所有状态的所有高斯混合的似然度的累计值。

29.根据权利要求26所述的语音网络搜索装置，其中，AGML-N表示：关于语音信号的预定特征帧，所述树形结构中的一个节点下的所有类的AGML-C之和。

30.根据权利要求26所述的语音网络搜索装置，其中，第一自适应方法是本征空间方法；第二自适应方法是线性变换方法；第三自适应方法是最大后验概率方法。

31.根据权利要求26所述的语音网络搜索装置，其中，声学模型自适应模块还确定输入的语音信号的数据量参数，其中，基于输入的语音信号的数据量和内容差异参数来选择满足数据量条件和数据累积条件的自适应方法。

32.根据权利要求31所述的语音网络搜索装置，其中，数据量参数是输入的语音信号的所有特征帧的时间长度。

33.根据权利要求26所述的语音网络搜索装置，其中，语言模型自适应模块包括：

确定单元，当存在足够的文本数据时，确定执行语言模型重新训练，否则确定执行语言模型自适应；

提取单元，从收集的语料中提取用于训练LM的原始词典，其中，所述语料由正规化的文本数据构成；

语言模型重新训练单元，基于提取的原始词典由矢量空间模型重新聚类主题，并重新训练语言模型；

主题映射单元，通过使用矢量空间模型将收集的语料映射成相应的主题，其中，所述语料由正规化的文本数据构成；

调整单元，调整所述主题在原有语言模型中的权重，并存储调整后的语言模型。

34.根据权利要求33所述的语音网络搜索装置，其中，语言模型重新训练单元包括：

文本特征提取器，从收集的语料中提取文本特征以形成文本特征集；

主题聚类器，将文本特征提取器形成的文本特征集自动聚类成几个主题；

主题语言模型训练器，对不同主题的语言模型进行训练；

组合器，通过对不同主题的语言模型进行线性加权组合来产生重新训练的语言模型，其中，加权之和为1。

35.根据权利要求26所述的语音网络搜索装置，其中，上下文提取单元对通过不同来源收集的各种原始文本数据进行文本正规化，对正规化的文本数据执行分词，执行未知词语检测以确定新的词语；语言模型自适应单元基于新的词语产生并输出用户词典。

36.根据权利要求35所述的语音网络搜索装置，其中，语言模型自适应单元基于新的词语更新用户词典。

37.根据权利要求34所述的语音网络搜索装置，其中，网络搜索单元从用户词典中选择关键词以启动隐式网络搜索，上下文提取单元将隐式网络搜索的搜索结果组成新的原始文本数据，并对新的原始文本数据执行文本正规化、分词和位置词语检测，从而语言模型自适应单元扩展已有的用户词典。

38.根据权利要求26所述的语音网络搜索装置，其中，上下文提取单元通过本地数据收集和网络数据收集方式来收集原始文本数据。

39.根据权利要求38所述的语音网络搜索装置，其中，上下文提取单元将消息、电子邮件等存储在移动通信终端中的文本数据作为原始文本数据，并在通过语音识别引擎将语音消息、电话呼叫转写为文本数据之后将转写的文本数据作为原始文本数据。

40.根据权利要求38所述的语音网络搜索方法，其中，上下文提取单元将网络搜索日志以及浏览日志作为原始文本数据。