CN102298927B

CN102298927B - 可调整内存使用空间的语音辨识系统与方法

Info

Publication number: CN102298927B
Application number: CN201010213979.2A
Authority: CN
Inventors: 林玄松
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2014-04-23
Anticipated expiration: 2030-06-25
Also published as: CN102298927A

Abstract

一种可调整内存使用空间的语音辨识系统从输入的一序列的语音讯号中提取出多个特征向量。于一离线阶段，通过搜寻空间建立模块由读入的文本产生一词层搜寻空间，并自此词层搜寻空间移除重复信息后，透过一词典所提供的词与音的对应关系，将移除重复信息后的词层搜寻空间部分展开至一树状结构的搜寻空间。于一在线阶段，再由一辨识器结合此词典和至少一声学模型，依此搜寻空间里树状结构的连接关系，与此特征向量比对后，输出一语音辨识结果。

Description

可调整内存使用空间的语音辨识系统与方法

技术领域

本发明关于一种可调整内存使用空间的语音辨识(speechrecognition)系统与方法。

背景技术

在语音辨识技术里，一般会根据词汇量大小(vocabulary size)分为小字汇(例如小于100词)、中字汇(例如100～1000词)、大字汇(例如1001～10000词)、极大字汇(例如大于10000词)等不同应用，并且也会依照发音方式分为单字音(字与字需断开)、单词连续发音(可再分为孤立词、及词与词断开两种)，连续语音等三种。其中，由极大字汇和连续语音所组合的大词汇连续语音辨识是语音领域里复杂的技术之一，例如听写机(dictation machine)就是此项技术的一种应用，此项技术也代表着它是需要大量的记忆空间和运算时间资源的一种技术，通常也需要以服务器级(server-based)的装置来运作。

即便科技进步，客户端(client)的机器，如智能型手机、导航系统等行动装置，其运算资源仍然远不及服务器级的规格，加上此类装置并非特别为语音辨识而设计，使用过程通常同时执行多个应用程序，个别程序分配到的资源相当有限，这也影响了语音辨识的应用层面。

有些文献的技术是利用客户端-伺服端(client-server)架构来对运算资源做最佳化，是基于动态存取的搜寻网络架构的语音辨识技术。

一连续语音辨识器(continuous speech decoder)，如图1的范例所示，是利用三层网络，即词网络层(word network layer)106、音素网络层(phoneticnetwork layer)104、动态程序化网络层(dynamic programming layer)102，并于辨识阶段进行词汇数据的串连和记忆空间的切断分路(pruning)。此连续语音辨识器于离线(off-line)阶段时，利用此相互独立的三阶层先建构搜寻空间(search space)，再于在线(on-line)执行阶段时动态存取这三层不同阶层的信息来降低记忆空间的使用。

现有一种以去除重复数据并将文本相关(context-dependent)的搜寻空间完全展开(fully-expanded)的语音辨识技术或是一种大规模词汇的语音识别装置和方法，是结合词汇与语法(grammar)于一有限状态机(finite-statemachine，FSM)做为辨识的搜寻网络，以免除语法剖析步骤而直接自辨识结果得出语法内含。

再者，一种智能型动态语音目录结构调整方法，如图2的范例流程所示，先从一语音功能系统提取出一原始语音目录结构后，再利用一最佳化调整机制调整此原始语音目录结构，以获得一调整后语音目录结构，来取代此原始语音目录结构。此方法可依使用者的喜好重新组织语音功能系统的语音目录结构，使得使用者可有效率地获得较佳的服务。

在大词汇连续语音辨识中，随着涵盖字词数目越多，使用的计算和内存资源越大，一般可利用有限状态机最佳化，包括如合并重复的路径、根据词典将文字转成音素(通常有对应的声学模型)、再合并重复的路径等。图3是在一般在大词汇连续语音辨识中，两个基本阶段的一个范例示意图。如图3的范例所示，两个基本阶段为离线建立(off-line construction)阶段310与在线辨识(on-line decoding)阶段320。于离线建立阶段310时，由语言模型、语法和词典来建立辨识所需的词层(word-level)的搜寻空间312；于在线辨识阶段320时，透过一辨识器328，使用搜寻空间312，配合声学模型322以及输入语音324提取的特征向量，执行连续语音辨识，产生辨识结果326。

发明内容

本发明的实施范例可提供一种可调整内存使用空间的语音辨识系统与方法。

在一实施范例中，公开了一种可调整内存使用空间的语音辨识系统。此系统包含一提取特征模块(feature extraction module)、一搜寻空间建立模块(search space construction module)、以及一辨识器(decoder)。提取特征模块从输入的一序列的语音讯号(speech signal)中提取出多个特征向量。搜寻空间建立模块由读入的文本产生一词层(word-level)搜寻空间，并自此词层搜寻空间移除重复信息后，将重复信息被移除后的词层搜寻空间部分展开至一树状(tree)结构的搜寻空间。辨识器结合此词典和至少一声学模型(acoustic model)，依此搜寻空间里树状结构的连接关系，与此多个特征向量比对后，输出一语音辨识结果。

在另一实施范例中，公开了一种可调整内存使用空间的语音辨识方法，运作在至少一种语言系统上。此方法包含：从输入的一序列的语音讯号中提取出多个特征向量；于一离线阶段，经由一搜寻空间建立模块从读入的文本产生一词层搜寻空间，并自此词层搜寻空间移除重复信息后，再透过一词典所提供的词与音的对应关系，将移除重复信息后的词层搜寻空间部分展开至一树状结构的搜寻空间；以及于一在线阶段，经由一辨识器来结合此词典和至少一声学模型，依此搜寻空间里树状结构的连接关系，与此多个特征向量比对后，输出一语音辨识结果。

结合附图、实施范例的详细说明及权利要求，将上述及本发明的其它目的与优点详述于后。

附图说明

图1是一范例示意图，说明一连续语音辨识器的运作方式；

图2是一范例流程图，说明一种智能型动态语音目录结构调整方法；

图3是在一般在大词汇连续语音辨识中，两个基本阶段的一个范例示意；

图4是一可调整内存使用空间的语音辨识系统的一范例示意图，与所公开的某些实施范例一致；

图5A是一范例示意图，说明词层搜寻空间的连接关系，与所公开的某些实施范例一致；

图5B是词层搜寻空间的一范例示意图，与所公开的某些实施范例一致；

图6A至图6D是一范例示意图，说明从读入的文本如何产生一词层搜寻空间，与所公开的某些实施范例一致；

图7是将一词层搜寻空间展开至一音素层搜寻空间的一范例示意图，与所公开的某些实施范例一致；

图8A与图8B是一范例示意图，说明从一词层展开至一音素层时，会移除重复的信息，与所公开的某些实施范例一致；

图9是一范例流程图，说明由读入的文本来建立一搜寻空间的步骤，与所公开的某些实施范例一致；

图10是词层至音素层搜寻空间部分展开的一范例流程图，与所公开的某些实施范例一致；

图11A图是一范例示意图，说明一词层搜寻空间的状态依重复次数由大到小排序的结果，与所公开的某些实施范例一致；

图11B图是部分展开的一范例示意图，说明搜寻空间有部分展开的音素层搜寻空间以及部分指向词典的位置，与所公开的某些实施范例一致；

图12A至图12D以一工作范例，说明图9的建立一搜寻空间的范例流程，与所公开的某些实施范例一致；

图13是一范例示意图，说明部分展开的音素层搜寻空间可以处理一字多音的情形，与所公开的某些实施范例一致。

图14是一范例示意图，说明不同展开比例时，搜寻空间大小的变化，与所公开的某些实施范例一致。

图15A至图15C是英语系统中，短音节单字应用的一范例示意图，与所公开的某些实施范例一致。

图16A至图16C是英语系统中，长音节单字应用的一范例示意图，与所公开的某些实施范例一致。

图17是一范例流程图，说明辨识器依搜寻空间建立的连接关系，进行辨识的步骤，与所公开的某些实施范例一致

【主要组件符号说明】

102动态程序化网络层 104音素网络层

106词网络层

310离线建立阶段 312搜寻空间

320在线辨识阶段 322声学模型

324输入语音 326辨识结果

328辨识器

400语音辨识系统 410特征提取模块

412特征向量 420搜寻空间建立模块

422文本 424词典

426树状结构的搜寻空间 428声学模型

430辨识器 432语音辨识结果

622文本 642词层搜寻空间

700音素层搜寻空间范例

810词层搜寻空间范例

910由读入的文本产生一词层搜寻空间

920自此词层搜寻空间移除重复信息

930透过词与音的一对应关系，将移除重复信息后的词层搜寻空间部分展开至一树状结构的音素层搜寻空间

940自此音素层搜寻空间移除重复信息

1010将词层搜寻空间的每一状态根据一词典展开，计算每一状态发散出去的词在音素层重复的次数

1020依一展开比例，从重复次数的序列中挑选出对应的状态

1030将挑选出的状态展开到一音素层搜寻空间

1040其余未展开的状态则记录其在此词典对应的位置

1110部分展开的音素层搜寻空间

1120未展开状态所对应的词典位置

1100搜寻空间

1705从树状结构搜寻空间的起始状态开始往下一状态移动

1710依该树状结构搜寻空间建立的连接关系，对所有可能的路径，判断其上的信息是否为音素

1715读取声学模型的数据

1720透过词典去读取音素对应的声学模型，并从声学模型的位置读取声学模型的数据

1725根据声学模型的数据与特征向量计算出分数，将可能的路径排序，并从中选取出数条路径

1730取出数条最有可能的路径，并作为语音辨识结果

具体实施方式

本发明的实施范例建立一种可适合大词汇连续语音辨识的数据结构，并建立一种可针对不同应用装置的资源，调整内存使用空间的机制，来使语音辨识应用可以因应装置资源限制而做最佳化的调整和执行。

图4是一可调整内存使用空间的语音辨识系统的一个范例示意图，与所公开的某些实施范例一致。图4的范例中，语音辨识系统400包含一提取特征模块410、一搜寻空间建立模块420、以及一辨识器430。语音辨识系统400的运作说明如下。提取特征模块410从输入的一序列的语音讯号中提取出多个特征向量412，输入的音讯经过特征提取后，可得到多个音框(frame)，而音框的数目则由录音长度决定，这些音框可用向量形式来表示。于一离线阶段，搜寻空间建立模块420由读入的文本422产生一词层搜寻空间，并自此词层搜寻空间移除重复信息后，透过一词典424所提供的词与音的对应关系，将移除重复信息后的词层搜寻空间部分展开(partialexpand)至一树状(tree)结构的搜寻空间426。于一在线阶段，辨识器430结合词典424和至少一声学模型428，依搜寻空间426里树状结构的连接关系，与提取特征模块410所提取出的多个特征向量412比对后，输出一语音辨识结果432。

在离线阶段，搜寻空间建立模块420可由语言模型或语法来建立词层搜寻空间，词层搜寻空间可用一有限状态机来表示词与词之间的连接关系。词层搜寻空间的连接关系可用图5A的范例来表示，其中编号p、q代表状态(state)。由状态p至状态q可由一带有方向的线(transition)连接起来，例如以p→q表示，而带有方向的线所带的信息W便是词。图5B是词层搜寻空间的一范例示意图，与所公开的某些实施范例一致，其中0为起点，2、3为终点。图5B的范例中，词层搜寻空间有四个状态，其编号分别为0、1、2、3。在路径0→1→2上所带的信息为『音乐厅』，而在路径0→1→3上所带的信息为『音乐院』。

对于读入的文本，在建立词与词之间的连接关系的同时，会检查由同一状态发散出去的所有词，并移除重复的信息(redundancy)。图6A至图6D以一文本范例，说明从读入的文本如何产生一词层搜寻空间，与所公开的某些实施范例一致。假设图6A是一读入文本622的范例。然后，将文本622依一顺序排序存入一矩阵空间，如图6B的范例所示。之后，从该矩阵空间的第一列第一栏开始，逐列与其前一列比较，并将重复的信息移除，依此，从图6B的范例中移除第四列第一与第二栏里与第三列有重复的信息『音乐』，移除后的结果如图6C的范例所示。再将图6C的结果从第一列第一栏开始，逐列往下对每一字编号(例如由0开始)，并以一带有方向的线来建立文本622里词与词之间的连接关系，直到最后一列最后一栏为止，图6D的范例是最终建立出的词层搜寻空间642。移除重复信息的词层搜寻空间642维持树状结构，这有助于辨识后保留前几名辨识结果。

由于辨识时读取的计算数据是声学模型，如果以词层搜寻空间当成辨识时的搜寻空间，会花大量的时间实时找出词与其对应的声学模型。若有数个词对应到同样的声学模型(如：音、殷)，这对要求计算时间与空间的语音辨识系统是种浪费，通常会将词层搜寻空间转换成音素层搜寻空间来提高辨识效率。

当词层搜寻空间建立起来后，搜寻空间建立模块420可透过词典所提供的词与音的对应关系，将它转换到音素层。以图5A的词层搜寻空间为例，词层搜寻空间范例可由语言模型或语法来建立。图7是将图5A的词层搜寻空间展开至一音素层搜寻空间的一范例示意图。而图7的范例，可先透过词典得到下列的词与音的对应关系：「音乐」对应「ㄧㄣㄩㄝ」，「厅」对应「ㄊㄧㄥ」，院对应「ㄩㄢ」，然后依此对应关系来展开为音素层搜寻空间范例700。

利用词典，词层搜寻空间可转换成音素层搜寻空间。然而在转换成音素层时也会发生信息重复的间题，例如，图8A的词层搜寻空间范例810，从状态0发散的两连接线所带的词「光」与「国中」对应的音分别为「ㄍㄨㄤ」与「ㄍㄨㄛㄓㄨㄥ」，都含有「ㄍㄨ」的音。在建立音素层时，本发明的实施范例也会检查每一状态并移除重复的信息，来降低这些重复信息所带来的不必要计算量和占用的内存空间。依此，状态0所发散的两连接线所带的词「光」与「国中」，在展开成一音素层时，会移除重复的信息「ㄍㄨ」，图8B是状态0发散的两连接线所带的词「光」与「国中」其展开后的音素层的一范例示意图。

当所有词汇展开到音素层后，会产生多个状态及多条连接线，展开越多状态及连接线，占用的内存空间越大，但辨识时，因为越不需要通过词典来找词与音的对应关系，所以搜寻或运算的速度越快。本发明的实施范例在词层转换到音素层的过程，其部分展开的设计除了可依指定的内存空间的限制，例如内存空间大小不超过一门坎值，也兼顾搜寻或运算的速度。此部分展开的设计包括音素层搜寻空间具有树状结构、将词层重复的字词指向词典的同一位置、以及移除音素层搜寻空间里重复的信息等。图9是一范例流程图，说明由读入的文本来建立一搜寻空间的步骤，与所发明的某些实施范例一致，而也可应用在不同的词层搜寻空间范例，例如依罗马拼音形式的音和词。

参考图9的范例流程，首先，由读入的文本产生一词层搜寻空间(步骤910)，并自此词层搜寻空间移除重复信息(步骤920)后，透过词与音的一对应关系，将移除重复信息后的词层搜寻空间部分展开至一树状结构的音素层搜寻空间(步骤930)，之后，自此音素层搜寻空间移除重复信息(步骤940)。步骤930中，词层至音素层搜寻空间部分展开的细部流程如图10的范例流程图所述，与所公开的某些实施范例一致。

移除重复信息后的词层搜寻空间以一有限状态机实现后，在图10的范例中，先将词层搜寻空间的每一状态根据一词典展开，计算每一状态发散出去的词在音素层重复的次数，如步骤1010所示。然后，依一展开比例，从重复次数的序列中挑选出对应的状态，如步骤1020所示。将挑选出的状态展开到一音素层搜寻空间，如步骤1030所示。其余未展开的状态则记录其在此词典对应的位置，如步骤1040所示。展开的音素层搜寻空间与记录词典对应位置的信息可以产生在单一档案中。

以图8A的词层搜寻空间范例810来说明如下，词层搜寻空间范例810共有8个状态，以编号0至7表示。状态0至7中，仅有状态0从词层展开至音素层有重复次数2，其余状态的重复次数皆为0，依重复次数由大到小排序的结果如图11A图所示。假设仅挑选状态0来展开，其余状态不展开，则当步骤1030完成后，所产生的搜寻空间1100如图11B图所示。从搜寻空间1100可以看出，搜寻空间1100有部分展开状态的音素层搜寻空间1110以及未展开状态所对应的词典位置1120，其中D＝#代表某个词在词典中的位置，例如「D＝2，复」，代表词「复」在词典中的位置2，由此位置2可以找出对应的发音和声学模型。

承上述，图12A至图12D以一工作范例，说明图9的利用部分展开的方式来建立搜寻空间的范例流程，其中读入的文本假设如下：

光复国中

光武国中

国中课程

则步骤910完成后，由上述读入的文本所产生的词层搜寻空间如图12A所示。步骤920完成后，自图12A的词层搜寻空间移除重复信息，即状态0所发散的两连接线所带的词「光」后，如图12B所示。步骤930完成后，图12B被部分展开至一树状结构的音素层搜寻空间，如图12C所示。步骤940完成后，自图12C的音素层搜寻空间移除重复信息「ㄍㄨ」后，如图12D所示。

部分展开的设计中，选择要展开的状态可采用下列的范例式子来评断。

\begin{matrix} \underset{n}{\arg \max} & f (n) : = {n | (Σ_{i = 1}^{N_{s}} r (n_{i}) + Σ_{i = N_{s + 1}}^{N} r^{'} (n_{i})) \times m \leq M}, \end{matrix}

其中n用以代表状态，f(n)是以n所定义的函数，arg max f(n)则是此函数所取得的状态中能够满足函数条件的最大值。此外，n_i代表某一个状态，N代表所有的状态数目。N_s是依指定比例选择的状态数目，其所包含的状态分别是{n₁，n₂，…，n_s}，未选择的状态则是{n_s+1，n_s+2，…，n_N}。r(n_i)代表选择展开的状态移除重复信息后的连接线(transition)数目，r′(n_i)代表未展开的状态连接线数目，m代表每一连接线所使用的内存大小，M则是系统整体内存需求。以图11B的搜寻空间1110为例，则r(n₀)＝1，r′(n₃)＝2，r′(n₄)＝r′(n₅)＝r′(n₉)＝1。由于未展开状态的每一分支仅记录词典对应的位置，因此相对于词层并没有增加连接线数目。从词典对应的位置可以找出对应的发音和声学模型。

换句话说，上述计算公式与多个参数有关，此多个参数系选自有限状态机所有的状态数目、依展开比例选择的状态、未选择的状态、选择展开的状态移除重复信息后的连接线数目、未展开的状态连接线数目、以及每一连接线所使用的内存大小。

展开的结果也可以处理一字多音的情形，例如图13的部分展开的音素层搜寻空间的范例1300，其中状态6的词「乐」有两个音，在词典中对应两个位置，亦即D＝2与D＝3，此两位置仅些微增加搜寻空间的大小而已。若是事先将文本断词，也可以再降低搜寻空间的大小。

并且，使用不同展开比例时，搜寻空间大小也会随之变化。以电话请假系统的1000句测试句子为例，部分内容如下：

这礼拜三要请假

我明天早上要请休假半天

我想查我还有几天假

上述文本中，每一句由长短不一的词所组成，依部分展开的方式逐步调高展开的比例，将词层搜寻空间转换成音素层搜寻空间，其包含的状态、连接线数目和产生的词典条目如图14的范例所示。

由图14的范例可以看出，当展开比例为20％时，搜寻空间使用了90486个字节(byte)的内存。若全部展开(展开比例为100％)，搜寻空间将使用177058个字节(byte)的内存。可知当展开比例为20％时，仅利用186个词典条目(16372个字节)，便足以让整个搜寻空间的大小，相对于全部展开时减少将近40％。所以，对于资源有限的装置，本发明的实施范例所采用的部分展开方式可以有效降低内存需求，而针对实际情况调整展开的比例，也可以增加应用的层面。对于不同的资源限制和应用，例如个人计算机/客户端或服务器端或行动装置等，在时间和空间上可以取得最佳化的平衡。

本发明的实施范例所使用的对象并不限于单一种语言，外语系统或多语混合的系统都可以运作，仅需将外语单字与音素对应关系加入词典即可。图15A至图15C是英语系统中，短音节单字的应用范例，与所发明的某些实施范例一致。此应用范例中，短音节单字「is」由一状态至另一状态同样可由一带有方向的线连接起来，而方向线所带的信息「is」便是词，如图15A所示。利用英语单字与音素的对应关系，即「is」对应「I」与「Z」，可由词层展开至音素层，如图15B所示。单字「is」同样可指向特定的词典位置，例如D＝i，如图15C所示。

类似地，图16A至图16C是英语系统中，长音节单字的应用范例，其中，长音节单字「recognition」由一状态至另一状态同样可由一带有方向的线连接起来，如图16A所示；而利用长音节单字「recognition」与音素的对应关系，可由单字「recognition」展开至音素层，如图16B所示；单字「recognition」可指向特定的词典位置，例如D＝2，如图16C所示。从图16B可以看出，长音节单字的应用在降低内存空间的需求上，其效果更为明显。

对于同一词，无论哪一条目，其存取的词典位置是一样的。所以，不管音素层展开有多大，都只要保留一份词到发音对应关系的存取空间即可。本发明的实施范例中，在搜寻词与发音的对应关系和省下的内存空间取舍。于离线阶段的词层转换到音素层的过程中，如前所述，将未展开状态的路径上的信息指向一特定的词典位置；当搜寻空间建立之后，在在线阶段的辨识过程中，对每一音框，花费少许的时间来判断其所有可能的路径上的信息是否为音素。若否，则透过词典去读取音素对应的声学模型。图17的范例流程中，详细说明依搜寻空间建立的连接关系，如何进行辨识的步骤，与所公开的某些实施范例一致。

如前所述，将输入的语音讯号提取特征之后可取得多个音框。图17的范例流程中，对每一音框，从树状结构的搜寻空间的起始状态(例如编号0)开始往下一状态移动，如步骤1705所示。依该树状结构搜寻空间建立的连接关系，对所有可能的路径，判断其上的信息是否为音素，如步骤1710所示。若是，则读取声学模型的数据，如步骤1715所示；若否，则透过词典去读取音素对应的声学模型，并从声学模型的位置读取声学模型的数据，如步骤1720所示。声学模型的数据包括如对应的平均、变异等数值。而词典的音素对应到声学模型的关系已于离线阶段完成。

根据声学模型的数据与特征向量计算出分数，将可能的路径排序，例如依分数大小排序，并从中选取出数条路径，如步骤1725所示。重复上述步骤1710、1715、1720、1725，直到跑完所有音框为止。然后，取出数条最有可能的路径，例如可根据分数最高的路径，并作为语音辨识结果，如步骤1730所示。

综上所述，本发明的实施范例提供一种可因应各式应用装置或系统实际资源的限制，来调整内存使用的语音辨识系统与方法，以适合于该装置或系统的记忆空间运作，并可得到最佳执行效率的语音辨识。其中，于一离线阶段，建立一因应目标资源限制的搜寻空间，于一在线阶段，辨识器结合此搜寻空间、词典及声学模型，以比对输入的语音讯号里所提取的特征向量，并搜寻出至少一组辨识结果。本发明的实施范例在大词汇连续语音辨识中，取得时间与空间上最佳化的平衡效果可更为显著，并且可不受限于特殊平台或硬件。

以上所述者仅为本发明的实施范例，当不能依此限定本发明实施的范围。即大凡本发明权利要求所作的均等变化与修饰，皆应仍属本发明专利涵盖的范围。

Claims

1.一种可调整内存使用空间的语音辨识系统，该系统包含:

一提取特征模块，从输入的语音讯号中提取出多个特征向量;

一搜寻空间建立模块，由读入的文本产生一词层搜寻空间，并自该词层搜寻空间移除重复信息后，将该移除重复信息后的词层搜寻空间部分展开至一树状结构的搜寻空间;以及

一辨识器，结合该词典和至少一声学模型，依该搜寻空间里树状结构的连接关系，与该多个特征向量进行比对后，输出一语音辨识结果，

其中该移除重复信息后的词层搜寻空间以一有限状态机来实现，将该有限状态机里的每一状态根据一词典展开，计算每一状态发散出去的词在音素层重复的次数，依一展开比例，从重复次数的序列中挑选出词与音对应的状态，以及将该挑选出的状态展开至一音素层搜寻空间，其余未展开的状态则记录其在该词典对应的位置。

2.如权利要求1所述的语音辨识系统，其中该词层搜寻空间是用一有限状态机来表示词与词之间的连接关系，并且由一状态至另一状态系由一带有方向的线连接起来，而该有方向的线所带的信息就是词。

3.如权利要求1所述的语音辨识系统，其中该搜寻空间建立模块是依一指定的记忆空间的限制，将该移除重复信息后的词层搜寻空间部分展开至该树状结构的搜寻空间。

4.如权利要求1所述的语音辨识系统，该语音辨识系统不限于运作在单一种语言系统上。

5.如权利要求2所述的语音辨识系统，其中该树状结构的搜寻空间包括部分展开状态的一搜寻空间以及未展开状态所对应的至少一词典位置。

6.如权利要求2所述的语音辨识系统，其中若该音素层搜寻空间有重复信息，则该搜寻空间建立模块从该音素层搜寻空间移除该重复信息。

7.如权利要求1所述的语音辨识系统，其中该辨识器根据该树状结构的搜寻空间所建立的连接关系，走出数条有可能的路径，并取出其中的几条路径作为该语音辨识结果。

8.如权利要求2所述的语音辨识系统，其中该辨识器于一在线阶段，从该未展开状态所对应的至少一词典位置，取出对应的发音和声学模型。

9.如权利要求1所述的语音辨识系统，其中该搜寻空间建立模块运作于一离线阶段。

10.一种可调整内存使用空间的语音辨识方法，运作在至少一种语言系统上，该方法包括:

从输入的语音讯号中提取出多个特征向量;

于一离线阶段，经由一搜寻空间建立模块从一读入的文本产生一词层搜寻空间，并自该词层搜寻空间移除重复信息后，透过一词典所提供的词与音的对应关系，将该移除重复信息后的词层搜寻空间部分展开至一树状结构的搜寻空间;以及

于一在线阶段，经由一辨识器来结合该词典和至少一声学模型，依该搜寻空间里树状结构的连接关系，与该提取出的多个特征向量比对后，输出一语音辨识结果，

11.如权利要求10所述的语音辨识方法，其中该词层搜寻空间的产生还包括:

将该读入的文本依一顺序排序并存入一矩阵空间;

从该矩阵空间的第一列第一栏开始，逐列与其前一列比较，并从该矩阵空间移除重复的信息;

将该移除重复信息后的矩阵空间从第一列第一栏开始，逐列往下对每一字编号，并以一带有方向的线来建立该读入的文本里词与词之间的连接关系，直到最后一列最后一栏为止。

12.如权利要求10所述的语音辨识方法，其中该移除重复信息后的词层搜寻空间部分展开至该树状结构的搜寻空间还包括:

将该移除重复信息后的词层搜寻空间以一有限状态机来实现;

将该有限状态机里的每一状态根据一词典展开，计算每一状态发散出去的词在音素层重复的次数;

依一展开比例，从重复次数的序列中挑选出对应的状态;以及

将该挑选出的状态展开到一搜寻空间，其余未展开的状态则记录其在该词典对应的位置。

13.如权利要求12所述的语音辨识方法，其中从该词典对应的位置找出对应的发音和声学模型。

14.如权利要求10所述的语音辨识方法，其中于该离线阶段，该移除重复信息后的词层搜寻空间是以一有限状态机来实现，并依一展开比例从该有限状态机来选择出对应的至少一状态，以部分展开至该树状结构的搜寻空间，而在该有限状态机中，由一状态至另一状态系由一带有方向的线连接起来。

15.如权利要求14所述的语音辨识方法，其中自该词层搜寻空间部分展开至该树状结构的搜寻空间是依一系统整体内存需求来选择出该对应的至少一状态。

16.如权利要求14所述的语音辨识方法，其中选择出该对应的至少一状态是依一计算公式来判断，该计算公式与多个参数有关，该多个参数系选自该有限状态机所有的状态数目、依该展开比例选择的状态、未选择的状态、选择展开的状态移除重复信息后的连接线数目、未展开的状态连接线数目、以及每一连接线所使用的内存大小。

17.如权利要求14所述的语音辨识方法，该方法包括:

在该离线阶段中，将未展开状态的分支信息指向一特定的词典位置;以及

当该树状结构的搜寻空间建立之后，在该在线阶段中，于该输入的语音讯号提取特征之后，取得多个音框，并对每一音框，依该树状结构的搜寻空间建立的连接关系，判断其所有可能的路径上的信息是否为一音素，若否，则由该未展开状态所对应的词典位置，取出对应的发音和声学模型。