CN103065632A

CN103065632A - 一种用于维吾尔语语音识别的识别单元的选择方法及系统

Info

Publication number: CN103065632A
Application number: CN2012105605995A
Authority: CN
Inventors: 潘接林; 李鑫; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2013-04-24
Anticipated expiration: 2032-12-21
Also published as: CN103065632B

Abstract

本发明实施例涉及一种用于维吾尔语语音识别的词典单元的选择方法及系统。方法包括：为待识别的语音收集/准备相应的文本语料；从文本语料中抽取不同的词语；将所述不同词语输入形态分析器，分析成功时获得相应的词语的分解结果，分析失败时对所述词语进行基于削尾算法的词语分解，从而获得分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。本发明实施例根据维吾尔语形态变化的规则，将维吾尔语词语分解为词干和附加成分，然后选择词干和附件成分作为识别单元，从而缓解了识别系统集外词过多的问题，提高了系统的识别率。

Description

一种用于维吾尔语语音识别的识别单元的选择方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种用于维吾尔语语音识别的识别单元的选择方法及系统。

背景技术

语音识别的目标是把声学信号自动映射为词语序列。图1是现有的的统计语音识别系统框图。在图1中，x₁...x_T是时刻1到时刻T的声学特征序列，w₁…w_N是识别单元序列，识别器根据贝叶斯决策理论，使用声学模型和语音模型提供的信息，确定最佳的识别单元序列[w₁...w_N]_opt，使得

{[w_{1} . . . w_{N}]}_{opt} = \underset{w_{1} . . . w_{N}}{\arg \max} (p (w_{1} . . . w_{N}) p (x_{1} . . . x_{T} | w_{1} . . . w_{N}))

= \underset{w_{1} . . . w_{N}}{\arg \max} (Π_{n = 1}^{N} p (w_{n} | w_{n - m + 1} . . . w_{n - 1}) Π_{t = 1}^{T} p (x_{t} | s_{t}, w_{1} . . . w_{N}) p (s_{t} | s_{t - 1}, w_{1} . . . w_{N})) - - - (1)

其中p(x_t|s_t，w₁...w_N)是声学模型中状态st的特征发射概率，p(s_t|s_t-1，w₁...w_N)是声学模型中的状态转移概率，p(w_n|w_n-m+1...w_n-1)是m阶语言模型概率。

在此过程中，一般需要借助词典。所述词典是数目有限的字符串列表，提供语音识别系统中语言模型的建模单元。在英语和汉语的语音识别中，识别单元w通常选择词语。此时，词典是通过从与测试领域相关的文本语料中抽取高频词语构成，即首先统计语料中不同词形的数目，然后按照词频由高到低对词语排序，最后根据预先设定的词典尺寸选择高频词语构成词典。

维吾尔语是一种黏着语，可以通过在词干后不断结合附加成分构成新的词语。附加成分结合在名词词干后可以表示数、领属和格的语法意义，结合在动词词干后可以表示能动—非能动、肯定—否定、时、式、体、人称的语法意义。在维吾尔语中，不同词形的数目理论上是无限的，如果采用词语作为词典单元，语音识别系统会出现大量的集外词。识别器不能正确识别集外词，它的数目过多会严重影响语言模型的预测能力，这将直接导致语音识别性能的下降。

发明内容

针对上述问题，本发明实施例提出一种黏着语语音识别方法、系统。

在第一方面，本发明实施例提出一种用于维吾尔语语音识别的词典单元的选择方法，所述方法包括：为待识别的语音收集相应的文本语料；从所述文本语料中抽取不同的词语；

将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

优选地，所述形态分析器是基于有限状态转录机的形态分析器。

优选地，所述形态分析器的生成过程如下：根据附加成分结合顺序编译第一有限状态转录机，根据拼写变化规则编译第二有限状态转录机，将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。

优选地，所述对所述词语进行基于削尾算法的词语分解，具体为：从右向左扫描词语的子串，如果子串在附加成分列表中存在，则将其从词语中削去，如果余下部分在词干列表中存在，则分解结束。

在第二方面，本发明实施例提出一种用于维吾尔语语音识别的词典单元的选择系统，所述系统包括：文本语料收集模块，用于为待识别的语音生成相应的文本语料；词语抽取模块，用于从所述文本语料中抽取不同的词语；词语分解模块，用于将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；词典单元确定模块，用于将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

本发明实施例根据维吾尔语形态变化的规则，将维吾尔语词语分解为词干和附加成分，然后选择词干和附件成分作为识别单元，从而缓解了识别系统集外词过多的问题，提高了语音识别率。

附图说明

图1是现有的的统计语音识别系统示意图；

图2是本发明实施例的词干-附加成分词典的构造流程示意图；

图3是本发明实施例的名词和动词的部分附加成分结合示意图；

图4是本发明实施例的附加成分结合顺序的部分lexc源码；

图5是本发明实施例的拼写变化规则的部分xfst源码；

图6是本发明实施例的用于维吾尔语语音识别的词典单元的选择方法流程示意图；

图7是本发明实施例的用于维吾尔语语音识别的词典单元的选择系统示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例为解决基于词语的维吾尔语语音识别系统集外词过多的问题，本发明根据维吾尔语词干和附加成分的结合规则实现了基于有限状态转录机（Finite State Transducer，FST）的形态分析器和削尾算法，能够把词语w分解为词干o不断结合附加成分k的形式，词干和附加成分相互间用空格分开。例如，对于词语ishchilirimizgha（向我们的工人们），它的分解结果为ishchi-lir-imiz-gha。符号“-”被添加在附加成分首字母前作为区分词干和附加成分的标记。我们将词干和附加成分统一记为u，文本语料中的词语序列w₁...w_N可以根据分解结果映射为词干和附加成分序列u₁…u_M。我们从语料中抽取高频的词干和附件成分构成词典。上述流程如图2所示。

在选择词干和附加成分作为识别单元后，我们将表达式(1)中的w₁...w_N替换为u₁…u_M，得到

{[u_{1} . . . u_{M}]}_{opt} = \underset{u_{1} . . . u_{M}}{\arg \max} (p (u_{1} . . . u_{M}) p (x_{1} . . . x_{T} | u_{1} . . . u_{M}))

\underset{u_{1} . . . u_{M}}{= \arg \max} (Π_{n = 1}^{M} p (u_{n} | u_{n - m + 1} . . . u_{n - 1}) Π_{t = 1}^{T} p (x_{t} | s_{t}, u_{1} . . . u_{M}) p (s_{t} | s_{t - 1}, u_{1} . . . u_{M})) - - - (2)

其中p(u_n|u_n-m+1.u_n-1)是使用词语分解后的文本语料训练的m阶词干-附加成分语言模型。我们根据表达式(2)搜索最佳的词干-附件成分序列，得到该序列后，我们将附加成分的“-”标记删去并将它连接到左边紧邻的词干上，即可得到词语序列作为识别器的最终输出。

为构建基于有限状态转录机的形态分析器，需要准备三部分知识，包括带有语法信息的词干和附加成分列表、附加成分的结合顺序以及词干结合附加成分时的拼写变化规则。在维吾尔语中，名词的附加成分结合顺序为名词词干[数][领属][格]，动词的附加成分结合顺序为动词词干[能动-非能动][肯定-否定][体][时]。部分附加成分同词干的结合顺序如图3所示，其中圆圈表示语法意义，箭头上的字符串表示添加该语法意义时接缀的附加成分。在图3中，对于名词词干，+IAr、+Hmiz和+YA分别代表复数、第一人称复数领属和向格附加成分标志；对于动词词干，+PAlA、+mA、+YAn、+men分别代表能动、否定、完成存在体和第一人称现在时附加成分标志。当实际语言中需要为词干添加这些语法意义时，就要按照图中的次序结合相应的附加成分。在维吾尔语中，词干结合附加成分时的拼写变化规则包括元音和谐、辅音和谐和元音弱化。元音和谐是指最后一个音节中带有前（后）元音的词干要结合同一语法意义附加成分中带有前（后）元音的变体，带有圆（展）唇元音的词干要结合同一语法意义附加成分中带有圆（展）唇元音的变体。辅音和谐是指结尾是清（浊）辅音的词干要结合同一语法意义附加成分中清（浊）辅音开头的变体。元音弱化是指当词干结合附加成分后保持开音节或变为开音节时，最后一个音节中的a或e弱化为i。基于有限状态转录机的形态分析器受到知识源的限制，无法分析全部词形。对于分解失败的词语，可以使用削尾算法进行分解，该算法需要词干和附加成分列表。

下面对本发明实施例进行更详细的描述。

首先，实现基于有限状态转录机的形态分析器。有限状态转录工具包Xerox Finite State Tools(XFST)[1]提供两种描述有限状态转录机的高级语言lexc和xfst，并包含将高级语言源文件编译为有限状态转录机的编译器。我们用lexc语言描述附加成分的结合顺序，用xfst语言描述词干结合附加成分时的拼写变化规则，然后使用工具包中的“read lexc”、“read regex”和“define”命令将它们编译为有限状态转录机。描述结合顺序和拼写变化规则的部分源代码如图4、图5所示。

其次，抽取文本语料中的所有不同词语，输入形态分析器，输出是词语的分解结果。

然后，对于形态分析器分析失败的词语，采用削尾算法进行词语分解。具体的，从右向左扫描词语的子串，如果子串在附加成分列表中存在，则将其从词语中削去。如果余下部分在词干列表中存在，则分解结束，否则继续扫描词尾。

接着，综合前述两种方式获取的分解结果，得到每个词语对应的词干结合附加成分的形式。并将文本语料的词语映射为词干和附加成分，抽取高频单元作为词典单元。

最后使用产生的语料和词典训练语言模型，得到基于词干和附件成分的语音识别器。

图6是本发明实施例的用于维吾尔语语音识别的词典单元的选择方法流程示意图；如图6，所述方法包括：为待识别的语音准备相应的文本语料；从所述文本语料中抽取不同的词语；将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

具体地，所述“为待识别的语音准备相应的文本语料”，指为了识别待识别的语音，提前收集文学作品（比如小说、散文）、报纸和网页中的句子，构成一定量级（比如包含10⁷量级词语）的文本语料库。

图7是本发明实施例的用于维吾尔语语音识别的词典单元的选择系统示意图。如图7，所述系统包括：文本语料准备模块，用于为待识别的语音准备相应的文本语料；词语抽取模块，用于从所述文本语料中抽取不同的词语；词语分解模块，用于将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；词典单元确定模块，用于将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

本领域技术人员应该进一步意识到，结合本文中所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限定本发明的实施范围，具有专业知识基础的技术人员可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种用于维吾尔语语音识别的词典单元的选择方法，其特征在于，所述方法包括：

为待识别的语音准备相应的文本语料；

从所述文本语料中抽取不同的词语；

将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；

将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

2.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法，其特征在于：所述形态分析器是基于有限状态转录机的形态分析器。

3.如权利要求2所述的用于维吾尔语语音识别的词典单元的选择方法，其特征在于：所述形态分析器的生成过程如下：根据附加成分结合顺序编译第一有限状态转录机，根据拼写变化规则编译第二有限状态转录机，将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。

4.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法，其特征在于：所述对所述词语进行基于削尾算法的词语分解，具体为：从右向左扫描词语的子串，如果子串在附加成分列表中存在，则将其从词语中削去，如果余下部分在词干列表中存在，则分解结束。

5.一种用于维吾尔语语音识别的词典单元的选择系统，其特征在于，所述系统包括：

文本语料准备模块，用于为待识别的语音准备相应的文本语料；

词语抽取模块，用于从所述文本语料中抽取不同的词语；

词语分解模块，用于将所述不同词语输入形态分析器，在形态分析器分析成功时获得相应的词语的分解结果，在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解，从而获得相应的分解结果，以及根据所述分解结果，得到每个词语对应的词干以及附加成分；

词典单元确定模块，用于将所述文本语料中的词语映射为所述词干和附加成分，抽取高频词干和附加成分作为词典单元。

6.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统，其特征在于：所述形态分析器是基于有限状态转录机的形态分析器。

7.如权利要求6所述的用于维吾尔语语音识别的词典单元的选择系统，其特征在于：所述形态分析器的生成过程如下：根据附加成分结合顺序编译第一有限状态转录机，根据拼写变化规则编译第二有限状态转录机，将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。

8.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统，其特征在于：所述对所述词语进行基于削尾算法的词语分解，具体为：从右向左扫描词语的子串，如果子串在附加成分列表中存在，则将其从词语中削去，如果余下部分在词干列表中存在，则分解结束。