CN101593518A

CN101593518A - 实际场景语料和有限状态网络语料的平衡方法

Info

Publication number: CN101593518A
Application number: CNA2008101132924A
Authority: CN
Inventors: 李成荣; 熊军军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2009-12-02

Abstract

本发明是一种实际场景语料和有限状态网络(Finite State Network，FSN)语料的平衡方法。为了训练连续语言识别器的语言模型，必须针对识别器应用领域制作训练语料。语料的来源主要有2部分：一部分是通过整理实际应用场景下录音得到的语料，称为实际场景语料；另一部分是用有限状态网络句法规则方法生成的语料，称为FSN语料。本发明重点研究了这2种语料的平衡方法，提出了以实际场景语料和FSN语料中共有的关键词的概率比较为依据，用一定倍数的部分实际场景语料扩展FSN语料，得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器的识别性能有了较大提高。

Description

实际场景语料和有限状态网络语料的平衡方法

技术领域

本发明属于计算机技术领域，涉及连续语音识别器的语言模型，尤其涉及限定领域语音问答系统中语言模型的训练语料制作问题，特别是一种考虑了实际场景语料和针对实际场景设计的有限状态网络(Finite StateNetwork，FSN)语料的平衡方法。

背景技术

限定领域的语言模型的训练的主要难点之一就是训练数据稀疏，针对这一问题的研究主要集中在两个方面：一方面是语料的扩展，另一方面是语料平滑算法。语料平滑算法不是从根源解决数据稀疏问题，只能在一定程度上解决数据稀疏带来的问题，而且有的算法本身存在一些缺点，如Good-Turning Discounting算法人为的改变了n元文法的某些子集的频度，带来了一些问题。因此，扩展语料以提高语言模型的性能的研究值得重视。

扩展语料的一般方法是结合已有的实际应用场景语料和人工设计的语料，得到较全面的语言模型训练语料。然而，这里存在一个突出的问题就是：这2种语料以何种方式混合，混合的比例如何确定。实际上，两种语料混合比例的不同，将很大程度上影响识别器的识别性能。针对上述语料平衡问题，L.Villasenor-Pineda提出了一种基于2个语料中词汇概率分布比较来扩展语料的方法。该方法通过一种“Wizard of Oz”实验获取实际场景语料，通过“CLIPS-Index web robot”从网络文本中提取领域相关的30GB左右语料作为原始训练语料，然后比较2种语料中词汇概率分布来平衡实际场景语料和原始训练语料，使语言模型的困惑度下降，2-gram识别率提高。但是，“Wizard of Oz”实验并不是真正的实际应用场景，通过该实现获取的语料不够贴近实用；另外，从网络获取原始训练语料时，由于网络数据量极大，以及搜索引擎的限制，从网络中提取的这部分语料(尽管多达30GB)不一定能较好的覆盖限定领域的词和句法。另外，部分简单对话系统用FSN句法规则产生的训练语料来训练语言模型，取得了较好的效果，但这种方法产生的训练语料句法形式固定，词汇不全面，只适合简单的、对话形式固定的应用场合。

发明内容

为了解决以上问题，本发明将语音交互机器人在科技馆等实际应用环境下的录音进行整理，得到的语料作为参考语料(reference corpus，CR)，根据参考语料中词频较高的词，在有限状态网络(Finite State Network，FSN)句法规则指导下生成FSN语料，作为原始训练语料(training corpus，CT)，希望这2种语料能较好的覆盖限定领域的词和句法。显然，原始训练语料CT难以充分体现自然对话，因此，本发明用实际应用场景CR来扩展它，扩展FSN语料的原则就是使关键词词表中各词在FSN语料中的概率与在参考语料中的概率之差小于某一阈值，保持2个语料的词汇相似性。

具体地，本发明提出一种实际场景语料和有限状态网络(FSN)语料的平衡方法，包括如下步骤：

1)整理实际应用场景下的录音，得到实际场景语料；

2)采用有限状态网络句法规则设计限定领域语料；

3)采用语料平衡方法，将部分实际场景语料按设定的倍数复制到有限状态网络语料中，得到最终训练语料。

进一步，所述步骤1)包括：

分析实际引用场景下的录音，记录每句录音对应的文本语句，得到实际场景语料。

进一步，所述步骤2)包括：

获取有限状态网络扩展所需的限定领域词汇；

对限定领域词汇进行词汇分类和词汇扩展；

根据扩展后的词汇表，设计有限状态网络句法规则；

用有限状态网络规则解释器生成有限状态网络语料。

进一步，所述步骤3)包括：

选择实际场景语料和有限状态网络语料中都包含的关键词，

比较所述关键词在两个语料中出现的概率，找出概率差异较大的关键词，标记为全异词；

从实际场景语料中提取包含全异词的所有语料，通过概率统计方法，计算参考语料的复制倍数R；

将选择语料复制R倍到有限状态网络语料中，得到最终训练语料。

进一步，所述计算复制倍数R包括：

设选择语料集CS词数为M，第m个词为W_m，这个词在实际场景语料CR和FSN语料CT中的概率分别为p_m ^CR和p_m ^CT，这个词在选择语料CS中出现的次数为f_m ^CS，FSN语料中句子数为|CT|，则：

原始训练语料CT中需要补充W _m的次数为

deficit_m＝(p_m ^CR-p_m ^CT)×|CT|

第m个关键词要求CS被复制的倍数为

R_m＝deficit_m/f_m ^CS

取选择语料实际复制倍数为

R＝max{R_m}1≤m≤M。

采用本发明提出的方法得到的实际场景语料和FSN语料的平衡语料，具有词汇全面、准确的特点。用该语料训练的语言模型，能使口语对话系统较好的识别限定领域的语句。

附图说明

图1是本发明提出的方法所对应的各模块框图；

图2是本发明所提方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的目的是这样实现的：

一、生成FSN语料

FSN是一种常用的语法结构表现形式。最初主要用于基于规则的语音识别系统中，作为搜索网络。本文用FSN的概念来设计句法规则，并用相关程序生成语料，这些语料将用来训练n-gram语言模型。n-gram语言模型是统计语言模型的一种，统计语言模型通常用链式法则来估计一个句子的概率：

P (s) = P (w_{1}^{n}) = Π_{i = 1}^{n} P (w_{l} | h_{i})

其中，w_i是句子中的第i个词，h_i＝{w₁，w₂，...，w_i-1}称为历史。最常用的对历史的划分方法是n-gram文法，它假设当前词仅依赖于前面n-1个词，即：

P (w_{i} | h_{i}) \approx P (w_{i} | w_{i - n 1}^{i - 1})

n的取值反映了概率估计的稳定性和精确性之间的折衷。当训练样本很多时，n通常取3；当训练样本很少时，n通常取2。最常用的模型是三元文法模型，本方法采用三元文法模型。

生成FSN语料的具体步骤为：

1.获取限定领域词汇并扩展词汇表：首先将实际场景语料中词频高于某一阈值的词作为关键词，得到限定领域词汇表。然后用增加同义词、增加反义词等方法扩展词汇表。

2.设计FSN句法规则并生成FSN语料：首先根据扩展后的词汇表设计FSN句法规则。然后用FSN规则解释器生成FSN语料。

FSN规则的定义、Root规则、FSN规则完整实例及FSN规则解释器说明如下：

FSN规则的定义

一个语法文件由若干规则组成。规则的定义形式为：“$”+“规则名”+“＝”+规则内容+“；”。

规则名由非“.”，“，”，“-”符号的字母、数字和下划线组成，大小写敏感。一个语法文件不允许有重名规则。

规则内容由以下几部分组成：

特殊符号：|；<>()[]$空格，分别表示“或”并列关系，规则结束符，重复次数，表达式组合，可选内容，规则名标记和分隔符。

一般符号：除；＝外的字符。

规则引用：“$”+“规则名”单独出现，该规则必须在别的地方进行定义。

特殊定义词：***表示集外词，...表示静音。

Root规则

每一个语法规则文档的第一个规则是Root规则。Root规则引用了各个子规则。

完整实例

以“Capability”Root规则为例，设计FSN规则如下：

$Capability＝($1|$2|$3)；

$1＝([$honorific][你][能|能够|可以|会|擅长]$action1[吗|么|吧])；

$2＝([$honorific][你]需要$action2[吗|么|吧])；

$3＝([$honorific][你]((有[什么|哪些|几种]$ability)|([的]$ability[是什么|有哪些])))；

$honorific＝(请问|你好|喂|嗨|我想知道)；

$action1＝(说[英语|普通话])|([做][手工|什么])|(看见[我|外面])|实现|(讲[笑话|故事|什么])|(摆[头|手])|(背[诗|唐诗])|([预知|预测][未来|将来])|(说说[话])|(跳[高|远|舞蹈])|数数|(聊[天|会])|(举起[左|右|双]手)|打招呼|踢球|踢足球|打球|打篮球|奔跑|动作|唱歌|跳舞|挥手|聊天|说话|游泳|思考|骂人|吃饭|摇头|回答|坐下|动|射击|踢球|微笑|走路|跑步|听懂|弹琴|下棋|模仿|飞|做饭|打架|扫地|跑|写字|死机|转动；

$action2＝睡觉|睡|吃|吃饭|喝水|喝|用电|电|上厕所|解手；

$ability＝能力|功能|本事|事|智能|技能|能耐|本领|长项|特点|才能|水平|特长；

FSN规则解释器

一种应用程序，解释规则文件得到相关语句，组成FSN语料。

二、实际场景语料和FSN语料的平衡

1.选取实际场景语料和FSN语料中都包含的代表性词汇，作为关键词；

2.计算每个关键词在2种语料中的概率：

p_{n, CI} = f_{n, CI} / Σ_{n = 1}^{N} f_{n, CI} - - - (1)

其中f_n，CI是词W_n在语料CI在中出现的次数。N为关键词总数，1≤n≤N。

3.计算关键词在2个语料中出现概率的差值的绝对值dn

d_n＝|p_n ^CT-p_n ^CR|(2)

N为关键词总数，1≤n≤N。

4.计算关键词概率差值的均值dμ和方差ds

d_{μ} = \frac{1}{N} Σ_{n = 1}^{N} dn - - - (3)

d_{S} = \sqrt{\frac{1}{N} Σ_{n = 1}^{N} {(dn - d_{μ})}^{2}} - - - (4)

N为关键词总数，1≤n≤N。

设定：d_n＞d_μ+αds的关键词Wn作为全异词。

5.从参考语料CR中提取包含全异词的短语：通过提取短语程序RetrievePhrase.exe从参考语料CR中提取包含全异词的短语，组成选择语料集CS。

6.计算复制倍数R。应用领域和语料类型不同，R的取值有所不同。以下步骤计算特定领域的2种特定语料混合情况下的最佳复制倍数。

设选择语料集CS词数为M，第m个词为W_m，则：

原始训练语料CT中需要补充W_m的次数为

deficit_m＝(p_m ^CR-p_m ^CT)×|CT|(5)

第m个关键词要求CS被复制的倍数为

R_m＝deficit_m/f_m ^CS (6)

取选择语料实际复制倍数

R＝max{R_m}1≤m≤M。(7)

将选择语料CS复制R次，添加到原始训练语料(FSN语料中)，得到的语料即可用来训练语言模型。

本发明的实现可以分为以下几个步骤：

步骤1：通过演示对话系统实际应用收集整理得到实际场景语料。该语料以文本格式记录实际应用场景中出现的句子，将该语料分词后得到实际场景语料。

根据图2，首先要将安装有对话系统的语音交互机器人安装到实际应用场景(如科技馆中)；然后在用户使用机器人的过程中记录下用户的问句；整理录音，得到用户问句的文本内容；最后将文本内容用分词工具分词，得到实际场景语料。

步骤2：统计实际场景语料中词频较高的词，组成限定领域词汇表。并通过增加同义词、增加反义词等方法扩展词汇表。以词汇表中词语为元素设计FSN句法规则，并用FSN规则解释器处理这些规则得到FSN语料。

根据图2，首先根据已有限定领域语料收集限定领域词汇；然后向词表中增加已有词语的同义词、反义词，以扩展词表，使语料覆盖更全面的词汇；根据词汇表设计FSN句法规则；最后用规则解释工具将FSN句法规则转换为FSN语料。

步骤3：用上述语料平衡方法，平衡实际场景语料和FSN语料，得到最终训练语料。使最终训练语料覆盖较多词汇、句法、规则的同时，其关键词概率与实际应用场景语料中关键词概率相近，保持训练语料与实际应用环境下对话的词汇相似性。

根据图2，首先统计两个语料中各词词频，获取两个语料中都包含的、词频高于一定阈值的关键词；然后分别计算关键词在两个语料中出现的概率；计算每个关键词在两个语料中出现的概率差值；计算所有关键词在两个语料中出现的概率差值的均值和方差；根据均值和方差，确定概率差阈值。概率差大于该阈值的关键词作为全异词。从实际场景语料中提取所有包含全异词的语料组成选择语料；计算选择语料最佳复制比例R；将选择语料复制R倍至FSN语料中，得到最终训练语料。

本发明的以上三个步骤所需计算机软硬件最低配置如下：

处理器：1GHz x86或x86-64处理器

内存：256MB

操作系统：Windows 2000

上面描述是用于实现本发明及其实施例，本领域普通技术人员可以根据实际情况确定多种实现方法，因此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种实际场景语料和有限状态网络(FSN)语料的平衡方法，其特征在于，包括：

1)整理实际应用场景下的录音，得到实际场景语料；

2)采用有限状态网络句法规则设计限定领域语料；

2、根据权利要求1所述的方法，其特征在于，所述步骤1)包括：

3、根据权利要求1所述的方法，其特征在于，所述步骤2)包括：

获取有限状态网络扩展所需的限定领域词汇；

对限定领域词汇进行词汇分类和词汇扩展；

根据扩展后的词汇表，设计有限状态网络句法规则；

用有限状态网络规则解释器生成有限状态网络语料。

4、根据权利要求1所述的方法，其特征在于，所述步骤3)包括：

选择实际场景语料和有限状态网络语料中都包含的关键词，

5、根据权利要求4所述的方法，其特征在于，所述计算复制倍数R包括：

原始训练语料CT中需要补充W _m的次数为

deficit_m＝(p _m ^CR-p _m ^CT)×|CT|

第m个关键词要求CS被复制的倍数为

R_m＝deficit_m/f_m ^CS

取选择语料实际复制倍数为

R＝max{R_m} 1≤m≤M。