CN103577386A

CN103577386A - 一种基于用户输入场景动态加载语言模型的方法及装置

Info

Publication number: CN103577386A
Application number: CN201210276985.1A
Authority: CN
Inventors: 肖镜辉; 李鑫; 刘廷超; 汤利华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-08-06
Filing date: 2012-08-06
Publication date: 2014-02-12
Anticipated expiration: 2032-08-06
Also published as: CN103577386B

Abstract

本发明涉及一种基于用户输入场景动态加载语言模型的方法和装置，该方法包括：判断当前的用户输入场景；根据所述用户输入场景，选择对应的场景语言模型；将所述场景语言模型与通用语言模型融合成混合语言模型；加载所述混合语言模型对用户输入进行处理；其中，所述场景语言模型和通用语言模型是通过训练得到的。本发明通过训练场景语言模型，在用户输入过程中动态判断用户输入场景，加载相应的场景语言模型与通用语言模型融合，共同处理用户输入，提高了人机交互软件，尤其是输入法软件对典型场景下的用户输入需求的处理能力。

Description

一种基于用户输入场景动态加载语言模型的方法及装置

技术领域

本发明涉及一种基于用户输入场景动态加载语言模型的方法及装置。

背景技术

随着计算机硬件性能的不断提升和软件智能性的不断提高，人们越来越期望计算机能够提供更加自然的人机交互方式，这表现在：（1）提供更加智能的汉语输入法；（2）提供更加精确的语音识别功能；（3）提供连续手写字符识别功能。而这三种交互方式的实现，底层都需要有语言建模技术的支持。语言建模技术的优劣，直接决定了语言模型性能的高低，也决定了上述人机交互软件效果的好坏。

统计语言模型以概率论和数理统计理论为基础，用来计算自然语言语句的概率，使得正确的语句的概率大于错误的语句的概率。对于一个包含m个词的自然语言语句S＝w₁w₂…w_m，根据Bayes理论，其概率可以分解为若干个条件概率的乘积，即

P (S) = Π_{i = 1}^{m} p (w_{i} | w_{1} w_{2} . . . w_{i - 1})

从上述公式中可以看到，概率p(w_i|w₁w₂…w_i-1)的参数空间随着变量i的值的增加呈指数级增长。以现有训练语料的规模，无法准确的预测概率p(w_i|w₁w₂…w_i-1)的值。

语言建模技术，目前最常用的是Ngram建模技术。标准Ngram模型是目前最常用的语言模型。它将自然语言语句看作是一个马尔科夫序列，满足马尔科夫属性。具体来讲，标准Ngram模型对条件概率p(w_i|w₁w₂…w_i-1)作如下假设：

有限历史假设：当前词语的概率仅仅与前n-1个词相关，而与该语言单位的整个历史信息无关。

时齐性假设：当前词语的概率与它在句子中的位置无关。

根据上述两个假设，语言模型的概率计算公式简化为如下形式：

P (S) = Π_{i = 1}^{m} p (w_{i} | w_{i - n + 1} . . . w_{i - 1})

Ngram模型通过限制条件概率中词语的个数，整体降低了参数空间的大小，使得在训练语料上能够估计出概率p(w_i|w_i-n+1…w_i-1)，以上概率也称之为Ngram概率。在标准Ngram模型当中，条件概率p(w_i|w_i-n+1…w_i-1)的值采用最大似然估计的方法进行估计，公式如下：

p (w_{i} | w_{i - n + 1} . . . w_{i - 1}) = \frac{c (w_{i - n + 1} . . . w_{i - 1} w_{i})}{c (w_{i - n + 1} . . . w_{i - 1})}

其中c(w_i-n+1…w_i-1w_i)表示词语序列w_i-n+1…w_i-1w_i在训练语料中出现的次数。

然而，Ngram模型也存在明显的缺点。一方面，Ngram模型是单一模型，模型中的参数一经训练便被确定，很难动态更改，而用户的输入是多种多样的。研究表明用户使用输入法软件输入汉语具有如下特点：1.多样性：即用户的输入需求多种多样，可以是写报告、上网聊天、也可以是搜索等等，输入场景之间差别很大；2.典型性：即绝大部分的用户输入集中在几个典型的输入场景上，如：聊天场景、游戏场景、社交网站场景等。因此，单一的Ngram模型难以同时处理多个典型输入场景的输入需求，无法满足所有用户的需求。另一方面，Ngram模型本身没有自动学习的机制，无法针对每个用户的输入习惯进行学习和适应。

发明内容

本发明的目的是提供一种能够满足用户多种输入需求且能够自动学习的语言建模技术。

在第一方面，本发明提供了一种一种基于用户输入场景动态加载语言模型的方法，包括：判断当前的用户输入场景；根据所述用户输入场景，选择对应的场景语言模型；将所述场景语言模型与通用语言模型融合成混合语言模型；以及加载所述混合语言模型对用户输入进行处理；其中，所述场景语言模型和通用语言模型是通过训练得到的。

在第二方面，本发明提供了一种基于用户输入场景动态加载语言模型的装置，包括：输入场景判断模块，用于判断当前的用户输入场景；场景语言模型选择模块，用于根据所述用户输入场景，选择对应的场景语言模型；语言模型融合模块，用于将所述场景语言模型与通用语言模型融合成混合语言模型；用户输入处理模块，用于加载所述混合语言模型对用户输入进行处理；以及语言模型训练模块，用于训练出所述场景语言模型和所述通用语言模型。

本发明通过训练场景语言模型，在用户输入过程中动态判断用户输入场景，加载相应的场景语言模型与通用语言模型融合，共同处理用户输入，提高了人机交互软件，尤其是输入法软件对典型场景下的用户输入需求的处理能力。

附图说明

图1是根据本发明实施例的基于用户输入动态加载Ngram模型的系统示意图；

图2是根据本发明实施例的典型场景列表的示意图；

图3是根据本发明实施例的场景词表生成的流程示意图；

图4是根据本发明实施例的场景Ngram模型在用户输入时的加载流程图；以及

图5是根据本发明实施例的基于用户输入场景动态加载语言模型的装置的示意框图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

针对目前常用的语言模型的缺点，本发明提出一种场景化语言建模的技术。在语言模型训练阶段，除了正常训练单一的通用语言模型之外，还针对若干个典型的输入场景训练场景语言模型。在输入法的实际使用过程中，输入法软件动态判断用户当前的输入场景，动态加载相应的场景语言模型，并与通用语言模型相结合，共同对用户的输入进行处理。这种方法能够有效提高诸如语音识别，手写字符识别等人机交互软件，尤其是输入法软件对各个典型场景下的用户输入需求的处理能力。

图1是根据本发明实施例的基于用户输入动态加载语言模型的系统示意图。

如图1所示，整个过程分为训练过程和应用过程；训练过程又进一步分为场景Ngram模型的训练过程，和通用Ngram语言模型的训练过程。

在训练过程中，根据场景化训练语料，用场景词表生成器针对用户的典型输入场景生成场景词表。场景化训练语料是带有场景信息的训练语料。例如让同意上报输入信息的用户上报用户输入过程的信息，这些上报信息中包含了用户输入场景信息。然后，在场景词表的基础上，结合相应场景的训练语料，用Ngram模型训练器训练场景化Ngram模型。优选地，根据场景词表以及场景训练语料，用最大似然方法训练出该场景的Ngram模型。场景Ngram模型的阶数与通用Ngram模型可以不同。在PC输入法中，通常通用模型采用二阶Ngram模型，即Bigram模型。而考虑到用户典型场景的数量，以及场景模型参数规模，在实际使用中可以采用一阶Ngram模型，即Unigram模型，作为场景模型。通用词表和通用Ngram模型的生成与场景词表和场景Ngram模型的生成过程相类似，因此不再赘述。

在应用过程中，首先判断当前用户的输入场景，找到与该输入场景相匹配的场景Ngram模型；然后将场景Ngram模型与通用Ngram模型相结合，组成混合Ngram模型，共同对用户的输入进行处理。优选地，场景Ngram模型与通用Ngram模型的融合可以以线性插值的方式进行。情景模型训练出的Ngram条件概率为p_scenario(w_i|w_i-n+1…w_i-1，t)，通用Ngram模型训练出的条件概率为p(w_i|w_i-n+1…w_i-1)，两者融合后的条件概率p_mixture(w_i|w_i-n+1…w_i-1)，计算公式如下：

p_mixture(w_i|w_i-n+1…w_i-1)＝

∝×p(w_i|w_i-n+1…w_i-1)+(1-∝)×p_scenario(w_i|w_i-n+1…w_i-1，t)

其中，插值系数∝是一个常数，取值在0和1之间，用来调节缓存模型概率和标准Ngram模型概率在最终混合模型中的比重。

依据上述混合模型，一个包含m个词语的汉语语句S＝w₁w₂…w_m为

P (S) = Π_{i = 1}^{m} p_{mixture} (w_{i} | w_{i - n + 1} . . . w_{i - 1})

因为场景模型的加入，混合模型能够更好地处理该场景下的用户输入，从而提高了输入法的智能性，增强了输入法用户的输入体验。本领域技术人员应当理解，图1的实施例也可以应用于其他的语言模型，而不是仅限于Ngram模型。

图2是根据本发明实施例的典型场景列表的示意图。

构建场景化语言模型，首选要确定典型的用户输入场景，即用户经常在哪些情况下进行汉语输入。同意上报输入信息的用户上报的数据包含了用户具体输入以及输入法所在的宿主软件信息等信息。例如，通过对输入法宿主软件和/或用户输入信息进行分类、统计，可以得到典型输入场景列表。如图2中所示，QQ、msn、阿里旺旺等输入法宿主软件对应的典型输入场景是网络聊天；IE、360浏览器等输入法宿主软件对应的典型输入场景是浏览器中输入；穿越火线、梦幻西游等输入法宿主软件对应的典型输入场景是网游中玩家交流；MS word等等输入法宿主软件对应的典型输入场景是写文档。这些典型输入场景包括了用户80%以上的输入情况。这说明，用户只是在某些典型的场景下进行大量的、持续的输入；人机交互软件针对这些典型场景进行优化，就能够极大提供用户输入体验。

图3是根据本发明实施例的场景词表生成的流程示意图。

场景Ngram模型的建立，必须以面向该场景的场景词表作为基础。场景词表生成器从场景化训练语料中自动抽取、生成各个场景对应的场景词表。

如图3所示，可以看出一个比较直观的流程。首先，根据在图2描述中生成的典型场景列表，将场景化训练语料进行分类，如：聊天场景语料、网游场景语料等。接下来，词表抽取器从场景语料中抽取出场景词表的备选词，集合成场景备选词表。抽取可以统计场景预料中的高频用户词，取前n个词作为场景词表的备选词。最后，将各个场景备选词表与通用词表的集合做差集，用得到的差集作为该场景的场景词表。

本领域技术人员应当理解，图3的实施例也可以应用于其他的语言模型，而不是仅限于Ngram模型。

图4是根据本发明实施例的场景Ngram模型在用户输入时的加载流程图。

如图4所示，可见该流程包括场景判断、模式选择和模型融合。

在场景判断中，输入法软件根据用户输入环境上下文和典型场景列表，动态判断出确定用户当前的输入场景，用户输入环境上下文包括用户输入的信息以及输入法所面向的宿主软件信息。在模式选择中，根据当前输入场景，选择相应的场景Ngram模型。在模型融合中，将选择的场景Ngram模型与通用Ngram模型相融合成混合Ngram模型。最后，用户的键盘输入直接送到混合模型进行处理，形成最终的用户文档。

本领域技术人员应当理解，图4的实施例也可以应用于其他的语言模型，而不是仅限于Ngram模型。

图5是根据本发明实施例的基于用户输入场景动态加载语言模型的装置的示意框图，该装置包括：。

输入场景判断模块，用于判断当前的用户输入场景并将判断结果送入场景语言模型选择模块。例如，输入场景判断模块可以根据典型场景列表和/或用户输入环境上下文来判断当前的用户输入场景，其中，典型场景列表是通过对用户输入法宿主软件和/或用户输入信息进行分类统计而得到的，用户输入环境上下文可以包括用户输入信息和/或输入法宿主软件信息。

场景词表生成模块，用于根据场景训练语料生成针对用户输入场景的场景词表以供场景语言模型训练模块使用，包括语料分类模块、词表抽取模块和词表计算模块，其中：语料分类模块根据所述典型场景列表对场景训练语料进行分类，例如将其分类为聊天场景语料、网游场景语料等；词表抽取模块分别从分类后的各场景训练语料中抽取出场景词表的备选词，将其集合成对应的场景备选词表，例如可以统计场景预料中的高频用户词，取前n个词作为场景词表的备选词；词表计算模块，用于根据所述场景备选词表与通用词表计算出所述场景词表的模块，例如可以将各个场景备选词表与通用词表的集合做差集，用得到的差集作为该场景的场景词表。

语言模型训练模块，用于训练出场景语言模型和通用语言模型，包括场景语言模型训练模块和通用语言模型训练模块：场景语言训练模块可以根据场景训练语料和场景词表生成模块生成的场景词表，用最大似然估计法训练出场景语言模型以供场景语言模型选择模块进行选择；通用语言模型训练模块可以根据通用训练语料和通用词表训练出通用语言模型以供语言模型融合模块使用，其过程与场景语言模型的训练类似，因此不再赘述。

场景语言模型选择模块，用于根据当前的用户输入场景，选择对应的场景语言模型。

语言模型融合模块，用于将所选择的场景语言模型与通用语言模型融合成混合语言模块。

用户输入处理模块，用于加载混合语言模型对用户输入进行处理。例如，用户的键盘输入被送入混合语言模型进行处理，从而形成最终的用户文档。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户输入场景动态加载语言模型的方法，包括：

判断当前的用户输入场景；

根据所述用户输入场景，选择对应的场景语言模型；

将所述场景语言模型与通用语言模型融合成混合语言模型；以及

加载所述混合语言模型对用户输入进行处理；

其中，所述场景语言模型和通用语言模型是通过训练得到的。

2.根据权利要求1所述的方法，其中，所述判断当前的用户输入场景的步骤还包括：

根据典型场景列表和用户输入环境上下文，判断当前的用户输入场景，其中，所述典型场景列表是通过对用户输入法宿主软件和/或用户输入信息进行分类统计得到的，所述用户输入环境上下文包括用户输入信息和/或输入法宿主软件信息。

3.根据权利要求1所述的方法，还包括：

根据场景训练语料生成针对用户输入场景的场景词表；根据所述场景训练语料和所述场景词表，用最大似然估计法训练出场景语言模型。

4.根据权利要求3所述的方法，其中，所述根据场景训练语料生成针对用户输入场景的场景词表的步骤包括：

根据典型场景列表对场景训练语料进行分类；

分别从分类后的各场景训练语料中抽取出对应的场景备选词表；以及

根据所述场景备选词表与通用词表得出所述场景词表。

5.根据权利要求1所述的方法，所述将所述场景语言模型与通用语言模型融合成混合语言模型的步骤包括：

用线性插值的方式将所述场景语言模型与通用语言模型融合成混合语言模型，插值系数用于调节所述场景语言模型和通用语言模型在所述混合语言模型中的比重。

6.根据权利要求1所述的方法，其中，所述语言模型是Ngram模型，所述场景语言模型是Bigram模型或Unigram模型。

7.一种基于用户输入场景动态加载语言模型的装置，包括：

输入场景判断模块，用于判断当前的用户输入场景；

场景语言模型选择模块，用于根据所述用户输入场景，选择对应的场景语言模型；

语言模型融合模块，用于将所述场景语言模型与通用语言模型融合成混合语言模型；以及

用户输入处理模块，用于加载所述混合语言模型对用户输入进行处理；以及

语言模型训练模块，用于训练出所述场景语言模型和所述通用语言模型。

8.根据权利要求7所述的装置，其中，所述输入场景判断模块包括：

用于根据典型场景列表和/或用户输入环境上下文，判断当前的用户输入场景的模块，其中，所述典型场景列表是通过对用户输入法宿主软件和/或用户输入信息进行分类统计得到的，所述用户输入环境上下文包括用户输入信息和/或输入法宿主软件信息。

9.根据权利要求7所述的装置，还包括：

场景词表生成模块，用于根据场景训练语料生成针对用户输入场景的场景词表，所述语言模型训练模块包括场景语言模型训练模块，用于根据所述场景训练语料和所述场景词表，用最大似然估计法训练出场景语言模型。

10.根据权利要求9所述的装置，其中，所述场景词表生成模块包括：

语料分类模块，用于根据所述典型场景列表对场景训练语料进行分类；

词表抽取模块，用于分别从分类后的各场景训练语料中抽取出对应的场景备选词表；以及

词表计算模块，用于根据所述场景备选词表与通用词表计算出所述场景词表。