CN105159473B

CN105159473B - 一种语言模型计算处理方法及系统

Info

Publication number: CN105159473B
Application number: CN201510504959.3A
Authority: CN
Inventors: 肖日新
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-08-17
Filing date: 2015-08-17
Publication date: 2018-02-13
Anticipated expiration: 2035-08-17
Also published as: CN105159473A

Abstract

本发明公开了一种语言模型计算处理方法及系统，所述方法包括：根据输入发音，对训练语料数据进行查询，得到所述发音对应的词条；通过ngram模型结合npos模型来计算所述词条的cost值；以及选取所述计算出的cost值最小词条作为候选结果。通过采用本发明可使传统ngram模型具有npos模型的拓展性，有效其改善对于新词、热词的整句变换能力。

Description

一种语言模型计算处理方法及系统

技术领域

本发明涉及语言建模技术领域，更为具体而言，涉及一种语言模型计算处理方法及系统。

背景技术

随着信息智能技术的普遍应用，各类语言输入法不断更新。然而，在传统输入法中常用的模型为npos模型和ngram模型，ngram模型对于变换结果比较好，npos模型对于词条拓展比较方便.两者各具优势。传统的ngram模型对于新词热词不具备整句变换能力。因此，急需一种能够使npos模型和ngram模型融合的语言模型计算处理及系统。

发明内容

为了解决传统的ngram模型对于新词热词不具备整句变换能力的问题，本发明实施方式提供了一种语言模型计算处理方法及系统。

一方面，本发明实施方式提供了一种语言模型计算处理方法，所述方法包括：

根据输入发音，对训练语料数据进行查询，得到所述发音对应的词条；

通过ngram模型结合npos模型来计算所述词条的cost值；以及

选取所述计算出的cost值最小词条作为候选结果。

相应的，本发明实施方式还提供了一种语言模型计算处理系统，所述系统包括：

查询模块，用于根据输入发音，对训练语料数据进行查询，得到所述发音对应的词条；

计算模块，用于通过ngram模型结合npos模型来计算所述词条的cost值；

选取模块，用于选取所述计算出的cost值最小词条作为候选结果。

实施本发明的各种实施方式可使传统ngram模型具有npos模型的拓展性，有效其改善对于新词、热词的整句变换能力。

附图说明

图1是根据本发明实施方式的一种语言模型计算处理方法的流程图；

图2是根据本发明实施方式的一种语言模型计算处理系统的架构图；

图3示出了图2所示的查询模块100的框图；

图4示出了图2所示的选取模块300的框图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明实施方式的一种语言模型计算处理方法的流程图，参见图1，所述方法包括如下步骤：

步骤S1，根据输入发音，对训练语料数据进行查询，得到所述发音对应的词条；其中，具体包括：对所述发音进行逐字符组合(例如,输入发音为ABC,按字节切分后可能的组合为:A+B+C,AB+C,A+BC,ABC)，获取所有可能的发音片段，并根据所述发音片段查询对应的词条。例如：当输入发音xian(拼音字符)，进行逐字符组合，即可出现两种发音片段：xi’an和xian，获取这两种发音片段，并查询到对应的词条“西安”和“先”等多个同音词条。

步骤S2，通过ngram模型结合npos模型来计算所述词条的cost值，其中，当第N+1个词条与前N个词条不存在共现信息时，则通过所述npos模型计算所述词条的cost值，其中，N为不小于1的整数，具体而言，计算cost值包括：计算所述前N个词条的词性共现频次以及各个词性到词的cost值。其中，传统的ngram模型计算cost值c的方法是:

c＝cost(word1,word2,word3,…,wordn)

本发明中，结合npos模型计算cost值c的方法是:

c＝trans_cost(class1,class2,class3,…,classn)+cost(class1,word1)+gen_cost(class2,word2)+gen_cost(class3,word3)+…+gen_cost(classn,wordn)

其中,trans_cost是由语料中各词条的词性的共现频次来计算的,gen_cost是由语料中各词性包含各词条的频次来计算的.具体计算公式为:

trans_cost＝-1000*log(freq(class1,class2,class3,…,classn)/freq(class1,class2,class3,…,classn-1))

gen_cost＝-1000*log(freq(word,class)/freq(class))

式中freq表示频次,可通过统计语料获得.语料来源为网络文本信息。

步骤S3，选取所述计算出的cost值最小词条作为候选结果，其中，可包括：按照所述cost值由小至大排列所述词条，选取前K个词条作为候选结果,可根据需要自行设置选取个数K，例如：cost值最小的一个词条，或排为cost值最小的前三名词条。

通过采用上述方法，可使传统ngram模型具有npos模型的拓展性，有效其改善对于新词、热词的整句变换能力。

图2是根据本发明实施方式的一种语言模型计算处理系统的架构图，参见图2，所述装置包括：

查询模块100，用于根据输入发音，对训练语料数据进行查询，得到所述发音对应的词条；

计算模块200，用于通过ngram模型结合npos模型来计算所述词条的cost值，其中，当第N+1个词条与前N个词条不存在共现信息时，则通过所述npos模型计算所述词条的cost值，其中，N为不小于1的整数，具体而言，计算cost值包括：计算所述前N个词条的词性共现频次以及各个词性到词的cost值。其中，传统的ngram模型计算cost值c的方法是:

c＝cost(word1,word2,word3,…,wordn)

本发明中，结合npos模型计算cost值c的方法是:

gen_cost＝-1000*log(freq(word,class)/freq(class))

式中freq表示频次,可通过统计语料获得.语料来源为网络文本信息；

选取模块300，用于选取所述计算出的cost值最小词条作为候选结果。

通过采用上述系统，可使传统ngram模型具有npos模型的拓展性，有效其改善对于新词、热词的整句变换能力。

图3示出了图2所示的查询模块100的框图；参见图3，所述查询模块100包括：

字符组合单元110，用于对所述发音进行逐字符组合，例如,输入发音为ABC,按字节切分后可能的组合为:A+B+C,AB+C,A+BC,ABC)；

获取单元120，用于获取所有可能的发音片段以及

查询单元130，用于根据所述发音片段查询对应的词条。

例如：当输入发音xian(拼音字符)，进行逐字符组合，即可出现两种发音片段：xi’an和xian，获取这两种发音片段，并查询到对应的词条“西安”和“先”等多个同音词条。

图4示出了图2所示的选取模块300的框图，参见图4，所述选取模块300包括：

排列单元310，用于按照所述cost值由小至大排列所述词条；以及

选取单元320，用于选取前K个词条作为候选结果，可根据需要自行设置选取个数K，例如：cost值最小的一个词条，或排为cost值最小的前三名词条。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种语言模型计算处理方法，其特征在于，所述方法包括：

通过n元语法ngram模型结合npos模型来计算所述词条的转移概率cost值；以及

选取所述计算出的cost值最小词条作为候选结果；

其中，所述通过ngram模型结合npos模型来计算所述词条的cost值包括：

当第N+1个所述词条与前N个词条不存在共现信息时，则通过所述npos模型计算所述词条的cost值，其中，N为不小于1的整数。

2.如权利要求1所述的方法，其特征在于，所述对训练语料数据进行查询，得到所述发音对应的词条包括：

对所述发音进行逐字符组合，获取所有可能的发音片段，并根据所述发音片段查询对应的词条。

3.如权利要求2所述的方法，其特征在于，所述通过所述npos模型计算所述词条的cost值包括：

计算所述前N个词条的词性共现频次以及各个词性到词的cost值。

4.如权利要求1所述的方法，其特征在于，所述选取所述计算出的cost值最小词条作为候选结果包括：

按照所述cost值由小至大排列所述词条，选取一个或多个所述最小词条作为候选结果。

5.一种语言模型计算处理系统，其特征在于，所述系统包括：

选取模块，用于选取所述计算出的cost值最小词条作为候选结果；

当第N+1个所述词条与前N个词条不存在共现信息时，则通过所述npos模型计算所述词条的cost值，其中，N不小于1的整数。

6.如权利要求5所述的系统，其特征在于，所述查询模块包括：

字符组合单元，用于对所述发音进行逐字符组合；

获取单元，用于获取所有可能的发音片段以及

查询单元，用于根据所述发音片段查询对应的词条。

7.如权利要求5所述的系统，其特征在于，

所述通过所述npos模型计算所述词条的cost值包括：

计算前N个词条的词性共现频次以及各个词性到词的cost值。

8.如权利要求5所述的系统，其特征在于，所述选取模块包括：

排列单元，用于按照所述cost值由小至大排列所述词条；以及

选取单元，用于选取一个或多个所述最小词条作为候选结果。