CN1677487A

CN1677487A - 使用语义监控的语言模型适应

Info

Publication number: CN1677487A
Application number: CNA2005100562527A
Authority: CN
Inventors: A·阿赛罗; C·I·切尔巴; M·马哈间; Y-C·丹
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-03-31
Filing date: 2005-03-31
Publication date: 2005-10-05
Anticipated expiration: 2025-03-31
Also published as: KR101122954B1; US7478038B2; KR20060045069A; CN1677487B; EP1582998A3; US20050228641A1; JP2005292832A; EP1582998A2; JP4855701B2

Abstract

提供了一种用于使语言模型适应的方法和装置。该方法和装置使用内领域语义信息提供了语言模型的受监控的基于类别的适应。

Description

使用语义监控的语言模型适应

技术领域

本发明涉及语言处理中使用的语言模型，尤其涉及使语言模型适合于期望的领域。

背景技术

诸如自动语音识别(ASR)等语言处理系统通常必须处理由于起源于训练和测试数据以及实际的领域数据之间的失配的错误而引起的性能退化。如众所周知的，语音识别系统采用声学模型和统计语言模型(LM)来提供识别。使声学模型适应于新的领域的解决方案并不很成功；语言模型的适应尚未达到满意的结果。

统计语言模型(LM)为单词序列提供了一种先验概率估算。LM是ASR和其它形式的语言处理中重要的组成部分，因为它引导了对大多数可能单词序列的假设搜索。一个好的LM被认为是对高级语言处理性能是必需的。

通常，LM使用从期望类似于测试数据的大量训练数据中收集的平滑的n元语法(n-gram)统计量。然而，相似性的定义是松散的，并且通常让建模者来决定对给定的感兴趣的领域应当使用哪些数据源，而这种决定在大多数时间是试验性且有错误的。

不变的是，在训练或测试数据以及实际领域或“内领域(in-domain)”数据之间总是存在失配，这会导致错误。失配的一个来源是因为测试数据超出了词汇量单词。例如，最初为一个航空公司设计的航空旅行信息系统可能对另一航空公司不能起作用，这是因为在所述的公司服务的城市名、机场名等之间存在失配。

失配的另一潜在来源来自不同的语言风格。例如，新闻领域的语言风格不同于航空旅行信息领域。在新闻专线或其它概括文本上训练的语言模型可能不能在航空旅行信息领域中表现良好。

尽管尝试了各种方法来使使用不同的技术在大量的背景数据上训练的LM相适应，然而没有一种方法达到了优良的结果，并且，由此不断地需要对LM适应的改进。解决上述一个或多个问题的方法将是有益的。

发明内容

提供了一种用于使语言模型相适应的方法和装置。该方法和装置使用内领域语义信息提供了受监控的基于类别的语言模型适应。

一般而言，用于执行适应的资源从指示概括文本的背景数据和所选择的领域中使用的一组语义实体导出，并按类别来组织。在另一实施例中，也使用了指示要被建模的所选择领域的适应数据。

在所述另一实施例中，这类数据包括背景n元语法类别计数数据，它与语义实体组的类别相关，并基于指示概括文本的背景数据；还包括适应n元语法类别计数数据，它与语义实体组的类别相关，并基于指示要被建模的所选择领域的适应数据。根据此数据并使用语义实体组，背景单词计数数据和适应单词计数数据可被计算，并用作使语言模型适应于适应数据和语义项组的领域的基础。

附图说明

图1是其中可实施本发明的通用计算环境的框图。

图2是使语言模型相适应的流程图。

图3A和3B示出了使语言模型相适应的系统的框图。

具体实施方式

本发明涉及语言模型适应的系统和方法。然而，在更详细讨论本发明之前，将先讨论可在其中使用本发明的一个说明性环境。

图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。

本发明将在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。本领域的技术人员可将此处的描述和/或附图实现为可以包含在以下讨论的任何形式的计算机可读介质上的计算机可执行指令。

本发明也可以在分布式计算环境中实践，其中，任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储介质中，包括存储器存储设备。

参考图1，用于实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件包括但不限于，处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质，包括易失和非易失介质、可移动和不可移动介质。作为示例而非局限，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失，可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信介质包括有线介质，如有线网络或直接连线连接，以及无线介质，如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。

系统存储器130包括以易失和/或非易失存储器形式的计算机存储介质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储介质。仅作示例，图1示出了对不可移动、非易失磁介质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156，如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150连接到系统总线121。

图1讨论并示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

用户可以通过输入设备，如键盘162和定位设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，通过输出外围接口190连接。

计算机110可以在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时，计算机110可包括调制解调器172或其它装置，用于通过WAN 173，如因特网建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出了远程应用程序185驻留在远程计算机180中。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

应当注意，本发明可以在诸如相对于图1所描述的计算机系统上实现。然而，本发明可以在服务器、专用于消息处理的计算机或分布式系统上实现，在分布式系统上，本发明的不同部分在分布式计算系统的不同部分上实现。

如上所述，本发明涉及语言模型适应的系统和方法。用于执行适应的资源包括需要使之适应的背景LM。通常，背景LM从诸如但不限于新闻文章等的背景训练数据的大语料库中获得。背景训练数据用于获取背景语言模型的n元语法统计量。

语义数据库或语义信息提供了受监控的信息用于适应。为讨论目的，语义数据库广泛并示意性地代表了语义实体的列表—类别，其每一个伴有一实现列表，它被假定为与它们在内领域自然语言文本中遇到的实现具有相同的形式。例如，语义数据库可以是一般对多个类别定义良好的语义实体列表。例如，并且在下文用作示例，航空公司的语音识系统中用于获取信息来作出预约的语言模型的语义项可包括由该航空公司服务的城市以及所飞向的各个机场的列表。语义实体和类别的另一示例可以是公司雇员列表、一个月中的天以及一年中的月份，这些可能被包括在用于调度应用程序的内领域中。

语义类别可以被分类成开放和关闭的类别。开放类别中的类别成员在各个领域之间变化，而关闭类别中的类别成员不会改变。例如，航空旅行应用程序中的语义类别可以如下：

开放类别：{航空公司，机场，城市，州}

关闭类别：{日期，月份，间隔，服务等级，时区，食品服务，地面服务}

在各个应用程序之间，语义类别的数量和类型会有显著的变化。然而，在诸如航空公司旅行应用程序等某些应用程序中，一旦标识了语义类别，仅语义实体或单词级实现是需要改变的，以使语言模型适应于由另一航空公司使用。

语言模型适应中使用的一个可任选的第三资源是适应数据。适应数据包括句子、短语、文本段等形式的实际或内领域数据，它们作为内领域应用程序中的类别的使用的示例。与背景数据相比，适应数据通常比背景数据少许多个数量级。在一个实施例中，内领域数据被细分成适应开发数据和适应训练数据。适应训练数据与背景训练集相组合，以成为一个较大的训练集，其中n元语法计数从两个集同时开始，并用相等的权值混合(尽管其它混合方案也是可能的：n元语法计数可以用不同的权值来混合，如MAP适应中)。适应开发数据严格地用于平滑背景和已适应的语言模型两者。来自开发集的n元语法不被包括到背景/已适应的语言模型中。

在示例性实施例中，所有的数据集是单词级的自然语言文本。

基于类别的适应

通过使用基于类别的语言模型，受监控的语义信息被结合到语言模型中。简言之，新单词w3属于单个语义类别c3的概率估算可以如下完成：

Pr(w3|w2w1)＝Pr(w3|c3)·Pr(c3|w2w1) (1)

建模上假定Pr(w3|c3w2w1)＝Pr(w3|c3).

例如，使用以下公式估算Pr(城市名|飞往)：

Pr(城市名|飞往)＝Pr(城市名|城市)·Pr(城市|飞往)

其中，Pr(城市|飞往)是使用以语义类别加标签的训练数据来估算的，而Pr(城市名|城市)是使用内领域语义数据库使之相适应的。如果先验内领域知识可用，则可向常用的城市名分配比不常用的城市名更高的概率；否则，假定该城市名的均匀分布。使用基于类别的适应方法的优点是：

可以良好地估算给定单词上下文时语义类别的概率。在上述示例中，Pr(城市|飞往)可以在训练和适应数据中十分相似；

可通过使用内领域语义数据库使Pr(w3|c3)适应，来执行快速的LM适应。已适应的概率Pr(w3|c3)与计数“w1w2w3”组合，而不需要收集任何新训练文本来重新训练领域专用语言模型；以及

可实现用更宽的单词上下文的概率估算，因为单词短语被封装在语义类别中。例如，5元语法“los angeles to new york(洛杉机到纽约)”被模型化为类别三元语法“CITY to CITY(城市到城市)”，它在直观上比模型化为“los angeles to”、“angeles to new”和“to new york”更令人满意。

适应过程

图2示出了一个示例性适应过程200。图3A和3B示出了用于执行过程200的示例性系统300。如上所述，适应数据的使用时可任选的，但是为本发明的另一实施例。下文将描述使用两者的实施例，但是它不应当被认为是要求或限制。同样，在继续之前，应当注意，过程200和系统300被描述为一般同时在背景数据和可任选数据上操作。然而，这是为了理解的简易性的目的，并不应当被认为是必需或限制。

步骤202一般表示获取用于背景数据和适应数据两者的加标签的数据。在所示的实施例中，这包括如202所示的对单词级数据加标签。具体地，首先在图2的步骤202用语义类别标签对训练(背景和适应)数据加标签。当然，如果加标签的数据已存在，则这一步骤不是必需的。在图3A中，在301处指示了语义数据库，而训练数据驻留在语料库302和304中，并且加标签由加标签器306执行。

加标签器306修改由语料库304和306提供的单词级文本，并添加指示其中识别的语义实体类别的标签。例如，给定“fly from san Francisco to(从旧金山飞往)”，并且知道“san Francisco(旧金山)”属于语义类别“CITY(城市)”，则加标签器306的输出将是“fly from CITY to(从城市飞往)”。其某些语义实体用对应的语义类别替换的单词级训练数据在308和310处指示。

在一个实施例中，可应用试验用于加标签。这类试验可包括用于加标签的简单的串匹配方法。加标签器306将给定的数据库条目与文本中的单词序列进行匹配，并向由此标识的最长短语分配一类别标签。在另一实施例中，如果在不同的类别之间出现了单词歧义，则保留该单词短语未加标签。在又一实施例中，可通过向每一语义类别候选者分配概率来实现软加标签。

在步骤202执行了加标签之后，如果未提供加标签的数据，则过程在步骤204继续，以从所有的训练文本中收集类别n元语法计数，或者对包含在加标签的数据内的唯一n元语法进行计数。在图3A中，这一步骤由收集模块312执行。

如有需要，可执行包括剪除类别n元语法计数的可任选步骤206。在基于类别的适应中，当类别n元语法被扩展到单词n元语法时，语言模型的大小受每一语义类别中的元素数目的强烈影响。例如，类别三元语法“PERSON joins COMPANY(人加入公司)”，其中，“PERSON(人)”和“COMPANY(公司)”包括语义类，当“PERSON”和“COMPANY”的每一个都包含上千个类别元素时，这可生成上百万个单词三元语法。因此，语言模型剪除对于令语言模型的大小可管理可能是必需的。在一个实施例中，包含一个以上语义类别的n元语法被舍弃。如果计算资源可用，可以重新训练它们。另外，可在扩展到单词n元语法之前采用类别n元语法的计数截断剪除。在图3A中，收集模块312被示出为通过使用剪除模块314执行这一功能。从收集模块312的输出包括图3B中示出的背景n元语法计数数据316和适应n元语法计数数据。

在步骤208，使用语义数据库301，类别n元语法被扩展到单词n元语法。在图3B中，这一步骤由单词n元语法生成器320执行。在一个实施例中，单词n元语法生成器320可实现以下扩展算法，生成背景n元语法单词计数数据322和适应n元语法单词计数数据324；

(a)给定类别n元语法，由其每一类别元素替换类别标签。

例如，类别三元语法“analyst for COMPANY(公司的分析员)”可创建单词4元语法“analyst for x.y.(x.y.的分析员)”，其中“x.y.”是语义数据库中的公司名(如Verizon Wireless)

(b)根据类别n元语法计数计算单词n元语法计数。

单词n元语法计数被计算为其对应的类别n元语法计数的尾数，取决于Pr(单词|类别).

假定语义类别“COMPANY(公司)”的概率为：

Pr(microsoft|COMPANY)＝0.5

Pr(oracle|COMPANY)＝0.25

Pr(verizon wireless|COMPANY)＝0.25，并且

n元语法“analyst for COMPANY”为5个计数，

则，单词级n元语法计数数据为：

“analyst for microsoft”＝2.5

“analyst for oracle”＝1.25

“analyst for verizon wireless”＝1.25

在上述示例中，生成的单词4元语法“analyst for x.y.”的计数等于：

#(“analyst for COMPANY”)·Pr(“x.y.”|COMPANY)

(c)然而，注意，由于多单词语义实体，基于类别的n元语法可生成不可用训练特定n元语法来操作的单词级n元语法。例如，假定期望3单词n元语法语言模型，则“analyst for verizon wireless”不是正确的形式。然而，在这一情况下，生成使用滑动窗的较低阶数的单词n元语法。在上述示例中，“analyst for verizon”将具有1.25的计数，而“for vefizon wireless”也将具有1.25的计数。

然而，如果类别在n元语法中的任何其它地方出现，即，在最正确的位置以外的地方出现，则可执行以下步骤来避免对多单词语义项扩展的重复计数。对于前一示例，以同样的方式执行关于扩展的步骤(a)和关于计算的步骤(b)。然而，步骤(c)不被执行，相反，通过仅采用扩展后期望的最正确数量的单词，缩短了n元语法的上下文。

作为示例，假定“COMPANY analyst said(公司分析员说)”的类别三元语法具有计数5，其对以下的语义类别“COMPANY”具有相同的概率：

Pr(microsoft|COMPANY)＝0.5

Pr(oracle|COMPANY)＝0.25

Pr(verizon wireless|COMPANY)＝0.25

则，单词级n元语法计数数据为：

“microsoft analyst said”＝2.5

“oracle analyst said”＝1.25

“wireless analyst said”＝1.25

其中，“wireless analyst said”通过仅采用三元语法的三个最正确的单词来实现。

尽管示出了语义数据库301何时可用加标签306和单词n元语法生成器320来操作，然而可以理解，数据库301的每一实例中的内容可以在许多不同应用程序中是不同的，使得本方法更有用。

在步骤210，使用背景和可任选适应数据的生成的单词n元语法计数来训练语言模型326，此处由训练模块328来执行。如有需要，可以执行单词n元语法上的计数截断剪除，以进一步减小语言模型的大小。

训练可包括平滑n元语法的相对频率估算。例如，由Frederick Jelinek和RobertMercer在“Interpolated Estimation of Markov Source Parameters from Sparse Data(来自稀疏数据的马尔可夫源参数的内插估算)”，E.Gelsema和L.Kanal，编辑，PatternRecognition in Practice(实际模式识别)，381-397页，1980中描述的删除插值(deleted-interpolated)方法可用于平滑n元语法的相对频率估算，该方法通过引用结合于此。简言之，递归的删除插值公式定义如下：

P r_{I} (w | w_{1}^{n - 1}) = (1 - λ_{w_{1}^{n - 1}}) \cdot f (w | w_{1}^{n - 1}) +

λ_{w_{1}^{n - 1}} \cdot P r_{I} (w | w_{2}^{n - 1})

P r_{I} (w) = (1 - λ) \cdot f (w) + λ \cdot \frac{1}{V}

其中，f(w|w_1k ^n-1)表示单词n元语法的相对频率，而w_1k ^n-1是跨越前n-1个单词的单词历史。不同上下文阶数的n元语法模型加上均匀单词分布被线性地内插。内插权值可使用众所周知的最大似然技术来估算。由于数据稀疏性，内插权值通常与通过将单词上下文分组程类别来降低估算参数的数量相联系。一种可能的方式是基于给定单词上下文的出现次数将参数存入存储段(bucket)。

步骤210完成受监控的语言模型适应，在此示例中提供了一种删除插值语言模型。一种语言处理系统中删除插值语言模型的实现可包括转换成标准ARPA格式的补偿(backoff)语言模型。2004年3月26共同提交的，名为“REPRESENTATIONOF A DELETED INTERPOLATION N-GRAM LANGUAGE MODEL IN ARPASTANDARD FORMAT(ARPA标准格式的删除插值n元语言模型的表示)”，代理案卷号M61.12-0625的待决申请中描述了转换成ARPA格式的一个示例，它可在一种通道系统中使用。

尽管参考特定实施例描述了本发明，然而本领域的技术人员将认识到，可在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims

1.一种使n元语法语言模型适应新领域的方法，所述方法包括：

接收表示不直接针对所述新领域的概括文本短语的背景数据；

接收一组在所述新领域中使用、组织成类别的语义实体；

基于所述背景数据和所述语义实体及其类别生成背景n元语法类别计数数据；以及

基于所述背景n元语法类别计数数据训练语言模型。

2.如权利要求1所述的方法，其特征在于，还包括：

接收指示所述新领域中使用的文本短语的适应数据；

基于所述适应数据和所述语义实体及其类别生成适应n元语法类别计数数据；以及

其中，训练所述语言模型包括基于所述背景n元语法类别计数数据和适应n元语法类别计数数据来训练。

3.如权利要求2所述的方法，其特征在于，还包括：

基于所述背景n元语法类别计数数据和所述语义实体及其类别生成背景n元语法单词数据；

基于所述适应n元语法类别计数数据和所述语义实体及其类别生成适应n元语法单词数据；以及

其中，基于所述背景n元语法类别计数数据和适应n元语法类别计数数据训练所述语言模型包含使用背景n元语法单词数据和适应n元语法单词数据。

4.如权利要求3所述的方法，其特征在于，生成背景n元语法单词数据包含为多单词语义实体生成背景n元语法单词数据，每一数据条目包括所选择数量的单词。

5.如权利要求4所述的方法，其特征在于，生成适应n元语法单词数据包含为多单词语义实体生成适应n元语法单词数据，每一数据条目包括所选择数量的单词。

6.如权利要求4所述的方法，其特征在于，基于所述背景数据和所述语义实体及其类别生成背景n元语法类别计数数据包含基于所述语义实体及其类别对单词级背景数据加标签。

7.如权利要求5所述的方法，其特征在于，基于所述适应数据和所述语义实体及其类别生成适应n元语法类别计数数据包含基于所述语义实体及其类别对单词级适应数据加标签。

8.如权利要求6所述的方法，其特征在于，基于所述背景数据和所述语义实体及其类别生成背景n元语法类别计数数据包含计算加标签的背景数据的唯一类别级n元语法。

9.如权利要求7所述的方法，其特征在于，基于所述适应数据和所述语义实体及其类别生成适应n元语法类别计数数据包含计算加标签的适应数据的唯一类别级n元语法。

10.如权利要求8所述的方法，其特征在于，基于所述背景数据和所述语义实体及其类别生成背景n元语法类别计数数据包含从加标签的背景数据中丢弃一些类别n元语法。

11.如权利要求9所述的方法，其特征在于，基于所述适应数据和所述语义实体及其类别生成适应n元语法类别计数数据包含从加标签的适应数据中丢弃一些类别n元语法。

12.一种具有用于执行生成语言模型的步骤的计算机可执行指令的计算机可读介质，所述步骤包含：

接收一组在选择的领域中使用、并组织成类别的语义实体；

接收与所述语义实体组的类别相关、且基于表示概括文本的背景数据的背景n元语法类别计数数据；

接收与所述语义实体的类别相关、且基于表示要被建模的所选择领域的适应数据的适应n元语法类别计数数据；以及

基于所述背景n元语法类别计数数据、适应n元语法类别计数数据和所述语义实体组训练语言模型。

13.如权利要求12所述的计算机可读介质，其特征在于，训练所述语言模型包含基于所述背景n元语法类别计数数据和所述语义实体组计算背景单词计数数据。

14.如权利要求13所述的计算机可读的介质，其特征在于，训练所述语言模型包含基于所述适应n元语法类别计数数据和所述语义实体组计算适应单词计数数据。

15.如权利要求14所述的计算机可读介质，其特征在于，训练所述语言模型包含平滑n元语法相对频率。

16.如权利要求15所述的计算机可读介质，其特征在于，平滑包含使用一种删除插值算法。