CN102193909A

CN102193909A - 一种统计语言模型自动抽选语料算法

Info

Publication number: CN102193909A
Application number: CN2010101197466A
Authority: CN
Inventors: 方圆; 秦晓康
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-03-09
Filing date: 2010-03-09
Publication date: 2011-09-21

Abstract

一种能够快速提高语料抽选速度以及抽选质量的统计语言模型自动抽选语料算法。它将原始语料随机分为大小相近的若干个子集合，分别训练每个集合的语言模型，以某个准确度高的语言模型为基准参考模型来计算每个子集合的交叉熵，选取熵值最小的几个集合并入最终的语料结果集，迭代此过程直至语料结果集的语言模型的准确率达标。

Description

一种统计语言模型自动抽选语料算法

技术领域

本发明涉及自然语言处理领域的统计语言模型自动抽选语料的方法改进，尤其能提高海量原始语料的抽选速度。

背景技术

目前，公知的抽选统计语言模型的训练语料的方法是由人工抽选，由自然语言处理方面的专业人士阅读海量的文本语料，从中挑选出他们认为平衡性最好的语料集合，尽可能的过滤噪音。但是，处理超过百兆的文本文件采取人工过滤的方法耗时太久，准确度也并不最优，不能做到语言模型的及时更新，快速反映热点词汇。

发明内容

为了克服现有的统计语言模型的训练语料抽选耗时久，结果也并不最优的不足，本发明提供了一种新的算法，不仅能成百倍的缩小语料抽选的处理时间，而且能更好的提高抽选语料的平衡性，提高结果语言模型的准确度。

本发明解决其技术问题所采用的技术方案是：将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动语料抽选算法中。首先将一个准确度最好的语言模型作为语料抽选的基准参考语言模型，然后采取语料分集的方法，将原始语料随机的分为若干个子集合，并尽可能的使每个集合中的语料大小平均分配。分别训练每个集合的语言模型，计算出它们与基准参考语言模型的交叉熵，并按照从小到大进行排序，选取其中熵值最小的几个集合并入结果语料集。如果此结果集的语言模型准确率已经达到实验要求即可完成此算法，否则，可以将此时的结果集的语言模型作为基准参考模型，剩余的语料作为原始语料，迭代上述抽选过程直至达到最终的语言模型准确率要求。

本发明的有益效果是，可以在大幅度的降低语料抽选时间的同时，提高语料抽取结果的质量，提高统计语言模型的准确率，并且整个流程全自动化。

附图说明

下面结合附图对本发明进一步说明。

图1是本发明的算法流程图。

图2是本发明的实验结果图。

具体实施方式

在图1中，算法启动的输入数据为原始语料列表文件，根据此文件计算原始语料大小，并将原始语料均匀的分配至有限个数的语料子集中，接着训练每个语料子集的语言模型，计算他们与基准参考语言模型的交叉熵，对计算结果进行排序，挑选出交叉熵最小的若干子集，并入结果集合，然后训练结果集合的语言模型，计算其准确率。如果准确率达到要求，则结束语料抽选算法，否则迭代此算法流程。

在图2中，标识的是自动抽选语料算法与手动相比，最终的语言模型准确度的差异，在此将测试分为不同的方面，例如短语，长句，正规词汇，口语词汇等，对比实验数据，可见自动抽选语料算法相比手动抽选，在各个方面的准确度都有提高。

Claims

1.一种统计语言模型自动抽选语料算法，提高海量原始语料的抽选速度以及抽选语料质量，其特征是：将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动抽选语料算法中，并引入分集计算的方法。

2.根据权利要求1所述的一种统计语言模型自动抽选语料算法，其特征是将一个之前准确度最好的语言模型作为语料挑选的基准参考语言模型，然后采取语料分集的算法，将原始语料随机分为若干个集合，分别训练每个集合的语言模型，计算交叉熵，选取熵值最小的几个集合并入最终的语料结果集，迭代此过程直至最终语言模型的准确度达标。

3.根据权利要求1所述的统计语言模型自动抽选语料算法，其特征是随机分配原始语料至若干个子集合中，并尽可能的保证每个子集合的大小平均。