CN102193909A - 一种统计语言模型自动抽选语料算法 - Google Patents

一种统计语言模型自动抽选语料算法 Download PDF

Info

Publication number
CN102193909A
CN102193909A CN2010101197466A CN201010119746A CN102193909A CN 102193909 A CN102193909 A CN 102193909A CN 2010101197466 A CN2010101197466 A CN 2010101197466A CN 201010119746 A CN201010119746 A CN 201010119746A CN 102193909 A CN102193909 A CN 102193909A
Authority
CN
China
Prior art keywords
language model
language
language material
algorithm
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101197466A
Other languages
English (en)
Inventor
方圆
秦晓康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2010101197466A priority Critical patent/CN102193909A/zh
Publication of CN102193909A publication Critical patent/CN102193909A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种能够快速提高语料抽选速度以及抽选质量的统计语言模型自动抽选语料算法。它将原始语料随机分为大小相近的若干个子集合,分别训练每个集合的语言模型,以某个准确度高的语言模型为基准参考模型来计算每个子集合的交叉熵,选取熵值最小的几个集合并入最终的语料结果集,迭代此过程直至语料结果集的语言模型的准确率达标。

Description

一种统计语言模型自动抽选语料算法
技术领域
本发明涉及自然语言处理领域的统计语言模型自动抽选语料的方法改进,尤其能提高海量原始语料的抽选速度。
背景技术
目前,公知的抽选统计语言模型的训练语料的方法是由人工抽选,由自然语言处理方面的专业人士阅读海量的文本语料,从中挑选出他们认为平衡性最好的语料集合,尽可能的过滤噪音。但是,处理超过百兆的文本文件采取人工过滤的方法耗时太久,准确度也并不最优,不能做到语言模型的及时更新,快速反映热点词汇。
发明内容
为了克服现有的统计语言模型的训练语料抽选耗时久,结果也并不最优的不足,本发明提供了一种新的算法,不仅能成百倍的缩小语料抽选的处理时间,而且能更好的提高抽选语料的平衡性,提高结果语言模型的准确度。
本发明解决其技术问题所采用的技术方案是:将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动语料抽选算法中。首先将一个准确度最好的语言模型作为语料抽选的基准参考语言模型,然后采取语料分集的方法,将原始语料随机的分为若干个子集合,并尽可能的使每个集合中的语料大小平均分配。分别训练每个集合的语言模型,计算出它们与基准参考语言模型的交叉熵,并按照从小到大进行排序,选取其中熵值最小的几个集合并入结果语料集。如果此结果集的语言模型准确率已经达到实验要求即可完成此算法,否则,可以将此时的结果集的语言模型作为基准参考模型,剩余的语料作为原始语料,迭代上述抽选过程直至达到最终的语言模型准确率要求。
本发明的有益效果是,可以在大幅度的降低语料抽选时间的同时,提高语料抽取结果的质量,提高统计语言模型的准确率,并且整个流程全自动化。
附图说明
下面结合附图对本发明进一步说明。
图1是本发明的算法流程图。
图2是本发明的实验结果图。
具体实施方式
在图1中,算法启动的输入数据为原始语料列表文件,根据此文件计算原始语料大小,并将原始语料均匀的分配至有限个数的语料子集中,接着训练每个语料子集的语言模型,计算他们与基准参考语言模型的交叉熵,对计算结果进行排序,挑选出交叉熵最小的若干子集,并入结果集合,然后训练结果集合的语言模型,计算其准确率。如果准确率达到要求,则结束语料抽选算法,否则迭代此算法流程。
在图2中,标识的是自动抽选语料算法与手动相比,最终的语言模型准确度的差异,在此将测试分为不同的方面,例如短语,长句,正规词汇,口语词汇等,对比实验数据,可见自动抽选语料算法相比手动抽选,在各个方面的准确度都有提高。

Claims (3)

1.一种统计语言模型自动抽选语料算法,提高海量原始语料的抽选速度以及抽选语料质量,其特征是:将信息论中交叉熵的概念进行工程上的简化并应用在统计语言模型的自动抽选语料算法中,并引入分集计算的方法。
2.根据权利要求1所述的一种统计语言模型自动抽选语料算法,其特征是将一个之前准确度最好的语言模型作为语料挑选的基准参考语言模型,然后采取语料分集的算法,将原始语料随机分为若干个集合,分别训练每个集合的语言模型,计算交叉熵,选取熵值最小的几个集合并入最终的语料结果集,迭代此过程直至最终语言模型的准确度达标。
3.根据权利要求1所述的统计语言模型自动抽选语料算法,其特征是随机分配原始语料至若干个子集合中,并尽可能的保证每个子集合的大小平均。
CN2010101197466A 2010-03-09 2010-03-09 一种统计语言模型自动抽选语料算法 Pending CN102193909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101197466A CN102193909A (zh) 2010-03-09 2010-03-09 一种统计语言模型自动抽选语料算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101197466A CN102193909A (zh) 2010-03-09 2010-03-09 一种统计语言模型自动抽选语料算法

Publications (1)

Publication Number Publication Date
CN102193909A true CN102193909A (zh) 2011-09-21

Family

ID=44601993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101197466A Pending CN102193909A (zh) 2010-03-09 2010-03-09 一种统计语言模型自动抽选语料算法

Country Status (1)

Country Link
CN (1) CN102193909A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021551A (zh) * 2017-10-27 2018-05-11 北京捷通华声科技股份有限公司 一种语料扩展方法及装置
CN108229286A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 语言模型生成及应用方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229286A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 语言模型生成及应用方法、装置、电子设备和存储介质
CN108021551A (zh) * 2017-10-27 2018-05-11 北京捷通华声科技股份有限公司 一种语料扩展方法及装置
CN108021551B (zh) * 2017-10-27 2021-02-19 北京捷通华声科技股份有限公司 一种语料扩展方法及装置

Similar Documents

Publication Publication Date Title
CN106447366B (zh) 多媒体广告的审核方法、广告审核模型的训练方法及装置
CN110704590B (zh) 扩充训练样本的方法和装置
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
Slimane et al. ICDAR 2011-arabic recognition competition: Multi-font multi-size digitally represented text
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN103680493A (zh) 区分地域性口音的语音数据识别方法和装置
CN112950584B (zh) 一种基于深度学习的涂层表面缺陷识别方法
CN104835508B (zh) 一种用于混合语音情感识别的语音特征筛选方法
CN103854645A (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
RU2010147926A (ru) Классификация данных выборок
CN105718943A (zh) 基于粒子群优化算法的特征选择方法
CN109243466A (zh) 一种声纹鉴权训练方法及系统
CN111768761B (zh) 一种语音识别模型的训练方法和装置
CN105320645A (zh) 中文企业名称的识别方法
CN102193909A (zh) 一种统计语言模型自动抽选语料算法
CN103797535A (zh) 减少语音辨识系统中的漏报
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统
CN110110860B (zh) 一种用于加速机器学习训练的自适应数据采样方法
CN106407184A (zh) 用于统计机器翻译的解码方法、统计机器翻译方法及装置
CN103428403A (zh) 图像处理设备和方法、学习设备和方法以及程序
CN108962251A (zh) 一种游戏角色中文语音自动识别方法
CN106782516A (zh) 语料分类方法及装置
CN110334080B (zh) 一种实现自主学习的知识库构建方法

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice

Addressee: Fang Yuan

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Qin Xiaokang

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Qin Xiaokang

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice

Addressee: Qin Xiaokang

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110921