CN108021712B - N-Gram模型的建立方法 - Google Patents

N-Gram模型的建立方法 Download PDF

Info

Publication number
CN108021712B
CN108021712B CN201711464797.0A CN201711464797A CN108021712B CN 108021712 B CN108021712 B CN 108021712B CN 201711464797 A CN201711464797 A CN 201711464797A CN 108021712 B CN108021712 B CN 108021712B
Authority
CN
China
Prior art keywords
gram
gram model
establishing
word
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711464797.0A
Other languages
English (en)
Other versions
CN108021712A (zh
Inventor
邓晓衡
吴佳祺
漆华妹
陈凌驰
黄戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201711464797.0A priority Critical patent/CN108021712B/zh
Publication of CN108021712A publication Critical patent/CN108021712A/zh
Application granted granted Critical
Publication of CN108021712B publication Critical patent/CN108021712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种N‑Gram模型的建立方法,包括获取原始语料;对原始语料进行分词;对分词结果进行单词统计;对N‑Gram模型进行平滑处理,得到最终的N‑Gram模型。本发明方法通过建立Witten‑Bell平滑对N‑Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。

Description

N-Gram模型的建立方法
技术领域
本发明具体涉及一种N-Gram模型的建立方法。
背景技术
随着国家经济技术的发展和人们生活水平的提高,自然语言处理技术也已经得到了长足的发展。
自然语言处理技术的产生可以追溯到20世纪50年代,它是一门集语言学、数学、计算机科学和认知科学等于一体的综合性交叉学科。随着文字和语音数据规模的不断增加,人们迫切需要实用的自然语言处理技术来帮助人们打破语言屏障,便于交流和沟通。与此同时,随着我国综合国力日益强大,中文信息处理在近几年来愈发收到广泛关注。汉语作为全世界使用量第一多的通用语言,其语言结构具有自身独特性。
现阶段有许多基于统计语言模型的工具,最典型的平台有IRSTLM和SRILM。SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。更确切的说,SRILM并不是因为机器学习而诞生的。它主要是为语音识别而开发的,用来构建和应用统计语言模型,用于语音识别,统计标注和切分以及机器翻译。SRILM最核心,最重要的模块是n-gram模块,被用来计算语言模型的困惑度。IRSTLM是意大利Trento FBK-IRST实验室开发的语言模型训练工具包,其开发的目的是处理较大规模的训练数据,譬如Google提供给LDC的训练好的语言模型是在海量单语语料库(8trillion-word texts)的基础上训练的。在大规模语言模型的训练和使用上,IRSTLM较SRILM有较大的优势,其内存消耗仅是SRILM的一半。
N-Gram模型是大词汇连续语音识别中常用的一种统计语言模型,利用上下文中相邻词间的搭配信息,统计词频,计算出具有最大概率的句子(文本纠错),或者进行文本拼写检查。N-gram基于马尔科夫假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。在拼写检查的应用中,N-gram模型由于存在数据的稀疏性,需要加上平滑算法才能表现出良好的效果。
平滑技术(smoothing)是用来解决这类零概率问题的。其基本思想可以形象的比喻为“劫富济贫”,即提高低概率或零概率,降低高概率,使统计语言模型可求。其中,有回退(backoff)和插值(interpolate)两种方法来实现平滑。
与此同时,随着网络文本数据的不断增加,模型训练需要的语料规模也在不断扩大。通常在单节点模式下,训练一次模型需要几小时到十几小时不等。开源工具包Srilm和IRSTLM以C++作为开发语言,其N-Gram模型的建立流程已经非常完善,且速度表现也较好。但是,在面对大数据量或者海量数据的情况下,该模型的拓展性不强,严重制约了该模型的应用。
发明内容
本发明的目的在于提供一种在海量数据中拓展性也较强,而且查询速度较快的N-Gram模型的建立方法。
本发明提供的这种N-Gram模型的建立方法,包括如下步骤:
S1.获取原始语料;
S2.对步骤S1获取的原始语料进行分词;
S3.对步骤S2得到的分词结果进行词频统计;
S4.对N-Gram模型进行平滑处理,从而得到最终的N-Gram模型。
步骤S1所述的获取原始语料,具体为通过python爬虫在互联网上进行文本信息的查找,从而获取原始语料。
步骤S2所述的分词,具体为采用dict字典文件进行分词。
步骤S3所述的单词统计,具体为采用Spark RDD编程进行原始语料的词频统计。
步骤S4所述的平滑处理,为采用基于Witten-Bell平滑的平滑处理。
所述的基于Witten-Bell平滑的平滑处理,具体为采用如下步骤进行处理:
A.采用如下公式计算条件概率和回退率:
若为一元文法数,则:
条件概率
Figure BDA0001530983750000031
回退率
Figure BDA0001530983750000032
若为n元文法数,则:
条件概率
Figure BDA0001530983750000033
回退率
Figure BDA0001530983750000034
B.采用步骤A得到的条件概率和回退率,构建平滑后最终的N-Gram模型。
步骤S4所述的对N-Gram模型进行平滑处理,具体为采用分布式平台对每一个文法数的条件概率和回退率进行计算,从而提高数据处理的效率。
所述的N-Gram模型的建立方法,还包括如下步骤:
S5.利用Hbase数据库存储每一个文法数的条件概率和回退率,从而提高N-Gram模型在应用时的数据读取效率。
本发明提供的这种N-Gram模型的建立方法,通过建立Witten-Bell平滑对N-Gram模型进行平滑,同时采用分布式平台计算建模过程中的参数,并采用Hbase数据库对计算的参数进行存储和读取,因此本发明方法在应对海量训练语料的情况下,其拓展性非常好,而且方法的建模速度和查询速度均较快。
附图说明
图1为本发明方法的方法流程图。
图2为本发明方法的分词及统计结果文件示意图。
图3为本发明方法在Size-up中的仿真实验效果图。
图4为本发明方法在Scale-up中的仿真实验效果图。
具体实施方式
如图1所示为本发明方法的方法流程图:本发明提供的这种N-Gram模型的建立方法,包括如下步骤:
S1.通过python爬虫在互联网上进行文本信息的查找,获取原始语料;
S2.采用dict文件等类似工具,对步骤S1获取的原始语料进行分词;完成之后,文本中每一句话的中文词汇都被下划线所分隔开;
S3.采用Spark RDD编程对步骤S2得到的分词结果进行单词统计;其结果如图2所示:每一行都是分词之后的一个ngram句子(最大为5-gram)。例如(你_看,1)是一个2-gram,括号中的文字被称为2元文法数(2-gram),后半部分的1代表该2元文法数在所有文本信息里统计出来的词频;
S4.对N-Gram模型进行平滑处理,从而得到最终的N-Gram模型;采用基于Witten-Bell平滑的平滑处理,具体包括如下步骤:
A.采用如下公式计算条件概率和回退率:
若为一元文法数,则:
条件概率
Figure BDA0001530983750000051
回退率
Figure BDA0001530983750000052
若为n元文法数,则:
条件概率
Figure BDA0001530983750000053
回退率
Figure BDA0001530983750000054
式中c(w1)为一元文法数的单词词频;c(*)为语料所有一元文法数的词频总和;n(w1)为一元文法数的后接单词分支数;
Figure BDA0001530983750000055
为n元文法数(wi-n+1wi-n+2..wi)的频数;
Figure BDA0001530983750000056
为n-1元文法数(wi-n+1wi-n+2..wi-1)的频数;
Figure BDA0001530983750000057
为n元文法数(wi-n+1wi-n+ 2..wi)的后接单词分支数;
Figure BDA0001530983750000058
为n-1元文法数(wi-n+1wi-n+2..wi-1)的后接单词分支数。
B.采用步骤A得到的条件概率和回退率,构建平滑后最终的N-Gram模型;
在步骤A的计算过程中,可以采用分布式平台对每一个文法数的条件概率和回退率进行计算,从而提高数据处理的效率;
S5.利用Hbase数据库存储每一个文法数的条件概率和回退率,从而提高N-Gram模型在应用时的数据读取效率。Hbase的表结构为单列簇,设名称为WB_para。其中单列簇有两列,分别存储条件概率和回退率。Rowkey为1~n文法数。同时在写入Hbase时使用bulkload写入机制,进一步提高写入速度。Bulkload作为一种海量数据导入hbase的方式,不同于传统方式,比如TableOutputFormat形式。Bulkload使用keyvalue方法将RDD转换成hbase表数据形式,保存为HFile,并最终load到hbase中进行存储并使用。
在具体实施时,在只考虑5-Gram及以下的情况时,去具体实施方式如下:
S1.首先爬虫找互联网中海量文本信息,并存储在HDFS上;
S2.通过dict文件做分词。完成对文本信息中语句的划分。完成之后,文本中每一句话的中文词汇都被下划线所分隔开。如附图2中的(你_看,1),这就是一个2-gram;
S3.在分词之后,通过RDD编程完成分布式的wordcount步骤(词频统计)。如附图2所示。每一行都是一个分词之后的ngram句子(最大为5-gram)。例如(你_看,1)是一个2-gram,括号中的文字被称为2元文法数,后半部分的1代表该2元文法数在所有文本信息里统计出来的词频;
S4.求得分词后每一个文法数的条件概率和回退率,这也是Witten-Bell平滑算法的两个关键参数。本发明采用RDD编程完成分布式模型构建。其算法步骤如下。
S4.1算法输入数据为wordcount词频统计后的文本数据,存储在HDFS上。我们将1~5-gram和2~5-gram分开存储在两个文本文件中;
S4.2初始化sparkcontext,分布读取1~5-gram和2~5-gram的两个文本文件,并将两个文本文件的数据转化为tuple元组,分别转化为新的RDD1和RDD2;
S4.3 2~5-gram的RDD2做combineByKey操作,目的是将具有相同父文法数的文法数整合在一起,记为list。再计算list的长度,存入tuple,记为RDD3。这个长度数据就是每个文法数后接不同单词的数目(分支数)。5-gram作为最长文法数,分支数为0;
S4.4,将词频的RDD1和RDD3做map整合成新的RDD4,RDD4的tuple为(文法数,词频,分支数)。计算每个文法数的条件概率和回退率,形成新的RDD5。
S5.将RDD5做排序,使用bulkload方式将每个文法数的条件概率和回退率存入Hbase。
为了能够更直白的说明本发明方法的优势,下面结合实例和实验结果图进行说明:
Wordcount词频统计后,得到1~5-gram文法数词频文本文件。比如(b,2),(a_b,2),(b_a_b_a_c,1)等等。同时生成一个2~5-gram文法数词频的文本文件。
初始化RDD,1~5-gram文本文件初始化为RDD1,2~5-gram文本文件初始化为RDD2,RDD2做map操作转换为RDD3,每一个元素为(父文法数,文法数)。比如(b_a_b,1)变为(b_a,b_a_b),将RDD3做combineByKey得到(父文法数,list(文法数)),比如(b_a,list(b_a_b,b_a_c))。计算list长度,最终RDD3的tuple转变为(父文法数,分支数),比如(b_a,2)。将RDD1和此时的RDD3整合为RDD4,RDD4的每一个元素为(文法数,词频,分支数),比如(b_a,2,2)。
利用下述平滑公式,分别计算1-gram文法数和2~5-gram文法数的条件概率和回退率。
unigram(一元文法数):
Figure BDA0001530983750000071
其中c(*)为一元文法数的总个数。
N-gram(n元文法数):
Figure BDA0001530983750000081
其中c(w1)为一元文法数的单词词频;c(*)为语料所有一元文法数的词频总和;n(w1)为一元文法数的后接单词分支数;
Figure BDA0001530983750000082
为n元文法数(wi-n+1wi-n+2..wi)的频数;
Figure BDA0001530983750000083
为n-1元文法数(wi-n+1wi-n+2..wi-1)的频数;
Figure BDA0001530983750000084
为n元文法数(wi-n+1wi-n+ 2..wi)的后接单词分支数;
Figure BDA0001530983750000085
为n-1元文法数(wi-n+1wi-n+2..wi-1)的后接单词分支数;
计算结果取对数,将结果采用bulkload方式写入Hbase做存储。
本方案对基于Witten-Bell平滑的ngram模型的构建,可以达到和自然语言处理工具IRSTLM相同的结果。并且,当文本数据量非常大时,在分布式环境的前提下,本方案拓展性非常好。实验环境的分布式平台由四个节点组成,总内存大小为128G,每个节点都搭配4核处理器。输入数据为6G原始语料,经过wordcount词频统计后增大为35G。实验结果如附图3和附图4所示。
图3为Size-up比较实验。Size-up实验主要比较的是,在各节点相同内存下,不同大小数据集,作业的效率。从附图中可以看出,首先分布式多节点的环境下,本方案相较于单节点环境效率提高明显。
图4为Scale-up比较实验。Scale-up公式定义为:f=T1/Tn,T1为一个节点,Tn为2~4个节点,用于比较集群的拓展性。从附图中可以看出,分布式环境中,随着节点的增多,集群的拓展性较好。比如,相较于单节点,两个节点的分布式环境实验运行时间减少了1.7倍到2倍之间,四个节点的分布式环境相较于单节点运行时间减少了3.2倍到4倍之间。

Claims (6)

1.一种N-Gram模型的建立方法,包括如下步骤:
S1.获取原始语料;
S2.对步骤S1获取的原始语料进行分词;
S3.对步骤S2得到的分词结果进行单词统计;
S4.对N-Gram模型进行平滑处理,从而得到最终的N-Gram模型;采用基于Witten-Bell平滑的平滑处理;具体为采用如下步骤进行处理:
A.采用如下公式计算条件概率和回退率:
若为一元文法数,则:
条件概率
Figure FDA0003379443420000011
回退率
Figure FDA0003379443420000012
若为n元文法数,则:
条件概率
Figure FDA0003379443420000013
回退率
Figure FDA0003379443420000014
式中c(w1)为一元文法数的单词词频;c(*)为语料所有一元文法数的词频总和;n(w1)为一元文法数的后接单词分支数;
Figure FDA0003379443420000015
为n元文法数(wi-n+1wi-n+2..wi)的频数;
Figure FDA0003379443420000016
为n-1元文法数(wi-n+1wi-n+2..wi-1)的频数;
Figure FDA0003379443420000017
为n元文法数(wi-n+1wi-n+2..wi)的后接单词分支数;
Figure FDA0003379443420000018
为n-1元文法数(wi-n+1wi-n+2..wi-1)的后接单词分支数;
B.采用步骤A得到的条件概率和回退率,构建平滑后最终的N-Gram模型。
2.根据权利要求1所述的N-Gram模型的建立方法,其特征在于步骤S1所述的获取原始语料,具体为通过python爬虫在互联网上进行文本信息的查找,从而获取原始语料。
3.根据权利要求1所述的N-Gram模型的建立方法,其特征在于步骤S2所述的分词,具体为采用dict字典文件进行分词。
4.根据权利要求1所述的N-Gram模型的建立方法,其特征在于步骤S3所述的单词统计,具体为采用Spark RDD编程进行原始语料的词频统计。
5.根据权利要求4所述的N-Gram模型的建立方法,其特征在于步骤S4所述的对N-Gram模型进行平滑处理,具体为采用分布式平台对每一个文法数的条件概率和回退率进行计算,从而提高数据处理的效率。
6.根据权利要求5所述的N-Gram模型的建立方法,其特征在于所述的N-Gram模型的建立方法,还包括如下步骤:
S5.利用Hbase数据库存储每一个文法数的条件概率和回退率,从而提高N-Gram模型在应用时的数据读取效率。
CN201711464797.0A 2017-12-28 2017-12-28 N-Gram模型的建立方法 Active CN108021712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711464797.0A CN108021712B (zh) 2017-12-28 2017-12-28 N-Gram模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711464797.0A CN108021712B (zh) 2017-12-28 2017-12-28 N-Gram模型的建立方法

Publications (2)

Publication Number Publication Date
CN108021712A CN108021712A (zh) 2018-05-11
CN108021712B true CN108021712B (zh) 2021-12-31

Family

ID=62072073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711464797.0A Active CN108021712B (zh) 2017-12-28 2017-12-28 N-Gram模型的建立方法

Country Status (1)

Country Link
CN (1) CN108021712B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705217B (zh) * 2019-09-09 2023-07-21 上海斑马来拉物流科技有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106257441A (zh) * 2016-06-30 2016-12-28 电子科技大学 一种基于词频的skip语言模型的训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774197B1 (en) * 2006-09-27 2010-08-10 Raytheon Bbn Technologies Corp. Modular approach to building large language models
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103514230B (zh) * 2012-06-29 2018-06-05 北京百度网讯科技有限公司 一种用于根据语料序列训练语言模型的方法与设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106257441A (zh) * 2016-06-30 2016-12-28 电子科技大学 一种基于词频的skip语言模型的训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于N-gram语言模型的汉字识别后处理研究;董广宇等;《微计算机信息》;20090405(第10期);第282-284页 *
统计自然语言处理中的线性插值平滑技术;张敬芝等;《计算机科学》;20070625(第06期);第223-225页 *

Also Published As

Publication number Publication date
CN108021712A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
Duan et al. Online spelling correction for query completion
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
US7991615B2 (en) Grapheme-to-phoneme conversion using acoustic data
Rosenfeld Adaptive statistical language modeling: A maximum entropy approach
Bod An all-subtrees approach to unsupervised parsing
Casacuberta et al. Some approaches to statistical and finite-state speech-to-speech translation
US9110980B2 (en) Searching and matching of data
US20120179694A1 (en) Method and system for enhancing a search request
TW201717070A (zh) 基於統計的機器翻譯方法、裝置及電子設備
KR20100135757A (ko) 언어-내 통계적 머신 번역
Sak et al. Morpholexical and discriminative language models for Turkish automatic speech recognition
Schwartz et al. Neural polysynthetic language modelling
Walter et al. Unsupervised word discovery from phonetic input using nested pitman-yor language modeling
Ostrogonac et al. Morphology-based vs unsupervised word clustering for training language models for Serbian
Fang et al. Exponential language modeling using morphological features and multi-task learning
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
CN108021712B (zh) N-Gram模型的建立方法
Manishina Data-driven natural language generation using statistical machine translation and discriminative learning
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
Asnani et al. Sentence completion using text prediction systems
Habeeb et al. Three N-grams Based Language Model for Auto-correction of Speech Recognition Errors
Sas et al. Pipelined language model construction for Polish speech recognition
Bhatia et al. Predictive and corrective text input for desktop editor using n-grams and suffix trees
Damdoo et al. Probabilistic N-gram language model for SMS Lingo
Lehnen et al. N-grams for conditional random fields or a failure-transition (ϕ) posterior for acyclic FSTs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant