CN109934251A

CN109934251A - 一种用于小语种文本识别的方法、识别系统及存储介质

Info

Publication number: CN109934251A
Application number: CN201811615581.4A
Authority: CN
Inventors: 李高翔; 周小敏; 石易; 鲍青波; 黄彦龙; 宋宜昌; 周晓阳; 林建树; 林佳涛; 周神保
Original assignee: Guangzhou Branch Center Of National Computer Network And Information Security Management Center; Beijing Topsec Network Security Technology Co Ltd
Current assignee: Guangzhou Branch Center Of National Computer Network And Information Security Management Center; Beijing Topsec Network Security Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-06-25
Anticipated expiration: 2038-12-27
Also published as: CN109934251B

Abstract

本发明涉及一种用于小语种文本识别的方法，包括以下步骤：S1.构建来源于不同语种的训练文本集；S2.对训练文本集中的文本进行基于字节的N‑gramrank特征的提取；S3.对训练文本集中的文本进行基于互信息的度量特征的提取，即计算文本中的所有信息字节在单个语种中的信息度量；S4.对训练文本集中的文本进行基于转移概率的概率特征的提取，即计算文本中所有相邻字节能在单个语种中表达完整信息的概率；S5.利用步骤S2～S4提取的特征训练分类器；S6.对待识别的文本按照步骤S2～S4进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出语种识别结果。

Description

一种用于小语种文本识别的方法、识别系统及存储介质

技术领域

本发明涉及机器学习技术领域，更具体地，涉及一种用于小语种文本识别的方法、识别系统及存储介质。

背景技术

当前移动互联网快速发展,数据量急剧增加,每天产生大量的文本日志信息。如何在海量的数据中分析出有价值的信息是越来越受关注的课题。本发明从语种识别的角度入手，从大量的文本数据中识别出语种信息，分析得到群体属性。

语种识别或语种监测本质上是对信息数据进行文本处理的过程，而在数据文本中包含中文、英文、日文等多个语种时，有时候不能同时进行处理，此时需要判断其具体包含的语种类别。

目前对于常见语种如中文、英文、日文、法文等使用人数较多的语种研究较多，许多成熟的分词器或自然语言处理算法都有针对性的研究。然而对于小语种(小语种是相对英语这类应用面很广用者甚众的外语而言，只在少数国家或少数民族应用的外语语种-维基百科解释：https://zh.wikipedia.org/wiki/％E5％B0％8F％E8％AF％AD％E7％A7％8D)的研究识别不多。

发明内容

本发明为解决现有技术无法有效地进行小语种识别的技术缺陷，提供了一种用于小语种文本识别的方法。

为实现以上发明目的，采用的技术方案是：

一种用于小语种文本识别的方法，包括以下步骤：

S1.构建来源于不同语种的训练文本集，令来源于其中一种语种的文本为正样本，来源于其余的语种的文本为负样本；

S2.对训练文本集中的文本进行基于字节的N-gram rank特征的提取；

S3.对训练文本集中的文本进行基于互信息的度量特征的提取，即计算文本中的所有信息字节在单个语种中的信息度量；

S4.对训练文本集中的文本进行基于转移概率的概率特征的提取，即计算文本中所有相邻字节能在单个语种中表达完整信息的概率；

S5.利用步骤S2～S4提取的特征训练分类器；

S6.对待识别的文本按照步骤S2～S4进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出语种识别结果。

优选地，所述步骤S2中，进行基于字节的N-gram rank特征的提取的具体步骤如下：

S21.设文本包括字节B₁B₂B₃…B_n，对字节B₁B₂B₃…B_n分别进行基于1-Gram、Bi-Gram、Tri-Gram的字节级分词处理；

S22.对字节B₁B₂B₃…B_n分词后的结果进行统计计数，将各计数按照从大到小进行排序，排名最前的编号为1，并记rank为1；随后的编号为2，并记rank为2；依此向下编号；

S23.计算文本的排名特征：

F_N-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)

其中，N＝1,2,3，分别对应于1-Gram、Bi-Gram和Tri-Gram，则文本最后得到3个特征：F_1-gram-rank(S)、F_2-gram-rank(S)、F_3-gram-rank(S)。

优选地，所述步骤S3进行基于互信息的度量特征的提取的具体步骤如下：

令B_iB_i+1为相邻的两个分词字节，则度量特征的计算过程如下：

S31.计算p(B_i)＝c(B_i)/N，p(B_i+1)＝c(B_i+1)/N，p(B_iB_i+1)＝c(B_iB_i+1)/N；

其中N为总的分词字节次数，c(B_i)为B_i在文本中单独出现的次数，p(B_i)为分词字节B_i在文本中单独出现的概率；

p(B_iB_i+1)为B_iB_i+1在文本中同时出现的概率，c(B_iB_i+1)为B_iB_i+1同时出现的次数；

S32.计算相邻字节B_iB_i+1的互信息：

S33.计算文本的互信息：

I(S)＝I(begin,B₁)+I(B₁,B₂)+I(B₂,B₃)+…+I(B_n-1,B_n)；

其中，begin表示之后的字符是全句或全文章的首字符，之前无其它字符。

优选地，所述步骤S4进行基于转移概率的概率特征的提取的具体步骤如下：

S41.计算p(B_i)＝c(B_i)/N，p(B_iB_i+1)＝c(B_iB_i+1)/N；

S42.计算相邻字节Bi,Bi+1的转移概率：

S43.计算文本的联合转移概率：

P_trans(s)＝P(B₁|begin)P(B₂|B₁)…P(B_n|B_n-1)。

优选地，所述步骤S6中，分类器识别待识别的文本语种的具体步骤如下：

S61.设x＝{a₁,a₂,a₃,…,a_m}为提取N-gram rank特征、度量特征、概率特征后形成的特征集合，a_i表示其中的一个特征；

S62.设待识别的文本可能来源的语种包括：y₁,y₂,y₃,…,y_k,k表示待识别的文本可能来源的语种数量；计算在N-gram rank特征、度量特征、概率特征的情况下，待识别的文本来源于某个语种的概率，即p(y₁|x),p(y₂|x),p(y₃|x),…,p(y_k|x)；

S63.若p(y_i|x)＝max{p(y₂|x),p(y₃|x),…,p(y_k|x)}，则x∈y_i，即待识别的文本来源于第i个语种，分类器选择y_i作为其识别的语种类别。

优选地，所述分类器为朴素贝叶斯模型。

优选地，所述构建完训练文本集后，对训练文本集进行数据清洗、去重操作。

同时，本发明还提供了一种小语种识别系统，其应用上述方法，具体内容如下：

包括用于执行步骤S1的训练文本集构建模块、用于执行步骤S2～S4的特征提取模块、用于执行步骤S5的分类器训练模块及分类器。

优选地，所述特征提取模块包括用于执行步骤S2的第一特征提取模块、用于执行步骤S3的第二特征提取模块和用于执行步骤S4的第三特征提取模块。

同时，本发明还提供了一种存储介质，其内部存储有计算机程序，上述计算机程序运行时执行以上方法步骤。

与现有技术相比，本发明的有益效果是：

本发明提供的方法通过提取训练文本的基于字节的N-gram rank特征、基于互信息的度量特征及基于转移概率的概率特征训练分类器，然后利用训练好的分类器对待识别的文本进行语种识别。本发明提供的方法通过提取文本中的辨别率高的特征作为分类的依据，从而使得应用本发明提供的方法后能够准确地对小语种进行识别。实验证明，本发明提供的方法能够有效地识别文本中的小语种。

附图说明

图1为本发明提供的方法的整体技术架构。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，本发明提供的方法的整体技术架构如下：

一、构建训练文本集

训练文本来自于维基百科上对应的语种数据集，选择其中一种作为正样本，并选择其它相关语种的数据集作为负样本，正负样本的比例为1：1。以维吾尔语(ISO 639-1ug)为例，从训练集中提取100万条维语文本作为正样本，在其相近语系如阿拉伯语、土耳其语提取80万条文本，同时随机选择其它语系的文本20万条共同作为负样本。正样本、负样本构成训练文本集。

二、数据预处理

原始训练数据往往包含较多错误数据或冗余信息，因此对原始数据作了数据清洗，去重等操作，包括去掉部分乱码数据及语种混乱数据，避免影响最后的识别效果。

三、特征提取

1)N-Gram特征

N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子S是由序列w₁,w₂,w₃,...w_n组成，用公式表示N-Gram语言模型如下：

P(S)＝p(w₁)p(w₂|w₁)p(w₃|w₁w₂)…p(w_n|w₁w₂w₃…w_n-1)

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。其中Bi-Gram即假设第n个词只与其前一个即第n-1个词有关的，Bi-Gram公式为：

P(S_Bi-Gram)＝p(w₁|begin)p(w₂|w₁)p(w₃|w₂)…p(w_n|w_n-1)

而Tri-Gram即假设第n个词只与前两个即第n-1个和第n-2词有关，Tri-Gram公式为：

P(S_Tri-Gram)

＝p(w₁|begin1,begin2)p(w₂|w₁,begin1)p(w₃|w₁w₂)…p(w_n|w_n-1w_n-2)

其中，begin1和begin2表示之后的字符是全句或全文章的首字符，之前无其它字符。

本发明利用此原理，提取N-gram的分词特征，并针对语种特性作了如下特殊处理：

其一是将句子不以词为序列构成，而看成是以字节构成，这样避免了对多种语种分词效果或算法的依赖性，分词效果将更加公平。具体地，假设文本是以字节B₁B₂B₃…B_n构成，则上面的Bi-Gram公式就可改写为：

P(S_Bi-Gram-Byte)＝p(B₁|begin)p(B₂|B₁)p(B₃|B₂)…p(B_n|B_n-1)

以此为依据对文本进行字节级的分词。

其二是针对分词后的rank特征处理，在进行分词之后，传统的提取相关特征的方法是以单个语种为基础，对此语种包含的所有可能的分词作向量展开，最后以出现位置打上标志或计数。以单个语种为例，若待分类的语种共K类，假设第i个语种的可能的分词数量为m_i，则最后仅单此一项N-gram的特征维数将是：

L_N-gram(S)＝m₁+m₂+…+m_i+…+m_K

其中m_i的大小通常为数千至数万，这将造成维度灾难，因此本发明采取特殊的rank特征处理，具体地，以每个语种为单位进行下列运算：

①利用训练数据将字节分词进行统计计数

②将各计数进行从大到小排序，排名最前的编号为1，并记rank为1，随后为2，依此向下编号；

③计算句子文本的排名特征，设文本S由B₁B₂B₃…B_n构成，计算

F_N-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)

以F_N-gram-rank(S)作为计算得到的特征，本专利中选取N＝1,2,3，分别对应1-gram,Bi-Gram,Tri-Gram，则最后每个句子可得到3个特征，即

F_1-gram-rank(S),F_2-gram-rank(S),F_3-gram-rank(S)。

因此最后N-gram的特征维数为L_N-gram-rank(S)＝3*K，相较于传统针对N-gram分词的特征处理而言，本专利方法使得特征维度大大降低，且没有损失任何字节信息。

2)互信息

互信息(Mutual Information，缩写为MI)，表示两个变量X与Y是否有关系，以及关系的强弱。两个离散随机变量X和Y的互信息可以定义为：

其中p(x,y)是X和Y的联合概率分布函数，而p(x)和p(y)分别是X和Y的边缘概率分布函数。参考维基百科的解释，互信息度量X和Y共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果X和Y相互独立，则知道X不对Y提供任何信息，反之亦然，所以它们的互信息为零。

若以语种对应的训练数据为一信息变量X，以待识别的文本数据为另一信息变量Y，则互信息可以度量其共享的信息的多少，显然若计算得到的互信息越大，其越是对应的语种的可能性也越大。具体计算过程如下：

假设文本S＝B₁B₂B₃…B_n,其中B_iB_i+1为相邻的两个分词字节，p(B_iB_i+1)为B_iB_i+1同时出现的概率，在实际操作时可取同时出现的次数除以总次数得到，即若在单个语种训练数据中，其分词字节总次数为N，B_iB_i+1同时出现的次数为c(B_iB_i+1),B_i单独出现的次数计为c(B_i)，p(B_i)为分词字节B_i在训练数据中单独出现的概率。互信息特征具体计算过程如下：

①计算p(B_i)＝c(B_i)/N，p(B_i+1)＝c(B_i+1)/N，p(B_iB_i+1)＝c(B_iB_i+1)/N

②计算相邻字节B_iB_i+1的互信息：

I(B_iB_i+1)值越大则表明字节对B_iB_i+1在对应的语种中可信度越大，归属于此语种的可能性越大

③计算整个句子S所表达的互信息

I(S)＝I(begin,B₁)+I(B₁,B₂)+I(B₂,B₃)+…+I(B_n-1,B_n)

以I(S)作为句子S在单个语种中提取的互信息特征，若待分类的语种个数为K，则在每个语种中都可计算得到一个互信息特征，最后互信息特征维数为L_MI(S)＝K。

3)转移概率

参考维基百科的解释，转移概率是马尔可夫链中的概念，马尔可夫链是指数学中具有马尔可夫性质的离散事件随机过程。该过程中，在给定当前知识或信息的情况下，过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。在马尔可夫链的每一步，系统根据概率分布，可以从一个状态转换到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态转换相关的概率叫做转移概率。

设{X_n,n≥0}为离散时间马尔可夫链，对任何m≥0,n≥1,令

P_ij(m,m+m)＝P{X_m+n＝j|X_m＝i}

称P_ij(m,m+n)为链在m时在i状态，再经过n步转移到j状态的概率，称为n步转移概率，特别地，当n＝1时，为一步转移概率。

在一个文本句子中，其中出现的词在表达一个完整语义的情况下，是有一定书写习惯的。考虑在某一语种环境下，相邻两个单词出现即前一个词的状态经过一步书写出现下一个词的状态的概率是可以计算的，这可以通过训练数据训练得到。对于整个文本句子，其在每个语种中计算得到的转移概率分布是有差异的，此特征即是提取其在书写过程状态的差异性。

假设文本S＝B₁B₂B₃…B_n,其中B_iB_i+1为相邻的两个分词字节，p(B_i+1|B_i)为上一个字节为B_i,下一个直接为B_i+1时的条件概率。在实际操作中，可取同时出现的次数除以B_i单独出现的次数得到，即若在单个语种训练数据中,B_iB_i+1同时出现的次数为c(B_iB_i+1),B_i单独出现的次数计为c(B_i)，p(B_i)为分词字节B_i在训练数据中单独出现的概率。转移概率具体计算过程如下：

①计算p(B_i)＝c(B_i)/N，p(B_iB_i+1)＝c(B_iB_i+1)/N

②计算相邻字节Bi,Bi+1的转移概率：

p(B_i+1|B_i)值越大，则表明字节对B_iB_i+1在对应的语种的常规书写模式下出现的概率较高，可信度越大，归属于此语种的可能性越大。

③计算整个句子S的联合转移概率P_trans(s)

P_trans(s)＝P(B₁|begin)P(B₂|B₁)…P(B_n|B_n-1)

以P_trans(s)作为句子S在单个语种中提取的联合转移概率，若待分类的语种个数为K，则在每个语种中都可计算得到一个转移概率特征，最后转移概率特征维数同样为L_trans(S)＝K。

特别说明的是，在计算P_trans(s)时由于是转移概率的乘积，而单个字节对出现的频次在总次数会比较小，这样计算得到的转移概率是很小的一个数，这时可对最终的P_trans(s)做一个转换，乘以一个较大的乘数，由于其反应的是在多个语种的表现，最终计算的P_trans(s)在真实对应语种中的值和其它语种中的值将是数量级的差别。因此，这样的转换是合理的，不会改变其数量级的差别关系。

四、分类器

本实施例以朴素贝叶斯模型为例进行小语种分类。朴素贝叶斯模型是由贝叶斯定理定义出的分类模型,贝叶斯定理解决的问题是：在已知某条件概率的情况下，如何得到两个事件交换后的概率，即在已知P(A|B)的情况下如何求得P(B|A)。这里的P(A|B)表示事件B已经发生的前提下，事件A发生的概率，P(B|A)表示事件B发生下事件A的条件概率，其计算求解公式为P(A|B)＝P(AB)/P(B)，其中P(AB)表示事件A，B同时发生的概率。在针对文本的语种识别的领域：较容易通过先验知识估计得到P(A|B)，即在知道对应语种的情况下，计算得到此文本中各字节产生此文本句子的概率，这可以由语种中各词频近似计算得到。而P(B|A)则很难直接得出，即在有文本句子时，推测其是来源于何小语种，则往往比较难，本发明利用贝叶斯定理的计算公式进行计算。

朴素贝叶斯分类算法的一般过程是：对于给出的待分类项，求解在此项出现的条件下各个类别出现的条件概率，选择条件概率最大的对应类别作为其分类类别。结合前文提取的三大类特征(N-gram-rank特征，互信息特征，转移概率特征)，朴素贝叶斯分类算法在针对小语种识别的过程如下：

1、设x＝{a₁,a₂,a₃,…,a_m}为提取三大类特征后的训练集合，每个a_i为其中一个对应的特征属性，总共m＝L_N-gram-rank(S)+L_MI(S)+L_trans(S)个特征。

2、所有类别集合C＝{y₁,y₂,y₃,…,y_k}，分别表示语种1，语种2，语种3，…语种k。

3、分别计算在各大类特征情况下，其来源于某个语种的概率，即p(y₁|x),p(y₂|x),p(y₃|x),…,p(y_k|x)。

4、如果p(y_i|x)＝max{p(y₂|x),p(y₃|x),…,p(y_k|x)}，则x∈y_i，即来源于第i个小语种，选择y_i作为其识别的语种类别。

以上过程的关键在于，如何计算第3步中的各个条件概率。其详细步骤如下：

1、基于语训练文本数据计算其在三大类特征中的所有特征数据。

2、统计在各待识别的语种类别下各个特征属性的条件概率估计，假设最终计算得到的语种特征数据为x＝{a₁,a₂,a₃,…,a_m}，待识别的语种类别为C＝{y₁,y₂,y₃,…,y_k}。则需计算

p(a₁|y₁),p(a₂|y₁),…,p(a_m|y₁)；p(a₁|y₂),p(a₂|y₂),…,p(a_m|y₂)；…；p(a₁|y_k),p(a₂|y_k),…,p(a_m|y_k)

3、由于在计算三大类特征时，每个特征维度是在所有语种类别中单独计算得到，是互不影响的，因此可以假设各特征属性是相互独立的。在此假设条件下，根据以上贝叶斯定理的计算公式，可计算得到：

其中分母对于所有语种类别来说是同样的值，可以忽略。因此只需计算分子的最大值就可得到最大的语种概率。在假设各特征属性相互独立的情况下，可以得到：

最后转化为计算其所有特征属性在对应语种条件下的出现概率的乘积，计算所有概率取最大值则是最终识别的语种。

五、实验效果

本实施例以维基百科的语料作为训练集，请专业人员标注的小语种文章和短语为测试集，经过训练过程中的参数优化及交叉验证，最终朴素贝叶斯分类算法的测试集效果表现如下：

	召回率(Recall)	精确率(Precision)	准确率(Accuarcy)
				朴素贝叶斯模型	84.3％	95.2％	90.6％

如上表,分类模型的精确率较高,具有较强的排它性，特别是针对相近语系的不同语种的干扰能较准确地区分出来。

实施例2

本实施例提供了一种小语种识别系统，该系统应用实施例1的方法内容，该系统包括训练文本集构建模块、用于提取基于字节的N-gram rank特征、基于互信息的度量特征、基于转移概率的概率特征的特征提取模块、用于训练分类器的分类器训练模块及分类器。

本实施例中，特征提取模块包括用于提取基于字节的N-gram rank特征的第一特征提取模块、用于提取基于互信息的度量特征的第二特征提取模块和用于提取基于转移概率的概率特征的第三特征提取模块。

同时，本实施例还提供了一种存储介质，其内部存储有计算机程序，上述计算机程序运行时执行实施例1的方法步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用于小语种文本识别的方法，其特征在于：包括以下步骤：

S5.利用步骤S2～S4提取的特征训练分类器；

2.根据权利要求1所述的用于小语种文本识别的方法，其特征在于：所述步骤S2中，进行基于字节的N-gram rank特征的提取的具体步骤如下：

S23.计算文本的排名特征：

F_N-gram-rank(S)＝rank(B₁)+rank(B₂)+rank(B₃)+…+rank(B_n)

3.根据权利要求2所述的用于小语种文本识别的方法，其特征在于：所述步骤S3进行基于互信息的度量特征的提取的具体步骤如下：

S32.计算相邻字节B_iB_i+1的互信息：

S33.计算文本的互信息：

I(S)＝I(begin,B₁)+I(B₁,B₂)+I(B₂,B₃)+…+I(B_n-1,B_n)；

4.根据权利要求3所述的用于小语种文本识别的方法，其特征在于：所述步骤S4进行基于转移概率的概率特征的提取的具体步骤如下：

S41.计算p(B_i)＝c(B_i)/N，p(B_iB_i+1)＝c(B_iB_i+1)/N；

S42.计算相邻字节Bi,Bi+1的转移概率：

S4.计算文本的联合转移概率：

P_trans(s)＝P(B₁|begin)P(B₂|B₁)…P(B_n|B_n-1)。

5.根据权利要求1～4任一项所述的用于小语种文本识别的方法，其特征在于：所述步骤S6中，分类器识别待识别的文本语种的具体步骤如下：

6.根据权利要求5所述的用于小语种文本识别的方法，其特征在于：所述分类器为朴素贝叶斯模型。

7.根据权利要求5所述的用于小语种文本识别的方法，其特征在于：所述构建完训练文本集后，对训练文本集进行数据清洗、去重操作。

8.一种小语种识别系统，其特征在于，应用权利要求1～7任一项的方法步骤，包括用于执行步骤S1的训练文本集构建模块、用于执行步骤S2～S4的特征提取模块、用于执行步骤S5的分类器训练模块及分类器。

9.根据权利要求8所述的小语种识别系统，其特征在于，所述特征提取模块包括用于执行步骤S2的第一特征提取模块、用于执行步骤S3的第二特征提取模块和用于执行步骤S4的第三特征提取模块。

10.一种存储介质，其内部存储有计算机程序，其特征在于，所述计算机程序运行时执行权利要求1～7的方法步骤。