CN106528535B

CN106528535B - 一种基于编码和机器学习的多语种识别方法

Info

Publication number: CN106528535B
Application number: CN201611001398.6A
Authority: CN
Inventors: 王宇; 徐晓燕; 周渊; 刘庆良; 郑彩娟; 王海平; 黄成�; 周游; 陈婷婷
Original assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Current assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2019-04-26
Anticipated expiration: 2036-11-14
Also published as: CN106528535A

Abstract

本发明提供了一种基于编码和机器学习的多语种识别方法，是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别，编码识别时还统计各语种的单词量，当机器学习单元的识别结果在编码识别单元的判定区间内，且二者识别的语言一致时，输出单一识别语言，当编码识别单元识别到多种语言时，进行混合语言规则判断，若第二语言在文本中的单词量比例达到设定比例，则判定文本为混合语言。本发明对长文本可先作随机采样再判定，以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别，同时支持混合语种文本识别，在海量数据分析以及舆情监控中具有广泛的应用前景。

Description

一种基于编码和机器学习的多语种识别方法

技术领域

本发明属于计算机对自然语言处理的技术领域，涉及一种基于编码和机器学习的多语种识别方法。

背景技术

随着全球化进程的推进以及互联网信息业务的飞速发展，人们越来越希望可以突破语言障碍进行交流，使得自动语言识别技术越来越受到人们的重视，越来越多的企业正在寻找一种更强大的语种识别工具，这种工具能够快速、高效的对不同种类的语言片段进行准确地判别。自动语种识别，顾名思义，就是用计算机自动识别出任意一段文本片段所属语言类别的过程。语种识别在信息检索和军事领域都有很重要的应用，只要是语言理解相关的领域，都是需要用到自动语种识别技术的。因此对于语种识别技术的研究，对于计算机的发展有着至关重要的作用。

在现有的语种识别技术中，大体上可以分为两种语种识别方法，一种是根据不同语种使用的字母差异，通过判断文本每个字符的Unicode编码，判断文本中含有的字符语种类别，但是对于一些字母，既可能出现在一个语种文本中，又可能出现在其他的语种文本中，因此，通过编码方式就很难判断出其所属语种，例如德语与法语，两种语言所用的字母相同，无法通过Unicode编码来进行精确的语种判断。现有很多提供语种识别功能的网站，比如google翻译，langid等，都采用另一种基于机器学习的方法，即通过对语料库的训练，将不同语言的单词、字符训练成一个语种识别模型，对于待识别的文本，只需进行简单的匹配就可以识别出该文本的语种类型，但是该方法的缺陷同样明显，即识别准确度和训练样本集都有很大的限制，而且当输入文本较短时，与模型匹配时不会得到很好的效果，经常适得其反，毕竟全世界的语言中单词字符不计其数，难以收录全。google翻译更是仅能识别52种语言，而且，由于机器学习方法的局限，使得混合文本预测结果只能为单一语种，导致语种识别错误。

发明内容

本发明提供了一种基于编码和机器学习的多语种识别方法，克服了只能对单一语种或个别语种进行语种识别的局限，

本发明提供的基于编码和机器学习的多语种识别方法，实现步骤如下：

第一步，通过机器学习单元对文本进行语种识别；

将ISO语言代码作为语言特征库，对各语种文本语料库进行训练，通过朴素贝叶斯方法和N-gram模型训练识别97种语言的语种识别模型。

第二步，通过编码识别单元对文本进行处理，具体是：采用Unicode编码识别文本中含有的字符语种类别，对各语种的单词量进行统计。

第三步，进行混合语种判断，输出最终语种识别结果。

设机器学习单元识别的语种为第一语言，当编码识别单元识别的语言与第一语言一致时，输出最终语种识别结果为第一语言；在编码识别单元识别到包含第一语言的多种语言时，进行混合语言规则判断，输出混合语言或单一语种。

可判断第二语言在文本中的单词量比例是否达到设定的比例，若达到，判定为文本为混合语言，否则，判定文本为单一语种。

进行混合语言规则判断，包括如下情况：

(1)机器学习单元识别为中文，编码识别单元识别包含中文和藏文和/或维文，判断藏文或维文在文本中的单词量比例是否大于10％，若是则判定为混合语种，输出中文和藏文和/或维文在文本中的单词量比例，否则，判定为中文；

(2)机器学习单元识别为日文，编码识别单元识别结果包含中文和日文，判断日文在文本中的单词量比例是否少于30％，若是判定为混合语言，输出中文和日文分别在文本中的单词量比例；否则，判定为日文；

(3)机器学习单元识别为中文，编码识别单元识别结果包含中文和英文，判断英文在文本中的单词量比例是否大于60％，若是，修正输出结果为主语言为英文，并输出中文和英文分别在文本中的单词量比例，否则，判定为中文；

(4)编码识别单元识别结果包含俄文和/或蒙文和/或韩文，判断俄文、蒙文或韩文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出俄文和/或蒙文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；

(5)机器学习单元识别为法文，判断文本中是否含有法文专有字母/单词，若没有，修正识别语言为英文，否则输出法文；

(6)机器学习单元识别为中文，但文本为乱码，编码识别单元未识别到任何汉字时，输出“unknown language”。

为了支持大批量文本的语种识别，本发明对于长文本，先进行采样，然后对采样得到的子文本进行本发明的多语种识别，对子文本的语种识别结果就是长文本的语种识别结果。

本发明提出的基于编码和机器学习的多语种识别方法，其优点和积极效果在于：

(1)本发明通过使用N-gram和朴素贝叶斯算法基于机器学习识别语种，与基于文本编码识别语种的混合方式进行语种识别，将两种识别方式扬长避短，能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别，同时支持混合语种文本识别。

(2)本发明还通过随机采样的方式大幅提升程序速度而同时仅下降些许识别准确度，通过本发明方法可以进行大规模文本数据的语种识别，在海量数据分析以及舆情监控中具有广泛的应用前景。

附图说明

图1为本发明的基于编码和机器学习的多语种识别方法的流程示意图；

图2为本发明识别方法中混合语言的判断规则流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明的技术方案进一步详细说明。

本发明采用机器学习算法，利用ISO语言列表，ISO标准的代码名称为：ISO 639-1，选定各语种的特征词集合，对含有97个语种的文本语料库进行训练，通过不同语种含有的特征词的不同组合来进行单语种文本识别；在此基础上，为了支持简繁体中文识别、提高识别准确度、丰富识别语言数量以及支持混合语言文本识别，本发明提出将编码方法与机器学习方法相结合，利用不同语种在Unicode中对应不同的编码区间来达到识别更多语种，监督已支持语种，判断文本是否为混合语言的目的。

对于有不少数量的文本，并不是使用单一的语种语言，而是多种语言混合使用，最常见的就是中英混合的方式，即便是论文中也会含有大概一页篇幅的英文摘要，而本发明采用基于编码和机器学习的多语种识别方法，能够准确地实现混合语种文本的识别。其核心思想是采用编码来识别、统计各语种单词个数，对于一些多语种混合文本，在采用编码识别的同时，也获取了除识别结果外其他语种在文本中所占的比例，编码识别的结果通过与机器学习的识别结果作比较来验证准确性，对于比例中的第二语言，如果其达到了文章总词数的一定比例，则在最终输出识别结果时给出“混合文本”。这在单独采用编码识别和单独采用机器学习方法都是无法做到的，前者无法保证准确率，后者原则上无法输出两种识别结果，本发明完美的实现了这一点。

本发明提供的基于编码和机器学习的多语种识别方法，其所应用的处理框架中主要包括编码识别单元和机器学习单元。整体识别流程如图1所示。在对输入的文本进行预处理之后分别输入到编码识别单元和机器学习单元中处理。对文本预处理一般是指字符串编码识别，例如属于UTF-8还是UTF-16，进行乱码处理等。

第一方面，在机器学习单元中对文本进行语种识别。

机器学习单元，主要处理基于语料库训练好的所有语种，通过不同语种含有不同的词汇集这一特点，作为语种识别处理手段。

本发明的机器学习单元中，将ISO语言代码作为97种语言的语言特征库，对大量的各语种文本语料库进行训练，通过朴素贝叶斯方法和N-gram模型训练得到能够识别97种语言的语种识别模型。

该语种识别模型能够识别出Unicode编码中含有的大多数语言，但是对于某些如藏语、繁体中文等语言特征较为特别的语言，机器学习训练方法很难得到一个能够准确将其识别的模型。然而由于繁体中文和藏语字母不会在其他语种中出现的这一唯一性特点，本发明采用编码识别的方式对机器学习方法进行优化。这样，本发明识别方法就能够实现包含中文简繁体、藏语等97种不同语言的语种识别功能。

第二方面，在编码识别单元中对文本进行处理。

编码识别单元，采用Unicode编码对文本中含有的字符语种类别进行识别，同时对各语种的词汇量进行统计。进行词汇量统计的主要包含中、日、韩、藏等在Unicode编码中含有明显编码区间的语种。对于文本中的中文基于繁体字库识别繁简体。

第三方面，结合编码识别单元和机器学习单元的识别结果，判断输出最终结果。

对于语法规则、单词等均比较相似的语言，如中文与日文、英文与法文等，单单通过机器学习对语料库进行训练，并不能够较好地识别出文本所包含的语种类型，单独使用编码识别方法，也很难将编码相似的两种或多种语种进行准确地区分，同样无法达到预期的结果。针对这个问题，本发明提出了使用编码识别辅助机器学习的方法，根据Unicode编码以及少许停用词来辅助机器学习方法识别。

本发明根据机器学习单元识别的语种结果和编码识别单元的识别结果及词汇量的统计，进行语种识别规则判断。如图2所示，首先判断机器学习单元的识别结果是否在编码识别单元的判定区间内，即判断机器学习单元的语种识别结果是否包含在编码识别单元的识别结果中。若在，则进一步判断机器学习单元的识别结果与编码识别单元的识别结果是否一致，若一致，输出机器学习单元的识别结果，若不一致，进行混合语言规则判断，若满足混合语言条件，则判定文本为混合语言，输出混合语种识别结果，否则，满足单一语言条件，判断文本为单一语言，输出语种识别结果。若机器学习单元的识别结果不在编码判断的区间内，直接输出机器学习单元的识别结果。

例如，对于英文与法文，一旦编码识别发现该文本中法文的单词数量满足条件而机器学习识别结果为英文，则对结果进行及时地修正。在实际的测试中，英法混合的情况，准确率由30％多上升为70％多，效果显著，目前本发明准确率达到97％以上，相对google翻译、langid等语种识别来说更高。

本发明第三方面对于识别伪装成罕见语种的敏感信息识别、其他语种的关键信息等具有重大意义。目前仅针对中文与其他语言混合的情况重点判断，本发明进行混合语言规则判断的逻辑具体如下说明。

(1)机器学习单元识别为中文，编码识别单元识别包含中文和藏文和/或维文，判断藏文或维文在文本中的单词量比例是否大于10％，若是则判定为混合语种，输出中文和藏文和/或维文在文本中的单词量比例，否则，判定为中文。

若编码识别单元的识别结果不包含中文，则输出藏文和/或维文及其他语种在文本中的单词量比例。

(2)机器学习单元识别为日文，编码识别单元识别结果包含中文和日文，判断日文在文本中的单词量比例是否少于30％，若是判定为混合语言，输出中文和日文分别在文本中的单词量比例；否则，判定为日文。

(3)机器学习单元识别为中文，编码识别单元识别结果包含中文和英文，判断英文在文本中的单词量比例是否大于60％，若是，修正输出结果为主语言为英文，并输出中文和英文分别在文本中的单词量比例，否则，判定为中文。机器学习单元识别为英文，且编码识别单元统计的英文在文本中的单词量比例大于60％，直接判定文本语种为英文。

(4)机器学习单元识别为俄文、蒙文或韩文，编码识别单元识别结果包含俄文和/或蒙文和/或韩文，判断俄文、蒙文或韩文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出俄文和/或蒙文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果。

(6)机器学习单元识别为中文，但文本为乱码，编码识别单元未识别到任何汉字时，输出“unknown language”，即无法识别的语言。

为了支持大批量文本的语种识别，传统的全文本识别仅有7MB/s的速度显然是不够的。本发明提出了采用基于文本采样的方法实现语种识别。对于长文本，可以先对长文本进行采样，使用采样得到的结果子文本再通过机器学习识别和编码单元识别，进行混合语言规则判断。采样的子文本的语种识别结果即为实际长文本的语种识别结果。通过采样策略，在不大幅度降低识别准确率的情况下大大提升了编码识别的效率，通过设置文本采样随机点的个数及采样样本的长度两个参数，合理的设定文本采样方案，在最大仅取500字进行识别的情况下，准确率达到96％接近97％，识别准确率下降不到1％。本发明采用随机采样的方法对待识别语种的文本进行采样，可以通过用户的合理设置，在不大幅度降低准确率的情况下完成多语种的识别功能。可以看出，本发明采用基于编码与机器学习相结合的算法，能够高效、准确的实现对语种混合文本的语种识别。

本发明实现多语种识别的一个API接口如下所示：

构造函数

方法

输出类型

LangDetector表示语种识别类。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于编码和机器学习的多语种识别方法，其特征在于，包括如下实现步骤：

第一步，通过机器学习单元对文本进行语种识别；

第二步，通过编码识别单元对文本进行处理，具体是：采用Unicode编码识别文本中含有的字符语种类别，对各语种的单词量进行统计；

第三步，进行混合语种判断，输出最终语种识别结果；

设机器学习单元识别的语种为第一语言；当编码识别单元识别的语言与第一语言一致时，输出最终语种识别结果为第一语言；当编码识别单元识别到多种语言时，进行混合语言规则判断，输出混合语言或单一语种；

所述的混合语言规则判断，包括如下情况：

(1)机器学习单元识别为中文，编码识别单元识别结果包含中文和藏文和/或维文，判断藏文或维文在文本中的单词量比例是否大于10％，若是则判定为混合语种，输出中文和藏文和/或维文在文本中的单词量比例，否则，判定为中文；

(4)机器学习单元识别为俄文，编码识别单元识别结果包含俄文和蒙文和/或韩文，判断俄文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出俄文和蒙文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；

机器学习单元识别为蒙文，编码识别单元识别结果包含蒙文和俄文和/或韩文，判断蒙文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出蒙文和俄文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；

机器学习单元识别为韩文，编码识别单元识别结果包含韩文和俄文和/或蒙文，判断韩文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出韩文和俄文和/或蒙文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；

2.根据权利要求1所述的一种基于编码和机器学习的多语种识别方法，其特征在于，所述的多语种识别方法，对于长文本，先进行采样，然后对采样得到的子文本进行所述的第一步到第三步的语种识别，对子文本的语种识别结果就是长文本的语种识别结果。