CN112329454A

CN112329454A - 语种识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN112329454A
Application number: CN202011210885.XA
Authority: CN
Inventors: 阿敏巴雅尔; 黄申
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-05

Abstract

本申请涉及人工智能的自然语言处理技术领域，公开了一种语种识别方法、装置、电子设备及可读存储介质，语种识别方法包括：获取待识别的语言文本，确定与语言文本对应的语系类别；将语系类别对应的语种规则信息与语言文本进行匹配；语种规则信息包括语系类别中至少一个语种所对应的语种规则信息；若未匹配到对应的语种规则信息，则确定与语系类别对应的语种分类模型；基于语种分类模型对语言文本进行分类，确定语言文本的语种。本申请提供的语种识别方法可以提高语种识别的准确率。

Description

语种识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语言处理技术领域，具体而言，本申请涉及一种语种识别方法、装置、电子设备及可读存储介质。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

而在很多自然语言处理的场景下，需要对语种进行识别，语种识别(LanguageIdentification，LI)是识别计算机中以字符串形式书写的自然语言的语种归属，有较多的相关工作，目前语种识别也作为很多文本处理工作的一部分，例如，对语言文本先进行语种识别，识别出语种后再进行翻译。但是很多情况下，采用统计学方式对文本的语种进行识别，这种识别方式的准确率较低。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

第一方面，提供了一种语种识别方法，包括：

获取待识别的语言文本，确定与语言文本对应的语系类别；

将语系类别对应的语种规则信息与语言文本进行匹配；语种规则信息包括语系类别中至少一个语种所对应的语种规则信息；

若未匹配到对应的语种规则信息，则确定与语系类别对应的语种分类模型；

基于语种分类模型对语言文本进行分类，得到语言文本的语种。

在第一方面的可选实施例中，确定与语言文本对应的语系类别，包括：

采用预设的编码方式获取语言文本的编码；

确定编码所在的编码区间，基于编码区间确定与语言文本对应的语系类别。

在第一方面的可选实施例中，确定与语系类别对应的语种分类模型之前，还包括：

确定多个语系类别分别包含的语种数量；

基于确定的语种数量分别获取与多个语系类别对应的初始语种分类模型，并确定多个语系类别对应的训练文本的数量；

获取对应数量的训练文本，分别对对应的初始语种分类模型进行训练，得到与多种语系类别分别对应的语种分类模型。

在第一方面的可选实施例中，基于语种分类模型对语言文本进行分类，得到所述语言文本的语种，包括：

提取语言文本的语义向量；

基于语种分类模型对语义向量进行分类，得到语言文本的语种。

在第一方面的可选实施例中，提取语言文本的语义向量，包括：

将语言文本拆分为至少一个文本单元；

获取每一文本单元对应的文本单元向量，并确定每一文本单元对应的位置向量；

基于每一文本单元对应的文本单元向量和位置向量，获取语义向量。

在第一方面的可选实施例中，确定每一文本单元对应的位置向量，包括：

对于每一文本单元，确定该文本单元在语言文本中的位置；

基于文本单元在语言文本中的位置确定该文本单元的位置向量。

在第一方面的可选实施例中，基于每一文本单元对应的文本单元向量和位置向量，获取语义向量，包括：

对于每一文本单元，将该文本单元的文本单元向量和位置向量相加，得到该文本单元对应的文本单元表示；

将语言文本对应的每一文本单元的文本单元表示进行融合，得到语义向量。

第二方面，提供了一种语种识别装置，包括：

确定模块，用于获取待识别的语言文本，确定与语言文本对应的语系类别；

匹配模块，用于将语系类别对应的语种规则信息与语言文本进行匹配；语种规则信息包括语系类别中至少一个语种所对应的语种规则信息；

获取模块，用于若未匹配到对应的语种规则信息，则确定与语系类别对应的语种分类模型；

识别模块，用于基于语种分类模型对语言文本进行分类，得到语言文本的语种。

在第二方面的可选实施例中，确定模块在确定与语言文本对应的语系类别时，具体用于：

采用预设的编码方式获取语言文本的编码；

在第二方面的可选实施例中，还包括训练模块，用于：

确定多个语系类别分别包含的语种数量；

在第二方面的可选实施例中，识别模块在基于语种分类模型对语言文本进行分类，得到语言文本的语种时，具体用于：

提取语言文本的语义向量；

基于语种分类模型对语义向量进行分类，以识别语言文本的语种。

在第二方面的可选实施例中，识别模块在提取语言文本的语义向量时，具体用于：

将语言文本拆分为至少一个文本单元；

在第二方面的可选实施例中，识别模块在确定每一文本单元对应的位置向量时，具体用于：

对于每一文本单元，确定该文本单元在语言文本中的位置；

在第二方面的可选实施例中，识别模块在基于每一文本单元对应的文本单元向量和位置向量，获取语义向量时，具体用于：

第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的语种识别方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的语种识别方法。

本申请提供的技术方案带来的有益效果是：

通过先确定语言文本的语系类别，将该语系类别的语种规则信息与语言文本进行匹配以确定语言文本的语种，若未匹配到对应的语种规则信息，则基于与语系类别对应的语种分类模型确定语言文本的语种，首先确定语系类别可以缩小待确定的语种的范围，然后先基于语种规则信息进行匹配，若能直接识别出语种，则可以减少语种识别的计算量，若不能直接识别出语种，则再进一步通过语种分类模型进行识别，可以提高语种识别的准确率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种语种识别方法的应用环境图；

图2为本申请实施例提供的一种语种识别方法的流程示意图；

图3为本申请实施例提供的一种语种识别方法的方案的示意图；

图4为本申请实施例提供的示例中获取语种分类模型的方案示意图；

图5为本申请实施例提供的一种语种识别方法的流程示意图；

图6为本申请实施例提供的示例中获取语义向量的方案的示意图；

图7为本申请实施例提供的示例中的语种识别方法的流程示意图；

图8为本申请实施例提供的示例中的语种识别方法的流程示意图；

图9为本申请实施例提供的一种语种识别装置的结构示意图；

图10为本申请实施例提供的一种语种识别的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的语种识别方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请提供的语种识别方法，可以应用于如下翻译的应用场景中，具体可以包括：用户输入待识别的语言文本，即图1中的源语句子，对待识别的语言文本进行语种识别；若识别到语种，则进行对应的语种翻译，如图1所示，若语种为维语，翻译的目标语言为汉语，则进行维汉翻译；若语种为汉语，翻译的目标语言为维语，可以进行汉维翻译；若语种为藏语，翻译的目标语言为汉语，则进行藏汉翻译。

上述语种识别方法可以在终端中进行，也可以应用于服务器。

本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、MID(Mobile Internet Device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种可能的实现方式，如图2所示，提供了一种语种识别方法，该方法可以应用于终端或服务器，可以包括以下步骤：

步骤S201，获取待识别的语言文本，确定与语言文本对应的语系类别。

在本申请中，语系类别可以是根据语言文本的字母体系，或某些语音、词汇、语法规则、文本单元之间对应关系来进行划分的，相同的语系类别有相似之处。

需要注意的是，本申请中的语系类别并不局限于目前的九大语系，即根据语音、词汇、语法规则分成的汉藏语系、印欧语系、阿尔泰语系、闪含语系、乌拉尔语系、高加索语系(伊比利亚－高加索语系)、南岛语系(马来－波利尼西亚语系)、南亚语系和达罗毗荼语系，也可以是根据其他相似之处进行划分，例如，根据文本单元的编码规则进行划分的语系类别。

在一种实施方式中，语系类别是根据词汇、语法规则等通用的语系划分规则信息进行划分的，则步骤S201的确定与语言文本对应的语系类别，可以包括：

将预设的语系规则划分信息与语言文本进行匹配，确定与语言文本对应的语系类别。

具体的，若语系类别是根据通用的语系划分规则信息划分的，则直接根据语系划分规则信息确定语系类别。

在另一种实施方式中，语系类别是根据语言文本的字母体系划分的，即根据编码方式所划分的；则步骤S201的确定与语言文本对应的语系类别，可以包括：

(1)采用预设的编码方式获取语言文本的编码；

(2)确定编码所在的编码区间，基于编码区间确定与语言文本对应的语系类别。

其中，编码方式可以是建立文字单元和二进制的关系时制定的编码规范，例如，编码方式可以包括ASCII码(American Standard Code for Information Interchange，美国信息交换标准码)、Unicode符号集等等。

具体的，对语言文本进行编码，不同的语系类别对应不同的编码区间，可以根据编码所在的编码区间确定对应的语系类别。

步骤S202，将语系类别对应的语种规则信息与语言文本进行匹配；语种规则信息包括语系类别中至少一个语种所对应的语种规则信息。

具体的，确定语系类别对应的语种规则信息，将属于语系类别的每一语种所对应的语种规则信息与语言文本进行匹配。

其中，语种规则信息可以包括每一个语种对应的字母的书写顺序。

例如，都同属于阿拉伯字母体系的维吾尔语和哈萨克语，虽然大部分字母都是重合的，但是其有些字母的书写顺序是有明显的区分的。

具体的，可以将预设的每一种语种的语种规则信息，即字母书写顺序一一与语言文本进行匹配，以确定语言文本是否符合该语种规则信息。

步骤S203，若未匹配到对应的语种规则信息，则确定与语系类别对应的语种分类模型。

在具体实施过程中，若匹配到对应的语种规则信息，则可以直接根据匹配到的语种规则信息确定语种，若未匹配到语种规则信息，则需要进一步基于语种分类模型确定语言文本的语种。

具体的，对于每一种语系类别，都可以设置对应的语种分类模型，每一语种分类模型都是基于与语系类别对应的训练文本进行训练得到的，其中，与语系类别对应的训练文本可以包括至少一个语种所对应的训练文本，对于语种分类模型的具体获取方式将在下文进行详细阐述。

步骤S204，基于语种分类模型对语言文本进行分类，以识别语言文本的语种。

具体的，将语言文本输入到与语系类别对应的语种分类模型，即可确定该语言文本的语种。

如图3所示，可以先确定该语言文本对应的语系类别，将该语系类别的语种规则信息与语言文本进行匹配，若不能根据语言归则信息识别语种，再根据与语系类别对应的语种分类模型识别语种。

本实施例提供的语种识别方法，通过先确定语言文本的语系类别，将该语系类别的语种规则信息与语言文本进行匹配以确定语言文本的语种，若未匹配到对应的语种规则信息，则基于与语系类别对应的语种分类模型确定语言文本的语种，首先确定语系类别可以缩小待确定的语种的范围，然后先基于语种规则信息进行匹配，若能直接识别出语种，则可以减少语种识别的计算量，若不能直接识别出语种，则再进一步通过语种分类模型进行识别，可以提高语种识别的准确率。

以下将结合具体实施方式进一步阐述语种分类模型的获取过程。

本申请实施例中提供了一种可能的实现方式，步骤S203的确定与语系类别对应的语种分类模型之前，还可以包括：

(1)确定多个语系类别分别包含的语种数量。

其中，一个语系类别可以包括至少一个语种，例如，若语系类别为阿拉伯字母，则语种可以包括维吾尔语和哈萨克语。

(2)基于确定的语种数量分别获取与多个语系类别对应的初始语种分类模型，并确定多个语系类别对应的训练文本的数量。

具体的，同一个语系类别所包含的语种数量越多，则分类的难度相对更大，语种数量越多，则初始语种分类模型的尺寸就更大，即语系类别包含的语种数量与初始语种分类模型的尺寸大小正相关；同一个语系类别所包含的语种数量越多，则需要的训练文本的数量也更多，即语系类别包含的语种数量与训练文本的数量正相关。

具体的，在语种分类模型的选择上可以有很多选择，例如基于Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)、CNN(ConvolutionalNeural Networks，卷积神经网络)或Self-attention(自注意力)的语种分类模型等。

具体的，考虑到上线、轻量化和速度方面的因素，还可以使用FastText(快速文本分类算法)作为语种分类模型。FastText具有快速、高效、简单等特性。

(3)获取对应数量的训练文本，分别对对应的初始语种分类模型进行训练，得到与多种语系类别分别对应的语种分类模型。

具体的，训练文本为已知语种的文本，可以将已知的语种设置为语种分类模型的输出标签，将训练文本转化为对应的向量表示，输入到与语系类别对应的初始语种分类模型，对模型参数进行训练，并通过设置网络大小、训练轮数等参数来调整模型能力和拟合程度，得到最终的语种分类模型。

例如，对于汉语、粤语、英语和壮语，训练文本的数据量可以为2.4M(百万行)，维吾尔语、哈萨克语的训练文本数据量可以为约2.3M(百万行)。由于对于单个字母体系，其需要分类的语种类别只有2个，对于分类任务来说是比较简单的，故使用的语种分类模型偏小，其参数如下：三个模型词表大小(即训练文本中不同词或token的个数)分别为汉语和粤语1.9M，26k，12k；训练数据长度最长120个词，语种分类模型的网络隐层大小为100，语种分类模型的词嵌入大小为100，n-gram(n元)为2，使用dropout大小为0.5，训练时batch大小为100，初始学习率1e-5，共训练20轮。

如图4所示，可以分别确定语系类别1至语系类别N所包含的语种数量，即确定语系类别1包含的语种数量1，语系类别2包含的语种数量2，直至确定语系类别N包含的语种数量N，根据语种数量1至语种数量N分别确定对应的初始语种分类模型1至初始语种分类模型N，并确定训练文本1至训练文本N的数量，基于训练文本1至训练文本N分别对初始语种分类模型1至初始语种分类模型N进行训练，得到与语系类别1至语系类别N分别对应的语种分类模型1至语种分类模型N。

上述实施例中，语系类别包含的语种数量与初始语种分类模型的尺寸大小正相关，语系类别包含的语种数量与训练文本的数量正相关，可以在保证语种识别准确率的同时，节省训练过程中的数据资源，并提高分类过程的计算效率。

上述实施例阐述了获取语种分类模型的过程，以下将结合实施例进一步阐述对语言文本进行分类的以识别语种的过程。

本申请实施例中提供了一种可能的实现方式，如图5所示，步骤S204的基于语种分类模型对语言文本进行分类，以识别语言文本的语种，可以包括：

步骤S410，提取语言文本的语义向量。

其中，语言文本可以包括至少一个文本单元，文本单元可以是语言文本的最小组成形式，例如，若语言文本为英文，则文本单元为字母；若语言文本为汉语，则文本单元可以是汉字。

具体的，可以根据语言文本所包含的文本单元提取语言文本的语义向量。

步骤S420，基于语种分类模型对语义向量进行分类，得到语言文本的语种。

具体的，如图6所示，语种分类模型可以包括网络隐层和输出层，将文本单元向量(图中示为w₁至w_n)和对应的位置向量(图中示为p₁至p_n)输入到网络隐层，获取语义向量，并对语义向量进行分类，得到输出层输出的语种。

上述实施例中，通过结合位置向量和文本单元向量，确定文本的语义向量，对语义向量进行分类确定语言文本的语种，可以提高语种识别的准确率。

本申请实施例中提供了一种可能的实现方式，步骤S410的提取语言文本的语义向量，可以包括：

(1)将语言文本拆分为至少一个文本单元。

其中，文本单元可以是语言文本的最小组成形式，例如，若语言文本为英文，则文本单元为字母；若语言文本为汉语，则文本单元可以是汉字。

(2)获取每一文本单元对应的文本单元向量。

具体的，可以将文本单元输入到预置的神经网络，得到对应的文本单元向量；也可以是预先设置多个文本单元和文本单元向量的对应关系，对于每一文本单元，直接查询对应的文本单元向量。

(3)基于每一文本单元对应的文本单元向量，获取语言文本的语义向量。

具体的，可以针对每一文本单元设置一个对应的权重，基于每一文本单元的权重以及文本单元向量，计算得到语义向量，例如，可以计算每一文本单元向量的加权和，得到语义向量。

上述实施方式中，根据多个语言文本的多个文本单元和每一文本单元对应的权重，得到语义向量，在另一种实施方式中，还可以考虑每一文本单元所在的位置来计算语义向量。

(1)将语言文本拆分为至少一个文本单元。

(2)获取每一文本单元对应的文本单元向量，并确定每一文本单元对应的位置向量。

具体的，文本单元对应的位置向量，可以是文本单元在语言文本中的位置所决定的，具体的位置向量的确定过程将在下文进行详细阐述。

(3)基于每一文本单元对应的文本单元向量和位置向量，获取语义向量。

具体的，对于每一文本单元，可以将对应的文本单元向量和位置向量进行融合，得到语义向量。

具体的，可以将文本单元向量和位置向量进行拼接，也可以将文本单元向量和位置向量相加，具体获取语义向量的过程将在下文进行详细阐述。

以下将结合具体实施例阐述获取位置向量的过程。

在具体实施过程中，确定每一文本单元对应的位置向量，可以包括：

a、对于每一文本单元，确定该文本单元在语言文本中的位置；

b、基于文本单元在语言文本中的位置确定该文本单元的位置向量。

具体的，可以将语言文本先整体转化为对应的初始位置向量，再将初始位置向量按照顺序拆分，得到每一文本单元的位置向量。

例如，“今天是星期五”可以根据每一个字的位置转化为[w₁,w₂,w₃,w₄,w₅,w₆]，则“今”对应的位置向量为[w₁]，“天”对应的位置向量为[w₂]，“是”对应的位置向量为[w₃]，“星”对应的位置向量为[w₄]，“期”对应的位置向量为[w₅]，“五”对应的位置向量为[w₆]。

本申请实施例中提供了一种可能的实现方式，基于每一文本单元对应的文本单元向量和位置向量，获取语义向量，可以包括：

a、对于每一文本单元，将该文本单元的文本单元向量和位置向量相加，得到该文本单元对应的文本单元表示。

具体的，在其他实施方式中，也可以将文本单元向量和位置向量进行拼接，以确定文本单元表示。

b、将语言文本对应的每一文本单元的文本单元表示进行融合，得到语义向量。

具体的，将语言文本对应的每一文本单元的文本单元表示进行融合，可以是确定每一文本单元对应的权重系数，根据每一文本单元对应的权重系数，计算每一文本单元的文本单元表示之间的加权和，得到语义向量。

为了更好地理解上述语种识别方法，如图7所示，以下详细阐述一个本发明的语种识别方法的示例：

在一个示例中，本申请提供的语种识别方法，可以包括如下步骤：

步骤S700，获取待识别的语言文本；

步骤S701，确定与语言文本对应的语系类别；

步骤S702，获取所确定的语系类别对应的语种规则信息；

步骤S703，判断语言文本与语种规则信息是否匹配；若是，执行步骤S704；若否，则执行步骤S705；

步骤S704，基于相匹配的语种规则信息确定语言文本的语种；

步骤S705，确定与语系类别对应的语种分类模型；

步骤S706，将语言文本拆分为至少一个文本单元；

步骤S707，获取每一文本单元对应的文本单元向量，并确定每一文本单元对应的位置向量；

步骤S708，基于每一文本单元对应的文本单元向量和位置向量，获取语义向量；

步骤S709，基于语种分类模型对语义向量进行分类，以识别语言文本的语种。

为了更好地理解上述语种识别方法，如图8所示，以下详细阐述一个本发明的语种识别方法的示例：

在一个示例中，待识别的语言文本的语种可以包括汉语、粤语和英语以外的国内少数民族语维吾尔语、哈萨克语、蒙古语、藏语、朝鲜语、壮语和彝语(这里粤语是汉语的一支，可理解为其方言)，如下表1所示，表1中所示为所有上述语种和其对应的语言符号：

表1语种及其语言符号

序号	语种	符号
			1	维吾尔语	ug
2	哈萨克语	kk
			3	蒙古语	mn
4	藏语	tb
			5	粤语	cn
6	汉语	ca
			7	朝鲜语	kr
8	壮语	za
			9	英语	en
10	彝语	yi
			11	西里尔蒙古语	cmn
12	西里尔哈萨克语	ckk

针对上述语种，可以分类成阿拉伯字母、蒙古语字母、藏语字母、汉字字母、朝鲜语字母、拉丁字母、彝语字母和西里尔字母；根据已经分类好的语系类别，再根据基于神经网络的语种分类模型或语言规则进一步的分类得到最终的语种。

具体的，在对语种进行分类时，可以根据Unicode编码表分类为各个字母体系(即语系类别)，其中每个字母体系的编码区间如表2所示。

表2字母体系及其编码区间表

具体的，根据Unicode编码表对不同的字母体系的编码区间进行划分，得到如表2所示的字母体系及其编码区间表；然后采用Unicode编码方式确定语言文本的编码，再确定编码所在的编码区间，例如得到的编码为0x4dff，则可以确定编码所在的编码区间为0x4dff-0x9fff，从而确定语言文本的语系类别为拉丁字母。

如图8所示，确定输入的语言文本的语系类别，根据语种规则信息进行区分，例如，都同属于阿拉伯字母体系的维吾尔语和哈萨克语，虽然大部分字母都是重合的，但是其有些字母的书写顺序、字母位置规则上是有明显的区分的。其中，字母位置规则是指对于某一种语种的语言文本，特定的字母只能出现在语文文本的特定位置，例如只能出现于句首或句尾，所以，如果这些语种规则信息足以区分同属一个字母体系(即语系类别)的语种，也可以避免多余的计算神经网络的操作，从而提高识别速度、准确率的同时降低计算资源的消耗。若不能根据语种规则信息进行语种的识别，则可以基于语种分类模型进行进一步的识别。

为了阐述本申请的语种识别方法的效果，以下将结合试验数据进行进一步说明。

本申请对每一个语种分别选用了单语语料作为测试集，数据量从1000～10000行不等。针对向蒙古语、朝鲜语、彝语等歧义性比较小的语种可直接通过规则的部分进行识别，识别率一般比较高，所以选用少量的单语数据作为测试集。而针对维吾尔语、哈萨克语，壮语、英语以及汉语和粤语等语种的识别使用了语种分类模型，故使用了较多的单语数据作为测试集，以确保测试结果的客观性。

表3为本发明的测试结果，为更好的对比性能，引入了开源的LangID和LangDetect模型。由于默认LangID和LangDetect不支持某些语种，本发明利用LangID模型在同一个训练集上又训练的一个模型(LangID-new)。从实验结果中可以看到，对于语种分类模型来说，二分类任务要比多分类任务准确率更高，是基于规则的分类简化了后续语种分类模型的难度。另外，从LangID-new可以看出，由于维哈和汉粤相似度非常高，故引入这些语种之后会相互影响性能(如哈萨克语识别准确率高，但影响了维吾尔语的识别)。英语和壮语没有被影响主要原因是虽然英语和壮语都使用拉丁字母，但其词的构成还是有很大区别，是比较好区分的。

表3不同系统语种识别效果

上述的语种识别方法，通过先确定语言文本的语系类别，将该语系类别的语种规则信息与语言文本进行匹配以确定语言文本的语种，若未匹配到对应的语种规则信息，则基于与语系类别对应的语种分类模型确定语言文本的语种，首先确定语系类别可以缩小待确定的语种的范围，然后先基于语种规则信息进行匹配，若能直接识别出语种，则可以减少语种识别的计算量，若不能直接识别出语种，则再进一步通过语种分类模型进行识别，可以提高语种识别的准确率。

进一步的，语系类别包含的语种数量与初始语种分类模型的尺寸大小正相关，语系类别包含的语种数量与训练文本的数量正相关，可以在保证语种识别准确率的同时，节省训练过程中的数据资源，并提高分类过程的计算效率。

进一步的，通过结合位置向量和文本单元向量，确定文本的语义向量，对语义向量进行分类确定语言文本的语种，可以提高语种识别的准确率。

本申请实施例中提供了一种可能的实现方式，如图9所示，提供了一种语种识别装置90，该语种识别装置90可以包括：确定模块901、匹配模块902、获取模块903和识别模块904，其中，

确定模块901，用于获取待识别的语言文本，确定与语言文本对应的语系类别；

匹配模块902，用于将语系类别对应的语种规则信息与语言文本进行匹配；语种规则信息包括语系类别中至少一个语种所对应的语种规则信息；

获取模块903，用于若未匹配到对应的语种规则信息，则确定与语系类别对应的语种分类模型；

识别模块904，用于基于语种分类模型对语言文本进行分类，得到语言文本的语种。

本申请实施例中提供了一种可能的实现方式，确定模块901在确定与语言文本对应的语系类别时，具体用于：

采用预设的编码方式获取语言文本的编码；

在第二方面的可选实施例中，还包括训练模块，用于：

确定多个语系类别分别包含的语种数量；

在第二方面的可选实施例中，识别模块904在基于语种分类模型对语言文本进行分类，得到语言文本的语种时，具体用于：

提取语言文本的语义向量；

在第二方面的可选实施例中，识别模块904在提取语言文本的语义向量时，具体用于：

将语言文本拆分为至少一个文本单元；

在第二方面的可选实施例中，识别模块904在确定每一文本单元对应的位置向量时，具体用于：

对于每一文本单元，确定该文本单元在语言文本中的位置；

在第二方面的可选实施例中，识别模块904在基于每一文本单元对应的文本单元向量和位置向量，获取语义向量时，具体用于：

上述的语种识别装置，通过先确定语言文本的语系类别，将该语系类别的语种规则信息与语言文本进行匹配以确定语言文本的语种，若未匹配到对应的语种规则信息，则基于与语系类别对应的语种分类模型确定语言文本的语种，首先确定语系类别可以缩小待确定的语种的范围，然后先基于语种规则信息进行匹配，若能直接识别出语种，则可以减少语种识别的计算量，若不能直接识别出语种，则再进一步通过语种分类模型进行识别，可以提高语种识别的准确率。

本公开实施例的图片的语种识别装置可执行本公开的实施例所提供的一种图片的语种识别方法，其实现原理相类似，本公开各实施例中的图片的语种识别装置中的各模块所执行的动作是与本公开各实施例中的图片的语种识别方法中的步骤相对应的，对于图片的语种识别装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的语种识别方法中的描述，此处不再赘述。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的语种识别方法。与现有技术相比，本申请中的语种识别方法可以提高语种识别的准确率。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的语种识别方法可以提高语种识别的准确率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

获取待识别的语言文本，确定与语言文本对应的语系类别；

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，识别模块还可以被描述为“识别语种的类别的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语种识别方法，其特征在于，包括：

获取待识别的语言文本，确定与所述语言文本对应的语系类别；

将所述语系类别对应的语种规则信息与所述语言文本进行匹配；所述语种规则信息包括所述语系类别中至少一个语种所对应的语种规则信息；

若未匹配到对应的语种规则信息，则确定与所述语系类别对应的语种分类模型；

基于所述语种分类模型对所述语言文本进行分类，得到所述语言文本的语种。

2.根据权利要求1所述的语种识别方法，其特征在于，所述确定与所述语言文本对应的语系类别，包括：

采用预设的编码方式获取所述语言文本的编码；

确定所述编码所在的编码区间，基于所述编码区间确定与所述语言文本对应的语系类别。

3.根据权利要求1所述的语种识别方法，其特征在于，所述确定与所述语系类别对应的语种分类模型之前，还包括：

确定多个语系类别分别包含的语种数量；

基于所述确定的语种数量分别获取与多个语系类别对应的初始语种分类模型，并确定多个语系类别对应的训练文本的数量；

4.根据权利要求1所述的语种识别方法，其特征在于，所述基于所述语种分类模型对所述语言文本进行分类，得到所述语言文本的语种，包括：

提取所述语言文本的语义向量；

基于所述语种分类模型对所述语义向量进行分类，得到所述语言文本的语种。

5.根据权利要求4所述的语种识别方法，其特征在于，所述提取所述语言文本的语义向量，包括：

将所述语言文本拆分为至少一个文本单元；

基于每一文本单元对应的文本单元向量和位置向量，获取所述语义向量。

6.根据权利要求5所述的语种识别方法，其特征在于，所述确定每一文本单元对应的位置向量，包括：

对于每一文本单元，确定该文本单元在所述语言文本中的位置；

基于所述文本单元在所述语言文本中的位置确定该文本单元的位置向量。

7.根据权利要求5所述的语种识别方法，其特征在于，所述基于每一文本单元对应的文本单元向量和位置向量，获取所述语义向量，包括：

将所述语言文本对应的每一文本单元的文本单元表示进行融合，得到所述语义向量。

8.一种语种识别装置，其特征在于，包括：

确定模块，用于获取待识别的语言文本，确定与所述语言文本对应的语系类别；

匹配模块，用于获取所确定的语系类别所包含的至少一个语种分别对应的语种规则信息，将所述语言文本分别与至少一个语种分别对应的语种规则信息进行匹配；

获取模块，用于若未匹配到对应的语种规则信息，则语种分类模型确定与所述语系类别对应的语种分类模型；

识别模块，用于基于所述语种分类模型对所述语言文本进行分类，以识别所述语言文本的语种。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述的语种识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的语种识别方法。