CN108197109A

CN108197109A - 一种基于自然语言处理的多语言分析方法和装置

Info

Publication number: CN108197109A
Application number: CN201711488119.8A
Authority: CN
Inventors: 苏海波; 刘钰; 苏萌; 刘译璟; 杨哲铭; 马晓雪
Original assignee: Beijing Baifendian Information Science & Technology Co Ltd
Current assignee: Beijing Baifendian Information Science & Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108197109B

Abstract

一种基于自然语言处理的多语言分析方法和装置，包括：通过语种检测训练模型选择输入自然语句文本信息语言种类；通过训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息，并对得到的词嵌入表达信息通过TF‑IDF方式提取得到关键词；根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量，计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果；将自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。

Description

一种基于自然语言处理的多语言分析方法和装置

技术领域

本申请涉及数据挖掘、机器学习、人工智能及面向多语言文本分析技术应用技术领域，特别涉及一种基于自然语言处理的多语言分析方法和装置。

背景技术

随着互联网信息的蓬勃发展，需要对互联网信息中各种语言进行处理。自然语言处理(NLP)是计算机科学、人工智能、语言学所关注的计算机和人类(自然)语言之间相互作用的领域，是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究范畴涵盖能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及到的领域包括自然语义理解、检索、信息抽取、机器翻译和自动问答系统等。

传统的多语言分析方法主要基于语言学相关知识来完成对应的语言领域的文本分析任务，需要了解相关语言学的领域知识，而且需要大量人工操作，存在领域单一、难以对多语言场景进行快速适应等问题。

由此可见，当前需要一种基于自然语言处理的多语言分析的技术方案，解决传统的多语言分析方法需要了解相关语言学的领域知识，而且需要大量人工操作，存在领域单一、难以对多语言场景进行快速适应的问题。

发明内容

本申请实施例提供一种基于自然语言处理的多语言分析方法及装置，以解决传统的多语言分析方法需要了解相关语言学的领域知识，而且需要大量人工操作，存在领域单一、难以对多语言场景进行快速适应的技术问题。

本发明提供了一种基于自然语言处理的多语言分析方法，包括：

通过基于多项式的朴素贝叶斯分类器方式，对收集不同语言的多种类型的训练数据生成语种检测训练模型后，通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值，并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类；

对所述自然语句文本信息通过词向量方式训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得当的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息，并对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词；

根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词，和通过TF-IDF方式计算得到每个关键词的权重，计算得到所述自然语句文本信息的文章向量后，根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量，计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果；

将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并通过计算得到最终的情感倾向值。

进一步地，上述方法还可包括：

所述通过基于多项式的朴素贝叶斯分类器方式，对收集不同语言的多种类型的训练数据生成语种检测训练模型后，通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值，并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类的步骤，包括：

通过基于多项式的朴素贝叶斯分类器方式，收集不同语言的多种类型的数据作为训练数据，对训练数据做语种的标注，开始准备训练模型；

对于一个包含n个特征的文档D，计算该文档D属于闭集C中的某一个分类Ci的概率，i指的是语言分类数且i>0，

根据下述公式计算，得到文档D对于每个分类的后验概率，选择概率最大的那个作为目标文档D的语言种类；

其中，P(D)是常数，P(Ci)根据最大似然法得到。

进一步地，上述方法还可包括：

所述对所述自然语句文本信息通过词向量方式训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得当的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息的步骤，包括：

通过所述自然语句文本信息中核心词语预测该核心词语周围的词的方式，训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得到的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息。

进一步地，上述方法还可包括：对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并，生成关键短语。

进一步地，上述方法还可包括：所述对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并，生成关键短语的步骤，包括：

根据以下公式，进行关键词语合并；

(cnt(a，b)-min_count)*N/(cnt(a)*cnt(b))＞threshold；

判断若公式左边的计算结果score大于预设阈值threshold，则将词语a和词语b合并，

或者判断若公式左边的计算结果score小于预设阈值threshold，则词语a与词语b不会合并成短语；

其中，a代表词语a；b代表词语b；cnt(a,b)为词语a，b共现的频率；min_count为最小共现频率，即当cnt(a,b)大于min_count值才有合并几率；N:为辞典总词数；cnt(a)为词语a出现频数；cnt(b)为词语b出现的频数；threshold为预设阈值。

进一步地，上述方法还可包括：所述对得到的词嵌入表达信息通过TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词的步骤，包括：

通过以下计算公式得到IDF值，

其中IDF值表示逆文档频率，TF值表示词频，W表示一个词语；

将计算得到的词嵌入表达信息的TF-IDF值与词性权重的乘积后排序，取前面N个词作为关键词，N>0。

进一步地，上述方法还可包括：所述计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果的步骤，包括：

计算所述自然语句文本信息的文章与每个预设类目的相似度后，将计算得到的文章和每个预设类目的相似度，按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果。

进一步地，上述方法还可包括：所述根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词，和通过TF-IDF方式计算得到每个关键词的权重，计算得到所述自然语句文本信息的文章向量后，根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量，计算所述自然语句文本信息的文章与每个预设类目的相似度的步骤，包括：

设定文章T的关键词列表是word₁,word₂,...,word_N，对应权重分别为w₁,w₂,...,w_N，对应词向量分别为vec(word₁),vec(word₂),...,vec(word_N)，那么文章向量计算公式如下所示：

根据预设类目的内容，对于其中每个预设类目，根据指定描述词得到每个预设类目的类目向量；

根据得到的文章向量和类目向量后，通过以下计算公式计算文章和每个类目的相似度：

设定文章为T，类目C有两个描述词w₁,w₂，判断若关系是“与”，表示为

C＝w₁&w₂，则相似度为：

Sim(T,C)＝min(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)；

设定文章为T，类目C有两个描述词w₁,w₂，判断若关系是“或”，表示为

C＝w₁|w₂，则相似度为：

Sim(T,C)＝max(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)。

进一步地，上述方法还可包括：所述将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并通过计算得到最终的情感倾向值的步骤，包括：

将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型；

将通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量进行拼接，得到新的向量，并对得到的新的向量通过一次线性变换方式得到的结果进行S型生长曲线函数方式的非线性变换，得到最终的情感倾向值。

本发明还提供了一种基于自然语言处理的多语言分析装置，包括：

判断语言种类模块，用于通过基于多项式的朴素贝叶斯分类器方式，对收集不同语言的多种类型的训练数据生成语种检测训练模型后，通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值，并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类；

词嵌入表达信息获取模块，用于对所述自然语句文本信息通过词向量方式训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得当的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息，

词嵌入表达信息中关键词提取模块，用于对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词；

文本分类模块，用于根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词，和通过TF-IDF方式计算得到每个关键词的权重，计算得到所述自然语句文本信息的文章向量后，根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量，计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果；及

文本情感分析模块，用于将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并通过计算得到最终的情感倾向值。

与现有技术相比，应用本发明，通过词嵌入(word embedding)方式、卷积神经网络(Convolutional Neural Network)、TF-IDF(Term Frequency–Inverse DocumentFrequence，词频-逆文档频率)等，来实现多语言分析。通过以上方式，使用者只需要提供各领域的标注训练数据，无需关注具体的特征提取工作，无需了解相关领域知识，即可训练出高质量的模型；可以针对任何一种自然语言文本，进行自然语言理解；可以达到不需要语言学的领域知识，对不同语种进行自然语言分析和理解的目的。

附图说明

此处所说明的附图用于提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于自然语言处理的多语言分析方法的一种具体实施方式的流程示意图；

图2是本申请实例中词向量训练的流程示意图；

图3是本申请实例中关键词提取算法流程的示意图；

图4是本申请实例中获取文本分类结果的流程图；

图5是本申请实例中文本情感分析模型的示意图；

图6是本申请实例中卷积层的示意图；

图7是本申请实例中池化层的示意图；

图8为本申请实施例提供的一种基于自然语言处理的多语言分析装置的具体实施方式的结构示意图。

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中自然语言处理采用的是语言学无关的多语言分析技术，是指针对多种自然语言，比如西班牙语、法语、德语等语种的文本内容，使用统计自然语言处理的方法，进行基于文本语义的分析与理解。

本申请提供了一种基于自然语言处理的多语言分析方法及装置，通过词嵌入(word embedding)方式、卷积神经网络(Convolutional Neural Network)、TF-IDF(TermFrequency–Inverse Document Frequence，词频-逆文档频率)等，来实现多语言分析。通过以上方式，使用者只需要提供各领域的标注训练数据，无需关注具体的特征提取工作，无需了解相关领域知识，即可训练出高质量的模型。

本申请提供了一种基于自然语言处理的多语言分析方法，可以针对任何一种自然语言文本，进行自然语言理解；可以达到不需要语言学的领域知识，对不同语种进行自然语言分析和理解的目的。

本申请涉及一些专业术语和解释如下表所示:

为了解决传统的多语言分析方法存在领域单一、难以对多语言场景进行快速适应的的问题，本申请提供一种基于自然语言处理的多语言分析方法，该方法的执行主体，可以但不限于个人计算机(personal computer，PC)、手机、IPAD、平板电脑等能够被配置为执行本发明实施例提供的方法的终端的至少一种，或者，该方法的执行主体，还可以是能够执行该方法的客户端本身，当然，该方法的执行主体，还可以是服务器。

为了方便描述，在本申请实施例中，主要通过计算机的服务端操作为例进行介绍。可以理解，该方法的执行主体为计算机的服务端只是一种示例性的说明，并不应理解为对该方法的限定。

请参考图1，如图1所示，本申请实施例提供的一种基于自然语言处理的多语言分析方法，包括如下步骤：

步骤110、通过基于多项式的朴素贝叶斯分类器方式，对收集不同语言的多种类型的训练数据生成语种检测训练模型后，通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值，并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类；

语种检测是指，输入是一段自然语句文本，输出结果是判定为这个自然语句所属的语言种类。具体如下：

通过基于多项式(multinomialevent model)的朴素贝叶斯分类器方式，收集不同语言的多种类型的数据作为训练数据，对训练数据做语种的标注，开始准备训练模型；

对于一个包含n个特征的文档D(即输入的一自然语句文本信息),计算该文档D属于闭集C中的某一个分类Ci的概率，(i指的是语言分类数且i>0，例如：C₁是中文，C₂是英文，C₃是法文等，其中i＝1、2或3)，并将其分配给最可能的分类。

根据贝叶斯定理：

其中，P(D)是常数，P(Ci)根据最大似然法得到。

通过计算，训练得到了语言检测模型，即给定了上述模型的参数值，便可以计算目标文档D对于每个分类的后验概率，并选择概率最大的那个作为目标文档D的语言种类。

步骤120、对所述自然语句文本信息通过词向量方式训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得当的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息；

本步骤中，对所述自然语句文本信息通过字/词嵌入操作,得到计算机可识别的对应词语的词嵌入表达信息，包括：通过所述自然语句文本信息中核心词语预测该核心词语周围的词的方式，训练得到词向量模型后，将所述自然语句文本信息通过分词和预处理操作得到的结果，输入训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息。

其中，Word2vec(词向量)是google开发的算法，能够将每个词语变成一个低维空间中的向量，通常几百维。这样词语之间的语义相关性可以用向量的距离来近似描述。Word2vec是无监督学习方法，即不需要人工标注语料就可以训练模型，其中，在大数据量条件下，适合采用Skip-gram训练模型(Skip-gram训练模型使用w(t)去预测周围的词w(t-2),w(t-1),w(t+1),w(t+2)，将这些词的向量做连接，建立词向量模型)。

在训练词向量时，(1)首先收集所述自然语句文本信息相关的均衡语句文本信息(因为要做无监督学习，数据量越大越好)，所述均衡语句文本信息主要针对相应的应用场景，并且尽量涵盖该场景的大部分数据类型(2)接着针对所述均衡语句文本信息做预处理，包括过滤掉垃圾数据；文章分词、过滤停用词、低频词和词根归一化等；整理成训练数据的格式，即表示输入和输出，为建立训练目标做准备(3)将训练数据送给Skip-gram模型，训练得到词向量模型，保存备用。

对于原始的输入文本，经过分词和预处理之后，可以直接使用训练好的词向量模型，得到对应词语的词嵌入表达，从而得到计算机可以识别的自然语言文本的计算机表示。

图2是本申请实例中词向量训练的流程示意图。

步骤130、对所述自然语句文本信息的词嵌入表达信息通过TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词，并将提取的关键词通过计算共现指数方式进行关键词语合并，生成关键短语；

其中，关键短语提取是数据挖掘领域一个很关键的任务，主要完成从一篇较长的文本内容中提取出包含关键信息的关键短语，可以让用户在无须浏览全文就可以一窥文章的核心内容。关键短语提取在业务上也有广泛的应用场景。例如某些电商和媒体网站，会希望分析近期的热点事件；就可以使用关键短语技术配合无监督聚类等方法来实现。

其中，生成关键短语的步骤，包括：关键词提取后，将提取的关键词通过计算共现指数方式进行关键词语合并，生成关键短语。(通过上述两个步骤的结合，不仅可以提取关键词，对于有意义的短语和短句都有很好的识别的提取能力)

其中，关键词提取，即通过TF-IDF方式对所述自然语句文本信息的词嵌入表达信息通提取所述自然语句文本信息的词嵌入表达信息中关键词，具体如下：

其中TF-IDF是计算文章中关键词权重的算法(TF-IDF是一种用于信息检索与数据挖掘的加权算法)。该算法主要通过计算TF-IDF值来评价词语对文章的重要性，TF值表示词频，IDF值表示逆文档频率，计算公式为：

IDF值计算需要在一个大的语料集上进行，W表示一个词语。实践中，每个词的文档频率可以近似等于搜索引擎的搜索结果数(网页数)，这样可以直接得到词语的IDF值。

其中，对所述自然语句文本信息的词嵌入表达信息通过TF-IDF方式提取所述自然语句文本信息的词嵌入表达信息中关键词的步骤，包括：通过计算词嵌入表达信息的TF-IDF值(TF-IDF值是TF值与IDF值相乘得到的数值)与词性权重的乘积后排序，取前面N个词(N>0)。

图3是本申请实例中关键词提取算法流程的示意图。

其中，在提取关键词后，将提取的关键词通过计算共现指数方式进行关键词语合并，生成关键短语(生成关键短语，即根据统计共现指数来进行关键词语合并)，包括：

(cnt(a，b)-min_count)*N/(cnt(a)*cnt(b))＞threshold

根据如上公式，进行关键词语合并；判断若公式左边的计算结果score大于预设阈值threshold，则将词语a和词语b合并，

或者判断若公式左边的计算结果score小于预设阈值threshold，则词语a与词语b不会合并成短语。

其中，a：词语a；

b：词语b；

cnt(a,b)：词语a，b共现的频率；

min_count：最小共现频率，人为设定。即只有当cnt(a,b)大于min_count值才有合并几率；

N:辞典总词数；

cnt(a)：词语a出现频数；

cnt(b)：词语b出现的频数；

threshold：预设阈值。

步骤140、根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词，和通过TF-IDF方式计算得到每个关键词的权重，计算得到所述自然语句文本信息的文章向量后，根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量，计算所述自然语句文本信息的文章与每个预设类目的相似度后，将计算得到的文章和每个预设类目的相似度，按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果；

其中，文本分类是数据挖掘中最重要的一环，它将无序的数据重新组织起来。例如：门户网站有自己的分类体系，网站首页上会有大的分类：军事、体育、科技、教育、美食、财经、房产、汽车、游戏等，进入体育频道，又会划分篮球、足球、羽毛球等，进入篮球频道，又分为NBA、CBA等。

本申请提供的方法设计了一套无监督的训练方法，能够通过学习捕捉文本语义信息，将文本分类全自动化，无需人工标注大量数据。而且类目体系调整后，无需重新训练模型，只需要调整配置文件即能正常工作。

本步骤中，提供了一种文本自定义分类方法，能够将输入的每篇文本分类到预设类目上，包括：

直接使用在“字/词嵌入”操作过程训练得到的词向量模型，得到计算机可识别的对应词语的词嵌入表达信息；

通过TF-IDF方式得到所述自然语句文本信息的词嵌入表达信息中关键词和计算得到每个关键词的权重(即通过TF-IDF方式进行关键词提取，输入是一篇文章，输出是提取出的关键词和每个关键词的权重)；

所述自然语句文本信息的文章提取关键词后，每个关键词都对应一个权重标识其重要性(在分类问题上，文章可以近似于这个关键词列表)，假设文章T的关键词列表是word₁,word₂,...,word_N，对应权重分别为w₁,w₂,...,w_N，对应词向量分别为vec(word₁),vec(word₂),...,vec(word_N)，那么文章向量可以表示为：

根据预设类目的内容(一般数量大的也就上千个)，对于其中每个预设类目，可以根据指定几个描述词得到每个预设类目的类目向量(这些词可以是“与”、“或”关系，类目向量是同时保留所有这些描述词的向量)；

根据得到的文章向量和类目向量后，通过以下公式计算文章和每个类目的相似度。以下分别针对类目两种关系，给出相似度计算公式：

(1)设定文章为T，类目C有两个描述词w₁,w₂，并且关系是“与”，表示为C＝w₁&w₂，那么相似度为：

Sim(T,C)＝min(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)；

(2)设定文章为T，类目C有两个描述词w₁,w₂，并且关系是“或”，表示为C＝w₁|w₂，那么相似度为：

Sim(T,C)＝max(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)；

根据计算得到的文章和每个预设类目的相似度，按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果。(其中，通过设定选取预设类目的阈值或者指定预设类目的个数，选取相应类目作为结果，预设类目的阈值或者预设类目的个数为大于1的整数)

图4是本申请实例中获取文本分类结果的流程图。

步骤150、将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，得到通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量并进行拼接后得到新的向量，并对得到的新的向量通过一次线性变换方式得到的结果进行sigmoid函数(S型生长曲线函数)方式的非线性变换，得到最终的情感倾向值。

其中，文本情感分析是指，根据文本所表达的含义和情感信息将文本分为褒扬或贬义的两种或多种类型。文本情感分析的应用非常广泛，可以应用到许多行业，其中最重要的几个应用包括：实现情感机器人，自动提供抉择支持，网络舆情风险分析，信息预测等。本申请通过卷积神经网络(CNN)和双向GRU(Gated recurrent units，即：门循环单元)来实现文本情感分析，其主要优势包括：两种模型的并行连接的结构式创新，使得模型的准确率优于普通的深度学习模型；可以准确识别短句和长句的情感特征，避免了单一模型只能在短句或者长句取得较好效果的弊端；对于反问句、转折句有很好的情感识别能力；自动抽取训练数据特征，极大降低了人工介入成本；无需领域知识即可训练出高质量的模型。

本步骤，包括以下几个步骤：

步骤1501、提供训练模型的标注语料(准备对应语言环境的情感正向和负向的标注语料，为第二步训练模型提供训练语料)；

步骤1502、建立卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并将标注语料输入建立的文本情感分析模型进行训练；

具体的，本申请基于tensorflow的卷积神经网络(CNN)和双向GRU并行的架构进行模型构建，图5是本申请实例中文本情感分析模型的示意图。

嵌入层：使用embedding技术，把输入的句子转换成稠密的空间向量。相关技术和word2vec部分介绍的类似，此处不再赘述。

卷积层：卷积神经网络的第一步，用于特征提取。卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。图6是本申请实例中卷积层的示意图。

池化层：卷积神经网络的第二步，用于特征抽取。池化，也称作子采样，通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。图7是本申请实例中池化层的示意图。

双向GRU：GRU(Gated recurrent units，即：门循环单元)，是一个基于“门”机制的递归神经网络。双向是指，正向和反向神经网络一起使用，一般指输入序列的两个不同的序列方向。(人的思考方式并不是每时每刻都从一片空白的大脑开始他们的思考，例如：在阅读文章时，都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义，不会将所有的东西都全部丢弃，然后用空白的大脑进行思考。传统的神经网络并不能实现，这是传统的神经网络的缺陷，例如：假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件；RNN(循环神经网络)解决了这个问题，RNN是包含循环的网络，允许信息的持久化，RNN的关键点之一就是他们可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解，例如，有一个语言模型用来基于先前的词来预测下一个词，如果试着预测“the clouds are in the sky”最后的词，并不需要任何其他的上下文——因此下一个词很显然就应该是sky；在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN可以学会使用先前的信息。但是在相关的信息和预测的词位置之间的间隔不断增大时，RNN会丧失学习到连接如此远的信息的能力，这也是RNN的缺陷)本申请中采用双向GRU，进行对句子特征进行提取，可以实现在相关的信息和预测的词位置之间的间隔不断增大时，也可以学习到连接如此远的信息的能力。

全连接层：将卷积神经网络提取的特征向量和双向GRU提取的特征向量进行拼接，得到新的向量，并对得到的新的向量通过一次线性变换方式得到的结果进行sigmoid函数(S型生长曲线函数)方式的非线性变换，得到最终的情感倾向值。

如图8所示，本申请还提供了一种基于自然语言处理的多语言分析装置，包括：

图9示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图9，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成网络覆盖性能表征装置。处理器，执行存储器所存放的程序，并具体执行控制操作。

如图9所示的一种电子设备，上述如本申请图1所示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中的方法，并具体用于执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，本申请中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于自然语言处理的多语言分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

其中，P(D)是常数，P(Ci)根据最大似然法得到。

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

还包括：对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并，生成关键短语。

5.根据权利要求4所述的方法，其特征在于，

所述对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并，生成关键短语的步骤，包括：

根据以下公式，进行关键词语合并；

(cnt(a，b)-min_count)*N/(cnt(a)*cnt(b))＞threshold；

6.根据权利要求1所述的方法，其特征在于，

所述对得到的词嵌入表达信息通过TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词的步骤，包括：

通过以下计算公式得到IDF值，

其中IDF值表示逆文档频率，TF值表示词频，W表示一个词语；

7.根据权利要求6所述的方法，其特征在于，

所述计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果的步骤，包括：

8.根据权利要求7所述的方法，其特征在于，

所述根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词，和通过TF-IDF方式计算得到每个关键词的权重，计算得到所述自然语句文本信息的文章向量后，根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量，计算所述自然语句文本信息的文章与每个预设类目的相似度的步骤，包括：

设定文章为T，类目C有两个描述词w₁,w₂，判断若关系是“与”，表示为C＝w₁&w₂，则相似度为：

Sim(T,C)＝min(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)；

设定文章为T，类目C有两个描述词w₁,w₂，判断若关系是“或”，表示为C＝w₁|w₂，则相似度为：

Sim(T,C)＝max(|cos(vec(T),vec(w₁))|,|cos(vec(T),vec(w₂))|)。

9.根据权利要求8所述的方法，其特征在于，

所述将所述自然语句文本信息的词嵌入表达信息，输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型，并通过计算得到最终的情感倾向值的步骤，包括：

10.一种基于自然语言处理的多语言分析装置，其特征在于，包括：