CN109271493B

CN109271493B - 一种语言文本处理方法、装置和存储介质

Info

Publication number: CN109271493B
Application number: CN201811414718.XA
Authority: CN
Inventors: 刘绩刚; 李铮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-10-08
Anticipated expiration: 2038-11-26
Also published as: CN109271493A

Abstract

本发明公开了一种语言文本处理方法、装置和存储介质，用以提高对语言文本所表达的情感极性分析结果的准确性。语言文本处理方法包括：获取待处理的语言文本；对待处理的语言文本进行分词得到第一分词对象，包括分词得到的词及其对应的拼音；根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对第一样本数据中包含的第一分词对象进行训练得到的；根据第一分词对象向量，利用情感极性预测模型预测待处理的语言文本对应的情感极性类型，情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

Description

一种语言文本处理方法、装置和存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种语言文本处理方法、装置和存储介质。

背景技术

随着互联网的迅速发展，互联网已经成为了用户传播和获取各种信息的主要手段。在互联网世界里，用户可以通过常用的互联网交流渠道，如论坛、微博、博客、贴吧等方式对网络上存在的电子资源，例如，游戏、视频、文章、新闻、应用软件或者日常社会民情等等发表自己的观点及态度，通过对用户发表观点及态度的语言文本进行分析，可以确定用户对于相应电子资源的情绪、意见、价值判断和愿望等情感极性，其可以用于辅助对相应电子资源进行改进。

现有技术中，利用卷积神经网络对语言文本的词向量进行建模预测文本的情感极性。其输入为用户发表的语言文本的词向量依序组成的矩阵，这些矩阵通过多个卷积和过滤得到多个对应的向量，对这些向量的每个元素进行非线性变化后通过最大采样得到一个个标量，这些标量通过全连接得到和预测标签类别相同维度的向量，上述的向量经过softmax变化得到每个类别的近似概率。

由于现有的词向量转换模型主要考虑词之间的距离(比如欧氏距离等)来判断它们之间的语义相似度，这导致了正负情感词在语义空间上距离太近，例如，“我喜欢这个游戏”和“我讨厌这个游戏”中的“喜欢”、“讨厌”由于具有相同的上下文，因此得到的词向量很接近，但是这两个词表达的情感极性差别却很大，这降低了据此得到的情感极性分析结果的准确性。

发明内容

本发明实施例提供一种语言文本处理方法、装置和存储介质，用以提高对语言文本所表达的情感极性分析结果的准确性。

第一方面，提供一种语言文本处理方法，包括：

获取待处理的语言文本；

对所述待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；

根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的；

根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型，所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

第二方面，提供一种语言文本处理装置，包括：

获取单元，用于获取待处理的语言文本；

第一分词单元，用于对所述获得单元获取的待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；

第一转换单元，用于根据所述分词单元的分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的；

预测单元，用于根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型，所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

第三方面，提供一种计算装置，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述语言文本处理方法所述的步骤。

第四方面，提供一种计算机可读介质，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行上述语言文本处理方法所述的步骤。

本发明实施例提供的语言文本处理方法、装置和存储介质，在向量转换模型训练过程中，在根据分词对象之间距离进行训练的基础上，引入了情感极性标签，使得训练得到的向量转换模型在将分词对象转换为相对应的向量时，可以体现分词对象的情感极性，这样，在基于获得的分词对象向量进行情感极性预测时，能够提高预测结果的准确性，另外，本发明实施例中，在进行情感极性预测时，除了基于词语本身进行预测以外，还引入了相应的拼音，从而避免了由于语言评论中同音词表述导致的预测结果偏差，进一步提高了预测结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施方式的应用场景示意图；

图2为根据本发明实施方式的向量转换模型的网络框架示意图；

图3为根据本发明实施方式的情感极性预测模型训练的网络框架示意图；

图4为根据本发明实施方式的情感极性预测模型的训练方法流程示意图；

图5为根据本发明实施方式的从第二样本数据中提取第一特征向量的实施流程示意图；

图6为根据本发明实施方式的利用卷积网和浅层线性模型共同建模示意图；

图7为根据本发明实施方式的情感极性预测方法实施流程示意图；

图8为根据本发明实施方式的语言文本处理装置的模块示意图；

图9为根据本发明实施方式的计算装置的结构示意图。

具体实施方式

为了提高针对语言文本情感极性预测结果的准确性，本发明实施例提供了一种语言文本处理方法、装置和存储介质。

本发明中的终端设备可以是个人电脑(英文全称：Personal Computer，PC)、平板电脑、个人数字助理(Personal Digita l Assistant，PDA)、个人通信业务(英文全称：Personal Communication Service，PCS)电话、笔记本和手机等终端设备，也可以是具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们能够向用户提供语音和/或数据连通性的设备，以及与无线接入网交换语言和/或数据。

另外，本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本发明实施例提供的语言文本处理方法的应用场景示意图。用户10通过终端设备11中安装的应用客户端登录应用服务器12，其中，应用客户端可以为网页的浏览器，也可以为安装于终端设备，如手机，平板电脑等中的应用程序客户端。

终端设备11与应用服务器12之间通过网络进行通信连接，该网络可以为局域网、蜂窝网和广域网等。终端设备11可以为便携设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，应用服务器12可以为任何能够提供互联网服务的设备。

其中，用户10利用终端设备11通过向应用服务器12注册获得用户名，应用服务器12在用户进行注册成功后存储用户名以及与用户10设置的用户密码作为认证信息，后续用户10利用终端设备11再次登录应用服务器12时，应用服务器12向应用客户端返回登录页面，用户在应用客户端显示的登录页面输入认证信息(即用户名和用户密码)并提交给应用服务器12，应用服务器12比较用户提交认证信息与自身在用户注册时存储的认证信息是否一致以确定是否允许用户登录。

应用服务器12可以为用户提供不同的互联网业务，在一个实施例中，应用服务器可以为用户提供资讯浏览业务，这种实施方式下，本发明实施例涉及的语言文本可以为用户针对服务器提供的新闻资讯等发表的表达自己观点的评论信息；在另一实施例中，应用服务器12可以为用户提供云阅读业务，这种情况下，本发明实施例中涉及的语言文本可以为用户针对服务器提供的电子资源，例如，数字漫画资源、数字小说资源、数字散文资源等等发表的表达自己观点的评论信息，在又一实施例中，应用服务器12还可以为用户提供视频播放业务，这种情况下，本发明实施例中涉及的语言文本可以为针对服务器提供的数字视频资源等发表的表达自己观点的评论信息，在一些实施例中，应用服务器还可以为用户提供多媒体播放业务，这种情况下，本发明实施例中涉及的语言文本可以为针对服务器提供的数字音乐资源等等发表的表达自己观点的评论信息，或者，应用服务器12还可以为用户提供应用程序如游戏等下载业务，这种情况下，本发明实施例涉及的语言文本可以为针对服务器提供的应用程序等等发表的表达自己观点的评论信息，具体实施时，根据应用服务器提供的业务不同，本发明实施例中涉及的语言文本也不同，这里不再一一列举。

本发明实施例提供的语言文本处理方法可以应用于应用服务器12中，由应用服务器12对收集的语言文本进行分析处理，获得用户针对其提供的互联网业务的情感极性并提供给业务提供方，使得业务提供方可以根据分析得到的情感极性对互联网业务进行改进，使其更加符合用户需求，提高用户体验；另一方面，本发明实施例提供的语言文本处理方法还可以应用于舆情分析，通过对用户关于热点事件的评论信息进行分析，可以获得用户对于热点事件的观点及态度等。

需要说明的是，本发明实施例中涉及的情感极性是指语言文本所表达的感情色彩，可以包括正向、中性、负向等类型。种子词是指已知情感极性的词语。例如，喜欢的情感极性为正向，讨厌的情感极性为负向等等。

为了提高语言文本所表达的情感极性预测的准确性，本发明实施例提供一种结合汉语口语特点的小样本监督学习方法，在对向量转换模型进行训练的过程中，针对中文表达中同音字的特点，本发明实施例中选择粗粒度词及其对应的拼音作为输入特征，以覆盖评论信息中的同音错别字；为了提高词向量转换的准确性，利用海量文本进行训练，而针对现有技术中将分词得到的词转换为词向量时仅考虑在语义空间上词语之间的距离，导致相似语义空间但是情感极性差别较大的词语对应的词向量比较接近的缺陷，本发明实施例中，利用种子词的情感极性训练粗粒度词及其对应的拼音向量，通过该方法训练得到的词向量转换模型能够兼顾词语的情感极性，这样，在进行向量转换时得到的向量能更准确的表征相应的词语或者拼音；在情感极性预测模型训练过程中，利用卷积神经网络的输出和浅层线性模型的输出合并建模，浅层线性模型中引入了记忆特征解决了卷积网络对词或者拼音向量建模过于泛化的问题，以下分别结合向量转换模型和情感极性预测模型的训练过程对本发明实施例的具体实施方式进行介绍。

语言文本是由一个个字有序组成的，比如文本“楼主很用心总结的贼6啊”可以分解成“楼”、“主”、“很”、“用”、“心”、“总”、“结”、“的”、“贼”、“6”、“啊”等字序列。但是，字的语义过于宽泛，比如“6”有多种语义(数字、很牛等)，这导致后续的精确语义建模很困难，有鉴于此，本发明实施例中，采用字的向上组合(词)作为特征进行建模。对同一文本，基于不同的分词粒度，其分词结果亦不一样，比如文本“楼主很用心总结的贼6啊”，采用细粒度分词可以分为“楼主”、“很”、“用心”、“总结”、“的”、“贼”、“6”，而采用粗粒度分词可以分为“楼主”、“很”、“用心”、“总结”、“的”、“贼6”。考虑到文本情感极性与更具象化的词组关联性更强，本发明实施例中选择了粗粒度分词方法。

另一方面，由于拼音输入法的流行，用户编写的语言文本存在大量同音字现象，比如“垃圾手机，辣鸡手机，腊鸡游戏”。同音字语义一样，但在词层面的表现形式上不同。为了涵盖语言文本中同音字的表达，本发明实施例中利用拼音对同音字进行归一化处理，比如“辣鸡”、“腊鸡”、“垃圾”—>laji。

具体实施时，由于情感极性预测模型训练样本标注成本很高，训练样本有限(比如本发明实施例中，情感极性预测模型训练所使用样本数约为较小的量级10万)。而利用深度神经网络等复杂模型对有限样本进行建模时，容易出现过拟合问题。同时少量样本涵盖的词组(10万样本只覆盖了3万左右不一样的词汇)不能覆盖真实数据的词组，造成情感极性预测阶段出现过多未登录词，降低了预测结果的准确性。为例解决这个问题，本发明实施例中，在向量转换模型训练阶段，利用海量数据(具体实施时，采集大于50G的语言文本数据)预训练词向量、拼音向量。

需要说明的是，为了区分用于训练向量转换模型和情感极性预测模型所使用的样本数据，本发明实施例中，称训练向量转换模型所使用的样本数据为第一样本数据，而称训练情感极性预测模型所使用的样本数据为第二样本数据。

由于现有的词训练方法训练得到的向量转换模型中，对于正负词在语义空间上表达距离太近，影响后续的情感极性预测模型的训练结果的准确性。比如“我喜欢这个游戏”“我讨厌这个游戏”中的“喜欢”、“讨厌”等词由于具有相似的上下文，在向量转换模型训练过程中得到的词向量很接近，显然，两者所表达的情感极性是截然不同的。为了解决这个问题，本发明实施例中，在原有词向量训练的基础上对训练的目标函数进行改进，使其同时学习词的上下文信息和情感极性信息。以“我爱农药”中训练“爱”对应的词向量为例，“爱”的词向量除了在预测上下文“我”和“农药”时更新，同时由于“爱”是正面情感词，因此，在利用“爱”的词向量预测情感极性时也会更新其词向量。如图2所示，其为本发明实施例中向量转换模型训练的网络结构示意图，包括输入层(LOOPUP)，隐藏层(HIDDEN)和输出层(Context预测)。本发明实施例中，可以根据表示第一分词对象之间距离的交叉熵和表示第一分词对象情感极性的交叉熵确定所述向量转换模型的损失函数，例如，可以按照以下公式确定向量转换模型训练过程中的损失函数：

loss_target＝L₁+L₂；

其中：loss_target表示向量转换模型的损失函数；

L₁表示第一分词对象距离对应的损失函数；

L₂表示第一分词对象情感极性对应的损失函数；

α表示第一分词对象距离对应的权重；

β表示第一分词对象情感极性对应的权重；

w_target表示目标第一分词对象对应的向量；

表示与目标第一分词对象共上下文的第一分词对象的共轭向量；

表示随机采样的第一分词对象的共轭向量；

y_sentitabet表示目标第一分词对象对应的情感极性；

表示与第一分词对象向量相同维度的权重；

k表示所述第一样本数据中，目标第一分词对象对应的上下文分词对象的数量；

n表示所述第一样本数据中，上下文分词对象的位置标识；

m表示负采样分词对象的数量；

d表示负采样分词对象对应的位置标识；

δ表示逻辑回归函数，其形式是δ(x)＝1/(1+e^-x)，e为自然常数。

其中，共轭向量为与第一分词对象向量相同维度的向量，语义上与上下文分词对象向量紧密相关，属于训练参数的一种。上下文分词对象的位置标识可以标识相应的分词对象与第一分词对象之间的位置关系，即其为目标第一分词对象的上文还是下文，可以采用不同的位置标识来表示，例如，在样本数据中，“爱”的上下文词为“爱”、“王者”，则可以预先设置“爱”、“王者”分别位置标识为0和1。

采用上述方法训练得到的向量转换模型使得正负情感词对应的词向量有较为明显的边界。

基于训练得到的向量转换模型，在情感极性预测模型训练过程中，本发明实施例采用词向量矩阵和拼音向量矩阵双通道作为情感极性预测模型训练的输入，其中，词向量矩阵由第二样本数据分词得到的词所对应的词向量，根据相应的词在第二样本数据中的顺序依序组成。以语言文本“好玩的游戏”为例，在分词步骤中，将其分为“好玩”、“的”和“游戏”三个词，将三个词分别输入上述训练得到的向量转换模型，得到对应的词向量如下：

词“好玩”对应的词向量为：

0.1

-0.1

0.2

0.3

0.4

词“的”对应的词向量为：

0.5

1.1

0.1

-0.1

词“游戏”对应的词向量为：

0.9

0.1

-0.1

0.1

则“好玩的游戏”对应的词向量矩阵如下：

0.1	-0.1	0.2	0.3	0.4
					0.5	1.1	0.1	-0.1	-0.1
0.9	0.1	-0.1	0.1	0.1

相应地，词“好玩”对应的拼音为“haowan”，词“的”对应的拼音为“de”，词“游戏”对应的拼音为“youxi”，将上述三个拼音输入向量转换模型得到拼音“haowan”对应的拼音向量如下：

-0.1

0.1

0.7

0.5

-0.1

拼音“de”对应的拼音向量如下：

0.6

0.3

0.4

-0.1

0.1

拼音“youxi”对应的拼音向量如下：

0.2

-0.1

0.9

0.2

0.3

这样，语言文本“好玩的游戏”对应的拼音向量矩阵如下：

-0.1	0.1	0.7	0.5	-0.1
					0.6	0.3	0.4	-0.1	0.1
0.2	-0.1	0.9	0.2	0.3

如图3所示，其为本发明实施例中，情感极性预测模型训练的网络结构示意图。训练的输入为词向量矩阵和拼音向量矩阵，这些矩阵通过多个卷积核过滤得到对应的向量，这些向量的每个元素进行非线性变换后通过最大采样得到相应的标量，这些标量通过全连接得到和预测标签类别数相同维度的向量，上述向量通过softmax变换得到对应于每个标签类型的概率。

基于此，本发明实施例提供了一种情感极性预测模型的训练方法，如图4所示，其为本发明实施例提供的情感极性预测模型训练方法的实施流程示意图，包括以下步骤：

S41、针对任一第二样本数据，利用深度神经网络从所述第二样本数据中提取第一特征向量。

具体实施时，对于训练情感极性预测模型所使用的第二样本数据，需要预先标注每一第二样本数据对应的情感极性，例如，可以分为正向、中性和负向三类。即训练的标签维度为三维，训练过程中需要预测第二样本数据对应于每一类型标签的概率。

本发明实施例中，可以采用卷积神经网络对第二样本数据进行训练。

S42、利用浅层线性模型从所述第二样本数据中提取第二特征向量。

具体实施时，在向量转换模型训练过程中存在语义漂移问题，例如，词“王者荣耀”如果其在第一样本数据中与情感极性显著的词同时出现频繁，则利用上述训练得到的向量转换模型转换得到的“王者荣耀”对应的词向量本身会携带有明显的情感极性，这样，在步骤S31中利用深度神经网络对词向量/拼音向量进行训练时，中性词“王者荣耀”会被预测为正向或者负向的词。

有鉴于此，本发明实施例中，利用深度神经网络提取了第二样本数据的第一特征向量，同时利用浅层线性模型从所述第二样本数据中提取第二特征向量。

本发明实施例中，可以采用单层感知器模型提取第二样本数据的第二特征向量，其中，在第二特征向量中，根据第二样本数据中包含的全部词数量，在当前训练的第二样本数据中出现的词对应位置为1，其余位置为0，以第二样本数据中包含有30000个词为例，则第二特征向量为1*30000维，在该第二特征向量中，“好玩”、“的”和“游戏”对应的位置处为1，其余位置为0，即可以表示为[0,0,……1,1,1,0,0……]，进一步地，本发明实施例中，还引入了第二样本数据的拼音，词的bigram(二元分词)等离散(one-hot)特征作为第二特征向量，上例中，拼音(“haowan”、“de”、“youxi”)可以表示为[0,0,……1,1,1]，词的bigram(“好玩”“玩的”“的游”“游戏”)可以表示为[1,1,1,1……]。

S43、分别将所述第一特征向量和第二特征向量转换为与预测标签维度相同的向量后求和后输出。

在输出层，初始化两个转换矩阵，其中一个转换矩阵用于将第一特征向量转换为与预测标签维度相同的向量，另外一个转换矩阵用于将第二特征向量转换为与预测标签维度相同的向量，本例中，在进行情感极性预测时，预测标签包括3类：正向、中性和负向，即预测标签维度为1*3，因此，在输出层将第一特征向量和第二特征向量利用上述两个转换矩阵转换为1*3矩阵。

其中，在训练开始时，可以随机初始化两个矩阵中的元素，在训练过程中，根据每一样本的输出结果调整矩阵中的元素值。最后，将两个向量对应元素相加即可得到输出结果。

S44、根据输出的向量，确定第二样本数据对应于每一预测标签的概率。

对步骤S43输出的向量进行softmax变换得到的向量即为第二样本数据对应于每一情感极性标签的概率。对应概率最大的情感标签即为第二样本数据对应的预测情感极性类型。

S45、根据第二样本数据对应的标签及其对应的预测概率，判断情感极性预测模型的输出结果是否稳定，如果是，流程结束，如果否，执行步骤S46。

训过程中，使用一个样本数据就要根据该样本数据的训练结果调整训练参数，这样才能够确保预测训练样本更加精确。因此，每个样本数据都会改变训练参数，最终在某样本对应的预测概率与该样本对应的标签差异在一定阈值范围内时停止训练，或者迭代此次达到设定的阈值停止训练，这两种情况下可以确定情感极性预测模型达到稳定。

S46、调整训练参数，并返回执行步骤S41。

其中，训练参数包括输出层的两个转换矩阵和步骤S41利用卷积神经网络提取第一特征向量的卷积核。

在步骤S41中，可以按照图5所示的流程从第二样本数据中提取第一特征向量：

S411、根据训练参数和第二样本数据对应的词向量矩阵确定第一向量。

其中，词向量矩阵由第二样本数据对应的词向量根据对应的词在第二样本数据中的顺序依序组成。

本步骤中的训练参数可以包括卷积核，初始时，可以随机初始化卷积核，后续根据每一第二样本数据的输出结果调整该卷积核。以如下的卷积核为例：

0.2	0.1	0.9	0.7	0.3
					0.2	0.3	0.1	-0.1	0.4

步骤S411中，即将词向量矩阵与卷积核进行卷积得到第一向量。以词向量矩阵为如下矩阵为例：

0.1	-0.1	0.2	0.3	0.4
					0.5	1.1	0.1	-0.1	-0.1
0.9	0.1	-0.1	0.1	0.1

首先将卷积核第一行第一列的元素对准词向量矩阵的第一行第一列的元素，即将卷积核与如下的矩阵进行卷积：

0.1	-0.1	0.2	0.3	0.4
					0.5	1.1	0.1	-0.1	-0.1

可以得到卷积结果为：0.93。

接下来，将卷积核第一行第一列的元素对准词向量矩阵的第二行第一列的元素，即将卷积核与如下的矩阵进行卷积：

0.5	1.1	0.1	-0.1	-0.1
					0.9	0.1	-0.1	0.1	0.1

可以得到卷积结果为：0.43。

由此，可以得到第一向量为：

0.93
	0.43

S412、根据训练参数和第二样本数据对应的拼音向量矩阵确定第二向量。

其中，拼音向量矩阵由第二样本对应的拼音向量根据对应的拼音在第二样本数据中的顺序依序组成。

与步骤S411类似，步骤S412中利用拼音向量矩阵和卷积核进行卷积，可以得到第二向量如下：

1.24
	0.67

S413、根据第一向量和第二向量，确定第一特征向量。

本例中，词对应的第一向量和拼音对应的第二向量相加得到向量如下：

2.17
	1.1

对上述向量采用最大采样，即2.17作为该卷积核抽取的特征值。多个卷积核抽取的多个特征值组成了一个向量。

将上述多个特征值组成的向量进行非线性变换，最终得到第一特征向量，其非线性变化的方式为对向量的每个元素独立非线性变换，非线性变换函数如下：

将第一特征向量利用其对应的转换矩阵转换为与标签维度数相同的向量，将第二特征向量利用其对应的转换矩阵转换为与标签维度数相同的向量后，将转换后的两个向量相加输出结果。最后，对于输出结果进行softmax变换得到的向量即为第二样本数据对应于每一情感极性标签的概率。对应概率最大的情感标签即为第二样本数据对应的情感极性类型，如图6所示，其为本发明实施例中利用卷积网和浅层线性模型共同建模示意图。

基于训练得到的向量转换模型和情感极性预测模型，本发明实施例提供的语言文本处理方法可以按照图7所示的流程实施，包括以下步骤：

S71、获取待处理的语言文本。

具体实施时，获取的语言文本可以为用户针对服务器提供的任一电子资源的评论信息。

例如，用户针对某游戏发表的如下正向评论信息：1、非常独特的穿越火线音效很好很震撼简洁明了清洗很赞推荐大家可以玩；2、好玩的一款这款穿越火线清晰流畅逼真不可多得的穿越火线值得推荐；3、好家伙，值得下载有点意思的穿越火线，赞一个，很不错的好玩不会累，好评；4、太棒了，欲罢不能；5、有史以来最好玩最棒的手机……赞！或者，用户针对某游戏发表的如下负向评论信息：1.垃圾玩意儿真的懒得评；2、天美儿子坑钱垃圾害人游戏，毁我青春，浪费钱财；3、充钱的世界，越更新越卡，很坑；4、纯粹的沙雕游戏，人物动作不及时，击杀判定有问题，很影响游戏体验，还没有用户反馈系统，总之就是一沙雕游戏，还抄袭吃鸡，这游戏真没意思；5、辣鸡游戏，王者轮回充了钱不能抽奖，坑爹。或者，用户针对某游戏发表的如下中性评论信息：你想爆破吗，你想团队吗，你想躲猫猫吗，你想打僵尸吗，你想吃鸡吗，你想战争风云吗，那你就来cfm吧。

S72、对待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音。

本步骤中，可以采用分词工具得到该处理的语言文本对应的词及其对应的拼音。

具体实施时，由于用户在输入评论信息时存在大量同音字，为了涵盖语言文本中同音字的表达，本发明实施例中，在对待处理的语言文本进行分词时，除了分词得到词语以外，还可以得到每一词语对应的拼音，这样，对于评论信息中出现的同音错别字可以利用拼音进行准确识别。

S73、根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量。

其中，向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的。利用第一样本数据进行训练得到向量转换模型的流程可以参见上述描述，这里不再赘述。

S74、根据第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型。

其中，情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。利用深度神经网络，例如卷积神经网络对带有情感极性标签的第二样本数据训练得到情感极性预测模型的实施过程可以参见上述描述，这里不再赘述。

本发明实施例提供的语言文本处理方法，在训练向量转换模型时，选择粗粒度词及其对应的拼音作为输入特征，解决了同音字难以通过词直接建模的问题；利用海量文本同时考虑种子词的情感极性训练粗粒度词及其对应的拼音向量，解决了小样本下词(拼音)向量训练不充分，词向量训练后正负情感词向量在语义空间间隔太近，以及预测时未登录词过多等问题；在训练情感极性预测模型时，在输入层，利用卷积神经网络对粗粒度词及其对应的拼音双通道建模，解决了文本情感极性和文本中词、拼音的非线性依赖问题；在输出层，利用卷积神经网络的输出和浅层线性模型的输出合并建模，浅层线性模型引入记忆特征解决了卷积网络对词(拼音)向量建模过于泛化导致预测结果不准确的问题。

基于同一发明构思，本发明实施例中还提供了一种语言文本处理装置，由于上述装置解决问题的原理与语言文本处理方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，其为本发明实施例提供的语言文本处理装置的结构示意图，包括：

获取单元81，用于获取待处理的语言文本；

第一分词单元82，用于对所述获得单元获取的待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；

第一转换单元83，用于根据所述分词单元的分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的；

预测单元84，用于根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型，所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

在一个实施例中，本发明实施例提供的语言文本处理装置，还可以包括：

第一确定单元，用于根据表示第一分词对象之间距离的交叉熵和表示第一分词对象情感极性的交叉熵确定所述向量转换模型的损失函数。

例如，第一确定单元可以用于在根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述样本数据中包含的第一分词对象进行训练过程中，按照以下公式确定所述向量转换模型的损失函数：

loss_target＝L₁+L₂；

其中：loss_target表示向量转换模型的损失函数；

L₁表示第一分词对象距离对应的损失函数；

L₂表示第一分词对象情感极性对应的损失函数；

α表示第一分词对象距离对应的权重；

β表示第一分词对象情感极性对应的权重；

w_target表示目标第一分词对象对应的向量；

表示随机采样的第一分词对象的共轭向量，

与

不同；

y_sentitabet表示目标第一分词对象对应的情感极性；

表示与第一分词对象向量相同维度的权重；

n表示所述第一样本数据中，上下文分词对象的位置标识；

m表示负采样分词对象的数量；

d表示负采样分词对象对应的位置标识；

δ表示逻辑回归函数。

第一提取单元，用于针对任一第二样本数据，利用深度神经网络从所述第二样本数据中提取第一特征向量；以及

第二提取单元，用于利用浅层线性模型从所述第二样本数据中提取第二特征向量；

输出单元，用于分别将所述第一特征向量和第二特征向量转换为与预测标签维度相同的向量后求和后输出；

第二确定单元，用于根据输出的向量，确定所述第二样本数据对应于每一预测标签的概率；

判断单元，用于根据所述第二样本数据对应的标签及其对应的预测概率，判断情感极性预测模型的输出结果是否稳定；

处理单元，用于如果判断单元判断出情感极性预测模型的输出结果不稳定，则调整训练参数，返回执行情感极性预测模型训练的步骤，直至情感极性预测模型的输出结果稳定。

其中，处理单元，在判断单元判断出情感极性预测模型的输出结果不稳定，则调整训练参数，并触发第一提取单元执行针对任一第二样本数据，利用深度神经网络从所述第二样本数据中提取第一特征向量的步骤。

具体实施时，如果判断单元判断出情感极性预测模型的输出结果稳定，则结束训练。

第二分词单元，用于针对任一第二样本数据，对所述第二样本数据进行分词得到第二分词对象；

第二转换单元，用于根据分词结果，利用所述向量转换模型将分词得到的第二分词对象转换为第二分词对象向量；

第三确定单元，用于根据所述第二分词对象向量，确定所述第一特征向量。

在一个实施例中，所述第二分词对象包括分词得到的词及其对应的拼音，所述第二分词对象向量包括词向量和拼音向量；以及

所述第三确定单元，用于根据所述训练参数和所述第二样本数据对应的词向量矩阵确定第一向量，所述词向量矩阵由所述词向量根据对应的词在所述第二样本数据中的顺序依序组成；根据所述训练参数和所述第二样本数据对应的拼音向量矩阵确定第二向量，所述拼音向量矩阵由所述拼音向量根据对应的拼音在所述第二样本数据中的顺序依序组成；根据所述第一向量和第二向量，确定所述第一特征向量。

可选地，所述训练参数包括卷积核；以及

所述第三确定单元，用于根据所述卷积核和所述第二样本数据对应的词向量矩阵的卷积结果确定所述第一向量；以及根据所述卷积核和所述第二样本数据对应的拼音向量矩阵的卷积结果确定所述第二向量。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的语言文本处理方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的语言文本处理方法中的步骤。例如，所述处理器可以执行如图7中所示的步骤S71、获取待处理的语言文本，和步骤S72、对待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；以及步骤S73、根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量；步骤S74、根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型。

下面参照图9来描述根据本发明的这种实施方式的计算装置90。图9显示的计算装置90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算装置90以通用计算设备的形式表现。计算装置90的组件可以包括但不限于：上述至少一个处理器91、上述至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。

总线93表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器92可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置90交互的设备通信，和/或与使得该计算装置90能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，计算装置90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器96通过总线93与用于计算装置90的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的语言文本处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的语言文本处理方法中的步骤，例如，所述计算机设备可以执行如图7中所示的步骤S71、获取待处理的语言文本，和步骤S72、对待处理的语言文本进行分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；以及步骤S73、根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量；步骤S74、根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于语言文本处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语言文本处理方法，其特征在于，包括：

获取待处理的语言文本；

对所述待处理的语言文本进行粗粒度分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；

根据分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，所述第一分词对象向量包括词向量和拼音向量，所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的，所述向量转换模型包括输入层，隐藏层和第一输出层，所述向量转换模型训练过程中的损失函数是根据表示第一分词对象之间距离的交叉熵和表示第一分词对象情感极性的交叉熵确定的；

根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型，所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的，所述情感极性预测模型包括深度神经网络，浅层线性模型以及第二输出层，所述深度神经网络用于基于所述第一分词向量提取泛化特征，所述浅层线性模型用于在所述深度神经网络进行特征提取的同时，基于所述第一分词向量提取记忆特征，所述第二输出层用于对所述浅层线性模型输出的记忆特征以及所述深度神经网络输出的泛化特征进行求和后，基于求和结果分析得到所述情感极性类型。

2.如权利要求1所述的方法，其特征在于，利用带有情感极性标签的第二样本数据进行训练得到所述情感极性预测模型的方法，包括：

针对任一第二样本数据，利用深度神经网络从所述第二样本数据中提取第一特征向量；以及

利用浅层线性模型从所述第二样本数据中提取第二特征向量；

分别将所述第一特征向量和第二特征向量转换为与预测标签维度相同的向量后求和后输出；

根据输出的向量，确定所述第二样本数据对应于每一预测标签的概率；

根据所述第二样本数据对应的标签及其对应的预测概率，判断情感极性预测模型的输出结果是否稳定；

如果判断出情感极性预测模型的输出结果不稳定，则调整训练参数，返回执行情感极性预测模型训练的步骤，直至情感极性预测模型的输出结果稳定。

3.如权利要求2所述的方法，其特征在于，针对任一第二样本数据，利用深度神经网络按照以下流程从所述第二样本数据中提取第一特征向量：

针对任一第二样本数据，对所述第二样本数据进行粗粒度分词得到第二分词对象；

根据分词结果，利用所述向量转换模型将分词得到的第二分词对象转换为第二分词对象向量；

根据所述第二分词对象向量，确定所述第一特征向量。

4.如权利要求3所述的方法，其特征在于，所述第二分词对象包括分词得到的词及其对应的拼音，所述第二分词对象向量包括词向量和拼音向量；以及

根据所述第二分词对象向量，确定所述第一特征向量，包括：

根据所述训练参数和所述第二样本数据对应的词向量矩阵确定第一向量，所述词向量矩阵由所述词向量根据对应的词在所述第二样本数据中的顺序依序组成；

根据所述训练参数和所述第二样本数据对应的拼音向量矩阵确定第二向量，所述拼音向量矩阵由所述拼音向量根据对应的拼音在所述第二样本数据中的顺序依序组成；

根据所述第一向量和第二向量，确定所述第一特征向量。

5.一种语言文本处理装置，其特征在于，包括：

获取单元，用于获取待处理的语言文本；

第一分词单元，用于对所述获取单元获取的待处理的语言文本进行粗粒度分词得到第一分词对象，所述第一分词对象包括分词得到的词及其对应的拼音；

第一转换单元，用于根据所述分词单元的分词结果，利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量，所述第一分词对象向量包括词向量和拼音向量，所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的，所述向量转换模型包括输入层，隐藏层和第一输出层，所述向量转换模型训练过程中的损失函数是根据表示第一分词对象之间距离的交叉熵和表示第一分词对象情感极性的交叉熵确定的；

预测单元，用于根据所述第一分词对象向量，利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型，所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的，所述情感极性预测模型包括深度神经网络，浅层线性模型以及第二输出层，所述深度神经网络用于基于所述第一分词向量提取泛化特征，所述浅层线性模型用于在所述深度神经网络进行特征提取的同时，基于所述第一分词向量提取记忆特征，所述第二输出层用于对所述浅层线性模型输出的记忆特征以及所述深度神经网络输出的泛化特征进行求和后，基于求和结果分析得到所述情感极性类型。

6.如权利要求5所述的装置，其特征在于，还包括：

处理单元，用于如果判断出情感极性预测模型的输出结果不稳定，则调整训练参数，返回执行情感极性预测模型训练的步骤，直至情感极性预测模型的输出结果稳定。

7.如权利要求6所述的装置，其特征在于，还包括：

第二分词单元，用于针对任一第二样本数据，对所述第二样本数据进行粗粒度分词得到第二分词对象；

8.如权利要求7所述的装置，其特征在于，所述第二分词对象包括分词得到的词及其对应的拼音，所述第二分词对象向量包括词向量和拼音向量；以及

9.一种计算装置，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～4任一权利要求所述方法的步骤。

10.一种计算机可读介质，其特征在于，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行权利要求1～4任一所述方法的步骤。