CN109471915A

CN109471915A - 一种文本评价方法、装置、设备以及可读存储介质

Info

Publication number: CN109471915A
Application number: CN201811172236.8A
Authority: CN
Inventors: 张凯波; 盛志超; 陈志刚; 魏思; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-03-15
Anticipated expiration: 2038-10-09
Also published as: CN109471915B

Abstract

本申请提供了一种文本评价方法、装置、设备及存储介质，方法包括：获取待评价文本，基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量，一个词对应的目标词向量包含该词在待评价文本的整体内容中的上下文语义信息，将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得待评价文本的评价结果。本申请提供的文本评价方法、装置、设备及存储介质，可自动预测出待评价文本的评价结果，并且，由于用于预测评价结果的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，因此，基于每个词对应的目标词向量能够较准确的预测出评价结果，用户体验较好。

Description

一种文本评价方法、装置、设备以及可读存储介质

技术领域

本申请涉及智能教育技术领域，更具体涉及一种文本评价方法、装置、设备以及可读存储介质。

背景技术

在某些应用领域，需要对文本进行评价，比如，在教育领域，需要对学生的作文进行评分。现有技术中，对文本进行评价的方式大多为人工评价方式，即由评价人员基于文本内容对文本进行评价。然而，在某些时候，待评价的文本往往很多，比如，老师可能需要对成百上千个学生的作文进行评分，因此，人工评价方式耗时、耗力，即人工评价方式的人工成本和时间成本较高，因此，亟需一种能够对文本进行自动评价的方案。

发明内容

有鉴于此，本申请提供了一种文本评价方法、装置、设备以及可读存储介质，用以对待评价文本进行自动评价，其技术方案如下：

文本评价方法，包括：

获取待评价文本；

基于预先建立的词向量确定模型，确定所述待评价文本中每个词对应的目标词向量，一个词对应的目标词向量包含该词在所述待评价文本的整体内容中的上下文语义信息；

将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的评价结果。

优选的，基于预先建立的词向量确定模型，确定所述待评价文本中每个词对应的目标词向量，包括：

利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，将所述语义词向量通过双线性变换的方式得到所述目标词向量；

其中，至少一个词向量确定模型用于获得所述待评价文本中每个词对应的包含自身语义信息的词向量，至少一个词向量确定模型用于获得所述待评价文本中每个词对应的包含局部上下文语义信息的词向量。

优选的，所述预先建立的词向量确定模型包括第一词向量确定模型和第二词向量确定模型；

所述第一词向量确定模型为用于训练语义特征的词向量模型；

所述第二词向量确定模型为带有记忆功能的词向量模型。

优选的，所述利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，包括：

对所述待评价文本的内容进行分词处理，分词处理后得到所述待评价文本中的各个词；

对于所述待评价文本中的每个词，将该词输入所述第一词向量确定模型，获得只包含该词自身语义信息的词向量，作为该词对应的第一语义词向量；

将所述待评价文本中各个词对应的第一语义词向量输入所述第二词向量确定模型，获得每个词对应的、包含局部上下文语义信息的词向量，作为与每个词对应的第二语义词向量。

优选的，所述将所述语义词向量通过双线性变换的方式得到所述目标词向量，包括：

对于所述待评价文本中的每个词，将该词对应的第一语义词向量与至少一个词对应的第二语义词向量通过至少一个双线性矩阵变换，获得至少一个变换结果向量；若所述变换结果向量为一个，则将所述变换结果向量确定为该词对应的目标词向量，若所述变换结果向量为多个，则将多个变换结果向量进行拼接，将拼接后得到的向量确定为该词对应的目标词向量。

优选的，所述将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的评价结果，包括：

基于所述待评价文本中每个词对应的词向量，通过所述评价模型确定整个待评价文本对应的词向量，并以所述整个待评价文本对应的词向量通过所述评价模型预测所述待评价文本的评价结果；

其中，所述词向量确定模型基于多个主题的文本训练得到。

优选的，所述评价模型包括特征提取模块和具有记忆功能的特征表征模块；

所述特征提取模块至少一层，输入为词对应的词向量，输出为变换后词对应的特征向量，若为多层，输出为拼接后的特征向量；

所述特征表征模块至少一层，输入为所述特征向量，输出为整个待评价文本对应的词向量，若为多层，输出为整个待评价文本对应的、拼接后的词向量。

一种文本评价装置，包括：文本获取模块、词向量确定模块和文本评价模块；

所述文本获取模块，用于获取待评价文本；

所述词向量确定模块，用于基于预先建立的词向量确定模型确定所述待评价文本中每个词对应的目标词向量，一个词对应的目标词向量包含该词在所述待评价文本的整体内容中的上下文语义信息；

所述文本评价模块，用于将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的评价结果。

优选的，所述词向量确定模块，具体用于利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，将所述语义词向量通过双线性变换的方式得到所述目标词向量；

优选的，所述文本评价模块，具体用于基于所述待评价文本中每个词对应的目标词向量，通过所述评价模型确定整个待评价文本对应的词向量，并以整个待评价文本对应的词向量通过所述评价模型预测所述待评价文本的评价结果；

其中，所述词向量确定模型基于多个主题的文本训练得到。

一种文本评价设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待评价文本；

基于预先建立的词向量确定模型确定所述待评价文本中每个词对应的目标词向量，一个词对应的目标词向量包含该词在所述待评价文本的整体内容中的上下文语义信息；

将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的得分。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现所述文本评价方法的各个步骤。

经由上述的技术方案可知，本申请提供的文本评价方法、装置、设备及存储介质，首先获取待评价文本，然后基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量，最后将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，通过评价模型预测待评价文本的得分。由此可见，本申请提供的文本评价方法、装置、设备及存储介质，可自动预测出待评价文本的评价，并且，由于用于预测评价的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，因此，基于各个词对应的目标词向量能够较准确的预测出待评价文本的得分，用户体验较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本评价方法的流程示意图；

图2为本申请实施例提供的文本评价方法中，基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量的一种可能的实现方式的流程示意图；

图3为本申请实施例提供的基于第一词向量确定模型和第二词向量确定模型确定待评价文本中各个词对应的目标词向量的一示例的示意图；

图4为本申请实施例提供的文本评价方法中，基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量的另一种可能的实现方式的流程示意图；

图5为本申请实施例提供的基于第一词向量确定模型和第二词向量确定模型确定待评价文本中各个词对应的目标词向量的另一示例的示意图；

图6为本申请实施例提供的评价模型的一示例的示意图；

图7为本申请实施例提供的文本评价装置的结构示意图；

图8为本申请实施例提供的文本评价设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，人工智能技术已成为各行各业进行技术升级、提升工作效率的有效技术手段，比如，人工智能技术正在全面、深刻地影响教育考试理念和模式，目前人工智能技术已经在作文的智能评分中获得实际应用，发明人在实现本发明创造的过程中发现：

现有的评分方案需要专家提前对同一主题下的部分数据进行打分，然后对这些数据提取篇章长度等浅层文本特征或者提取WordEmbedding等语义相关特征，利用这些特征并根据专家打分的结果训练评分模型，进而利用训练得到的评分模型对待评分作文进行评分。现有的评分方案虽然能够实现智能评分，但存在诸多不足，具体体现在：需要专家对部分数据进行打分，没有实现完全自动化，并且需要针对每个主题单独训练一个评分模型，比较麻烦，用户体验不好。

基于此，本申请实施例提供了一种文本评价方法，请参阅图1，示出了该文本评价方法的流程示意图，该方法可以包括：

步骤S101：获取待评价文本。

其中，待评价文本可以是但不限定为考试作文、简答、辩论等文本，待评价文本可以为中文、英文等各种语种的文本。

其中，待评价文本可以为基于输入设备输入而获得的电子文本文档，也可以为从包含文字内容的图像中，通过图像处理及文字识别等技术获得的文本文档，其中，包含文字内容的图像可以但不限为对纸质文本采用扫描、拍照等方式获得的图像，另外，待评价文本还可以为对音频数据进行转写得到的文本文档。

步骤S102：基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量。

其中，通过词向量确定模型确定的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息。

其中，词向量确定模型用于确定用于表征待评价文本中每个词的向量。词向量确定模型基于多个主题的文本训练得到。在一种优选地实现方式中，为了能够对多个主题的文本进行评价，可基于多个主题的训练文本训练词向量确定模型。

需要说明的是，现有评价方案需要针对每一主题训练一个评价模型，比如，待评价文本为学生的作文，作文的主题包括“亲情”、“友情”、“师生情”、“民族请”、“社会问题”、“环境保护”、“哲理”、“理想与追求”、“战争与和平”，假设当前需要对主题为“亲情”的作文进行评价，则需要专家先对主题为“亲情”的一部分作文进行打分，然后根据专家打分的结果训练评价模型，进而利用训练得到的评价模型对主题为“亲情”的作文进行打分，而当需要对主题为“环境保护”的作文进行评价时，需要专家先对主题为“环境保护”的一部分作文进行打分，然后根据专家打分的结果训练评价模型，进而利用训练得到的评价模型对主题为“环境保护”的作文进行打分。由此可见，现有评价方案中，每个主题都需要专家对该主题下的部分作文进行打分，且每个主题都需要训练一个评价模型，在对多主题作文进行评价时，实现过程比较繁琐，并且评价过程无法实现完全自动化，人工成本较高。而本申请是预先收集有评价的多个主题的文本作为训练样本，用多个主题的文本训练评价模型，比如，可收集上述10个主题(仅举例用)的作文训练评价模型，评价模型一旦训练好，便可对上述10个主题的作文进行评价，由此可见，本申请在对多主题作文进行评价时，只需要进行一次模型训练，而不需要针对多个主题分别训练评价模型，即评价实现过程大大简化，并且，不需要专家对部分作文进行评价，即评价过程不需要人工参与，因此，大大节省了人工成本。当然，在需求较低时，也可以使用单主题的多篇训练样本训练评分模型，以评分相关单主题文本。

步骤S103：将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得待评价文本的评价结果。

其中，评价结果可以但不限定为待评价文本的得分。评价模型以训练文本中各个词对应的词向量为训练样本，以训练样本对应的评价结果为样本标签进行训练得到。

本实施例将待评价文本中每个词对应的目标词向量输入评价模型，评价模型基于待评价文本中每个词对应的目标词向量对待评价文本的得分进行预测。

本申请实施例提供的文本评价方法，在获取到待评价文本后，先基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量，然后将待评价文本中每个词对应的目标词向量输入利用多主题训练文本训练得到的评价模型，通过该评价模型预测评价结果。由此可见，本申请实施例提供的文本评价方法中，由于评价模型采用多个主题的训练文本训练得到，因此，训练得到的评价模型可对多个主题的文本进行评价，这使得不再需要针对每个主题单独训练评价模型，再者，由于不需要专家先对部分文本进行评价，即评价过程自动完成，不需要人工参与，因此，大大节省了人工成本，最后，由于用于预测得分的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，因此，通过待评价文本中各个词对应的目标词向量，能够较准确的预测出待评价文本的得分，用户体验较好。

在本申请的另一实施例中，对上述实施例中的“步骤S102：基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量”进行介绍。

基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量的实现方式有多种，在一种可能的实现方式中，可利用至少两个词向量确定模型获得待评价文本中每个词对应的目标词向量。其中，至少一个词向量确定模型用于获得待评价文本中每个词对应的包含自身语义信息的词向量，至少一个词向量确定模型用于获得待评价文本中每个词对应的包含局部上下文语义信息的词向量。

在一种可能的实现方式中，预先建立的词向量确定模型可以包括第一词向量确定模型和第二词向量确定模型，第一词向量确定模型可以为用于训练语义特征的词向量模型，第二词向量确定模型为带有记忆功能的词向量模型。

请参阅图2，示出了利用至少两个词向量确定模型获得待评价文本中每个词对应的目标词向量的一种可能的实现方式的流程示意图，可以包括：

步骤S201：对待评价文本的内容进行分词处理，分词处理后得到待评价文本中的各个词。

步骤S202：对于待评价文本中的每个词，将该词输入该词对应的、预先建立的第一词向量确定模型，获得只包含该词自身语义信息的词向量，作为该词对应的第一语义词向量。

通过上述过程，获得了待评价文本中各个词对应的、只包含自身语义信息的第一语义词向量。

其中，第一词向量确定模型可以为词向量WordEmbedding模型， WordEmbedding模型具体可以为文本深度表示模型word2vec模型、全局词向量表示模型(Global Vectorsfor Word Representation，GloVe)、向量空间模型(Vector Space Model，VSM)中的任意一种，当然，本申请实施例并不限定于此，其它用于确定目标词自身语义信息的词向量的模型也适用。

步骤S203：将待评价文本中各个词对应的第一语义词向量输入预先建立的第二词向量确定模型，获得与每个词对应的、包含局部上下文语义信息的词向量，作为与每个词对应的第二语义词向量，第二语义词向量作为目标词向量。

通过上述过程，获得了待评价文本中各个词对应的、包含局部上下文语义信息的第二语义词向量。

在本实施例中，第二词向量确定模型的输入为待评价文本中所有词对应的第一语义词向量，输出为与待评价文本中各个词对应的、包含局部上下文语义信息的词向量。

在一种可能的实现方式中，第二词向量确定模型可以为长短时记忆网络 LSTM、前馈序列记忆神经网络FSMN中的任意一种，当然还可以为其它具有记忆功能的神经网络。其中，FSMN的每一个隐层都包含一个记忆块，该记忆块用于存储每个输入数据的历史信息和未来信息。本实施例中的第二词向量确定模型优选为长短时记忆网络LSTM。

请参阅图3，示出了基于第一词向量确定模型和第二词向量确定模型确定待评价文本中各个词对应的目标词向量的一示例的示意图。在该示例中，第一词向量确定模型为WordEmbedding模型，第二词向量确定模型为LSTM，图3中的e1～en为与待评价文本中各个词对应的WordEmbedding模型，h1～hn 组成的网络为LSTM网络。从图3可以看出，e1～en输出的第一语义词向量输入LSTM，LSTM中h1的输入为e1输出的向量，h2的输入为e2输出的向量和h1输出的向量，以此类推。基于e1～en可获得待评价文本中各个词对应的、只包含自身语义信息的词向量，而基于LSTM可获得待评价文本中各个词对应的、包含局部上下文语义信息的词向量，LSTM输出的、各个词对应的、包含局部上下文语义信息的词向量作为各个词对应的目标词向量。

下面通过一个具体示例给出基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量的过程：

假设对待评价文本进行分词后得到5个词，5个词分别为c₁、c₂、c₃、c₄和c₅，将c₁、c₂、c₃、c₄和c₅分别输入对应的WordEmbedding模型(如word2vec)，获得5个词对应的第一语义词向量分别为V₁₁、V₁₂、V₁₃、V₁₄和V₁₅，5个词对应的第一语义词向量V₁₁、V₁₂、V₁₃、V₁₄和V₁₅输入第二词向量确定模型(如 LSTM)，获得5个词对应的第二语义词向量分别为V₂₁、V₂₂、V₂₃、V₂₄和V₂₅，将V₂₁作为词c₁对应的目标词向量，将V₂₂作为词c₂对应的目标词向量，将V₂₃作为词c₃对应的目标词向量，将V₂₄作为词c₄对应的目标词向量，将V₂₅作为词c₅对应的目标词向量。该目标词向量至少包括所述待评价文本的局部内容中的上下文语义信息

需要说明的是，若要使用第一向量确定模型和第二向量确定模型确定待评价文本中各个词对应的目标词向量，首先需要对第一向量确定模型和第二向量确定模型进行训练。在训练时，可预先收集大量有评价结果的文本(比如有评分的文本)作为训练样本，优选地，为了能够实现对多个主题的文本进行评价，可收集多主题下的文本作为训练样本，对训练样本进行分词处理，用分词处理得到的词训练第一向量确定模型和第二向量确定模型，对第一向量确定模型和第二向量确定模型进行训练的过程为现有技术，本实施例在此不作赘述。

为了使输入评价模型中的词向量能够更好地表征各个词，以覆盖待评分文本的整体内容的上下文信息，从而提升评价的准确性，本申请实施例提供了基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量的另一种可能的实现方式，在该实现方式中，可先利用至少两个词向量确定模型获得待评价文本中每个词对应的语义词向量，然后将语义词向量通过双线性变换的方式得到目标词向量。请参阅图4，示出了该实现方式的具体流程示意图，可以包括：

步骤S401：对待评价文本的内容进行分词处理，分词处理后得到待评价文本中的各个词。

步骤S402：对于待评价文本中的每个词，将该词输入该词对应的、预先建立的第一词向量确定模型，获得只包含该词自身语义信息的词向量，作为该词对应的第一语义词向量。

步骤S403：将待评价文本中各个词对应的第一语义词向量输入预先建立的第二词向量确定模型，获得与每个词对应的、包含局部上下文语义信息的词向量，作为与每个词对应的第二语义词向量。

需要说明的是，本实施例中步骤S301～S303的具体实现过程和相关说明可参见上述实施例中的步骤S201～S203，本实施例在此不作赘述。

步骤S404：对于待评价文本中的每个词，将该词对应的第一语义词向量与待评价文本中至少一个词对应第二语义词向量进行双线性矩阵变换，并基于变换结果确定该词对应的目标词向量。

具体地，将该词的第一语义词向量与至少一个词的第二语义词向量进行至少一个双线性矩阵变换，获得至少一个变换结果向量；若基于该词的第一语义词向量和待评价文本中的一个词的第二语义词向量确定该词对应的目标词向量，即获得的变换结果向量为一个，则将该变换结果向量确定为该词对应的目标词向量；若基于该词的第一语义词向量和待评价文本中多个词的第二语义词向量确定该词对应的目标词向量，即获得的变换结果向量为多个，则将多个变换结果向量进行拼接，将拼接后得到的向量确定为该词对应的目标词向量。

请参阅图5，示出了基于第一词向量确定模型和第二词向量确定模型确定待评价文本中各个词对应的目标词向量的一示例的示意图，与图3不同的是，增加了对WordEmbedding模型输出的第一向量与LSTM输出的第二向量进行双线性矩阵变换的过程，如图5中的50部分，图5中的501为e1～en 输出的待评价文本中各个词对应的第一语义词向量，502为LSTM输出的待评价文本中各个词对应的第二语义词向量，503为双线性变换矩阵。在进行双线性矩阵变换时，将第一语义词向量、双线性变换矩阵和第二语义词向量三者相乘，便可得到变换结果向量。

为了获得待评价文本中各个词在整个文本中的信息，即为了获得包含词在待评价文本的整体内容中的上下文语义信息的目标词向量，在一种优选地实现方式中，对于待评价文本中的每个词，可将该词的第一语义词向量分别与待评价文本中的各个词对应的第二语义词向量进行双线性矩阵变换，获得多个变换结果向量(变换结果向量的数量与待评价文本中词的数量相同)，然后将多个变换结果向量进行拼接，拼接后的向量作为该词对应的目标词向量，由于该词对应的目标词向量通过对该词对应的第一语义词向量与待评价文本中所有词对应的第二语义词向量进行双线性矩阵变换后拼接得到，因此，该词对应的目标词向量包含了该词在待评价文本的整体内容中的上下文语义信息。

另外，需要说的是，在对第一语义词向量与第二语义词向量进行双线性矩阵变换时，优选为对第一语义词向量与第二语义词向量进行多个双线性矩阵变换，进行双线性矩阵变换的目标是为了获得第一语义词向量和第二语义词向量之间的关联信息，由于双线性矩阵都是随机初始化的，进行多个双线性矩阵变换的目的一方面是为了从不同的矩阵那里学习到不同的信息，互为补充，另一方面为了增强鲁棒性，避免只进行单个双线性矩阵变换可能会造成的信息缺失。

假设对待评价文本进行分词后得到5个词，5个词分别为c₁、c₂、c₃、c₄和c₅，将c₁、c₂、c₃、c₄和c₅分别输入对应的WordEmbedding模型(如word2vec)，获得5个词对应的第一语义词向量，分别为V₁₁、V₁₂、V₁₃、V₁₄和V₁₅，5个词对应的第一语义词向量V₁₁、V₁₂、V₁₃、V₁₄和V₁₅输入第二词向量确定模型 (如LSTM)，获得5个词对应的第二语义词向量，分别为V₂₁、V₂₂、V₂₃、 V₂₄和V₂₅，将V₁₁分别与V₂₁、V₂₂、V₂₃、V₂₄和V₂₅进行双线性矩阵变换，获得变换结果向量V_d1-11、V_d1-12、V_d1-13、V_d1-14和V_d1-15，将变换结果向量V_d1-11、 V_d1-12、V_d1-13、V_d1-14和V_d1-15进行拼接，拼接后得到向量V_d1，将V_d1作为词 c₁对应的目标词向量，词c₁对应的目标词向量包含了词c₁在待评价文本的整体内容中的上下文信息；同样地，将V₁₂分别与V₂₁、V₂₂、V₂₃、V₂₄和V₂₅进行双线性矩阵变换，获得变换结果向量V_d2-11、V_d2-12、V_d2-13、V_d2-14和V_d2-15，将变换结果向量V_d2-11、V_d2-12、V_d2-13、V_d2-14和V_d2-15进行拼接，拼接后得到向量V_d2，将V_d2作为词c₂对应的目标词向量，词c₂对应的目标词向量包含了词c₂在待评价文本的整体内容中的上下文信息，以此类推，可获得V_d3作为词c₃对应的目标词向量，可获得V_d4作为词c₄对应的目标词向量，可获得V_d5作为词c₅对应的目标词向量，至此，获得了待评价文本中各个词对应的目标词向量。

在获得待评价文本中各个词对应的目标词向量后，便可将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得评价模型输出的、待评价文本的评价结果(比如，获得待评价文本的得分)。

将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得评价模型输出的、待评价文本的评价结果的过程可以包括：基于待评价文本中每个词对应的目标词向量，通过评价模型确定整个待评价文本对应的词向量，并以整个待评价文本对应的词向量通过评价模型预测待评价文本的评价结果。

在一种可能的实现方式中，评价模型包括特征提取模块和具有记忆功能的特征表征模块。

其中，特征提取模块至少为一层，其输入为词对应的目标词向量，其输出为变换后词对应的特征向量，若特征提取模块为多层，其输出为拼接后的特征向量。特征表征模块至少为一层，其输入为特征提取模块提取的特征向量，其输出为整个待评价文本对应的词向量，若特征表征模块为多层，其输出为整个待评价文本对应的、拼接后的词向量。优选地，特征提取模块可以为卷积神经网络CNN，具有记忆功能的特征表征模块可以为LSTM网络。

具体的，本实施例中的评价模型存在如下四种形式：

其一，一层特征提取模块(比如一层CNN)和一层具有记忆功能的特征表征模块(比如一层LSTM)，此时，特征提取模块的输入为待评价文本中所有词对应的目标词向量，具有记忆功能的特征表征模块的输入为特征提取模块输出的特征向量，具有记忆功能的特征表征模块的输出即为整个待评价文本对应的词向量。

其二，多层特征提取模块(比如多层CNN)和一层具有记忆功能的特征表征模块，此时，待评价文本中所有词对应的目标词向量输入第一层特征提取模块，各层特征提取模块输出的特征向量进行拼接后得到的向量作为具有记忆功能的特征表征模块的输入，具有记忆功能的特征表征模块的输出即为整个待评价文本对应的词向量。

其三，一层特征提取模块(比如一层CNN)和多层具有记忆功能的特征表征模块(比如多层LSTM)，此时，特征提取模块的输入为待评价文本中所有词对应的目标词向量，特征提取模块输出的特征向量输入第一层具有记忆功能的特征表征模块，将各层具有记忆功能的特征表征模块输出的向量进行拼接后得到的向量作为整个待评价文本对应的词向量。

其四，多层特征提取模块(比如多层CNN)和多层具有记忆功能的特征表征模块(比如多层LSTM)，待评价文本中所有词对应的目标词向量输入第一层特征提取模块，各层特征提取模块输出的特征向量进行拼接后得到的向量输入第一层具有记忆功能的特征表征模块，将各层具有记忆功能的特征表征模块输出的词向量进行拼接后得到的向量作为整个待评价文本对应的词向量。

本申请实施例中的评价模型优选为包括多层特征提取模块和多层具有记忆功能的特征表征模块，请参阅图6，示出了包括多层特征提取模块和多层具有记忆功能的特征表征模块的评价模型的一示例的示意图，从图6可以看出，待评价文本中所有词对应的目标词向量输入CNN1，CNN1～CNNn输出的特征向量进行拼接后得到的向量输入LSTM1，LSTM1～LSTMn输出的向量进行拼接后得到的向量即为整个待评价文本对应的词向量。

需要说明的是，特征提取模块如CNN的作用是从输入向量中提取特征，考虑到采用一层特征提取模块学到的特征往往是局部的，而特征提取模块的层数越多，学到的特征就越全局化，因此，采用多层特征提取模块可以获得全局化的特征，从而能够对待评价文本的整体内容进行更好的表征。具有记忆功能的特征表征模块如LSTM除了用于引入上下文信息之外，还引入不同层的特征提取模块输出的信息，采用多层具有记忆功能的特征表征模块的目的一方面是为了学习到更全局化的特征，另一方面是为了将不同层CNN之间的特征学习的更好，从而使最终输出的词向量能更好地表征待评价文本的整体内容。

本申请实施例提供的文本评价方法，不但能够自动预测出待评价文本的评价结果，而且，通过采用多个主题的训练文本训练评价模型，使得评价模型可对多个主题的文本进行评价，而不再需要针对每个主题单独训练评价模型，再者，由于输入评价模型的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，并且评价模型中的至少一层特征提取模块和至少一层具有记忆功能的特征表征模块基于各个词对应的目标词向量能够确定出对待评价文本的整体内容进行较好表征的词向量，从而使得基于该词向量能够准确预测出待评价文本的得分，用户体验较好。

与上述文本评价方法相对应，本申请实施例还提供了一种文本评价装置，请参阅图7，示出了该文本评价装置的结构示意图，该装置可以包括：文本获取模块701、词向量确定模块702和文本评价模块703。

文本获取模块701，用于获取待评价文本。

词向量确定模块702，用于基于预先建立的词向量确定模型确定所述待评价文本中每个词对应的目标词向量。

其中，一个词对应的目标词向量包含该词在所述待评价文本的整体内容中的上下文语义信息。

文本评价模块703，用于将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的评估结果。

本申请实施例提供的文本评价装置，首先获取待评价文本，然后基于预先建立的词向量确定模型确定待评价文本中每个词对应的目标词向量，最后将待评价文本中每个词对应的目标词向量输入预先建立的评价模型，通过评价模型预测待评价文本的评价结果。由此可见，本申请实施例提供的文本评价装置可自动对待评价文本进行评价，并且，由于用于预测评价结果的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，因此，基于各个词对应的目标词向量能够较准确的预测出评价结果，用户体验较好。

在一种可能的实现方式中，上述实施例提供的文本评价装置中的词向量确定模块702，具体用于利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，将所述语义词向量通过双线性变换的方式得到所述目标词向量。

在一种可能的实现方式中，所词向量确定模型包括第一词向量确定模型和第二词向量确定模型。

所述第一词向量确定模型为用于训练语义特征的词向量模型，所述第二词向量确定模型为带有记忆功能的词向量模型。所述第一词向量确定模型可以为词向量WordEmbedding模型，WordEmbedding模型可以为文本深度表示模型word2vec、全局词向量表示模型GloVe、向量空间模型VSM中的任意一种模型；第二词向量确定模型可以为长短时记忆网络LSTM、前馈序列记忆神经网络FSMN中的任意一种模型。

在一种可能的实现方式中，上述实施例提供的文本评价装置中的词向量确定模块702包括：分词子模块、第一词向量确定子模块和第二词向量确定子模块。

所述分词子模块，用于对所述待评价文本的内容进行分词处理，分词处理后得到所述待评价文本中的各个词；

所述第一词向量确定子模块，用于对于所述待评价文本中的每个词，将该词输入所述第一词向量确定模型，获得只包含该词自身语义信息的词向量，作为该词对应的第一语义词向量；

所述第二词向量确定子模块，用于将所述待评价文本中各个词对应的第一语义词向量输入所述第二词向量确定模型，获得每个词对应的、包含局部上下文语义信息的词向量，作为与每个词对应的第二语义词向量。

在一种可能的实现方式中，词向量确定模块还包括：双线性变换子模块和目标词向量确定子模块。

所述双线性变换子模块，用于对于所述待评价文本中的每个词，将该词对应的第一语义词向量与至少一个词对应的第二语义词向量通过至少一个双线性矩阵变换获得至少一个变换结果向量；

所述目标词向量确定子模块，用于当所述变换结果向量为一个时，将所述变换结果向量确定为该词对应的目标词向量，当所述变换结果向量为多个时，将多个变换结果向量进行拼接，将拼接后得到的向量确定为所述目标词对应的目标词向量。

在一种可能的实现方式中，上述实施例提供的文本评价装置中的文本评价模块703，具体用于基于所述待评价文本中每个词对应的目标词向量，通过所述评价模型确定整个待评价文本对应的词向量，并以整个待评价文本对应的词向量通过所述评价模型预测所述待评价文本的评价结果。其中，所述词向量确定模型基于多个主题的文本训练得到。

优选地，所述评价模型包括特征提取模块和至少一层具有记忆功能的特征表征模块。

所述特征提取模块至少一层，输入为词对应的目标词向量，输出为变换后词对应的特征向量，若为多层，输出为拼接后的特征向量。所述特征表征模块至少一层，输入为所述特征向量，输出为整个待评价文本对应的词向量，若为多层，输出为整个待评价文本对应的、拼接后的词向量。

本申请实施例提供的文本评价装置，不但能够自动预测出待评价文本的评价结果，而且，通过采用多个主题的训练文本训练评价模型，使得评价模型可对多个主题的文本进行评价，而不再需要针对每个主题单独训练评价模型，再者，由于输入评价模型的目标词向量包含了对应词在待评价文本的整体内容中的上下文语义信息，并且评价模型中的至少一层特征提取模块和至少一层具有记忆功能的特征表征模块基于各个词对应的目标词向量能够确定出对待评价文本的整体内容进行较好表征的词向量，从而使得基于该词向量能够准确预测出评价结果，用户体验较好。

本申请实施例还提供了一种文本评价设备，请参阅图8，示出了该文本评价设备的结构示意图，该设备可以包括：存储器801和处理器802。

存储器801，用于存储程序；

处理器802，用于执行所述程序，所述程序具体用于：

获取待评价文本；

基于预先建立的词向量确定模型确定所述待评价文本中每个词对应的目标词向量，其中，一个词对应的目标词向量包含该词在所述待评价文本的整体内容中的上下文语义信息；

文本评价设备还包括：总线、通信接口803、输入设备804和输出设备 805。

处理器802、存储器801、通信接口803、输入设备804和输出设备805 通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器802可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器802可包括主处理器，还可包括基带芯片、调制解调器等。

存储器801中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器801可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备804可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备805可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口803可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器802执行存储器801中所存放的程序，以及调用其他设备，可用于实现本发明实施例所提供的文本评价方法的各个步骤。

本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的文本评价方法的各个步骤。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本评价方法，其特征在于，包括：

获取待评价文本；

2.根据权利要求1所述的文本评价方法，其特征在于，基于预先建立的词向量确定模型确定所述待评价文本中每个词对应的目标词向量，包括：

3.根据权利要求2所述的文本评价方法，其特征在于，所述预先建立的词向量确定模型包括第一词向量确定模型和第二词向量确定模型；

所述第二词向量确定模型为带有记忆功能的词向量模型。

4.根据权利要求2所述的文本评价方法，其特征在于，所述利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，包括：

5.根据权利要求4所述的文本评价方法，其特征在于，所述将所述语义词向量通过双线性变换的方式得到所述目标词向量，包括：

6.根据权利要求1所述的文本评价方法，其特征在于，所述将所述待评价文本中每个词对应的目标词向量输入预先建立的评价模型，获得所述待评价文本的评价结果，包括：

其中，所述词向量确定模型基于多个主题的文本训练得到。

7.根据权利要求2或6所述的文本评价方法，其特征在于，所述评价模型包括特征提取模块和具有记忆功能的特征表征模块；

8.一种文本评价装置，其特征在于，包括：文本获取模块、词向量确定模块和文本评价模块；

所述文本获取模块，用于获取待评价文本；

9.根据权利要求7所述的文本评价装置，其特征在于，所述词向量确定模块，具体用于利用至少两个词向量确定模型获得所述待评价文本中每个词对应的语义词向量，将所述语义词向量通过双线性变换的方式得到所述目标词向量；

10.根据权利要求8所述的文本评价装置，其特征在于，所述文本评价模块，具体用于基于所述待评价文本中每个词对应的目标词向量，通过所述评价模型确定整个待评价文本对应的词向量，并以所述整个待评价文本对应的词向量通过所述评价模型预测所述待评价文本的评价结果；

其中，所述词向量确定模型基于多个主题的文本训练得到。

11.根据权利要求9或10所述的文本评价装置，其特征在于，所述评价模型包括特征提取模块和具有记忆功能的特征表征模块；

12.一种文本评价设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待评价文本；

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的文本评价方法的各个步骤。