CN108255808B

CN108255808B - 文本划分的方法、装置和存储介质以及电子设备

Info

Publication number: CN108255808B
Application number: CN201711488050.9A
Authority: CN
Inventors: 董超; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-10-22
Anticipated expiration: 2037-12-29
Also published as: CN108255808A

Abstract

本公开涉及一种文本划分的方法、装置和存储介质以及电子设备，该方法包括：获取多个样本评价文本；从每个样本评价文本中确定评价词组，评价词组包括对象词语和评价词语，评价词语用于评价对象词语对应的评价对象；获取评价词组对应的划分维度；根据评价词组和划分维度得到文本划分模板；获取待划分评价文本，并通过文本划分模板对待划分评价文本进行划分。

Description

文本划分的方法、装置和存储介质以及电子设备

技术领域

本公开涉及数据处理领域，具体地，涉及一种文本划分的方法、装置和存储介质以及电子设备。

背景技术

随着互联网的快速发展，互联网上存在着对各种各样的商品进行口碑评价的评价信息，例如电商领域，已经购买过目标商品的用户通常会对目标商品、商家服务以及物流等整体服务流程体系进行评价，这样，使得准备购买该目标商品的用户可以查看已经购买过该目标商品的用户的评价信息以对目标商品进行多方面的了解，从而判断该目标商品是否符合自身需求，此外，商家可根据评价信息来改进自身的不足之处。

但是，在信息爆炸的时代，由于评价信息是海量的，并且评价信息中包括了对目标商品不同方面的评价，这样，若用户关注的信息为该目标商品的某一方面，则需要从该评价信息中逐个查找关注的信息并进行查看，耗费用户较长时间。

发明内容

为了解决上述问题，本公开提出了一种文本划分的方法、装置和存储介质以及电子设备。

根据本公开实施例的第一方面，提供一种文本划分的方法，所述方法包括：

获取多个样本评价文本；

从每个所述样本评价文本中确定评价词组，所述评价词组包括对象词语和评价词语，所述评价词语用于评价所述对象词语对应的评价对象；

获取所述评价词组对应的划分维度；

根据所述评价词组和所述划分维度得到文本划分模板；

获取待划分评价文本，并通过所述文本划分模板对所述待划分评价文本进行划分。

可选地，在所述根据所述评价词组和所述划分维度得到文本划分模板之前，还包括：

获取所述评价词组对应的评价标识；

所述根据所述评价词组和所述划分维度得到文本划分模板包括：

根据所述评价标识和所述评价词组以及所述划分维度得到所述文本划分模板。

可选地，所述获取所述评价词组对应的评价标识包括：

确定所述评价词组在每个所述样本评价文本中的权重；

根据所述评价标识和所述权重获取评价标识函数；所述评价标识函数是以所述评价标识作为未知量的函数；

根据所述评价标识函数得到所述评价标识。

可选地，所述从每个所述样本评价文本中确定评价词组包括：

将每个所述样本评价文本进行分词处理得到多个样本词语；

通过多个所述样本词语训练预设词模型得到词向量模型；

根据所述词向量模型确定所述评价词组。

可选地，在所述根据所述词向量模型确定所述评价词组前，还包括：

对每个所述样本评价文本进行分句处理得到每个所述样本评价文本的至少一个样本分句；

获取每个所述样本分句的句法信息；所述句法信息包括所述样本分句中的分词词语的词性信息和所述分词词语在对应的所述样本分句中的句法结构；

所述根据所述词向量模型确定所述评价词组包括：

在所述句法信息与规范句法信息相同时，根据所述句法信息和所述规范句法信息获取每个所述样本分句中的待筛选对象词语和待筛选评价词语，确定所述待筛选对象词语和所述待筛选评价词语组成待筛选评价词组，并根据所述词向量模型从所述待筛选评价词组中筛选出评价词组。

可选地，所述通过所述文本划分模板对所述待划分评价文本进行划分包括：

对所述待划分评价文本进行分句处理得到至少一个目标分句；

对每个所述目标分句进行分词处理得到多个目标词语；

在多个所述目标词语中存在与所述文本划分模板中的评价词组匹配的目标评价词组时，将所述目标评价词组按照所述文本划分模板进行划分。

可选地，所述目标评价词组包括目标对象词语和目标评价词语，在所述通过所述文本划分模板对所述待划分评价文本进行划分后，还包括：

获取所述目标对象词语和所述目标评价词语之间存在的否定词语的词语数量；

根据所述词语数量以及所述文本划分模板中所述目标评价词组对应的评价标识确定目标评价标识；

将所述目标评价词组对应的评价标识更新为所述目标评价标识。

可选地，所述根据所述词语数量以及所述文本划分模板中所述目标评价词组对应的评价标识确定目标评价标识包括：

在所述词语数量为偶数时，确定所述文本划分模板中所述目标评价词组对应的评价标识为所述目标评价标识；

在所述词语数量为奇数时，将所述文本划分模板中所述目标评价词组对应的评价标识进行取反处理得到所述目标评价标识。

根据本公开实施例的第二方面，提供一种文本划分的装置，所述装置包括：

文本获取模块，用于获取多个样本评价文本；

词组确定模块，用于从每个所述样本评价文本中确定评价词组，所述评价词组包括对象词语和评价词语，所述评价词语用于评价所述对象词语对应的评价对象；

维度获取模块，用于获取所述评价词组对应的划分维度；

模板获取模块，用于根据所述评价词组和所述划分维度得到文本划分模板；

划分模块，用于获取待划分评价文本，并通过所述文本划分模板对所述待划分评价文本进行划分。

可选地，还包括：

标识获取模块，用于获取所述评价词组对应的评价标识；

所述模板获取模块，用于根据所述评价标识和所述评价词组以及所述划分维度得到所述文本划分模板。

可选地，所述标识获取模块包括：

第一确定子模块，用于确定所述评价词组在每个所述样本评价文本中的权重；

第一获取子模块，用于根据所述评价标识和所述权重获取评价标识函数；所述评价标识函数是以所述评价标识作为未知量的函数；

第二获取子模块，用于根据所述评价标识函数得到所述评价标识。

可选地，所述词组确定模块包括：

第一分词子模块，用于将每个所述样本评价文本进行分词处理得到多个样本词语；

训练子模块，用于通过多个所述样本词语训练预设词模型得到词向量模型；

第二确定子模块，用于根据所述词向量模型确定所述评价词组。

可选地，还包括：

第一分句子模块，用于对每个所述样本评价文本进行分句处理得到每个所述样本评价文本的至少一个样本分句；

第三获取子模块，用于获取每个所述样本分句的句法信息；所述句法信息包括所述样本分句中的分词词语的词性信息和所述分词词语在对应的所述样本分句中的句法结构；

所述第二确定子模块，用于在所述句法信息与规范句法信息相同时，根据所述句法信息和所述规范句法信息获取每个所述样本分句中的待筛选对象词语和待筛选评价词语，确定所述待筛选对象词语和所述待筛选评价词语组成待筛选评价词组，并根据所述词向量模型从所述待筛选评价词组中筛选出评价词组。

可选地，所述划分模块包括：

第二分句子模块，用于对所述待划分评价文本进行分句处理得到至少一个目标分句；

第二分词子模块，用于对每个所述目标分句进行分词处理得到多个目标词语；

划分子模块，用于在多个所述目标词语中存在与所述文本划分模板中的评价词组匹配的目标评价词组时，将所述目标评价词组按照所述文本划分模板进行划分。

可选地，所述目标评价词组包括目标对象词语和目标评价词语，还包括：

数量获取模块，用于获取所述目标对象词语和所述目标评价词语之间存在的否定词语的词语数量；

标识确定模块，用于根据所述词语数量以及所述文本划分模板中所述目标评价词组对应的评价标识确定目标评价标识；

更新模块，用于将所述目标评价词组对应的评价标识更新为所述目标评价标识。

可选地，所述标识确定子模块，用于在所述词语数量为偶数时，确定所述文本划分模板中所述目标评价词组对应的评价标识为所述目标评价标识；

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

上述第三方面所述的计算机可读存储介质；以及

一个或者对个处理器，用于执行所述计算机可读存储介质中的程序。

通过上述技术方案，获取多个样本评价文本；从每个所述样本评价文本中确定评价词组，所述评价词组包括对象词语和评价词语，所述评价词语用于评价所述对象词语对应的评价对象；获取所述评价词组对应的划分维度；根据所述评价词组和所述划分维度得到文本划分模板；获取待划分评价文本，并通过所述文本划分模板对所述待划分评价文本进行划分，这样，通过该文本划分模板能够准确得到该待划分评价文本的划分结果，使得用户可以从该划分结果中查看关注的信息，避免了用户从该待划分评价文本中查找关注的信息的繁琐操作，从而提高了用户查看关注的信息的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开示例性实施例示出的一种文本划分的方法的流程图；

图2为本公开示例性实施例示出的另一种文本划分的方法的流程图；

图3为本公开示例性实施例示出的第一种文本划分的装置框图；

图4为本公开示例性实施例示出的第二种文本划分的装置框图；

图5为本公开示例性实施例示出的第三种文本划分的装置框图；

图6为本公开示例性实施例示出的第四种文本划分的装置框图；

图7为本公开示例性实施例示出的第五种文本划分的装置框图；

图8为本公开示例性实施例示出的第六种文本划分的装置框图；

图9为本公开示例性实施例示出的第七种文本划分的装置框图；

图10为本公开示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在本公开的应用场景下，准备购买目标商品的用户通常需要对该目标商品进行进一步了解，例如查看该目标商品的性能参数以及图片等，此外，准备购买目标商品的用户还可以通过查看已经购买过该目标商品的用户对该目标商品进行评价的评价信息以确定该目标商品是否符合使用需求，例如，若该目标商品为某款汽车，则该评价信息可以是该某款汽车在加速动力、起步动力、升档动力、后备箱空间、驾驶室空间或者前后排空间等不同方面的信息，但是，若用户关注该某款汽车在加速动力的信息，则由于评价信息中包括了该某款汽车在不同方面的信息以及与该某款汽车无关的其他信息，从而使得该评价信息中包括的信息较多，这样，用户在查看关注的信息时，需要从该评价信息中获取到需要查看关注的信息，从而耗费用户较长时间。

本公开公开了一种文本划分的方法，该方法可以获取目标商品的多个评价信息，并获取该评价信息对应的样本评价文本，从每个样本评价文本中确定评价词组，并在确定评价词组的基础上进一步考虑评价词组的划分维度，根据划分维度和评价词组得到文本划分模板，从而在后续通过得到的文本划分模板对待划分评价文本进行划分时，能够准确得到该待划分评价文本的划分结果，使得用户可以从该划分结果中查看关注的信息，避免了用户从该待划分评价文本中查找关注的信息的繁琐操作，从而提高了用户查看关注的信息的效率。

下面将结合具体实施例对本公开进行详细说明。

图1为本公开示例性实施例示出的一种文本划分的方法的流程图，如图1所示，该方法包括：

S101、获取多个样本评价文本。

其中，该样本评价文本包括对目标商品的至少一个评价对象进行评价的文本。

S102、从每个该样本评价文本中确定评价词组。

在本公开中，该评价词组包括对象词语和评价词语，该评价词语用于评价该对象词语对应的评价对象。

为了方便描述，本公开以该目标商品为某款汽车为例进行说明，若获取的多个该样本评价文本是已经购买过该某款汽车的用户对该某款汽车进行评价的文本，则该评价对象对应的对象词语可以包括加速动力、起步动力、升档动力、后备箱空间、驾驶室空间和前后排空间，该对象词语对应的评价词语依次为迅猛、欠佳、顺畅、稍短、惬意、狭窄，这样，该评价词组可以包括“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”，“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”，上述示例只是举例说明，本公开对此不作限定。

S103、获取该评价词组对应的划分维度。

在本步骤中，可以根据该评价词组中的对象词语确定该划分维度，示例地，继续以S102中的示例为例进行说明，若该评价词组包括“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”，“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”，则由于加速动力、起步动力、升档动力都用于评价汽车的动力，而后备箱空间、驾驶室空间、前后排空间都用于评价汽车的空间，因此，该评价词组“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”对应的划分维度是动力，该评价词组“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”对应的划分维度是空间，上述示例只是举例说明，本公开对此不作限定。

S104、根据该评价词组和该划分维度得到文本划分模板。

其中，可以将该评价词组按照不同划分维度进行划分得到该文本划分模板，继续以S103中的示例为例进行说明，由于该评价词组“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”对应的划分维度是动力，该评价词组“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”对应的划分维度是空间，因此，可以将上述评价词组划分为两个划分维度(即动力和空间)得到文本划分模板，这样，将评价词组“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”在动力对应的划分维度中展示，将评价词组“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”在空间对应的划分维度中展示，上述示例只是举例说明，本公开对此不作限定。

S105、获取待划分评价文本，并通过该文本划分模板对该待划分评价文本进行划分。

采用上述方法，从每个样本评价文本中确定评价词组，并在确定评价词组的基础上进一步考虑评价词组的划分维度，根据划分维度和评价词组得到文本划分模板，从而在后续通过得到的文本划分模板对待划分评价文本进行划分时，能够准确得到该待划分评价文本的划分结果，使得用户可以从该划分结果中查看关注的信息，避免了用户从该待划分评价文本中查找关注的信息的繁琐操作，从而提高了用户查看关注的信息的效率。

图2为本公开示例性实施例示出的一种文本划分的方法的流程图，如图2所示，该方法包括：

S201、获取多个样本评价文本。

其中，该样本评价文本包括对目标商品的至少一个评价对象进行评价的文本，在本步骤中，可以通过爬虫技术获取多个该样本评价文本，示例地，获取的多个该样本评价文本的文本集合可以表示为D＝{d₁,d₂,...d_l,...,d_n}，d_l表示第l个样本评价文本，这样，在后续步骤中可以从该文本集合中依次获取每个样本评价文本。

S202、将每个该样本评价文本进行分词处理得到多个样本词语。

在本步骤中，分词处理可以包括多种方法，如字符匹配的方法(即机械分词方法)，具体地，将每个该样本评价文本依次与预设词典中的词条进行匹配，若在该预设词典中找到每个该样本评价文本对应的某个词条，则匹配成功，从而识别出一个词语，需要说明的是，由于一些词语如“啊”“噢”“嘛”“的”等停用词，并无实际的意义，只是表示语气，如果将这些词也加入到后续的预设词模型训练中，会造成计算复杂度过大的问题，从而占用较多的数据处理资源。因此，为了解决该问题，在本发明另一实施例中，在对每个该样本评价文本进行分词处理得到多个样本词语后，可以将停用词去除，这样，能够将没有实际意义的词语去掉，从而在保证划分结果准确性的情况下，减少后续预设词模型训练过程中的计算复杂度。

S203、通过多个该样本词语训练预设词模型得到词向量模型。

在本步骤中，可以采用word2vec算法将多个该样本词语代入预设词模型中训练得到该词向量模型，并在后续步骤中可以根据该词向量模型获取每个词语对应的向量，该模型训练过程与现有技术中相同，不再赘述，需要说明的是，本公开还可以获取规范样本，该规范样本预先标注有规范对象词语、规范评价词语、规范划分维度、以及根据该规范对象词语和该规范评价词语确定的规范评价词组、以及该规范评价词组对应的规范评价标识，这样，可以通过该规范样本中的规范对象词语和规范评价词语以及多个该样本词语共同训练预设词模型得到词向量模型，从而使得后续步骤中根据该规范评价词组中的规范对象词语和规范评价词语获取的筛选参数更加准确。

S204、对每个该样本评价文本进行分句处理得到每个该样本评价文本的至少一个样本分句。

在一种可能的实现方式中，可以以每个该样本评价文本中的标点符号作为划分点对该样本评价文本进行分句处理得到至少一个样本分句，例如，该样本评价文本为：“起步有点肉，但是座椅比较舒服，后排空间也比较大。”由于该样本分句中包括三个标点符号，则该样本评价文本划分为3个样本分句，分别为：“起步有点肉”、“但是座椅比较舒服”和“后排空间也比较大”，上述示例只是举例说明，本公开对此不作限定。

S205、获取每个该样本分句的句法信息。

在本步骤中，由于在步骤S202中已将每个该样本评价文本进行分词处理，因此，从分词处理的结果中，可以获取到该样本分句中的分词词语，此时，该样本分句的句法信息包括该样本分句中的分词词语的词性信息和该分词词语在对应的该样本分句中的句法结构，需要说明的是，分词词语可以是去除停用词后的词语，该词性信息可以包括名词、形容词或者副词等信息，该句法结构可以包括句法依存关系，如主谓结构、动宾结构、动补结构或者并列结构等，示例地，本公开以该样本分句中包括两个分词词语为例进行说明，该句法信息可以表示为p＝(now，nsw，rel)，now表示该样本分句中的第一词语的词性信息，nsw表示该样本分句中的第二词语的词性信息，rel表示第一词语与第二词语在对应的样本分句中的句法结构，例如，当词性信息为n时，表示词性信息为名词，当词性信息为adj时，表示词性信息为形容词，当词性信息为v时，表示词性信息为动词，当词性信息为adv时，表示词性信息为副词；当句法结构为sbv时，表示句法结构为主谓结构，当句法结构为vob时，表示句法结构为动宾结构，当句法结构为cmp时，表示句法结构为动补结构，当句法结构为coo时，表示句法结构为并列结构。示例地，若该样本分句为“座椅舒服”，则该样本分句中的第一词语为“座椅”，第二词语为“舒服”，此时，“座椅”的词性信息为名词，“舒服”的词性信息为形容词，“座椅”和“舒服”在该样本分句中的句法结构为主谓结构，这样，该样本分句的句法信息可以表示为p＝(n，adj，sbv)，n表示“座椅”的词性信息为名词，adj表示“舒服”的词性信息为形容词，sbv表示“座椅”和“舒服”在该样本分句中的句法结构为主谓结构，上述示例只是举例说明，本公开对此不作限定。

S206、确定该句法信息与规范句法信息是否相同。

在本步骤中，该规范句法信息为预先根据规范样本获取的句法信息，由于该规范样本预先标注有规范对象词语和规范评价词语，这样，可以根据该规范对象词语和该规范评价词语获取规范句法信息，具体方法可以参考步骤S205中确定样本分句的句法信息的相关描述，此处不再赘述。

在该句法信息和该规范句法信息相同时，执行步骤S207和S209至S213；

在该句法信息和该规范句法信息不相同时，执行步骤S208。

S207、根据该句法信息和该规范句法信息获取每个该样本分句中的待筛选对象词语和待筛选评价词语。

其中，由于在步骤S206的规范样本中标注了规范对象词语和规范评价词语，因此，根据该规范对象词语和规范评价词语得到的规范句法信息中，规范对象词语的词性信息和规范评价词语的词性信息是已知的，因此，在本步骤中，在该句法信息和该规范句法信息相同时，可以确定在样本分句的句法信息中，该规范对象词语的词性信息对应的分词词语为待筛选对象词语，该规范评价词语的词性信息对应的分词词语为待评价对象词语。

在本步骤中，可以确定每个样本分句的句法信息中的词性信息对应的分词词语为待筛选对象词语和待筛选评价词语，示例地，若该规范样本中的分句的规范句法信息表示为q＝(nbw，ndw，len)，其中，nbw表示规范对象词语的词性信息，ndw表示规范评价词语的词性信息，len表示规范对象词语和规范评价词语在对应的规范样本中的分句中的句法结构，这样，若获取的句法信息为p＝(now，nsw，rel)，则在该句法信息p和规范句法信息q相同时，表示nbw和now相同，ndw和nsw相同，len和rel相同，此时，可以确定now对应的分词词语为待筛选对象词语，nsw对应的分词词语为待筛选评价词语，上述示例只是举例说明，本公开对此不作限定。

为了方便描述，本公开以该目标商品为某款汽车为例进行说明，若获取的多个该样本评价文本是已经购买过该某款汽车的用户对该某款汽车进行评价的文本，则该待筛选对象词语可以包括加速动力、起步动力、升档动力、后备箱空间、驾驶室空间和前后排空间以及驾驶水平等，对应的待筛选评价词语依次为迅猛、欠佳、顺畅、稍短、惬意、狭窄、较差，上述示例只是举例说明，本公开对此不作限定。

S208、忽略该待筛选对象词语和该待筛选评价词语。

S209、确定该待筛选对象词语和该待筛选评价词语组成待筛选评价词组，并根据该词向量模型从该待筛选评价词组中筛选出评价词组。

由于该待筛选评价词组可能包括不是对该目标商品的评价对象进行评价的评价词组，而这些不是对该目标商品的评价对象进行评价的评价词组可能用户并不关注，因此，若将该待筛选评价词组作为评价词组，则在后续对该评价词组进行划分时无法将不是对该目标商品的评价对象进行评价的评价词组划分到已有的划分维度中，从而使得出现划分错误提示，影响了用户的使用体验，继续以步骤S205中的示例为例进行说明，该待筛选评价词组可以包括“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”，“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”，“驾驶水平-较差”，由于“驾驶水平-较差”不是对该某款汽车中的任一评价对象进行评价的评价词组，从而造成在后续步骤中无法将“驾驶水平-较差”划分到已有的划分维度而引起的划分错误提示，影响用户体验。

为了解决上述问题，本公开可以对该待筛选评价词组进行筛选从而过滤掉不是对该目标商品的评价对象进行评价的评价词组，在一种可能的实现方式中，可以根据该词向量模型获取该待筛选评价词组的筛选参数，其中，该待筛选评价词组对应的筛选参数的计算公式为：

F(<ow_i,sw_i>)表示筛选参数，ow_i表示第i个待筛选对象词语，sw_i表示第i个待筛选评价词语，ow_j表示第j个规范对象词语，sw_j表示第j个规范评价词语，m表示该规范对象词组的总数量；

表示ow_i在词向量模型中对应的向量，

表示ow_j在词向量模型中对应的向量，

表示sw_i在词向量模型中对应的向量，

表示sw_j在词向量模型中对应的向量，δ表示预设阈值(例如，该预设阈值为0.9)。在获取到该待筛选评价词组的筛选参数后，若该筛选参数小于或者等于0时，则将该待筛选评价词组过滤掉，若该筛选参数大于0时，则确定该待筛选评价词组为评价词组，这样，从该待筛选评价词组中获取到的第s个评价词组可以表示为ow_S,sw_S>，ow_S表示第s个评价词组中的对象词语，sw_S表示第s个评价词组中的评价词语，并可以得到该评价词组的词组集合，该词组集合可以表示为ROS＝{ow₁,sw₁>,<ow₂,sw₂>,...,<ow_S,sw_S>,...<ow_R,sw_R>}，以便后续步骤中可以为该词组集合中的评价词组依次设置评价标识。

S210、获取该评价词组对应的评价标识。

其中，该评价标识用于表示评价该对象词语对应的评价对象的评价词语为正面评价或者负面评价，示例地，该评价标识可以用1或-1表示，当该评价标识为1时，确定评价该对象词语对应的评价对象的评价词语为正面评价；当该评价标识为-1时，确定评价该对象词语对应的评价对象的评价词语为负面评价，上述示例只是举例说明，本公开对此不作限定。

在本步骤中，可以通过以下步骤确定该评价词组对应的评价标识：

S11、确定该评价词组在每个该样本评价文本中的权重。

在本步骤中，若该权重越大，则该评价词组对该样本评价文本的语义影响越大，相反，若该权重越小，则该评价词组对该样本评价文本的语义影响越小，在一种可能的实现方式中，该权重可以为该评价词组在该样本评价文本中的出现次数，需要说明的是，若该评价词组在该样本评价文本中未出现，则确定该出现次数为0次，这样，可以根据该出现次数构建该样本评价文本的特征向量，示例地，第l个样本评价文本的特征向量为fv_l＝(f_l1,f_l2,...,f_ls,...,f_lR)，f_ls表示第s个评价词组在第l个样本评价文本中的出现次数，从而后续步骤中可以根据该特征向量获取评价标识函数，上述示例只是举例说明，本公开对此不作限定。

S12、根据该评价标识和该权重获取评价标识函数。

其中，该评价标识函数是以该评价标识作为未知量的函数。由于词组集合为ROS＝{ow₁,sw₁>,<ow₂,sw₂>,...,<ow_S,sw_S>,...<ow_R,sw_R>}，因此，可以根据该词组集合设置标识向量为q＝(q₁,q₂,...,q_s,...,q_R)，q_s为第s个评价词组对应的评价标识。

在本公开中，该评价标识函数可以表示为：

其中，

fv_l表示第l个样本评价文本的特征向量，q^T表示标识向量q的转置，n表示该样本评价文本的总数量，y表示该样本评价文本的文本评价标识，在该样本评价文本为正面评价的文本时，y＝1；在该样本评价文本为负面评价的文本时，y＝0，需要说明的是，在采集该样本评价文本时，可以获取到该样本评价文本对应的文本评价标识，示例地，通常在对目标商品进行评价时可以输入评价文本以及评价星级，这样，可以根据该评价星级确定该样本评价文本的文本评价标识，如评级星级为3-5颗星时该文本评价标识y＝1，评价星级为1-2颗星时该文本评价标识y＝0，上述示例只是举例说明，本公开对此不作限定。

S13、根据该评价标识函数得到该评价标识。

在本步骤中，可以采用梯度下降法计算在该评价标识函数为最小值时对应的评价标识，该具体过程可以参考现有技术，不再赘述。

需要说明的是，在获取到该评价标识后，可以将该评价标识进行规范化，示例地，若该评价标识小于或者等于0，则将该评价标识设置为-1，若该评价标识大于0，则将该评价标识设置为1，这样，使得用户可以直观地从该评价标识中确定评价该对象词语对应的评价对象的评价词语为正面评价或者负面评价，此外，可以将该评价词组和该评价词组对应的评价标识进行整合，如将第s个评价词组<ow_S,sw_S>和该第s个评价词组<ow_S,sw_S>对应的评价标识q_s进行整合得到<ow_S,sw_S,qs〉，从而使得后续步骤中可以将该评价词组与该评价词组对应的评价标识共同展示给用户，上述示例只是举例说明，本公开对此不作限定。

S211、获取该评价词组对应的划分维度。

由于规范样本预先标注有规范对象词语、规范评价词语以及规范划分维度，从而可以根据规范对象词语和规范评价词语构成规范评价词组，该规范划分维度可以通过该规范评价词组中的规范对象词语预先确定，这样，可以从该规范评价词组中确定出与该评价词组相似度最大的相似词组，获取与该评价词组相似度最大的相似词组的公式为：

其中，ow_s表示第s个对象词语，sw_s表示第s个评价词语，ow_j表示第j个规范对象词语，sw_j表示第j个规范评价词语，V_ows表示ow_s在词向量模型中对应的向量，

表示ow_j在词向量模型中对应的向量，V_sws表示sw_s在词向量模型中对应的向量，

表示sw_j在词向量模型中对应的向量。

通过上述公式可以确定出第j个规范评价词组与该评价词组最相似，因此，确定该第j个规范评价词组对应的规范划分维度即为该评价词组的划分维度，这样，建立了该评价词组与该划分维度之间的对应关系。

S212、根据该评价标识和该评价词组以及该划分维度得到该文本划分模板。

需要说明的是，为了使得到的文本划分模板中包括的评价词组更加全面，可以将该规范样本中的规范评价词组、该规范评价词组对应的规范评价标识、规范划分维度、以及该评价标识和该评价词组以及该划分维度获取该文本划分模板，从而使得该文本划分模板更加全面。

其中，可以将该评价词组按照不同划分维度进行划分得到该文本划分模板，且该文本划分模板中存在该评价词组对应的评价标识，示例地，该评价词组可以包括“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”，“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”，则由于加速动力、起步动力、升档动力都用于评价汽车的动力，而后备箱空间、驾驶室空间、前后排空间都用于评价汽车的空间，因此，该评价词组“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”对应的划分维度是动力，该评价词组“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”对应的划分维度是空间，这样，可以将上述评价词组划分为两个划分维度(即动力和空间)得到文本划分模板，评价词组“加速动力-迅猛”，“起步动力-欠佳”，“升档动力-顺畅”在动力对应的划分维度中展示，评价词组“后备箱空间-稍短”，“驾驶室空间-惬意”，“前后排空间-狭窄”在空间对应的划分维度中展示，并且评价词组“加速动力-迅猛”，“升档动力-顺畅”，“驾驶室空间-惬意”中的评价词语分别是对加速动力、升档动力、驾驶室空间的正面评价，此时，可以将对应的评价标识设置为“1”，评价词组“起步动力-欠佳”，“后备箱空间-稍短”，“前后排空间-狭窄”中的评价词语分别是对起步动力、后备箱空间、前后排空间的负面评价，此时，可以将对应的评价标识设置为“-1”，上述示例只是举例说明，本公开对此不作限定。

S213、获取待划分评价文本，并通过该文本划分模板对该待划分评价文本进行划分。

在本步骤中，可以对该待划分评价文本进行分句处理得到至少一个目标分句，并对每个该目标分句进行分词处理得到多个目标词语，在该多个目标词语中存在与该文本划分模板中的评价词组匹配的目标评价词组时，将该目标评价词组按照该文本划分模板进行划分，其中，该目标评价词组包括目标对象词语和目标评价词语，这样，在将该目标评价词组按照该文本划分模板进行划分后，可以对该文本划分模板中该目标评价词语对应的评价标识进行更新，在一种可能的实现方式中，获取该目标对象词语和该目标评价词语之间存在的否定词语的词语数量，并根据该词语数量以及该文本划分模板中该目标评价词组对应的评价标识确定目标评价标识，具体地，可以确定该词语数量是否为偶数，并在该词语数量为偶数时，确定该文本划分模板中该目标评价词组对应的评价标识为该目标评价标识；在该词语数量为奇数时，将该文本划分模板中该目标评价词组对应的评价标识进行取反处理得到该目标评价标识，将该目标评价词组对应的评价标识更新为该目标评价标识。

示例地，继续以步骤S212中的文本划分模板为例进行说明，若该待划分评价文本为“起步动力欠佳，感觉前后排空间并不狭窄。”则可以通过识别该待划分评价文本中的标点符号将该待划分评价文本进行分句处理得到两个目标分句即第一个目标分句和第二个目标分句，其中，第一个目标分句为“起步动力欠佳”，第二个目标分句为“感觉前后排空间并不狭窄”，将该第一个目标分句进行分词处理得到的多个目标词语为“起步动力”和“欠佳”，将该第二个目标分句进行分词处理得到的多个目标词语为“感觉”、“前后排空间”、“并不”和“狭窄”，由于步骤S212中构建的文本划分模板中的评价词组中包括“起步动力-欠佳”和“前后排空间-狭窄”，因此，可以将该待划分评价文本按照该文本划分模板进行划分，即将该待划分评价文本按照动力和空间进行划分，并且由于第一目标分句中的“起步动力”和“欠佳”之间不存在否定词语，可以确定该否定词语的词语数量为0(相当于偶数)，则确定目标评价词组“起步动力-欠佳”的目标评价标识与该文本划分模板中的评价词组“起步动力-欠佳”的评价标识一致，即为“-1”，由于第二目标分句中的“前后排空间”和“狭窄”之间存在的否定词语的词语数量为1(相当于奇数)，则确定目标评价词组“前后排空间-狭窄”的目标评价标识与该文本划分模板中的评价词组“前后排空间-狭窄”的评价标识相反，即为“1”，上述示例只是举例说明，本公开对此不作限定。

需要说明的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行，例如，步骤S210可以在步骤S211之后执行，此时，步骤S210和S211可以为：获取该评价词组对应的划分维度，并获取该评价词组对应的评价标识，其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

图3为本公开示例性实施例示出的一种文本划分的装置，如图3所示，该装置包括：

文本获取模块301，用于获取多个样本评价文本；

词组确定模块302，用于从每个该样本评价文本中确定评价词组，该评价词组包括对象词语和评价词语，该评价词语用于评价该对象词语对应的评价对象；

维度获取模块303，用于获取该评价词组对应的划分维度；

模板获取模块304，用于根据该评价词组和该划分维度得到文本划分模板；

划分模块305，用于获取待划分评价文本，并通过该文本划分模板对该待划分评价文本进行划分。

图4为本公开示例性实施例示出的一种文本划分的装置，如图4所示，还包括：

标识获取模块306，用于获取该评价词组对应的评价标识；

该模板获取模块304，用于根据该评价标识和该评价词组以及该划分维度得到该文本划分模板。

图5为本公开示例性实施例示出的一种文本划分的装置，如图5所示，该标识获取模块306包括：

第一确定子模块3061，用于确定该评价词组在每个该样本评价文本中的权重；

第一获取子模块3062，用于根据该评价标识和该权重获取评价标识函数；该评价标识函数是以该评价标识作为未知量的函数；

第二获取子模块3063，用于根据该评价标识函数得到该评价标识。

图6为本公开示例性实施例示出的一种文本划分的装置，如图6所示，该词组确定模块302包括：

第一分词子模块3021，用于将每个该样本评价文本进行分词处理得到多个样本词语；

训练子模块3022，用于通过多个该样本词语训练预设词模型得到词向量模型；

第二确定子模块3023，用于根据该词向量模型确定该评价词组。

图7为本公开示例性实施例示出的一种文本划分的装置，如图7所示，还包括：

第一分句子模块3024，用于对每个该样本评价文本进行分句处理得到每个该样本评价文本的至少一个样本分句；

第三获取子模块3025，用于获取每个该样本分句的句法信息；该句法信息包括该样本分句中的分词词语的词性信息和该分词词语在对应的该样本分句中的句法结构；

该第二确定子模块3023，用于在该句法信息与规范句法信息相同时，根据该句法信息和该规范句法信息获取每个该样本分句中的待筛选对象词语和待筛选评价词语，确定该待筛选对象词语和该待筛选评价词语组成待筛选评价词组，并根据该词向量模型从该待筛选评价词组中筛选出评价词组。

图8为本公开示例性实施例示出的一种文本划分的装置，如图8所示，该划分模块305包括：

第二分句子模块3051，用于对该待划分评价文本进行分句处理得到至少一个目标分句；

第二分词子模块3052，用于对每个该目标分句进行分词处理得到多个目标词语；

划分子模块3053，用于在多个该目标词语中存在与该文本划分模板中的评价词组相同的目标评价词组时，将该目标评价词组按照该文本划分模板进行划分。

图9为本公开示例性实施例示出的一种文本划分的装置，该目标评价词组包括目标对象词语和目标评价词语，如图9所示，还包括：

数量获取模块307，用于获取该目标对象词语和该目标评价词语之间存在的否定词语的词语数量；

标识确定模块308，用于根据该词语数量以及该文本划分模板中该目标评价词组对应的评价标识确定目标评价标识；

更新模块309，用于将该目标评价词组对应的评价标识更新为该目标评价标识。

可选地，该标识确定模块308，用于在该词语数量为偶数时，确定该文本划分模板中该目标评价词组对应的评价标识为该目标评价标识；

在该词语数量为奇数时，将该文本划分模板中该目标评价词组对应的评价标识进行取反处理得到该目标评价标识。

采用上述装置，从每个样本评价文本中确定评价词组，并在确定评价词组的基础上进一步考虑评价词组的划分维度，根据划分维度和评价词组得到文本划分模板，从而在后续通过得到的文本划分模板对待划分评价文本进行划分时，能够准确得到该待划分评价文本的划分结果，使得用户可以从该划分结果中查看关注的信息，避免了用户从该待划分评价文本中查找关注的信息的繁琐操作，从而提高了用户查看关注的信息的效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10为本公开示例性实施例示出的一种电子设备1000的框图。如图10所示，该电子设备1000可以包括：处理器1001，存储器1002，多媒体组件1003，输入/输出(I/O)接口1004，以及通信组件1005。

其中，处理器1001用于控制该电子设备1000的整体操作，以完成上述所述的文本划分的方法中的全部或部分步骤。存储器1002用于存储各种类型的数据以支持在该电子设备1000的操作，这些数据例如可以包括用于在该电子设备1000上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器1002可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1003可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1002或通过通信组件1005发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1004为处理器1001和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1005用于该电子设备1000与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件1005可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述所述的文本划分的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器1002，上述程序指令可由电子设备1000的处理器1001执行以完成上述所述的文本划分的方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文本划分的方法，其特征在于，所述方法包括：

获取多个样本评价文本；

获取所述评价词组对应的划分维度；

根据所述评价词组和所述划分维度得到文本划分模板；

获取待划分评价文本，并通过所述文本划分模板对所述待划分评价文本进行划分；

在所述获取所述评价词组对应的划分维度前，所述方法还包括：

获取规范样本，所述规范样本预先标注有规范对象词语、规范评价词语、规范划分维度、以及根据所述规范对象词语和所述规范评价词语确定的规范评价词组；

所述获取所述评价词组对应的划分维度包括：

从所述规范评价词组中确定与所述评价词组相似度最大的相似词组；

将所述相似词组对应的划分维度作为所述评价词组对应的划分维度；

所述从所述规范评价词组中确定与所述评价词组相似度最大的相似词组包括：

通过以下公式计算得到所述相似词组：

其中，j表示第j个规范评价词组，ow_s表示第s个对象词语，sw_s表示第s个评价词语，ow_j表示第j个规范对象词语，sw_j表示第j个规范评价词语，V_ows表示ow_s在词向量模型中对应的向量，

表示sw_j在词向量模型中对应的向量。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述评价词组和所述划分维度得到文本划分模板之前，还包括：

获取所述评价词组对应的评价标识；

3.根据权利要求2所述的方法，其特征在于，所述获取所述评价词组对应的评价标识包括：

确定所述评价词组在每个所述样本评价文本中的权重；

根据所述评价标识函数得到所述评价标识。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述从每个所述样本评价文本中确定评价词组包括：

将每个所述样本评价文本进行分词处理得到多个样本词语；

通过多个所述样本词语训练预设词模型得到词向量模型；

根据所述词向量模型确定所述评价词组。

5.根据权利要求4所述的方法，其特征在于，在所述根据所述词向量模型确定所述评价词组前，还包括：

所述根据所述词向量模型确定所述评价词组包括：

6.根据权利要求1或2所述的方法，其特征在于，所述通过所述文本划分模板对所述待划分评价文本进行划分包括：

对每个所述目标分句进行分词处理得到多个目标词语；

7.根据权利要求6所述的方法，其特征在于，所述目标评价词组包括目标对象词语和目标评价词语，在所述通过所述文本划分模板对所述待划分评价文本进行划分后，还包括：

8.一种文本划分的装置，其特征在于，所述装置包括：

文本获取模块，用于获取多个样本评价文本；

维度获取模块，用于获取所述评价词组对应的划分维度；

划分模块，用于获取待划分评价文本，并通过所述文本划分模板对所述待划分评价文本进行划分；

所述装置还包括：

规范样本获取模块，用于获取规范样本，所述规范样本预先标注有规范对象词语、规范评价词语、规范划分维度、以及根据所述规范对象词语和所述规范评价词语确定的规范评价词组；

所述维度获取模块，还用于：

通过以下公式计算得到所述相似词组：

表示sw_j在词向量模型中对应的向量。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

权利要求9中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。