CN111259223B

CN111259223B - 基于情感分析模型的新闻推荐和文本分类方法

Info

Publication number: CN111259223B
Application number: CN202010096372.4A
Authority: CN
Inventors: 张世福
Original assignee: Beijing Guoxin Huijin Co ltd
Current assignee: Beijing Guoxin Huijin Co ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-11-10
Anticipated expiration: 2040-02-17
Also published as: CN111259223A

Abstract

本发明提供了基于情感分析模型的新闻推荐和文本分类方法，包括：爬取预设网站的历史新闻信息，同时爬取同一目标用户在不同预设网站，基于不同历史新闻信息的历史行为信息；建立历史新闻信息与历史行为信息的索引数据集；基于索引数据集，获取目标用户在预设网站点击或输入的文本信息，并对文本信息进行筛选处理，获得待分类文本集；基于预先建立的情感分析模型，对待分类文本集进行聚类分析处理，同时，基于文本分类属性模型，确定聚类分析处理结果的文本分类属性；构建与文本分类属性相关的新闻推送树，并基于新闻推送树，推送新闻信息到用户端进行显示。提高新闻推送的精准性。

Description

基于情感分析模型的新闻推荐和文本分类方法

技术领域

本发明涉及计算机技术领域，特别涉及基于情感分析模型的新闻推荐和文本分类方法。

背景技术

随着互联网的快速发展，人们的新闻阅读习惯逐渐从传统媒体如报纸、电视转向互联网。然而，新闻应用每天提供大量的新闻，这使得用户被信息爆炸淹没。用户在观看新闻时，一般在推送的新闻中筛选几篇进行阅读，或者用户通过搜索关键词，阅读推送的与关键词相关度高的新闻信息，但是，如果用户不能准确描述自己的需求时，其获得的相关信息可能与用户预期的不符合，因此，通过此方式获取的新闻信息的精准性是不高的，因此，为了解决上述问题，提出了基于情感分析模型的新闻推荐和文本分类方法。

发明内容

本发明提供基于情感分析模型的新闻推荐和文本分类方法，用以通过建立索引数据集、进行聚类分析处理和构建新闻推送树，获得推送新闻信息，进而提高其的精准性。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，包括：

爬取预设网站的历史新闻信息，同时爬取同一目标用户在不同预设网站，基于不同历史新闻信息的历史行为信息；

建立所述历史新闻信息与所述历史行为信息的索引数据集；

基于所述索引数据集，获取所述目标用户在预设网站点击或输入的文本信息，并对所述文本信息进行筛选处理，获得待分类文本集；

基于预先建立的情感分析模型，对所述待分类文本集进行聚类分析处理，同时，基于文本分类属性模型，确定聚类分析处理结果的文本分类属性；

构建与所述文本分类属性相关的新闻推送树，并基于所述新闻推送树，推送新闻信息到用户端进行显示。

在一种可能实现的方式中，建立所述历史新闻信息与所述历史行为信息的索引数据集的步骤包括：

基于行为数据库，将所述目标用户的每次历史行为信息进行记录，同时追溯与每次历史行为信息相关的历史新闻信息；

基于时间轴，建立每次历史行为信息与对应历史新闻信息之间的一一映射关系；

根据所有映射关系，建立索引数据集。

在一种可能实现的方式中，对所述文本信息进行筛选处理，获得待分类文本集的步骤包括：

基于文本分析模型，对所述文本信息进行预处理，将所述文本信息中的第一词汇进行删除，并确定剩余文本信息中是否存在待替换文本；

若存在，将所述待替换文本进行切割处理，确定当前切割文本段与下一切割文本段和上一切割文本段的匹配值，若匹配值都不满足预设值，从文本数据库中查找与所述当前切割文本段发音相似，且与上一切割文本段和下一切割文本段相匹配的替换文本将所述当前切割文本段进行替换；

直到所述待替换文本全部替换完毕，获得待分类文本集。

在一种可能实现的方式中，基于预先建立的情感分析模型，对所述待分类文本集进行聚类分析处理的步骤包括：

基于所述待分类文本集，构建所述待分类文本集的文本矩阵向量；

同时，构建所述待分类文本集中每个文本信息的词汇矩阵向量；

根据所述文本矩阵向量和词汇矩阵向量确定所述目标用户的特征向量，并根据所述特征性向量确定所述目标用户的新闻偏好程度和新闻偏好类型；

同时，根据所述情感分析模型，并基于爬取的所述目标用户的历史行为信息，确定所述目标用户端的正负情感；

基于确定的正负情感、新闻偏好程度和新闻偏好类型，对所述待分类文本集进行聚类分析处理，确定所述待分类文本集对应的待推送新闻组。

在一种可能实现的方式中，基于爬取的所述目标用户的历史行为信息，确定所述目标用户端的正负情感的步骤包括：

基于所述历史行为信息，确定所述目标用户的搜索序列和评价序列；

确定所述搜索序列对应的第一新闻，确定所述评价序列对应的第二新闻；

获取所述第一新闻的第一序列，并基于所述情感分析模型，确定所述第一序列的第一情感；

获取所述第二新闻的第二序列，并基于所述情感分析模型，确定所述第二序列的第二情感；

将确定的第一情感进行第一正负情感分类，同时将确定的第二情感进行第二正负情感分类；

其中，确定的第一正负情感分类结果和第二正负情感分类结果，为所述目标用户的正负情感。

在一种可能实现的方式中，构建与所述文本分类属性相关的新闻推送树的步骤包括：

基于聚类分析处理结果确定的文本分类属性，确定第一属性的文本信息及对应的新闻信息，同时确定与所述第一属性相似的第二属性的文本信息及新闻信息，其中，所述第一属性为同一属性；

确定所述第一属性的第一权重值和第二属性的第二权重值，并将所有第一权重值和第二权重值按照设定的顺序进行排列；

根据所述第一属性、第二属性和第一权重值和第二权重值的排列结果，构建新闻推送树。

在一种可能实现的方式中，基于所述新闻推送树，推送新闻信息到用户端进行显示过程中，还包括：

基于所述新闻推送树中的根节点，从上而下依次确定所述新闻推送树中的第一分支，并确定每个所述第一分支中的节点个数；

当第一分支中的所有节点个数大于预设个数时，计算所述第一分支中从上而下的根节点、中间节点和叶子节点之间的第一相关值；

将所述第一相关值大于或等于第一预设值的相关节点进行第一标记，获得第一连接线，并对所述第一相关值小于所述第一预设值的相关节点进行第二标记，获得第二连接线；

同时，确定所述第一分支中的第一连接线的个数是否大于第二连接线的个数，若是，将第一连接线对应的节点进行保留，将第二连接线对应的节点进行剔除；

否则，保留第一连接线对应的节点，并待保留所述第二连接线对应的节点；

同时，对待保留的节点进行预测修正处理，并根据预测修正处理结果，获取待保留的节点中与预设结果相匹配的修正结果对应的预测节点对；

建立所述预测节点对的第一连接关系并进行保留；

确定所有节点个数不大于预设个数的第一分支中的根节点和叶子节点的第二相关值，若所述第二相关值大于或等于第二预设值，建立所述根节点和叶子节点的第一连接关系并保留；

否则，构建节点个数大于预设个数的第一分支的分支数据库；

历遍所述分支数据库，查找与所述根节点和叶子节点具有相关性的第二分支，并根据预先设定的优先级顺序，将所述根节点和叶子节点补充到最终第二分支中，并建立所述根节点和叶子节点与最终第二分支中保留的与所述第一连接关系相关的节点的节点链路；

若在所述分支数据库，未查找到具有相关性的第二分支，将所述根节点和叶子节点删除；

根据保留的所有第一连接线对应的节点和建立的节点链路，重新构建新的新闻推送树。

在一种可能实现的方式中，计算所述第一分支中从上而下的根节点、中间节点和叶子节点之间的第一相关值之后，还包括：

步骤A1：获取所述第一分支的第一相关值，所述第一相关值包括：所述根节点与叶子节点的相关值S_i1,in、所述根节点与所述第一分支中的中间节点的相关值S_i1,ij、所述第一分支中的中间节点与中间节点的相关值S_ij,i(j-1)、所述第一分支中的中间节点与叶子节点的相关值S_ij,in；

步骤A2：根据获取的第一相关值，确定所述第一分支的分支值S0；

其中，每个第一分支中都存在有n个节点，所述根节点的标号为i1，所述叶子节点的标号为in，所述中间节点的标号为ij；

步骤A3：获取所述第一分支对应的总分支中的相邻分支，并根据所述步骤A1和A2确定所述相邻分支的分支值S1；

步骤A4：当第一分支的分支值S0与相邻分支的分支值S1之间的分支差值绝对值|S0-S1|小于预设差值，且第一分支的分支值S0和相邻分支的分支值S1大于对应的比较值时，判定所述相邻分支合格，并将所述相邻分支保留；

否则，判定所述相邻分支不合格。

在一种可能实现的方式中，当判定所述相邻分支不合格之后，还包括：

对所述不合格的相邻分支S2进行归一化处理；

其中，g表示所述相邻分支中的q个节点中的第g个节点，P(g)表示不合格的相邻分支中的第g个节点的文本概率函数；μ_g表示不合格的相邻分支中的第g个节点的节点修正参数；L_g表示不合格的相邻分支中的第g个节点的文本置信值；

当归一化处理结果S1符合预设标准时，提取所述相邻分支中的第一关键词，并对所述相邻分支中的所述第一关键词进行替换处理，获得第三分支；

当归一化处理结果S2不符合预设标准时，提取所述相邻分支中的第二关键词，并将所述第二关键词填充在所述第一分支中，得到第四分支；

并基于所述第三分支和第四分支对所述新闻推送树中的待替换相邻分支和第一分支进行替换，实现对所述新闻推送树的修正。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于情感分析模型的新闻推荐和文本分类方法的流程图；

图2为本发明实施例中分支结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，如图1所示，包括：

步骤1：爬取预设网站的历史新闻信息，同时爬取同一目标用户在不同预设网站，基于不同历史新闻信息的历史行为信息；

步骤2：建立所述历史新闻信息与所述历史行为信息的索引数据集；

步骤3：基于所述索引数据集，获取所述目标用户在预设网站点击或输入的文本信息，并对所述文本信息进行筛选处理，获得待分类文本集；

步骤4：基于预先建立的情感分析模型，对所述待分类文本集进行聚类分析处理，同时，基于文本分类属性模型，确定聚类分析处理结果的文本分类属性；

步骤5：构建与所述文本分类属性相关的新闻推送树，并基于所述新闻推送树，推送新闻信息到用户端进行显示。

上述预设网站，例如是新华网、中国网等；

上述历史行为信息，例如是对用户阅读的推送新闻的由来(用户在输入关键词获取到的，其中，输入关键词即为由来)、对阅读的推送新闻的评价、对推送新闻信息中其他用户的评价进行点赞或回复、在推送新闻的基础上阅读其他推送的新闻，其中，新闻信息，可以是文字形式、图片形式或者视频形式等。

上述索引数据集，是用户在每阅读一篇新闻信息时，对其新闻信息所执行的所有历史行为信息，且其历史行为信息与新闻信息一一对应，即一个新闻信息科对应若干个历史行为。

上述对文本信息进行筛选，是为了将其中无关信息进行滤除，如标点符号等，获得滤除后的所有信息，即得到待分类文本；

上述构建的新闻推送树，是通过对待分类文本进行聚类分析和对文本属性确定的双重条件进行构建的，可有效的提高对文本确定的精准性；并且通过针对该目标用户的用户行为，建立专属目标用户的新闻推送树，进一步提高推送精准性。

上述用户端，一般实施为智能手机、笔记本等。

上述技术方案的有益效果是：用以通过建立索引数据集、进行聚类分析处理和构建新闻推送树，获得推送新闻信息，进而提高其的精准性。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，建立所述历史新闻信息与所述历史行为信息的索引数据集的步骤包括：

根据所有映射关系，建立索引数据集。

例如：目标用户在今日头条网站上输入“面食美食视频”，对推送的相关视频进行观看，并对观看的视频进行评价，其中，历史行为信息即为输入关键词、对推送的新闻进行评价两种历史行为。

上述技术方案的有益效果是：通过建立映射关系，对推送新闻信息给目标用户提供了数据基础，且通过时间轴建立一一映射关系，避免因用户的风格发生变化，推送的新闻信息精准性降低。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，对所述文本信息进行筛选处理，获得待分类文本集的步骤包括：

直到所述待替换文本全部替换完毕，获得待分类文本集。

上述对文本信息进行预处理，例如是对文本信息中存在的标点符号进行删除，其中第一词汇即为标点符号；

上述剩余文本信息是删除标点符号之后的信息；

上述待替换文本信息，如：待替换文本信息为“新型灌装肺炎”，其中，当前切割文本段为“灌装”，下一切割文本段为“肺炎”，上一切割文本段为“新型”，其中，“灌装”与“肺炎”的匹配值不满足预设值，如两者的相关度，如：90％及其以上，在文本数据库中寻找与“guanzhuang”发音相似的词汇，通过确定发音相似的词汇与“肺炎”和“新型”的相似度，将“灌装”替换为“冠状”，得到“新型冠状病毒”。

上述技术方案的有益效果是：通过对当前文本切割文本段的内容进行替换，提高其文本信息的准确性，提高后续新闻信息推送的精准性。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，基于预先建立的情感分析模型，对所述待分类文本集进行聚类分析处理的步骤包括：

上述待分类文本集，是通过用户不同时间段搜索的若干个不同文本构成的；且确定不同文本的文本矩阵向量和同一文本的词汇矩阵向量，提高确定目标用户特征向量的可靠性，且便于根据特征向量进一步确定新闻偏好程度和新闻偏好类型；

其中，新闻偏好类型，一般分为：情感、娱乐、科技、房产、美食、财经、旅游、心理、影视、漫画等类型；

新闻偏好程度，是指用户对新闻偏好类型的喜好程度，如：用户100次搜索中，有50次是查看美食类型的新闻、20次是查看财经类型的新闻、30次是查看科技类型的新闻，此时，视用户的美食偏好程度>科技偏好程度>财经偏好程度。

上述确定用户的正负情感，例如是，根据用户评论确定的，通过对用户评论进行关键词提取，并输入到情感分析模型中确定的；

上述待分类文本集对应的待推送新闻组，例如：待分类文本集分别对应美食、财经和科技三种类型，其每个类型对应的所有新闻信息，分别对应构成其的新闻组。

上述技术方案的有益效果是：通过确定文本矩阵向量和词汇矩阵向量，提高获取特征向量的准确性，通过进行聚类分析，便于获得待推送新闻。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，基于爬取的所述目标用户的历史行为信息，确定所述目标用户端的正负情感的步骤包括：

上述搜索序列和评价序列，例如：当用户在网站上通过关键词进行搜索时，确定关键词对应的搜索序列，如，对每个搜索的关键系进行序列编号，基于时间轴，对每个新闻的评论进行序列编号；

上述搜索序列为a1、a2、a3，评价序列为b1、b2、b3；

搜索序列a1对应的第一新闻(根据关键词搜索出的新闻)的第一序列为aa1、搜索序列a2对应的第一新闻的第一序列为aa2、搜索序列a3对应的第一新闻的第一序列为aa3，确定第一序列的第一感情，是通过对aa1、aa2、aa3对应的新闻进行情感分析，确定其的第一感情；

其中上述评价序列为b1、b2、b3与上述搜索序列为a1、a2、a3的原理类似。例如，对评价序列对应的新闻信息的情感分析如下：

情感分析可以使得无结构的信息，比如民众关于产品、服务、品牌、政治和其他话题上的意见，自动转变为结构化的数据。这些数据对如市场分析、公共关系、产品意见、净推荐值、产品反馈和顾客服务等商业应用非常有用。其中，可使用深度学习模型对Netflix评论进行正向和负向的分类。这个模型会把全部评论作为输入(每一个单词)，并且提供一个百分比的评分来检测某个评论是在表达正向或负向的情绪(第二情感)，并对第二情感进行第二正负情感分类。

上述技术方案的有益效果是：通过进行序列编号，提高确定新闻正负情感的效率，且通过对新闻进行正负情感分类，便于提高新闻信息推送的精准性。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，构建与所述文本分类属性相关的新闻推送树的步骤包括：

上述同一属性，一般是指同类型的新闻，或者不同类型新闻具有的同一性质，例如以同类型的新闻为例；

其中，不同类型对应不同的根节点、与同类型新闻相似的第二属性的文本信息及新闻，可，以其相似的根节点为基础，建立相关的分支节点。其中每个根节点对应一个总分支。

上述根据第一属性和第二属性的权重值，确定其文本信息及新闻信息在该根节点构成的总分支上的节点位置。一般而言，其权重值越大，在总分支上的节点位置越关键。

上述技术方案的有益效果是：通过确定文本属性，进而确定其的第一属性和第二属性，便于构建总分支，通过对第一权重值和第二权重值进行优先级排序，便于确定其对应的新闻信息在对应的总分支上的节点位置，为建立完整的新闻推送树提供便利。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，基于所述新闻推送树，推送新闻信息到用户端进行显示过程中，还包括：

建立所述预测节点对的第一连接关系并进行保留；

如图2所示：第一分支指的简单地分支，如图A-B1-C1为一个分支，A-B1B2B2-C1C2C3C4C5为总分支，且A表示根节点，B1、B2、B2表示中间节点，C1、C2、C3、C4、C5表示叶子节点；

上述节点个数，即为根节点、中间节点和叶子节点的总个数；

上述预设个数一般为2；

上述第一相关值，指的是根节点与叶子节点的相关值、根节点与第一分支中的中间节点的相关值、第一分支中的中间节点与中间节点的相关值、第一分支中的中间节点与叶子节点的相关值；

上述第一预设值是根据总分支的分支结构确定的；

上述进行第一标记，如显著性标记，如绿色标记，第一连接线，如将大于第一预设值的对应的两个节点进行绿色线条连接；

上述第二标记，如显著性标记，如红色标记，第二连接线，如将小于第一预设值对应的两个节点进行红色线条连接；

若第一连接线的个数大于第二连接线的个数，则将第一连接线对应的节点进行保留，将第二连接线对应的节点进行剔除，不仅是为了提高新闻推送树推送的精准性，还是为了降低新闻树的计算繁琐性，提高推送效率；

若第一连接线的个数小于第二连接线的个数，保留第一连接线对应的节点，并待保留所述第二连接线对应的节点，对待保留的节点进行预测修正处理，并根据预测修正处理结果，获取待保留的节点中与预设结果相匹配的修正结果对应的预测节点对，是为了避免新闻推送树因推送能力不强，导致推送的精准性降低。

上述预测修正处理，是为了对待保留的节点的节点存储性能及与存储的文本信息、新闻信息等相关属性进行修正，提高该节点与对应节点的相关性，进而通过修正结果，确定相匹配的预测节点对，即对待保留的节点进行新的配对，便于提高其的相关性，为推送新闻信息提供可靠依据；

上述确定所有节点个数不大于预设个数的第一分支中的根节点和叶子节点的第二相关值，一般是指只包括根节点和叶子节点在内的分支，该分支中，根节点与叶子节点的第二相关值，其对应的第二预设值是认为设定的，如90％及其以上任何一个数据即可。

上述分支数据库中包含节点个数大于预设个数构成的所有第一分支；

上述第二分支是所有第一分支中一部分，且与只包括根节点和叶子节点分支相关，将根节点和叶子节点补充道优先级最高的第二分支中，不仅避免数据丢失，还降低对新闻推送树的占用空间；

上述节点链路，是根节点和叶子节点在优先级最高的第二分支中的与第二分支中的其他节点可构成第一连接线构成的节点链路。

若在分支数据库，未查找到具有相关性的第二分支，将根节点和叶子节点删除，提高新闻推送树的推送效率，避免因无关信息对其推送造成推送阻碍。

上述技术方案的有益效果是：不仅提高新闻推送树推送的精准性，还降低新闻树的计算繁琐性，提高推送效率；还可有效的避免新闻推送树因推送能力不强，导致推送的精准性降低；且便于提高相关性，为推送新闻信息提供可靠依据；最后，不仅可有效的避免数据丢失，还降低对新闻推送树的占用空间。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，计算所述第一分支中从上而下的根节点、中间节点和叶子节点之间的第一相关值之后，还包括：

否则，判定所述相邻分支不合格。

上述技术方案的有益效果是：通过分支差值绝对值与预设差值进行比较，便于确定总分支中相邻分支的合格性，其中，通过确定第一分支中每个节点之间的相关值和第一分支的分支值及确定相邻分支中每个节点之间的相关值和相邻分支的分支值，便于有效的确定其相邻分支的合格性，为建立新闻推送树，提供分支建立的数据基础，提高其新闻推送树建立的可靠性。

本发明实施例提供基于情感分析模型的新闻推荐和文本分类方法，当判定所述相邻分支不合格之后，还包括：

对所述不合格的相邻分支S2进行归一化处理；

上述第一关键词，是指不合格相邻分支中与其分支无关的关键词；

上述第二关键词，是指不合格相邻分支中具有代表性的关键词。

上述技术方案的有益效果是：通过对不合格的相邻分支进行归一化处理，是为了进一步确定需对该不合格的相邻分支执行的操作，且当归一化处理结果符合预设标准时，对其不合格分支中的关键词进行替换得到第三分支，当归一化处理结果不符合预设标准时，对其不合格分支中的关键词进行提取并补充道第一分支中，实现对新闻推送树的修正，确保其新闻推送树推送的精准性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于情感分析模型的新闻推荐和文本分类方法，其特征在于，包括：

建立所述历史新闻信息与所述历史行为信息的索引数据集；

构建与所述文本分类属性相关的新闻推送树，并基于所述新闻推送树，推送新闻信息到用户端进行显示；

其中，基于预先建立的情感分析模型，对所述待分类文本集进行聚类分析处理的步骤包括：

基于确定的正负情感、新闻偏好程度和新闻偏好类型，对所述待分类文本集进行聚类分析处理，确定所述待分类文本集对应的待推送新闻组；

其中，基于爬取的所述目标用户的历史行为信息，确定所述目标用户端的正负情感的步骤包括：

其中，确定的第一正负情感分类结果和第二正负情感分类结果，为所述目标用户的正负情感；

其中，构建与所述文本分类属性相关的新闻推送树的步骤包括：

根据所述第一属性、第二属性和第一权重值和第二权重值的排列结果，构建新闻推送树；

其中，基于所述新闻推送树，推送新闻信息到用户端进行显示过程中，还包括：

建立所述预测节点对的第一连接关系并进行保留；

根据保留的所有第一连接线对应的节点和建立的节点链路，重新构建新的新闻推送树；

其中，计算所述第一分支中从上而下的根节点、中间节点和叶子节点之间的第一相关值之后，还包括：

否则，判定所述相邻分支不合格；

其中，当判定所述相邻分支不合格之后，还包括：

对所述不合格的相邻分支S2进行归一化处理；

2.如权利要求1所述的方法，其特征在于，建立所述历史新闻信息与所述历史行为信息的索引数据集的步骤包括：

根据所有映射关系，建立索引数据集。

3.如权利要求1所述的方法，其特征在于，对所述文本信息进行筛选处理，获得待分类文本集的步骤包括：

直到所述待替换文本全部替换完毕，获得待分类文本集。