CN112347254A

CN112347254A - 新闻文本的分类方法、装置、计算机设备和存储介质

Info

Publication number: CN112347254A
Application number: CN202011225944.0A
Authority: CN
Inventors: 王浩
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-09
Anticipated expiration: 2040-11-05
Also published as: CN112347254B

Abstract

本申请涉及数据处理领域，提供新闻文本的分类方法、装置、计算机设备和存储介质，方法包括：获取新闻文本的所有评论信息；获取指定评论信息对应的读者信息；提取读者信息对应的指定读者的历史阅读数据；获取指定读者对于指定分类类别的偏好分数；计算指定评论信息相对指定分类类别的匹配打分；计算将新闻文本分类为指定分类类别的第一评分分数；获取评论信息对应的所有读者将新闻文本分类为指定分类类别的第二评分分数；计算第二评分分数的均值，得到分类分数；获取将新闻文本分类为各分类类别的指定分类分数；筛选出数值最大的目标分类分数，将目标分类分数对应的目标分类类别作为新闻文本的目标分类结果。本申请实现了对于新闻文本的准确分类。

Description

新闻文本的分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种新闻文本的分类方法、装置、计算机设备和存储介质。

背景技术

文本自动分类技术目前是人工智能领域、自然语言处理方向中一项常见任务，被广泛应用于文本审核、广告过滤、垃圾邮件过滤、新闻分类等任务中。对于中文文本分类技术而言，常用做法是将文本进行清洗、分词等预处理，然后采用多种方式对文本进行编码和特征提取，并利用一系列机器学习算法来对文本进行分类。

现有对于新闻文本的分类方法通常是使用基于新闻正文来进行新闻文本分类的方法，然而，这种分类方法在实际的应用过程中存在着以下问题：新闻文本分类的训练文本依赖大量标注良好的高质量文本，而人工标注是该环节中非常费时费力的一环，需要训练良好的标注人员按照统一标准对于新闻的正文进行大量文本标注。由于人工标注的工作需要消耗大量的人力物力，进而导致新闻文本的分类成本较高，且新闻文本的分类效率较低。

发明内容

本申请的主要目的为提供一种新闻文本的分类方法、装置、计算机设备和存储介质，旨在解决现有的基于新闻正文来进行新闻文本分类的方法存在分类成本较高且分类效率较低的技术问题。

本申请提出一种新闻文本的分类方法，所述方法包括步骤：

获取与待分类的新闻文本对应的所有评论信息；

根据指定评论信息，获取与所述指定评论信息对应的读者信息，其中，所述指定评论信息为所有所述评论信息中的任意一条信息；

根据所述读者信息，提取与所述读者信息对应的指定读者的历史阅读数据；

根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别；

根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分；

根据所述偏好分数与所述匹配打分，调用预设的计算公式计算出，与所述指定读者对应的将所述待分类的新闻文本分类为所述指定分类类别的第一评分分数；

分别获取与所有所述评论信息对应的所有读者将所述待分类的新闻文本分类为所述指定分类类别的第二评分分数；

计算所有所述第二评分分数的平均值，得到将所述待分类的新闻文本分类为所述指定分类类别的分类分数；

分别获取将所述待分类的新闻文本分类为每一种分类类别的指定分类分数；

从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果。

可选地，所述根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别的步骤，包括：

根据所述历史阅读数据，获取所述指定读者的阅读行为信息；

从所述阅读行为信息中提取出与指定新闻文本对应的行为数据，其中，所述指定新闻文本的分类类别为所述指定分类类别，所述行为数据包括浏览次数、评论次数、转发次数与收藏次数；以及，

获取与所述行为数据对应的权重系数；

根据所述行为数据与所述权重系数，计算出所述指定读者对于所述指定分类类别的偏好分数。

可选地，所述权重系数包括与所述浏览次数对应的第一权重系数，与所述评论次数对应的第二权重系数，与所述转发次数对应的第三权重系数以及与所述收藏次数对应的第四权重系数，所述根据所述行为数据与所述权重系数，计算出所述指定读者对于所述指定分类类别的偏好分数的步骤，包括：

根据所述第一权重系数、第二权重系数、第三权重系数与第四权重系数，对所述浏览次数、评论次数、转发次数与收藏次数进行加权求和处理，得到对应的和值；

获取指定数值；

计算所述和值与所述指定数值的商值；

将所述商值作为所述指定读者对于所述指定分类信息的偏好分数。

可选地，所述根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分的步骤，包括：

对所述指定评论信息进行关键词提取，提取出所述指定评论信息中包含的所有第一关键词；

获取所述第一关键词的第一数量；以及，

获取与所述指定分类信息对应的指定分类词典；

将每一个所述第一关键词分别与所述所述指定分类词典中包含的所有第二关键词进行匹配处理，从所有所述第一关键词中筛选出与所述第二关键词匹配的第三关键词；

获取所述第三关键词的第二数量；

根据所述第一数量与所述第二数量，生成所述指定评论信息相对于所述指定分类类别的匹配打分。

可选地，所述获取与所述指定分类信息对应的指定分类词典的步骤之前，包括：

获取与所述指定分类类别对应的分类关键词；

根据预设的近义词模型，生成与所述分类关键词对应的近义关键词；

将所述分类关键词与所述近义关键词共同存储于预设的原始词典中，得到数据存储后的词典；

将所述数据存储后的词典作为与所述指定分类类别对应的指定分类词典。

可选地，所述从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果的步骤，包括：

按照数值从大到小的顺序对所有所述指定分类分数进行排序，得到对应的排序结果；

根据所述排序结果，筛选出排序第一的目标分类分数；

获取与所述目标分类分数对应的目标分类类别；

将所述目标分类类别确定为所述待分类的新闻文本的目标分类结果。

可选地，所述获取与待分类的新闻文本对应的所有评论信息的步骤之后，包括：

分别获取各所述评论信息的字数；以及，

获取预设的字数阈值；

从所有所述评论信息中筛选出字数大于所述字数阈值的特定评论信息；

在所述评论信息中剔除掉所述特定评论信息，得到剔除处理后的评论信息；

对所述剔除处理后的评论信息进行噪声数据过滤处理，得到过滤处理后的评论信息。

本申请还提供一种新闻文本的分类装置，包括：

第一获取模块，用于获取与待分类的新闻文本对应的所有评论信息；

第二获取模块，用于根据指定评论信息，获取与所述指定评论信息对应的读者信息，其中，所述指定评论信息为所有所述评论信息中的任意一条信息；

提取模块，用于根据所述读者信息，提取与所述读者信息对应的指定读者的历史阅读数据；

第三获取模块，用于根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别；

第一计算模块，用于根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分；

第二计算模块，用于根据所述偏好分数与所述匹配打分，调用预设的计算公式计算出，与所述指定读者对应的将所述待分类的新闻文本分类为所述指定分类类别的第一评分分数；

第四获取模块，用于分别获取与所有所述评论信息对应的所有读者将所述待分类的新闻文本分类为所述指定分类类别的第二评分分数；

第三计算模块，用于计算所有所述第二评分分数的平均值，得到将所述待分类的新闻文本分类为所述指定分类类别的分类分数；

第五获取模块，用于分别获取将所述待分类的新闻文本分类为每一种分类类别的指定分类分数；

确定模块，用于从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的新闻文本的分类方法、装置、计算机设备和存储介质，具有以下有益效果：

本申请中提供的新闻文本的分类方法、装置、计算机设备和存储介质，不同于现有的采用大规模人工标注的方法对新闻文本进行不断标注，以根据内容复杂的新闻文本的正文来进行新闻文本分类的方式，本实施例在对待分类的新闻文件进行文本分类处理时，会智能地从待分类的新闻文本的评论信息与读者的阅读偏好的角度出发，通过分析评论信息中与分类相关的关键词以及读者的历史阅读数据来进行对于待分类的新闻文本的分类处理，同样实现了对于待分类的新闻文本的准确分类，大大减少了过多的人工标注的处理工作，有效地降低了新闻文本的分类处理成本，提高了新闻文本的分类处理效率。

附图说明

图1是本申请一实施例的新闻文本的分类方法的流程示意图；

图2是本申请一实施例的新闻文本的分类装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

参照图1，本申请一实施例的新闻文本的分类方法，包括：

S1：获取与待分类的新闻文本对应的所有评论信息；

S2：根据指定评论信息，获取与所述指定评论信息对应的读者信息，其中，所述指定评论信息为所有所述评论信息中的任意一条信息；

S3：根据所述读者信息，提取与所述读者信息对应的指定读者的历史阅读数据；

S4：根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别；

S5：根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分；

S6：根据所述偏好分数与所述匹配打分，调用预设的计算公式计算出，与所述指定读者对应的将所述待分类的新闻文本分类为所述指定分类类别的第一评分分数；

S7：分别获取与所有所述评论信息对应的所有读者将所述待分类的新闻文本分类为所述指定分类类别的第二评分分数；

S8：计算所有所述第二评分分数的平均值，得到将所述待分类的新闻文本分类为所述指定分类类别的分类分数；

S9：分别获取将所述待分类的新闻文本分类为每一种分类类别的指定分类分数；

S10：从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果。

如上述步骤S1至S10所述，本方法实施例的执行主体为一种新闻文本的分类装置。在实际应用中，上述新闻文本的分类装置可以通过虚拟装置，例如软件代码实现，也可以通过写入或集成有相关执行代码的实体装置实现，且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的新闻文本的分类装置，能够实现对于待分类的新闻文本的准确分类，降低待分类的新闻文本的分类处理成本，提高待分类的新闻文本的分类处理效率。具体地，首先获取与待分类的新闻文本对应的所有评论信息。其中，上述待分类的新闻文本是指还没有进行类别分类的新闻文本，新闻文本对应的分类类别可包括财经类别、时事类别、娱乐类别、体育类别，等等。上述评论信息是指用户在对该待分类的新闻文本进行阅读后，所记录的针对于该待分类的新闻文本的读后感信息。然后根据指定评论信息，获取与上述指定评论信息对应的读者信息，其中，上述指定评论信息为所有上述评论信息中的任意一条信息。另外，读者信息可包括读者的身份信息，如读者用户名信息。在得到了上述读者信息后，再根据上述读者信息，提取与上述读者信息对应的指定读者的历史阅读数据。其中，可以根据读者信息，通过数据库查询或爬虫等技术收集与上述读者信息对应的历史阅读数据。在得到了上述历史阅读数据后，再根据上述历史阅读数据，获取上述指定读者对于指定分类类别的偏好分数，其中，上述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别。另外，可通过从指定用户的历史阅读数据中提取出与属于指定分类类别的指定新闻文本的行为数据，以及获取与该行为数据的权重系数，进而根据该行为数据与该权重系数来快速准确地计算出上述指定读者对于指定分类类别的偏好分数。之后根据上述指定分类类别，按照预设规则计算上述指定评论信息相对于上述指定分类类别的匹配打分。其中，可通过使用包含有分类关键词的指定分类词典，来对指定评论信息中包含的关键词进行匹配分析处理，以筛选出指定评论信息中与指定分类词典内的分类关键词相匹配的关键词的数量，进而根据该数量能够准确地计算出指定评论信息相对于上述指定分类类别的匹配打分。接着根据上述偏好分数与上述匹配打分，调用预设的计算公式计算出，与上述指定读者对应的将上述待分类的新闻文本分类为上述指定分类类别的第一评分分数。具体的，上述预设的计算公式可为：

其中，

为上述将新闻文本分类为类别W对应的评分分数，

为第i个读者对分类类别W的偏好分数，

为评论信息相对于分类类别W的匹配打分。通过依据用户的阅读偏好与评论信息两个角度，并采用与上述偏好分数与上述匹配打分相关的计算公式，能够准确地计算出与上述指定读者对应的将上述新闻文本分类为上述指定分类类别的第一评分分数。并分别获取与所有评论信息对应的所有读者将上述待分类的新闻文本分类为上述指定分类类别的第二评分分数。在得到了上述第二评分分数后，再计算所有上述第二评分分数的平均值，得到将上述待分类的新闻文本分类为上述指定分类类别的分类分数。并分别获取将上述待分类的新闻文本分类为每一种分类类别的指定分类分数。最后从所有上述指定分类分数中筛选出数值最大的目标分类分数，并将与上述目标分类分数对应的目标分类类别作为上述待分类的新闻文本的目标分类结果。其中，可通过获取将上述新闻文本分类为每一种分类类别的指定分类分数，并对所有的指定分类分数进行大小比较，进而将数值最大的目标分类分数对应的目标分类类别确定为上述新闻文本的目标分类结果。不同于现有的采用大规模人工标注的方法对新闻文本进行不断标注，以根据内容复杂的新闻文本的正文来进行新闻文本分类的方式，本实施例在对待分类的新闻文件进行文本分类处理时，会智能地从待分类的新闻文本的评论信息与读者的阅读偏好的角度出发，通过分析评论信息中与分类相关的关键词以及读者的历史阅读数据来进行对于待分类的新闻文本的分类处理，同样实现了对于待分类的新闻文本的准确分类，大大减少了过多的人工标注的处理工作，有效地降低了新闻文本的分类处理成本，提高了新闻文本的分类处理效率。

进一步地，本申请一实施例中，上述步骤S4，包括：

S400：根据所述历史阅读数据，获取所述指定读者的阅读行为信息；

S401：从所述阅读行为信息中提取出与指定新闻文本对应的行为数据，其中，所述指定新闻文本的分类类别为所述指定分类类别，所述行为数据包括浏览次数、评论次数、转发次数与收藏次数；以及，

S402：获取与所述行为数据对应的权重系数；

S403：根据所述行为数据与所述权重系数，计算出所述指定读者对于所述指定分类类别的偏好分数。

如上述步骤S400至S403所述，上述根据上述历史阅读数据，获取上述指定读者对于指定分类类别的偏好分数的步骤，具体可包括：首先根据上述历史阅读数据，获取上述指定读者的阅读行为信息。其中，可以根据读者信息，通过数据库查询或爬虫等技术收集与上述读者信息对应的历史阅读数据，历史阅读数据至少包括阅读行为数据。然后从上述阅读行为信息中提取出与指定新闻文本对应的行为数据。其中，上述指定新闻文本的分类类别为上述指定分类类别，上述行为数据包括浏览次数、评论次数、转发次数与收藏次数。以及同时获取与上述行为数据对应的权重系数。其中，对于上述权重系数的具体取值不作具体限定，可根据各行为数据对于用户阅读偏好的影响程度进行设置，影响程度越高则权重取值越大。最后根据上述行为数据与上述权重系数，计算出上述指定读者对于上述指定分类类别的偏好分数。其中，对于上述偏好分数的计算方式不作限定，例如可采用上述权重系数来对该行为数据进行对应的加权求和处理来计算出上述偏好分数。或者还可将上述加权求和得到的和值与指定数值之间的商值来作为上述偏好分数，等等。本实施例通过从指定用户的历史阅读数据中提取出与属于指定分类类别的指定新闻文本的行为数据，以及获取与该行为数据对应的权重系数，进而根据该行为数据与该权重系数来快速准确地计算出上述指定读者对于指定分类类别的偏好分数，使得可根据该偏好分数来分析出指定读者对于对于指定分类类别的偏好程度，有利于后续根据该偏好分数来快速准确地生成与上述指定读者对应的将上述新闻文本分类为上述指定分类类别的第一评分分数。

进一步地，本申请一实施例中，所述权重系数包括与所述浏览次数对应的第一权重系数，与所述评论次数对应的第二权重系数，与所述转发次数对应的第三权重系数以及与所述收藏次数对应的第四权重系数，上述步骤S403，包括：

S4030：根据所述第一权重系数、第二权重系数、第三权重系数与第四权重系数，对所述浏览次数、评论次数、转发次数与收藏次数进行加权求和处理，得到对应的和值；

S4031：获取指定数值；

S4032：计算所述和值与所述指定数值的商值；

S4033：将所述商值作为所述指定读者对于所述指定分类信息的偏好分数。

如上述步骤S4030至S4033所述，上述权重系数包括与上述浏览次数对应的第一权重系数，与上述评论次数对应的第二权重系数，与上述转发次数对应的第三权重系数以及与上述收藏次数对应的第四权重系数，上述根据上述行为数据与上述权重系数，计算出上述指定读者对于上述指定分类类别的偏好分数的步骤，具体可包括：首先根据上述第一权重系数、第二权重系数、第三权重系数与第四权重系数，对上述浏览次数、评论次数、转发次数与收藏次数进行加权求和处理，得到对应的和值。其中，对于上述第一权重系数、第二权重系数、第三权重系数与第四权重系数的具体取值不作限定，可根据各行为数据对于用户阅读偏好的影响程度进行设置，影响程度越高则权重取值越大。然后获取指定数值。其中，对于上述指定数值的具体取值也不作限定，可根据实际需求进行设置，例如可通过将计算上述浏览次数、评论次数、转发次数与收藏次数之间的和作为上述指定数值。之后计算上述和值与上述指定数值的商值。最后将上述商值作为上述指定读者对于上述指定分类信息的偏好分数。本实施例通过获取与指定用户对于指定分类类别的阅读偏好对应的行为数据，即浏览次数、评论次数、转发次数与收藏次数，以及获取与各行为数据对应的权重系数，进而可以根据该行为数据与该权重系数来快速准确地计算出上述指定读者对于指定分类类别的偏好分数，使得可根据该偏好分数来分析出指定读者对于对于指定分类类别的偏好程度，有利于后续根据该偏好分数来快速准确地生成与上述指定读者对应的将上述新闻文本分类为上述指定分类类别的第一评分分数。

进一步地，本申请一实施例中，上述步骤S5，包括：

S500：对所述指定评论信息进行关键词提取，提取出所述指定评论信息中包含的所有第一关键词；

S501：获取所述第一关键词的第一数量；以及，

S502：获取与所述指定分类信息对应的指定分类词典；

S503：将每一个所述第一关键词分别与所述所述指定分类词典中包含的所有第二关键词进行匹配处理，从所有所述第一关键词中筛选出与所述第二关键词匹配的第三关键词；

S504：获取所述第三关键词的第二数量；

S505：根据所述第一数量与所述第二数量，生成所述指定评论信息相对于所述指定分类类别的匹配打分。

如上述步骤S500至S505所述，上述根据上述指定分类类别，按照预设规则计算上述指定评论信息相对于上述指定分类类别的匹配打分的步骤，具体可包括：首先对上述指定评论信息进行关键词提取，提取出上述指定评论信息中包含的所有第一关键词。其中，可以将上述评论信息输入至预设的关键词解析模型中，以通过该关键词解析模型来对上述评论信息进行解析，并从评论信息提取出所包含的所有关键词。上述关键词解析模型通过输入大量的评论样本信息，并进行动宾语句的识别以及词义解析识别的训练后建立。通过使用预训练生成的关键词解析模型来对上述评论信息进行关键词解析，能够快速准确地从该评论信息中提取出对应的所有关键词。然后获取上述第一关键词的第一数量。以及同时获取与上述指定分类信息对应的指定分类词典。其中，对于新闻文本所可能包含的每一种分类类别均会对应设置有一个分类词典。举例地，假设新闻文本的分类类别包括财经类别、时事类别、娱乐类别、体育类别。对应的，分类词典可包括：财经类分类词典、时事类分类词典、娱乐类分类词典与体育类分类词典。另外，对于分类类别为财经类别，财经类别所对应的分类关键词可包含有股票、债券、基金、期货、涨停、跌停、通胀等关键词词汇。之后将每一个上述第一关键词分别与上述上述指定分类词典中包含的所有第二关键词进行匹配处理，从所有上述第一关键词中筛选出与上述第二关键词匹配的第三关键词。其中，上述第二关键词对应于指定分类词典中与指定分类类别对应的分类关键词。通过将第一特定关键词分别与指定分类词典中包含的所有第二关键词进行匹配处理，第一特定关键词为所有上述第一关键词中的任意一个关键词，如果在指定分类词典中存在与该第一特定关键词相同的第二关键词，则将第一特定关键词确定为上述第三关键词。在得到了上述第三关键词后，再获取上述第三关键词的第二数量。最后根据上述第一数量与上述第二数量，生成上述指定评论信息相对于上述指定分类类别的匹配打分。其中，根据上述第一数量与上述第二数量，生成上述指定评论信息相对于上述指定分类类别的匹配打分的生成方法可包括：计算上述第一数量与上述第二数量的指定商值；将上述指定商值确定为上述指定评论信息相对于上述指定分类类别的匹配打分。本实施例通过使用包含有分类关键词的指定分类词典，来对指定评论信息中包含的关键词进行匹配分析处理，以筛选出指定评论信息中与指定分类词典内的分类关键词相匹配的关键词的数量，进而根据该数量来准确地计算出指定评论信息相对于上述指定分类类别的匹配打分，有利于后续根据该匹配打分来快速准确地生成与上述指定读者对应的将上述新闻文本分类为上述指定分类类别的第一评分分数。

进一步地，本申请一实施例中，上述步骤S502之前，包括：

S5020：获取与所述指定分类类别对应的分类关键词；

S5021：根据预设的近义词模型，生成与所述分类关键词对应的近义关键词；

S5022：将所述分类关键词与所述近义关键词共同存储于预设的原始词典中，得到数据存储后的词典；

S5023：将所述数据存储后的词典作为与所述指定分类类别对应的指定分类词典。

如上述步骤S5020至S5023所述，在进行获取与上述指定分类信息对应的指定分类词典的获取过程之前，还包括生成上述指定分类词典的生成过程。具体地，上述获取与上述指定分类信息对应的指定分类词典的步骤之前，还可包括：首先获取与上述指定分类类别对应的分类关键词。其中，新闻文本的分类类别包括财经类别、时事类别、娱乐类别、体育类别。可通过数据库查询等方法来查找出与各分类类别对应的分类关键词。举例地，对于分类类别为财经类别，财经类别所对应的分类关键词可包含有股票、债券、基金、期货、涨停、跌停、通胀等分类关键词词汇。然后根据预设的近义词模型，生成与上述分类关键词对应的近义关键词。其中，可以使用基于人工标注+近义词匹配的新闻文本语料作为训练样本，使用词袋模型来训练生成上述近义词模型，具体的模型训练生成过程可参照现有的训练生成方式，在此不做过多叙述。之后将上述分类关键词与上述近义关键词共同存储于预设的原始词典中，得到数据存储后的词典。最后在得到了上述数据存储后的词典，再将该数据存储后的词典作为与上述指定分类类别对应的指定分类词典。本实施例通过收集与上述指定分类类别对应的分类关键词，以及与上述分类关键词对应的近义关键词，便可根据该分类关键词、该近义关键词以及预设的原始词典来智能地生成与指定分类类别对应的指定分类词典，从而有利于后续通过使用该指定分类词典，来快速便捷地生成上述指定评论信息相对于上述指定分类类别的匹配打分。

进一步地，本申请一实施例中，上述步骤S10，包括：

S1000：按照数值从大到小的顺序对所有所述指定分类分数进行排序，得到对应的排序结果；

S1001：根据所述排序结果，筛选出排序第一的目标分类分数；

S1002：获取与所述目标分类分数对应的目标分类类别；

S1003：将所述目标分类类别确定为所述待分类的新闻文本的目标分类结果。

如上述步骤S1000至S1003所述，上述从所有上述指定分类分数中筛选出数值最大的目标分类分数，并将与上述目标分类分数对应的目标分类类别作为上述待分类的新闻文本的目标分类结果的步骤，具体可包括：首先按照数值从大到小的顺序对所有上述指定分类分数进行排序，得到对应的排序结果。然后根据上述排序结果，筛选出排序第一的目标分类分数。之后获取与上述目标分类分数对应的目标分类类别。最后将上述目标分类类别确定为上述待分类的新闻文本的目标分类结果。本实施例通过获取将上述新闻文本分类为每一种分类类别的指定分类分数，然后对所有的指定分类分数进行大小比较，进而将数值最大的目标分类分数对应的目标分类类别确定为上述新闻文本的目标分类结果，有效地实现了对于待分类的新闻文本的准确分类。

进一步地，本申请一实施例中，上述步骤S1之后，包括：

S100：分别获取各所述评论信息的字数；以及，

S101：获取预设的字数阈值；

S102：从所有所述评论信息中筛选出字数大于所述字数阈值的特定评论信息；

S103：在所述评论信息中剔除掉所述特定评论信息，得到剔除处理后的评论信息；

S104：对所述剔除处理后的评论信息进行噪声数据过滤处理，得到过滤处理后的评论信息。

如上述步骤S100至S104所述，在获取到与待分类的新闻文本对应的所有评论信息后，还可进一步对该评论信息进行剔除处理与过滤处理，以减少后续进行新闻文本分类的数据处理量，进而提高新闻文本分类的处理速率。具体地，上述获取与待分类的新闻文本对应的所有评论信息的步骤之后，还可包括：首先分别获取各上述评论信息的字数；以及同时获取预设的字数阈值。其中，对于上述字数阈值不作具体限定，可根据实际需求进行设置，例如可设置为15。然后从所有上述评论信息中筛选出字数大于上述字数阈值的特定评论信息，并会在上述评论信息中剔除掉上述特定评论信息，得到剔除处理后的评论信息。其中，如果某一条评论信息的字数小于该字数阈值，则会判定该条评论信息包含的信息量过小，很大概率不具备与待分类的新闻文本有关的相关词汇，进而会将此类字数小于字数阈值的评论信息从获取到的所有评论信息中剔除掉，以有效减少后续进行新闻文本分类的数据处理量，减少无用功的输出，提高新闻文本分类的处理速率。最后在得到了上述剔除处理后的评论信息时，再对上述剔除处理后的评论信息进行噪声数据过滤处理，得到过滤处理后的评论信息。其中，通过对剔除处理后的评论信息进行噪声数据过滤处理，可以减少因常见的停用词对评论信息所产生的影响，简化后续从评论信息中提取关键词的提取工作量。

本申请实施例中的新闻文本的分类方法还可以应用于区块链领域，如将上述目标分类结果等数据存储于区块链上。通过使用区块链来对上述目标分类结果进行存储和管理，能够有效地保证上述目标分类结果的安全性与不可篡改性。

上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参照图2，本申请一实施例中还提供了一种新闻文本的分类装置，包括：

第一获取模块1，用于获取与待分类的新闻文本对应的所有评论信息；

第二获取模块2，用于根据指定评论信息，获取与所述指定评论信息对应的读者信息，其中，所述指定评论信息为所有所述评论信息中的任意一条信息；

提取模块3，用于根据所述读者信息，提取与所述读者信息对应的指定读者的历史阅读数据；

第三获取模块4，用于根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别；

第一计算模块5，用于根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分；

第二计算模块6，用于根据所述偏好分数与所述匹配打分，调用预设的计算公式计算出，与所述指定读者对应的将所述待分类的新闻文本分类为所述指定分类类别的第一评分分数；

第四获取模块7，用于分别获取与所有所述评论信息对应的所有读者将所述待分类的新闻文本分类为所述指定分类类别的第二评分分数；

第三计算模块8，用于计算所有所述第二评分分数的平均值，得到将所述待分类的新闻文本分类为所述指定分类类别的分类分数；

第五获取模块9，用于分别获取将所述待分类的新闻文本分类为每一种分类类别的指定分类分数；

确定模块10，用于从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果。

本实施例中，上述新闻文本的分类装置中的第一获取模块、第二获取模块、提取模块、第三获取模块、第一计算模块、第二计算模块、第三计算模块、第五获取模块与确定模块的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S1至S10的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第三获取模块，包括：

第一获取单元，用于根据所述历史阅读数据，获取所述指定读者的阅读行为信息；

第一提取单元，用于从所述阅读行为信息中提取出与指定新闻文本对应的行为数据，其中，所述指定新闻文本的分类类别为所述指定分类类别，所述行为数据包括浏览次数、评论次数、转发次数与收藏次数；以及，

第二获取单元，用于获取与所述行为数据对应的权重系数；

第一计算单元，用于根据所述行为数据与所述权重系数，计算出所述指定读者对于所述指定分类类别的偏好分数。

本实施例中，上述新闻文本的分类装置中的第一获取单元、第一提取单元、第二获取单元与第一计算单元的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S400至S403的实现过程，在此不再赘述。

进一步地，本申请一实施例中，所述权重系数包括与所述浏览次数对应的第一权重系数，与所述评论次数对应的第二权重系数，与所述转发次数对应的第三权重系数以及与所述收藏次数对应的第四权重系数，上述第一计算单元，包括：

处理子单元，用于根据所述第一权重系数、第二权重系数、第三权重系数与第四权重系数，对所述浏览次数、评论次数、转发次数与收藏次数进行加权求和处理，得到对应的和值；

获取子单元，用于获取指定数值；

计算子单元，用于计算所述和值与所述指定数值的商值；

确定子单元，用于将所述商值作为所述指定读者对于所述指定分类信息的偏好分数。

本实施例中，上述新闻文本的分类装置中的处理子单元、获取子单元、计算子单元与确定子单元的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S4030至S4033的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第一计算模块，包括：

第二提取单元，用于对所述指定评论信息进行关键词提取，提取出所述指定评论信息中包含的所有第一关键词；

第三获取单元，用于获取所述第一关键词的第一数量；以及，

第四获取单元，用于获取与所述指定分类信息对应的指定分类词典；

第一筛选单元，用于将每一个所述第一关键词分别与所述所述指定分类词典中包含的所有第二关键词进行匹配处理，从所有所述第一关键词中筛选出与所述第二关键词匹配的第三关键词；

第五获取单元，用于获取所述第三关键词的第二数量；

第一生成单元，用于根据所述第一数量与所述第二数量，生成所述指定评论信息相对于所述指定分类类别的匹配打分。

本实施例中，上述新闻文本的分类装置中的第二提取单元、第三获取单元、第四获取单元、第一筛选单元、第五获取单元与第一生成单元的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S500至S505的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第一计算模块，包括：

第六获取单元，用于获取与所述指定分类类别对应的分类关键词；

第二生成单元，用于根据预设的近义词模型，生成与所述分类关键词对应的近义关键词；

存储单元，用于将所述分类关键词与所述近义关键词共同存储于预设的原始词典中，得到数据存储后的词典；

第一确定单元，用于将所述数据存储后的词典作为与所述指定分类类别对应的指定分类词典。

本实施例中，上述新闻文本的分类装置中的第六获取单元、第二生成单元、存储单元与第一确定单元的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S5020至S5023的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述确定模块，包括：

排序单元，用于按照数值从大到小的顺序对所有所述指定分类分数进行排序，得到对应的排序结果；

第二筛选单元，用于根据所述排序结果，筛选出排序第一的目标分类分数；

第七获取单元，用于获取与所述目标分类分数对应的目标分类类别；

第二确定单元，用于将所述目标分类类别确定为所述待分类的新闻文本的目标分类结果。

本实施例中，上述新闻文本的分类装置中的排序单元、第二筛选单元、第七获取单元与第二确定单元的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S1000至S1003的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述新闻文本的分类装置，还包括：

第六获取模块，用于分别获取各所述评论信息的字数；以及，

第七获取模块，用于获取预设的字数阈值；

筛选模块，用于从所有所述评论信息中筛选出字数大于所述字数阈值的特定评论信息；

第一处理模块，用于在所述评论信息中剔除掉所述特定评论信息，得到剔除处理后的评论信息；

第二处理模块，用于对所述剔除处理后的评论信息进行噪声数据过滤处理，得到过滤处理后的评论信息。

本实施例中，上述新闻文本的分类装置中的第六获取模块、第七获取模块、筛选模块、第一处理模块与第二处理模块的功能和作用的实现过程具体详见上述新闻文本的分类方法中对应步骤S100至S104的实现过程，在此不再赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储评论信息、读者信息、历史阅读数据、指定分类类别的偏好分数、指定分类类别的匹配打分、第一评分分数、目标分类分数以及目标分类结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备，用于将数字信号转换为光信号，使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置，用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种新闻文本的分类方法。

上述处理器执行上述新闻文本的分类方法的步骤：

获取与待分类的新闻文本对应的所有评论信息；

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种新闻文本的分类方法，具体为：

获取与待分类的新闻文本对应的所有评论信息；

综上所述，本申请实施例中提供的新闻文本的分类方法、装置、计算机设备和存储介质，不同于现有的采用大规模人工标注的方法对新闻文本进行不断标注，以根据内容复杂的新闻文本的正文来进行新闻文本分类的方式，本实施例在对待分类的新闻文件进行文本分类处理时，会智能地从待分类的新闻文本的评论信息与读者的阅读偏好的角度出发，通过分析评论信息中与分类相关的关键词以及读者的历史阅读数据来进行对于待分类的新闻文本的分类处理，同样实现了对于待分类的新闻文本的准确分类，大大减少了过多的人工标注的处理工作，有效地降低了新闻文本的分类处理成本，提高了新闻文本的分类处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种新闻文本的分类方法，其特征在于，包括：

获取与待分类的新闻文本对应的所有评论信息；

2.根据权利要求1所述的新闻文本的分类方法，其特征在于，所述根据所述历史阅读数据，获取所述指定读者对于指定分类类别的偏好分数，其中，所述指定分类类别为与新闻文本对应的所有分类类别中的任意一种类别的步骤，包括：

获取与所述行为数据对应的权重系数；

3.根据权利要求2所述的新闻文本的分类方法，其特征在于，所述权重系数包括与所述浏览次数对应的第一权重系数，与所述评论次数对应的第二权重系数，与所述转发次数对应的第三权重系数以及与所述收藏次数对应的第四权重系数，所述根据所述行为数据与所述权重系数，计算出所述指定读者对于所述指定分类类别的偏好分数的步骤，包括：

获取指定数值；

计算所述和值与所述指定数值的商值；

4.根据权利要求1所述的新闻文本的分类方法，其特征在于，所述根据所述指定分类类别，按照预设规则计算所述指定评论信息相对于所述指定分类类别的匹配打分的步骤，包括：

获取所述第一关键词的第一数量；以及，

获取与所述指定分类信息对应的指定分类词典；

获取所述第三关键词的第二数量；

5.根据权利要求4所述的新闻文本的分类方法，其特征在于，所述获取与所述指定分类信息对应的指定分类词典的步骤之前，包括：

获取与所述指定分类类别对应的分类关键词；

6.根据权利要求1所述的新闻文本的分类方法，其特征在于，所述从所有所述指定分类分数中筛选出数值最大的目标分类分数，并将与所述目标分类分数对应的目标分类类别作为所述待分类的新闻文本的目标分类结果的步骤，包括：

根据所述排序结果，筛选出排序第一的目标分类分数；

获取与所述目标分类分数对应的目标分类类别；

7.根据权利要求1所述的新闻文本的分类方法，其特征在于，所述获取与待分类的新闻文本对应的所有评论信息的步骤之后，包括：

分别获取各所述评论信息的字数；以及，

获取预设的字数阈值；

8.一种新闻文本的分类装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。