CN113535813B

CN113535813B - 一种数据挖掘方法、装置、电子设备以及存储介质

Info

Publication number: CN113535813B
Application number: CN202110742126.6A
Authority: CN
Inventors: 毛勤; 邹佩; 张月; 刘妍; 邓海超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-07-28
Anticipated expiration: 2041-06-30
Also published as: KR20230004333A; US11755677B2; CN113535813A; JP2023008943A; US20230004613A1; EP4113321A1

Abstract

本公开公开了一种数据挖掘方法、装置、电子设备以及存储介质，涉及互联网技术领域，尤其涉及互联网大数据处理技术。具体方法包括：获取待挖掘的当前文章；基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；根据所述类型识别结果，确定当前文章是否属于任一预设类型的数据。

Description

一种数据挖掘方法、装置、电子设备以及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及互联网大数据处理技术中的一种数据挖掘方法、装置、电子设备以及存储介质。

背景技术

目前，很多企业需要对其生成的互联网数据进行分析，挖掘出需要的数据，基于挖掘出的数据进行进一步地处理。例如：为了帮助企业对互联网数据进行舆情分析，出现了舆情分析系统，舆情分析系统主要用于实时监测舆情并及时预警突发舆情。

可见，如何从海量的互联网数据中有效地挖掘出需要的数据是进行网络数据处理的一个重要的步骤。具体的，对于舆情分析来讲，如何从海量的互联网数据中有效地挖掘出舆情数据，是进行舆情分析的一个最重要的环节。

发明内容

本公开提供了一种能够有效地挖掘出需要的数据的数据挖掘方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种数据挖掘方法，包括：

获取待挖掘的当前文章；

基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；

分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；

根据所述数据类型识别结果，确定当前文章是否属于任一预设类型的数据。

根据本公开的另一方面，提供了一种数据挖掘装置，包括：

当前文章获取模块，用于获取待进行数据挖掘的互联网数据中的当前文章；

信息值获取模块，用于基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；

数据类型识别模块，用于分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；

数据类型确定模块，用于根据所述数据类型识别结果，确定当前文章是否属于任一预设类型的数据。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述任一方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述任一方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开提供的数据挖掘方法的第一实施例的流程示意图；

图2是根据本公开提供的数据挖掘方法的第二实施例的流程示意图；

图3是根据本公开提供的数据挖掘方法应用在舆情系统中的舆情数据分类示意图；

图4a是根据本公开提供的数据挖掘方法的第三实施例的流程示意图；

图4b是根据本公开提供的数据挖掘方法应用在舆情系统中的舆情分析的整体过程示意图；

图5是根据本公开提供的数据挖掘装置的第一实施例的结构示意图；

图6是根据本公开提供的数据挖掘装置的第二实施例的结构示意图；

图7是根据本公开提供的数据挖掘装置的第三实施例的结构示意图；

图8是用来实现本公开实施例的数据挖掘方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种能够有效地挖掘出需要的数据的数据挖掘方法、装置、电子设备以及存储介质，以下分析进行详细说明。

参见图1，图1是根据本公开提供的数据挖掘方法的第一实施例的流程示意图，如图1所示，该方法包括如下步骤：

步骤S110，获取待挖掘的当前文章。

步骤S120，基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；

步骤S130，分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；

步骤S140，根据所述数据类型识别结果，确定当前文章是否属于任一预设类型的数据。

由上述的实施例可见，本公开提供的数据挖掘方法，可以基于预设的多种数据识别策略，对网页数据进行数据分类挖掘，有效地挖掘出不同类型的数据。相比目前常用的人工对网页数据进行数据的挖掘，更加高效和准确。

本公开可以将需要挖掘的数据分为三大类，分别为：数据低质量、内容低质量和情感分析不准确。

本公开提供的数据挖掘方法可以应用到舆情系统中。为了实现舆情数据的分类挖掘，可以对舆情系统的舆情数据分为数据低质量、内容低质量和情感分析不准确三大类。

这样，在进行舆情数据挖掘时，可以针对这三类进行挖掘，为后续直接挖掘出这三大类的舆情数据及分类处理，提供了便利条件。

文章是舆情系统的最基本的元素，数据低质量，就是衡量文章本身的质量情况。文章本身数据质量过低对用户的影响非常大，因此需要挖掘出数据低质量的文章，以便在后续的处理中直接过滤掉。

内容低质量的文章，就是要对文章进行理解，以确定文章是否属于广告、色情和赌博等。此类内容低质量的文章会产生负面影响，因此需要挖掘出内容低质量的文章，以便后续研发人员对内容过滤算法进行改进。

文章的情感分类是舆情分析的特色功能，对情感分析的准确性尤为重要，因此需要挖掘出情感分析不准确的文章，以便后续研发人员对情感极性分析的算法进行改进。

参见图2，图2是根据本公开提供的数据挖掘方法的第二实施例的流程示意图，如图2所示，该流程在图1的基础上，对步骤S120和S130进行了细化。

具体的，步骤S120，可以包括如下步骤：

步骤S121，基于数据低质量类型的数据识别策略，从当前文章中获得文章标题、文章摘要和文章内容。

在将本公开的技术方案应用到舆情系统中的情况下，对于数据低质量类型的舆情数据，本公开可以采用的舆情数据识别策略主要是：规则匹配。本实施例中，定义了针对文章标题、文章摘要和文章内容的属性匹配规则。因此，本步骤中可以从当前文章中获得文章标题、文章摘要和文章内容。

本实施例中，对数据低质量舆情数据采用的识别策略主要是：规则匹配。这种规则匹配的识别策略一方面更容易干预，如果想扩展评估badcase的范围，直接增加规则即可；另一方面解释性更强，如果发现了badcase，可以直接查到是命中了哪条规则；最后，可在多个领域上迁移，节省大量人力成本，例如：从舆情系统迁移到推荐系统，或者从政务舆情迁移到企业舆情等等。

步骤S122，基于内容低质量类型的数据识别策略，从当前文章中提取关键词。

在将本公开的技术方案应用到舆情系统中的情况下，对于内容低质量类型的舆情数据，本公开可以采用的舆情数据识别策略主要是：关键词匹配。因此本步骤中，可以从当前文章中提取关键词。

步骤S123，基于情感分析不准确数据识别策略，从当前文章中获得的已发布的情感极性标签。

在将本公开的技术方案应用到舆情系统中的情况下，对于情感分析不准确舆情数据，本公开可以采用的舆情数据识别策略主要是：通过不同的情感极性分析算法来验证已发布的情感极性标签是否准确。因此本步骤中，可以从当前文章中获得的已发布的情感极性标签。

具体的，步骤S130，可以包括如下步骤：

步骤S131，利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果。

在将本公开的技术方案应用到舆情系统中的情况下，本步骤可以是：判断所述当前文章的文章标题、文章摘要和文章内容，是否满足预设的数据低质量类型的数据规则，如果是则确定所述当前文章是数据低质量类型的舆情数据。

对于文章标题、文章摘要、文章内容三个属性，本公开可以定义长度是否过长/过短、是否为空、是否乱码等规则。相应的，本步骤具体可以是：判断所述当前文章的文章标题、文章摘要和文章内容，是否满足预设的文字长度规则或乱码规则和文章标题与文章摘要是否匹配规则中的一种或多种规则，如果是则确定所述当前文章是数据低质量类型的舆情数据。

这样，本实施例在挖掘数据低质量的舆情数据过程中，可以基于不同的规则，将这些舆情数据进一步分为标题过短或过长、摘要过短或过长、标题为空、摘要为空或内容重复等小类。

另外，本公开中还可以定义标题与摘要是否匹配的规则。包括：若当前文章符合文章标题与文章摘要的文字不匹配，和文章标题与文章摘要的语义不匹配中的至少一项，则确定所述当前文章为数据低质量类型的舆情数据。这样，本步骤还可通过判断标题与摘要是否匹配来确定当前文章是否为数据低质量类型的舆情数据。可见，本实施例中还可以通过标题与摘要是否匹配，来识别数据低质量的舆情数据。

具体的，本步骤中为了计算标题与摘要是否匹配，采用了多种计算指标。首先是文字匹配度，先是对标题与摘要分别切字，计算标题字集合和摘要字集合这两个集合的重叠比例；其次是语义匹配度，先是从中文NLP预训练模型(ERNIE模型)中得到标题与摘要的向量，计算标题向量和摘要向量这两个向量的余弦(cos)距离；如果重叠比例和cos距离分别满足预设的匹配条件，则确定文章标题与文章摘要匹配。例如：如果标题字集合和摘要字集合重叠的比例大于或等于预设的重叠阈值，且标题向量和摘要向量cos距离小于预设距离阈值，则确定文章标题与文章摘要匹配。

另外，本公开还可以对于URL属性，定义死链定期检测等规则。因此，上述步骤121中，还可以进一步获得所述当前文章的URL信息。

本步骤中，还可以包括：基于预设的死链定期检测规则，定期检测当前文章的URL是否出现无法访问的死链现象；若当前文章的URL出现无法访问的死链现象，则确定所述当前文章为数据低质量类型的数据。

具体的方式可以是：定期访问所述URL，如果连续3次(或更多次)返回的响应码都表明该URL不可访问，则确定出现死链现象，当前文章为数据低质量类型的数据。本实施例中，连续次数并不限定，可以由研发人员根据实际情况进行设定。

这样，本实施例可以通过URL检测，检测出现无法访问的文章，从而来识别数据低质量的数据。

如图2所示，步骤S132，利用内容低质量类型的数据识别策略及从当前文章中提取关键词，对当前文章进行识别，得到当前文章是否为内容低质量类型的数据的第二识别结果。

本步骤中，可以将从当前文章中提取的关键词与预设的内容低质量类型的数据对应的关键词进行第一次匹配，得到第一关键词匹配结果；

基于第一关键词匹配结果，确定所述当前文章是否为内容低质量类型的数据。

本实施例中，内容低质量的数据，主要是广告，色情、赌博三方面的数据。

具体的，在将本公开的技术方案应用到舆情系统中的情况下，针对这三方面的数据，可以采用不同的方式来确定。

第一，对于广告数据，若所述第一匹配结果表示第一次匹配成功，则确定所述当前文章为内容低质量类型的舆情数据。

这样，可以通过一次匹配，判断出当前文章是否为广告数据。

其中，预设的内容低质量类型的舆情数据对应的关键词，可以预先保存的由人工挑选的高频的广告关键词，还可以增加从网络上下载的广告关键词表中的广告关键词。

其中，通过使用从网络上下载的广告关键词表进行第一次匹配，可以提升识别的覆盖面，进一步提升了泛化能力。

当然，这种方式也可以用于对色情和赌博相关的数据进行舆情数据识别。

第二，对于与色情相关的数据，若所述第一匹配结果表示第一次匹配成功，则将从当前文章中提取的关键词与预设的可信关键词进行第二次匹配，得到第二关键词匹配结果。若第二关键词匹配结果表示第二次匹配成功，则所述当前文章不为内容低质量类型的舆情数据；若第二关键词匹配结果表示第二次匹配不成功，则所述当前文章为内容低质量类型的舆情数据。

具体的，本实施例可以采用模型+规则的策略实现对色情相关数据的识别。实施例中在第一次关键词匹配是采用预设的基于色情关键词训练的色情模型，将当前文章的关键词输入至色情模型中，获得该当前文章的关键词中是否包含色情关键词及哪个色情关键词的输出结果。如果色情模型输出了色情关键词，则表明第一次匹配成功。再用第二次的匹配规则对当前文章的关键词进行第二次匹配，即将从当前文章中提取的关键词与预设的可信关键词进行第二次匹配，得到第二关键词匹配结果。这里的可信关键词，是预先人工提取的，例如“警方”、“某某媒体报道”等等。这样，如果当前文章命中这些高可信关键词，则取消色情标签。

这样，通过二次关键词匹配，可以准确地识别出与色情相关的数据，从而降低了badcase的误识别率。

当然，这种方式也可以用于对广告和赌博相关的数据进行舆情数据识别。

第三，对于与赌博相关的数据，若所述第一匹配结果表示第一次匹配成功，则确定所述当前文章所属的当前网站；判断所述当前网站是否为预设的内容低质量类型的舆情数据所属的网站；如果是，则确定所述当前文章为内容低质量类型的舆情数据。

具体的，本实施例可以采用关键词+赌博网站过滤词的方式进行挖掘，在实际的场景中赌博内容往往更为隐晦，通过标题或者是文字内容，难以发现，因此，预先确定了一批赌博网站，通过关键词+赌博网站的方式进行挖掘。若所述第一匹配结果表示第一次匹配成功，也就是说如果当前文章中有的关键词与预设的赌博相关的关键词匹配成功后，进一步判断当前文章所属的当前网站是否属于上述的赌博网站，如果是，则确定所述当前文章为与赌博相关的内容低质量类型的舆情数据。

这样，能够挖掘出与赌博相关的舆情数据，进而提升了与赌博相关的舆情数据挖掘的正确性。

当然，这种方式也可以用于对广告和色情相关的数据进行舆情数据识别。

参见图2，步骤S133，利用情感分析不准确数据识别策略及所述当前文章的情感极性标签，对当前文章进行识别，得到当前文章是否为情感分析不准确类型的数据的第三识别结果。

情感分析是相对成熟的技术，已经有几种比较成熟的情感极性分析算法。例如：基于词典的情感极性分析算法、基于邻近算法(k_NN)的情感极性分析算法、基于贝叶斯(Bayes)的情感极性分析算法、基于最大熵的情感极性分析算法、基于支持向量机SVM的情感极性分析算法等等。

本实施例中，当前文章的情感极性标签可以是：在所述当前文章发布过程中，采用第一情感极性分析算法进行分析获得的。

这样，可以采用与第一情感极性分析算法不同的第二情感极性分析算法，对待分析的文章进行情感分析，得到待分析的文章的当前情感极性。

然后，基于当前情感极性与所述已发布的情感极性标签是否一致，确定所述当前文章是否为情感分析不准确类型的数据。

这样，通过本实施例可以准确地挖掘出情感分析不准确的文章，为后续进一步调整情感极性分析算法，提供了有利的数据支撑。

具体的，在将本公开的技术方案应用到舆情系统中的情况下，可以是判断所述当前情感极性与所述情感极性标签的极性是否相反，且所述第二情感极性分析算法输出的当前情感极性的置信度是否大于或等于预设阈值，如果是则确定所述当前文章为情感分析不准确类型的舆情数据。

在实际的情感分析场景中，本公开的发明人发现，用户对正负极性的文章情感分析错误的反感程度远大于中性极性的错误。即用户对正负倾向的判定非常敏感。例如“某人因为某罪被判处有期徒刑3年”，这句话的感情倾向，即可以是中性，也可以是负面。但是这句话被判定成正面，那么就不能接受了。再例如：“从7月1号开始，A市将全面推行垃圾分类”，这句话的感情倾向既可以是中性，也可以是正面，但是如果被判定为负面，就是明显的错误。

因此，基于以上用户心理的观察分析，本公开采用的挖掘情感分析不准确类型的数据的规则，可以包括3个方面：a、采用第二情感极性分析算法得出的当前情感极性与采用第一情感极性分析算法得出的情感极性标签的极性相反；b、相反的极性指的是正面和负面；c、第二情感极性分析算法得出的当前情感极性的置信度在0.95以上；如果以上3个方面规则均满足，则判定为情感分析不准确的badcase。

可见，本实施例通过这3个方面的规则对情感分析不准确的舆情数据的挖掘方式，更符合用户心理；这样挖掘出的情感分析不准确的舆情数据更准确。

其中，第二情感极性分析算法可以是NLPC工具提供的分析算法；第一情感极性分析算法是与NLPC工具提供的分析算法不同的情感分析算法。

具体的，NLPC先在大型的数据集上，预训练了语言模型ERNIE；然后基于ERNIE训练了情感极性分类模型。取ERNIE模型的预估值为了置信度，即：置信度＝softmax(y),其中，y是ERNIE模型预测的极性的向量。

由图2所示的实施例可见，采用本公开第二实施例进行数据挖掘，在挖掘的同时，可以直接将挖掘出的数据划分出三大类。

参见图3，图3是根据本公开提供的数据挖掘方法应用在舆情系统中的舆情数据分类示意图；如图3所示，舆情badcase数据可以被分为：数据低质量、内容低质量和情感分析不准确这三大类。

其中，数据低质量类中，又可以根据其匹配的不同的具体规则被分为：标题过短、标题过长、标题为空、摘要过短、摘要为空、摘要过长、文章内容重复、标题乱码、摘要乱码、文章内容乱码、死链和标题与摘要不符这12小类。当然，如果增加匹配规则的话，数据低质量的舆情数据还可以被分为更多的小类。

其中，内容低质量类中，又可以根据文章的内容被分为：色情相关数据、广告数据和赌博相关数据这3个小类。

而情感分析不准确类中，则又可以根据情感极性的具体错误被分为：负面判断错误、正面判断错误和不确定这3个小类。

使用上述的数据挖掘方法，可以从网页数据中发现一定量的badcase。在实际应用中，为了挖掘的结果更准确，还可以进行人工进行审核。具体的，参见图4a，图4a是根据本公开提供的数据挖掘方法的第三实施例的流程示意图，如图4a所示，该流程在图2的基础上，增加了如下步骤：

步骤S410，将确定了数据类型的各个文章作为挖掘出的数据输出给研发用户进行审核。

步骤S420，对审核通过的各个类型的数据进行统计，获得统计信息输出给研发用户。

本实施例中，可以与传统的人工审核方式不同，可以不采用的excel模式。本实施例可以使用百度的amis平台进行审核，支持多人进行审核。审核完成的结果将同步录入数据库，并支持实时统计和计算审核率，实时产出报告。

参见图4b，图4b根据本公开提供的数据挖掘方法应用在舆情系统中的舆情分析的整体过程示意图。如图4b所示，首先获取舆情系统生成的文章；然后采用上述的舆情数据挖掘方法，对每篇文章进行质量分析，获得数据低质量、内容低质量和情感分析不准确的低质量文章；再通过人工在平台上审核，得出低质量问题；再由系统自动建立需求卡片，再由开发人员修复这些问题；问题修复后，再回到获取舆情系统生成的文章的过程，以重新生成舆情分析结果。这样，就形成了从生产数据、到舆情监控(也就是舆情数据挖掘)、再到问题修复、再到生产数据的闭环。

本实施例中，可以使用百度的amis平台提供的自动创建卡片功能。在用户点击创建卡片按钮后，实现自动创建需求卡片。需求卡片是根据badcase的类型定义来创建的，每个舆情数据的类型对应一个需求卡片。需求卡片上面展示的信息，可以包括：badcase的类型、badcase数量、修复优先级和badcase的发现阶段。还可以包括：该类型的badcase的具体跳转链接，方便研发人员查看具体有哪些badcase，进行修复和标注。

针对其中的修复优先级，目前主要由该种类的badcase数量在挖掘总样本的量(badcase召回率)的占比决定。

具体的定级规则如下：

召回率>＝3％定级为P0-Highest

1％<召回率<3％定级为P1-Middle

召回率<＝1％定级为P2-Low

本实施例中，问题修复的方法有很多种。最直接的修复方法是在系统的数据库中，删除此类型下所有的badcase，线上不再展现。但这种方法指标不治本，因为舆情的文章库是实时更新的。因此，还可以从策略算法上进行优化，具体的badcase需要有不同的解决策略：

对于标题或者摘要过短/过长/为空，标题或者摘要乱码，死链，文章内容重复这类badcase修复方案：

舆情系统在生成文章的时候，本身具有一套过滤系统，在舆情系统生成文章的时候进行相关的阈值设定，或者优化站点白名单。

对于标题和摘要不符的情况：这种情况说明舆情系统使用的摘要抽取模型效果不符合预期，需要优化对应模型策略。

对于广告、赌博、色情此类badcase优化也需要从模型层面进行优化。

对于情感分析不准确的情况：如果出现了情感分析的badcase，说明舆情系统采用的情感分析模型算法针对某些badcase不起作用，需要分析具体的badcase，扩充训练集，重新训练模型。

根据本公开的实施例，本公开还提供了一种数据挖掘装置。

参见图5，图5是根据本公开提供的数据挖掘装置的第一实施例的结构示意图；如图5所示，该数据挖掘装置包括：

当前文章获取模块510，用于获取待挖掘的当前文章；

信息值获取模块520，用于基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；

数据类型识别模块530，用于分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；

数据类型确定模块540，用于根据所述类型识别结果，确定当前文章是否属于任一预设类型的数据。

由上述的实施例可见，本公开提供了数据挖掘装置，可以基于预设的多种数据识别策略，对网页数据进行数据分类挖掘，有效地挖掘出不同类型的数据。相比目前常用的人工对网页数据进行数据的挖掘，更加高效和准确。

本实施例中，数据的预设类型，可以包括：数据低质量、内容低质量和情感分析不准确。

参见图6，图6是根据本公开提供的数据挖掘装置的第二实施例的结构示意图；如图6所示，该数据挖掘装置在图5的基础上，信息值获取模块520，具体包括：

第一信息值获取子模块521，用于基于数据低质量类型的数据识别策略，从当前文章中获得文章标题、文章摘要和文章内容；

第二信息值获取子模块522，用于基于内容低质量类型的数据识别策略，从当前文章中提取关键词；

第三信息值获取子模块523，用于基于情感分析不准确数据识别策略，从当前文章中获得的已发布的情感极性标签。

如图6所示，所述数据类型识别模块530，具体包括：

第一识别子模块531，用于利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果；

第二识别子模块532，用于利用内容低质量类型的数据识别策略及从当前文章中提取关键词，对当前文章进行识别，得到当前文章是否为内容低质量类型的数据的第二识别结果；

第三识别子模块533，用于利用情感分析不准确数据识别策略及所述当前文章的情感极性标签，对当前文章进行识别，得到当前文章是否为情感分析不准确类型的数据的第三识别结果。

其中，所述第一识别子模块531，具体用于：

判断所述当前文章的文章标题、文章摘要和文章内容，是否满足预设的数据低质量类型的数据规则，如果是则确定所述当前文章是数据低质量类型的数据。

所述第一信息值获取子模块521，还用于：获得所述当前文章的URL信息；所述第一识别子模块531，还具体用于：基于预设的死链定期检测规则，定期检测当前文章的URL是否出现无法访问的死链现象；若当前文章的URL出现无法访问的死链现象，则确定所述当前文章为数据低质量类型的数据。

所述第二识别子模块532，可以包括：

第一匹配单元，用于将从当前文章中提取的关键词与预设的内容低质量类型的数据对应的关键词进行第一次匹配，得到第一关键词匹配结果；

确定单元，用于基于第一关键词匹配结果，确定所述当前文章是否为内容低质量类型的数据。

其中，所述确定单元，具体用于：若所述第一匹配结果表示第一次匹配成功，则确定所述当前文章为内容低质量类型的数据；或，

所述确定单元，具体用于：若所述第一匹配结果表示第一次匹配成功，则将从当前文章中提取的关键词与预设的可信关键词进行第二次匹配，得到第二关键词匹配结果；若第二关键词匹配结果表示第二次匹配成功，则所述当前文章不为内容低质量类型的数据；若第二关键词匹配结果表示第二次匹配不成功，则所述当前文章为内容低质量类型的数据；或，

所述确定单元，具体用于：

若所述第一匹配结果表示第一次匹配成功，则确定所述当前文章所属的当前网站；

判断所述当前网站是否为预设的内容低质量类型的数据所属的网站；如果是，则确定所述当前文章为内容低质量类型的数据。

其中，所述当前文章的情感极性标签是：在所述当前文章发布过程中，采用第一情感极性分析算法进行分析获得的；

所述第三识别子模块533，具体用于：

采用第二情感极性分析算法，对待分析的文章进行情感分析，得到待分析的文章的当前情感极性；所述第二情感极性分析算法与所述第一情感极性分析算法为不同的算法；

基于当前情感极性与所述已发布的情感极性标签是否一致，确定所述当前文章是否为情感分析不准确类型的数据。

参见图7，图7是根据本公开提供的数据挖掘装置的第三实施例的结构示意图；如图7所示，该数据挖掘装置在图6的基础上，还包括：

审核模块710，用于将确定了数据类型的各个网页文章作为挖掘出的数据输出给研发用户进行审核；

统计模块720，用于对审核通过的各个类型的数据进行统计，获得统计信息输出给研发用户。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如上述的任一数据挖掘方法。例如，在一些实施例中，数据挖掘方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据挖掘方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述任一数据挖掘方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据挖掘方法，包括：

获取待挖掘的当前文章；

基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，每种数据识别策略用于识别一种预设类型的数据；其中，所述数据的预设类型，包括：数据低质量、内容低质量和情感分析不准确；所述基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值的步骤，包括：

基于数据低质量类型的数据识别策略，从当前文章中获得文章标题、文章摘要和文章内容；基于内容低质量类型的数据识别策略，从当前文章中提取关键词；基于情感分析不准确数据识别策略，从当前文章中获得的已发布的情感极性标签；所述数据低质量类型的数据识别策略为基于预设的数据低质量类型的数据规则的识别策略；所述内容低质量类型的数据识别策略为基于关键词匹配分析的识别策略；所述情感分析不准确数据识别策略为基于情感分析算法的识别策略；

分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；其中，所述分别利用所述每种数据识别策略，基于该识别策略所需的信息值，对当前文章进行数据类型识别，得到数据类型识别结果的步骤，包括：利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果；利用内容低质量类型的数据识别策略及从当前文章中提取关键词，对当前文章进行识别，得到当前文章是否为内容低质量类型的数据的第二识别结果；利用情感分析不准确数据识别策略及所述当前文章的情感极性标签，对当前文章进行识别，得到当前文章是否为情感分析不准确类型的数据的第三识别结果；

2.根据权利要求1所述的方法，其中，

所述利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果的步骤，包括：

3.根据权利要求2所述的方法，其中，

所述判断所述当前文章的文章标题、文章摘要和文章内容，是否满足预设的数据低质量类型的数据规则，如果是则确定所述当前文章是数据低质量类型的数据的步骤，包括：

判断所述当前文章的文章标题、文章摘要和文章内容，是否满足预设的文字长度规则或乱码规则和文章标题与文章摘要是否匹配规则中的一种或多种规则，如果是则确定所述当前文章是数据低质量类型的数据。

4.根据权利要求3所述的方法，其中，

所述文章标题与文章摘要是否匹配规则，包括：若当前文章符合文章标题与文章摘要的文字不匹配，和文章标题与文章摘要的语义不匹配中的至少一项，则确定所述当前文章为数据低质量类型的数据。

5.根据权利要求2所述的方法，其中，

所述基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要信息值的步骤，还包括：获得所述当前文章的URL信息；

所述利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果的步骤，还包括：

基于预设的死链定期检测规则，定期检测当前文章的URL是否出现无法访问的死链现象；若当前文章的URL出现无法访问的死链现象，则确定所述当前文章为数据低质量类型的数据。

6.根据权利要求1所述的方法，其中，

所述利用内容低质量类型的数据识别策略及从当前文章中提取关键词，对当前文章进行识别，得到当前文章是否为内容低质量类型的数据的第二识别结果的步骤，包括：

将从当前文章中提取的关键词与预设的内容低质量类型的数据对应的关键词进行第一次匹配，得到第一关键词匹配结果；

7.根据权利要求6所述的方法，其中，

所述基于第一关键词匹配结果，确定所述当前文章是否为内容低质量类型的数据的步骤，包括：

若第一匹配结果表示第一次匹配成功，则确定所述当前文章为内容低质量类型的数据；或，

若所述第一匹配结果表示第一次匹配成功，则将从当前文章中提取的关键词与预设的可信关键词进行第二次匹配，得到第二关键词匹配结果；

若第二关键词匹配结果表示第二次匹配成功，则所述当前文章不为内容低质量类型的数据；若第二关键词匹配结果表示第二次匹配不成功，则所述当前文章为内容低质量类型的数据；或，

8.根据权利要求1所述的方法，其中，

所述当前文章的情感极性标签是：在所述当前文章发布过程中，采用第一情感极性分析算法进行分析获得的；

所述利用情感分析不准确数据识别策略及所述当前文章的情感极性标签，对当前文章进行识别，得到当前文章是否为情感分析不准确类型的数据的第三识别结果的步骤，包括：

9.根据权利要求8所述的方法，其中，

所述基于当前情感极性与所述已发布的情感极性标签是否一致，确定所述当前文章是否为情感分析不准确类型的数据的步骤，包括：

判断所述当前情感极性与所述情感极性标签的极性是否相反，且所述第二情感极性分析算法输出的当前情感极性的置信度是否大于或等于预设阈值，如果是则确定所述当前文章为情感分析不准确类型的数据。

10.根据权利要求1-9任一项所述的方法，还包括：

将确定了数据类型的各个文章作为挖掘出的数据输出给研发用户进行审核；

对审核通过的各个类型的数据进行统计，获得统计信息输出给研发用户。

11.一种数据挖掘装置，包括：

当前文章获取模块，用于获取待挖掘的当前文章；

信息值获取模块，用于基于预设的多种数据识别策略，从当前文章中获得每种数据识别策略所需要的信息值；其中，所述数据的预设类型，包括：数据低质量、内容低质量和情感分析不准确；所述信息值获取模块，包括：第一信息值获取子模块，用于基于数据低质量类型的数据识别策略，从当前文章中获得文章标题、文章摘要和文章内容；第二信息值获取子模块，用于基于内容低质量类型的数据识别策略，从当前文章中提取关键词；第三信息值获取子模块，用于基于情感分析不准确数据识别策略，从当前文章中获得的已发布的情感极性标签；所述数据低质量类型的数据识别策略为基于预设的数据低质量类型的数据规则的识别策略；所述内容低质量类型的数据识别策略为基于关键词匹配分析的识别策略；所述情感分析不准确数据识别策略为基于情感分析算法的识别策略；

数据类型识别模块，用于分别利用所述每种数据识别策略，基于该识别策略所需要的信息值，对当前文章进行数据类型识别，得到数据类型识别结果；其中，所述数据类型识别模块，包括：第一识别子模块，用于利用数据低质量类型的数据识别策略及所述文章标题、文章摘要和文章内容，对当前文章进行识别，得到当前文章是否为数据低质量类型的数据的第一识别结果；第二识别子模块，用于利用内容低质量类型的数据识别策略及从当前文章中提取关键词，对当前文章进行识别，得到当前文章是否为内容低质量类型的数据的第二识别结果；第三识别子模块，用于利用情感分析不准确数据识别策略及所述当前文章的情感极性标签，对当前文章进行识别，得到当前文章是否为情感分析不准确类型的数据的第三识别结果；

数据类型确定模块，用于根据所述类型识别结果，确定当前文章是否属于任一预设类型的数据。

12.根据权利要求11所述的装置，其中，

所述第一识别子模块，具体用于：

13.根据权利要求11所述的装置，其中，

所述第一信息值获取子模块，还用于：获得所述当前文章的URL信息；

所述第一识别子模块，还具体用于：

14.根据权利要求11所述的装置，其中，

所述第二识别子模块，包括：

15.根据权利要求14所述的装置，其中，

所述确定单元，具体用于：

16.根据权利要求11所述的装置，其中，

所述第三识别子模块，具体用于：

17.根据权利要求11-16任一项所述的装置，还包括：

审核模块，用于将确定了数据类型的各个网页文章作为挖掘出的数据输出给研发用户进行审核；

统计模块，用于对审核通过的各个类型的数据进行统计，获得统计信息输出给研发用户。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。