CN111552790A - 一种识别文章刷单的方法及装置 - Google Patents

一种识别文章刷单的方法及装置 Download PDF

Info

Publication number
CN111552790A
CN111552790A CN202010345786.6A CN202010345786A CN111552790A CN 111552790 A CN111552790 A CN 111552790A CN 202010345786 A CN202010345786 A CN 202010345786A CN 111552790 A CN111552790 A CN 111552790A
Authority
CN
China
Prior art keywords
article
feature vector
value
target object
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010345786.6A
Other languages
English (en)
Other versions
CN111552790B (zh
Inventor
王新乐
孟亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Supertool Internet Technology Ltd
Original Assignee
Beijing Supertool Internet Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Supertool Internet Technology Ltd filed Critical Beijing Supertool Internet Technology Ltd
Priority to CN202010345786.6A priority Critical patent/CN111552790B/zh
Publication of CN111552790A publication Critical patent/CN111552790A/zh
Application granted granted Critical
Publication of CN111552790B publication Critical patent/CN111552790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种识别文章刷单的方法及装置,其中,该识别文章刷单的方法包括:获取样本目标对象发表文章后的文章监测数据;针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值,可提高对文章刷单的识别效率。

Description

一种识别文章刷单的方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种识别文章刷单的方法及装置。
背景技术
随着社交媒体平台的不断发展,越来越多的人选择通过社交媒体平台获取信息资讯,在社交媒体平台中,KOL(Key Opinion Leader,关键意见领袖)是指在某一领域具有一定的影响力以及关注度,并能够依据自身的流量引领话题风向的族群。基于当今的数据化时代背景,流量意味着商业价值,因此,对于企业的宣传以及产品的推广而言,如何识别一个KOL发表文章后引起的流量(阅读量)的真实性,进而选择一个真实可靠,有利于企业产品推广的KOL,成为当前迫切需要解决的一个重要问题。
目前的方法,可以通过对各KOL发表文章后获取的文章监测数据,例如,阅读量,分别进行分钟级的动态监测,若监测到某一较短的时间段内,相较于其他时间段,阅读量增量增加异常,则认为该时间段内的阅读量增量为异常增量,存在文章刷单行为,在最终统计各时间段内的文章真实阅读量时,除去由于文章刷单行为引起的异常增量,即可得到文章的真实阅读量,依据文章的真实阅读量,从中选择目标对象KOL。但该识别文章刷单的方法,由于不同的时间段划分,会导致不同的阅读量增量识别结果,因而,识别文章刷单的准确性较低,进一步地,分钟级动态监测产生的数据量较为庞大,因而,导致对文章刷单的识别效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种识别文章刷单的方法及装置,以提高对文章数据真实性的识别效率。
第一方面,本发明实施例提供了识别文章刷单的方法,所述方法包括:
获取样本目标对象发表文章后的文章监测数据;
针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;
以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;
依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;
将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述特征向量列包括多个特征向量子列,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量子列,依据该特征向量子列包含的每一文章质量影响事件,从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集;
针对所述事件特征集中包含的每一事件特征,从预先存储的事件特征与特征值计算策略的映射关系库中,获取该事件特征映射的特征值计算策略,按照所述特征值计算策略,依据所述样本目标对象对应的文章监测数据,计算该事件特征对应的特征值,该事件特征对应所述特征向量列中的一特征向量;
依据计算得到的特征值,构建事件特征集对应的事件特征值列,其中,该事件特征值列包含的特征值的数量等于该事件特征集中包含的事件特征数量;
依据事件特征值列,构建文章质量影响特征值列,依据文章质量影响特征值列,构建特征向量子列。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量,从预先存储的特征向量与特征向量值计算策略的映射关系库中,获取该特征向量映射的特征向量值计算策略,按照所述特征向量值计算策略,依据所述样本目标对象对应的文章监测数据,计算特征向量值。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集,包括:
针对特征向量子列包含的每一文章质量影响事件,将该文章质量影响事件与所述映射关系库中包含的各文章质量影响事件分别进行匹配,获取与该文章质量影响事件相匹配的文章质量影响事件,并得到获取的文章质量影响事件映射的事件特征集。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,在所述得到特征向量值列之后,以样本目标对象对应的特征向量值列作为模型的输入之前,还包括:
对所述特征向量值列中包含的每一特征向量值,依据各特征向量值列以及预设的标准化公式进行标准化处理。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列,包括:
按照预先设置的特征向量列,依据所述待识别目标对象发表文章后的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值;
从所述特征向量列中,新增一行,查询到所述特征向量所在的列,将所述特征向量对应的特征向量值填充至新增的行对应查询到的列,得到所述待识别目标对象对应的特征向量值列。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:
存储所述样本目标对象与刷单概率值的对应关系,以及,所述待识别目标对象与刷单概率值的对应关系;
接收用户查询请求,依据所述查询请求中包含的查询关键词,从存储的对应关系中,获取与所述查询关键词相匹配的待推荐对象;
依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单,向用户展示所述推荐名单,使用户依据所述推荐名单,进行选择。
第二方面,本发明实施例还提供了一种识别文章刷单的装置,所述装置包括:
数据获取模块,获取样本目标对象发表文章后的文章监测数据;
数据处理模块,针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;
模型训练模块,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;
向量值列构建模块,依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;
数据识别模块,将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述识别文章刷单的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述识别文章刷单的方法的步骤。
本发明实施例提供的识别文章刷单的方法及装置,通过获取样本目标对象发表文章后的文章监测数据,然后针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列,进而,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型,依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列,将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
这样,通过获取样本目标对象发表文章后的文章监测数据,并对获取的所述文章监测数据进行特征工程,得到各样本目标对象对应的特征向量值列,进而,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,依据训练后的模型以及待识别目标对象发表文章后的文章监测数据,识别所述待识别目标对象的文章刷单概率,由于无需对目标对象发表的所有文章进行动态监测,因此,可以有效地提高对文章刷单的识别效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的识别文章刷单的方法的流程示意图;
图2示出了本发明实施例所提供的一种构建文章的阅读量特征向量的方法的流程示意图;
图3示出了本发明实施例所提供的识别文章刷单的装置的结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
主要元件符号说明:301-数据获取模块;302-数据处理模块;303-模型训练模块;304-向量值列构建模块;305-数据识别模块;400-计算机设备;401-存储器;402-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种识别文章刷单的方法及装置,下面通过实施例进行描述。
实施例一
图1示出了本发明实施例所提供的识别文章刷单的方法的流程示意图,该方法包括步骤S101-S105;具体的:
S101,获取样本目标对象发表文章后的文章监测数据。
本申请实施例中,作为一可选实施例,可以将KOL作为目标对象,从中选取样本目标对象,选取样本KOL的方法包括:
依据预设的刷单阈值以及KOL发表的文章中,预先确定的刷单的文章数量在发表的总文章数量中的占比,确定所述KOL的文章刷单概率区间;
依据所述KOL的文章刷单概率区间,选取样本KOL。
本申请实施例中,作为一可选实施例,刷单阈值包括第一刷单阈值以及第二刷单阈值,确定所述KOL的文章刷单概率区间,包括:
判断所述占比是否小于预设的第一刷单阈值,若是,则确定所述KOL的文章刷单概率区间为低概率区间;
若否,则进一步判断所述占比是否大于预设的第二刷单阈值;
若是,则确定所述KOL的文章刷单概率区间为高概率区间,否则,确定所述KOL的文章刷单概率区间为中概率区间。
示例性的说明,例如,若A发表的总文章数量为100篇,其中,依据分钟级的动态监测方法确定刷单的文章为20篇,则A发表的文章中刷单的文章数量在总文章数量中的占比为20%;若A对应的所述占比为20%,B发表的文章中刷单的文章数量在总文章数量中的占比为50%,C发表的文章中刷单的文章数量在总文章数量中的占比为80%,预设的第一刷单阈值为30%,预设的第二刷单阈值为60%,由于A对应的占比小于所述第一刷单阈值,B对应的占比在所述第一刷单阈值与所述第二刷单阈值之间,C对应的占比大于所述第二刷单阈值,因此,可以认为A所属的文章刷单概率低,确定A的文章刷单概率区间为低概率区间,B所属的文章刷单概率居中,确定B的文章刷单概率区间为中概率区间,C所属的文章刷单概率高,确定C的文章刷单概率区间为高概率区间。依据各KOL对应的文章刷单概率区间,平衡选取样本KOL,例如,等量的选取低概率区间、中概率区间、高概率区间的KOL作为样本KOL。若不同概率区间的KOL数量相差过大时,则可以适时地调整所述第一刷单阈值以及所述第二刷单阈值,以保证样本KOL中位于不同文章刷单概率区间的KOL数量平衡,这样,可以提高模型训练的准确性。
示例性的说明,所述文章监测数据包括:文章发表的版面位置、文章的当前阅读量、文章的当前点赞量以及文章的当前转发量等可以用来评价文章质量以及文章热度的数据。
S102,针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列。
本申请实施例中,对于特征向量列中的多个特征向量,可以按照前述文章监测数据的分类,对特征向量进行相应分类,以简化特征向量列的结构。因而,作为一可选实施例,所述特征向量列包括多个特征向量子列,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量子列,依据该特征向量子列包含的每一文章质量影响事件,从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集;
针对所述事件特征集中包含的每一事件特征,从预先存储的事件特征与特征值计算策略的映射关系库中,获取该事件特征映射的特征值计算策略,按照所述特征值计算策略,依据所述样本目标对象对应的文章监测数据,计算该事件特征对应的特征值,该事件特征对应所述特征向量列中的一特征向量;
依据计算得到的特征值,构建事件特征集对应的事件特征值列,其中,该事件特征值列包含的特征值的数量等于该事件特征集中包含的事件特征数量;
依据事件特征值列,构建文章质量影响特征值列,依据文章质量影响特征值列,构建特征向量子列。
本申请实施例中,作为一可选实施例,所述从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集,包括:
针对特征向量子列包含的每一文章质量影响事件,将该文章质量影响事件与所述映射关系库中包含的各文章质量影响事件分别进行匹配,获取与该文章质量影响事件相匹配的文章质量影响事件,并得到获取的文章质量影响事件映射的事件特征集。
示例性的说明,例如,预设的所述特征向量列中包括:版面位置特征向量子列、阅读量特征向量子列以及融合特征向量子列,其中,
所述版面位置特征向量子列包含的文章质量影响事件为:文章发表的版面位置,作为一可选实施例,映射的事件特征集包括:去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征;
所述阅读量特征向量子列包含的文章质量影响事件为:文章的阅读量,作为一可选实施例,映射的事件特征集包括:全部文章计数、最小阅读量、阅读量的第一四分位数、阅读量的中位数、阅读量的第三四分位数、最大阅读量、阅读量均值;
所述融合特征向量子列包含的文章质量影响事件为:头版文章的阅读量、次版文章的阅读量、其他版面文章的阅读量,作为一可选实施例,其中,
头版文章的阅读量映射的事件特征集包括:头版文章计数、头版文章最小阅读量、头版文章阅读量的第一四分位数、头版文章阅读量的中位数、头版文章阅读量的第三四分位数、头版文章最大阅读量、头版文章阅读量均值;
次版文章的阅读量映射的事件特征集包括:次版文章计数、次版文章最小阅读量、次版文章阅读量的第一四分位数、次版文章阅读量的中位数、次版文章阅读量的第三四分位数、次版文章最大阅读量、次版文章阅读量均值;
其他版面文章的阅读量映射的事件特征集包括:其他版面文章计数、其他版面文章最小阅读量、其他版面文章阅读量的第一四分位数、其他版面文章阅读量的中位数、其他版面文章阅读量的第三四分位数、其他版面文章最大阅读量、其他版面文章阅读量均值;
以所述版面位置特征向量子列为例,针对所述版面位置特征向量子列包含的文章质量影响事件“文章发表的版面位置”,与所述映射关系库中包含的各文章质量影响事件分别进行匹配,获取文章质量影响事件“文章发表的版面位置”映射的事件特征集A,该事件特征集A包括:去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征。
本申请实施例中,也可以直接针对特征向量列中的每一特征向量,设置对应的特征向量值计算策略。因而,作为另一可选实施例,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量,从预先存储的特征向量与特征向量值计算策略的映射关系库中,获取该特征向量映射的特征向量值计算策略,按照所述特征向量值计算策略,依据所述样本目标对象对应的文章监测数据,计算特征向量值。
示例性的说明,例如,再以最高频次版面特征为例,从所述映射关系库中,获取最高频次版面特征映射的特征向量值计算策略为:针对每一版面,对该版面发表的文章进行累计,获取累计值最高的版面。作为一可选实施例,可以针对样本目标对象发表的文章所在的版面,构建一包含多个向量维度的发帖版面特征向量,依据该发帖版面特征向量进行最高频次版面特征映射的特征值计算,例如,以样本目标对象A、发表n篇文章、8个版面为例,构建的发帖版面特征向量包含8个向量维度,将文章发表的版面位置对应的向量维度的向量值设置为1,其余向量维度的向量值设置为0。举例来说,若文章a发帖版面为:头版,则文章a对应的发帖版面特征向量为:(1,0,0,0,0,0,0,0),得到的样本目标对象A的发帖版面特征向量如下表1所示:
文章 发帖版面特征向量
a 1,0,0,0,0,0,0,0
b 0,1,0,0,0,0,0,0
n 0,0,0,0,1,0,0,0
表1
这样,在计算最高频次版面特征映射的特征值时,可以查询版面特征向量的8个向量维度中数值“1”出现的次数,出现次数最高的向量维度对应的版面即为最高频次版面,这样,可以缩减数据的运算量,有效提高对文章刷单的识别效率。
本申请实施例中,再以计算最大阅读量为例,可以通过构建文章的阅读量特征向量的方法来计算最大阅读量,作为一可选实施例,图2示出了本发明实施例所提供的一种构建文章的阅读量特征向量的方法的流程示意图,可以依据图2所示的方法,构建每篇文章对应的阅读量特征向量,这样,以计算最大阅读量为例,只需查询文章的阅读量特征向量的向量维度中数值“1”出现的向量维度所对应的阅读量区间的高低,出现的向量维度所对应的阅读量区间越高则该阅读量是最大阅读量的概率也就越高,这样,可以有效地缩小特征值计算的数据量,进一步提高对文章刷单的识别效率。
示例性的说明,例如,以最大阅读量特征为例,构建的阅读量特征向量包含5个向量维度,每个向量维度对应的阅读量区间分别为:(0,1000]、(1000,5000]、(5000,10000]、(10000,50000],(50000,∞),依据图2中a所示的样本目标对象A的文章阅读量信息,针对每篇文章,将该篇文章的阅读量包含的阅读量区间对应的向量维度的向量值设置为1,其余向量维度的向量值设置为0,例如,文章1的阅读量为23244,由于23244大于10000且小于50000,则文章1的阅读量包含的阅读量区间为:(0,1000]、(1000,5000]、(5000,10000]、(10000,50000],因此,文章1的阅读量特征向量为(1,1,1,1,0),得到的阅读量特征向量如图2中的b所示。这样,在计算最大阅读量特征映射的特征值时,只需按照阅读量区间由高到低的顺序查找数值“1”,即可将最大阅读量特征值的计算范围缩小到文章1与文章4,通过进一步比较,由于文章1的阅读量23244大于文章4的阅读量20423,因此,可以得到样本目标对象A的最大阅读量特征值为23244。这样,可以缩小特征值计算的数据量,进一步提高对文章刷单的识别效率。
本申请实施例中,作为一可选实施例,可以使构建的特征向量子列中各特征值对应的事件特征的排列顺序,与所述特征向量列对应的特征向量子列中的特征向量的排列顺序相同。
示例性的说明,例如,以版面位置特征向量子列为例,版面位置特征向量子列中各特征值对应的事件特征的排列顺序为:去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征,得到版面位置特征向量子列如下表2所示:
Figure BDA0002470001960000141
表2
S103,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型。
本申请实施例中,作为一可选实施例,在所述得到特征向量值列之后,以样本目标对象对应的特征向量值列作为模型的输入之前,还包括:
对所述特征向量值列中包含的每一特征向量值,依据各特征向量值列以及预设的标准化公式进行标准化处理。
示例性的说明,例如,作为一可选实施例,标准化公式为:
Fmi=[Fmi-mean(Fi)]/std(Fi);
Fi为第i列的特征向量值;
mean(Fi)为所有特征向量值列中,第i列特征向量值的平均值;
std(Fi)为第i列特征向量值的标准差;
Fmi为第m个KOL的第i列特征向量值。
以特征向量值列中的版面位置特征向量值所在列为例,版面位置特征向量值所在列如下表3所示:
Figure BDA0002470001960000142
Figure BDA0002470001960000151
表3
对版面位置特征向量值所在列进行标准化处理时,针对每一样本目标对象,依据标准化公式,对该样本目标对象对应的版面位置特征向量值进行标准化处理,得到标准化处理后的各样本目标对象对应的版面位置特征向量值。
本申请实施例中,作为一可选实施例,可以通过编码,将各样本目标对象所属的刷单概率区间转化成样本目标对象的文章刷单特征向量值放入所述特征向量值列中,例如,若样本目标对象A所属的刷单概率区间为低概率区间,则A的文章刷单特征向量值为(1,0,0);若A所属的刷单概率为中概率区间,则A的文章刷单特征向量值为(0,1,0);若A所属的刷单概率为高概率区间,则A的文章刷单特征向量值为(0,0,1)。
本申请实施例中,作为一可选实施例,可以依据LightGbm算法,构建决策树模型,以样本目标对象对应的特征向量值列作为所述决策树模型的输入,针对每一样本目标对象,以该样本目标对象所属的刷单概率区间作为所述决策树模型的输出,对所述决策树模型进行训练,得到刷单概率模型。
示例性的说明,例如,将各样本目标对象对应的特征向量值列输入模型,以样本目标对象A为例,若A所属的刷单概率区间为低概率区间,则模型通过遍历A的特征向量值列,学习A的特征向量值列中包含的各特征向量值的分布规则,将A对应的输出结果定义为刷单概率区间为低概率区间,按照这样的方法,训练模型学习不同刷单概率区间的样本目标对象的特征向量值列中包含的各特征向量值的分布规则,使训练后的模型能够对待识别目标对象对应的刷单概率进行分类,输出待识别目标对象所属的刷单概率区间位于低概率区间的概率、位于中概率区间的概率、位于高概率区间的概率。
S104,依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列。
本申请实施例中,作为一可选实施例,所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列,包括:
按照预先设置的特征向量列,依据所述待识别目标对象发表文章后的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值;
从所述特征向量列中,新增一行,查询到所述特征向量所在的列,将所述特征向量对应的特征向量值填充至新增的行对应查询到的列,得到所述待识别目标对象对应的特征向量值列。
示例性的说明,例如,经计算得到样本目标对象A的版面位置特征向量值为(3,1,1,0.6),若版面位置特征向量位于所述特征向量值列的第二列,则从所述特征向量列中,新增一行表示样本目标对象A对应的特征向量,查询到版面位置特征向量位于所述特征向量值列的第二列,将特征向量值(3,1,1,0.6)填充至新增的行的第二列中。
S105,将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
示例性的说明,例如,将待识别目标对象的特征向量值列输入所述刷单概率模型,模型输出的结果为:待识别目标对象所属刷单概率区间位于低概率区间的概率是0.5、位于中概率区间的概率是0.3、位于高概率区间的概率是0.2,由于待识别目标对象所属刷单概率区间位于低概率区间的概率最大,因此,可以判定待识别目标对象的文章刷单概率较低。
本申请实施例中,作为一可选实施例,所述方法还包括:
存储所述样本目标对象与刷单概率值的对应关系,以及,所述待识别目标对象与刷单概率值的对应关系;
接收用户查询请求,依据所述查询请求中包含的查询关键词,从存储的对应关系中,获取与所述查询关键词相匹配的待推荐对象;
依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单,向用户展示所述推荐名单,使用户依据所述推荐名单,进行选择。
示例性的说明,例如,接收用户查询请求,查询请求中包含的查询关键词为美妆,则可以从存储的对应关系中,获取与美妆相匹配的待推荐对象,依据获取的待推荐对象的刷单概率值,按照刷单概率区间位于低概率区间的概率值大小,从高到低进行排序,生成推荐名单,例如,若A的刷单概率位于低概率区间的概率是0.5,B的刷单概率位于低概率区间的概率是0.7,则可以按照先B后A的顺序,生成推荐名单。
实施例二
图3示出了本发明实施例所提供的识别文章刷单的装置的结构示意图,所述装置包括:
数据获取模块301,获取样本目标对象发表文章后的文章监测数据;
数据处理模块302,针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;
本申请实施例中,作为一可选实施例,所述特征向量列包括多个特征向量子列,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量子列,依据该特征向量子列包含的每一文章质量影响事件,从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集;
针对所述事件特征集中包含的每一事件特征,从预先存储的事件特征与特征值计算策略的映射关系库中,获取该事件特征映射的特征值计算策略,按照所述特征值计算策略,依据所述样本目标对象对应的文章监测数据,计算该事件特征对应的特征值,该事件特征对应所述特征向量列中的一特征向量;
依据计算得到的特征值,构建事件特征集对应的事件特征值列,其中,该事件特征值列包含的特征值的数量等于该事件特征集中包含的事件特征数量;
依据事件特征值列,构建文章质量影响特征值列,依据文章质量影响特征值列,构建特征向量子列。
模型训练模块303,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;
本申请实施例中,作为一可选实施例,在所述得到特征向量值列之后,以样本目标对象对应的特征向量值列作为模型的输入之前,还包括:
对所述特征向量值列中包含的每一特征向量值,依据各特征向量值列以及预设的标准化公式进行标准化处理。
向量值列构建模块304,依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;
本申请实施例中,作为一可选实施例,所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列,包括:
按照预先设置的特征向量列,依据所述待识别目标对象发表文章后的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值;
从所述特征向量列中,新增一行,查询到所述特征向量所在的列,将所述特征向量对应的特征向量值填充至新增的行对应查询到的列,得到所述待识别目标对象对应的特征向量值列。
数据识别模块305,将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
本申请实施例中,作为一可选实施例,数据处理模块302,还具体用于:
针对所述特征向量列中的每一特征向量,从预先存储的特征向量与特征向量值计算策略的映射关系库中,获取该特征向量映射的特征向量值计算策略,按照所述特征向量值计算策略,依据所述样本目标对象对应的文章监测数据,计算特征向量值。
作为一可选实施例,所述装置还包括:
存储模块(图中未示出),存储所述样本目标对象与刷单概率值的对应关系,以及,所述待识别目标对象与刷单概率值的对应关系;
查询模块(图中未示出),接收用户查询请求,依据所述查询请求中包含的查询关键词,从存储的对应关系中,获取与所述查询关键词相匹配的待推荐对象;
推荐名单生成模块(图中未示出),依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单,向用户展示所述推荐名单,使用户依据所述推荐名单,进行选择。
实施例三
如图4所示,本申请一实施例提供了一种计算机设备400,用于执行本申请中的管理公众号的方法,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述识别文章刷单的方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述识别文章刷单的方法。
对应于本申请中的识别文章刷单的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述识别文章刷单的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述识别文章刷单的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种识别文章刷单的方法,其特征在于,所述方法包括:
获取样本目标对象发表文章后的文章监测数据;
针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;
以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;
依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;
将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
2.根据权利要求1所述的方法,其特征在于,所述特征向量列包括多个特征向量子列,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量子列,依据该特征向量子列包含的每一文章质量影响事件,从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集;
针对所述事件特征集中包含的每一事件特征,从预先存储的事件特征与特征值计算策略的映射关系库中,获取该事件特征映射的特征值计算策略,按照所述特征值计算策略,依据所述样本目标对象对应的文章监测数据,计算该事件特征对应的特征值,该事件特征对应所述特征向量列中的一特征向量;
依据计算得到的特征值,构建事件特征集对应的事件特征值列,其中,该事件特征值列包含的特征值的数量等于该事件特征集中包含的事件特征数量;
依据事件特征值列,构建文章质量影响特征值列,依据文章质量影响特征值列,构建特征向量子列。
3.根据权利要求1所述的方法,其特征在于,所述按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,包括:
针对所述特征向量列中的每一特征向量,从预先存储的特征向量与特征向量值计算策略的映射关系库中,获取该特征向量映射的特征向量值计算策略,按照所述特征向量值计算策略,依据所述样本目标对象对应的文章监测数据,计算特征向量值。
4.根据权利要求2所述的方法,其特征在于,所述从预先存储的文章质量影响事件与事件特征集的映射关系库中,获取该文章质量影响事件映射的事件特征集,包括:
针对特征向量子列包含的每一文章质量影响事件,将该文章质量影响事件与所述映射关系库中包含的各文章质量影响事件分别进行匹配,获取与该文章质量影响事件相匹配的文章质量影响事件,并得到获取的文章质量影响事件映射的事件特征集。
5.根据权利要求1所述的方法,其特征在于,在所述得到特征向量值列之后,以样本目标对象对应的特征向量值列作为模型的输入之前,还包括:
对所述特征向量值列中包含的每一特征向量值,依据各特征向量值列以及预设的标准化公式进行标准化处理。
6.根据权利要求1所述的方法,其特征在于,所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列,包括:
按照预先设置的特征向量列,依据所述待识别目标对象发表文章后的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值;
从所述特征向量列中,新增一行,查询到所述特征向量所在的列,将所述特征向量对应的特征向量值填充至新增的行对应查询到的列,得到所述待识别目标对象对应的特征向量值列。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
存储所述样本目标对象与刷单概率值的对应关系,以及,所述待识别目标对象与刷单概率值的对应关系;
接收用户查询请求,依据所述查询请求中包含的查询关键词,从存储的对应关系中,获取与所述查询关键词相匹配的待推荐对象;
依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单,向用户展示所述推荐名单,使用户依据所述推荐名单,进行选择。
8.一种识别文章刷单的装置,其特征在于,所述装置包括:
数据获取模块,获取样本目标对象发表文章后的文章监测数据;
数据处理模块,针对每一样本目标对象,按照预先设置的特征向量列,依据该样本目标对象对应的文章监测数据,计算所述特征向量列中每一特征向量对应的特征向量值,得到特征向量值列;
模型训练模块,以样本目标对象对应的特征向量值列作为模型的输入,以该样本目标对象所属的刷单概率值作为模型的输出,对模型进行训练,得到刷单概率模型;
向量值列构建模块,依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列,得到待识别特征向量值列;
数据识别模块,将所述待识别特征向量值列输入所述刷单概率模型,得到所述待识别目标对象所属的刷单概率值。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的识别文章刷单的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的识别文章刷单的方法的步骤。
CN202010345786.6A 2020-04-27 2020-04-27 一种识别文章刷单的方法及装置 Active CN111552790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010345786.6A CN111552790B (zh) 2020-04-27 2020-04-27 一种识别文章刷单的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010345786.6A CN111552790B (zh) 2020-04-27 2020-04-27 一种识别文章刷单的方法及装置

Publications (2)

Publication Number Publication Date
CN111552790A true CN111552790A (zh) 2020-08-18
CN111552790B CN111552790B (zh) 2024-03-08

Family

ID=72007823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010345786.6A Active CN111552790B (zh) 2020-04-27 2020-04-27 一种识别文章刷单的方法及装置

Country Status (1)

Country Link
CN (1) CN111552790B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345587A (zh) * 2018-02-14 2018-07-31 广州大学 一种评论的真实性检测方法与系统
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110598095A (zh) * 2019-08-27 2019-12-20 腾讯科技(深圳)有限公司 一种识别包含指定信息文章的方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345587A (zh) * 2018-02-14 2018-07-31 广州大学 一种评论的真实性检测方法与系统
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110598095A (zh) * 2019-08-27 2019-12-20 腾讯科技(深圳)有限公司 一种识别包含指定信息文章的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李志宏;庄云蓓;: "基于PageRank算法的双维度微博用户影响力实时度量模型" *
颜月明;赵捧未;: "一种微信公众号影响力的评估方法" *

Also Published As

Publication number Publication date
CN111552790B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN111401777B (zh) 企业风险的评估方法、装置、终端设备及存储介质
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
WO2003032123A2 (en) Clustering
CN112990386A (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN113468034A (zh) 数据质量评估方法、装置、存储介质和电子设备
EP3671610A1 (en) Determination of similarity between user and merchant
CN115062087A (zh) 一种用户画像构建方法、装置、设备和介质
CN107330709B (zh) 确定目标对象的方法及装置
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN111552790A (zh) 一种识别文章刷单的方法及装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115689713A (zh) 异常风险数据处理方法、装置、计算机设备和存储介质
CN115641198A (zh) 用户运营方法、装置、电子设备和存储介质
CN113962508A (zh) 用电对象的识别方法及识别装置、电子设备
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN113449002A (zh) 车辆推荐方法、装置、电子设备及存储介质
JP7024663B2 (ja) 評価更新装置、方法、及びプログラム
WO2020045106A1 (ja) 評価装置、方法、及びプログラム
CN113449112A (zh) 异常寄递行为识别方法、装置、计算机设备及存储介质
CN113094615B (zh) 消息推送方法、装置、设备和存储介质
CN115525377B (zh) 一种定性标签数据可视化方法、装置、电子设备及介质
CN116934418B (zh) 一种异常订单的检测预警方法、系统、设备及存储介质
CN114155038B (zh) 受疫情影响用户识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 15-5, 1st Floor, Building 4, No. 15 Haidian Middle Street, Haidian District, Beijing, 100082

Applicant after: Beijing minglue Zhaohui Technology Co.,Ltd.

Address before: Room 2020, 2nd floor, building 27, 25 North Third Ring Road West, Haidian District, Beijing

Applicant before: BEIJING SUPERTOOL INTERNET TECHNOLOGY LTD.

Country or region before: China

GR01 Patent grant
GR01 Patent grant