CN114065002A - 目标对象处理方法、装置、电子设备及存储介质 - Google Patents

目标对象处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114065002A
CN114065002A CN202111240961.6A CN202111240961A CN114065002A CN 114065002 A CN114065002 A CN 114065002A CN 202111240961 A CN202111240961 A CN 202111240961A CN 114065002 A CN114065002 A CN 114065002A
Authority
CN
China
Prior art keywords
target object
data
session data
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111240961.6A
Other languages
English (en)
Inventor
张建
王珍珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Taou Science & Technology Development Co ltd
Original Assignee
Beijing Taou Science & Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Taou Science & Technology Development Co ltd filed Critical Beijing Taou Science & Technology Development Co ltd
Priority to CN202111240961.6A priority Critical patent/CN114065002A/zh
Publication of CN114065002A publication Critical patent/CN114065002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种目标对象处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:确定待监测对象中的目标对象;获取目标对象的会话数据;对会话数据进行分类,得到会话数据的类别信息;基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。本申请实施例实现了根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率。

Description

目标对象处理方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种目标对象处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网运用的发展,网络用户的交互作用得以体现,用户既是网络内容的浏览者,也是网络内容的创造者。在web2.0(World Wide Web,万维网)时代,互联网上的内容正在飞速增长,形成一个多、广、专的局面,对人类知识的积累和传播起到了一个非常大的作用,但要注意的是,因为每一个人都可以生成内容,可能会有很多错误、虚假和片面的内容,故进行内容审核至关重要。
现有技术中,通过设置关键词的方式对网络用户的会话内容进行筛查,当网络会话内容命中关键词,则认为该网络用户涉及风险活动。然而,基于关键词匹配的方式针对网络用户即目标对象进行内容审核,关键词质量难以控制,存在内容审核结果准确率较低的问题。
发明内容
本申请实施例提供了一种目标对象处理方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,基于关键词对网络会话审核的方式,准确率较低的问题。
根据本申请实施例的一个方面,提供了一种目标对象处理方法,该方法包括:
确定待监测对象中的目标对象;
获取目标对象的会话数据;
对会话数据进行分类,得到会话数据的类别信息;
基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。
可选地,上述确定待监测对象中的目标对象,包括:
从预设数据库中获取待监测对象的属性信息;
将满足预设筛选条件的属性信息对应的待监测对象,作为目标对象。
可选地,上述方法还包括:
通过消息系统获取待监测对象的活动日志数据;其中,活动日志数据指示待监测对象的行为信息;
基于数据流引擎对活动日志数据进行计算,确定待监测对象的属性信息;
将属性信息存入数据库。
可选地,上述对会话数据进行分类,得到会话数据的类别信息,包括:
对会话数据进行预处理,确定文本信息;
基于预训练的分类器对文本信息进行分类,得到类别信息。
可选地,上述分类器是基于如下方式训练得到的,包括:
获取预设的样本文本信息和样本文本信息对应的样本类别;
将样本文本信息输入到初始分类器,得到初始分类器实时输出的类别标签;
基于预设的损失函数计算类别标签和样本类别的差值,并实时调整初始分类器的参数,当差值小于预设阈值,确定分类器。
可选地,上述基于类别信息统计会话数据,包括:
当类别信息为预设的目标类别,将类别信息对应的会话数据作为目标数据;
统计目标数据的数量以及目标数据在所有会话数据中的占比。
可选地,上述对会话数据所对应的目标对象进行处理,包括:
当占比大于预设阈值,则关闭目标数据对应的目标对象的活动权限,和/或启动针对目标对象的验证操作;
当占比不大于预设阈值,则维持目标数据对应的目标对象的活动权限。
根据本申请实施例的另一个方面,提供了一种目标对象处理装置,该装置包括:
确定模块,用于确定待监测对象中的目标对象;
获取模块,用于获取目标对象的会话数据;
分类模块,用于对会话数据进行分类,得到会话数据的类别信息;
统计模块,用于基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。
可选地,上述确定模块,用于:
从预设数据库中获取待监测对象的属性信息;
将满足预设筛选条件的属性信息对应的待监测对象,作为目标对象。
可选地,上述装置,还包括数据存储模块,用于:
通过消息系统获取待监测对象的活动日志数据;其中,活动日志数据指示待监测对象的行为信息;
基于数据流引擎对活动日志数据进行计算,确定待监测对象的属性信息;
将属性信息存入数据库。
可选地,上述分类模块,用于:
对会话数据进行预处理,确定文本信息;
基于预训练的分类器对文本信息进行分类,得到类别信息。
可选地,上述分类器是基于如下方式训练得到的,包括:
获取预设的样本文本信息和样本文本信息对应的样本类别;
将样本文本信息输入到初始分类器,得到初始分类器实时输出的类别标签;
基于预设的损失函数计算类别标签和样本类别的差值,并实时调整初始分类器的参数,当差值小于预设阈值,确定分类器。
可选地,上述统计模块,用于:
当类别信息为预设的目标类别,将类别信息对应的会话数据作为目标数据;
统计目标数据的数量以及目标数据在所有会话数据中的占比。
可选地,上述统计模块,还用于:
当占比大于预设阈值,则关闭目标数据对应的目标对象的活动权限,和/或启动针对目标对象的验证操作;
当占比不大于预设阈值,则维持目标数据对应的目标对象的活动权限。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在存储器上的计算机程序,上述处理器执行计算机程序以实现本申请实施例第一方面所示方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。
根据本申请实施例的一个方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例通过先对待监测对象进行初筛,确定待监测对象中的目标对象,然后对目标对象的会话数据进行进一步分类和统计,以实现根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率;本申请实施例中,先对会话数据进行分类确定类别信息,可以得到会话数据是否涉及风险话题,然后基于类别信息统计该目标对象的所有会话数据,可以有效对目标对象进行全面审核,进一步提升了目标对象的内容审核结果的准确率。同时,通过对会话数据进行整体统计,可以在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种目标对象处理方法的应用场景示意图;
图2为本申请实施例提供的一种目标对象处理方法的流程示意图;
图3为本申请实施例提供的一种目标对象处理方法中会话数据分类方式的流程示意图;
图4为本申请实施例提供的一种目标对象处理方法中分类器处理方式的流程示意图;
图5为本申请实施例提供的一种目标对象处理方法中分类器训练方式的流程示意图;
图6为本申请实施例提供的一个示例的目标对象处理方法的流程示意图;
图7为本申请实施例提供的一种目标对象处理装置的结构示意图;
图8为本申请实施例提供的一种目标对象处理电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
UGC(User Generated Content,用户原创内容)即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC是伴随着以提倡个性化为主要特点的Web2.0概念兴起的。UGC并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。当前新兴的社交网站可以看做是UGC的成功案例,社区网络、视频分享、博客和播客(视频分享)等都是UGC的主要应用形式。
近两年来,随着全球通信商用的日益推进和移动互联网业务的不断发展,移动UGC业务正在日渐崛起,引起了业界的广泛关注。促进移动UGC业务发展的因素在于:第一,电子存储设备容量不断增加而价格不断下降,同时存储制式趋向标准化,这使得手机的性能不断提升,可以和其他设备共享信息并实现升级;第二,随着手机的日益普及,人们倾向于用手机记录真实的生活,表达自己的感受;第三,移动运营商希望借助UGC吸引更多的用户,开辟新的业务增长点。
在互联网中的社交产品越来越丰富的同时,网络不法行为的手法也日益猖獗。例如,骗子会利用社交平台来发布虚假广告,或者采用专门的话术与联络人进行实时会话。通常情况下,采用关键词匹配的方式对社交平台中的可疑用户进行识别:先整理不法行为关键词,当检测到某用户聊天内容或用户发布内容中命中关键词之后,再由专职人员调取该用户的所有信息,并确认该用户是否为不法人员。
发明人发现,上述内容审核方式存在以下问题:
1、关键词维护成本高,只能基于积累词库进行匹配,无法自主发现新内容,会漏掉未在词库出现的内容导致审查人员无法查别;
2、正常聊天内容也会出现命中关键词的情况,如(你关注阿富汗局势吗),导致审查工作量大;
3、关键词质量不容易控制,词太长匹配度不够,太短会导致匹配太多;
4、需要专职审核大量内容。
本申请提供的目标对象处理方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术中的上述技术问题。
本申请实施例提供了一种目标对象处理方法,该方法可以由终端或服务器实现。本申请实施例涉及的终端或服务器能够先对待监测对象进行初筛,然后对目标对象的会话数据进行进一步分类和统计,使得本申请实施例的技术方案能够根据会话数据的统计结果对目标对象进行处理,达到提高针对目标对象的内容审核效率的目的,实现了在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
如图1所示,本申请的目标对象处理方法,可以应用于图1所示的场景中,具体的,服务器101可以先确定待检测对象中的目标对象,然后从客户端102获取目标对象的会话数据,并对会话数据进行分类和统计确定统计结果,以便基于统计结果对目标对象进行处理。
图1所示的场景中,上述目标对象处理方法可以在服务器中进行,在其他的场景中,也可以在终端中进行。
本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、MID(Mobile Internet Device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例中提供了一种目标对象处理方法,如图2所示,该方法包括:
S201,确定待监测对象中的目标对象。
其中,待监测对象可以是各社交网络平台中的全部用户或部分用户,从待监测对象中可以筛选出目标对象。目标对象可以是有进行风险活动嫌疑并需要重点进行内容审核的用户。
在一些实施方式中,用于进行目标对象处理的终端或服务器可以基于待监测对象的标识信息确定目标对象。例如,在某社交平台中存在交友、游戏、求职等多个板块,可以将用户经常使用的板块作为该用户的标识信息,可以基于用户的标识信息筛选出目标对象,比如将求职板块的活跃用户作为目标对象,或者将求职板块和游戏板块的所有活跃用户作为目标对象。
在另一些实施方式中,用于进行目标对象处理的终端或服务器可以基于待监测对象的属性信息确定目标对象。其中,属性信息可以包括待监测对象的身份信息、网络活动数据等,在本实施例中不做具体限定。本实施例中具体确定目标对象的步骤将在下文进行详细介绍。
S202,获取目标对象的会话数据。
其中,会话数据可以是目标对象的网络活动数据,可以包括在社交网络平台中的聊天数据、评论数据、邮件数据、原创内容数据中的至少一项。
在一些实施方式中,用于进行目标对象处理的终端或服务器可以基于目标对象的标签从预设数据库中查询得到会话数据。例如,可以将目标对象在社交网络平台中的注册ID编号作为用户的标签,标签和会话数据以键值对的形式存储在预设数据库中,可以基于标签的匹配查询得到该目标对象所对应的会话数据。
在另一些实施方式中,用于进行目标对象处理的终端或服务器可以通过目标对象所对应的目标数据库直接获取会话数据。
S203,对会话数据进行分类,得到会话数据的类别信息。
其中,类别信息可以包括风险会话类别和非风险会话类别,用于进行目标对象处理的终端或服务器可以针对会话数据分析目标对象的意图,进而确定类别信息。例如,在某一社交平台中,当获取得到用户1的会话数据包括“您有一个来自于A国的银行消费记录”,该会话数据涉及境外信息,用户1的会话意图有涉及风险活动的嫌疑,可以将上述会话数据归类为风险会话类别。当获取得到用户2的会话数据包括“A国是亚热带气候,天气湿热多雨,没有冬天”,虽然该会话数据中包含A国这一境外信息,但是用户2的会话意图并非涉及风险活动,则可以将上述会话数据归类为非风险会话类别。
在本申请实施例中,用于进行目标对象处理的终端或服务器可以采用分类器对会话数据进行分类,具体的分类步骤将在下文详细说明。
S204,基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。
具体的,用于进行目标对象处理的终端或服务器可以统计属于每一类别信息的会话数据的数量,并根据数量得到会话数据的统计结果,基于统计结果分别对会话数据所对应的目标对象进行处理。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以先获取一目标对象即有涉及风险活动嫌疑的用户的所有会话数据,对每一会话数据进行分类,确定该会话数据的类别信息为风险会话还是非风险会话,统计所有属于风险会话的会话数据的数量,当该数量占所有会话数据总数的40%以上,则判定该目标对象存在风险,并对该目标对象进行封号或禁言等处理。
本申请实施例通过先对待监测对象进行初筛,确定待监测对象中的目标对象,然后对目标对象的会话数据进行进一步分类和统计,以实现根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率;本申请实施例中,先对会话数据进行分类确定类别信息,可以得到会话数据是否涉及风险话题,然后基于类别信息统计该目标对象的所有会话数据,可以有效对目标对象进行全面审核,进一步提升了目标对象的内容审核结果的准确率。同时,通过对会话数据进行整体统计,可以在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
本申请实施例中提供了一种可能的实现方式,上述步骤S201中确定待监测对象中的目标对象,包括:
(1)从预设数据库中获取待监测对象的属性信息。
其中,属性信息可以包括待监测对象的身份信息和网络活动数据等。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以将该即时聊天平台中所有用户作为待监测对象,用户的属性信息包括ID、昵称、性别、地区等身份信息以及登陆地点、在线时长、聊天记录、好友申请、好友列表等网络互动数据。
(2)将满足预设筛选条件的属性信息对应的待监测对象,作为目标对象。
在一些实施方式中,筛选条件可以是提前预设好的,例如按照5%的比例随机从待检测对象中抽选目标对象,或者将属性信息所占存储空间最大的前20个待监测对象作为目标对象。其中,在按照属性信息的存储空间对待监测对象进行筛选时,可以认为属性信息所占存储空间越大,该待监测对象在网络社交平台的活跃度越高,其进行风险活动的概率越大。
在另一些实施方式中,筛选条件还可以是基于实时获取的属性信息确定的。例如,在本申请实施例中,可以将该即时聊天平台中所有用户作为待监测对象,用户的属性信息包括ID、昵称、性别、地区等身份信息以及登陆地点、在线时长、聊天记录、好友申请、好友列表等网络互动数据。可以基于属性信息中的登录地点来对用户进行筛选,比如可以将登陆地点为境外地址的用户作为目标对象。
本申请实施例中提供了一种可能的实现方式,上述方法还包括:
(1)通过消息系统获取待监测对象的活动日志数据;其中,活动日志数据指示待监测对象的行为信息。
其中,消息系统可以是Kafka(一种高吞吐量的分布式发布订阅消息系统)。活动日志数据可以表征待监测对象在网络社交平台中的所有动作流数据。
Kafka是一个开源流处理平台,由Scala(一种编程语言)和Java(一种编程语言)编写。Kafka可以处理用户在网络社交平台中的所有动作流数据,例如网页浏览,搜索和评论其他用户的行动。这种动作是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。Kafka的目的是通过Hadoop(一种分布式系统基础架构)的并行加载机制来统一线上和离线的消息处理,并通过集群来提供实时的消息。
(2)基于数据流引擎对活动日志数据进行计算,确定待监测对象的属性信息。
其中,数据流引擎可以是Flink(一种开源流处理框架)。
Flink的核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
具体的,用于进行目标对象处理的终端或服务器可以通过Flink对活动日志数据进行聚合,进而生成属性信息。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以将该即时聊天平台中所有用户作为待监测对象,通过Kafka获取不同用户的活动日志数据,其中,活动日志数据包括用户的个人资料、登录信息、聊天记录、好友添加记录等不同数据源。然后基于Flink对上述不同数据源进行预处理,以过滤重复和过时的数据,并将所有预处理后的数据源进行格式统一和分组处理,以列表的形式生成该用户的属性信息。其中,属性信息可以包括ID、昵称、性别、地区以及常用登陆地点、上一次登陆地点、月均在线时长、近一个月内的聊天记录、好友数量等。
(3)将属性信息存入数据库。
其中,数据库可以是ClickHouse(一种列式数据库管理系统)。
ClickHouse是一个面向联机分析处理的开源的面向列式存储的DBMS(DatabaseManagement System,数据库管理系统),在ClickHouse中,数据始终是按列存储的,包括矢量(向量或列块)执行的过程。ClickHouse中的数据处理操作都是基于矢量进行分派的,这种执行方式被称为“矢量化查询执行”,它有利于降低实际的数据处理开销。
本申请实施例中提供了一种可能的实现方式,如图3所示,上述步骤S203中对会话数据进行分类,得到会话数据的类别信息,包括:
(1)对会话数据进行预处理,确定文本信息。
具体的,可以对会话数据进行数据清洗和拼接,生成文本信息。
其中,对会话数据进行数据清洗和拼接的具体过程包括:先去除会话数据中的标点和特殊符号得到第一文本数据,然后对第一文本数据进行分词并除去停用词,进而生成至少一个第二文本数据;接着对至少一个第二文本数据进行拼接,生成文本信息。
在本申请实施例中,当初始的会话数据为“你们公司的规章制度很完善!”,则可以得到“你们”、“公司”、“规章制度”、“完善”这个四个词组,即四个第二文本数据,那么对应的文本信息可以是“你们,公司,规章制度,完善”这一文本序列。
(2)基于预训练的分类器对文本信息进行分类,得到类别信息。
其中,预训练的分类器可以是基于机器学习算法的文本分类模型。
常见的文本分类模型包括:NB模型(Naive Bayes Model,朴素贝叶斯模型),随机森林模型,SVM(Support Vector Machines,支持向量机)分类模型,KNN(k-NearestNeighbors,K近邻)分类模型,神经网络分类模型。
在本申请实施例中,以基于卷积神经网络的TextCNN(Text ConvolutionalNeural Networks,文本卷积神经网络)作为分类器进行详细说明。TextCNN网络是一种一维的卷积神经网络,如图4所示。先将文本信息进行词向量转换得到文本向量,然后经过卷积层得到多通道的特征图,将多通道的特征图通过最大池化层得到文本向量的全局信息,最后通过全连接+Softmax(逻辑回归模型)层输出类别信息。
虽然文本信息经过词向量转换后是二维数据,但是因为一个词需要完整的词向量才能表示,但是对单个词向量进行卷积没有意义,只能将所有词向量进行拼接形成矩阵,在整个拼接矩阵的维度上进行卷积。因而,可以采用基于多通道的一维卷积核在整个拼接矩阵的维度上进行卷积,得到多通道的特征图。同时,还可以增加卷积层数来提高网络复杂度。
同时,在完成卷积之后,可以通过全局最大池化,得到文本向量的全局信息。这样,即使文本信息的前半部分指向A类别信息,但全局信息指向的是B类别信息,利用全局最大池化的方式依然可以捕捉到全局信息,在提取完特征之后,可以用全连接+Softmax层对其进行多分类。
本申请实施例中提供了一种可能的实现方式,如图5所示,上述分类器是基于如下方式训练得到的,包括:
a、获取预设的样本文本信息和样本文本信息对应的样本类别;
b、将样本文本信息输入到初始分类器,得到初始分类器实时输出的类别标签;
c、基于预设的损失函数计算类别标签和样本类别的差值,并实时调整初始分类器的参数,当差值小于预设阈值,确定分类器。
在本申请实施例中,例如在TextCNN分类器的训练过程中,可以计算出softmax函数、max-pooling(最大池化)函数、激活函数以及卷积核函数四个函数当中参数需要更新的梯度,来依次更新这四个函数中的参数,进而完成初始TextCNN网络的参数调节过程。
TextCNN网络结构简单、网络参数数目较少,因此减少了计算量,具有训练速度快、分类效果好的优点。
本申请实施例中提供了一种可能的实现方式,上述步骤S204中基于类别信息统计会话数据,包括:
(1)当类别信息为预设的目标类别,将类别信息对应的会话数据作为目标数据。
其中,类别信息可以包括风险会话类别和非风险会话类别,可以将风险会话类别作为目标类别。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以先对目标用户的所有会话数据进行分类,确定该会话数据的类别信息为风险会话类别还是非风险会话类别。将风险会话类别作为目标类别,将风险会话类别对应的会话数据作为目标数据。
(2)统计目标数据的数量以及目标数据在所有会话数据中的占比。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以先对目标用户的所有会话数据进行分类,确定该会话数据的类别信息为风险会话类别还是非风险会话类别。将风险会话类别作为目标类别,将风险会话类别对应的会话数据作为目标数据,并统计所有属于风险会话类别的会话数据的数量。例如,当统计上述数量为40条,而该用户的所有会话数据总量为100条,则认为针对该用户,风险会话类别的会话数据占比为40%。
本申请实施例中提供了一种可能的实现方式,上述步骤S204中对会话数据所对应的目标对象进行处理,包括:
(1)当占比大于预设阈值,则关闭目标数据对应的目标对象的活动权限,和/或启动针对目标对象的验证操作;
(2)当占比不大于预设阈值,则维持目标数据对应的目标对象的活动权限。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以先对目标用户的所有会话数据进行分类,确定该会话数据的类别信息为风险会话类别还是非风险会话类别。将风险会话类别作为目标类别,将风险会话类别对应的会话数据作为目标数据,并统计所有属于风险会话类别的会话数据的数量。当统计上述数量为40条,而该用户的所有会话数据总量为100条,则认为针对该用户,风险会话类别的会话数据占比为40%。例如可以设置阈值为35%,上述占比超出了预设阈值,则认为该用户存在进行风险活动的意图,对其进行禁言、封号、强制验证码等处理。
为了更好的理解上述目标对象处理方法,下面结合图6详细阐述一个本申请的目标对象处理方法的示例,包括如下步骤:
S601,从预设数据库中获取待监测对象的属性信息。
其中,属性信息可以包括待监测对象的身份信息和网络活动数据等。
S602,将满足预设筛选条件的属性信息对应的待监测对象,作为目标对象。
在一些实施方式中,筛选条件可以是提前预设好的,例如按照5%的比例随机从待检测对象中抽选目标对象,或者将属性信息所占存储空间最大的前20个待监测对象作为目标对象。
在另一些实施方式中,筛选条件还可以是基于实时获取的属性信息确定的。
S603,获取目标对象的会话数据。
其中,会话数据可以是目标对象的网络活动数据,可以包括在社交网络平台中的聊天数据、评论数据、邮件数据、原创内容数据中的至少一项。
在一些实施方式中,用于进行目标对象处理的终端或服务器可以基于目标对象的标签从预设数据库中查询得到会话数据。
在另一些实施方式中,用于进行目标对象处理的终端或服务器可以通过目标对象所对应的目标数据库直接获取会话数据。
S604,对会话数据进行预处理,确定文本信息。
具体的,可以对会话数据进行数据清洗和拼接,生成文本信息。
S605,基于预训练的分类器对文本信息进行分类,得到类别信息。
其中,预训练的分类器可以是基于机器学习算法的文本分类模型。
S606,当类别信息为预设的目标类别,将类别信息对应的会话数据作为目标数据。
S607,统计目标数据的数量以及目标数据在所有会话数据中的占比。
S608,当占比大于预设阈值,则关闭目标数据对应的目标对象的活动权限,和/或启动针对目标对象的验证操作;当占比不大于预设阈值,则维持目标数据对应的目标对象的活动权限。
在本申请实施例中,以对即时聊天平台中用户的聊天内容审核为例进行具体说明。可以先对该即时聊天平台中的所有用户进行初筛,确定目标用户即目标对象,接着先对目标用户的所有会话数据进行分类,确定该会话数据的类别信息为风险会话类别还是非风险会话类别。将风险会话类别作为目标类别,将风险会话类别对应的会话数据作为目标数据,并统计所有属于风险会话类别的会话数据的数量。当统计上述数量为40条,而该用户的所有会话数据总量为100条,则认为针对该用户,风险会话类别的会话数据占比为40%。例如可以设置阈值为35%,上述占比超出了预设阈值,则认为该用户存在进行风险活动的意图,对其进行禁言、封号、强制验证码等处理。
本申请实施例通过先对待监测对象进行初筛,确定待监测对象中的目标对象,然后对目标对象的会话数据进行进一步分类和统计,以实现根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率;本申请实施例中,先对会话数据进行分类确定类别信息,可以得到会话数据是否涉及风险话题,然后基于类别信息统计该目标对象的所有会话数据,可以有效对目标对象进行全面审核,进一步提升了目标对象的内容审核结果的准确率。同时,通过对会话数据进行整体统计,可以在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
本申请实施例提供了一种目标对象处理装置,如图7所示,该目标对象处理装置70可以包括:确定模块701、获取模块702、分类模块703和统计模块704;
其中,确定模块701,用于获取待监测对象中的目标对象;
获取模块702,用于获取目标对象的会话数据;
分类模块703,用于对会话数据进行分类,得到会话数据的类别信息;
统计模块704,用于基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。
本申请实施例中提供了一种可能的实现方式,上述确定模块701,用于:
从预设数据库中获取待监测对象的属性信息;
将满足预设筛选条件的属性信息对应的待监测对象,作为目标对象。
本申请实施例中提供了一种可能的实现方式,上述装置,还包括数据存储模块,用于:
通过消息系统获取待监测对象的活动日志数据;其中,活动日志数据指示待监测对象的行为信息;
基于数据流引擎对活动日志数据进行计算,确定待监测对象的属性信息;
将属性信息存入数据库。
本申请实施例中提供了一种可能的实现方式,上述分类模块703,用于:
对会话数据进行预处理,确定文本信息;
基于预训练的分类器对文本信息进行分类,得到类别信息。
本申请实施例中提供了一种可能的实现方式,上述分类器是基于如下方式训练得到的,包括:
获取预设的样本文本信息和样本文本信息对应的样本类别;
将样本文本信息输入到初始分类器,得到初始分类器实时输出的类别标签;
基于预设的损失函数计算类别标签和样本类别的差值,并实时调整初始分类器的参数,当差值小于预设阈值,确定分类器。
本申请实施例中提供了一种可能的实现方式,上述统计模块704,用于:
当类别信息为预设的目标类别,将类别信息对应的会话数据作为目标数据;
统计目标数据的数量以及目标数据在所有会话数据中的占比。
本申请实施例中提供了一种可能的实现方式,上述统计模块704,还用于:
当占比大于预设阈值,则关闭目标数据对应的目标对象的活动权限,和/或启动针对目标对象的验证操作;
当占比不大于预设阈值,则维持目标数据对应的目标对象的活动权限。
本申请实施例通过先对待监测对象进行初筛,确定待监测对象中的目标对象,然后对目标对象的会话数据进行进一步分类和统计,以实现根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率;本申请实施例中,先对会话数据进行分类确定类别信息,可以得到会话数据是否涉及风险话题,然后基于类别信息统计该目标对象的所有会话数据,可以有效对目标对象进行全面审核,进一步提升了目标对象的内容审核结果的准确率。同时,通过对会话数据进行整体统计,可以在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现目标对象处理方法的步骤,与现有技术相比可实现:本申请实施例通过先对待监测对象进行初筛,确定待监测对象中的目标对象,然后对目标对象的会话数据进行进一步分类和统计,以实现根据会话数据的统计结果对目标对象进行处理,提高了针对目标对象的内容审核效率;本申请实施例中,先对会话数据进行分类确定类别信息,可以得到会话数据是否涉及风险话题,然后基于类别信息统计该目标对象的所有会话数据,可以有效对目标对象进行全面审核,进一步提升了目标对象的内容审核结果的准确率。同时,通过对会话数据进行整体统计,可以在识别出目标对象具有传播风险话题的动机时,及时对目标对象进行处理,有效保障了网络环境的安全。
在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备80包括:处理器801和存储器803。其中,处理器801和存储器803相连,如通过总线802相连。可选地,电子设备800还可以包括收发器804,收发器804可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器804不限于一个,该电子设备800的结构并不构成对本申请实施例的限定。
处理器801可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器801也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线802可包括一通路,在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器803可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器803用于存储执行本申请实施例的计算机程序,并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:诸如移动电话、笔记本电脑、PAD等等移动终端以及诸如数字TV、台式计算机等等固定终端。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现如下情况:
确定待监测对象中的目标对象;
获取目标对象的会话数据;
对会话数据进行分类,得到会话数据的类别信息;
基于类别信息统计会话数据,并根据统计结果对会话数据所对应的目标对象进行处理。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (10)

1.一种目标对象处理方法,其特征在于,包括:
确定待监测对象中的目标对象;
获取所述目标对象的会话数据;
对所述会话数据进行分类,得到所述会话数据的类别信息;
基于所述类别信息统计所述会话数据,并根据统计结果对所述会话数据所对应的目标对象进行处理。
2.根据权利要求1所述的目标对象处理方法,其特征在于,所述确定待监测对象中的目标对象,包括:
从预设数据库中获取所述待监测对象的属性信息;
将满足预设筛选条件的所述属性信息对应的所述待监测对象,作为目标对象。
3.根据权利要求2所述的目标对象处理方法,其特征在于,所述方法还包括:
通过消息系统获取待监测对象的活动日志数据;其中,所述活动日志数据指示所述待监测对象的行为信息;
基于数据流引擎对所述活动日志数据进行计算,确定所述待监测对象的属性信息;
将所述属性信息存入所述数据库。
4.根据权利要求1所述的目标对象处理方法,其特征在于,所述对所述会话数据进行分类,得到所述会话数据的类别信息,包括:
对所述会话数据进行预处理,确定文本信息;
基于预训练的分类器对所述文本信息进行分类,得到所述类别信息。
5.根据权利要求3所述的目标对象处理方法,其特征在于,所述分类器是基于如下方式训练得到的,包括:
获取预设的样本文本信息和所述样本文本信息对应的样本类别;
将所述样本文本信息输入到初始分类器,得到所述初始分类器实时输出的类别标签;
基于预设的损失函数计算所述类别标签和所述样本类别的差值,并实时调整所述初始分类器的参数,当所述差值小于预设阈值,确定所述分类器。
6.根据权利要求1所述的目标对象处理方法,其特征在于,所述基于所述类别信息统计所述会话数据,包括:
当所述类别信息为预设的目标类别,将所述类别信息对应的会话数据作为目标数据;
统计所述目标数据的数量以及所述目标数据在所有会话数据中的占比。
7.根据权利要求5所述的目标对象处理方法,其特征在于,所述对所述会话数据所对应的目标对象进行处理,包括:
当所述占比大于预设阈值,则关闭所述目标数据对应的目标对象的活动权限,和/或启动针对所述目标对象的验证操作;
当所述占比不大于预设阈值,则维持所述目标数据对应的目标对象的活动权限。
8.一种目标对象处理装置,其特征在于,包括:
确定模块,用于确定待监测对象中的目标对象;
获取模块,用于获取所述目标对象的会话数据;
分类模块,用于对所述会话数据进行分类,得到所述会话数据的类别信息;
统计模块,用于基于所述类别信息统计所述会话数据,并根据统计结果对所述会话数据所对应的目标对象进行处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至7任一项所述目标对象处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的目标对象处理方法的步骤。
CN202111240961.6A 2021-10-25 2021-10-25 目标对象处理方法、装置、电子设备及存储介质 Pending CN114065002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111240961.6A CN114065002A (zh) 2021-10-25 2021-10-25 目标对象处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111240961.6A CN114065002A (zh) 2021-10-25 2021-10-25 目标对象处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114065002A true CN114065002A (zh) 2022-02-18

Family

ID=80235365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111240961.6A Pending CN114065002A (zh) 2021-10-25 2021-10-25 目标对象处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114065002A (zh)

Similar Documents

Publication Publication Date Title
US11593894B2 (en) Interest recommendation method, computer device, and storage medium
Alam et al. Processing social media images by combining human and machine computing during crises
CN110569377B (zh) 一种媒体文件的处理方法和装置
CN107622333B (zh) 一种事件预测方法、装置及系统
CN108874777B (zh) 一种文本反垃圾的方法及装置
US9424319B2 (en) Social media based content selection system
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN111666502A (zh) 一种基于深度学习的异常用户识别方法、装置及存储介质
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
US20190132352A1 (en) Nearline clustering and propagation of entity attributes in anti-abuse infrastructures
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
US20200167613A1 (en) Image analysis enhanced related item decision
US11275994B2 (en) Unstructured key definitions for optimal performance
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN111724069A (zh) 用于处理数据的方法、装置、设备及存储介质
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN109033286B (zh) 数据统计方法和装置
CN113011884A (zh) 账户特征的提取方法、装置、设备及可读存储介质
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN115577172A (zh) 物品推荐方法、装置、设备及介质
Abinaya et al. Spam detection on social media platforms
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN114065002A (zh) 目标对象处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination