CN111274439B - 一种信息处理方法和装置 - Google Patents

一种信息处理方法和装置 Download PDF

Info

Publication number
CN111274439B
CN111274439B CN202010047567.XA CN202010047567A CN111274439B CN 111274439 B CN111274439 B CN 111274439B CN 202010047567 A CN202010047567 A CN 202010047567A CN 111274439 B CN111274439 B CN 111274439B
Authority
CN
China
Prior art keywords
user
suspicious
data set
file
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010047567.XA
Other languages
English (en)
Other versions
CN111274439A (zh
Inventor
王得为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010047567.XA priority Critical patent/CN111274439B/zh
Publication of CN111274439A publication Critical patent/CN111274439A/zh
Application granted granted Critical
Publication of CN111274439B publication Critical patent/CN111274439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本公开提供了一种信息处理方法和装置。信息处理方法包括:获取参考数据集;通过对用户网盘中每个文件的文件名称及其内容中所包含的文本数据进行首次检测,对用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据进行二次检测,来确定网盘用户中的可疑用户;对可疑用户网盘中的候选视频文件进行与参考视频之间的相似度计算检测,来确定其包含的可疑视频,进而来确定重点可疑目标。本公开的一种信息处理方法和装置,能够有效地筛选出大量网盘用户中的重点可疑对象,对这些用户进行重点检查,及时删除可疑视频,避免了可疑视频的大规模传播。

Description

一种信息处理方法和装置
技术领域
本发明涉及信息处理技术领域,具体涉及一种信息处理方法和装置。
背景技术
随着计算机技术和网络技术的发展,人们日常工作和生活中经常会用到大量的多媒体信息,例如音频文件、视频文件等。
目前,云存储作为一种比较流行的存储方式,正在被人们广泛地应用,诸如一些网络云盘(或网盘)等。
然而,随着用户数量的增长,以及数据的增加,在网盘上常存在一些不安全数据,例如可疑视频,这些可疑视频可能是含有某些非法传播或限制传播的内容的视频,也可能是被盗取或泄露的视频等。目前,尚无针对这种可疑视频的有效处理技术。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不意图确定本发明的关键或重要部分,也不意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供了一种信息处理方法和装置,以解决现有技术的上述问题。
本发明提供了一种信息处理方法,所述信息处理方法包括:获取参考数据集,所述参考数据集包括第一数据集、第二数据集和第三数据集,其中,所述第一数据集包括多个参考关键词,所述第二数据集包括多个参考图像,所述第三数据集包括多个参考视频;将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大;针对待检测的每个用户,检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有所述第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有所述第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于所述第一阈值,将该用户的可疑等级从当前等级提高一个等级;针对待检测的每个用户,检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有所述第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有所述第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于所述第二阈值,将该用户的可疑等级从当前等级提高一个等级;判定每个用户的当前等级是否大于或等于可疑等级,其中所述可疑等级为预设的高于0的等级值,并将当前等级大于或等于所述可疑等级的用户确定为可疑用户;针对每个可疑用户,选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与所述第三数据集中的各个参考视频之间的相似度,并将所述第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于所述第三阈值,将该可疑用户确定为重点可疑目标。
进一步地,当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,将该可疑用户确定为所述重点可疑目标。
进一步地,对待检测的每个用户进行定期检测,其中:对于作为重点可疑目标的每个用户,以第一频率进行检测;对于作为非重点可疑目标的每个用户,以第二频率进行检测;其中,所述第一频率高于所述第二频率。
进一步地,对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,将该用户设置为非重点可疑目标。
此外,本发明的实施例还提供了一种信息处理装置,所述信息处理装置包括:获取单元,其被配置用于获取参考数据集,所述参考数据集包括第一数据集、第二数据集和第三数据集,其中,所述第一数据集包括多个参考关键词,所述第二数据集包括多个参考图像,所述第三数据集包括多个参考视频;初始化单元,其被配置用于将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大;检测单元,其被配置用于针对待检测的每个用户,检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有所述第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有所述第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于所述第一阈值,将该用户的可疑等级从当前等级提高一个等级;针对待检测的每个用户,检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有所述第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有所述第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于所述第二阈值,将该用户的可疑等级从当前等级提高一个等级;判定每个用户的当前等级是否大于或等于可疑等级,其中所述可疑等级为预设的高于0的等级值,并将当前等级大于或等于所述可疑等级的用户确定为可疑用户;针对每个可疑用户,选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与所述第三数据集中的各个参考视频之间的相似度,并将所述第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于所述第三阈值,将该可疑用户确定为重点可疑目标。
进一步地,所述检测单元用于当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,将该可疑用户确定为所述重点可疑目标。
进一步地,所述检测单元用于对待检测的每个用户进行定期检测,其中:对于作为重点可疑目标的每个用户,以第一频率进行检测;对于作为非重点可疑目标的每个用户,以第二频率进行检测;其中,所述第一频率高于所述第二频率。
进一步地,所述检测单元用于对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,将该用户设置为非重点可疑目标。
本发明的一种信息处理方法和装置,能够有效地检测到可疑视频,解决上述现有技术的不足。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
图1是示出本发明的一种信息处理方法的流程图;
图2是示出本发明的一种信息处理装置的结构图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本发明内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明提供了一种信息处理方法,所述信息处理方法包括:获取参考数据集,所述参考数据集包括第一数据集、第二数据集和第三数据集,其中,所述第一数据集包括多个参考关键词,所述第二数据集包括多个参考图像,所述第三数据集包括多个参考视频;将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大;针对待检测的每个用户,检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有所述第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有所述第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于所述第一阈值,将该用户的可疑等级从当前等级提高一个等级;针对待检测的每个用户,检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有所述第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有所述第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于所述第二阈值,将该用户的可疑等级从当前等级提高一个等级;判定每个用户的当前等级是否大于或等于可疑等级,其中所述可疑等级为预设的高于0的等级值,并将当前等级大于或等于所述可疑等级的用户确定为可疑用户;针对每个可疑用户,选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与所述第三数据集中的各个参考视频之间的相似度,并将所述第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于所述第三阈值,将该可疑用户确定为重点可疑目标。
图1示出了上述一种信息处理方法的流程图。
如图1所示,在步骤1中,获取参考数据集,参考数据集包括第一数据集、第二数据集和第三数据集,其中,第一数据集包括多个参考关键词,第二数据集包括多个参考图像,第三数据集包括多个参考视频。
其中,多个参考关键词、参考图像或参考视频是预设的,也可以根据实际应用需求的不同而设置不同的参考关键词、参考图像或参考视频。
例如,假设已知第三数据集中的参考视频,那么可以根据这些参考视频的内容或者惯常命名等来确定一些参考关键词,比如狙击枪、核武器等,或者一些特定名称或型号等。
在步骤2中,将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大。
其中,可以等级的上限值可以是无穷大,或者可以设置为一个固定值,比如10,等等。
在步骤3中,针对待检测的每个用户,首先对该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据进行首次检测,也即,检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有第一数据集中的至少一个参考关键词。若在检测中发现该用户网盘中某个文件的文件名称及其内容中所包含的文本数据中含有上述任一个或多个参考关键词,则将该文件(即“文件名称或包含的文本数据中含有第一数据集中的至少一个参考关键词的文件”)确定为第一可疑文件。需要说明的是,同一个用户的网盘中可能有一个或者多个第一可疑文件。然后,确定该用户网盘中所包含的所有第一可疑文件的数量,将这个数量作为该用户的第一分值。这样,继续判定该用户的第一分值是否高于预设的第一阈值(第一阈值例如为3或5等),若其第一分值高于第一阈值,将该用户的可疑等级从当前等级提高一个等级,比如,若该用户当前的可疑等级是0,则将其可疑等级提高为1。
需要说明的是,“在检测中发现该用户网盘中某个文件的文件名称及其内容中所包含的文本数据中含有上述任一个或多个参考关键词”是指,该用户网盘中某个文件的文件名称或者其内容中所包含的文本数据中含有上述任一个或多个参考关键词,或者,该用户网盘中某个文件的文件名称且其内容中所包含的文本数据中均参考关键词。
在步骤4中,针对待检测的每个用户,对该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据进行二次检测,也即,检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有第二数据集中的至少一个参考图像。若在检测中发现该用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有上述任一个或多个参考图像,则将该文件(即“缩略图图像或包含的图像数据中含有第二数据集中的至少一个参考图像的文件”)确定为第二可疑文件。需要说明的是,同一个用户的网盘中可能有一个或者多个第二可疑文件。然后,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值。这样,继续判定该用户的第二分值是否高于预设的第二阈值(第二阈值例如为3或5等),若其第二分值高于第二阈值,将该用户的可疑等级从当前等级提高一个等级。
需要说明的是,“在检测中发现该用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有上述任一个或多个参考图像”是指,该用户网盘中某个文件的缩略图图像或者其内容中所包含的图像数据中含有上述任一个或多个参考图像,或者,该用户网盘中某个文件的缩略图图像且其内容中所包含的图像数据中均含有参考图像。
此外,需要说明的是,用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有上述某个参考图像的判定方式可以如下:若用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有一个图像,该图像和某个参考图像完全一致、或者二者的相似度高于80%等的预设相似度(相似度计算可以采用现有的图像相似度计算技术),则可以认为二者是相同的图像,也即,可以认为该用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有上述某个参考图像。
在步骤5中,针对待检测的每个用户,判定每个用户的当前等级是否大于或等于可疑等级。
其中,可疑等级是预设的高于0的等级值。
在步骤5中,对于每个用户来说,若该用户的当前等级大于或等于可疑等级,则将该用户确定为可疑用户。
在步骤6中,针对步骤5中确定的每个可疑用户,选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件。
例如,在步骤6中,可以选定该可疑用户网盘中的全部视频文件作为候选视频文件。
又如,在步骤6中,也可以选定该可疑用户网盘中的部分视频文件作为候选视频文件。也就是说,对于可疑用户的检测可以是抽查式,就是抽查其网盘中的一部分视频是不是可疑视频,以便节省处理时间。
在步骤6中,针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与第三数据集中的各个参考视频之间的相似度(相似度计算可以采用现有的视频相似度计算技术),并将第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值(例如80%等)的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值。
其中,“具有相似视频的候选视频文件”也就是可疑视频,例如,在一个实现方式中,可以在筛查出这些可疑视频后将其删除,也可以在步骤6结束后将这些可疑视频删除。
需要说明的是,候选视频文件的判定方式可以如下:若用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有一个图像,该图像和某个参考图像完全一致、或者二者的相似度高于80%等的预设相似度(相似度计算可以采用现有的图像相似度计算技术),则可以认为二者是相同的图像,也即,可以认为该用户网盘中某个文件的的缩略图图像及其内容中所包含的图像数据中含有上述某个参考图像。
这样,在步骤6中,判定该可疑用户的第三分值是否高于预设的第三阈值(第三阈值例如为1、2或5等),若其第三分值高于第三阈值,将该可疑用户确定为重点可疑目标。
这样,通过以上处理能够有效地筛选出大量网盘用户中的重点可疑对象,对这些用户进行重点检查(如后续可以人工筛查等),及时删除可疑视频,避免了可疑视频的大规模传播。
例如,当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,可以将该可疑用户确定为重点可疑目标。
此外,可以对待检测的每个用户进行定期检测。例如,对于作为重点可疑目标的每个用户,可以以第一频率(如每天一次或两次等)进行检测;而对于作为非重点可疑目标的每个用户,可以以第二频率(如每周一次或两次等)进行检测。
其中,第一频率高于第二频率。
此外,对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,则可以将该用户设置为非重点可疑目标。
可选地,在一个例子中,可以计算每个用户的总分值,即,总分值等于第一分值、第二分值与第三分值的加权和,比如,第一分值、第二分值的权重分别设为0.25,第三分值的权重设置为0.5。这样,假设某个用户被判定为重点可疑目标之后,实时地判定其总分值是否低于预设的分值(比如3),当用户的总分值低于预设的分值时则解除对该用户的警戒,也就是将该用户从重点可疑目标转为非重点可疑目标。
本发明的实施例还提供了一种信息处理装置,该装置中的模块或子模块可以执行上文中对应方法中的相应处理。
如图2所示,信息处理装置包括获取单元2-1、初始化单元2-2和检测单元2-3。
获取单元2-1被配置用于获取参考数据集,参考数据集包括第一数据集、第二数据集和第三数据集,其中,第一数据集包括多个参考关键词,第二数据集包括多个参考图像,第三数据集包括多个参考视频。
初始化单元2-2被配置用于将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大。
检测单元2-3被配置用于针对待检测的每个用户,检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于第一阈值,将该用户的可疑等级从当前等级提高一个等级。
此外,检测单元2-3被配置用于针对待检测的每个用户,检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于第二阈值,将该用户的可疑等级从当前等级提高一个等级。
此外,检测单元2-3被配置用于判定每个用户的当前等级是否大于或等于可疑等级,其中可疑等级为预设的高于0的等级值,并将当前等级大于或等于可疑等级的用户确定为可疑用户;针对每个可疑用户,选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与第三数据集中的各个参考视频之间的相似度,并将第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于第三阈值,将该可疑用户确定为重点可疑目标。
例如,检测单元2-3用于当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,将该可疑用户确定为重点可疑目标。
例如,检测单元2-3用于对待检测的每个用户进行定期检测,其中:对于作为重点可疑目标的每个用户,以第一频率进行检测;对于作为非重点可疑目标的每个用户,以第二频率进行检测;其中,第一频率高于第二频率。
例如,检测单元2-3用于对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,将该用户设置为非重点可疑目标。
最后应说明的是,以上实施例仅用以示例性说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明及本发明带来的有益效果进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施 例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求的范围。

Claims (8)

1.一种信息处理方法,其特征在于,所述信息处理方法包括:
获取参考数据集,所述参考数据集包括第一数据集、第二数据集和第三数据集,其中,所述第一数据集包括多个参考关键词,所述第二数据集包括多个参考图像,所述第三数据集包括多个参考视频;
将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大;
针对待检测的每个用户,
检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有所述第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有所述第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及
判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于所述第一阈值,将该用户的可疑等级从当前等级提高一个等级;
针对待检测的每个用户,
检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有所述第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有所述第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及
判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于所述第二阈值,将该用户的可疑等级从当前等级提高一个等级;
判定每个用户的当前等级是否大于或等于可疑等级,其中所述可疑等级为预设的高于0的等级值,并将当前等级大于或等于所述可疑等级的用户确定为可疑用户;
针对每个可疑用户,
选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,
针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与所述第三数据集中的各个参考视频之间的相似度,并将所述第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及
判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于所述第三阈值,将该可疑用户确定为重点可疑目标。
2.根据权利要求1所述的信息处理方法,其特征在于,当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,将该可疑用户确定为所述重点可疑目标。
3.根据权利要求1或2所述的信息处理方法,其特征在于,对待检测的每个用户进行定期检测,其中:
对于作为重点可疑目标的每个用户,以第一频率进行检测;
对于作为非重点可疑目标的每个用户,以第二频率进行检测;
其中,所述第一频率高于所述第二频率。
4.根据权利要求3所述的信息处理方法,其特征在于,对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,将该用户设置为非重点可疑目标。
5.一种信息处理装置,其特征在于,所述信息处理装置包括:
获取单元,其被配置用于获取参考数据集,所述参考数据集包括第一数据集、第二数据集和第三数据集,其中,所述第一数据集包括多个参考关键词,所述第二数据集包括多个参考图像,所述第三数据集包括多个参考视频;
初始化单元,其被配置用于将待检测的每个用户的可疑等级的初值设为0,其中,等级的值越高表示其网盘包含可疑视频的可能性越大;
检测单元,其被配置用于针对待检测的每个用户,
检查该用户网盘中的每个文件的文件名称及其内容中所包含的文本数据中是否含有所述第一数据集中的至少一个参考关键词,并将文件名称或包含的文本数据中含有所述第一数据集中的至少一个参考关键词的文件确定为第一可疑文件,确定该用户网盘中所包含的所有第一可疑文件的数量,作为该用户的第一分值,以及
判定该用户的第一分值是否高于预设的第一阈值,若其第一分值高于所述第一阈值,将该用户的可疑等级从当前等级提高一个等级;
针对待检测的每个用户,
检查该用户网盘中的每个文件的缩略图图像及其内容中所包含的图像数据中是否含有所述第二数据集中的至少一个参考图像,并将缩略图图像或包含的图像数据中含有所述第二数据集中的至少一个参考图像的文件确定为第二可疑文件,确定该用户网盘中所包含的所有第二可疑文件的数量,作为该用户的第二分值,以及
判定该用户的第二分值是否高于预设的第二阈值,若其第二分值高于所述第二阈值,将该用户的可疑等级从当前等级提高一个等级;
判定每个用户的当前等级是否大于或等于可疑等级,其中所述可疑等级为预设的高于0的等级值,并将当前等级大于或等于所述可疑等级的用户确定为可疑用户;
针对每个可疑用户,
选定该可疑用户网盘中的部分或全部视频文件,作为候选视频文件,
针对该可疑用户网盘中的每个候选视频文件,计算该候选视频文件与所述第三数据集中的各个参考视频之间的相似度,并将所述第三数据集中与该候选视频文件之间的相似度高于预设相似度阈值的参考视频确定为该候选视频的相似视频,计算该可疑用户网盘中具有相似视频的候选视频文件数量,作为该可疑用户的第三分值,以及
判定该可疑用户的第三分值是否高于预设的第三阈值,若其第三分值高于所述第三阈值,将该可疑用户确定为重点可疑目标。
6.根据权利要求5所述的信息处理装置,其特征在于,所述检测单元用于当需要将用户的可疑等级从当前等级提高一个等级时,若该用户的可疑等级达到最大值,将该可疑用户确定为所述重点可疑目标。
7.根据权利要求5或6所述的信息处理装置,其特征在于,所述检测单元用于对待检测的每个用户进行定期检测,其中:
对于作为重点可疑目标的每个用户,以第一频率进行检测;
对于作为非重点可疑目标的每个用户,以第二频率进行检测;
其中,所述第一频率高于所述第二频率。
8.根据权利要求7所述的信息处理装置,其特征在于,所述检测单元用于对于作为重点可疑目标的每个用户,若该用户网盘中所有的具有相似视频的候选视频文件均已被删除,将该用户设置为非重点可疑目标。
CN202010047567.XA 2020-01-16 2020-01-16 一种信息处理方法和装置 Active CN111274439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010047567.XA CN111274439B (zh) 2020-01-16 2020-01-16 一种信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010047567.XA CN111274439B (zh) 2020-01-16 2020-01-16 一种信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN111274439A CN111274439A (zh) 2020-06-12
CN111274439B true CN111274439B (zh) 2020-10-23

Family

ID=70997267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010047567.XA Active CN111274439B (zh) 2020-01-16 2020-01-16 一种信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN111274439B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150085311A (ko) * 2014-01-15 2015-07-23 케이티텔레캅 주식회사 센서 연동 데이터 다중 관리장치
CN105930977A (zh) * 2016-04-29 2016-09-07 广州建皓信息技术有限公司 一种知识管理平台
CN107426239A (zh) * 2017-08-17 2017-12-01 绿网天下(福建)网络科技股份有限公司 一种涉黄内容主动拦截的方法及终端
CN109164986A (zh) * 2018-08-27 2019-01-08 平安科技(深圳)有限公司 云盘数据处理方法、装置、电子设备及存储介质
EP3547245A1 (en) * 2018-03-27 2019-10-02 Easy Hi Ltd. System and method for producing a customized video file

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260166A1 (en) * 2015-03-02 2016-09-08 Trade Social, LLC Identification, curation and trend monitoring for uncorrelated information sources
CN105656942A (zh) * 2016-03-15 2016-06-08 山东超越数控电子有限公司 一种认证服务云中用于用户身份认证的方法
CN109858965A (zh) * 2019-01-25 2019-06-07 上海基分文化传播有限公司 一种用户识别方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150085311A (ko) * 2014-01-15 2015-07-23 케이티텔레캅 주식회사 센서 연동 데이터 다중 관리장치
CN105930977A (zh) * 2016-04-29 2016-09-07 广州建皓信息技术有限公司 一种知识管理平台
CN107426239A (zh) * 2017-08-17 2017-12-01 绿网天下(福建)网络科技股份有限公司 一种涉黄内容主动拦截的方法及终端
EP3547245A1 (en) * 2018-03-27 2019-10-02 Easy Hi Ltd. System and method for producing a customized video file
CN109164986A (zh) * 2018-08-27 2019-01-08 平安科技(深圳)有限公司 云盘数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Efficient Strategy for Online Performance Monitoring of Datacenters via Adaptive Sampling;Tingshan Huang;《IEEE Transactions on Cloud Computing》;20190301;第9卷(第1期);全文 *
网盘:污泥浊水谁来清?;黄芳芳;《经济》;20170930;第19卷(第17期);全文 *

Also Published As

Publication number Publication date
CN111274439A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
US11475670B2 (en) Method of creating a template of original video content
JP6141305B2 (ja) 画像検索
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US9215243B2 (en) Identifying and ranking pirated media content
US20070118528A1 (en) Apparatus and method for blocking phishing web page access
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
US20080127043A1 (en) Automatic Extraction of Programming Rules
CN111224923A (zh) 一种仿冒网站的检测方法、装置及系统
CN109101574B (zh) 一种数据防泄漏系统的任务审批方法和系统
CN112990792B (zh) 一种侵权风险自动化检测方法、装置和电子设备
CN111274439B (zh) 一种信息处理方法和装置
US8463725B2 (en) Method for analyzing a multimedia content, corresponding computer program product and analysis device
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN111368128A (zh) 目标图片的识别方法、装置和计算机可读存储介质
CN108495150B (zh) 一种视频点击满意度的确定方法及装置
Yuan et al. Benchmarking the reliability of post-training quantization: a particular focus on worst-case performance
US9020964B1 (en) Generation of fingerprints for multimedia content based on vectors and histograms
CN108920700B (zh) 一种虚假图片识别方法及装置
CN114124564A (zh) 一种仿冒网站检测方法、装置、电子设备及存储介质
CN110232157B (zh) 一种基于内容的隐私保护图书推荐方法及系统
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN111445375A (zh) 水印嵌入方案和数据处理方法、装置及设备
CN110275863A (zh) 文件移动方法、装置及存储介质
CN115809466B (zh) 基于stride模型的安全需求生成方法、装置、电子设备及介质
CN113326385B (zh) 目标多媒体资源的获取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030927

Country of ref document: HK