CN111930977A - 识别敏感信息的方法、装置、设备及存储介质 - Google Patents

识别敏感信息的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111930977A
CN111930977A CN202010770661.8A CN202010770661A CN111930977A CN 111930977 A CN111930977 A CN 111930977A CN 202010770661 A CN202010770661 A CN 202010770661A CN 111930977 A CN111930977 A CN 111930977A
Authority
CN
China
Prior art keywords
information
multimedia data
target
sensitive
comment information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010770661.8A
Other languages
English (en)
Inventor
张亮
江钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010770661.8A priority Critical patent/CN111930977A/zh
Publication of CN111930977A publication Critical patent/CN111930977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种识别敏感信息的方法、装置、设备及存储介质,属于互联网技术领域。所述方法包括:获取多媒体数据的评论信息;将所述评论信息输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。本申请可以通过对多媒体数据的评论信息进行识别,能够挖掘出更多存在敏感信息的多媒体数据。

Description

识别敏感信息的方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,特别涉及一种识别敏感信息的方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,人们可以在各种网络平台中上传各种各样的多媒体数据,即上传各种作品,例如歌曲作品、短视频作品等。其中,有些作品中可能会包含一些敏感信息,所以一般网络平台会设置审核环节,对平台中的各种作品进行识别,若识别到作品中包含敏感信息时,可以对相应的作品进行处理,例如,将歌词中包含敏感信息的歌曲进行下架处理。
网络平台中设置的审核技术一般是直接获取作品的内容数据,例如,获取歌曲中的歌词文本、获取视频中的视频帧,然后检测相应的内容数据中是否包含敏感信息,例如,检测歌曲中的歌词文本中是否包含敏感词汇,然后根据检测结果,判别作品是否包含敏感信息。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
现有的审核技术只能检测到包含敏感词汇的作品,对于有些不包括敏感词汇,但是表达的内容仍然属于敏感信息的作品,现有审核技术无法准确识别。
发明内容
本申请实施例提供了一种识别敏感信息的方法、装置、设备及存储介质,通过对多媒体数据对应的评论信息进行检测,能够挖掘出更多可能存在敏感内信息的作品。所述技术方案如下:
一方面,提供了一种识别敏感信息的方法,所述方法包括:
获取多媒体数据的评论信息;
将所述评论信息,输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;
获取敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。
可选的,所述预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层。
可选的,所述将所述评论信息输入预先训练的敏感信息识别模型,得到敏感判定结果,包括:
将所述评论信息进行分词处理,得到所述评论信息对应的至少一个词组;
将所述至少一个词组输入到所述输入层,得到所述至少一个词组对应的词组标识;
将所述至少一个词组对应的词组标识输入到所述嵌入层,得到所述至少一个词组对应的词组向量;
将所述至少一个词组对应的词组向量输入到所述双向长短时记忆网络层,得到所述至少一个词组对应的特征向量;
将所述至少一个词组对应的特征向量输入到所述注意力层,得到所述评论信息对应的特征向量;
将所述评论信息对应的特征向量输入到所述输出层,得到所述评论信息对应的敏感判定结果。
可选的,所述获取敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据之后,所述方法还包括:
确定每个目标多媒体数据对应的目标评论信息的数目;
基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;
向所述审核终端发送每个目标多媒体数据的排名信息。
可选的,所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息,包括:
确定每个目标多媒体数据对应的目标评论信息的数目;
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
可选的,获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,包括:
每当达到预设的周期时长时,确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据。
可选的,所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息之后,所述方法还包括:
接收所述审核终端发送的数据获取请求,其中,所述数据获取请求中携带有待查询的多媒体数据的第一标识信息;
向所述审核终端发送与第一标识信息对应的目标多媒体数据。
可选的,所述方法还包括:
接收所述审核终端发送的多媒体数据删除通知,其中,所述处理通知中携带有待删除的多媒体数据的第二标识信息;
删除所述第二标识信息对应的目标多媒体数据。
另一方面、提供了一种识别敏感作品的装置,所述装置包括:
获取模块,被配置为获取多媒体数据的评论信息;
确定模块,被配置为将所述评论信息,输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;
第一发送模块,被配置为获得敏感判定结果为具有敏感信息的目标评论信息,以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。
可选的,所述预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层。
可选的,所述确定模块被配置为:
将所述评论信息进行分词处理,得到所述评论信息对应的至少一个词组;
将所述至少一个词组输入到所述输入层,得到所述至少一个词组对应的词组标识;
将所述至少一个词组对应的词组标识输入到所述嵌入层,得到所述至少一个词组对应的词组向量;
将所述至少一个词组对应的词组向量输入到所述双向长短时记忆网络层,得到所述至少一个词组对应的特征向量;
将所述至少一个词组对应的特征向量输入到所述注意力层,得到所述评论信息对应的特征向量;
将所述评论信息对应的特征向量输入到所述输出层,得到所述评论信息对应的敏感判定结果。
可选的,所述装置还包括第二发送模块,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;
向所述审核终端发送每个目标多媒体数据的排名信息。
可选的,所述第一发送模块,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
可选的,获取模块被配置为:
每当达到预设的周期时长时,确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据。
可选的,所述装置还包括第三发送模块,被配置为:
接收所述审核终端发送的数据获取请求,其中,所述数据获取请求中携带有待查询的多媒体数据的第一标识信息;
向所述审核终端发送与第一标识信息对应的目标多媒体数据。
可选的,所述装置还包括处理模块,被配置为:
接收所述审核终端发送的多媒体数据删除通知,其中,所述处理通知中携带有待删除的多媒体数据的第二标识信息;
删除所述第二标识信息对应的目标多媒体数据。
再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上所述的识别敏感信息的方法所执行的操作。
再一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的识别敏感信息的方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果是:
通过获取多媒体数据对应的评论信息,并检测评论信息是否为敏感评论,然后将敏感评论以及对应的多媒体数据给送给审核终端,完成对多媒体数据的审核。采用本申请,可以通过对多媒体数据的评论信息进行检测,能够挖掘出更多不包含敏感词汇但具有敏感信息的多媒体数据。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的识别敏感信息的方法流程图;
图3是本申请实施例提供的识别敏感信息的装置结构示意图;
图4是本申请实施例提供的计算机设备结构示意图;
图5为本申请实施例提供的敏感信息识别模型的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,本申请提供的方法可以由审核终端和服务器共同实现。审核终端和用户终端具有通信功能,可以接入互联网,终端可以是手机、平板电脑、智能穿戴设备、台式计算机、笔记本电脑等。服务器可以与终端建立通信。该服务器可以是一个单独的服务器也可以是一个服务器组,如果是单独的服务器,该服务器可以负责下述方案中的所有处理,如果是服务器组,服务器组中的不同服务器分别可以负责下述方案中的不同处理,具体的处理分配情况可以由技术人员根据实际需求任意设置,此处不再赘述。
用户通过各种应用程序在相应的网络平台中发表各种多媒体数据,即各种作品,例如,文章、歌曲、短视频等。网络平台中的用户可以浏览相应的作品,还可以在相应的作品下进行留言、评论。另外,网络平台中设置有审核环节,可以对用户上传的多媒体数据进行审核,例如,审核歌曲的歌词中是否存在敏感词汇。而有些作品中可能不存在明显的敏感词汇,但也有可能包含敏信息,一般情况下,该类作品对应的评论中,会出现较多偏激或敏感的评论内容。所以本申请提供的识别敏感信息的方法,可以在用户操作终端向服务器发送评论信息之后,对评论信息进行识别,然后将敏感评论对应的作品发送给审核终端,由审核终端审核该作品是否带有敏感信息。在本申请实施例中以多媒体数据为歌曲作品为例,对应的应用程序为音乐应用程序,对方案进行详细说明,其他情况与之类似,不再赘述。
图2是本申请实施例提供的一种识别敏感信息的方法流程图。参见图2,该实施例包括:
步骤201、获取多媒体数据的评论信息。
在实施中,用户可以在音乐播放应用程序中选择歌曲,进入歌曲的播放界面对歌曲进行播放。在播放界面设置有评论选项,用户可以点击评论选项,进入评论页面对当前播放的歌曲进行评论。当用户完成对当前播放的歌曲的评论之后,可点击对应的发送选项,向服务器发送评论请求,其中,评论请求中携带有用户的评论内容,即多媒体数据的评论信息,当前播放歌曲对应的歌曲标识,以及用户登录音乐应用程序的账户标识。当服务器接收到用户终端发送的评论请求之后,可获取评论请求中携带的评论内容。
步骤202、将评论信息输入预先训练的敏感信息识别模型,得到敏感判定结果。
其中,敏感判定结果用于指示评论信息对应的多媒体数据是否具有敏感信息。
在实施中,在服务器中可设置预先训练好的敏感信息识别模型。当服务器获取到用户的评论内容之后,可以将获取的评论内容输入到敏感信息识别模型,该敏感信息识别模型可以对输入的评论内容进行判别,输出敏感信息判别值,即判定结果,其中,该敏感信息判别值可以是评论内容属于敏感信息的概率值,如果为概率值时,技术人员可以设置概率阈值,当得到的敏感信息判别值超过概率阈值时,可以确定对应评论内容属于敏感信息。该敏感信息判别值可以为二值信息,例如当输出的评论内容判定结果为评论为敏感评论时,敏感信息判别值可为1,当输出的评论内容判定结果不为评论为敏感评论时,敏感信息判别值可为。
其中,预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层,将评论信息输入到预先训练的敏感信息识别模型,得到敏感判定结果的处理可如下:将评论信息进行分词处理,得到评论信息对应的至少一个词组;将至少一个词组输入到输入层,得到至少一个词组对应的词组标识;将至少一个词组对应的词组标识输入到嵌入层,得到至少一个词组对应的词组向量;将至少一个词组对应的词组向量输入到双向长短时记忆网络层,得到至少一个词组对应的特征向量;将至少一个词组对应的特征向量输入到注意力层,得到评论信息对应的特征向量;将评论信息对应的特征向量输入到输出层,得到评论信息对应的敏感判定结果。
在实施中,将评论内容输入到预先训练的敏感信息识别模型之前,可以对评论内容进行分词处理,得到评论内容对应的至少一个词组。例如评论内容为“这首歌曲听起来好听”,分词处理之后的词组可以为“这”、“首”、“歌曲”、“听起来”、“好听”。然后将分词处理之后的各词组输入到预先训练的敏感信息识别模型的输入层中,在输入层中可以根据预设的词组与标识的对应关系,确定输入的每个词组对应的词组标识,然后输出每个词组对应的词组标识,其中每个词组可对应唯一的词组标识。在得到每个词组的词组标识之后,可将对应的词组标识输入到嵌入层中,在预先训练的敏感信息识别模型的嵌入层中,可根据每个词组标识确定对应的词组向量,词组向量的维度可以由技术人员进行预先设置。然后可以将对应的词组向量输入到双向长短时记忆网络层,在双向长短时记忆网络层中对各词组向量进行特征提取,得到每个词组向量对应的特征向量。再然后可以将每个词组对应的特征向量输入到注意力层,由注意力层输出评论内容对应的特征向量,最后可以将评论内容对应的特征向量输入到输出层,由输出层输出评论内容对应的敏感信息判别值。如图5所示,图5为敏感信息识别模型的结构示意图,其中包括输入层(Input layer)、嵌入层(Embedding layer)、双向长短时记忆网络(Long Short-Term Memory,Bi-LSTM)层、注意力层(Attention layer)以及输出层(Output layer)。X1-Xt为对评论内容分词处理之后的各个词组对应的词组标识,将X1-Xt输入到嵌入层后,在嵌入层中可以根据word2vec算法构建每个词组标识对应的词组向量e1-et。然后可以将得到的词组向量e1-et输入到双向长短时记忆网络层,在双向长短时记忆网络层中可以得到每个词组向量的特征向量,即h1-ht。再然后可以将h1-ht输入到注意力层中,在注意力层中可以对输入的h1-ht进行加权求和,得到评论内容对应的特征向量,最后可以将评论内容对应的特征向量输入到输出层得到评论内容对应的特征向量的敏感信息判别值y。
其中,敏感信息识别模型的训练过程可如下:
获取样本评论数据,以及样本评论数据对应的敏感信息判别值。其中,样本评论数据可以是获取的用户历史的评论内容,例如,“为了自由而奋斗”、“主张人权”、“这个作者三观不正”等等,然后将对应的评论内容设置敏感信息判别值,敏感信息判别值可以表示对应的评论内容是否为敏感评论,或者,评论内容能否反应歌曲中具有敏感信息。对敏感信息识别模型训练时,可将样本评论数据输入到敏感信息识别模型训练中,输出样本评论数据的敏感信息判别值,然后可以根据的输出样本评论数据的敏感信息判别值和样本评论数据对应的基准敏感信息判别值对敏感信息识别模型进行训练。在经过大量的样本评论数据和样本评论数据对应的敏感信息判别值对敏感信息识别模型的训练之后,可得到训练完成的敏感信息识别模型。
步骤203、获取敏感判定结果为具有敏感信息的目标评论信息,以及目标评论信息所属的目标多媒体数据,向审核终端发送目标多媒体数据的标识信息和目标评论信息。
在实施中,服务器中可以设置一个评论存储列表,用于存储用户的评论内容,如表1所示,在评论存储列表中还可以设置有与评论内容相关的其他选项,例如,评论内容对应的被评论的歌曲标识,评论内容对应的账户标识等,另外,还可以在评论存储表中设置用于反应评论是否为敏感评论的敏感指示选项,例如,当敏感信息识别模型判别用户的评论内容为敏感评论,可以将对应的评论内容存储在评论存储列表中,并将对应的敏感指示选项设置为1,当敏感信息识别模型判别用户的评论内容不是敏感评论时,可以将对应的评论内容存储在评论存储列表中,并将对应的敏感指示选项设置为0。当服务器中的敏感信息识别模型识别出评论内容为敏感内容时,可以将对应的评论内容存储在评论存储列表中,并将对应的敏感指示选项设置为1。服务器可以在评论存储列表中获取敏感指示选项设置为1的评论内容(即目标评论信息),并可以根据评论存储列表中获取目标评论信息对应的多媒体数据的标识信息,然后将目标评论信息和对应的多媒体数据的标识信息发送至审核终端。
可选的,每当达到预设的周期时长时,确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及目标评论信息所属的目标多媒体数据。
其中,周期时长可以是一天或12小时等,可由技术人员进行设置,此处不对周期的时长做限定。
在实施中,服务器在每当达到预设的周期时长时,可以将在当前周期时长内所有敏感指示选项为1的评论内容,以及评论内容对应的多媒体数据的标识信息,发送给审核终端,审核终端可将相应的评论内容和评论内容对应的多媒体数据的标识信息,以列表的形式显示在审核终端。
歌曲标识 评论用户标识 评论用户内容 评论时间 敏感指示
Song_123 User_1001 这就是权力 2020.1.16 18:41 1
Song_124 User_1002 挺好听的 2020.1.16 18:41 0
Song_125 User_1003 不错,不错 2020.1.16 18:41 0
Song_126 User_1004 这个社会是不自由 2020.1.16 18:41 1
表1
可选的,可以按照每个多媒体数据对应的敏感评论的数目,对多媒体数据进行排序,相应的处理如下:确定每个目标多媒体数据对应的目标评论内容的数目;基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;向审核终端发送每个目标多媒体数据的排名信息。
在实施中,每当达到预设的周期时长时,服务器可以获取在当前周期时长内所有敏感指示选项为1的评论内容,以及评论内容对应的多媒体数据的标识信息,即获取在当前周期时长内敏感信息识别模型检测到所有的敏感评论,以及敏感评论对应的歌曲标识,然后将敏感评论和对应的歌曲标识存储在高危歌曲库中。然后将高危歌曲库中的每个歌曲标识对应的敏感评论的个数按照由多至少的顺序对歌曲标识进行排序,得到歌曲标识的排名信息。然后将排名信息以及对应的歌曲标识和歌曲标识对应的敏感评论发送给审核终端。当审核终端接收到服务器发送的排名信息以及对应的歌曲标识和歌曲标识对应的敏感评论之后,审核终端可以按照排名信息对歌曲标识进行显示,其中,每个歌曲标识之后还可以显示有对应的敏感评论的个数和内容。
可选的,向审核终端发送目标多媒体数据的标识信息和所述目标评论信息时,还可以确定每个目标多媒体数据对应的目标评论信息的数目;然后向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
其中,数目阈值指示多媒体数据对应的目标评论信息的数目的阈值,可由计算人员预先设置。
在实施中,当获取在当前周期时长内敏感信息识别模型检测到所有的敏感评论,以及敏感评论对应的歌曲标识,并将敏感评论和对应的歌曲标识存储在高危歌曲库之后。可对高危歌曲库中的每个歌曲标识对应的敏感评论统计,得到每个歌曲标识对应的敏感评论的个数,然后确定敏感评论的个数超过数目阈值的歌曲标识,然后将敏感评论的个数超过数目阈值的歌曲标识以及对应的敏感评论发送给审核终端。
可选的,审核人员可以通过对审核多媒体数据进行再次审核确定多媒体数据带有敏感信息,相应的处理可以如下:接收审核终端发送的数据获取请求,其中,数据获取请求中携带有待查询的多媒体数据的第一标识信息;向审核终端发送与第一标识信息对应的目标多媒体数据。
在实施中,当审核终端接收到服务器发送的敏感评论,以及敏感评论对应的歌曲标识之后,可以显示敏感评论以及敏感评论对应的歌曲标识。审核人员可以点击歌曲标识,向服务器发送数据获取请求,其中,数据获取请求中携带有第一标识信息,第一标识信息为审核人员点击的歌曲标识。当服务器接收到审核终端发送的第一标识信息之后,可以将第一标识信息对应的目标多媒体数据发送给审核终端,例如歌曲中的歌词,或是歌曲音频等。审核人员可通过对歌曲中的歌词,或是歌曲音频进行审核从而判断歌曲中是否存在敏感信息。
可选的,当审核人员判定多媒体数据中存在敏感信息之后,服务器可进行如下处理:接收审核终端发送的多媒体数据删除通知,其中,处理通知中携带有待删除的多媒体数据的第二标识信息;删除第二标识信息对应的目标多媒体数据。
在实施中,审核终端中的显示的多媒体数据标识之后可设置有处理选项,当审核人员审核得出多媒体数据中存在敏感信息之后,可点击对应的处理选项,之后,审核终端可向服务器发送删除通知,其中,删除通知中可以携带有第二标识信息,即审核人员点击的处理选项对应的歌曲标识。当服务器接收到删除通知之后,可以根据删除通知中携带的歌曲标识,将歌曲标识对应的歌曲进行删除。另外,审核终端还可以设置敏感作品对应的删除时间,向服务器发送携带有删除时间的删除通知,服务器接收到删除通知之后,可根据删除通知中携带的删除时间和歌曲标识,然后将歌曲标识对应的歌曲删除,在经过删除时长之后,可重新将对应的歌曲上架。例如,删除通知中携带的删除时长为3天,则服务器可以将对应的歌曲删除之后进行计时,当删除时间达到3天时,服务器可重新上传对应的歌曲。
本申请实施例,通过获取多媒体数据对应的评论信息,并检测评论信息是否为敏感评论,然后将敏感评论以及对应的多媒体数据给送给审核终端,完成对多媒体数据的审核。采用本申请,可以通过对多媒体数据的评论信息进行检测,能够挖掘出更多不包含敏感词汇但具有敏感信息的多媒体数据。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图3是本申请实施例提供的一种识别敏感作品的装置结构示意图,该装置可以是上述实施例中的服务器,如图3所示,该装置包括:
获取模块310,被配置为获取多媒体数据的评论信息;
确定模块320,被配置为将所述评论信息,输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;
第一发送模块330,被配置为获得敏感判定结果为具有敏感信息的目标评论信息,以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。
可选的,所述预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层。
可选的,所述确定模块被配置为:
将所述评论信息进行分词处理,得到所述评论信息对应的至少一个词组;
将所述至少一个词组输入到所述输入层,得到所述至少一个词组对应的词组标识;
将所述至少一个词组对应的词组标识输入到所述嵌入层,得到所述至少一个词组对应的词组向量;
将所述至少一个词组对应的词组向量输入到所述双向长短时记忆网络层,得到所述至少一个词组对应的特征向量;
将所述至少一个词组对应的特征向量输入到所述注意力层,得到所述评论信息对应的特征向量;
将所述评论信息对应的特征向量输入到所述输出层,得到所述评论信息对应的敏感判定结果。
可选的,所述装置还包括第二发送模块,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;
向所述审核终端发送每个目标多媒体数据的排名信息。
可选的,所述第一发送模块330,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
可选的,获取模块被配置为:
每当达到预设的周期时长时,确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据。
可选的,所述装置还包括第三发送模块,被配置为:
接收所述审核终端发送的数据获取请求,其中,所述数据获取请求中携带有待查询的多媒体数据的第一标识信息;
向所述审核终端发送与第一标识信息对应的目标多媒体数据。
可选的,所述装置还包括处理模块,被配置为:
接收所述审核终端发送的多媒体数据删除通知,其中,所述处理通知中携带有待删除的多媒体数据的第二标识信息;
删除所述第二标识信息对应的目标多媒体数据。
需要说明的是:上述实施例提供的别敏感作品的装置在别敏感作品时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的别敏感作品的装置与别敏感作品的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中别敏感作品的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器,)、RAM(Random Access Memory,随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种识别敏感信息的方法,其特征在于,所述方法包括:
获取多媒体数据的评论信息;
将所述评论信息输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;
获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层。
3.根据权利要求2所述的方法,其特征在于,所述将所述评论信息输入预先训练的敏感信息识别模型,得到敏感判定结果,包括:
将所述评论信息进行分词处理,得到所述评论信息对应的至少一个词组;
将所述至少一个词组输入到所述输入层,得到所述至少一个词组对应的词组标识;
将所述至少一个词组对应的词组标识输入到所述嵌入层,得到所述至少一个词组对应的词组向量;
将所述至少一个词组对应的词组向量输入到所述双向长短时记忆网络层,得到所述至少一个词组对应的特征向量;
将所述至少一个词组对应的特征向量输入到所述注意力层,得到所述评论信息对应的特征向量;
将所述评论信息对应的特征向量输入到所述输出层,得到所述评论信息对应的敏感判定结果。
4.根据权利要求1所述的方法,其特征在于,所述获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据之后,所述方法还包括:
确定每个目标多媒体数据对应的目标评论信息的数目;
基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;
向所述审核终端发送每个目标多媒体数据的排名信息。
5.根据权利要求1所述的方法,其特征在于,所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息,包括:
确定每个目标多媒体数据对应的目标评论信息的数目;
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
6.根据权利要求1所述的方法,其特征在于,获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,包括:
每当达到预设的周期时长时,确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据。
7.根据权利要求1所述的方法,其特征在于,所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息之后,所述方法还包括:
接收所述审核终端发送的数据获取请求,其中,所述数据获取请求中携带有待查询的多媒体数据的第一标识信息;
向所述审核终端发送与第一标识信息对应的目标多媒体数据。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
接收所述审核终端发送的多媒体数据删除通知,其中,所述处理通知中携带有待删除的多媒体数据的第二标识信息;
删除所述第二标识信息对应的目标多媒体数据。
9.一种识别敏感作品的装置,其特征在于,所述装置包括:
获取装置,被配置为获取多媒体数据的评论信息;
确定模块,被配置为将所述评论信息,输入预先训练的敏感信息识别模型,得到敏感判定结果,其中,所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息;
第一发送模块,被配置为获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据,向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括第二发送模块,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
基于每个目标多媒体数据对应的数目,按照数目由多至少的顺序,对目标多媒体数据进行排名,得到每个目标多媒体数据的排名信息;
向所述审核终端发送每个目标多媒体数据的排名信息。
11.根据权利要求9所述的装置,其特征在于,所述第一发送模块,被配置为:
确定每个目标多媒体数据对应的目标评论信息的数目;
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括第三发送模块,被配置为:
接收所述审核终端发送的数据获取请求,其中,所述数据获取请求中携带有待查询的多媒体数据的第一标识信息;
向所述审核终端发送与第一标识信息对应的目标多媒体数据。
13.根据权利要求9至12所述的装置,其特征在于,所述装置还包括处理模块,被配置为:
接收所述审核终端发送的多媒体数据删除通知,其中,所述处理通知中携带有待删除的多媒体数据的所述第二标识信息;
删除所述第二标识信息对应的目标多媒体数据。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的识别敏感信息的方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的识别敏感信息的方法所执行的操作。
CN202010770661.8A 2020-08-04 2020-08-04 识别敏感信息的方法、装置、设备及存储介质 Pending CN111930977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010770661.8A CN111930977A (zh) 2020-08-04 2020-08-04 识别敏感信息的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010770661.8A CN111930977A (zh) 2020-08-04 2020-08-04 识别敏感信息的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111930977A true CN111930977A (zh) 2020-11-13

Family

ID=73307890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010770661.8A Pending CN111930977A (zh) 2020-08-04 2020-08-04 识别敏感信息的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111930977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010644A (zh) * 2021-03-23 2021-06-22 腾讯科技(深圳)有限公司 媒体信息的识别方法、装置和存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2240874A1 (en) * 2008-01-10 2010-10-20 Yissum Research Development Company of the Hebrew University of Jerusalem, Ltd. Method and system for automatically ranking product reviews according to review helpfulness
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
CN108491386A (zh) * 2018-03-19 2018-09-04 上海携程国际旅行社有限公司 自然语言理解方法及系统
CN109495515A (zh) * 2019-01-02 2019-03-19 腾讯科技(深圳)有限公司 敏感信息处理方法和计算机可读存储介质
CN109831698A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 信息审核方法、装置、电子设备及计算机可读取存储介质
CN109977403A (zh) * 2019-03-18 2019-07-05 北京金堤科技有限公司 恶意评论信息识别方法及装置
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110263328A (zh) * 2019-05-22 2019-09-20 平安国际智慧城市科技股份有限公司 一种学科能力类型标注方法、装置、存储介质及终端设备
CN110516156A (zh) * 2019-08-29 2019-11-29 深信服科技股份有限公司 一种网络行为监控装置、方法、设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2240874A1 (en) * 2008-01-10 2010-10-20 Yissum Research Development Company of the Hebrew University of Jerusalem, Ltd. Method and system for automatically ranking product reviews according to review helpfulness
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
CN108491386A (zh) * 2018-03-19 2018-09-04 上海携程国际旅行社有限公司 自然语言理解方法及系统
CN109831698A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 信息审核方法、装置、电子设备及计算机可读取存储介质
CN109495515A (zh) * 2019-01-02 2019-03-19 腾讯科技(深圳)有限公司 敏感信息处理方法和计算机可读存储介质
CN109977403A (zh) * 2019-03-18 2019-07-05 北京金堤科技有限公司 恶意评论信息识别方法及装置
CN110263328A (zh) * 2019-05-22 2019-09-20 平安国际智慧城市科技股份有限公司 一种学科能力类型标注方法、装置、存储介质及终端设备
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110516156A (zh) * 2019-08-29 2019-11-29 深信服科技股份有限公司 一种网络行为监控装置、方法、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010644A (zh) * 2021-03-23 2021-06-22 腾讯科技(深圳)有限公司 媒体信息的识别方法、装置和存储介质及电子设备

Similar Documents

Publication Publication Date Title
JP2019212290A (ja) ビデオを処理する方法及び装置
US20190066696A1 (en) Method and apparatus for verifying information
CN107911448B (zh) 一种内容推送方法及装置
CN110188356B (zh) 信息处理方法及装置
CN104598502A (zh) 获取播放视频中背景音乐信息的方法、装置及系统
CN106959976B (zh) 一种搜索处理方法以及装置
CN107862058B (zh) 用于生成信息的方法和装置
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN104484370B (zh) 基于问答的答案信息发送方法、接收方法、装置及系统
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN111930977A (zh) 识别敏感信息的方法、装置、设备及存储介质
CN111444364B (zh) 一种图像检测方法和装置
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN115374793B (zh) 基于服务场景识别的语音数据处理方法及相关装置
CN108777804B (zh) 媒体播放方法及装置
CN104426915A (zh) 实现在线音乐分段下载的方法、服务器和系统
CN113392625B (zh) 确定标注信息的方法、装置、电子设备和存储介质
CN114969427A (zh) 歌单生成方法、装置、电子设备及存储介质
CN108205546B (zh) 一种歌曲信息的匹配系统及方法
CN111090769A (zh) 一种歌曲推荐的方法、装置、设备和计算机存储介质
CN113111230B (zh) 基于正则表达式的接处警文本户籍地地址提取方法和装置
CN111552850A (zh) 类型确定方法及装置、电子设备和计算机可读存储介质
CN111259181A (zh) 用于展示信息、提供信息的方法和设备
CN105574038A (zh) 基于反识别渲染的文本内容识别率测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination