CN111814822B - 一种敏感图片检测方法、装置及电子设备 - Google Patents

一种敏感图片检测方法、装置及电子设备 Download PDF

Info

Publication number
CN111814822B
CN111814822B CN202010453484.0A CN202010453484A CN111814822B CN 111814822 B CN111814822 B CN 111814822B CN 202010453484 A CN202010453484 A CN 202010453484A CN 111814822 B CN111814822 B CN 111814822B
Authority
CN
China
Prior art keywords
picture
sensitive
semantic
image
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010453484.0A
Other languages
English (en)
Other versions
CN111814822A (zh
Inventor
游福成
赵帅
王少梅
孙德志
陈京京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Graphic Communication
Original Assignee
Beijing Institute of Graphic Communication
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Graphic Communication filed Critical Beijing Institute of Graphic Communication
Priority to CN202010453484.0A priority Critical patent/CN111814822B/zh
Publication of CN111814822A publication Critical patent/CN111814822A/zh
Application granted granted Critical
Publication of CN111814822B publication Critical patent/CN111814822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种敏感图片检测方法、装置及电子设备,对敏感图片检测时具有检测速度快、效率高和误检漏检率低的优点。所述方法包括:获取网络图片数据与网络敏感词,构建图片数据集与动态敏感词库;根据所述图片数据集构建并训练优化图片语义描述模型;利用优化后的图片语义描述模型对待测目标图片进行处理,确定图像语义信息;根据动态敏感词库对所述图像语义信息进行敏感信息检测,对所述待测目标图片进行检测过滤。所述敏感图片检测装置,包括:数据准备模块、模型构建模块、图片处理模块及敏感过滤模块。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行并执行所述敏感图片检测方法的程序。

Description

一种敏感图片检测方法、装置及电子设备
技术领域
本说明书一个或多个实施例涉及网络信息安全技术领域,尤其涉及一种敏感图片检测方法、装置及电子设备。
背景技术
随着互联网信息技术的迅速发展,网络媒体已经成为人们工作生活中重要的信息传播途径和交流平台,但是由于网络信息传播速度快、影响范围广,一旦敏感信息通过网络途径传播,会产生较大的负面影响。在各种不同的网络信息传播方式中,以图片作为信息载体的传播方式占了非常大的比重,不法分子往往将敏感信息伪装成图片或将敏感信息影藏在图片中进行传播,这无疑会大大增加敏感信息的检测难度。
图片中隐藏敏感信息的方式繁多,图片中任意元素的位置、形式、组成等发生微小的变化,都会对敏感信息检测结果造成影响,并且图片中往往可能存在各种无意义的信息干扰项,也尝尝会对敏感信息结果造成误导。现有的对敏感图片的检测方法,很大程度上还是依赖于人工检测或简单的计算机分类检测,这种检测方式普遍存在检测速率低、效率差、误检率高的问题。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种敏感图片检测方法、装置、电子设备及存储介质,以解决现有检测方法中存在的检测速度低、效率差、误检率高和漏检率高的问题。
基于上述目的,本说明书一个或多个实施例提供了一种敏感图片检测方法,包括:
获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤。
可选的,所述构建动态敏感词库,包括:
采集当前网络中的敏感词数据,将所述敏感词数据录入所述动态敏感词库,所述敏感词数据包括敏感词以及相应的敏感因子;
设定更新周期,按照所述更新周期对所述动态敏感词库进行增量更新。
可选的,所述按照所述更新周期对所述动态敏感词库进行增量更新,包括:
在每次更新时,获取更新时刻下网络中的敏感词数据;
将更新时刻下网络中的敏感词数据与所述动态敏感词库中的敏感词数据进行比对;
根据比对结果,采用确定有穷自动机算法,确定更新前的初态数据与更新后的终态数据,并确定所述终态数据与所述初态数据间的连接关系;
根据所述连接关系将所述终态数据录入所述动态敏感词库。
可选的,所述构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:
所述图片语义描述模型包括编码模块与解码模块;
所述编码模块采用深度卷积神经网络结构,用于接收输入图像,提取所述输入图像的图像特征,并将所述图像特征发送至所述解码模块;
所述解码模块采用长短期记忆神经网络结构,用于接收所述编码模块提取到的所述图像特征,并对所述图像特征进行解码翻译,确定与所述输入图像对应的输出语义;
利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:
将所述图片数据集中的图像作为输入图像输入所述图片语义描述模型,并将所述图像相应的图像描述与所述图片语义描述模型的输出语义进行对比;
根据对比结果对所述图片语义描述模型的网络学习参数进行调整,直至所述图片语义描述模型的输出语义满足描述标准。
可选的,所述利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息,包括:
将所述待测目标图片输入优化后的所述图片语义描述模型,经所述图片语义描述模型处理后,所述图片语义描述模型的输出结果进行去冗余操作,确定初始语义信息;
采用基于词典的词频分词技术对所述初始语义信息进行分词处理,得到用以组成所述初始语义信息的多个语义分词;
所述图像语义信息包括所述初始语义信息与所述语义分词。
可选的,所述根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,包括:
根据所述动态敏感词库构建敏感词前缀树;
采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个所述语义分词与所述敏感词前缀树进行匹配;
根据匹配结果计算确定所述待测目标图片的敏感度值。
可选的,所述采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个所述语义分词与所述敏感词前缀树进行匹配,包括:
设置根节点标记指针tempNode、字符标记指针position与起始字符指针begin,初始状态下,所述根节点标记指针tempNode指向所述敏感词前缀树的根节点,所述字符标记指针position与起始字符指针begin均指向所述语义分词的字符串的首字符;
将所述字符标记指针position所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行对比匹配,若匹配失败,则说明所述字符标记指针position所指字符不可能构成敏感词,所述字符标记指针position与起始字符指针begin均后移指向下一个字符,所述根节点标记指针tempNode回溯指向所述敏感词前缀树的根节点;
所述字符标记指针position不断后移,每次后移之后均将其所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行匹配,匹配成功后所述根节点标记指针tempNode指向匹配成功的所述子节点,直至所述根节点标记指针tempNode指向终端节点,则说明所述语义分词构成敏感词。
可选的,所述根据匹配结果计算确定所述待测目标图片的敏感度值,包括:
所述敏感度值:
其中,F表示所述待测目标图片的敏感度值,n表示所述图片语义信息的多个所述语义分词中包含敏感词的语义分词的个数,fi表示包含敏感词的第i个语义分词相应敏感词的词频因子,topi表示所述敏感词的主题因子,levi表示所述敏感词的敏感级别因子,δ,ω,σ分别表示词频调节参数、主题调节参数与敏感级别调节参数。
所述根据所述敏感度值对所述待测目标图片进行检测过滤,包括:
设定敏感阈值μ,将所述待测目标图片的所述敏感度值F与所述敏感阈值μ进行比较;
若F≥μ,则所述待测目标图片为敏感图片,对所述待测目标图片进行屏蔽;
若F<μ,则所述待测目标图片为常规图片,对所述待测目标图片进行正常显示。
基于上述目的,本说明书一个或多个实施例提供了一种敏感图片检测装置,包括:
数据准备模块,被配置为获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
模型构建模块,被配置为构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
图片处理模块,被配置为利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
敏感过滤模块,被配置为根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤。
基于上述目的,本说明书一个或多个实施例提供了一种敏感图片检测电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述敏感图片检测方法。
从上面所述可以看出,本说明书一个或多个实施例提供的敏感图片检测方法、装置及电子设备,针对包含信息元素种类繁多的图片,以大数据量的图片数据集为基础,通过深度学习模型对图片内容进行学习并准确地翻译转化为图像语义信息,以图像语义信息为依据进行敏感过滤检测,能够避免图片中纷繁复杂的信息细节因素对敏感判定结果造成不可预知的干扰和影响的问题,能够极大地提高对目标图片的敏感检测准确度,有效减少漏检的情况,并且采用这样的方式将图片中包含的信息提取凝练为文字信息,辅以动态敏感词库检测和敏感度值计算的方式,进一步保证敏感检测的速度与效率。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例所提供的一种敏感图片检测方法示意图;
图2为本说明书一个或多个实施例所提供的一种敏感图片检测方法中动态敏感词库更新的方法示意图;
图3为本说明书一个或多个实施例所提供的一种敏感图片检测方法中图片语义描述模型结构示意图;
图4为本说明书一个或多个实施例所提供的一种敏感图片检测方法中计算确定待测目标图片敏感度值的方法示意图;
图5为本说明书一个或多个实施意所提供的一种敏感图片检测装置结构示意图;
图6为本说明书的一个或多个实施例所提供的一种敏感图片检测电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在一方面,本发明提供了一种敏感图片检测方法。
如图1所示,本说明书的一个或多个实施例所提供的一种敏感图片检测方法,包括:
S1:获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
S2:构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
S3:利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
S4:根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤。
所述敏感图片检测方法,针对包含信息元素种类繁多的图片,以大数据量的图片数据集为基础,通过深度学习模型对图片内容进行学习并准确地翻译转化为图像语义信息,以图像语义信息为依据进行敏感过滤检测,能够避免图片中纷繁复杂的信息细节因素对敏感判定结果造成不可预知的干扰和影响的问题,能够极大地提高对目标图片的敏感检测准确度,有效减少漏检的情况,并且采用这样的方式将图片中包含的信息提取凝练为文字信息,辅以动态敏感词库检测和敏感度值计算的方式,进一步保证敏感检测的速度与效率。
在本说明书的一个或多个实施例所提供的一种敏感图片检测方法中,步骤S1中所述构建动态敏感词库,包括:
采集当前网络中的敏感词数据,将所述敏感词数据录入所述动态敏感词库,所述敏感词数据包括敏感词以及相应的敏感因子;
设定更新周期,按照所述更新周期对所述动态敏感词库进行增量更新。
在所述敏感图片检测方法中,将待测目标图片翻译转化为图像语义信息,构建动态敏感词库对图像语义信息进行敏感检测。敏感词存在的形式多种多样,并且会随着网络信息的不断发展而更新,因此在所述敏感图片检测方法中构建动态敏感词库,将敏感词的更新考虑在内,保证敏感词库中敏感词数据的实时性,从而能够避免因敏感词更新所导致的漏检情况出现。
并且,在采集敏感词数据的同时也确定与敏感词相对应的敏感因子,用于之后对待测目标图片的敏感度值计算,所述敏感因子包括所述敏感词相应的主题因子和敏感级别因子。这样在计算所述待测目标敏感度值时,将与敏感词所对应的可能对最终检测结果造成影响的主题因素和敏感等级因素也考虑在能,保证敏感度值计算结果更加准确,根据所述敏感度值对所述待测目标图片检测过滤的效果更优。
如图2所示,在本说明书的一个或多个实施例所提供的一种敏感图片检测方法中,所述按照所述更新周期对所述动态敏感词库进行增量更新,包括:
S101:在每次更新时,获取更新时刻下网络中的敏感词数据;
S102:将更新时刻下网络中的敏感词数据与所述动态敏感词库中的敏感词数据进行比对;
S103:根据比对结果,采用确定有穷自动机算法,确定更新前的初态数据与更新后的终态数据,并确定所述终态数据与所述初态数据间的连接关系;
S104:根据所述连接关系将所述终态数据录入所述动态敏感词库。
在所述敏感图片检测方法中,采用周期性更新动态敏感词库中敏感词数据的方法构建所述动态敏感词库,在更新时采用确定有穷自动机算法DFA进行增量更新的方式。所述确定有穷自动机算法(Deterministic Finite Automaton,DFA)确定一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,其中一个状态是初态,某些状态是终态。在所述敏感图片检测方法的动态敏感词库敏感词数据更新方法,其中的初态指的是更新前的动态敏感词库中所包含的敏感词数据即所述初态数据,其中的终态指的是更新之后的动态敏感词库中所包含的敏感词数据即所述终态数据,两者状态之间连接的边即二者间的连接关系,根据更新时刻对网络中敏感词数据与动态敏感词库中敏感词数据的对比结果即能够确定所述初态数据、所述终态数据与二者间的连接关系。采用所述确定有穷自动机算法在每次对敏感词数据进行更新时都初态数据与终态数据,从而能够做到对敏感词数据的更新,并且不依赖于更新前所述动态敏感词库中的数据信息,能够实现更加高效的更新敏感词数据的目的。动态敏感词库中敏感词数据的快速高效更新又能进一步的提高所述敏感图片检测方法的整体执行速率。
如图3所示,在本说明书的一个或多个实施例所提供的一种敏感图片检测方法中,所述构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:
所述图片语义描述模型采用Seq2Seq结构,包括编码模块201与解码模块202;
所述编码模块201采用深度卷积神经网络结构DCNN,用于接收输入图像,提取所述输入图像的图像特征,并将所述图像特征发送至所述解码模块202,所述编码模块201采用所述深度卷积神经网络对所述输入图像进行图像特征提取,能够更好的抽取输入图像的高层抽象语义向量,所述高层抽象语义向量用以表征所述图像特征;
所述解码模块202采用长短期记忆神经网络结构LSTM,用于接收所述编码模块提取到的所述图像特征,并对所述图像特征进行解码翻译,确定与所述输入图像对应的输出语义,所述解码模块202采用长短期记忆神经网络对接收到的语义向量进行转换从而实现对输入图像的内容描述;
利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:
将所述图片数据集中的图像作为输入图像输入所述图片语义描述模型,并将所述图像相应的图像描述与所述图片语义描述模型的输出语义进行对比;
根据对比结果对所述图片语义描述模型的网络学习参数进行调整,直至所述图片语义描述模型的输出语义满足描述标准。
在所述敏感图片检测方法中,根据所述输入图像相应的图像描述与所述图片语义描述模型的输出语义的对比结果对所述网络学习参数进行调整,在这一步骤中,可以采用损失函数表征对比结果,例如采用绝对值损失函数、Log损失函数、平方损失函数等以及指数损失函数等,并设定损失函数标准值,当所述损失函数值小于所述损失函数标准值时则说明所述图片语义描述模型能够对输入图像的内容作出准确描述。
对所述图片语义描述模型进行训练优化时,根据输入图像相应的图像描述和所述图片语义描述模型的输出语义对比结果,对所述网络学习参数进行调整,所述网络学习参数包括所述深度卷积神经网络结构的神经网络通道数、卷积核大小参数、卷积步长以及所述长短期记忆神经网络结构的激活函数、偏置参数等。
在所述敏感图片检测方法中,对所述图片语义描述模型的训练优化操作也是不断保持的,随着网络信息的不断发展和更新,网络中会不断出现新的敏感词,相应的也会不断出现新的敏感图片,因此对所述图片语义描述模型持续不断的训练优化操作也是有需要的,具体的,周期性地添加新的图像和相应的图像描述对所述图片语义描述模型进行训练,对所述网络学习参数也不断地进行调整修改,保证模型始终能够针对图片作出准确合适的描述,采用在这样的方式能够始终确保检测更加全面,检测结果更加准确,能够有效避免漏检情况的出现。
在本说明书的一个或多个可选实施例所提供的一种敏感图片检测方法中,所述利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息S3,包括:
将所述待测目标图片输入优化后的所述图片语义描述模型,经所述图片语义描述模型处理后,所述图片语义描述模型的输出结果进行去冗余操作,确定初始语义信息;
采用基于词典的词频分词技术对所述初始语义信息进行分词处理,得到用以组成所述初始语义信息的多个语义分词;
所述图像语义信息包括所述初始语义信息与所述语义分词。
在所述敏感图片检测方法中,利用优化后的所述图片语义描述模型对所述待测目标图片进行处理,将所述待测目标图片的图片内容翻译转化为图像语义信息,从而便于对其进行敏感检测,在这一过程中对于所述图片语义描述模型的直接输出结果进行去冗余操作,即对直接输出结果中的无意义数据进行清洗。所述直接输出结果中的无意义数据可以包括无特殊含义的数字、字符、语气助词等,例如“吧”、“嗯”、“*&&”等。对于待测目标图片而言,其中可能存在为影响敏感检测结果而人为添加的干扰元素,这就使得所述待测目标图片经所述图片语义描述模型处理后存在一些无意义数据,所述敏感图片检测方法中还对所述图片语义描述模型的直接输出结果进行去冗余操作,能够进一步得排除所述待测目标图片中无关信息所造成的干扰。
与所述待测目标图片相对应的所述初始语义信息大多为长句的形式,在以其为依据进行敏感检测时,考虑到网络敏感词的数据结构,所述敏感图片检测方法对所述初始语义信息进行分词处理,且在分词处理时采用基于词典的词频分词技术,其中所采用的词典包含有所述动态敏感词库中的敏感词数据,依次词典为依据对所述初始语义信息进行分词操作,能够避免分词错误而破坏敏感信息,提高分词结果的准确性,再根据所述语义分词进行敏感词匹配检测,能够能够有效避免漏检情况的出现。
如图4所示,在本说明书的一个或多个可选实施例所提供的一种敏感图片检测方法中,所述根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值S4,包括:
S401:根据所述动态敏感词库构建敏感词前缀树;
S402:采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个所述语义分词与所述敏感词前缀树进行匹配;
S403:根据匹配结果计算确定所述待测目标图片的敏感度值。
在所述敏感图片检测方法中,采用基于前缀树的敏感过滤算法对所述图像语义信息进行敏感信息检测,其中,根据所述动态敏感词库所构建的所述敏感期前缀树中,其根节点不包含字符,除根节点外每一个节点都只包含一个字符,从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的敏感词的字符串,且每个节点的所有子节点包含的字符都不相同。在面对大量待测文本和大量的敏感词的情况下,利用所述基于前缀树的敏感过滤算法进行处理,能够减少大量的数据重复匹配工作,降低计算的时间复杂度,从而提高检测效率。
在本说明书的一个或多个可选实施例所提供的一种敏感图片检测方法中,所述采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个所述语义分词与所述敏感词前缀树进行匹配S402,包括:
设置根节点标记指针tempNode、字符标记指针position与起始字符指针begin,初始状态下,所述根节点标记指针tempNode指向所述敏感词前缀树的根节点,所述字符标记指针position与起始字符指针begin均指向所述语义分词的字符串的首字符;
将所述字符标记指针position所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行对比匹配,若匹配失败,则说明所述字符标记指针position所指字符不可能构成敏感词,所述字符标记指针position与起始字符指针begin均后移指向下一个字符,所述根节点标记指针tempNode回溯指向所述敏感词前缀树的根节点;
所述字符标记指针position不断后移,每次后移之后均将其所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行匹配,匹配成功后所述根节点标记指针tempNode指向匹配成功的所述子节点,直至所述根节点标记指针tempNode指向终端节点,则说明所述语义分词构成敏感词。
在所述敏感图片检测方法中,采用基于前缀树的敏感过滤算法,设置根节点标记指针tempNode、字符标记指针position与起始字符指针begin进行对比匹配,这样利用字符串的公共前缀进行匹配查询能够减少查询时间,最大限度地减少无谓的字符串比较,从而提高查询对比的效率,加快敏感检测速度。
在本说明书的一个或多个可选实施例所提供的一种敏感图片检测方法中,所述根据匹配结果计算确定所述待测目标图片的敏感度值,包括:
所述敏感度值:
其中,F表示所述待测目标图片的敏感度值,n表示所述图片语义信息的多个所述语义分词中包含敏感词的语义分词的个数,fi表示包含敏感词的第i个语义分词相应敏感词的词频因子,topi表示所述敏感词的主题因子,levi表示所述敏感词的敏感级别因子,δ,ω,σ分别表示词频调节参数、主题调节参数与敏感级别调节参数。
所述敏感图片检测方法,根据所述待测目标图片的语义分词所对应敏感词所属的主题、敏感程度以及出现的频繁程度计算所述待测目标图片的整体敏感度值,对词频、主题和敏感级别这三个可能的影响因素进行综合考虑,使得用最终确定的敏感度值来表征所述待测目标图片的敏感程度更加准确恰当。
在确定所述敏感度之后,再所述根据所述敏感度值对所述待测目标图片进行检测过滤,包括:
设定敏感阈值μ,将所述待测目标图片的所述敏感度值F与所述敏感阈值μ进行比较;
若F≥μ,则所述待测目标图片为敏感图片,对所述待测目标图片进行屏蔽;
若F<μ,则所述待测目标图片为常规图片,对所述待测目标图片进行正常显示。
在另一方面,本发明还提供一种敏感图片检测装置。
如图5所示,基于上述任一实施例所述方法,本说明书的一个或多个可选实施例所提供的一种敏感图片检测装置,包括:
数据准备模块501,被配置为获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
模型构建模块502,被配置为构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
图片处理模块503,被配置为利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
敏感过滤模块504,被配置为根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
在另一方面,本发明还提供了一种敏感图片检测电子设备。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的敏感图片检测方法。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的敏感图片检测方法时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (7)

1.一种敏感图片检测方法,其特征在于,包括:
获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤;
其中,所述图片语义描述模型包括编码模块与解码模块;所述编码模块采用深度卷积神经网络结构,用于接收输入图像,提取所述输入图像的图像特征,并将所述图像特征发送至所述解码模块;所述解码模块采用长短期记忆神经网络结构,用于接收所述编码模块提取到的所述图像特征,并对所述图像特征进行解码翻译,确定与所述输入图像对应的输出语义;利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:将所述图片数据集中的图像作为输入图像输入所述图片语义描述模型,并将所述图像相应的图像描述与所述图片语义描述模型的输出语义进行对比;根据对比结果对所述图片语义描述模型的网络学习参数进行调整,直至所述图片语义描述模型的输出语义满足描述标准;
其中,所述根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,包括:根据所述动态敏感词库构建敏感词前缀树;采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个语义分词与所述敏感词前缀树进行匹配;根据匹配结果计算确定所述待测目标图片的敏感度值;
所述敏感度值:
其中,F表示所述待测目标图片的敏感度值,n表示所述图片语义信息的多个所述语义分词中包含敏感词的语义分词的个数,fi表示包含敏感词的第i个语义分词相应敏感词的词频因子,topi表示所述敏感词的主题因子,levi表示所述敏感词的敏感级别因子,δ,ω,σ分别表示词频调节参数、主题调节参数与敏感级别调节参数;
所述根据所述敏感度值对所述待测目标图片进行检测过滤,包括:
设定敏感阈值μ,将所述待测目标图片的所述敏感度值F与所述敏感阈值μ进行比较;
若F≥μ,则所述待测目标图片为敏感图片,对所述待测目标图片进行屏蔽;
若F<,则所述待测目标图片为常规图片,对所述待测目标图片进行正常显示。
2.根据权利要求1所述的方法,其特征在于,构建动态敏感词库,包括:
采集当前网络中的敏感词数据,将所述敏感词数据录入所述动态敏感词库,所述敏感词数据包括敏感词以及相应的敏感因子;
设定更新周期,按照所述更新周期对所述动态敏感词库进行增量更新。
3.根据权利要求2所述的方法,其特征在于,所述按照所述更新周期对所述动态敏感词库进行增量更新,包括:
在每次更新时,获取更新时刻下网络中的敏感词数据;
将更新时刻下网络中的敏感词数据与所述动态敏感词库中的敏感词数据进行比对;
根据比对结果,采用确定有穷自动机算法,确定更新前的初态数据与更新后的终态数据,并确定所述终态数据与所述初态数据间的连接关系;
根据所述连接关系将所述终态数据录入所述动态敏感词库。
4.根据权利要求1所述的方法,其特征在于,所述利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息,包括:
将所述待测目标图片输入优化后的所述图片语义描述模型,经所述图片语义描述模型处理后,所述图片语义描述模型的输出结果进行去冗余操作,确定初始语义信息;
采用基于词典的词频分词技术对所述初始语义信息进行分词处理,得到用以组成所述初始语义信息的多个语义分词;
所述图像语义信息包括所述初始语义信息与所述语义分词。
5.根据权利要求1所述的方法,其特征在于,所述采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个所述语义分词与所述敏感词前缀树进行匹配,包括:
设置根节点标记指针tempNode、字符标记指针position与起始字符指针begin,初始状态下,所述根节点标记指针tempNode指向所述敏感词前缀树的根节点,所述字符标记指针position与起始字符指针begin均指向所述语义分词的字符串的首字符;
将所述字符标记指针position所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行对比匹配,若匹配失败,则说明所述字符标记指针position所指字符不可能构成敏感词,所述字符标记指针position与起始字符指针begin均后移指向下一个字符,所述根节点标记指针tempNode回溯指向所述敏感词前缀树的根节点;
所述字符标记指针position不断后移,每次后移之后均将其所指字符与所述根节点标记指针tempNode所指节点的所有子节点进行匹配,匹配成功后所述根节点标记指针tempNode指向匹配成功的所述子节点,直至所述根节点标记指针tempNode指向终端节点,则说明所述语义分词构成敏感词。
6.一种敏感图片检测装置,其特征在于,包括:
数据准备模块,被配置为获取网络图片数据与网络敏感词,分别构建图片数据集与动态敏感词库,所述图片数据包括图像以及相应的图像描述;
模型构建模块,被配置为构建图片语义描述模型,并利用所述图片数据集对所述图片语义描述模型进行训练优化;
图片处理模块,被配置为利用优化后的所述图片语义描述模型对待测目标图片进行处理,确定所述待测目标图片相应的图像语义信息;
敏感过滤模块,被配置为根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,根据所述敏感度值对所述待测目标图片进行检测过滤;
其中,所述图片语义描述模型包括编码模块与解码模块;所述编码模块采用深度卷积神经网络结构,用于接收输入图像,提取所述输入图像的图像特征,并将所述图像特征发送至所述解码模块;所述解码模块采用长短期记忆神经网络结构,用于接收所述编码模块提取到的所述图像特征,并对所述图像特征进行解码翻译,确定与所述输入图像对应的输出语义;利用所述图片数据集对所述图片语义描述模型进行训练优化,包括:将所述图片数据集中的图像作为输入图像输入所述图片语义描述模型,并将所述图像相应的图像描述与所述图片语义描述模型的输出语义进行对比;根据对比结果对所述图片语义描述模型的网络学习参数进行调整,直至所述图片语义描述模型的输出语义满足描述标准;
其中,所述根据动态敏感词库对所述图像语义信息进行敏感信息检测,确定所述待测目标图片的敏感度值,包括:根据所述动态敏感词库构建敏感词前缀树;采用基于前缀树的敏感过滤算法,将所述图像语义信息的多个语义分词与所述敏感词前缀树进行匹配;根据匹配结果计算确定所述待测目标图片的敏感度值;
所述敏感度值:
其中,F表示所述待测目标图片的敏感度值,n表示所述图片语义信息的多个所述语义分词中包含敏感词的语义分词的个数,fi表示包含敏感词的第i个语义分词相应敏感词的词频因子,topi表示所述敏感词的主题因子,levi表示所述敏感词的敏感级别因子,δ,ω,σ分别表示词频调节参数、主题调节参数与敏感级别调节参数;
所述根据所述敏感度值对所述待测目标图片进行检测过滤,包括:
设定敏感阈值μ,将所述待测目标图片的所述敏感度值F与所述敏感阈值μ进行比较;
若F≥μ,则所述待测目标图片为敏感图片,对所述待测目标图片进行屏蔽;
若F<,则所述待测目标图片为常规图片,对所述待测目标图片进行正常显示。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。
CN202010453484.0A 2020-05-25 2020-05-25 一种敏感图片检测方法、装置及电子设备 Active CN111814822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010453484.0A CN111814822B (zh) 2020-05-25 2020-05-25 一种敏感图片检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010453484.0A CN111814822B (zh) 2020-05-25 2020-05-25 一种敏感图片检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111814822A CN111814822A (zh) 2020-10-23
CN111814822B true CN111814822B (zh) 2023-07-28

Family

ID=72848518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010453484.0A Active CN111814822B (zh) 2020-05-25 2020-05-25 一种敏感图片检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111814822B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417103A (zh) * 2020-12-02 2021-02-26 百度国际科技(深圳)有限公司 用于检测敏感词的方法、装置、设备和存储介质
CN113313693B (zh) * 2021-06-04 2023-07-18 北博(厦门)智能科技有限公司 一种基于神经网络算法的图片违规检测方法与终端
CN113627174A (zh) * 2021-08-17 2021-11-09 深圳供电局有限公司 一种基于企业历史数字化的敏感信息监控方法及系统
CN114881615A (zh) * 2022-06-06 2022-08-09 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛数据交互的方法、设备
CN115238044A (zh) * 2022-09-21 2022-10-25 广州市千钧网络科技有限公司 一种敏感词检测方法、装置、设备及可读存储介质
CN117390657A (zh) * 2023-12-12 2024-01-12 深圳竹云科技股份有限公司 数据加密方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807986A (zh) * 2017-10-31 2018-03-16 中南大学 一种描述地物空间关系语义的遥感影像智能理解的方法
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110119455A (zh) * 2019-04-23 2019-08-13 西安理工大学 一种基于卷积深度置信网络的图像分类检索方法
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891908B2 (en) * 2012-11-14 2014-11-18 Nec Laboratories America, Inc. Semantic-aware co-indexing for near-duplicate image retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807986A (zh) * 2017-10-31 2018-03-16 中南大学 一种描述地物空间关系语义的遥感影像智能理解的方法
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110119455A (zh) * 2019-04-23 2019-08-13 西安理工大学 一种基于卷积深度置信网络的图像分类检索方法
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning the semantics of words and pictures;K. Barnard等;《Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001》;2;408-415 *
SIMPLIcity: semantics-sensitive integrated matching for picture libraries;J.Z. Wang等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;第23卷(第9期);947-963 *
一种面向网络安全的图像文字敏感词过滤方法;刘伟等;《西安邮电学院学报》;第23卷(第4期);89-93 *

Also Published As

Publication number Publication date
CN111814822A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111814822B (zh) 一种敏感图片检测方法、装置及电子设备
CN111508480B (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN108959474B (zh) 实体关系提取方法
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
US11651014B2 (en) Source code retrieval
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113988061A (zh) 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN112784582A (zh) 纠错方法、装置和计算设备
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN114861635A (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN114639096A (zh) 文本识别方法、装置、电子设备和存储介质
CN113139043B (zh) 问答样本生成方法、装置、电子设备和存储介质
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN113177406B (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN115393867A (zh) 文本识别模型生成方法、文本识别方法、设备及存储介质
CN115718830A (zh) 训练信息抽取模型的方法、信息抽取方法及对应装置
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN115080748A (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant