CN112463319A - 内容检测模型的生成方法和装置、电子设备及存储介质 - Google Patents

内容检测模型的生成方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112463319A
CN112463319A CN202011285967.0A CN202011285967A CN112463319A CN 112463319 A CN112463319 A CN 112463319A CN 202011285967 A CN202011285967 A CN 202011285967A CN 112463319 A CN112463319 A CN 112463319A
Authority
CN
China
Prior art keywords
content
detection model
content detection
category
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011285967.0A
Other languages
English (en)
Inventor
张永鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202011285967.0A priority Critical patent/CN112463319A/zh
Publication of CN112463319A publication Critical patent/CN112463319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及内容检测模型的生成方法和装置、电子设备及存储介质。该方法包括:接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务;按照所述执行逻辑关系将多个识别任务编排成内容检测模型。本公开实施例可以自动灵活地设置内容检测模型。

Description

内容检测模型的生成方法和装置、电子设备及存储介质
技术领域
本公开涉及信息处理领域,更具体地,涉及内容检测模型的生成方法和装置、电子设备及存储介质。
背景技术
随着网络信息技术的高速发展,网络上充斥着各种内容。为避免不符合法律法规的不良内容或敏感内容在网络上传播,各个网站以及国家网络监管部门都会进行一些审查。借助于内容检测模型可以自动对内容进行预测分类,给内容打上类别标签,帮助加快审查过程。目前,无法实现对内容检测模型灵活设置,不便于为不同用户提供不同的内容分类服务。有必要提供一种内容检测模型的生成方案,可以自动灵活地设置内容检测模型。
发明内容
本公开的一个目的是提供一种新的内容检测模型的生成方法和装置、电子设备及存储介质。
根据本公开的第一方面,提供了一种内容检测模型的生成方法,包括:
接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务;
按照所述执行逻辑关系将多个识别任务编排成内容检测模型。
可选地,在接收用户在配置界面上配置的识别策略之前,所述方法还包括:
获取内容检测需求,所述内容检测需求包括内容载体属性和多个待检测类别;
根据所述内容载体属性和多个所述待检测类别从模型库中选取多个识别模型,为多个所述识别模型创建调用接口以创建多个所述识别任务。
可选地,所述按照所述执行逻辑关系将多个识别任务编排成内容检测模型,包括:
将每个所述识别任务作为最小可执行单元,控制任务调度引擎按照所述执行逻辑关系加载所述识别任务以得到所述内容检测模型。
可选地,所述内容检测需求还包括与所述待检测类别有关的精确率要求;
在按照所述执行逻辑关系将多个识别任务编排成内容检测模型之后,所述方法还包括:
将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签;
根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的精确率;
在所述内容检测模型在所述待检测类别上的精确率没有达到所述精确率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数以达到所述精确率要求。
可选地,所述内容检测需求还包括与所述待检测类别有关的召回率要求;
在按照所述执行逻辑关系将多个识别任务编排成内容检测模型之后,所述方法还包括:
将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签;
根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的召回率;
在所述内容检测模型在所述待检测类别上的召回率没有达到所述召回率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数,或者调整所述内容检测模型中与所述待检测类别有关的多个类别标签之间的映射关系,以达到所述召回率要求。
可选地,所述方法还包括:
在所述内容检测模型之前增加第一过滤模型;
所述第一过滤模型用于接收目标内容,检测所述内容检测模型是否已经预测过所述目标内容的类别;如果是,输出所述内容检测模型已经预测出的所述目标内容的类别标签;如果否,将所述目标内容输入至所述内容检测模型进行预测。
可选地,所述方法还包括:
在所述内容检测模型之前增加第二过滤模型;
所述第二过滤模型用于接收目标内容和目标内容的发布者的信息,检测所述目标内容的发布者是否在过滤名单内;如果所述目标内容的发布者不在过滤名单内,将所述目标内容输入至所述内容检测模型进行预测。
根据本公开的第二方面,提供了一种内容检测模型的生成装置,包括:
接收模块,用于接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务;
生成模块,用于按照所述执行逻辑关系将多个识别任务编排成内容检测模型。
根据本公开的第三方面,提供了一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于在所述可执行指令的控制下,实现本公开第一方面描述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本公开第一方面描述的方法。
本公开实施例的内容检测模型的生成方法和装置、电子设备及存储介质,首先向用户提供配置界面,使得用户可以在配置界面上自行配置识别策略,具体来说,用户可以将内容检测过程划分成多个识别阶段并且为每个识别阶段配置识别任务以及设置不同识别阶段之间的执行逻辑关系,在用户配置完成后,按照执行逻辑关系利用现有的识别模型编排出内容检测模型。基于这种生成内容检测模型的方式,使得用户可以根据其自身的个性化检测需求自动灵活地设置内容检测模型,当用户的需求改变时,只需要重新配置识别策略就可以生成新的内容检测模型,不需要从头开始开发内容检测模型,加快了内容检测模型的生成速度。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1是可用于实现本公开实施例的电子设备的示意图;
图2是本公开实施例的内容检测模型的生成方法的流程图;
图3示出了一种内容检测模型的示例图;
图4示出了另一种内容检测模型的示例图;
图5示出了一个内容检测模型的生成装置的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1示出了可用于实现本公开的实施例的电子设备的硬件配置。
参见图1,电子设备1000包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500和输入装置1600。处理器1100例如可以是中央处理器CPU、微控制单元MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口等。通信装置1400例如是有线网卡或无线网卡。显示装置1500例如是液晶显示屏。输入装置1600例如包括触摸屏、键盘、鼠标、麦克风等。
应用于本说明书的实施例中,电子设备1000的存储器1200用于存储指令,该指令用于控制处理器1100进行操作以支持实现根据本说明书任意实施例的方法。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
图1所示的硬件配置仅是解释性的,并且决不是为了要限制本公开、其应用或用途。
<方法实施例>
本实施例提供了一种内容检测模型的生成方法,该方法可以例如由图1所示的电子设备1000实施。
参见图2所示,该内容检测模型的生成方法,包括步骤S200-S300。
S200、接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务。
执行逻辑关系用于定义各识别阶段之间的执行逻辑。不同识别阶段之间的执行逻辑可以是条件关系,例如,在第一识别阶段的识别结果为预设识别结果的情况下,执行第二识别阶段,否则跳过第二识别阶段执行第三识别阶段。不同识别阶段之间的执行逻辑可以是顺序关系,例如,在第二识别阶段执行结束之后,开始执行第三识别阶段。
在一个例子中,一个识别阶段可能对应一个或者多个识别任务。如果一个识别阶段对应多个识别任务,这些识别任务之间为并行执行顺序。
S300、按照执行逻辑关系将多个识别任务编排成内容检测模型。
在一个例子中,将每个识别任务作为最小可执行单元,控制任务调度引擎按照执行逻辑关系加载识别任务以得到内容检测模型。
在一个例子中,任务调度引擎可以是pipeline引擎。pipeline引擎是一种支持多种自动化模式的自动化引擎,包括一整套自动化工具,支持从简单的连续集成到全面的连续输送Pipeline的用例。
本公开实施例的内容检测模型的生成方法,首先向用户提供配置界面,使得用户可以在配置界面上自行配置识别策略,具体来说,用户可以将内容检测过程划分成多个识别阶段并且为每个识别阶段配置识别任务以及设置不同识别阶段之间的执行逻辑关系,在用户配置完成后,按照执行逻辑关系利用现有的识别模型编排出内容检测模型。基于这种生成内容检测模型的方式,使得用户可以根据其自身的个性化检测需求自动灵活地设置内容检测模型,当用户的需求改变时,只需要重新配置识别策略就可以生成新的内容检测模型,不需要从头开始开发内容检测模型,加快了内容检测模型的生成速度。
在一个例子中,在步骤S200之前,也就是在接收用户在配置界面上配置的识别策略之前,所述方法还包括步骤S102-S104。
S102、获取内容检测需求,所述内容检测需求包括内容载体属性和多个待检测类别。
内容载体是指内容的表现形式,例如,一个内容的载体可以图片、文本、图文混合。一个内容的内容载体属性可以图片属性、文本属性、图文属性等。图片属性是指内容为纯图片,文本属性是指内容为纯文本,图文属性是指内容为图片和文本的混合。
待检测类别表明需要对目标内容进行检测的类别,例如,一种待检测类别是检测识别目标内容是否为色情内容类别,一种待检测类别是检测识别目标内容是否为暴力内容类别,一种待检测类别是检测识别目标内容是否为某种敏感内容类别。
S104、根据内容载体属性和多个待检测类别从模型库中选取多个识别模型。
在一个例子中,模型库中有多个训练好的识别模型,每个识别模型有对应的识别能力。该模型库可以包括图片识别模型库和文本识别模型库。图片识别模型库中的识别模型的检测对象是图片,用于对图片内容进行识别、分类。文本模型库中的识别模型的检测对象是文本,用于对文本内容进行识别、分类。
例如,图片识别模型库中的识别模型包括:人脸识别模型、人脸对比模型、人体识别模型、第一多标签分类模型、第二分类模型、第三分类模型等针对图片内容进行识别的模型。人脸识别模型,用于识别图片中是否有人脸以及把人脸部分提取出来。人体识别模型,用于识别图片中是否有人体以及把人体部分提取出来。人脸对比模型,用于对比图片中的人脸和特定人脸是否为同一个人脸。第一多标签分类模型,用于对图片中的人体的裸露程度进行检测,以将图片划分为正常、低俗、暴露、淫秽。第二分类模型,用于识别图片中是否包含国旗。第三分类模型用于识别图片中是否包含国徽。
例如,文本识别模型库中包括敏感词识别模型、第一语义分析模型、第二语义分析模型等针对文本内容进行识别的模型。敏感词识别模型,用于分析文本中是否含有敏感词或者敏感词的近似变形词。第一语义分析模型,用于分析文本中是否含有色情内容。第二语义分析模型,用于分析文本中是否含有暴力内容。
该模型库中还包括图片提取模型和文本提取模型,图片提取模型用于从目标内容中提取出图片部分,文本提取模型用于从目标内容中提取出文本部分。
模型库中的各个识别模型都具有功能标签以标注该识别模型的作用,并且识别模型之间可能存在依赖关系。例如,人脸对比模型需要调用人脸识别模型把图片中的人脸识别出来,再由人脸对比模型将识别出的人脸与特定人脸进行对比。
文本识别模型库中的各个识别模型都具有功能标签以标注该识别模型的作用,并且识别模型之间可能存在依赖关系。例如,第一语义分析模型需要调用敏感词识别模型需要识别文本中是否含有特定的敏感词,在文本中存在特定敏感词的情况下再对文本进行语义分析以识别文本是否含有色情内容。
根据检测需求中的内容载体属性和待检测类别从模型库中选取识别模型,首先选取出检测对象与内容载体属性适配并且功能标签与待检测类别适配的识别模型,当该识别模型需要调用其他识别模型时,即依赖于其它识别模型的识别结果时,将其所依赖的识别模型也一并选出。
例如,检测需求中的内容载体属性为图片属性,与该内容载体属性适配的检测对象为图片,待检测类别是检测目标内容中是否含有色情内容,则需要选取第一多标签分类模型。第一多标签分类模型依赖于人体识别模型,在图片中含有人体的情况下,对人体识别模型识别出的人体进行人裸露程度检测,因此还选取人体识别模型。
例如,检测需求中的内容载体属性为文本属性,与该内容载体属性适配的检测对象为文本,待检测类别是检测目标内容中的是否含有色情内容,则需要选取第一语义分析模型。第一语义分析模型依赖于敏感词识别模型,在敏感词识别模型分析出文本中存在与色情内容有关的特定敏感词或者存在该特定敏感词的近似变形词的情况下,第一语义分析模型利用敏感词识别模型对于文本的具体识别结果对文本进行语义分析,确定文本中是否含有色情内容。
例如,检测需求中的内容载体属性为图文属性,与该内容载体属性适配的检测对象包括图片和文本,则选取检测对象是图片并且功能标签与待检测类别适配的识别模型,以及检测对象是文本并且功能标签与待检测类别适配的识别模型。
S106、为多个识别模型创建调用接口以创建多个识别任务。
通过为选取出的识别模型调用接口,可以创建能够调用该识别模型的识别任务。
本公开实施例提供的内容检测模型的生成方法,可以根据用户的检测需求,从模型库中选择合适的识别模型来创建识别任务,将识别任务作为最小可执行单元来编排内容检测模型,可以更灵活的设置符合用户需求的内容检测模型。
在一个例子中,参见图3所示,识别策略包括识别阶段101和识别阶段102。识别阶段101对应于一个识别任务,该识别任务是基于第一识别模型创建的识别任务。识别阶段102对应有两个识别任务,这两个识别任务之间为并行执行关系,其中一个识别任务是基于第二识别模型创建的识别任务,另一个识别任务是基于第三识别模型创建的识别任务。识别阶段101和识别阶段102之间的执行逻辑关系为顺序执行,即执行识别阶段101的识别任务以后再执行识别阶段102的识别任务。识别阶段101的识别任务和识别阶段102的识别任务可以各自输出检测结果,也可以合并检测结果以后一并输出。
在一个例子中,参见图4所示,识别策略包括识别阶段201、识别阶段202以及识别阶段203。识别阶段201对应于一个识别任务,该识别任务是基于人脸检测模型的识别任务。识别阶段202对应于一个识别任务,该识别任务是基于人脸对比模型的识别任务。识别阶段203对应于一个识别任务,该识别任务是基于第四识别模型的识别任务。识别阶段之间的执行逻辑关系为:先执行识别阶段201的识别任务,在识别阶段201的识别任务的执行结果为“是”的情况下(即人脸检测模型检测出目标内容中含有人脸的情况下),执行识别阶段202的识别任务(即调用人脸对比模型进行人脸对比),在识别阶段201的识别任务的执行结果为“否”的情况下(即人脸检测模型检测出目标内容中不含有人脸的情况下),执行识别阶段203的识别任务(即调用第四识别模型进行检测)。在识别阶段202的识别任务的执行结果为“否”的情况下(即人脸对比模型进行人脸对比的结果为目标内容中不含有目标人脸的情况下),执行识别阶段203的识别任务(即调用第四识别模型进行检测)。在该例子中,如果发现目标内容中含有目标人脸,就可以得出目标内容违规的结论,进而对目标内容进行下架、删除处理,可以省去识别阶段203的执行过程,以节省计算资源。
在一个例子中,目标内容的内容载体属性为图文属性,在构建出的内容检测模型之前增加图片提取模型和文本提取模型,以从目标内容中提取出图片内容和文本内容,将图片内容和文本内容输入分别至内容检测模型中的对应的识别模型进行预测。
本公开实施例中,各个识别模型都是训练好的,在编排出内容检测模型后,不重新训练其中的识别模型,而是通过调整识别模型的分类阈值参数,使得同一个识别模型可以满足不同客户的需求。下面进行举例说明。
在一个例子中,所述检测需求还包括与待检测类别有关的精确率要求。为了满足该精确率要求,在步骤S300之后,所述方法还包括步骤S501-S503:
S501、将样本内容输入至内容检测模型,以通过内容检测模型预测出样本内容的类别标签。
该样本内容可以是用户提供的内容,该真实类别标签可以是由用户通过人工识别分类为该样本内容打上的类别标签。
S502、根据样本内容的真实类别标签和内容检测模型预测出的样本内容的类别标签,确定内容检测模型在待检测类别上的精确率。
S503、在内容检测模型在待检测类别上的精确率没有达到精确率要求的情况下,调整内容检测模型中与待检测类别有关的分类阈值参数以达到精确率要求。
精确率又称之为查准率,精确率=检索出的相关信息量/检索出的信息总量,即预测正确的样本占全部样本的比例。
在实际应用中,待检测类别上的精确率没有达到精确率要求时,可能需要通过多次调整参数才能够达到精确率要求。步骤S503中,调整内容检测模型中与待检测类别有关的分类阈值参数以达到精确率要求的过程可以包括步骤S5031-S5033。
S5031、调整内容检测模型中与待检测类别有关的分类阈值参数。然后执行步骤S5032。
S5032、将样本内容输入至内容检测模型,以通过内容检测模型预测出样本内容的类别标签。然后执行步骤S5033。
S5033、根据样本内容的真实类别标签和内容检测模型预测出的样本内容的类别标签,确定内容检测模型在待检测类别上的精确率。如果内容检测模型在待检测类别上的精确率没有达到精确率要求,返回执行步骤S5031。如果内容检测模型在待检测类别上的精确率达到了精确率要求,则结束调整过程。
也就是说,每一次调整与待检测类别有关的分类阈值参数后,再次利用调整参数后的内容检测模型对样本进行识别,并确定识别结果的精确率是否达到要求,如果没有达到需要再次调整与待检测类别有关的分类阈值参数,直至达到精确率要求。
通过调整分类阈值参数,可以影响模型的分类结果。例如,原来的分类阈值为0.7,当模型对内容的分析结果为大于等于0.7时,模型输出该内容中含有人脸的结论,当模型对内容的分析结果为小于0.7时,模型输出该内容中不含有人脸的结论。通过提高该分类阈值,可以提升模型输出含有人脸这一结论的准确率。
在一个例子中,所述检测需求还包括与待检测类别有关的召回率要求。为了满足该召回率要求,在步骤S300之后,所述方法还包括步骤S601-S603:
S601、将样本内容输入至内容检测模型,以通过内容检测模型预测出样本内容的类别标签。
该样本内容可以是用户提供的内容,该真实类别标签可以是由用户通过人工识别分类为该样本内容打上的类别标签。
S602、根据样本内容的真实类别标签和内容检测模型预测出的样本内容的类别标签,确定内容检测模型在待检测类别上的召回率。
S603、在内容检测模型在待检测类别上的召回率没有达到召回率要求的情况下,调整内容检测模型中与待检测类别有关的分类阈值参数以达到召回率要求。
召回率称之为查全率,召回率=检索出的相关信息量/系统中的相关信息总量,用于表征模型找到数据集中所有感兴趣的数据点的能力。
在实际应用中,待检测类别上的召回率没有达到召回率要求时,可能需要通过多次调整参数才能够达到召回率要求。步骤S603中,调整内容检测模型中与待检测类别有关的分类阈值参数以达到召回率要求的过程可以包括步骤S6031-S6033。
S6031、调整内容检测模型中与待检测类别有关的分类阈值参数。然后执行步骤S6032。
S6032、将样本内容输入至内容检测模型,以通过内容检测模型预测出样本内容的类别标签。然后执行步骤S6033。
S6033、根据样本内容的真实类别标签和内容检测模型预测出的样本内容的类别标签,确定内容检测模型在待检测类别上的召回率。如果内容检测模型在待检测类别上的召回率没有达到召回率要求,返回执行步骤S6031。如果内容检测模型在待检测类别上的召回率达到了召回率要求,则结束调整过程。
也就是说,每一次调整与待检测类别有关的分类阈值参数后,再次利用调整参数后的内容检测模型对样本进行识别,并确定识别结果的召回率是否达到要求,如果没有达到需要再次调整与待检测类别有关的分类阈值参数,直至达到召回率要求。
通过调整分类阈值参数,可以影响模型的分类结果。例如,原来的分类阈值为0.7,当模型对内容的分析结果为大于等于0.7时,模型输出该内容中含有人脸的结论,当模型对内容的分析结果为小于0.7时,模型输出该内容中不含有人脸的结论。通过降低该分类阈值,可以保证模型更少遗漏掉含有人脸的内容。
本公开实施例中,各个识别模型都是训练好的,在组合出内容检测模型后,不重新训练其中的识别模型,而是通过调整类别标签之间的映射关系,使得同一个识别模型可以满足不同客户的需求。下面进行举例说明。
在一个例子中,所述检测需求还包括与待检测类别有关的召回率要求。为了满足该召回率要求,在步骤S300之后,所述方法还包括步骤S701-S503:
S701、将样本内容输入至内容检测模型,以通过内容检测模型预测出样本内容的类别标签。
该样本内容可以是用户提供的内容,该真实类别标签可以是由用户通过人工识别分类为该样本内容打上的类别标签。
S702、根据样本内容的真实类别标签和内容检测模型预测出的样本内容的类别标签,确定内容检测模型在待检测类别上的召回率。
S703、在内容检测模型在待检测类别上的召回率没有达到召回率要求的情况下,对内容检测模型中与待检测类别有关的多个类别标签之间的映射关系进行调整,以达到召回率要求。
例如,待检测类别是识别图片中是否有色情内容,第一多标签分类检测模型用于对图片中的人体的裸露程度进行检测,将图片按照裸露程度分为正常、正常、低俗、暴露、淫秽四个等级,也就是可以给图片打上“正常”、“低俗”、“暴露”、“淫秽”中的一个标签,其中,“正常”和“低俗”为一级标签“非色情”下的两个二级标签,“暴露”和“淫秽”为一级标签“色情”下的两个二级标签。因此,如果第一多标签分类检测模型输出的识别结果是“正常”或“低俗”,内容检测模型向用户返回“非色情”标签,即通知用户该图片中不含有色情内容;如果第一多标签分类检测模型输出的识别结果是“暴露”或者“淫秽”,内容检测模型向用户返回“色情”标签,即通知用户该图片中含有色情内容。
如果用户对于色情内容的审核尺度比较严格,经由样本内容测试后,发现模型的召回率达不到用户的要求,即漏检了很多用户认为是色情的图片,则可以调整标签之间的映射关系,将“低俗”标签从“非色情”标签下调整到“色情”标签下,以检测出符合用户审核尺度的色情图片。
在一个例子中,可以在所述内容检测模型之前增加第一过滤模型。
参见图3所示,第一过滤模型用于接收目标内容,检测内容检测模型是否已经预测过目标内容的类别;如果是,输出内容检测模型已经预测出的目标内容的类别标签;如果否,将目标内容输入至内容检测模型进行预测。
在该例子中,对每一个目标内容使用MD5算法计算MD5值,将目标内容的MD5值和内容检测模型对其的检测结果关联的存储在数据库中。MD5的全称是Message-DigestAlgorithm 5,一种被广泛使用的密码散列函数算法,可以产生出一个128位(16字节)的散列值,用于确保信息传输完整一致。
当第一过滤模型新接收到一个待识别的目标内容时,先计算该目标内容的MD5值,然后在数据库中查询该MD5值。如果在数据库中查询到该MD5值,说明该目标内容曾经被识别过,不需要对该目标内容进行检测,将查询出的检测结果直接提供给用户。如果在数据库中没有查询到该MD5值,说明该目标内容没有被识别过,将该目标内容输入至内容检测模型中进行识别得到检测结果,将检测结果提供给用户,并且将该目标内容的MD5值和检测结果关联的存储到数据库中。
通过这种方式,可以避免对同一个目标内容进行反复多次识别,避免浪费系统的运算能力。
在一个例子中,可以在所述内容检测模型之前增加第二过滤模型。
参见图4所示,第二过滤模型用于接收目标内容和目标内容的发布者的信息,检测目标内容的发布者是否在过滤名单内;如果目标内容的发布者不在过滤名单内,将目标内容输入至内容检测模型进行预测。
目标内容的发布者的信息可以发布者的账号、设备地址等,可以唯一识别出该发布者。
在该例子中,预先设置过滤名单,过滤名单中的发布者是可被信任的,可以不对过滤名单中的发布者所发布的内容进行内容检测,以节省系统的运算能力。
<装置实施例>
参见图5所示,本公开实施例提供了一种内容检测模型的生成装置。该内容检测模型的生成装置10包括接收模块11和生成模块12。
接收模块11,用于接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务。
生成模块12,用于按照所述执行逻辑关系将多个识别任务编排成内容检测模型。
在一个例子中,该内容检测模型的生成装置10还包括获取模块和创建模块。
获取模块,用于获取内容检测需求,所述内容检测需求包括内容载体属性和多个待检测类别。
创建模块,用于根据所述内容载体属性和多个所述待检测类别从模型库中选取多个识别模型,为多个所述识别模型创建调用接口以创建多个所述识别任务。
在一个例子中,生成模块12具体用于将每个所述识别任务作为最小可执行单元,控制任务调度引擎按照所述执行逻辑关系加载所述识别任务以得到所述内容检测模型。
在一个例子中,所述内容检测需求还包括与所述待检测类别有关的精确率要求。该内容检测模型的生成装置10还包括第一输入模块,第一确定模块以及第一调整模块。
第一输入模块,用于将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签。
第一确定模块,用于根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的精确率。
第一调整模块,用于在所述内容检测模型在所述待检测类别上的精确率没有达到所述精确率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数以达到所述精确率要求。
在一个例子中,所述内容检测需求还包括与所述待检测类别有关的召回率要求。该内容检测模型的生成装置10还包括第二输入模块,第二确定模块以及第二调整模块。
第二输入模块,用于将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签。
第二确定模块,用于根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的召回率。
第二调整模块,用于在所述内容检测模型在所述待检测类别上的召回率没有达到所述召回率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数以达到所述召回率要求。
在一个例子中,所述内容检测需求还包括与所述待检测类别有关的召回率要求。该内容检测模型的生成装置10还包括第三输入模块,第三确定模块以及第三调整模块。
第三输入模块,用于将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签。
第三确定模块,用于根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的召回率。
第三调整模块,用于在所述内容检测模型在所述待检测类别上的召回率没有达到所述召回率要求的情况下,对所述内容检测模型中与所述待检测类别有关的多个类别标签之间的映射关系进行调整,以达到所述召回率要求。
在一个例子中,该内容检测模型的生成装置10还包括第一增加模块。
所述第一增加模块用于在所述内容检测模型之前增加第一过滤模型。所述第一过滤模型用于接收目标内容,检测所述内容检测模型是否已经预测过所述目标内容的类别;如果是,输出所述内容检测模型已经预测出的所述目标内容的类别标签;如果否,将所述目标内容输入至所述内容检测模型进行预测。
在一个例子中,该内容检测模型的生成装置10还包括第二增加模块。
所述第二增加模块用于在所述内容检测模型之前增加第二过滤模型。所述第二过滤模型用于接收目标内容和目标内容的发布者的信息,检测所述目标内容的发布者是否在过滤名单内;如果所述目标内容的发布者不在过滤名单内,将所述目标内容输入至所述内容检测模型进行预测。
该装置的具体实现方式和技术效果可参见前文对内容检测模型的生成方法的描述,此处不再赘述。
<电子设备实施例>
本实施例提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的可执行指令,处理器执行该可执行指令以实现本公开方法实施例描述的内容检测模型的生成方法。
<计算机可读存储介质实施例>
本实施例提供一种计算机可读存储介质,计算机可读存储介质存储有可执行命令,可执行命令在被处理器执行时,指令促使处理器实现本公开方法实施例描述的内容检测模型的生成方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种内容检测模型的生成方法,其特征在于,包括:
接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务;
按照所述执行逻辑关系将多个识别任务编排成内容检测模型。
2.根据权利要求1所述的方法,其特征在于,在接收用户在配置界面上配置的识别策略之前,所述方法还包括:
获取内容检测需求,所述内容检测需求包括内容载体属性和多个待检测类别;
根据所述内容载体属性和多个所述待检测类别从模型库中选取多个识别模型,为多个所述识别模型创建调用接口以创建多个所述识别任务。
3.根据权利要求1所述的方法,其特征在于,所述按照所述执行逻辑关系将多个识别任务编排成内容检测模型,包括:
将每个所述识别任务作为最小可执行单元,控制任务调度引擎按照所述执行逻辑关系加载所述识别任务以得到所述内容检测模型。
4.根据权利要求2所述的方法,其特征在于,所述内容检测需求还包括与所述待检测类别有关的精确率要求;
在按照所述执行逻辑关系将多个识别任务编排成内容检测模型之后,所述方法还包括:
将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签;
根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的精确率;
在所述内容检测模型在所述待检测类别上的精确率没有达到所述精确率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数以达到所述精确率要求。
5.根据权利要求2所述的方法,其特征在于,所述内容检测需求还包括与所述待检测类别有关的召回率要求;
在按照所述执行逻辑关系将多个识别任务编排成内容检测模型之后,所述方法还包括:
将样本内容输入至所述内容检测模型,以通过所述内容检测模型预测出所述样本内容的类别标签;
根据所述样本内容的真实类别标签和所述内容检测模型预测出的所述样本内容的类别标签,确定所述内容检测模型在所述待检测类别上的召回率;
在所述内容检测模型在所述待检测类别上的召回率没有达到所述召回率要求的情况下,调整所述内容检测模型中与所述待检测类别有关的分类阈值参数,或者调整所述内容检测模型中与所述待检测类别有关的多个类别标签之间的映射关系,以达到所述召回率要求。
6.根据权利要求1所述的方法,其特征在于,还包括:
在所述内容检测模型之前增加第一过滤模型;
所述第一过滤模型用于接收目标内容,检测所述内容检测模型是否已经预测过所述目标内容的类别;如果是,输出所述内容检测模型已经预测出的所述目标内容的类别标签;如果否,将所述目标内容输入至所述内容检测模型进行预测。
7.根据权利要求1所述的方法,其特征在于,还包括:
在所述内容检测模型之前增加第二过滤模型;
所述第二过滤模型用于接收目标内容和目标内容的发布者的信息,检测所述目标内容的发布者是否在过滤名单内;如果所述目标内容的发布者不在过滤名单内,将所述目标内容输入至所述内容检测模型进行预测。
8.一种内容检测模型的生成装置,其特征在于,包括:
接收模块,用于接收用户在配置界面上配置的识别策略,所述识别策略包括多个识别阶段之间的执行逻辑关系和每个识别阶段对应的识别任务;
生成模块,用于按照所述执行逻辑关系将多个识别任务编排成内容检测模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于在所述可执行指令的控制下,实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被处理器执行时,实现权利要求1-7任一项所述的方法。
CN202011285967.0A 2020-11-17 2020-11-17 内容检测模型的生成方法和装置、电子设备及存储介质 Pending CN112463319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285967.0A CN112463319A (zh) 2020-11-17 2020-11-17 内容检测模型的生成方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285967.0A CN112463319A (zh) 2020-11-17 2020-11-17 内容检测模型的生成方法和装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112463319A true CN112463319A (zh) 2021-03-09

Family

ID=74836413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285967.0A Pending CN112463319A (zh) 2020-11-17 2020-11-17 内容检测模型的生成方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112463319A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411224A (zh) * 2021-08-19 2021-09-17 飞狐信息技术(天津)有限公司 数据处理方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411224A (zh) * 2021-08-19 2021-09-17 飞狐信息技术(天津)有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109886326B (zh) 一种跨模态信息检索方法、装置和存储介质
US10394875B2 (en) Document relationship analysis system
CN110489345B (zh) 一种崩溃聚合方法、装置、介质和设备
US8219573B2 (en) Test case generation apparatus, generation method therefor, and program storage medium
CN108287816B (zh) 兴趣点在线检测、机器学习分类器训练方法和装置
US20130226925A1 (en) Intelligent product feedback analytics tool
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
CN110674414A (zh) 目标信息识别方法、装置、设备及存储介质
US8775392B1 (en) Revision control and configuration management
US20180018392A1 (en) Topic identification based on functional summarization
CN112487150A (zh) 档案管理方法、系统、存储介质及电子设备
US10592304B2 (en) Suggesting application programming interfaces based on feature and context analysis
CN114386085A (zh) 掩蔽文档中的敏感信息
CN110750297B (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
CN114047854B (zh) 用于文档处理的信息交互方法、装置、电子设备和存储介质
CN114995691B (zh) 一种文档处理方法、装置、设备和介质
CN111506775A (zh) 标签处理方法、装置、电子设备及可读存储介质
US20200150981A1 (en) Dynamic Generation of User Interfaces Based on Dialogue
CN112463319A (zh) 内容检测模型的生成方法和装置、电子设备及存储介质
US10705810B2 (en) Automatic code generation
CN111639903A (zh) 一种针对架构变更的评审处理方法及相关设备
US9069874B2 (en) Webpage content search method and system
US11200378B2 (en) Methods and systems for processing language with standardization of source data
CN115017110A (zh) 信息处理方法、装置、终端和存储介质
CN109857838B (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination