CN114840668A - 网络文本审核方法、电子设备及存储介质 - Google Patents

网络文本审核方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114840668A
CN114840668A CN202210451539.3A CN202210451539A CN114840668A CN 114840668 A CN114840668 A CN 114840668A CN 202210451539 A CN202210451539 A CN 202210451539A CN 114840668 A CN114840668 A CN 114840668A
Authority
CN
China
Prior art keywords
auditing
special
model
text
target network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210451539.3A
Other languages
English (en)
Inventor
肖岳
刘征
刘龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202210451539.3A priority Critical patent/CN114840668A/zh
Publication of CN114840668A publication Critical patent/CN114840668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种网络文本审核方法、电子设备及存储介质,本公开通过通用审核模型对目标网络文本进行审核,得到第一标注结果,之后再通过确定目标网络文本的题材类型,来确定是否使用特殊审核模型对目标网络文本进行审核,若是,则通过特殊审核模型对目标网络文本进行审核,得到第二标注结果,从而实现机器审核目标网络文本,可以减少审核人员的工作量,降低人工审核的成本。

Description

网络文本审核方法、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种网络文本审核方法、电子设备及存储介质。
背景技术
电子书平台需要持续上线新的书籍,以提升平台的内容竞争力。当下网络小说日趋流行,并具有庞大的篇幅和内容量,给平台的审核工作带来了极大的负担。
目前,电子书平台一般都是通过人工审核新的网络小说,随着平台上线的网络小说的数量逐渐增大,单纯靠人工审核会使得审核人员的工作量过大,难以负担,并且还会让平台的审核成本过高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种网络文本的审核方法、电子设备及存储介质。
第一方面,本公开提供了一种网络文本审核方法,包括:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果。
第二方面,本公开提供了一种电子设备,包括处理器和存储器,存储器用于存储可执行指令,可执行指令使处理器执行以下操作:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果。
第三方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面所述的方法。
本公开提供的技术方案与现有技术相比具有如下优点:
本公开提供网络文本审核方法、电子设备及存储介质,通过从服务器获取目标网络文本,基于通用审核模型对目标网络文本进行审核,得到第一标注结果,之后再通过确定目标网络文本的题材类型,来判断是否使用特殊审核模型审核目标网络文本,若是,则进一步通过特殊审核模型对目标网络文本进行审核,得到第二标注结果,实现机器审核网络文本,可以减少审核人员的工作量,降低人工审核的成本,并通过针对网络文本的题材类型对网络文本进行审核,来提高机器审核的准确性。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的网络文本的审核方法流程图;
图2为本公开实施例提供的一种应用场景的示意图;
图3为本公开实施例提供的训练通用审核模型的流程示意图;
图4为本公开实施例提供的基于至少一个审核模型分别对网络文本进行审核的方法流程图;
图5本公开实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
为了净化网络环境,许多负面字段不允许出现在网上,目前互联网上发布文章的平台有许多,包括了大量的文本信息,其中电子书平台会发布大量的网络小说,且网络小说的篇幅庞大,使审核的难度加大,若是全篇网络文本都需要人工逐字审核的话,会使得审核人员工作量太大,从而会提高平台的审核成本。针对该问题,本公开实施例提供了一种网络文本的审核方法,下面结合具体实施例对该方法进行介绍。
图1为本公开实施例提供的网络文本审核方法流程图,该方法可以由网络文本审核装置执行,可以采用软件和/或硬件的方式实现,该网络文本审核装置可配置于电子设备中,例如终端,终端具体可包括手机、电脑、或平板电脑等。另外,该方法可应用于图2所示的应用场景,该应用场景中包括服务器201和电脑202,网络文本审核装置具体可集成在电脑202中。可以理解的是,本方法还可以应用在其它场景中。
下面结合图2所示的应用场景,对图1所示的网络文本审核方法进行举例说明,例如,图2中的电脑202可以执行该方法,具体步骤包括:
S101、从服务器获取目标网络文本。
以待审核的目标网络文本是网络小说为例,当需要对某网络小说进行审核时,电脑202从电子书平台的服务器201获取该网络小说的文本。
S102、将目标网络文本分别输入多个通用审核模型中,基于多个通用审核模型分别对目标网络文本进行审核,得到多个通用审核模型分别对目标网络文本的第一标注结果。
目前互联网上不允许出现的违规字句包括多个方面,即包括多个风险类型,例如涉及公共事务类问题、成人类问题、敏感身份类问题、敏感历史类问题等,而例如其中涉及公共事务类问题、成人类问题可以划分为通用型问题,这类问题的特点是表述变化多样、隐蔽性强、且数量庞大,也是最关注的问题,这类问题可能出现在所有类型的网络小说中,因此在获取网络小说的文本后,先通过多个通用审核模型对其进行审核,多个通用审核模型会分别对网络小说文本中,涉及通用型问题的字段进行标注,得到多个通用审核模型分别对目标网络文本的第一标注结果。
S103、确定目标网络文本对应的题材类型。
例如目标网络文本可以是网络小说,网络小说在电子书平台上有许多题材分类,例如都市、修仙、历史等,电脑202可以通过电子书平台对网络小说的题材类型的划分,确定从服务器201获取的网络小说文本所对应的题材类型。
S104、确定题材类型是否为预设题材类型;
示例性的,违规字句包括多个方面,即多种风险类型,其中一些类型可能出现在所有题材类型的网络小说中,因此将这些类型划分为通用型问题,相应的,将那些可能出现特定题材类型中的风险类型违规字句,划分为特殊型问题。这类问题的特点是表述单一,变化不多,包括一些特定题材出现的特有敏感词、敏感人物及人物关系,例如历史题材类型的网络小说,其中可能出现敏感历史类问题的违规字句,或敏感身份的人物,因此可以将这类特定题材类型设置为预设题材类型,便于之后审核这些特殊型问题的违规字句。
在确定网络小说的题材类型后,电脑202会检测网络小说文本的题材类型是否为预设题材类型。以判断后续是否需要对该网络小说文本进行特殊型问题的审核。
若是,则执行S105。
S105、根据题材类型确定至少一个特殊审核模型。
示例性的,特殊型问题也包括多种风险类型,因此可以细分分为第一特殊类型、第二特殊类型、第三特殊类型等。单个特殊审核模型可以对某一特殊类型的违规字句或敏感字句进行审核,而某一预设题材类型的网络小说中,可能出现一个或多个特殊型问题的违规字句或敏感字句,因此电脑202可以针对网络小说所属的预设题材类型,来使用对应的特殊审核模型对该网络小说进行审核。
S106、将目标网络文本输入至少一个审核模型中,基于至少一个审核模型分别对目标网络文本进行审核,得到至少一个特殊审核模型分别对目标网络文本的第二标注结果。
类似于S102,在电脑202在确定对该网络小说文本进行审核的特殊审核模型后,会将该网络小说文本输入到这些特殊审核模型中,通过这些特殊审核模型分别对该网络小说文本进行审核,得到这些特殊审核模型分别对目标网络文本的第二标注结果。
本公开实施例通过从服务器获取目标网络文本,基于通用审核模型对目标网络文本进行审核,得到第一标注结果,之后再通过确定目标网络文本的题材类型,来判断是否使用特殊审核模型审核目标网络文本,若是,则进一步通过特殊审核模型对目标网络文本进行审核,得到第二标注结果,实现机器审核网络文本,可以减少审核人员的工作量,降低人工审核的成本,并通过针对网络文本的题材类型对网络文本进行审核,来提高机器审核的准确性。
图3为本公开实施例提供的训练通用审核模型的流程示意图,在上述实施例的基础上,通用审核模型是通过如下几个步骤训练得到的:
S301、获取样本文本。
示例性的,可以通过电子书平台的服务器可以获取多种题材类型的网络小说文本作为样本文本,以提高训练出来的通用模型的适用性。
S302、分别标注样本文本中多个通用风险类型对应的字段,得到多个真值文本,多个真值文本与多个通用风险类型一一对应。
示例性的,可以通过人工标注的方式对获取的样本文本进行标注,将不同的通用风险类型所对应的字段标注为不同结果,得到多个真值文本,每个真值文本的标注结果对应一个通用风险类型,便于之后针对于不同的通用风险类型中的每个通用风险类型进行模型训练。
S303、使用样本文本和多个真值文本对预设的深度学习模型进行训练,得到多个通用审核模型;多个通用审核模型与多个通用风险类型一一对应。
通用风险类型对应的通用型问题,其特点是表述变化多样、隐蔽性强,因此需要用深度学习模型对这类问题进行深度挖掘。通过使用样本文本和多个真值文本对预设的深度学习模型进行训练,得到多个通用风险类型对应的多个通用审核模型,例如成人类问题对应的成人类通用审核模型,涉及公共事务类问题对应的公共事务类通用审核模型。
此外,在使用模型审核的过程中,可以在初期采用高召回策略,即尽量多的找到问题,保证问题不遗漏,人工可以对模型的审核结果进行修改,人工确定审核错误的通用型问题,删除对应的错误标注,并将这些审核错误的通用型问题作为负样本反馈给模型,进行迭代优化。
本公开实施例通过获取样本文本,并对样本文本进行标注得到真值文本,并基于样本文本和真值文本对预设的深度学习模型进行训练,得到通用审核模型,以支持网络文本审核方法的实施。
在上述实施例的基础上,第一标注结果是通用审核模型对应的通用风险类型。
使用通用审核模型对目标网络文本进行审核,其输出的第一标注结果是该通用审核模型对应的通用风险类型,例如使用成人类通用审核模型对网络文本进行审核,成人类问题风险类型对应的颜色为黄色,则成人类通用审核模型对网络文本的第一标注结果是黄色。
本公开实施例通过使标注结果为对应的风险类型,来提高标注结果的对比度,让标注结果的查看更加清晰。
在上述实施例的基础上,目标网络文本包括题材类型对应的标识信息;确定目标网络文本对应的题材类型,包括:检测目标网络文本中的标识信息;根据标识信息确定目标网络文本对应的题材类型。
以网络小说作为目标网络文本为例,每一本网络小说在电子书平台上都有其对应的题材分类,从服务器获取的网络小说文本,包括该网络小说所属题材类型对应的标识信息。
在确定网络文本对应的题材类型时,电脑201可以通过检测网络小说文本中的标识信息,来确定网络小说文本对应的题材类型。例如第一标识信息可以对应修仙题材类型,当检测到网络小说文本中的标识信息是第一标识信息时,则可以根据第一标识信息,确定该网络小说文本对应的题材类型是修仙题材类型。
本公开实施例通过检测网络文本中的标识信息,来确定网络文本对应的题材类型,可以在确定网络文本所属题材类型时,提高效率和精确性。
在上述实施例的基础上,根据题材类型确定至少一个特殊审核模型,包括:确定题材类型对应的至少一个特殊风险类型;根据至少一个特殊风险类型,确定至少一个特殊审核模型,至少一个特殊风险类型和至少一个特殊审核模型是一一对应的;特殊审核模型是根据特殊审核模型对应的特殊风险类型包括的风险字段训练得到的。
示例性的,预设题材类型的网络小说文本中,出现的违规字句或敏感字句除了包括通用风险类型,还包括特殊风险类型,特殊风险类型中可以细分为具体的风险类型,包括第一风险类型、第二风险类型、第三风险类型等,例如第一风险类型可以是敏感身份风险类型,第二风险类型可以是敏感历史风险类型,第三风险类型可以是敏感人物关系风险类型;相应的,特殊审核模型可以细分为第一特殊审核模型、第二特殊审核模型、第三特殊审核模型等,第一特殊审核模型用于审核涉及敏感身份的字句,第二特殊审核模型用于审核涉及审核敏感历史的字句,第三审核模型用于审核涉及敏感人物关系的字句。
例如当审核的网络小说文本的题材类型是历史题材时,该题材对应的特殊风险类型包括第一风险类型和第二风险类型,这种情况下,可以根据对应的特殊风险类型确定进行审核的审核模型是第一审核模型和第二审核模型。其中,第一审核模型可以是根据第一特殊风险类型中包括的风险字段训练得到的,第二审核模型可以是根据第二特殊风险类型中包括的风险字段训练得到的。
本公开实施例中,通过先确定题材类型对应的风险类型,再根据风险类型来确定与该题材类型对应的特殊审核模型,使特殊审核模型能够精确对不同题材类型的网络文本进行审核,从而使审核结果更加精确。
在上述实施例的基础上,参照图4,图4为本公开实施例提供的基于至少一个审核模型分别对网络文本进行审核的方法流程图,具体步骤包括:
S401、对于至少一个特殊审核模型中的每个特殊审核模型,通过特殊审核模型获取预设数据库中的多个预设字段。
例如对网络小说文本进行审核的特殊审核模型包括第一审核模型和第二审核模型,将网络小说文本输入这两个模型后,通过第一审核模型获取预设数据库中是第一特殊风险类型的预设字段,通过第二审核模型获取预设数据库中是第二特殊风险类型的预设字段。
S402、通过特殊审核模型对多个预设字段中的每个预设字段分别与目标网络文本中的多个字段进行比对,确定目标网络文本中与预设字段匹配的目标字段。
示例性的,通过第一审核模型将第一特殊风险类型的预设字段中的每个字段,分别与网络小说文本中的多个字段进行比对,将网络小说文本中与第一特殊风险类型的预设字段相匹配的字段,确定为第一目标字段。同理,通过第二审核模型将第二特殊风险类型的预设字段,与网络小说文本中的字段进行比对,确定第二目标字段。
S403、通过特殊审核模型对目标字段进行标注得到第二标注结果,第二标注结果是特殊审核模型对应的特殊风险类型。
示例性的,在确定目标字段后,通过第一审核模型对网络小说文本中的第一目标字段进行标注,得到相应的第一特殊风险类型标注结果;通过第二审核模型对网络小说文本中的第二目标字段进行标注,得到第二特殊风险类型标注结果;例如第一风险类型标注结果可以是紫色,第二风险类型标注结果可以是蓝色。
本公开实施例通过特殊审核模型获取预设数据库中的预设字段,对网络文本中的字段进行比对,确定目标字段,并对目标字段进行标注得到第二标注结果,使得第二标注结果是特殊审核模型对应的特殊风险类型,避免对网络文本的审核出现错漏,可以体现第二标注结果的风险类型,增加第二标注结果的对比度,使审核结果一目了然。
在这种情况下,该方法还包括:若第一标注结果与第二标注结果对应于不同的风险类型,则显示不同的风险类型中优先级最高的风险类型所对应的标注结果。
示例性的,网络小说文本中出现的一些违规字段或敏感字段,可能涉及多个风险类型,若出现这种情况,例如XX,XX为违规字段,XX同时涉及第一通用风险类型、第一特殊风险类型和第二特殊风险类型,例如涉及公共事务风险类型、敏感人物风险类型、敏感历史风险类型。在审核模型对XX进行标注时,第一通用审核模型、第一特殊审核模型与第二特殊审核模型都会对XX进行标注,此时XX的标注结果对应不同的风险类型,包括第一通用风险类型、第一特殊风险类型和第二特殊风险类型。此时第一通用风险类型优先级最高,第一特殊风险类型优先级次之,第二特殊风险类型优先级最低,则显示第一通用风险类型对应的标注结果,例如红色,同时还会记录XX的标注结果还包括第一特殊风险类型标注结果,以及第二特殊风险类型标注结果。
本公开实施例通过将对应于不同风险类型的标注结果,显示为优先级最高的风险类型所对应的标注结果,可以避免标注结果混乱及错漏。
在上述实施例的基础上,该方法还包括:统计不同风险类型中每个风险类型对应的标注结果出现的次数,以及对应的风险字段;计算对应的风险字段占目标网络文本的比例;根据次数和/或比例对不同风险类型进行排序,并显示次数以及比例。
示例性的,在对网络小说文本进行审核时,可以统计不同风险类型对应的标注结果,例如针对于第一通用风险类型,统计第一通用风险类型的标注结果出现次数为A次,对应的风险字段为B段,计算风险字段为B段占目标网络文本的比例C;针对于第一特殊风险类型,统计第一特殊风险类型的标注结果出现次数为D次,对应的风险字段为E段,计算风险字段E段占目标网络文本的比例F。
之后根据比例对第一通用风险类型和第一特殊风险类型进行排序,例如若C大于F,则将第一通用风险类型排在第一特殊风险类型之前。以此可以类推至其它所有风险类型,在此不作赘述,对应排序规则本公开实施例不作限定。并显示第一通用风险类型对应的次数A与比例C,和第一特殊风险类型对应的次数D与比例F。
此外,除了显示次数A与比例C,还可以根据比例C来显示第一通用风险类型对应的第一标注结果,例如第一通用风险类型对应的第一标注结果为红色,则可以根据比例C来显示红色标注的颜色深度,例如比例C越大,红色标注的颜色越深,由此可以在审核人员查看目标网络文本的审核结果时,更直观更全面的了解网络文本审核的情况,并快速判断如何采取策略。
本公开实施例通过统计不同风险类型中每个风险类型对应的标注结果出现的次数,以及对应的风险字段,并计算对应的风险字段所占目标网络文本的比例,来对不同风险类型进行排序,并显示对应的次数与比例,实现更加清晰与直观的体现审核结果,便于审核人员查看目标网络文本的审核情况。
在上述实施例的基础上,该方法还包括:响应于针对通用审核模型或特殊审核模型中目标审核模型的第一操作指令,取消显示基于目标审核模型得到的标注结果;或者响应于针对通用审核模型或所述特殊审核模型中目标审核模型的第二操作指令,显示基于目标审核模型得到的标注结果。
示例性的,当审核人员需要查看电脑对网络小说文本审核的结果时,可以通过对目标审核模型进行操作,目标审核模型即通用审核模型以及该网络小说文本对应的特殊审核模型。例如该网络小说文本对应的审核模型包括第一通用审核模型、第二通用审核模型及第一特殊审核模型时,针对于对第一通用审核模型的第一操作指令,取消显示第一通用审核模型得到的第一通用风险类型标注结果,以此类推,针对于对第二通用审核模型的第一操作指令,取消显示第二通用风险类型标注结果,针对于对第一特殊审核模型的第一操作指令,取消显示第一特殊风险类型标注结果。
对应的,针对于对第一通用审核模型的第二操作指令,可以显示第一通用风险类型标注结果,针对于对第二通用审核模型的第二操作指令,可以显示第二通用风险类型标注结果,针对于对第一特殊审核模型的第二操作指令,可以显示第一特殊风险类型标注结果。
此外,以字段XX的标注结果为例,XX的标注结果对应不同的风险类型,例如包括第一通用风险类型与第二通用风险类型,第一通用风险类型优先级更高,则XX显示的标注结果为第一通用风险类型标注结果;若响应于针对第一通用审核模型的第一操作指令,取消显示第一通用风险类型标注结果,此时XX会显示第二通用风险类型标注结果;此时若响应于针对第二通用审核模型的第一操作指令,取消显示第二通用风险类型标注结果,则XX不再显示标注结果。
本公开实施例通过响应于针对审核模型的操作指令,可以取消或恢复该审核模型得到的标注结果,方便后续审核人员查看审核结果。
图5示出了本发明实施例提供的一种电子设备的结构示意图。
本公开实施例提供的电子设备可以包括但不限于诸如智能手机、笔记本电脑、PDA、PAD等的移动终端,以及诸如台式计算机等的固定终端。
需要说明的是,图5示出的电子设备510仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
该电子设备510传统上包括处理器510和以存储器520形式的计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述网络文本审核方法中的任何方法步骤的可执行指令(或程序代码)5211的存储空间521。例如,用于可执行指令的存储空间521可以包括分别用于实现上面的网络文本审核方法中的各种步骤的各个可执行指令5211。这些可执行指令可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与图5的电子设备510中的存储器520类似布置的存储段或者存储空间等。可执行指令可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的网络文本审核方法步骤的可执行指令,即可以由例如诸如处理器510之类的处理器读取的代码,这些代码当由电子设备510运行时,导致该电子设备510执行上面所描述的网络文本审核方法中的各个步骤。
当然,为了简化,图5中仅示出了该电子设备510中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口、输入装置和输出装置等等的组件。除此之外,根据具体应用情况,电子设备510还可以包括任何其他适当的组件。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本发明各实施例所提供的网络文本审核方法。
该计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
在本发明实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明公开了:
A1.一种网络文本审核方法,其中,包括:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果。
A2.根据权利要求A1所述的方法,其中,所述通用审核模型是通过如下几个步骤训练得到的:
获取样本文本;
分别标注所述样本文本中多个通用风险类型对应的字段,得到多个真值文本,所述多个真值文本与所述多个通用风险类型一一对应;
使用所述样本文本和所述多个真值文本对预设的深度学习模型进行训练,得到所述多个通用审核模型;
所述多个通用审核模型与所述多个通用风险类型一一对应。
A3.根据权利要求A2所述的方法,其中,所述第一标注结果是所述通用审核模型对应的通用风险类型。
A4.根据权利要求A1所述的方法,其中,所述目标网络文本包括所述题材类型对应的标识信息;
确定所述目标网络文本对应的题材类型,包括:
检测所述目标网络文本中的所述标识信息;
根据所述标识信息确定所述目标网络文本对应的题材类型。
A5.根据权利要求A4所述的方法,其中,根据所述题材类型确定至少一个特殊审核模型,包括:
确定所述题材类型对应的至少一个特殊风险类型;
根据所述至少一个特殊风险类型,确定至少一个特殊审核模型,所述至少一个特殊风险类型和所述至少一个特殊审核模型是一一对应的;
所述特殊审核模型是根据所述特殊审核模型对应的特殊风险类型包括的风险字段训练得到的。
A6.根据权利要求A5所述的方法,其中,所述基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果,包括:
对于所述至少一个特殊审核模型中的每个特殊审核模型,通过所述特殊审核模型获取预设数据库中的多个预设字段;
通过所述特殊审核模型对所述多个预设字段中的每个预设字段分别与所述目标网络文本中的多个字段进行比对,确定所述目标网络文本中与所述预设字段匹配的目标字段;
通过所述特殊审核模型对所述目标字段进行标注得到第二标注结果,所述第二标注结果是所述特殊审核模型对应的特殊风险类型。
A7.根据权利要求A1-A6所述的方法,其中,所述方法还包括:若所述第一标注结果与所述第二标注结果对应于不同的风险类型,则显示所述不同的风险类型中优先级最高的风险类型所对应的标注结果。
A8.根据权利要求A7所述的方法,其中,还包括:
统计不同风险类型中每个风险类型对应的标注结果出现的次数,以及对应的风险字段;
计算所述对应的风险字段占所述目标网络文本的比例;
根据所述比例对所述不同风险类型进行排序,并显示所述次数以及所述比例。
A9.根据权利要求A8所述的方法,其中,还包括:
响应于针对所述通用审核模型或所述特殊审核模型中目标审核模型的第一操作指令,取消显示基于所述目标审核模型得到的标注结果;或者
响应于针对所述通用审核模型或所述特殊审核模型中目标审核模型的第二操作指令,显示基于所述目标审核模型得到的标注结果。
B10.一种电子设备,其中,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核。
B11.根据权利要求B10所述的电子设备,其中,所述通用审核模型是通过如下几个步骤训练得到的:
获取样本文本;
分别标注所述样本文本中多个通用风险类型对应的字段,得到多个真值文本,所述多个真值文本与所述多个通用风险类型一一对应;
使用所述样本文本和所述多个真值文本对预设的深度学习模型进行训练,得到所述多个通用审核模型;
所述多个通用审核模型与所述多个通用风险类型一一对应。
B12.根据权利要求B11所述的电子设备,其中,所述第一标注结果是所述通用审核模型对应的通用风险类型。
B13.根据权利要求B10所述的电子设备,其中,所述目标网络文本包括所述题材类型对应的标识信息;
在确定所述目标网络文本对应的题材类型时,所述可执行指令具体使所述处理器执行:
检测所述目标网络文本中的所述标识信息;
根据所述标识信息确定所述目标网络文本对应的题材类型。
B14.根据权利要求B13所述的电子设备,其中,在根据所述题材类型确定至少一个特殊审核模型时,所述可执行指令具体使所述处理器执行:
确定所述题材类型对应的至少一个特殊风险类型;
根据所述至少一个特殊风险类型,确定至少一个特殊审核模型,所述至少一个特殊风险类型和所述至少一个特殊审核模型是一一对应的;
所述特殊审核模型是根据所述特殊审核模型对应的特殊风险类型包括的风险字段训练得到的。
B15.根据权利要求B14所述的电子设备,其中,在所述基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果时,所述可执行指令具体使所述处理器执行:
对于所述至少一个特殊审核模型中的每个特殊审核模型,通过所述特殊审核模型获取预设数据库中的多个预设字段;
通过所述特殊审核模型对所述多个预设字段中的每个预设字段分别与所述网络文本中的多个字段进行比对,确定所述网络文本中与所述预设字段匹配的目标字段;
通过所述特殊审核模型对所述目标字段进行标注得到第二标注结果,所述第二标注结果是所述特殊审核模型对应的特殊风险类型。
B16.根据权利要求B10-B15所述的电子设备,其中,所述可执行指令还使所述处理器执行:
若所述第一标注结果与所述第二标注结果对应于不同的风险类型,则显示所述不同的风险类型中优先级最高的风险类型所对应的标注结果。
B17.根据权利要求B16所述的电子设备,其中,所述可执行指令还使所述处理器执行:
统计不同风险类型中每个风险类型对应的标注结果出现的次数,以及对应的风险字段;
计算所述对应的风险字段占所述目标网络文本的比例;
显示所述次数以及所述比例。
B18.根据权利要求B17所述的电子设备,其中,所述可执行指令还使所述处理器执行:
响应于针对所述通用审核模型或所述特殊审核模型中目标审核模型的第一操作指令,取消显示基于所述目标审核模型得到的标注结果;或者
响应于针对所述通用审核模型或所述特殊审核模型中目标审核模型的第二操作指令,显示基于所述目标审核模型得到的标注结果。
C19.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求A1-A9中任一项所述的方法。
本发明的各个部件实施例可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种网络文本审核方法,其特征在于,包括:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果。
2.根据权利要求1所述的方法,其特征在于,所述通用审核模型是通过如下几个步骤训练得到的:
获取样本文本;
分别标注所述样本文本中多个通用风险类型对应的字段,得到多个真值文本,所述多个真值文本与所述多个通用风险类型一一对应;
使用所述样本文本和所述多个真值文本对预设的深度学习模型进行训练,得到所述多个通用审核模型;
所述多个通用审核模型与所述多个通用风险类型一一对应。
3.根据权利要求2所述的方法,其特征在于,所述第一标注结果是所述通用审核模型对应的通用风险类型。
4.根据权利要求1所述的方法,其特征在于,所述目标网络文本包括所述题材类型对应的标识信息;
确定所述目标网络文本对应的题材类型,包括:
检测所述目标网络文本中的所述标识信息;
根据所述标识信息确定所述目标网络文本对应的题材类型。
5.根据权利要求4所述的方法,其特征在于,根据所述题材类型确定至少一个特殊审核模型,包括:
确定所述题材类型对应的至少一个特殊风险类型;
根据所述至少一个特殊风险类型,确定至少一个特殊审核模型,所述至少一个特殊风险类型和所述至少一个特殊审核模型是一一对应的;
所述特殊审核模型是根据所述特殊审核模型对应的特殊风险类型包括的风险字段训练得到的。
6.根据权利要求5所述的方法,其特征在于,所述基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核,得到所述至少一个特殊审核模型分别对所述目标网络文本的第二标注结果,包括:
对于所述至少一个特殊审核模型中的每个特殊审核模型,通过所述特殊审核模型获取预设数据库中的多个预设字段;
通过所述特殊审核模型对所述多个预设字段中的每个预设字段分别与所述目标网络文本中的多个字段进行比对,确定所述目标网络文本中与所述预设字段匹配的目标字段;
通过所述特殊审核模型对所述目标字段进行标注得到第二标注结果,所述第二标注结果是所述特殊审核模型对应的特殊风险类型。
7.根据权利要求1-6所述的方法,其特征在于,所述方法还包括:若所述第一标注结果与所述第二标注结果对应于不同的风险类型,则显示所述不同的风险类型中优先级最高的风险类型所对应的标注结果。
8.根据权利要求7所述的方法,其特征在于,还包括:
统计不同风险类型中每个风险类型对应的标注结果出现的次数,以及对应的风险字段;
计算所述对应的风险字段占所述目标网络文本的比例;
根据所述比例对所述不同风险类型进行排序,并显示所述次数以及所述比例。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
从服务器获取目标网络文本;
将所述目标网络文本分别输入多个通用审核模型中,基于所述多个通用审核模型分别对所述目标网络文本进行审核,得到所述多个通用审核模型分别对所述目标网络文本的第一标注结果;
确定所述目标网络文本对应的题材类型;
确定所述题材类型是否为预设题材类型;
若是,则根据所述题材类型确定至少一个特殊审核模型;
将所述目标网络文本输入所述至少一个特殊审核模型中,基于所述至少一个特殊审核模型分别对所述目标网络文本进行审核。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202210451539.3A 2022-04-26 2022-04-26 网络文本审核方法、电子设备及存储介质 Pending CN114840668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210451539.3A CN114840668A (zh) 2022-04-26 2022-04-26 网络文本审核方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210451539.3A CN114840668A (zh) 2022-04-26 2022-04-26 网络文本审核方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114840668A true CN114840668A (zh) 2022-08-02

Family

ID=82567055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210451539.3A Pending CN114840668A (zh) 2022-04-26 2022-04-26 网络文本审核方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114840668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221884A (zh) * 2022-09-15 2022-10-21 北京铀媒科技有限公司 特定人物检测方法、系统、存储介质及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221884A (zh) * 2022-09-15 2022-10-21 北京铀媒科技有限公司 特定人物检测方法、系统、存储介质及终端

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US8762180B2 (en) Claims analytics engine
US20100049590A1 (en) Method and system for semantic analysis of unstructured data
CN113886584A (zh) 一种应用程序的信息检测方法、装置及设备
CN109684475B (zh) 投诉的处理方法、装置、设备以及存储介质
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
CN109360089A (zh) 贷款风险预测方法及装置
CN112182214B (zh) 一种数据分类方法、装置、设备及介质
Alarcon et al. A descriptive model of computer code trustworthiness
US20080250326A1 (en) User-defined visual indicators on dynamic charts
CN112990294A (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
CN114840668A (zh) 网络文本审核方法、电子设备及存储介质
CN113869789A (zh) 一种风险监控的方法、装置、计算机设备及存储介质
CN111639903A (zh) 一种针对架构变更的评审处理方法及相关设备
US20160063375A1 (en) Determination of substances in an assembly
CN112685277B (zh) 警告信息检查方法、装置、电子设备和可读存储介质
CN111143220B (zh) 一种软件测试的训练系统及方法
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN110717101B (zh) 基于应用行为的用户分类方法、装置和电子设备
CN110245337B (zh) 一种生成裁判文书中经审理查明段的方法及装置
CN109344386B (zh) 文本内容标识方法、装置、设备及计算机可读存储介质
CN112669182A (zh) 主观试题内容的评分方法以及装置
CN114547317B (zh) 一种文本审核方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination