CN113392624A - 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质 - Google Patents

敏感词汇标注的方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113392624A
CN113392624A CN202110599568.XA CN202110599568A CN113392624A CN 113392624 A CN113392624 A CN 113392624A CN 202110599568 A CN202110599568 A CN 202110599568A CN 113392624 A CN113392624 A CN 113392624A
Authority
CN
China
Prior art keywords
sensitive
content
edited content
window
edited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110599568.XA
Other languages
English (en)
Inventor
孙墨笛
陈英伟
王嘉骐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Forum Magazine
Original Assignee
People's Forum Magazine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Forum Magazine filed Critical People's Forum Magazine
Priority to CN202110599568.XA priority Critical patent/CN113392624A/zh
Publication of CN113392624A publication Critical patent/CN113392624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及敏感词汇标注的方法、装置、电子设备及计算机可读存储介质,涉及数据处理的领域,该方法包括:当检测到用户触发的敏感词汇检测指令时,根据敏感词汇检测指令获取编辑器中已编辑内容;确定已编辑内容中是否包含敏感词汇数据库中存储的敏感词;若包含,则确定已编辑内容中包含的敏感词,并对已编辑内容中包含的敏感词进行标注处理;控制显示标注处理后的内容。本申请实施例可以降低审核时间浪费以及人力成本让费,进而可以提升对已编辑内容中敏感词汇的审核效率,并可以提升用户体验。

Description

敏感词汇标注的方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据处理的技术领域,尤其是涉及敏感词汇标注的方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,随着宽带互联网的快速发展,各类大型门户网站逐渐增加,编辑者在对页面内容进行编辑时,通常使用内容管理系统(Content Management System,CMS)对内容进行编辑,在内容编辑完成后,需要人工对已编辑内容进行审核,对在特定时期内不应该出现的敏感词汇进行修改。
但是,在相关技术中,通过人工对已编辑内容进行有无敏感词汇审核耗时较长,且工作人员在对编辑内容进行全篇审核阅读时,难免会出现遗漏的敏感词汇,工作人员需对编辑器内容进行多次审核,从而导致会浪费大量的时间和人力成本,进而导致审核效率低。
发明内容
本申请提供了一种敏感词汇标注的方法、装置、电子设备及计算机可读存储介质,可以解决大量的时间浪费和人力成本浪费、审核效率低的问题。所述技术方案如下:
第一方面,提供了一种敏感词汇标注的方法,该方法包括:
当检测到用户触发的敏感词汇检测指令时,根据所述敏感词汇检测指令获取编辑器中已编辑内容;
确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词;
若包含,则确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理;
控制显示标注处理后的内容。
通过上述技术方案,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对确定的敏感词汇进行标注,控制显示标注处理后的编辑器内容,以使得工作人员能够参照标注处理后的编辑器内容对已编辑内容中包含的敏感词进行调整,从而可以降低审核时间和人力成本的浪费,进而可以提高审核效率,以及提升用户体验。
在另一种可能实现的方式中,通过确定已编辑内容中是否包含敏感词汇数据库中存储的敏感词,之前还包括:
通过调用预先设定工具类对所述已编辑内容中属于预设属性的内容进行过滤;
通过正则表达式将过滤后的已编辑内容进行特殊符号过滤。
通过上述技术方案,预先对已编辑内容中的预设属性的内容进行过滤,使得避免后续通过正则表达式对已编辑内容进行特殊符号过滤时,出现正则匹配错误的情况。接着通过正则表达式对过滤后的已编辑内容进行特殊符号过滤,使得在对过滤后的已编辑内容进行处理时,减少过滤后的已编辑内容中特殊符号出现乱码的情况,从而可以提高敏感词标注的准确度。
在另一种可能实现的方式中,通过确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词,包括:
将特殊符号过滤后已编辑内容进行转义处理,得到转义后的内容;
确定所述转义后的内容中是否包含所述敏感词汇数据库中存储的敏感词;
其中,所述确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理,包括:
确定所述转义后的内容中包含的敏感词,并对所述转义后的内容中包含的敏感词进行标注处理。
通过上述技术方案,针对特殊符号过滤后已编辑内容进行转义处理,使得对用标签包裹的已编辑内容文本进行转义,并将得到的转义后已编辑内容文本与敏感词汇数据库中存储的敏感词进行匹配,对与之匹配的敏感词进行标注,以便后续进行审查更改。
在另一种可能实现的方式中,通过确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词,之前还包括:
获取所述敏感词汇数据库中存储的敏感词汇,并对所述敏感词汇进行分割处理;
其中,所述确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理,包括:
通过正则表达式将分割后的敏感词汇与所述已编辑内容进行匹配;
在所述已编辑内容中将匹配成功的词汇进行标注处理。
通过上述技术方案,基于获取到的敏感词汇数据库中存储的敏感词汇,对敏感词汇进行分割处理,将分割后的敏感词汇与转义后已编辑内容进行全文覆盖匹配,并对已编辑内容中匹配成功的敏感词汇进行标注,从而可以提高标注的准确度以及提升用户体验。
在另一种可能实现的方式中,通过控制显示标注处理后的内容,包括:
控制所述标注处理后的内容以及所述编辑器中已编辑内容通过各自对应窗口同时显示。
通过上述技术方案,获取标注处理后的内容并以独立显示窗口形式进行显示,便于对编辑器显示窗口中已编辑内容进行对照修改,从而可以提升用户体验。
在另一种可能实现的方式中,该方法还包括:
当检测到第一窗口移动时,确定第一窗口移动后的位置信息;
基于所述第一窗口移动后的位置信息确定第二窗口移动后的位置信息;
基于所述第一窗口移动后的位置信息以及第二窗口移动后的位置信息,控制所述第一窗口和所述第二窗口在各自对应的位置进行显示;
其中,所述第一窗口为所述编辑器中已编辑内容对应的显示窗口或者所述标注处理后的内容对应的显示窗口;所述第二窗口为所述标注处理后的内容对应的显示窗口或者所述编辑器中已编辑内容对应的显示窗口。
通过上述技术方案,第二窗口基于第一窗口位置移动进行移动,也即即使第二窗口移动,第一窗口和第二窗口也不会出现覆盖,从而可以便于工作人员对照第二窗口中标注的内容修改第一窗口中已编辑内容,进而可以提升对已编辑内容调整的效率,以及提升用户体验。
在另一种可能实现的方式中,确定所述已编辑内容中包含的敏感词的数量,并控制显示所述已编辑内容中包含的敏感词的数量。
通过上述技术方案,在对编辑器显示窗口中已编辑内容进行敏感词汇修改时,通过控制显示的敏感词的当前数量,便于工作人员基于当前已修改的敏感词的数量和显示的敏感词的数量进行对照,确定是否已修改所有的敏感词,从而可以避免遗漏敏感词的修改。
第二方面,提供了一种敏感词汇标注的装置,包括:
第一获取模块,用于当检测到用户触发的敏感词汇检测指令时,根据所述敏感词汇检测指令获取编辑器中已编辑内容;
第一确定模块,用于确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词;
第二确定模块,用于当所述已编辑内容中包含敏感词汇数据库中存储的敏感词时,确定所述已编辑内容中包含的敏感词;
标注处理模块,用于对所述已编辑内容中包含的敏感词进行标注处理;
第一控制显示模块,用于控制显示标注处理后的内容。
通过上述技术方案,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对敏感词汇进行标注,控制显示标记后的编辑器内容,从而减少花费大量的时间和人力成本,进而提高审核效率。
在一种可能的实现方式中,所述装置还包括:第一过滤模块以及第二过滤模块,其中,
所述第一过滤模块,用于通过调用预先设定工具类对所述已编辑内容中属于预设属性的内容进行过滤;
所述第二过滤模块,用于通过正则表达式将过滤后的已编辑内容进行特殊符号过滤。
在另一种可能的实现方式中,所述第一确定模块在确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词时,具体用于:
将特殊符号过滤后已编辑内容进行转义处理,得到转义后的内容;
确定所述转义后的内容中是否包含所述敏感词汇数据库中存储的敏感词;
其中,所述第二确定模块在确定所述已编辑内容中包含的敏感词时,具体用于:
确定所述转义后的内容中包含的敏感词;
所述标注处理模块在对所述已编辑内容中包含的敏感词进行标注处理时,具体用于:
对所述转义后的内容中包含的敏感词进行标注处理。
在另一种可能的实现方式中,所述装置还包括:第二获取模块以及分割处理模块,其中,
所述第二获取模块,用于获取所述敏感词汇数据库中存储的敏感词汇;
所述分割处理模块,用于对所述敏感词汇进行分割处理;
其中,所述第二确定模块在确定所述已编辑内容中包含的敏感词时,具体用于:通过正则表达式将分割后的敏感词汇与所述已编辑内容进行匹配;
所述标注处理模块在对所述已编辑内容中包含的敏感词进行标注处理时,具体用于:
在所述已编辑内容中将匹配成功的词汇进行标注处理。
在另一种可能的实现方式中,所述第一控制显示模块在控制显示标注处理后的内容时,具体用于:
控制所述标注处理后的内容以及所述编辑器中已编辑内容通过各自对应窗口同时显示。
在另一种可能的实现方式中,所述装置还包括:第三确定模块、第四确定模块以及第二控制显示模块,其中,
所述第三确定模块,用于当检测到第一窗口移动时,确定第一窗口移动后的位置信息;
所述第四确定模块,用于基于所述第一窗口移动后的位置信息确定第二窗口移动后的位置信息;
所述第二控制显示模块,用于基于所述第一窗口移动后的位置信息以及第二窗口移动后的位置信息,控制所述第一窗口和所述第二窗口在各自对应的位置进行显示;
其中,所述第一窗口为所述编辑器中已编辑内容对应的显示窗口或者所述标注处理后的内容对应的显示窗口;所述第二窗口为所述标注处理后的内容对应的显示窗口或者所述编辑器中已编辑内容对应的显示窗口。
在另一种可能的实现方式中,所述装置还包括:第五确定模块以及第三控制显示模块,其中,
所述第五确定模块,用于确定所述已编辑内容中包含的敏感词的数量;
所述第三控制显示模块,用于控制显示所述已编辑内容中包含的敏感词的数量。
第三方面,提供一种电子设备,该电子设备包括:
一个或者多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在所述
存储器中并被配置 为由所述一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面任一种可能的实现方式所示的敏感词汇标注的方法。
通过上述技术方案,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对敏感词汇进行标注,控制显示标记后的编辑器内容,从而减少花费大量的时间和人力成本,进而提高审核效率。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一种可能的实现方式所示的敏感词汇标注的方法。
通过上述技术方案,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对敏感词汇进行标注,控制显示标记后的编辑器内容,从而减少花费大量的时间和人力成本,进而提高审核效率。
综上所述,本申请包括以下至少一种有益技术效果:
1.在对已编辑内容进行敏感词汇修改时,根据获取的已编辑内容与敏感词汇数据库中存储的敏感词进行对比匹配,并对匹配的敏感词汇进行标注处理,控制显示标注后的编辑器内容,便于工作人员对已编辑内容进行敏感词汇修改,从而减少大量的时间的浪费和人力成本的浪费,进而可以提高审核效率;
2.在对编辑器显示窗口中已编辑内容进行敏感词汇修改时,通过控制显示的敏感词的当前数量,便于工作人员快速得知当前已编辑内容中敏感词汇是否完全修改完毕。
附图说明
图1是本申请实施例的一种敏感词标注的方法流程示意图;
图2为本申请实施例的一种敏感词标注的装置结构示意图;
图3为本申请实施例的电子设备的结构示意图。
具体实施方式
以下结合附图1-3对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请实施例涉及一种敏感词汇标注的方法,该敏感词汇标注的方法可以由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,如图1所示,该方法包括:
S10,当检测到用户触发的敏感词汇检测指令时,根据敏感词汇检测指令获取编辑器中已编辑内容。
对于本申请实施例,用户在进行敏感词汇检测时,电子设备检测到的用户触发的敏感词汇检测指令为用户通过手机等终端设备触发的敏感词汇检测指令。具体地,在本申请实施例中,当用户在终端设备上触发敏感词检测指令,若本申请实施例在终端设备上执行,则终端设备可以基于用户触发的敏感词汇检测指令获取编辑器中已编辑内容;当用户在终端设备上触发敏感词汇检测指令,若本申请实施例在服务器上执行,则服务器接收到终端设备发送的敏感词汇检测指令,并基于该敏感词汇检测指令获取编辑器中已编辑内容。
具体地,在本申请实施例中,敏感词汇指令中携带有用户当前在编辑器中已编辑内容存储的地址信息,电子设备基于地址信息获取已编辑的内容。在本申请实施例中的编辑器中已编辑内容可以包含文字,还可以包含图像、数字以及特殊符号等。例如,编辑器中已编辑的内容可以包括“天下大事,必作于细,如何高效为民利企办事(包括.....),插入格式为jpg的图片,标题名称为《大数据信息统计》”。
S11,确定已编辑内容中是否包含敏感词汇数据库中存储的敏感词。
对于本申请实施例,在不同时间段,敏感词汇数据库中所包含的敏感词汇可能会不同,例如,某一时期的敏感词汇为“核武器”,另一个时期的敏感词为“疫情”。在本申请实施例种,敏感词汇数据库中存储的敏感词汇是当前时期所涉及的敏感词,通过已编辑内容与敏感词汇数据库中存储的敏感词进行对比,确定编辑器中已编辑内容中是否包含敏感词汇数据中存储的敏感词。
S12,若包含,则确定已编辑内容中包含的敏感词,并对已编辑内容中包含的敏感词进行标注处理。
对于本申请实施例,若编辑器中已编辑内容中包含敏感词汇数据库中的敏感词,则确定出已编辑内容中包含的敏感词,则对当前已编辑内容中匹配的敏感词汇进行标注处理。
例如,已编辑内容包括“众所周知,核武器是当今杀伤力较大的军事武器,各个国家对核武器的应用都比较重视。”,则确定出该已编辑内容中包含敏感词“核武器”,从而对上述已编辑内容中的词汇“核武器”通过特定标识进行标注处理。S13,控制显示标注处理后的内容。
具体地,在本申请实施例中,若执行主体为终端设备,则终端设备控制显示器显示标注处理后的内容;若执行主体为服务器,则服务器将标注处理后的内容发送至对应的终端设备,并控制对应的终端设备先睡标注处理后的内容。
进一步地,在控制显示标注处理后的内容之后,以使得工作人员或者编辑人员基于标注处理后的内容对编辑器中已编辑内容进行调整。
本申请实施例提供了一种敏感词汇标注的方法,与相关技术中通过人工对应编辑内容进行敏感词汇审核相比,在本申请实施例中,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对确定的敏感词汇进行标注,控制显示标注处理后的编辑器内容,以使得工作人员能够参照标注处理后的编辑器内容对已编辑内容中包含的敏感词进行调整,从而可以降低审核时间和人力成本的浪费,进而可以提高审核效率,以及提升用户体验。
本申请实施例的一种可能的实现方式,步骤S11之前还包括步骤Sa(图中未示出)以及步骤Sb(图中未示出),其中,
步骤Sa,通过调用预先设定工具类对已编辑内容中属于预设属性的内容进行过滤。
具体地,在本申请实施例中的预先设定的工具类为预先编辑好的_getFilteredContents等工具类。在本申请实施例中,对获取到的已编辑内容中属于预设属性的内容通过正则匹配并替换进行过滤,具体可以包括:对已遍及内容中包含HTML标签中非img标签进行过滤。例如,过滤已编辑内容中包含的span标签,var newContent =Regex.Replace(htmlContent, "<span.* >.* </span>",String.Empty)。
步骤Sb,通过正则表达式将过滤后的已编辑内容进行特殊符号过滤。
具体地,在对已编辑内容中属于预设属性的内容进行过滤之后,对过滤后的已编辑内容中的特殊符号通过正则表达式进行二次过滤,例如,获取的已编辑内容中只允许出现字母与数字,String regEx = “[^a-zA-Z0-9]”,通过上述公式对已编辑内容中出现的字母与数字进行过滤。
本申请实施例的一种可能的实现方式,步骤S11之前还可以包括步骤Sc(图中未示出),其中,
步骤Sc、获取敏感词汇数据库中存储的敏感词汇,并对敏感词汇进行分割处理。
具体地,在本申请实施例中服务器对调用_getDealedWarnWord的后台接口,通过控制层(controller)、业务层(service)以及数据访问层(dao)对敏感词汇数据库中存储的敏感词汇进行获取,具体可以包括:在数据访问层只负责与敏感词汇数据库的数据交互,将数据进行读取操作,业务层需要根据系统的实际业务需求进行逻辑代码的编写,与敏感词汇数据库中存储的敏感词汇数据进行交互,业务逻辑层调用数据访问层的相关方法实现与数据库的交互,并将执行结果反馈给控制层,控制层的职能是负责读取敏感词汇数据库中存储的敏感词汇数据,并通过控制用户的输入,并调用业务层的方法,通过Replace方法将获取到的敏感词汇字符串以“|”分割符的形式进行分割,在本申请实施例中并不对分割符的格式进行限定。
进一步地,在本申请实施例中,步骤Sc可以在步骤Sa以及Sb之前执行,也可以在步骤Sa以及步骤Sb之后执行,也可以与步骤Sa以及步骤Sb同时执行,在本申请实施例中不做限定。
本申请实施例的另一种可能的实现方式,步骤S11具体可以包括步骤S111(图中未示出)以及S112(图中未示出),其中,
步骤S111、将特殊符号过滤后已编辑内容进行转义处理,得到转义后的内容。
具体地,在本申请实施例中,电子设备对过滤后的已编辑内容中的字符串进行转义处理,所谓转义字符串(Escape Sequence)也称字符实体(Character Entity)。
例如:在HTML中,像<span>敏感词</span>中“<span>”这类符号已经用来表示HTML标签,因此就不能直接当做文本中的符号来使用。为了在HTML文档中使用这些符号,就需要定义它的转义字符串。具体可以说,借助VUE框架,在<script>标签内返回html:‘<span>敏感词</span>’,即可对“<span>”进行过滤,提取“敏感词”。
步骤S112、确定转义后的内容中是否包含敏感词汇数据库中存储的敏感词。
具体地,在对编辑器中已编辑内容进行转义处理之后,对转义后的内容与敏感词汇数据库中存储的敏感词进行匹配处理,以确定转义后的内容中是否包含敏感词汇数据库中存储的敏感词。
例如,创建String类型对象text,并将转义后的编辑器内容提取到text对象中;创建ArrayList<String>集合target,并将text对象放置到target集合中;创建查询query查询接口,对敏感词汇数据库中的敏感词汇进行获取,并将获取到的敏感词按上述方法进行分割处理;将分割后的敏感词与集合内的text进行for each遍历循环,获取text与敏感词相匹配的词汇。
本申请实施例的另一种可能的实现方式,步骤12具体可以包括步骤S121(图中未示出)以及步骤S122(图中未示出),其中,
步骤S121、通过正则表达式将分割后的敏感词汇与已编辑内容进行匹配。
具体地,在本申请实施例中,通过正则表达式将分割后的敏感词汇与已编辑内容进行匹配,具体可以说,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
例如:^核,这个模式包含一个特殊的字符^,表示该模式只匹配那些以核开头的字符串。例如该模式与字符串"核武器"匹配,与"重核武器"不匹配;正如如^符号表示开头一样,$符号用来匹配那些以给定模式结尾的字符串,例如:弹$,这个模式与字符串"核导弹"匹配,与"核弹头"不匹配。字符^和$同时使用时,表示精确匹配(字符串与模式一样)。
步骤S122、在已编辑内容中将匹配成功的词汇进行标注处理。
具体地,在对已编辑内容中与分割处理后的敏感词相匹配的字段进行标注处理,在本申请实施例中,标注处理的格式并不限定,例如,可以标红处理或者下划线标注处理。
例如:^核武器$,表征只匹配字符串"核武器",在转义后的内容中将匹配成功的词汇进行标注处理,具体可以说,获取相匹配字段,并通过修改文本Style中Color,对敏感词汇通过字体颜色标红进行标注处理,例如,‘<span style=“color:red”>{匹配字段}</span>’。
本申请实施例的一种可能的实现方式,步骤S13具体可以包括步骤S131(图中未示出),其中,
步骤131、控制标注处理后的内容以及编辑器中已编辑内容通过各自对应窗口同时显示。
对于本申请实施例,在对转义处理后的内容进行标注处理之后,控制标注处理后的内容以及原编辑器中已编辑内容分别通过不同的窗口显示。例如,标注处理后的内容通过A窗口进行显示,同时,编辑器中已编辑内容通过B窗口(原编辑器窗口)进行显示。
具体地,步骤S131具体还可以包括:由于起始页面包含有编辑器窗口,因此只需再创建一个新的窗口用于盛放标注处理后的内容即可,引用JFrame类的方法进行窗口的创建,例如,JFrame jf=new JFrame(),然后去掉窗口边框,并设置窗口背景为透明,方便添加标记处理后的内容,例如,jf.setUndecorated(true),将标注处理后的内容set到窗口内进行显示。
本申请实施例的另一种可能的实现方式,步骤S13之后还可以包括步骤S1(图中未示出)、步骤S2(图中未示出)以及步骤S3(图中未示出),其中,
步骤S1、当检测到第一窗口移动时,确定第一窗口移动后的位置信息。
对于本申请实施例,用户可以触发第一窗口在显示屏上进行移动。在本申请实施例中,电子设备实时监测第一窗口的移动,并确定第一窗口移动后的位置信息。
步骤S2、基于第一窗口移动后的位置信息确定第二窗口移动后的位置信息。
其中,第一窗口为编辑器中已编辑内容对应的显示窗口或者标注处理后的内容对应的显示窗口;第二窗口为标注处理后的内容对应的显示窗口或者编辑器中已编辑内容对应的显示窗口。也就是说,若第一窗口为编辑器中已编辑内容对应的显示窗口,则第二窗口为标注处理后的内容对应的显示窗口;若第一窗口为标注处理后的内容对应的显示窗口,则第二窗口为编辑器中已编辑内容对应的显示窗口。
进一步地,在检测到第一窗口发生移动并确定出第一窗口的移动位置之后,确定第二窗口的移动位置,以使得第一窗口和第二窗口在移动处理后仍不发生重叠。
进一步地,在本申请实施例中,当检测到第一窗口发生移动时,实时确定第一窗口的移动方式,并基于第一窗口的移动方式确定第二窗口的移动方式,进而通过确定出的第二窗口的移动方式控制第二窗口进行移动。例如,第二窗口的移动方式可以与第一窗口的移动方式相同。
步骤S3、基于第一窗口移动后的位置信息以及第二窗口移动后的位置信息,控制第一窗口和第二窗口在各自对应的位置进行显示。
具体地,在本申请实施例中服务器调用get_warnword_button点击事件,用户点击后在第一窗口右侧添加悬浮的第二窗口,同时依次调用上述中的_getFilteredContents与_getDealedWarnWord方法进行字符串预处理,将处理完后的字符串通过正则正则表达式匹配等技术标红并显示在第二窗口中,并且调用ImageFilter方法对已编辑内容中的图片进行比例调整,防止因图片尺寸过大引起页面出现样式问题。第二窗口基于第一窗口在进行移动时,第二窗口设置对第一窗口位置信息进行监听的监听器,监听器通过监听到的第一窗口的位置信息值,第二窗口进行跟踪第一窗口移动。
例如,第二窗口的初始位置紧贴于第一窗口右侧,在第一窗口进行左移时5cm时,第二窗口的监听器对第一窗口的起始位置与现处位置进行监听,并将监听到的位置信息反馈到服务器,服务器调告知前台对第二窗口进行相应位置移动,使得第二窗口向左移动5cm。
进一步地,在本申请实施例中,该方法还可以包括:步骤S14(图中未示出),其中,步骤S14可以与步骤S12同时执行,也可以在步骤S12之后执行,另外,步骤S14与其他步骤之间的执行顺序不做限定,任何可能的执行顺序均在本申请实施例的保护范围之内。
步骤S14,确定已编辑内容中包含的敏感词的数量,并控制显示已编辑内容中包含的敏感词的数量。
具体地,在本申请实施例中服务器对编辑内容中的出现的已标注的敏感词汇数量进行扫描统计,并将统计的数量以String类型的参数形式传到控制层(controller), 终端设备调用服务器相对应控制层(controller),并接收对应参数,终端对参数进行视图渲染处理,显示在显示器上。
上述实施例从方法流程的角度介绍一种敏感词汇标注的方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种敏感词汇标注的装置,具体详见下述实施例。
本申请实施例提供一种敏感词汇标注的装置,如图2所示,该敏感词汇标注的装置20具体可以包括:第一获取模块21、第一确定模块22、第二确定模块23、标注处理模块24以及第一控制显示模块25,其中,
第一获取模块21,用于当检测到用户触发的敏感词汇检测指令时,根据敏感词汇检测指令获取编辑器中已编辑内容;
第一确定模块22,用于确定已编辑内容中是否包含敏感词汇数据库中存储的敏感词;
第二确定模块23,用于当已编辑内容中包含敏感词汇数据库中存储的敏感词时,确定已编辑内容中包含的敏感词;
标注处理模块24,用于对已编辑内容中包含的敏感词进行标注处理;
第一控制显示模块25,用于控制显示标注处理后的内容。
本申请实施例中的另一种可能的实现方式,装置20还包括:第一过滤模块以及第二过滤模块,其中,
第一过滤模块,用于通过调用预先设定工具类对已编辑内容中属于预设属性的内容进行过滤;
第二过滤模块,用于通过正则表达式将过滤后的已编辑内容进行特殊符号过滤。
本申请实施例中的另一种可能的实现方式,第一确定模块22在确定已编辑内容中是否包含敏感词汇数据库中存储的敏感词时,具体用于:
将特殊符号过滤后已编辑内容进行转义处理,得到转义后的内容;
确定转义后的内容中是否包含敏感词汇数据库中存储的敏感词;
其中,第二确定模块23在确定已编辑内容中包含的敏感词时,具体用于:
确定转义后的内容中包含的敏感词;
标注处理模块在对已编辑内容中包含的敏感词进行标注处理时,具体用于:
对转义后的内容中包含的敏感词进行标注处理。
本申请实施例中的另一种可能的实现方式,装置20还包括:第二获取模块以及分割处理模块,其中,
第二获取模块,用于获取敏感词汇数据库中存储的敏感词汇;
分割处理模块,用于对敏感词汇进行分割处理;
其中,第二确定模块23在确定已编辑内容中包含的敏感词时,具体用于:通过正则表达式将分割后的敏感词汇与已编辑内容进行匹配;
标注处理模块在对已编辑内容中包含的敏感词进行标注处理时,具体用于:
在已编辑内容中将匹配成功的词汇进行标注处理。
本申请实施例中的另一种可能的实现方式,第一控制显示模块25在控制显示标注处理后的内容时,具体用于:
控制标注处理后的内容以及编辑器中已编辑内容通过各自对应窗口同时显示。
本申请实施例中的另一种可能的实现方式,装置20还包括:第三确定模块、第四确定模块以及第二控制显示模块,其中,
第三确定模块,用于当检测到第一窗口移动时,确定第一窗口移动后的位置信息;
第四确定模块,用于基于第一窗口移动后的位置信息确定第二窗口移动后的位置信息;
第二控制显示模块,用于基于第一窗口移动后的位置信息以及第二窗口移动后的位置信息,控制第一窗口和第二窗口在各自对应的位置进行显示;
其中,第一窗口为编辑器中已编辑内容对应的显示窗口或者标注处理后的内容对应的显示窗口;第二窗口为标注处理后的内容对应的显示窗口或者编辑器中已编辑内容对应的显示窗口。
本申请实施例中的另一种可能的实现方式,装置20还包括:第五确定模块以及第三控制显示模块,其中,
第五确定模块,用于确定已编辑内容中包含的敏感词的数量;
第三控制显示模块,用于控制显示已编辑内容中包含的敏感词的数量。
具体地,第一获取模块21和第二获取模块可以为相同的获取模块,也可以为不同的获取模块;第一确定模块22、第二确定模块23、第三确定模块、第四确定模块以及第五确定模块可以均为相同的模块,也可以均为不同的模块,也可以部分为相同的模块;第一控制显示模块25、第二控制显示模块以及第三控制显示模块可以均为相同的模块,也可以均为不同的模块,也可以部分为不同的模块;第一过滤模块和第二过滤模块可以为相同的模块,也可以为不同的模块;在本申请实施例中不作限定。
本申请实施例提供了一种敏感词汇标注的装置,在本申请实施例中,在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对确定的敏感词汇进行标注,控制显示标注处理后的编辑器内容,以使得工作人员能够参照标注处理后的编辑器内容对已编辑内容中包含的敏感词进行调整,从而可以降低审核时间和人力成本的浪费,进而可以提高审核效率,以及提升用户体验。
本申请实施例提供了一种敏感词标注的装置,适用于上述方法实施例,在此不再赘述。
本申请实施例中提供了一种电子设备,如图3所示,图3所示的电子设备300包括:处理器301和存储器303。其中,处理器301和存储器303相连,如通过总线302相连。可选地,电子设备300还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该电子设备300的结构并不构成对本申请实施例的限定。
处理器301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线可包括一通路,在上述组件之间传送信息。总线302可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器303可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器303用于存储执行本申请方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例在在对编辑器内容进行敏感词汇检测标注时,根据获取的编辑器内容词汇与敏感词汇数据库中存储的敏感词汇进行对比匹配,确定编辑器内容中所包含的敏感词汇,并对确定的敏感词汇进行标注,控制显示标注处理后的编辑器内容,以使得工作人员能够参照标注处理后的编辑器内容对已编辑内容中包含的敏感词进行调整,从而可以降低审核时间和人力成本的浪费,进而可以提高审核效率,以及提升用户体验。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种敏感词汇标注的方法,其特征在于,包括:
当检测到用户触发的敏感词汇检测指令时,根据所述敏感词汇检测指令获取编辑器中已编辑内容;
确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词;
若包含,则确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理;
控制显示标注处理后的内容。
2.根据权利要求1所述的方法,其特征在于,所述确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词,之前还包括:
通过调用预先设定工具类对所述已编辑内容中属于预设属性的内容进行过滤;
通过正则表达式将过滤后的已编辑内容进行特殊符号过滤。
3.根据权利要求2所述的方法,其特征在于,所述确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词,包括:
将特殊符号过滤后已编辑内容进行转义处理,得到转义后的内容;
确定所述转义后的内容中是否包含所述敏感词汇数据库中存储的敏感词;
其中,所述确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理,包括:
确定所述转义后的内容中包含的敏感词,并对所述转义后的内容中包含的敏感词进行标注处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词,之前还包括:
获取所述敏感词汇数据库中存储的敏感词汇,并对所述敏感词汇进行分割处理;
其中,所述确定所述已编辑内容中包含的敏感词,并对所述已编辑内容中包含的敏感词进行标注处理,包括:
通过正则表达式将分割后的敏感词汇与所述已编辑内容进行匹配;
在所述已编辑内容中将匹配成功的词汇进行标注处理。
5.根据权利要求1所述的方法,其特征在于,所述控制显示标注处理后的内容,包括:
控制所述标注处理后的内容以及所述编辑器中已编辑内容通过各自对应窗口同时显示。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当检测到第一窗口移动时,确定第一窗口移动后的位置信息;
基于所述第一窗口移动后的位置信息确定第二窗口移动后的位置信息;
基于所述第一窗口移动后的位置信息以及第二窗口移动后的位置信息,控制所述第一窗口和所述第二窗口在各自对应的位置进行显示;
其中,所述第一窗口为所述编辑器中已编辑内容对应的显示窗口或者所述标注处理后的内容对应的显示窗口;所述第二窗口为所述标注处理后的内容对应的显示窗口或者所述编辑器中已编辑内容对应的显示窗口。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述已编辑内容中包含的敏感词的数量,并控制显示所述已编辑内容中包含的敏感词的数量。
8.一种敏感词汇标注的装置,其特征在于,包括:
获取模块,用于当检测到用户触发的敏感词汇检测指令时,根据所述敏感词汇检测指令获取编辑器中已编辑内容;
第一确定模块,用于确定所述已编辑内容中是否包含敏感词汇数据库中存储的敏感词;
第二确定模块,用于当所述已编辑内容中包含敏感词汇数据库中存储的敏感词时,确定所述已编辑内容中包含的敏感词;
标注处理模块,用于对所述已编辑内容中包含的敏感词进行标注处理;
控制显示模块,用于控制显示标注处理后的内容。
9.一种电子设备,其特征在于,其包括:
一个或者多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述
存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~7任一项所述的敏感词汇标注的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述的敏感词汇标注的方法。
CN202110599568.XA 2021-05-31 2021-05-31 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质 Pending CN113392624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599568.XA CN113392624A (zh) 2021-05-31 2021-05-31 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599568.XA CN113392624A (zh) 2021-05-31 2021-05-31 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113392624A true CN113392624A (zh) 2021-09-14

Family

ID=77619647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599568.XA Pending CN113392624A (zh) 2021-05-31 2021-05-31 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113392624A (zh)

Similar Documents

Publication Publication Date Title
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
US8671389B1 (en) Web application resource manager on the web and localizable components
CN108804469B (zh) 一种网页识别方法以及电子设备
CN110968808A (zh) 一种实现网页主题更新的方法及装置
CN111695518A (zh) 结构化文档信息标注的方法、装置及电子设备
CN115758451A (zh) 基于人工智能的数据标注方法、装置、设备及存储介质
CN109871205B (zh) 界面代码调整方法、装置、计算机装置及存储介质
CN112418875B (zh) 跨平台税务智能客服语料迁移方法及装置
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN112784189A (zh) 一种识别页面图像的方法和装置
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN113392624A (zh) 敏感词汇标注的方法、装置、电子设备及计算机可读存储介质
CN113791860B (zh) 一种信息转换方法、装置和存储介质
CN115437930A (zh) 网页应用指纹信息的识别方法及相关设备
CN113742501A (zh) 一种信息提取方法、装置、设备、及介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN113641933B (zh) 异常网页识别方法、异常站点识别方法及装置
CN113176878B (zh) 自动查询方法、装置和设备
CN115857906B (zh) 低代码图表生成的方法、系统、电子设备及介质
CN111338941B (zh) 信息处理方法和装置、电子设备和存储介质
US20240054174A1 (en) Methods and systems for obtaining and storing web pages
CN116451710A (zh) 文案漏译检测方法、设备和存储介质
CN115527230A (zh) 信息提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination