CN115422923A - 一种敏感词检测规则的生成方法、生成装置和电子设备 - Google Patents

一种敏感词检测规则的生成方法、生成装置和电子设备 Download PDF

Info

Publication number
CN115422923A
CN115422923A CN202211198788.2A CN202211198788A CN115422923A CN 115422923 A CN115422923 A CN 115422923A CN 202211198788 A CN202211198788 A CN 202211198788A CN 115422923 A CN115422923 A CN 115422923A
Authority
CN
China
Prior art keywords
sensitive word
target
expansion
rule
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211198788.2A
Other languages
English (en)
Inventor
黄山姗
吴明辉
李采彧
李莹莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202211198788.2A priority Critical patent/CN115422923A/zh
Publication of CN115422923A publication Critical patent/CN115422923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种敏感词检测规则的生成方法、生成装置和电子设备,该生成方法包括:获取用于表征敏感词检测需求的至少一个目标敏感词;响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。根据所述生成方法和生成装置,解决了现有技术中创建的敏感词检测规则中的敏感词不全面的问题。

Description

一种敏感词检测规则的生成方法、生成装置和电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种敏感词检测规则的生成方法、生成装置和电子设备。
背景技术
随着互联网技术的发展,终端(手机、电脑、平板电脑等)已被大众广泛使用,人们可以使用终端中的各类购物软件进行商品咨询和商品下档等。企业在管理客服与客户的对话中,期望约束客服人员的话术行为,避免在与客户沟通的过程中出现语言违规的情况,导致客户对于服务不满。
当前,企业的管理人员可以基于一些敏感词在客服与客户的聊天文本中查验出敏感内容,并进行提示或拦截操作。然而,这样的方式仅支持敏感词的绝对匹配,管理人员录入的敏感词需要与聊天文本中的词完全匹配时才能生效,并且在敏感词录入过程中没有辅助功能可扩展同音词或同义词等,因此会遗漏很多场景。并且,由于敏感词的形式多样,导致对敏感词的查验全面性较低,因此,如何生成对聊天文本中敏感词检测更加全面的检测规则,成为亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种敏感词检测规则的生成方法、生成装置和电子设备,通过用户选择的目标敏感词扩展规则对用户输入的目标敏感词进行敏感词扩展,得到每个目标敏感词对应的目标扩展敏感词集合,并利用每个目标敏感词以及每个目标扩展敏感词集合中的每个目标扩展敏感词生成敏感词检测规则,提高了生成的敏感词检测规则中敏感词的全面性。
第一方面,本申请实施例提供了一种敏感词检测规则的生成方法,所述生成方法包括:
获取用于表征敏感词检测需求的至少一个目标敏感词;
响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
进一步的,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母;
基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述拼音扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母;
基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字;
若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字;
使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字;
若该文字为繁体,将该文字转换为简体,得到所述第一目标文字;
将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述火星文扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;
将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述多语言扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的至少一个候选扩展敏感词集合,包括:
针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词;
响应于所述用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,当所述目标敏感词扩展规则为所述同义词扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
获取至少一个同义词来源类型;
针对于每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词;
响应于用户对于至少一个同义敏感词的选择操作,确定出至少一个目标同义敏感词,并将至少一个目标同义敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,在所述获取用于表征敏感词检测需求的至少一个目标敏感词之前,所述生成方法还包括:
获取所述用户输入的目标检测规则名称。
进一步的,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
确定所述敏感词检测规则中存在的所述目标扩展敏感词的敏感词数量;
判断所述敏感词数量是否大于预设的敏感词规定数量;
若是,则基于所述敏感词数量与所述敏感词规定数量对所述敏感词检测规则进行拆分,以得到所述敏感词检测规则对应的多个敏感词检测子规则;
将所述多个敏感词检测子规则和所述规则名称以从属关系显示在用户界面上。
进一步的,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
获取预设的至少一个部门名称以及每个部门内的至少一个员工姓名;
响应所述用户对于至少一个部门名称和/或至少一个员工姓名的选择操作,确定出至少一个目标部门和/或至少一个目标员工;
将至少一个目标部门中的每个员工和/或至少一个目标员工确定为所述敏感词检测规则的适用人员,以使用所述敏感词检测规则对所述适用人员的会话文本进行敏感词检测。
第二方面,本申请实施例还提供了一种敏感词检测规则的生成装置,所述生成装置包括:
获取模块,用于获取用于表征敏感词检测需求的至少一个目标敏感词;
目标敏感词扩展规则确定模块,用于响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
候选扩展敏感词集合确定模块,用于针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
目标扩展敏感词集合确定模块,用于针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
敏感词检测规则生成模块,用于基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的敏感词检测规则的生成方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的敏感词检测规则的生成方法的步骤。
本申请实施例提供的敏感词检测规则的生成方法,首先,获取用于表征敏感词检测需求的至少一个目标敏感词;然后,响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;最后,基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
与现有技术中的检测规则生成方法相比,本申请通过用户选择的目标敏感词扩展规则对用户输入的目标敏感词进行敏感词扩展,得到每个目标敏感词对应的目标扩展敏感词集合,并利用每个目标敏感词以及每个目标扩展敏感词集合中的每个目标扩展敏感词生成敏感词检测规则,提高了生成的敏感词检测规则中敏感词的全面性,解决了现有技术中创建的敏感词检测规则中的敏感词不全面的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种敏感词检测规则的生成方法的流程图;
图2为本申请实施例所提供的一种敏感词检测规则的生成装置的结构示意图;
图3为本申请实施例所提供的另一种敏感词检测规则的生成装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
随着互联网技术的发展,终端(手机、电脑、平板电脑等)已被大众广泛使用,人们可以使用终端中的各类购物软件进行商品咨询和商品下档等。企业在管理客服与客户的对话中,期望约束客服人员的话术行为,避免在与客户沟通的过程中出现语言违规的情况,导致客户对于服务不满。
当前,企业的管理人员可以基于一些敏感词在客服与客户的聊天文本中查验出敏感内容,并进行提示或拦截操作。然而,这样的方式仅支持敏感词的绝对匹配,管理人员录入的敏感词需要与聊天文本中的词完全匹配时才能生效,并且在敏感词录入过程中没有辅助功能可扩展同音词或同义词等,因此会遗漏很多场景。并且,由于敏感词的形式多样,导致对敏感词的查验全面性较低,因此,如何生成对聊天文本中敏感词检测更加全面的检测规则,成为亟待解决的问题。
基于此,本申请实施例提供了一种敏感词检测规则的生成方法,解决了现有技术中创建的敏感词检测规则中的敏感词不全面的问题。
请参阅图1,图1为本申请实施例所提供的一种敏感词检测规则的生成方法的流程图。如图1中所示,本申请实施例提供的敏感词检测规则的生成方法,包括:
S101,获取用于表征敏感词检测需求的至少一个目标敏感词。
需要说明的是,敏感词检测需求指的是用户提出的,对会话文本进行敏感词检测的需求。例如,敏感词检测需求可以是服务态度敏感词检测、售卖话术敏感词检测和收益描述敏感词检测等,对此本申请不做具体限定。目标敏感词指的是用户输入的,想要进行扩展的敏感词。例如,当敏感词检测需求为服务态度检测时,目标敏感词可以为“顾客”、“出去”或“不卖了”等任意一个用户输入的词。
这里,应注意,上述对于敏感词检测需求和目标敏感词的举例仅为实例,实际中,敏感词检测需求和目标敏感词不限于上述例子。
针对上述步骤S101,在具体实施时,获取用户输入的,用于表征敏感词检测需求的至少一个目标敏感词。
作为一种可选的实施方式,在所述获取用于表征敏感词检测需求的至少一个目标敏感词之前,所述生成方法还包括:
获取所述用户输入的目标检测规则名称。
需要说明的是,目标检测规则名称指的是用户输入的,最终生成的敏感词检测规则的名称。
针对该步骤,在具体实施时,获取用户输入的目标检测规则名称。例如,延续步骤S101中的实施例,当敏感检测需求为服务态度检测,那么用户输入的目标检测规则名称可以为“服务态度敏感词检测规则”。
S102,响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则。
需要说明的是,预设敏感词扩展规则指的是预先设定好的,用于对用户输入的目标敏感词进行扩展的规则。根据本申请提供的实施例,预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则。这里,首字母扩展规则指的是利用目标敏感词的拼音首字母对目标敏感词进行扩展。拼音扩展规则指的是利用目标敏感词的拼音对目标敏感词进行扩展。拆字扩展规则指的是利用目标敏感词的偏旁部首对目标敏感词进行扩展。简繁体扩展规则指的是对目标敏感词中的文字进行简繁体转换,以实现对目标敏感词的扩展。火星文扩展规则指的是对目标敏感词中的文字进行火星文转换,以实现对目标敏感词的扩展。多语言扩展规则指的是对目标敏感词进行多语言转换,以实现对目标敏感词的扩展。同义词扩展规则指的是利用不同的同义词来源类型对目标敏感词进行扩展。目标敏感词扩展规则指的是用户选择的、上述预设敏感词扩展规则中的任意一个或多个扩展规则。
针对上述步骤S102,在具体实施时,响应于用户对于预设敏感词扩展规则的选择操作,将用户选择的至少一个预设敏感词扩展规则确定为至少一个目标敏感词扩展规则。
S103,针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合。
需要说明的是,候选扩展敏感词指的是按照目标敏感词扩展规则对目标敏感词进行扩展得到的,与目标敏感词具有关联关系的词。候选扩展敏感词集合指的是对目标敏感词进行扩展后得到的包含多个候选扩展敏感词的集合。这里,候选扩展敏感词集合中包括至少一个与目标敏感词具有关联关系的候选扩展敏感词。
针对上述步骤S103,在具体实施时,在步骤S102确定出至少一个目标敏感词扩展规则后,针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对用户输入的每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,候选扩展敏感词集合中包括至少一个与目标敏感词具有关联关系的候选扩展敏感词。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母。
需要说明的是,目标敏感词中每个文字指的是目标敏感词中所包含的每个汉字。例如,当目标敏感词为“顾客”时,该目标敏感词中的每个文字则为“顾”和“客”。拼音字母指的是该目标敏感词中的每个文字对应的拼音。例如,当文字为“顾”时,拼音字母为“gu”,当文字为“客”时,则拼音字母为“ke”。拼音字母中的首字母则是每一个文字对应的拼音中的第一个字母。例如,当文字为“顾”时,拼音字母中的首字母为“g”,当文字为“客”时,则拼音字母中的首字母为“k”。
针对上述步骤,在具体实施时,针对于用户输入的每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母。
基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词。
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
需要说明的是,预设词汇库指的是用于存储各个预设词汇的数据库,预设词汇则是现有词典中存在的词汇。在首字母扩展规则中,候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同。
针对上述两个步骤,在具体实施时,基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词。例如,延续上一实施例,当目标敏感词为“顾客”时,该目标敏感词中每个文字的拼音字母中的首字母为“gk”,则根据拼音首字母在预设词汇库中获取至少一个候选扩展敏感词,以使候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同,例如“公开”、“管控”、“观看”等候选扩展敏感词。在至少一个候选扩展敏感词确定出之后,将确定出的至少一个候选扩展敏感词进行汇总,以得到与该目标敏感词具有关联关系的候选扩展敏感词集合。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述拼音扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母。
针对上述步骤,在具体实施时,延续上一实施例,当目标敏感词为“顾客”时,该目标敏感词中每个文字的拼音字母为“guke”。
基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词。
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
需要说明的是,在拼音扩展规则中候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同。
针对上述两个步骤,在具体实施时,基于该目标敏感词中每个文字的拼音字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词。例如,延续上一实施例,当目标敏感词为“顾客”时,该目标敏感词中每个文字的拼音字母“guke”,则根据拼音字母在预设词汇库中获取至少一个候选扩展敏感词,以使候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同,例如“骨科”、“谷壳”、“古柯”等候选扩展敏感词。在至少一个候选扩展敏感词确定出之后,将确定出的至少一个候选扩展敏感词进行汇总,以得到与该目标敏感词具有关联关系的候选扩展敏感词集合。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字。
若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字。
使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合。
需要说明的是,偏旁部首的拆分指的是将文字按照携带的偏旁部首进行拆分。文字对应的拆分字指的是对文字进行偏旁部首的拆分后得到的字。在拆字扩展规则中,候选扩展敏感词是对目标敏感词进行偏旁部首的拆分后得到的扩展词,由目标敏感词中每个文字的偏旁部首组成。
针对上述三个步骤,在具体实施时,针对于每个目标敏感词中的每个文字,首先判断该文字是否为带偏旁部首的汉字。例如,当目标敏感词为“和谐”时,该目标敏感词中的每个文字均为带偏旁部首的文字。这时将该目标敏感词中的每个文字进行偏旁部首的拆分,以得到每个文字对应的拆分字。例如,目标敏感词中的“和”字,进行偏旁部首的拆分后,得到该文字对应的拆分字为“禾”和“口”;目标敏感词中的“谐”字,进行偏旁部首的拆分后,得到该文字对应的拆分字为“讠”和“皆”。然后使用拆分后的拆分字替换该目标敏感词中的文字,以得到与该目标敏感词具有关联关系的候选扩展敏感词“禾口讠皆”。并根据确定出的候选扩展敏感词确定候选扩展敏感词集合,候选扩展敏感词集合中包括候选扩展敏感词“禾口讠皆”。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字。
若该文字为繁体,将该文字转换为简体,得到所述第一目标文字。
将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合。
需要说明的是,第一目标文字指的是对目标敏感词中的每个文字进行简繁体转换后得到的文字。在简繁体扩展规则中,候选扩展敏感词是对目标敏感词中每个文字进行简繁体转换后得到的词。
针对上述三个步骤,在具体实施时,针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,若该文字为繁体,将该文字转换为简体,得到每个第一目标文字。将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词。并根据确定出的候选扩展敏感词确定候选扩展敏感词集合。例如,当目标敏感词为“和谐”时,对该目标敏感词中的每个文字进行简繁体转换后得到的第一目标文字为“和”和“諧”。并将每个第一目标文字进行组合,以得到与该目标敏感词具有关联关系的候选扩展敏感词“和諧”。并根据确定出的候选扩展敏感词确定候选扩展敏感词集合,候选扩展敏感词集合中包括候选扩展敏感词“和諧”。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述火星文扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;
将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合。
需要说明的是,第二目标文字指的是对目标敏感词中的每个文字进行火星文转换后得到的文字。在火星文扩展规则中,候选扩展敏感词是对目标敏感词中每个文字进行火星文转换后得到的词。
针对上述两个步骤,在具体实施时,针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字,例如,当目标敏感词为“京东”时,将该目标敏感词中的每个文字进行火星文转换,得到转换后的目标文字“倞”和“崬”。然后将每个第二目标文字进行组合,以得到与该目标敏感词具有关联关系的候选扩展敏感词“倞崬”。并根据确定出的候选扩展敏感词确定候选扩展敏感词集合,候选扩展敏感词集合中包括候选扩展敏感词“倞崬”。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述多语言扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的至少一个候选扩展敏感词集合,包括:
针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词。
响应于所述用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词。
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
需要说明的是,预设语言类型指的是预设的,可以对目标敏感词进行语言转换的语言类型。根据本申请提供的实施例,例如,预设语言类型可以包括英语、日语和韩语等等,对此本申请不做具体限定。多语言敏感词指的是根据预设语言类型对目标敏感词进行转换后得到的词。目标语言类型指的是用户选择的,预设语言类型中的任意一个或多个语言类型。在多语言扩展规则中,候选扩展敏感词是利用预设语言类型对目标敏感词进行转换后得到的词。
针对上述三个步骤,在具体实施时,针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词。例如,当目标敏感词为“顾客”时,预设语言类型为英语时,对该目标敏感词进行转换,得到的多语言敏感词为“customer”。响应于用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词。例如,当用户选择的预设语言类型为英语和日语时,则将英语下的多语言敏感词“customer”以及日语下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词。再将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
作为一种可选的实施方式,当所述目标敏感词扩展规则为所述同义词扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
获取至少一个同义词来源类型。
针对于每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词。
响应于用户对于至少一个同义敏感词的选择操作,确定出至少一个目标同义敏感词,并将至少一个目标同义敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词。
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
需要说明的是,同义词来源类型指的是预先设定好的,与目标敏感词相关的同义敏感词的来源。根据本申请提供的实施例,同义词来源类型可以包括金融行业、保险行业、学习词汇等,对此本申请不做具体限定。同义敏感词指的是利用同义词来源类型对目标敏感词进行扩展后得到的敏感词。例如,当目标敏感词为“保本”,同义词来源类型为金融行业时,该目标敏感词对应的至少一个同义敏感词可以为“保收益”、“稳赚不赔”和“本息100%安全”等;当同义词来源类型为学习词汇时,该目标敏感词对应的至少一个同义敏感词可以为“绝对保障收益”等。目标同义敏感词指的是用户选择的,同义敏感词中的任意一个或多个敏感词。
针对上述四个步骤,在具体实施时,获取预设的至少一个同义词来源类型。针对于用户输入的每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词。响应于用户对于至少一个同义敏感词的选择操作,确定出至少一个目标同义敏感词,并将用户选择的至少一个目标同义敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词。将至少一个候选扩展敏感词进行汇总,以得到与该目标敏感词具有关联关系的候选扩展敏感词集合。
S104,针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合。
需要说明的是,目标扩展敏感词集合指的是用户在至少一个候选扩展敏感词集合中选择的任意一个或多个候选扩展敏感词集合。
针对上述步骤S104,在具体实施时,针对于每个目标敏感词,响应于用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,确定出该目标敏感词对应的至少一个目标扩展敏感词集合。
S105,基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
需要说明的是,目标扩展敏感词指的是目标扩展敏感词集合中所携带的每个扩展敏感词。敏感词检测规则指的是最终生成的,用于检测会话文本里是否带有敏感词的检测规则。
针对上述步骤S105,在具体实施时,在每个目标敏感词对应的至少一个目标扩展敏感词集合确定出后,利用用户输入的每个敏感词,以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成敏感词检测需求对应的敏感词检测规则。具体的,如何利用敏感词生成对应的敏感词检测规则在现有技术中有详细说明,在此不再赘述。
作为一种可选的实施方式,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
A:确定所述敏感词检测规则中存在的所述目标扩展敏感词的敏感词数量。
B:判断所述敏感词数量是否大于预设的敏感词规定数量。
C:若是,则基于所述敏感词数量与所述敏感词规定数量对所述敏感词检测规则进行拆分,以得到所述敏感词检测规则对应的多个敏感词检测子规则。
D:将所述多个敏感词检测子规则和所述规则名称以从属关系显示在用户界面上。
需要说明的是,敏感词数量指的是生成的敏感词检测规则中存在的目标扩展敏感词的数量。敏感词规定数量指的是预先规定好的,每条敏感词检测规则中可携带的目标扩展敏感词的最大数量,例如,可以设定敏感词规定数量为10个,对此本申请不做具体限定。敏感词检测子规则指的是指的是对敏感词检测规则进行拆分后得到的子规则。用户界面指的是用户显示敏感词检测规则和规则名称的界面。
针对上述步骤A-步骤D,在具体实施时,在敏感词检测规则生成后,确定所述敏感词检测规则中存在的所述目标扩展敏感词的敏感词数量。并判断敏感词数量是否大于预设的敏感词规定数量。若是,则执行上述步骤C,基于所述敏感词数量与所述敏感词规定数量对所述敏感词检测规则进行拆分,以得到所述敏感词检测规则对应的多个敏感词检测子规则。例如,当敏感词检测规则中存在的目标扩展敏感词的敏感词数量为16个时,预设的敏感词规定数量为10个,这时需要对生成的敏感词检测规则进行拆分,以使得到的每个敏感词检测子规则中的敏感词数量小于或等于预设的敏感词规定数量。具体的,可以将敏感词检测规则拆分为两个敏感词检测子规则,每个敏感词检测子规则中的敏感词数量为8个,也可以将将敏感词检测规则拆分为两个敏感词检测子规则,第一个敏感词检测子规则中的敏感词数量为10个,第一个敏感词检测子规则中的敏感词数量为6个,具体的拆分方式本申请不做具体限定。然后将多个敏感词检测子规则和规则名称以从属关系显示在用户界面上,以便于用户根据规则名称对各个敏感词检测子规则进行查看。
作为一种可选的实施方式,本申请提供的敏感词检测规则的生成方法还包括:判断多个敏感词检测子规则中敏感词总数量是否大于企业微信敏感词管理的接口限制数量,若是,则需要在用户界面上显示提示信息,提醒用户当前敏感词数量过多。
若接收到用户对于任意一个敏感词检测规则或敏感词检测子规则的编辑操作,则在用户界面中显示用户选择的敏感词检测规则或敏感词检测子规则中包含的全部目标扩展敏感词,以使用户对任意一个目标扩展敏感词进行修改或删除。
作为一种可选的实施方式,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
a:获取预设的至少一个部门名称以及每个部门内的至少一个员工姓名。
b:响应所述用户对于至少一个部门名称和/或至少一个员工姓名的选择操作,确定出至少一个目标部门和/或至少一个目标员工。
c:将至少一个目标部门中的每个员工和/或至少一个目标员工确定为所述敏感词检测规则的适用人员,以使用所述敏感词检测规则对所述适用人员的会话文本进行敏感词检测。
需要说明的是,目标部门指的是用户选择的,企业中的任意一个或多个部门。目标员工指的是用户选择的,企业中的任意一个或多个员工。适用人员指的是需要使用生成的敏感词检测规则进行检测的人员。会话文本指的是适用人员在使用终端进行通信时所产生的会话文本。这里,会话文本可以是文字沟通会话文本,也可以是语音沟通会话文本,对此本申请不做具体限定。
针对上述步骤a-步骤c,获取预设的至少一个部门名称以及每个部门内的至少一个员工姓名。响应用户对于至少一个部门名称和/或至少一个员工姓名的选择操作,确定出用户选择的至少一个目标部门和/或至少一个目标员工。将至少一个目标部门中的每个员工和/或至少一个目标员工确定为敏感词检测规则的适用人员,以使用敏感词检测规则对适用人员的会话文本进行敏感词检测。
作为一种可选的实施方式,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:为所述敏感词检测需求配置对应的提醒方式,根据本申请提供的实施例,提醒方式可以包括向适用人员发送告警提示,以及向适用人员发送告警提示并拦截该适用人员发送的符合敏感词检测规则的会话文本。作为示例,当敏感词检测规则的适用人员确定出后,当检测到适用人员发送了会话文本,则使用该敏感词检测规则对适用人员发送的会话文本进行检测,若检测到会话文本中包含敏感词检测规则中的任意一个目标敏感词或目标扩展敏感词,则根据预设的提醒方式提示该适用人员。
本申请实施例提供的敏感词检测规则的生成方法,首先,获取用于表征敏感词检测需求的至少一个目标敏感词;然后,响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;最后,基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
与现有技术中的检测规则生成方法相比,本申请通过用户选择的目标敏感词扩展规则对用户输入的目标敏感词进行敏感词扩展,得到每个目标敏感词对应的目标扩展敏感词集合,并利用每个目标敏感词以及每个目标扩展敏感词集合中的每个目标扩展敏感词生成敏感词检测规则,提高了生成的敏感词检测规则中敏感词的全面性,解决了现有技术中创建的敏感词检测规则中的敏感词不全面的问题。
请参阅图2、图3,图2为本申请实施例所提供的一种敏感词检测规则的生成装置的结构示意图,图3为本申请实施例所提供的另一种敏感词检测规则的生成装置的结构示意图。如图2中所示,所述生成装置200包括:
获取模块201,用于获取用于表征敏感词检测需求的至少一个目标敏感词;
目标敏感词扩展规则确定模块202,用于响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
候选扩展敏感词集合确定模块203,用于针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
目标扩展敏感词集合确定模块204,用于针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
敏感词检测规则生成模块205,用于基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
进一步的,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母;
基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述拼音扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母;
基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字;
若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字;
使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字;
若该文字为繁体,将该文字转换为简体,得到所述第一目标文字;
将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述火星文扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;
将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述多语言扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词;
响应于所述用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,当所述目标敏感词扩展规则为所述同义词扩展规则时,所述候选扩展敏感词集合确定模块203在用于基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合时,所述候选扩展敏感词集合确定模块203还用于:
获取至少一个同义词来源类型;
针对于每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词;
响应于用户对于至少一个同义敏感词的选择操作,确定出至少一个目标同义敏感词,并将至少一个目标同义敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
进一步的,如图3所示,所述生成装置200还包括目标检测规则名称确定模块206,所述目标检测规则名称确定模块206用于:
获取所述用户输入的目标检测规则名称。
进一步的,如图3所示,所述生成装置200还包括敏感词检测规则拆分模块207,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述敏感词检测规则拆分模块207用于:
确定所述敏感词检测规则中存在的所述目标扩展敏感词的敏感词数量;
判断所述敏感词数量是否大于预设的敏感词规定数量;
若是,则基于所述敏感词数量与所述敏感词规定数量对所述敏感词检测规则进行拆分,以得到所述敏感词检测规则对应的多个敏感词检测子规则;
将所述多个敏感词检测子规则和所述规则名称以从属关系显示在用户界面上。
进一步的,如图3所示,所述生成装置200还包括适用人员确定模块208,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述适用人员确定模块208用于:
获取预设的至少一个部门名称以及每个部门内的至少一个员工姓名;
响应所述用户对于至少一个部门名称和/或至少一个员工姓名的选择操作,确定出至少一个目标部门和/或至少一个目标员工;
将至少一个目标部门中的每个员工和/或至少一个目标员工确定为所述敏感词检测规则的适用人员,以使用所述敏感词检测规则对所述适用人员的会话文本进行敏感词检测。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的敏感词检测规则的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的敏感词检测规则的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种敏感词检测规则的生成方法,其特征在于,所述生成方法包括:
获取用于表征敏感词检测需求的至少一个目标敏感词;
响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
2.根据权利要求1所述的生成方法,其特征在于,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母;
基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述拼音扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母;
基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
3.根据权利要求1所述的生成方法,其特征在于,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字;
若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字;
使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字;
若该文字为繁体,将该文字转换为简体,得到所述第一目标文字;
将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述火星文扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;
将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
当所述目标敏感词扩展规则为所述多语言扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的至少一个候选扩展敏感词集合,包括:
针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词;
响应于所述用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
4.根据权利要求1所述的生成方法,其特征在于,当所述目标敏感词扩展规则为所述同义词扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
获取至少一个同义词来源类型;
针对于每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词;
响应于用户对于至少一个同义敏感词的选择操作,确定出至少一个目标同义敏感词,并将至少一个目标同义敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
5.根据权利要求1所述的生成方法,其特征在于,在所述获取用于表征敏感词检测需求的至少一个目标敏感词之前,所述生成方法还包括:
获取所述用户输入的目标检测规则名称。
6.根据权利要求5所述的生成方法,其特征在于,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
确定所述敏感词检测规则中存在的所述目标扩展敏感词的敏感词数量;
判断所述敏感词数量是否大于预设的敏感词规定数量;
若是,则基于所述敏感词数量与所述敏感词规定数量对所述敏感词检测规则进行拆分,以得到所述敏感词检测规则对应的多个敏感词检测子规则;
将所述多个敏感词检测子规则和所述规则名称以从属关系显示在用户界面上。
7.根据权利要求1所述的生成方法,其特征在于,在所述生成所述敏感词检测需求对应的敏感词检测规则之后,所述生成方法还包括:
获取预设的至少一个部门名称以及每个部门内的至少一个员工姓名;
响应所述用户对于至少一个部门名称和/或至少一个员工姓名的选择操作,确定出至少一个目标部门和/或至少一个目标员工;
将至少一个目标部门中的每个员工和/或至少一个目标员工确定为所述敏感词检测规则的适用人员,以使用所述敏感词检测规则对所述适用人员的会话文本进行敏感词检测。
8.一种敏感词检测规则的生成装置,其特征在于,所述生成装置包括:
获取模块,用于获取用于表征敏感词检测需求的至少一个目标敏感词;
目标敏感词扩展规则确定模块,用于响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
候选扩展敏感词集合确定模块,用于针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
目标扩展敏感词集合确定模块,用于针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
敏感词检测规则生成模块,用于基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的敏感词检测规则的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的敏感词检测规则的生成方法的步骤。
CN202211198788.2A 2022-09-29 2022-09-29 一种敏感词检测规则的生成方法、生成装置和电子设备 Pending CN115422923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211198788.2A CN115422923A (zh) 2022-09-29 2022-09-29 一种敏感词检测规则的生成方法、生成装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211198788.2A CN115422923A (zh) 2022-09-29 2022-09-29 一种敏感词检测规则的生成方法、生成装置和电子设备

Publications (1)

Publication Number Publication Date
CN115422923A true CN115422923A (zh) 2022-12-02

Family

ID=84206844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211198788.2A Pending CN115422923A (zh) 2022-09-29 2022-09-29 一种敏感词检测规则的生成方法、生成装置和电子设备

Country Status (1)

Country Link
CN (1) CN115422923A (zh)

Similar Documents

Publication Publication Date Title
CA3063019C (en) Voice-assisted presentation system
US9524291B2 (en) Visual display of semantic information
CN105183761B (zh) 敏感词替换方法和装置
US12026184B2 (en) Search document information storage device
US20170177180A1 (en) Dynamic Highlighting of Text in Electronic Documents
CN112559672B (zh) 信息检测方法、电子设备及计算机存储介质
US10049108B2 (en) Identification and translation of idioms
JP6442807B1 (ja) 対話サーバ、対話方法及び対話プログラム
US10354013B2 (en) Dynamic translation of idioms
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN107908792B (zh) 信息推送方法和装置
CN115422923A (zh) 一种敏感词检测规则的生成方法、生成装置和电子设备
US20170032484A1 (en) Systems, devices, and methods for detecting firearm straw purchases
US11373039B2 (en) Content context aware message intent checker
JP7298999B2 (ja) 資料作成装置、資料作成システム、資料作成方法及びプログラム
Gawley et al. Comparing the intertextuality of multiple authors using Tesserae: A new technique for normalization
CN111079407A (zh) 对用户输入的内容进行解析的方法和装置
WO2023079647A1 (ja) 相談支援制御装置、方法およびプログラム
JP7273442B1 (ja) 情報処理システム、情報処理方法及びプログラム
US20180165274A1 (en) Identification and Processing of Idioms in an Electronic Environment
CN113504836B (zh) 一种信息输入方法和电子设备
CN113836288B (zh) 一种业务检测结果的确定方法、确定装置和电子设备
WO2021049485A1 (ja) 法律分析装置、及び法律分析方法
JP2018120381A (ja) ソフトウェア素材選定支援装置及びソフトウェア素材選定支援プログラム
CN109359181B (zh) 负面情绪原因识别方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination