CN113486656B - 一种语料生成方法及装置 - Google Patents

一种语料生成方法及装置 Download PDF

Info

Publication number
CN113486656B
CN113486656B CN202110808793.XA CN202110808793A CN113486656B CN 113486656 B CN113486656 B CN 113486656B CN 202110808793 A CN202110808793 A CN 202110808793A CN 113486656 B CN113486656 B CN 113486656B
Authority
CN
China
Prior art keywords
text
violation
keywords
variant
word list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110808793.XA
Other languages
English (en)
Other versions
CN113486656A (zh
Inventor
张江滨
施登亮
赵智源
祝慧佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110808793.XA priority Critical patent/CN113486656B/zh
Publication of CN113486656A publication Critical patent/CN113486656A/zh
Application granted granted Critical
Publication of CN113486656B publication Critical patent/CN113486656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种语料生成方法及装置,该方法包括:获取原始文本;对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,基本关键词对应于违规关键词的正确形态;确定基本关键词的违规要素,并确定出与基本关键词关于违规要素存在关联的关联关键词;对关联关键词进行文本变种,获取变种文本;以变种文本,替换原始文本中的违规关键词,生成语料文本。

Description

一种语料生成方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及一种语料生成方法及装置。
背景技术
在内容安全风险防控体系中,不法产业或不法分子经常会将不合规文本进行音形变异处理,对文本中的部分甚至全部字符进行替换,以达到在不影响阅读的情况下,绕过防控系统,进行违规推广的目的。常规技术中,一般通过积累文本标注数据,构建文本的分类模型,来对这些风险内容进行识别。但是,目前业界在运用上述方法时,仍然存在下面的问题。当不法分子通过文本对抗的方式以图绕过风控体系时,因为文本对抗的组合很多,所以分类模型的原始语料中不会很全面地覆盖所有风险内容的各种变种的形式,这就导致了没有出现在语料中的变种违规内容模型无法学习到,从而不能全面的防控住风险内容的各种变种。此外,不法产业和风险内容也在不断的演进,新出现的风险元素(比如新的不法机构名),如果需要等待相关的不法语料自然产生,模型才能学习到的话,时间成本高,而且存在防控上的风险敞口问题。
因此,需要一种新的语料生成方法。
发明内容
本说明书中的实施例旨在提供更有效的深度学习模型的隐私保护的方法,解决现有技术中的不足。
根据第一方面,提供了一种语料生成方法,所述方法包括:
获取原始文本;
对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;
确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
对所述关联关键词进行文本变种,获取变种文本;
以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
在一个实施例中,所述方法还包括,
使用所述语料文本,训练用于识别违规文本的文本识别模型。
在一个实施例中,所述方法还包括,
使用所述语料文本,测试文本识别模型识别违规文本的识别能力。
在一个实施例中,所述方法还包括:
在对原始文本进行关键词匹配之前,对原始文本进行预处理,所述预处理包括繁体转简体、拆字合并中的一种或多种。
在一个实施例中,所述对原始文本进行关键词匹配,包括,基于预设知识图谱库,对原始文本进行关键词匹配;其中,所述预设知识图谱库包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表。
在一个实施例中,所述若干变种词表包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,所述违规形近词表包括违规关键词的字形相近形态,所述违规拼音词表包括违规关键词的正确拼音、所述违规音近词表包括违规关键词的相近拼音。
在一个实施例中,所述根据预设知识图谱库,对原始文本进行关键词匹配,包括:
根据违规精确词表、违规形近词表,对原始文本进行文本匹配;
将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;
根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
在一个实施例中,所述方法还包括:
根据获取的违规词及其变种形式,更新所述违规精确词表和对应变种词表。
在一个实施例中,所述预设知识图谱库中还保存了所述基本关键词对应的违规要素,以及基本关键词关于所述违规要素相关联的关联关键词;
所述确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词,包括:
从所述预设知识图谱库中,得到基本关键词的违规要素;
根据所述违规要素,从所述预设知识图谱库获取基本关键词关于所述违规要素相关联的关联关键词。
在一个实施例中,所述关联关键词为,与所述基本关键词具有相同的违规要素的关键词。
在一个实施例中,所述方法还包括,根据获取的违规文本,识别其违规要素,至少所述根据违规要素,更新所述预设知识图谱库。
在一个实施例中,所述方法还包括,定期补充/更新预设知识图谱库中,基本关键词关于所述违规要素相关联的关联关键词。
在一个实施例中,所述对关联关键词进行文本变种,包括:
利用变种规则器对关联关键词进行文本变种,所述变种规则器根据预先设置的配置文件而生成。
在一个实施例中,所述方法还包括:
通过修改配置文件,添加/修改/删除变种规则器依据的文本变种规则。
在一个实施例中,变种规则器依据的文本变种规则包括以下中的一项或多项:
对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;
对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;
对待变种文本,以其中若干字词对应的拼音替换原字词;
对待变种文本,将其中若干字词转换为其他语言中的对应字词。
根据第二方面,提供了一种语料生成装置,所述装置包括:
原始文本获取单元,配置为,获取原始文本;
关键词匹配单元,配置为,对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;
关联关键词确定单元,配置为,确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
文本变种单元,配置为,对所述关联关键词进行文本变种,获取变种文本;
语料生成单元,配置为,以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
在一个实施例中,所述装置还包括:
预处理单元,配置为,在对原始文本进行关键词匹配之前,对原始文本进行预处理,所述预处理包括繁体转简体、拆字合并中的一种或多种。
在一个实施例中,关键词匹配单元,进一步配置为,基于预设知识图谱库,对原始文本进行关键词匹配;其中,所述预设知识图谱库包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表。
在一个实施例中,所述若干变种词表包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,所述违规形近词表包括违规关键词的字形相近形态,所述违规拼音词表包括违规关键词的正确拼音、所述违规音近词表包括违规关键词的相近拼音。
在一个实施例中,关键词匹配单元,进一步配置为:
根据违规精确词表、违规形近词表,对原始文本进行文本匹配;
将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;
根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
在一个实施例中,文本变种单元,进一步配置为:
利用变种规则器对关联关键词进行文本变种,所述变种规则器根据预先设置的配置文件而生成。
在一个实施例中,变种规则器依据的文本变种规则包括以下中的一项或多项:
对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;
对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;
对待变种文本,以其中若干字词对应的拼音替换原字词;
对待变种文本,将其中若干字词转换为其他语言中的对应字词。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一、第二方面所述的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一、第二方面所述的方法。
利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个,可以更为有效地在不影响深度学习模型隐私安全的前提下,提升模型运行的效率。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本说明书实施例的一种语料生成方法的原理示意图;
图2示出根据本说明书实施例的一种语料生成方法的流程图;
图3示出根据本说明书实施例的关键词匹配方式的示意图;
图4示出根据本说明书实施例的文本变种方式的示意图;
图5示出根据本说明书实施例的一种语料生成装置的结构图。
具体实施方式
下面将结合附图,对本发明书提供的方案进行描述。
如前所述,对于例如不法产业/不法分子通过将违规文本进行音形变异,以达到在不影响阅读的情况下绕过内容安全风险防控系统的违规/不法行为,常规的解决方案一般是通过积累的文本标注数据,构建文本的分类模型,来对这些违规文本的音形变异形式进行识别。但是,该方法也存在如下的问题,有些不法分子通过文本对抗的方式绕过风控,而文本对抗的组合可以很多,所以原始训练语料中很难全面地覆盖所有风险内容的各种变种的形式,这就导致对于没有出现在语料中的变种违规内容,模型无法有效学习。对此,一些方案对文本进行精细化的预处理设计,以提升模型对变种文本识别的覆盖范围。例如,对变种文本中拆开的字进行合并映射(比如,氵奥->澳),对同音词进行映射(比如,yu le->娱乐)。但是,这种方法需要在预处理上做大量的规则清洗,人力成本较高,同时仅通过这种预处理对一些复杂变种(如,拆字+拼音:氵奥men)仍无法支持,所以其对复杂变种风险内容的识别覆盖能力仍是有限的。此外,不法产业及其产生的风险内容也在不断的演进,例如新出现的风险元素(比如新的不合法机构名)和与其相关的语料积累之间具有一定的时间间隔。而现有的技术方案,要等到相关的语料积累之后,模型才能去学习到这种新的风险元素。然而如果要等待大量相关的不合规语料产生,从而模型才能学习到的话,时间成本高,而且在防控上存在风险敞口。
发明人为了解决上述技术问题,在本说明书中的实施例中,提出一种语料生成方法及其装置。图1示出根据本说明书实施例的一种语料生成方法的原理示意图。下面结合图1,阐述该方法的基本思想。
首先,获取例如为违规文本、变种违规文本的原始文本。例如,在一个例子中,获取的违规的原始文本为“要玩红苞接龙的可以加我,我的订订号是xxxx”。然后,可以基于预先收集的违规关键词表及其变种词表,从原始文本匹配出违规关键词和对应的正确形态,例如,上述例子中,从违规原始文本匹配出正确形态的违规关键词“红包接龙”(根据“红苞接龙”)、“加我”、“钉钉号”(根据“订订”)。接着,可以根据预先收集的不同类别/要素的违规词汇表,解析出关键词的违规要素(或违规类别)。例如,上述例子中,可以解析出“红包接龙”的违规要素为甲类不合法游戏,解析出“加我”、“钉钉号”的违规要素为推广要素。而违规要素解析可以基于预先收集的各种不同类别的违规词汇表,例如可以预先收集到类别为甲类不合法游戏的一组不合规词汇,里面有不合规词汇[“红包扫雷”,“红包接龙”,“北京赛车”,“pk10”,…],以这些不合规词汇构成甲类不合法游戏表,则基于该表可以解析出关键词“红包接龙”的违规要素为甲类不合法游戏。在其他例子中,还可以预先收集例如为甲类不合法游戏平台表、甲类不合法游戏术语表、违规推广用语表等。
在解析出关键词的违规要素后,可以确定该关键词基于其违规要素的关联关键词。例如在上述例子中,可以从甲类不合法游戏表中,随机地找到至少一个该关键词之外的词作为“红包接龙”的关联关键词,用于在生成语料的过程中替代该关键词。例如确定“红包扫雷”及其别称“扫雷”作为“红包接龙”的关联关键词。对于一些违规要素/类别,其对应的违规要素/类别表中的词汇也可能不适合在生成语料的过程中互相替代。因此,在一个实施例中,当违规关键词属于预定的违规要素/类别时,也可以在后续生成语料的过程中,不以其所属违规类别中其他词进行替代。具体的,在一个例子中,可以通过以违规关键词自身作为其基于该违规要素的关联关键词来实现。例如,在一个具体的例子中,对于归属于推广要素的违规关键词,不以推广要素表中其他词汇进行替代,即以该违规关键词自身作为其关联关键词,这样在后续替代中自然不会以其他词对该违规关键词进行替代。
在确定关键词基于其违规要素的关联关键词后,可以基于预先设定的多种变种规则,对于关联关键词进行文本变种,并以变种后获得的变种文本替代原始文本中对应的违规关键词。例如在上述例子中,可以对“红包扫雷”和“扫雷”进行文本变种获得其变种文本“红宝少雷”(同音字替换)、“sao雷”(拼音替换),对“钉钉号”和“加我”进行文本变种获得其变种文本“盯盯号”(同音字替换)、“钉子号”(形近词替换)、“+me”(符号以及英文替换)、“+窝”(符号和同音字替换)。然后可以将原始文本中的“红苞接龙”分别替换成“红宝少雷”、“sao雷”,“订订号”分别替换成“盯盯号”、“钉子号”,“加我”分别替换成“+me”、“+窝”,最后获得新的训练文本识别模型的语料“要玩sao雷的+me,我的盯盯号是xxxx”,“要玩sao雷的+窝,我的钉子号是xxxx”,“要玩红宝少雷的+窝,我的钉钉号是xxxx”。
因此,预先设定的多种变种规则库中,可以涵盖各种可能的变种形式,从而在通过变种规则生成的大量变种文本时,全面地覆盖所有风险内容的各种变种形式,使得模型可以对不同变种形式的违规内容均可以学习到。其次,通过对违规要素词汇表的维护和更新,保证不法产业不断演进的新的风险元素,也会出现在各种违规要素词汇表中。从而使得新补充到这些违规要素词汇表的元素,出现在生成的训练语料里面,进而提高文本识别模型的泛化能力。例如,目前已经积累一批甲类不合法游戏推广语料,比如:“甲机构上线了,加我钉钉好友vmsss”。最近,又发现了一个新的甲类不合法游戏机构“乙机构”,但是这个机构还没有出现在真实的风控场景中,现行技术中通常要等这个机构真实出现在场景中,然后积累到含有这个机构的语料后,模型才能学到这个不合法机构。本说明书提供的语料生成方法则可以主动生成例如“乙机构上线了,加我钉钉好友vmsss”的新预料,让文本识别模型去学习。这样,当在风控场景中真正出现“乙机构”,模型就可以直接对其进行防控,减少了出现风险敞口的可能性。
综上,通过该方法可以快速生成用于文本识别模型训练的语料,使得模型可以尽可能全面的学习目标领域的各种可能存在的风险文本的表述形式,来提升模型对风险文本识别的覆盖能力和泛化能力。
下面阐述该方法的详细过程。图2示出根据本说明书实施例的一种语料生成方法的流程图。如图1所述,该方法至少包括如下步骤:
步骤11,获取原始文本;
步骤12,对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;
步骤13,确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
步骤14,对所述关联关键词进行文本变种,获取变种文本;
步骤15,以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
首先,在步骤11,获取用于语料生成的原始文本。在一个实施例中,该原始文本本身可以是,以往和/或当前收集到的不法产业和/或不法分子使用的违规文本。在一个实施例中,原始文本中可以包括例如违规关键词或违规关键词的音形变种形式。在不同的具体实施例中,原始文本中包括的违规关键词的音形变种可以具有不同的具体形式,本说明书对此不做限定。
然后,在步骤12,对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态。
通过对原始文本进行预处理,可以简化匹配出违规关键词的复杂度,以及提高匹配成功率。因此,在一个实施例中,在对原始文本进行关键词匹配之前,可以对原始文本进行预处理。在一个例子中,所述预处理可以包括对原始文本进行繁体转简体,以减化当原始文本中同时包括繁体字和简体字时的匹配难度。在另一个例子中,预处理可以包括对原始文本进行拆字合并,以提高当原始文本中包括拆解汉字获取的字符时的匹配成功率。
在一个实施例中,可以基于预设的知识图谱库,对原始文本进行关键词匹配。在一个实施例中,预设知识图谱库中可以包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表。在一个实施例中,若干变种词表可以包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,违规形近词表包括违规关键词的字形相近形态,违规拼音词表包括违规关键词的正确拼音、违规音近词表包括违规关键词的相近拼音。在一个具体的实施例中,可以根据违规精确词表、违规形近词表,对原始文本进行文本匹配;将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
图3示出根据本说明书实施例的关键词匹配方式的示意图。如图3所示的实施例中,首先对原始文本“木易*是*dong西”,进行包括拆字合并和繁简体转化的预处理,获得预处理结果“杨*是*dong西”。对于预处理结果,根据违规精确词表和违规形近词表进行文本匹配,以及根据预处理结果的拼音、违规拼音词表和违规音近词表进行拼音匹配,结合两种匹配结果,可以得到最终的匹配结果,即获取基本关键词杨*、*东西(对应的原始文本中违规关键词为木易*、*dong西)。
上述的预设知识图谱库中的违规精确词表和对应变种词表可以随时间进行更新。因此,在一个实施例中,还可以根据获取的违规词及其变种形式,更新所述违规精确词表和对应变种词表。
接着,在步骤13,确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词。
基本关键词是各种违规关键词的正确形态。违规要素,也可以称之为违规类别。该步骤中,可以预先收集各种违规类别的基本关键词,构成各种违规类别表,并基于所述违规类别表,确定基本关键词的违规要素。违规类别表可以保存在预设知识图谱库中。因此,在一个实施例中,所述预设知识图谱库中还保存了所述基本关键词对应的违规要素,以及基本关键词关于所述违规要素相关联的关联关键词。在一个具体的实施例中,可以从所述预设知识图谱库中,得到基本关键词的违规要素;根据所述违规要素,从所述预设知识图谱库获取基本关键词关于所述违规要素相关联的关联关键词。
后续语料生成过程中,可以在原始文本中,以所述关联关键词或其变种文本替代基本关键词对应的违规关键词。因此,在一个实施例中,与所述基本关键词关于所述违规要素存在关联的关联关键词,可以是与所述基本关键词具有相同的违规要素的关键词。在一个例子中,在确定出基本关键词的违规类别基础上,可以获取该违规类别下的成员表,将该成员表中的其他词作为该基本关键词的关联关键词。
延续图3的示例。在该示例中,在步骤12识别出的基本关键词包括,“杨*”,“*东西”。对于基本关键词“杨*”,假定其位于某类人名违规成员表中,该成员表中还包括另一基本关键词“刘*”,则可以将“刘*”确定为基本关键词“杨*”的关联关键词。类似的,可以将“*人”确定为基本关键词“*东西”的关联关键词。
当基本关键词所属违规类别的成员表中的词汇,不适合在语料生成中互相替代时,后续语料生成过程中,也可以在原始文本中,以基本关键词或其变种文本替代基本关键词对应的违规关键词。因此,在一个实施例中,也可以例如以基本关键词本身作为其针对其违规元素的关联关键词,来实现后续语料生成过程中不被其他词替代的效果。
预设知识图谱库中的违规要素、以及基本关键词关于所述违规要素相关联的可能的关联关键词也可以随时间进行更新。因此,在一个实施例中,可以根据获取的违规文本,识别其违规要素,至少所述根据违规要素,更新所述预设知识图谱库。在一个实施例中,还可以定期补充/更新预设知识图谱库中,基本关键词关于所述违规要素相关联的关联关键词。
注意,在不同的实施例中,基本关键词和关联关键词基于违规要素之间存在的关联关系可以具有不同具体形式。在一个实施例中,基本关键词和关联关键词可以属于同一违规要素的成员表。在另一个实施例中,基本关键词和关联关键词也可以属于同一违规要素的、相同的或不同的细分要素的成员表。在一个实施例中,还可以基于预定的规则判定基本关键词和关联关键词之间的关联关系的存在。本说明书对于所述关联关系的具体形式不做限定。
步骤14,对所述关联关键词进行文本变种,获取变种文本。
在一个实施例中,可以利用变种规则器对关联关键词进行文本变种。在一个例子中,变种规则器可以根据预先设置的配置文件而生成。
在一个实施例中,可以通过修改配置文件,添加/修改/删除变种规则器依据的文本变种规则。
图4示出根据本说明书实施例的文本变种方式的示意图。如图4所示,变种规则器依据的文本变种规则可以包括以下各种规则中的一项或多项:对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;对待变种文本,以其中若干字词对应的拼音替换原字词;对待变种文本,将其中若干字词转换为其他语言中的对应字词。从图4、图1所示中,也可以看到多个使用同音字替换、拼音替换、形近词替换、符号替换、外文替换的例子。
步骤15,以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
获取的语料文本,在不同的实施例中,可用于进行模型测试或模型训练。在一个实施例中,可以使用所述语料文本,训练用于识别违规文本的文本识别模型。在一个实施例中,还可以使用所述语料文本,测试文本识别模型识别违规文本的识别能力。
图5示出根据本说明书实施例的一种语料生成装置的结构图。如图5所示,该装置500包括:
原始文本获取单元51,配置为,获取原始文本;
关键词匹配单元52,配置为,对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;
关联关键词确定单元53,配置为,确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
文本变种单元54,配置为,对所述关联关键词进行文本变种,获取变种文本;
语料生成单元55,配置为,以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
在一个实施例中,所述装置还可以包括:预处理单元,配置为,在对原始文本进行关键词匹配之前,对原始文本进行预处理,所述预处理包括繁体转简体、拆字合并中的一种或多种。
在一个实施例中,关键词匹配单元,可以进一步配置为,基于预设知识图谱库,对原始文本进行关键词匹配;其中,所述预设知识图谱库包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表。
在一个实施例中,所述若干变种词表可以包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,所述违规形近词表包括违规关键词的字形相近形态,所述违规拼音词表包括违规关键词的正确拼音、所述违规音近词表包括违规关键词的相近拼音。
在一个实施例中,关键词匹配单元,可以进一步配置为:
根据违规精确词表、违规形近词表,对原始文本进行文本匹配;
将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;
根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
在一个实施例中,文本变种单元,可以进一步配置为:
根据预先设置的配置文件,生成变种规则器,利用变种规则器对关联关键词进行文本变种。
在一个实施例中,变种规则器依据的文本变种规则可以包括以下中的一项或多项:
对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;
对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;
对待变种文本,以其中若干字词对应的拼音替换原字词;
对待变种文本,将其中若干字词转换为其他语言中的对应字词。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (22)

1.一种语料生成方法,所述方法包括:
获取原始文本;
对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;其中,所述对原始文本进行关键词匹配,包括,基于预设知识图谱库,对原始文本进行关键词匹配;其中,所述预设知识图谱库包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表;
确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
对所述关联关键词进行文本变种,获取变种文本;
以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
2.根据权利要求1所述的方法,还包括,
使用所述语料文本,训练用于识别违规文本的文本识别模型。
3.根据权利要求1所述的方法,还包括,
使用所述语料文本,测试文本识别模型识别违规文本的识别能力。
4.根据权利要求1所述的方法,还包括:
在对原始文本进行关键词匹配之前,对原始文本进行预处理,所述预处理包括繁体转简体、拆字合并中的一种或多种。
5.根据权利要求1所述的方法,其中,
所述若干变种词表包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,所述违规形近词表包括违规关键词的字形相近形态,所述违规拼音词表包括违规关键词的正确拼音、所述违规音近词表包括违规关键词的相近拼音。
6.根据权利要求5所述的方法,其中,根据预设知识图谱库,对原始文本进行关键词匹配,包括:
根据违规精确词表、违规形近词表,对原始文本进行文本匹配;
将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;
根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
7.根据权利要求1所述的方法,还包括:
根据获取的违规词及其变种形式,更新所述违规精确词表和对应变种词表。
8.根据权利要求1所述的方法,其中,所述预设知识图谱库中还保存了所述基本关键词对应的违规要素,以及基本关键词关于所述违规要素相关联的关联关键词;
所述确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词,包括:
从所述预设知识图谱库中,得到基本关键词的违规要素;
根据所述违规要素,从所述预设知识图谱库获取基本关键词关于所述违规要素相关联的关联关键词。
9.根据权利要求8所述的方法,其中,所述关联关键词为,与所述基本关键词具有相同的违规要素的关键词。
10.根据权利要求8所述的方法,还包括,根据获取的违规文本,识别其违规要素,至少根据违规要素,更新所述预设知识图谱库。
11.根据权利要求8所述的方法,还包括,定期补充/更新预设知识图谱库中,基本关键词关于违规要素相关联的关联关键词。
12.根据权利要求1所述的方法,其中,对关联关键词进行文本变种,包括:
利用变种规则器对关联关键词进行文本变种,所述变种规则器根据预先设置的配置文件而生成。
13.根据权利要求12所述的方法,还包括:
通过修改配置文件,添加/修改/删除变种规则器依据的文本变种规则。
14.根据权利要求12所述的方法,其中,变种规则器依据的文本变种规则包括以下中的一项或多项:
对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;
对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;
对待变种文本,以其中若干字词对应的拼音替换原字词;
对待变种文本,将其中若干字词转换为其他语言中的对应字词。
15.一种语料生成装置,所述装置包括:
原始文本获取单元,配置为,获取原始文本;
关键词匹配单元,配置为,对原始文本进行关键词匹配,从而确定出原始文本中的违规关键词以及其对应的基本关键词,所述基本关键词对应于违规关键词的正确形态;其中,所述对原始文本进行关键词匹配,包括,基于预设知识图谱库,对原始文本进行关键词匹配;其中,所述预设知识图谱库包括,用于描述违规关键词的正确形态的违规精确词表,以及针对违规精确词表进行若干种转换得到的若干变种词表;
关联关键词确定单元,配置为,确定基本关键词的违规要素,并确定出与所述基本关键词关于所述违规要素存在关联的关联关键词;
文本变种单元,配置为,对所述关联关键词进行文本变种,获取变种文本;
语料生成单元,配置为,以所述变种文本,替换原始文本中的违规关键词,生成语料文本。
16.根据权利要求15所述的装置,还包括:
预处理单元,配置为,在对原始文本进行关键词匹配之前,对原始文本进行预处理,所述预处理包括繁体转简体、拆字合并中的一种或多种。
17.根据权利要求15所述的装置,其中,所述若干变种词表包括以下中的一项或多项:违规形近词表、违规拼音词表、违规音近词表,所述违规形近词表包括违规关键词的字形相近形态,所述违规拼音词表包括违规关键词的正确拼音、所述违规音近词表包括违规关键词的相近拼音。
18.根据权利要求17所述的装置,其中,关键词匹配单元,进一步配置为:
根据违规精确词表、违规形近词表,对原始文本进行文本匹配;
将原始文本转化为对应的拼音文本,根据违规拼音词表、违规音近词表,对所述拼音文本进行拼音匹配;
根据文本匹配和拼音匹配的结果,确定原始文本中的违规关键词以及其对应的基本关键词。
19.根据权利要求15所述的装置,其中,文本变种单元,进一步配置为:
利用变种规则器对关联关键词进行文本变种,所述变种规则器根据预先设置的配置文件而生成。
20.根据权利要求15所述的装置,其中,变种规则器依据的文本变种规则包括以下中的一项或多项:
对待变种文本,以其中若干字词进行拆字后得到的字符替换原字词;
对待变种文本,以其中若干字词对应的特殊字符/符号表情/形近字词/同音字词替换原字词;
对待变种文本,以其中若干字词对应的拼音替换原字词;
对待变种文本,将其中若干字词转换为其他语言中的对应字词。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-14中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-14中任一项所述的方法。
CN202110808793.XA 2021-07-16 2021-07-16 一种语料生成方法及装置 Active CN113486656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110808793.XA CN113486656B (zh) 2021-07-16 2021-07-16 一种语料生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110808793.XA CN113486656B (zh) 2021-07-16 2021-07-16 一种语料生成方法及装置

Publications (2)

Publication Number Publication Date
CN113486656A CN113486656A (zh) 2021-10-08
CN113486656B true CN113486656B (zh) 2023-11-10

Family

ID=77941048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110808793.XA Active CN113486656B (zh) 2021-07-16 2021-07-16 一种语料生成方法及装置

Country Status (1)

Country Link
CN (1) CN113486656B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN110941959A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN111488732A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112699645A (zh) * 2021-03-25 2021-04-23 北京健康之家科技有限公司 语料标注方法、装置及设备
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866465B (zh) * 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
WO2021060920A1 (en) * 2019-09-27 2021-04-01 Samsung Electronics Co., Ltd. System and method for solving text sensitivity based bias in language model

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN108197098A (zh) * 2017-11-22 2018-06-22 阿里巴巴集团控股有限公司 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN110941959A (zh) * 2018-09-21 2020-03-31 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN111488732A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN112699645A (zh) * 2021-03-25 2021-04-23 北京健康之家科技有限公司 语料标注方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于关联规则的中文变体词识别算法;赵俊杰;;重庆理工大学学报(自然科学)(03);全文 *
基于柔性匹配的中文文本特征提取方法;帅正化;周学广;;计算机工程(16);全文 *

Also Published As

Publication number Publication date
CN113486656A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN108287858B (zh) 自然语言的语义提取方法及装置
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN110197672B (zh) 一种语音通话质量检测方法、服务器、存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN109829155A (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN111581367A (zh) 一种题目录入的方法和系统
CN111090727A (zh) 语言转换处理方法、装置及方言语音交互系统
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN109492083A (zh) 一种基于表单内容实现多轮人机智能交互的方法
CN112634892B (zh) 一种语音处理方法、装置、可读存储介质和电子设备
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN107657949A (zh) 游戏数据的获取方法及装置
CN110610003A (zh) 用于辅助文本标注的方法和系统
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
CN113486656B (zh) 一种语料生成方法及装置
CN113318454A (zh) 一种游戏数据的监控系统以及游戏数据的监控方法
CN105653619B (zh) 智能问答系统中正确日志库的更新方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant