CN111401060A - 一种干扰词生成方法、装置、电子设备和存储介质 - Google Patents

一种干扰词生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111401060A
CN111401060A CN202010188699.4A CN202010188699A CN111401060A CN 111401060 A CN111401060 A CN 111401060A CN 202010188699 A CN202010188699 A CN 202010188699A CN 111401060 A CN111401060 A CN 111401060A
Authority
CN
China
Prior art keywords
target
word
sentence
characters
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010188699.4A
Other languages
English (en)
Other versions
CN111401060B (zh
Inventor
张林箭
王怡
张聪
毛晓曦
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010188699.4A priority Critical patent/CN111401060B/zh
Publication of CN111401060A publication Critical patent/CN111401060A/zh
Application granted granted Critical
Publication of CN111401060B publication Critical patent/CN111401060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种干扰词生成方法、装置、电子设备和存储介质,其中,该方法包括:获取第一目标语句,第一目标语句中包含K个被掩藏的文字;根据第一目标语句,得到第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;根据预设干扰词数量,从各第一候选文字列表中选择对应数量的第一目标文字;对于每个第一目标文字,根据该第一目标文字,得到第一目标语句对应的干扰词,通过上述方法,有利于减少生成的干扰词的数量,以及生成迷惑性相对较高的干扰词。

Description

一种干扰词生成方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种干扰词生成方法、装置、电子设备和存储介质。
背景技术
随着科技的发展,科技给人们的日常生活带来了越来越多的娱乐项目,其中一种娱乐项目为猜字游戏,在进行猜字游戏时,需要给出一段有掩藏文字的语句,并给出掩藏文字的候选项,在现有技术中,对于每个掩藏文字都会得到多个候选选项,并且在给出干扰词时会将每个掩藏文字对应的候选选项进行组合,然后将得到的多个干扰词都推送给用户进行选择,通过上述方式给出的干扰词中有明显使语句不通顺的干扰词,从而使得给出的干扰词中迷惑性较低的干扰词的数量较多,从而降低了猜字游戏的娱乐性。
发明内容
有鉴于此,本申请实施例提供了一种干扰词生成方法、装置、电子设备和存储介质,以降低干扰词中迷惑性较低的干扰词的数量。
第一方面,本申请实施例提供了一种干扰词生成方法,包括:
获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
可选地,所述根据该第一目标文字,得到所述第一目标语句对应的干扰词,包括:
当K=1时,将该第一目标文字作为所述干扰词;
当K≥2时,根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字;按照该第一目标文字和所述目标文字在所述第一目标语句中的位置生成所述干扰词。
可选地,所述根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字,包括:
根据该第一目标文字所在位置,将该第一目标文字添加到所述第一目标语句中,生成第二目标语句,所述第二目标语句包括K-1个被掩藏的文字;
将所述第二目标语句作为输入参数输入到BERT模型中,得到所述第二目标语句中被掩藏的文字所在的各个位置上的第二候选文字列表,以及每个第二候选文字列表中的各第二候选文字的置信度;
从各第二候选文字列表包括的第二候选文字中选择第二目标文字,其中,所述第二目标文字是各第二候选文字列表构成的文字集合所包含的第二候选文字中置信度最高的第二候选文字;
根据所述第二目标文字所在位置,将所述第二目标文字添加到所述第二目标语句中,生成第三目标语句,所述第二目标语句包括K-2个被掩藏的文字;
将所述第三目标语句作为输入参数输入到所述BERT模型中,得到所述第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,以及每个第三候选文字列表中的各第三候选文字的置信度;
从各第三候选文字列表包括的第三候选文字中选择第三目标文字,其中,所述第三目标文字是各第三候选文字列表构成的文字集合所包含的第三候选文字中置信度最高的第三候选文字,直至得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字。
可选地,所述根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度,包括:
将所述第一目标语句作为输入参数输入到BERT模型中,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
可选地,所述方法还包括:
获取待掩藏语句;
按照指定掩藏位置,对所述待掩藏语句中的文字进行掩藏,得到所述第一目标语句。
可选地,所述方法还包括:
获取第一待掩藏语句;
对所述第一待掩藏语句进行分词处理,得到所述第一待掩藏语句包括的各个词语;
对于每个词语,对该词语进行词性分析,得到该词语的词性;
根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句。
可选地,所述根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句,包括:
根据该词语的词性,对所述第一待掩藏语句中的各个词语进行标记,其中,所述指定词性对应的词语使用第一标识进行标记,非指定词性对应的词语和标点符号使用第二标识进行标记,与同一非指定词性的词语相邻的两个指定词性的词语使用不同的第一标识进行标记;
将所述第一待掩藏语句作为输入参数输入到掩藏语言模型中,对属于所述指定词性的词语中的文字进行掩藏,得到包含有目标掩藏文字的第二待掩藏语句;
根据标记后的第一待掩藏语句和所述第二待掩藏语句,对所述第二待掩藏语句中与所述目标掩藏文字具有相同标记且相邻的文字进行掩藏,得到所述第一目标语句。
可选地,所述方法还包括:
对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词;
对所述待输出干扰词进行输出显示。
第二方面,本申请实施例提供了一种干扰词生成装置,包括:
获取单元,用于获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
确定单元,用于根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
选择单元,用于根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
处理单元,用于对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
可选地,所述处理单元的配置在用于根据该第一目标文字,得到所述第一目标语句对应的干扰词时,包括:
当K=1时,将该第一目标文字作为所述干扰词;
当K≥2时,根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字;按照该第一目标文字和所述目标文字在所述第一目标语句中的位置生成所述干扰词。
可选地,所述处理单元的配置在用于根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字时,包括:
根据该第一目标文字所在位置,将该第一目标文字添加到所述第一目标语句中,生成第二目标语句,所述第二目标语句包括K-1个被掩藏的文字;
将所述第二目标语句作为输入参数输入到BERT模型中,得到所述第二目标语句中被掩藏的文字所在的各个位置上的第二候选文字列表,以及每个第二候选文字列表中的各第二候选文字的置信度;
从各第二候选文字列表包括的第二候选文字中选择第二目标文字,其中,所述第二目标文字是各第二候选文字列表构成的文字集合所包含的第二候选文字中置信度最高的第二候选文字;
根据所述第二目标文字所在位置,将所述第二目标文字添加到所述第二目标语句中,生成第三目标语句,所述第二目标语句包括K-2个被掩藏的文字;
将所述第三目标语句作为输入参数输入到所述BERT模型中,得到所述第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,以及每个第三候选文字列表中的各第三候选文字的置信度;
从各第三候选文字列表包括的第三候选文字中选择第三目标文字,其中,所述第三目标文字是各第三候选文字列表构成的文字集合所包含的第三候选文字中置信度最高的第三候选文字,直至得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字。
可选地,所述确定单元的配置在用于根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度时,包括:
将所述第一目标语句作为输入参数输入到BERT模型中,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
可选地,所述获取单元,还用于获取待掩藏语句;以及,用于按照指定掩藏位置,对所述待掩藏语句中的文字进行掩藏,得到所述第一目标语句。
可选地,所述获取单元,还用于获取第一待掩藏语句;以及,用于对所述第一待掩藏语句进行分词处理,得到所述第一待掩藏语句包括的各个词语;以及,用于对于每个词语,对该词语进行词性分析,得到该词语的词性;以及,用于根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句。
可选地,所述获取单元的配置在用于根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句时,包括:
根据该词语的词性,对所述第一待掩藏语句中的各个词语进行标记,其中,所述指定词性对应的词语使用第一标识进行标记,非指定词性对应的词语和标点符号使用第二标识进行标记,与同一非指定词性的词语相邻的两个指定词性的词语使用不同的第一标识进行标记;
将所述第一待掩藏语句作为输入参数输入到掩藏语言模型中,对属于所述指定词性的词语中的文字进行掩藏,得到包含有目标掩藏文字的第二待掩藏语句;
根据标记后的第一待掩藏语句和所述第二待掩藏语句,对所述第二待掩藏语句中与所述目标掩藏文字具有相同标记且相邻的文字进行掩藏,得到所述第一目标语句。
可选地,所述装置还包括:
去重单元,用于对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词;
输出单元,用于对所述待输出干扰词进行输出显示。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面中任一项所述的干扰词生成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面中任一项所述的干扰词生成方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请中,在获得第一目标语句后,先得到第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度,通过置信度可以确定出各个候选文字与第一目标语句的匹配程度,因此在根据预设干扰词数量从各第一候选文字列表中选择对应数量的第一目标文字后,可以得到各第一候选文字列表中与第一目标语句匹配度较高的候选文字,然后在根据每个第一目标文字得到第一目标语句对应的干扰词,通过上述方法,由于选择的第一目标文字的数量少于第一候选文字列表包含的第一候选文字的数量,因此有利于减少生成的干扰词的数量,并且选择出来的第一目标文字是与第一目标语句匹配度较高的候选文字,因此生成的干扰词的迷惑性相对较高,同时,由于生成的干扰词的迷惑性都相对较高,因此在选择通过上述方法生成的干扰词时,增加了选择难度,从而有利于提高猜字游戏的娱乐性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的一种干扰词生成方法的流程示意图;
图2为本申请实施例一提供的另一种干扰词生成方法的流程示意图;
图3为本申请实施例一提供的另一种干扰词生成方法的流程示意图;
图4为本申请实施例一提供的一种标记方式示意图;
图5为本申请实施例一提供的另一种干扰词生成方法的流程示意图;
图6为本申请实施例二提供的一种干扰词生成装置的结构示意图;
图7为本申请实施例二提供的另一种干扰词生成装置的结构示意图;
图8为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有的猜字游戏中,用于生成干扰词的设备在得到包含有掩藏文字的语句后,会得到每个掩藏文字对应的候选文字列表,每个候选文字列表中会包括多个候选文字,在给出干扰词时会将每个掩藏文字对应的候选文字列表中的多个候选文字进行组合,然后将得到的多个干扰词都推送给用户进行选择,例如:当原语句为“窗外的麻雀,在电线杆上多嘴。”,掩藏文字为“多”“嘴”二字时,包含有掩藏文字的语句为“窗外的麻雀,在电线杆上[M1][M2]”,用于生成干扰词的设备可以根据该包含有掩藏文字的语句得到M1的候选文字列表和M2的候选文字列表,且每个候选文字列表种都会包括多个候选文字,然后使用M1的候选文字列表中的候选文字和M2的候选文字列表中的候选文字进行组合得到干扰词,例如:当M1的候选文字列表中的候选文字的数量为5个,M2的候选文字列表中的候选文字的数量为10个时,得到的干扰词的数量为50个,从而使得得到的干扰词的数量过多,并且得到的干扰词中有明显使语句不通顺的干扰词,该干扰词为迷惑性较低的干扰词,例如:当M1的候选文字列表中的候选文字包含[飞,鸣,叫],M2的候选文字列表中的候选文字包含[翔,舞,叫]时,如果[M1]选取“飞”,[M2]选取“叫”进行组合时,得到的干扰词为“飞叫”,这个干扰词带入到包含有掩藏文字的语句中后,得到的语句会明显不通顺,因此“飞叫”这个干扰词的迷惑性较低,而猜字游戏中的干扰词的目的是为了提高选择难度,因此“飞叫”这个干扰词对于猜字游戏而言没有任何意义,在利用现有的相关技术生成干扰词时,会产生大量迷惑性较低的干扰词,从而使得给出的干扰词的数量过多,且包含大量无意义的干扰词,进而降低了猜字游戏的娱乐性。
在实际应用中,生成的干扰词尽量为“飞翔”、“鸣叫”、“飞舞”等通顺且具迷惑性的词语,基于上述思想,本申请提供了一种干扰词生成方法、装置、电子设备和存储介质,使用和包含有掩藏文字的语句匹配度较高的候选文字生成干扰词,以使生成的干扰词的迷惑性相对较高且生成的干扰词的数量相对较少,并且由于生成的干扰词的迷惑性相对较高,从而有利于增加选择难度,进而有利于提高猜字游戏的娱乐性。
实施例一
图1为本申请实施例一提供的一种干扰词生成方法的流程示意图,如图1所示,该干扰词生成方法包括以下步骤:
步骤101、获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数。
需要说明的是,第一目标语句的获取方式,以及第一目标语句中包含的被掩藏文字的数量和所在位置可以根据实际需要进行设定,在此不做具体限定。
步骤102、根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
具体的,在得到第一目标语句后,可以对第一目标语句进行分析,从而确定出都有哪些文字适合某个被掩藏的文字所在的位置,对于每个被掩藏的文字所在的位置都可以确定出由多个候选文字构成的一个第一候选文字列表,例如:当第一目标语句中包括两个被掩藏的文字时,其中一个被掩藏的文字在第一目标语句中的位置为第一位置,另一个被掩藏的文字在第一目标语句中的位置为第二位置,那么需要得到第一位置上对应的第一候选文字列表和第二位置上对应的第一候选文字列表,其中,每个第一候选文字列表中都包括多个第一候选文字,同时还需要得到每个第一候选文字列表中各第一候选文字的置信度,以根据该第一候选文字的置信度确定该第一候选文字和第一目标语句的匹配程度。
需要说明的是,关于得到第一候选文字的具体方式,以及得到第一候选文字的置信度的具体方式可以根据实际需要进行设定,在此不做具体限定。
步骤103、根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的。
步骤103中的该文字集合由各个第一候选文字列表共同构成。
具体的,可以设定得到的干扰词的数量,然后以预设干扰词数量为依据,来选择对应数量的第一目标文字,例如:当预设干扰词的数量为三个时,可以从各第一候选文字列表构成的文字集合中选择三个置信度最高的第一目标文字,以便后续根据选择出来的第一目标文字得到对应数量的干扰词,通过上述方式选择出来的第一目标文字的数量较少且与第一目标语句的匹配程度较高,因此不仅有利于减少干扰词生成的数量,也有利于提高生成的干扰词的迷惑性。
步骤104、对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
举例说明,当选择出来的第一目标文字的数量为三个时,对于每个第一目标文字,都可以根据该第一目标文字得到所述第一目标语句的干扰词,即:可以得到这三个第一目标文字各自对应的干扰词。
需要说明的是,得到的干扰词可以为一个字,或者为两个字的词,再或者也可以为三个字的词等,关于干扰词的具体数字在此不做具体限定。
通过上述方法,由于选择的第一目标文字的数量少于第一候选文字列表包含的第一候选文字的数量,因此有利于减少生成的干扰词的数量,并且选择出来的第一目标文字是与第一目标语句匹配度较高的候选文字,因此生成的干扰词的迷惑性相对较高,同时,由于生成的干扰词的迷惑性都相对较高,因此在选择通过上述方法生成的干扰词时,增加了选择难度,从而有利于提高猜字游戏的娱乐性。
在一个可行的实施方案中,在执行步骤104时,当K=1时,将该第一目标文字作为所述干扰词;当K≥2时,根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字;按照该第一目标文字和所述目标文字在所述第一目标语句中的位置生成所述干扰词。
具体的,当第一目标语句中只包括一个被掩藏的文字时,在得到该被掩藏的文字所在位置对应的第一候选文字列表后,将该第一候选文字列表中置信度最高的第一候选文字作为该第一目标语句的干扰词,当第一目标语句中只包括两个或两个以上的被掩藏的文字时,在得到各掩藏的文字所在位置对应的第一候选文字列表后,按照预设干扰词数量从所有的第一候选文字列表包括第一候选文字中(各第一候选文字列表构成的文字集合)选择出对应数量的第一目标文字,且选择出来的第一目标文字是按照置信度的高低顺序选择的,例如:第一目标语句为“窗外的麻雀,在电线杆上[M1][M2]”,预设干扰词数量为三个,那么可以从[M1]和[M2]对应的两个第一候选文字列表中选择置信度最高的三个第一候选文字作为第一目标文字,如果这三个第一目标文字分别为A、B、C,且A、B是[M1]对应的第一候选文字列表中的第一候选文字,C是[M2]对应的第一候选文字列表中的第一候选文字,那么在得到A对应的干扰词时,可以根据A和第一目标语句,再得到[M2]对应的目标文字,然后将A作为[M1]对应的文字,将上述得到的目标文字作为[M2]对应的文字生成干扰词。进一步的,当M1的候选文字列表中的候选文字包含[飞,鸣,叫],M2的候选文字列表中的候选文字包含[翔,舞,叫],且选择出来的置信度最高的三个第一候选文字分别为[M1]对应的“飞”和“鸣”,以及[M2]对应的“舞”时,在确定“飞”对应的干扰词时,可以根据“飞”和第一目标语句得到[M2]对应的目标文字,该目标文字不是从[M2]对应的第一候选文字列表中选择出来的,而是根据“飞”和第一目标语句重新得到的,重新得到的目标文字可能与[M2]对应的第一候选文字列表中的某个第一候选文字相同,也可以不同,例如:当重新得到的[M2]目标文字为“舞”时,[M1]对应的文字为“飞”,[M2]对应的文字为“舞”,此时得到的干扰词为“飞”“舞”,然后在分别确定[M1]为“鸣”时对应的干扰词和[M2]为“舞”时对应的干扰词。
通过上述方法,可以根据匹配度较高的第一目标文字和第一目标语句重新确定其他位置上的目标文字,从而有利于使最终得到的干扰词具有较高的迷惑性,并且将最终得到的干扰词带入到第一目标语句中后使第一目标语句通顺的概率较高。
在一个可行的实施方案中,图2为本申请实施例一提供的另一种干扰词生成方法的流程示意图,如图2所示,在执行根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字时,可以通过以下步骤实现:
步骤201、根据该第一目标文字所在位置,将该第一目标文字添加到所述第一目标语句中,生成第二目标语句,所述第二目标语句包括K-1个被掩藏的文字。
步骤202、将所述第二目标语句作为输入参数输入到BERT模型中,得到所述第二目标语句中被掩藏的文字所在的各个位置上的第二候选文字列表,以及每个第二候选文字列表中的各第二候选文字的置信度。
步骤203、从各第二候选文字列表包括的第二候选文字中选择第二目标文字,其中,所述第二目标文字是各第二候选文字列表构成的文字集合所包含的第二候选文字中置信度最高的第二候选文字。
步骤204、根据所述第二目标文字所在位置,将所述第二目标文字添加到所述第二目标语句中,生成第三目标语句,所述第二目标语句包括K-2个被掩藏的文字。
步骤205、将所述第三目标语句作为输入参数输入到所述BERT模型中,得到所述第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,以及每个第三候选文字列表中的各第三候选文字的置信度;
步骤206、从各第三候选文字列表包括的第三候选文字中选择第三目标文字,其中,所述第三目标文字是各第三候选文字列表构成的文字集合所包含的第三候选文字中置信度最高的第三候选文字,直至得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字。
具体的,在确定一个第一目标文字对应的干扰词时,将该第一目标文字添加到第一目标语句对应的位置上,例如:当该第一目标文字为第一目标语句某个位置上对应的第一候选文字列表中的第一候选文字时,将该第一目标文字添加到第一目标语句中的该位置上,然后将添加有该第一目标文字的第一目标语句作为第二目标语句,如果第一目标语句中包括3个被掩藏的文字,那么此时第二目标语句中包括2个被掩藏的文字,在得到第二目标语句后,将第二目标语句作为输入参数输入到BERT模型中,得到第二目标语句中被掩藏的文字所在的各位置上的第二候选文字列表,例如:当第一目标语句为“窗外的麻雀,在电线杆上[M1][M2]”,并且将[M1]对应的一个第一目标文字(如:“飞”)添加到[M1]上后,得到的第二目标语句为“窗外的麻雀,在电线杆上飞[M2]”,然后将上述得到的第二目标语句作为输入参数输入到BERT模型中,得到[M2]对应的第二候选文字列表,以及第二候选文字列表中的各第二候选文字的置信度。然后从各第二候选文字列表构成的文字集合中选择置信度最高的第二候选文字作为第二目标文字,例如:当第二目标语句中包括两个被掩藏的文字时,可以得到两个第二候选文字列表,以及这两个第二候选文字列表中包括的各第二候选文字的置信度,然后从这两个第二候选文字列表构成的文字集合包含的第二候选文字中选择置信度最高的第二候选文字作为第二目标文字,该第二目标文字为该第二目标文字所归属的第二候选文字列表对应的位置上的文字。
如果第一目标语句仅包括两个被掩藏的文字时,通过上述步骤可以得到一个第一目标文字对应的干扰词,然后按照上述步骤得到其他第一目标文字对应的干扰词,直至得到与预设干扰词数量相同数量的干扰词,如果第一目标语句仅包括的被掩藏的文字多于两个时,在得到第二目标文字后,将第二目标文字添加到第二目标语句中生成第三目标语句,例如:第一目标语句为“窗外的麻雀,在电线杆[M1][M2][M3]”,得到的第一目标文字为[M1]对应的文字,第二目标文字为[M3]对应的文字,在将第一目标文字和第二目标文字添加到第一目标语句中后得到的第三目标语句中只有[M2]对应的文字是未知的,然后将第三目标语句作为输入参数输入单BERT模型,得到第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,即:可以得到[M2]对应的第三候选文字列表以及第三候选文字列表中各第三候选文字的置信度,再选择出置信度最高的第三候选文字作为第三目标文字,此时可以得到[M2]对应的第三目标文字,当第一目标语句包含三个被掩藏的文字(如:[M1][M2]和[M3]所在位置为被掩藏的文字)时,在得到一个被掩藏的文字对应的第一目标文字后,通过上述方法可以得到其他被掩藏的文字对应的目标文字,从而得到一个干扰词,如果第一目标语句中仍包含其他被掩藏的文字,仍可以通过上述方式得到该其他被掩藏的文字对应的目标文字,直至得到第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字,进而得到该第一目标文字和其他目标文字构成的一个干扰词。
在一个可行的实施方案中,在执行步骤102时,可以将所述第一目标语句作为输入参数输入到BERT模型中,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
需要注意的是,在得到被掩藏文字对应的候选文字列表以及候选文字的置信度时还可以通过其他方式得到,具体方式在此不做具体限定。
在一个可行的实施方案中,可以通过以下两种方式得到第一目标语句。
方式一:获取待掩藏语句;按照指定掩藏位置,对所述待掩藏语句中的文字进行掩藏,得到所述第一目标语句。
具体的,在得到待掩藏语句后可以指定待掩藏语句中的掩藏位置,然后按照指定掩藏位置,对待掩藏语句中的文字进行掩藏,从而得到第一目标语句,例如:当待掩藏语句为“窗外的麻雀,在电线杆上多嘴。”,当指定掩藏位置为待掩藏语句中最后三个文字时,得到的第一目标语句为:“窗外的麻雀,在电线杆[M1][M2][M3]。”。
需要说明的是,指定的掩藏位置可以为待掩藏语句中的任意位置,掩藏位置可以是连续的,也可以为不连续的,掩藏位置的数量也可以根据实际需要进行设定,在此不做具体限定。
方式二:获取第一待掩藏语句;对所述第一待掩藏语句进行分词处理,得到所述第一待掩藏语句包括的各个词语;对于每个词语,对该词语进行词性分析,得到该词语的词性;根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句。
具体的,为了使得到的干扰词更具有迷惑性,在掩藏文字时可以对指定个数的词语进行掩藏,从而使得到的多个干扰词中包括多个词性相近的干扰词,为了实现对词语进行掩藏的目的,在货到第一待掩藏语句后,对第一待掩藏语句进行分词处理,从而得到第一待掩藏语句包括的各个词语,然后对每个词语进行词性分析,得到各个词语的词性,其中,词性包括有明确意义的词性(如:名词、量词、形容词等)和没有明确意义的词性(如:助词和介词等),第一待掩藏语句中的标点符号可以作为特殊词性,在对第一待掩藏语句中的词语进行掩藏时,掩藏第一待掩藏语句中指定词性对应的词语,掩藏的个数为预设词语掩藏数量,例如:当预设词语掩藏数量为两个时,可以对第一待掩藏语句中两个指定词性的词语进行掩藏。
需要说明的是,指定词性可以为有明确意义的词性,当然也可以为其他词性,具体的指定词性在此不做具体限定。
在一个可行的实施方案中,图3为本申请实施例一提供的另一种干扰词生成方法的流程示意图,如图3所示,在执行根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句时,可以通过以下步骤实现:
步骤301、根据该词语的词性,对所述第一待掩藏语句中的各个词语进行标记,其中,所述指定词性对应的词语使用第一标识进行标记,非指定词性对应的词语和标点符号使用第二标识进行标记,与同一非指定词性的词语相邻的两个指定词性的词语使用不同的第一标识进行标记。
步骤302、将所述第一待掩藏语句作为输入参数输入到掩藏语言模型中,对属于所述指定词性的词语中的文字进行掩藏,得到包含有目标掩藏文字的第二待掩藏语句。
步骤303、根据标记后的第一待掩藏语句和所述第二待掩藏语句,对所述第二待掩藏语句中与所述目标掩藏文字具有相同标记且相邻的文字进行掩藏,得到所述第一目标语句。
具体的,在得到第一待掩藏语句中包括的各个词语的词性之后,使用不同词性对应的标识对各个词语进行标记,并且不同类型的词性使用不同的标记进行标记,以及与同一词语相邻的两个相同类型词性的词语使用不同的标识进行标记,通过上述标识方式不仅可以通过标记确定出词语的词性,还可以通过标记确定出哪些文字构成一个词语,例如:当第一待掩藏语句为“窗外的麻雀,在电线杆上多嘴。”时,名词、量词、形容词等有明确意义的词使用的标识为1或2,助词、介词、标点符号等没有明确意义的词使用的标识为0,图4为本申请实施例一提供的一种标记方式示意图,在使用上述方式对第一待掩藏语句中包括的各个词语进行标记后可以如图4所示。在完成标记后,将第一待掩藏语句作为输入参数输入到掩藏语言模型,以对属于指定词性的词语中的文字进行掩藏,掩藏的字数与预设词语掩藏数量相等,从而得到包含有目标掩藏文字的第二待掩藏语句,然后根据第一待掩藏语句的标记对第二掩藏语句中与目标掩藏文字具有相同标记的且相邻的文字进行掩藏,从而得到第一目标语句,如图4所示,如果图4中的目标掩藏文字为“麻”和“嘴”时,可以对“雀”和“多”进行掩藏,得到的第一目标语句为“窗外的[M1][M2],在电线杆上[M3][M4]。”。
在一个可行的实施方案中,图5为本申请实施例一提供的另一种干扰词生成方法的流程示意图,如图5所示,在得到各第一目标文字对应的干扰词后,该方法还包括以下步骤:
步骤501、对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词。
步骤502、对所述待输出干扰词进行输出显示。
具体的,在得到各第一目标文字对应的干扰词后,得到各干扰词中可能存在重复的词语,或者得到的干扰词中存在与标准干扰词(标准干扰词为待掩藏语句中被掩藏的文字)相同的词语,进一步的,得到的干扰词和标准干扰词构成的干扰词集合中存在重复项,为了避免输出相同的选项,需要对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词,然后对待输出干扰词进行输出显示,此时可以在显示装置上显示包含有掩藏文字的语句和候选项以供用户选择。
需要说明的是,在对本申请中涉及到的掩藏语言模型进行训练时,可以利用指定领域中的数据作为样本进行训练,例如:在进行猜歌词游戏中,待掩藏语句为一句歌词,那么在选择样本时可以使用歌词领域中的数据作为训练样本,如:使用歌曲作为训练样本,并且根据实际需要确定训练样本的数量。
在对掩藏语言模型进行训练时,可以针对词语进行掩藏训练,即:对一句话中包括的词语进行掩藏训练,关于具体的实现方式在此不做具体限定。
实施例二
图6为本申请实施例二提供的一种干扰词生成装置的结构示意图,如图6所示,该干扰词生成装置包括:
获取单元61,用于获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
确定单元62,用于根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
选择单元63,用于根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
处理单元64,用于对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
在一个可行的实施方案中,所述处理单元64的配置在用于根据该第一目标文字,得到所述第一目标语句对应的干扰词时,包括:
当K=1时,将该第一目标文字作为所述干扰词;
当K≥2时,根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字;按照该第一目标文字和所述目标文字在所述第一目标语句中的位置生成所述干扰词。
在一个可行的实施方案中,所述处理单元64的配置在用于根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字时,包括:
根据该第一目标文字所在位置,将该第一目标文字添加到所述第一目标语句中,生成第二目标语句,所述第二目标语句包括K-1个被掩藏的文字;
将所述第二目标语句作为输入参数输入到BERT模型中,得到所述第二目标语句中被掩藏的文字所在的各个位置上的第二候选文字列表,以及每个第二候选文字列表中的各第二候选文字的置信度;
从各第二候选文字列表包括的第二候选文字中选择第二目标文字,其中,所述第二目标文字是各第二候选文字列表构成的文字集合所包含的第二候选文字中置信度最高的第二候选文字;
根据所述第二目标文字所在位置,将所述第二目标文字添加到所述第二目标语句中,生成第三目标语句,所述第二目标语句包括K-2个被掩藏的文字;
将所述第三目标语句作为输入参数输入到所述BERT模型中,得到所述第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,以及每个第三候选文字列表中的各第三候选文字的置信度;
从各第三候选文字列表包括的第三候选文字中选择第三目标文字,其中,所述第三目标文字是各第三候选文字列表构成的文字集合所包含的第三候选文字中置信度最高的第三候选文字,直至得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字。
在一个可行的实施方案中,所述确定单元62的配置在用于根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度时,包括:
将所述第一目标语句作为输入参数输入到BERT模型中,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
在一个可行的实施方案中,所述获取单元61,还用于获取待掩藏语句;以及,用于按照指定掩藏位置,对所述待掩藏语句中的文字进行掩藏,得到所述第一目标语句。
在一个可行的实施方案中,所述获取单元61,还用于获取第一待掩藏语句;以及,用于对所述第一待掩藏语句进行分词处理,得到所述第一待掩藏语句包括的各个词语;以及,用于对于每个词语,对该词语进行词性分析,得到该词语的词性;以及,用于根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句。
在一个可行的实施方案中,所述获取单元61的配置在用于根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句时,包括:
根据该词语的词性,对所述第一待掩藏语句中的各个词语进行标记,其中,所述指定词性对应的词语使用第一标识进行标记,非指定词性对应的词语和标点符号使用第二标识进行标记,与同一非指定词性的词语相邻的两个指定词性的词语使用不同的第一标识进行标记;
将所述第一待掩藏语句作为输入参数输入到掩藏语言模型中,对属于所述指定词性的词语中的文字进行掩藏,得到包含有目标掩藏文字的第二待掩藏语句;
根据标记后的第一待掩藏语句和所述第二待掩藏语句,对所述第二待掩藏语句中与所述目标掩藏文字具有相同标记且相邻的文字进行掩藏,得到所述第一目标语句。
在一个可行的实施方案中,图7为本申请实施例二提供的另一种干扰词生成装置的结构示意图,如图7所示,该干扰词生成装置还包括:
去重单元65,用于对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词;
输出单元66,用于对所述待输出干扰词进行输出显示。
关于实施例二的详细介绍可参考实施例一的相关说明,在此不再详细赘述。
在本申请中,在获得第一目标语句后,先得到第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度,通过置信度可以确定出各个候选文字与第一目标语句的匹配程度,因此在根据预设干扰词数量从各第一候选文字列表中选择对应数量的第一目标文字后,可以得到各第一候选文字列表中与第一目标语句匹配度较高的候选文字,然后在根据每个第一目标文字得到第一目标语句对应的干扰词,通过上述方法,由于选择的第一目标文字的数量少于第一候选文字列表包含的第一候选文字的数量,因此有利于减少生成的干扰词的数量,并且选择出来的第一目标文字是与第一目标语句匹配度较高的候选文字,因此生成的干扰词的迷惑性相对较高,同时,由于生成的干扰词的迷惑性都相对较高,因此在选择通过上述方法生成的干扰词时,增加了选择难度,从而有利于提高猜字游戏的娱乐性。
实施例三
图8为本申请实施例三提供的一种电子设备的结构示意图,包括:处理器801、存储介质802和总线803,所述存储介质802存储有所述处理器801可执行的机器可读指令,当电子设备运行上述的数据匹配方法时,所述处理器801与所述存储介质802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行以下步骤:
获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
在本申请实施例中,所述存储介质802还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
实施例四
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行以下步骤:
获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种干扰词生成方法,其特征在于,包括:
获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
2.如权利要求1所述的干扰词生成方法,其特征在于,所述根据该第一目标文字,得到所述第一目标语句对应的干扰词,包括:
当K=1时,将该第一目标文字作为所述干扰词;
当K≥2时,根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字;按照该第一目标文字和所述目标文字在所述第一目标语句中的位置生成所述干扰词。
3.如权利要求2所述的干扰词生成方法,其特征在于,所述根据该第一目标文字和所述第一目标语句,得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字,包括:
根据该第一目标文字所在位置,将该第一目标文字添加到所述第一目标语句中,生成第二目标语句,所述第二目标语句包括K-1个被掩藏的文字;
将所述第二目标语句作为输入参数输入到BERT模型中,得到所述第二目标语句中被掩藏的文字所在的各个位置上的第二候选文字列表,以及每个第二候选文字列表中的各第二候选文字的置信度;
从各第二候选文字列表包括的第二候选文字中选择第二目标文字,其中,所述第二目标文字是各第二候选文字列表构成的文字集合所包含的第二候选文字中置信度最高的第二候选文字;
根据所述第二目标文字所在位置,将所述第二目标文字添加到所述第二目标语句中,生成第三目标语句,所述第二目标语句包括K-2个被掩藏的文字;
将所述第三目标语句作为输入参数输入到所述BERT模型中,得到所述第三目标语句中被掩藏的文字所在的各个位置上的第三候选文字列表,以及每个第三候选文字列表中的各第三候选文字的置信度;
从各第三候选文字列表包括的第三候选文字中选择第三目标文字,其中,所述第三目标文字是各第三候选文字列表构成的文字集合所包含的第三候选文字中置信度最高的第三候选文字,直至得到所述第一目标语句中除该第一目标文字所在位置之外的其他位置上的目标文字。
4.如权利要求1所述的干扰词生成方法,其特征在于,所述根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度,包括:
将所述第一目标语句作为输入参数输入到BERT模型中,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度。
5.如权利要求1所述的干扰词生成方法,其特征在于,所述方法还包括:
获取待掩藏语句;
按照指定掩藏位置,对所述待掩藏语句中的文字进行掩藏,得到所述第一目标语句。
6.如权利要求1所述的干扰词生成方法,其特征在于,所述方法还包括:
获取第一待掩藏语句;
对所述第一待掩藏语句进行分词处理,得到所述第一待掩藏语句包括的各个词语;
对于每个词语,对该词语进行词性分析,得到该词语的词性;
根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句。
7.如权利要求6所述的干扰词生成方法,其特征在于,所述根据该词语的词性和预设词语掩藏数量,对所述第一待掩藏语句中的指定词性对应的词语进行掩藏,得到所述第一目标语句,包括:
根据该词语的词性,对所述第一待掩藏语句中的各个词语进行标记,其中,所述指定词性对应的词语使用第一标识进行标记,非指定词性对应的词语和标点符号使用第二标识进行标记,与同一非指定词性的词语相邻的两个指定词性的词语使用不同的第一标识进行标记;
将所述第一待掩藏语句作为输入参数输入到掩藏语言模型中,对属于所述指定词性的词语中的文字进行掩藏,得到包含有目标掩藏文字的第二待掩藏语句;
根据标记后的第一待掩藏语句和所述第二待掩藏语句,对所述第二待掩藏语句中与所述目标掩藏文字具有相同标记且相邻的文字进行掩藏,得到所述第一目标语句。
8.如权利要求1所述的干扰词生成方法,其特征在于,所述方法还包括:
对得到的干扰词和标准干扰词组成的干扰词集合进行去重处理,得到待输出干扰词;
对所述待输出干扰词进行输出显示。
9.一种干扰词生成装置,其特征在于,包括:
获取单元,用于获取第一目标语句,所述第一目标语句中包含K个被掩藏的文字,其中,K为正整数;
确定单元,用于根据所述第一目标语句,得到所述第一目标语句中被掩藏的文字所在的各个位置上的第一候选文字列表,以及每个第一候选文字列表中的各第一候选文字的置信度;
选择单元,用于根据预设干扰词数量,从各第一候选文字列表构成的文字集合中选择对应数量的第一目标文字,所述第一目标文字是从各第一候选文字列表构成的文字集合所包含的第一候选文字中按照置信度由高到低的顺序选择出来的;
处理单元,用于对于每个第一目标文字,根据该第一目标文字,得到所述第一目标语句对应的干扰词。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至8中任一项所述的干扰词生成方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8中任一项所述的干扰词生成方法的步骤。
CN202010188699.4A 2020-03-17 2020-03-17 一种干扰词生成方法、装置、电子设备和存储介质 Active CN111401060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010188699.4A CN111401060B (zh) 2020-03-17 2020-03-17 一种干扰词生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010188699.4A CN111401060B (zh) 2020-03-17 2020-03-17 一种干扰词生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111401060A true CN111401060A (zh) 2020-07-10
CN111401060B CN111401060B (zh) 2023-06-13

Family

ID=71428879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010188699.4A Active CN111401060B (zh) 2020-03-17 2020-03-17 一种干扰词生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111401060B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341252A (zh) * 2017-07-10 2017-11-10 北京神州泰岳软件股份有限公司 一种挖掘规则关联模型未知关联关系的方法及装置
CN109344830A (zh) * 2018-08-17 2019-02-15 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
CN109919176A (zh) * 2019-01-17 2019-06-21 同济大学 一种基于esp游戏的图片自动标注信息处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341252A (zh) * 2017-07-10 2017-11-10 北京神州泰岳软件股份有限公司 一种挖掘规则关联模型未知关联关系的方法及装置
CN109344830A (zh) * 2018-08-17 2019-02-15 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
CN109919176A (zh) * 2019-01-17 2019-06-21 同济大学 一种基于esp游戏的图片自动标注信息处理方法及装置

Also Published As

Publication number Publication date
CN111401060B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107885874B (zh) 数据查询方法和装置、计算机设备及计算机可读存储介质
JP4985974B2 (ja) コミュニケーション支援方法、システムおよびサーバ装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN110569354A (zh) 弹幕情感分析方法及装置
CN114912448B (zh) 一种文本扩展方法、装置、设备及介质
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
CN110262674B (zh) 一种基于拼音输入的汉字输入方法、装置及电子设备
CN111754991A (zh) 一种采用自然语言的分布式智能交互的实现方法及其系统
CN113326696B (zh) 文本生成方法和装置
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN111401060A (zh) 一种干扰词生成方法、装置、电子设备和存储介质
JP2013097534A (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN111414459B (zh) 人物关系获取方法、装置、电子设备及存储介质
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
KR20180007183A (ko) 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치
CN111274801A (zh) 分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant