CN111950237A - 一种句子改写方法、句子改写装置及电子设备 - Google Patents
一种句子改写方法、句子改写装置及电子设备 Download PDFInfo
- Publication number
- CN111950237A CN111950237A CN201910354566.7A CN201910354566A CN111950237A CN 111950237 A CN111950237 A CN 111950237A CN 201910354566 A CN201910354566 A CN 201910354566A CN 111950237 A CN111950237 A CN 111950237A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- original
- rewritten
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种句子改写方法、句子改写装置、电子设备及计算机可读存储介质,其中,该句子改写方法包括:获取待改写句子;对所述待改写句子进行分词处理,得到组成所述待改写句子的各个原词语;分别确定与各个原词语相关联的目标词语;针对任一原词语,将所述原词语替换为相关联的目标词语,其中,所述原词语被替换的顺序根据所述原词语在所述待改写句子中的顺序而决定。在本申请方案中,通过替换待改写句子中的原词语的方式,生成与待改写句子的内容及风格相似的新句子,提升句子生成过程中的可控性,同时能够实现商业上的广泛应用。
Description
技术领域
本申请属于人机交互技术领域,尤其涉及一种句子改写方法、句子改写装置、电子设备及计算机可读存储介质。
背景技术
当前,在与用户的人机交互过程中,机器端生成句子的方法主要有三类:第一类是基于循环神经网络(Recurrent Neural Network,RNN)的语言模型生成句子;第二类是基于变分自动编码器(Variational Autoencoder,VAE)与生成式对抗网络(GAN,GenerativeAdversarial Networks)生成句子;第三类为基于句子风格转移算法根据已有的句子生成新的句子。其中,上述三类方法的共同点都是基于第一类RNN方法的随机统计。然而,上述第一类及第二类的随机统计方法是根据接收一随机噪声来生成语句,所以,所生成的句子内容是随机且不可控的,可能导致最终生成的句子离用户所想要的句子相差很远。而第三类方法是结合了第一类RNN的随机统计方法并根据接收一特定句子信号来生成相应语句,但是RNN目前在句子生成有几个缺点,第一,RNN以一种step-by-step的方式进行句子生成,即会每生成一个词都基于前文,从而造成错误积累。第二,RNN的输入是一个或一组隐含变量,这种变量是很难表达完完全全的表示一个句子的语义与语法信息的,从而无法很好的生成句子。
因此,上述三类方法,都阻碍了计算机与用户的交互。
发明内容
有鉴于此,本申请提供了一种句子改写方法、句子改写装置、电子设备及计算机可读存储介质,可通过替换待改写句子中的原词语的方式,生成与待改写句子的内容及风格相似的新句子,提升句子生成过程中的可控性。
本申请的第一方面提供了一种句子改写方法,包括:
获取待改写句子;
对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语;
分别确定与各个原词语相关联的目标词语;
针对任一原词语,将上述原词语替换为相关联的目标词语,其中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。
本申请的第二方面提供了一种句子改写装置,包括:
获取单元,用于获取待改写句子;
分词单元,用于对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语;
确定单元,用于分别确定与各个原词语相关联的目标词语;
替换单元,用于针对任一原词语,将上述原词语替换为相关联的目标词语,其中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。
本申请的第三方面提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
由上可见,通过本申请方案,首先获取待改写句子,然后对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语,接着分别确定与各个原词语相关联的目标词语,最后针对任一原词语,将上述原词语替换为相关联的目标词语,其中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。在本申请方案中,通过替换待改写句子中的原词语的方式,生成与待改写句子的内容及风格相似的新句子,提升句子生成过程中的可控性,同时能够实现商业上的广泛应用。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的句子改写方法的实现流程示意图;
图2是本申请实施例提供的句子改写装置的结构框图;
图3是本申请实施例提供的电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请上述的技术方案,下面通过具体实施例来进行说明。
实施例一
下面对本申请实施例提供的一种句子改写方法进行描述,请参阅图1,本申请实施例中的句子改写方法包括:
在步骤101中,获取待改写句子;
在本申请实施例中,首先可以获取待改写句子,其中,上述待改写句子可以是用户主动输入的句子;或者,上述待改写句子可以是电子设备从互联网上所抓取得到的句子,此处不作限定。
在步骤102中,对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语;
在本申请实施例中,在获取到上述待改写句子后,对上述待改写句子进行分词处理,使得上述待改写句子被拆解为一个以上词语,这些词语被记为组成待改写句子的原词语。例如,句子“门边有一只小猫”在进行了分词处理后,将被拆解为四个词语,分别为“门边”、“有”、“一只”、“小猫”。
在步骤103中,分别确定与各个原词语相关联的目标词语;
在本申请实施例中,针对任一原词语,分别确定与该原词语相关联的目标词语。上述目标词语的作用为对上述原词语进行替换,以得到基于上述目标词语的新句子。可选地,上述步骤103具体包括:
A1、针对任一原词语,对上述原词语进行掩码操作;
其中,对原词语进行掩码操作即为以mask替换该原词语。例如,在步骤102给出的“门边有一只小猫”这一例子中,首先对原词语“门边”进行掩码操作,也即,暂时以“mask”替换待改写句子中的“门边”一词,得到“mask有一只小猫”。
A2、根据上述原词语的上文,计算各个待替换词语的出现概率;
其中,上述待替换词语为预设的大规模语言训练模型根据上述原词语的上文所预测得到的词语,上述大规模语言训练模型可以具体为BERT(Bidirectional EncoderRepresentations from Transformers)模型或者其他模型,此处不作限定。例如,在步骤A1给出的例子中,对“门边”进行掩码操作后,得到“mask有一只小猫”,随后通过上述BERT模型及上述原词语的上文,对“mask”进行预测,也即,对原词语在待改写句子中的所处位置可能出现的词语进行预测。假定此处预测得到的待替换词语中有“墙边”、“草地”、“广场”等,则可以基于上述BERT模型进一步计算得到上述各个待替换词语的出现概率。
A3、根据各个待替换词语的出现概率确定目标词语。
其中,由于出现概率表示了该待替换词语基于掩码处的上下文所能够出现在掩码处的概率,因而,该出现概率越大时,说明该待替换词语越可能与掩码处的前后文衔接起来组成有意义的句子,因而,可以根据各个待替换词语的出现概率确定目标词语。具体地,可以有如下两种确定目标词语的方式,第一种是将出现概率最大的待替换词语确定为目标词语,这样可以唯一的确定一个目标词语,并最大可能的保障句子的通顺程度;另一种是将出现概率大于一预设概率阈值的一个以上待替换词语确定为目标词语,其中,上述预设概率阈值可以由后台自动设定,也可以由研发人员手动进行设定或更改,此处不作限定,例如,可以被设定为0.6。需要注意的是,为了实现句子的改写,上述目标词语不能与原词语相同。基于此,在上述步骤A3之前,上述句子改写方法还包括:
B1、检测上述待替换词语中,是否存在原词语;
B2、若上述待替换词语中存在原词语,则将上述原词语从上述待替换词语中剔除;
相应地,上述步骤A3包括:
在剔除上述原词语后的待替换词语中,根据各个待替换词语的出现概率确定目标词语。
其中,当通过BERT模型或其它大规模语言训练模型预测得到若干个针对当前“mask”所得到的待替换词语时,检测上述待替换词语中是否存在原词语。例如,假定上述A2给出的例子中,除了“墙边”、“草地”、“广场”之外,还预测得到了“门边”这一待替换词语;且“墙边”的出现概率是0.4,“草地”的出现概率是0.2,“广场”的出现概率是0.2、“门边”的出现概率是0.6:虽然上述“门边”的出现概率最高,但是通过检测,发现“门边”与当前被掩码操作的原词语相同,此时,需要将“门边”从上述待替换词语中删除。这样一来,所保留的待替换词语中仅剩下“墙边”、“草地”、“广场”,则再根据“墙边”、“草地”、“广场”这三个词语的出现概率进一步确定目标词语。当然,若上述步骤A2所得到的待替换词语中不存在原词语,则无需对待替换词语作剔除操作,直接根据各个待替换词语的出现概率确定目标词语即可。
在步骤104中,针对任一原词语,将上述原词语替换为相关联的目标词语。
在本申请实施例中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。也即,基于原词语在待改写句子中的顺序,依次将各个原词语替换为与该原词语相关联的目标词语。需要注意的是,若在步骤103中与原词语相关联的目标词语有一个以上,则针对任一原词语,可以将上述原词语随机替换为上述一个以上目标词语中的任意一个,以此实现针对同一句子的不同句子改写操作,提升所得到的改写后句子的丰富性。
可选地,在上述步骤104中,每一次将上述原词语替换为相关联的目标词语之后,上述句子改写方法还包括:
检测已改写句子的逻辑和/或结构是否正确,其中,上述已改写句子为本次将上述原词语替换为相关联的目标词语后所得到的句子;
若上述已改写句子的逻辑和结构均正确,则接受本次将上述原词语替换为相关联的目标词语的操作;
若上述已改写句子的逻辑和/或结构错误,则拒绝本次将上述原词语替换为相关联的目标词语的操作。
其中,可具体通过BERT模型中的cls(classification)位置向量对上述已改写句子的的逻辑和结构进行判断,以检测上述已改写句子是否存在语言错误。具体地,每一次使用目标词语替换掉了待改写句子中的原词语时,也即,每一次待改写句子中的原词语被目标词语所替换时,都需要检测本次替换操作后所得到的已改写句子是否存在语言错误,只有在不存在语言错误的前提下,该替换操作才可以被接受,否则,该替换操作将被拒绝,上述待改写句子仍将保留与本次替换操作相关联的原词语。
为了更好的说明本申请实施例的方案,下面以具体实例作出说明:
假定待改写句子为“门边有一只小猫”。该待改写句子经过分词,划分为了“门边”、“有”、“一只”、“小猫”这四个词语:
首先对“门边”进行改写,假定与“门边”相关联的目标词语为“墙边”,本次所得到的已改写句子为“墙边有一只小猫”,该已改写句子不存在语言错误,也即,该已改写句子的逻辑及结构均正确,本次修改被接受。由于后面仍存在原词语未完成替换及检测的操作,因而此时将上述待改写句子更新为“墙边有一只小猫”,等待基于下一原词语的改写操作;
随后对“有”进行改写,假定与“有”相关联的目标词语为“存在”,基于前次更新后的待改写句子所得到的本次已改写句子为“墙边存在一只小猫”,该已改写句子不存在语言错误,也即,该已改写句子的逻辑及结构均正确,本次修改被接受。由于后面仍存在原词语未完成替换及检测的操作,因而此时将上述待改写句子更新为“墙边存在一只小猫”,等待基于下一原词语的改写操作;
接着对“一只”进行改写,假定与“一只”相关联的目标词语为“一条”,基于前次更新后的待改写句子所得到的本次已改写句子为“墙边存在一条小猫”,该已改写句子不存在语言错误,也即,该已改写句子的逻辑及结构均正确,本次修改被接受。由于后面仍存在原词语未完成替换及检测的操作,因而此时将上述待改写句子更新为“墙边存在一条小猫”,等待基于下一原词语的改写操作;
最后对“小猫”进行改写,假定与“小猫”相关联的目标词语为“人类”,基于前次更新后的待改写句子所得到的本次已改写句子为“墙边存在一条人类”,通过对该已改写句子进行语义分析,确定该已改写句子的逻辑存在错误,本次修改被拒绝。由于后面已不存在待替换及检测的原词语,因而可以得到最终被改写完成的句子为“墙边存在一条小猫”。此时,上述各个目标词语均完成了对原词语的替换及检测,其中,“墙边”、“存在”、“一条”分别对“门边”、“有”、“一只”替换成功,“人类”对“小猫”替换失败,本次句子改写操作完成。基于此,通过对待改写句子“门边有一只小猫”进行改写操作,可以得到一新句子“墙边存在一条小猫”。
由上可见,通过本申请实施例,依次对已有句子的各个原词语进行替换,生成与已有句子的内容及风格相似的新句子;其中,每一次替换操作完成后,都将对替换所得到的句子进行检验,以避免错误句子的生成,能够保障最终所生成的新句子的可读性。同时,所生成的新句子也与已有句子具备一定关联,提升了该新句子生成过程中的可控性。上述基于词语替换所完成的句子改写过程操作简单,能够实现商业上的广泛应用。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二
本申请实施例二提供了一种句子改写装置,上述句子改写装置可集成于电子设备中,如图2所示,本申请实施例中的句子改写装置200包括:
获取单元201,用于获取待改写句子;
分词单元202,用于对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语;
确定单元203,用于分别确定与各个原词语相关联的目标词语;
替换单元204,用于针对任一原词语,将上述原词语替换为相关联的目标词语,其中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。
可选地,上述句子改写装置200还包括:
检测单元,用于检测已改写句子的逻辑和/或结构是否正确,其中,上述已改写句子为本次将上述原词语替换为相关联的目标词语后所得到的句子;
接受单元,用于若上述已改写句子的逻辑和结构均正确,则接受本次将上述原词语替换为相关联的目标词语的操作;
拒绝单元,用于若上述已改写句子的逻辑和/或结构错误,则拒绝本次将上述原词语替换为相关联的目标词语的操作。
可选地,上述检测单元,具体用于基于预设的大规模语言训练模型检测上述已改写句子的逻辑和/或结构是否正确。
可选地,上述确定单元203包括:
原词语掩码子单元,用于针对任一原词语,对上述原词语进行掩码操作;
概率计算子单元,用于根据上述原词语的上文,计算各个待替换词语的出现概率,其中,上述待替换词语为预设的大规模语言训练模型根据上述原词语的上文所预测得到的词语;
词语确定子单元,用于根据各个待替换词语的出现概率确定目标词语。
可选地,上述句子改写装置200包括:
原词语检测单元,用于检测上述待替换词语中,是否存在原词语;
原词语剔除单元,用于若上述待替换词语中存在原词语,则将上述原词语从上述待替换词语中剔除;
相应地,上述词语确定子单元,具体用于在剔除上述原词语后的待替换词语中,根据各个待替换词语的出现概率确定目标词语。
可选地,上述词语确定子单元,具体用于将上述出现概率最大的待替换词语确定为目标词语。
可选地,上述词语确定子单元,具体用于将上述出现概率大于一预设概率阈值的一个以上待替换词语确定为目标词语。
由上可见,通过本申请实施例,上述句子改写装置依次对已有句子的各个原词语进行替换,生成与已有句子的内容及风格相似的新句子;其中,每一次替换操作完成后,都将对替换所得到的句子进行检验,以避免错误句子的生成,能够保障最终所生成的新句子的可读性。同时,所生成的新句子也与已有句子具备一定关联,提升了该新句子生成过程中的可控性。上述基于词语替换所完成的句子改写过程操作简单,能够实现商业上的广泛应用。
实施例三
本申请实施例三提供了一种电子设备,请参阅图3,本申请实施例中的电子设备3包括:存储器301,一个或多个处理器302(图3中仅示出一个)及存储在存储器301上并可在处理器上运行的计算机程序。其中:存储器301用于存储软件程序以及模块,处理器302通过运行存储在存储器301的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器302通过运行存储在存储器301的上述计算机程序时实现以下步骤:
获取待改写句子;
对上述待改写句子进行分词处理,得到组成上述待改写句子的各个原词语;
分别确定与各个原词语相关联的目标词语;
针对任一原词语,将上述原词语替换为相关联的目标词语,其中,上述原词语被替换的顺序根据上述原词语在上述待改写句子中的顺序而决定。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,针对任一原词语,在上述将上述原词语替换为相关联的目标词语之后,处理器302通过运行存储在存储器301的上述计算机程序时还实现以下步骤:
检测已改写句子的逻辑和/或结构是否正确,其中,上述已改写句子为本次将上述原词语替换为相关联的目标词语后所得到的句子;
若上述已改写句子的逻辑和结构均正确,则接受本次将上述原词语替换为相关联的目标词语的操作;
若上述已改写句子的逻辑和/或结构错误,则拒绝本次将上述原词语替换为相关联的目标词语的操作。
在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述检测已改写句子的逻辑和/或结构是否正确,包括:
基于预设的大规模语言训练模型检测上述已改写句子的逻辑和/或结构是否正确。
在上述第一种可能的实施方式作为基础,或者上述第二种可能的实施方式作为基础,或者上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述分别确定与各个原词语相关联的目标词语,包括:
针对任一原词语,对上述原词语进行掩码操作;
根据上述原词语的上文,计算各个待替换词语的出现概率,其中,上述待替换词语为预设的大规模语言训练模型根据上述原词语的上文所预测得到的词语;
根据各个待替换词语的出现概率确定目标词语。
在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,在上述根据各个待替换词语的出现概率确定目标词语之前,处理器302通过运行存储在存储器301的上述计算机程序时还实现以下步骤:
检测上述待替换词语中,是否存在原词语;
若上述待替换词语中存在原词语,则将上述原词语从上述待替换词语中剔除;
相应地,上述根据各个待替换词语的出现概率确定目标词语,包括:
在剔除上述原词语后的待替换词语中,根据各个待替换词语的出现概率确定目标词语。
在上述第四种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述根据各个待替换词语的出现概率确定目标词语,包括:
将上述出现概率最大的待替换词语确定为目标词语。
在上述第四种可能的实施方式作为基础而提供的第七种可能的实施方式中,上述根据各个待替换词语的出现概率确定目标词语,包括:
将上述出现概率大于一预设概率阈值的一个以上待替换词语确定为目标词语。
应当理解,在本申请实施例中,所称处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器301可以包括只读存储器和随机存取存储器,并向处理器302提供指令和数据。存储器301的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器301还可以存储设备类型的信息。
由上可见,通过本申请实施例,上述电子设备依次对已有句子的各个原词语进行替换,生成与已有句子的内容及风格相似的新句子;其中,每一次替换操作完成后,都将对替换所得到的句子进行检验,以避免错误句子的生成,能够保障最终所生成的新句子的可读性。同时,所生成的新句子也与已有句子具备一定关联,提升了该新句子生成过程中的可控性。上述基于词语替换所完成的句子改写过程操作简单,能够实现商业上的广泛应用。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种句子改写方法,其特征在于,包括:
获取待改写句子;
对所述待改写句子进行分词处理,得到组成所述待改写句子的各个原词语;
分别确定与各个原词语相关联的目标词语;
针对任一原词语,将所述原词语替换为相关联的目标词语,其中,所述原词语被替换的顺序根据所述原词语在所述待改写句子中的顺序而决定。
2.如权利要求1所述的句子改写方法,其特征在于,针对任一原词语,在所述将所述原词语替换为相关联的目标词语之后,还包括:
检测已改写句子的逻辑和/或结构是否正确,其中,所述已改写句子为本次将所述原词语替换为相关联的目标词语后所得到的句子;
若所述已改写句子的逻辑和结构均正确,则接受本次将所述原词语替换为相关联的目标词语的操作;
若所述已改写句子的逻辑和/或结构错误,则拒绝本次将所述原词语替换为相关联的目标词语的操作。
3.如权利要求2所述的句子改写方法,其特征在于,所述检测已改写句子的逻辑和/或结构是否正确,包括:
基于预设的大规模语言训练模型检测所述已改写句子的逻辑和/或结构是否正确。
4.如权利要求1至3任一项所述的句子改写方法,其特征在于,所述分别确定与各个原词语相关联的目标词语,包括:
针对任一原词语,对所述原词语进行掩码操作;
根据所述原词语的上文,计算各个待替换词语的出现概率,其中,所述待替换词语为预设的大规模语言训练模型根据所述原词语的上文所预测得到的词语;
根据各个待替换词语的出现概率确定目标词语。
5.如权利要求4所述的句子改写方法,其特征在于,在所述根据各个待替换词语的出现概率确定目标词语之前,所述句子改写方法还包括:
检测所述待替换词语中,是否存在原词语;
若所述待替换词语中存在原词语,则将所述原词语从所述待替换词语中剔除;
相应地,所述根据各个待替换词语的出现概率确定目标词语,包括:
在剔除所述原词语后的待替换词语中,根据各个待替换词语的出现概率确定目标词语。
6.如权利要求4所述的句子改写方法,其特征在于,所述根据各个待替换词语的出现概率确定目标词语,包括:
将所述出现概率最大的待替换词语确定为目标词语。
7.如权利要求4所述的句子改写方法,其特征在于,所述根据各个待替换词语的出现概率确定目标词语,包括:
将所述出现概率大于一预设概率阈值的一个以上待替换词语确定为目标词语。
8.一种句子改写装置,其特征在于,包括:
获取单元,用于获取待改写句子;
分词单元,用于对所述待改写句子进行分词处理,得到组成所述待改写句子的各个原词语;
确定单元,用于分别确定与各个原词语相关联的目标词语;
替换单元,用于针对任一原词语,将所述原词语替换为相关联的目标词语,其中,所述原词语被替换的顺序根据所述原词语在所述待改写句子中的顺序而决定。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354566.7A CN111950237B (zh) | 2019-04-29 | 2019-04-29 | 一种句子改写方法、句子改写装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354566.7A CN111950237B (zh) | 2019-04-29 | 2019-04-29 | 一种句子改写方法、句子改写装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950237A true CN111950237A (zh) | 2020-11-17 |
CN111950237B CN111950237B (zh) | 2023-06-09 |
Family
ID=73335423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354566.7A Active CN111950237B (zh) | 2019-04-29 | 2019-04-29 | 一种句子改写方法、句子改写装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950237B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560439A (zh) * | 2020-12-02 | 2021-03-26 | 北京明略昭辉科技有限公司 | 一种基于bert模型的文本风格迁移方法及系统 |
CN113283250A (zh) * | 2021-05-26 | 2021-08-20 | 南京大学 | 一种基于句法成分分析的自动化机器翻译测试方法 |
CN116468005A (zh) * | 2023-03-29 | 2023-07-21 | 云南大学 | 基于文本改写模型的隐写文本生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987848A (zh) * | 2005-12-22 | 2007-06-27 | 国际商业机器公司 | 字符串处理方法以及设备 |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN107861954A (zh) * | 2017-11-06 | 2018-03-30 | 北京百度网讯科技有限公司 | 基于人工智能的信息输出方法和装置 |
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
US20180157646A1 (en) * | 2016-12-01 | 2018-06-07 | Institute For Information Industry | Command transformation method and system |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
-
2019
- 2019-04-29 CN CN201910354566.7A patent/CN111950237B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987848A (zh) * | 2005-12-22 | 2007-06-27 | 国际商业机器公司 | 字符串处理方法以及设备 |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
US20180157646A1 (en) * | 2016-12-01 | 2018-06-07 | Institute For Information Industry | Command transformation method and system |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN107861954A (zh) * | 2017-11-06 | 2018-03-30 | 北京百度网讯科技有限公司 | 基于人工智能的信息输出方法和装置 |
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560439A (zh) * | 2020-12-02 | 2021-03-26 | 北京明略昭辉科技有限公司 | 一种基于bert模型的文本风格迁移方法及系统 |
CN113283250A (zh) * | 2021-05-26 | 2021-08-20 | 南京大学 | 一种基于句法成分分析的自动化机器翻译测试方法 |
CN116468005A (zh) * | 2023-03-29 | 2023-07-21 | 云南大学 | 基于文本改写模型的隐写文本生成方法 |
CN116468005B (zh) * | 2023-03-29 | 2024-01-30 | 云南大学 | 基于文本改写模型的隐写文本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111950237B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122346B (zh) | 一种输入语句的纠错方法及装置 | |
CN110222045B (zh) | 一种数据报表获取方法、装置及计算机设备、存储介质 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
US11521713B2 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
CN109461446B (zh) | 一种识别用户目标请求的方法、装置、系统及存储介质 | |
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN110442516B (zh) | 信息处理方法、设备及计算机可读存储介质 | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
US20140324908A1 (en) | Method and system for increasing accuracy and completeness of acquired data | |
CN109766435A (zh) | 弹幕类别识别方法、装置、设备及存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN111950237A (zh) | 一种句子改写方法、句子改写装置及电子设备 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN112287656A (zh) | 文本比对方法、装置、设备和存储介质 | |
CN110413307A (zh) | 代码功能的关联方法、装置及电子设备 | |
CN111444677A (zh) | 基于大数据的阅读模型优化方法、装置、设备及介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111859862A (zh) | 文本的数据标注方法和装置、存储介质及电子装置 | |
CN116340352A (zh) | 数据查询方法、装置、存储介质及电子设备 | |
CN116186223A (zh) | 一种金融文本处理方法、装置、设备和存储介质 | |
CN113673680B (zh) | 通过对抗网络自动生成验证性质的模型验证方法和系统 | |
CN113448860A (zh) | 测试案例分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |