CN113807074A - 基于预训练语言模型的相似语句生成方法和装置 - Google Patents

基于预训练语言模型的相似语句生成方法和装置 Download PDF

Info

Publication number
CN113807074A
CN113807074A CN202110270871.5A CN202110270871A CN113807074A CN 113807074 A CN113807074 A CN 113807074A CN 202110270871 A CN202110270871 A CN 202110270871A CN 113807074 A CN113807074 A CN 113807074A
Authority
CN
China
Prior art keywords
similar
candidate
sentence
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110270871.5A
Other languages
English (en)
Inventor
高臻
闫慧丽
顾松庠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110270871.5A priority Critical patent/CN113807074A/zh
Publication of CN113807074A publication Critical patent/CN113807074A/zh
Priority to PCT/CN2022/075657 priority patent/WO2022188584A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种基于预训练语言模型的相似语句生成方法和装置,其中,方法包括:获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。

Description

基于预训练语言模型的相似语句生成方法和装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于预训练语言模型的相似语句生成方法和装置。
背景技术
通常,客服机器人会不定期新增FAQ(Frequently Asked Questions,经常问到的问题),相应就需要做相似问题多样性扩写。
相关技术中,由人工制定模版,只需填入相应的实体和关键词完成问题扩写,需要投入大量人力和时间来编辑模版,每有新的问题类型加入就需要订制相应的模版,产生的句式固定,缺乏表达的多样性。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请提出一种基于预训练语言模型的相似语句生成方法和装置,以实现自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
本申请第一方面实施例提出了一种基于预训练语言模型的相似语句生成方法,包括:
获取待处理语句;
将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
将所述多个判别语句对输入已训练的判别模型,获取判别结果,以及根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
本申请实施例的基于预训练语言模型的相似语句生成方法,通过获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
本申请第二方面实施例提出了一种基于预训练语言模型的相似语句生成装置,包括:
第一获取模块,用于获取待处理语句;
第一处理模块,用于将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
第一生成模块,用于根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
第二处理模块,用于将所述多个判别语句对输入已训练的判别模型,获取判别结果;
第二获取模块,用于根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
本申请实施例的基于预训练语言模型的相似语句生成装置,通过获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的基于预训练语言模型的相似语句生成方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如本申请第一方面实施例提出的基于预训练语言模型的相似语句生成方法。
本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如本申请第一方面实施例提出的基于预训练语言模型的相似语句生成方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的基于预训练语言模型的相似语句生成方法的流程示意图;
图2为本申请实施例二所提供的基于预训练语言模型的相似语句生成方法的流程示意图;
图3为本申请实施例三所提供的基于预训练语言模型的相似语句生成方法的流程示意图;
图4为本申请实施例中相似语句生成流程示意图;
图5为本申请实施例四所提供的基于预训练语言模型的相似语句生成装置的结构示意图;
图6示出了适于用来实现本申请实施方式的示例性电子设备或服务器的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
针对需要投入大量人力和时间来编辑模版,每有新的问题类型加入就需要订制相应的模版,产生的句式固定,缺乏表达的多样性的问题,本申请实施例提出一种基于预训练语言模型的相似语句生成方法,通过获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
下面参考附图描述本申请实施例的基于预训练语言模型的相似语句生成方法和装置。
图1为本申请实施例一所提供的基于预训练语言模型的相似语句生成方法的流程示意图。
本申请实施例的对话识别方法,可以应用于电子设备。其中,电子设备可以为任一具有计算能力的设备,例如可以为PC(Personal Computer,个人电脑)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该基于预训练语言模型的相似语句生成方法可以包括以下步骤:
步骤101,获取待处理语句。
本申请实施例中,待处理语句可以理解为需要生成与其对应的多个相似语句,可以根据实际应用场景选择获取。
举例而言,待处理语句可以为“产品A发展怎么样”、“可以介绍一下产品A不”等等。
步骤102,将待处理语句输入已训练的生成模型,获取多个候选相似语句。
在本申请实施例中,生成模型为已训练的预训练语言模型,具体训练过程详见后续描述,此处不再详述。
在本申请实施例中,对待处理语句进行编码,获取编码向量;采用自回归方式,逐字生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数;根据每个待处理字的目标候选相似字生成候选相似语句。
举例而言,输入待处理语句X,对X进行编码,然后采用随机采样策略生成候选相似语句,具体地,生成候选相似语句的过程是自左向右逐字生成的,由于生成每个字的过程都是从概率最高的N比如5个字中随机选择得到的,由此,同样的待处理语句输入到生成模型每次输出的到的候选相似语句都不一样,多次重复这个过程就得到了多个候选相似语句。
由此,采用随机采样的方式,即每生成一个字都是以标准问题和已生成内容为条件,从当前条件分布中概率最高的多个候选相似字中随机选择,获取多个候选相似语句,提高生成表达形式的多样性。
步骤103,根据待处理语句和多个候选相似语句,生成多个判别语句对。
步骤104,将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。
在本申请实施例中,待处理语句与每个候选相似语句分别组成判别语句对,比如待处理语句X,多个候选相似语句为Y1-Y5,组成的判别语句对为(X Y1)、(X Y2)到(X Y5),获取5个判别语句对。
在本申请实施例中,判别模型为已训练的基于机器翻译的双向编码表示BERT模块,具体训练过程详见后续描述,此处不再详述。
在本申请实施例中,对每个判别语句对进行编码,获取多个判别向量,对每个判别向量进行预测,获取待处理语句和每个候选相似语句之间的相似度。
具体地,判别模型的输入是(待处理语句,候选相似句)组成的语句对,判别模型对语句对进行编码,分类预测语句对是否是相似句,在是相似句的情况下,获取对应的候选相似句为目标相似语句。
本申请实施例的基于预训练语言模型的相似语句生成方法,通过获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
在本申请实施例的一种可能的实现方式中,采用预训练语言模UniLM(
Figure BDA0002974337850000071
pre-trained Language Model,统一预训练语言模型)作为生成模型,生成高质量文本,利用BERT(Bidirectional Encoder Representation from Transformers即基于机器翻译的双向编码表示)作为判别模型,过滤不合格的生成文本,具体结合图2和图3进行详细描述训练过程。
图2为本申请实施例二所提供的基于预训练语言模型的相似语句生成方法的流程示意图。
如图2所示,该基于预训练语言模型的相似语句生成方法可以包括以下步骤:
步骤201,获取通用领域相似问题数据集。
步骤202,将通用领域相似问题数据集输入预训练语言模型训练,获取第一训练相似语句,通过损失函数计算第一训练语句和第一标准语句之间的第一误差,调整预训练语言模型的参数直到第一误差小于预设阈值,生成候选生成模型。
在本申请实施例中,使用编码器(UniLM)在通用领域相似问题数据集上进行相似问题生成任务迁移,获取通用领域相似问题数据集的方式有很多种,比如爬取收集相关贴吧、问题回答网站等推荐的相似问题,运用最大似然估计进行相似问题生成任务迁移学习,直到预训练语言模型收敛即可。由于训练数据是从网上爬取的,所以不需要人工标注,提高训练效率。
在本申请实施例中,UniLM模型是由微软开源的,基于Transformer(深度自注意力变换网络)架构的,融合自然语言理解与生成能力的预训练语言模型,UniLM预训练过程采用自编码与自回归结合的多任务学习方式,两个任务分别是:遮蔽语言模型(maskedlanguage model,MLM)和序列到序列(sequence to sequence,seq2seq),既可以做自然语言理解类型的下游任务又可以做自然语言生成类型的下游任务,也就是说,可以通过对训练语句中的各个字进行随机掩码后进行编码解码训练,提高后续生成质量。
在本申请实施例中,UniLM是一个预训练模型,原始的UniLM的预训练任务中,是没有相似生成相似问题这个任务的,本申请使用UniLM模型的参数作为初始化参数,在其上训练相似问题生成任务即迁移学习,训练的目标是使生成的目标序列的似然值最大,当目标函数的值不再变化,或者变化小于某一个阈值,就认为预训练语言模型收敛了,即可以停止训练,生成候选生成模型。
步骤203,获取目标领域相似问题数据集。
步骤204,将目标领域相似问题数据集输入候选生成模型进行训练,获取第二训练相似语句,通过损失函数计算第二训练语句和第二标准语句之间的第二误差,调整候选生成模型的参数直到第二误差小于预设阈值,生成已训练的生成模型。
在本申请实施例中,为了训练的预训练语言模型更加适用于目标领域,其中,目标领域可以根据应用场景选择设置,比如客服业务领域等,可以使用编码器(UniLM)在客服业务正在使用的FAQ相似问题库上进行相似问题生成任务微调。
在本申请实施例中,可以使用相对少的目标领域相似问题数据集输入候选生成模型进行最大似然估计,获取目标序列的似然值的负对数小于预设似然阈值,生成已训练的生成模型。
由此,本申请首先使用容易获取到的大量监督数据做相似任务的迁移,接着使用已有的少量业务数据和筛选可用数据时得到的少量标注数据做领域迁移。实现用最少的标注成本,达到理想的业务指标,提高处理效率。
图3为本申请实施例二所提供的基于预训练语言模型的相似语句生成方法的流程示意图。
如图4所示,该基于预训练语言模型的相似语句生成方法可以包括以下步骤:
步骤301,获取相似语句对数据集。
步骤302,将相似语句对数据集输入基于BERT的双向编码表示模块进行训练,生成候选判别模型。
在本申请实施例中,使用判别模型(BERT)在金融语义相似度数据集上进行相似问题判别任务迁移,以及使用判别器(BERT)在客服业务正在使用的FAQ和相似问题上进行相似问题判别任务微调。
具体地,构建判别模型BERT,利用可公开获取的相似问题语料进行相似问题判别训练,BERT模型是由Google开源的,基于Transformer架构的预训练语言模型,主要应用于自然语言理解任务,BERT预训练过程采用自编码方式多任务学习,两个任务分别是:遮蔽语言模型(masked language model,MLM)和序列到序列(next sentence prediction,NSP),BERT可以作为下游任务模型的初始化参数,只需根据特定任务添加简单的输出层结构并少量标注数据上微调即可实现本申请的效果。
其中,使用可以方便获取到的公开数据集比如金融语义相似度数据集上进行相似问题判别任务迁移学习,不需要人工标注数据,提高训练效率。
具体地,利用客服业务积累的FAQ相似问题数据,用最大似然估计方法进行领域迁移,使判别模型学习客服业务的数据分布,使用的数据量远小于在生成候选判别模型中的训练数据规模,进一步提高训练效率。
步骤303,获取目标领域的相似语句对正样本和负样本。
步骤304,将相似语句对正样本和对负样本输入候选判别模型进行训练,生成已训练的判别模型。
具体地,在客服业务积累的FAQ相似问题上进行相似问题判别任务微调,训练判别模型除了需要客服积累的FAQ相似问题,还需要在筛选可用相似问题时标注的不可用数据作为反例做领域迁移,使得判别模型学习运营人员的判别标准,需要的数据量也比较小,进一步提高训练效率。
基于上述实施例,本申请采用预训练语言模型UniLM作为生成模型生成高质量文本,利用BERT作为判别模型过滤不合格的生成文本,比如图4所示,将待处理语句输入生成模型,获得候选相似语句,再经判别模型过滤,得到符合标准的目标相似语句,由此,自动生成兼具生形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
与上述图1至图4实施例提供的基于预训练语言模型的相似语句生成方法相对应,本申请还提供一种基于预训练语言模型的相似语句生成装置,由于本申请实施例提供的基于预训练语言模型的相似语句生成装置与上述图1至图4实施例提供的基于预训练语言模型的相似语句生成方法相对应,因此在基于预训练语言模型的相似语句生成方法的实施方式也适用于本申请实施例提供的基于预训练语言模型的相似语句生成装置,在本申请实施例中不再详细描述。
图5为本申请实施例四所提供的基于预训练语言模型的相似语句生成装置的结构示意图。
如图5所示,该基于预训练语言模型的相似语句生成装置500应用于电子设备,包括:第一获取模块501、第一处理模块502、第一生成模块503、第二处理模块504和第二获取模块505。
第一获取模501,用于获取待处理语句。
第一处理模块502,用于将待处理语句输入已训练的生成模型,获取多个候选相似语句。
第一生成模块503,用于根据待处理语句和所述多个候选相似语句,生成多个判别语句对。
第二处理模块504,用于将多个判别语句对输入已训练的判别模型,获取判别结果。
第二获取模块505,用于根据判别结果从所述多个候选相似语句中获取目标相似语句。
进一步地,在本申请实施例的一种可能的实现方式中,第一处理模块502,具体用于:对待处理语句进行编码,获取编码向量;对编码向量进行解码处理,采用自回归方式生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数,根据目标候选相似字生成候选相似语句。
进一步地,在本申请实施例的一种可能的实现方式中,第二处理模块504,具体用于:对每个判别语句对进行编码,获取多个判别向量;对每个判别向量进行预测,获取待处理语句和每个候选相似语句之间的相似度。
进一步地,在本申请实施例的一种可能的实现方式中,该基于预训练语言模型的相似语句生成装置500还可以包括:
第三获取模块,用于获取通用领域相似问题数据集;第二生成模块,用于将所述通用领域相似问题数据集输入预训练语言模型进行训练,获取第一训练相似语句,通过损失函数计算所述第一训练语句和第一标准语句之间的第一误差,调整预训练语言模型的参数直到第一误差小于预设阈值,生成候选生成模型;第四获取模块,用于获取目标领域相似问题数据集;第三生成模块,用于将目标领域相似问题数据集输入候选生成模型进行训练,获取第二训练相似语句,通过损失函数计算第二训练语句和第二标准语句之间的第二误差,调整候选生成模型的参数直到第二误差小于预设阈值,生成已训练的生成模型。
进一步地,在本申请实施例的一种可能的实现方式中,该基于预训练语言模型的相似语句生成装置500还可以包括:
第五获取模块,用于获取相似语句对数据集;第四生成模块,用于将相似语句对数据集输入基于BERT的双向编码表示模块进行训练,生成候选判别模型;第六获取模块,用于获取目标领域的相似语句对正样本和负样本;第五生成模块,用于将相似语句对正样本和负样本输入所述候选判别模型进行训练,获取目标序列的相似度小于预设相似阈值,生成已训练的判别模型。
本申请实施例的基于预训练语言模型的相似语句生成装置,通过获取待处理语句;将待处理语句输入已训练的生成模型,获取多个候选相似语句;根据待处理语句和多个候选相似语句,生成多个判别语句对;将多个判别语句对输入已训练的判别模型,获取判别结果,以及根据判别结果从多个候选相似语句中获取目标相似语句。由此,自动生成兼具生形式多样且语义一致的相似问题,提高相似语句生成质量和效率。
为了实现上述实施例,本申请还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述图1-图4中任一实施例提出的基于预训练语言模型的相似语句生成方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如本申请前述任一实施例提出的基于预训练语言模型的相似语句生成方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行如本申请前述任一实施例提出的基于预训练语言模型的相似语句生成方法。
图6示出了适于用来实现本申请实施方式的示例性电子设备或服务器的框图。图6显示的电子设备或服务器12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备或服务器12以通用计算设备的形式表现。电子设备或服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备或服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备或服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备或服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备或服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备或服务器12交互的设备通信,和/或与使得该电子设备或服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备或服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LocalArea Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备或服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备或服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种基于预训练语言模型的相似语句生成方法,其特征在于,包括以下步骤:
获取待处理语句;
将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
将所述多个判别语句对输入已训练的判别模型,获取判别结果,以及根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
2.如权利要求1所述的方法,其特征在于,所述将所述待处理语句输入已训练的生成模型,获取多个候选相似语句,包括:
对所述待处理语句进行编码,获取编码向量;
对所述编码向量进行解码处理,采用自回归方式生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数,根据所述目标候选相似字生成所述候选相似语句。
3.如权利要求1所述的方法,其特征在于,所述将所述多个判别语句对输入已训练的判别模型,获取判别结果,包括:
对每个所述判别语句对进行编码,获取多个判别向量;
对每个所述判别向量进行预测,获取所述待处理语句和每个所述候选相似语句之间的相似度。
4.如权利要求1所述的方法,其特征在于,在所述将所述待处理语句输入已训练的生成模型之前,还包括:
获取通用领域相似问题数据集;
将所述通用领域相似问题数据集输入预训练语言模型进行训练,获取第一训练相似语句,通过损失函数计算所述第一训练语句和第一标准语句之间的第一误差,调整所述预训练语言模型的参数直到所述第一误差小于预设阈值,生成候选生成模型;
获取目标领域相似问题数据集;
将所述目标领域相似问题数据集输入候选生成模型进行训练,获取第二训练相似语句,通过损失函数计算所述第二训练语句和第二标准语句之间的第二误差,调整所述候选生成模型的参数直到所述第二误差小于预设阈值,生成所述已训练的生成模型。
5.如权利要求1所述的方法,其特征在于,在所述将所述多个判别语句对输入已训练的判别模型之前,还包括:
获取相似语句对数据集;
将所述相似语句对数据集输入基于BERT的双向编码表示模块进行训练,生成候选判别模型;
获取目标领域的相似语句对正样本和负样本;
将所述相似语句对正样本和负样本输入所述候选判别模型进行训练,生成所述已训练的判别模型。
6.一种基于预训练语言模型的相似语句生成装置,其特征在于,包括:
第一获取模块,用于获取待处理语句;
第一处理模块,用于将所述待处理语句输入已训练的生成模型,获取多个候选相似语句;
第一生成模块,用于根据所述待处理语句和所述多个候选相似语句,生成多个判别语句对;
第二处理模块,用于将所述多个判别语句对输入已训练的判别模型,获取判别结果;
第二获取模块,用于根据所述判别结果从所述多个候选相似语句中获取目标相似语句。
7.如权利要求6所述的装置,其特征在于,所述第一处理模块,具体用于:
对所述待处理语句进行编码,获取编码向量;
对所述编码向量进行解码处理,采用自回归方式生成候选相似语句;其中,获取每个候选相似字的概率分布,并从概率最高的前N个候选相似字中随机采样一个候选相似字字作为目标候选相似字,其中,N为正整数,根据所述目标候选相似字生成所述候选相似语句。
8.如权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
对每个所述判别语句对进行编码,获取多个判别向量;
对每个所述判别向量进行预测,获取所述待处理语句和每个所述候选相似语句之间的相似度。
9.如权利要求6所述的装置,其特征在于,还包括:
第三获取模块,用于获取通用领域相似问题数据集;
第二生成模块,用于将所述通用领域相似问题数据集输入预训练语言模型进行训练,获取第一训练相似语句,通过损失函数计算所述第一训练语句和第一标准语句之间的第一误差,调整所述预训练语言模型的参数直到所述第一误差小于预设阈值,生成候选生成模型;
第四获取模块,用于获取目标领域相似问题数据集;
第三生成模块,用于将所述目标领域相似问题数据集输入候选生成模型进行训练,获取第二训练相似语句,通过损失函数计算所述第二训练语句和第二标准语句之间的第二误差,调整所述候选生成模型的参数直到所述第二误差小于预设阈值,生成所述已训练的生成模型。
10.如权利要求6所述的方法,其特征在于,还包括:
第五获取模块,用于获取相似语句对数据集;
第四生成模块,用于将所述相似语句对数据集输入基于BERT的双向编码表示模块进行训练,生成候选判别模型;
第六获取模块,用于获取目标领域的相似语句对正样本和负样本;
第五生成模块,用于将所述相似语句对正样本和对负样本输入所述候选判别模型进行训练,生成所述已训练的判别模型。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的基于预训练语言模型的相似语句生成方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的基于预训练语言模型的相似语句生成方法。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一所述的基于预训练语言模型的相似语句生成方法。
CN202110270871.5A 2021-03-12 2021-03-12 基于预训练语言模型的相似语句生成方法和装置 Pending CN113807074A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110270871.5A CN113807074A (zh) 2021-03-12 2021-03-12 基于预训练语言模型的相似语句生成方法和装置
PCT/CN2022/075657 WO2022188584A1 (zh) 2021-03-12 2022-02-09 基于预训练语言模型的相似语句生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270871.5A CN113807074A (zh) 2021-03-12 2021-03-12 基于预训练语言模型的相似语句生成方法和装置

Publications (1)

Publication Number Publication Date
CN113807074A true CN113807074A (zh) 2021-12-17

Family

ID=78892914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270871.5A Pending CN113807074A (zh) 2021-03-12 2021-03-12 基于预训练语言模型的相似语句生成方法和装置

Country Status (2)

Country Link
CN (1) CN113807074A (zh)
WO (1) WO2022188584A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357974A (zh) * 2021-12-28 2022-04-15 北京海泰方圆科技股份有限公司 相似样本语料的生成方法、装置、电子设备及存储介质
CN114817517A (zh) * 2022-05-30 2022-07-29 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质
WO2022188584A1 (zh) * 2021-03-12 2022-09-15 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置
CN116955590A (zh) * 2023-09-20 2023-10-27 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法
WO2023241226A1 (zh) * 2022-06-17 2023-12-21 华为云计算技术有限公司 语句生成方法、装置及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497633B (zh) * 2022-10-19 2024-01-30 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN117332180B (zh) * 2023-12-01 2024-03-12 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018649A1 (en) * 2011-07-13 2013-01-17 Nuance Communications, Inc. System and a Method for Generating Semantically Similar Sentences for Building a Robust SLM
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
CN110162604A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110765758A (zh) * 2019-11-04 2020-02-07 北京小米智能科技有限公司 一种同义句生成模型的生成方法、装置及介质
CN111046147A (zh) * 2018-10-11 2020-04-21 马上消费金融股份有限公司 一种问答方法、装置及终端设备
CN111368024A (zh) * 2020-02-14 2020-07-03 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN111400470A (zh) * 2020-03-13 2020-07-10 深圳市腾讯计算机系统有限公司 问题处理方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679144B2 (en) * 2016-07-12 2020-06-09 International Business Machines Corporation Generating training data for machine learning
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN113807074A (zh) * 2021-03-12 2021-12-17 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018649A1 (en) * 2011-07-13 2013-01-17 Nuance Communications, Inc. System and a Method for Generating Semantically Similar Sentences for Building a Robust SLM
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN111046147A (zh) * 2018-10-11 2020-04-21 马上消费金融股份有限公司 一种问答方法、装置及终端设备
CN110162604A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110765758A (zh) * 2019-11-04 2020-02-07 北京小米智能科技有限公司 一种同义句生成模型的生成方法、装置及介质
CN111368024A (zh) * 2020-02-14 2020-07-03 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN111400470A (zh) * 2020-03-13 2020-07-10 深圳市腾讯计算机系统有限公司 问题处理方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022188584A1 (zh) * 2021-03-12 2022-09-15 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置
CN114357974A (zh) * 2021-12-28 2022-04-15 北京海泰方圆科技股份有限公司 相似样本语料的生成方法、装置、电子设备及存储介质
CN114817517A (zh) * 2022-05-30 2022-07-29 北京海天瑞声科技股份有限公司 一种语料获取方法、装置、电子设备和存储介质
WO2023241226A1 (zh) * 2022-06-17 2023-12-21 华为云计算技术有限公司 语句生成方法、装置及存储介质
CN116955590A (zh) * 2023-09-20 2023-10-27 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法
CN116955590B (zh) * 2023-09-20 2023-12-08 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法

Also Published As

Publication number Publication date
WO2022188584A1 (zh) 2022-09-15

Similar Documents

Publication Publication Date Title
CN113807074A (zh) 基于预训练语言模型的相似语句生成方法和装置
CN110196894B (zh) 语言模型的训练方法和预测方法
CN109670029B (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
US10861456B2 (en) Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
US20210256390A1 (en) Computationally efficient neural network architecture search
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN111767366B (zh) 问答资源挖掘方法、装置、计算机设备及存储介质
CN110442878B (zh) 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110175336B (zh) 翻译方法、装置和电子设备
CN108062388A (zh) 人机对话的回复生成方法和装置
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN111428514A (zh) 语义匹配方法、装置、设备以及存储介质
CN116702723A (zh) 一种合同段落标注模型的训练方法、装置及设备
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
KR20210058059A (ko) 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
CN110781849A (zh) 一种图像处理方法、装置、设备及存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
CN115240696A (zh) 一种语音识别方法及可读存储介质
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质
CN113762459A (zh) 一种模型训练方法、文本生成方法、装置、介质及设备
CN114386390B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113807095B (zh) 实体词提取模型的训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination