CN112837676B - 一种语句生成方法、语句生成装置及智能设备 - Google Patents
一种语句生成方法、语句生成装置及智能设备 Download PDFInfo
- Publication number
- CN112837676B CN112837676B CN201911066310.2A CN201911066310A CN112837676B CN 112837676 B CN112837676 B CN 112837676B CN 201911066310 A CN201911066310 A CN 201911066310A CN 112837676 B CN112837676 B CN 112837676B
- Authority
- CN
- China
- Prior art keywords
- sentence
- generator
- trained
- discriminator
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 24
- 230000003993 interaction Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语句生成方法、语句生成装置、智能设备及计算机可读存储介质,其中该方法包括:获取待预测的第一语句;生成随机语义向量;将所述随机语义向量及所述第一语句输入至已训练的生成器中,得到所述生成器所输出的第一答复,其中,所述生成器基于预设的生成式对抗网络训练而得。通过本申请方案,即便面对同一语句,由于随机语义向量的存在,智能设备可以基于不同的随机语义向量生成针对语句的不同答复,可减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种语句生成方法、语句生成装置、智能设备及计算机可读存储介质。
背景技术
当前,在人机对话的过程中,机器端如何应对用户所提出的各种问题显得尤为重要。大部分智能设备在与用户进行人机交互的过程中,当接收到相同的输入语句时,往往只能生成固定的一个答复,导致智能设备与用户的人机交互过程较为单调。
发明内容
有鉴于此,本申请提供了一种语句生成方法、语句生成装置、智能设备及计算机可读存储介质,可减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
本申请的第一方面提供了一种语句生成方法,包括:
获取待预测的第一语句;
生成随机语义向量;
将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,其中,上述生成器基于预设的生成式对抗网络训练而得。
本申请的第二方面提供了一种语句生成装置,包括:
第一语句获取单元,用于获取待预测的第一语句;
随机语义向量获取单元,用于生成随机语义向量;
第一答复生成单元,用于将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,其中,上述生成器基于预设的生成式对抗网络训练而得。
本申请的第三方面提供了一种智能设备,上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
由上可见,在本申请方案中,首先获取待预测的第一语句,并生成随机语义向量,接着将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,其中,上述生成器基于预设的生成式对抗网络训练而得。通过本申请方案,即便面对同一语句,由于随机语义向量的存在,智能设备可以基于不同的随机语义向量生成针对语句的不同答复,可减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语句生成方法的实现流程示意图;
图2是本申请实施例提供的语句生成方法中,对生成器进行训练的实现流程示意图;
图3是本申请实施例提供的生成器训练时采用的生成式对抗网络的结构示意图;
图4是本申请实施例提供的生成器的结构示意图;
图5是本申请实施例提供的语句生成装置的示意图;
图6是本申请实施例提供的智能设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本发明实施例的一种语句生成方法、语句生成装置及智能设备可应用于机器人、智能手机、平板电脑等能够与用户进行交互的智能产品中,为了说明本申请上述的技术方案,下面通过具体实施例来进行说明。
实施例一
下面对本申请实施例提供的一种语句生成方法进行描述,请参阅图1,本申请实施例中的语句生成方法包括:
在步骤101中,获取待预测的第一语句;
在本申请实施例中,智能设备可以先获取待预测的第一语句,上述第一语句指的是等待智能设备生成对应答复的语句。可选地,上述第一语句可以是用户所输入的语句,例如用户通过文字输入、语音输入或其它输入方式所主动输入的语句;或者,当上述智能设备当前处于互联网连接状态时,上述第一语句还可以是智能设备从互联网上随机抓取的语句,此处不对上述第一语句的获取方式作出限定。
在步骤102中,生成随机语义向量;
在本申请实施例中,通过一噪声发生器生成一组随机数,并基于生成的这一组随机数构建随机语义向量。可选地,上述随机语义向量的维度可以为任意值;或者,也可基于上述第一语句先确定目标向量维度,随后再生成与目标向量维度相匹配的随机语义向量,此处不对上述随机语义向量的维度作出限定。
在步骤103中,将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复。
在本申请实施例中,上述生成器基于预设的生成式对抗网络训练而得。通过上述已训练的生成器,可以基于所输入的第一语句及随机语义向量生成对应的第一答复。也即,在用户输入的语句相同而随机语义向量不同的情况下,智能设备可以反馈不同的答复,大大提升了人机对话过程中的趣味。
具体地,上文已指出上述生成器为基于预设的生成式对抗网络训练而得,基于此,本申请实施例还提出了对上述生成器进行训练的具体过程,请参阅图2,上述语句生成方法还包括:
在步骤201中,基于待训练的生成器及待训练的判别器构建得到生成式对抗网络;
在本申请实施例中,上述生成式对抗网络包括生成器及判别器,请参阅图3,图3示出了上述生成式对抗网络的结构示意图。其中,上述生成器的输出构建了上述判别器的输入。
在步骤202中,获取待训练的输入数据,并将上述输入数据输入至上述生成器,以得到上述判别器的判别结果,其中,上述判别结果用于指示输入数据的匹配程度;
在本申请实施例中,将训练过程中研发人员所预设的若干个语句记为第二语句,各个第二语句所对应的答复记为第二答复,则上述输入数据包括第二语句集合及第二答复集合,其中,上述第二语句集合为若干个第二语句所构成的集合,上述第二答复集合为若干个第二答复所构成的集合。具体地,上述第二语句集合可表示为X=(X1,X2,X3,...,XN),其中X1、X2、X3至XN为不同的第二语句,也即,可以将第二语句集合中的第二语句表示为Xi,i为小于N+1的正整数;上述第二答复集合可表示为Y=((Y11,Y12,Y13,...),(Y21,Y22,Y23...),(Y31,Y32,Y33...),....,(YN1,YN2,YN3...)),其中,Y11,Y12,Y13等为第二语句X1所对应的多个不同的第二答复,Y21,Y22,Y23等为第二语句X2所对应的多个不同的第二答复,Y31,Y32,Y33等为第二语句X3所对应的多个不同的第二答复,也即,假定第二语句Xi共对应有M个第二答复,则可以将第二语句Xi所对应的一第二答复记为Yij,i为小于N+1的正整数,j为小于M+1的正整数。需要注意的是,除了上述第二语句及对应的第二答复之外,上述输入数据还包括有随机噪声。
为了更好的理解上述步骤202,以下以单个第二语句、单个第二答复及单个随机噪声为例,对上述步骤202作出说明。上述步骤202具体包括:
A1、获取待训练的第二语句及与上述第二语句相关联的第二答复;
A2、生成随机噪声;
其中,可以从上述第二语句集合及第二答复集合中获取一第二语句及与该第二语句相关联的第二答复,并通过一噪声发生器生成随机噪声。
A3、将上述第二语句及上述随机噪声输入至待训练的生成器,得到上述生成器所输出的第三答复;
A4、基于上述第二语句和上述第二答复组成真实语句组;
A5、基于上述第二语句和上述第三答复组成生成语句组;
其中,先将上述第二语句及上述随机噪声输入至待训练的生成器中,得到上述生成器所输出的第三答复;也即,该第三答复并非训练阶段所预设好的答复,而是该生成器在不断训练的过程中所生成的答复。基于此,可将上述第二语句和上述第二答复组成语句组,考虑到该语句组中的答复为预设的答复,研发人员已知该第二答复是与第二语句相匹配的,因而,将该语句组记作真实语句组;将上述第二语句和上述第三答复组成另一语句组,考虑到该语句组中的答复为生成器所生成的答复,因而,将该语句组记作生成语句组;
A6、将上述真实语句组和/或上述生成语句组输入至待训练的判别器中,得到上述判别器所输出的判别结果。
其中,不管是真实语句组还是生成语句组,都包含有两个语句。在训练生成器时,仅向判别器输入生成语句组;在训练判别器时,以任意顺序分别向判别器输入真实语句组及生成语句组。上述判别器由语句匹配模型构成,在向判别器输入两个语句后,判别器将输出一得分,最高分为1,即最匹配,最低分为0,即完全不匹配;也即,判别结果通过上述得分体现。
在步骤203中,基于上述判别器的判别结果,交替训练上述判别器及上述生成器,直至达到预设的训练迭代次数。
其中,生成器的目的是生成让判别器难辨真假的答复,也即,使得生成语句组输入至判别器后,判别器所输出的得分尽量靠近0.5;而判别器的目的是尽可能准确的识别出当前输入的语句组是否为真实样本,也即,使得真实语句组输入至判别器后,判别器所输出的得分尽量靠近1,而生成语句组输入至判别器后,判别器所输出的得分尽量靠近0。可见,生成器的训练目的及判别器的训练目的相反,二者是相对抗的。具体地,在对生成器进行训练时,保持判别器的参数不变,只需要将基于生成器所得到的生成语句组输入至判别器中,并基于判别器的判别结果更新生成器的参数即可;而在对判别器进行训练时,保持生成器的参数不变,将生成器所得到的生成语句组及由预设的第二语句及第二答复所组成的真实语句组以任意顺序输入至判别器中,并基于判别器的判别结果更新判别器的参数即可。以下通过一段伪代码对上述交替训练的过程作出进一步说明:
上述伪代码中,number of training iteration代表训练迭代次数;D代表判别器,G代表生成器,{z1,...,zm}为若干随机噪声,{(x1,y1),...,(x1,yi),...,(xn,yj),...,(xn,ym)}为若干真实语句组;可以看到,在对判别器进行训练时,不仅用到了随机噪音(该随机噪声用于生成相应的生成语句组),也用到了真实语句组,并通过预设的随机梯度上升算法,更新上述判别器的参数;而在对生成器进行训练时,则不再需要真实语句组,只需要随机噪声(该随机噪声用于生成相应的生成语句组)即可,并通过预设的随机梯度下降算法,更新上述生成器的参数。
可选地,上述生成器由预设的seq2seq模型构成,上述seq2seq模型包括编码器及解码器。由于生成器的输入之一为随机噪声,因而,需要对模型进行适当的改造。请参阅图4,图4示出了上述生成器的结构示意图,可以看到,输入生成器的语句先进入编码器进行编码,得到编码器的输出向量;然后该输出向量再进入解码器中,与此同时,噪声向量z也被嵌入解码器中,最终得到解码器所输出的输出序列,该输出序列即为基于输入编码器的语句所生成得到的答复。其中,上述噪声z嵌入到解码器的方式有很多种,例如,可以是与编码器的输出向量进行向量相加(噪声向量z的维度需要与编码器的输出向量的维度一致);或者,也可以是噪声向量z与编码器的输出向量进行首尾拼接等,此处不作限定。基于此,在生成器训练完成,应用已训练的生成器时,上述步骤103具体表现为:将第一语句作为上述编码器的输入,得到上述编码器的输出向量;将上述编码器的输出向量及上述随机语义向量作为上述解码器的输入,得到上述解码器的输出序列;将上述解码器的输出序列作为上述生成器所输出的第一答复。而在生成器训练的过程中,上述生成器的工作过程为:将第二语句作为上述编码器的输入,得到上述编码器的输出向量;将上述编码器的输出向量及上述随机噪声作为上述解码器的输入,得到上述解码器的输出序列;将上述解码器的输出序列作为上述生成器所输出的第三答复。
由上可见,通过本申请实施例,基于生成式对抗网络不断对生成器及判别器进行交替训练,当上述生成器训练好后,噪声空间就变为了语义空间,也即,向生成器输入一语句及一随机噪声,即可得到有意义且相匹配的答复。上述生成器可以很好的应用于闲聊式的人机交互系统中,使得面同用户不同情况下所输入的同一语句,能够生成针对语句的不同答复,有效减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
实施例二
本申请实施例二提供了一种语句生成装置,上述语句生成装置可集成于智能设备中,如图5所示,本申请实施例中的语句生成装置500包括:
第一语句获取单元501,用于获取待预测的第一语句;
随机语义向量生成单元502,用于生成随机语义向量;
第一答复生成单元503,用于将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,其中,上述生成器基于预设的生成式对抗网络训练而得。
可选地,上述的语句生成装置500还包括:
生成式对抗网络构建单元,用于基于待训练的生成器及待训练的判别器构建得到生成式对抗网络,其中,上述生成器的输出构建了上述判别器的输入;
待训练数据输入单元,用于获取待训练的输入数据,并将上述输入数据输入至上述生成器,以得到上述判别器的判别结果,其中,上述判别结果用于指示输入数据的匹配程度;
交替训练单元,用于基于上述判别器的判别结果,交替训练上述判别器及上述生成器,直至达到预设的训练迭代次数。
可选地,上述待训练数据输入单元包括:
语句获取子单元,用于获取待训练的第二语句及与上述第二语句相关联的第二答复;
噪声生成子单元,用于生成随机噪声;
答复生成子单元,用于将上述第二语句及上述随机噪声输入至待训练的生成器,得到上述生成器所输出的第三答复;
语句组构建子单元,用于基于上述第二语句和上述第二答复组成真实语句组,并基于上述第二语句和上述第三答复组成生成语句组;
网络运行子单元,用于将上述真实语句组和/或上述生成语句组输入至待训练的判别器中,得到上述判别器所输出的判别结果。
可选地,上述交替训练单元包括:
判别器更新子单元,用于基于上述判别结果及预设的随机梯度上升算法,更新上述判别器的参数;
生成器更新子单元,用于基于上述判别结果及预设的随机梯度下降算法,更新上述生成器的参数。
可选地,上述生成器由预设的seq2seq模型构成,上述seq2seq模型包括编码器及解码器;相应地,上述第一答复生成单元,包括:
编码器运行子单元,用于将第一语句作为上述编码器的输入,得到上述编码器的输出向量;
解码器运行子单元,用于将上述编码器的输出向量及上述随机语义向量作为上述解码器的输入,得到上述解码器的输出序列;
第一答复确定子单元,用于将上述解码器的输出序列作为上述生成器所输出的第一答复。
由上可见,通过本申请实施例,基于生成式对抗网络不断对生成器及判别器进行交替训练,当上述生成器训练好后,噪声空间就变为了语义空间,也即,向生成器输入一语句及一随机噪声,即可得到有意义且相匹配的答复。上述生成器可以很好的应用于闲聊式的人机交互系统中,使得面同用户不同情况下所输入的同一语句,能够生成针对语句的不同答复,有效减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
实施例三
本申请实施例三提供了一种智能设备,请参阅图6,本申请实施例中的智能设备6包括:存储器601,一个或多个处理器602(图6中仅示出一个)及存储在存储器601上并可在处理器上运行的计算机程序。其中:存储器601用于存储软件程序以及模块,处理器602通过运行存储在存储器601的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器602通过运行存储在存储器601的上述计算机程序时实现以下步骤:
获取待预测的第一语句;
生成随机语义向量;
将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,其中,上述生成器基于预设的生成式对抗网络训练而得。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,处理器602通过运行存储在存储器601的上述计算机程序时还实现以下步骤:
基于待训练的生成器及待训练的判别器构建得到生成式对抗网络,其中,上述生成器的输出构建了上述判别器的输入;
获取待训练的输入数据,并将上述输入数据输入至上述生成器,以得到上述判别器的判别结果,其中,上述判别结果用于指示输入数据的匹配程度;
基于上述判别器的判别结果,交替训练上述判别器及上述生成器,直至达到预设的训练迭代次数。
在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述获取待训练的输入数据,并将上述输入数据输入至上述生成器,以得到上述判别器的判别结果,包括:
获取待训练的第二语句及与上述第二语句相关联的第二答复;
生成随机噪声;
将上述第二语句及上述随机噪声输入至待训练的生成器,得到上述生成器所输出的第三答复;
基于上述第二语句和上述第二答复组成真实语句组;
基于上述第二语句和上述第三答复组成生成语句组;
将上述真实语句组和/或上述生成语句组输入至待训练的判别器中,得到上述判别器所输出的判别结果。
在上述第二种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述基于上述判别器的判别结果,交替训练上述判别器及上述生成器,包括:
基于上述判别结果及预设的随机梯度上升算法,更新上述判别器的参数;
基于上述判别结果及预设的随机梯度下降算法,更新上述生成器的参数。
在上述第一种可能的实施方式作为基础,或者上述第二种可能的实施方式作为基础,或者上述第三种可能的实施方式作为基础,或者上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述生成器由预设的seq2seq模型构成,上述seq2seq模型包括编码器及解码器;
相应地,上述将上述随机语义向量及上述第一语句输入至已训练的生成器中,得到上述生成器所输出的第一答复,包括:
将第一语句作为上述编码器的输入,得到上述编码器的输出向量;
将上述编码器的输出向量及上述随机语义向量作为上述解码器的输入,得到上述解码器的输出序列;
将上述解码器的输出序列作为上述生成器所输出的第一答复。
应当理解,在本申请实施例中,所称处理器602可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器601可以包括只读存储器和随机存取存储器,并向处理器602提供指令和数据。存储器601的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器601还可以存储设备类型的信息。
由上可见,通过本申请实施例,基于生成式对抗网络不断对生成器及判别器进行交替训练,当上述生成器训练好后,噪声空间就变为了语义空间,也即,向生成器输入一语句及一随机噪声,即可得到有意义且相匹配的答复。上述生成器可以很好的应用于闲聊式的人机交互系统中,使得面同用户不同情况下所输入的同一语句,能够生成针对语句的不同答复,有效减少人机对话过程中出现过多相同答复的可能性,提升人机对话过程中的趣味。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (6)
1.一种语句生成方法,其特征在于,包括:
获取待预测的第一语句;
生成随机语义向量;
将所述随机语义向量及所述第一语句输入至已训练的生成器中,得到所述生成器所输出的第一答复,其中,所述生成器基于预设的生成式对抗网络训练而得;
其中,所述语句生成方法还包括:
基于待训练的生成器及待训练的判别器构建得到生成式对抗网络,其中,所述生成器的输出构建了所述判别器的输入;
获取待训练的输入数据,并将所述输入数据输入至所述生成器,以得到所述判别器的判别结果,其中,所述判别结果用于指示输入数据的匹配程度;
基于所述判别器的判别结果,交替训练所述判别器及所述生成器,直至达到预设的训练迭代次数;
其中,所述所述获取待训练的输入数据,并将所述输入数据输入至所述生成器,以得到所述判别器的判别结果,包括:
获取待训练的第二语句及与所述第二语句相关联的第二答复;
生成随机噪声;
将所述第二语句及所述随机噪声输入至待训练的生成器,得到所述生成器所输出的第三答复;
基于所述第二语句和所述第二答复组成真实语句组;
基于所述第二语句和所述第三答复组成生成语句组;
将所述真实语句组和/或所述生成语句组输入至待训练的判别器中,得到所述判别器所输出的判别结果。
2.如权利要求1所述的语句生成方法,其特征在于,所述基于所述判别器的判别结果,交替训练所述判别器及所述生成器,包括:
基于所述判别结果及预设的随机梯度上升算法,更新所述判别器的参数;
基于所述判别结果及预设的随机梯度下降算法,更新所述生成器的参数。
3.如权利要求1至2任一项所述的语句生成方法,其特征在于,所述生成器由预设的seq2seq模型构成,所述seq2seq模型包括编码器及解码器;
相应地,所述将所述随机语义向量及所述第一语句输入至已训练的生成器中,得到所述生成器所输出的第一答复,包括:
将第一语句作为所述编码器的输入,得到所述编码器的输出向量;
将所述编码器的输出向量及所述随机语义向量作为所述解码器的输入,得到所述解码器的输出序列;
将所述解码器的输出序列作为所述生成器所输出的第一答复。
4.一种语句生成装置,其特征在于,包括:
第一语句获取单元,用于获取待预测的第一语句;
随机语义向量生成单元,用于生成随机语义向量;
第一答复生成单元,用于将所述随机语义向量及所述第一语句输入至已训练的生成器中,得到所述生成器所输出的第一答复,其中,所述生成器基于预设的生成式对抗网络训练而得;
其中,所述语句生成装置还包括:
生成式对抗网络构建单元,用于基于待训练的生成器及待训练的判别器构建得到生成式对抗网络,其中,所述生成器的输出构建了所述判别器的输入;
待训练数据输入单元,用于获取待训练的输入数据,并将所述输入数据输入至所述生成器,以得到所述判别器的判别结果,其中,所述判别结果用于指示输入数据的匹配程度;
交替训练单元,用于基于所述判别器的判别结果,交替训练所述判别器及所述生成器,直至达到预设的训练迭代次数;
其中,所述待训练数据输入单元包括:
语句获取子单元,用于获取待训练的第二语句及与所述第二语句相关联的第二答复;
噪声生成子单元,用于生成随机噪声;
答复生成子单元,用于将所述第二语句及所述随机噪声输入至待训练的生成器,得到所述生成器所输出的第三答复;
语句组构建子单元,用于基于所述第二语句和所述第二答复组成真实语句组,并基于所述第二语句和所述第三答复组成生成语句组;
网络运行子单元,用于将所述真实语句组和/或所述生成语句组输入至待训练的判别器中,得到所述判别器所输出的判别结果。
5.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066310.2A CN112837676B (zh) | 2019-11-04 | 2019-11-04 | 一种语句生成方法、语句生成装置及智能设备 |
US17/006,936 US11282502B2 (en) | 2019-11-04 | 2020-08-31 | Method for utterance generation, smart device, and computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066310.2A CN112837676B (zh) | 2019-11-04 | 2019-11-04 | 一种语句生成方法、语句生成装置及智能设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112837676A CN112837676A (zh) | 2021-05-25 |
CN112837676B true CN112837676B (zh) | 2023-12-01 |
Family
ID=75686553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911066310.2A Active CN112837676B (zh) | 2019-11-04 | 2019-11-04 | 一种语句生成方法、语句生成装置及智能设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11282502B2 (zh) |
CN (1) | CN112837676B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11769016B2 (en) * | 2019-03-27 | 2023-09-26 | Apple Inc. | Generating responses to user interaction data based on user interaction-styles |
WO2022043675A2 (en) * | 2020-08-24 | 2022-03-03 | Unlikely Artificial Intelligence Limited | A computer implemented method for the automated analysis or use of data |
CN113591917B (zh) * | 2021-06-29 | 2024-04-09 | 深圳市捷顺科技实业股份有限公司 | 一种数据增强的方法及装置 |
US11989507B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11977854B2 (en) | 2021-08-24 | 2024-05-07 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989527B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
CN116737888B (zh) * | 2023-01-11 | 2024-05-17 | 北京百度网讯科技有限公司 | 对话生成模型的训练方法和答复文本的确定方法、装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
CN108734276A (zh) * | 2018-04-28 | 2018-11-02 | 同济大学 | 一种基于对抗生成网络的模仿学习对话生成方法 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
WO2019000170A1 (en) * | 2017-06-26 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION |
CN109547320A (zh) * | 2018-09-29 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 社交方法、装置及设备 |
CN109710744A (zh) * | 2018-12-28 | 2019-05-03 | 合肥讯飞数码科技有限公司 | 一种数据匹配方法、装置、设备及存储介质 |
CN109977202A (zh) * | 2019-03-06 | 2019-07-05 | 北京西屋信维科技发展有限公司 | 一种智能客服系统及其控制方法 |
CN109977401A (zh) * | 2019-03-15 | 2019-07-05 | 上海火商智能科技有限公司 | 一种基于神经网络的语义识别方法 |
CN110019732A (zh) * | 2017-12-27 | 2019-07-16 | 杭州华为数字技术有限公司 | 一种智能问答方法以及相关装置 |
CN110188176A (zh) * | 2019-04-30 | 2019-08-30 | 深圳大学 | 深度学习神经网络及训练、预测方法、系统、设备、介质 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509463B (zh) * | 2017-02-28 | 2022-03-29 | 华为技术有限公司 | 一种问题的应答方法及装置 |
US10540446B2 (en) * | 2018-01-31 | 2020-01-21 | Jungle Disk, L.L.C. | Natural language generation using pinned text and multiple discriminators |
US10664662B2 (en) * | 2018-04-18 | 2020-05-26 | Microsoft Technology Licensing, Llc | Multi-scale model for semantic matching |
WO2020003533A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium |
US11481416B2 (en) * | 2018-07-12 | 2022-10-25 | International Business Machines Corporation | Question Answering using trained generative adversarial network based modeling of text |
WO2020032919A1 (en) * | 2018-08-06 | 2020-02-13 | Google Llc | Captcha automated assistant |
EP3739521A1 (en) * | 2019-05-14 | 2020-11-18 | Robert Bosch GmbH | Training system for training a generator neural network |
-
2019
- 2019-11-04 CN CN201911066310.2A patent/CN112837676B/zh active Active
-
2020
- 2020-08-31 US US17/006,936 patent/US11282502B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
WO2019000170A1 (en) * | 2017-06-26 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION |
CN110019732A (zh) * | 2017-12-27 | 2019-07-16 | 杭州华为数字技术有限公司 | 一种智能问答方法以及相关装置 |
CN108734276A (zh) * | 2018-04-28 | 2018-11-02 | 同济大学 | 一种基于对抗生成网络的模仿学习对话生成方法 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109547320A (zh) * | 2018-09-29 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 社交方法、装置及设备 |
CN109710744A (zh) * | 2018-12-28 | 2019-05-03 | 合肥讯飞数码科技有限公司 | 一种数据匹配方法、装置、设备及存储介质 |
CN109977202A (zh) * | 2019-03-06 | 2019-07-05 | 北京西屋信维科技发展有限公司 | 一种智能客服系统及其控制方法 |
CN109977401A (zh) * | 2019-03-15 | 2019-07-05 | 上海火商智能科技有限公司 | 一种基于神经网络的语义识别方法 |
CN110188176A (zh) * | 2019-04-30 | 2019-08-30 | 深圳大学 | 深度学习神经网络及训练、预测方法、系统、设备、介质 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
US20210134268A1 (en) | 2021-05-06 |
CN112837676A (zh) | 2021-05-25 |
US11282502B2 (en) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112837676B (zh) | 一种语句生成方法、语句生成装置及智能设备 | |
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN108090218B (zh) | 基于深度强化学习的对话系统生成方法和装置 | |
CN111428520A (zh) | 一种文本翻译方法及装置 | |
CN111461168A (zh) | 训练样本扩充方法、装置、电子设备及存储介质 | |
Sheikh et al. | Generative model chatbot for human resource using deep learning | |
CN113298152B (zh) | 模型训练方法、装置、终端设备及计算机可读存储介质 | |
CN110399488A (zh) | 文本分类方法及装置 | |
CN111383651A (zh) | 一种语音降噪方法、装置及终端设备 | |
CN111143518B (zh) | 跨领域语言模型训练方法、装置、电子设备及存储介质 | |
WO2023235346A1 (en) | Prompting machine-learned models using chains of thought | |
CN113468323B (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
CN112506503B (zh) | 一种编程方法、装置、终端设备及存储介质 | |
CN112632254B (zh) | 对话状态确定方法、终端设备及存储介质 | |
CN113591472A (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN110727783B (zh) | 一种基于对话系统对用户问句提出反问的方法和装置 | |
CN112580669A (zh) | 一种对语音信息的训练方法及装置 | |
CN112364198A (zh) | 一种跨模态哈希检索方法、终端设备及存储介质 | |
CN114780863B (zh) | 基于人工智能的项目推荐方法、装置、计算机设备及介质 | |
CN110889290A (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
CN111858863B (zh) | 一种答复推荐方法、答复推荐装置及电子设备 | |
CN115905862A (zh) | 一种基于生成对抗网络的缺失数据处理方法及系统 | |
CN110147881B (zh) | 语言处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |