CN114868138A - 信息处理装置、信息处理方法和程序 - Google Patents
信息处理装置、信息处理方法和程序 Download PDFInfo
- Publication number
- CN114868138A CN114868138A CN202080090977.0A CN202080090977A CN114868138A CN 114868138 A CN114868138 A CN 114868138A CN 202080090977 A CN202080090977 A CN 202080090977A CN 114868138 A CN114868138 A CN 114868138A
- Authority
- CN
- China
- Prior art keywords
- likelihood
- content
- loss function
- information processing
- latent variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Error Detection And Correction (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及:一种信息处理装置,能够在满足真实的同时通过似然度搜索调整自动生成的内容的普通性和创造性;信息处理方法;以及程序。对包括数据序列的输入内容进行编码并转换为潜在变量,对潜在变量进行解码并重新构造输出内容,基于用作输入序列的输入内容的似然度计算损失函数,降低损失函数的梯度,更新潜在变量,并且对所更新的潜在变量进行解码,以及重新构造输出内容。本发明可以应用于自动生成内容的装置。
Description
技术领域
本公开涉及信息处理装置、信息处理方法和程序,并且更具体地,涉及使得可以在满足真实的同时调整自动生成的内容的普通度和奇特度的信息处理装置、信息处理方法和程序。
背景技术
在各种技术领域中利用使用机器学习的信息处理。例如,已提出其中通过使用模拟颅神经系统的机制的神经网络学习内容的特征(诸如图像和音乐)来自动生成新内容的技术。
例如,已经提出了即使当用户不输入除了歌词以外的参数时也能够通过学习现有歌曲的特征来自动合成适合于歌词的适当歌曲的技术(见专利文献1)。
利用该技术,学习根据表示每首歌词的歌词数据和表示歌曲的属性的属性数据计算的语言特征量,使得当给出新歌词数据时,可以自动生成与新歌词数据相匹配的歌曲。
引用列表
专利文献
专利文献1:日本专利申请公开第2011-175006号
发明内容
本发明要解决的问题
然而,在专利文献1中描述的技术仅根据歌词生成旋律和弦,并且生成的音乐存在过度普通或过度奇特的似然度。
当生成的音乐普通时,生成的音乐有可能缺乏乐趣,并且当生成的音乐奇特时,有可能划分喜好。此外,当所生成的音乐过于奇特时,存在所生成的音乐不能被识别为音乐并且作为音乐缺乏真实的似然度。
在这点上,可想到将产生的音乐调整为介于普通和奇特之间,但是难以实现对于普通和奇特之间的中间的调整。
这不限于自动生成的音乐,并且同样适用于自动生成诸如图像和句子的各种内容的情况。
鉴于这种情况做出本公开,并且具体地,本公开的目的是使得可以在满足真实的同时调整自动生成的内容的普通度和奇特度。
问题的解决方案
根据本公开的一方面的信息处理装置和程序是一种信息处理装置和程序,包括:编码器,被配置为对包括数据的序列的输入内容进行编码,以将输入内容转换为潜在变量;解码器,被配置为解码潜在变量以重新配置输出内容;损失函数计算单元,被配置为基于输入内容的似然度计算损失函数;以及控制单元,被配置为降低所述损失函数的梯度以更新所述潜在变量,并且控制所述解码器解码所述更新的潜在变量以重新配置输出内容。
根据本公开的一方面的信息处理方法是一种信息处理装置的信息处理方法,所述信息处理装置包括编码器、解码器、损失函数计算单元和控制单元,所述方法包括以下步骤:通过所述编码器,对包括数据的序列的输入内容进行编码以将所述输入内容转换成潜在变量;由所述解码器解码所述潜在变量以重新配置输出内容;由所述损失函数计算单元基于所述输入内容的似然度计算损失函数;以及通过所述控制单元降低所述损失函数的梯度以更新所述潜在变量并控制所述解码器解码所述更新的潜在变量以重新配置输出内容。
在本公开的一个方面中,包括数据序列的输入内容被编码以转换成潜在变量,潜在变量被解码以重新配置输出内容,损失函数基于输入内容的似然度被计算,损失函数的梯度被降低以更新潜在变量,并且更新的潜在变量由解码器解码以重新配置输出内容。
附图说明
图1是用于说明本公开的概要的示图。
图2是用于说明本公开的信息处理装置的配置实例的示图。
图3是用于说明在第一实施方式中由图2的信息处理装置实现的功能的示图。
图4是用于解释根据第一实施方式的用于学习真实评估器的真实标签和假标签的示图。
图5是用于说明基于似然度和真实的潜在变量的变化的示图。
图6是用于说明第一实施方式中的内容生成处理的流程图。
图7是用于说明在第二实施方式中由图2的信息处理装置实现的功能的示图。
图8是用于说明根据第二实施方式的用于学习真实评估器的真实标签和假标签的示图。
图9是示出在第二实施方式中的内容生成过程的流程图。
图10是用于说明本公开的第一变形例的图。
图11是用于说明本公开的第二变形例的图。
图12是用于说明通用个人计算机的配置实例的示图。
具体实施方式
下面将参考附图详细描述本公开的优选实施例。注意,在本说明书和附图中,具有基本上相同的功能配置的部件由相同的附图标记表示,以省略重复的描述。
在下文中,将描述用于执行本技术的模式。将按照以下顺序给出描述。
1.本公开的概述
2.第一实施方式
3.第二实施方式
4.第一变形例
5.第二变形例
6.由软件执行的实例
<<1.本公开的概述>>
具体地,本公开使得能够在满足真实的同时调整自动生成的内容的普通度和奇特度。
当自动生成诸如音乐、图像、和句子的各种内容时,生成的内容不经常如内容创建者所期望的那样以满意的状态生成,并且存在一些不满意。
制作者对所生成的内容的不满意经常使得在特定条件下生成的内容的特定部分被满足,但是与特定部分不同的部分不被满足。
即,制作者的不满大多是制作者对特定部位满意,而对所生成的内容整体不满意的情况。
在这种情况下,创建者在改变条件的同时重复地自动生成内容,直到生成整体满意的内容为止,但是很少自动生成整体满意的内容。
因此,所生成的内容整体不满意而部分满意,换言之,导致创建者感到遗憾的大多数内容被丢弃。
这里,使创建者感到遗憾的内容的最基本情况的实例是配置内容的序列过于普通或过于奇特。
在生成内容时,创建者寻找具有高原创性的内容,因此,通常,当生成过于普通的普通内容时,创建者不会感到原创性。
因此,对于观看或收听内容的创建者和目标人来说,存在过于普通的内容无聊的似然度高。
相反,当所生成的内容过分奇特时,尽管感觉到原创性,但可能划分偏好。
因此,即使当创建者喜欢过度奇特的内容时,内容也可能不被目标人接受。
为此,需要将产生的内容调整到在普通和奇特之间的中间,但是难以将产生的内容调整到在普通和奇特之间的中间。
即使在调查普通人偏好的内容时,创建偏好标注数据集,学习反映数据集的模型,并且自动生成内容,也可以反映普通人的偏好,但是存在普通度增加的高似然度,并且不能反映目标人的偏好。
具体地,在应用于自动生成内容的应用程序的情况下,所生成的内容的偏好根据所生成的内容的使用目的或者观看或收听该内容的目标人而改变,因此,需要调整所生成的内容的偏好。
对此,在本公开中,使用似然度来调整产生的内容的普通和奇特之间的中间值。
这里,似然度是可以获得样本内容的概率。
例如,在内容是音乐的情况下,自动生成的音乐被收集采样音乐的概率被设置为似然度。
因此,在这种情况下,所生成的音乐的似然度高的事实表明所生成的音乐是接近作为样本收集的音乐的音乐,并且所生成的音乐是普通音乐(具有高普通度的音乐)的似然度高。
另一方面,产生的音乐的低似然度表示产生的音乐远离作为样本收集的音乐,并且很可能是奇特音乐(具有高奇特度的音乐)。
在本公开中,如图1所示,当调整自动生成的内容的似然度时,做出调整以生成具有高似然度的内容,从而生成具有高普通度的内容,并且相反地,做出调整以生成具有低似然度的内容,从而生成具有高奇特度的内容。
这里,在本说明书中,自然被定义为表示自动生成的内容的普通和奇特之间的中间程度的表达式。
自然用于表示普通和奇特之间的中间程度(似然度),换言之,可以说,自然是表示既不是普通也不是奇特的程度的表达式。
即,在本公开中,可以说,调整似然度以适应自动生成的内容的目标人员的偏好,使得内容的自然被调整为普通和奇特之间的中间程度。
然而,当通过调整似然度来调整自然时,随着产生的内容的奇特度增加,即,随着似然度被调整为降低,真实降低。
在此使用的真实是表示所生成的内容是由人生成的内容的似然度(概率)的似然度。
例如,在内容是音乐的情况下,真实减小的事实意味着所生成的音乐包括不是由人生成的不协调,或者人难以识别为音乐的节奏或模式改变。
即,随着真实减小,自动生成的内容变得更接近不是由人生成的内容,并且在某些情况下观看或收听内容的目标人不能识别内容或感到不舒服。
对此,在本公开中,当在使用似然度探索调整在普通和奇特之间的中间的自然的同时逐步地改变输入内容时,内容最终改变为用户所期望的内容,从而自动生成内容。
此时,在内容的自动生成中,如图1所示,当尽管内容过于奇特但真实被设置为增加时,执行调整以保持真实,并且不生成不是由人生成的内容(不能被人识别为内容的内容)。
因此,在本公开中,可以在保持满足真实的同时通过使用似然度探索来调整在普通和奇特之间的中间的自然的同时自动生成内容。
<<2.第一实施方式>>
接下来,将参考图2描述作为本公开的信息处理装置的硬件配置实例的信息处理装置31的配置。
应注意,在本说明书中,将描述信息处理装置31自动生成音乐作为内容的情况作为实例。然而,这同样适用于信息处理装置自动生成除音乐之外的各种类型的内容(诸如,图像和句子)的情况。
如图2所示,信息处理装置31包括通信单元51、控制单元52和存储单元53。应注意,信息处理装置31包括输入/输出单元32,输入/输出单元32包括例如从管理信息处理装置31的管理员等接收各种操作的键盘、鼠标等,以及例如呈现各种信息的液晶显示器等。
通信单元51由例如网络接口卡(NIC)等实现。通信单元51以有线或无线方式连接至包括因特网等的网络,并且经由网络将信息传输至另一设备等并且从另一设备等接收信息。
控制单元52包括存储器和处理器,并且控制信息处理装置31的整体操作。
更具体地,控制单元52包括学习单元71、优化单元72以及生成单元73。
学习单元71使存储在存储单元53(稍后描述)中的模型存储单元81中的编码器91和解码器92通过使用存储为音乐数据库82中的采样的音乐数据来学习变分自动编码器(VAE)并被配置为学习模型。
优化单元72由学习单元71控制以调整和优化编码器91和解码器92的参数,使得当编码器91和解码器92使用存储为音乐数据库82中的采样的音乐数据重复学习时,后验分布与先前分布(正态分布)正则化,而重新配置误差被最小化。
生成单元73控制编码器91、解码器92和存储在存储单元53中的模型存储单元81中的损失函数计算单元93,以通过似然度探索调整在输入内容(音乐)的普通和奇特之间的中间的内容的自然并且将内容转换成用户期望的内容(音乐),从而生成(自动生成)内容(音乐)。要注意的是,稍后参照图3,详细描述由生成单元73自动生成内容。
存储单元53由例如诸如随机存取存储器(RAM)和闪存的半导体存储器元件或诸如硬盘和光盘的存储设备实现。存储单元53包括模型存储单元81和音乐数据库(DB)82。
模型存储部81存储预先学习的学习模型。具体地,模型存储单元81包括:编码器91,从内容提取作为特征量的潜在变量;解码器92,基于潜在变量重新配置内容;以及损失函数计算单元93,计算损失函数,损失函数是作为输入数据的内容的似然度和用户期望的似然度之间的差。
音乐数据库82存储关于内容(音乐)的数据作为输入至模型的样本。音乐数据库82还存储生成单元73控制编码器91和解码器92生成(自动生成)的内容。
<生成单元的内容自动生成>
接下来,将参考图3描述由生成单元73自动生成内容。
生成单元73控制提前学习的编码器91和解码器92,并且使编码器91编码作为输入数据的内容(音乐)X(init),以获得潜在变量Zinit。然后,生成单元73促使解码器92基于所获得的潜在变量Zinit执行重新配置,从而生成内容(音乐)X(init)’作为输出数据。
更具体地,如图3所示,例如,编码器91对包括序列(诸如包括多个条等的部分数据)的内容(音乐)X(init)进行编码,从而将内容转换为潜在变量Zinit,作为包括具有比内容(音乐)X更小的维数的向量等的特征量。
然后,如图3所示,解码器92基于作为返回到原始维度的内容的特征量的潜变量Zinit解码每条潜变量,并恢复将被重新配置为包括诸如包括条的部分数据的序列的内容(音乐)X(init)’的潜变量。
这里,编码器91和解码器92由学习单元71控制,以预先受到VAE的无监督学习。编码器91被配置为对作为将内容转换成潜在变量Zinit的输入数据的内容(音乐)Xinit进行编码,并且解码器92被配置为能够基于潜在变量Zinit将内容重新配置为内容(音乐)X(init)’。即,由于学习了编码器91和解码器92,所以内容X(init)和内容X(init)’基本相同。
当接收指示内容(音乐)的创建者所期望的自然以及普通与奇特之间的中间程度的似然度的信息时,生成单元73控制损失函数计算单元93将由解码器92重新配置的内容(音乐)X(init)的似然度与创建者所期望的似然度之间的差计算为损失函数LLE。
然后,生成单元73改变潜在变量Zi(i是降低损失函数LLE的次数)以将获得的损失函数LLE逐渐降低预定值Δ,即,逐步地降低损失函数LLE并且使解码器92执行解码,从而逐渐生成具有创建者期望的似然度的内容(音乐)X(i)’。
例如,如以下公式(1)所示,损失函数LLE是指示从由作为输入数据的内容X(init)获得的潜在变量Zinit重新配置的内容X(init)’与期望似然度的内容之间的似然度差的函数,并且包括配置与内容的似然度差有关的项的函数F1和配置与内容的真实似然度有关的项的函数F2。
LLE=F1-α×F2
...(1)
在此,LLE是损失函数,F1是配置与内容的似然度相关的项的函数,F2是配置与真实的似然度相关的项的函数,并且α是预定系数并且可以任意设置。
更具体地,损失函数计算单元93包括似然度评估器101和真实评估器102,基于由似然度评估器101计算的似然度计算配置与内容的似然度有关的项的函数F1,并且基于由真实评估器102计算的内容的真实似然度计算配置与真实的似然度有关的项的函数F2。
基于序列生成模型(语言生成模型),似然度评估器101例如通过RNN、Transformer等执行学习作为最大化对数似然度的架构,并且获得重新配置的内容(音乐)X’的似然度作为对数似然度。
这里,重新配置的内容X’的似然度是重新配置的内容X’是在音乐数据库82中作为样本注册的音乐的概率。
更具体地说,在重新配置的内容(音乐)X’被配置为诸如部分数据X1’、X2’、...、Xn’的序列数据X’(X1’、X2’、...、Xn’)的情况下,内容X’的似然度被表示为部分数据的各个概率的乘积。
例如,在音乐X’的似然度(概率)由P(X’)表示的情况下,音乐X’的似然度(概率)P(X’)按照以下公式(2)计算。
注意,在序列数据X’(X1’、X2’、...、Xn’)的情况下,初始值Start被输入以生成头部部分数据X1’,部分数据X1’被输入以生成相邻的部分数据X2’,部分数据X2’被输入以生成相邻的部分数据X3’、......、部分数据X(n-1)’被输入以生成相邻的部分数据Xn’。
因此,包含该序列数据(X1’、X2’、...、Xn’)的内容X’的似然度(概率)P(X’)由下式(2)表示。
P(X’)=P(X1’|Start)
×P(X2’|Start,X1’)
×P(X3’|Start,X1’,X2’)
×P(X4’|Start,X1’,X2’,X3’)
×P(X5’|Start,X1’,X2’,X3’,X4’)
......
×P(Xn’|Start,X1’,X2’,...,X(n-1)’)
...(2)
这里,P(X’)是内容(音乐)X’的似然度(概率)。
此外,P(Xn’|Start,X1’,X2’,...,X(n-1)’)是当初始值为Start并且部分数据顺次为X1’、X2’、...、X(n-1)’时,部分数据Xn’的条件概率(似然度)。
似然度评估器101将以这种方式获得的内容(音乐)X’的似然度P(X’)对数化,并且输出结果作为对数似然度EL(X’)。
此外,真实评估器102基于包括被真实类别标记的序列的内容和包括被不是由人类生成的伪造类别标记的序列的内容,提前进行学习(例如,通过作为架构的RNN、Transformer等)以最大化指示真实的对数似然度,真实类别包括由人类生成的内容作为输入的真实类别标记的序列。
然后,真实评估器102获得作为与真实的似然度有关的项的函数的内容(音乐)X(init)’的真实的似然度并且对数地获得真实的对数似然度作为真实ER(X’)。
应注意,在下文中,将指示重新配置的内容(音乐)X’是在音乐数据库82中注册为样本的音乐数据的概率的似然度称为“似然度”,并且为了区分,虽然作为概念,真实的似然度仍然是似然度,但是在这两者都是似然度方面没有变化,但是真实的似然度简称为“真实”。
此处,例如,作为用真实类别标记的序列的内容是用于学习的音乐数据并且是在音乐数据库82中注册的样本。
此外,如图4中所示,例如,当通过与编码器91和解码器92的学习相关的VAE从先前分布中获得的潜在变量Z被解码器92解码时,包括利用假类别标记的序列的内容是重新配置的音乐数据F。
即,真实评估器102基于包括利用如图4所示的生成的真实类标记的序列的内容组R和包括利用假类标记的序列的内容组F执行学习,并获得通过将作为重新配置的内容(音乐)X(init)’是由人生成的内容的概率的似然度对数化获得的对数似然度作为真实ER(X(init)’)。
损失函数计算单元93根据由似然度评价部101计算出的再配置内容X’的似然度(对数似然度)EL(X(init)’)和作为由真实评价部102计算出的再配置内容X’是人类所生成的内容的概率的真实(对数似然度)ER(X(init)’),计算由上述式(1)表示的损失函数LLEinit。
更具体地,损失函数计算单元93计算作为公式(1)的函数F1的项,该项与如由下列公式(3)表示的重新配置的内容X’的似然度相关。
F1=(EL(X(init)’)-β×ELinit)2
...(3)
这里,F1是表示与公式(1)中的重新配置的内容X(init)’的似然度相关的项的函数,EL(X(init)’)是通过似然度评估器101获得的重新配置的内容X(init)’的对数似然度,并且β×ELinit是参考似然度。
参考似然度β×ELinit是用于设置试图自动生成内容的创建者所期望的似然度的值,即,作为最终获得似然度的目标的值,并且被表示为系数β与似然度的初始值ELinit(预定固定值)的乘积。
例如,当期望增加作为输入数据的内容X(init)的似然度并且重新配置(自动生成)具有增加的普通度的内容时,参考似然度被设置为大于似然度的初始值ELinit,并且因此,系数β被设置为大于1的值。此外,在不存在特定期望的似然度并且简单地期望增加似然度的情况下,系数β可以被设置为大于1的特定值,例如,1.2或1.5。
另一方面,当期望降低自动生成内容的似然度并且增加奇特度时,将系数β设置为小于1的值,以便将参考似然度设置为小于对数似然度EL的初始值ELinit。此外,在不存在特定期望的似然度并且简单地期望降低似然度的情况下,系数β可以被设置为小于1的特定值,例如,0.8或0.5。
此外,损失函数计算单元93将重构内容X(init)’的真实的对数似然度ER(X(init)’)代入上述式(1)的函数F2进行计算。
由此,损失函数计算单元93如以下的式(4)所示,计算损失函数LLE。
LLE=F1-α×F2
=(EL(X(init)’-β×ELinit)2-α×ER(X(init)’)
...(4)
应注意,损失函数计算单元93通过使用例如Gumbel Softmax实现微分,使得解码器92可以接收似然度评估器101和真实评估器102的评估信号。
<基于损失函数的潜在变量的变化>
如上所述,损失函数LLE包含取决于作为输入数据的内容X(init)的似然度(=重新配置的内容X(init)’的似然度))与创建者期望的似然度之间的差的函数F1、以及取决于真实的函数F2。
对此,生成单元73重新配置内容X(i),使得损失函数LLE变小,从而生成具有创建者期望的似然度的内容。
即,由于损失函数LLE具有如式(4)所示的配置,所以生成单元73增加真实ER并且使似然度性EL接近参考似然度性,从而重新配置损失函数LEE变小的内容。
更具体地,基于上述损失函数LLE,生成单元73改变潜在变量Zi以将损失函数逐步地减小预定值Δ,并且使解码器92解码改变的潜在变量Zi,从而顺序地生成新内容X’(i)。
对此,接下来,将描述通过减小损耗函数来改变潜在变量Zi的方法。
例如,如图5所示,认为基于作为各种输入的内容获得的潜在变量Z被定义为在二维空间中表示的潜在变量空间,并且使用每个潜在变量Z重新配置时的内容的似然度由潜在变量空间中的等高线表示。
应注意,在图5的潜在变量空间中,将描述其中为了解释而将潜在变量Z设置为二维的实例,但实际上,潜在变量Z配置有更多维,并且潜在变量空间类似地用更多维表示。
即,在图5的潜在变量空间中,二维表示的潜在变量Z的分布由十字标记表示,并且当使用每个潜在变量Z重新配置内容时的似然度由实线L1至L5同心地表示,并且被设置为具有似然度朝向纸面的外侧减小的分布。即,在图中,假设由实线L1至L5表示的似然度满足L1>L2>L3>L4>L5。要注意的是,在图5的潜在变量空间中的似然度的分布是实例。
此外,在图5的潜在变量空间中,当获得当使用类似的潜在变量Z重新配置内容时的真实时,真实的预定阈值的分布由虚线R1表示。
这里,图中虚线R1的上部是真实低于预定阈值的非真实区域,并且重新配置的内容被认为是几乎不被识别为由人生成的内容的“非真实”。
此外,在图7的潜在可变空间中,假设虚线R1的下部是真实区域,其是真实度高于预定阈值的区域,并且重新配置的内容被认为是被识别为由人类生成的内容的“真实”。
应注意,图5的潜在可变空间中的真实也与似然度类似地利用多个轮廓线显示,但在此处,仅显示作为实际区域与非实际区域之间的边界的预定阈值的分布的虚线R1。
此处,例如,将考虑一种情况,其中,当由编码器91编码作为输入数据的内容Xa时产生的潜在变量由图5的潜在变量空间中的位置Za表示,并且创建者希望将似然度从实线L2的当前水平降低至实线L4的水平。
当不需要知道真实时,生成单元73在垂直于实线L2的矢量VL方向上朝向实线L4移动潜在变量空间中的位置以获得潜在变量,实线L2是表示图5的潜在变量空间中的似然度的等高线,并且使解码器92解码潜在变量,由此可以重新配置创建者所期望的似然度的内容。
即,在潜在变量空间中,存在于接近位置处的潜在变量可以说是类似的潜在变量,因此,从似然度处于实线L2上的位置Za来看,在实线L4上最近的位置Zx处获得的潜在变量被认为是与实线L4表示的似然度的当前位置Za处的潜在变量最相似的潜在变量。
然而,在考虑真实的情况下,在图7中,存在潜在变量Za的区域是非真实区域,并且因此存在以下似然度:尽管满足似然度,但是通过解码器92对通过仅考虑似然度移动潜在变量空间中的位置而获得的潜在变量进行解码来重新配置的内容具有低真实,并且当目标人观看或收听该内容时,该内容不能被识别为由人生成的内容。
对此,生成部73在潜在变量空间内的位置Za最接近虚线R1的方向上设定真实的向量VR,将位置Za移动到合成向量VL和向量VR而得到的、将似然度的梯度降低规定值Δ而得到的位置Zb,由此得到潜在变量,使解码器92对该潜在变量进行解码,由此重新配置新的内容。
生成单元73例如通过在潜在变量空间中将位置Za顺次改变为位置Zb、Zc、Zd、Ze和Zf来将通过重复之后的类似操作而获得的潜在变量顺次输出至解码器92,并且使解码器对潜在变量进行解码以生成新内容。
即,通过解码器92解码图7中的潜在变量空间中的位置Zb处的潜在变量而产生的内容Xb与内容Xa相比具有减小的似然度,并且实际上改善以接近作为与真实区域的边界的虚线R1。
此外,与内容Xb相比,通过由解码器92对位置Zc的潜在变量进行解码而生成的内容Xc具有进一步降低的似然度,并且实际上进一步改善以进一步接近虚线R1。
此外,通过解码器92在位置Zd处解码潜在变量而产生的内容Xd与内容Xc相比具有进一步减小的似然度并且在真实中被进一步改进,使得内容Xd与虚线R1交叉进入真实区域,并且变成真实中足够的状态。
此外,与内容Xd相比,通过解码器92在位置Ze处解码潜在变量而生成的内容Xe具有降低的似然度,并且由于内容Xd实际上已经足够,所以内容Xe相对于实线L3在接近垂直方向的方向上移动,实线L3是表示似然度的轮廓线。
此外,通过解码器92在位置Zf处解码潜在变量而生成的内容Xf与内容Xe相比具有降低的似然度,并且由于内容Xd实际上已经足够,因此内容Xf相对于实线L3在基本垂直方向上移动,实线L3是表示似然度的轮廓线。
如上所述,在如图5所示的潜在变量空间中,重复在改善真实的同时改变潜在变量以逐步地降低损失函数LLE中的似然度并且引起解码的处理,由此在改善真实的同时作为输入数据的内容可以逐步地接近创建者所期望的似然度。
注意,在以上描述中,已经描述了通过逐步地将作为输入数据的内容的似然度降低至期望似然度来使内容的自然奇特的实例。然而,即使在似然度普通的情况下,仅通过将参考似然度设置为高来执行类似处理。
此外,在以上描述中,已经描述了使似然度逐步地接近创建者所期望的似然度的处理,但是代替逐步地处理,可以改变潜在变量以一次达到所期望的似然度。
<第一实施方式中的内容生成处理>
接下来,将参考图6中的流程图描述第一实施方式中的内容生成处理。
在步骤S11中,生成单元73将计数器i初始化为1。
在步骤S12中,生成单元73设置参考似然度。更具体地,例如,生成单元73通过接收上述公式(4)中的系数β的值并且设置参考似然度的特定值,或者接收表示期望似然度增加或减小的信息的输入并且将系数β设置为预定值来设置参考似然度。
在步骤S13中,生成单元73接收作为输入数据的内容X(init)的输入。
在步骤S14中,生成单元73控制编码器91对部分数据Xint进行编码,并将部分数据Xint转换成潜在变量Zinit。
在步骤S15中,生成单元73控制解码器92解码潜在变量Zinit并重新配置内容X(init)’。
在步骤S16中,生成单元73控制损失函数计算单元93通过使用上述公式(4)基于内容X(init)’的似然度和创建者期望的似然度之间的差来计算损失函数LLEinit。
在步骤S17中,生成单元73获得通过将损失函数LLEinit降低预定值Δ而获得的损失函数LLEi。
在步骤S18中,如参照图5所述,生成单元73移动潜在变量Zinit在潜在变量空间中的位置,同时减小保持真实的似然度,使得损失函数LLEinit降低预定值Δ以改变为损失函数LLEi,并且获得并更新与新潜在变量空间中的位置相对应的潜在变量Zi。
在步骤S19中,生成单元73控制解码器92解码潜在变量Zi并且重新配置内容X(i)’。
在步骤S20中,生成单元73将重新配置的内容X(i)’存储在存储单元53的音乐数据库82中。
在步骤S21中,生成单元73将计数器i增加1。
在步骤S22中,生成单元73确定计数器i是否是最大值imax,并且在计数器i不是最大值imax的情况下,处理进行至步骤S23。
在步骤S23中,生成单元73通过将损失函数LLEi降低预定值Δ(LLEi=LLEi-Δ)来更新损失函数LLEi,并且处理返回至步骤S18。
此时,在步骤S18中,如参照图5所描述的,生成单元73移动并更新潜在变量空间中的潜在变量Zi的位置,以对应于损失函数LLEi的变化(该变化被降低预定值Δ以更新),并且获得并更新新的潜在变量Zi。
即,重复步骤S18至S23的过程直到计数器i达到最大值imax,使得在损失函数LLEi顺次降低预定值Δ的同时更新潜在变量Zi,并且对更新的潜在变量Zi顺次解码以生成新内容Xi。结果,新重新配置的内容Xi被顺序地改变,以在满足真实的同时逐渐接近创建者所期望的似然度。
然后,在步骤S22中确定计数器i达到最大值imax的情况下,处理进行至步骤S24。
在步骤S24中,生成单元73输出作为存储在存储单元53中的输出数据的内容X(i)(i=1、2、3、...、imax)。
通过上述处理,能够通过将作为输入数据的内容X(init)逐步地改变为具有创建者期望的似然度同时满足真实来生成内容X(i)’。
结果,能够在调整自然的同时自动生成内容,该自然如创建者预期的那样介于内容的普通和奇特之间。
应注意,在图6的处理中,在直到获得作为输入数据的内容X(init)的似然度与创建者期望的似然度之间的差的损耗函数LLEInit的处理中,在潜伏变量Zinit被解码器92一次解码以获得内容X(init)’之后执行计算。然而,在初始处理中,没有对潜在变量Zinit添加改变,因此内容Xinit和内容Xinit’基本相同。
因此,可以从作为输入数据的内容Xinit直接获得初始损失函数LLEinit。
此外,在上面的描述中,描述了这样的实例,其中,在逐步地将损失函数LLEinit降低预定值Δ并且重复地重新配置内容X(i)’的同时顺序地改变潜在变量Zi的过程被重复,直到计数器i达到imax。然而,当不能进一步减小损失函数LLEi时,可以结束该过程。
此外,在以上描述中,描述了最终输出通过逐步地降低损失函数LLEinit来重复重新配置的所有内容X(i)’(i=1、2、...、imax),但是可以仅输出最后获得的内容X(imax)’的实例。
此外,在包括与配置损失函数LLE的似然度有关的项的函数F1中,仅需要在仅需要增加似然度并且简单地使内容共同的情况下将似然度设置为大,并且仅需要在仅需要减小似然度并且简单地使内容奇特的情况下将似然度设置为小。
因此,在不存在似然度的最终目的等的情况下,可以如以下公式(5)进行设置。
F1=EL(X(init))’(当期望降低似然度并使内容奇特时)
=-EL(X(init))’(当需要增加似然度并使内容普通时)
...(5)
换言之,根据是否期望奇特或者期望如公式(5)中一样普通,可以选择性地使用函数F1。此外,当期望降低似然度并使系数奇特时,可通过将内容X(init)的似然度EL(X(init))乘以正系数来使用公式(5),当期望增加似然度并使内容普通时,可通过将似然度EL(X(init))乘以负系数来使用公式(5)。
<<3.第二实施方式>>
在以上描述中,描述了实例,在该实例中,作为输入数据的内容X(init)被编码以转换为潜在变量Zinit,然后潜在变量Zinit被解码以获得内容X(init)’,获得作为内容X(init)’的似然度和期望似然度之间的差的损耗函数LLEinit,在通过降低预定值Δ来更新损失函数LLEi的同时逐步地更新潜在变量Zi,并且更新的潜在变量Zi被解码,从而重复地重新配置内容X(i)’。
然而,在上述处理的情况下,存在每当损失函数LLEi被更新时要被重新配置的内容X(i)’与作为输入数据的内容X(init)完全不同的似然度。
为此,即使当内容X(init)中存在其中普通和奇特之间的中间自然度不改变的喜爱部分时,通过改变普通度和奇特度来改变包括喜爱部分的全部内容,并且存在创建者难以喜欢全部内容的似然度。
在这点上,在作为输入数据的内容Xinit中,创建者喜欢的部分可被设置为不作为上下文而改变,并且仅对于其他部分可通过似然度探索来调整在普通和奇特之间的中间的自然。
注意,在下文中,在不作为上下文而改变的部分被设置的状态下执行的似然度探索也被称为上下文似然度探索。
例如,在作为如图7所示的输入数据的内容X(init)中,生成单元73接收关于由创建者期望不改变的部分的信息的输入,并且将期望不改变的部分设置为上下文。
在图7的实例中,在内容X(init)中,创建者喜欢的并且期望不被改变的部分被设置为上下文C1和C2,并且除了上下文C1和C2之外的期望被改变的部分被设置为部分数据Y(init)。
要注意的是,尽管图7示出了在希望改变的部分数据Y(init)之前和之后设置上下文C1和C2的实例,但是设置上下文的位置可不同于这个位置或者可为两个或多个位置。
然后,生成单元73控制编码器91仅对作为期望改变的部分的部分数据Y(init)进行编码,并将该部分数据转换为潜在变量Zinit。
生成单元73控制解码器92基于潜在变量Zinit重新配置部分数据Y(init)’。
生成单元73整合重新配置的部分数据Y(init)和上下文C1和C2以重新配置内容X(init)’。
此后,类似于不存在上下文的情况,生成单元73重复以下过程:计算损失函数LCLEinit(其是内容X(init)’的似然度与创建者期望的似然度之间的差),降低预定值Δ以更新损失函数LCLEi并且更新相应的潜在变量Zi,控制解码器92解码潜在变量Zi,重新配置部分数据Y(i)’,并且进一步将部分数据Y(i)’与上下文C1和C2积分以重新配置上下文X(i)’。
<使用上下文的情况下的真实评估器>
在使用上下文的情况下,如图7所示,真实评估器102通过使用当解码器92解码潜在变量Z’时重新配置的内容F来仅学习由人生成的内容R中除了上下文C11和C12之外的部分数据V,其中,在潜在变量Z’中,通过与编码器91和解码器92的学习相关的VAE将噪声添加到从先前分布中获得的潜在变量Z,将上下文C11和C12添加到重新配置的部分数据V’。
即,在使用上下文的情况下,真实评估器102将包括上下文C11和C12的内容R和在图7中示出的部分数据V设置为包括用真实类别标记的序列的内容,学习通过将上下文C11和C12添加到重新配置的部分数据V’来重新配置的内容F作为包括用伪造类别标记的序列的内容,并且获得,通过将作为重新配置的内容(音乐)X’是由人生成的内容的概率的似然度性对数化获得的对数似然度性作为真实ER(X’)。
<第二实施方式中的内容生成处理>
接下来,将参照图11中的流程图描述第二实施方式中的内容生成过程。
在步骤S51中,生成单元73将计数器i初始化为1。
在步骤S52中,生成单元73接收参考似然度的设置。
在步骤S53中,生成单元73接收作为输入数据的内容X(init)的输入。
在步骤S54中,生成单元73接收要作为上下文的部分的信息,该上下文是创建者不期望改变内容X(init)的部分。
在步骤S55中,生成单元73生成通过从内容X(init)中移除要成为上下文的部分而获得的部分数据Y(init)。
在步骤S56中,生成单元73控制编码器91编码部分数据Y(init)并将部分数据Y(init)转换成潜在变量Zinit。
在步骤S57中,生成单元73控制解码器92解码潜在变量Zinit并重新配置部分数据Y(init)’。
在步骤S58中,生成单元73整合部分数据Y(init)’和上下文,以重新配置上下文X(init)’。
在步骤S59中,生成单元73控制损失函数计算单元93通过使用上述公式(4)计算内容X(init)’的损失函数LCLEinit。注意,这里,在上下文被设置的情况下的损失函数LCLEinit和在上下文未被设置的情况下的损失函数LLEinit由不同的附图标记表示,但是公式的配置与公式(4)相同。
在步骤S60中,生成部73求出使损失函数LCLEinit降低规定值Δ而得到的损失函数LCLEi。此外,损失函数LCLEi基本上类似于损失函数LLEi。
在步骤S61中,当损失函数LCLEinit被降低预定值Δ以改变为损失函数LCLEi时,生成单元73移动相应潜在变量Zinit在潜在变量空间中的位置,以获得并更新潜在变量Zi。
在步骤S62中,生成单元73控制解码器92解码潜在变量Zi并且重新配置部分数据Y(i)’。
在步骤S63中,生成单元73整合部分数据Y(i)’和上下文,以重新配置内容X(i)’。
在步骤S64中,生成单元73将重新配置的内容X(i)’存储在存储单元53的音乐数据库82中。
在步骤S65中,生成单元73将计数器i增加1。
在步骤S66中,生成单元73确定计数器i是否是最大值imax,并且在计数器i不是最大值imax的情况下,处理进行至步骤S67。
在步骤S67中,生成单元73将损失函数LLEi降低预定值Δ并更新损失函数LLEi(LLEi=LLEi-Δ),并且处理返回至步骤S61。
即,重复步骤S61至S67的过程直到计数器i达到最大值imax,使得在损失函数LLEi被顺序地降低预定值Δ的同时潜变量Zi被相应地改变和解码,产生新的部分数据Y(i)’,并且部分数据Y(i)’与上下文集成以重复重新配置内容X(i)’。结果,新重新配置的内容Xi被顺序地改变,以在满足真实的同时逐渐接近创建者所期望的似然度。
此时,由于对被设置为上下文的部分没有添加改变,所以新重新配置的内容Xi在保持创建者喜欢的部分并且保持真实满足的同时顺序地改变以逐渐接近创建者期望的似然度。
然后,在步骤S66中确定计数器i达到最大值imax的情况下,处理进行至步骤S68。
在步骤S68中,生成单元73输出作为存储在存储单元53的音乐数据库82中的数据的输出的内容X(i)’(i=1、2、3、...、imax)。
通过以上处理,能够在保留被设置为上下文的部分并满足真实的同时,通过将作为输入数据的内容X(i)改变为创建者预期的似然度的上下文似然度探索来逐步地生成内容X(i)’。
结果,如创建者所预期的,可以自动生成内容,同时保持内容的有利部分并且仅针对另一部分调整在普通和奇特之间的中间的自然。
<<4.第一变形例>>
在以上描述中,描述了实例,其中,在似然度和真实中,针对全部内容获得一个元素,并且计算损失函数。然而,因为内容是包括多个元素的序列,所以也可以分解每个元素的似然度,并且可以配置包括每个元素的似然度的序列。
包括配置内容的每个元素的似然度的序列被称为似然度序列(信息流)。
换言之,例如,在内容Xinit是音乐的情况下,如图10的左边部分所示,内容Xinit包括作为时间方向上的序列的元素X1、X2、...、Xn。
因此,对于每个元素X1、X2、...、Xn可以获得似然度EL(Xi),并且这变成似然度序列(信息流)。
在使用似然度序列(信息流)的情况下,为每个元件X1、X2、...、Xn设置参考似然度,使用每个元件的似然度EL(Xi)与参考似然度之间的差值的平方和作为配置上述损耗函数的公式(1)中的函数F1,并且例如,获得以下公式(6)。
F1=Σ(EL(X(i)’)-βi×ELinit)2(i=1、2、...、n)
...(6)
此处,i(i=1、2、...、n)是各个元素的标识符,EL(X(i)’)是元素Xi的似然度性,βi是各个元素的系数,并且ELinit是似然度性的初始值。
因此,在公式(6)中,函数F1表示为每个元素的似然度EL(Xi)与参考似然度βi×ELinit之间的差值的平方和。
如图10的右侧部分所示,可以说,每个元素的似然度序列换句话说,是时间方向上的似然度的变化,即,时间方向上的惊讶水平的变化。
在图10中,例如,似然度是在由虚线圆表示的定时的峰或谷,并且示出了令人惊讶的改变。
通常,在惊讶程度下,已知在大惊讶之后出现小惊讶,并且在小惊讶之后出现大惊讶。
因此,通过使用如图10所示的似然度序列可反映音乐的惊人变化。
此外,此处,对于配置内容Xinit的元素X1、X2、...、Xn,假设在时间方向上具有最小配置的元素,但是可以形成包括多个元素的集群,并且可以以集群为单位设置似然度序列。此外,对于配置损失函数的公式(1)中的函数F1,可以使用与参考似然度的相关性代替参考公式(6)描述的平方误差,或者可以在不使用参考似然度的情况下使用似然度序列(信息流)的元素的诸如方差的统计。
应注意,内容生成过程类似于设置参考图9的流程图描述的上下文的情况的过程,不同之处在于计算损失函数LLE的方法不同,因此将省略其描述。
<<5.第二变形例>>
在以上描述中,在设置上下文的情况下,整个重新配置的内容X’的似然度被用于由似然度评估器101获得的似然度。然而,如图11所示,可以提供似然度评估器101’而不是似然度评估器101,并且似然度评估器101’可以仅从除了内容X’中的上下文C1和C2之外的且被改变为创建者期望的似然度的部分数据Y’获得似然度作为条件似然度CEL。
此外,在上下文被类似地设置的情况下,如图11所示,代替真实评估器102,可以提供由与似然度评估器101的序列相同的序列生成模型生成的并且与似然度评估器101基本上相同的真实评估器102’,并且似然度性EL本身可以用作真实ER。
其结果是,损失函数表示为下式(7)。
LLE=F1-α×F2
=(CEL(X(init)’)-β×ELinit)2
-α×EL(X(init)’)
...(7)
这里,CEL(X(init)’)是内容X(init)’的条件似然度,β×ELinit是参考似然度,并且EL(X(init)’)是内容X(init)’的似然度。
因为条件似然度是根据似然度改变并且因此表示“惊讶”的内容X(init)’的部分数据的似然度,所以相对于条件似然度设置参考似然度,使得可以调整生成“惊讶”更大或“惊讶”更小的内容。
此外,由于真实评估器102’基本上用作似然度评估器101,并且因此相同的序列生成模型被用于似然度评估器101’和真实评估器102’两者,两者可以仅被聚合为任何一种的配置以简化配置。
此外,在第二变形例中,描述了其中条件似然度性CEL(X(init)’)用于函数F1,似然度性EL(X(init)’)用于函数F2作为真实ER(X(init)’)的实例。然而,真实ER(X(init)’)可以通过使用函数F1的条件似然度CEL(X(init)’)用于函数F2。
此外,同样地,代替上述式(3)、(5)和(6)中的函数F2的真实值ER(X(init)’),可以使用似然度EL(X(init)’)。
应注意,内容生成过程类似于设置参考图9的流程图描述的上下文的情况的过程,不同之处在于计算损失函数LLE的方法不同,因此将省略其描述。
<<6.通过软件执行的实例>>
图12示出了通用计算机的配置实例。该个人计算机具有内置的中央处理单元(CPU)1001。输入/输出接口1005经由总线1004连接到CPU1001。只读存储器(ROM)1002和随机存取存储器(RAM)1003连接到总线1004。
输入/输出接口1005与输入单元1006连接,输入单元1006由诸如键盘和鼠标的输入设备配置以供用户输入操作命令,输出单元1007,向显示装置输出处理操作画面和处理结果的图像;存储单元1008,包括硬盘驱动器等,用于存储程序和各种数据,以及通信单元1009,其包括局域网(LAN)适配器等,并且经由由互联网表示的网络执行通信处理。此外,连接从诸如磁盘(包括软盘)、光盘(包括致密盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包括迷你盘(MD))和半导体存储器的可移动存储介质1011读取数据和将数据写入可移动存储介质1011的驱动器1010。
CPU 1001根据存储在ROM 1002中的程序或者从诸如磁盘、光盘、磁光盘或半导体存储器的可移动存储介质1011读取、安装在存储单元1008中并且从存储单元1008加载到RAM 1003中的程序来执行各种处理。RAM 1003还适当地存储CPU 1001执行各种处理所需的数据等。
在如上所述配置的计算机中,例如,以这样的方式执行上述一系列处理:CPU 1001经由输入/输出接口1005和总线1004将存储在存储单元1008中的程序加载到RAM 1003中并且执行程序。
例如,由计算机(CPU 1001)执行的程序可以记录并提供在作为封装介质等的可移动存储介质1011上。此外,可经由诸如局域网、因特网、或者数字卫星广播等有线或无线传输介质提供程序。
在计算机中,通过将可移除存储介质1011安装在驱动器1010中,可以经由输入/输出接口1005将程序安装在存储单元1008中。此外,程序可以由通信单元1009接收并且经由有线或无线传输介质安装在存储单元1008中。此外,程序可以提前安装在ROM 1002或存储单元1008中。
应注意,由计算机执行的程序可以是其中处理按照本说明书中描述的顺序按时间序列执行的程序,或者并行或在诸如进行调用时的必要定时执行处理的程序。
应注意,图12中的CPU 1001实现图2中的控制单元52的功能,并且存储单元1008实现图2中的存储单元53的功能。
此外,在本说明书中,系统意味着一组多个部件(装置、模块(部件)等),并且所有部件是否在同一壳体中无关紧要。因此,容纳在分开的壳体中并且经由网络连接的多个装置和多个模块容纳在一个壳体中的一个装置都是系统。
应注意,本公开的实施方式不限于上述实施方式,并且在不背离本公开的范围的情况下可以做出各种修改。
例如,本公开可以被配置为云计算,其中,一个功能经由网络被多个设备共享并且被联合处理。
此外,在上述流程图中描述的每个步骤可以由一个设备执行或者由多个设备共享。
此外,在一个步骤包括多个处理的情况下,包括在一个步骤中的多个处理可以由一个设备执行或者由多个设备共享。
应注意,本公开还可具有以下配置。
<1>
一种信息处理装置,包括:
编码器,被配置为对包括数据序列的输入内容进行编码以将输入内容转换成潜在变量;
解码器,被配置为对潜在变量进行解码以重新配置输出内容;
损失函数计算单元,被配置为基于输入内容的似然度计算损失函数;以及
控制单元,被配置为降低损失函数的梯度以更新潜在变量,并且控制解码器对所更新的潜在变量进行解码以重新配置输出内容。
<2>
根据<1>所述的信息处理装置,其中,
编码器和解码器是变分自动编码器(VAE)学习的,使得后验分布由先前分布正则化,同时保持重新配置误差最小化。
<3>
根据<1>所述的信息处理装置,其中,
损失函数计算单元包括:
似然度评估器,计算输入内容的似然度;以及
真实评估器,计算作为输入内容的真实的似然度的真实似然度;并且
基于作为似然度评估器的评估结果的似然度和作为真实评估器的评估结果的真实似然度来计算损失函数。
<4>
根据<3>所述的信息处理装置,其中,
在控制单元降低损失函数的梯度以更新潜在变量的情况下,控制单元降低损失函数的梯度以更新潜在变量,使得当真实似然度小于预定值时真实似然度增加,并且控制解码器对所更新的潜在变量进行解码以重新配置输出内容。
<5>
根据<4>所述的信息处理装置,其中,
控制单元基于作为潜在变量的空间的潜在变量空间中的每个潜在变量的似然度分布以及真实似然度分布,在真实似然度小于预定值时,降低损失函数的梯度并移动潜在变量空间中的位置以更新潜在变量,使得真实增加,并且控制单元控制解码器对所更新的潜在变量进行解码以重新配置输出内容。
<6>
根据<3>所述的信息处理装置,其中,
似然度评估器获得通过对包括输入内容是预先注册为样本的内容的概率的似然度进行对数运算而获得的结果作为似然度。
<7>
根据<6>所述的信息处理装置,其中,
似然度评估器获得似然度,似然度是配置输入内容的数据序列作为预先注册为样本的内容的概率,似然度是通过对作为每个数据序列的条件概率的乘积而获得的似然度进行对数运算而获得的结果。
<8>
根据<3>所述的信息处理装置,其中,
真实评估器获得通过对包括输入内容是由人类生成的内容的概率的真实的似然度进行对数运算而获得的结果作为真实似然度。
<9>
根据<3>所述的信息处理装置,其中,
损失函数包括基于输入内容的似然度的第一项和基于真实似然度的第二项。
<10>
根据<9>所述的信息处理装置,其中,
第一项包括输入内容的似然度与通过将预定常数乘以预定系数而获得的预定似然度之间的差的平方。
<11>
根据<10>所述的信息处理装置,其中,
当输出内容的似然度增加以使输出内容普通时,预定系数被设置为大于1的值,并且当输出内容的似然度减小以使输出内容奇特时,预定系数被设置为小于1的值。
<12>
根据<10>所述的信息处理装置,其中,
预定常数是似然度的初始值。
<13>
根据<9>所述的信息处理装置,其中,
在第一项中,当似然度增加时,将正系数分配给输入内容的似然度,并且当似然度减小时,将负系数分配给输入内容的似然度。
<14>
根据<9>所述的信息处理装置,其中,
第一项包括配置输入内容的元素的似然度和由每个元素的预定系数与常数的乘积配置的预定似然度之间的差的平方和。
<15>
根据<3>所述的信息处理装置,其中,
在输入内容中将不被改变的部分指定为上下文的情况下,编码器将输入内容中除上下文之外的部分编码为输入部分数据并且将输入部分数据转换成潜在变量,
解码器对潜在变量进行解码以重新配置输出部分数据,并且
控制单元降低损失函数的梯度以更新潜在变量,控制解码器对所更新的潜在变量进行解码以重新配置输出部分数据,并且整合所重新配置的输出部分数据和上下文以重新配置输出内容。
<16>
根据<15>所述的信息处理装置,其中,
损失函数计算单元基于条件似然度计算损失函数,条件似然度是输入内容中除上下文之外的输入部分数据的似然度。
<17>
根据<15>所述的信息处理装置,其中,
损失函数计算单元使用输入内容的似然度作为输入内容的真实似然度。
<18>
根据<1>至<17>中任一项所述的信息处理装置,其中,
控制单元将损失函数的梯度逐步地降低预定幅度以逐步地更新潜在变量,并且控制解码器重复地对所更新的潜在变量进行解码以逐步地重新配置多条输出内容。
<19>
一种信息处理装置的信息处理方法,信息处理装置包括:
编码器;
解码器;
损失函数计算单元;以及
控制单元;
方法包括以下步骤:
由编码器对包括数据序列的输入内容进行编码以将输入内容转换成潜在变量;
由解码器对潜在变量进行解码以重新配置输出内容;
由损失函数计算单元基于输入内容的似然度计算损失函数;并且
由控制单元降低损失函数的梯度以更新潜在变量并且控制解码器对所更新的潜在变量进行解码以重新配置输出内容。
<20>
一种使计算机执行功能的程序包括:
编码器,被配置为对包括数据序列的输入内容进行编码以将输入内容转换成潜在变量;
解码器,被配置为对潜在变量进行解码以重新配置输出内容;
损失函数计算单元,被配置为基于输入内容的似然度计算损失函数;以及
控制单元,被配置为降低损失函数的梯度以更新潜在变量,并且控制解码器对所更新的潜在变量进行解码以重新配置输出内容。
附图标号列表
31 信息处理设备
32 输入/输出装置
51 通信单元
52 控制单元
53 存储单元
71 学习单元
72 优化单元
73 生成单元
81 模型存储单元
82 音乐数据库
91 编码器
92 解码器
93 损失函数计算单元
101、101’ 似然度评估器
102、102’ 真实评估器
Claims (20)
1.一种信息处理装置,包括:
编码器,被配置为对包括数据序列的输入内容进行编码以将所述输入内容转换成潜在变量;
解码器,被配置为对所述潜在变量进行解码以重新配置输出内容;
损失函数计算单元,被配置为基于所述输入内容的似然度计算损失函数;以及
控制单元,被配置为降低所述损失函数的梯度以更新所述潜在变量,并且控制所述解码器对所更新的潜在变量进行解码以重新配置输出内容。
2.根据权利要求1所述的信息处理装置,其中,
所述编码器和所述解码器是变分自动编码器(VAE)学习的,使得后验分布由先前分布正则化,同时保持重新配置误差最小化。
3.根据权利要求1所述的信息处理装置,其中,
所述损失函数计算单元包括:
似然度评估器,计算所述输入内容的似然度;以及
真实评估器,计算作为所述输入内容的真实的似然度的真实似然度;并且
基于作为所述似然度评估器的评估结果的所述似然度和作为所述真实评估器的评估结果的所述真实似然度来计算所述损失函数。
4.根据权利要求3所述的信息处理装置,其中,
在所述控制单元降低所述损失函数的梯度以更新所述潜在变量的情况下,所述控制单元降低所述损失函数的梯度以更新所述潜在变量,使得当所述真实似然度小于预定值时所述真实似然度增加,并且控制所述解码器对所更新的潜在变量进行解码以重新配置所述输出内容。
5.根据权利要求4所述的信息处理装置,其中,
所述控制单元基于作为所述潜在变量的空间的潜在变量空间中的每个潜在变量的似然度分布以及真实似然度分布,在所述真实似然度小于所述预定值时,降低所述损失函数的梯度并移动所述潜在变量空间中的位置以更新所述潜在变量,使得所述真实增加,并且所述控制单元控制所述解码器对所更新的潜在变量进行解码以重新配置所述输出内容。
6.根据权利要求3所述的信息处理装置,其中,
所述似然度评估器获得通过对包括所述输入内容是预先注册为样本的内容的概率的似然度进行对数运算而获得的结果作为似然度。
7.根据权利要求6所述的信息处理装置,其中,
所述似然度评估器获得似然度,所述似然度是配置所述输入内容的所述数据序列作为预先注册为样本的内容的概率,所述似然度是通过对作为每个所述数据序列的条件概率的乘积而获得的似然度进行对数运算而获得的结果。
8.根据权利要求3所述的信息处理装置,其中,
所述真实评估器获得通过对包括所述输入内容是由人类生成的内容的概率的所述真实的似然度进行对数运算而获得的结果作为所述真实似然度。
9.根据权利要求3所述的信息处理装置,其中,
所述损失函数包括基于所述输入内容的似然度的第一项和基于所述真实似然度的第二项。
10.根据权利要求9所述的信息处理装置,其中,
所述第一项包括所述输入内容的似然度与通过将预定常数乘以预定系数而获得的预定似然度之间的差的平方。
11.根据权利要求10所述的信息处理装置,其中,
当所述输出内容的似然度增加以使所述输出内容普通时,所述预定系数被设置为大于1的值,并且当所述输出内容的似然度减小以使所述输出内容奇特时,所述预定系数被设置为小于1的值。
12.根据权利要求10所述的信息处理装置,其中,
所述预定常数是所述似然度的初始值。
13.根据权利要求9所述的信息处理装置,其中,
在所述第一项中,当所述似然度增加时,将正系数分配给所述输入内容的似然度,并且当所述似然度减小时,将负系数分配给所述输入内容的似然度。
14.根据权利要求9所述的信息处理装置,其中,
所述第一项包括配置所述输入内容的元素的似然度和由每个元素的预定系数与常数的乘积配置的预定似然度之间的差的平方和。
15.根据权利要求3所述的信息处理装置,其中,
在所述输入内容中将不被改变的部分指定为上下文的情况下,所述编码器将所述输入内容中除所述上下文之外的部分编码为输入部分数据并且将所述输入部分数据转换成潜在变量,
所述解码器对所述潜在变量进行解码以重新配置输出部分数据,并且
所述控制单元降低所述损失函数的梯度以更新所述潜在变量,控制所述解码器对所更新的潜在变量进行解码以重新配置输出部分数据,并且整合所重新配置的输出部分数据和所述上下文以重新配置输出内容。
16.根据权利要求15所述的信息处理装置,其中,
所述损失函数计算单元基于条件似然度计算所述损失函数,所述条件似然度是所述输入内容中除所述上下文之外的所述输入部分数据的似然度。
17.根据权利要求15所述的信息处理装置,其中,
所述损失函数计算单元使用所述输入内容的似然度作为所述输入内容的真实似然度。
18.根据权利要求1所述的信息处理装置,其中,
所述控制单元将所述损失函数的梯度逐步地降低预定幅度以逐步地更新所述潜在变量,并且控制所述解码器重复地对所更新的潜在变量进行解码以逐步地重新配置多条输出内容。
19.一种信息处理装置的信息处理方法,所述信息处理装置包括:
编码器;
解码器;
损失函数计算单元;以及
控制单元;
所述方法包括以下步骤:
由所述编码器对包括数据序列的输入内容进行编码以将所述输入内容转换成潜在变量;
由所述解码器对所述潜在变量进行解码以重新配置输出内容;
由所述损失函数计算单元基于所述输入内容的似然度计算损失函数;并且
由所述控制单元降低所述损失函数的梯度以更新所述潜在变量并且控制所述解码器对所更新的潜在变量进行解码以重新配置输出内容。
20.一种使计算机执行功能的程序包括:
编码器,被配置为对包括数据序列的输入内容进行编码以将所述输入内容转换成潜在变量;
解码器,被配置为对所述潜在变量进行解码以重新配置输出内容;
损失函数计算单元,被配置为基于所述输入内容的似然度计算损失函数;以及
控制单元,被配置为降低所述损失函数的梯度以更新所述潜在变量,并且控制所述解码器对所更新的潜在变量进行解码以重新配置输出内容。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-003795 | 2020-01-14 | ||
JP2020003795 | 2020-01-14 | ||
PCT/JP2020/049097 WO2021145213A1 (ja) | 2020-01-14 | 2020-12-28 | 情報処理装置、および情報処理方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114868138A true CN114868138A (zh) | 2022-08-05 |
Family
ID=76863757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080090977.0A Pending CN114868138A (zh) | 2020-01-14 | 2020-12-28 | 信息处理装置、信息处理方法和程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230005459A1 (zh) |
EP (1) | EP4092666A4 (zh) |
JP (1) | JPWO2021145213A1 (zh) |
CN (1) | CN114868138A (zh) |
WO (1) | WO2021145213A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7033365B2 (ja) * | 2020-07-22 | 2022-03-10 | 株式会社Tmik | 音楽処理システム、音楽処理プログラム、及び音楽処理方法 |
JP2022021890A (ja) * | 2020-07-22 | 2022-02-03 | 株式会社Tmik | 音楽処理システム、音楽処理プログラム、及び音楽処理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011175006A (ja) | 2010-02-23 | 2011-09-08 | Sony Corp | 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム |
US11288723B2 (en) * | 2015-12-08 | 2022-03-29 | Sony Corporation | Information processing device and information processing method |
-
2020
- 2020-12-28 CN CN202080090977.0A patent/CN114868138A/zh active Pending
- 2020-12-28 WO PCT/JP2020/049097 patent/WO2021145213A1/ja unknown
- 2020-12-28 JP JP2021571135A patent/JPWO2021145213A1/ja active Pending
- 2020-12-28 US US17/785,051 patent/US20230005459A1/en active Pending
- 2020-12-28 EP EP20913334.7A patent/EP4092666A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4092666A4 (en) | 2023-06-07 |
EP4092666A1 (en) | 2022-11-23 |
US20230005459A1 (en) | 2023-01-05 |
JPWO2021145213A1 (zh) | 2021-07-22 |
WO2021145213A1 (ja) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020064990A1 (en) | Committed information rate variational autoencoders | |
CN111816156B (zh) | 基于说话人风格特征建模的多对多语音转换方法及系统 | |
CN110210032B (zh) | 文本处理方法及装置 | |
CN110706303B (zh) | 基于GANs的人脸图像生成方法 | |
CN109325516B (zh) | 一种面向图像分类的集成学习方法及装置 | |
JP6859577B2 (ja) | 学習方法、学習プログラム、学習装置及び学習システム | |
CN114868138A (zh) | 信息处理装置、信息处理方法和程序 | |
EP3540655A1 (en) | Learning program, learning method, and learning apparatus | |
CN112906294A (zh) | 用于深度学习模型的量化方法和量化装置 | |
CN114387946A (zh) | 语音合成模型的训练方法和语音合成方法 | |
CN114743080A (zh) | 图像处理方法及装置、终端、存储介质 | |
CN112908294A (zh) | 一种语音合成方法以及语音合成系统 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
Cohen et al. | Diffusion bridges vector quantized variational autoencoders | |
CN112069827A (zh) | 一种基于细粒度主题建模的数据到文本生成方法 | |
CN114283083A (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN111797225B (zh) | 一种文本摘要生成方法和装置 | |
CN110851580B (zh) | 一种基于结构化用户属性描述的个性化任务型对话系统 | |
WO2020162190A1 (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
CN115345106B (zh) | 电子器件的Verilog-A模型构建方法、系统及设备 | |
Schmidt-Barbo et al. | Using semantic embeddings for initiating and planning articulatory speech synthesis | |
Song et al. | Lightweight diffusion models: a survey | |
Dockes | “Building a conversational user simulator using generative adversarial networks | |
Effendi et al. | Multimodal chain: Cross-modal collaboration through listening, speaking, and visualizing | |
CN117808083B (zh) | 一种分布式训练通信方法、装置、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |