CN110825854A - 响应推断方法和设备 - Google Patents
响应推断方法和设备 Download PDFInfo
- Publication number
- CN110825854A CN110825854A CN201910261432.0A CN201910261432A CN110825854A CN 110825854 A CN110825854 A CN 110825854A CN 201910261432 A CN201910261432 A CN 201910261432A CN 110825854 A CN110825854 A CN 110825854A
- Authority
- CN
- China
- Prior art keywords
- latent variable
- response
- input
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000004044 response Effects 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 188
- 238000012549 training Methods 0.000 claims description 106
- 238000013528 artificial neural network Methods 0.000 claims description 59
- 230000015654 memory Effects 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 39
- 238000005070 sampling Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 6
- 230000036651 mood Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种响应推断方法和设备。所述响应推断设备获得输入,通过对所述输入进行编码来在划分为对应于多个响应的多个区域的潜变量区域空间中生成潜变量向量,通过对潜变量向量进行解码来生成与所述多个区域之中的潜变量向量的区域对应的输出响应。
Description
本申请要求于2018年8月14日提交至韩国知识产权局的第10-2018-0094770号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有的目的通过引用包含于此。
技术领域
以下描述涉及响应推断(response inference)技术。
背景技术
会话模型(conversation model)包括面向目标的会话模型和日常会话模型。面向目标的会话模型生成对具有明确目标的话语的单一响应。日常会话模型生成对不具有特定目标的话语(例如,日常问候语或情绪的表达)的各种响应。
从用户话语生成响应的模型包括基于规则的会话模型、基于搜索的会话模型以及基于生成的会话模型。在一个示例中,基于规则的会话模型使用预配置的模板。在一个示例中,基于搜索的会话模型在数据库内搜索合适的响应。在一个示例中,基于生成的会话模型使用训练的编码器和解码器来生成最佳响应。
发明内容
提供发明内容以简化的形式介绍将在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在标识要求保护的主题的关键特征或重要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,提供了一种响应推断方法,所述响应推断方法包括:获得输入;通过对所述输入进行编码,来在划分为多个区域的潜变量区域空间中生成潜变量向量;通过对潜变量向量进行解码,来生成与所述多个区域之中的潜变量向量的区域对应的输出响应。
潜变量向量可以是可包括用于生成对所述输入的响应的潜在信息变量的多维向量。
所述多个区域可对应于多个响应。
潜变量区域空间可通过对应于所述多个响应的多个控制输入来划分,所述多个控制输入中的控制输入可包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息。
生成潜变量向量的步骤可包括:通过对所述输入进行编码,来生成潜变量;生成属于对应于潜变量的潜变量区域空间的所述多个区域中的一个区域的潜变量向量。
生成属于所述一个区域的潜变量向量的步骤可包括:基于表示潜变量区域空间的概率分布对多个向量进行采样;基于采样的向量生成潜变量向量。
生成属于所述多个区域中的一个区域的潜变量向量的步骤可包括:选择与潜变量区域空间的所述多个区域对应的多个控制输入中的一个控制输入;基于概率分布生成属于与选择的控制输入对应的区域的潜变量向量。
生成属于所述多个区域中的一个区域的潜变量向量的步骤可包括:基于表示潜变量区域空间的概率分布对多个向量进行采样;通过使控制输入随机化来生成嵌入式控制输入,其中,控制输入可包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息;将嵌入式控制输入应用于采样的多个向量中的每个;使用可应用了嵌入式控制输入的采样的多个向量的加权和,来生成潜变量向量。
控制输入可包括:具有可与潜变量向量的维数相同的维数的向量。
所述输入可以是用户在会话中不意图得到特定响应的话语,并且所述多个响应是对所述话语的不同响应。
生成潜变量向量的步骤可包括使用编码器对所述输入进行编码,其中,编码器的神经网络可包括:输入层和输出层,其中,输入层对应于所述输入,输出层与对潜变量进行建模的概率分布的平均值和方差对应。
生成输出响应的步骤可包括:使用解码器对潜变量向量进行解码,其中,解码器的神经网络可包括:对应于潜变量向量的输入层和对应于输出响应的输出层。
在另一总体方面,提供了一种用于响应推断的训练方法,所述训练方法包括:获得训练输入;获得对训练输入的多个训练响应之中的训练响应;获得分别对应于所述多个训练响应的多个控制输入中的对应于所述训练响应的控制输入;通过将训练输入应用于编码器来生成潜变量;在对应于潜变量的潜变量区域空间中生成对应于所述控制输入的区域的训练潜变量向量;通过将训练潜变量向量应用于解码器来生成输出响应;基于输出响应和所述训练响应来训练编码器的神经网络和解码器的神经网络。
训练潜变量向量可以是可包括用于生成对训练输入的响应的潜在信息变量的多维向量,控制输入可以是用于引起潜变量区域空间的区域中的潜变量向量的生成的信息。
潜变量区域空间可被划分为对应于所述多个控制输入的多个区域。
生成训练潜变量向量的步骤可包括:基于表示潜变量区域空间的概率分布对多个向量进行采样;通过使所述控制输入随机化来生成嵌入式控制输入;将嵌入式控制输入应用于采样的多个向量中的每个;使用可应用了嵌入式控制输入的采样的多个向量的加权和,来生成训练潜变量向量。
可包括所述训练响应与输出响应之间的差的损失函数的值可被最小化。
在另一总体方面,提供了一种响应推断设备,所述响应推断设备包括:处理器,被配置为:获得输入;通过对所述输入进行编码,来在划分为对应于多个响应的多个区域的潜变量区域空间中生成潜变量向量;通过对潜变量向量进行解码,来生成与所述多个区域之中的潜变量向量的区域对应的输出响应。
潜变量向量可以是可包括用于生成对所述输入的响应的潜在信息变量的多维向量。
潜变量区域空间可通过对应于所述多个响应的多个控制输入来划分,所述多个控制输入中的控制变量可包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息。
处理器可被配置为:通过对所述输入进行编码,来生成潜变量;生成属于对应于潜变量的潜变量区域空间的所述多个区域中的一个区域的潜变量向量。
处理器可被配置为:基于表示潜变量区域空间的概率分布对多个向量进行采样;通过使控制输入随机化来生成嵌入式控制输入,其中,控制输入可包括:用于在潜变量区域空间的区域中生成潜变量向量的信息;将嵌入式控制输入应用于采样的多个向量中的每个;使用可应用了嵌入式控制输入的采样的多个向量的加权和,来生成潜变量向量。
在另一总体方面,提供了一种电子装置,所述电子装置包括:传感器,被配置为从用户接收输入;存储器,被配置为:存储划分为对应于多个响应的多个区域的潜变量区域空间;处理器,被配置为:对所述输入进行编码,以在潜变量区域空间中生成潜变量向量,对潜变量向量进行解码,以生成与所述多个区域之中的区域对应的响应,通过用户接口输出响应。
处理器还可被配置为:对所述输入进行编码,以生成潜变量;将潜变量区域空间划分为对应于多个控制输入的所述多个区域;从所述多个控制输入选择对应于潜变量的控制输入;从潜变量区域空间的对应于所述控制输入的所述区域生成潜变量向量。
控制输入可被配置为随机对应于所述多个区域中的任何一个区域。
控制输入可与关键词、用户的情绪、用户的态度、用户的指示和用户的指导中的任何一个或任何组合。
处理器可包括:编码器,实现第一神经网络,以在第一神经网络的输入层接收所述输入,其中,第一神经网络的输出层与对潜变量进行建模的概率分布的平均值和方差对应;解码器,实现第二神经网络,以在第二神经网络的输入层接收潜变量向量,其中,第二神经网络的输出层对应于所述响应。
从以下的具体实施方式、附图和权利要求,其他的特征和方面将清楚。
附图说明
图1示出响应推断方法的示例。
图2A和图2B示出响应推断方法的示例。
图3示出响应推断方法的示例。
图4A和图4B示出使用编码器和解码器执行的操作的示例。
图5A和图5B示出通过多重采样(multi-sampling)生成潜变量(latent variable)向量的示例。
图6示出用于响应推断的训练方法的示例。
图7示出用于响应推断的训练方法的示例。
图8示出用于响应推断的训练方法的示例。
图9示出设备的配置的示例。
图10是示出被配置为实现响应推断设备的电子系统或装置的示例的示图。
贯穿附图和具体实施例方式,除非另有描述或提供,否则相同的附图参考标记将被理解为表示相同的元件、特征和结构。附图可不按比例绘制,为了清楚、说明和方便,可能夸大附图中的元件的相对尺寸、比例和描绘。
具体实施方式
提供以下具体实施方式以帮助读者获得对在此描述的方法、设备、和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备、和/或系统的各种改变、修改、和等同物将是清楚的。例如,在此描述的操作顺序仅是示例,并不限于在此阐述的操作顺序,而是除了必须以特定顺序发生的操作之外,这里描述的操作顺序可以如在理解本申请的公开之后清楚地那样改变。此外,为了更加清楚和简洁,可省略本领域已知的特征的描述。
在此描述的特征可以以不同形式实现,并不被解释为限于在此描述的示例。相反,提供在此描述的示例仅被提供来示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备、和/或系统的许多可能的方式中的一些。
当一个部件连接到另一个部件时,这不仅包括所述部件直接连接的情况,还包括所述部件与其间的另一部件连接的情况。此外,除非另有特别地陈述,否则当部件包括构成元件时,其它元件也可包括在该部件中,而不是其它元件被排除。虽然诸如“第一”、“第二”、“第三”、“A”、“B”、(a)和(b)的术语可在此用于描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不被这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一个构件、组件、区域、层或部分区分开来。因此,在不脱离示例的教导的情况下,在此描述的示例中提及的第一构件、组件、区域、层或部分也可被称为第二构件、组件、区域、层或部分。
应注意,虽然第一组件可直接连接、结合或联结到第二组件,但是如果描述了一个组件“连接”、“结合”或“联结”到另一组件,则第三组件可“连接”、“结合”或“联结”在第一组件与第二组件之间。然而,如果本说明书陈述了第一组件“直接连接到”或“直接联结到”第二组件,则第三组件不会“连接在”或“联接在”第一组件与第二组件之间。相似的表述(例如,“在……之间”与“直接在……之间”、“相邻”与“直接相邻”)也以这种方式来解释。
在此使用的术语仅为了描述特定示例的目的,而不意在限制本公开或权利要求。除非上下文另有清楚地指示,否则单数形式也意在包括复数形式。还将理解,当在此使用术语“包括”和/或“包含”时,表明存在陈述的特征、整数、步骤、操作、元件和/或组件,但不排除存在或增加一个或多个其它的特征、整数、步骤、操作、元件、组件和/或它们的组。
在此关于示例或实施例的术语“可”的使用(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例,然而全部示例和实施例不限于此。
在下文中阐述的示例涉及使用基于生成的会话模型(generation-basedconversation model)来生成响应的技术。基于规则/搜索的会话模型难以识别各种输入,并且局限于生成数据库中的表达之内的响应,然而基于生成的会话模型通过训练识别各种输入。通用的基于生成的会话模型基于训练生成最佳响应,因此,在一些示例中,通用的基于生成的会话模型可在对相同的输入生成各种响应上存在限制。然而,在此公开的基于生成的会话模型提供对相同的输入生成各种响应的技术。
图1示出响应推断方法的示例。虽然图1中的操作可以以示出的顺序和方式来执行,但是在不脱离描述的说明性示例的精神和范围的情况下,一些操作的顺序可被改变,或者一些操作可被省略。图1中示出的许多操作可被并行或同时执行。图1的一个或多个块以及块的组合可由执行特定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。
参照图1,在操作101中,响应推断设备从用户获得输入。在一个示例中,响应推断设备是推断(infer)对来自用户的输入的响应的设备。在一个示例中,响应推断设备在如以下所述的硬件模块上实现。用户输入包括实现生成对用户输入(例如,用户话语)的响应的信息。例如,用户输入包括适合于由响应推断设备处理的多维向量。
参照图2A和图2B,响应推断设备201对相同的用户输入生成多个响应。例如,响应于输入“育儿是困难的。”,在第一时间点生成第一响应“确实,但是你做得很好。”,在第二时间点生成第二响应“这肯定不容易。我想拍拍你的肩膀。”。因此,用户在自动生成的响应中感到活跃(liveness)而不是无聊。
再次参照图1,在操作102中,响应推断设备通过对用户输入进行编码,来在划分为对应于多个响应的多个区域的潜变量区域空间中生成潜变量向量。如以下进一步描述的那样,响应推断设备生成对应于用户输入的潜变量区域空间,划分潜变量区域空间,并针对划分的潜变量区域空间中的每个区域生成不同的响应。
在一个示例中,响应推断设备使用编码器对用户输入进行编码。在一个示例中,编码器是一种类型的神经网络,并通过对用户输入的维数进行转换来生成潜变量。例如,编码器被训练,以从用户输入生成潜变量,并且训练的编码器从用户输入生成潜变量。在一个示例中,潜变量通过概率分布来建模。例如,潜变量通过包括平均值和方差的概率分布表示为潜变量区域空间。
在一个示例中,潜变量区域空间是表示由编码器生成的潜变量的空间,并通过训练编码器和解码器而划分为对应于多个响应的多个区域。潜变量区域空间通过对应于多个响应的控制输入来划分。这里,控制输入是引起潜变量区域空间的区域中的潜变量向量的生成的信息。控制输入是具有与生成的向量的维数相同的维数的向量。以下将进一步描述在训练处理期间使用控制输入划分潜变量区域空间的操作。
响应推断设备从用户输入生成潜变量向量。潜变量向量是指示潜变量域空间内的位置的向量,并属于多个区域中的任何一个区域。响应推断设备基于概率分布,生成属于潜变量区域空间的多个区域中的一个区域的潜变量向量。
潜变量向量是包含用于生成对应于用户输入的响应的潜在信息变量的多维向量。如图2A和图2B的示例中所示,用户输入是在会话(例如,作为非限制性的示例,日常会话)中不意图获得特定回答的用户话语,并且对用户输入的响应是对用户话语的响应。
在操作103中,响应推断设备通过对潜变量向量进行解码,来生成与潜变量向量属于的区域对应的输出响应。由于潜变量区域空间被划分为对应于各种响应的多个区域,所以响应推断设备从用户输入推断各种响应。响应推断设备使用通过训练的神经网络实现的编码器和解码器,从而识别各种用户输入并生成适合识别出的用户输入的各种响应。
图3示出响应推断方法的示例。
参照图3,响应推断设备通过对用户输入(X)进行编码,来生成对潜变量进行建模的概率分布Q(Z|X)。对应于潜变量Z的潜变量区域空间<Z>通过概率分布来表示。
潜变量区域空间<Z>通过对应于各种响应的控制输入来划分,并且响应推断设备从概率分布Q(Z|X)生成潜变量向量z。在一个示例中,响应推断设备从概率分布随机生成潜变量向量z。在一个示例中,响应推断设备使用控制输入生成潜变量向量z。
在一个示例中,潜变量向量z可属于潜变量区域空间<Z>内的划分的多个区域中的任何一个区域。在一个示例中,响应推断设备对潜变量向量z进行解码,以生成输出响应P(Y=y_i|Z=z_i)。例如,响应推断设备通过对潜变量向量z1进行解码,来生成与随机生成的潜变量向量z1属于的区域对应的输出响应y1。
在一个示例中,响应推断设备使用控制输入从概率分布Q(Z|X)生成潜变量向量z。响应推断设备获得与潜变量区域空间<Z>中的区域或设置的响应对应的控制输入,并使用获得的控制输入引起对应于区域的潜变量向量z的生成。例如,响应推断设备选择对应于多个响应的多个控制输入中的一个控制输入,并引起对应于选择的控制输入的潜变量向量z的生成。响应推断设备通过对生成的潜变量向量z进行解码来生成输出响应。如上所述,响应推断设备使用编码器和解码器来推断响应。在下文中,将参照图4A和图4B描述使用编码器和解码器执行的操作。
图4A和图4B示出使用编码器和解码器执行的操作的示例。
参照图4A,响应推断设备使用编码器401和解码器402从用户输入生成输出响应。编码器401和解码器402被预先训练,以基于划分为多个区域的潜变量区域空间执行编码和解码。编码器401和解码器402被训练,以针对潜变量区域空间的多个区域生成不同的输出响应。潜变量区域空间在训练处理期间通过控制输入被划分为多个区域。
在一个示例中,编码器401的神经网络包括对应于用户输入的输入层403、隐藏层404以及与对潜变量进行建模的概率分布的平均值和方差对应的输出层405。解码器402的神经网络包括对应于潜变量向量的输入层406、隐藏层407以及对应于输出响应的输出层408。神经网络的以上结构仅被提供为示例。层中的节点、连接结构和参数的方面可被各种修改,以提高训练或推断的效率和性能。
在一个示例中,编码器401和解码器402的网络可具有深度神经网络(DNN)的架构或n层神经网络的架构。DNN或n层神经网络可与卷积神经网络(CNN)、递归神经网络(RNN)、深度信念网络、全连接网络、双向神经网络、受限制波尔曼兹机对应,或者可包括分别具有全连接、卷积连接、递归连接和/或双向连接的不同或重叠的神经网络部分。例如,编码器401和解码器402的神经网络可被实现为CNN。然而,编码器401和解码器402的神经网络不限于此。除了卷积层之外,作为编码器401和解码器402的示例的CNN可包括子采样层、池化层、全连接层等。
神经网络可被实现为具有多个层的架构,其中,该多个层包括输入层403和406、特征图以及输出层405和408。在神经网络中,输入和被称为核的滤波器(filter)之间的卷积运算被执行,并且作为卷积运算的结果,特征图被输出。在一个示例中,输出的特征图是输入特征图,并且输出的特征图与核之间的卷积运算再次被执行,结果,新的特征图被输出。基于这样重复执行的卷积运算,最终,与潜在变量向量419属于的区域对应的输出响应被输出。
响应推断设备使用编码器401基于从用户输入生成的平均值和方差,来生成概率分布411。如上所述,响应推断设备从概率分布411随机生成属于潜变量区域空间412的多个区域中的一个区域的潜变量向量413,并使用解码器402生成与潜变量向量413属于的区域对应的输出响应。
响应推断设备可使用控制输入引起期望的区域中的潜变量向量的生成。例如,响应推断设备使用控制输入C1 416从概率分布414生成属于潜变量区域空间415的第一区域的潜变量向量z1 417,并使用解码器402生成与潜变量向量z1 417属于的区域对应的输出响应。响应推断设备使用控制输入C2 418从概率分布414生成属于潜变量区域空间415的多个区域中的第二区域的潜变量向量z2 419,并使用解码器402生成与潜变量向量4z2 19属于的区域对应的输出响应。
参照图4B,实现从编码器401的输出层405生成潜变量向量的操作的示例被示出。响应推断设备对从具有平均值“0”和方差“1”的正态分布N采样的潜变量向量进行变换,从而生成从输出层405的与平均值μ和方差σ对应的概率分布Z采样的潜变量向量z。例如,响应推断设备通过从正态分布N采样ε并从ε计算μ+σ·ε,来生成潜变量向量z。
在一个示例中,编码器401和解码器402的神经网络被配置为处理语音输入或用户话语中的音频数据,以提取关于语音输入的用于语音识别、提供响应或语音输入的语音到文本转换的信息。例如,神经网络针对与语音输入对应的一个或多个输入特征图执行卷积,以生成输出特征图。神经网络设备基于输出特征图中的信息生成对语音识别输出的响应或作为文本转换输出的响应。也就是说,编码器401和解码器402的神经网络可明确地或隐含地指示语音识别或语音到文本转换的结果作为响应。例如,可通过在响应推断设备的显示器上的文本形式的显示或者可听见地反馈给用户或另一用户来明确地指示对识别的语音的响应,或者可基于语音识别的结果通过响应推断设备的附加操作或选择性不操作来提供隐含指示。与传统的神经网络设备相比,编码器401和解码器402的神经网络设备快速有效地处理神经网络中的卷积运算,以提供对语音提示的响应。从而,最优地利用用于执行卷积的可用硬件资源。
图5A和图5B示出通过多重采样生成潜变量向量的示例。
参照图5A,响应推断设备包括模块502,其中,模块502被配置为从使用编码器501生成的概率分布(例如,平均值和方差)生成将应用于解码器503的潜变量向量506。响应推断设备基于由编码器501生成的概率分布对多个向量504进行采样。在一个示例中,响应推断设备从概率分布随机对多个向量504进行采样。在一个示例中,多个向量504包括多维变量。
在一个示例中,响应推断设备使用嵌入式控制输入505(embedded controlinput)来生成随机选择多个响应中的任何一个响应的潜变量向量506。例如,嵌入式控制输入505是具有与采样的向量504的维数相同的维数的向量并被随机确定。
响应推断设备将嵌入式控制输入505应用于采样的向量504的每个。响应推断设备通过执行控制输入505与采样的向量504中的每个之间的点积运算,来计算相似度。
在一个示例中,响应推断设备使用应用了嵌入式控制输入505的采样的向量的基于相似度的加权和,来生成潜变量向量506。例如,当向量的方向变得彼此相对更相似时,向量之间的点积运算的结果具有相对更大的值。因此,在一个示例中,响应推断设备通过对控制输入505与采样的向量504中的每个之间的点积运算的结果进行求和来生成潜变量向量506。在另一个示例中,响应推断设备通过将控制输入505与采样的向量504中的每个之间的点积运算的结果的柔性最大值(SoftMax value)用作权重对采样的向量504进行求和,来生成潜变量向量506。
如上所述,潜变量向量506是表示用于推断响应的潜变量的多维向量,采样的向量504和控制输入505是具有相同维数的向量。因此,在一个示例中,潜变量向量506也以与采样的向量504和控制输入505的维数相同的维数被生成。响应推断设备使用解码器503从潜变量向量506生成输出响应。
在这个示例中,如参照图2A和图2B所述,对相同的用户输入的各种响应中的一个被随机选择并输出。
响应推断设备使用控制输入引起期望的响应。控制输入是具有与采样的向量504的维数相同的维数的向量。为了引起各种响应中的特定响应,响应推断设备从多个控制输入选择一个控制输入。如上所述,控制输入是将潜变量向量偏移到潜变量区域空间被划分为的多个区域中的区域的向量。
在一个示例中,响应推断设备使控制输入随机化。例如,响应推断设备通过将随机输入应用于控制输入,来生成嵌入式控制输入505。
如表1所示,响应推断设备使用对应于关键词的控制输入从用户输入生成输出响应。
[表1]
如表2所示,响应推断设备使用对应于情绪的控制输入从用户输入生成输出响应。
[表2]
除了以上示例以外,控制输入可基于态度和指示或用户指导来设置,各种方案可根据设计意图来采用并应用。
[表3]
[表4]
图5A的示例中使用的控制输入与用于训练处理的控制输入相同,这将在后面进行描述。
参照图5B,实现多重采样操作的示例被示出。响应推断设备对从具有平均值“0”和方差“1”的正态分布N多重采样的潜变量向量进行变换,从而生成从与平均值μ和方差σ对应的概率分布Z采样的潜变量向量zi。例如,响应推断设备通过从正态分布N对εi进行多重采样并从εi计算μ+σ·εi,来生成潜变量向量zi 504。
在一个示例中,通过实现对具有神经网络的节点的编码器501与解码器503之间的潜变量向量进行多重采样的操作,来同时训练编码器501与解码器503,这将在后面进行描述。通过这样,可使用端对端(end-to-end)神经网络来实现示例。
图6示出用于响应推断的训练方法的示例。虽然图6中的操作可以以示出的顺序和方式来执行,但是在不脱离描述的说明性示例的精神和范围的情况下,一些操作的顺序可被改变,或者一些操作可被省略。图6中示出的操作中的许多操作可被并行或同时执行。图6的一个或多个块以及块的组合可由执行特定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。除了以下图6的描述以外,图1至图5B的描述也适用于图6,并通过引用包含于此。因此,这里不再重复以上描述。
参照图6,在操作601中,用于响应推断的训练设备(在下文中,训练设备)获得训练输入。训练设备是用于训练编码器和解码器以推断响应的设备,并可在硬件模块上实现。
在操作602中,训练设备获得对训练输入的多个训练响应中的一个训练响应。训练响应是适合于训练输入的响应,并对应于地面真值。
在操作603中,训练设备获得对应于多个训练响应的多个控制输入中的与获得的训练响应对应的控制输入。例如,对训练输入“这些天我喜欢听爵士乐。”的训练响应包括“我也是!”、“我也喜欢它。”以及“是的,我们点击了。”,并且控制输入分别对应于训练响应。
在一个示例中,控制输入是通过对训练响应进行编码而生成的特征向量。参照图2B的示例,通过对“我也是!”进行编码来生成第一控制输入,通过对“我也喜欢它。”进行编码来生成第二控制输入,通过对“是的,我们点击了。”进行编码来生成第三控制输入,通过对“哇,我们点击了。”进行编来生成第四控制输入。第一控制输入至第四控制输入是指示多维空间中的不同位置的多维向量。
当潜变量区域空间基于用户输入来确定时,使用对应于各种响应的各种控制输入将潜变量区域空间划分为多个区域,并且训练神经网络以输出对应于每个区域的响应。此外,训练设备通过将随机输入添加到控制输入来生成嵌入式控制输入,并且使用嵌入式控制信号来划分潜变量区域空间。从而,增大潜变量区域空间中的每个区域的比例。
在另一示例中,控制输入是通过对诸如表1和表2中所示的关键词或情绪的信息进行编码而生成的特征向量。例如,参照表1,通过对关键词“电影”进行编码来生成第一控制输入,通过对关键词“书”进行编码来生成第二控制输入。
在一个示例中,训练设备从多个控制输入选择与将用于训练的训练响应对应的控制输入。
在操作604中,训练设备通过将训练输入应用于将被训练的编码器,来生成潜变量。如上所述,概率分布是表示对应于潜变量的潜变量区域空间的一种方式,编码器被设计为输出平均值和方差。
在操作605中,训练设备基于概率分布和获得的控制输入,在潜变量区域空间中生成与获得的控制输入对应的区域的训练潜变量向量。如上所述,控制输入引起潜变量区域空间的区域中的潜变量向量的生成,从而训练设备生成对应于控制输入的训练潜变量向量。
在操作606中,训练设备通过将训练潜变量向量应用于将被训练的解码器来生成输出响应。如上所述,解码器被设计为从潜变量向量输出响应。
在操作607中,训练设备基于输出响应和训练响应来训练编码器和解码器的神经网络。使用各种方案来训练神经网络。训练设备优化编码器和解码器的神经网络,并划分潜变量区域空间,使得不同的输出响应针对对应于多个控制输入的多个区域被生成。响应推断设备使用通过训练而被划分的潜变量区域空间来生成各种输出响应。
图7示出用于响应推断的训练方法的示例。
参照图7,训练设备将训练输入应用于编码器701,并将控制输入应用于采样模块702。采样模块702包括与图5A的模块502的结构相同的结构,并可被实现为执行如图5B中所示的多重采样。
解码器703生成输出响应。训练设备训练编码器701和解码器703,使得如训练响应与输出响应之间的差定义的损失函数的值可被最小化。例如,训练设备使用反向传播训练方案来训练编码器701和解码器703。
在一个示例中,训练设备通过同时训练编码器701和解码器703来生成端对端型响应推断引擎。
图8示出用于响应推断的训练方法的示例。
参照图8,潜变量区域空间801通过对应于各种响应的控制输入c1、c2、和c3来划分。训练设备基于控制输入c1、c2、和c3、多个训练输入、训练响应以及输出响应来训练编码器和解码器,潜变量区域空间801通过训练被划分为分别对应于控制输入c1、c2、和c3的多个区域。
在一个示例中,潜变量区域空间801的多个区域彼此不同,以分别对应于控制输入。当控制输入被输入时,可能不知道潜变量区域空间801的通过控制输入指示的区域。
虽然未在附图中示出,但是潜变量区域空间801可被软划分。例如,潜变量区域空间801的多个区域可彼此重叠,或者在潜变量区域空间801中可存在空区域。在这个示例中,潜变量向量可属于至少两个区域的重叠区域或空区域。
虽然未在附图中示出,但是被配置为全面考虑针对不同用户输入的训练的结果而生成响应的响应推断引擎可被生成。
[表5]
例如,参照表5,输出响应a1、a2和a3用于针对用户输入A的训练。此外,输出响应b1和a2’用于针对用户输入A’的训练。
用户输入A和用户输入A’彼此相似。在这个示例中,通过用户输入A生成的第一潜变量区域空间和通过用户输入A’生成的第二潜变量区域空间彼此相似。
此外,输出响应a2和输出响应a2’彼此相似。在这个示例中,通过输出响应a2的特征向量选择的第一区域和通过输出响应a2’的特征向量选择的第二区域彼此相似。
第一潜变量区域空间的第一区域和第二潜变量区域空间的第二区域具有相似的分布,并且其它的输出响应a1、a3和b1被分布在与第一区域和第二区域不同的区域中。
结果,如表5中所示训练的响应推断引擎在推断处理期间响应于用户输入A而生成b1以及a1、a2和a3。此外,响应推断引擎还响应于用户输入A’而生成a1和a3以及b1和a2’。
图9示出响应推断设备的配置的示例。
参照图9,响应推断设备901包括处理器902和存储器903。响应推断设备901是上述响应推断设备或训练设备。处理器902包括以上参照图1到图8描述的多个设备中的至少一个,或执行以上参照图1到图8描述的多个方法中的至少一个。以下提供处理器920的进一步细节。存储器903存储与上述响应推断方法或训练方法相关的信息,或者存储用于实现上述响应推断方法或训练方法的程序。存储器903是易失性存储器或非易失性存储器。以下提供存储器903的进一步细节。
处理器902执行程序并控制响应推断设备901。将由处理器902执行的程序代码被存储在存储器903中。设备901通过输入和输出装置(未示出)连接到外部装置(例如,个人计算机或网络),并与外部装置交换数据。
图10是示出被配置为实现响应推断设备的电子系统或装置1000的示例的示图。参照图10,电子系统或装置1000包括传感器1010、处理器1020、本地存储器1025(未示出)、存储器1030、显示器1050以及用户接口(UI)1060。传感器1010、处理器1020、存储器1030、显示器1050和UI 1060经由总线1040彼此通信。
电子系统或装置1000可与图2A和图2B中的任何一个的响应推断设备、或者图4A的编码器401或解码器402对应,并可实现以上处理或方法中的任何一个或多个或者全部。作为非限制性示例,处理器1020可对应于图9的处理器901,和/或存储器1030可对应于图9的存储器903。当存储器1030可存储数据库时,本地存储器1025可与以上描述的暂时的或本地缓冲器/存储器中的任何一个对应,其中,数据库可存储核元素、特征图、权重元素、语音元素、潜变量区域空间、输出响应和/或训练数据,核元素、特征图、权重元素、语音元素、潜变量区域空间、输出响应和/或训练数据可从本地存储器1025被载入和/或被载入到本地存储器1025中。在一个示例中,本地缓冲器/存储器可以是处理器1020的存储器或直接连接到处理器1020的缓冲器/存储器(例如,被配置为迅速地将数据传送至处理器1020和本地存储器1025、或者迅速地从处理器1020和本地存储器1025传送数据),注意替代物也是可用的。本地存储器1025还可被分配为暂时性存储神经网络的特定层或神经网络的全部层的卷积输出结果,神经网络的特定层或神经网络的全部层的的最终输出结果可被存储在存储器1030中和/或分别用于下一层的输入。在一个示例中,除了用于下一层的输入的目的之外,每个层的卷积结果可被丢弃,并且仅最终层输出存储到存储器1030或用于另外的处理(诸如,在作为电子系统或装置1000的移动电话的相应显示操作中)的神经网络的结果。作为非限制性示例,处理器1020可表示被配置为以上神经网络处理设备或识别设备中的任何一个或任何组合的一个或多个处理器。以下将提供处理器1020的进一步细节。
处理器1020可被配置为执行参考图1至图8描述的一个或多个或者全部处理。例如,为了提供对语音输入的响应,处理器1020可基于以上关于图1至图8描述的神经网络处理操作来识别输入数据并准备输出响应,其中,关于图1至图8描述的神经网络处理操作也可被认为是在神经网络中有效地处理卷积运算的加速处理。识别或响应操作中的任何一个的结果可通过显示器1050或UI 1060来输出。此外,在此讨论的神经网络处理操作的用户调整或选择性操作可通过UI 1060来提供,其中,UI 1060可包括触摸屏或其它输入/输出装置/系统(诸如,麦克风或扬声器)。如上所述以及如下所述,处理器1020可以是图形处理器单元(GPU)、可重新配置的处理器或具有任何其它类型的多处理器或单处理器配置。
例如,传感器1010包括麦克风和/或图像传感器或相机,以感测视频数据和音频数据,从而例如识别音频输入。在一个示例中,传感器1010使用已知方案(例如,将语音输入转换为电子信号的方案)来感测语音。传感器1010的输出被传送到处理器1020或存储器1030,并且传感器1010的输出还可被直接传送到在此讨论的神经网络的输入层,或者作为在此讨论的神经网络的输入层进行操作。
除了如上所述神经网络处理设备中的一个或多个的操作和/或图1至图8中描述的操作之外,存储器1030还可存储指令,其中,当处理器1020执行所述指令时,使得处理器1020执行电子系统或装置1000(诸如,电子系统或装置1000的用户接口)的附加操作、功能和控制。电子系统或装置1000可经由电子系统的输入/输出装置连接到外部装置(例如,个人计算机(PC)或网络),以与外部装置交换数据。电子系统或装置1000可以是各种电子装置(仅作为非限制性示例):移动装置(例如,移动电话、智能电话)、可穿戴智能装置(诸如,戒指、手表、一副眼镜、眼镜式装置、手环、脚踝支架、腰带、项链、耳环、头带、头盔、嵌入衣服中的装置、或眼镜显示器(EGD))、计算装置(例如,服务器、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本、超移动PC(UMPC)、平板个人计算机(平板电脑)、平板手机、移动互联网装置(MID)、个人数字助理(PDA)、企业数字助理(EDA)、超移动个人计算机(UMPC)、便携式膝上型计算机PC)、电子产品(例如,机器人、数码相机、数码摄像机、便携式游戏机、MP3播放器、便携/个人多媒体播放器(PMP)、手持电子书、全球定位系统(GPS)导航仪、个人导航装置、便携式导航装置(PND)、手持式游戏机、电子书、电视(TV)、高清电视(HDTV)、智能TV、智能家电、智能家居装置或用于门控制的安全装置),各种物联网(IoT)装置、或与在此公开的装置一致的能够无线通信或网络通信的任何其他装置。
在此针对图1至图10描述的响应推断设备、训练设备、响应推断设备201、模块502、编码器401、解码器402、编码器501、模块502、解码器503、编码器701、采样模块702、解码器703和其他设备、单元、模块、装置以及其他组件由硬件组件实现。可用于执行本申请中描述的操作的硬件组件的示例在适当位置包括:控制器、传感器、发生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任意其他电子组件。在其它示例中,执行本申请中描述的操作的硬件组件中的一个或多个由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可由一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令来获得期望的结果的任意其他装置或装置的组合)实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操作、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中,但在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或者两者。例如,单个硬件组件或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器实现。一个或多个硬件组件可由一个或多个处理器、或者处理器或控制器实现,一个或多个其他硬件组件可由一个或多个其他处理器、或者另外的处理器和另外的控制器实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任意一个或多个,其中,不同的处理配置的示例包括:单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、多指令多数据(MIMD)多处理。
图1至图9中示出的执行本申请中描述的操作的方法由计算硬件(例如,由一个或多个处理器或计算机)执行,其中,该计算硬件被实现为如以上描述地执行指令或软件,以执行通过所述方法执行的本申请中描述的操作。例如,单个操作或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器执行,一个或多个其他操作可由一个或多个其他处理器、或者另外的处理器和另外的控制器执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制处理器或计算机来实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的组合,以单独或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作,来执行如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括小程序、动态链接库(DLL)、中间件、固件、装置驱动器和存储防止冲突的方法的应用程序中的至少一个。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一个示例中,指令或软件包含由处理器或计算机使用解释器执行的高级代码。本领域的普通技术的程序员可基于在附图中示出的框图和流程图以及在说明书中相应的描述容易地编写指令或软件,其中,附图中示出的框图和流程图以及在说明书中相应的描述公开了用于执行如上所述的硬件组件和方法执行的操作的算法。
用于控制计算硬件(例如,一个或多个处理器或者计算机)以实现硬件组件并执行如上所述的方法的指令或软件、以及任意相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极限数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任意其他装置,任意其他装置被配置为以非暂时性的方式存储指令或软件以及任意相关联的数据、数据文件和数据结构,并向处理器或者计算机提供指令或软件以及任意相关联的数据、数据文件和数据结构使得处理器或者计算机可执行指令。在一个示例中,指令或软件以及任意相关联的数据、数据文件和数据结构分别在网络连接的计算机系统上,使得一个或多个处理器或计算机以分布的方式存储、访问和执行指令、软件以及任意相关联的数据、数据文件和数据结构。
尽管本公开包含特定的示例,但是在不脱离权利要求和它们的等同物的精神和范围的情况下,在理解本申请的公开之后将清楚的是,可在这些示例中做出形式上和细节上的各种改变。在此描述的示例将被认为仅是描述性意义,而不是为了限制的目的。每个示例中的特征或方面的描述将被认为适用于其他示例中的相似的特征或方面。如果描述的技术以不同的顺序执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式组合,和/或由其他的组件或它们的等同物代替或补充,则可实现合适的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,权利要求和它们的等同物的范围内的所有变化将被解释为包含在本公开中。
Claims (29)
1.一种响应推断方法,包括:
获得输入;
通过对所述输入进行编码,来在划分为多个区域的潜变量区域空间中生成潜变量向量;
通过对潜变量向量进行解码,来生成与所述多个区域之中的潜变量向量的区域对应的输出响应。
2.根据权利要求1所述的响应推断方法,其中,潜变量向量是包括用于生成对所述输入的响应的潜在信息变量的多维向量。
3.根据权利要求1所述的响应推断方法,其中,所述多个区域对应于多个响应。
4.根据权利要求3所述的响应推断方法,其中,潜变量区域空间通过对应于所述多个响应的多个控制输入来划分,
所述多个控制输入中的控制输入包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息。
5.根据权利要求1所述的响应推断方法,其中,生成潜变量向量的步骤包括:
通过对所述输入进行编码,来生成潜变量;
生成属于对应于潜变量的潜变量区域空间的所述多个区域中的所述区域的潜变量向量。
6.根据权利要求5所述的响应推断方法,其中,生成属于所述区域的潜变量向量的步骤包括:
基于表示潜变量区域空间的概率分布对多个向量进行采样;
基于采样的向量生成潜变量向量。
7.根据权利要求5所述的响应推断方法,其中,生成属于所述区域的潜变量向量的步骤包括:
选择与潜变量区域空间的所述多个区域对应的多个控制输入中的一个控制输入;
基于概率分布生成属于与选择的控制输入对应的区域的潜变量向量。
8.根据权利要求5所述的响应推断方法,其中,生成属于所述区域的潜变量向量的步骤包括:
基于表示潜变量区域空间的概率分布对多个向量进行采样;
通过使控制输入随机化来生成嵌入式控制输入,其中,控制输入包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息;
将嵌入式控制输入应用于采样的多个向量中的每个;
使用应用了嵌入式控制输入的采样的多个向量的加权和,来生成潜变量向量。
9.根据权利要求8所述的响应推断方法,其中,控制输入包括:具有与潜变量向量的维数相同的维数的向量。
10.根据权利要求3所述的响应推断方法,其中,所述输入是用户在会话中不意图得到特定响应的话语,
所述多个响应是对所述话语的不同响应。
11.根据权利要求1所述的响应推断方法,其中,生成潜变量向量的步骤包括使用编码器对所述输入进行编码,
其中,编码器的神经网络包括:输入层和输出层,其中,输入层对应于所述输入,输出层与对潜变量进行建模的概率分布的平均值和方差对应。
12.根据权利要求1所述的响应推断方法,其中,生成输出响应的步骤包括:使用解码器对潜变量向量进行解码,
其中,解码器的神经网络包括:对应于潜变量向量的输入层和对应于输出响应的输出层。
13.一种存储指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,使处理器执行权利要求1所述的响应推断方法。
14.一种用于响应推断的训练方法,所述训练方法包括:
获得训练输入;
获得对训练输入的多个训练响应之中的训练响应;
获得分别对应于所述多个训练响应的多个控制输入之中的对应于所述训练响应的控制输入;
通过将训练输入应用于编码器来生成潜变量;
在对应于潜变量的潜变量区域空间中生成对应于所述控制输入的区域的训练潜变量向量;
通过将训练潜变量向量应用于解码器来生成输出响应;
基于输出响应和所述训练响应来训练编码器的神经网络和解码器的神经网络。
15.根据权利要求14所述的训练方法,其中,训练潜变量向量是包括用于生成对训练输入的响应的潜在信息变量的多维向量,
控制输入是用于引起潜变量区域空间的区域中的潜变量向量的生成的信息。
16.根据权利要求14所述的训练方法,其中,潜变量区域空间被划分为对应于所述多个控制输入的多个区域。
17.根据权利要求14所述的训练方法,生成训练潜变量向量的步骤包括:
基于表示潜变量区域空间的概率分布对多个向量进行采样;
通过使所述控制输入随机化来生成嵌入式控制输入;
将嵌入式控制输入应用于采样的多个向量中的每个;
使用应用了嵌入式控制输入的采样的多个向量的加权和,来生成训练潜变量向量。
18.根据权利要求14所述的训练方法,其中,包括所述训练响应与输出响应之间的差的损失函数的值被最小化。
19.一种存储指令的非暂时性的计算机可读存储介质,当所述指令由处理器执行时,使处理器执行权利要求14所述的训练方法。
20.一种响应推断设备,包括:
处理器,被配置为:
获得输入;
通过对所述输入进行编码,来在划分为对应于多个响应的多个区域的潜变量区域空间中生成潜变量向量;
通过对潜变量向量进行解码,来生成与所述多个区域之中的潜变量向量的区域对应的输出响应。
21.根据权利要求20所述的响应推断设备,其中,潜变量向量是包括用于生成对所述输入的响应的潜在信息变量的多维向量。
22.根据权利要求20所述的响应推断设备,其中,潜变量区域空间通过对应于所述多个响应的多个控制输入来划分,
所述多个控制输入中的控制输入包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息。
23.根据权利要求20所述的响应推断设备,其中,处理器被配置为:
通过对所述输入进行编码,来生成潜变量;
生成属于对应于潜变量的潜变量区域空间的所述多个区域中的所述区域的潜变量向量。
24.根据权利要求23所述的响应推断设备,其中,处理器被配置为:
基于表示潜变量区域空间的概率分布对多个向量进行采样;
通过使控制输入随机化来生成嵌入式控制输入,其中,控制输入包括:用于在潜变量区域空间的所述区域中生成潜变量向量的信息;
将嵌入式控制输入应用于采样的多个向量中的每个;
使用应用了嵌入式控制输入的采样的多个向量的加权和,来生成潜变量向量。
25.一种电子装置,包括:
传感器,被配置为从用户接收输入;
存储器,被配置为:存储划分为对应于多个响应的多个区域的潜变量区域空间;
处理器,被配置为:
对所述输入进行编码,以在潜变量区域空间中生成潜变量向量,
对潜变量向量进行解码,以生成与所述多个区域之中的区域对应的响应,
通过用户接口输出响应。
26.根据权利要求25所述的电子装置,其中,处理器还被配置为:
对所述输入进行编码,以生成潜变量;
将潜变量区域空间划分为对应于多个控制输入的所述多个区域;
从所述多个控制输入选择对应于潜变量的控制输入;
从潜变量区域空间的对应于所述控制输入的所述区域生成潜变量向量。
27.根据权利要求26所述的电子装置,其中,控制输入被配置为随机对应于所述多个区域中的任何一个区域。
28.根据权利要求26所述的电子装置,其中,控制输入与关键词、用户的情绪、用户的态度、用户的指示和用户的指导中的任何一个或任何组合。
29.根据权利要求26所述的电子装置,其中,处理器包括:
编码器,实现第一神经网络,以在第一神经网络的输入层接收所述输入,其中,第一神经网络的输出层与对潜变量进行建模的概率分布的平均值和方差对应;
解码器,实现第二神经网络,以在第二神经网络的输入层接收潜变量向量,其中,第二神经网络的输出层对应于所述响应。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180094770A KR20200023664A (ko) | 2018-08-14 | 2018-08-14 | 응답 추론 방법 및 장치 |
KR10-2018-0094770 | 2018-08-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825854A true CN110825854A (zh) | 2020-02-21 |
Family
ID=65991588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910261432.0A Withdrawn CN110825854A (zh) | 2018-08-14 | 2019-04-02 | 响应推断方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200057947A1 (zh) |
EP (1) | EP3611637A1 (zh) |
JP (1) | JP2020027609A (zh) |
KR (1) | KR20200023664A (zh) |
CN (1) | CN110825854A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597270A (zh) * | 2019-10-02 | 2021-04-02 | 三星电子株式会社 | 响应推断方法和设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3716150A1 (en) * | 2019-03-27 | 2020-09-30 | Nvidia Corporation | Improved image segmentation using a neural network translation model |
US11551688B1 (en) * | 2019-08-15 | 2023-01-10 | Snap Inc. | Wearable speech input-based vision to audio interpreter |
WO2023177079A1 (ko) * | 2022-03-18 | 2023-09-21 | 삼성전자주식회사 | 합성 벡터에 기반하여 사용자 발화를 처리하는 서버, 전자 장치, 및 이의 동작 방법 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358826A1 (en) * | 2013-05-31 | 2014-12-04 | Linkedln Corporation | Systems and methods for content response prediction |
US20150269931A1 (en) * | 2014-03-24 | 2015-09-24 | Google Inc. | Cluster specific speech model |
US20150286853A1 (en) * | 2014-04-08 | 2015-10-08 | Disney Enterprises, Inc. | Eye gaze driven spatio-temporal action localization |
CN106997370A (zh) * | 2015-08-07 | 2017-08-01 | 谷歌公司 | 基于作者的文本分类和转换 |
US20170230675A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Compressing images using neural networks |
CN107667362A (zh) * | 2015-05-31 | 2018-02-06 | 微软技术许可有限责任公司 | 会话响应的上下文敏感生成 |
CN107729324A (zh) * | 2016-08-10 | 2018-02-23 | 三星电子株式会社 | 基于并行处理的翻译方法和设备 |
CN108140146A (zh) * | 2015-08-19 | 2018-06-08 | D-波系统公司 | 用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法 |
CN108153913A (zh) * | 2018-01-24 | 2018-06-12 | 北京神州泰岳软件股份有限公司 | 回复信息生成模型的训练方法、回复信息生成方法及装置 |
US20180218261A1 (en) * | 2017-01-31 | 2018-08-02 | Paypal, Inc. | Fraud prediction based on partial usage data |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963782B2 (en) * | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
US10540446B2 (en) * | 2018-01-31 | 2020-01-21 | Jungle Disk, L.L.C. | Natural language generation using pinned text and multiple discriminators |
-
2018
- 2018-08-14 KR KR1020180094770A patent/KR20200023664A/ko active Search and Examination
-
2019
- 2019-02-04 US US16/266,395 patent/US20200057947A1/en not_active Abandoned
- 2019-03-26 EP EP19165145.4A patent/EP3611637A1/en not_active Ceased
- 2019-04-02 CN CN201910261432.0A patent/CN110825854A/zh not_active Withdrawn
- 2019-06-20 JP JP2019114794A patent/JP2020027609A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358826A1 (en) * | 2013-05-31 | 2014-12-04 | Linkedln Corporation | Systems and methods for content response prediction |
US20150269931A1 (en) * | 2014-03-24 | 2015-09-24 | Google Inc. | Cluster specific speech model |
US20150286853A1 (en) * | 2014-04-08 | 2015-10-08 | Disney Enterprises, Inc. | Eye gaze driven spatio-temporal action localization |
CN107667362A (zh) * | 2015-05-31 | 2018-02-06 | 微软技术许可有限责任公司 | 会话响应的上下文敏感生成 |
CN106997370A (zh) * | 2015-08-07 | 2017-08-01 | 谷歌公司 | 基于作者的文本分类和转换 |
CN108140146A (zh) * | 2015-08-19 | 2018-06-08 | D-波系统公司 | 用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法 |
US20170230675A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Compressing images using neural networks |
CN107729324A (zh) * | 2016-08-10 | 2018-02-23 | 三星电子株式会社 | 基于并行处理的翻译方法和设备 |
US20180218261A1 (en) * | 2017-01-31 | 2018-08-02 | Paypal, Inc. | Fraud prediction based on partial usage data |
CN108153913A (zh) * | 2018-01-24 | 2018-06-12 | 北京神州泰岳软件股份有限公司 | 回复信息生成模型的训练方法、回复信息生成方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597270A (zh) * | 2019-10-02 | 2021-04-02 | 三星电子株式会社 | 响应推断方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200057947A1 (en) | 2020-02-20 |
JP2020027609A (ja) | 2020-02-20 |
EP3611637A1 (en) | 2020-02-19 |
KR20200023664A (ko) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10957309B2 (en) | Neural network method and apparatus | |
CN110825854A (zh) | 响应推断方法和设备 | |
CN110268422B (zh) | 利用强化学习的设备布局优化 | |
KR102608469B1 (ko) | 자연어 생성 방법 및 장치 | |
US11947593B2 (en) | Sound categorization system | |
EP3825895A1 (en) | Method and apparatus with natural language processing | |
US11151335B2 (en) | Machine translation using attention model and hypernetwork | |
CN110612536A (zh) | 神经机器翻译的逐深度可分离卷积 | |
US20190348023A1 (en) | Device and method to personalize speech recognition model | |
US20220058433A1 (en) | Method and apparatus for training embedding vector generation model | |
CN111192576B (zh) | 解码方法、语音识别设备和系统 | |
CN112002309A (zh) | 模型训练方法和设备 | |
CN118212328A (zh) | 使用生成模型的对应于用户输入的故事视频生成 | |
WO2021145961A1 (en) | Classifying audio scene using synthetic image features | |
CN112825249B (zh) | 语音处理方法和设备 | |
US20190371301A1 (en) | Speech recognition method and apparatus | |
WO2019235103A1 (ja) | 質問生成装置、質問生成方法及びプログラム | |
EP3800574A1 (en) | Response inference method and apparatus | |
US11574190B2 (en) | Method and apparatus for determining output token | |
US20230051625A1 (en) | Method and apparatus with speech processing | |
EP3809415A1 (en) | Word embedding method and apparatus, and word search method | |
US11721323B2 (en) | Method and apparatus with speech processing | |
US11776529B2 (en) | Method and apparatus with speech processing | |
JP7041239B2 (ja) | 深層距離学習方法およびシステム | |
US11182555B2 (en) | Method and apparatus for processing sequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200221 |