CN113221933B

CN113221933B - 信息处理装置、车辆、计算机可读存储介质以及信息处理方法

Info

Publication number: CN113221933B
Application number: CN202110040937.1A
Authority: CN
Inventors: 李远超
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-02-06
Filing date: 2021-01-13
Publication date: 2024-06-28
Anticipated expiration: 2041-01-13

Abstract

本发明涉及能够推测用户的感情的信息处理装置、车辆、计算机可读存储介质以及信息处理方法。该信息处理装置具备：第1特征量信息获取部，其获取从用户的讲话语音抽取出的声学特征量矢量和语言特征量矢量；第2特征量信息获取部，其获取从用户的面部图像抽取出的图像特征量矢量；以及感情推测部，其具有已学习模型，基于来自第2注意力层的输出矢量而推测用户的感情，已学习模型具有第1注意力层和第2注意力层，上述第1注意力层将根据声学特征量矢量生成的第1矢量以及根据图像特征量矢量生成的第2矢量作为输入，上述第2注意力层将来自第1注意力层的输出矢量和根据语言特征量矢量生成的第3矢量作为输入。

Description

信息处理装置、车辆、计算机可读存储介质以及信息处理方法

【技术领域】

本发明涉及信息处理装置、车辆、计算机可读存储介质以及信息处理方法。

【背景技术】

在非专利文献1中记载有使用图像特征量、动作特征量以及语音特征量的注意力机构。在非专利文献1中记载有将图像的特征量、运动的特征量以及语音的特征量作为输入的注意力机构。在非专利文献2中记载有将语音的特征量以及文本的特征量作为输入的注意力机构。

现有技术文献

专利文献

非专利文献1：Chiori Hori,Takaaki Hori,Teng－Yok Lee,Ziming Zhang,BretHarsham,John R Hershey,Tim K Marks,and Kazuhiko Sumi,"Attention－basedmultimodal fusion for video description",Proceedings of the IEEEinternational conference on computer vision,2017年10月,p.4193－4202

非专利文献2：Haiyang Xu,Hui Zhang,Kun Han,Yun Wang,Yiping Peng,andXiangang Li,"Learning Alignment for Multimodal Emotion Recognition fromSpeech",INTERSPEECH 2019,International Speech Communication Association,2019年9月

【发明内容】

在本发明的第1方案中提供一种信息处理装置。信息处理装置具备第1特征量信息获取部，该第1特征量信息获取部获取从用户的讲话语音中抽取出的声学特征量矢量和语言特征量矢量。信息处理装置具备第2特征量信息获取部，该第2特征量信息获取部获取从用户的面部图像中抽取出的图像特征量矢量。信息处理装置具备感情推测部，该感情推测部具有已学习模型，基于第2输出矢量来推测用户的感情，所述已学习模型具有第1注意力层和第2注意力层，该第1注意力层基于声学特征量矢量和图像特征量矢量而生成第1输出矢量，该第2注意力层基于第1输出矢量和语言特征量矢量而生成第2输出矢量。

声学特征量矢量可以包括声音的音高的特征量矢量、讲话速度的特征量矢量以及语音强度的特征量矢量中的至少一个矢量。

已学习模型可以是通过机器学习而得到的神经网络模型，该机器学习将从人物的讲话语音中抽取出的声学特征量矢量以及语言特征量矢量、从人物的面部图像中抽取出的图像特征量矢量以及表示人物的感情的信息作为训练数据。

已学习模型可以具有第1神经网络层，该第1神经网络层具有第1递归型神经网络层，将声学特征量矢量作为输入，输出第1矢量。已学习模型可以具有第2神经网络层，该第2神经网络层具有第2递归型神经网络层，将图像特征量矢量作为输入，输出第2矢量。已学习模型可以具有第3神经网络层，该第3神经网络层具有第3递归型神经网络层，将语言特征量矢量作为输入，输出第3矢量。第1注意力层可以基于第1矢量和第2矢量而输出第1输出矢量。第2注意力层可以基于第1输出矢量和第3矢量而输出第2输出矢量。

第1递归型神经网络层、第2递归型神经网络层以及第3递归型神经网络层可以为GRU(Gated Recurrent Unit，门控循环单元)层或者LSTM(Long short－term memory，长短期记忆)层。

信息处理装置可以具备用于获取用户的讲话语音的语音获取部。信息处理装置可以具备用于获取用户的图像的图像获取部。信息处理装置可以具备基于由感情推测部推测出的用户的感情而控制设备的设备控制部。

设备可以为对用户输出语音的语音输出装置。设备控制部可以基于由感情推测部推测出的用户的感情，生成从语音输出装置输出的语音数据。

在本发明的第2方案中提供一种车辆。车辆具备上述信息处理装置。

在本发明的第3方案中提供一种计算机可读存储介质，存储有程序。程序使计算机作为上述信息处理装置发挥功能。

在本发明的第4方案中提供一种信息处理方法。信息处理方法包括获取从用户的讲话语音中抽取出的声学特征量矢量和语言特征量矢量的步骤。信息处理方法包括获取从用户的面部图像中抽取出的图像特征量矢量的步骤。信息处理方法具包括使用已学习模型，基于第2输出矢量来推测用户的感情的步骤，该已学习模型具有第1注意力层和第2注意力层，该第1注意力层基于声学特征量矢量和图像特征量矢量而生成第1输出矢量，该第1注意力层基于第1输出矢量和语言特征量矢量而生成第2输出矢量。

此外，上述发明的概要并未将本发明所需的特征全部列举出。另外，这些特征组的子组合也能够构成发明。

【附图说明】

图1概略地示出车辆10所具备的结构。

图2示出具备信息处理装置14、传感器16以及设备12的系统的结构。

图3概略地示出已学习模型230的结构。

图4示出与由信息处理装置14执行的信息处理方法相关的流程图。

图5示出计算机2000的例子。

附图标记说明

10车辆；12设备；14信息处理装置；16传感器；80乘客；200处理部；201声学特征量获取部；202图像特征量抽取部；203语言特征量获取部；210第1特征量信息获取部；220第2特征量信息获取部；230模型；231第1BGRU层；232第2BGRU层；233第3BGRU层；240感情推测部；241第1注意力层；242第2注意力层；244输出层；270控制部；280存储部；292麦克风；294摄像机；2000计算机；2010主控制器；2012CPU；2014RAM；2020输入/输出控制器；2022通信接口；2024闪存存储器；2026ROM；2040输入/输出芯片。

【具体实施方式】

以下，通过发明的实施方式来说明本发明，但以下的实施方式并不用于限定与权利要求书相关的发明。另外，实施方式中说明的特征的组合对于发明的解决手段来说未必全部是必需的。

图1概略地示出车辆10所具备的结构。车辆10例如为汽车等输送设备。乘客80可以为车辆10的驾驶员。乘客80可以为车辆10的驾驶员以外的人物。乘客80为“用户”的一个例子。

车辆10具备信息处理装置14、传感器16以及设备12。设备12为由信息处理装置14控制的设备。信息处理装置14推测车辆10的乘客80的感情。信息处理装置14基于推测出的乘客80的感情来控制设备12。例如，设备12为与车辆10的乘客80进行对话的设备。信息处理装置14基于乘客80的感情，控制设备12与乘客80进行对话时的对话语音的节奏、单词。

传感器16获取乘客80的信息。例如，传感器16具备用于获取乘客80的语音的麦克风和用于获取乘客80的图像信息的摄像机。信息处理装置14基于传感器16获取到的乘客80的语音信息、图像信息，推测乘客80的感情。例如，信息处理装置14使用通过机器学习生成的已学习的神经网络，基于从传感器16所获取的乘客80的语音信息中抽取出的声学特征量矢量以及语言特征量矢量和从乘客80的图像信息中的面部区域的图像抽取出的图像特征量矢量，推测乘客80的感情。

例如，在乘客80在车辆10内讲话“早上好。”的情况下，信息处理装置14获取从乘客80讲话“早上好。”时的语音信息中抽取出的声学特征量矢量以及语言特征量矢量、和从乘客80讲话“早上好。”时的图像信息中抽取出的图像特征量矢量。信息处理装置14当基于声学特征量矢量、语言特征量矢量以及图像特征量矢量得到诸如乘客80“愉快”的感情比较高的推测结果时，生成诸如“早上好。今天真是开车的好天气！”的文章的输出文本，并且生成用于说出该输出文本的欢快节奏的输出语音数据，供设备12播放。

图2示出具备信息处理装置14、传感器16以及设备12的系统的结构。传感器16具备麦克风292以及摄像机294。麦克风292为用于获取乘客80的讲话语音的语音获取部的一个例子。摄像机294为用于获取乘客80的图像的图像获取部的一个例子。麦克风292基于乘客80发出的语音而生成语音信息。摄像机294对车辆10内的乘客80进行拍摄，生成乘客80的图像信息。乘客80为乘坐于车辆10的人物。乘客80既可以为车辆10的驾驶员，也可以为车辆10的驾驶员以外的人物。

信息处理装置14具备处理部200和存储部280。处理部200例如通过包括处理器的运算处理装置实现。存储部280以具备非易失性的存储介质的方式实现。存储部280存储通过机器学习生成的已学习的神经网络的数据。处理部200使用保存于存储部280的信息进行处理。

处理部200具备第1特征量信息获取部210、第2特征量信息获取部220、感情推测部240以及控制部270。

第1特征量信息获取部210获取从乘客80的讲话语音中抽取出的声学特征量矢量和语言特征量矢量。例如，第1特征量信息获取部210从由麦克风292生成的语音信息中抽取声学特征量矢量以及语言特征量矢量。声学特征量矢量可以包括声音的音高的特征量矢量、讲话速度的特征量矢量以及语音强度的特征量矢量中的至少一个。

具体而言，第1特征量信息获取部210具备声学特征量获取部201和语言特征量获取部203。语言特征量获取部203通过语音识别将由麦克风292生成的语音信息变换为文本数据。语言特征量获取部203基于从语音信息变换得到的文本数据生成特征量矢量。例如，语言特征量获取部203可以通过将单词映射为矢量的词嵌入(word embedding)，将文本数据所包含的单词变换为矢量。语言特征量获取部203可以将该矢量生成为语言特征量矢量。

此外，第1特征量信息获取部210可以将由麦克风292生成的语音信息发送到外部的语音处理服务器，使外部的语音处理服务器执行语音识别。语言特征量获取部203可以基于从外部的语音处理服务器接收到的文本数据，生成语言特征量矢量。在外部的语音处理服务器具有抽取语言特征量矢量的功能的情况下，语言特征量获取部203也可以从外部的语音处理服务器获取语言特征量矢量。

声学特征量获取部201从由麦克风292生成的语音信息中抽取声学特征量，将抽取出的声学特征量变换为矢量形式，从而生成声学特征量矢量。声学特征量可以包括语音信号的基本频率、语音信号的强度、语音信号的各声音的持续长度等节奏性的特征量。

此外，第1特征量信息获取部210可以将由麦克风292生成的语音信息发送到外部的语音处理服务器，使外部的语音处理服务器抽取声学特征量。声学特征量获取部201可以基于从外部的语音处理服务器接收到的声学特征量，生成声学特征量矢量。

第2特征量信息获取部220获取从乘客80的面部图像中抽取出的图像特征量矢量。第2特征量信息获取部220具备图像特征量抽取部202。图像特征量抽取部202从由摄像机294获取到的图像信息中抽取图像特征量。例如，图像特征量抽取部202从由摄像机294获取到的图像信息中确定乘客80的面部的区域，从所确定的面部区域的图像信息中抽取图像特征量。图像特征量抽取部202通过将抽取出的图像特征量变换为矢量形式而生成图像特征量矢量。图像特征量可以包括LBP(Local Binary Pattern，局部二值模式)特征量、LBP－TOP特征量等。

此外，第2特征量信息获取部220可以将由摄像机294生成的图像信息发送到外部的图像处理服务器，使外部的图像处理服务器抽取图像特征量。语言特征量获取部203可以基于从外部的语音处理服务器接收到的图像特征量生成图像特征量矢量。

感情推测部240获取由第1特征量信息获取部210获取到的语言特征量矢量以及声学特征量矢量和由第2特征量信息获取部220获取到的图像特征量矢量。感情推测部240具有已学习模型230，该已学习模型230具有第1BGRU层231、第2BGRU层232、第3BGRU层233、第1注意力层241、第2注意力层242以及输出层244。已学习模型230可以为通过机器学习得到的神经网络模型，该机器学习将从人物的语音信息中抽取出的声学特征量矢量以及语言特征量矢量、从人物的面部图像中抽取出的图像特征量矢量以及表示人物的感情的信息作为训练数据。已学习模型230的数据存储于存储部280，在由处理部200推测感情的情况下被读入到感情推测部240。

第1注意力层241基于声学特征量矢量和图像特征量矢量来生成第1输出矢量V4。具体而言，第1注意力层241基于根据声学特征量矢量生成的第1矢量V1和根据面部特征量矢量生成的第2矢量V2来生成第1输出矢量V4。更具体而言，第1注意力层241是将根据声学特征量矢量生成的第1矢量V1和第2矢量V2作为输入、将第1输出矢量V4作为输出的注意力层。

第2注意力层242基于第1输出矢量V4和语言特征量矢量来生成第2输出矢量V5。具体而言，第2注意力层242基于第1输出矢量V4和根据语言特征量矢量生成的第3矢量V3来生成第2输出矢量V5。更具体而言，第2注意力层242是将第1输出矢量V4和第3矢量V3作为输入、将第2输出矢量V5作为输出的注意力层。此外，能够采用如下方式等：在第1注意力层241与第2注意力层242之间设置对第1输出矢量V4进行任意运算的运算单元，第2注意力层242输入该运算单元的输出和第3矢量V3。

第1BGRU层231将声学特征量矢量作为输入，输出被输入到第1注意力层241的第1矢量V1。第2BGRU层232将图像特征量矢量作为输入，输出被输入到第1注意力层241的第2矢量V2。第3BGRU层233将语言特征量矢量作为输入，输出被输入到第2注意力层242的第3矢量。此外，BGRU层为双向GRU(Gated Recurrent Unit，门控循环单元)。BGRU层为GRU层的一种。GRU层为递归型神经网络层的一个例子。此外，可以不应用BGRU层，而应用LSTM(Longshort－term memory，长短期记忆)层。

此外，第1BGRU层231为第1神经网络层的一个例子。第1神经网络层也可以具备进行除了由第1BGRU层231进行的运算以外的任意运算的运算单元。第2BGRU层232为第2神经网络层的一个例子。第2神经网络层也可以具备进行除了由第2BGRU层232进行的运算以外的任意运算的运算单元。第3BGRU层233为第3神经网络层的一个例子。第3神经网络层也可以具备进行除了由第3BGRU层233进行的运算以外的任意运算的运算单元。

输出层244基于来自第2注意力层242的第2输出矢量V5，生成表示感情的信息。输出层244可以输出表示预先决定的多个种类的感情各自的概率的信息。例如，输出层244可以具有池化层、全连接层、Softmax层等，输出表示预先决定的多个种类的感情各自的概率的信息。这样，感情推测部240基于第2输出矢量V5推测乘客80的感情。感情推测部240将输出层244的输出作为表示乘客80的感情的信息而输出到控制部270。控制部270基于由感情推测部240推测出的乘客80的感情来控制设备12。

设备12可以为对乘客80输出语音的语音输出装置。控制部270可以基于由感情推测部240推测出的乘客80的感情，生成从设备12输出的语音数据。例如，控制部270可以生成与乘客80的感情相应的节奏的语音数据，供设备12输出。控制部270可以基于乘客80的感情来生成使设备12讲话的文本数据，并使设备12输出。例如，在乘客80具有愉快的感情的可能性高的情况下，控制部270可以生成高音分量大的语音数据，供设备12输出。在乘客80具有惊讶的感情的可能性高的情况下，控制部270可以生成平静的节奏的语音数据并输出到设备12。另外，控制部270也可以使设备12输出基于乘客80的感情而决定的音乐。设备12可以为输出图像的图像输出装置。控制部270例如可以生成根据乘客80的感情决定的图像并输出到设备12。

此外，设备12可以为控制车辆10的行驶的设备。控制部270也可以基于由感情推测部240推测出的乘客80的感情，对用于控制车辆10的行驶的设备12进行控制。例如，控制部270可以在判断为车辆10为非自动驾驶过程中、且乘客80具有不安的感情的可能性比预先决定的值高的情况下，利用平静的语音播放将车辆10的驾驶模式从手动驾驶切换到自动驾驶模式的意思，并且对控制车辆10的行驶的设备12指示将驾驶模式切换为自动驾驶模式。存储部280可以以与表示乘客80的感情的信息对应起来的方式存储表示针对设备12的控制内容的信息。控制部270可以基于乘客80的感情，依照存储于存储部280的控制内容来控制设备12。

在人表达感情时，其感情在表露于人发出的声音之前就表露于面部的表情等的情况较多。例如，面部表露出感情的时间比语音中表露出感情的时间提前约一百毫秒的情况较多。另外，在人物进行对话时，例如，只要存在用带有肯定感情的声色讲出否定言词的情况，则也存在用否定感情的声色讲出肯定言词的情况。这样，人物有时会讲出与所带有的感情相反内容的言词。

在感情推测部240中，首先，第1注意力层241对基于图像特征量矢量的第1矢量与基于声学特征量矢量的第2矢量的组进行处理。由此，能够基于关联性强的图像特征量矢量与声学特征量矢量的组合而生成输出矢量。另外，能够根据与基于声学特征量矢量的第2矢量的关联性的强弱对基于图像特征量矢量的第1矢量进行对准。由此，能够生成考虑了在面部表露出感情的定时与在语音中表露出感情的定时之间的偏离的输出矢量。然后，第2注意力层242对第1注意力层241的输出矢量和基于语言特征量矢量的第3矢量进行处理。由此，能够将人发出的言词的内容以某种程度反映到第2注意力层242的输出矢量。因此，例如即使在人物发出与所带有的感情相反内容的言词的情况下，能够更具有鲁棒性地推测人物的感情的可能性提高。

图3概略地示出已学习模型230的结构。声学特征量矢量的集合[a₁，a₂，…a_M]被输入到第1BGRU层231。在此，将i设为1至M的整数，a_i为从通过按照预先决定的时间划分语音数据而得到的多个语音帧中的第i个语音帧抽取出的声学特征量矢量。M为作为输入对象的语音帧的个数。

图像特征量矢量的集合[f₁，f₂，…f_P]被输入到第2BGRU层232。在此，将j设为1至P的整数，f_j为从由摄像机294生成的动态图像数据信息所包含的多个图像帧中的第j个图像帧抽取出的图像特征量矢量。P为作为输入对象的图像帧的个数。

语言特征量矢量的集合[l₁，l₂，…l_N]被输入到第3BGRU层233。在此，将k设为从1至N的整数，l_k为通过将讲话内容的文本所包含的多个单词中的第k个单词变换为矢量而得到的语言特征量矢量。N为作为输入对象的单词的个数。

第1BGRU层231、第2BGRU层232以及第3BGRU层233进行通过以下的式(1)、式(2)以及式(3)表示的运算。

【式1】

在式(1)～(3)中，x_t表示在时刻t分别输入到第1BGRU层231、第2BGRU层232以及第3BGRU层233的特征量矢量。具体而言，第1BGRU层231中的x_t为a_i，第2BGRU层232中的x_t为f_j，第3BGRU层233中的x_t为l_k。式(1)～(3)的h_t为时刻t下的各GRU的隐藏状态矢量(Hiddenstate vector)。

此外，式(1)～(3)中的x_t以及h_t所附带的矢量的方向用于表示是BGRU层中的正向GRU的信息还是为反向GRU的信息。右向矢量表示正向GRU的输入矢量或者隐藏状态矢量，左向矢量表示反向GRU的输入矢量或者隐藏状态矢量。另外，式(3)的右边表示将正向GRU的隐藏状态矢量与反向GRU的隐藏状态矢量进行连结。

第1注意力层241进行通过以下的式(4)、式(5)以及式(6)表示的运算。

【式2】

在式(4)～(6)中，ω^T、W、U以及b为通过机器学习决定的参数。h_i ^a表示从第1BGRU层231输出的第i个隐藏状态矢量。h_j ^f表示从第2BGRU层232输出的第j个隐藏状态矢量。e_i，j为根据将h_i ^a以及h_j ^f的分量作为自变量的得分函数而计算的对准得分。式(4)为作为得分函数而应用了tanh函数的公式。α_i，j为向针对第i个输出矢量的h_j ^f的注意力的权重系数。

第2注意力层242进行通过以下的式(7)、式(8)以及式(9)表示的运算。

【式3】

在式(7)～(9)中，ω’^T、W’、U’以及b’为通过机器学习决定的参数。h_i表示第1注意力层241的第i个输出矢量。h_k ^l表示从第3BGRU层233输出的第k个隐藏状态矢量。e’_i，k为根据将h_i以及h_k ^l的分量作为自变量的得分函数而计算的对准得分。式(7)为作为得分函数而应用了tanh函数的公式。α’_i，k为向针对第i个输出矢量的h_k ^l的注意力的权重系数。

输出层244基于第2注意力层242的第5输出矢量h’_i，输出表示预先决定的多个种类的感情各自的概率的信息。输出层244可以包括池化层、全连接层、Softmax层等，并包括神经网络。输出层244可以包括神经网络，该神经网络具有与预先决定为推测对象的多个感情的种类对应的输出单元。

图4示出与信息处理装置14执行的信息处理方法相关的流程图。在S402中，声学特征量获取部201基于从麦克风292输出的语音信息获取声学特征量矢量a_i的集合。另外，语言特征量获取部203基于从麦克风292输出的语音信息获取语言特征量矢量l_k的集合。在S404中，图像特征量抽取部202从由摄像机294输出的图像信息获取图像特征量矢量f_j的集合。S402以及S404的处理可以并行进行。

在S406中，第1BGRU层231根据声学特征量矢量a_i的集合而计算第1矢量h_i ^a的集合。在S408中，第3BGRU层233根据语言特征量矢量l_k的集合而计算第3矢量h_k ^l的集合。在S410中，第2BGRU层232根据图像特征量矢量f_j的集合而计算第2矢量h_j ^f的集合。

在S412中，第1注意力层241根据第1矢量h_i ^a的集合以及第2矢量h_j ^f的集合而计算输出矢量h_i的集合。在S414中，第2注意力层242根据输出矢量h_i的集合以及第3矢量h_k ^l的集合而计算输出矢量h’_i的集合。

在S416中，感情推测部240基于输出矢量h’_i的集合而推测乘客80的感情。例如，输出层244可以将输出矢量h’_i的集合作为输入，生成与预先决定的多个感情的种类对应的输出值。例如，输出层244可以生成表示多个种类的感情各自的概率的信息，作为输出值。感情推测部240可以将概率最高的种类的感情推测为乘客80的感情。感情推测部240可以将概率比预先决定的值高的多个种类的感情推测为乘客80的感情。在S418中，控制部270基于由感情推测部240推测出的乘客80的感情而控制设备12。例如，控制部270生成与乘客80的对话用的语音数据，使作为语音输出装置的设备12播放。

此外，处理部200使用从传感器16逐次输出的语音信息以及图像信息，逐次重复执行S402至S418所示的处理。

如以上说明的那样，根据信息处理装置14，第1注意力层241对基于图像特征量矢量的第2矢量与基于声学特征量矢量的第1矢量的组进行处理，第2注意力层242对第1注意力层241的输出矢量和基于语言特征量矢量的第3矢量进行处理。由此，能够更适当地推测乘客80的感情。

此外，车辆10为输送设备的一个例子。输送设备除了包括乘用车、巴士等汽车之外，还包括电车、船舶、飞机等。输送设备为移动体的一个例子。

图5示出能够对本发明的多个实施方式整体或者部分具体化的计算机2000的例子。安装于计算机2000的程序能够使计算机2000执行与作为实施方式的信息处理装置14等装置或者该装置的各部分发挥功能的、该装置或者该装置的各部分相关联的操作，以及/或者执行实施方式的过程或者该过程的步骤。这样的程序可以为了使计算机2000执行与本说明书所记载的处理次序以及框图的块中的几个或者全部关联起来的特定的操作而由CPU2012执行。

本实施方式的计算机2000包括CPU2012以及RAM2014，它们通过主控制器2010相互连接。计算机2000还包括ROM2026、闪存存储器2024、通信接口2022以及输入/输出芯片2040。ROM2026、闪存存储器2024、通信接口2022以及输入/输出芯片2040经由输入/输出控制器2020连接于主控制器2010。

CPU2012依照保存于ROM2026以及RAM2014内的程序进行动作，由此控制各单元。

通信接口2022经由网络而与其它电子器件进行通信。闪存存储器2024保存由计算机2000内的CPU2012使用的程序以及数据。ROM2026保存在激活时由计算机2000执行的启动程序等、以及/或者依赖于计算机2000的硬件的程序。输入/输出芯片2040还可以经由串行端口、并行端口、键盘端口、鼠标端口、监视器端口、USB端口、HDMI(注册商标)端口等输入/输出端口将键盘、鼠标以及监视器等各种输入/输出单元连接于输入/输出控制器2020。

程序经由诸如CD－ROM、DVD－ROM或者存储卡的计算机可读介质或者网络提供。RAM2014、ROM2026或者闪存存储器2024为计算机可读介质的例子。程序安装于闪存存储器2024、RAM2014或者ROM2026，由CPU2012执行。记述于这些程序内的信息处理被计算机2000读取，实现程序与上述各种类型的硬件资源之间的协作。装置或者方法可以通过使用计算机2000实现信息的操作或者处理来构成。

例如，当在计算机2000以及外部器件间执行通信的情况下，CPU2012可以执行被载入到RAM2014的通信程序，基于记述于通信程序的处理对通信接口2022发出通信处理的指令。通信接口2022在CPU2012的控制下，读取在诸如RAM2014以及闪存存储器2024的记录介质内提供的发送缓冲处理区域中保存的发送数据，将读取到的发送数据发送到网络，将从网络接收到的接收数据写入到在记录介质上提供的接收缓冲处理区域等。

另外，CPU2012可以以将诸如闪存存储器2024等的记录介质所保存的文件或者数据库的全部或者所需的部分读取到RAM2014中的方式，对RAM2014上的数据执行各种种类的处理。接下来，CPU2012将处理后的数据写回到记录介质。

可以将诸如各种类型的程序、数据、表格以及数据库的各种类型的信息保存于记录介质，并执行信息处理。CPU2012可以对从RAM2014读取的数据执行各种种类的处理，并将结果写回到RAM2014，上述处理包括记载于本说明书且由程序的指令序列指定的各种种类的操作、信息处理、条件判断、条件分支、无条件分支、信息的检索/置换等。另外，CPU2012可以检索记录介质内的文件、数据库等中的信息。例如，在记录介质内保存有分别具有与第2属性的属性值关联起来的第1属性的属性值的多个条目的情况下，CPU2012可以从该多个条目之中检索被指定第1属性的属性值的、与条件一致的条目，读取保存于该条目内的第2属性的属性值，由此获取与满足预先决定的条件的第1属性关联起来的第2属性的属性值。

以上说明的程序或者软件模块可以保存在计算机2000上或者计算机2000附近的计算机可读介质。能够将诸如在与专用通信网络或者因特网连接的服务器系统内提供的硬盘或者RAM的记录介质用作计算机可读介质。可以经由网络将保存于计算机可读介质的程序提供给计算机2000。

安装于计算机2000、使计算机2000作为信息处理装置14发挥功能的程序可以在CPU2012等中工作，使计算机2000作为信息处理装置14的各部分分别发挥功能。记述于这些程序的信息处理被读入到计算机2000，从而作为信息处理装置14的各部分发挥功能，该信息处理装置14是软件与上述各种硬件资源协作的具体手段。然后，利用这些具体手段来实现与本实施方式中的计算机2000的使用目的相应的信息的运算或者加工，从而构建与使用目的相应的特有的信息处理装置14。

参照框图等，说明了各种实施方式。在框图中，各块可以表示(1)执行操作的过程的步骤或者(2)具有执行操作的作用的装置的各部分。特定的步骤以及各部分可以利用专用电路、与保存于计算机可读介质上的计算机可读指令一起提供的可编程电路、以及/或者与保存于计算机可读介质上的计算机可读指令一起提供的处理器来安装。专用电路既可以包括数字以及/或者模拟硬件电路，也可以包括集成电路(IC)以及/或者分立电路。可编程电路可以包括能够重新构成的硬件电路，该能够重新构成的硬件电路包括诸如逻辑AND、逻辑OR、逻辑XOR、逻辑NAND、逻辑NOR以及其它逻辑操作、触发器、寄存器、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)等的存储器要素等。

计算机可读介质可以包括能够保存由适当的器件执行的指令的任意的有形的器件，其结果，具有保存于此处的指令的计算机可读介质构成产品的至少一部分，该产品为了实现用于执行通过处理次序或者框图指定的操作的手段而包含能够执行的指令。作为计算机可读介质的例子，可以包括电子存储介质、磁存储介质、光存储介质、电磁存储介质、半导体存储介质等。作为计算机可读介质的更具体的例子，可以包括软盘(Floppy(注册商标)disk)、软磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或者闪存存储器)、电可擦可编程只读存储器(EEPROM)、静态随机访问存储器(SRAM)、压缩光盘只读存储器(CD－ROM)、数字多功能光盘(DVD)、蓝光(RTM)光盘、记忆棒、集成电路卡等。

计算机可读指令可以包含通过1种程序设计语言或者多种程序设计语言的任意的组合记述的源代码或者目标代码中的任意代码，程序设计语言包含：汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设定数据、或者诸如Smalltalk(注册商标)、JAVA(注册商标)、C++等的面向对象程序设计语言以及诸如“C”程序设计语言或同样的程序设计语言的以往的过程型程序设计语言。

计算机可读指令可以以本地或者经由局域网(LAN)、诸如因特网等的广域网络(WAN)的方式提供给通用计算机、特殊目的的计算机或者能够进行其它编程的数据处理装置的处理器或者可编程电路，为了实现用于执行通过所说明的处理次序或者框图指定的操作的手段而执行计算机可读指令。作为处理器的例子，包括计算机处理器、处理单元、微型处理器、数字信号处理器、控制器、微型控制器等。

以上，使用实施方式说明了本发明，但本发明的技术范围不限定于上述实施方式所记载的范围。对于本领域技术人员来说，显然能够对上述实施方式施加多种变更或者改良。根据专利权利要求书的记载，显然施加该各种变更或者改良的方式也能够包含于本发明的技术范围。

应留意的是，关于专利权利要求书、说明书以及附图中示出的装置、系统、程序以及方法中的动作、次序、阶段以及步骤等各处理的执行顺序，只要未特别明示为“之前”、“事前”等、且之后的处理不使用之前的处理的输出，就能够按照任意的顺序实现。关于专利权利要求书、说明书以及附图中的动作流程方面，虽然为了方便而使用了“首先，”、“接下来，”等进行了说明，也并不意味着必须按照该顺序实施。

Claims

1.一种信息处理装置，具备：

第1特征量信息获取部，获取从用户的讲话语音抽取出的声学特征量矢量和语言特征量矢量；

第2特征量信息获取部，获取从所述用户的面部图像抽取出的图像特征量矢量；以及

感情推测部，具有已学习模型，基于第2输出矢量而推测所述用户的感情，所述已学习模型具有第1注意力层和第2注意力层，该第1注意力层基于所述声学特征量矢量和所述图像特征量矢量而生成第1输出矢量，该第2注意力层基于所述第1输出矢量和所述语言特征量矢量而生成所述第2输出矢量；

其中，所述声学特征量矢量由从所述用户的讲话语音得到的M个语音帧中分别提取的M个特征量矢量构成；所述图像特征量矢量由从拍摄所述用户的面部的动态图像数据得到的P个图像帧中分别提取的P个特征量矢量构成；

所述第1注意力层将由从所述声学特征量矢量生成的M个特征量矢量构成的第1矢量和由从所述图像特征量矢量生成的P个特征量矢量构成的第2矢量作为输入；基于所述第1矢量和所述第2矢量计算构成所述第2矢量的P个矢量的各自的注意力权重；通过所述注意力权重，对构成所述第2矢量的所述P个矢量进行加权，计算得到构成所述第1输出矢量的M个矢量。

2.根据权利要求1所述的信息处理装置，其中，

所述声学特征量矢量包括声音的音高的特征量矢量、讲话速度的特征量矢量以及语音强度的特征量矢量中的至少一个。

3.根据权利要求1或者2所述的信息处理装置，其中，

所述已学习模型是通过机器学习而得到的神经网络模型，该机器学习将从人物的讲话语音抽取出的声学特征量矢量以及语言特征量矢量、从人物的面部图像抽取出的图像特征量矢量以及表示人物的感情的信息作为训练数据。

4.根据权利要求3所述的信息处理装置，其中，

所述已学习模型具有：

第1神经网络层，具有第1递归型神经网络层，将所述声学特征量矢量作为输入，输出第1矢量；

第2神经网络层，具有第2递归型神经网络层，将所述图像特征量矢量作为输入，输出第2矢量；以及

第3神经网络层，具有第3递归型神经网络层，将所述语言特征量矢量作为输入，输出第3矢量，

所述第1注意力层基于所述第1矢量和所述第2矢量而输出所述第1输出矢量，

所述第2注意力层基于所述第1输出矢量和所述第3矢量而输出所述第2输出矢量。

5.根据权利要求4所述的信息处理装置，其中，

所述第1递归型神经网络层、所述第2递归型神经网络层以及所述第3递归型神经网络层为门控循环单元层或者长短期记忆层。

6.根据权利要求1或者2所述的信息处理装置，其中，所述信息处理装置还具备：

语音获取部，获取所述用户的讲话语音；

图像获取部，获取所述用户的图像；以及

设备控制部，基于由所述感情推测部推测出的所述用户的感情而控制设备。

7.根据权利要求6所述的信息处理装置，其中，

所述设备为对所述用户输出语音的语音输出装置，

所述设备控制部基于由所述感情推测部推测出的所述用户的感情，生成从所述语音输出装置输出的语音数据。

8.一种车辆，其中，

所述车辆具备权利要求1至7中的任意一项所述的信息处理装置。

9.一种计算机可读存储介质，其中，

所述计算机可读存储介质存储有用于使计算机作为权利要求1至7中的任意一项所述的信息处理装置发挥功能的程序。

10.一种信息处理方法，包括：

获取从用户的讲话语音抽取出的声学特征量矢量和语言特征量矢量的步骤；

获取从所述用户的面部图像抽取出的图像特征量矢量的步骤；以及

使用已学习模型，基于第2输出矢量而推测所述用户的感情的步骤，所述已学习模型具有第1注意力层和第2注意力层，该第1注意力层基于所述声学特征量矢量以及所述图像特征量矢量而生成第1输出矢量，该第2注意力层基于所述第1输出矢量以及所述语言特征量矢量而生成第2输出矢量；