CN104838339B - 便携终端装置以及信息处理系统 - Google Patents

便携终端装置以及信息处理系统 Download PDF

Info

Publication number
CN104838339B
CN104838339B CN201380064683.0A CN201380064683A CN104838339B CN 104838339 B CN104838339 B CN 104838339B CN 201380064683 A CN201380064683 A CN 201380064683A CN 104838339 B CN104838339 B CN 104838339B
Authority
CN
China
Prior art keywords
lip
operator
voice
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380064683.0A
Other languages
English (en)
Other versions
CN104838339A (zh
Inventor
铃木基之
西岛英男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxell Ltd
Original Assignee
Maxell Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maxell Ltd filed Critical Maxell Ltd
Publication of CN104838339A publication Critical patent/CN104838339A/zh
Application granted granted Critical
Publication of CN104838339B publication Critical patent/CN104838339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

具备:存储部,存储嘴唇动作辨别数据;摄像部,对包含操作者的至少嘴唇部分的影像进行摄影;嘴唇动作辨别部,通过比较从摄像部得到的操作者的嘴唇部分的动作数据与嘴唇动作辨别数据,来辨别要执行的操作;以及控制部,依照嘴唇动作辨别部,进行能够执行的操作。

Description

便携终端装置以及信息处理系统
技术领域
本发明涉及便携终端装置以及信息处理系统。
背景技术
近年来,在移动电话、汽车导航系统、家庭AV设备等终端中,能够不使用键盘、鼠标等操作部件,而通过辨别语音来容易地进行操作的用户界面正受到关注。
现有技术文献
专利文献1:日本特开2007-41089公报
发明内容
但是,在这些通过语音辨别来进行操作的终端的情况下,产生在图书馆那样的不适宜发出声音的环境、噪音大的环境中无法操作这样的问题。
本发明的目的在于,考虑上述课题,提供在不适宜发出声音的环境、噪音大的环境中,使用便利性也更好的便携终端装置以及信息处理系统。
作为用于解决上述课题的手段,例如采用权利要求书中记载的结构即可。如果列举一个例子的话,采用如下结构,具备:存储部,存储嘴唇动作辨别数据;摄像部,对包含操作者的至少嘴唇部分的影像进行摄影;嘴唇动作辨别部,通过对从摄像部得到的操作者的嘴唇部分的动作数据与嘴唇动作辨别数据进行比较,来辨别要执行的操作;以及控制部,依照嘴唇动作辨别部,进行能够执行的操作。
通过使用本发明的技术,能够提供在不适宜发出声音的环境、噪音大的环境中,使用便利性也更好的便携终端装置以及信息处理系统。
附图说明
图1是示出本发明的实施例的便携终端装置的结构例的框图。
图2是通过语音辨别或者嘴唇动作辨别来进行便携终端的操作的处理的流程图的例子。
图3是示出与便携终端的状态对应的操作选项表格的例子的图。
图4是说明操作决定处理的流程图的例子。
图5是说明获取操作者的语音以及影像的处理的流程图的例子。
图6是示出获取操作者的语音以及影像的处理中的便携终端的显示例的图。
图7是说明语音辨别操作决定处理的流程图的例子。
图8是说明嘴唇动作辨别操作决定处理的流程图的例子。
图9是示出嘴唇的大小的定义的例子的图。
图10是示出嘴唇动作辨别操作决定处理中的嘴唇动作辨别数据与取得嘴唇动作数据的例子的图。
图11是说明嘴唇动作辨别数据更新处理的例子的图。
图12是说明操作对象决定处理的流程图的例子。
图13是说明嘴唇动作辨别类型决定处理的流程图的例子。
图14是示出与操作对应的类型选项表格的例子的图。
图15是说明语音辨别类型决定处理的流程图的例子。
图16是说明嘴唇动作辨别操作对象决定处理的流程图的例子。
图17是说明基于嘴唇动作辨别的操作对象选择处理的流程图的例子。
图18是示出操作对象选择处理中的便携终端的显示例的图。
图19是示出嘴唇动作辨别操作对象决定处理中的嘴唇动作辨别数据与嘴唇动作取得数据的例子的图。
图20是说明语音辨别操作对象决定处理的流程图的例子。
图21是说明嘴唇动作辨别操作决定处理的流程图的第2例。
图22是示出对应于操作选项的元音序列的表格的例。
图23是说明音节元音序列变换处理的流程图的例子。
图24是示出与元音对应的嘴唇形状的一个例子的图。
图25是示出与元音对应的嘴唇的大小的表格的例子的图。
图26是说明获取语音以及影像的处理的流程图的第2例。
图27是示出获取语音以及影像的处理中的显示例的图。
图28是示出本发明的第2实施例的便携终端装置的结构例的框图。
图29是说明本发明的实施例2的操作决定处理的流程图的例子。
图30是示出本发明的第3实施例的便携终端装置的结构例的框图。
图31是示出本发明的第3实施例的由便携终端装置与语音/嘴唇动作辨别服务器构成的信息处理系统的概略结构的框图。
图32(a)是示出本发明的信息处理系统的处理的一个例子的流程图。
图32(b)是示出本发明的信息处理系统的处理的一个例子的流程图。
图33是示出语音/嘴唇动作辨别服务器中的语音/嘴唇动作辨别处理的一个例子的流程图。
图34是示出语音/嘴唇动作辨别服务器中的语音辨别处理的一个例子的流程图。
图35是示出语音/嘴唇动作辨别服务器中的嘴唇动作辨别处理的一个例子的流程图。
符号说明
100:便携终端装置,101:控制部,102:语音辨别部,103:嘴唇动作辨别部,104:存储器,105:存储设备,110:基站通信部,111:无线通信部,112:话筒,113:语音处理部,114:扬声器,115:外部语音输出部,116:触摸面板,117:操作输入部,118:显示部,119:图像处理部,120:摄像部,122:操作者辨别部,400:基站,500:无线路由器,600:外部网络,700:语音/嘴唇动作辨别服务器,701:控制部,702:语音辨别部,703:嘴唇动作辨别部,705:存储设备,706:通信部
具体实施方式
以下,使用附图来说明本发明的实施方式的例子。
实施例1
图1是示出本发明的一实施例的便携终端装置100的内部结构例的框图。
在这里,以智能手机的情况为例来说明。便携终端100具备控制部101、语音辨别部102、嘴唇动作辨别部103、存储器104、存储设备105、GPS(Global Positioning System,全球定位系统)接收部106、地磁传感器107、加速度传感器108、陀螺传感器109、基站通信部110、无线通信部111、话筒112、语音处理部113、扬声器114、语音输出部115、触摸面板116、操作输入部117、显示部118、图像处理部119、摄像部120以及输入输出I/F121,分别与总线150相互连接。
基站通信部110是与W-CDMA(Wideband Code Division Multiple Access,宽带码分多址)、GSM(注册商标)(Global System for Mobile communications,全球移动通信系统)等基站400进行远距离的无线通信的通信接口。由此,通过基站500而与外部网络600连接,也能够进行信息的发送接收。
控制部101由CPU(Central Processing Unit,中央处理单元)等构成,通过执行存储器104中存储了的程序,从而控制各结构部,进行各种处理。
语音辨别部102辨别从话筒112经由语音处理部113而获取到的操作者的语音,辨别由语音指示的操作。另外,嘴唇动作辨别部103辨别从摄像部120经由图像处理部119而获取到的包含操作者的嘴唇的影像,辨别由操作者的嘴唇的动作指示的操作。
控制部101选择根据从操作者的语音辨别出的结果来执行操作,还是根据从操作者的嘴唇的动作辨别出的结果来执行操作,根据所选择的结果来执行操作。
存储器104是闪存存储器等,存储了程序、数据等。为了通过上述的语音辨别部102、嘴唇动作辨别部103进行辨别而使用的数据保存在存储器104的规定的区域104a、104b中。
进而,便携终端100具备存储卡等存储设备105,在存储设备105中还能够保存电子邮件地址、音乐、视频、照片的数据等。
关于存储器104或者存储设备105中存储的程序或者数据,通过基站通信部110与基站进行无线通信,从未图示的外部服务器等下载,从而能够随时更新/追加。另外,也能够经由输入输出I/F121而与个人计算机等外部设备300连接,对数据、程序等进行更新、追加。
GPS接收部106接收来自位于天空的GPS卫星的信号。由此,能够检测便携终端100的当前位置。
地磁传感器107是检测便携终端100所朝向的方向的传感器。
加速度传感器108是检测便携终端100的加速度的传感器,陀螺传感器109是检测便携终端100的角速度的传感器。通过它们,能够详细地检测便携终端100的倾斜、动作。
无线通信部111是进行基于IEEE802.11a/b/n等的无线LAN的无线通信的通信接口,能够经由无线路由器500而与外部网络600连接。
话筒112输入外部的语音,扬声器111对外部输出语音。外部语音输出部115连接耳机200而输出语音。被输入输出的语音通过语音处理部113来进行语音处理。
触摸面板116由操作输入部117和显示部118构成。显示部118显示LCD等影像、图像,在其显示面中具有触摸板那样的操作输入部117。
操作输入部117是例如静电电容式等触摸板,作为操作输入,检测由手指、触摸笔等实施的接触操作(以下,称为触摸)。
摄像部120是相机等。显示部118中显示的影像、从摄像部120输入了的影像通过图像处理部119来处理。
输入输出I/F121是例如USB(Universal Serial Bus,通用串行总线)等,是与外部设备300进行数据的发送接收的接口。
接着,在图2中示出在便携终端装置100中通过语音辨别或者嘴唇动作辨别来执行操作的控制部101的处理的流程图的例子。
在图2中,首先从根据便携终端装置100的状态而能够执行的操作的选项中,决定进行什么样的操作(S201)。在图3中示出与便携终端装置100的状态对应的能够执行的操作的表格的例子。例如,在显示主页画面的状态下,“音乐播放”、“电子邮件”等成为操作选项,在播放音乐的状态下,“停止”、“前跳”等成为操作选项。接着,根据是否需要选择进行操作的对象,进行分支处理(S202)。例如,在作为操作而进行“音乐播放”的情况下,需要进行如播放什么歌曲那样的对进行操作(音乐播放等)的对象(歌曲等)的选择。另外,在作为音乐播放中的操作而进行“停止”的情况下,不需要选择进行操作(停止等)的对象。在存在操作对象的选择的情况下(“是”),进行决定操作对象的处理S203,针对所选择的操作对象(例如歌曲),执行操作(例如音乐播放)(S204)。当在分支处理S202中没有操作对象的选择的情况下(“否”),执行操作(例如停止)。与图3所示的便携终端装置的状态相应的操作选项的表格数据在存储器区域104c中存储。图4是示出操作决定处理S201的一个例子的流程图。
在图4中,首先从话筒112经由语音处理部113而获取语音,从摄像部120经由图像处理部119而获取包含操作者的至少嘴唇部分的影像(S401)。接着,由语音辨别部102进行语音辨别操作决定处理S402,由嘴唇动作辨别部103中进行嘴唇动作辨别操作决定处理S403。在分支处理S404中,根据语音辨别标记来判断在语音辨别操作决定处理S402中语音辨别是否成功。在语音辨别成功了的情况下(“是”),根据在语音辨别操作决定处理S402中辨别出的结果,决定进行什么样的操作(S405)。接着,在分支处理406中,根据嘴唇检测标记判断是否在嘴唇部分不从摄影范围偏离的情况下进行影像的获取,嘴唇动作数据的取得是否成功。在嘴唇动作数据的取得成功了的情况下(“是”),与语音辨别结果对应地更新存储器区域104b的嘴唇动作辨别数据(S407),解除安静模式(S408)而结束处理。在安静模式解除之后的操作中,进行基于来自扬声器114(或者在连接了耳机200的情况下,经由外部语音输出部115而来自耳机)的语音的操作指导、基于声音的来电指引等。另一方面,当在分支处理S406中根据嘴唇检测标记判断为嘴唇动作数据的取得失败了的情况下(“否”),不更新存储器区域104b的嘴唇动作辨别数据,而解除安静模式(S408)并结束处理。
当在分支处理S404中根据语音辨别标记判断为语音辨别失败了的情况下(“否”),在分支处理409中根据嘴唇动作辨别标记,判断在嘴唇动作辨别操作决定处理S403中辨别是否成功。在嘴唇动作辨别成功了的情况下(“是”),根据在嘴唇动作辨别操作决定处理S403中辨别出的结果,决定进行什么样的操作(S410),设定安静模式(S411)而结束处理。在安静模式下,将来自扬声器114的输出设为断开,进行无语音的利用画面显示的操作指导或者来电指引等。另一方面,当在分支处理S409中根据嘴唇动作辨别标记判断为嘴唇动作辨别失败了的情况下(“否”),再次回到获取语音以及影像的处理(S401)。
通过以上的处理,在语音辨别操作决定处理成功了的情况下,依照语音辨别结果来决定操作,在语音辨别操作决定处理失败而嘴唇动作辨别操作决定处理成功了的情况下,依照嘴唇动作辨别来决定操作。另外,在语音辨别成功且嘴唇动作数据的取得成功了的情况下,进行存储器区域104b的嘴唇动作辨别数据的更新。
如以上所说明的那样,当在由于人多拥挤等而噪音大的环境、图书馆等不适合发出声音的环境中无法进行语音辨别操作决定处理的情况下,通过进行嘴唇动作辨别操作决定处理,也能够决定进行什么样的操作。另外,安静模式的设定/解除能够通过语音辨别以及嘴唇动作辨别的处理来自动地进行。
图5是获取语音以及包含嘴唇部分的影像的处理S401的一个例子的流程图。
在图5中,首先判断语音以及影像的获取开始(S501)。作为获取开始的判断,例如根据图6所示的便携终端装置100的触摸面板116的规定的部位M是否被触摸到来进行判断。如果判断为规定的部位M被触摸到(“是”),则开始语音以及嘴唇部分的影像的获取(S502),并且将所获取到的影像显示于便携终端装置100的显示部118的规定的部位W(S503)。根据通过嘴唇动作检测部103获取到的影像,来检测嘴唇部分是否未从摄影范围偏离(S504)。在分支处理S505中,根据嘴唇检测结果进行分支处理,如图6(a)所示,在嘴唇部分未从摄影范围偏离(“是”)的情况下,例如将显示部118的规定的部位W的显示框设为蓝色(S506)。如图6(b)所示,在判断为嘴唇部分从摄影范围偏离了(“否”)的情况下,例如将显示部118的规定的部位W的显示框设为红色(S507)。在分支处理S508中,判断语音以及影像的获取结束。作为获取结束的判断,根据便携终端装置100的触摸面板116的规定的部位M是否再次被触摸到来进行判断。在判断为规定的部位M未被触摸到(“否”)的情况下,回到S502,继续语音以及影像的获取。如果判断为规定的部位M被触摸到(“是”),则结束语音以及嘴唇部分的影像的获取(S509),结束处理。
通过以上的处理,来进行语音以及嘴唇部分的影像的获取。另外,根据所获取到的影像的显示以及显示框的颜色,能够容易地判断嘴唇部分是否从摄影范围偏离了,操作者能够修正摄影位置。此外,在这里,作为向操作者通知嘴唇部分的影像是否从摄影范围偏离的方法,使显示框的颜色改变,但也可以通过其他显示方法来通知。
接着,在图7中示出语音辨别部102中的语音辨别操作决定处理S402的流程图的一个例子。
在图7中,首先进行语音分析,提取输入语音的特征参数的时间序列图案(具体来说,频谱、倒谱的时间序列)(S701)。接着,计算与作为基于HMM(Hidden Markov Model,隐马尔可夫模型)的声学模型在存储器区域104a中存储了的对应于操作选项的语音辨别数据的似然度(S702)。在分支处理S703中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将语音辨别标记设为OK(S704),将提供最大概率的操作选项决定为辨别结果(S705),结束处理。另一方面,当在分支处理S703中判断为“否”的情况下,判断为由于噪音等而语音辨别失败,将语音辨别标记设为NG,(S706),结束处理。
接着,使用图8的例子来说明嘴唇动作辨别部103中的嘴唇动作辨别操作决定处理S403。
在图8的流程图中,首先从所输入的嘴唇的动作的影像中,检测嘴唇的动作,取得嘴唇动作数据(S801)。作为嘴唇的动作的数据,例如如图9所示,检测嘴唇的横向大小X与嘴唇的纵向大小Y的时间上的变化。在嘴唇部分从摄影范围偏离而无法从所输入的影像中检测嘴唇部分从而在嘴唇动作数据取得处理S801中嘴唇动作数据的取得失败了的情况下,在分支处理802中判断为“否”,将嘴唇检测标记以及嘴唇动作辨别标记设定NG(S803、S809),结束处理。另一方面,在从所输入的影像中成功取得嘴唇动作数据的情况下,在分支处理S802中判断为“是”,将嘴唇检测标记设定为OK(S804)。接着,计算该取得了的嘴唇动作数据、与在存储器区域104b中存储了的对应于操作选项的嘴唇动作辨别数据的似然度(S805)。在分支处理S806中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将嘴唇动作辨别标记设为OK(S807),将提供最大概率的操作选项决定为辨别结果(S808),结束处理。另一方面,当在分支处理S806中判断为“否”的情况下,将嘴唇动作辨别标记设为NG(S809),结束处理。
在图10中示出嘴唇动作辨别数据Xr(t)、Yr(t)与所取得的嘴唇动作数据Xd(t)、Yd(t)的例子。图10(a)对应于操作选项“音乐播放(おんがくさいせい)”,图10(b)对应于“视频播放(びでおさいせい)”。X表示嘴唇的横向大小,Y表示嘴唇的纵向大小。例如关于与元音“あ(a)”对应的“が(ga)”、“さ(sa)”的嘴唇的大小,X、Y都变大。另一方面,关于与元音“い(i)”对应的“い(i)”、“び(bi)”的嘴唇的大小,X较大而Y变小。这样,根据作为嘴唇的动作而取得了的嘴唇动作数据Xd(t)、Yd(t)与在存储器104中存储了的对应于操作选项的嘴唇动作辨别数据Xr(t)、Yr(t),能够将嘴唇的大小X、Y的时间上的变化最接近的选项决定为辨别结果。
使用图11来说明嘴唇动作辨别数据更新处理S407的一个例子。
图11(a)示出了更新前的嘴唇动作辨别数据Yr(t),图11(b)示出了所取得的嘴唇动作数据Yd(t),图11(c)示出了更新后的嘴唇动作辨别数据Yr(t)‘。在这里,按以下的公式定义更新后的嘴唇动作辨别数据Yr(t)‘。
(数1)Yr(t)‘=Yr(t)+α·(Yd(t)-Yr(t))
更新后的嘴唇动作辨别数据Yr(t)‘被用作接下来的嘴唇动作辨别中的嘴唇动作辨别数据Yr(t)。
在这里,α是决定嘴唇动作辨别数据收敛于所取得的嘴唇动作数据的速度的系数,例如,如果设为α=1,则有
(数2)Yr(t)‘=Yd(t),
所取得的嘴唇动作数据Yd(t)成为接下来的嘴唇动作辨别中的嘴唇动作辨别数据。如果设为α=0.5,则有
(数3)Yr(t)‘=0.5·(Yd(t)+Yr(t)),
所取得的嘴唇动作数据Yd(t)与更新前的嘴唇动作辨别数据Yr(t)的平均成为接下来的嘴唇动作辨别中的嘴唇动作辨别数据。α的范围被选为
(数4)0<α<1。
α越大,则嘴唇动作辨别数据越快地收敛于所取得的嘴唇动作数据。图11(c)示出了α=0.5的情况。
更新后的嘴唇动作辨别数据Xr(t)‘也同样地由下式给出。
(数5)Xr(t)‘=Xr(t)+α·(Xd(t)-Xr(t))
通过以上的处理,更新后的嘴唇动作辨别数据Xr(t)’、Yr(t)’被更新为与更新前相比更接近于实际所取得的嘴唇动作的数据,在接下来的嘴唇动作辨别中,被用作嘴唇动作辨别数据Xr(t)、Yr(t)。通过重复进行该处理,能够得到更符合操作者的嘴唇动作的嘴唇动作辨别数据Xr(t)、Yr(t),能够提高嘴唇动作辨别的精度。
能够通过以上的语音辨别操作决定处理、或者嘴唇动作辨别操作决定处理来决定进行什么样的操作。
接着,说明决定进行操作的对象的处理(S203)。
在图12中示出操作对象决定处理的流程图的例子。
在图12中,首先从话筒112经由语音处理部113而获取语音,从摄像部120经由图像处理部119而获取包含操作者的至少嘴唇部分的影像(S1201)。接着,进行语音辨别类型决定处理S1202、嘴唇动作辨别类型决定处理S1203。在分支处理S1204中,根据语音辨别标记来判断在语音辨别类型决定处理S1202中语音辨别是否成功。在语音辨别成功了的情况下(“是”),根据在语音辨别类型决定处理S1202中辨别出的结果,决定操作对象的类型(S1205)。接着,在分支处理1206中,根据嘴唇检测标记判断是否在嘴唇部分不从摄影范围偏离的情况下进行影像的获取,嘴唇动作数据的取得是否成功。在嘴唇动作数据的取得成功了的情况下(“是”),与语音辨别结果对应地,更新存储器区域104b的嘴唇动作辨别数据(S1207),前进到接下来的处理S1210。另一方面,当在分支处理S1206中根据嘴唇检测标记判断为嘴唇动作数据的取得失败了的情况下(“否”),不更新存储器区域104b的嘴唇动作辨别数据,前进到接下来的处理S1210。
当在分支处理S1204中根据语音辨别标记判断为语音辨别失败了的情况下(“否”),在分支处理1208中,根据嘴唇动作辨别标记,判断在嘴唇动作辨别类型决定处理S1203中辨别是否成功。在嘴唇动作辨别成功了的情况下(“是”),根据在嘴唇动作辨别类型决定处理S403中辨别出的结果,决定操作对象的类型(S1209),前进到接下来的处理S1210。另一方面,当在分支处理S1208中根据嘴唇动作辨别标记判断为嘴唇动作辨别失败了的情况下(“否”),再次回到获取语音以及影像的处理(S1201)。
在S1210中,再次获取语音以及包含操作者的至少嘴唇部分的影像。基于所获取到的语音以及影像,进行语音辨别操作对象决定处理S1211、嘴唇动作辨别操作对象决定处理S1212。在分支处理S1213中,根据语音辨别标记来判断在语音辨别操作对象决定处理S1211中辨别是否成功。在语音辨别成功了的情况下(“是”),根据在语音辨别操作对象决定处理S1211中辨别出的结果,决定操作对象(S1214)。接着,在分支处理S1215中,根据嘴唇检测标记判断是否在嘴唇部分不从摄影范围偏离的情况下进行影像的获取,嘴唇动作数据的取得是否成功。在嘴唇动作数据的取得成功了的情况下(“是”),与语音辨别结果对应地,更新存储器区域104b的嘴唇动作辨别数据(S1216),结束处理。另一方面,当在分支处理S1215中根据嘴唇检测标记判断为嘴唇动作数据的取得失败了的情况下(“否”),不更新存储器区域104b的嘴唇动作辨别数据,结束处理。
当在分支处理S1213中根据语音辨别标记判断为语音辨别失败了的情况下(“否”),在分支处理1217中,根据嘴唇动作辨别标记,判断在嘴唇动作辨别操作对象决定处理S1212中嘴唇动作辨别是否成功。在嘴唇动作辨别成功了的情况下(“是”),根据在嘴唇动作辨别操作对象决定处理S1212中辨别出的结果,决定操作对象(S1218),结束处理。另一方面,当在分支处理S1217中根据嘴唇动作辨别标记判断为嘴唇动作辨别失败了的情况下(“否”),再次回到获取语音以及影像的处理(S1210)。
图13是示出嘴唇动作辨别类型决定处理的一个例子的流程图。
在图13的流程图中,首先从所输入的嘴唇的动作的影像中,检测嘴唇的动作,取得嘴唇动作数据(S1301)。在嘴唇部分从摄影范围偏离而无法进行嘴唇检测从而在嘴唇动作数据取得处理S1301中嘴唇动作数据的取得失败了的情况下,在分支处理1302中判断为“否”,将嘴唇检测标记以及嘴唇动作辨别标记设定NG(S1303、S1309),结束处理。另一方面,当在嘴唇动作数据取得处理S1301中从所输入的嘴唇的影像中成功取得嘴唇动作数据的情况下,在分支处理1302中判断为“是”,将嘴唇检测标记设定为OK(S1304)。接着,计算该取得了的嘴唇动作数据、与在存储器区域104b中存储了的对应于操作选项的嘴唇动作辨别数据的似然度(S1305)。
在图14中示出与操作对应的类型选项的表格的例子。对音乐、照片等的数据赋予了的元数据的属性相当于类型。例如针对各音乐数据,与歌曲名、演唱者、专辑等属性(类型)相关的数据作为元数据被赋予。
在分支处理S1306中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将嘴唇动作辨别标记设为OK(S1307),将提供最大概率的操作类型决定为辨别结果(S1308),结束处理。另一方面,当在分支处理S1306中判断为“否”的情况下,将嘴唇动作辨别标记设为NG(S1309),结束处理。
接着,说明语音辨别类型决定处理(S1202)。
图15是示出语音辨别类型决定处理的一个例子的流程图。
在图15中,首先进行从话筒112经由语音处理部113而输入了的语音的分析,提取输入语音的特征参数的时间序列图案(S1501)。接着,计算与作为基于HMM的声学模型在存储器区域104a中存储了的对应于类型选项的语音辨别数据的似然度(S1502)。在分支处理S1503中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将辨别标记设为OK(S1504),将提供最大概率的类型选项决定为辨别结果(S1505),结束处理。另一方面,当在分支处理S1503中判断为“否”的情况下,判断为由于噪音等而语音辨别失败,将辨别标记设为NG(S1506),结束处理。
通过以上的嘴唇动作辨别类型决定处理、或者语音辨别类型决定处理,能够决定操作对象属于什么类型。
接着,说明用于决定属于所决定的类型的操作对象的嘴唇动作辨别操作对象决定处理以及语音辨别操作对象决定处理。
图16是示出嘴唇动作辨别操作对象决定处理的例子的流程图。
在图16的流程图中,首先从所输入的嘴唇的动作的影像中,检测嘴唇的动作,取得嘴唇动作数据(S1601)。当在嘴唇动作数据取得处理S1601中嘴唇部分从摄影范围偏离而无法进行嘴唇检测从而嘴唇动作数据的取得失败了的情况下,在分支处理S1602中判断为“否”,将嘴唇检测标记以及嘴唇动作辨别标记设定NG(S1603、S1611),结束处理。另一方面,当在嘴唇动作数据取得处理S1601中从所输入的嘴唇部分的影像中成功取得嘴唇动作数据的情况下,在分支处理S1602中判断为“是”,将嘴唇检测标记设定为OK(S1604)。针对在存储设备105中存储了的音乐、照片等的数据,赋予了与标题、演唱者、摄影日等属性相关的元数据。在S1605中,计算与所选择的类型的属性部分的描述对应的嘴唇动作辨别数据(例如在作为类型而选择了歌曲名的情况下,是与作为各音乐数据的元数据被记录了的歌曲的标题对应的嘴唇动作辨别数据)、和所取得的嘴唇动作数据的似然度。当在分支处理1606中似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),判断候补数是否存在多个,即判断最大概率为规定的值以上的数据是否存在多个,进行分支处理(S1607)。在候补数为1个的情况下(“是”),将嘴唇动作辨别标记设为OK(S1608),将提供最大概率的操作对象决定为辨别结果(S1609),结束处理。另一方面,当在分支处理S1607中判断为是候补数为多个的情况(“否”)的情况下,进行操作对象选择处理(S1610),结束处理。另一方面,当在分支处理S1606中判断为“否”的情况下,将嘴唇动作辨别标记设为NG(S1611),结束处理。
使用图17的流程图来说明操作对象选择处理S1610,。
在图17中,首先在触摸板116的显示部118显示多个候补(S1701)。图18示出显示的例子。在这里,是在成为候补的歌曲有3个的情况下的例子。另外,图19示出与此相对应的嘴唇动作辨别数据以及取得嘴唇动作数据。在这种情况下,嘴唇动作辨别数据Xr(t)、Yr(t)包含几乎相同的部分,仅通过嘴唇的动作无法决定操作对象。因此,将供选择的嘴唇形状不同的字符附加到歌曲名并显示(在这里,是“あ”、“い”、“う”)。接着,从摄像部120经由图像处理部119而获取包含操作者的至少嘴唇部分的影像(S1702)。首先从所输入的嘴唇的动作的影像中,检测嘴唇的动作,取得嘴唇动作数据(S1703)。当在嘴唇动作数据取得处理S1703中嘴唇从摄影范围偏离而无法进行嘴唇检测从而嘴唇动作数据的取得失败了的情况下,在分支处理1704中判断为“否”,将嘴唇检测标记以及嘴唇动作辨别标记设定NG(S1705、S1711),结束处理。另一方面,当在嘴唇动作数据取得处理S1703中从所输入的影像中成功取得嘴唇动作数据的情况下,在分支处理S1704中判断为“是”,将嘴唇检测标记设定为OK(S1706)。接着,计算对应于该输入影像的嘴唇动作数据、和与用于选择而附加了的字符(在图18的例子中是“あ”、“い”、“う”)对应的嘴唇动作辨别数据的似然度(S1707)。当在分支处理S1708中似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将嘴唇动作辨别标记设为OK(S1709),将提供最大概率的选项决定为操作对象(S1710),结束处理。另一方面,当在分支处理S1708中判断为“否”的情况下,将嘴唇动作辨别标记设为NG(S1711),结束处理。
如上所述,在嘴唇动作大致相同的候补存在多个的情况下,通过附加嘴唇形状不同的字符或者字符串,也能够决定操作对象。
图20是示出语音辨别操作对象决定处理S1211的例子的流程图。
在图20中,首先进行从话筒112经由语音处理部113而输入了的语音的分析,提取输入语音的特征参数的时间序列图案(S2001)。关于音乐、照片等的数据的属性部分的记载(例如在作为类型而选择了歌曲名的情况下,是作为各音乐数据的元数据被记录了的歌曲的标题),计算与在存储器区域104a中作为声学模型被存储了的语音辨别数据的似然度(S2002)。在分支处理S2003中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将语音辨别标记设为OK(S2004),将提供最大概率的操作对象决定为辨别结果(S2005),结束处理。另一方面,当在分支处理S2003中判断为“否”的情况下,将语音辨别标记设为NG,结束处理。
在图21示出嘴唇动作辨别操作决定处理S405的其他实施例。在本实施例中,使嘴唇的形状与元音对应,将嘴唇的动作作为元音的序列来进行辨别。
在图21中,首先根据所输入的嘴唇的动作的影像,决定音节数N(S2101)。接着,通过音节元音序列变换处理,判别与各音节对应的嘴唇的形状对应于哪个元音,变换成与N个音节对应的元音的序列(S2102)。计算与该输入影像对应的元音的序列、和在存储器104b中存储了的通过对应于操作选项的元音的序列来表达的嘴唇动作辨别数据的似然度(S2103)。
在分支处理2104中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将辨别标记设为OK(S2105),将提供最大概率的操作选项决定为辨别结果(S2106),结束处理。另一方面,当在分支处理S2104中判定为“否”的情况下,将辨别标记设为NG(S2107),结束处理。
在图22中示出在存储器104b中预先存储了的对应于操作选项的元音序列的表格的例子。例如与“音乐播放”对应的元音序列为“おあうあいえい”。计算对应于该操作选项的元音序列与对应于输入影像的元音序列的似然度,将似然度最大的操作选项决定为辨别结果。通过使各操作选项的字符串的元音序列不同,从而操作选项与元音序列一对一地对应,能够通过元音序列来决定操作选项。在基于元音序列的辨别中,存储针对操作选项的元音的序列,所以不需要存储如图10所示的针对操作选项的嘴唇动作辨别数据那样的嘴唇的大小X以及Y的时间上的变化,能够减少存储器104b的使用量。
图23示出音节元音序列变换处理(S2102)的流程图的一个例子。
在图23中,首先将指定与元音嘴唇形状进行比较的音节的参数I设为1到音节数N,开始循环处理(S2301),重复地进行S2302的处理,直到S2303的循环结束处理为止。在S2302中,将所输入的影像的与第I个音节对应的嘴唇的形状、和在存储器104b中存储了的与嘴唇辨别数据的元音对应的嘴唇的形状进行比较,决定与第I个音节对应的元音。通过以上的处理,与输入影像对应的N个音节被变换成元音的序列。
在图24中示出与元音对应的嘴唇形状的例子。在这里,示出了针对日语的“あ”、“い”、“う”、“え”、“お”这些元音的嘴唇形状。例如,如图25的表格所示,以3个等级来表示嘴唇的纵向宽度X和横向宽度Y的大小,并与各元音进行对应。由此,求出输入影像的嘴唇形状的纵向宽度X与横向宽度Y,依照图25的表格,能够决定对应的元音。
以上的基于元音序列的辨别方法不限于嘴唇动作辨别操作决定处理S405,也可以应用于嘴唇动作辨别类型决定处理S1104、嘴唇动作辨别操作对象决定处理S1109。
图26是示出获取语音以及包含嘴唇部分的影像的处理的其他实施例的流程图。
在图26中,与图5的语音/影像获取处理不同之处在于附加了选项显示处理S510这一点。图27示出获取语音以及包含嘴唇部分的影像的处理中的显示的例子。图27(a)是在操作决定处理中在主页的状态下的操作选项的显示,图27(b)是在操作对象决定处理中在音乐播放时的类型选项的显示。附加供选择的元音不同的字符或者字符串并显示,关于所附加的字符或者字符串部分,通过语音辨别或者嘴唇动作辨别来进行操作选择处理。由此,能够通过元音不同的短的字符或者字符串来进行辨别,所以能够容易且可靠地进行辨别。
如上所述,通过将选项显示于显示部118,不需要一一记住操作选项或者类型选项,能够可靠地进行选择。但是,在操作者习惯了便携终端的操作的情况等下,也可以不显示选项,或能够设定是否显示选项。
实施例2
图28是示出便携终端装置100的第2实施例的结构例的框图,对与图1的结构例相同的功能部分,附加相同的符号,省略说明。
在本实施例中,针对图1的结构例,在操作者辨别部122以及存储器104的规定的区域104d中,设置了操作者辨别数据,应对有多个使用便携终端装置100的操作者的情况。
图29是示出实施例2的操作决定处理S201的一个例子的流程图,对图4的流程图相同的处理附加相同的符号。
在图29中,首先从话筒112经由语音处理部113而获取语音,从摄像部120经由图像处理部119而获取包含操作者的至少嘴唇部分的影像(S401)。接着,根据由操作者辨别部122在语音/影像获取处理S401中获取到的语音以及/或者影像、与在存储器区域104d中存储了的操作者辨别数据,辨别进行操作的操作者N(S420)。作为操作者辨别数据,能够使用例如为了登录到便携终端装置100而预先登记了的语音认证用数据或者面部认证用数据。在操作者辨别后,由语音辨别部102进行语音辨别操作决定处理S402,并由嘴唇动作辨别部103进行嘴唇动作辨别操作决定处理S403。在分支处理S404中,根据语音辨别标记来判断在语音辨别操作决定处理S402中语音辨别是否成功。在语音辨别成功了的情况下(“是”),根据在语音辨别操作决定处理S402中辨别出的结果,决定进行什么样的操作(S405)。接着,在分支处理406中,根据嘴唇检测标记判断是否在嘴唇部分不从摄影范围偏离的情况下进行影像的获取,嘴唇动作数据的取得是否成功。在嘴唇动作数据的取得成功了的情况下(“是”),与语音辨别结果对应地,更新存储器区域104b的与操作者N对应的嘴唇动作辨别数据(S421),解除安静模式(S408)而结束处理。在安静模式解除之后的操作中,进行基于来自扬声器114(或者在连接了耳机200的情况下,经由外部语音输出部115而来自耳机)的语音的操作指导、基于声音的来电指引等。另一方面,当在分支处理S406中根据嘴唇检测标记判断为嘴唇动作数据的取得失败了的情况下(“否”),不更新存储器区域104b的嘴唇动作辨别数据,解除安静模式(S408)而结束处理。
当在分支处理S404中根据语音辨别标记判断为语音辨别失败了的情况下(“否”),在分支处理409中,根据嘴唇动作辨别标记,来判断在嘴唇动作辨别操作决定处理S403中辨别是否成功。在嘴唇动作辨别成功了的情况下(“是”),根据在嘴唇动作辨别操作决定处理S403中辨别出的结果,决定进行什么样的操作(S410),设定安静模式(S411)而结束处理。在安静模式下,将来自扬声器114的输出设为断开,进行无语音的利用画面显示的操作指导或者来电指引等。另一方面,当在分支处理S409中根据嘴唇动作辨别标记判断为嘴唇动作辨别失败了的情况下(“否”),再次回到获取语音以及影像的处理(S401)。
通过以上的处理,针对每个操作者,更新与操作者对应的嘴唇动作辨别数据,能够得到与嘴唇的动作的个人差异对应的嘴唇动作辨别数据。因此,在嘴唇动作辨别操作决定处理S403中,通过使用与操作者对应地更新了的嘴唇动作辨别数据来进行嘴唇动作辨别,从而在多人使用便携终端装置的情况下,也能够提高嘴唇动作辨别的精度。
另外,不限于操作决定处理S201,关于操作对象决定处理S203,也可以同样地应用与操作者对应的嘴唇动作辨别数据更新处理。
实施例3
图30是示出便携终端装置100的第3实施例的结构例的框图,针对与图28的结构例相同的功能部分附加相同的符号,省略说明。另外,图31是示出本实施例的由便携终端装置100与语音/嘴唇动作辨别服务器700构成的语音/嘴唇动作辨别信息处理系统的概略结构的框图。
在本实施例的便携终端装置100中,针对图28的结构例,未设置语音辨别部102、嘴唇动作辨别部103、存储器104的语音辨别数据区域以及嘴唇动作辨别数据区域,而是在与它们对应的部位设置语音/嘴唇动作辨别服务器700。
在图31中,语音/嘴唇动作辨别服务器700具备控制部701、语音辨别部702、嘴唇动作辨别部703、存储器704、存储设备705以及通信部706,分别与总线710相互连接。
通信部706是用于与外部网络600连接的接口,经由基站400或者无线路由器500而与便携终端装置100连接。
控制部701由CPU等构成,通过执行在存储器704中存储了的程序,来控制各结构部,进行各种处理。
语音辨别部702辨别经由通信部706而得到的便携终端装置100的操作者的语音数据,并变换成与语音数据对应的字符串。另外,嘴唇动作辨别部703根据经由通信单元706而得到的便携终端装置100的操作者的影像数据来辨别嘴唇的动作,并变换成与影像数据对应的字符串。控制部701将根据操作者的语音辨别出的结果或者根据操作者的嘴唇的动作辨别出的结果经由通信部706发送到便携终端装置100。
存储器704是闪存存储器等,存储了程序、数据等。存储设备705是SSD(SolidState Device,固态元件)或者硬盘,为了通过上述的语音辨别部702、嘴唇动作辨别部703进行辨别而使用数据保存在存储设备705的规定的区域705a、705b中。
图32是示出在图31的由便携终端装置100与语音/嘴唇动作辨别服务器700构成的信息处理系统中的控制部101以及控制部701的处理的一个例子的流程图。
在图32中,首先在便携终端装置100中从话筒112经由语音处理部113而获取语音,从摄像部120经由图像处理部119而获取包含操作者的至少嘴唇部分的影像(S3201)。通过操作者辨别部122,根据在语音/影像获取处理S3201中获取到的语音以及/或者影像与在存储器区域104d中存储了的操作者辨别数据,来辨别进行操作的操作者N(S3202)。
接着,经由基站通信部110或者无线通信部111将所获取到的语音以及影像的数据发送到语音/嘴唇动作辨别服务器700(S3203)。在语音/嘴唇动作辨别服务器700中,根据所接收到的语音以及影像的数据,进行语音以及嘴唇动作辨别处理S3204,经由通信部706而将辨别结果发送到便携终端装置100(S3205)。在S3206中,根据从语音/嘴唇动作辨别服务器700发送了的辨别结果的语音辨别标记以及嘴唇动作辨别标记,进行分支处理,在语音辨别以及嘴唇动作辨别失败了的情况下(“否”),回到语音/影像获取处理S3201。在语音辨别或者嘴唇动作辨别成功了的情况下(“是”),进行操作决定处理S3207,根据在存储器104c中存储了的如图3所示的与操作相关的选项数据和辨别结果的似然度,决定进行什么样的操作,在存在与辨别结果对应的操作选项的情况下,将决定成功与否标记设为OK。在分支处理3408中,根据决定成功与否标记来进行分支处理,在不存在与辨别结果对应的操作选项的情况下(“否”),回到语音/影像获取处理S3201。在存在与辨别结果对应的操作选项的情况下(“是”),在分支处理S3209中根据语音辨别标记进行分支处理。在语音辨别成功了的情况下(“是”),解除安静模式(S3210),在失败了的情况下(“否”),设定安静模式(S3211)。
接着,根据是否需要选择进行操作的对象,进行分支处理(S3212)。例如,在作为操作而进行“音乐播放”的情况下,需要进行如播放什么歌曲那样的对进行操作(音乐播放等)的对象(歌曲等)的选择。另外,在作为音乐播放中的操作而进行“停止”的情况下,不需要选择进行操作(停止等)的对象。在没有操作对象的选择的情况下(“否”),执行所决定的操作(S3228)。在分支处理S3212中,在判断为存在操作选项的情况下(“是”),进行语音/影像获取处理S3213,将所获取到的语音以及影像的数据发送到语音/嘴唇动作辨别服务器700(S3214)。在语音/嘴唇动作辨别服务器700中,根据所接收到的语音以及影像的数据,进行语音以及嘴唇动作辨别处理S3215,将辨别结果发送到便携终端装置100(S3216)。在S3217中,根据从语音/嘴唇动作辨别服务器700发送了的辨别结果的语音辨别标记以及嘴唇动作辨别标记,进行分支处理,在语音辨别以及嘴唇动作辨别失败了的情况下(“否”),回到语音/影像获取处理S3213。在语音辨别或者嘴唇动作辨别成功了的情况下(“是”),进行操作类型决定处理S3218,根据在存储器104c中存储了的如图13所示的与操作对应的类型选项数据和辨别结果的似然度,决定操作对象的类型,在存在与辨别结果对应的类型选项的情况下,将决定成功与否标记设为OK。在分支处理3418中,根据决定成功与否标记,进行分支处理,在不存在与辨别结果对应的类型选项的情况下(“否”),回到语音/影像获取处理S3213。在存在与辨别结果对应的类型选项的情况下(“是”),进行语音/影像获取处理S3220,将所获取到的语音以及影像的数据发送到语音/嘴唇动作辨别服务器700(S3221)。在语音/嘴唇动作辨别服务器700中,根据所接收到的语音以及影像的数据,进行语音以及嘴唇动作辨别处理S3222,将辨别结果发送到便携终端装置100(S3223)。在S3224中,根据从语音/嘴唇动作辨别服务器700发送了的辨别结果的语音辨别标记以及嘴唇动作辨别标记,进行分支处理,在语音辨别以及嘴唇动作辨别失败了的情况下(“否”),回到语音/影像获取处理S3220。在辨别成功了的情况下(“是”),进行操作对象决定处理S3225。在便携终端100的存储器104e中,存储了每个操作者的历史数据,并保存了在通过语音辨别而进行因特网检索时的检索对象的语句等的历史。另外,针对在便携终端装置100的存储设备105中存储了的音乐、照片等的数据,赋予了与标题、演唱者、摄影日等属性相关的元数据。根据在存储器104e中存储了的历史数据以及在操作类型决定处理S3218中决定了的类型的属性部分的描述(例如在作为类型而选择了歌曲名的情况下,是与作为各音乐数据的元数据被记录了的歌曲的标题对应的描述)与辨别结果的似然度,决定操作对象,在存在与辨别结果对应的操作对象的情况下,将决定成功与否标记设为OK。在分支处理3426中,根据决定成功与否标记来进行分支处理,在不存在与辨别结果对应的操作对象的情况下(“否”),回到语音/影像获取处理S3220。在存在与辨别结果对应的操作对象的情况下(“是”),将所决定的操作对象追加/更新到在存储器104e中存储了的与操作者N对应的历史数据中(S3227),针对所决定的操作对象,执行操作(S3228)。
图33示出语音/嘴唇动作辨别处理S3204、S3215、S3222的流程图的一个例子。在图33中,首先根据经由通信部706而取得了的操作者的语音数据以及至少包含嘴唇部分的影像数据,由语音辨别部702进行语音辨别处理S3301,并由嘴唇动作辨别部703进行嘴唇动作辨别定处理S3302。在分支处理S3303中,根据语音辨别标记来判断在语音辨别处理S3301中语音辨别是否成功。在语音辨别失败了的情况下(“否”),结束处理。在语音辨别成功了的情况下(“是”),在分支处理S3304中,根据嘴唇检测标记判断是否在嘴唇部分不从摄影范围偏离的情况下进行影像的获取,嘴唇动作数据的取得是否成功。在嘴唇动作数据的取得成功了的情况下(“是”),根据有无与通过语音辨别得到的字符串对应的嘴唇辨别数据,进行分支处理。在存在与通过语音辨别得到的字符串对应的嘴唇辨别数据的情况下(“是”),更新与字符串对应的存储设备区域705b的嘴唇辨别数据(S3306),在没有嘴唇辨别数据的情况下(“否”),将与通过语音辨别得到的字符串对应的嘴唇辨别数据追加到存储设备区域705b(S3307),结束处理。另一方面,当在分支处理S3304中判断为嘴唇动作数据的取得失败了的情况下(“否”),不更新嘴唇动作辨别数据,结束处理。
通过以上的处理,在语音辨别成功并且嘴唇动作数据的取得成功了的情况下,进行与语音辨别结果对应的嘴唇动作辨别数据的更新以及追加。
图34示出语音辨别处理S3301的流程图的一个例子。在图34中,首先进行语音分析,提取输入语音的特征参数的时间序列图案(S3401)。接着,计算与作为基于HMM的声学模型在存储设备的规定的区域705a中存储了的语音辨别数据的似然度(S3402)。在分支处理S3403中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将语音辨别标记设为OK(S3404),将提供最大概率的语音辨别数据作为辨别结果,结束处理。另一方面,当在分支处理S3403中判断为“否”的情况下,判断为由于噪音等而语音辨别失败,将语音辨别标记设为NG(S3405),结束处理。
接着,使用图35的例子来说明嘴唇动作辨别处理S3302。
在图35的流程图中,首先从所输入的影像中检测嘴唇的动作,取得嘴唇动作数据(S3501)。在嘴唇部分从摄影范围偏离而无法从所输入的影像中检测嘴唇部分从而在嘴唇动作数据取得处理S3501中嘴唇动作数据的取得失败了的情况下,在分支处理3702中判断为“否”,将嘴唇检测标记以及嘴唇动作辨别标记设定NG(S3503、S3508),结束处理。另一方面,在从所输入的影像中成功取得嘴唇动作数据的情况下,在分支处理S3502中判断为“是”,将嘴唇检测标记设定为OK(S3504)。接着,计算该取得了的嘴唇动作数据与在存储设备的规定的区域705b中存储了的嘴唇动作辨别数据的似然度(S3505)。在分支处理S3506中,在似然度计算的结果的最大概率(最大似然度)为规定的值(在这里,作为一个例子设为0.6)以上的情况下(“是”),将嘴唇动作辨别标记设为OK(S3507),将提供最大概率的嘴唇动作辨别数据作为辨别结果,结束处理。另一方面,当在分支处理S3506中判断为“否”的情况下,将嘴唇动作辨别标记设为NG(S3508),结束处理。
在上述的实施例中,在便携终端装置100中,将所获取到的语音以及影像数据发送到语音/嘴唇动作辨别服务器700,但也可以在便携终端装置100中,进行提取输入语音的特征参数的时间序列图案的语音分析,将从所输入的影像中检测嘴唇的动作而取得嘴唇动作数据的结果发送到语音/嘴唇动作辨别服务器700。由此,能够减少从便携终端装置100发送到语音/嘴唇动作辨别服务器700的数据量,减少处理时间。
在以上的实施例中,通过由语音/嘴唇动作辨别服务器700进行语音辨别以及嘴唇辨别,根据多个操作者的语音以及嘴唇动作的数据,更新嘴唇动作辨别数据,所以能够进一步提高嘴唇动作辨别的精度。另外,设置每个操作者的历史数据,作为历史数据而追加在语音辨别中新使用的语句等,在嘴唇动作辨别中利用历史数据,从而能够针对便携终端装置的每个操作者而对使用频度高的语句进行嘴唇动作辨别。
此外,上述的实施例是为了方便说明本发明而详细说明了的,不一定限定于具备所说明的全部结构。例如,在第1以及第2实施例中,将语音辨别数据、嘴唇动作辨别数据、选项数据存储在存储器104中,但也可以存储在存储设备105中。另外,能够将某个实施例的结构的一部分置换为其他实施例的结构,另外,也能够对某个实施例的结构添加其他实施例的结构。另外,能够针对各实施例的结构的一部分,进行其他结构的追加/删除/置换。
另外,关于上述的各结构、功能、处理部、处理单元等,也可以例如通过在集成电路中进行设计等来由硬件实现它们的一部分或者全部。另外,上述的各结构、功能等也可以通过处理器解析并执行实现各自的功能的程序,来由软件实现。实现各功能的程序、表格、文件等信息能够放置在存储器104、存储设备105中。
另外,关于控制线、信息线,示出被认为在说明上所需的控制线、信息线,在产品上不一定限于示出全部控制线、信息线。实际上,也可以认为几乎全部的结构都相互连接。

Claims (10)

1.一种便携终端装置,其特征在于,具备:
摄像部,对包含操作者的至少嘴唇部分的影像进行摄影;
话筒,获取操作者的语音;
操作者识别部,根据所述摄像部取得的影像或者通过所述话筒获取到的语音来识别操作者;
便携终端装置通信部,在与外部服务器之间发送接收数据;以及
控制部,依照来自所述外部服务器的辨别结果进行能够执行的操作,
其中,所述外部服务器具备:服务器通信部,接收来自所述便携终端装置的语音数据和影像数据,发送辨别结果;存储部,存储嘴唇动作辨别数据;语音辨别部,根据经由所述服务器通信部接收到的操作者的语音数据进行辨别;以及嘴唇动作辨别部,根据经由所述服务器通信部接收到的操作者的嘴唇部分的动作数据与所述嘴唇动作辨别数据来辨别要执行的操作,
所述控制部在进行基于语音辨别的操作的过程中,
控制为在由所述摄像部取得影像或者由所述话筒获取到语音时,通过所述操作者识别部根据取得的所述影像或获取到的所述语音中的任意一方来识别操作者是否是预先登记的特定的操作者,
控制为在由所述操作者识别部识别为操作者是预先登记的特定的操作者时,通过所述便携终端装置通信部对外部服务器发送由所述摄像部取得的影像和由所述话筒获取到的语音的数据,
控制为在所述便携终端装置通信部针对发送的所述数据从所述外部服务器接收到信息时执行基于接收到的所述信息的操作,所述信息与由所述外部服务器根据发送来的所述影像中的嘴唇的横向大小与嘴唇的纵向大小的时间上的变化而辨别出的结果有关。
2.根据权利要求1所述的便携终端装置,其特征在于,
所述控制部在从所述语音辨别部得到决定要执行的操作的结果的情况下,根据语音辨别部的结果进行能够执行的操作,在从所述嘴唇动作辨别部得到辨别要执行的操作的结果、并且从语音辨别部没得到辨别要执行的操作的结果的情况下,根据所述嘴唇动作辨别部的结果进行能够执行的操作。
3.根据权利要求1所述的便携终端装置,其特征在于,
所述控制部在从所述语音辨别部得到决定要执行的操作的结果的情况下解除安静模式,在从所述嘴唇动作辨别部得到辨别要执行的操作的结果、并且从语音辨别部没得到辨别要执行的操作的结果的情况下设定安静模式。
4.根据权利要求1所述的便携终端装置,其特征在于,具备:
显示部,显示与能够执行的操作对应的字符串的选项。
5.根据权利要求4所述的便携终端装置,其特征在于,
所述选项至少包含嘴唇部分的形状不同的音节的字符、或者嘴唇部分的形状不同的音节的序列不同的字符串。
6.根据权利要求4所述的便携终端装置,其特征在于,
所述选项至少包含元音不同的字符、或者元音的序列不同的字符串。
7.根据权利要求1所述的便携终端装置,其特征在于,
设置存储嘴唇部分的形状的存储部,
所述嘴唇动作辨别部根据在所述存储部中存储的嘴唇部分的形状,从操作者的嘴唇部分的影像中识别字符串的音节的序列。
8.根据权利要求1所述的便携终端装置,其特征在于,
当在所述语音辨别部中得到决定要执行的操作的结果、并且在所述嘴唇动作辨别部中得到操作者的嘴唇部分的动作数据的情况下,根据所述嘴唇部分的动作数据更新所述嘴唇动作辨别数据。
9.根据权利要求1所述的便携终端装置,其特征在于,
当在所述语音辨别部中得到决定要执行的操作的结果、并且在所述嘴唇动作辨别部中得到操作者的嘴唇部分的动作数据的情况下,根据所述嘴唇部分的动作数据更新与由所述操作者识别部识别出的操作者对应的所述嘴唇动作辨别数据。
10.一种信息处理系统,具备便携终端装置以及进行语音辨别和嘴唇动作辨别的服务器,所述信息处理系统的特征在于,
所述便携终端装置具备:
摄像部,对包含操作者的至少嘴唇部分的影像进行摄影;
话筒,获取操作者的语音;
操作者识别部,根据所述摄像部取得的影像或者由所述话筒获取到的语音来识别操作者;
便携终端装置通信部,对所述服务器发送由所述摄像部取得的影像以及由所述话筒获取到的语音数据,接收辨别结果;以及
控制部,依照来自所述服务器的辨别结果进行能够执行的操作,
所述控制部在进行基于语音辨别的操作的过程中,
控制为在由所述摄像部取得影像或者由所述话筒获取到语音时,通过所述操作者识别部根据取得的所述影像或获取到的所述语音中的任意一方来识别操作者是否是预先登记的特定的操作者,
控制为在由所述操作者识别部识别为操作者是预先登记的特定的操作者时,通过所述便携终端装置通信部对服务器发送由所述摄像部取得的影像和由所述话筒获取到的语音的数据,
控制为在所述便携终端装置通信部针对发送的所述数据从所述服务器接收到信息时执行基于接收到的所述信息的操作,所述信息与由所述服务器根据发送来的所述影像中的嘴唇的横向大小与嘴唇的纵向大小的时间上的变化而辨别出的结果有关,
所述服务器具备:
服务器通信部,接收来自所述便携终端装置的语音数据与影像数据,并且发送辨别结果;
存储部,存储嘴唇动作辨别数据;
语音辨别部,根据经由所述服务器通信部接收到的操作者的语音数据来进行辨别;以及
嘴唇动作辨别部,根据经由所述服务器通信部接收到的操作者的嘴唇部分的动作数据与所述嘴唇动作辨别数据来辨别要执行的操作。
CN201380064683.0A 2013-01-07 2013-12-18 便携终端装置以及信息处理系统 Active CN104838339B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013000297A JP5902632B2 (ja) 2013-01-07 2013-01-07 携帯端末装置及び情報処理システム
JP2013-000297 2013-01-07
PCT/JP2013/083815 WO2014106927A1 (ja) 2013-01-07 2013-12-18 携帯端末装置及び情報処理システム

Publications (2)

Publication Number Publication Date
CN104838339A CN104838339A (zh) 2015-08-12
CN104838339B true CN104838339B (zh) 2018-03-13

Family

ID=51062249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380064683.0A Active CN104838339B (zh) 2013-01-07 2013-12-18 便携终端装置以及信息处理系统

Country Status (4)

Country Link
US (4) US10303433B2 (zh)
JP (1) JP5902632B2 (zh)
CN (1) CN104838339B (zh)
WO (1) WO2014106927A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6518134B2 (ja) 2015-05-27 2019-05-22 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
CN106919891B (zh) * 2015-12-26 2019-08-23 腾讯科技(深圳)有限公司 一种图像处理方法及装置
US10360441B2 (en) 2015-11-25 2019-07-23 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
JP6532085B2 (ja) * 2016-03-07 2019-06-19 セイコーソリューションズ株式会社 注文管理システム
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
CN107679449B (zh) * 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
EP3450372A1 (en) * 2017-08-28 2019-03-06 Otis Elevator Company Spoken command interface
KR102417524B1 (ko) * 2017-10-13 2022-07-07 현대자동차주식회사 음성 인식 기반의 자동차 제어 방법
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
JP7010012B2 (ja) * 2018-01-17 2022-01-26 株式会社Jvcケンウッド 音声出力制御装置、電子機器、音声出力制御方法およびプログラム
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
WO2019219968A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
CN111049664A (zh) * 2018-10-11 2020-04-21 中兴通讯股份有限公司 一种网络告警处理方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111886A (zh) * 2005-01-28 2008-01-23 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN102104651A (zh) * 2009-12-22 2011-06-22 康佳集团股份有限公司 移动终端接收来电时播放预留语音的方法及其移动终端
CN102117115A (zh) * 2009-12-31 2011-07-06 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3710205B2 (ja) * 1996-06-05 2005-10-26 沖電気工業株式会社 音声認識装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP2000068882A (ja) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd 無線通信装置
AU780674B2 (en) * 1999-10-27 2005-04-07 Keyless Systems Ltd. Integrated keypad system
JP2001358828A (ja) 2000-06-10 2001-12-26 Masahiko Okuno モバイル機器、モバイル機器の指紋認証方法及びモバイル機器の指紋認証プログラムを記録した記録媒体
JP2002118623A (ja) * 2000-10-06 2002-04-19 Matsushita Electric Ind Co Ltd 移動体通信装置
JP4222742B2 (ja) * 2001-05-07 2009-02-12 株式会社リコー 移動体無線端末
JP2002368870A (ja) 2001-06-04 2002-12-20 Nec Corp 移動通信端末装置
JP2004246095A (ja) * 2003-02-14 2004-09-02 Nec Saitama Ltd 携帯電話装置及び遠隔制御方法
JP2005184485A (ja) 2003-12-19 2005-07-07 Casio Comput Co Ltd 撮像装置、撮像装置の動作制御方法及びプログラム
JP2007041089A (ja) 2005-08-01 2007-02-15 Hitachi Ltd 情報端末および音声認識プログラム
US20070048695A1 (en) * 2005-08-31 2007-03-01 Wen-Chen Huang Interactive scoring system for learning language
JP2009009170A (ja) * 2005-10-24 2009-01-15 Advanced Media Inc 情報検索システム及びサーバ装置
JP2007280179A (ja) * 2006-04-10 2007-10-25 Mitsubishi Electric Corp 携帯端末
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
JP2010026731A (ja) 2008-07-17 2010-02-04 Nec Saitama Ltd 文字入力装置、文字入力方法、文字入力システム、文字入力サーバー及び端末
JP2010272077A (ja) * 2009-05-25 2010-12-02 Toshiba Corp 情報再生方法及び情報再生装置
JP5341678B2 (ja) 2009-08-27 2013-11-13 京セラ株式会社 通信システム
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP2011071937A (ja) * 2009-09-28 2011-04-07 Kyocera Corp 電子機器
JP2011186994A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 文字入力装置および文字入力方法
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
WO2013097075A1 (en) * 2011-12-26 2013-07-04 Intel Corporation Vehicle based determination of occupant audio and visual input
KR101891259B1 (ko) * 2012-04-04 2018-09-28 삼성전자주식회사 지능형 이벤트 정보 출력 지원 방법 및 단말기
TW201342278A (zh) * 2012-04-06 2013-10-16 Wei-Yen Yeh 資訊整合互動系統及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111886A (zh) * 2005-01-28 2008-01-23 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN102104651A (zh) * 2009-12-22 2011-06-22 康佳集团股份有限公司 移动终端接收来电时播放预留语音的方法及其移动终端
CN102117115A (zh) * 2009-12-31 2011-07-06 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法

Also Published As

Publication number Publication date
US11861264B2 (en) 2024-01-02
US11487502B2 (en) 2022-11-01
WO2014106927A1 (ja) 2014-07-10
JP5902632B2 (ja) 2016-04-13
JP2014132396A (ja) 2014-07-17
US10303433B2 (en) 2019-05-28
US20190250884A1 (en) 2019-08-15
US20230039067A1 (en) 2023-02-09
US20240036815A1 (en) 2024-02-01
CN104838339A (zh) 2015-08-12
US20150324168A1 (en) 2015-11-12

Similar Documents

Publication Publication Date Title
CN104838339B (zh) 便携终端装置以及信息处理系统
US11605229B2 (en) Inmate tracking system in a controlled environment
CN107169430B (zh) 基于图像处理语义分析的阅读环境音效增强系统及方法
CN107395352B (zh) 基于声纹的身份识别方法及装置
CN100470540C (zh) 在移动电话系统中存储和检索多媒体数据和相关注释数据
CN110434853B (zh) 一种机器人控制方法、装置及存储介质
CN106104569A (zh) 用于在电子装置之间建立连接的方法及设备
CN103794214A (zh) 一种信息处理方法、装置和电子设备
JP2006190296A (ja) マルチメディア通信システムにおけるコンテキスト抽出及びこれを用いた情報提供装置及び方法
JP2009540414A (ja) メディア識別
CN104484037A (zh) 通过可穿戴设备进行智能控制的方法及该可穿戴设备
CN106104575A (zh) 指纹模板生成方法及装置
CN102905233A (zh) 一种终端功能推荐的方法及装置
CN110073673A (zh) 面部识别系统
CN105354284B (zh) 模板的处理方法及装置、短信识别方法及装置
CN107766820A (zh) 图像分类方法及装置
CN105550235A (zh) 信息获取方法及装置
CN109727342A (zh) 门禁系统的识别方法、装置、门禁系统及存储介质
CN106027801A (zh) 一种通信消息的处理方法及装置、移动设备
CN107690038A (zh) 业务语音导航方法和装置
CN104010060A (zh) 识别来电呼入方身份的方法和电子设备
CN107977187B (zh) 一种混响调节方法及电子设备
CN105843401A (zh) 基于摄像头的读屏应用指令输入方法及装置
JP2003044497A (ja) モバイル図鑑
CN109784267B (zh) 一种移动端多源融合图像语义内容生成系统及方法

Legal Events

Date Code Title Description
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20171213

Address after: Kyoto Japan

Applicant after: MAXELL, Ltd.

Address before: Osaka

Applicant before: Hitachi Maxell, Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Kyoto Japan

Patentee after: MAXELL, Ltd.

Address before: Kyoto Japan

Patentee before: MAXELL HOLDINGS, Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220610

Address after: Kyoto Japan

Patentee after: MAXELL HOLDINGS, Ltd.

Address before: Kyoto, Japan

Patentee before: MAXELL, Ltd.