CN111201786A

CN111201786A - 显示控制装置、通信装置、显示控制方法及程序

Info

Publication number: CN111201786A
Application number: CN201880065578.1A
Authority: CN
Inventors: 照内拓之
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2018-01-17
Filing date: 2018-10-24
Publication date: 2020-05-26
Anticipated expiration: 2038-10-24
Also published as: EP3691256A1; JP2019125927A; EP3691256B1; KR20200044947A; CN111201786B; WO2019142424A1; KR102446222B1; US20200234479A1; EP3691256A4; JP7081164B2; US11508106B2

Abstract

包括：影像获取部(101)，获取至少拍摄了说话者的嘴周边的影像数据；嘴唇检测部(107)，从影像数据中检测嘴唇部，并且检测嘴唇部的动作；影像处理部(110)，生成以使嘴唇检测部(107)检测出的嘴唇部的动作变大的方式强调的影像；以及显示控制部(104)，使显示面板(40)显示影像处理部(110)生成的影像。

Description

显示控制装置、通信装置、显示控制方法及程序

技术领域

本发明涉及显示控制装置、通信装置、显示控制方法及程序。

背景技术

在使用通信装置进行通话时，已知有用于使通话变得容易的技术。已知有对通话对象的发声内容进行语音识别而进行文本显示的技术(例如，参照专利文献1)。已知有以下的技术：生成并显示表示嘴唇动作的图案或图形、或者输出发话语音信号的语音识别结果的文本信息或基于合成语音信号的语音(例如，参照专利文献2)。

在先技术文献

专利文献

专利文献1：日本特开2008-99121号公报；

专利文献2：日本特开2006-005440号公报。

发明内容

发明所要解决的问题

当通话对象是听力障碍者时，如果使用专利文献1或专利文献2中记载的技术，则听力障碍者容易进行通话。

但是，在以文本显示发声内容或以合成语音输出发声内容的情况下，有可能无法恰当地传达说话者想要的语气。另外，在显示嘴唇的动作的情况下，如果嘴唇的动作小，则有可能无法恰当地识别发声内容。

本发明是鉴于上述问题而完成的，其目的在于能够恰当地识别发声内容。

用于解决问题的手段

为了解决上述问题并达到目的，本发明所涉及的显示控制装置的特征在于包括：影像获取部，获取至少拍摄了说话者的嘴角的影像数据；嘴唇检测部，从所述影像数据中检测嘴唇部，并且检测嘴唇部的动作；影像处理部，生成以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像；以及显示控制部，使显示部显示所述影像处理部生成的影像。

本发明所涉及的通信装置的特征在于，包括：上述的显示控制装置；以及通话处理部，进行通话处理，所述语音获取部获取通话时的发声语音，所述影像处理部将所述通话处理部发送的影像作为以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像。

本发明所涉及的通信装置的特征在于，包括：上述的显示控制装置；以及通话处理部，进行通话处理，所述语音识别部根据所述通话处理部接收并获取的语音数据来识别语音，所述影像获取部获取所述通话处理部接收到的影像数据。

本发明涉及的显示控制方法包括以下步骤：影像获取步骤，获取至少拍摄了说话者的嘴周边的影像数据；嘴唇检测步骤，从所述影像数据中检测嘴唇部，并且检测嘴唇部的动作；影像处理步骤，生成以使在所述嘴唇检测步骤中检测出的嘴唇部的动作变大的方式强调的影像；以及显示控制步骤，使显示部显示在所述影像处理步骤中生成的影像。

本发明涉及的程序使计算机执行以下步骤：影像获取步骤，获取至少拍摄了说话者的嘴周边的影像数据；嘴唇检测步骤，从所述影像数据中检测嘴唇部，并且检测嘴唇部的动作；影像处理步骤，生成以使在所述嘴唇检测步骤中检测出的嘴唇部的动作变大的方式强调的影像；以及显示控制步骤，使显示部显示在所述影像处理步骤中生成的影像。

发明的效果

根据本发明，具有能够恰当地识别发声内容的效果。

附图说明

图1是示出第一实施方式所涉及的通信装置的构成示例的框图；

图2是示出第一实施方式所涉及的通信装置的构成示例的概略图；

图3是说明嘴唇部的图，表示嘴唇闭合的状态；

图4是说明嘴唇部的动作的一例的图；

图5是说明语音识别处理的处理结果、嘴唇动作识别处理的处理结果和识别率的图；

图6是说明以嘴唇部的动作变大的方式强调的强调影像的一例的图；

图7是说明将以嘴唇部的动作变大的方式强调的强调影像重叠或合成在用户的脸部的影像上的影像的图；

图8是示出第一实施方式所涉及的通信装置中的处理流程的流程图；

图9是示出第二实施方式所涉及的通信装置中的处理流程的流程图；

图10是示出第三实施方式所涉及的通信装置中的处理流程的流程图。

具体实施方式

以下，参照附图来详细说明本发明所涉及的显示控制装置、通信装置、显示控制方法及程序的实施方式。另外，本发明并不被以下的实施方式限定。

[第一实施方式]

图1是示出第一实施方式所涉及的通信装置的构成示例的框图。图2是示出第一实施方式所涉及的通信装置的构成示例的概略图。通信装置1例如是包括如便携式电话那样具有通话功能的便携式电子设备的通信装置或计算机等。在本实施方式中，将通信装置1作为便携式电话来进行说明。通信装置1具有照相机10、麦克风20、收发部30、显示面板(显示部)40、扬声器50和控制部100。在本实施方式中，通信装置1的用户是说话者。在本实施方式中，用户的通话对象是听力障碍者。在本实施方式中，通信装置1将作为用户的说话者的发声语音的语音数据和强调影像210的影像数据发送给作为听力障碍者的通话对象。

照相机10拍摄至少包含嘴周边的影像，所述嘴周边包含用户的嘴唇部200。在本实施方式中，照相机10拍摄用户脸部的影像。照相机10配置在通话时至少能够拍摄用户的嘴唇部200的位置。在本实施方式中，照相机10配置在通信装置1的显示面板40的下侧。照相机10一旦在通信装置1中开始通话，则始终拍摄影像。照相机10将拍摄到的影像数据输出给控制部100的影像获取部101。

麦克风20获取用户的发声语音的语音信号。在本实施方式中，麦克风20配置在通信装置1的显示面板40的下侧。一旦在通信装置1中开始通话，则麦克风20始终获取语音信号。麦克风20将所获取的语音信号输出给控制部100的语音获取部102。

收发部30能够进行基于语音和影像的通话。收发部30将用户的发声语音的语音数据和用户的脸部的影像数据发送到通话对象所使用的通信装置。收发部30接收通话对象的发声语音的语音数据和脸部的影像数据。收发部30通过无线或有线进行通信。收发部30例如可以使用包含4G线路等的便携式电话的线路。收发部30例如也可以使用包含Wifi(注册商标)的无线通信标准。收发部30也可以使用有线通信标准。收发部30通过控制部100的通话处理部103被控制其通话开始和通话结束。

显示面板40是包括液晶显示器(LCD：Liquid Crystal Display)或有机EL(Organic Electro-Luminescence，电致发光)显示器等的显示器。显示面板40基于从控制部100的显示控制部104输出的影像信号来显示影像。

扬声器50是语音输出装置。扬声器50基于从控制部100的语音输出处理部105输出的语音信号来输出语音。在本实施方式中，扬声器50在经由收发部30进行通话时，输出通话对象的发声语音。

控制部100例如是由CPU(Central Processing Unit，中央处理单元)等构成的运算处理装置。控制部100将存储在存储部120中的程序加载到存储器中，执行程序中包含的命令。控制部100在用户的嘴唇部200的识别率低时，生成强调了用户的嘴唇部200的动作的强调影像210。控制部100具有影像获取部101、语音获取部102、通话处理部103、显示控制部104、语音输出处理部105、语音识别部106、嘴唇检测部107、嘴唇动作识别部108、比较部109和影像处理部110。控制部100中包含未图示的内部存储器，内部存储器用于控制部100中的数据的临时存储等。

影像获取部101获取至少拍摄了包含说话者的嘴唇部分200的嘴周边的影像数据。在本实施方式中，影像获取部101获取照相机10至少拍摄了包含用户的嘴唇部200的嘴周边的影像数据。更详细地说，影像获取部101对照相机10输出的影像信号执行编码处理等，获取作为数字数据的影像数据。影像获取部101将所获取的影像数据输出给嘴唇检测部107和影像处理部110。

语音获取部102获取说话者的发声语音的语音数据。更详细地说，语音获取部102对麦克风20输出的语音信号执行A/D(Analog/Digital模拟/数字)转换处理，获取作为数字数据的语音数据。语音获取部102将所获取的语音数据输出给通话处理部103、语音识别部106和比较部109。

通话处理部103经由收发部30进行通话处理。通话处理部103将用户的语音数据和用户的影像数据输出给收发部30。通话处理部103从收发部30获取通话对象的语音数据和通话对象的影像数据。通话处理部103将所获取的用户或通话对象的影像数据输出给显示控制部104。通话处理部103将所获取的通话对象的语音数据输出给语音输出处理部105。

显示控制部104在通话时将显示用户或通话对象的强调影像210的影像信号输出到显示面板40。更详细地说，显示控制部104对从通话处理部103获取的影像数据执行解码处理，将影像信号输出到显示面板40。或者，显示控制部104对影像获取部101所获取的影像数据执行解码处理，将影像信号输出到显示面板40。

语音输出处理部105对通话处理部103所获取的语音数据执行解码处理和D/A(Digital/Analog数字/模拟)转换处理，将语音信号输出到扬声器50。

语音识别部106执行语音识别处理，该语音识别处理根据语音获取部102所获取的语音数据来识别语音。语音识别处理可以以每个音素、每个单词等任意单位进行。语音识别处理的方法可以是公知的任意方法，没有限定。语音识别部106将识别结果输出给比较部109。

嘴唇检测部107从影像获取部101所获取的影像数据中检测嘴唇部200，并且检测嘴唇部200的动作。更详细地说，嘴唇检测部107对影像数据进行脸部识别处理，检测嘴唇部200。或者，嘴唇检测部107例如一边参照嘴唇辞典数据一边进行图像识别处理，从而识别嘴唇部200。嘴唇检测部107对检测出的嘴唇部200的动作进行检测。嘴唇检测部107将检测结果输出给嘴唇动作识别部108。

嘴唇动作识别部108根据嘴唇检测部107检测出的嘴唇部200的动作来识别发声内容。更详细地说，嘴唇动作识别部108一边参照嘴唇辞典数据一边进行图像识别处理，从而识别发声内容。嘴唇动作识别处理可以以每个音素、每个单词等任意单位进行。嘴唇动作识别部108将识别结果输出给比较部109。

参照图3、图4，对嘴唇动作识别处理进行说明。图3是说明嘴唇部的图，表示嘴唇闭合的状态。将图3所示的、嘴唇闭合的状态下的各部位的位置设为基本位置。图4是说明嘴唇部的动作的一例的图。在本实施方式中，嘴唇动作识别部108例如通过检测从嘴唇部200的部位P1到部位P8的动作来检测嘴唇部200的动作。嘴唇部200的各部位并不限定于此，只要是能够读取嘴唇部200的动作的部位即可。部位P1是右侧嘴角。用矢量V1表示部位P1的动作。矢量V1表示部位P1相对于基本位置的动作。在本实施方式所示的例子中，由于部位P1的动作小，因此省略矢量V1的图示。在各图中，部位P1图示了基本位置。对于其他部位也同样。部位P2是左侧嘴角。用矢量V2表示部位P2的动作。在本实施方式所示的例子中，由于部位P2的动作小，因此省略矢量V2的图示。部位P3是上唇的右侧的上端部。用矢量V3表示部位P3的动作。部位P4是上唇的左侧的上端部。用矢量V4表示部位P4的动作。部位P5是上唇的中央部的下端部。用矢量V5表示部位P5的动作。部位P6是下唇的右侧的下端部。用矢量V6表示部位P6的动作。部位P7是下唇的左侧的下端部。用矢量V7表示部位P7的动作。部位P8是下唇的中央部的上端部。将部位P8的动作设为矢量V8。

各矢量V也可以表示为各部位P相对于前一个或规定数量之前的帧的影像数据的嘴唇部200的各部位P的动作。

各矢量V也可以表示为各部位P相对于从某个音素发出下一个音素时的嘴唇部200的各部位P的动作。

比较部109将同一发声、换言之同一期间内的、语音识别部106所识别出的识别结果与嘴唇动作识别部108所识别出的识别结果进行比较。同一期间例如是与每个单词、每个短语等发声的任意单位对应的期间。识别结果的比较是指识别率的比较。

通过比较发声内容和识别结果来计算识别率。例如，如果发声内容和识别结果全部一致，则识别率为100％。当相对于发声内容、识别结果的字符被错误地插入、删除或替换时，识别率被计算得较低。

参照图5对识别率进行说明。图5是说明语音识别处理的处理结果、嘴唇动作识别处理的处理结果和识别率的图。例如，对语音识别部106将说出的“おはよう”和“ございます”的语音识别为“おはよう”和“ございます”的情况进行说明。通过从上下文进行加权处理或与单词词典进行对比处理，将识别结果中的“おはよう”、“ございます”的单词判定为作为单词成立，所以识别率均为100％。

例如，对嘴唇动作识别部108将说出的“おはよう”和“ございます”的语音识别为“おあよう”、“ごあいます”的情况进行说明。通过从上下文进行加权处理或与单词词典进行对比处理，将识别结果的“おあよう”“ごあいます”的单词判定为作为单词不成立。另外，根据上下文和单词词典推测发声内容为“おはよう”、“ございます”。因此，“おあよう”的识别率为75％，“ごあいます”的识别率为80％。

影像处理部110生成强调影像210，强调影像210将嘴唇检测部107检测出的嘴唇部200的动作以变大的方式进行了强调。在本实施方式中，影像处理部110在比较部109的比较结果中在嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的情况下，生成强调影像210。

使用图4、图6、图7对强调影像210进行说明。图6是说明以嘴唇部的动作变大的方式强调的强调影像的一例的图。图7是说明将以嘴唇部的动作变大的方式强调的强调影像重叠或合成在用户的脸部的影像上的影像的图。首先，对图4所示的嘴唇部200的部位P1到部位P8的矢量V1到矢量V8，例如乘以1以上、更优选为1.5以上且2.0以下的系数来计算各部位的位置。在图6中，虚线表示图4所示的矢量V1到矢量V8，实线表示乘以系数后的矢量V1到矢量V8。然后，连接计算出的各部位、换言之各矢量的前端部，得到嘴唇部200的外径。具有如上所述所得到的外形的嘴唇部200的影像为强调影像210。在本实施方式中，进一步将强调影像210重叠或合成在用户的原来的脸部的影像的嘴唇部200上，生成图7所示的脸部影像220。

或者，也可以生成包含强调影像210的用户的脸部的动画影像作为脸部影像220。例如，可以用动画表现包含用户的脸部的影像整体，也可以在影像获取部所获取的用户的影像中仅将嘴唇部分合成显示为动画影像。

影像处理部110也可以基于语音识别部106识别出的语音来修正嘴唇检测部107检测出的嘴唇部200的动作，生成强调影像210。

影像处理部110一旦开始强调影像210的生成处理，则继续生成处理直到例如通话结束为止。

返回到图1，存储部120用于通信装置1中的数据的临时存储等。存储部120例如是RAM(Random Access Memory，随机存取存储器)、ROM(Read Only Memory，只读存储器)、闪存(Flash Memory)等半导体存储元件或硬盘、光盘等存储装置。或者，也可以是经由未图示的通信装置无线连接的外部存储装置。存储部120存储有嘴唇辞典数据。

接着，使用图8对通信装置1的控制部100中的处理流程进行说明。图8是示出第一实施方式所涉及的通信装置中的处理流程的流程图。一旦在通信装置1中执行通话开始的操作，则执行步骤S11以后的处理。通信装置1在通话中，换言之在执行图8所示的流程图的处理的期间，通过收发部30获取通话对象的发声语音。

控制部100获取用户的发声语音及用户的脸部的影像(步骤S11)。更具体来说，控制部100通过语音获取部102获取用户的发声语音的语音数据。控制部100通过影像获取部101获取用户脸部的影像数据。控制部100进入步骤S12。

控制部100执行语音识别处理(步骤S12)。更详细地说，控制部100通过语音识别部106执行语音识别处理，该语音识别处理从语音获取部102所获取的语音数据中识别语音。控制部100进入步骤S13。

控制部100执行嘴唇检测处理(步骤S13)。更详细地说，控制部100通过嘴唇检测部107从影像获取部101所获取的影像数据中检测嘴唇部200，并且检测嘴唇部200的动作。控制部100进入步骤S14。

控制部100执行嘴唇动作识别处理(步骤S14)。更详细地说，控制部100通过嘴唇动作识别部108根据嘴唇检测部107检测出的嘴唇部200的动作来识别发声内容。控制部100进入步骤S15。

控制部100执行识别结果比较处理(步骤S15)。更详细地说，控制部100通过比较部109将语音识别部106识别出的识别结果的识别率与嘴唇动作识别部108识别出的识别结果的识别率进行比较。控制部100进入步骤S16。

控制部100判定语音识别率是否比嘴唇识别率高(步骤S16)。更详细地说，控制部100在语音识别部106的识别结果的识别率比嘴唇动作识别部108的识别结果的识别率高的情况下(在步骤S16中为“是”)，进入步骤S18。控制部100在语音识别部106的识别结果的识别率不高于嘴唇动作识别部108的识别结果的识别率的情况下(在步骤S16中为“否”)，进入步骤S17。

控制部100发送影像及语音(步骤S17)。更详细地说，控制部100通过通话处理部103将用户的语音数据和用户的脸部的影像数据输出到收发部30。由此，控制部100将未进行强调嘴唇部200的动作的处理的用户脸部的影像数据与用户的语音数据一起发送给通话对象。控制部100进入步骤S20。

控制部100执行强调处理(步骤S18)。更详细地说，控制部100通过影像处理部110生成强调影像210。由此，生成包含强调了用户的嘴唇部200的动作的强调影像210的用户脸部的脸部影像220。控制部100进入步骤S19。

控制部100发送强调后的影像和语音(步骤S19)。更详细地说，控制部100通过通话处理部103，将用户的语音数据和包含强调影像210的用户的脸部的脸部影像220的影像数据输出给收发部30。由此，控制部100将包含用户的强调影像210的脸部影像220的影像数据与用户的语音数据一起发送给通话对象。控制部100进入步骤S20。

控制部100判定是否执行了通话结束的操作(步骤S20)。更详细地说，控制部100在执行了例如选择通话结束的按钮等通话结束操作的情况下(步骤S20中为“是”)，结束通话，结束流程图的处理。控制部100在未执行通话结束操作的情况下(步骤S20中为“否”)，再次执行步骤S11的处理。

如上所述，在嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，生成将用户的嘴唇部200的动作以变大的方式强调的强调影像210。

如上所述，本实施方式在嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，将包含强调了用户的嘴唇部200的动作的强调影像210的脸部影像220与语音一起发送给通话对象。根据本实施方式，即使用户的嘴唇部200的动作小，通话对象也能够容易地根据强调影像210来识别用户的发声内容。这样，本实施方式能够使通话对象恰当地识别用户的发声内容。根据本实施方式，能够容易地进行与具有听力障碍的通话对象的通话。

本实施方式将强调影像210重叠或合成在用户脸部的影像上。由此，根据本实施方式，通话对象能够根据强调影像210容易地识别用户的发声语音，并且能够根据用户脸部的脸部影像220读取表情，恰当地汲取用户的发声内容的意图。

[第二实施方式]

参照图9，对本实施方式所涉及的通信装置1进行说明。图9是示出第二实施方式所涉及的通信装置中的处理流程的流程图。在本实施方式中，通信装置1的用户是听力障碍者。在本实施方式中，通话对象是说话者。在本实施方式中，通信装置1显示与通话对象的发声语音的语音对应的通话对象的脸部的影像，作为听力障碍者的用户容易进行通话。通信装置1的基本结构与第一实施方式的通信装置1相同。在以下的说明中，对与通信装置1相同的构成要素标注相同的符号或对应的符号，并省略其详细说明。通信装置1的控制部100中的处理与通信装置1不同。

显示面板40在经由收发部30进行通话时，显示通话对象的脸部的脸部影像220，该脸部影像220包含与通话对象的发声语音对应的强调影像210。

扬声器50在经由收发部30进行通话时，输出通话对象的发声语音。

当通话对象的嘴唇部200的识别率低时，控制部100生成强调通话对象的嘴唇部200的动作的强调影像210。

影像获取部101经由通话处理部103获取至少拍摄了包含通话对象的嘴唇部200的嘴周边的影像数据。

语音获取部102经由通话处理部103至少获取通话对象的语音数据。

通话处理部103从收发部30获取语音数据和影像数据。通话处理部103将获取的语音数据输出到语音获取部102。通话处理部103将获取的影像数据输出到影像获取部101。

显示控制部104在通话时将显示通话对象脸部的影像的影像信号输出到显示面板40。更详细地说，显示控制部104对从通话处理部103获取的通话对象的脸部的影像数据执行解码处理，将影像信号输出到显示面板40。或者，显示控制部104对包含影像处理部110所生成的强调影像210的通话对象的脸部影像的影像数据执行解码处理，将影像信号输出到显示面板40。

接着，使用图9对通信装置1中的处理流程进行说明。图9所示的流程图的步骤S22至步骤S26、步骤S30的处理进行与图8所示的流程图的步骤S12至步骤S16、步骤S20的处理相同的处理。

控制部100获取接收到的通话对象的发声语音以及通话对象的脸部的影像(步骤S21)。更详细地说，控制部100通过通话处理部103，获取通话对象的发声语音的语音数据和通话对象的脸部的影像数据。控制部100进入步骤S22。

控制部100显示影像，并输出语音(步骤S27)。更详细地说，控制部100通过显示控制部104对未进行强调通话对象的嘴唇部200的动作的处理的影像数据执行解码处理，将显示影像的影像信号输出到显示面板40。控制部100通过语音输出处理部105对通话对象的语音数据执行D/A转换处理，将语音信号输出到扬声器50。控制部100进入步骤S30。

控制部100执行强调处理(步骤S28)。由此，生成包含通话对象的强调影像210的脸部影像的影像数据。控制部100进入步骤S29。

控制部100显示强调后的影像，并输出语音(步骤S29)。更详细地说，控制部100通过显示控制部104对包含通话对象的强调影像210的脸部影像的影像数据执行解码处理，将影像信号输出到显示面板40。控制部100通过语音输出处理部105对通话对象的语音数据执行D/A转换处理，将语音信号输出到扬声器50。控制部100进入步骤S30。

这样，在嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，生成将通话对象的嘴唇部200的动作以变大的方式强调的强调影像210。

如上所述，本实施方式在嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，显示包含强调了通话对象的嘴唇部200的动作的强调影像210的脸部影像220，并且输出通话对象的语音。根据本实施方式，即使通话对象的嘴唇部200的动作小，用户也能够容易地根据强调影像210识别通话对象的发声内容。这样，本实施方式能够使用户恰当地识别通话对象的发声内容。根据本实施方式，具有听力障碍的用户能够容易地进行与通话对象的通话。

[第三实施方式]

参照图10，对本实施方式所涉及的通信装置1进行说明。图10是示出第三实施方式所涉及的通信装置中的处理流程的流程图。在本实施方式中，通信装置1的用户是听力障碍者。在本实施方式中，通话对象是说话者。通信装置1的基本结构与第二实施方式的通信装置1相同。通信装置1的控制部100中的处理与第二实施方式的通信装置1不同。

控制部100在判定为通信对象在以前的通话中嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，生成强调了嘴唇部200的动作的强调影像210。

比较部109按照每个通话对象和通话将比较结果存储在存储部120中。

影像处理部110在判定为通信对象在以前的通话中嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，生成强调影像210。

存储部120按照每个通话对象和通话存储比较部109的比较结果。

接着，使用图10，对通信装置1中的处理流程进行说明。图10所示的流程图中的步骤S32、步骤S33至步骤S37、步骤S38至步骤S40的处理进行与图9所示的流程图中的步骤S27、步骤S21至步骤S25、步骤S28至步骤S30的处理相同的处理。

控制部100判定通话对象在以前的通话中是否判定为语音识别率高于嘴唇识别率(步骤S31)。更详细地说，控制部100在存储部120中存储有关于通话对象的以前的通话的比较部109的比较结果为语音识别部106的识别结果的识别率高于嘴唇动作识别部108的识别结果的识别率的情况下(步骤S31中为“是”)，进入步骤S33。控制部100在没有存储的情况下(在步骤S31中为“否”)，进入步骤S32。

这样，在判定为通信对象在以前的通话中嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，生成将通话对象的嘴唇部200的动作以变大的方式强调的强调影像210。

如上所述，本实施方式在判定为通信对象在以前的通话中嘴唇动作识别部108的识别结果的识别率低于语音识别部106的识别结果的识别率的情况下，显示包含强调了通话对象的嘴唇部200的动作的强调影像210的脸部影像220，并且输出通话对象的语音。根据本实施方式，具有听力障碍的用户能够容易地进行与通话对象的通话。

至此，对本发明涉及的通信装置1进行了说明，但除了上述实施方式以外，也可以通过各种不同的方式来实施。

图示的通信装置1的各构成要素是功能概念性的要素，在物理上也可以不一定如图示那样构成。即，各装置的具体方式不限于图示的方式，也可以根据各装置的处理负担或使用状况等将其全部或一部分以任意单位在功能上或物理上分散或集成。

通信装置1的构成示例通过例如作为软件而加载到存储器中的程序等来实现。在上述实施方式中，说明了通过这些硬件或软件的协作来实现的功能块。即，对于这些功能块，能够仅通过硬件、仅通过软件、或者通过它们的组合以各种形式来实现。

上述的构成要素包括本领域技术人员能够容易地想到的、实质上相同的要素。此外，上述构成可以适当地组合。另外，在不脱离本发明主旨的范围内可以进行构成的各种省略、替换或变更。

第一实施方式和第二实施方式也可以作为一个通信装置来实现。

在上述中，作为通信装置进行了说明，但并不限定于通信装置。也可以是具有影像获取部101、语音获取部102、显示控制部104、语音输出处理部105、语音识别部106、嘴唇检测部107、嘴唇动作识别部108、比较部109、以及影像处理部110的显示控制装置。例如，作为听力障碍者的用户在收看播音员阅读新闻的新闻影像时，通过显示控制装置能够收看强调了播音员的嘴唇部200的动作的强调影像210。例如，在用户为了听力障碍者而生成影像时，通过显示控制装置可以生成包含强调了说话者的嘴唇部200的动作的强调影像210的影像。

在图8所示的流程图的步骤S16中，控制部100也可以判定嘴唇识别率是否为阈值以下。然后，在判定为嘴唇识别率为阈值以下的情况下，进入步骤SS18，在判定为嘴唇识别率不在阈值以下的情况下，进入步骤SS17。

符号说明

1 通信装置

10 照相机

20 麦克风

30 收发部

40 显示面板(显示部)

50 扬声器

100 控制部

101 影像获取部

102 语音获取部

103 通话处理部

104 显示控制部

105 语音输出处理部

106 语音识别部

107 嘴唇检测部

108 嘴唇动作识别部

109 比较部

110 影像处理部

200 嘴唇部

210 强调影像

220 脸部影像

Claims

1.一种显示控制装置，其特征在于，包括：

影像获取部，获取至少拍摄了说话者的嘴周边的影像数据；

嘴唇检测部，从所述影像数据中检测嘴唇部，并且检测嘴唇部的动作；

影像处理部，生成以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像；以及

显示控制部，使显示部显示所述影像处理部生成的影像。

2.根据权利要求1所述的显示控制装置，还包括：

语音获取部，获取所述说话者的发声语音的语音数据；

语音识别部，根据所述语音获取部所获取的所述语音数据来识别语音；

所述影像处理部基于所述语音识别部识别出的语音，生成以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像。

3.根据权利要求2所述的显示控制装置，还包括：

嘴唇动作识别部，根据所述嘴唇检测部检测出的嘴唇部的动作来识别发声内容；以及

比较部，对所述语音识别部识别出的识别结果和所述嘴唇动作识别部识别出的识别结果进行比较，

所述影像处理部在所述比较部的比较结果中所述嘴唇动作识别部的识别结果的识别率低于所述语音识别部的识别结果的识别率的情况下，生成以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像。

4.根据权利要求3所述的显示控制装置，其中，

所述影像处理部生成以使所述嘴唇检测部检测出的嘴唇动作变大的方式强调的动画的影像。

5.一种通信装置，其特征在于，包括：

权利要求3或4所述的显示控制装置；以及

通话处理部，进行通话处理，

所述语音获取部获取通话时的发声语音，

所述影像处理部将所述通话处理部要发送的影像作为以使所述嘴唇检测部检测出的嘴唇部的动作变大的方式强调的影像。

6.一种通信装置，其特征在于，包括：

权利要求3或4所述的显示控制装置；以及

通话处理部，进行通话处理，

所述语音识别部根据所述通话处理部接收并获取的语音数据来识别语音，

所述影像获取部获取所述通话处理部接收到的影像数据。

7.根据权利要求5或6所述的通信装置，其中，

在所述通话处理部开始通话后、所述比较部的比较结果产生了所述嘴唇动作识别部的识别结果的识别率低于所述语音识别部的识别结果的识别率的结果的情况下，所述影像处理部直至通话结束进行以使嘴唇动作成为大的影像的方式进行强调的处理。

8.根据权利要求5或6所述的通信装置，其中，

在所述通话处理部的通话对象是在以前的通话中所述比较部的比较结果产生了所述嘴唇动作识别部的识别结果的识别率低于所述语音识别部的识别结果的识别率的结果的通话对象的情况下，所述影像处理部从开始通话起进行以使嘴唇动作成为大的影像的方式进行强调的处理。

9.一种显示控制方法，其特征在于，包括以下步骤：

影像获取步骤，获取至少拍摄了说话者的嘴周边的影像数据；

嘴唇检测步骤，从所述影像数据中检测嘴唇部，并且检测嘴唇部的动作；

影像处理步骤，生成以使在所述嘴唇检测步骤中检测出的嘴唇部的动作变大的方式强调的影像；以及

显示控制步骤，使显示部显示在所述影像处理步骤中生成的影像。

10.一种程序，用于使计算机执行以下步骤：