CN105227777A

CN105227777A - 接听方法及语音通信装置

Info

Publication number: CN105227777A
Application number: CN201510685712.6A
Authority: CN
Inventors: 张云鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-06-20
Filing date: 2015-10-20
Publication date: 2016-01-06

Abstract

一种语音通信装置，该语音通信装置具有语音自动接听单元、图像自动接听单元和手势自动接听单元中的至少一种，所述语音自动接听单元、所述图像自动接听单元和所述手势自动接听单元通过总线与所述语音通信装置的其它构成部分连接，所述语音自动接听单元还具有语音自动接听信号输出端，所述图像自动接听单元还具有图像自动接听信号输出端，所述手势自动接听单元还具有手势自动接听信号输出端，所述语音通信装置根据所述语音自动接听信号输出端、所述图像自动接听信号输出端和所述手势自动接听信号输出端中的至少一个输出端的输出来自动接听来电。

Description

接听方法及语音通信装置

技术领域

本发明涉及接听方法及语音通信装置，具体而言，涉及通过语音、图像序列或手势等来判定是否接听或断开来电的接听方法和语音通信装置。

背景技术

用户在使用手机等语音通信装置来接听来电时，需要用手指触摸手机的按键或屏幕等方式来接听来电。这种接通方式存在以下问题：第一，在驾驶时等，手必须离开方向盘来操作手机、接听电话，存在操作不便的问题。第二，如果采用触摸屏滑动触摸接听的方式，存在必须注视屏幕的问题，这也导致操作不便。第三，例如因作失误、操作不到位或因传感器灵敏度(传感器灵敏度本身较差或者因带有手套等导致对触摸操作的感测不灵敏)而导致不能及时接听或需要多次操作才能接听的问题，甚至会导致因误操作而错误地挂断来电。

此外，还存在通过语音控制来接听电话的方法，即，用户预先设置接听电话的语音，例如，用户预先录制“我要接电话”，用户在需要接听时发出“我要接电话”，电子设备将用户发出的语音与预先设置的“我要接电话”录音进行语音识别，如果语音识别成功，则接听来电接进。但该方法存在用户需要预先录制一段语音的问题。

发明内容

针对以上问题，本发提供了通过语音、图像序列和手势等来判定是否接听或断开来电的接听方法及使用该接听方法语音通信装置。

技术方案为一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得用户发出的预定时间长度的语音，

对所取得的语音与接听指令语音的信息进行匹配，判定所取得的语音是否为接听指令语音，

如果判定为是接听指令语音，则使所述语音通信装置自动接听来电，

如果匹配不成功，则将该语音作为待判定语音保存，针对所述待判定语音，将频繁出现的待判定语音判定为所述接听指令语音。

技术方案2为一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得预定时间内的多帧图像，

将所取得的图像与接听指令图像进行匹配，判定所取得的图像是否包含接听指令图像，

如果判定为包含接听指令图像，使所述语音通信装置自动接听来电，

如果匹配不成功，则将所述多个图像作为待判定图像保存，针对所述待判定图像，将频繁出现的待判定图像判定为所述接听指令图像。

技术方案3为一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，所述接听指令手势匹配模块取得预定时间内的手势的信息，

将所取得的手势与接听指令手势进行匹配，判定所取得的手势是否为接听指令手势，

如果判定为是接听指令手势，使所述语音通信装置自动接听来电，

如果匹配不成功，则将所述手势的作为待判定手势保存，针对所述待判定手势，将频繁出现的待判定手势判定为所述接听指令手势。

技术方案4为一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得预定时间内的多帧图像，

基于所述图像生成手势信息，将所生成的手势信息与接听指令手势进行匹配，判定所取得的手势是否为接听指令手势，

如果匹配不成功，则将所述手势的信息作为待判定手势保存，针对所述待判定手势，将频繁出现的待判定手势判定为所述接听指令手势。

技术方案5基于技术方案3或4所述的接听方法，其中，

将所述接听指令手势简化为由具有先后关系的移动子动作和静止子动作构成。

技术方案6基于技术方案3或4所述的接听方法，其中，

将所述接听指令手势简化为由具有先后关系的移动子动作和铅直地保持静止的子动作构成。

技术方案7基于技术方案1～3中的任意一项所述的接听方法，其中，

在接听指令图像更新模块中，基于由多帧所述图像构成的图像序列，生成用于进行匹配的所述接听指令图像的序列，在所述接听指令图像匹配模块中，基于所述接听指令图像的序列进行匹配。

技术方案8基于技术方案2或3所述的接听方法，其中，

在基于所述接听指令图像或所述手势判定为所述语音通信装置远离耳部的情况下，在接听来电后，自动地所述语音通信装置的声音或设为免提模式。

技术方案9为一种接听方法，其用于语音通信装置，其中，

在用户第一指示拒绝来电时，所述语音通信装置不断开来电，而保留来电，

当在预定保留时间阈值内所述用户再次做出断开来电的指示的情况下，断开来电，

当在预定保留时间阈值内所述用户再次做出接听来电的指示的情况下，使语音通信装置接通来电。

技术方案10为一种语音通信装置，其中，

该语音通信装置组合使用技术方案1～9中的至少一种方法来判断接听或断开来电。

技术方案11为一种语音通信装置，该语音通信装置具有语音自动接听单元、图像自动接听单元和手势自动接听单元中的至少一种，

所述语音自动接听单元、所述图像自动接听单元和所述手势自动接听单元通过总线与所述语音通信装置的其它构成部分连接，

所述语音自动接听单元具有接听指令语音存储模块、接听指令语音匹配模块和接听指令语音更新模块，所述语音自动接听单元还具有语音自动接听信号输出端，

所述图像自动接听单元具有接听指令图像存储模块、接听指令图像匹配模块和接听指令图像更新模块，所述图像自动接听单元还具有图像自动接听信号输出端，

所述手势自动接听单元具有接听指令手势存储模块、接听指令手势匹配模块和接听指令手势更新模块，所述手势自动接听单元还具有手势自动接听信号输出端，

所述语音通信装置根据所述语音自动接听信号输出端、所述图像自动接听信号输出端和所述手势自动接听信号输出端中的至少一个输出端的输出来自动接听来电。

另外，还可以是，所述接听指令语音存储模块存储接听指令语音的信息和待判定语音的信息，

在发生来电呼叫时，所述接听指令语音匹配模块取得用户发出的预定时间长度的语音，基于接听指令语音存储模块中的所述接听指令语音信息，判定所取得的语音是否为接听指令语音，如果判定为是接听指令语音，则所述语音通信装置自动接听来电，如果匹配不成功，则将该语音作为待判定语音而临时记录到接听指令语音存储模块中，

所述接听指令语音更新模块，针对所述接听指令语音存储模块中的各个待判定语音，将频繁出现的待判定语音判定为接听指令语音；

所述接听指令图像存储模块存储接听指令图像的信息和待判定图像的信息，

在发生来电呼叫时，所述接听指令图像匹配模块取得预定时间内的多帧图像，基于接听指令图像存储模块中的所述接听指令图像，判定所取得的图像是否包含接听指令图像，如果判定为包含接听指令图像，使所述语音通信装置自动接听来电，如果匹配不成功，则将所述多个图像的作为待判定图像而临时记录到接听指令图像存储模块中，

所述接听指令图像更新模块针对所述接听指令图像存储模块中的各个待判定图像，将频繁出现的待判定图像判定为接听指令图像；

所述接听指令手势存储模块存储接听指令手势的信息和待判定手势的信息，

在发生来电呼叫时，所述接听指令手势匹配模块取得预定时间内的手势的信息，基于接听指令手势存储模块中的所述接听指令手势，判定所取得的手势是否为接听指令手势，如果判定为是接听指令手势，使所述语音通信装置自动接听来电，如果匹配不成功，则将所述手势的作为待判定手势而临时记录到接听指令手势存储模块中，

所述接听指令手势更新模块针对所述接听指令手势存储模块中的各个待判定手势，将频繁出现的待判定手势判定为接听指令手势。

在技术方案11中，还可以是，将所述接听指令手势简化为由具有先后关系的移动子动作和静止子动作构成。即，在发生来电时，如果判定为用户在移动手机后保持手机静止，则自动接听。

在技术方案11中，还可以是，将所述接听指令手势简化为由具有先后关系的移动子动作和铅直地保持静止的子动作构成。即，在发生来电时，如果判定为用户在移动手机后保持手机铅直地静止，则自动接听。

在技术方案11中，还可以是，在接听指令图像更新模块中，基于由多帧所述图像构成的图像序列，生成用于进行匹配的所述接听指令图像的序列，在所述接听指令图像匹配模块中，基于所述接听指令图像的序列进行匹配。

在技术方案11中，还可以是，在基于所述接听指令图像判定为所述语音通信装置远离耳部的情况下，在接听来电后，自动地所述语音通信装置的声音或设为免提模式。

在技术方案11中，还可以是，该语音通信装置具有二次挂断模块，该二次挂断模块具有断开信号输出端，该二次挂断模块通过总线与所述语音通信装置的其它部分连接，

在用户第一指示拒绝来电时，该二次挂断模块输出临时保持信号，响应于该临时保持信号，所述语音通信装置不断开来电，而保留来电，

在预定保留时间阈值内，用户再次做出断开来电的指示的情况下，所述二次挂断模块输出断开来电的信号，

在预定保留时间阈值内，用户再次做出接听来电的指示的情况下，所述二次挂断模块输出接听来电的信号。

技术方案12为计算机程序，其使计算机实现1～9中的至少一种方法。

附图说明

图1是示出手机100的构成的框图。

图2是示出手机100的示意性外观图。

图3是示出对重力传感器进行说明的图。

图4是示出FPGA1的构成和输出端的框图。

图5是示出自动接听处理程序P1的构成的框图。

图6是示出FPGA2的构成的框图(未示出自动接听信号输出端)。

图7是示出自动接听处理程序P2的构成的框图。

图8是示出FPGA3的构成的框图(未示出自动接听信号输出端)。

图9是示出自动接听处理程序P3的构成的框图。

图10是示出FPGA3'的构成的框图。

图11是示出FPGA4的构成的框图。

具体实施方式

实施方式1

使用图1所示的手机100来实现实施方式1。此处，作为语音通信装置的例子手机100，举出了手持式智能电话的例子，但也可以是其他语音通信装置，例如平板电脑等。

如图1所示，在手机100中，通过总线105连接有处理器101、第1存储器103、第2存储器104、触摸显示面板121、外围设备接口112，并通过外围设备接口112连接有按键122、传声器123、扬声器124、通信电路125、存储卡读写器126、姿态传感器127、拍摄部128、FPGA1、FPGA2、FPGA3和FPGA4等。这些部件由电源131供电。

总线105连接手机100的各个构成部分，传输命令和数据。处理器101例如由至少1个CPU(中央处理器)或DSP(数字信号处理器)构成。第1存储器103例如由随机存取存储器(RAM)构成，暂时存储程序和程序运行中产生的临时数据。第2存储器104例如由一个或多个磁盘存储装置、闪存装置或其它非易失性固态存储装置等构成，用于持久地保持数据。

外围设备接口112可以将手机100的输入和输出外围设备耦接至处理器101和第1存储器103。处理器101加载并执行第2存储器104中存储的操作系统和各种应用软件，来控制语音通信装置的各个构成部分，完成各种功能。操作系统可以采用OSX、WINDOWS或VxWorks等。应用软件例如包括浏览器、视频播放器、音乐播放器等。

传声器123用于向手机100输入声音，扬声器124用于向外部发出声音。触摸显示面板121例如可以由具有触摸功能的液晶显示面板构成，具有在处理器101的控制下进行显示的功能以及检测用户对触摸显示面板121的触摸而进行输入的功能等。用户可以使用手指、触摸笔等物体或器具来与触摸显示面板121接触。姿态传感器127由至少一个加速度传感器构成。在此处，举出了加速度传感器的例子，但只要能够判定手机的手势，也可以是其它传感器，例如使用重力传感器或者同时使用两者等方式。拍摄部128例如由光学元件和将光学信号转换为电信号CCD等元件构成。拍摄部128可以是两个，例如，分别位于内部和外部的拍摄部。

触摸显示面板121向用户显示例如文本、网页、图形。电源131由可充电电池或变压器构成。在图1中，为了简化，省略了电源131与各部分的连接关系。按键122例如由一个或多个按压式开关或感应式开关构成，来完成接通/关闭电源、调用主菜单等功能。通信电路125例如由通信元件和天线构成，通信电路125使语音通信装置连接于移动通信网络、局域网或互联网等网络等，来发送和接收信息，提供语音通信和数据通信等功能。FPGA1、FPGA2、FPGA3、FPGA4例如由FPGA(FieldProgrammableGateArray：现场可编程门阵列)芯片构成。

应该理解到，手机100仅是语音通信装置的一个示例，在实际应用中，可以添加或减少部件，可以组合两个或更多的部件，或者采用其它布置方式。图1中示出的各种部件可以用硬件、软件或硬件和软件的组合实现。

手机100例如在第2存储器104中存储接听指令语音和待判定语音，由此，使第2存储器104发挥接听指令语音存储模块的功能。但也可以在FPGA1中内置接听指令语音存储模块。

接听指令语音被用来判定用户发出的语音是否开始自动接听。在该判定中，通过语音识别处理，判定待用户发出的语音与接听指令语音存储模块中的接听指令语音的近似度(匹配度)。语音识别处理大体分为两大类，即识别语音的含义的语义识别处理和语音匹配处理。此处，在语音匹配处理中不区分语音的含义，具有避免因方言、发音方式、语义理解等导致的误识别等优势，因此，此处优选采用语音匹配处理来判定匹配度，即近似度。

如图4所示，FPGA1包含接听指令语音匹配模块M11和接听指令语音更新模块M12。在发生来电时，在处理器101的控制下，调用FPGA1的功能，实现自动接听处理。其中，接听指令语音匹配模块M11包括语音取得子模块P111、语音预处理子模块P112、孤立词取得子模块P113、特征值抽取子模块P114和匹配判定子模块P115。FPGA1具有自动接听信号输出端，用来输出自动接听信号，使得手机100可响应于该语音自动接听信号而自动接听来电。

在发生来电呼叫时，通过语音取得子模块P111，取得用户发出的预定时间长度的语音。在取得用户的语音时，该取得用户语音的长度至少包含一个孤立词，以用于匹配判定。

在语音预处理子模块P112中，对语音进行去噪、预加重(Pre-emphasis)处理、加窗分帧等处理。

在孤立词取得子模块P113中，例如通过双门限端点检测法等端点检测方法，得到孤立词，例如“喂”、“hello”、“你好”等。为了减小计算量，优选采用预定个数的孤立词来进行比较，例如，第一个孤立词，前两个孤立词等。

在特征值抽取子模块P114中，针对所取得的语音与接听指令语音存储模块中的接听指令语音，例如基于线性预测的倒谱系数(LPCC)和Mel频率的倒谱系数(MFCC)等，提取孤立词的特征值。

在匹配判定子模块P115中，结合采用DTW(DynamicTimeWarping，动态时间归整)算法，基于上述特征值，例如计算所取得的语音与接听指令语音之间的失真距离来作为匹配度，由此实现匹配处理。例如，如果所取得的语音与接听指令语音存储模块中的一个接听指令语音的匹配度大于匹配阈值，则判定为用户发出的语音为接听指令语音，从而自动接听电话。如果匹配不成功，则将该语音作为待判定图像而临时记录到接听指令语音存储模块中。

接听指令语音更新模块M12包括特征值抽取子模块P121、匹配生成子模块P122。例如，在特征值抽取子模块P121中，与在特征值抽取子模块P114中类似地，针对接听指令语音存储模块中的各个待判定语音，计算特征值。

在匹配生成子模块P122中，利用采用上述计算失真距离的方法来计算各个待判定语音相互之间的匹配度，计算匹配度大于匹配阈值的待判定语音的重复出现的次数，将该重复次数大于重复阈值(即频繁出现)的待判定语音判定为接听指令语音。此处，基于计算失真距离的来生成接听指令语音的方法，即，判定该用户每次接听电话时经常说的语音，将例如“喂、喂”、“hello”等接听电话时经常说语音作为接听指令语音。

其中，在计算失真距离时，可以采用欧氏距离、马氏距离、或者对数似然比距离等方法进行计算。在接听指令语音存储模块中，也可以保存语音，也可以保存语音的特征值。为了减少计算量，优选保存特征值。在接听指令语音存储模块中保存特征值的情况下，可以省略特征值抽取子模块P121。以上仅为示例，也可以采用其他方法来判定匹配度(近似度)。

此外，为了避免接听指令语音存储模块随着使用时间而不断变大，可以删除保存时间较久而未被判定为接听指令语音的待判定语音。此外，例如还可以限定接听指令语音的个数，采用先入先出等方法，在接听指令语音的个数大于一定数量时，去除最近未使用的接听指令语音，以加快匹配处理，节省存储空间等。

通过以上实施方式，用户无需预先存储用于自动接听的所谓“语音指令”，提高了用户使用的方便性。例如，用户接听电话是通常说“喂”，用户在多次使用手机后，“喂”作为接听指令语音而被保存。这样，在用户开车等情况下，说一声“喂”即可接听电话，提高了便利性。消除了手不方便操作或者接听电话时必须注视屏幕的问题。消除了例如因作失误、操作不到位或因传感器灵敏度而导致不能及时接听或需要多次操作才能接听的问题，提高了便利性。

关于匹配阈值，可根据使用次数而动态调整。例如，如果通过语音匹配而自动接通后，用户很快挂断电话，可以认为匹配阈值过低而导致无识别，在这种情况下，可以动态地调高匹配阈值。此外，匹配阈值也可以由用户手动调节。

此外，所述重复阈值也可以是动态地调整的。例如，在接听指令语音存储模块中的接听指令语音的数量较少的情况下，可以将重复阈值设置得较小，以较快得到接听指令语音，使用户能够通过语音来自动接听，提高便利性。

变形例1

在以上的说明中，通过FPGA芯片实现了判定和匹配语音的功能。但也可以通过使处理器101执行程序来实现此功能。例如，手机100使处理器101执行图5所示的自动接听处理程序P1，来执行自动接听功能。

自动接听处理程序P1包含接听指令语音匹配模块P11和接听指令语音更新模块P12。其中，接听指令语音匹配模块P11包括语音取得子模块P111、语音预处理子模块P112、孤立词取得子模块P113、特征值抽取子模块P114和匹配判定子模块P115。接听指令语音更新模块P12包括特征值抽取子模块P121、匹配生成子模块P122。各个子模块的功能与在实施方式1中说明的FPGA1的各个相应的子模块的功能相同，在此不再进行说明。

由此，通过使处理器101执行自动接听处理程序P1，完成语音匹配和自动接听的功能，从而具有在实施方式1中的技术效果。而且，可通过存储卡、下载等方式来进行安装，使现有的手机等设备具有自动接听的功能。此外，由于通过程序实现例如上述FPGA1硬件中的逻辑功能，可以省略FPGA1等硬件，节省了成本。

实施方式2

以下，对实施方式2进行详细说明。在此，采用与实施方式1相同的手机100来实现，因此省略对手机100各组成部分的具体说明。

在第2存储器104中来存储接听指令图像和待判定图像，由此发挥接听指令图像存储模块的功能。

如图6所示，FPGA2包括接听指令图像匹配模块M21和接听指令图像更新模块M22。接听指令图像匹配模块M21包括图像取得子模块P211和图像匹配子模块P212。FPGA2具有自动接听信号输出端，用来输出自动接听信号，使得手机100可响应于该语音自动接听信号而自动接听来电。

在发生来电呼叫时，图像取得子模块P211取得预定时间内的多帧图像，对各帧图像进行去噪、对大小和亮度进行归一化等预处理。在图像匹配子模块P212中，针对图像取得子模块P211处理后的各帧图像，与接听指令图像存储模块中存储的接听指令图像进行匹配。如果匹配成功，则判定所取得的图像是否包含接听指令图像，使语音通信装置自动接听来电，如果匹配不成功，则将多个图像作为待判定图像而临时记录到接听指令语音存储模块中。

此外，由于，用户接听电话时，手基本不再动作，因此，可以将取得图像的时间长度设定为到持续基本静止的姿态为止，即到图像不怎么变化位置，但也不限于此。该时间长度也可以设定为因无人接听而断开来电的时间长度。

例如，用户在接听电话时，往往将电话移动到耳边接听，这样接听指令图像存储模块中的接听指令图像例如多为以耳朵为中心的侧面。在匹配处理中，可以采用现有的图像识别方法，例如“特征采样和特征融合子图像方法(RS-SpCCA)”等人脸识别技术来进行匹配。例如，可以采用局部特征和全局特征(例如，侧面的耳朵形状、疤痕等局部特征和侧面的肤色等全局特征等)来进行匹配。

接听指令图像更新模块M22包括接听指令图像抽取子模块P221和清理子模块P222。在接听指令图像抽取子模块P221中，对待判定图像进行分类，将类似的且出现次数较多的图像判定为接听指令图像。例如，利用上述RS-SpCCA等人脸识别技术识别类似的图像，将类似的图像出现拼读大于规定阈值的图像判定为接听指令图像。在清理子模块P222中，将判定为非接听指令图像且保存时间较久的图像删除，以节省空间和计算量。此外，在接听指令图像存储模块中，可以保存图像自身，但为了节省空间，优选保存用于判定和匹配的特征值。与实施方式1类似的，可对使用到的阈值进行动态调整。

提供本实施方式，基于用户接听电话时经常出现的图像来实现自动接听功能，消除了手不方便操作或者接听电话时必须注视屏幕的问题。消除了例如因作失误、操作不到位或因传感器灵敏度而导致不能及时接听或需要多次操作才能接听的问题，提高了便利性。

变形例2

与变形例1类似地，可通过使处理器101执行自动接听处理程序P2来实现FPGA2的功能。

如图7所示，自动接听处理程序P2包括接听指令图像匹配模块P21和接听指令图像更新模块P22。接听指令图像匹配模块P21包括图像取得子模块P211和图像匹配子模块P212。接听指令图像更新模块P22包括接听指令图像抽取子模块P221和清理子模块P222。自动接听处理程序P2的各个子模块发挥与FPGA2的各个相应的子模块相同的功能。因此，能够具有实施方式2相同的效果，且能够省略FPGA2等硬件而节省成本等。

实施方式3

以下，对实施方式3进行详细说明。在此，采用与实施方式1相同的手机100来实现，因此省略对手机100各组成部分的具体说明。

在第2存储器104中来存储接听指令手势和待判定手势，由此发挥接听指令手势存储模块的功能。

如图8所示，FPGA3包括接听指令手势匹配模块M31和接听指令手势更新模块M32。接听指令手势匹配模块M31包括手势特征值抽取子模块P311和手势匹配判定子模块P312。接听指令手势更新模块M32包括匹配手势生成子模块P321和数据清理子模块P322。FPGA3具有自动接听信号输出端，用来输出自动接听信号，使得手机100可响应于该语音自动接听信号而自动接听来电。

例如，用户在听到铃声后，往往在接通来电后将手机放到耳边接听。例如，如图3所示，通过手机100中的由加速度传感器实现的姿态传感器，可得到手机的X轴、Y轴、Z轴的加速度信息。因此，在FPGA3中，根据关于手机的三维加速度信息，将接听时经常作出的动作作为“接听指令手势”。这样，基于接听指令手势的特征值，对来电时用户的动作进行识别，如果判定为符合接听动作，则自动接听电话。在对手势进行匹配时，例如，可以采用隐马尔科夫模型或SVM(SupportMectorMachine：支持向量机)等方法分析得到“接听指令手势”，并利用所得到的“接听指令手势”来进行匹配判定，以实现根据手势自动接听的功能。

具体而言，在发生来电时，在手势信息预处理子模块P311中，取得一定时间长度的手势信息，对表示手势的信息进行动作窗口检测、平滑滤波和归一化等预处理。例如，通常用户在做出某种手势后，会停顿或突然转折而做下一个动作，这些停顿和转折在加速度数据流中表现为“拐点”，在窗口检测中，根据这些拐点，可以手势分解为多个子动作。通过平滑滤波，例如去除手的抖动，以提高匹配和判定的准确度。例如，用户在接听电话时，有时手势较快，有时较慢，通过归一化处理，对此进行校正，以提高匹配和判定的准确度。这些预处理，仅为示例，可以根据去除或增加预处理。然后，例如取得预处理后的子动作的平均加速度值作为该子动作的特征值。

此外，由于，用户接听电话时，手基本不再动作，因此，可以将取得手势的时间长度设定为到持续基本静止的姿态为止，但也不限于此。该时间长度也可以设定为因无人接听而断开来电的时间长度。

在手势匹配判定子模块P312中，基于所取得由多个子动作的特征值，与接听指令手势存储模块中的接听指令手势进行匹配和判定(即，模式识别)。如果判定为符合接听指令手势，则自动接听来电。如果不是接听指令手势，则将这些特征值作为待判定手势保存到接听指令手势存储模块中，供接听指令手势更新模块M32分析判定使用。即，

例如，在匹配手势生成子模块P321中，基于隐马尔可夫模型法，对反映手势的一系列特征值作为输入来进行训练，由此得到反映手势的隐马尔可夫模型，并将在接听时频繁出现(例如，在一定能够时间内出现的次数大于一定阈值等)的手势判定为接听指令手势。在手势匹配判定子模块P312中，将不是接听指令手势且保存时间较旧的特征值清除，以节省存储空间。

这样，通过实施方式3，与实施方式1、2类似地，用户不需要特意设定某些手势来作为接听手势，手机自动地基于用户在接听电话时的手势进行学习和训练，得到用于接听的手势，并用其来进行匹配和判定。由此，提高了用户的体验性。

此外，为了节省计算量，可以将“接听指令手势”简化为由具有先后关系的进行移动子动作(例如，将手机放到耳边的动作)和静止子动作(进行接听)组成的简化模型，将来电时用户的手势与该简化模型进行匹配。例如，如果用户在来电时做出了符合移动后静止的手势，则判定为接听动作。此外，为了提高准确度，例如可以将静止子动作限定为手机为大致铅直状态，即，如果在来电时用户在将手机移到耳边后垂直地持握手机，则判定为接听动作而自动接听。

变形例3

与变形例1、2类似地，可通过使处理器101执行自动接听处理程序P3来实现FPGA3的各个模块和子模块的功能。如图9所示，自动接听处理程序P3包括接听指令手势匹配模块P31和接听指令手势更新模块P32。接听指令手势匹配模块P31包括手势特征值抽取子模块P311和手势匹配判定子模块P312。接听指令手势更新模块P32包括匹配手势生成子模块P321和数据清理子模块P322。自动接听处理程序P3的各个子模块与FPGA3的各个相应的子模块功能相同。由此，可以实现实施方式3同样的功能，且可以省略FPGA3等硬件，从而节省成本。

变形例4

此外，用户在接听电话时，由于误操作、带有手袋或传感器灵敏度等问题，容易错误地挂断电话，通过本变形例来对该情况进行补救。

在本变形例中，如图11所示，用户操作手机100具有“二次挂断模块”。该“二次挂断模块”由FPGA4实现。该二次挂断模块具有断开信号输出端，该断开信号输出端连接于总线105。

具体而言，在用户通过触摸操作等作出挂断指示时，如果是第一次挂断操作，则二次挂断模块通过断开信号输出端发出临时保持信号。基于该临时保持信号，手机100不挂断来电，而在一定时间内保留来电。此时，可以停止用于提示用户发生来电的声音、振动、画面提示等，使得如同挂断了来电，以避免打扰用户。或者，减弱声音或振动，而保留画面提示，以使用户知晓手机临时保持来电。

这样，如果在一定时间内用户再次通过按钮或滑动触摸屏幕等方式拒绝来电，则发出断开来电的信号，以挂断来电。如果用户通过声音(例如，发出喂等)、或者作出接听手势(例如放在耳边)，可以按照上述方法自动接听来电，从而避免了错误地挂断电话。

该一定时间可自由设定，例如可以设置为大于通常作出接听动作所需的时间，且小于通常的因未接听而中断呼叫的时间。例如，手机100记录从用户从作出滑动触摸动作到将手机放置在耳边接听的时间，可以使临时保持来电呼叫的声音比该时间稍长，以使得用户可以补救错误挂断的电话，提高使用方便性。而且，由于通过上述实施方式自动接听来电，用户甚至不会意识到做出过错误挂断的操作。

此外，也可以通过使处理器101执行二次挂断程序来实现。该二次挂断程序实现FPGA4的逻辑功能，在这种情况下，可以省略FPGA4。

变形例5

在实施方式2中，基于图像自身来进行匹配。但是，也可以与实施方式3类似的，将一连串的图像视作“手势”，基于隐马尔科夫模型法或SVM法等，判定得出用户在接听电话时作出的“手势”。其训练(用于取得频繁出现的接听手势)和判定(模式匹配)方法与实施方式3一致，区别仅在于实施方式3中的特征值是通过加速度传感器得到的加速度，而在本变形例中，用于进行训练和判定的特征指是从图形中抽取的特征值。

变形例6

可组合实施方式1、2、3来进行判定。即，在来电时，可以根据用户发出的语音、图像序列、反映手势的手势信息(例如加速度等)中的至少一种来进行判定。例如，为了防止误判，仅在根据图像序列判定为用户将手机放在耳边且发出“喂”的情况下，自动接听手机。由此，可以增加判定的准确性，防止误判。

变形例7

FPGA1、FPGA2、FPGA3、FPGA4以及自动接听处理程序P1、自动接听处理程序P2、自动接听处理程序P3、二次断开程序的各个模块或子模块的构成方式仅为示例，可根据需要拆分或者各个子模块。各个子模块的执行顺序也可以根据需要自由调整。例如，在FPGA3中，接听指令手势匹配模块M31和接听指令手势更新模块M32也可以并行地执行操作。

此外，例如，如图10所示，使FPGA3变形为FPGA3'。在FPGA3'中，顺序地执行手势特征值抽取子模块P311、匹配手势生成子模块P321、手势匹配判定子模块P312和数据清理子模块P322的功能。在FPGA1、FPGA2以及自动接听处理程序P1、自动接听处理程序P2、自动接听处理程序P3中，也可以类似地组合和调整各模块的结构，以及各模块的执行顺序。

其它变形例

为了减少计算量，可以仅在用户通过按键或滑动触摸操作等明确地作出接听指示后进行接听的情况下，才将语音、图像序列或者反映手势的加速度信息等保存到手机中，以供训练和学习使用。

在以上说明中，接听指令语音存储模块和FPGA1是分开的，但也可以在FPGA1中内置接听指令语音存储模块。这对于FPGA2、FPGA3也同样。此外，例如FPGA1、FPGA2、FPGA3也可以由一个或多个FPGA芯片构成。

此外，也可以针对接听指令语音，基于隐马尔科夫模型法或SVM法等，对由孤立词构成的序列进行训练和建立模型，即，识别出接听电话时经常发出的、由孤立词构成的串，基于该语音串来匹配。例如，基于由“喂”和“你好”孤立词构成“喂、你好”来进行匹配。此外，可以对语音的意义进行识别，即识别出与语音对应的文字，将该文字保存在接听指令语音存储模块中，并基于文字来进行匹配。

此外，根据所采用的模式判别的方法，可以省略或简化一些子模块的功能。例如，在手势判定中，如果，将用于判定的模型简化为“移动后静止持握”，则可以省略接听指令手势更新模块M32，且接听指令手势匹配模块M31中的子模块的处理也相应地简化。例如，可以省略存储待判定手势的操作等。这对基于语音和基于图像序列来进行判定的情况也相同。

此外，例如在通过根据图像序列或手势来判定自动接听时，如果判定为用户习惯于类似于对讲机的方式，将手机放到远离耳部的面部前面来使用的情况下，可以在接通来电后，自动地扩大传声器的声音或设为免提模式。

姿态传感器除了可以由加速度传感器实现以外，也可以由重力传感器或陀螺仪传感器构成。

在以上各实施例和变形例中，一开始，在指令语音存储模块中没有存储有接听指令语音的信息，即，用户在使用语音通信装置后，才在语音存储模块中保存接听指令语音的信息和待判定语音的信息。作为变形例，也可以在指令语音存储模块中预先设置“喂、hello”等常见的接听语音的信息。这样，用户在初次使用语音通信装置时，即可利用发出“喂、hello”等方式来接听电话。此外，根据进行语音匹配时使用的方法的不同，预先设置的接听语音的信息不同。例如，在基于特征值，直接对语音进行匹配的情况下，可以预先设置“喂、hello”等的语音或语音特征值。在先语音进行识别，在根据识别结果进行匹配的情况下，预先设置“喂、hello”等的文字。

此外，以上各个实施方式和变形例可以单独或者组合使用。

通过各个实施方式和变形例，在用户接听电话时，取得用户发出的语音、图像序列和手势信息来进行训练，以取得接听电话时频繁出现的代表性语音、图像序列和手势，并将其用于自动接听的判定，实现了自学习的功能。由此，用户无需特意指定某语音或某手势来作为进行自动接听的语音或手势，提高了用户体验性。而且，根据语音、图像序列和手势来进行自动接听，解决了驾驶时等不方便用手来操作的问题。解决了接听电话时需要注视屏幕的问题，解决了例如因作失误、操作不到位或因传感器灵敏度而导致不能及时接听或需要多次操作才能接听的问题。

此外，上述实施方式也可以应用于具有视屏通话功能的语音通信装置。

产业应用

本发明可以应用于通信领域、消费电子设备领域等。

Claims

1.一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得用户发出的预定时间长度的语音，

2.一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得预定时间内的多帧图像，

3.一种接听方法，其用于语音通信装置，其中，

4.一种接听方法，其用于语音通信装置，其中，

在发生来电呼叫时，取得预定时间内的多帧图像，

5.根据权利要求3或4所述的接听方法，其中，

6.根据权利要求3或4所述的接听方法，其中，

7.根据权利要求1～3中的任意一项所述的接听方法，其中，

8.根据权利要求2或3所述的接听方法，其中，

9.一种接听方法，其用于语音通信装置，其中，

10.一种语音通信装置，其中，

该语音通信装置组合使用权利要求1～9中的至少一种方法来判断接听或断开来电。