CN104219371A - 使用唇语识别技术进行电话拨号的方法和装置 - Google Patents

使用唇语识别技术进行电话拨号的方法和装置 Download PDF

Info

Publication number
CN104219371A
CN104219371A CN201310211674.1A CN201310211674A CN104219371A CN 104219371 A CN104219371 A CN 104219371A CN 201310211674 A CN201310211674 A CN 201310211674A CN 104219371 A CN104219371 A CN 104219371A
Authority
CN
China
Prior art keywords
lip
lip reading
user
dialing
speech characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310211674.1A
Other languages
English (en)
Inventor
黄挺
孙隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201310211674.1A priority Critical patent/CN104219371A/zh
Publication of CN104219371A publication Critical patent/CN104219371A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种使用唇语识别技术进行电话拨号的方法和装置,涉及移动终端应用领域。本发明利用唇语识别技术,将用户的唇语翻译为用户拨号信息,然后根据用户拨号信息完成电话呼出功能,这种使用唇语识别技术进行电话拨号的技术不同于传统拨号方式,可以为用户提供全新的体验,并且拨号效果不受噪杂环境的影响,可以适用于不能发出声音的特定人群以及上肢行动不便的特定人群,为这些特定人群提供人道主义便利,从而增加用户的黏着性,为运营商提供差异化营销、发展和保留用户资源的有效手段。

Description

使用唇语识别技术进行电话拨号的方法和装置
技术领域
本发明涉及移动终端应用领域,特别涉及一种使用唇语识别技术进行电话拨号的方法和装置。
背景技术
电话拨号功能是手机等移动终端经常使用的基本功能之一。传统的电话拨号方式包括键盘按键式拨号、触摸菜单式拨号、语音识别拨号等方式。
传统的电话拨号方式对于特定场景、或者特定人群来说不能实使用或效果较差。例如,语音识别拨号方式在噪杂环境下语音识别率差,不能发出声音的特定人群甚至无法使用语音识别拨号方式。再例如,对于上肢残障人士、自理能力差的老人等特殊人群,无法使用键盘按键式拨号或触摸菜单式拨号。
另外,传统的电话拨号方式给用户千篇一律的体验,感知度较差,用户黏着性较差。
鉴于以上原因,有必要提出一种实用的、有特色的通信技术,可以适用于特定场景或特定人群,增加用户的黏着性,为运营商提供差异化营销、发展和保留用户资源的有效手段。
发明内容
本发明实施例所要解决的一个技术问题是:提出一种实用的、有特色的电话拨号方式。
根据本发明实施例的一个方面,提出一种使用唇语识别技术进行电话拨号的方法,包括:捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;根据用户拨号信息完成电话呼出功能。
其中,用户拨号信息可以包括呼叫指令、以及被叫用户的数字号码或通讯录名单;
则根据用户拨号信息完成电话呼出功能包括:当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
所述唇语识别技术包括:
通过摄像头采集用户的唇部图像,从唇部图像中提取唇部运动视觉特征;
将提取的唇部运动视觉特征与唇语特征库中存储的唇语特征进行匹配;
如果找到匹配的唇语特征,输出该匹配的唇语特征所对应的唇语内容。
其中,唇语特征库包括唇语共性特征库和唇语个性特征库。
该方法还包括:对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
根据本发明实施例的另一方面,提出一种使用唇语识别技术进行电话拨号的装置,包括:唇语识别模块,用于捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;通信模块,用于根据用户拨号信息完成电话呼出功能。
其中,用户拨号信息包括呼叫指令、以及被叫用户的数字号码或通讯录名单;则通信模块,具体用于当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
该装置还包括:唇语训练模块,用于对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
本发明利用唇语识别技术,将用户的唇语翻译为用户拨号信息,然后根据用户拨号信息完成电话呼出功能,这种使用唇语识别技术进行电话拨号的技术不同于传统拨号方式,可以为用户提供全新的体验,并且拨号效果不受噪杂环境的影响,可以适用于不能发出声音的特定人群以及上肢行动不便的特定人群,为这些特定人群提供人道主义便利,从而增加用户的黏着性,为运营商提供差异化营销、发展和保留用户资源的有效手段。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明使用唇语识别技术进行电话拨号的方法一个实施例的流程示意图。
图2为唇语识别技术一个实施例的流程示意图。
图3为本发明种使用唇语识别技术进行电话拨号的装置一个实施例的结构示意图。
图4为本发明种使用唇语识别技术进行电话拨号的装置另一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,面部识别与口型识别技术不断发展,随着智能手机的普及,前置摄像头已成为移动终端的主流配置,因此,本发明提出一种使用唇语识别技术进行电话拨号的技术。
图1为本发明使用唇语识别技术进行电话拨号的方法一个实施例的流程示意图。
如图1所示,本实施例包括以下步骤:
步骤S101,捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;
步骤S102,根据用户拨号信息完成电话呼出功能。
其中,用户拨号信息包括:呼叫指令、以及被叫用户的数字号码或通讯录名单等。呼叫指令例如包括“删除”、“拨打”、“放弃”、“回退”等指令。
则步骤S102根据用户拨号信息完成电话呼出功能的一种实施方式具体可以包括:
当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
例如,用户通过唇语发出“打电话”的指令,手机等移动终端利用唇语识别技术翻译出“打电话”的指令,根据该指令跳转到拨号功能界面,然后用户通过唇语可以发出被叫用户的数字号码或者被叫用户在通讯录中的名字;如果用户通过唇语发出被叫用户的数字号码,例如“120”,则用户每发出一个数字,手机等移动终端利用唇语识别技术翻译出该数字,并可以将识别出的数字显示在拨号功能区域,如果识别错误,用户还可以发出“删除”指令,等待用户发出的所有数字号码都被正确识别之后,用户可以发出“拨打”指令,移动终端利用唇语识别技术翻译出“拨打”指令,将识别出的被叫用户号码发送到移动通信网完成对被叫用户的呼叫;如果用户通过唇语发出被叫用户在通讯录中的名字,移动终端利用唇语识别技术翻译出该名字,然后在通讯录中查找该名字,如果查找到该名字,将该名字以及相应的电话号码显示给用户,然后用户发出“拨打”指令,移动终端利用唇语识别技术翻译出“拨打”指令,将该名字对应的被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
下面对步骤S101中唇语识别技术进行说明。
图2为唇语识别技术一个实施例的流程示意图。如图2所示,唇语识别技术一种示例性实施方式为:
步骤S201,通过摄像头采集用户的唇部图像,从唇部图像中提取唇部运动视觉特征;
步骤S202,将提取的唇部运动视觉特征与唇语特征库中存储的唇语特征进行匹配;其中,唇语特征库中存储有唇语特征及其对应的唇语内容;
步骤S203,如果找到匹配的唇语特征,输出该匹配的唇语特征所对应的唇语内容。
唇语特征库可以包括唇语共性特征库和唇语个性特征库。唇语个性特征库支持普通话,外语、上海、广东等方言的口型。唇语个性特征库中存储的内容可以通过训练方式得到,即对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
在进行唇语识别时,可以基于卷积虚拟静电场Snake模型的唇形跟踪算法或其他算法对唇部图像上的唇部轮廓进行定位,得到唇部轮廓曲线,从唇部轮廓曲线中可以获取唇部几何特征向量,并且为了弥补唇形差异和图像缩放比例差异,可以对唇部几何特征向量做归一化操作,得到归一化的唇部几何特征向量,以此为基础构造唇部运动特征向量。
由于空气温湿度、嘴唇附近皮肤角质层病变、某些唇膏唇彩修饰效果、胡须等外物遮挡、摄像头聚焦景深与角度等客观环境参数的变化,可能导致唇部运动轨迹识别困难,同一个体采集数据库和样本库对比差异较大的情况。因此,为提高识别的鲁棒性,例如保证95%的运动轨迹特征识别率与3%误采集率,本发明提出最低可接受的唇部图像的灰度变化与最低像素值,保证唇部运动轨迹可以被度量、被监测,然后进行有效的函数变换。
唇部检测的基本步骤如下:
图像分割:在人脸几何特征识别基础上,进行唇部特征区域定位与截图;
图像配准:对唇部截图部分进行选择性地图像压缩,例如将唇部区域缩小为16×8的尺寸,总共128像素,去除唇部截图部分的细节,只保留结构、明暗等基本信息,摒弃不同CCD(电荷耦合元件)成像像素、不同比例带来的图片差异;
色彩简化:转换为灰度图像,例如可以将此区域转为最多64级灰度,处理图像的像素点最高64种颜色。
然后,通过核函数将一维映射到高维的数学空间进行可视化处理,即在T周期内根据一组像素轨迹变化的输入值,经过类似神经一样的转换与隐含层参数修正,得到输出特征值意义范围。比如普通话数字“1”,通过捕捉5~8帧唇部运动轨迹判此运动向量值。
唇语特征向量的提取,包括:关键点提取,运动轨迹向量,用于识别的正向传播模型,用于唇语训练的反向传播模型等技术关键点。
其中,关键点提取是针对唇部嘴唇、牙齿、舌尖等灰度与周边区域对比差异的像素,在缩小截图尺寸过程使用改进的高斯模糊算法,将涉及唇部运动的特定区域像素保留或增强,将其他非敏感区域的像素点与周边八个像素点合并,不占用过多的处理空间。
其中,唇部运动轨迹向量举例:
1)比较唇部区域图像,得到同一像素点在前后两帧间的坐标变化值:A(xi,yi),B(xi+1,yi+1);
2)计算两个像素点在水平和竖直方向的距离Yi=|yi+1-yi|,Xi=|xi+1-xi|;
3)计算出两个像素点的夹角θi与距离ri
r i = X i 2 + Y i 2
4)重复以上步骤,对其他像素点进行处理,例如,如果唇部区域图像共有128个像素,则可以得到128组数据,即θ1、θ2…θ128、r1、r2…r128
5)还可以将128组数据规范化到区间[0,1]。
通过以上1~5个步骤,可以获得128个介于0和1之间的唇部运动轨迹向量值。
图3为本发明种使用唇语识别技术进行电话拨号的装置一个实施例的结构示意图。
如图3所示,本实施例的装置例如可以是手机等移动终端,该装置包括:
唇语识别模块,用于捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;
通信模块,用于根据用户拨号信息完成电话呼出功能。
其中,用户拨号信息包括呼叫指令、以及被叫用户的数字号码或通讯录名单;
则通信模块,具体用于当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
其中,唇语识别模块中的唇语识别技术包括:
通过摄像头采集用户的唇部图像,从唇部图像中提取唇部运动视觉特征;
将提取的唇部运动视觉特征与唇语特征库中存储的唇语特征进行匹配;
如果找到匹配的唇语特征,输出该匹配的唇语特征所对应的唇语内容。
其中,唇语特征库包括唇语共性特征库和唇语个性特征库。
本实施例的装置还包括:唇语训练模块,用于对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
图4为本发明种使用唇语识别技术进行电话拨号的装置另一个实施例的结构示意图。
如图4所示,本实施例的装置包括应用层、中间件层、操作系统层、以及物理设备。其中,应用层包括唇语识别模块、唇语训练模块,还可以包括一些现有的浏览功能、交互提示功能、主叫拨号功能等。中间件层包括唇语特征库(如唇语共性特征库和唇语个性特征库)、通信模块,面部运动检测模块、应用接口层等。操作系统层包括线程管理、内存管理、I/O外设管理、文件管理、设备管理、电子磁盘等、物理设备中包括前置摄像头。
本发明利用唇语识别技术,将用户的唇语翻译为用户拨号信息,然后根据用户拨号信息完成电话呼出功能,这种使用唇语识别技术进行电话拨号的技术不同于传统拨号方式,可以为用户提供全新的体验,并且拨号效果不受噪杂环境的影响,可以适用于不能发出声音的特定人群以及上肢行动不便的特定人群,为这些特定人群提供人道主义便利,从而增加用户的黏着性,为运营商提供差异化营销、发展和保留用户资源的有效手段。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种使用唇语识别技术进行电话拨号的方法,包括:
捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;
根据用户拨号信息完成电话呼出功能。
2.根据权利要求1所述的方法,其特征在于,所述用户拨号信息包括呼叫指令、以及被叫用户的数字号码或通讯录名单;
所述根据用户拨号信息完成电话呼出功能包括:
当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
3.根据权利要求1所述的方法,其特征在于,所述唇语识别技术包括:
通过摄像头采集用户的唇部图像,从唇部图像中提取唇部运动视觉特征;
将提取的唇部运动视觉特征与唇语特征库中存储的唇语特征进行匹配;
如果找到匹配的唇语特征,输出该匹配的唇语特征所对应的唇语内容。
4.根据权利要求3所述的方法,其特征在于,所述唇语特征库包括唇语共性特征库和唇语个性特征库。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
6.一种使用唇语识别技术进行电话拨号的装置,包括:
唇语识别模块,用于捕捉用户的唇部运动,利用唇语识别技术,将用户的唇语翻译为用户拨号信息;
通信模块,用于根据用户拨号信息完成电话呼出功能。
7.根据权利要求6所述的装置,其特征在于,所述用户拨号信息包括呼叫指令、以及被叫用户的数字号码或通讯录名单;
所述通信模块,具体用于当识别出用户通过唇语发出被叫用户的数字号码或通讯录名单、并且发出拨打指令时,将被叫用户号码发送到移动通信网完成对被叫用户的呼叫。
8.根据权利要求6所述的装置,其特征在于,所述唇语识别模块中的唇语识别技术包括:
通过摄像头采集用户的唇部图像,从唇部图像中提取唇部运动视觉特征;
将提取的唇部运动视觉特征与唇语特征库中存储的唇语特征进行匹配;
如果找到匹配的唇语特征,输出该匹配的唇语特征所对应的唇语内容。
9.根据权利要求8所述的装置,其特征在于,所述唇语特征库包括唇语共性特征库和唇语个性特征库。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
唇语训练模块,用于对用户个性化唇语进行记忆式训练,将用户个性化唇语的唇语特征以及对应的唇语内容保存到唇语个性特征库。
CN201310211674.1A 2013-05-31 2013-05-31 使用唇语识别技术进行电话拨号的方法和装置 Pending CN104219371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310211674.1A CN104219371A (zh) 2013-05-31 2013-05-31 使用唇语识别技术进行电话拨号的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310211674.1A CN104219371A (zh) 2013-05-31 2013-05-31 使用唇语识别技术进行电话拨号的方法和装置

Publications (1)

Publication Number Publication Date
CN104219371A true CN104219371A (zh) 2014-12-17

Family

ID=52100492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310211674.1A Pending CN104219371A (zh) 2013-05-31 2013-05-31 使用唇语识别技术进行电话拨号的方法和装置

Country Status (1)

Country Link
CN (1) CN104219371A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203235A (zh) * 2015-04-30 2016-12-07 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN107122646A (zh) * 2017-04-26 2017-09-01 大连理工大学 一种实现唇语解锁的方法
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06311220A (ja) * 1993-04-21 1994-11-04 Kyocera Corp 画像認識ダイヤル装置
CN102209154A (zh) * 2010-03-31 2011-10-05 鸿富锦精密工业(深圳)有限公司 语音拨号系统及方法
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06311220A (ja) * 1993-04-21 1994-11-04 Kyocera Corp 画像認識ダイヤル装置
CN102209154A (zh) * 2010-03-31 2011-10-05 鸿富锦精密工业(深圳)有限公司 语音拨号系统及方法
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203235A (zh) * 2015-04-30 2016-12-07 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN107122646A (zh) * 2017-04-26 2017-09-01 大连理工大学 一种实现唇语解锁的方法
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置

Similar Documents

Publication Publication Date Title
CN104281847B (zh) 一种点读方法、装置及设备
CN108399409B (zh) 图像分类方法、装置及终端
CN104717360B (zh) 一种通话录音方法及终端
CN109614613A (zh) 图像的描述语句定位方法及装置、电子设备和存储介质
CN111444826B (zh) 视频检测方法、装置、存储介质及计算机设备
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN107193983A (zh) 图像搜索方法及装置
CN104063150A (zh) 通过人脸识别进入对应场景模式的移动终端及其实现方法
CN104219371A (zh) 使用唇语识别技术进行电话拨号的方法和装置
CN109871843A (zh) 字符识别方法和装置、用于字符识别的装置
CN104714633A (zh) 一种终端配置的方法及终端
TW201234213A (en) Multimedia input method
CN106980840A (zh) 脸型匹配方法、装置及存储介质
CN104077563B (zh) 人脸识别方法和装置
CN107301389A (zh) 基于人脸特征识别用户性别的方法、装置及终端
CN110399934A (zh) 一种视频分类方法、装置及电子设备
CN112199530A (zh) 多维度脸库图片自动更新方法、系统、设备及介质
CN106648386A (zh) 一种智能终端的操作方法和装置
CN101471981A (zh) 电话拨号方法
CN118279805B (zh) 一种基于多模态的远程情感识别方法
CN107613124A (zh) 智能设备的解锁方法、智能设备及存储介质
CN107408208A (zh) 用于对用户的生物测量进行分析的方法和指纹感测系统
CN203552331U (zh) 一种智能识别门禁系统
CN106650365A (zh) 一种启用不同工作模式的方法及装置
CN110162710A (zh) 输入场景下信息推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141217

RJ01 Rejection of invention patent application after publication