CN104199545A - 一种基于口型执行预设操作的方法及装置 - Google Patents

一种基于口型执行预设操作的方法及装置 Download PDF

Info

Publication number
CN104199545A
CN104199545A CN201410432408.6A CN201410432408A CN104199545A CN 104199545 A CN104199545 A CN 104199545A CN 201410432408 A CN201410432408 A CN 201410432408A CN 104199545 A CN104199545 A CN 104199545A
Authority
CN
China
Prior art keywords
mouth
data
waveform data
speaks
wave data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410432408.6A
Other languages
English (en)
Inventor
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Mobile Communications Technology Co Ltd
Original Assignee
Hisense Mobile Communications Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Mobile Communications Technology Co Ltd filed Critical Hisense Mobile Communications Technology Co Ltd
Priority to CN201410432408.6A priority Critical patent/CN104199545A/zh
Publication of CN104199545A publication Critical patent/CN104199545A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种基于口型执行预设操作的方法及装置,涉及数据处理领域,用来在预设操作较少的情况下,根据唇动图像序列执行相应操作时,降低计算复杂度,一定程度上减少计算资源的浪费。所述方法包括:获取唇动图像序列;对唇动图像序列进行波形数据提取,获得口型波形数据;从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;执行匹配波形数据对应的操作指令。

Description

一种基于口型执行预设操作的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种基于口型执行预设操作的方法及装置。
背景技术
随着计算机技术以及数据处理技术的发展,语音识别技术应运而生。语音识别技术就是一种让机器把语音信号转变为相应的文字的方法,它已经应用到日常生活的方方面面,比如基于语音识别的车载导航系统、Siri(苹果智能语音助手)等。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。首先通过麦克风采集包含用户声音的音频信号,接着对该音频信号进行降噪处理和模数转换获得数字信号,然后提取数字信号中的特征参数,将数字信号中的特征参数与文字特征参数库中的信息进行匹配,查找出该音频信号对应的文字,最后根据文字代表的内容执行相应的操作。
语音识别技术应用到移动终端时,由于移动终端所处的环境复杂,获取的音频信号中可能包含大量的噪声信号,使得经过降噪处理和模数转换后的数字信号中仍然携带有噪声信号的特征,那么对数字信号进行特征提取后的特征参数并不能代表用户声音原本代表的信息的特征,最终根据该特征参数匹配出的文字与用户声音代表的文字不符,使得用户体验差;同时,为了保证获取的数字信号的特征参数能够代表用户声音的特征,用户声音的音量必须不小于能够提取出用户声音特征的音量,在公共场所容易泄露用户隐私,使得保密性差。
为了解决上述语音识别过程中的问题,现有技术进一步提供了口型识别技术。口型识别首先通过图像采设备获取唇动图像序列,并对唇动图像序列中的每一图像进行通过唇的色度滤波,得每一图像中增强的唇动图像,再利用可变模板实现口型轮廓的提取和跟踪,提取口型轮廓特征参数,接着采用隐马尔科夫(HMM)模型进行唇动图像序列识别,得到最终的唇动图像序列所代表的文字,最后根据文字代表的内容执行相应的操作。
在实现上述口型识别的过程中,发明人发现现有技术中至少存在如下问题:口型识别技术需要先将获取的唇动图像序列转化成对应的文字,然后根据文字与操作间的对应关系,执行文字对应的操作。由于要从很多文字中选出每一唇动图像序列匹配的文字,所以需要采用精确度高的隐马尔科夫(HMM)模型算法对唇动图像序列进行识别,但是在实际应用中,特定功能的设备需要执行的操作是有限的,所以与操作对应的文字是有限的,对匹配的精确度要求不高,但是上述口型识别的过程采用的隐马尔科夫(HMM)模型算法复杂程度高,若继续采用上述口型识别的方法,会浪费计算资源。
发明内容
本发明的实施例提供一种基于口型执行预设操作的方法及装置,用来在预设操作较少的情况下,根据唇动图像序列执行相应操作时,降低计算复杂度,一定程度上减少计算资源的浪费。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种基于口型执行预设操作的方法,包括:
获取唇动图像序列;
对所述唇动图像序列进行波形数据提取,获得口型波形数据;
从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令;
执行所述匹配波形数据对应的操作指令。
第二方面,本发明实施例提供了一种装置,包括:获取单元、查找单元、确定单元和处理单元;所述获取单元包括:图像采集模块和波形数据提取模块;
所述图像采集模块,用于获取唇动图像序列;
所述波形数据提取模块,用于对所述图像采集模块获取的所述唇动图像序列进行波形数据提取,获得口型波形数据;
所述查找单元,用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令;
所述确定单元,用于将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据;
所述处理单元,用于执行所述匹配波形数据对应的操作指令。
本发明实施例提供了一种基于口型执行预设操作的方法及装置,获取唇动图像序列,对唇动图像序列进行波形数据提取,获得口型波形数据,从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据,执行匹配波形数据对应的操作指令,这样,通过设置波形数据与操作指令间的映射关系,在识别唇动图像序列对应的波形数据之后,直接执行波形数据对应的操作指令,而不用识别出唇动图像序列所代表的文字,这样简化了根据唇动图像序列执行预设操作指令的步骤,同时对于有特定功能的设备来说,能够执行的操作是有限的,所以对识别结果精度要求不高,本发明通过简单的计算波形数据相似度的方式,就能够从波形数据库中查找出与唇动图像序列对应的标准波形数据,降低了在获取与唇动图像序列对应的标准波形时的计算复杂度,一定程度上减少了计算资源的浪费。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于口型执行预设操作的方法的流程示意图;
图2为本发明实施例确定第一直线与第二直线的示意图;
图3为本发明实施例提供的另一种基于口型执行预设操作的方法的流程示意图;
图4为本发明实施例提供的一种装置的功能示意图;
图5为本发明实施例提供的另一种装置的功能示意图;
图6为本发明实施例提供的另一种装置的功能示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于口型执行预设操作的方法,如图1所示,包括:
101、获取唇动图像序列。
具体的,人在摄像头前变化口型,摄像头对人所做出的口型进行记录,得到一段包括口型变化的视屏信息,将该视频信息确定为唇动图像序列。
需要说明的是,为了保证获取的唇动图像序列能够记录一个完整的口型变化,所以唇动图像序列的时间长度必须不小于最短检测时间。在获取到的唇动图像序列的时间长度小于最短检测时间的情况下,说明获取到的唇动图像序列是无效的,此时可以通过语音提示或者文字提示的方式提醒用户“口型无效,需再次获取”;在获取到的唇动图像序列的时间长度不小于最短检测时间的情况下,说明获取到的唇动图像序列是有效的,此时继续执行步骤102-104。
需要说明的是,设备确定获取唇动图像序列的开始与停止可以使用以下两种方式。第一种,在打开该应用后的显示界面上设置有控制按钮,点击该控制按钮并检测到唇部图像后,开始获取唇动图像序列,再次点击该控制按钮或者检测不到唇部图像后,停止唇动图像序列获取。第二种,在打开该应用后,检测到唇部图像就开始获取唇动图像序列,当检测不到唇部图像或者将测到的唇部图像在一定时间内的变化幅度小于预设的检测门限的情况下,停止唇动图像序列的获取。
102、对唇动图像序列进行波形数据提取,获得口型波形数据。
需要说明的是,波形数据提取就是对能够代表口型变化的特征连续进行数据提取。口型波形数据就是能够表示口型的一个或者几个特征连续变化的数据。
具体的,步骤102可以分为以下几个步骤:
步骤一:对唇动图像序列进行采样得到采样图像。
具体的,可以以固定的频率对唇动图像序列采样,也可以不以固定频率对唇动图像序列采样,采样获得的图像都叫做采样图像。
优化的,以固定频率对唇动图像序列采样时,该固定频率可以根据设备的处理能力设定。
步骤二:获取每一采样图像中左嘴角位置和右嘴角位置,通过所述左嘴角位置和所述右嘴角位置做第一直线,通过所述左嘴角位置和所述右嘴角位置的中点做与所述第一直线垂直的第二直线。
具体的,对于采样图像中的任一帧图像进行人脸检测,进而从检测到的人脸图像中提取唇部图像;然后,确定该图像中左嘴角位置和右嘴角位置;最后,将左嘴角位置和右嘴角位置的连线做第一直线,并且在该图像中标出左嘴角位置和右嘴角位置连线的中点,通过该中点做垂直于第一直线的直线,即第二直线。示例性的,可参考图2所示第一直线与第二直线的确定。
需要说明的是,从一帧图像中进行人脸检测的方法可以是现有技术中任一种人脸检测的方法,在此不再赘述。相应的,在人脸检测后,根据检测到的人脸信息进一步获取唇部图像的方法也可以是现有技术中的任一种唇部轮廓获取的方法,在此不再赘述。
步骤三:将所述左嘴角位置与所述右嘴角位置之间的距离确定为第一距离;将所述采样图像中所述第二直线与所述嘴唇外轮廓的两交点之间的距离确定为第二距离。
具体的,根据步骤二中得出的第一直线和第二直线以及唇部轮廓,获取第一直线与嘴唇外轮廓的两交点,将这两交点间的距离确定为第一距离;并获取第二直线与嘴唇外轮廓的两交点,将这两交点间的距离确定为第二距离。
需要说明的是,获取第一距离的过程也可以是直接将该图像中左嘴角位置与右嘴角位置之间的距离作为第一距离。
一般情况下,人们在说话时口型变化幅度最大的点是左右嘴角和嘴唇中部,所以本实施例是以左右嘴角间的距离和嘴唇中部上下轮廓边缘的距离作为口型变化的参考标准。
步骤四:根据每一采样图像的第一距离和第二距离生成口型波形数据。
具体的,步骤三的具体实现方式包括以下两种。
第一种,按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离作为一组数据进行存储,所有采样图像每一组数据组成所述口型波形数据。
具体的,根据每一采样图像在唇动图像序列中时间上的顺序,将每一采样图像的第一距离和第二距离按照一定顺序存储,对同一唇动图像序列的所有采样图像中每一采样图像的第一距离和第二距离存储的总和叫做口型波形数据。
第二种,按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离的加权和进行存储,所有采样图像的每一采样图像的加权和组成所述口型波形数据。
具体的,对每一采样图像的第一距离和第二距离做加权和,即第一距离的值乘以一个加权系数与第二距离的值乘以一个加权系数作和,按照每一采样图像在唇动图像序列中时间上的顺序,将每一采样图像的加权和进行存储,此时,对同一唇动图像序列的所有采样图像的加权和的值叫做口型波形数据。
需要说明的是,口型波形数据设置的方法需要与波形数据库中的标准波形数据的生成方法相同。例如,波形数据库中的标准波形数据是按照此处的第一种方法生成时,口型波形数据也需要以第一种方法生成。同时,获取口型波形数据时的采样频率与获取标准波形数据时的采样频率必须相同。
103、从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据。
其中,所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令。
需要说明的是,波形数据库中存储的标准波形数据与操作指令之间的对应关系,可以是直接存储标准波形数据和操作对应的指令;也可以是标准波形数据和对应的一个编号,另一文件中存储有编号与操作之间的对应关系;还可以是能够表示标准波形数据和操作间对应的关系的其他方法,本发明对此不做限制。
波形数据库中每个标准波形数据对应的操作可以单个操作,还可以是一串操作组成的操作序列。
具体的,步骤103可以分为如下两步骤实现:
步骤一:计算所述口型波形数据与所述波形数据库中标准波形数据的相似度。
需要说明的是,在计算两个波形数据相似度时,获取两波形数据是的采样频率相同,并且两波形数据对应存储的数据的所代表的意义相同。也就是说,在口型波形数据中存储有10000个数据,标准波形数据中存储有10000个数据的情况下,若口型波形数据中每一数据表示第一距离与第二距离的加权和,那么标准波形数据中每一数据也必须代表第一距离与第二距离的加权和。
具体的,此处计算口型波形数据与标准波形数据相似度的方法就是信号处理中计算两信号相关性的方法。可以利用现有技术中任一种计算两信号相关性方法,本发明对此不作限制。进一步的,可以利用Stata(一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件)或者SPSS(Statistical Product and ServiceSolutions,统计产品与服务解决方案)等软件来计算两波形数据相关性。
步骤二:将所述至少一个标准波形数据中与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
具体的,计算出所述口型波形数据与波形数据库中的每一标准波形数据的相似度,从所有计算出的相似度的值中将相似度的值最大的标准波形数据确定为与口型波形数据匹配的波形数据,并把它确定为匹配波形数据。
104、执行所述匹配波形数据对应的操作指令。
具体的,在确定出匹配波形之后,根据波形数据库中标准波形数据与操作指令间对应关系,执行该匹配波形数据对应的操作指令。
本发明实施例提供了一种基于口型执行预设操作的方法,获取唇动图像序列,对唇动图像序列进行波形数据提取,获得口型波形数据,从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据,执行匹配波形数据对应的操作指令,这样,通过设置波形数据与操作指令间的映射关系,在识别唇动图像序列对应的波形数据之后,直接执行波形数据对应的操作指令,而不用识别出唇动图像序列所代表的文字,这样简化了根据唇动图像序列执行预设操作指令的步骤,同时对于有特定功能的设备,能够执行的操作是有限的,所以对识别结果精度要求不高,本发明通过简单的计算波形数据相似度的方式,就能够从波形数据库中查找出与唇动图像序列对应的标准波形数据,降低了在获取与唇动图像序列对应的标准波形时的计算复杂度,一定程度上减少了计算资源的浪费。
本发明实施例提供了一种基于口型执行预设操作的方法,如图3所示,包括:
需要说明的是,步骤301-305是建立波形数据库时每次添加一个标准波形数据和与其对应的操作指令的过程。也就是说波形数据库中有几个标准波形数据,那么步骤301-305就需要执行几遍。当然,如果是首选向波形数据库中添加波形数据时,由于此时波形数据库中还没有已经存储的任何标准波形数据,所以在步骤301-305中可以不执行步骤304,并且步骤305改为“将操作以及操作对应的标准波形数据存储至波形数据库中”。
301、选定需要口型匹配的操作指令。
具体的,用户通过人机交互界面设置需要口型匹配的操作指令。该操作指令可以是执行一个单一的操作,也可以是执行一串操作序列。示例性的,可以在手机上设定操作指令为打开相机的指令,也可以将操作指令设定为首先打开浏览器,然后登录一个特定网址的指令。
302、获取至少一个预设波形数据。
需要说明的是,步骤302可以分为两个步骤。步骤一,获取与操作对应的至少一个预设唇动图像序列;步骤二,对与操作对应的至少一个预设唇动图像序列中每一预设唇动图像序列进行波形数据提取,获得至少一个预设波形数据。
具体的,在设定操作成功后,可以提示用户开始录制,用户对准摄像头做出相应口型,通过摄像头获取预设唇动图像序列。然后根据步骤102中对唇动图像序列进行波形数据提取,获得口型波形数据的过程,对每一预设唇动图像序列进行波形数据提取,获取预设波形数据。
需要说明的是,对于一个操作可以只获取一个预设唇动图像序列;为了减少因为获取的预设唇动图像序列只有一个,不能代表普遍情况而产生的误差,也可以对同一操作获取多个预设唇动图像序列。根据获取到的预设波形数据是一个还是多个,执行的步骤不同。在获取到的预设波形数据是一个的情况下,执行步骤303a;在获取到的预设波形数据是多个的情况下,执行步骤303b。
303a、在至少一个预设波形数据是一个预设波形数据的情况下,将这一个预设波形数据确定为与操作指令对应的标准波形数据。
具体的,在同一操作指令对应的预设波形数据只有一个的情况下,直接将该预设波形数据确定为与操作指令对应的标准波形数据。
303b、在至少一个预设波形数据是至少两个预设波形数据的情况下,确定至少两个预设波形数据两两之间的相似度是否均不小于相似度检测阈值;在确定至少两个预设波形数据两两之间的相似度均不小于相似度检测阈值的情况下,将至少两个预设波形数据中任意一个预设波形数据确定为与操作指令对应的标准波形数据。
具体的,计算同一操作指令对应的预设波形数据为至少两个的情况下,需要判断这些预设波形数据两两之间的相似度,并判断计算出的每一相似度是否不小于相似度检测阈值。也就是说,在对同一口型输入的预设波形数据有多个的情况下,需要判断这多个预设波形数据的相似程度是不是在一个范围内,只有在所有预设波形数据的相似程度在一定范围内时,才表明获取到的所有唇动图像序列是同一口型。在确定至少两个预设波形数据两两之间的相似度均不小于相似度检测阈值的情况下,即在所有预设波形数据相差不大的情况下,说明所有预设波形数据中任意一个波形数据能够代表其他预设波形数据,此时,将任意一个预设波形数据确定为与操作指令对应的标准波形数据。
需要说明的是,在确定至少两个预设波形数据两两之间的相似度存在小于相似度检测阈值的情况下,不执行将至少两个预设波形数据中任意一个预设波形数据确定为与操作对应的标准波形数据的步骤,而是跳转至步骤302,重新获取至少一个预设波形数据。
优选的,可以将与其他所有预设波形数据的相似度之和最大的预设波形数据确定为与操作指令对应的标准波形数据。
示例性的,假设同一操作指令对应3个预设波形数据,分别为预设波形数据1、预设波形数据2以及预设波形数据3,其中,预设波形数据1与预设波形数据2之间的相似度为0.9,预设波形数据1与预设3之间的相似度为0.8,预设波形数据2与预设波形数据3之间的相似度为0.7。那么,预设波形数据1与其他所有预设波形数据(预设波形数据2与预设波形数据3)的相似度之和为0.9+0.8=1.7,预设波形数据2与其他所有预设波形数据(预设波形数据1与预设波3)的相似度之和为0.9+0.7=1.6,预设波形数据3与其他所有预设波形数据(预设波形数据1与预设波形数据2)的相似度之和为0.8+0.7=1.5,最终将预设波形数据1确定为与该操作指令对应的标准波形数据。
304、计算操作指令对应的标准波形数据与波形数据库中每一标准波形数据的相似度。
需要说明的是,在将一个新的标准波形数据加入波形数据库之前,需要判断准备加入的标准波形数据是否与波形数据库中的波形数据存在重复,所以计算操作对应的标准波形数据与波形数据库中每一标准波形数据的相似度,只有在准备加入的标准波形数据与数据库中的波形数据没有重复的情况下,即在操作对应的标准波形数据与波形数据库中每一标准波形数据的相似度都小于匹配阈值的情况下,才执行步骤305;否则,跳转至步骤302,重新获取至少一个预设波形数据。
需要说明的是,计算操作对应的标准波形数据与波形数据库中每一标准波形数据的相似度的过程,可参考步骤103中的步骤一计算口型波形数据与波形数据库中标准波形数据的相似度的过程,在此不再赘述。
需要说明的是,当在向波形数据库中首次添加标准波形数据时,由于此时波形数据库中还没有存储任何标准波形数据,所以可以不用执行步骤304,并且步骤305不需要执行条件,直接将将操作以及操作对应的标准波形数据存储至波形数据库中。
305、在操作指令对应的标准波形数据与波形数据库中每一标准波形数据的相似度都小于匹配阈值的情况下,将标准波形数据与所述操作指令对应存储至所述波形数据库中。
需要说明的,只有在准备加入的标准波形数据与波形数据库中已经存在的所有标准波形数据的相似度都小于一定值的情况下,才将该标准波形数据加入波形数据库,以避免在步骤308中,出现计算出的口型波形数据与波形数据库中两个标准波形数据的相似度都相同并且都为最大值的情况。
需要说明的是,本实施例是以先设定操作,然后获取操作对应的标准波形数据为例。但实际情况下,也可以先获取一个标准波形数据,然后设置该标准波形数据对应的操作,本发明对此不作限制。
在设备上按照上述步骤301-306设置好波形数据库中标准波形与操作指令之间的对应关系之后,用户在使用安装有实现该处理方法的应用软件的设备的过程中,该设备可以按照以下步骤执行。
306、获取唇动图像序列。
具体的,可参考步骤101,在此不再赘述。
307、对唇动图像序列进行波形数据提取,获得口型波形数据。
具体的,可参考步骤102,在此不再赘述。
308、从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据。
具体的,可参考步骤103中的步骤一,在此不再赘述。
309、确定与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度是否不小于合法门限值。
需要说明的是,存在输入的口型波形数据与每一标准波形数据的相似度都较小的情况,此时,该口型波形数据没有能够匹配的标准波形数据,但是按照上述方法仍旧可以找出相似度的最大值,所以通过判断相似度的最大值是否不小于合法门限来判断是否存在与口型波形数据匹配的标准波形数据。在确定相似度的最大值不小于合法门限值的情况下,执行步骤310;否则,说明不存在于该口型波形数据匹配的标准波形数据,不执行步骤310。
310、在与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度不小于合法门限值的情况下,将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
311、执行所述匹配波形数据对应的操作指令。
具体的,可参考步骤104,在此不再赘述。
本发明实施例提供了一种基于口型执行预设操作的方法,首先建立波形数据库,然后获取唇动图像序列,对唇动图像序列进行波形数据提取,获得口型波形数据,从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,确定与口型波形数据相似度最大的标准波形数据和口型波形数据之间相似度是否不小于合法门限值,在确定相似度的最大值不小于合法门限值的情况下,将相似度最大的标准波形数据确定为匹配波形数据,执行匹配波形数据对应的操作指令。这样,通过设置波形数据与操作指令间的映射关系,在识别唇动图像序列对应的波形数据之后,直接执行波形数据对应的操作指令,而不用识别出唇动图像序列所代表的文字,简化了根据唇动图像序列执行预设操作指令的步骤,同时对于有特定功能的设备,能够执行的操作是有限的,所以对识别结果精度要求不高,本发明通过简单的计算波形数据相似度的方式,就能够从波形数据库中查找出与唇动图像序列对应的标准波形数据,降低了在获取与唇动图像序列对应的标准波形时的计算复杂度,一定程度上减少了计算资源的浪费。进一步的,由于在建立波形数据库时,获取了至少一个与操作指令对应的预设波形数据,并在根据预设波形数据两两之间的相似度均不小于相似度检测阈值的情况下,才从所有预设波形数据中选取一个确定为该操作对应的标准波形数据,这样通过检测输入预设波形数据相似度的方法,使得存储的与操作指令对应的标准波形数据更能代表大多数的波形数据,在不增加计算复杂度的情况下,增加口型波形数据匹配的成功度。
如图4所示,其为本发明实施例提供的一种装置的功能示意图。参考图4所示,该装置包括:获取单元401、查找单元402、确定单元403和处理单元404;所述获取单元401包括:图像采集模块4011和波形数据提取模块4012。
所述图像采集模块4011,用于获取唇动图像序列。
所述波形数据提取模块4012,用于对所述图像采集模块4011获取的所述唇动图像序列进行波形数据提取,获得口型波形数据。
所述波形数据提取模块4012,具体用于对唇动图像序列进行采样得到采样图像。
所述波形数据提取模块4012,具体用于获取每一采样图像中左嘴角位置和右嘴角位置,通过所述左嘴角位置和所述右嘴角位置做第一直线,通过所述左嘴角位置和所述右嘴角位置的中点做与所述第一直线垂直的第二直线。
所述波形数据提取模块4012,具体用于将所述左嘴角位置与所述右嘴角位置之间的距离确定为第一距离;将所述采样图像中所述第二直线与所述嘴唇外轮廓的两交点之间的距离确定为第二距离。
所述波形数据提取模块4012,具体用于根据每一采样图像的第一距离和第二距离生成口型波形数据。
进一步的,所述波形数据提取模块4012,具体用于按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离作为一组数据进行存储,所有采样图像每一组数据组成所述口型波形数据;或者,所述波形数据提取模块4012,具体用于按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离的加权和进行存储,所有采样图像的每一采样图像的加权和组成所述口型波形数据。
所述查找单元402,用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据。所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令。
所述查找单元402,具体用于计算所述口型波形数据与所述波形数据库中标准波形数据的相似度。
所述查找单元402,具体用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据。
所述确定单元403,用于将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
所述确定单元403,具体用于将所述至少一个标准波形数据中与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
进一步的,所述确定单元403,具体用于确定与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度是否不小于合法门限值。
所述确定单元403,具体用于在与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度不小于合法门限值的情况下,将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
所述处理单元404,用于执行所述匹配波形数据对应的操作指令。
进一步的,如图5所示,所述装置还包括:操作设定单元405。
所述操作设定单元405,用于选定需要口型匹配的操作指令。
所述获取单元401,还用于获取至少一个预设波形数据。
所述确定单元403,还用于在所述至少一个预设波形数据是一个预设波形数据的情况下,将所述一个预设波形数据确定为与所述操作指令对应的标准波形数据;或者,在所述至少一个预设波形数据是至少两个预设波形数据的情况下,确定所述至少两个预设波形数据两两之间的相似度是否均不小于相似度检测阈值;在确定所述至少两个预设波形数据两两之间的相似度均不小于所述相似度检测阈值的情况下,将所述至少两个预设波形数据中任意一个预设波形数据确定为与所述操作指令对应的标准波形数据。
所述处理单元404,还用于将标准波形数据与所述操作指令对应存储至所述波形数据库中。
进一步的,如图6所示,所述装置还包括:计算单元406。
所述计算单元406,用于计算所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度。
所述处理单元404,具体用于在所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度都小于匹配阈值的情况下,将标准波形数据与所述操作指令对应存储至所述波形数据库中。
本发明实施例提供了一种装置,本发明实施例提供了一种基于口型执行预设操作的方法,首先建立波形数据库,然后获取唇动图像序列,对唇动图像序列进行波形数据提取,获得口型波形数据,从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,确定与口型波形数据相似度最大的标准波形数据和口型波形数据之间相似度是否不小于合法门限值,在确定相似度的最大值不小于合法门限值的情况下,将相似度最大的标准波形数据确定为匹配波形数据,执行匹配波形数据对应的操作指令。这样,通过设置波形数据与操作指令间的映射关系,在识别唇动图像序列对应的波形数据之后,直接执行波形数据对应的操作指令,而不用识别出唇动图像序列所代表的文字,简化了根据唇动图像序列执行预设操作指令的步骤,同时对于有特定功能的设备,能够执行的操作是有限的,所以对识别结果精度要求不高,本发明通过简单的计算波形数据相似度的方式,就能够从波形数据库中查找出与唇动图像序列对应的标准波形数据,降低了在获取与唇动图像序列对应的标准波形时的计算复杂度,一定程度上减少了计算资源的浪费。进一步的,由于在建立波形数据库时,获取了至少一个与操作指令对应的预设波形数据,并在根据预设波形数据两两之间的相似度均不小于相似度检测阈值的情况下,才从所有预设波形数据中选取一个确定为该操作对应的标准波形数据,这样通过检测输入预设波形数据相似度的方法,使得存储的与操作指令对应的标准波形数据更能代表大多数的波形数据,在不增加计算复杂度的情况下,增加口型波形数据匹配的成功度。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种基于口型执行预设操作的方法,其特征在于,包括:
获取唇动图像序列;
对所述唇动图像序列进行波形数据提取,获得口型波形数据;
从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令;
执行所述匹配波形数据对应的操作指令。
2.根据权利要求1所述的方法,其特征在于,所述从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据包括:
计算所述口型波形数据与所述波形数据库中标准波形数据的相似度;
将所述至少一个标准波形数据中与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述唇动图像序列进行波形数据提取,获得口型波形数据包括:
对唇动图像序列进行采样得到采样图像;
获取每一采样图像中左嘴角位置和右嘴角位置,通过所述左嘴角位置和所述右嘴角位置做第一直线,通过所述左嘴角位置和所述右嘴角位置的中点做与所述第一直线垂直的第二直线;
将所述左嘴角位置与所述右嘴角位置之间的距离确定为第一距离;将所述采样图像中所述第二直线与嘴唇外轮廓的两交点之间的距离确定为第二距离;
根据每一采样图像的第一距离和第二距离生成口型波形数据。
4.根据权利要求3所述的方法,其特征在于,所述根据每一采样图像的第一距离和第二距离生成口型波形数据包括:
按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离作为一组数据进行存储,所有采样图像每一组数据组成所述口型波形数据;
或者,按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离的加权和进行存储,所有采样图像的每一采样图像的加权和组成所述口型波形数据。
5.根据权利要求1所述的方法,其特征在于,在所述获取唇动图像序列之前,还包括:
选定需要口型匹配的操作指令;
获取至少一个预设波形数据;
在所述至少一个预设波形数据是一个预设波形数据的情况下,将所述一个预设波形数据确定为与所述操作指令对应的标准波形数据;或者,在所述至少一个预设波形数据是至少两个预设波形数据的情况下,确定所述至少两个预设波形数据两两之间的相似度是否均不小于相似度检测阈值;在确定所述至少两个预设波形数据两两之间的相似度均不小于所述相似度检测阈值的情况下,将所述至少两个预设波形数据中任意一个预设波形数据确定为与所述操作指令对应的标准波形数据;
将标准波形数据与所述操作指令对应存储至所述波形数据库中。
6.根据权利要求5所述的方法,其特征在于,在确定出与所述操作指令对应的标准波形数据之后,所述将标准波形数据与所述操作指令对应存储至所述波形数据库中之前,还包括;
计算所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度;
所述将标准波形数据与所述操作指令对应存储至所述波形数据库中包括:
在所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度都小于匹配阈值的情况下,将标准波形数据与所述操作指令对应存储至所述波形数据库中。
7.根据权利要求1所述的方法,其特征在于,所述从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据包括:
从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据;
确定与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度是否不小于合法门限值;
在与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度不小于合法门限值的情况下,将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
8.一种装置,其特征在于,包括:获取单元、查找单元、确定单元和处理单元;所述获取单元包括:图像采集模块和波形数据提取模块;
所述图像采集模块,用于获取唇动图像序列;
所述波形数据提取模块,用于对所述图像采集模块获取的所述唇动图像序列进行波形数据提取,获得口型波形数据;
所述查找单元,用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令;
所述确定单元,用于将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据;
所述处理单元,用于执行所述匹配波形数据对应的操作指令。
9.根据权利要求8所述的装置,其特征在于,
所述查找单元,具体用于计算所述口型波形数据与所述波形数据库中标准波形数据的相似度;
所述确定单元,具体用于将所述至少一个标准波形数据中与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
10.根据权利要求8所述的装置,其特征在于,
所述波形数据提取模块,具体用于对唇动图像序列进行采样得到采样图像;
所述波形数据提取模块,具体用于获取每一采样图像中左嘴角位置和右嘴角位置,通过所述左嘴角位置和所述右嘴角位置做第一直线,通过所述左嘴角位置和所述右嘴角位置的中点做与所述第一直线垂直的第二直线;
所述波形数据提取模块,具体用于将所述左嘴角位置与所述右嘴角位置之间的距离确定为第一距离;将所述采样图像中所述第二直线与所述嘴唇外轮廓的两交点之间的距离确定为第二距离;
所述波形数据提取模块,具体用于根据每一采样图像的第一距离和第二距离生成口型波形数据。
11.根据权利要求10所述的装置,其特征在于,
所述波形数据提取模块,具体用于按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离作为一组数据进行存储,所有采样图像每一组数据组成所述口型波形数据;
或者,所述波形数据提取模块,具体用于按照采样图像时间上的顺序将每一采样图像的第一距离与第二距离的加权和进行存储,所有采样图像的每一采样图像的加权和组成所述口型波形数据。
12.根据权利要求8所述的装置,其特征在于,还包括:操作设定单元;
所述操作设定单元,用于选定需要口型匹配的操作指令;
所述获取单元,还用于获取至少一个预设波形数据;
所述确定单元,还用于在所述至少一个预设波形数据是一个预设波形数据的情况下,将所述一个预设波形数据确定为与所述操作指令对应的标准波形数据;或者,在所述至少一个预设波形数据是至少两个预设波形数据的情况下,确定所述至少两个预设波形数据两两之间的相似度是否均不小于相似度检测阈值;在确定所述至少两个预设波形数据两两之间的相似度均不小于所述相似度检测阈值的情况下,将所述至少两个预设波形数据中任意一个预设波形数据确定为与所述操作指令对应的标准波形数据;
所述处理单元,还用于将标准波形数据与所述操作指令对应存储至所述波形数据库中。
13.根据权利要求12所述的装置,其特征在于,还包括:计算单元;
所述计算单元,用于计算所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度;
所述处理单元,具体用于在所述操作指令对应的标准波形数据与所述波形数据库中每一标准波形数据的相似度都小于匹配阈值的情况下,将标准波形数据与所述操作指令对应存储至所述波形数据库中。
14.根据权利要求8所述的装置,其特征在于,
所述查找单元,具体用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据;
所述确定单元,具体用于确定与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度是否不小于合法门限值;
所述确定单元,具体用于在与所述口型波形数据相似度最大的标准波形数据和所述口型波形数据之间相似度不小于合法门限值的情况下,将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据。
CN201410432408.6A 2014-08-28 2014-08-28 一种基于口型执行预设操作的方法及装置 Pending CN104199545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410432408.6A CN104199545A (zh) 2014-08-28 2014-08-28 一种基于口型执行预设操作的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410432408.6A CN104199545A (zh) 2014-08-28 2014-08-28 一种基于口型执行预设操作的方法及装置

Publications (1)

Publication Number Publication Date
CN104199545A true CN104199545A (zh) 2014-12-10

Family

ID=52084846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410432408.6A Pending CN104199545A (zh) 2014-08-28 2014-08-28 一种基于口型执行预设操作的方法及装置

Country Status (1)

Country Link
CN (1) CN104199545A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426409A (zh) * 2015-11-02 2016-03-23 北京奇虎科技有限公司 数据查询方法和装置
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298637A1 (en) * 2003-05-30 2008-12-04 Microsoft Corporation Head Pose Assessment Methods and Systems
JP2009087224A (ja) * 2007-10-02 2009-04-23 Canon Inc 表示装置、および表示方法
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法
CN103235644A (zh) * 2013-04-15 2013-08-07 北京百纳威尔科技有限公司 信息显示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298637A1 (en) * 2003-05-30 2008-12-04 Microsoft Corporation Head Pose Assessment Methods and Systems
JP2009087224A (ja) * 2007-10-02 2009-04-23 Canon Inc 表示装置、および表示方法
CN102841676A (zh) * 2011-06-23 2012-12-26 鸿富锦精密工业(深圳)有限公司 网页浏览控制系统及方法
CN103235644A (zh) * 2013-04-15 2013-08-07 北京百纳威尔科技有限公司 信息显示方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426409A (zh) * 2015-11-02 2016-03-23 北京奇虎科技有限公司 数据查询方法和装置
CN105426409B (zh) * 2015-11-02 2019-02-22 北京奇虎科技有限公司 数据查询方法和装置
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
US11615308B2 (en) Generating responses to queries about videos utilizing a multi-modal neural network with attention
CN107622770B (zh) 语音唤醒方法及装置
CN108255934B (zh) 一种语音控制方法及装置
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
CN106294331A (zh) 音频信息检索方法及装置
CN104485115A (zh) 发音评价设备、方法和系统
KR101496876B1 (ko) 휴대 단말기의 소리 인식 방법 및 장치
CN109360551B (zh) 一种语音识别方法及装置
CN104199545A (zh) 一种基于口型执行预设操作的方法及装置
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN104361896A (zh) 语音质量评价设备、方法和系统
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110827799B (zh) 用于处理语音信号的方法、装置、设备和介质
CN113450771A (zh) 唤醒方法、模型训练方法和装置
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
CN112261321B (zh) 字幕处理方法、装置及电子设备
JP2024503957A (ja) 動画の編集方法、装置、電子機器、媒体
CN110010131B (zh) 一种语音信息处理的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141210

RJ01 Rejection of invention patent application after publication