CN106201177B - 一种操作执行方法及移动终端 - Google Patents
一种操作执行方法及移动终端 Download PDFInfo
- Publication number
- CN106201177B CN106201177B CN201610488543.1A CN201610488543A CN106201177B CN 106201177 B CN106201177 B CN 106201177B CN 201610488543 A CN201610488543 A CN 201610488543A CN 106201177 B CN106201177 B CN 106201177B
- Authority
- CN
- China
- Prior art keywords
- operation object
- information
- display position
- text information
- voice messaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明实施例公开了一种操作执行方法和移动终端。所述方法应用于移动终端,所述方法包括:解析语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
Description
技术领域
本发明实施例涉及通信领域,尤其涉及一种操作执行方法及移动终端。
背景技术
随着通讯技术的发展,语音识别技术得到了快速发展,正在日益改变着人们的生产和生活方式。
现有技术中,可以通过使用语音识别技术实现终端的某些操作。例如车载终端内安装有语音识别装置,可以通过识别用户的语音,实现音乐播放、路线导航等操作。
但是,现有技术通常是通过预设语音信息与对应操作来实现终端操作的,具体地,在接收到某一语音信息,并且确定已设有与该语音信息对应的操作后,终端执行对应操作;在确定未设有与该语音信息对应的操作后,终端不执行语音信息指示的操作。由于可执行的操作是预先设定的,因此终端操作的实现具有较大的局限性。
发明内容
本发明提供了一种操作执行方法,以解决背景技术中存在的现有的语音操作技术中只能执行预设语音对应的操作,使得终端操作的语音实现具有较大的局限性的问题。
第一方面,提供了一种操作执行方法,所述方法应用于移动终端,所述方法包括:
解析语音信息所指示的操作对象和操作信息;
查找语音信息所指示的操作对象在所述移动终端的显示位置;
在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
第二方面,提供了一种移动终端,包括:
语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息;
显示位置查找模块,用于查找语音信息所指示的操作对象在所述移动终端的显示位置;
操作执行模块,用于在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的操作执行方法的流程图;
图2是本发明另一个实施例的操作执行方法的流程图;
图3是本发明另一个实施例的显示位置的查找方法的流程图;
图4是本发明一个实施例的移动终端的框图;
图5是本发明另一个实施例的移动终端的框图;
图6是本发明另一个实施例的移动终端的框图;
图7是本发明另一个实施例的移动终端的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1
图1是本发明一个实施例的操作执行方法的流程图。图1所示的操作执行方法包括:
步骤101、解析所述语音信息所指示的操作对象和操作。
启动终端的语音控制功能后,终端开始接收语音信息,可以利用语音识别技术,对语音信息进行识别,获得相应的文字信息,进一步从得到的文字信息中提取操作对象和操作信息。其中,操作对象可以是文件、文件夹、应用程序、图标等;操作信息可以是点击、删除、保存、上滑等。
步骤102、查找语音信息所指示的操作对象在所述移动终端的显示位置。
本发明实施例中,移动终端可以为手机、平板、笔记本等。
语音识别技术又称自动语音识别(ASR,Automatic Speech Recognition),是一项将语音信息转换为文字信息的技术。
语音信息通常指示操作对象,例如文件、文件夹、应用程序等,以及指示针对操作对象设置的操作,例如单击、上滑、下滑、打开、查看、删除等。
在接收到某一语音信息后,首先确定语音信息指示的操作对象和操作信息,之后在移动终端的显示界面中查找与操作对象匹配的信息,若查找到与操作对象匹配的信息,则确定该匹配的信息所在的显示位置即为操作对象的显示位置。
例如,接收的语音信息是“点击第一文件夹”,首先确定操作对象为第一文件夹,操作为点击,之后在显示界面中查找第一文件夹,确定显示界面中的第一文件夹所在的显示位置即为操作对象的显示位置。
实际中,若当前显示界面未查找到操作对象,则可以自动跳转下一具有相同属性的显示界面,继续查找操作对象,直至完成对具有相同属性的多个显示界面的查找。例如,某一打开文档包括三个页面,若在第一个页面中未查找到操作对象,则跳转到第二个页面进行查找,若找到操作对象则停止查找,若未找到操作对象,则继续在第三个页面中查找。
步骤103、在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作。
在移动终端的显示界面中查找到操作对象的显示位置后,在查找到的显示位置处,对操作对象执行语音信息指示的操作信息,从而实现对语音信息的操作。
例如,接收的语音信息是“点击第一文件夹”,在移动终端的显示界面中查找到第一文件夹后,在第一文件夹处执行点击操作,具体地,可以在第一文件夹所在区域的中心位置或其他位置执行点击操作。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
实施例2
图2是本发明另一个实施例的操作执行方法的流程图。图2所示的操作执行方法包括:
步骤201、识别所述语音信息,获得相应的第一文字信息。
利用语音识别技术,对接收的语音信息进行识别,获得相应的第一文字信息。
步骤202、从所述第一文字信息中提取所述操作对象和所述操作信息。
本发明实施例中,预先设置有操作信息库,该库是针对不同操作设置的。在通过识别语音信息获得第一文字信息后,将第一文字信息与预设的操作信息库进行匹配,从而确定第一文字信息所包含的操作信息;进一步确定除操作信息以外的剩余第一文字信息为操作对象。
操作信息可以包括操作类型,相应地,第一文字信息中的操作信息可以包括操作类型,例如单击、双击、上滑、下滑、打开、查看、删除、搜索、返回、保存等。
由于第一文字信息中的操作信息可以包括操作类型,相应地预设的操作信息库可以包括操作类型信息库。第一文字信息中的操作类型可以通过下述方式获得:将第一文字信息与预设的操作类型信息库进行匹配,确定第一文字信息所包含的操作类型。例如第一文字信息是“打开第一文件夹”,将其与预设的操作类型信息库进行匹配,确定“打开”是操作类型,则确定剩余的“第一文件夹”是操作对象。
若第一文字信息中包括两个或多个操作类型,则认定除第一个操作类型以外的其他操作类型均为操作对象。例如“点击打开”,虽然“点击”和“打开”均是操作类型,但是认定“点击”是操作类型,“打开”是操作对象。
实际中,基于操作类型信息库的设置,使得在获得第一文字信息之后,还可以包括对第一文字信息进行判断这一步骤,具体地,判断第一文字信息是否包括操作类型,若包括,则说明语音信息有效,进行下一步骤,从第一文字信息中提取操作对象和操作信息;若不包括,则说明语音信息无效,不进行下一步操作,同时还可以发出语音提示信息,告知用户输入的语音信息有误。上述方法可以有效去除不符合要求的语音信息,提高语音识别的效率。
进一步,操作信息还可以包括操作位移,相应地,第一文字信息中的操作信息还可以包括操作位移。操作位移可以分为两种:一种是包括方向信息和位置偏移值,其中方向信息可以包括上、下、左、右、左上、右上、左下、右下等,可以根据实际需要进行设定;另一种是仅包括方向信息。
上述两类操作均包括方向信息,因此预设的操作信息库可以包括操作方向信息库。第一文字信息中的操作位移可以通过下述方式获得:匹配第一文字信息和操作方向信息库,确定第一文字信息所包含的方向信息;由于方向信息后面通常跟有位移偏移值,因此在确定方向信息后,进一步判断方向信息后面是否存在指示位置偏移值的第二文字信息,若存在,则确定方向信息和方向信息后面的文字信息为操作位移;若不存在,则确定方向信息和预设的位置偏移值为操作位移。
例如接收的语音信息是“下滑页面5cm”,由于语音信息指示的操作类型是“滑动”,指示的方向信息是“下”、指示的操作对象是“页面”,指示的操作信息的位置偏移值是5cm,因此对页面滚动条执行下滑操作,滑动距离为5cm。
又例如,接收的语音信息是“上滑页面”,由于语音信息指示的操作类型是“滑动”,指示的方向信息是“上”、指示的操作对象是“页面”,没有指示操作的位置偏移值,因此对页面滚动条执行上滑操作,滑动距离为预设的位移偏移值。
基于上述分析可知,操作信息可以分为两大类,一类包括操作类型和操作对象;另一类包括操作类型、操作对象和操作位移。若第一文字信息不包括操作位移,则对操作对象执行操作类型,例如“打开第一文档”、关闭当前打开的文件;若第一文字信息包括操作位移,则对操作对象执行操作类型,同时依据操作位移持续执行操作类型,例如下滑界面5cm。
步骤203、查找语音信息所指示的操作对象在所述移动终端的显示位置。
本发明实施例通过使用图像识别技术以及屏幕截图,查找第一文字信息中的操作对象。因此,在查找操作对象在移动终端的显示位置之前,需要对移动终端的显示界面进行截图,获得屏幕截图。
实际中,为了加快图像识别速度,在屏幕截图时,可以采用眼球定位识别方法,依据用户的眼球观看方向确定操作对象所在的大致位置,裁剪大概位置所在的区域作为图像识别的截图文件,替代屏幕截图,从而缩小了图像识别的区域。
在获取移动终端的屏幕截图后,可以利用屏幕截图查找操作对象的显示位置。图3是本发明另一个实施例的显示位置的查找方法的流程图。图3中包括三种查找方法,具体包括:
第一种查找方法是:提取屏幕截图中的第三文字信息及其在屏幕截图中的显示位置;从第三文字信息中,查找与操作对象匹配的文字信息,确定该匹配的文字信息所在的显示位置即为操作对象所在的显示位置。
具体操作时,可以提取屏幕截图中所有的第三文字信息,对第三文字信息进行局部划分得到多个文字小组,可以根据实际对文字小组的文字数目进行设定,可以设置文字数目不超过4个,例如按照4个文字为一组的方式对第三文字信息进行划分;同时记录每个文字小组所在的显示位置;进一步,建立文字小组-显示位置的对应关系。在对应关系中,查找到与操作对象匹配的文字小组后,查找该文字小组的显示位置,确定匹配的文字小组所在的显示位置为操作对象的显示位置。
第二种查找方法和第三种查找方法可以概括为:从屏幕截图中,查找截图信息与操作对象匹配的区域截图;使用图像识别技术,匹配区域截图和屏幕截图,确定区域截图的显示位置为操作对象所在的显示位置。
具体地,第二种查找方法是:提取操作对象中的特征描述,例如“识别五角星”、“识别太阳”等;进一步从屏幕截图中,查找与该特征描述匹配的特征图形,例如五角星图形、太阳图形,获取特征图形所在的区域截图,该区域截图所在的位置即为操作对象所在的显示位置。
第三种查找方法是:在存储有图标和图标名称的图标信息库中,查找与操作对象匹配的图标名称,确定匹配的图标名称对应的图标,进一步将对应的图标和屏幕截图进行匹配,确定图标的显示位置,进而确定了图标的显示位置即为操作对象的显示位置。其中,图标信息库是预先建立的,可以预先存储多组常用的图标及其图标名称,其中图标可以是系统图标,软件图标或其他图标,例如(添加,+)、(搜索,)、(删除,)等。
例如,语音信息是“点击删除”,其中“点击”是操作类型,“删除”是操作对象,在图标信息库中查找到与操作对象匹配的图标名称删除后,确定对应的图标是或进一步将对应的图标与屏幕截图进行匹配,确定该图标的位置即为操作对象的显示位置。
实际中,可以优先使用第一种查找方法对显示位置进行查找;还可以同时使用一种或多种查找方法,例如同时使用第二种和第三种查找方法,以加快查找速度。
步骤204、在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
本发明实施例所述的方法,通过输入简单的语音信息,即可对操作对象执行相应的操作信息,达到类似用户触屏操作的效果,解决了双手不方便时需要进行终端操作的问题。
本发明实施例中,还可以要求用户按照预设的录制规则录制语音信息,具体地,要求用户在输入操作对应的第一语音信息和操作对象对应的第二语音信息之间设置第一间隔标识,以对操作对象和操作进行区分。其中,第一间隔标识可以是停顿时间、预设语音信息等。
在接收到按照预设的录制规则录入的语音信息后,可以依据语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。其中第二间隔标识可以是字符,例如“*”、“#”、“@”等,也可以是预设数字,也可以是预设字母,可以根据实际进行设定。
另外,若操作对象包括多个层级,则还可以在不同层级操作对象之间,添加第二间隔标识,以对不同层级对象进行区分。按照语言顺序,用户通常会先输入高层级操作对象,层级逐级递减,最后输入最低层级操作对象,最低层级操作对象是操作执行的对象。
例如,接收的语音信息为“查看微信群A中的小王的聊天记录”,识别得到的第一文字信息为“查看*微信*群A*中的小王的聊天记录”,该第一文字信息中的操作对象包括三个层级,第一层级为微信,第二层级为群A,第三层级为小王的聊天记录,从左往右,层级逐渐递减,小王的聊天记录是最低层级操作对象,是查看执行的对象。
小王的聊天记录可以通过以下方式进行查看:对小王的聊天记录所在的当前显示界面进行截图,然后通过文字识别提取小王的聊天记录,若界面能够下滑,则循环执行下滑界面-界面截图-文字识别过程,提取小王的聊天记录,最终将小王的聊天记录展示在新界面中,同时保存。用户在新界面中读取小王的聊天记录时,可以采用眼球跟踪技术,在判断用户读完当前聊天记录后,光标直接跳转至下一条聊天记录。
实际中,针对第一层级操作对象,可以判断其是应用程序还是文件夹还是其他操作对象。当第一层级操作对象是应用程序时,首先判断该应用程序是否装载于当前移动终端内,若已装载,则按照预设规则启动该应用程序。例如当第一应用程序是视频客户端时,则双击打开该视频客户端,进入视频界面。对文件夹或其他操作对象也可采用类似方法进行处理。
在从第一文字信息中提取操作对象和操作信息之后,查找操作对象的显示位置。若操作对象中包括多个层级,则可以依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最低层级操作对象所在的显示位置为操作对象所在的显示位置。具体地,可以通过以下方式确定操作对象所在的显示位置:
识别操作对象中的首个第二间隔标识,确定首个第二间隔标识前面的第一文字信息为第一层级操作对象;
从移动终端的显示界面中,查找第一层级操作对象所在的显示位置,在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
依据上述方法以及多个第二间隔标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
确认查找到的最后层级操作对象所在的显示位置为操作对象所在的显示位置。上述方法实现了具有较多步骤和较高难度的多界面操作。
上述过程中,若共有三个层级操作对象,则在进入第二层级操作对象所在的显示界面后,在第二层级操作对象所在的显示位置处,模拟点击操作事件,进入第三层级操作对象所在的显示界面。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
同时,本发明实施例在使用文字识别技术将语音信息转换成第一文字信息后,又使用图像识别技术,在移动终端的显示界面中查找操作对象的显示位置,实现了对操作对象的显示位置的准确查找,保证了操作的准确进行。
另外,本发明实施例识别的语音信息是按照预设的录制规则记录的,由于不同层级操作对象之间存在第二间隔标识,所以可以通过识别第二间隔标识,对不同层级对象进行区分,实现了在不同显示界面中对不同层级对象执行相应的操作,实现了具有较多步骤和较高难度的多界面操作。
实施例3
图4是本发明一个实施例的移动终端的框图。图4所示的移动终端包括:
语音信息解析模块301,用于解析所述语音信息所指示的操作对象和操作信息。
显示位置查找模块302,用于查找语音信息所指示的操作对象在所述移动终端的显示位置。
操作执行模块303,用于在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
实施例4
图5是本发明另一个实施例的移动终端的框图。图5所示的移动终端包括:
语音信息解析模块401,用于解析所述语音信息所指示的操作对象和操作信息。
显示位置查找模块402,用于查找语音信息所指示的操作对象在所述移动终端的显示位置。
操作执行模块403,用于在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
所述语音信息解析模块401包括:
第一文字信息获得子模块4011,用于识别所述语音信息,获得相应的第一文字信息;
操作对象提取子模块4012,用于从所述第一文字信息中提取所述操作对象和所述操作信息。
本发明实施例中,优选地,所述操作对象提取子模块包括:
操作信息确定单元,用于将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息;
操作对象确定单元,用于确定除所述操作信息以外的剩余第一文字信息为所述操作对象。
本发明实施例中,优选地,所述操作信息包括操作类型;
所述操作信息确定单元,具体用于将所述第一文字信息与预设的操作类型信息库进行匹配,确定所述第一文字信息所包含的操作类型。
本发明实施例中,优选地,所述操作信息还包括操作位移;
所述操作信息确定单元包括:
方向信息确定子单元,用于匹配所述第一文字信息和所述操作方向信息库,确定所述第一文字信息所包含的方向信息;
位移信息判断子单元,用于判断所述方向信息后面是否存在指示位置偏移值的第二文字信息;
操作位移确定子单元,用于若判断所述方向信息后面存在指示位置偏移值的第二文字信息,则确定所述方向信息和所述方向信息后面的文字信息为所述操作位移,若判断所述方向信息后面不存在指示位置偏移值的第二文字信息,则确定所述方向信息和预设的位置偏移值为所述操作位移。
本发明实施例中,优选地,所述移动终端还包括:
屏幕截图获得模块,用于在所述查找语音信息所指示的操作对象在所述移动终端的显示位置之前,截图所述移动终端的显示界面,得到屏幕截图。
本发明实施例中,优选地,所述显示位置查找模块402包括:
显示位置提取子模块,用于提取所述屏幕截图中的第三文字信息及其在所述屏幕截图中的显示位置;
匹配文字信息查找子模块,用于从所述第三文字信息中,查找与所述操作对象匹配的文字信息,确定所述匹配的文字信息所在的显示位置为所述操作对象所在的显示位置。
本发明实施例中,优选地,所述显示位置查找模块402包括:
区域截图查找子模块,用于从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图;
图像匹配模块,用于匹配所述区域截图和所述屏幕截图,确定所述区域截图的显示位置为所述操作对象所在的显示位置。
本发明实施例中,优选地,所述区域截图查找子模块包括:
特征描述提取单元,用于提取所述操作对象中的特征描述;
特征图形查找单元,用于从所述屏幕截图中,查找与所述特征描述匹配的特征图形,获取所述特征图形所在的区域截图。
本发明实施例中,优选地,所述区域截图查找子模块包括:
图标确定单元,用于在存储有图标和图标名称的图标信息库中,查找与所述操作对象匹配的图标名称,确定所述图标名称对应的图标;
所述图像匹配模块,具体用于将所述图标和所述屏幕截图进行匹配。
本发明实施例中,优选地,所述语音信息符合预设的录制规则,在所述操作行为对应的第一语音信息和所述操作对象对应的第二语音信息之间存在第一间隔标识。
本发明实施例中,优选地,所述第一文字信息获得子模块包括:
第一标识添加单元,用于依据所述语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将所述第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。
本发明实施例中,优选地,若所述操作对象包括多个层级,则所述第一文字信息获得子模块还包括:
第二标识添加单元,用于在不同层级操作对象之间,添加所述第二间隔标识。
本发明实施例中,优选地,所述显示位置查找模块402,具体用于依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
本发明实施例中,优选地,所述显示位置查找模块402包括:
第一层级操作对象确认子模块,用于识别所述操作对象中的首个第二间隔标识,确定所述首个第二间隔标识前面的第一文字信息为第一层级操作对象;
一级显示位置确定子模块,用于从所述移动终端的显示界面中,查找所述第一层级操作对象所在的显示位置;
中间级显示位置确定子模块,用于依据多个特征标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
末级显示位置确定子模块,用于确认查找到的最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
本发明实施例中,优选地,所述移动终端还包括:
点击事件模拟模块,用于在查找到所述第一层级操作对象所在的显示位置后,在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
同时,本发明实施例在使用文字识别技术将语音信息转换成第一文字信息后,又使用图像识别技术,在移动终端的显示界面中查找操作对象的显示位置,实现了对操作对象的显示位置的准确查找,保证了操作的准确进行。
另外,本发明实施例识别的语音信息是按照预设的录制规则记录的,由于不同层级操作对象之间存在第二间隔标识,所以可以通过识别第二间隔标识,对不同层级对象进行区分,实现了在不同显示界面中对不同层级对象执行相应的操作,实现了具有较多步骤和较高难度的多界面操作。
由于所述移动终端实施例基本相应于前述图1-图3所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
图6是本发明另一个实施例的移动终端的框图。图6所示的移动终端500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。移动终端500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于解析语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,处理器501还用于识别所述语音信息,获得相应的第一文字信息;
从所述第一文字信息中提取所述操作对象和所述操作信息。
可选地,处理器501还用于将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息;
确定除所述操作信息以外的剩余第一文字信息为所述操作对象。
可选地,处理器501还用于将所述第一文字信息与预设的操作类型信息库进行匹配,确定所述第一文字信息所包含的操作类型,所述操作信息包括操作类型;
可选地,处理器501还用于匹配所述第一文字信息和所述操作方向信息库,确定所述第一文字信息所包含的方向信息,所述操作信息还包括操作位移;
判断所述方向信息后面是否存在指示位置偏移值的第二文字信息;
若存在,则确定所述方向信息和所述方向信息后面的文字信息为所述操作位移;
若不存在,则确定所述方向信息和预设的位置偏移值为所述操作位移。
可选地,处理器501还用于在所述查找语音信息所指示的操作对象在所述移动终端的显示位置之前,截图所述移动终端的显示界面,得到屏幕截图。
可选地,处理器501还用于提取所述屏幕截图中的第三文字信息及其在所述屏幕截图中的显示位置;
从所述第三文字信息中,查找与所述操作对象匹配的文字信息,确定所述匹配的文字信息所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器501还用于从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图;
匹配所述区域截图和所述屏幕截图,确定所述区域截图的显示位置为所述操作对象所在的显示位置。
可选地,处理器501还用于提取所述操作对象中的特征描述;
从所述屏幕截图中,查找与所述特征描述匹配的特征图形,获取所述特征图形所在的区域截图。
可选地,处理器501还用于在存储有图标和图标名称的图标信息库中,查找与所述操作对象匹配的图标名称,确定所述图标名称对应的图标;
所述匹配所述区域截图和所述屏幕截图包括:
将所述图标和所述屏幕截图进行匹配。
可选地,所述语音信息符合预设的录制规则,在所述操作对应的第一语音信息和所述操作对象对应的第二语音信息之间存在第一间隔标识。
可选地,处理器501还用于依据所述语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将所述第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。
可选地,处理器501还用于在不同层级操作对象之间,添加所述第二间隔标识。
可选地,处理器501还用于依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器501还用于识别所述操作对象中的首个第二间隔标识,确定所述首个第二间隔标识前面的第一文字信息为第一层级操作对象;
从所述移动终端的显示界面中,查找所述第一层级操作对象所在的显示位置;
依据多个第二间隔标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
确认查找到的最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器501还用于在查找到所述第一层级操作对象所在的显示位置后,在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
移动终端500能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
同时,本发明实施例在使用文字识别技术将语音信息转换成第一文字信息后,又使用图像识别技术,在移动终端的显示界面中查找操作对象的显示位置,实现了对操作对象的显示位置的准确查找,保证了操作的准确进行。
另外,本发明实施例识别的语音信息是按照预设的录制规则记录的,由于不同层级操作对象之间存在第二间隔标识,所以可以通过识别第二间隔标识,对不同层级对象进行区分,实现了在不同显示界面中对不同层级对象执行相应的操作,实现了具有较多步骤和较高难度的多界面操作。
图7是本发明另一个实施例的移动终端的结构示意图。具体地,图7中的移动终端600可以为手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、或车载电脑等。
图7中的移动终端600包括射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、处理器660、音频电路670、WiFi(Wireless Fidelity)模块680和电源690。
其中,输入单元630可用于接收用户输入的数字或字符信息,以及产生与移动终端600的用户设置以及功能控制有关的信号输入。具体地,本发明实施例中,该输入单元630可以包括触控面板631。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给该处理器660,并能接收处理器660发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,显示单元640可用于显示由用户输入的信息或提供给用户的信息以及移动终端600的各种菜单界面。显示单元640可包括显示面板641,可选的,可以采用LCD或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。
应注意,触控面板631可以覆盖显示面板641,形成触摸显示屏,当该触摸显示屏检测到在其上或附近的触摸操作后,传送给处理器660以确定触摸事件的类型,随后处理器660根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。
触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定,可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件,例如,设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。
其中处理器660是移动终端600的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在第一存储器621内的软件程序和/或模块,以及调用存储在第二存储器622内的数据,执行移动终端600的各种功能和处理数据,从而对移动终端600进行整体监控。可选的,处理器660可包括一个或多个处理单元。
在本发明实施例中,通过调用存储该第一存储器621内的软件程序和/或模块和/或该第二存储器622内的数据,处理器660用于解析语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。
可选地,处理器660还用于识别所述语音信息,获得相应的第一文字信息;
从所述第一文字信息中提取所述操作对象和所述操作信息。
可选地,处理器660还用于将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息;
确定除所述操作信息以外的剩余第一文字信息为所述操作对象。
可选地,处理器660还用于将所述第一文字信息与预设的操作类型信息库进行匹配,确定所述第一文字信息所包含的操作类型,所述操作信息包括操作类型;
可选地,处理器660还用于匹配所述第一文字信息和所述操作方向信息库,确定所述第一文字信息所包含的方向信息,所述操作信息还包括操作位移;
判断所述方向信息后面是否存在指示位置偏移值的第二文字信息;
若存在,则确定所述方向信息和所述方向信息后面的文字信息为所述操作位移;
若不存在,则确定所述方向信息和预设的位置偏移值为所述操作位移。
可选地,处理器660还用于在所述查找语音信息所指示的操作对象在所述移动终端的显示位置之前,截图所述移动终端的显示界面,得到屏幕截图。
可选地,处理器660还用于提取所述屏幕截图中的第三文字信息及其在所述屏幕截图中的显示位置;
从所述第三文字信息中,查找与所述操作对象匹配的文字信息,确定所述匹配的文字信息所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器660还用于从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图;
匹配所述区域截图和所述屏幕截图,确定所述区域截图的显示位置为所述操作对象所在的显示位置。
可选地,处理器660还用于提取所述操作对象中的特征描述;
从所述屏幕截图中,查找与所述特征描述匹配的特征图形,获取所述特征图形所在的区域截图。
可选地,处理器660还用于在存储有图标和图标名称的图标信息库中,查找与所述操作对象匹配的图标名称,确定所述图标名称对应的图标;
所述匹配所述区域截图和所述屏幕截图包括:
将所述图标和所述屏幕截图进行匹配。
可选地,所述语音信息符合预设的录制规则,在所述操作对应的第一语音信息和所述操作对象对应的第二语音信息之间存在第一间隔标识。
可选地,处理器660还用于依据所述语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将所述第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。
可选地,处理器660还用于在不同层级操作对象之间,添加所述第二间隔标识。
可选地,处理器660还用于依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器660还用于识别所述操作对象中的首个第二间隔标识,确定所述首个第二间隔标识前面的第一文字信息为第一层级操作对象;
从所述移动终端的显示界面中,查找所述第一层级操作对象所在的显示位置;
依据多个第二间隔标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
确认查找到的最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
可选地,处理器660还用于在查找到所述第一层级操作对象所在的显示位置后,在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
可见,依据本发明的实施例,语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息,查找语音信息所指示的操作对象在所述移动终端的显示位置,在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息。由于本发明实施例在查找到语音信息所指示的操作对象在移动终端的显示位置后,即可对该操作对象执行操作信息,因此本方法对语音信息的适用范围更加广泛,可以执行大多数语音信息指示的操作信息。
同时,本发明实施例在使用文字识别技术将语音信息转换成第一文字信息后,又使用图像识别技术,在移动终端的显示界面中查找操作对象的显示位置,实现了对操作对象的显示位置的准确查找,保证了操作的准确进行。
另外,本发明实施例识别的语音信息是按照预设的录制规则记录的,由于不同层级操作对象之间存在第二间隔标识,所以可以通过识别第二间隔标识,对不同层级对象进行区分,实现了在不同显示界面中对不同层级对象执行相应的操作,实现了具有较多步骤和较高难度的多界面操作。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (26)
1.一种操作执行方法,所述方法应用于移动终端,其特征在于,所述方法包括:
解析语音信息所指示的操作对象和操作信息;
查找语音信息所指示的操作对象在所述移动终端的显示位置;
在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息;
其中,在所述查找语音信息所指示的操作对象在所述移动终端的显示位置之前,所述方法还包括:
截图所述移动终端的显示界面,得到屏幕截图,以利用所述屏幕截图查找所指示的操作对象的显示位置;
其中,所述查找语音信息所指示的操作对象在所述移动终端的显示位置包括:
从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图;
匹配所述区域截图和所述屏幕截图,确定所述区域截图的显示位置为所述操作对象所在的显示位置;
其中,所述从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图包括:
提取所述操作对象中的特征描述;
从所述屏幕截图中,查找与所述特征描述匹配的特征图形,获取所述特征图形所在的区域截图。
2.根据权利要求1所述的方法,其特征在于,所述解析所述语音信息所指示的操作对象和操作信息包括:
识别所述语音信息,获得相应的第一文字信息;
从所述第一文字信息中提取所述操作对象和所述操作信息。
3.根据权利要求2所述的方法,其特征在于,所述从所述第一文字信息中提取所述操作对象和所述操作包括:
将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息;
确定除所述操作信息以外的剩余第一文字信息为所述操作对象。
4.根据权利要求3所述的方法,其特征在于,所述操作信息包括操作类型;
所述将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息包括:
将所述第一文字信息与预设的操作类型信息库进行匹配,确定所述第一文字信息所包含的操作类型。
5.根据权利要求4所述的方法,其特征在于,所述操作信息还包括操作位移;
所述将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息还包括:
匹配所述第一文字信息和所述操作方向信息库,确定所述第一文字信息所包含的方向信息;
判断所述方向信息后面是否存在指示位置偏移值的第二文字信息;
若存在,则确定所述方向信息和所述方向信息后面的文字信息为所述操作位移;
若不存在,则确定所述方向信息和预设的位置偏移值为所述操作位移。
6.根据权利要求1所述的方法,其特征在于,所述查找语音信息所指示的操作对象在所述移动终端的显示位置包括:
提取所述屏幕截图中的第三文字信息及其在所述屏幕截图中的显示位置;
从所述第三文字信息中,查找与所述操作对象匹配的文字信息,确定所述匹配的文字信息所在的显示位置为所述操作对象所在的显示位置。
7.根据权利要求1所述的方法,其特征在于,所述从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图包括:
在存储有图标和图标名称的图标信息库中,查找与所述操作对象匹配的图标名称,确定所述图标名称对应的图标;
所述匹配所述区域截图和所述屏幕截图包括:
将所述图标和所述屏幕截图进行匹配。
8.根据权利要求2所述的方法,其特征在于,所述语音信息符合预设的录制规则,在所述操作对应的第一语音信息和所述操作对象对应的第二语音信息之间存在第一间隔标识。
9.根据权利要求8所述的方法,其特征在于,所述识别所述语音信息,获得相应的第一文字信息包括:
依据所述语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将所述第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。
10.根据权利要求9所述的方法,其特征在于,若所述操作对象包括多个层级,则所述获得相应的第一文字信息还包括:
在不同层级操作对象之间,添加所述第二间隔标识。
11.根据权利要求10所述的方法,其特征在于,所述查找语音信息所指示的操作对象在所述移动终端的显示位置包括:
依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
12.根据权利要求11所述的方法,其特征在于,所述依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置包括:
识别所述操作对象中的首个第二间隔标识,确定所述首个第二间隔标识前面的第一文字信息为第一层级操作对象;
从所述移动终端的显示界面中,查找所述第一层级操作对象所在的显示位置;
依据多个第二间隔标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
确认查找到的最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
13.根据权利要求12所述的方法,其特征在于,在查找到所述第一层级操作对象所在的显示位置后,所述方法还包括:
在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
14.一种移动终端,其特征在于,所述移动终端包括:
语音信息解析模块,用于解析所述语音信息所指示的操作对象和操作信息;
显示位置查找模块,用于查找语音信息所指示的操作对象在所述移动终端的显示位置;
操作执行模块,用于在查找到的显示位置处,对所述操作对象执行所述语音信息指示的操作信息;
其中,所述移动终端还包括:
屏幕截图获得模块,用于在所述查找语音信息所指示的操作对象在所述移动终端的显示位置之前,截图所述移动终端的显示界面,得到屏幕截图,以利用所述屏幕截图查找所指示的操作对象的显示位置;
其中,所述显示位置查找模块包括:
区域截图查找子模块,用于从所述屏幕截图中,查找截图信息与所述操作对象匹配的区域截图;
图像匹配模块,用于匹配所述区域截图和所述屏幕截图,确定所述区域截图的显示位置为所述操作对象所在的显示位置;
其中,所述区域截图查找子模块包括:
特征描述提取单元,用于提取所述操作对象中的特征描述;
特征图形查找单元,用于从所述屏幕截图中,查找与所述特征描述匹配的特征图形,获取所述特征图形所在的区域截图。
15.根据权利要求14所述的移动终端,其特征在于,所述语音信息解析模块包括:
第一文字信息获得子模块,用于识别所述语音信息,获得相应的第一文字信息;
操作对象提取子模块,用于从所述第一文字信息中提取所述操作对象和所述操作信息。
16.根据权利要求15所述的移动终端,其特征在于,所述操作对象提取子模块包括:
操作信息确定单元,用于将所述第一文字信息与预设的操作信息库进行匹配,确定所述第一文字信息所包含的操作信息;
操作对象确定单元,用于确定除所述操作信息以外的剩余第一文字信息为所述操作对象。
17.根据权利要求16所述的移动终端,其特征在于,所述操作信息包括操作类型;
所述操作信息确定单元,具体用于将所述第一文字信息与预设的操作类型信息库进行匹配,确定所述第一文字信息所包含的操作类型。
18.根据权利要求17所述的移动终端,其特征在于,所述操作信息还包括操作位移;
所述操作信息确定单元包括:
方向信息确定子单元,用于匹配所述第一文字信息和所述操作方向信息库,确定所述第一文字信息所包含的方向信息;
位移信息判断子单元,用于判断所述方向信息后面是否存在指示位置偏移值的第二文字信息;
操作位移确定子单元,用于若判断所述方向信息后面存在指示位置偏移值的第二文字信息,则确定所述方向信息和所述方向信息后面的文字信息为所述操作位移,若判断所述方向信息后面不存在指示位置偏移值的第二文字信息,则确定所述方向信息和预设的位置偏移值为所述操作位移。
19.根据权利要求14所述的移动终端,其特征在于,所述显示位置查找模块包括:
显示位置提取子模块,用于提取所述屏幕截图中的第三文字信息及其在所述屏幕截图中的显示位置;
匹配文字信息查找子模块,用于从所述第三文字信息中,查找与所述操作对象匹配的文字信息,确定所述匹配的文字信息所在的显示位置为所述操作对象所在的显示位置。
20.根据权利要求14所述的移动终端,其特征在于,所述区域截图查找子模块包括:
图标确定单元,用于在存储有图标和图标名称的图标信息库中,查找与所述操作对象匹配的图标名称,确定所述图标名称对应的图标;
所述图像匹配模块,具体用于将所述图标和所述屏幕截图进行匹配。
21.根据权利要求15所述的移动终端,其特征在于,所述语音信息符合预设的录制规则,在所述操作行为对应的第一语音信息和所述操作对象对应的第二语音信息之间存在第一间隔标识。
22.根据权利要求21所述的移动终端,其特征在于:
所述第一文字信息获得子模块包括:
第一标识添加单元,用于依据所述语音信息的识别顺序,将识别到的第一间隔标识转换成第二间隔标识,并将所述第二间隔标识标记在所得文字信息的相应位置,得到所述第一文字信息。
23.根据权利要求22所述的移动终端,其特征在于,若所述操作对象包括多个层级,则所述第一文字信息获得子模块还包括:
第二标识添加单元,用于在不同层级操作对象之间,添加所述第二间隔标识。
24.根据权利要求23所述的移动终端,其特征在于:
所述显示位置查找模块,具体用于依据操作对象中的多个第二间隔标识及其排列顺序,从高层级操作对象到低层级操作对象,依次查找各个层级操作对象所在的显示位置,确定最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
25.根据权利要求24所述的移动终端,其特征在于,所述显示位置查找模块包括:
第一层级操作对象确认子模块,用于识别所述操作对象中的首个第二间隔标识,确定所述首个第二间隔标识前面的第一文字信息为第一层级操作对象;
一级显示位置确定子模块,用于从所述移动终端的显示界面中,查找所述第一层级操作对象所在的显示位置;
中间级显示位置确定子模块,用于依据多个特征标识的排列顺序,逐步查找其他层级操作对象所在的显示位置;
末级显示位置确定子模块,用于确认查找到的最后层级操作对象所在的显示位置为所述操作对象所在的显示位置。
26.根据权利要求25所述的移动终端,其特征在于,所述移动终端还包括:
点击事件模拟模块,用于在查找到所述第一层级操作对象所在的显示位置后,在所述第一层级操作对象所在的显示位置处,模拟点击操作事件,进入第二层级操作对象所在的显示界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610488543.1A CN106201177B (zh) | 2016-06-24 | 2016-06-24 | 一种操作执行方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610488543.1A CN106201177B (zh) | 2016-06-24 | 2016-06-24 | 一种操作执行方法及移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106201177A CN106201177A (zh) | 2016-12-07 |
CN106201177B true CN106201177B (zh) | 2019-10-15 |
Family
ID=57462378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610488543.1A Active CN106201177B (zh) | 2016-06-24 | 2016-06-24 | 一种操作执行方法及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106201177B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463929A (zh) * | 2017-06-30 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置、设备及计算机可读存储介质 |
CN107919120B (zh) * | 2017-11-16 | 2020-03-13 | 百度在线网络技术(北京)有限公司 | 语音交互方法及装置,终端,服务器及可读存储介质 |
CN108281144B (zh) * | 2018-01-23 | 2020-12-08 | 浙江国视科技有限公司 | 一种语音识别方法和系统 |
CN108932090A (zh) * | 2018-05-29 | 2018-12-04 | 北京小米移动软件有限公司 | 终端控制方法、装置和存储介质 |
CN108829371B (zh) * | 2018-06-19 | 2022-02-22 | Oppo广东移动通信有限公司 | 界面控制方法、装置、存储介质及电子设备 |
CN111327756A (zh) * | 2018-12-14 | 2020-06-23 | 青岛海信移动通信技术股份有限公司 | 终端的操作引导方法和终端 |
CN110059207A (zh) * | 2019-04-04 | 2019-07-26 | Oppo广东移动通信有限公司 | 图像信息的处理方法、装置、存储介质及电子设备 |
CN110058838B (zh) * | 2019-04-28 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 语音控制方法、装置、计算机可读存储介质和计算机设备 |
CN110428832A (zh) * | 2019-07-26 | 2019-11-08 | 苏州蜗牛数字科技股份有限公司 | 一种自定义语音实现屏幕控制的方法 |
CN111176539A (zh) * | 2019-11-11 | 2020-05-19 | 广东小天才科技有限公司 | 一种分屏显示方法及终端设备 |
CN113741770A (zh) * | 2020-05-29 | 2021-12-03 | 比亚迪股份有限公司 | 基于图像识别的控制方法和系统及车辆、存储介质 |
WO2022100283A1 (zh) * | 2020-11-13 | 2022-05-19 | 海信视像科技股份有限公司 | 显示设备、控件触发方法及滚动文本检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885787A (zh) * | 2014-04-10 | 2014-06-25 | 刘兴光 | 一种操作指令分层设计方法及装置 |
CN104461446A (zh) * | 2014-11-12 | 2015-03-25 | 科大讯飞股份有限公司 | 基于语音交互的软件运行方法及系统 |
CN105487668A (zh) * | 2015-12-09 | 2016-04-13 | 腾讯科技(深圳)有限公司 | 终端设备的展示方法和装置 |
CN105513594A (zh) * | 2015-11-26 | 2016-04-20 | 许传平 | 语音操控系统 |
CN105551487A (zh) * | 2015-12-07 | 2016-05-04 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521020B (zh) * | 2011-10-26 | 2014-05-21 | 华为终端有限公司 | 用于移动终端的应用屏幕截图方法和装置 |
JP6037901B2 (ja) * | 2013-03-11 | 2016-12-07 | 日立マクセル株式会社 | 操作検出装置、操作検出方法及び表示制御データ生成方法 |
CN103257879B (zh) * | 2013-05-24 | 2016-07-06 | 安徽易众网络科技有限公司 | 利用屏幕截图安装软件和配置软件的方法 |
CN104516654B (zh) * | 2013-09-26 | 2018-11-09 | 联想(北京)有限公司 | 操作处理方法和装置 |
-
2016
- 2016-06-24 CN CN201610488543.1A patent/CN106201177B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885787A (zh) * | 2014-04-10 | 2014-06-25 | 刘兴光 | 一种操作指令分层设计方法及装置 |
CN104461446A (zh) * | 2014-11-12 | 2015-03-25 | 科大讯飞股份有限公司 | 基于语音交互的软件运行方法及系统 |
CN105513594A (zh) * | 2015-11-26 | 2016-04-20 | 许传平 | 语音操控系统 |
CN105551487A (zh) * | 2015-12-07 | 2016-05-04 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
CN105487668A (zh) * | 2015-12-09 | 2016-04-13 | 腾讯科技(深圳)有限公司 | 终端设备的展示方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106201177A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106201177B (zh) | 一种操作执行方法及移动终端 | |
US9703462B2 (en) | Display-independent recognition of graphical user interface control | |
US9098313B2 (en) | Recording display-independent computerized guidance | |
US8060841B2 (en) | Method and device for touchless media searching | |
US8463731B2 (en) | Translating user interaction with a touch screen into text | |
CN103294363B (zh) | 一种搜索方法和终端 | |
CN106327185A (zh) | 一种支付应用的启动方法及移动终端 | |
US9405558B2 (en) | Display-independent computerized guidance | |
CN105975144A (zh) | 一种信息处理方法和装置 | |
JP2013545380A (ja) | 入力設定の自動調整 | |
CN103562835A (zh) | 带有快速站点访问用户界面的web浏览器 | |
CN103324674B (zh) | 网页内容选取方法及装置 | |
CN106446048B (zh) | 一种歌曲推荐方法及移动终端 | |
CN106485112A (zh) | 一种开启应用程序的方法及移动终端 | |
CN105824499A (zh) | 一种窗口的控制方法及移动终端 | |
CN102663055A (zh) | 浏览器导航的实现方法、装置及浏览器 | |
CN106293705A (zh) | 一种收藏方法及移动终端 | |
CN106446180A (zh) | 一种歌曲的识别方法及移动终端 | |
CN107329687B (zh) | 一种虚拟输入键盘的显示方法及移动终端 | |
CN106126662A (zh) | 一种电子书显示方法和移动终端 | |
CN107566917A (zh) | 一种视频标记方法及视频播放设备 | |
CN106951258A (zh) | 一种移动终端的操作方法及移动终端 | |
CN106095128A (zh) | 一种移动终端的文字输入方法及移动终端 | |
CN104503679B (zh) | 一种基于终端界面触控操作进行搜索的方法及装置 | |
CN112230811A (zh) | 输入方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |