CN104423543A - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN104423543A
CN104423543A CN201310376593.7A CN201310376593A CN104423543A CN 104423543 A CN104423543 A CN 104423543A CN 201310376593 A CN201310376593 A CN 201310376593A CN 104423543 A CN104423543 A CN 104423543A
Authority
CN
China
Prior art keywords
information
input
input information
input mode
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310376593.7A
Other languages
English (en)
Inventor
张超
李然
贾旭
张渊毅
陈军
任皎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201310376593.7A priority Critical patent/CN104423543A/zh
Publication of CN104423543A publication Critical patent/CN104423543A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03545Pens or stylus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明实施例公开了一种信息处理方法及装置,所述方法能够接收用户输入的用于识别同一目标对象的两种输入信息,其中包括语音信息,然后对用户输入的语音信息及第二输入信息进行分析处理,综合两个输入信息的处理结果来确定目标对象。该信息处理方法及装置采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。

Description

一种信息处理方法及装置
技术领域
本发明涉及识别技术领域,更具体的说,是涉及一种信息处理方法及装置。
背景技术
随着各种电子设备越来越智能化的发展,这些电子设备必须能够准确无误的理解用户传达或触发的一些信息,并按照用户传达或触发的信息,识别选中某个事物并执行相应的操作。
现有技术中,电子设备根据用户传达的识别信息识别事物的方法通常采用语音识别的方法。现有技术的方法中,用户通过语音采集器向电子设备输入一定的语音信息,系统通过对用户输入的语音信息进行分析识别,从而确定用户想要获取的目标事物。但是,现有技术中这种通过语音来识别目标事物的方法,有时系统对语音信息的识别不够准确,从而导致最终系统识别出的目标事物错误,而且,这种通过语音信息识别目标事物的方法在嘈杂的环境中或要求保持安静的场合并不适用。
发明内容
有鉴于此,本发明提供了一种信息处理方法及装置,以实现电子设备对目标事物的准确识别。
为实现上述目的,本发明提供如下技术方案:
一种信息处理方法,所述方法应用于电子设备中,包括:
通过第一输入方式获得第一输入信息,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息;
通过第二输入方式获得第二输入信息,所述第二输入方式与所述第一输入方式不同;
通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
对所述第二输入信息进行处理,获得第二执行信息;
根据所述第一执行信息和所述第二执行信息确定目标对象。
可选的,所述第一执行信息对应M个对象,所述第二执行信息对应N个对象;所述根据所述第一执行信息和所述第二执行信息确定目标对象,包括:
根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象;所述M和所述N为正整数;所述预设的规则包括将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。
可选的,所述第二输入方式为唇形图像输入方式;所述第二输入信息为唇形输入信息;所述对所述第二输入信息进行处理,获得第二执行信息,包括:
对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。
可选的,在通过第二输入方式获得第二输入信息前,还包括:
判断所述电子设备当前所处位置的环境声音是否满足预定条件;
如果是,则启动所述第二输入方式对应的采集单元,进入通过第二输入方式获取第二输入信息的步骤。
可选的,所述第一执行信息对应一个或多个对象,所述第二执行信息为目标确定信息;所述根据所述第一执行信息和所述第二执行信息确定目标对象,包括:
根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;
根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
可选的,所述第二输入信息包括手势输入信息、激光笔输入信息或唇形输入信息。
一种信息处理装置,所述装置应用于电子设备中,包括:
第一输入信息获取模块,用于通过第一输入方式获得第一输入信息,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息;
第二输入信息获取模块,用于通过第二输入方式获得第二输入信息,所述第二输入方式与所述第一输入方式不同;
第一执行信息获取模块,用于通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
第二执行信息获取模块,用于对所述第二输入信息进行处理,获得第二执行信息;
目标对象确定模块,用于根据所述第一执行信息和所述第二执行信息确定目标对象。
可选的,所述目标对象确定模块包括:
对象获取模块,用于确定所述第一执行信息对应的M个对象,并确定所述第二执行信息对应的N个对象;
目标对象确定子模块,用于根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象;所述M和所述N为正整数;所述预设的规则包括将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。
可选的,所述第二输入方式为唇形图像输入方式;所述第二输入信息为唇形输入信息,则所述第二执行信息获取模块包括:
执行信息获取子模块,用于对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。
可选的,还包括:
判断模块,用于在通过第二输入方式获得第二输入信息前,判断所述电子设备当前所处位置的环境声音是否满足预定条件;
单元启动模块,用于在所述判断模块的判断结果为是的情况下,启动所述第二输入方式对应的采集单元。
可选的,所述第二执行信息为目标确定信息,所述目标对象确定模块包括:
对象获取模块,用于根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;
目标对象确定子模块,用于根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种信息处理方法及装置,所述方法能够接收用户输入的用于识别同一目标对象的两种输入信息,其中包括语音信息,然后对用户输入的语音信息及第二输入信息进行分析处理,综合两个输入信息的处理结果来确定目标对象。该信息处理方法及装置采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的信息处理方法的流程图;
图2为本发明实施例公开的确定目标对象的流程图;
图3为本发明实施例公开的另一种信息处理方法的流程图;
图4为本发明实施例公开的信息处理装置的结构示意图;
图5为本发明实施例公开的目标对象确定模块的结构示意图;
图6为本发明实施例公开的另一个信息处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例公开的信息处理方法的流程图,参见图1所示,所述信息处理方法可以包括:
步骤101:通过第一输入方式获得第一输入信息;
其中,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息。采集所述语音输入信息可以采用麦克风或其他的录音设备来采集。
步骤102:通过第二输入方式获得第二输入信息;
其中,所述第二输入方式与所述第一输入方式不同。所述第二输入信息可以包括但不限定为手势输入信息、激光笔输入信息或唇形输入信息中的任意一种。
步骤103:通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
由于所述第一输入信息为语音输入信息,因此,在经过所述语音识别引擎识别所述语音输入信息后,得到的所述第一执行信息可以是机器能够识别的与所示语音输入信息对应的文本信息。
步骤104:对所述第二输入信息进行处理,获得第二执行信息;
需要说明的是,上述步骤102和步骤103的顺序可以互换,即先进行语音输入和语音识别的过程,然后再进行通过第二输入方式采集第二输入信息并分析处理的动作。当然,步骤101和步骤103的组合与步骤102与步骤104的组合也可以同时进行,这样也缩短了系统识别目标对象的处理时间。
在所述第二输入信息为手势输入信息时,可以通过红外感应器或摄像头获取用户的手势信息,根据获取的用户的手势信息在系统存储器中查找与所述手势信息对应的对象描述信息,即所述第二执行信息。
在所述第二输入信息为激光笔输入信息时,可以通过激光感应器确定激光笔所打出的激光对应的某个范围内的对象,进而可以结合上述语音输入信息来确认激光笔难以分辨的对象。由于用户手拿激光笔多少都会有一定的不稳定性,因此激光笔的激光可能在一定的时间内不能够准确的定位在一个对象上,这种情况下激光确定的对象就可能有多个,这时结合用户的语音输入信息,就能够从激光确定的多个对象中识别出用户想要确定的目标对象。例如,激光笔的激光照射到显示屏上书架上的紧密排列、颜色不同的书上时,用户输入的语音输入信息指示“红色”,则就能够从多本颜色不同的书中确定用户想要的对象为显示屏上激光确定范围中显示的红色的书。
在所述第二输入信息为唇形输入信息时,可以通过摄像机获取用户在输入语音信息时的唇形信息,并通过唇形分析器识别出用户想要表达的信息。例如用户通过语音输入“播报今天的天气”,同时唇形识别器也识别出用户的唇形对应的输入为“播报今天的天气”,这样通过双重识别,增加了识别结果的准确性。在第二输入方式为唇形图像输入方式时,所述第二输入信息为唇形输入信息,则所述对所述第二输入信息进行处理,获得第二执行信息可以包括:对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。需要强调说明的是,通过上述这种语音和唇形结合识别目标对象的方式,用户只需要做一种输入动作,即说话,就能够同时进行两种信息的输入,这两种信息分别为语音输入信息和唇形输入信息,这不仅节省了用户的时间资源和其他资源,同时这种方式在嘈杂的环境中同样适用,因为系统识别的不仅仅是语音输入信息,还包括唇形输入信息,从而大大增加了在嘈杂环境下识别目标事物的准确性。
接下来,进入步骤105。
步骤105:根据所述第一执行信息和所述第二执行信息确定目标对象。
其中,所述第一执行信息可以对应确定M个对象,所述第二执行信息可以确定N个对象,其中M和N为正整数。这样,步骤105具体可以是根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象。其中所述的预设的规则包括但不限定为下面的两种情况,即将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。例如,通过语音输入信息确定用户输入的为“播放一首”这几个文字,通过唇形分析器识别出用户的唇形输入对应“播放一首钢琴曲”,则两种识别结果取并集,得到的就是完整的识别对象,即“播放一首钢琴曲”。再如,通过语音输入信息确定用户输入的为“图片”,则系统会将内存中所有的图片信息确定为对象,而通过用户的手势触发“JPG格式”,则两种识别结果取交集,得到的目标对象就是所有的JPG格式的图片。
在另一种情况下,所述第一执行信息对应一个或多个对象,所述第二执行信息则直接为目标确定信息。这种情况下,步骤105的具体过程可以参见图2,图2为本发明实施例公开的确定目标对象的流程图,如图2所示,可以包括:
步骤201:根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;
步骤202:根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
例如,通过语音输入信息确定用户输入的为“添加表情”,则系统会将内存中所有的表情信息确定为对象,而通过摄像机采集到用户的表情信息,并通过对用户表情的分析识别,识别出用户当前表情为为“笑脸”,则最终的目标对象,即“笑脸”的表情信息。
本实施例中,所述信息处理方法能够接收用户输入的用于识别同一目标对象的两种输入信息,其中包括语音信息,然后对用户输入的语音信息及第二输入信息进行分析处理,综合两个输入信息的处理结果来确定目标对象。该信息处理方法采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。
图3为本发明实施例公开的另一种信息处理方法的流程图,参见图3所示,所述信息处理方法可以包括:
步骤301:通过第一输入方式获得第一输入信息;
其中,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息。
步骤302:通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
经过处理得到的所述第一执行信息可以是机器能够识别的与所示语音输入信息对应的文本信息。
步骤303:判断所述电子设备当前所处位置的环境声音是否满足预定条件;如果是,进入步骤304;
其中所述的环境声音的预定条件可以是环境声音嘈杂度大于某阈值,该阈值可以根据经验值或实验值来设定。在环境声音比较嘈杂时,用户输入的语音信息也会包含有很多杂音,这就可能导致系统无法准确识别出用户的语音输入信息,所以在环境声音比较嘈杂时,可以触发第二种输入方式对应的采集单元,以进一步识别用户的意图。而如果在步骤303的判断结果为否的情况下,说明当前环境下能够清楚准确的识别用户输入的语音输入信息,则可以不启动第二输入方式对应的采集单元,这样大大节省了系统资源。
步骤304:启动所述第二输入方式对应的采集单元;
在所述第二种输入方式对应的采集单元启动后,相应采集单元就能够通过第二输入方式来采集用户传达的信息。
步骤305:通过第二输入方式获得第二输入信息;
其中,所述第二输入方式与所述第一输入方式不同。所述第二输入信息可以包括但不限定为手势输入信息、激光笔输入信息或唇形输入信息中的任意一种。
步骤306:对所述第二输入信息进行处理,获得第二执行信息;
步骤307:根据所述第一执行信息和所述第二执行信息确定目标对象。
本实施例中,所述信息处理方法首先采集用户输入的语音信息,并对采集得到的语音输入信息进行分析处理,在环境声音干扰度比较大的情况下,会进一步启动第二输入方式对应的采集单元,进而综合两个输入信息的处理结果来确定目标对象。该信息处理方法能够采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。同时在环境声音干扰度比较小,能够准确识别用户输入的语音输入信息的情况下,不启动第二输入方式对应的采集单元,节省系统资源。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图4为本发明实施例公开的信息处理装置的结构示意图,参见图4所示,所述信息处理装置40可以包括:
第一输入信息获取模块401,用于通过第一输入方式获得第一输入信息;
所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息。采集所述语音输入信息可以采用麦克风或其他的录音设备来采集。
第二输入信息获取模块402,用于通过第二输入方式获得第二输入信息;
所述第二输入方式与所述第一输入方式不同。所述第二输入信息可以包括但不限定为手势输入信息、激光笔输入信息或唇形输入信息中的任意一种。
第一执行信息获取模块403,用于通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
由于所述第一输入信息为语音输入信息,因此,在经过所述语音识别引擎识别所述语音输入信息后,得到的所述第一执行信息可以是机器能够识别的与所示语音输入信息对应的文本信息。
第二执行信息获取模块404,用于对所述第二输入信息进行处理,获得第二执行信息;
对所述第二输入信息的分析处理可以具体针对第二输入信息的特点来设置对应的处理方式。
在所述第二输入方式为唇形图像输入方式时,所述第二输入信息为唇形输入信息,则所述第二执行信息获取模块404可以包括执行信息获取子模块,用于对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。
目标对象确定模块405,用于根据所述第一执行信息和所述第二执行信息确定目标对象。
在一个示意性的实施例中,所述目标对象确定模块405的具体结构可以参见图5,图5为本发明实施例公开的目标对象确定模块的结构示意图,参见图5所示,所述目标对象确定模块405可以包括:
对象获取模块4051,用于确定所述第一执行信息对应的M个对象,并确定所述第二执行信息对应的N个对象;
目标对象确定子模块4052,用于根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象。
其中,所述M和所述N为正整数;所述预设的规则包括将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。
当然,上述对象获取模块4051和目标对象确定子模块4052在其他的实施例中也可以有不同的功能,如,对象获取模块用于根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;目标对象确定子模块用于根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
本实施例中,所述信息处理装置能够接收用户输入的用于识别同一目标对象的两种输入信息,其中包括语音信息,然后对用户输入的语音信息及第二输入信息进行分析处理,综合两个输入信息的处理结果来确定目标对象。该信息处理装置采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。
图6为本发明实施例公开的另一个信息处理装置的结构示意图,参见图6所示,所述信息处理装置60可以包括:
第一输入信息获取模块401,用于通过第一输入方式获得第一输入信息;
其中,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息。
第一执行信息获取模块403,用于通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
所述第一执行信息可以是经过对所述第一输入信息识别后得到的机器能够识别的与所示语音输入信息对应的文本信息。
判断模块601,用于在通过第二输入方式获得第二输入信息前,判断所述电子设备当前所处位置的环境声音是否满足预定条件;
其中所述的环境声音的预定条件可以是环境声音嘈杂度大于某阈值,该阈值可以根据经验值或实验值来设定。在环境声音比较嘈杂时,用户输入的语音信息也会包含有很多杂音,这就可能导致系统无法准确识别出用户的语音输入信息,所以在环境声音比较嘈杂时,可以触发第二种输入方式对应的采集单元,以进一步识别用户的意图。而如果在步骤303的判断结果为否的情况下,说明当前环境下能够清楚准确的识别用户输入的语音输入信息,则可以不启动第二输入方式对应的采集单元,这样大大节省了系统资源。
单元启动模块602,用于在所述判断模块的判断结果为是的情况下,启动所述第二输入方式对应的采集单元。
在所述第二种输入方式对应的采集单元启动后,相应采集单元就能够通过第二输入方式来采集用户传达的信息。
第二输入信息获取模块402,用于通过第二输入方式获得第二输入信息;
所述第二输入方式与所述第一输入方式不同。所述第二输入方式与所述第一输入方式不同。所述第二输入信息可以包括但不限定为手势输入信息、激光笔输入信息或唇形输入信息中的任意一种。
第二执行信息获取模块404,用于对所述第二输入信息进行处理,获得第二执行信息;
对所述第二输入信息的分析处理可以具体针对第二输入信息的特点来设置对应的处理方式。
目标对象确定模块405,用于根据所述第一执行信息和所述第二执行信息确定目标对象。
本实施例中,所述信息处理方法首先采集用户输入的语音信息,并对采集得到的语音输入信息进行分析处理,在环境声音干扰度比较大的情况下,会进一步启动第二输入方式对应的采集单元,进而综合两个输入信息的处理结果来确定目标对象。该信息处理方法能够采用两种方式来识别目标对象,从而大大提高了识别目标对象的准确性。同时在环境声音干扰度比较小,能够准确识别用户输入的语音输入信息的情况下,不启动第二输入方式对应的采集单元,节省系统资源。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种信息处理方法,所述方法应用于电子设备中,其特征在于,包括:
通过第一输入方式获得第一输入信息,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息;
通过第二输入方式获得第二输入信息,所述第二输入方式与所述第一输入方式不同;
通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
对所述第二输入信息进行处理,获得第二执行信息;
根据所述第一执行信息和所述第二执行信息确定目标对象。
2.根据权利要求1所述的信息处理方法,其特征在于,所述第一执行信息对应M个对象,所述第二执行信息对应N个对象;所述根据所述第一执行信息和所述第二执行信息确定目标对象,包括:
根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象;所述M和所述N为正整数;所述预设的规则包括将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。
3.根据权利要求1所述的信息处理方法,其特征在于,所述第二输入方式为唇形图像输入方式;所述第二输入信息为唇形输入信息;所述对所述第二输入信息进行处理,获得第二执行信息,包括:
对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。
4.根据权利要求1所述的信息处理方法,其特征在于,在通过第二输入方式获得第二输入信息前,还包括:
判断所述电子设备当前所处位置的环境声音是否满足预定条件;
如果是,则启动所述第二输入方式对应的采集单元,进入通过第二输入方式获取第二输入信息的步骤。
5.根据权利要求1所述的信息处理方法,其特征在于,所述第一执行信息对应一个或多个对象,所述第二执行信息为目标确定信息;所述根据所述第一执行信息和所述第二执行信息确定目标对象,包括:
根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;
根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
6.根据权利要求1所述的信息处理方法,其特征在于,所述第二输入信息包括手势输入信息、激光笔输入信息或唇形输入信息。
7.一种信息处理装置,所述装置应用于电子设备中,其特征在于,包括:
第一输入信息获取模块,用于通过第一输入方式获得第一输入信息,所述第一输入方式为语音输入方式,所述第一输入信息为语音输入信息;
第二输入信息获取模块,用于通过第二输入方式获得第二输入信息,所述第二输入方式与所述第一输入方式不同;
第一执行信息获取模块,用于通过语音识别引擎识别所述第一输入信息,获得第一执行信息;
第二执行信息获取模块,用于对所述第二输入信息进行处理,获得第二执行信息;
目标对象确定模块,用于根据所述第一执行信息和所述第二执行信息确定目标对象。
8.根据权利要求7所述的信息处理装置,其特征在于,所述目标对象确定模块包括:
对象获取模块,用于确定所述第一执行信息对应的M个对象,并确定所述第二执行信息对应的N个对象;
目标对象确定子模块,用于根据所述第一执行信息对应的M个对象、所述第二执行信息对应的N个对象和预设的规则来确定目标对象;所述M和所述N为正整数;所述预设的规则包括将所述M个对象和所述N个对象做取交集处理或者将所述M个对象和所述N个对象做取并集处理。
9.根据权利要求7所述的信息处理装置,其特征在于,所述第二输入方式为唇形图像输入方式;所述第二输入信息为唇形输入信息,则所述第二执行信息获取模块包括:
执行信息获取子模块,用于对摄像机采集到的唇形输入信息进行识别处理,获得与所述唇形输入信息对应的文字信息。
10.根据权利要求7所述的信息处理装置,其特征在于,还包括:
判断模块,用于在通过第二输入方式获得第二输入信息前,判断所述电子设备当前所处位置的环境声音是否满足预定条件;
单元启动模块,用于在所述判断模块的判断结果为是的情况下,启动所述第二输入方式对应的采集单元。
11.根据权利要求7所述的信息处理装置,其特征在于,所述第二执行信息为目标确定信息,所述目标对象确定模块包括:
对象获取模块,用于根据所述第一执行信息,确定所述第一执行信息对应的一个或多个对象;
目标对象确定子模块,用于根据所述目标确定信息,从所述第一执行信息对应的一个或多个对象中确定出目标对象。
CN201310376593.7A 2013-08-26 2013-08-26 一种信息处理方法及装置 Pending CN104423543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310376593.7A CN104423543A (zh) 2013-08-26 2013-08-26 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310376593.7A CN104423543A (zh) 2013-08-26 2013-08-26 一种信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN104423543A true CN104423543A (zh) 2015-03-18

Family

ID=52972833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310376593.7A Pending CN104423543A (zh) 2013-08-26 2013-08-26 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN104423543A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952447A (zh) * 2015-04-30 2015-09-30 深圳市全球锁安防系统工程有限公司 一种老龄人安康服务智能穿戴设备及语音识别方法
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN106990843A (zh) * 2017-04-01 2017-07-28 维沃移动通信有限公司 一种眼睛跟踪系统的参数校准方法及电子设备
WO2018000200A1 (zh) * 2016-06-28 2018-01-04 华为技术有限公司 对电子设备进行控制的终端及其处理方法
CN108427548A (zh) * 2018-02-26 2018-08-21 广东小天才科技有限公司 基于麦克风的用户交互方法、装置、设备及存储介质
CN108629241A (zh) * 2017-03-23 2018-10-09 华为技术有限公司 一种数据处理方法和数据处理设备
WO2018219198A1 (zh) * 2017-06-02 2018-12-06 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
CN110415689A (zh) * 2018-04-26 2019-11-05 富泰华工业(深圳)有限公司 语音识别装置及方法
CN115623239A (zh) * 2022-10-21 2023-01-17 宁波理查德文化创意有限公司 一种基于使用习惯的个性化直播操控方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1470975A (zh) * 2002-07-22 2004-01-28 北京大学 一种汉字输入方法和使用该方法的系统
US20080153074A1 (en) * 2006-12-20 2008-06-26 Andrew Miziniak Language evaluation and pronunciation systems and methods
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN102339129A (zh) * 2011-09-19 2012-02-01 北京航空航天大学 一种基于语音和手势的多通道人机交互方法
CN202329640U (zh) * 2011-08-19 2012-07-11 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的系统
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
CN202523016U (zh) * 2011-12-31 2012-11-07 光峰光电(无锡)有限公司 无线语音和光笔触控互动式简报系统
CN102937834A (zh) * 2012-11-26 2013-02-20 上海量明科技发展有限公司 混合型输入的方法、客户端及系统
CN202801140U (zh) * 2012-08-31 2013-03-20 华南理工大学 一种窗帘的智能手势和语音控制系统
CN203055303U (zh) * 2012-07-31 2013-07-10 上海创幸计算机科技有限公司 一种多媒体光电投影互动沙盘系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1470975A (zh) * 2002-07-22 2004-01-28 北京大学 一种汉字输入方法和使用该方法的系统
US20080153074A1 (en) * 2006-12-20 2008-06-26 Andrew Miziniak Language evaluation and pronunciation systems and methods
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN202329640U (zh) * 2011-08-19 2012-07-11 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的系统
CN102339129A (zh) * 2011-09-19 2012-02-01 北京航空航天大学 一种基于语音和手势的多通道人机交互方法
CN202523016U (zh) * 2011-12-31 2012-11-07 光峰光电(无锡)有限公司 无线语音和光笔触控互动式简报系统
CN203055303U (zh) * 2012-07-31 2013-07-10 上海创幸计算机科技有限公司 一种多媒体光电投影互动沙盘系统
CN202801140U (zh) * 2012-08-31 2013-03-20 华南理工大学 一种窗帘的智能手势和语音控制系统
CN102937834A (zh) * 2012-11-26 2013-02-20 上海量明科技发展有限公司 混合型输入的方法、客户端及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
CN104952447A (zh) * 2015-04-30 2015-09-30 深圳市全球锁安防系统工程有限公司 一种老龄人安康服务智能穿戴设备及语音识别方法
CN107801413B (zh) * 2016-06-28 2020-01-31 华为技术有限公司 对电子设备进行控制的终端及其处理方法
WO2018000200A1 (zh) * 2016-06-28 2018-01-04 华为技术有限公司 对电子设备进行控制的终端及其处理方法
CN107801413A (zh) * 2016-06-28 2018-03-13 华为技术有限公司 对电子设备进行控制的终端及其处理方法
CN108629241A (zh) * 2017-03-23 2018-10-09 华为技术有限公司 一种数据处理方法和数据处理设备
CN106990843A (zh) * 2017-04-01 2017-07-28 维沃移动通信有限公司 一种眼睛跟踪系统的参数校准方法及电子设备
CN106990843B (zh) * 2017-04-01 2021-01-08 维沃移动通信有限公司 一种眼睛跟踪系统的参数校准方法及电子设备
WO2018219198A1 (zh) * 2017-06-02 2018-12-06 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
CN108986801A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
CN108986801B (zh) * 2017-06-02 2020-06-05 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
CN108427548A (zh) * 2018-02-26 2018-08-21 广东小天才科技有限公司 基于麦克风的用户交互方法、装置、设备及存储介质
CN110415689A (zh) * 2018-04-26 2019-11-05 富泰华工业(深圳)有限公司 语音识别装置及方法
CN110415689B (zh) * 2018-04-26 2022-02-15 富泰华工业(深圳)有限公司 语音识别装置及方法
CN115623239A (zh) * 2022-10-21 2023-01-17 宁波理查德文化创意有限公司 一种基于使用习惯的个性化直播操控方法

Similar Documents

Publication Publication Date Title
CN104423543A (zh) 一种信息处理方法及装置
CN112532897B (zh) 视频剪辑方法、装置、设备及计算机可读存储介质
US10108709B1 (en) Systems and methods for queryable graph representations of videos
CN108012173B (zh) 一种内容识别方法、装置、设备和计算机存储介质
CN110914872A (zh) 用认知洞察力导航视频场景
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN108563655B (zh) 基于文本的事件识别方法和装置
CN110675399A (zh) 屏幕外观瑕疵检测方法及设备
CN104168433A (zh) 一种媒体内容处理方法及系统
CN104731944A (zh) 视频搜索方法及装置
CN111738041A (zh) 一种视频分割方法、装置、设备及介质
CN110610698B (zh) 一种语音标注方法及装置
CN110379410A (zh) 语音响应速度自动分析方法及系统
CN110837758B (zh) 一种关键词输入方法、装置及电子设备
CN104918060A (zh) 一种视频广告中插点位置的选择方法和装置
CN109815448B (zh) 幻灯片生成方法及装置
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN111656275B (zh) 一种确定图像对焦区域的方法及装置
CN111868823A (zh) 一种声源分离方法、装置及设备
CN112765460A (zh) 会议信息查询方法、装置、存储介质、终端设备和服务器
CN103914803A (zh) 一种图像处理方法及装置
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
Vrysis et al. jReporter: A smart voice-recording mobile application
CN115205883A (zh) 基于ocr和nlp的资料审核方法、装置、设备、存储介质
US9020212B2 (en) Automatically determining a name of a person appearing in an image

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150318