CN105278817A - 一种语音、唇语控制装置及控制方法 - Google Patents

一种语音、唇语控制装置及控制方法 Download PDF

Info

Publication number
CN105278817A
CN105278817A CN201410240458.4A CN201410240458A CN105278817A CN 105278817 A CN105278817 A CN 105278817A CN 201410240458 A CN201410240458 A CN 201410240458A CN 105278817 A CN105278817 A CN 105278817A
Authority
CN
China
Prior art keywords
menu
image
unit
comparison
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410240458.4A
Other languages
English (en)
Inventor
温淑珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Unitop New Technology Co Ltd
Original Assignee
Jin Zhaodong
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jin Zhaodong filed Critical Jin Zhaodong
Priority to CN201410240458.4A priority Critical patent/CN105278817A/zh
Publication of CN105278817A publication Critical patent/CN105278817A/zh
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音控制装置,包括图像获取及解析单元,用于获取被控装置的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元;语音获取及识别单元,获取语音将其解析获得文字或图形并输出到比对及输出单元;比对及输出单元,将从所述图像获取及解析单元接收到的菜单与从所述语音获取及识别单元接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置,被控装置根据接收的坐标进行操作。本发明还提供唇语控制装置及控制方法,本发明的技术方案,能够适应所有尺寸显示屏的控制,而且不会因为屏幕尺寸的增加而增加高昂的成本,为人机交互提供低成本,更便捷的交互过程。

Description

一种语音、唇语控制装置及控制方法
技术领域
本发明涉及人机交互领域,尤其涉及一种语音、唇语控制装置及控制方法。
背景技术
人机交互成为现在电子设备的新宠,能更方便的和机器设备进行互动,满足不同情况下的应用需求。小型终端例如手机,电脑,比较流行的是键盘、鼠标和触摸屏;目前的手机也完全采用触摸屏进行人机交互,键盘只是虚拟的键盘,触摸屏包括电阻屏、电容屏、超声波屏、红外触摸屏和光学屏等,但是这些屏无一例外都需要手去操作,不仅如此,随着大尺寸屏的广泛应用,上述触摸屏的成本也随着屏幕的扩大而呈几何级数增长,尤其是电阻屏和电容屏,还不能广泛应用到大尺寸上,而且成本非常高昂。虽然说红外触摸屏在大尺寸屏中较有优势,但是屏幕尺寸过大后,红外发射管的功率需要加大,红外接收管的灵敏度也需要提高,而且屏幕的微小变形都会导致触摸识别能力下降,或者根本识别不了。
发明内容
本发明所要解决的技术问题是提供一种识别效果及生产成本不受显示屏尺寸影响的语音控制装置、唇语控制装置及控制方法。
为解决上述技术问题,本发明提供一种语音控制装置,包括
图像获取及解析单元,用于获取被控装置的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元;
语音获取及识别单元,获取语音将其解析获得文字或图形并输出到比对及输出单元;
比对及输出单元,将从所述图像获取及解析单元接收到的菜单与从所述语音获取及识别单元接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置,被控装置根据接收的坐标进行操作。
优选地,所述图像获取及解析单元包括图像采集单元、菜单识别及对应坐标产生单元;所述语音获取及识别单元包括声电转换装置、语音信号接收及识别单元;
所述图像采集单元,采集显示的图像,并将所述图像输出到所述菜单识别及对应坐标产生单元;
所述菜单识别及对应坐标产生单元,将接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标;将所述菜单和对应的坐标发送到所述比对及输出单元;
所述语音信号接收及识别单元,用于接收声电转换装置输出的外部语音信号,进行识别转换成对应的文字或图形,将文字或图形发送到所述比对及输出单元;
所述比对及输出单元,将从所述菜单识别及对应坐标产生单元接收到的菜单与从所述语音信号接收及识别单元接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置。
优选地,比对及输出单元预存了菜单及对应的虚拟坐标,在进行比对时,也将预存的菜单与从所述语音获取及识别单元接收到的文字或图形进行对比。
优选地,所述语音获取及识别单元包含至少一个远离显示屏的话筒。
优选地,所述语音获取及识别单元直接或间接通过互联网与语音识别服务器连接,发送需要识别的信号到语音识别服务器,收到语音识别服务器反馈的文字或图形之后,将其发送到比对及输出单元。
本发明还提供一种唇语控制装置,包括
图像获取及解析单元,用于获取被控装置的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元;
唇语获取及识别单元,获取唇语视频将其解析获得文字或图形并输出到比对及输出单元;
比对及输出单元,将从所述图像获取及解析单元接收到的菜单与从所述唇语获取及识别单元接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置,被控装置根据接收的坐标进行操作。
优选地,所述图像获取及解析单元包括图像采集单元、菜单识别及对应坐标产生单元;所述唇语获取及识别单元包括唇语识别单元和摄像单元;
所述图像采集单元,采集显示的图像,并将所述图像输出到所述菜单识别及对应坐标产生单元;
所述菜单识别及对应坐标产生单元,将从所述图像采集单元接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标,将所述菜单和对应的坐标发送到比对及输出单元;
所述唇语识别单元,从所述摄像单元获取视频图像,解析视频中的唇语,将解析获得的文字或图形发送到比对及输出单元;
所述比对及输出单元,将从所述菜单识别及对应坐标产生单元接收到的菜单与从所述唇语识别单元接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置。
优选地,比对及输出单元预存了菜单及对应的虚拟坐标,在进行比对时,也将预存的菜单与从所述唇语获取及识别单元接收到的文字或图形进行对比。
本发明还提供一种语音控制方法,包括如下步骤:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取语音,解析该语音所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
本发明还提供一种唇语控制方法,包括如下步骤:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取唇语视频,解析该唇语视频所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
本发明的语音或唇语控制装置,能够适应所有尺寸显示屏的控制,而且不会因为屏幕尺寸的增加而增加高昂的成本,为人机交互提供低成本,更便捷的交互过程。
附图说明
图1为本发明语音控制装置的系统结构图;
图2为本发明语音控制装置作为一种外围设备的优选系统结构图;
图3为本发明唇语控制装置的系统结构图;
图4为本发明唇语控制装置作为一种外围设备的优选系统结构图。
具体实施方式
下面将结合具体实施方式及附图,对本发明的技术方案进行清楚、完整地描述。
本发明的核心思想在于:获取被控装置(被控装置可以是任何具有处理和控制功能的电子装置,如处理器、控制器等,也可以是具有特定功能的个体,如电视机顶盒、导航仪、PC主机,本发明中的PC主机泛指所有带有处理器功能并有图像输出的电子设备)输出的图像,进行图像识别以获取图像中的菜单及对应坐标;获取语音,解析该语音所对应的文字或图形;将该文字与所述获取图像中的菜单文字进行比对,将匹配的菜单所对应的坐标输出到被控装置,被控装置根据接收的坐标进行操作。
本发明的语音控制装置如图1所示,包括:
图像获取及解析单元11,用于获取被控装置14的输出图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元13;图像获取的方法有多种,可以通过专用接口由被控装置发送给图像获取及解析单元11,也可以通过从显示屏输入口通过三通接口进行并联连接,还可以通过摄像头拍摄显示屏的图像。
语音获取及识别单元12,获取语音,解析该语音所对应的文字或图形;将解析获得的文字或图形输出到比对及输出单元13;对于需要远距离观看的大尺寸屏幕,语音获取及识别单元12可以包含至少一个远离显示屏的话筒,最好是无线话筒。无线话筒还有另一个作用,当不需要语音控制时,可以关掉话筒,这样可以避免说话时的误操作。当然,本发明的语音控制装置同样可以通过一个开关控制其功能的开启和关闭。为了提高语音获取信号强度,还可以通过定向声波接收器接收。
比对及输出单元13,将从所述图像获取及解析单元11接收到的菜单与从所述语音获取及识别单元12接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置14,被控装置14根据接收的坐标进行操作。如果是应用在PC主机中,比对及输出单元13可以直接通过USB接口输出到被控PC主机,被控PC主机收到坐标后执行操作。
语音控制方法如下:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取语音,解析该语音所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
本发明的语音控制装置可以将部分或全部功能电路集成在被控装置内部,也可以完全集成为一个独立的装置,或者说独立的配件,与鼠标和触摸屏类似,作为被控装置的一种外围设备。
如图2所示为本发明语音控制装置作为一种外围设备的优选实施方式,本发明的语音控制装置,
包括图像采集单元22、菜单识别及对应坐标产生单元23、语音信号接收及识别单元24、声电转换装置241(如话筒、定向声波接收器等)和比对及输出单元13;
其中,图像采集单元22和菜单识别及对应坐标产生单元23对应图像获取及解析单元11,语音信号接收及识别单元24和声电转换装置241对应语音获取及识别单元12;
所述图像采集单元22,与被控装置14连接,可以通过三通接口(或一分二接口)与显示器并联连接在被控装置14的显示输出端口上,从所述显示输出端口采集图像数据,并将所述采集的图像输出到所述菜单识别及对应坐标产生单元23;因为显示输出端口输出的信号本身就是来源于图像数据,因此采集显示输出端口输出的图像数据就非常简单,如果是数字信号,直接根据行、场同步信号及R、G、B信号存储成一幅图像;如果是模拟信号,在接收前进行模数转换,然后进行存储,只是一个简单的逆向过程,因此,理论上任何种类的显示输出信号,均能够被采集到对应的数字图像数据,这里就不再赘述。
所述菜单识别及对应坐标产生单元23,将从所述图像采集单元22接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标,其中每个菜单对应一个坐标点或一个坐标集;将所述菜单和对应的坐标发送到比对及输出单元13;
所述语音信号接收及识别单元24,用于接收声电转换装置241输出的外部语音信号,进行识别并转换成对应的文字或图形,将所述转换成的文字或图形发送到所述比对及输出单元13;
所述比对及输出单元13,将从所述菜单识别及对应坐标产生单元23接收到的菜单与从所述语音信号接收及识别单元24接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置14。输出接口可以采用通用的USB接口。
本实施例中的被控装置14优选的可以是PC主机或具有USB接口的电视机顶盒,尤其是能够连接鼠标、采用鼠标控制的电视机顶盒。
对于需要远距离观看的大尺寸屏幕,声电转换装置241可以包含至少一个远离显示屏的话筒,最好是无线话筒。
本发明中的菜单可以是文字,也可以是图形,例如方向箭头及其它具有一定含义的图形。图形与特定语音相对应。
由于软件除了可以根据可见菜单进行操作之外,还能根据不可见菜单进行操作,例如“退出”、“属性”、“返回”、“下一页”、“上一页”、“左”、“又”及“暂停”等,对于这种情况,可以在比对及输出单元13中预存上述菜单及对应的虚拟坐标,当从所述菜单识别及对应坐标产生单元23接收到的菜单与从所述语音信号接收及识别单元24接收到的文字或图形没有匹配时,将从所述语音信号接收及识别单元24接收到的文字或图形与预存菜单进行比对,将匹配的菜单所对应的虚拟坐标发送到被控装置。之所以采用虚拟坐标,就是因为这样可以避免与真实菜单产生冲突,当识别出的文字或图形在图像中存在,也在预存的菜单中存在时,优先输出图像中文字或图形所对应的坐标,如果图像中文字或图形并非真正的菜单,则被控装置不会进行操作,同样输出的图像不会改变,此时输出预存的菜单所对应的虚拟坐标。虚拟坐标也可以看做是一个控制指令。
由于在一幅图像中,会涉及很多文字或图形,菜单识别过程中,可以选择性的识别,例如可以先识别菜单框,再识别菜单框中的菜单,这样的好处在于计算速度会更快;也可以进行全面识别,只要有文字或图形的地方都进行识别,识别的文字或图形以及对应的坐标如果后期用不上会直接扔掉,不会影响语音控制过程。如果语音所对应的文字或图形不是菜单,虽然在比对中有匹配,也有坐标输出,但是由于被控装置识别出该坐标所对应的位置并非可操作的菜单,所以可以不做任何操作。
现在的家用的机顶盒普遍设有USB接口,上述实施例不仅可以直接应用在PC装置上,同样可以应用到机顶盒中,机顶盒除了通过遥控器接收信号外,还能通过USB接口或其它接口直接接收坐标参数进行操作。这种机顶盒同样可以利用鼠标进行控制。目前市面上的安卓系统机顶盒通常就可以连接鼠标进行控制。
作为替代USB等有线连接的接口方式,语音控制装置可以通过无线接口将坐标输入到机顶盒中,例如可以通过与遥控器相同的红外接口或WIFI接口等。
上面列举了本发明语音控制装置作为外围设备的具体实施例,将外围设备集成到被控装置是本领域惯用的技术手段,有了前述具体实施方式的介绍,本领域技术人员不需要花费创造性的劳动就能将上述语音控制设备集成到被控装置,只需要将图像采集所用的接口和坐标的输出所用接口进行改变,被控装置的图像输出电路通过专用的内部接口传输图像数据给语音控制装置,语音控制装置通过内部接口将坐标输入到被控装置的控制部分(如处理器、控制器等)。各种接口和数据传输模式均可以采用现有技术中的技术手段,这里就不在一一赘述。一些简单的电路连接也属于等同替代,同样属于本发明的保护范围之内。
作为一种扩展,本发明还提供一种唇语控制装置,语音控制装置是通过声音识别语言,而唇语控制装置是通过嘴唇的运动识别语言,他们的功能都是为了识别语言,因此,是并列的两种实施方式。可以直接将图1所示实施例中的“语音获取及识别单元12”替换成“唇语获取及识别单元32”,用于获取用户的唇语,进行识别并输出文字或图形。具体包括:
图像获取及解析单元11,用于获取被控装置14的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元13;图像的获取方式可以参见前述的各种方法。
唇语获取及识别单元32,获取唇语视频将其解析获得文字或图形并输出到比对及输出单元13;唇语视频的获取方式可以是单个摄像头,也可以是多个摄像头,或者具有人脸跟踪的摄像头去获取。
比对及输出单元13,将从所述图像获取及解析单元11接收到的菜单与从所述唇语获取及识别单元32接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置14,被控装置14根据接收的坐标进行操作。
唇语控制方法如下:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取唇语视频,解析该唇语视频所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
下面以一个更加具体的实例来阐述唇语控制装置的组成。如图4所示,唇语控制装置包括图像采集单元22、菜单识别及对应坐标产生单元23、唇语识别单元34、摄像单元341(如摄像头)和比对及输出单元13;
其中,图像采集单元22和菜单识别及对应坐标产生单元23对应图像获取及解析单元11,语音信号接收及识别单元24和声电转换装置241对应语音获取及识别单元12;
所述图像采集单元22,与被控装置14的显示输出端口连接,可以通过三通接口(或一分二接口)与显示器并联连接在被控装置14的显示输出端口上,从所述显示输出端口采集图像数据,并将所述采集的图像输出到所述菜单识别及对应坐标产生单元23;
所述菜单识别及对应坐标产生单元23,将从所述图像采集单元22接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标,其中每个菜单对应一个坐标点或一个坐标集;将所述菜单和对应的坐标发送到比对及输出单元13;
所述唇语识别单元34,从所述摄像单元341获取视频图像,解析视频中的唇语,将解析获得的文字或图形发送到比对及输出单元13;
所述比对及输出单元13,将从所述菜单识别及对应坐标产生单元23接收到的菜单与从所述唇语识别单元34接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置14。输出接口可以采用通用的USB接口。
本发明中的图像采集及菜单识别过程在连续完成,当新的一幅图像被采集和识别后,新的菜单及对应坐标信息会替换旧的菜单及对应坐标信息,这样可以保证语音控制或唇语控制针对的是用户所看到的即时操作界面。
用户在说出一个菜单时,通常是不会有停顿的,通常从嘴唇动作到结束一个周期,是可以看作是一个完整的菜单读出周期,因此可以将视频中嘴唇的一个连续动作当作是一个菜单读出周期来进行识别。
还可以采用多个摄像头进行视频采集。
为了提高准确率,可以将语音识别与唇语识别同时进行,即识别装置同时包括语音信号接收及识别单元和唇语识别单元,相互作为参照,例如可以将语音信号接收及识别单元识别出的文字或图形发送给唇语识别单元,唇语识别单元在判断过程中会向语音信号接收及识别单元识别出的文字或图形倾斜,以此增加判断的准确性。反过来,唇语识别单元识别的文字或图形也可以发送到语音信号接收及识别单元作为参考。
由于本发明的控制装置与鼠标、触摸识别装置并不冲突,因此可以叠加在一个被控装置中使用。目前市面上很多电视机顶盒也具有鼠标接口,这类电视机顶盒毫无意义的可以外挂本发明的语音控制装置或唇语控制装置。
本领域技术人员明白,如果将上述语音控制装置集成到装置中,就不用通过上述图像输出接口采集图像,而是通过专用的内部接口传输图像数据给语音控制装置。由于这种简单的电路替换式设计属于公知技能,这里就不再赘述。
无论是语音识别还是唇语识别,都可以通过互联网,将获取的语音信号或唇语视频发送到服务器进行识别后返回识别的文字或图形信息。也就是说,语音获取及识别单元12或唇语获取及识别单元32均可以直接或间接通过互联网与服务器(语音识别服务器或唇语识别服务器)连接,发送需要识别的信号到服务器,收到服务器反馈的、识别后获得的文字或图形之后,将其发送到比对及输出单元13。
本发明无论是语音控制还是唇语控制,均是利用被控装置输出的图像,将其解析获得菜单,具有相同的特定技术特征,因此属于一个总的发明构思,满足单一性的要求。
由上述实施例可知,本发明的语音或唇语控制装置,能够适应所有尺寸显示屏的控制,而且不会因为屏幕尺寸的增加而增加高昂的成本,为人机交互提供低成本,更便捷的交互过程。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音控制装置,包括
图像获取及解析单元(11),用于获取被控装置(14)的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元(13);
语音获取及识别单元(12),获取语音将其解析获得文字或图形并输出到比对及输出单元(13);
比对及输出单元(13),将从所述图像获取及解析单元(11)接收到的菜单与从所述语音获取及识别单元(12)接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置(14),被控装置(14)根据接收的坐标进行操作。
2.根据权利要求1所述的语音控制装置,其特征在于,所述图像获取及解析单元(11)包括图像采集单元(22)、菜单识别及对应坐标产生单元(23);所述语音获取及识别单元(12)包括声电转换装置(241)、语音信号接收及识别单元(24);
所述图像采集单元(22),采集显示的图像,并将所述图像输出到所述菜单识别及对应坐标产生单元(23);
所述菜单识别及对应坐标产生单元(23),将接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标;将所述菜单和对应的坐标发送到所述比对及输出单元(13);
所述语音信号接收及识别单元(24),用于接收声电转换装置(241)输出的外部语音信号,进行识别转换成对应的文字或图形,将文字或图形发送到所述比对及输出单元(13);
所述比对及输出单元,将从所述菜单识别及对应坐标产生单元接收到的菜单与从所述语音信号接收及识别单元接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置。
3.根据权利要求1所述的语音控制装置,其特征在于,比对及输出单元(13)预存了菜单及对应的虚拟坐标,在进行比对时,也将预存的菜单与从所述语音获取及识别单元(12)接收到的文字或图形进行对比。
4.根据权利要求1所述的语音控制装置,其特征在于,所述语音获取及识别单元(12)包含至少一个远离显示屏的话筒。
5.根据权利要求1所述的语音控制装置,其特征在于,所述语音获取及识别单元(12)直接或间接通过互联网与语音识别服务器连接,发送需要识别的信号到语音识别服务器,收到语音识别服务器反馈的文字或图形之后,将其发送到比对及输出单元(13)。
6.一种唇语控制装置,其特征在于,包括
图像获取及解析单元(11),用于获取被控装置(14)的视频图像,进行图像识别以获取图像中的菜单及对应坐标,将菜单及对应坐标输出到比对及输出单元(13);
唇语获取及识别单元(32),获取唇语视频将其解析获得文字或图形并输出到比对及输出单元(13);
比对及输出单元(13),将从所述图像获取及解析单元(11)接收到的菜单与从所述唇语获取及识别单元(32)接收到的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置(14),被控装置(14)根据接收的坐标进行操作。
7.根据权利要求6所述的一种唇语控制装置,其特征在于,
所述图像获取及解析单元(11)包括图像采集单元(22)、菜单识别及对应坐标产生单元(23);所述唇语获取及识别单元(32)包括唇语识别单元(34)和摄像单元(341);
所述图像采集单元(22),采集显示的图像,并将所述图像输出到所述菜单识别及对应坐标产生单元(23);
所述菜单识别及对应坐标产生单元(23),将从所述图像采集单元(22)接收的图像中的菜单进行识别,同时记录所有菜单和各个菜单所处的图像中的坐标,将所述菜单和对应的坐标发送到比对及输出单元(13);
所述唇语识别单元(34),从所述摄像单元(341)获取视频图像,解析视频中的唇语,将解析获得的文字或图形发送到比对及输出单元(13);
所述比对及输出单元(13),将从所述菜单识别及对应坐标产生单元(23)接收到的菜单与从所述唇语识别单元(34)接收到的文字或图形进行比对,将比对成功的菜单所对应的坐标输出到被控装置(14)。
8.根据权利要求6所述的唇语控制装置,其特征在于,比对及输出单元(13)预存了菜单及对应的虚拟坐标,在进行比对时,也将预存的菜单与从所述唇语获取及识别单元(32)接收到的文字或图形进行对比。
9.一种语音控制方法,其特征在于,包括如下步骤:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取语音,解析该语音所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
10.一种唇语控制方法,其特征在于,包括如下步骤:
1)获取被控装置输出的图像,进行图像识别以获取图像中的菜单及对应坐标;
2)获取唇语视频,解析该唇语视频所对应的文字或图形;
3)将步骤1)中获取的菜单与步骤2)中获取的文字或图形进行比对,将匹配的菜单所对应的坐标输出到被控装置;
4)被控装置根据接收的坐标进行操作。
CN201410240458.4A 2014-05-30 2014-05-30 一种语音、唇语控制装置及控制方法 Pending CN105278817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410240458.4A CN105278817A (zh) 2014-05-30 2014-05-30 一种语音、唇语控制装置及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410240458.4A CN105278817A (zh) 2014-05-30 2014-05-30 一种语音、唇语控制装置及控制方法

Publications (1)

Publication Number Publication Date
CN105278817A true CN105278817A (zh) 2016-01-27

Family

ID=55147920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410240458.4A Pending CN105278817A (zh) 2014-05-30 2014-05-30 一种语音、唇语控制装置及控制方法

Country Status (1)

Country Link
CN (1) CN105278817A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791546A (zh) * 2016-02-18 2016-07-20 安徽声讯信息技术有限公司 一种由手机屏幕操控的录音和文字转写装置
CN106328141A (zh) * 2016-09-05 2017-01-11 南京大学 一种面向移动终端的超声波唇读识别装置及方法
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
CN109172066A (zh) * 2018-08-18 2019-01-11 华中科技大学 基于语音控制与视觉识别的智能假肢手及其系统和方法
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN112926420A (zh) * 2021-02-09 2021-06-08 海信视像科技股份有限公司 一种显示设备和菜单文字识别方法
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893993A (zh) * 2010-07-15 2010-11-24 杭州华银视讯科技有限公司 电子白板系统及其语音处理方法
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制系统
CN103440603A (zh) * 2013-08-30 2013-12-11 苏州跨界软件科技有限公司 基于增强现实的点菜系统
CN103744309A (zh) * 2013-12-26 2014-04-23 北京理工大学 一种基于语音或图像识别的车用装定系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893993A (zh) * 2010-07-15 2010-11-24 杭州华银视讯科技有限公司 电子白板系统及其语音处理方法
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制系统
CN103440603A (zh) * 2013-08-30 2013-12-11 苏州跨界软件科技有限公司 基于增强现实的点菜系统
CN103744309A (zh) * 2013-12-26 2014-04-23 北京理工大学 一种基于语音或图像识别的车用装定系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791546A (zh) * 2016-02-18 2016-07-20 安徽声讯信息技术有限公司 一种由手机屏幕操控的录音和文字转写装置
CN106328141A (zh) * 2016-09-05 2017-01-11 南京大学 一种面向移动终端的超声波唇读识别装置及方法
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
CN109172066A (zh) * 2018-08-18 2019-01-11 华中科技大学 基于语音控制与视觉识别的智能假肢手及其系统和方法
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN110691204B (zh) * 2019-09-09 2021-04-02 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN113011245B (zh) * 2021-01-28 2023-12-12 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN112926420A (zh) * 2021-02-09 2021-06-08 海信视像科技股份有限公司 一种显示设备和菜单文字识别方法
CN112926420B (zh) * 2021-02-09 2022-11-08 海信视像科技股份有限公司 一种显示设备和菜单文字识别方法

Similar Documents

Publication Publication Date Title
CN105278817A (zh) 一种语音、唇语控制装置及控制方法
CN103440116B (zh) 一种交互式电子演示系统
CN102662498B (zh) 一种投影演示的无线控制方法及系统
KR101488094B1 (ko) 캡처된 비디오 콘텐츠의 비디오 분석을 위한 기술
CN103702151B (zh) 智能电视和触控屏人机交互遥控装置与方法
CN102611858A (zh) 多模式遥控器的遥控控制方法、遥控器、用户终端及系统
CN102346647A (zh) 投影仪控制方法及系统
CN103019431A (zh) 显示设备以及触摸感测设备和方法
CN110618780A (zh) 用于对多个信号源进行交互的交互装置和交互方法
CN105988711B (zh) 大屏幕交互系统及其交互方法
CN102221927A (zh) 触控式三网融合多媒体一体机装置及其触控实现方法
KR20210040330A (ko) 비디오 클립 추출 방법 및 장치
KR20160108732A (ko) 터치형 더미 디스플레이 장치와 스마트폰을 무선으로 연동시키는 미러링 터치조작 시스템 및 이를 이용한 양방향 제어방법
CN109542218B (zh) 一种移动终端、人机交互系统及方法
CN104914985A (zh) 手势控制方法及系统与视频流处理装置
CN203606780U (zh) 多点触摸和手势识别融合系统
CN112612358A (zh) 基于视觉识别和语音识别的人与大屏多模态自然交互方法
KR101370263B1 (ko) 제스처 기반의 전자기기 리모트 제어 방법 및 이를 위한 컴퓨터로 판독가능한 기록매체
CN204143351U (zh) 穿戴式电子装置
US10178347B2 (en) Remote communication system, method for controlling remote communication system, and program
KR20110013076A (ko) 카메라 시스템을 이용한 손짓 및 터치형 양손 반지 마우스 입력 장치
CN114415866A (zh) 多信号源界面安全交互装置
CN202523029U (zh) 触控式三网融合多媒体一体机
KR101491648B1 (ko) 촬영부를 이용한 원격 제어 시스템 및 방법
KR101439178B1 (ko) 촬영부를 이용한 원격 제어 시스템 및 방법

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice

Addressee: Wen Shuzhen

Document name: Notification of Passing Preliminary Examination of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Wen Shuzhen

Document name: Notification of Passing Examination on Formalities

C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Jin Zhaodong

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Jin Zhaodong

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170626

Address after: Wanliu City No. 11 building, 100089 Beijing City, Haidian District Changchun Road No. 3 building 1707 room

Applicant after: Beijing UNITOP New Technology Co., Ltd.

Address before: 102208 Beijing city Changping District Huilongguan dragon Yueyuan two District 2 Building 4 unit 302

Applicant before: Jin Zhaodong

TA01 Transfer of patent application right
DD01 Delivery of document by public notice

Addressee: Jin Zhaodong

Document name: Notification of Passing Examination on Formalities

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160127