CN105430501B - 一种音量调节方法和系统 - Google Patents
一种音量调节方法和系统 Download PDFInfo
- Publication number
- CN105430501B CN105430501B CN201510873272.7A CN201510873272A CN105430501B CN 105430501 B CN105430501 B CN 105430501B CN 201510873272 A CN201510873272 A CN 201510873272A CN 105430501 B CN105430501 B CN 105430501B
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- camera
- dimensional image
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000001105 regulatory effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种音量调节方法和系统,涉及电子技术领域,用以弥补目前音量的精度低,容易受环境影响等技术缺陷,包括将预设时间内的N个拍摄时刻中每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;提取与第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;根据所述目标音量调整范围执行对应的音量调节指令。本发明实施例可以用于电视识别中。
Description
技术领域
本发明涉及电子技术领域,尤其涉及一种音量调节方法和系统。
背景技术
随着智能化终端如电视的发展趋势,传统的通过控制设备(例如,鼠标,键盘以及遥控器等)来操控电视已经不能满足现代用户的需求。严重影响了智能化电视的发展与应用。在此背景下,音量调节操作,即在智能化电视中增加存储有用户喜好的不同距离信息对应的音量调节功能,使用户可以通过距离识别来控制智能化电视等终端设备,音量调节操作作为一种最为直观的操控方式,使人们可以更为便捷的实现了对智能化电视的灵活操控,提高了用户体验。
现有技术中,一些厂商采用红外检测的方式对智能电视用户的实时距离进行检测,并依此进行音量的自动调节。(专利文件:CN104378564A )。该技术针对现有技术中用户只能手动调节电视音量的问题,提出了智能电视的音量自动调节方法。包括系统检测用户与智能电视之间的用户完成智能电视音量设置时的初始距离及用户与智能电视之间的实时距离,并将初始距离与实时距离进行比较,当实时距离大于初始距离时,系统自动在初始音量的基础上进行音量递增,当实时距离小于初始距离时,系统自动在初始音量的基础上进行音量递减的音量自动调节方法。
虽然,上述发明解决了智能电视系统的音量自动调节问题,然而由于采用红外检测的方式进行用户的距离感知,在现实情况下会出现检测范围小,受环境影响大以及无法对用户进行实时跟踪等难以避免的瓶颈及缺陷。首先,人体恒定温度一般在37度,会发出特定波长的红外线。红外检测模块会探测人体发射的红外线而进行距离检测。但是,红外检测模块非常容易受到各种热源,光源的干扰。同时,由于红外穿透力差,人体的红外辐射容易被遮挡,不易被传感器接收。当环境温度和人体温度接近时,探测的灵敏度明显下降,会造成短时失灵。另外,红外检测器的误报率与安装位置及方式有极大关系,需要远离空调,冰箱等空气温度变化敏感的地方,并且不得间隔家具,盆景等隔离物。上述应用局限极大限制了智能电视在家居环境中的摆放及使用,给用户造成了极大的局限,严重影响了用户体验。
发明内容
本发明的实施例提供一种音量调节方法和系统,应用于智能终端,用以弥补目前音量调节的精度低,检测范围小,容易受到环境影响造成音量调整不准确等技术缺陷。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种音量调节方法,应用于智能终端,包括:
将预设时间内的N个拍摄时刻中每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;
提取与第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个的像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
根据所述目标音量调整范围执行对应的音量调节指令。
第二方面,本发明实施例提供了一种音量调节系统,应用于智能终端,包括:平行设置在所述智能终端上的第一摄像头和第二摄像头,运行在所述智能终端处理器上的图像处理系统、图像识别系统和执行系统;
其中,所述第一摄像头和第二摄像头处于同一水平线上;
所述第一摄像头和第二摄像头,用于在预设时间拍摄至少一张包含人体的图像;
所述图像处理系统,用于将预设时间内的N个拍摄时刻中的每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;
所述图像识别系统,用于提取第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
所述执行系统,用于根据所述目标音量调整范围执行对应的音量调节指令。
本发明实施例提供一种音量调节方法,通过将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张包含人体的图像合成三维立体图像,并基于所述第一摄像头拍摄的二维图像对应的三维立体图像上获取人体轮廓中至少一个像素点对应的距离信息,并将预设时间内,每张所述三维立体图像的像素点确定的距离信息与标准音量适配中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围,并根据该目标音量调整范围执行音量调整指令,与现有技术相比,排除了红外测距方式容易受周围环境影响,通过双摄像头建立三维立体图像,通过该三维立体图像获取到人体轮廓的距离信息,与音量适配库中的数据进行对比,得到目标音量调整范围,该音量调节方法确保了高实时性,高精度的音量调整技术,大幅度提高用户的操控体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种音量调节方法的流程示意图一;
图2为本发明实施例一种音量调节方法的流程示意图二;
图3a为第二图像中任意一个像素点为中心像素点建立预设窗口的示意图;
图3b为第二图像中任意一个像素点为中心像素点建立预设窗口与第三图像进行匹配的示意图;
图3c为第二图像中任意一个像素点为中心像素点建立预设窗口与第三图像匹配结果示意图;
图4为本发明实施例一种音量调节方法的流程示意图三;
图5为本发明实施例的一种音量调节系统的结构示意图一;
图6为本发明实施例的一种音量调节系统的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种手势识别方法,应用于智能终端,如图1所示,包括:
S101、将预设时间内的N个拍摄时刻中的每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含手势操作的图像合成N个三维立体图像;
S102、提取与第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
S103、在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
S104、在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
S105、根据所述目标音量调整范围执行对应的调节指令。
本发明实施例提供一种音量调节方法,通过将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张包含人体的图像合成三维立体图像,并基于所述第一摄像头拍摄的二维图像对应的三维立体图像上获取人体轮廓中至少一个像素点对应的距离信息,并将预设时间内,每张所述三维立体图像的像素点确定的距离信息与标准音量适配中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围,并根据该目标音量调整范围执行音量调整指令,与现有技术相比,排除了红外测距方式容易受周围环境影响,通过双摄像头建立三维立体图像,通过该三维立体图像获取到人体轮廓的距离信息,与音量适配库中的数据进行对比,得到目标音量调整范围,该音量调节方法确保了高实时性,高精度的音量调整技术,大幅度提高用户的操控体验。
本发明实施例的一种音量调节方法的执行主体为终端的处理器,该终端可以为电视、电脑等,本发明实施例对此不作限定,该第一摄像头和第二摄像头用于获取人体的图像,该第一摄像头和第二摄像头可以是在终端上设置的摄像头。
本发明实施例中,该第一摄像头和第二摄像头感应用户是否在终端前进行移动,当第一摄像头和第二摄像头感应到用户进行移动时,获取预设时间内用户进行移动的至少一张图像,另外,也可通过用户手动输入用户移动控制终端的开始信息,如用户按下在终端遥控器中设置启动用户移动识别技术的启动按键,再获取到所述启动按键触发的启动指令后,处理器控制所述第一摄像头和第二摄像头获取用户进行移动的至少一张图像。只有一张图像的情况是指用户为静止站立状态,第一摄像头和第二摄像头在同一时刻分别采集一张包含用户人体的图像。
其中,预设时间是指用户完成一次移动过程(该移动过程的目的是根据距离的变化调节终端的音量)或者用户完成一次音量调节指令大概所需要的时间,预设时间也可以提前设定,如可将所述预设时间设置为2s-5s;具体可通过设置在所述处理器中的定时器以实现。在2s-5s的时间段内,将获取到的含人体的图像按获取的先后顺序缓存在终端的存储器中,在需要识别的时候,通过处理器从存储器中获取,由于第一摄像头和第二摄像头在1s内可以拍摄10~60个图像帧,优选的,是25~30个图像帧,由于第一摄像头和第二摄像头拍摄的人体可能是一个动态过程,故每一帧图像帧是有差异的,故在选择合成三维立体图像时,通过选取第一摄像头和第二摄像头在同一时刻拍摄的一帧图像,这样可以避免形成的三维立体图像与实际用户手势之间的差异,提高了识别精确性。如果用户选择静止站立,那么第一第二摄像头可以在预设时间内只拍摄一张或者拍摄多张选择一张作为后续识别过程的输入基础。
其中,可选的,根据摄像头的拍摄性能,在预设时间内总共包含M个拍摄时刻,每个拍摄时刻第一摄像头和第二摄像头都拍摄有照片,可以选取M个拍摄时刻所述第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成M张三维立体图像,也可以选取N个拍摄时刻拍摄的合成N张三维立体图像,其中M≥N;
图像即为摄像头拍摄的一张图片,图像帧则为固定时间内连续拍摄的一系列图片,图像帧序列由一系列图像组成。
当然,在选择合成三维立体图像时,可以选择第一摄像头连续拍摄的几张图像以及第二摄像头连续拍摄的几张图像中每一张图像均合成三维立体图像(其中,第二摄像头拍摄的每张图像的时间均与第一摄像头中在同一时刻拍摄的照片对应)。
其中,对于将第一摄像头和第二摄像头在同一时刻分别拍摄的至少一张包含人体的图像合成三维立体图像的方式,不属于本发明的主要发明点,在现有技术中存在多种实现方式,本发明实施例对此不进行限定,由于对于第一摄像头和第二摄像头在预设时间内拍摄的每张图像合成三维立体图像的方式和原理均相同,本发明实施例仅以第二图像和第三图像为例进行说明,其中,第二图像和第三图像分别为在预设时间内由第一摄像头和第一摄像头在同一时刻分别拍摄的图像中的至少一张,并不具有任何指示性含义。
示例性的,如图2所示,步骤S101可以通过以下方式实现,
S1011、获取所述第二图像的每个像素点;
其中,对于获取第二图像的每个像素点的具体方式,本发明实施例在此不再赘述,可以通过现有技术来实现,例如,粒子滤波。
获取到第二图像的每个像素点以后,可以以所述第二图像和第三图像设置坐标系,则第二图像和第三图像上的每个像素点均可以用坐标的形式表示,如图3a所示和图3b所示,当然还可以存在其他方式用以唯一标记第二图像和第三图像上相应的像素点,本发明实施例在此不再赘述。
需要说明的是,在获取三维立体图像的时候,还可以先提取所述第二图像的人体轮廓,在提取到人体人体轮廓以后,获取所述第二图像的人体轮廓中的每个像素点,基于每个所述人体人体轮廓中的每个像素点执行步骤S1012,这样可以进一步提高识别精度,避免在三维立体图像中引入背景或者干扰。
S1012、以所述第二图像的每个像素点为中心像素点建立预设窗口;其中,所述预设窗口包含按照预设距离,以所述中心像素点为中心的M个像素点;
图3a为第二图像中任意一个像素点为中心像素点建立预设窗口的示意图,其预设窗口可以通过以所述中心像素点为中心,在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域,即所述预设距离为2L则上述M各像素点即为以所述中心像素点四周各延长L个长度单位所包含的区域内的所有像素点;本发明实施例对所述L的具体大小不进行限定,可以根据实际需要达到的精度进行设定。
S1013、获取所述预设窗口的像素值;
由于预设窗口内包含M个像素点,故所述预设窗口的像素值为M个像素点灰度值的总和,对于计算每个像素的灰度值的具体方式本发明实施例在此不再赘述,例如,若所述预设窗口为以任意一个像素点为中心像素点向左向右各一个像素点,则该预设窗口内包含5个像素点,该预设窗口的像素值为5个像素点灰度值的总和。
S1014、根据所述预设窗口的像素值,从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域,如图3b所示;
由于对于第二图像种每个像素点建立预设窗口,并根据预设窗口的像素值从所述第三图像中查到的目标区域的方式和原理均相同,故本发明实施例仅以第一像素点为例进行说明,该第一像素点为第二图像中的任意一个像素点,并不具有指示性含义。
示例性的,如图4所示,步骤S1014可以通过以下方式实现:
S10141、确定所述第一像素点在所述第二图像中的坐标,并以所述第一像素点为中心建立第一预设窗口;如图3a所示;
S10142、在保持所述第一像素点纵坐标不变的情况下,从所述第三图像中选取每个候选区域,所述候选区域的窗口大小与所述第一预设窗口大小相同,且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的,所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同;
其中,所述候选区域的窗口大小或者窗口距离是指候选区域内任意一个中心像素点,按照预设距离2L,以所述中心像素点为中心,在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域;
S10143、计算每个所述候选区域的像素值,所述像素值是指候选区域内所有像素点的灰度值之和;
S10144、将所述候选区域的像素值与所述预设窗口的像素值的差异值最小的候选区域确定为目标区域。
其中,当获取到第一像素点的坐标时,可以将所述第一像素点从第三图像指向第二图像的方向,保持纵坐标不变的情况下,将第一像素点遍历所述第三图像中的任何一个像素点,并可以通过SAD(Sum of Absolute Difference)或SSD(Sum of SquaredDifference)算法matching方式从第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域,如图3c所示的d点。
当然,为了减少计算量,在获取到第一像素点的坐标以后,可以从所述第三图像中与所述第一像素点纵坐标相同,大于等于横坐标的候选区域中选取目标区域。
当然,本发明实施例也可以基于第三图像,在第二图像中选取与第三图像中任意一个像素点构建的预设窗口的像素值差异最小的区域为目标区域,此时,应按照第二图像指向第三图像的方向,保持纵坐标不变的情况下,将第三图像中的每个像素点构成的预设窗口遍历所述第二图像的候选区域,以获取目标区域。
S1015、确定每个所述目标区域的中心像素点;
S1016、将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配,获取与所述第二图像对应的三维立体图像。
优选的,为了提高识别精度,需要提取出所述第一图像中的人体轮廓,在此人体轮廓的基础上,获取每一个像素点的像素信息,并从三维立体图像中获取与之对应的像素点距离信息,由于用户的人体应处于同一平面,因而拥有相近的像素点距离信息,故在识别之前,可以对三维立体图像中人体对应的像素点距离进行均值操作,以便人体轮廓内的人体与背景等干扰信息进行分离,从而高精度的提取出用户的人体。
进一步的,所述提取第一图像对应的三维立体图像中的人体轮廓,包括:
S1021、对与第一图像对应的三维立体图像建立距离信息的横向直方图及纵向直方图;
S1022、基于所述横向直方图和所述纵向直方图进行最小二乘法算法的直线提取处理;
S1023、在经过直线提取处理后的横向直方图中提取具有相同纵坐标的横向直线,以及在纵向直方图中提取具有相同横坐标的纵向直线。
S1024、根据所述横向直线和所述纵向直线获取所述第一图像对应的三维立体图像的人体轮廓。
对于人体轮廓提取的方式有多种,本发明实施例在此不再赘述,示例性的,该方法可以通过采用八邻域搜索法来实现。
例如,该标准音量适配库中可以包含如下信息:如表1所示
预设音量范围(db) | 对应的用户距离 | 像素点距离信息 |
0~10 | 10cm | Y1 |
10~20 | 50cm | Y2 |
20~30 | 100cm | Y3 |
30~40 | 150cm | Y4 |
40~50 | 200cm | Y5 |
50~60 | 250cm | Y6 |
当然,表1所示的每种音量的操作指令可以由用户通过终端的处理器进行修改。
具体在识别用户的图像的像素点距离信息时,可根据获取到的多个相邻的三维立体图像之间的像素点距离变化信息通过跟踪算法,例如,联合概率数据关联滤波器(JPDAF)、多假设跟踪 (MHT) 算法、动态多位分配算法等与标准音量适配库中的音量范围变化信息以及距离信息进行匹配,以识别当前的用户所处的位置与智能终端之间的距离,并执行与所述距离对应的预设音量范围相应的操作指令。进一步可产生相应的控制信号。例如,系统识别出用户的的距离信息为150cm,在标准音量适配库中对应的指令为音量在30db~40db之间,则系统识别后,根据所述音量范围执行增加或者减小音量的操作功能。
进一步的,在步骤S105之前,即在所述根据所述目标音量调整范围执行对应的音量调节指令的步骤之前还包括:
S1051:对所述第一图像进行人脸识别;
由于人脸识别属于较为成熟的现有技术,例如可通过肤色分割,再进行边缘检测处理等操作;
S1052:将识别出来的人脸与人脸特征库进行匹配,所述人脸特征库预存有不同用户的人脸特征信息与所述不同用户分别在处于不同距离时对应的音量调整范围的对应关系;
S1053:若所述人脸特征库中有对应与所述第一图像的人脸信息,则根据所述第一图像的人脸信息对应的用户在处于不同距离时对应的音量调整范围的对应关系以及所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息,调整所述目标音量范围;
相应的,所述根据所述目标音量调整范围执行对应的音量调节指令具体为:根据调整后的目标音量调整范围执行对应的音量调节指令。
若不同的用户在同样的距离有不相同的音量需求,如老年人可能因为听力下降,需要把电视的音量相应的调高,而对于处于同一位置的年轻人,则不需要很高的音量即可满足需求,因为在执行最终的音量调节指令时,考虑进行人脸识别,识别出是否为特定用户,若在人脸特征库中有对应于第一图像的人脸信息,那就根据所述第一图像的人脸信息对应的用户在处于不同距离时对应的音量调整范围的对应关系以及所述N个三维立体图像的像素点距离信息,调整所述目标音量范围。这样,不通过简单的距离判断实现音量调节,满足了有特定需求的用户,可按照其预设的调整策略调整目标音量范围。
本发明实施例还提供了一种音量调节系统,如图5所示,该一种音量调节系统中的各个功能与本发明上述实施例中一种音量调节方法相对应,具体可以参考本发明上述实施例的描述,本发明实施例在此不再赘述。如图5所示,该一种音量调节系统,应用于智能终端60,包括:平行设置在智能终端上的第一摄像头601和第二摄像头602,运行在所述智能终端处理器上的图像处理系统603、图像识别系统604和执行系统605;
其中,所述第一摄像头601和第二摄像602头处于同一水平线上;
所述第一摄像头601和第二摄像602,用于在预设时间拍摄至少一张包含人体的图像;
所述图像处理系统603,用于将预设时间内的N个拍摄时刻中的每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;
所述图像识别系统604,用于提取第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
所述执行系统605,用于根据所述图像识别系统604选取的目标音量调整范围执行对应的音量调节指令。
本发明实施例提供一种音量调节系统,通过将第一摄像头和第二摄像头同一时刻分别拍摄的至少一张包含人体的图像合成三维立体图像,并基于所述第一摄像头拍摄的二维图像对应的三维立体图像上获取人体轮廓中至少一个像素点对应的距离信息,并将预设时间内,每张所述三维立体图像的像素点确定的距离信息与标准音量适配中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围,并根据该目标音量调整范围执行音量调整指令,与现有技术相比,排除了红外测距方式容易受周围环境影响,通过双摄像头建立三维立体图像,通过该三维立体图像获取到人体轮廓的距离信息,与音量适配库中的数据进行对比,得到目标音量调整范围,该音量调节方法确保了高实时性,高精度的音量调整技术,大幅度提高用户的操控体验。
可选的,如图6所示,所述图像处理系统603包括:
第一获取单元6031,用于获取所述第二图像的每个像素点;
建立单元6032,用于以所述第二图像的每个像素点为中心像素点建立预设窗口;其中,所述预设窗口包含按照预设距离,以所述中心像素点为中心的M个像素点;
第二获取单元6033,用于获取所述预设窗口的像素值
提取单元6034,用于根据所述预设窗口的像素值,从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域;
确定单元6035,用于确定每个所述目标区域的中心像素点;
生成单元6036,用于将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配,获取与所述第二图像对应的三维立体图像。
可选的,所述提取单元6034包括:
确定模块,用于确定所述第一像素点在所述第二图像中的坐标,并以所述第一像素点为中心建立第一预设窗口;
选取模块,用于在保持所述第一像素点纵坐标不变的情况下,从所述第三图像中选取出与所述第一预设窗口大小相同所有候选区域,所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的,且所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同;
计算模块,用于计算每个所述候选区域的像素值,所述像素值是指候选区域内所有像素点的灰度值之和;
判定模块,用于将所述所有候选区域的像素值中与所述第一预设窗口的像素值差异值最小的候选区域确定为目标区域。
可选的,所述图像识别系统604包括轮廓提取单元和像素点提取单元,所述轮廓提取单元具体用于:
对与第一图像对应的三维立体图像建立距离信息的横向直方图及纵向直方图;
基于所述横向直方图和所述纵向直方图进行最小二乘法算法的直线提取处理;
在经过直线提取处理后的横向直方图中提取具有相同纵坐标的横向直线,以及在纵向直方图中提取具有相同横坐标的纵向直线;
根据所述横向直线和所述纵向直线获取所述第一图像对应的三维立体图像的人体轮廓。
可选的,所述图像识别系统604还包括识别单元,所述识别单元包括:
人脸识别模块,用于对所述第一图像进行人脸识别;
匹配比较模块,用于将识别出来的人脸与人脸特征库进行匹配,所述人脸特征库预存有不同用户的人脸特征信息与所述不同用户分别在处于不同距离时对应的音量调整范围的对应关系;
选取调整模块,用于若所述人脸特征库中有对应与所述第一图像的人脸信息,则根据所述第一图像的人脸信息对应的用户在处于不同距离时对应的音量调整范围的对应关系以及所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息,调整所述目标音量范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种音量调节方法,应用于智能终端,其特征在于,包括:
将预设时间内的N个拍摄时刻中每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;
其中,将第一摄像头和第二摄像头在同一时刻分别拍摄的包含人体的第二图像和第三图像合成三维立体图像,包括:
以所述第二图像的每个像素点为中心像素点建立预设窗口;所述预设窗口包含按照预设距离,以所述中心像素点为中心的M个像素点;
从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域;
确定每个所述目标区域的中心像素点;
将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配,获取与所述第二图像对应的三维立体图像;
提取与第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
根据所述目标音量调整范围执行对应的音量调节指令。
2.根据权利要求1所述的方法,其特征在于,对于第一像素点,所述第一像素点为所述第二图像中所有像素点中的任意一个像素点,所述从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域,包括:
确定所述第一像素点在所述第二图像中的坐标,并以所述第一像素点为中心建立第一预设窗口;
在保持所述第一像素点纵坐标不变的情况下,从所述第三图像中选取每个候选区域,所述候选区域的窗口大小与所述第一预设窗口大小相同,且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的,所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同;
计算每个所述候选区域的像素值,所述像素值是指候选区域内所有像素点的灰度值之和;
将所有候选区域的像素值中与所述第一预设窗口的像素值差异值最小的候选区域确定为目标区域。
3.根据权利要求1所述的方法,其特征在于,所述提取第一图像对应的三维立体图像中的人体轮廓,包括:
对与第一图像对应的三维立体图像建立距离信息的横向直方图及纵向直方图;
基于所述横向直方图和所述纵向直方图进行最小二乘法算法的直线提取处理;
在经过直线提取处理后的横向直方图中提取具有相同纵坐标的横向直线,以及在纵向直方图中提取具有相同横坐标的纵向直线;
根据所述横向直线和所述纵向直线获取所述第一图像对应的三维立体图像的人体轮廓。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述目标音量调整范围执行对应的音量调节指令的步骤之前还包括:
对所述第一图像进行人脸识别;
将识别出来的人脸与人脸特征库进行匹配,所述人脸特征库预存有不同用户的人脸特征信息与所述不同用户分别在处于不同距离时对应的音量调整范围的对应关系;
若所述人脸特征库中有对应与所述第一图像的人脸信息,则根据所述第一图像的人脸信息对应的用户在处于不同距离时对应的音量调整范围的对应关系以及所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息,调整所述目标音量范围;
相应的,所述根据所述目标音量调整范围执行对应的音量调节指令具体为:根据调整后的目标音量调整范围执行对应的音量调节指令。
5.一种音量调节系统,应用于智能终端,其特征在于,包括:平行设置在所述智能终端上的第一摄像头和第二摄像头,运行在所述智能终端处理器上的图像处理系统、图像识别系统和执行系统;
其中,所述第一摄像头和第二摄像头处于同一水平线上;
所述第一摄像头和第二摄像头,用于在预设时间拍摄至少一张包含人体的图像;
所述图像处理系统,用于将预设时间内的N个拍摄时刻中的每个拍摄时刻,第一摄像头和第二摄像头分别同时拍摄的包含人体的图像合成N个三维立体图像;
其中,将第一摄像头和第二摄像头在同一时刻分别拍摄的包含人体的第二图像和第三图像合成三维立体图像,包括:
以所述第二图像的每个像素点为中心像素点建立预设窗口;所述预设窗口包含按照预设距离,以所述中心像素点为中心的M个像素点;
从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域;
确定每个所述目标区域的中心像素点;
将每个所述第二图像的中心像素点与所述目标区域的中心像素点进行匹配,获取与所述第二图像对应的三维立体图像;
所述图像识别系统,用于提取第一图像对应的三维立体图像中的人体轮廓,其中,所述第一图像为N个拍摄时刻所述第一摄像头拍摄的任意一张图像;
在与所述第一图像对应的三维立体图像上,获取与所述人体轮廓中至少一个像素点对应的距离信息;
在所述预设时间内,将所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息与标准音量适配库中的音量与距离信息的对应关系进行匹配,确定目标音量调整范围;
所述执行系统,用于根据所述目标音量调整范围执行对应的音量调节指令。
6.根据权利要求5所述系统,其特征在于,所述图像处理系统包括提取单元,所述提取单元包括:
确定模块,用于确定第一像素点在所述第二图像中的坐标,并以所述第一像素点为中心建立第一预设窗口;所述第一像素点为所述第二图像中所有像素点中的任意一个像素点;
选取模块,用于在保持所述第一像素点纵坐标不变的情况下,从所述第三图像中选取每个候选区域,所述候选区域的窗口大小与所述第一预设窗口大小相同,且所述候选区域为以所述第三图像中任意一个像素点为中心像素点建立的,所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同;
计算模块,用于计算每个所述候选区域的像素值,所述像素值是指候选区域内所有像素点的灰度值之和;
判定模块,用于将所有候选区域的像素值中与所述第一预设窗口的像素值差异值最小的候选区域确定为目标区域。
7.根据权利要求5所述系统,其特征在于,所述图像识别系统包括轮廓提取单元和像素点提取单元,所述轮廓提取单元具体用于:
对与第一图像对应的三维立体图像建立距离信息的横向直方图及纵向直方图;
基于所述横向直方图和所述纵向直方图进行最小二乘法算法的直线提取处理;
在经过直线提取处理后的横向直方图中提取具有相同纵坐标的横向直线,以及在纵向直方图中提取具有相同横坐标的纵向直线;
根据所述横向直线和所述纵向直线获取所述第一图像对应的三维立体图像的人体轮廓。
8.根据权利要求5所述系统,其特征在于,所述图像识别系统还包括识别单元,所述识别单元包括:
人脸识别模块,用于对所述第一图像进行人脸识别;
匹配比较模块,用于将识别出来的人脸与人脸特征库进行匹配,所述人脸特征库预存有不同用户的人脸特征信息与所述不同用户分别在处于不同距离时对应的音量调整范围的对应关系;音量适配库;
选取调整模块,用于若所述人脸特征库中有对应与所述第一图像的人脸信息,则根据所述第一图像的人脸信息对应的用户在处于不同距离时对应的音量调整范围的对应关系以及所述N个三维立体图像中每个三维立体图像确定的至少一个像素点对应的距离信息,调整所述目标音量范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510873272.7A CN105430501B (zh) | 2015-12-03 | 2015-12-03 | 一种音量调节方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510873272.7A CN105430501B (zh) | 2015-12-03 | 2015-12-03 | 一种音量调节方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105430501A CN105430501A (zh) | 2016-03-23 |
CN105430501B true CN105430501B (zh) | 2019-06-04 |
Family
ID=55508384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510873272.7A Active CN105430501B (zh) | 2015-12-03 | 2015-12-03 | 一种音量调节方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105430501B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105872770A (zh) * | 2016-04-29 | 2016-08-17 | 钱涵翀 | 一种音量调节方法及系统 |
CN105979358A (zh) * | 2016-05-05 | 2016-09-28 | 青岛海信电器股份有限公司 | 一种音量调节方法、装置和智能终端 |
CN105912912B (zh) * | 2016-05-11 | 2018-12-18 | 青岛海信电器股份有限公司 | 一种终端用户身份登录方法和系统 |
CN106020478B (zh) * | 2016-05-20 | 2019-09-13 | 青岛海信电器股份有限公司 | 一种智能终端操控方法、装置和智能终端 |
CN106534982A (zh) * | 2016-11-28 | 2017-03-22 | 南京九致信息科技有限公司 | 电视设备及音量平衡控制方法 |
CN114089945A (zh) * | 2021-10-29 | 2022-02-25 | 歌尔科技有限公司 | 音量实时调整方法、电子设备及可读存储介质 |
CN114125138B (zh) * | 2021-10-29 | 2022-11-01 | 歌尔科技有限公司 | 音量调整优化方法、装置、电子设备及可读存储介质 |
CN114253502A (zh) * | 2021-12-16 | 2022-03-29 | 浙江康旭科技有限公司 | 一种根据人脸特征点计算的动态音量调节方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799271A (zh) * | 2012-07-02 | 2012-11-28 | Tcl集团股份有限公司 | 一种基于人手手势的交互命令识别方法及系统 |
CN104618796A (zh) * | 2015-02-13 | 2015-05-13 | 京东方科技集团股份有限公司 | 一种调节音量的方法及显示设备 |
CN104717525A (zh) * | 2015-02-04 | 2015-06-17 | 四川长虹电器股份有限公司 | 一种基于摄像头的智能电视操作方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130028443A1 (en) * | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
CN102999939B (zh) * | 2012-09-21 | 2016-02-17 | 魏益群 | 坐标获取装置、实时三维重建系统和方法、立体交互设备 |
CN104703090B (zh) * | 2013-12-05 | 2018-03-20 | 北京东方正龙数字技术有限公司 | 一种基于人脸识别的自动调节拾音设备及自动调节方法 |
-
2015
- 2015-12-03 CN CN201510873272.7A patent/CN105430501B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799271A (zh) * | 2012-07-02 | 2012-11-28 | Tcl集团股份有限公司 | 一种基于人手手势的交互命令识别方法及系统 |
CN104717525A (zh) * | 2015-02-04 | 2015-06-17 | 四川长虹电器股份有限公司 | 一种基于摄像头的智能电视操作方法 |
CN104618796A (zh) * | 2015-02-13 | 2015-05-13 | 京东方科技集团股份有限公司 | 一种调节音量的方法及显示设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105430501A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105430501B (zh) | 一种音量调节方法和系统 | |
CN105425964B (zh) | 一种手势识别方法和系统 | |
CN105763917B (zh) | 一种终端开机的控制方法和系统 | |
CN106020478B (zh) | 一种智能终端操控方法、装置和智能终端 | |
US10198823B1 (en) | Segmentation of object image data from background image data | |
JP6968154B2 (ja) | 制御システムならびに制御処理方法および装置 | |
CN105912912B (zh) | 一种终端用户身份登录方法和系统 | |
US8924735B2 (en) | Managed biometric identity | |
US8582037B2 (en) | System and method for hand gesture recognition for remote control of an internet protocol TV | |
US10127439B2 (en) | Object recognition method and apparatus | |
US20130088422A1 (en) | Input apparatus and input recognition method | |
EP2704057A2 (en) | Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium | |
CN105704472A (zh) | 一种识别儿童用户的电视控制方法和系统 | |
US20140062861A1 (en) | Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium | |
CN104106078B (zh) | 光学字符辨识(ocr)高速缓冲存储器更新 | |
US20120163661A1 (en) | Apparatus and method for recognizing multi-user interactions | |
CN103105924B (zh) | 人机交互方法和装置 | |
CN105592367A (zh) | 一种图像显示参数调节方法和系统 | |
CN108596110A (zh) | 图像识别方法及装置、电子设备、存储介质 | |
CN105979358A (zh) | 一种音量调节方法、装置和智能终端 | |
KR101330531B1 (ko) | 3차원 카메라를 이용한 가상 터치 방법 및 장치 | |
CN108509856A (zh) | 音频调整方法、装置和音响设备 | |
Khowaja et al. | Facial expression recognition using two-tier classification and its application to smart home automation system | |
KR20150043795A (ko) | 영상처리장치 및 그 제어방법 | |
CN105681861A (zh) | 一种终端显示字幕的调节方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 266100 Zhuzhou Road, Laoshan District, Shandong, No. 151, No. Patentee after: Hisense Visual Technology Co., Ltd. Address before: 266100 Zhuzhou Road, Laoshan District, Shandong, No. 151, No. Patentee before: QINGDAO HISENSE ELECTRONICS Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |