CN113824916A - 图像显示方法、装置、设备及存储介质 - Google Patents
图像显示方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113824916A CN113824916A CN202110957956.0A CN202110957956A CN113824916A CN 113824916 A CN113824916 A CN 113824916A CN 202110957956 A CN202110957956 A CN 202110957956A CN 113824916 A CN113824916 A CN 113824916A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- sound signal
- preset
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 104
- 238000003709 image segmentation Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims description 42
- 230000009467 reduction Effects 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 230000005534 acoustic noise Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Studio Devices (AREA)
Abstract
本发明公开了一种图像显示方法、装置、设备及存储介质,属于通信技术领域。本发明通过采集用户发出的初始声音信号,并对所述初始声音信号进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,同时通过预设图像分割模型对所述目标图像进行图像分割,并将所述已分割图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种图像显示方法、装置、设备及存储介质。
背景技术
随着科学技术的发展,远程办公、远程会议越来越受人们的欢迎,沟通也已经超越了时间、空间的限制。人们对会议沟通产品的的功能需求也越来越多,对产品的性能要求也越来越高,比如要求视频产品在进行视频通话时,可以自动的将人像调整到正中间的位置,基于人们的需求诞生了很多的音视频会议办公产品,而对于一般的视频产品,在获得人物图像后,可以通过摄像头的转动以使人物图像居中,但是,如果在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,这时是无法实现人脸自动居中的。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种图像显示方法、装置、设备及存储介质,旨在解决现有技术在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
为实现上述目的,本发明提供了一种图像显示方法,所述方法包括以下步骤:
在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息;
根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像;
通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像;
将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
可选地,所述在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息的步骤,包括:
将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号;
获取麦克风组采集所述目标声音信号的当前时间,并确定相邻麦克风之间接收到所述目标声音信号的时间差;
将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息。
可选地,所述在接收到初始声音信号时,将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号的步骤之前,所述方法还包括:
获取初始声音信号样本以及环境噪声样本;
将所述初始声音信号样本以及所述环境噪声样本通过初始神经网络模型进行模型训练,获得预设声音降噪模型。
可选地,所述将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息的步骤之前,所述方法还包括:
获取目标声音信号样本以及对应的目标方位信息样本;
将所述目标声音信号样本以及所述目标方位信息样本通过初始神经网络模型进行模型训练,获得预设方位预测模型。
可选地,所述通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像的步骤,包括:
对接收到的目标图像进行图像优化处理,获得已优化目标图像;
通过预设图像分割模型对所述已优化图像进行图像分割,获得已分割图像。
可选地,所述通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像之前,所述方法还包括:
对接收到的目标图像样本进行图像优化处理,获得已优化目标图像样本;
根据所述已优化目标图像样本通过初始神经网络模型进行模型训练,获得预设图像分割模型。
可选地,所述将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示的步骤,包括:
通过预设人形检测模型对所述已分割图像进行人形检测,获得人物图像;
将所述人物图像通过预设人脸检测模型进行人脸检测,获得人脸图像标注框;
将所述人脸图像标注框进行图像居中,并基于居中处理后的所述人脸图像标注框将所述人物图像按照预设比例进行放大,并将放大后的人物图像发送至显示设备进行展示。
此外,为实现上述目的,本发明还提出一种图像显示装置,所述图像显示装置包括:
方位预测模块,用于在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息;
图像采集模块,用于根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像;
图像分割模块,用于通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像;
图像展示模块,用于将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
此外,为实现上述目的,本发明还提出一种图像显示设备,所述图像显示设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像显示程序,所述图像显示程序配置为实现如上文所述的图像显示方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有图像显示程序,所述图像显示程序被处理器执行时实现如上文所述的图像显示方法的步骤。
本发明通过在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息,根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像,通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像,将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。与现有技术相比,本发明通过采集用户发出的初始声音信号,并对所述初始声音信号进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,同时通过预设图像分割模型对所述目标图像进行图像分割,并将所述已分割图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的图像显示设备的结构示意图;
图2为本发明图像显示方法第一实施例的流程示意图;
图3为本发明图像显示方法一实施例的麦克风组示意图;
图4为本发明图像显示方法第二实施例的流程示意图;
图5为本发明图像显示方法第三实施例的流程示意图;
图6为本发明图像显示装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的图像显示设备结构示意图。
如图1所示,该图像显示设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对图像显示设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像显示程序。
在图1所示的图像显示设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明图像显示设备中的处理器1001、存储器1005可以设置在图像显示设备中,所述图像显示设备通过处理器1001调用存储器1005中存储的图像显示程序,并执行本发明实施例提供的图像显示方法。
本发明实施例提供了一种图像显示方法,参照图2,图2为本发明一种图像显示方法第一实施例的流程示意图。
本实施例中,所述图像显示方法包括以下步骤:
步骤S10:在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息。
需要说明的是,本实施例的执行主体是图像显示设备的控制器,其中所述图像显示设备可以是个人电脑、控制计算机等,还可以为其他可实现相同或者相似功能的图像显示设备,本实施例对此不加以限制,在本实施例中,以控制计算机为例进行说明。
可理解的是,初始声音信号是通过音频采集设备采集到的声音信号,所述声音信号中包含有用户发出的声音和环境中的声音;所述音频采集设备可以是个人电脑自带的录音机、或者外接的音频采集卡、麦克风等,还可以是其他可以采集声音信号的声音采集设备,在本实施例中以外接麦克风为例进行说明。
值得说明的是,本实施例的外接麦克风可以是一组麦克风阵列,所述麦克风阵列的数量可以是4个、6个等,参考图3,为本实施例的4麦克风阵列的示意图
应当理解的是,预设方位预测模型可以用于基于初始声音信号判断初始声音信号的来源位置,获得目标方位信息,所述目标方位信息可以是用户相对于音频采集设备的方位信息;所述预设方位预测模型可以是基于波达方向估计的方位预测程序,也可以是其他具有方位预测的模型,本实施例不作具体限制。
步骤S20:根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像。
需要说明的是,在获得目标方位信息后,控制计算机控制器根据所述目标方位信息,控制与摄像头相连的马达电机转动,进而调整摄像头的朝向,在控制摄像头的朝向时,需要根据就近原则,进行转动。
可理解的是,目标图像可以是存在人物图像的图像,所述目标图像通过图像采集设备进行采集,在本实施例中通过可转动的摄像头进行采集得到。
在具体实现中,参考图3,摄像头的水平视场角为90度,当控制计算机根据初始声音信号确定目标方位信息为用户在A处时,将控制马达电机延顺时针方向转动至能采集A处图像的角度。
步骤S30:通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像。
需要说明的是,预设图像分割模型可以用于对摄像头采集到的目标图像进行图像分割,提取出目标图像中的人物图像,标记为已分割图像。其中,由于摄像头采集图像时受到环境因素的影响使得采集到的图像清晰度不高以及图像出现马赛克图像等问题。
因此,在对目标图像进行图像分割时,所述步骤S30,包括:
对接收到的目标图像进行图像优化处理,获得已优化目标图像;
通过预设图像分割模型对所述已优化图像进行图像分割,获得已分割图像。
可理解的是,在采集目标图像时,因环境因素的影响使得采集到的目标图像可能不够清晰或者其他的影响图像分割的问题,因此需要对所述目标图像进行优化处理,对于目标图像的优化处理可以是对清晰度、饱和度、白平衡、亮度处理、对比度以及畸变校正等的问题处理,还可以是其他可以提高提高图像质量的优化处理,本实施例不作具体限制。
在具体实现中,可能会出现可能存在一张目标图像中存在有多个人物图像的问题,因此根据目标方位信息调整摄像头转动时,目标方位的朝向即摄像头最终的位置一般最接近采集图像的中轴位置,因此提取的是最靠近图像中轴位置的人物图像,本实施例不作具体限制。
步骤S40:将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
本实施例通过在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息,根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像,通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像,将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。本实施例通过采集用户发出的初始声音信号,并对所述初始声音信号进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,同时通过预设图像分割模型对所述目标图像进行图像分割,并将所述已分割图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
参考图4,图4为本发明一种图像显示方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10,包括:
步骤S101:将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号。
需要说明的是,由于初始声音信号是通过音频采集设备采集到的声音信号,并且所述声音信号中包含有用户发出的声音和环境中的声音,在本实施例中,环境中的声音会影响对用户方位预测的精准度,因此在对声音信号进行方位预测之前,可以对初始声音信号进行降噪处理。
可理解的是,预设声音降噪模型由于对初始声音信号进行降噪处理,以获得用户的音频信号,记为目标声音信号,所述预设声音降噪模型可以是基于神经网络模型的降噪算法,例如:谱映射降噪算法等,还可以是其他具有声音降噪功能的模型,本实施例不作具体限制。
进一步地,为了获得预设声音降噪模型,步骤S101之前,包括:
获取初始声音信号样本以及环境噪声样本样本;
根据所述初始声音信号样本以及所述环境噪声样本样本通过初始神经网络模型进行模型训练,获得预设声音降噪模型。
值得说明的是,初始神经网络可以是前馈神经网络(Feed-Forward NeuralNetwork,FFNN),也可以是其他具有对初始声音信号样本以及目标声音信号样本进行训练的神经网络,本实施例不作具体限制。
步骤S102:获取麦克风组采集所述目标声音信号的当前时间,并确定相邻麦克风之间接收到所述目标声音信号的时间差。
需要说明的是,由于同一音频信号距离麦克风组的距离不同,使得麦克风组接收到目标声音信号的时间也不相同,根据声音传播速度,以及相邻麦克风之间的时间差可以确定声音方向,此外本实施例所用的麦克风组可以是可以是一组麦克风阵列,所述麦克风阵列的数量可以是4个、6个等,多个麦克风组成的阵列可以提高抗干扰能力,例如:向PDM麦克风,I2S麦克风、驻极体麦克风等,还可以是其他的多麦麦克风,在本实施例中以全向PDM麦克风为例进行说明。
步骤S103:将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息。
需要说明的是,预设方位预测模型可以用于基于目标声音信号判断目标声音信号的来源位置,标记为目标方位信息,所述预设方位预测模型可以是基于波达方向估计的方位预测程序,也可以是其他具有方位预测的模型,本实施例不作具体限制。
进一步地,为了获得预设方位预测模型,步骤S103之前,还包括:
获取目标声音信号样本以及对应的目标方位信息样本;
将所述目标声音信号样本以及所述目标方位信息样本通过初始神经网络模型进行模型训练,获得预设方位预测模型。
可理解的是,初始神经网络模型可以是波达方向估计神经网络模型(DirectionOf Arrival,DOA),还可以是其他具有根据音频信号进行目标方位预测的神经网络模型,本实施例不作具体限制。
本实施例通过在接收到初始声音信号时,将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号,通过麦克风组采集所述目标声音信号的当前时间确定相邻麦克风的时间差,根据时间差进行目标方位预测,获得目标方位信息,根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像,通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像,将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。本实施例通过采集用户发出的初始声音信号,并对所述初始声音信号进行降噪处理,获得目标声音信号,避免了环境噪声的影响,通过对麦克风组采集目标声音信号的时间差进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,同时通过预设图像分割模型对所述目标图像进行图像分割,并将所述已分割图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
参考图5,图5为本发明一种图像显示方法第三实施例的流程示意图。
基于上述第二实施例,在本实施例中,所述步骤S40,包括:
步骤S401:通过预设人形检测模型对所述已分割图像进行人形检测,获得人物图像。
需要说明的是,预设人形检测模型用于将已分割图像中的人物图像进行提取,以使后续检测人脸图像。
步骤S402:将所述人物图像通过预设人脸检测模型进行人脸检测,获得人脸图像标注框。
需要说明的是,预设人脸检测模型用于将人物图像进行人脸检测,获得人脸图像标注框,所述人脸图像标注框可以更精准的定位居中图像的位置,且在对人脸图像进行标注获得标注框时,可以设置一个交集与并集比值(Intersection over Union,IOU)阈值,所述IOU阈值用于进行判断预测框的位置、大小等信息是否与实际的指针区域偏差过大,若预测框交并比大于等于IOU阈值则认为预测框有效,若预测框交并比小于IOU阈值则认为预测框无效。
进一步地,为了获得人脸检测模型,步骤S402之前,还包括:
获取人脸图像样本以及目标图像样本;
根据所述人脸图像样本以及所述目标图像样本通过初始神经网络模型进行模型训练,获得预设人脸检测模型。
可理解的是,初始神经网络模型可以是局部二值神经网络模型(Local BinaryPatterns,LBP),还可以是其他具有人脸检测功能的神经网络模型,本实施例不作具体限制
步骤S403:将所述人脸图像标注框进行图像居中,并基于居中处理后的所述人脸图像标注框将所述人物图像按照预设比例进行放大,并将放大后的人物图像发送至显示设备进行展示。
可理解的是,对人脸图像标注框进行图像居中,可以是将标注框的中轴线与需要展示图像的中轴线进行对比,使得人脸图像可以居中放置,还可以是其他能够使得人脸图像居中的处理,本实施例不作具体限制。
需要说明的是,由于人脸图像在目标图像中的尺寸大小并不能够使得用户清楚地观看到,因此可以对获得的人脸图像进行比例放大,例如:人脸图像与目标图像的比例为1:5,本实施例不作具体限制。
需要说明的是,显示设备可以是个人电脑、投影仪等电子设备,也可以是其他具有显示图像功能的电子设备,本实施例不作具体限制。
本实施例通过在接收到初始声音信号时,将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号,通过麦克风组采集所述目标声音信号的当前时间确定相邻麦克风的时间差,根据时间差进行目标方位预测,获得目标方位信息,根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像,并对采集到的目标图像进行优化,获得已优化目标图像,通过预设人脸检测模型对所述已优化目标图像进行人脸检测,获得人脸图像,将所述人脸图像进行居中处理,并将居中处理后的人脸图像图像发送至显示设备进行展示。本实施例通过采集用户发出的初始声音信号,并对所述初始声音信号进行降噪处理,获得目标声音信号,避免了环境噪声的影响,通过对麦克风组采集目标声音信号的时间差进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,并对用户图像进行优化处理,使得后续的人脸检测结果更为精准,同时通过预设人脸检测模型对所述目标图像进行人脸检测,并将所述人脸图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有图像显示程序,所述图像显示程序被处理器执行时实现如上文所述的图像显示方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少县有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图6,图6为本发明图像显示装置第一实施例的结构框图。
如图6所示,本发明实施例提出的图像显示装置包括:
方位预测模块10,用于在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息。
图像采集模块20,用于根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像。
图像分割模块30,用于通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像。
图像展示模块40,用于将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
本实施例通过在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息,根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像,通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像,将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。本实施例通过采集用户发出的初始声音信号,并对所述初始声音信号进行方位预测,根据方位预测结果调整摄像头的角度采集到用户图像,使得人的初始位置不在摄像头的拍照范围内,依然可以采集用户图像,同时通过预设图像分割模型对所述目标图像进行图像分割,并将所述已分割图像进行居中处理,使得采集到的人物图像可以居中展示,避免了在进行视频通话时,人的初始位置不在摄像头的拍照范围内时,无法实现人脸自动居中的技术问题。
一实施例中,所述方位预测模块10,还用于将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号;获取麦克风组采集所述目标声音信号的当前时间,并确定相邻麦克风之间接收到所述目标声音信号的时间差;将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息。
一实施例中,所述方位预测模块10,还用于获取初始声音信号样本以及环境噪声样本;将所述初始声音信号样本以及所述环境噪声样本通过初始神经网络模型进行模型训练,获得预设声音降噪模型。
一实施例中,所述方位预测模块10,还用于获取目标声音信号样本以及对应的目标方位信息样本;将所述目标声音信号样本以及所述目标方位信息样本通过初始神经网络模型进行模型训练,获得预设方位预测模型。
一实施例中,所述图像分割模块30,还用于对接收到的目标图像进行图像优化处理,获得已优化目标图像;通过预设图像分割模型对所述已优化图像进行图像分割,获得已分割图像。
一实施例中,所述图像分割模块30,还用于对接收到的目标图像样本进行图像优化处理,获得已优化目标图像样本;根据所述已优化目标图像样本通过初始神经网络模型进行模型训练,获得预设图像分割模型。
一实施例中,所述图像展示模块40,还用于通过预设人形检测模型对所述已分割图像进行人形检测,获得人物图像;将所述人物图像通过预设人脸检测模型进行人脸检测,获得人脸图像标注框;将所述人脸图像标注框进行图像居中,并基于居中处理后的所述人脸图像标注框将所述人物图像按照预设比例进行放大,并将放大后的人物图像发送至显示设备进行展示。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的图像显示方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种图像显示方法,其特征在于,所述图像显示方法包括:
在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息;
根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像;
通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像;
将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
2.如权利要求1所述的图像显示方法,其特征在于,所述在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息的步骤,包括:
将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号;
获取麦克风组采集所述目标声音信号的当前时间,并确定相邻麦克风之间接收到所述目标声音信号的时间差;
将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息。
3.如权利要求2所述的图像显示方法,其特征在于,所述在接收到初始声音信号时,将所述初始声音信号通过预设声音降噪模型进行声音降噪处理,获得目标声音信号的步骤之前,所述方法还包括:
获取初始声音信号样本以及环境噪声样本;
将所述初始声音信号样本以及所述环境噪声样本通过初始神经网络模型进行模型训练,获得预设声音降噪模型。
4.如权利要求2所述的图像显示方法,其特征在于,所述将所述时间差通过预设方位预测模型进行方位预测,获得目标方位信息的步骤之前,所述方法还包括:
获取目标声音信号样本以及对应的目标方位信息样本;
将所述目标声音信号样本以及所述目标方位信息样本通过初始神经网络模型进行模型训练,获得预设方位预测模型。
5.如权利要求1所述的图像显示方法,其特征在于,所述通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像的步骤,包括:
对接收到的目标图像进行图像优化处理,获得已优化目标图像;
通过预设图像分割模型对所述已优化图像进行图像分割,获得已分割图像。
6.如权利要求5所述的图像显示方法,其特征在于,所述通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像之前,所述方法还包括:
对接收到的目标图像样本进行图像优化处理,获得已优化目标图像样本;
根据所述已优化目标图像样本通过初始神经网络模型进行模型训练,获得预设图像分割模型。
7.如权利要求1至6中任一项所述的图像显示方法,其特征在于,所述将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示的步骤,包括:
通过预设人形检测模型对所述已分割图像进行人形检测,获得人物图像;
将所述人物图像通过预设人脸检测模型进行人脸检测,获得人脸图像标注框;
将所述人脸图像标注框进行图像居中,并基于居中处理后的所述人脸图像标注框将所述人物图像按照预设比例进行放大,并将放大后的人物图像发送至显示设备进行展示。
8.一种图像显示装置,其特征在于,所述图像显示装置包括:
方位预测模块,用于在接收到初始声音信号时,将所述初始声音信号通过预设方位预测模型进行方位预测,获得目标方位信息;
图像采集模块,用于根据所述目标方位信息调整摄像头朝向,以使所述摄像头采集目标图像;
图像分割模块,用于通过预设图像分割模型对所述目标图像进行图像分割,获得已分割图像;
图像展示模块,用于将所述已分割图像进行居中处理,并将居中处理后的已分割图像发送至显示设备进行展示。
9.一种图像显示设备,其特征在于,所述图像显示设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像显示程序,所述图像显示程序配置为实现如权利要求1至7中任一项所述的图像显示方法。
10.一种存储介质,其特征在于,所述存储介质上存储有图像显示程序,所述图像显示程序被处理器执行时实现如权利要求1至7任一项所述的图像显示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957956.0A CN113824916A (zh) | 2021-08-19 | 2021-08-19 | 图像显示方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957956.0A CN113824916A (zh) | 2021-08-19 | 2021-08-19 | 图像显示方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113824916A true CN113824916A (zh) | 2021-12-21 |
Family
ID=78922805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110957956.0A Pending CN113824916A (zh) | 2021-08-19 | 2021-08-19 | 图像显示方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113824916A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174801A (zh) * | 2022-05-27 | 2022-10-11 | 中国科学院半导体研究所 | 图像采集方法、装置、存储介质和程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0797177A1 (fr) * | 1996-03-21 | 1997-09-24 | Fluidelec | Procédé et dispositif de télésurveillance par caméras mobiles sur rails |
JP2003230049A (ja) * | 2002-02-06 | 2003-08-15 | Sharp Corp | カメラ制御方法及びカメラ制御装置並びにテレビ会議システム |
CN110505399A (zh) * | 2019-08-13 | 2019-11-26 | 聚好看科技股份有限公司 | 图像采集的控制方法、装置及采集终端 |
CN112543295A (zh) * | 2020-11-23 | 2021-03-23 | 安徽江淮汽车集团股份有限公司 | 基于声源定位的车载视频通话方法、系统及设备 |
-
2021
- 2021-08-19 CN CN202110957956.0A patent/CN113824916A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0797177A1 (fr) * | 1996-03-21 | 1997-09-24 | Fluidelec | Procédé et dispositif de télésurveillance par caméras mobiles sur rails |
JP2003230049A (ja) * | 2002-02-06 | 2003-08-15 | Sharp Corp | カメラ制御方法及びカメラ制御装置並びにテレビ会議システム |
CN110505399A (zh) * | 2019-08-13 | 2019-11-26 | 聚好看科技股份有限公司 | 图像采集的控制方法、装置及采集终端 |
CN112543295A (zh) * | 2020-11-23 | 2021-03-23 | 安徽江淮汽车集团股份有限公司 | 基于声源定位的车载视频通话方法、系统及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174801A (zh) * | 2022-05-27 | 2022-10-11 | 中国科学院半导体研究所 | 图像采集方法、装置、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019109801A1 (zh) | 拍摄参数的调整方法、装置、存储介质及移动终端 | |
US9071724B2 (en) | Method and apparatus for providing a video call service | |
CN111641794B (zh) | 声音信号采集方法和电子设备 | |
WO2021025517A1 (en) | Electronic device with audio zoom and operating method thereof | |
CN110110787A (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN110876036B (zh) | 一种视频生成的方法以及相关装置 | |
CN111370018B (zh) | 音频数据的处理方法、电子设备及介质 | |
CN107948505B (zh) | 一种全景拍摄方法及移动终端 | |
CN111251307B (zh) | 应用于机器人的语音采集方法和装置、一种机器人 | |
US11308732B2 (en) | Face recognition method and apparatus | |
JP2019220848A (ja) | データ処理装置、データ処理方法及びプログラム | |
CN116097120A (zh) | 一种显示方法及显示设备 | |
CN110188179B (zh) | 语音定向识别交互方法、装置、设备及介质 | |
CN112839165B (zh) | 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质 | |
CN103262561A (zh) | 视频分发系统和视频分发方法 | |
CN110463177A (zh) | 文档图像的校正方法及装置 | |
CN110600040A (zh) | 声纹特征注册方法、装置、计算机设备及存储介质 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN112532911A (zh) | 图像数据处理方法、装置、设备及存储介质 | |
CN113824916A (zh) | 图像显示方法、装置、设备及存储介质 | |
CN109508713B (zh) | 图片获取方法、装置、终端和存储介质 | |
CN113573120B (zh) | 音频的处理方法及电子设备、芯片系统及存储介质 | |
KR101976937B1 (ko) | 마이크로폰 어레이를 이용한 회의록 자동작성장치 | |
CN112073639A (zh) | 拍摄控制方法及装置、计算机可读介质和电子设备 | |
CN113709353B (zh) | 图像采集方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211221 |