CN114820993A - 用于处理图像的方法、电子设备和计算机程序产品 - Google Patents
用于处理图像的方法、电子设备和计算机程序产品 Download PDFInfo
- Publication number
- CN114820993A CN114820993A CN202110126097.0A CN202110126097A CN114820993A CN 114820993 A CN114820993 A CN 114820993A CN 202110126097 A CN202110126097 A CN 202110126097A CN 114820993 A CN114820993 A CN 114820993A
- Authority
- CN
- China
- Prior art keywords
- image
- image portion
- target
- target object
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000004590 computer program Methods 0.000 title claims abstract description 15
- 238000010801 machine learning Methods 0.000 claims abstract description 61
- 230000003190 augmentative effect Effects 0.000 claims abstract description 57
- 230000002708 enhancing effect Effects 0.000 claims abstract description 15
- 230000002829 reductive effect Effects 0.000 claims abstract description 8
- 230000036961 partial effect Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 6
- 230000003042 antagnostic effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/147—Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2340/00—Aspects of display data processing
- G09G2340/04—Changes in size, position or resolution of an image
- G09G2340/0407—Resolution change, inclusive of the use of different resolutions for different screen areas
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2380/00—Specific applications
- G09G2380/10—Automotive applications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/36—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
- G09G5/39—Control of the bit-mapped memory
- G09G5/391—Resolution modifying circuits, e.g. variable screen formats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开的实施例涉及用于处理图像的方法、电子设备和计算机程序产品。该方法包括获取关于增强现实场景的图像。该方法还包括从图像中确定与目标对象相对应的目标图像部分。该方法还包括利用机器学习模型来增强目标图像部分中的关于目标对象的信息,以得到经增强的目标图像部分。该方法还包括显示经增强的目标图像部分。通过该方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
Description
技术领域
本公开的实施例涉及图像领域,并且更具体地,涉及用于处理图像的方法、电子设备和计算机程序产品。
背景技术
增强现实(Augmented Reality,AR)技术是一种将虚拟信息与真实世界巧妙融合的技术。该技术运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。
增强现实技术不仅能够有效体现出真实世界的内容,也能够促使虚拟的信息内容显示出来。在视觉化的增强现实中,真实世界能够和电脑图形之间重合在一起,在重合之后可以充分看到增强的真实世界。然而,在增强现实场景中还有许多问题需要解决。
发明内容
本公开的实施例提供一种用于处理图像的方法、电子设备和计算机程序产品。
根据本公开的第一方面,提供了一种用于处理图像的方法。该方法包括获取关于增强现实场景的图像。该方法还包括从图像中确定与目标对象相对应的目标图像部分。该方法还包括利用机器学习模型来增强目标图像部分中的关于目标对象的信息,以得到经增强的目标图像部分。该方法还包括显示经增强的目标图像部分。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储器,耦合至至少一个处理器并且具有存储于其上的指令,指令在由至少一个处理器执行时使设备执行动作,动作包括:获取关于增强现实场景的图像;从图像中确定与目标对象相对应的目标图像部分;利用机器学习模型来增强目标图像部分中的关于目标对象的信息,以得到经增强的目标图像部分;以及显示经增强的目标图像部分。
根据本公开的第三方面,提供了一种计算机程序产品,该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面中的方法的步骤。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1图示了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图;
图2图示了根据本公开的实施例的用于处理图像的方法200的流程图;
图3图示了根据本公开的实施例的用于增强图像分辨率或恢复图像的方法300的流程图;
图4图示了根据本公开的实施例的用于生成三维(3-Dimension,3D)图像的方法400;
图5图示了适于用来实施本公开内容的实施例的示例设备500的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例,但应当理解,描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
当前定义的增强现实(AR)是现实世界视图中数字信息的叠加。实际上,这是识别相机中特定物理对象并叠加数字内容的过程,例如叠加视频,音频或三维(3-Dimension,3D)模型。对于现有的AR应用程序,AR中显示的虚拟信息都是预定义的内容。
现有的AR内容的提供并不智能,不能基于用户意图或输入的方式来增强或改善提供的AR内容,也没有真正智能地使用机器学习算法进行数据分析、对象识别、异常检测等。
现有的AR应用程序或产品大多安装在独立的AR设备中,通过实时渲染和数据分析来处理计算密集型数据处理需求的能力有限。此外,处理这些计算的硬件成本较高。
至少为了解决上述和其他潜在问题。本公开的实施例提出了一种用于处理图像的方法。该方法包括计算设备获取关于增强现实场景的图像。然后计算设备从图像中确定与目标对象相对应的目标图像部分。计算设备利用机器学习模型来增强目标图像部分中的关于目标对象的信息,以得到经增强的目标图像部分。然后计算设备显示经增强的目标图像部分。通过该方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
以下将进一步结合附图来详细描述本公开的实施例。图1示出了本公开的实施例能够在其中被实现的示例系统100的框图。应当理解,仅出于示例性的目的描述系统100的结构,而不暗示对于本公开的范围的任何限制。
如图1所示,系统100包括计算设备104。计算设备104可以获取增强现实场景中的图像102。
计算设备104包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。
图像102是增强现实图像。图像102可以由AR眼镜或与由运行增强现实应用的设备的相机获得,例如计算设备104的相机。图像102中包括一辆小汽车106和一辆自行车108。在该图像中自行车108遮挡了小汽车106。图1中示出的图像102仅是示例,而非对本公开的具体限定,其可以是包括任何图像内容的图像。
计算设备104在获得增强现实场景中的图像102后,可以对图像中的各个对象进行图像识别,例如识别出小汽车106和自行车108。然后,可以由用户选择对被遮挡的小汽车进行恢复,生成其未被遮挡的完整图像112。在这个过程中,计算设备104可以提取小汽车106的未被遮挡部分的图像,然后输入机器学习模型110中以获得修复后的完整图像112。
机器学习模型110是用于对图像进行修复的机器学习模型。在一些实施例中,该机器学习模型为任意合适的神经网络模型。在一些实施例中,该机器学习模型为对生成对抗网络模型。上述示例仅是用于描述本公开,而非对本公开的具体限定。本领域技术人员可以依据需要来设置机器学习模型为何种模型。
图1中示出了利用可以修复图像的机器学习模型110对小汽车106的部分图像进行修复以获得小汽车的完整图像112。图1中示出的用于修复图像的机器学习模型仅是示例,而非对本公开的具体限定。机器学习模型110可以为实现任何图像增强功能的机器学习模型。
在一些实施例中,图1中的机器学习模型110可以为用于对图像的分辨率进行增强的机器学习模型。例如,如果用户感觉小汽车的图像不清楚,用户可以手动选择小汽车。然后将小汽车对应的图像输入可以增强图像分辨率的机器学习模型来增强小汽车图像的分辨率。此外,也可以由计算设备自动地确定对哪些目标对象的图像进行分辨率增强。
在一些实施例中,图1中的机器学习模型110也可以为用于将目标对象的二维图像生成目标对象的三维图像。例如,如果用户手动选择小汽车作为目标对象。计算设备104将小汽车对应的图像部分输入机器学习模型来生成小汽车的三维图像。上述示例仅是用于描述本公开,而非对本公开具体限定。
在一些实施例中,在训练机器学习模型时,可以先使用真实世界的图像对机器学习模型进行训练。在由真实世界的图像训练好机器学习模型后,可以再用增强现实场景中的图像对机器学习模型进一步训练,以使其更好的处理增强现实场景中的图像。
图1中示出在了用户终端处的计算设备104上运行机器学习模型,其仅是示例,而非对本公开的具体限定。机器学习模型可以放置到与终端设备相连接的边缘计算设备中执行,以减少终端设备对高性能硬件的需求。备选地或附加地,由机器学习模型110生成的内容可以存储到云端的增强现实场景的存储库中。
通过上述方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
上面结合图1描述了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图。下面结合图2描述了根据本公开的实施例的用于处理图像方法200的流程图。方法200可以在图1中的计算设备104及任意合适的计算设备处执行。以下结合图1示出的根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境100进一步描述图2的实施例。
如图2所示,在框202处,计算设备104获取关于增强现实场景的图像。为了对图像进行处理,获取的增强现实场景的图像由计算设备104来处理。
在一些实施例中,计算设备104可以包括相机并且运行增强现实应用。在一些实施例中,计算设备104可以为与增强现实眼镜相连接的计算设备。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在框204处,计算设备104从图像102中确定与目标对象相对应的目标图像部分。
在一些实施例中,计算设备104可以自动确定是否对目标对象的目标图像部分进行处理。计算设备104从图像102中提取与目标对象相对应的图像部分。然后,计算设备104将图像部分缩放到目标对象的预定显示大小。例如,可以预先存储好在增强现实设备的屏幕上显示的目标对象的预定显示大小。计算设备104确定经缩放的图像部分中的目标对象的特征点的数目与目标对象的标准特征点的数目之间的比值。如果该比值低于阈值,计算设备自动将经缩放的图像部分确定为要由机器学习模型进行增强处理的目标图像部分。通过该方法,计算设备104可以自动地确定出要处理哪些图像部分,提高了数据处理效率,改进了用户体验。上述自动确定是否进行图像增强处理的过程仅是示例,而非对本公开的具体限定。在确定是否自动进行图像增强处理时,还可以使用任意合适的方式进行。
在一些实施例中,计算设备104根据目标对象的预定显示大小来调整获得的目标对象的图像部分的大小。计算设备104如果确定图像部分的大小小于目标对象的预定显示大小,则将图像部分放大到目标对象的预定显示大小。计算设备104如果确定图像部分的大小大于目标对象的预定显示大小,则将图像部分缩小到目标对象的预定显示大小。在一些实施例中,计算设备104仅对小于目标对象的预定显示大小的目标对象的图部分进行放大处理。备选地或附加地,计算设备104仅在目标对象的图像大小与预定显示大小的比值小于预定阈值时,才对目标对象的图部分进行放大处理。通过该方式,可以快速的将图像调整为预定的大小,提高了用户体验。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在框206处,计算设备104利用机器学习模型来增强目标图像部分中的关于目标对象的信息,以得到经增强的目标图像部分。
在一些实施例中,机器学习模型用于提高图像的分辨率。计算设备104将目标图像部分输入机器学习模型以用于提高目标图像部分的分辨率。在获得高分辨率的图像后,可对图像进行检测,以获得各种有用的信息,例如可用于查找设备故障等。
在一些实施例中,目标图像部分是目标对象的部分图像,机器学习模型可用于基于对象的部分图像来生成对象的完整图像。计算设备104将目标图像部分输入机器学习模型以获得目标对象的完整图像。
在一些实施例中,目标图像部分为二维图像,机器学习模型可用于将二维图像转换为三维图像。计算设备将目标图像部分输入机器学习模型以获得目标对象的三维图像。上述示例仅是用于描述本公开,而非对公开的具体限定。
在框208处,计算设备104显示经增强的目标图像部分。在一些实施例中,用户可以利用增强的图像部分获取更多的信息或者与增强的图像部分进行交互来获得更多的信息。
在一些实施中,在设备维护领域,通过上述方式对获得的被检测设备的图像进行图像增强,提高图像分辨率。对增强图像进行识别以获得更多图像信息,然后与该被检测设备的正常状态的图像进行比对以确定设备的运行情况。例如拍摄服务器设备的指示灯图片来检测服务器设备的运行。一般拍摄的图像并不清楚。此时可以利用本文公开的技术来增强图像的分辨率。然后识别服务器设备的指示灯,并将指示灯与正常状态的指示灯进行比较以确定哪些设备异常。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,在一些远程维护中也可以通过上述方式对图像都行增强,由维护人员通过增强的图像远程确定设备问题。
在一些实施例中,由于机器学习模型的计算要使用高性能的硬件资源,为了节省终端的成本,可以将机器学习模型放置到边缘计算设备中运行。当需要处理图像时,将需要处理的图像传送到边缘计算设备,由边缘计算设备上运行的神经网络模型来处理图像。然后将生成的图像返给用户的设备并且将生成的图像存储在云中关于增强现实环境的存储库中。
在一些实施例中,计算设备104通过相机获取关于现实场景的原始图像。然后计算设备104获取现实场景中的特征点信息,例如尺度不变特征变换(Scale-invariantfeature transform,SIFT)特征信息。然后计算设备104基于特征点信息向原始图像添加关于虚拟场景的信息,实现增强现实注册,从而可得到关于增强现实场景的图像。上述示例仅是用于描述本公开,而非对本公开的具体限定。可以使用各种合适的方式来实现增强现实场景的注册,例如基于在现实场景中放置的标识物来实现增强现实的注册。
在一些实施例中,机器学习模型为生成对抗网络模型。通过使用对抗神经网络模型,可以利用无标记的图像自动学习,提高了学习的效率。在一些实施例中,其中机器学习模型为任意合适的神经网络模型。上述示例仅是用于描述本公开,而非对本公开的具体限定。
通过该方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
上在结合图2描述了根据本公开的实施例的用于处理图像的方法200的流程图。下面结合图3描述根据本公开的实施例的用于增强图像分辨率或恢复图像的方法300的流程图。方法300可以在图1中的计算设备104及任意合适的计算设备处执行。
在框302处,打开增强现实设备,计算设备104可以为增强现实设备。例如,增强现实设备为运行增强现实应用并且具有相机的设备或与包括增强现实眼镜的设备。
在框304处,由增强现实设备来获取图像。例如增强现实设备的相机获取现实场景中的图像。然后,在框306处,由增强现实设备实现增强现实注册。然后增强现实设备获取增强现实场所景中的图像并进行图像质量评估。在框308处,确定是否触发对抗神经网络。例如,基于图像质量评估结果自动触发对抗神经网络或由用户手动触发对抗神经网络。如果触发了神经网络,则在框312处,利用对抗神经网络增强图像的分辨率或恢复图像。如果没有触发神经网络,在框310处使用当前图片。然后在框314处,可以对分辨率增强的图像、恢复的图像或当前的图像进行检测,以确定图像中显示的各个对象的信息,例如用于确定设备故障等。然后在框316处,在增强现实设备上显示结果。
通过该方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
上在结合图3描述了根据本公开的实施例的本公开的实施例的用于增强图像分辨率或恢复图像的方法300的流程图。下面结合图4描述根据本公开的实施例的用于生成三维(3-Dimension,3D)图像的方法400。方法400可以在图1中的计算设备104及任意合适的计算设备处执行。
在框402处,打开增强现实设备,计算设备104可以为增强现实设备。例如,增强现实设备为运行增强现实应用并且具有相机的设备或增强现实眼镜。
在框404处,由增强现实设备来获取图像以进行场景识别或实现增强现实注册。在框406处,由用户来选择要处理的对象。然后获得该对象的二维(2-Dimension,2D)图像,例如用户从图像中选择要处理的对象。在框408处,触发对抗神经网络来进行图像增强处理。然后在框410处,通过对抗神经网络的处理来获得2D图像的3D图像。然后在框412处,在增强现实设备的显示器上输出结果,并与3D图像进行交互。例如,可以查看3D图像中关于该对象的在2D图像中未显示的信息。
通过该方法,可以快速的实现增强现实图像的增强处理,提高了图像质量,并且减少硬件资源的使用,改进了用户体验。
图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。图1中的计算设备104可以利用设备500来实现。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储页面508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储页面508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200、300和400,可由处理单元601执行。例如,在一些实施例中,方法200、300和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储页面508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM503并由CPU 501执行时,可以执行上文描述的方法200、300和400的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (17)
1.一种用于处理图像的方法,包括:
获取关于增强现实场景的图像;
从所述图像中确定与目标对象相对应的目标图像部分;
利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息,以得到经增强的所述目标图像部分;以及
显示经增强的所述目标图像部分。
2.根据权利1所述的方法,其中确定所述目标图像部分包括:
从所述图像中提取与所述目标对象相对应的图像部分;
将所述图像部分缩放到所述目标对象的预定显示大小;
确定经缩放的所述图像部分中的所述目标对象的特征点的数目与所述目标对象的标准特征点的数目之间的比值;以及
响应于所述比值低于阈值,将经缩放的所述图像部分确定为所述目标图像部分。
3.根据权利要求2所述的方法,其中将所述图像部分缩放到所述目标对象的预定显示大小包括:
如果确定所述图像部分的大小小于所述目标对象的预定显示大小,将所述图像部分放大到所述目标对象的预定显示大小;以及
如果确定所述图像部分的大小大于所述目标对象的预定显示大小,将所述图像部分缩小到所述目标对象的预定显示大小。
4.根据权利要求1所述的方法,其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
将所述目标图像部分输入所述机器学习模型以用于提高所述目标图像部分的分辨率,其中所述机器学习模型用于提高图像的分辨率。
5.根据权利要求1所述的方法,其中所述目标图像部分是所述目标对象的部分图像;
其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
将所述目标图像部分输入所述机器学习模型以获得所述目标对象的完整图像,其中所述机器学习模型用于基于对象的部分图像来生成对象的完整图像。
6.根据权利要求1所述的方法,其中所述目标图像部分为二维图像;
其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
所述目标图像部分输入所述机器学习模型以获得所述目标对象的三维图像,其中所述机器学习模型用于将二维图像转换为三维图像。
7.根据权利要求1所述的方法,还包括:
通过相机获取关于现实场景的原始图像;
获取所述现实场景中的特征点信息;以及
基于所述特征点信息向所述原始图像添加关于虚拟场景的信息,以得到关于所述增强现实场景的所述图像。
8.根据权利要求1所述的方法,其中所述机器学习模型为生成对抗网络模型。
9.一种电子设备,所述电子设备包括:
至少一个处理器;以及
存储器,耦合至所述至少一个处理器并且具有存储于其上的指令,所述指令在由所述至少一个处理器执行时使所述设备执行动作,所述动作包括:
获取关于增强现实场景的图像;
从所述图像中确定与目标对象相对应的目标图像部分;
利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息,以得到经增强的所述目标图像部分;以及
显示经增强的所述目标图像部分。
10.根据权利9所述的设备,其中确定所述目标图像部分包括:
从所述图像中提取与所述目标对象相对应的图像部分;
将所述图像部分缩放到所述目标对象的预定显示大小;
确定经缩放的所述图像部分中的所述目标对象的特征点的数目与所述目标对象的标准特征点的数目之间的比值;以及
响应于所述比值低于阈值,将经缩放的所述图像部分确定为所述目标图像部分。
11.根据权利要求10所述的设备,其中将所述图像部分缩放到所述目标对象的预定显示大小包括:
如果确定所述图像部分的大小小于所述目标对象的预定显示大小,将所述图像部分放大到所述目标对象的预定显示大小;以及
如果确定所述图像部分的大小大于所述目标对象的预定显示大小,将所述图像部分缩小到所述目标对象的预定显示大小。
12.根据权利要求9所述的设备,其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
将所述目标图像部分输入所述机器学习模型以用于提高所述目标图像部分的分辨率,其中所述机器学习模型用于提高图像的分辨率。
13.根据权利要求9所述的设备,其中所述目标图像部分是所述目标对象的部分图像;
其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
将所述目标图像部分输入所述机器学习模型以获得所述目标对象的完整图像,其中所述机器学习模型用于基于对象的部分图像来生成对象的完整图像。
14.根据权利要求9所述的设备,其中所述目标图像部分为二维图像;
其中利用机器学习模型来增强所述目标图像部分中的关于所述目标对象的信息包括:
所述目标图像部分输入所述机器学习模型以获得所述目标对象的三维图像,其中所述机器学习模型用于将二维图像转换为三维图像。
15.根据权利要求9所述的设备,所述动作还包括:
通过相机获取关于现实场景的原始图像;
获取所述现实场景中的特征点信息;以及
基于所述特征点信息向所述原始图像添加关于虚拟场景的信息,以得到关于所述增强现实场景的所述图像。
16.根据权利要求9所述的设备,其中所述机器学习模型为生成对抗网络模型。
17.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至8中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110126097.0A CN114820993A (zh) | 2021-01-29 | 2021-01-29 | 用于处理图像的方法、电子设备和计算机程序产品 |
US17/179,988 US11688143B2 (en) | 2021-01-29 | 2021-02-19 | Method, electronic device, and computer program product for processing an image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110126097.0A CN114820993A (zh) | 2021-01-29 | 2021-01-29 | 用于处理图像的方法、电子设备和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114820993A true CN114820993A (zh) | 2022-07-29 |
Family
ID=82525620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110126097.0A Pending CN114820993A (zh) | 2021-01-29 | 2021-01-29 | 用于处理图像的方法、电子设备和计算机程序产品 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11688143B2 (zh) |
CN (1) | CN114820993A (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012113460A (ja) * | 2010-11-24 | 2012-06-14 | Sony Corp | 情報処理装置および方法、並びにプログラム |
CN102905141A (zh) * | 2011-07-28 | 2013-01-30 | 联咏科技股份有限公司 | 二维转三维转换装置及其方法 |
GB201303707D0 (en) * | 2013-03-01 | 2013-04-17 | Tosas Bautista Martin | System and method of interaction for mobile devices |
US10460470B2 (en) * | 2017-07-06 | 2019-10-29 | Futurewei Technologies, Inc. | Recognition and reconstruction of objects with partial appearance |
US20210274092A1 (en) * | 2020-02-28 | 2021-09-02 | Weta Digital Limited | Reconstruction of obscured views in captured imagery using pixel replacement from secondary imagery |
US11250279B2 (en) * | 2020-03-31 | 2022-02-15 | Robert Bosch Gmbh | Generative adversarial network models for small roadway object detection |
-
2021
- 2021-01-29 CN CN202110126097.0A patent/CN114820993A/zh active Pending
- 2021-02-19 US US17/179,988 patent/US11688143B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11688143B2 (en) | 2023-06-27 |
US20220245899A1 (en) | 2022-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
CN109255767B (zh) | 图像处理方法和装置 | |
CN111739005B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
JP7273129B2 (ja) | 車線検出方法、装置、電子機器、記憶媒体及び車両 | |
CN112487979B (zh) | 目标检测方法和模型训练方法、装置、电子设备和介质 | |
CA2898668A1 (en) | Realization method and device for two-dimensional code augmented reality | |
CN111179159B (zh) | 消除视频中目标影像的方法、装置、电子设备及存储介质 | |
US11641446B2 (en) | Method for video frame interpolation, and electronic device | |
CN113220251B (zh) | 物体显示方法、装置、电子设备及存储介质 | |
WO2019214321A1 (zh) | 车辆损伤识别的处理方法、处理设备、客户端及服务器 | |
CN115115971A (zh) | 处理图像以定位新颖对象 | |
JP2023525462A (ja) | 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
CN111105440A (zh) | 视频中目标物体的跟踪方法、装置、设备及存储介质 | |
JP6811965B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN114863450B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114820993A (zh) | 用于处理图像的方法、电子设备和计算机程序产品 | |
Wei et al. | [Retracted] Adoption of Convolutional Neural Network Algorithm Combined with Augmented Reality in Building Data Visualization and Intelligent Detection | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN115761389A (zh) | 图像样本的增广方法、装置、电子设备及存储介质 | |
CN112785524B (zh) | 一种人物图像的修复方法、装置及电子设备 | |
CN113239943B (zh) | 基于部件语义图的三维部件提取组合方法和装置 | |
US11145129B2 (en) | Automatic generation of content for autonomic augmented reality applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |