CN114270870A - 沉浸式显示系统及其方法 - Google Patents

沉浸式显示系统及其方法 Download PDF

Info

Publication number
CN114270870A
CN114270870A CN201980099355.1A CN201980099355A CN114270870A CN 114270870 A CN114270870 A CN 114270870A CN 201980099355 A CN201980099355 A CN 201980099355A CN 114270870 A CN114270870 A CN 114270870A
Authority
CN
China
Prior art keywords
image
module
objects
audio
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980099355.1A
Other languages
English (en)
Inventor
S.潘瓦尔
M.阿加瓦尔
Y.库马尔
G.辛格
金镐善
尼亚兹.N
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN114270870A publication Critical patent/CN114270870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了沉浸式显示系统。沉浸式显示系统获得图像并基于图像确定外部媒体元素。沉浸式显示系统将外部媒体元素连同图像渲染以向用户提供沉浸式显示体验。

Description

沉浸式显示系统及其方法
技术领域
本公开涉及显示器。更具体地,本公开涉及沉浸式显示器。
背景技术
如息屏显示(always-on display)和氛围(ambient)或辅助模式的高级特征可用于诸如智能电话、平板电脑和智能电视机的大多数智能设备上。尽管由于用户持续使用智能电话的增加,智能电话的关机时间已减少,但诸如智能电视机的其他智能设备的关机时间显著增加。当用户没在主动观看电视机上的任何内容时,氛围模式特征在智能电视机中被广泛地使用。
目前,传统的智能电视机在氛围模式下显示各种图像。这些图像是由智能电视机随机选择的,并且以非特定的顺序显示。此外,这些图像可能不对应于任何特定类别。作为结果,显示的图像没有主题或相关性。这样的无关的图像无法捕获用户的注意力。即使用户以氛围模式观看一些这样的图像,用户也倾向于对图像没有兴趣。此外,用于特定位置处的智能电视机的有关图像可能不一定与另一个位置中的智能电视机有关。
作为结果,传统的智能电视机无法为用户提供有用、愉悦和有关的体验。
因此,有对为用户提供有关体验的改进的显示系统和改进的显示方法的需要。
以上信息仅作为背景信息呈现,以协助理解本公开。关于以上中的任何内容是否可能适用于作为关于本公开的现有技术,没有作出决定,并且没有作出断言。
发明内容
技术问题
本公开的各方面将至少解决上述问题和/或劣势并且将至少提供下述优势。因此,本公开的一方面将提供用于沉浸式显示系统的装置和方法以及沉浸式显示方法。
问题的解决方案
本概述既不旨在辨识本公开的必要特征,也不旨在用于确定或限制本公开的范围。
附加的方面将部分地在随后的描述中阐述,并且部分地将从描述中变得清晰,或者可以通过呈现的实施例的实践而获知。
根据本公开的一方面,提供了一种沉浸式显示方法。该沉浸式显示方法包括获得图像。场景分析模块辨识图像中的一个或多个对象。场景分析模块确定辨识的对象的一个或多个视觉特性。优先化模块基于对应的视觉特性向每个对象分配优先级值。音频确定模块基于对应的对象的优先级值从数据库中检索对应于对象的一个或多个音频文件。音频确定模块确定与检索的音频文件相关联的一个或多个音频特性。音频合成模块基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。在显示图像时经由扬声器播放动态合成音频数据。
根据本公开的另一个方面,提供了一种沉浸式显示系统。沉浸式显示系统包括场景分析模块、优先化模块、音频确定模块、音频合成模块和扬声器。场景分析模块被配置为获得图像并辨识图像中的一个或多个对象。场景分析模块还确定对象的一个或多个视觉特性。优先化模块被配置为基于对应的视觉特性向每个对象分配优先级值。音频确定模块被配置为基于对应的对象的优先级值从数据库中检索对应于对象的一个或多个音频文件。音频确定模块还确定与检索的音频文件相关联的一个或多个音频特性。音频合成模块被配置为基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。扬声器被配置为在显示图像时播放动态合成音频。
根据本公开的另一个方面,在图像中捕获并由场景分析模块辨识的对象是能够发出声音的对象。
根据本公开的另一个方面,提供了优先化模块。优先化模块包括对象分类模块和上下文学习模块。对象分类模块被配置为从场景分析模块接收对象的视觉特性,并且基于对应的视觉特性将辨识的对象分类为可听对象(例如,能够发出声音的对象)和不可听对象(例如,不能够发出声音的对象)。上下文学习模块被配置为基于对应的视觉特性计算每个可听对象的优先级值。
根据本公开的另一个方面,提供了沉浸式显示系统。沉浸式显示系统包括反馈模块。反馈模块被配置为从用户接收反馈。反馈模块还将接收的反馈提供给优先化模块。
根据本公开的另一个方面,上下文学习模块还被配置为接收反馈并基于对应的视觉特性和接收的反馈计算每个可听对象的更新的优先级值。
根据本公开的另一个方面,反馈是以下中的一个或多个:(i)用户的注意时间,(ii)用户的眼睛注视,(iii)动态合成音频的音量水平的改变,(iv)用户的一个或多个面部表情,以及(v)由用户提供的主动反馈。
根据本公开的另一个方面,音频确定模块还被配置为接收对象的优先级值和对应的视觉特性,并将优先级值与预定义的置信度分数进行比较。音频确定模块还从数据库中检索与具有大于预定义的置信度分数的优先级值的对象对应的音频文件。此后,音频确定模块将检索的音频文件的音频特性存储在数据库中。
根据本公开的另一个方面,沉浸式显示系统包括关联模块和生成模块。关联模块被配置为辨识具有辨识的对象的图像内的一个或多个感兴趣区域。关联模块还基于辨识的对象的视觉特性从辨识的对象当中辨识一个或多个关键对象。此后,关联模块从数据库中检索对应于关键对象的一个或多个外部动态对象。生成模块被配置为生成或定义用于外部动态对象的一个或多个飞行路径,并渲染结果图像,使得外部动态对象表现出沿着图像的对应的感兴趣区域内的对应的飞行路径移动。
根据本公开的另一个方面,由关联模块辨识的关键对象是能够在外部环境中的路径中移动的对象。
根据本公开的另一个方面,场景分析模块还被配置为基于辨识的对象确定场景。这里,场景对应于图像中捕获的信息。
根据本公开的另一个方面,对象包括图像中描绘的以下中的一个或多个:(i)一个或多个物理对象,(ii)一个或多个人物的一个或多个面部表情,(iii)一个或多个地理地标,以及(iv)一个或多个预定义人物。
根据本公开的另一个方面,对象的视觉特性包括以下中的一个或多个:(i)由对象在图像上占用的面积,(ii)亮度,(iii)色度,(iv)对象的外观,(v)对象的深度,以及(vi)图像的透视图(perspective)。
根据本公开的另一个方面,音频特性包括以下中的一个或多个:(i)增益、(ii)振幅、(iii)采样频率、(iv)比例因子、(v)声音音程、(vi)流派,以及(vii)音高。
根据本公开的另一个方面,沉浸式显示系统包括传感器模块和氛围分析模块。传感器模块被配置为提供由一个或多个传感器生成的一个或多个输入。氛围分析模块被配置为基于来自传感器模块的输入来确定氛围信息。
根据本公开的另一个方面,优先化模块基于对应的视觉特性和氛围信息向每个对象分配优先级值。
根据本公开的另一个方面,音频合成模块基于音频文件的音频特性、对象的优先级值和氛围信息生成动态合成音频。
根据本公开的另一个方面,氛围信息包括与以下中的一个或多个相关联的信息:(i)一个或多个氛围灯,(ii)显示器附近的一个或多个人物,(iii)显示器附近的一个或多个对象,(iii)天气,(iv)一个或多个事件,(v)用户的一个或多个动作,(vi)时间,(vii)一天中的时间,(viii)位置,(ix)预定时间表,以及(x)与周围环境相关联的上下文信息。
根据本公开的另一个方面,提供了一种沉浸式显示方法。该沉浸式显示方法包括获得图像。场景分析模块辨识图像中的一个或多个对象。对象确定模块确定辨识的对象的一个或多个视觉特性和一个或多个音频特性。优先化模块基于对应的视觉特性和音频特性向每个对象分配优先级值。媒体分析模块基于辨识的对象的视觉特性、音频特性和优先级值来检索对应于辨识的对象的一个或多个外部媒体元素。显示处理模块同时将外部媒体元素连同图像一起渲染。
根据本公开的另一个方面,提供了一种沉浸式显示系统。沉浸式显示系统包括场景分析模块、对象分析模块、优先化模块、媒体分析模块、以及显示处理模块。场景分析模块被配置为辨识图像中的一个或多个对象。对象分析模块被配置为确定辨识的对象的一个或多个视觉特性和一个或多个音频特性。优先化模块被配置为基于对应的视觉特性和音频特性向每个对象分配优先级值。媒体分析模块被配置为基于辨识的对象的视觉特性、音频特性和优先级值从本地数据库检索对应于辨识的对象的一个或多个外部媒体元素。显示处理模块还被配置为同时将外部媒体元素连同图像一起渲染。
根据本公开的另一个方面,外部媒体元素是以下中的至少一个:(i)动态合成音频文件,以及(ii)外部动态对象。
根据本公开的另一个方面,提供了沉浸式显示系统。沉浸式显示系统包括扬声器,该扬声器被配置为在显示图像时播放动态合成音频文件。
根据本公开的另一个方面,沉浸式显示系统包括音频确定模块和音频合成模块。音频确定模块被配置为基于对象的优先级值从数据库检索对应于对象的一个或多个音频文件。音频确定模块还确定用于检索的音频文件的一个或多个音频特性。音频合成模块被配置为基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。
根据本公开的另一个方面,由场景分析模块辨识的对象是能够发出声音的对象。
根据本公开的另一个方面,沉浸式显示系统包括生成模块。生成模块被配置为在图像上渲染外部动态对象。
根据本公开的另一个方面,沉浸式显示系统包括关联模块。关联模块被配置为辨识图像内的一个或多个感兴趣区域。这里,感兴趣区域中具有辨识的对象。关联模块还被配置为基于辨识的对象的视觉特性从辨识的对象当中辨识一个或多个关键对象。此后,关联模块基于关键对象从数据库中检索外部动态对象。这里,外部动态对象与对应的关键对象相关。此后,关联模块生成或定义用于外部动态对象的一个或多个飞行路径。
根据本公开的另一个方面,生成模块还被配置为渲染结果图像,使得外部动态对象表现出在对应的感兴趣区域内沿着图像上对应的飞行路径移动。
根据本公开的另一个方面,由关联模块辨识的关键对象是能够在外部环境中的路径中移动的对象。
根据本公开的另一个方面,对象包括图像中描绘的以下中的一个或多个:(i)一个或多个物理对象,(ii)一个或多个人物的一个或多个面部表情,(iii)一个或多个地理地标,以及(iv)一个或多个预定义人物。
根据本公开的另一个方面,对象的视觉特性包括以下中的一个或多个:(i)由对象在图像上占用的面积,(ii)亮度,(iii)色度,(iv)对象的外观,(v)对象的深度,以及(vi)图像的透视图。
根据本公开的另一个方面,音频特性包括以下中的一个或多个:(i)增益、(ii)振幅、(iii)采样频率、(iv)比例因子、(v)声音音程、(vi)流派,以及(vii)音高。
根据本公开的另一个方面,沉浸式显示系统包括氛围分析模块。氛围分析模块被配置为基于接收的传感器输入来从传感器模块接收一个或多个传感器输入并且确定氛围信息。
根据本公开的另一个方面,优先化模块基于对应的视觉特性和氛围信息向每个对象分配优先级值。
根据本公开的另一个方面,音频合成模块基于音频文件的音频特性、对象的优先级值和氛围信息生成动态合成音频。
根据本公开的另一个方面,氛围信息包括以下中的一个或多个的信息:(i)一个或多个氛围灯,(ii)显示器附近的一个或多个人物,(iii)显示器附近的一个或多个对象,以及(iii)天气,(iv)一个或多个事件,(v)用户的一个或多个动作,(vi)时间,(vii)一天中的时间,(viii)位置,(ix)预定时间表,以及(x)与周围环境相关联的上下文信息。
根据本公开的另一个方面,当本地数据库不包含外部媒体元素时,媒体分析模块从外部服务器检索对应于辨识的对象的外部媒体元素。
根据本公开的另一个方面,媒体分析模块将从外部服务器检索的外部媒体元素存储到本地数据库中。
本公开的其他方面、优势和显著特征将从结合附图公开了本公开的各种实施例的以下详细描述中对本领域技术人员变得清晰。
附图说明
本公开的某些实施例的上述和其他方面、特征和优势将从结合附图的以下描述而更加清晰,其中:
图1示出了根据本公开的实施例的沉浸式显示系统的示意框图;
图2示出了根据本公开的实施例的场景分析模块的示意框图;
图3示出了根据本公开的实施例的优先化模块的示意框图;
图4示出了根据本公开的实施例的音频确定模块的示意框图;
图5示出了根据本公开的实施例的音频合成模块和数据库的示意框图;
图6示出了根据本公开的实施例的传感器模块的示意框图;
图7示出了根据本公开的实施例的关联模块的示意框图;
图8示出了根据本公开的实施例的生成模块和显示模块的示意框图;
图9A、9B、9C、9D和9E示出了根据本公开的各种实施例的沉浸式显示方法的示意表示;
图10A和10B示出了根据本公开的实施例的沉浸式显示方法的示意表示;
图11A和11B示出了根据本公开的实施例的沉浸式显示方法的示意表示;
图12示出了根据本公开的实施例的氛围分析的示意表示;
图13示出了根据本公开的实施例的场景分析的示意表示;
图14示出了根据本公开的实施例的场景分析的示意表示;
图15示出了根据本公开的实施例的动态对象确定的示意表示;
图16示出了根据本公开的实施例的感兴趣区域确定的示意表示;
图17示出了根据本公开的实施例的动态对象生成的示意表示;
图18示出了根据本公开的实施例的飞行路径生成的示意表示;
图19示出了根据本公开的实施例的动态对象渲染的示意表示;
图20示出了根据本公开的实施例的沉浸式显示系统的示意框图;
图21是示出了根据本公开的实施例的沉浸式显示方法的流程图;
图22是示出了根据本公开的实施例的沉浸式显示方法的流程图;
图23是示出了根据本公开的实施例的生成动态合成音频的方法的流程图;
图24是根据本公开的实施例的基于场景分析的音频关联的图示表示;
图25是根据本公开的实施例的基于场景分析的音频关联的图示表示;
图26是根据本公开的实施例的基于氛围分析的音频关联的图示表示;
图27是根据本公开的实施例的基于氛围分析的音频关联的图示表示;
图28是根据本公开的实施例的各种音频关联的图示表示;
图29是根据本公开的实施例的基于面部表情的音频关联的图示表示;
图30是根据本公开的实施例的基于图像分析的音频关联的图示表示;
图31是根据本公开的实施例的基于氛围分析的动态对象关联的图示表示;
图32是根据本公开的实施例的基于相机输入的动态对象关联的图示表示;
图33是根据本公开的实施例的在感兴趣区域中渲染动态对象的方法的图示表示;
图34是根据本公开的实施例的基于接近度输入的动态对象关联的图示表示;
图35是根据本公开的实施例的基于传感器输入的动态对象关联的图示表示;
图36是根据本公开的实施例的渲染动态对象的方法的图示表示;以及
图37是根据本公开的实施例的图像转换的方法的图示表示。
贯穿附图,相同附图标记将被理解为指代相同的部件、组件和结构。
具体实施方式
提供参考附图的以下描述以协助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以协助理解,但这些将仅被视为示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各种实施例做出各种改变和修改。此外,为了清楚和简洁,可以省略对众所周知的功能和构造的描述。
在以下描述和权利要求中使用的术语和词语不限于书目意义,而仅由发明人使用以使得能够清楚且一致地理解本公开。因此,本领域技术人员应当清晰,提供本公开的各种实施例的以下描述仅用于说明目的,而不用于限制由所附权利要求及其等同物限定的本公开的目的。
将理解单数形式“一”、“一个”和“所述”包括复数所指事物,除非上下文另有明确规定。因此,例如,对“组件表面”的引用包括对一个或多个这样的表面的引用。
此外,附图内的组件和/或模块之间的连接不旨在限制于直接连接。反而,这些组件和模块可以由中间组件和模块修改、重新格式化或以其他方式改变。
本公开中对“一个实施例”或“一实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包括在本公开的至少一个实施例中。说明书中各个地方出现的短语“在一个实施例中”不一定全都指代同一实施例。
本公开的各种实施例提供了一种沉浸式显示方法和沉浸式显示系统。
在本公开的实施例中,提供了一种沉浸式显示方法。沉浸式显示方法包括获得图像。场景分析模块辨识图像中的一个或多个对象。场景分析模块确定辨识的对象的一个或多个视觉特性。优先化模块基于对应的视觉特性向每个对象分配优先级值。音频确定模块基于对应的对象的优先级值从数据库中检索对应于对象的一个或多个音频文件。音频确定模块确定与检索的音频文件相关联的一个或多个音频特性。音频合成模块基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。在显示图像时经由扬声器播放动态合成音频数据。
在本公开的另一个实施例中,提供了一种沉浸式显示系统。沉浸式显示系统包括场景分析模块、优先化模块、音频确定模块、音频合成模块和扬声器。场景分析模块被配置为获得图像并辨识图像中的一个或多个对象。场景分析模块还确定对象的一个或多个视觉特性。优先化模块被配置为基于对应的视觉特性向每个对象分配优先级值。音频确定模块被配置为基于对应的对象的优先级值从数据库中检索对应于对象的一个或多个音频文件。音频确定模块还确定与检索的音频文件相关联的一个或多个音频特性。音频合成模块被配置为基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。扬声器被配置为在显示图像时播放动态合成音频。
在图像中捕获并由场景分析模块辨识的对象是能够发出声音的对象。
优先化模块包括对象分类模块和上下文学习模块。对象分类模块被配置为从场景分析模块接收对象的视觉特性,并且基于对应的视觉特性将辨识的对象分类为可听对象(例如,能够发出声音的对象)和不可听对象(例如,不能够发出声音的对象)。上下文学习模块被配置为基于对应的视觉特性计算每个可听对象的优先级值。
沉浸式显示系统还包括反馈模块。反馈模块被配置为从用户接收反馈。反馈模块还将接收的反馈提供给优先化模块。
上下文学习模块还被配置为接收反馈并基于对应的视觉特性和接收的反馈计算每个可听对象的更新的优先级值。
反馈是以下中的一个或多个:(i)用户的注意时间,(ii)用户的眼睛注视,(iii)动态合成音频的音量水平的改变,(iv)用户的一个或多个面部表情,以及(v)由用户提供的主动反馈。
音频确定模块还被配置为接收对象的优先级值和对应的视觉特性,并将优先级值与预定义的置信度分数进行比较。音频确定模块还从数据库中检索与具有大于预定义的置信度分数的优先级值的对象对应的音频文件。此后,音频确定模块将检索的音频文件的音频特性存储在数据库中。
沉浸式显示系统还包括关联模块和生成模块。关联模块被配置为辨识具有辨识的对象的图像内的一个或多个感兴趣区域。关联模块还基于来自辨识的对象当中的视觉特性辨识出辨识的对象中的一个或多个关键对象。此后,关联模块从数据库中检索对应于关键对象的一个或多个外部动态对象。生成模块被配置为生成或定义用于外部动态对象的一个或多个飞行路径,并渲染结果图像,使得外部动态对象表现出在对应的感兴趣区域内沿着图像上对应的飞行路径移动。
由关联模块辨识的关键对象是能够在外部环境中的路径中移动的对象。
场景分析模块还被配置为基于辨识的对象确定场景。这里,场景对应于图像中捕获的信息。
对象包括图像中描绘的以下中的一个或多个:(i)一个或多个物理对象,(ii)一个或多个人物的一个或多个面部表情,(iii)一个或多个地理地标,以及(iv)一个或多个预定义人物。
对象的视觉特性包括以下中的一个或多个:(i)由对象在图像上占用的面积,(ii)亮度,(iii)色度,(iv)对象的外观,(v)对象的深度,以及(vi)图像的透视图。
音频特性包以下中的一个或多个:(i)增益、(ii)振幅、(iii)采样频率、(iv)比例因子、(v)声音音程、(vi)流派,以及(vii)音高。
沉浸式显示系统还包括传感器模块和氛围分析模块。传感器模块被配置为提供由一个或多个传感器生成的一个或多个输入。氛围分析模块被配置为基于来自传感器模块的输入来确定氛围信息。
优先化模块基于对应的视觉特性和氛围信息向每个对象分配优先级值。
音频合成模块基于音频文件的音频特性、对象的优先级值和氛围信息生成动态合成音频。
氛围信息包括与以下中的一个或多个相关联的信息:(i)一个或多个氛围灯,(ii)显示器附近的一个或多个人物,(iii)显示器附近的一个或多个对象,以及(iii)天气,(iv)一个或多个事件,(v)用户的一个或多个动作,(vi)时间,(vii)一天中的时间,(viii)位置,(ix)预定时间表,以及(x)与周围环境相关联的上下文信息。
在本公开的实施例中,提供了一种沉浸式显示方法。沉浸式显示方法包括检索图像。场景分析模块辨识图像中的一个或多个对象。对象确定模块确定辨识的对象的一个或多个视觉特性和一个或多个音频特性。优先化模块基于对应的视觉特性和音频特性向每个对象分配优先级值。媒体分析模块基于辨识的对象的视觉特性、音频特性和优先级值来检索对应于辨识的对象的一个或多个外部媒体元素。显示处理模块同时将外部媒体元素连同图像一起渲染。
在本公开的另一个实施例中,提供了一种沉浸式显示系统。沉浸式显示系统包括场景分析模块、对象分析模块、优先化模块、媒体分析模块、以及显示处理模块。场景分析模块被配置为辨识图像中的一个或多个对象。对象分析模块被配置为确定辨识的对象的一个或多个视觉特性和一个或多个音频特性。优先化模块被配置为基于对应的视觉特性和音频特性向每个对象分配优先级值。媒体分析模块被配置为基于辨识的对象的视觉特性、音频特性和优先级值来检索对应于辨识的对象的一个或多个外部媒体元素。显示处理模块还被配置为同时将外部媒体元素连同图像一起渲染。
外部媒体元素是以下中的至少一个:(i)动态合成音频文件,以及(ii)外部动态对象。
沉浸式显示系统还包括扬声器,该扬声器被配置为在显示图像时播放动态合成音频文件。
沉浸式显示系统还包括音频确定模块和音频合成模块。音频确定模块被配置为基于对象的优先级值从数据库检索对应于对象的一个或多个音频文件。音频确定模块还确定用于检索的音频文件的一个或多个音频特性。音频合成模块被配置为基于音频文件的音频特性和对象的优先级值处理音频文件以生成动态合成音频数据。
由场景分析模块辨识的对象是能够发出声音的对象。
沉浸式显示系统还包括生成模块。生成模块被配置为在图像上渲染外部动态对象。
沉浸式显示系统还包括关联模块。关联模块被配置为辨识图像内的一个或多个感兴趣区域。这里,感兴趣区域中具有辨识的对象。关联模块还被配置为基于辨识的对象的视觉特性从辨识的对象当中辨识一个或多个关键对象。此后,关联模块基于关键对象从数据库中检索外部动态对象。这里,外部动态对象与对应的关键对象相关。此后,关联模块生成用于外部动态对象的一个或多个飞行路径。
生成模块还被配置为渲染结果图像,使得外部动态对象表现出在对应的感兴趣区域内沿着图像上对应的飞行路径移动。
由关联模块辨识的关键对象是能够在外部环境中的路径中移动的对象。
对象包括图像中描绘的以下中的一个或多个:(i)一个或多个物理对象,(ii)一个或多个人物的一个或多个面部表情,(iii)一个或多个地理地标,以及(iv)一个或多个预定义人物。
对象的视觉特性包括以下中的一个或多个:(i)由对象在图像上占用的面积,(ii)亮度,(iii)色度,(iv)对象的外观,(v)对象的深度,以及(vi)图像的透视图。
音频特性包括以下中的一个或多个:(i)增益、(ii)振幅、(iii)采样频率、(iv)比例因子、(v)声音音程、(vi)流派,以及(vii)音高。
沉浸式显示系统还包括氛围分析模块。氛围分析模块被配置为基于接收的传感器输入来从传感器模块接收一个或多个传感器输入并且确定氛围信息。
优先化模块基于对应的视觉特性和氛围信息向每个对象分配优先级值。
音频合成模块基于音频文件的音频特性、对象的优先级值和氛围信息生成动态合成音频。
氛围信息包括以下中的一个或多个的信息:(i)一个或多个氛围灯,(ii)显示器附近的一个或多个人物,(iii)显示器附近的一个或多个对象,(iii)天气,(iv)一个或多个事件,(v)用户的一个或多个动作,(vi)时间,(vii)一天中的时间,(viii)位置,(ix)预定时间表,以及(x)与周围环境相关联的上下文信息。
在又一个实施例中,当本地数据库不包含外部媒体元素时,媒体分析模块从外部服务器检索对应于辨识的对象的外部媒体元素。
在又一个实施例中,媒体分析模块将从外部服务器检索的外部媒体元素存储到本地数据库中。
根据本公开的实施例示出了沉浸式显示系统(100)的示意框图图1。
参照图1,沉浸式显示系统(100)包括场景分析模块(102)、优先化模块(104)、音频确定模块(106)、音频合成模块(108)、反馈模块(110)、传感器模块(112)、氛围分析模块(114)、关联模块(116)、生成模块(118)、扬声器(120)、显示器(122)和微控制器(124)。
沉浸式显示系统(100)可以安装在电子设备中,诸如但不限于智能电话、平板电脑、智能电视机等。沉浸式显示系统(100)可以以独立的方式实现在设备上。可替代地,沉浸式显示系统(100)可以在服务器或网络服务器上实现并且作为基于网络的服务提供给电子设备。
在示例中,当电子设备处于氛围模式时,即,当用户没在主动使用电子设备或者未选择要在电子设备处显示的内容时,实现本公开。
显示器(122)显示图像。显示器(122)的示例包括但不限于电视机屏幕、智能电话屏幕、智能电视机屏幕和平板电脑屏幕。显示器(122)可以是发光二极管(LED)、液晶显示器(LCD)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AMOLED)或超级有源矩阵有机发光二极管(SAMOLED)屏幕。显示器(122)可以具有各种分辨率。本领域普通技术人员将理解,本公开不限于显示器(122)的任何类型或任何分辨率。
微控制器(124)被配置为实施本公开的沉浸式显示方法。微控制器(124)包括至少一个处理器和存储器(两者在图1中未示出)。处理器被配置为执行存储在存储器中的多个机器可读指令。
扬声器(120)被配置为播放音乐和/或音频文件。扬声器(120)的音量和模式可以是可由用户按照用户的要求来控制或编程。
根据本公开的实施例示出了场景分析模块(102)的示意框图图2。
参照图2,场景分析模块(102)包括对象检测模块(202)、场景检测模块(204)、视觉处理模块(206)、地标检测模块(208)和眼睛注视检测模块(210)。
在示例中,场景分析模块(102)可以获得在显示器(122)上显示的图像。在一个实施例中,当用户正在主动使用电子设备或正在电子设备处显示选择的内容时,场景分析模块(102)可以获得在显示器(122)上显示的图像。在另一个示例中,场景分析模块(102)可以从外部图像源(图1中未示出)获得图像。场景分析模块(102)辨识图像中的一个或多个对象。对象的示例包括但不限于物理对象、用户的面部表情、地理地标和一个或多个预定义的人物。
在示例中,场景分析模块(102)可以使用人工智能(AI)技术以用于对象检测和场景确定。例如,场景分析模块(102)可以使用人物、地标、面部表情和/或一个或多个模式识别技术,诸如你只看一次(YOLO)、单次多框检测器(SSD)、卷积神经网络(CNN)、基于区域的CNN(RCNN)、长短期记忆(LSTM)等。这些AI技术可以容易地在上述诸如智能电话或智能电视机的电子设备上实现。在示例中,这些AI技术由沉浸式显示系统(100)使用神经处理单元(NPU)实现。
场景分析模块(102)可以针对检测的对象提取各种参数,诸如但不限于大小、定位、深度等。场景分析模块(102)还可以提取关于检测的对象的上下文信息。在示例中,当图形交换格式(GIF)文件显示在显示器(122)上时,场景分析模块(102)处理GIF文件的每一帧。
对象检测模块(202)检测图像中的对象。在示例中,对象检测模块(202)使用图像处理和图像识别技术来检测图像中的对象。在示例中,对象检测模块(202)使用机器学习和人工智能技术来检测图像中的对象。在另一个示例中,对象检测模块(202)被训练为在沉浸式显示系统(100)的初始化期间使用机器学习技术检测对象。
场景检测模块(204)检测与图像相关联的场景或环境。例如,场景检测模块(204)确定图像是关于室内场景还是室外场景。在示例中,场景检测模块(204)使用图像处理和图像识别技术来检测场景。
视觉处理模块(206)确定辨识的对象的一个或多个视觉特性。视觉特性的示例包括但不限于由图像中被辨识的对象占用的面积、亮度、色度、辨识的对象的外观、对象的深度或图像的透视图。
地标检测模块(208)检测图像中一个或多个著名或众所周知的纪念碑或地标的存在。在示例中,地标检测模块(208)使用图像处理和图像识别技术来检测图像中的纪念碑或地标。
眼睛注视检测模块(210)检测用户的眼睛注视。例如,眼睛注视检测模块(210)检测用户是否正在看显示器(122)。眼睛注视检测模块(210)还可以检测用户正在看的方向或对象。在示例中,眼睛注视检测模块(210)使用由相机捕获的信息来确定用户的眼睛注视。
根据本公开的实施例示出了优先化模块(104)的示意框图图3。
参照图3,优先化模块(104)包括对象分类模块(302)、上下文学习模块(304)和氛围优先化模块(306)。
优先化模块(104)从场景分析模块(102)接收关于辨识的对象和辨识的对象的视觉特性的信息。优先化模块(104)基于对象的对应的视觉特性为每个辨识的对象分配优先级值。
对象分类模块(302)从场景分析模块(102)接收关于辨识的对象和对应于辨识的对象的视觉特性的信息。对象分类模块(302)基于对应的视觉特性将辨识的对象分类为可听对象和不可听对象。这里,可听对象是图像中辨识的、能够发出声音的对象,而不可听对象是图像中辨识的、不能够发出声音的对象。对象分类模块(302)向上下文学习模块(304)提供关于可听对象和可听对象的对应的视觉特性的信息。
上下文学习模块(304)基于对应的视觉特性将优先级值分配给可听对象。在示例中,与不太可能对结果音频文件有影响的可听对象相比,可能被感知为主导为图像生成的音频文件的可听对象被分配更高的优先级。在另一个示例中,与图像中较远地出现的可听对象相比,图像中较近地出现的可听对象被分配更高的优先级。在又一示例中,与具有较低声音强度的可听对象(即,较安静的对象)相比,具有较大声音强度的可听对象(即,较大声的对象)被分配更高的优先级。在示例中,根据百分比值分配可听对象的优先级值。在另一个示例中,根据相对数值分配可听对象的优先级值。在又一个示例中,根据绝对数值分配可听对象的优先级值。
氛围优先化模块(306)基于氛围信息向可听对象分配优先级值。在示例中,和与氛围信息无关的可听对象相比,与氛围信息有关的可听对象被分配更高的优先级值。例如,当氛围信息指示降雪时,诸如雪花的有关对象可以被分配更高的优先级值。氛围优先化模块(306)还可以基于辨识的场景向可听对象分配优先级值。在示例中,和与辨识的场景无关的可听对象相比,与辨识的场景有关的可听对象被分配更高的优先级值。例如,当辨识的场景指示室内庆祝事件时,诸如花彩或横幅的有关对象可能被分配更高的优先级值。
根据本公开的实施例示出了音频确定模块(106)的示意框图图4。
参照图4,音频确定模块(106)包括音频属性分析模块(402)和音频选择模块(404)。
根据本公开的实施例示出了音频合成模块和数据库的示意框图图5。
参照图5,音频合成模块(108)与数据库(504)通信。虽然没有在图5中示出,但音频确定模块106也可以与数据库(504)通信。音频合成模块(108)包括音频生成单元(502)。数据库(504)包括关联数据(506)、音频数据(508)、上下文数据(510)、视觉模型参数数据(512)以及训练和测试数据(514)。
音频数据(508)是音频文件的储存库。
关联数据(506)包括关于音频文件的信息和与可能的可听对象相关联的信息,所述可能的可听对象与音频文件相关联。
上下文数据(510)包括关于存储的音频文件的上下文的信息。
视觉模型参数数据(512)包括关于与音频文件相关联的可能的视觉特性的信息。
训练和测试数据(514)包括训练算法和测试算法。
音频确定模块(106)接收关于可听对象的信息和对应的优先级值。音频确定模块(106)将可听对象的优先级值与预定义的置信度分数进行比较。如果可听对象的优先级值大于预定义的置信度分数,则音频确定模块(106)从数据库(504)中检索对应于可听对象的音频文件。如果可听对象的优先级值不大于预定义的置信度分数,则音频确定模块(106)丢弃可听对象并检查下一个可听对象。音频选择模块(404)检索对应于优先级值大于或等于置信度分数的可听对象的音频文件。属性分析模块(402)确定检索的音频文件的一个或多个音频特性。音频特性的示例包括但不限于增益、振幅、采样频率、比例因子、声音音程、流派以及音高。音频确定模块(106)将检索的音频文件的音频特性存储在数据库(504)中。
在示例中,音频确定模块(106)还向检索的音频文件分配音频权重。在示例中,音频权重确定音频文件被混合以形成动态合成音频数据的比例。在示例中,音频确定模块(106)使用诸如短时傅立叶变换(STFT)的AI技术来辨识与存储在数据库(504)中的音频文件相关联的流派并从音频文件中提取元数据。
音频确定模块(106)向音频合成模块(108)提供音频文件和音频权重。音频合成模块(108)混合音频文件以生成动态合成音频数据。音频生成单元(502)基于音频文件的音频特性和对应的可听对象的优先级值,从音频文件生成动态合成音频数据。音频生成单元(502)向扬声器(120)提供生成的动态合成音频。
音频合成模块(108)使用音频混合器将多个音频文件组合成单个组合音频文件。音频合成模块(108)可以调整诸如增益、比例因子、采样频率、衰减等的音频参数以使组合的音频听起来舒缓或愉悦。在示例中,音频合成模块(108)使用Wavenet或生成对抗网络(GAN)技术来产生动态合成音频数据。在另一个示例中,使用机器学习算法训练音频合成模块(108)以基于输入音频和音频参数生成原始音乐。在示例性实施例中,动态合成音频数据包括由音频合成模块(108)生成的原始音乐。
扬声器(120)被配置为在图像显示在显示器(122)上时播放动态合成音频数据,从而为电子设备的用户提供沉浸式体验。
有利地,生成动态合成音频数据所需的时间小于图像转换时间。这为用户提供了无缝且不间断的沉浸式体验。由于生成动态合成音频数据所需的时间小于图像转换时间,因此在连同对应的动态合成音频文件一起地显示两个连续图像之间没有延迟或滞后。因此,用户可以瞬间感知图像和同时播放的动态合成音频。
图6示出了根据本公开的实施例的传感器模块的示意框图。
参照图6,传感器模块(112)包括照度传感器(602)、相机(604)、温度传感器(606)、麦克风(608)、接近度传感器(610)和运动检测器(612)。
照度传感器(602)检测电子设备周围的照度水平或量。例如,照度传感器(602)检测智能电视机所位于的房间照明昏暗还是照明良好。或者例如,照度传感器(602)确定房间是由自然光还是由人造光照明。
相机(604)捕获电子设备周围的视频或图像。在示例中,相机馈送或相机输入可以用于确定房间是否被占用。相机(604)也可以用于捕获面部表情或眼睛注视。相机馈送也可以用于确定房间中的场景。相机馈送还可以用于确定可见的天气状况,诸如降雨、降雪、沙尘暴等。由氛围分析模块(114)确定的氛围信息中包括从相机馈送获得的所有上述信息。
温度传感器(606)可以用于检测电子设备附近的温度。
麦克风(608)可以用于捕获用户在电子设备附近所说的单词或句子。由麦克风(608)捕获的音频可以用于辨识用户的情绪。麦克风(608)还可以捕获在电子设备附近播放的歌曲。
接近度传感器(610)可以用于确定用户在电子设备附近存在。
运动检测器(612)可以用于检测房间内的占用,即房间是否被占用,以及还有占用房间的一定数量的人物。
来自照度传感器(602)、相机(604)、温度传感器(606)、麦克风(608)、接近度传感器(610)和运动检测器(612)的馈送被提供给氛围分析模块(114)作为传感器输入。
氛围分析模块(114)基于传感器输入生成氛围信息。氛围信息的示例包括但不限于氛围照明、电子设备附近的人物、显示器附近的对象以及天气、事件、用户的动作、时间、一天中的时间、位置、预定时间表和与电子设备周围相关联的上下文信息。
在示例中,氛围分析模块(114)生成指示房间内光强度的氛围信息。例如,房间内的明亮的灯可能与愉快的情绪相关联,而昏暗的灯可能与阴郁的情绪相关联。在另一个实例中,氛围分析模块(114)还可以检测节日、一天中的时间、天气等。
沉浸式显示系统(100)基于氛围信息提供动态合成音频数据。例如,优先化模块(104)基于对应的视觉特性和氛围信息为每个可听对象分配优先级值。音频合成模块(108)基于音频文件的音频特性、可听对象的优先级值和氛围信息生成动态合成音频数据。
例如,优先化模块(104)可以基于视觉特性(诸如大小、定位、焦点、相对深度等)和氛围信息(诸如光强度、事件、天气等)分配优先级值。在示例中,优先化模块(104)使用上下文AI技术向对象分配优先级值。优先化模块(104)可以确定与可听对象相关联的音频的类型,例如,连续音频可以与海浪相关联,而间歇或周期性音频可以与在图像中检测到的鸟相关联。上下文AI可以基于图像的前景和背景、图像的上下文、用户的历史等来确定对象的音频权重。
反馈模块(110)接收来自用户的反馈并向优先化模块(104)提供反馈。上下文学习模块(304)从反馈模块(110)接收反馈,基于对应的视觉特性和接收的反馈计算每个可听对象的更新优先级值。反馈的示例包括但不限于用户的注意时间、用户的眼睛注视、动态合成音频的音量水平的改变、用户的一个或多个面部表情、以及由用户提供的主动反馈。此外,在示例中,当动态合成音频连同图像一起播放时,上下文AI也可以分析用户的兴趣。
根据本公开的实施例示出了关联模块(116)的示意框图图7。
参照图7,关联模块(116)包括动态对象确定模块(702)和感兴趣区域确定模块(704)。
感兴趣区域确定模块(704)辨识一个或多个感兴趣区域。感兴趣区域是图像中具有辨识的对象的一个或多个部分。关联模块(116)在辨识的对象中确定一个或多个关键对象。关键对象是能够在外部环境中的路径中移动的对象。动态对象确定模块(702)从外部数据库(未示出)检索对应于关键对象的一个或多个外部动态对象。关联模块(116)向生成模块(118)提供关于外部动态对象的信息。
图8示出了根据本公开的实施例的生成模块和显示模块的示意性框图。
参照图8,生成模块(118)与显示模块(802)通信。生成模块(118)包括动态对象生成模块(804)、飞行路径生成模块(806)和动态对象渲染模块(808)。显示模块(802)控制显示器(122)。
动态对象生成模块(804)生成一个或多个动态对象。飞行路径生成模块(806)为外部动态对象生成一个或多个飞行路径,使得外部动态对象表现出沿着对应的飞行路径移动。飞行路径是图像中感兴趣区域内的、外部动态对象沿着其渲染的一个或多个踪迹或轨迹。
动态对象渲染模块(808)在图像上的对应的感兴趣区域内的对应的飞行路径上渲染外部动态对象。
在示例中,生成模块(118)还确定外部动态对象的动画类型。动画的示例包括但不限于淡入、淡出等。例如,动态对象渲染模块(808)按照确定的动画风格渲染动态对象。
显示模块(802)混合图像和外部动态对象以显示其中具有动画的外部动态对象和图像的沉浸式图像。沉浸式图像显示在显示器(122)上。
图9A至图9E示出了根据本公开各种实施例的沉浸式显示方法的示意表示。
参照图9A,场景分析模块(102)接收多个图像帧。场景分析模块(102)辨识图像内诸如海浪、人物、鸟、山和岩石的对象。
参照图9B,场景分析模块(102)向优先化模块(104)提供辨识的对象。优先化模块(104)基于辨识的对象是否能够生成声音将对象分类为可听对象和不可听对象。例如,优先化模块(104)将海浪、鸟和人物分类为可听对象,将山和岩石分类为不可听对象。
优先化模块(104)分别向海浪、鸟和人物分配优先级值PV1、PV2和PV3。对象的对应的音频权重分别为AV1、AV2、AV3。
参照图9C,在优先化模块(104)向音频确定模块(106)提供可听对象和对应的优先级值之后,音频确定模块(106)将对象的优先级值与阈值置信度分数进行比较。例如,海浪和鸟具有大于或等于阈值置信度分数的对应的优先级值(PV1和PV2),并且人物具有小于阈值置信度分数的优先级值(PV3)。因此,音频确定模块(106)检索分别对应于海浪和鸟的第一和第二音频文件。
参照图9D,在音频确定模块(106)向音频合成模块(108)提供第一和第二音频文件以及对应的音频权重之后,音频合成模块(106)基于对应的音频权重和对象的优先级值混合第一和第二音频文件以生成动态合成音频文件。
参照图9E,音频合成模块(108)向扬声器(120)提供动态合成音频文件。扬声器(120)播放动态合成音频文件并且显示器(122)显示图像,使得同时呈现动态合成音频文件和图像,从而向用户提供沉浸式和愉悦的体验。
图10A和10B示出了根据本公开的实施例的沉浸式显示方法的示意表示。
参照图10A,在1处,场景分析模块(102)辨识图像内的对象。例如,可以使用机器学习(ML)或分布式深度学习(DL)技术(诸如,R-CNN、YOLO、面部表情识别(recognition)模型等)执行对象辨识(identification)。
在2处,优先化模块(104)将对象分类为可听和不可听对象。优先化模块(104)向可听对象分配优先级值。例如,可以使用基于上下文AI模型的算法或使用基于规则的算法来执行对象的分类。
在3处,音频确定模块(106)检索具有大于或等于阈值置信度分数的优先级值的对象的音频文件。在示例性实施例中,可以基于与对象相关联的类别或流派来搜索音频文件和内容服务器储存库上存储的音频文件。
参照图10B,在4处,音频合成模块(108)生成动态合成音频数据。例如,音频混合可以用于混合音频样本以产生结果音频文件。
在5处,显示器(122)显示图像并且扬声器(120)同时播放动态合成音频数据。
在6处,反馈模块(110)向优先化模块(104)提供反馈。
图11A和11B示出了根据本公开的实施例的沉浸式显示方法的示意表示。
参照图11,在1处,场景分析模块(102)基于图像辨识场景。
在2处,动态对象确定模块(702)从数据库中检索外部动态对象。
在3处,感兴趣区域确定模块(704)确定图像内的感兴趣区域。
参照图11B,在4处,动态对象生成模块(804)生成动态对象。
在5处,飞行路径生成模块(806)为外部动态对象生成飞行路径。
在6处,动态对象渲染模块(808)在显示器(122)上的图像的对应的感兴趣区域内沿着对应的飞行路径渲染外部动态对象。
图12示出了根据本公开的实施例的氛围分析的示意表示。
参照图12,氛围分析模块(114)接收传感器输入,诸如亮度数据、接近度数据、温度数据、天气数据、位置数据和图像分析。氛围分析模块(114)基于传感器输入生成氛围信息。氛围分析模块(114)向场景分析模块(102)和关联模块(116)提供氛围信息。
图13示出了根据本公开的实施例的场景分析的示意表示。
参照图13,场景分析模块(102)基于图像识别场景。场景分析模块(102)还辨识图像中的关键对象。
图14示出了根据本公开的实施例的场景分析的示意表示。
参照图14,场景分析模块(102)基于图像辨识场景。场景分析模块(102)还辨识图像中的关键对象。
图15示出了根据本公开的实施例的动态对象确定的示意表示。
参照图15,动态对象确定模块(702)确定对应于关键对象的外部动态对象。
图16示出了根据本公开的实施例的感兴趣区域确定的示意表示。
参照图16,感兴趣区域确定模块(704)确定图像内的感兴趣区域。
图17示出了根据本公开的实施例的动态对象生成的示意性表示。
参照图17,动态对象生成模块(804)生成对应于关键对象的动态对象。
图18是根据本公开的实施例的飞行路径生成的示意表示。
参照图18,飞行路径生成模块(806)生成用于外部动态对象的飞行路径。
图19示出了根据本公开的实施例的动态对象渲染的示意表示。
参照图19,动态合成渲染模块(808)在图像上的对应的感兴趣区域内沿着对应的飞行路径渲染外部动态对象。
图20示出了根据本公开的实施例的沉浸式显示系统(2000)的示意框图。
参照图20,沉浸式显示系统(2000)包括场景分析模块(2002)、优先化模块(2004)、音频确定模块(2006)、音频合成模块(2008)、反馈模块(2010)、传感器模块(2012)、氛围分析模块(2014)、关联模块(2016)、生成模块(2018)、扬声器(2020)、显示器(2022)、微控制器(2024)、对象分析模块(2026)、媒体分析模块(2028)、显示处理模块(2030)和本地数据库(2032)。
场景分析模块(2002)被配置为辨识图像中的一个或多个对象。对象分析模块(2026)被配置为确定辨识的对象的一个或多个视觉特性和一个或多个音频特性。优先化模块(2004)被配置为基于对应的视觉特性和音频特性向每个对象分配优先级值。媒体分析模块(2028)被配置为基于辨识的对象的视觉特性、音频特性和优先级值,从本地数据库(2032)检索对应于辨识的对象的一个或多个外部媒体元素。
本地数据库(2032)存储外部媒体元素的储存库。媒体分析模块(2028)搜索本地数据库(2032)以检索对应于辨识的对象的外部媒体元素。当在本地数据库(2032)中没有找到对应于辨识的图像的外部媒体元素时,媒体分析模块(2028)从外部服务器(未示出)检索对应于辨识的图像的元素。
此外,媒体分析模块(2028)通过在本地数据库(2032)中存储从外部服务器检索的外部媒体元素来更新本地数据库(2032)的储存库。在示例中,媒体分析模块(2028)实时更新本地数据库(2032)。
显示处理模块(2030)被配置为同时将外部媒体元素连同图像一起渲染。
外部媒体元素包括以下中的一个或多个:动态合成音频文件和外部媒体元素。
在示例中,沉浸式显示系统(2000)在功能上类似于沉浸式显示系统(100)。
在沉浸式显示系统(2000)中,可以连同以下两者一起提供图像:动态合成音频和外部媒体元素。在这种情况下,由于动画的外部媒体对象在显示器上移动,因此图像在视觉上对用户是愉悦的,并且由于动态合成音频,因此听起来是愉悦的。
图21是示出了根据本公开的实施例的沉浸式显示方法的流程图。
参照图21,在操作2102处,场景分析模块(102)获得图像。
在操作2104处,场景分析模块(102)辨识图像中的对象。
在操作2106处,场景分析模块(102)确定辨识的对象的视觉特性。
在操作2108处,优先化模块(104)向可听对象分配优先级值。
在操作2110处,音频确定模块(106)从数据库(504)中检索音频文件。
在操作2112处,音频确定模块(106)确定音频文件的音频特性并将音频特性存储在数据库(504)中。
在操作2114处,音频合成模块(108)生成动态合成音频数据。
在操作2116处,扬声器(120)在屏幕(122)上显示图像时播放动态合成音频文件。
图22是示出了根据本公开的实施例的沉浸式显示方法的流程图。
参照图22,在2202处,场景分析模块(2002)检索图像。
在2204处,场景分析模块(2002)辨识图像中的对象。
在操作2206处,对象分析模块(2026)确定对象的音频特性和视觉特性。
在2208处,优先化模块(2004)向对象分配优先级值。
在操作2210处,媒体分析模块(2028)检索外部媒体元素。
在操作2212处,显示处理模块(2030)在图像上渲染外部媒体元素。
图23是示出了根据本公开的实施例的生成动态合成音频数据的方法的流程图。
参照图23,在操作2302处,场景分析模块(102)辨识图像中的对象。
在操作2304处,优先化模块(104)将对象分类为可听和不可听对象。
在操作2306处,音频确定模块(106)基于音频权重对对象进行优先化。
在操作2308处,音频确定模块(106)将对象的音频权重与阈值置信度分数进行比较。
如果在操作2308处,音频确定模块(106)确定对象的音频权重大于或等于阈值置信度分数,则音频确定模块执行操作2310。
在操作2310处,音频确定模块(106)搜索对应于对象的匹配音频文件。
在操作2312处,音频确定模块(106)确定检索的音频文件的音频属性。
在操作2314处,音频合成模块(108)生成动态合成音频。
如果在操作2308处,音频确定模块(106)确定对象的音频权重小于阈值置信度分数,则音频确定模块执行操作2316。
在操作2316处,音频确定模块(106)丢弃对象并检查下一个对象。
图24是根据本公开的实施例的基于场景分析的音频关联的图示表示。
参照图24,沉浸式显示系统(100)基于场景分析模块(102)检测的场景关联音频。当场景分析模块(102)检测到海浪的场景时,播放对应于海浪的音频。当场景分析模块(102)检测到森林的场景时,播放对应于森林的音频。当场景分析模块(102)检测到人物站在沙滩处的场景时,播放对应于沙滩的音频。
图25是根据本公开的实施例的基于场景分析的音频关联的图示表示。
参照图25,沉浸式显示系统(100)使用由氛围分析模块(114)提供的氛围信息、基于由场景分析模块(102)检测的场景关联音频。当场景分析模块(102)检测到儿童生日派对的场景时,播放对应于生日派对的音频。当场景分析模块(102)检测到派对的场景时,播放对应于派对的音频,诸如爵士/流行音乐。
图26是根据本公开的实施例的基于氛围分析的音频关联的图示表示。
参照图26,沉浸式显示系统(100)基于由氛围分析模块(114)提供的氛围信息来关联音频。当氛围分析模块(114)检测到晴天时,播放舒缓的音乐。
图27是根据本公开的实施例的基于氛围分析的音频关联的图示表示。
参照图27,沉浸式显示系统(100)基于由氛围分析模块(114)提供的氛围信息来关联音频。当氛围分析模块(114)检测到雨天时,播放对应于雨或风的音频。
图28是根据本公开的实施例的各种音频关联的图示表示。
参照图28,沉浸式显示系统(100)基于地理位置关联音频。例如,位于印度的沉浸式显示系统(100)播放印度国歌连同图像,而位于一些其他国家的沉浸式显示系统(100)播放该国家的国歌连同图像。
图29是根据本公开的实施例的基于面部表情的音频关联的图示表示。
参照图29,沉浸式显示系统(100)基于用户的面部表情播放音频。例如,当用户的面部表情为快乐的表情时,沉浸式显示系统(100)播放快乐的歌曲。类似地,当用户的面部表情是悲伤的表情时,沉浸式显示系统(100)播放舒缓的音乐。或者当用户的面部表情是愤怒的表情时,沉浸式显示系统(100)播放励志歌曲。
图30是根据本公开的实施例的基于图像分析的音频关联的图示表示。
参照图30,沉浸式显示系统(100)在智能电话上实现。当用户点击智能电话的屏幕上显示的图像时,由智能电话播放对应于该图像的音频。
图31是根据本公开的实施例的基于氛围分析的动态对象关联的图示表示
参照图31,沉浸式显示系统(100)基于由氛围分析模块(114)提供的氛围信息来选择动态对象。这里,场景分析模块(102)基于氛围信息确定场景是生日派对。因此,沉浸式显示系统(100)基于气球的上下文相关性(即,气球广泛用于生日庆祝)选择气球作为动态对象。因此,沉浸式显示系统(100)在图像上显示飞起来的气球。
图32是根据本公开的实施例的基于相机输入的动态对象关联的图示示图
参照图32,沉浸式显示系统(100)基于由氛围分析模块(114)提供的氛围信息来关联动态对象。当氛围分析模块(114)检测到雨天或冬天时,显示对应于雨(诸如水)或冬季(诸如雪花)的动态对象。
图33是根据本公开的实施例的在感兴趣区域中渲染动态对象的方法的图示表示。
参照图33,沉浸式显示系统(100)按照对象的自然移动生成动态对象的飞行路径。例如,沉浸式显示系统(100)将蝴蝶显示为悬停在图像中显示的花朵上方的动态对象。此外,沉浸式显示系统(100)可以显示蝴蝶从一个花朵飞到另一个花朵,以便于模仿现实世界中蝴蝶的移动。
图34是根据本公开的实施例的基于接近度输入的动态对象关联的图示表示。
参照图34,沉浸式显示系统(100)基于用户与显示器(122)的接近度来修改动态对象的显示。例如,当用户非常靠近显示器(122)时,沉浸式显示系统(100)可以显示蝴蝶消失。
图35是根据本公开的实施例的基于传感器输入的动态对象关联的图示表示。
参照图35,沉浸式显示系统(100)基于由氛围分析模块(114)提供的氛围信息来关联动态对象。当氛围分析模块(114)确定房间照明良好时,沉浸式显示系统(100)在图像中显示强光。类似地,当氛围分析模块(114)确定房间照明昏暗时,沉浸式显示系统(100)在图像中显示昏暗的光。
图36是根据本公开的实施例的渲染动态对象的方法的图示表示。
参照图36,沉浸式显示系统(100)基于场景分析模块(102)检测的场景关联动态对象。例如,当场景分析模块(102)检测到水下场景时,沉浸式显示系统(100)将游泳的鱼显示为动态对象。在另一个实例中,当场景分析模块(102)检测到花园场景时,沉浸式显示系统(100)将飞行的鸟显示为动态对象。在另一个实例中,当场景分析模块(102)检测到瀑布场景时,沉浸式显示系统(100)将飞行的鸟显示为动态对象。在另一个实例中,当场景分析模块(102)检测到山峰场景时,沉浸式显示系统(100)将飞行的龙显示为动态对象。
图37是根据本公开的实施例的图像转换方法的图示表示。
参照图37,沉浸式显示系统(100)在图像中的多个感兴趣区域中显示动态对象。例如,当图像描绘两个花瓶时,沉浸式显示系统(100)将飞行的蝴蝶显示为动态对象。这里,沉浸式显示系统(100)在第一时刻处显示第一花瓶上飞行的蝴蝶,并且在第二时刻处显示第二花瓶上飞行的蝴蝶。
应该注意的是,描述仅说明了本公开的原理。因此将理解,本领域技术人员将能够设计尽管本文没有明确描述但是体现了本公开的原理的各种布置。
此外,本文中列举的所有示例主要明确旨在仅用于说明目的,以帮助读者理解由发明人为推进技术而贡献的概念和原理,并且将被解释为不限于这样的具体列举的示例和状况。
虽然已经参考本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等效物定义的本公开的精神和范围的情况下,可以在其中进行形式和细节的各种改变。上述特征可以以各种方式组合以形成多个变体。因此,本公开不限于上述具体实施例,而仅受所附权利要求及其等效物的限制。

Claims (15)

1.一种为电子设备创建沉浸式内容的方法,所述方法包括:
获得第一图像;
辨识第一图像中捕获的一个或多个对象;
向第一图像中辨识的一个或多个对象中的每一个分配优先级值;
检索与具有大于预定阈值的优先级值的一个或多个对象中的每一个对应的音频数据;
基于每个检索的音频数据生成动态音频数据;以及
在显示第二图像时播放基于动态音频数据的动态音频文件。
2.如权利要求1所述的方法,其中,第一图像与第二图像相同。
3.如权利要求1所述的方法,还包括:
确定一个或多个对象中的每一个是否能够生成声音。
4.如权利要求1所述的方法,还包括:
确定第一图像中捕获的一个或多个对象中的第一对象是否能够在外部环境中移动;
辨识与第一对象相关联的第一图像内的感兴趣区域;
生成与第一对象相关联的感兴趣区域内的飞行路径;以及
渲染第二图像,使得对应于第一对象的动态对象表现出沿着飞行计划移动。
5.如权利要求1所述的方法,还包括:
从电子设备的一个或多个传感器接收与电子设备的外部环境相关联的信息,
其中,检索与具有大于预定阈值的优先级值的一个或多个对象中的每一个对应的音频数据是基于与电子设备的外部环境相关联的信息的。
6.如权利要求5所述的方法,
其中,所述获得第一图像还包括从电子设备的相机接收第一图像,并且
其中,第一图像不同于第二图像。
7.如权利要求1所述的方法,还包括:
在播放动态音频文件之后接收反馈;
基于反馈向第一图像中辨识的一个或多个对象中的每一个重新分配优先级值;以及
基于重新分配的优先级值重新生成动态音频数据。
8.如权利要求1所述的方法,
其中,检索与第一图像中辨识的一个或多个对象中的每一个对应的音频数据还包括从数据库中检索与第一图像中辨识的一个或多个对象中的每一个对应的音频数据,并且
其中,所述数据库被存储在电子设备中或外部电子设备中。
9.如权利要求1所述的方法,其中,检索与具有大于预定阈值的优先级值的一个或多个对象中的每一个对应的音频数据包括:
确定与第一图像中辨识的一个或多个对象中的每一个相关联的场景,以及
基于场景检索音频数据。
10.如权利要求1所述的方法,其中,在显示第二图像时播放动态音频文件还包括当电子设备处于辅助模式时,在显示第二图像时播放动态音频文件。
11.一种电子设备,包括:
通信接口;
扬声器;
显示器;以及
至少一个处理器,被配置为:
获得第一图像,
辨识第一图像中捕获的一个或多个对象,
向第一图像中辨识的一个或多个对象中的每一个分配优先级值,
检索与具有大于预定阈值的优先级值的一个或多个对象中的每一个对应的音频数据,
基于每个检索的音频数据生成动态音频数据,以及
在控制显示器显示第二图像时,控制扬声器播放基于动态音频数据的动态音频文件。
12.如权利要求11所述的电子设备,其中,第一图像和第二图像相同。
13.如权利要求11所述的电子设备,其中,所述至少一个处理器还被配置为确定一个或多个对象中的每一个是否能够生成声音。
14.如权利要求11所述的电子设备,其中,所述至少一个处理器还被配置为:
确定第一图像中捕获的一个或多个对象中的第一对象是否能够在外部环境中移动,
辨识与第一对象相关联的第一图像内的感兴趣区域,
生成与第一对象相关联的感兴趣区域内的飞行路径,以及
渲染第二图像,使得对应于第一对象的动态对象表现出沿着飞行计划移动。
15.如权利要求11所述的电子设备,还包括:
一个或多个传感器,
其中,所述至少一个处理器还被配置为从一个或多个传感器接收与电子设备的外部环境相关联的信息,并且
其中,检索与具有大于预定阈值的优先级值的一个或多个对象中的每一个对应的音频数据是基于与电子设备的外部环境相关联的信息的。
CN201980099355.1A 2019-08-14 2019-12-02 沉浸式显示系统及其方法 Pending CN114270870A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN201911032981 2019-08-14
IN201911032981 2019-08-14
PCT/KR2019/016858 WO2021029497A1 (en) 2019-08-14 2019-12-02 Immersive display system and method thereof

Publications (1)

Publication Number Publication Date
CN114270870A true CN114270870A (zh) 2022-04-01

Family

ID=74567204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980099355.1A Pending CN114270870A (zh) 2019-08-14 2019-12-02 沉浸式显示系统及其方法

Country Status (4)

Country Link
US (1) US11422768B2 (zh)
EP (1) EP3963896A4 (zh)
CN (1) CN114270870A (zh)
WO (1) WO2021029497A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11723136B2 (en) * 2019-12-20 2023-08-08 Harman Professional Denmark Aps Systems and methods for a music feature file and coordinated light show
US11830119B1 (en) * 2020-05-29 2023-11-28 Apple Inc. Modifying an environment based on sound
US11462232B1 (en) * 2020-06-30 2022-10-04 Apple Inc. Methods and systems for visualizing audio properties of objects
CN113286160A (zh) * 2021-05-19 2021-08-20 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备以及存储介质
EP4281935A1 (en) * 2021-08-19 2023-11-29 Samsung Electronics Co., Ltd. Method and system for generating an animation from a static image

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140035713A (ko) * 2012-09-14 2014-03-24 한국전자통신연구원 실감 미디어 저작 방법 및 장치, 이를 이용하는 휴대형 단말 장치
CN106062862A (zh) * 2014-10-24 2016-10-26 何安莉 用于沉浸式和交互式多媒体生成的系统和方法
KR20190031033A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 컨텐트를 제공하는 방법 및 단말기

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101235832B1 (ko) * 2008-12-08 2013-02-21 한국전자통신연구원 실감 멀티미디어 서비스 제공 방법 및 장치
US20100257252A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Augmented Reality Cloud Computing
US9600919B1 (en) * 2009-10-20 2017-03-21 Yahoo! Inc. Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
JP2011170690A (ja) * 2010-02-19 2011-09-01 Sony Corp 情報処理装置、情報処理方法、およびプログラム。
US9514570B2 (en) * 2012-07-26 2016-12-06 Qualcomm Incorporated Augmentation of tangible objects as user interface controller
US9213781B1 (en) * 2012-09-19 2015-12-15 Placemeter LLC System and method for processing image data
KR102159816B1 (ko) * 2014-01-13 2020-09-24 삼성전자 주식회사 실감형 멀티미디어 컨텐츠 재생 방법 및 장치
US9226090B1 (en) * 2014-06-23 2015-12-29 Glen A. Norris Sound localization for an electronic call
US10726593B2 (en) * 2015-09-22 2020-07-28 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US9652124B2 (en) * 2014-10-31 2017-05-16 Microsoft Technology Licensing, Llc Use of beacons for assistance to users in interacting with their environments
JP6984596B2 (ja) 2016-05-30 2021-12-22 ソニーグループ株式会社 映像音響処理装置および方法、並びにプログラム
US10074012B2 (en) * 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
US10694312B2 (en) * 2016-09-01 2020-06-23 Harman International Industries, Incorporated Dynamic augmentation of real-world sounds into a virtual reality sound mix
US20180089935A1 (en) * 2016-09-23 2018-03-29 Igt Electronic gaming machines and electronic games using mixed reality headsets
US11635872B2 (en) * 2016-11-22 2023-04-25 Snap Inc. Smart carousel of image modifiers
US9891884B1 (en) * 2017-01-27 2018-02-13 International Business Machines Corporation Augmented reality enabled response modification
US10540820B2 (en) * 2017-02-02 2020-01-21 Ctrl5, Corp. Interactive virtual reality system for experiencing sound
US10248744B2 (en) * 2017-02-16 2019-04-02 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes
US20180374267A1 (en) * 2017-06-08 2018-12-27 Fernando Jose Yurkin Method and System to Enhance Spectator Experience
GB201709199D0 (en) * 2017-06-09 2017-07-26 Delamont Dean Lindsay IR mixed reality and augmented reality gaming system
US20190107991A1 (en) * 2017-09-13 2019-04-11 Magical Technologies, Llc Systems and methods of virtual billboarding and collaboration facilitation in an augmented reality environment
US10462422B1 (en) * 2018-04-09 2019-10-29 Facebook, Inc. Audio selection based on user engagement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140035713A (ko) * 2012-09-14 2014-03-24 한국전자통신연구원 실감 미디어 저작 방법 및 장치, 이를 이용하는 휴대형 단말 장치
CN106062862A (zh) * 2014-10-24 2016-10-26 何安莉 用于沉浸式和交互式多媒体生成的系统和方法
KR20190031033A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 컨텐트를 제공하는 방법 및 단말기

Also Published As

Publication number Publication date
US11422768B2 (en) 2022-08-23
US20210048975A1 (en) 2021-02-18
WO2021029497A1 (en) 2021-02-18
EP3963896A1 (en) 2022-03-09
EP3963896A4 (en) 2022-06-22

Similar Documents

Publication Publication Date Title
US11422768B2 (en) Immersive display system and method thereof
US11321385B2 (en) Visualization of image themes based on image content
CN109525901A (zh) 视频处理方法、装置、电子设备及计算机可读介质
JP5628023B2 (ja) キーワード入力に基づき、雰囲気、特に照明雰囲気を自動的に形成するための方法、システム、及び、ユーザーインターフェース
US10198846B2 (en) Digital Image Animation
US9274595B2 (en) Coherent presentation of multiple reality and interaction models
CN109766065B (zh) 显示设备及其控制方法
CN107172485A (zh) 一种用于生成短视频的方法与装置
CN104956317A (zh) 用于分布式故事阅读的语音修改
CN108292320A (zh) 信息处理装置、信息处理方法和程序
US11037370B2 (en) Information processing apparatus, and information processing method and program therefor
US10261749B1 (en) Audio output for panoramic images
CN111128103A (zh) 一种沉浸式ktv智能点唱系统
CN110688496A (zh) 一种多媒体文件处理的方法及装置
TWI672948B (zh) 影像製作系統及方法
CN105988369B (zh) 一种内容驱动的智能家居控制方法
US20160189667A1 (en) Audio output apparatus and control method thereof
CN116055800A (zh) 一种移动端获得定制背景实时舞蹈视频的方法
CN117333645A (zh) 一种环形全息交互系统及其设备
US20230166594A1 (en) System and method for controlling lamplight by using music, and in-vehicle infotainment system
US7382372B2 (en) Apparatus and method for creating moving picture
CN112087662B (zh) 一种移动端生成舞队组合舞蹈视频的方法及一种移动端
US20220116531A1 (en) Programmable rig control for three-dimensional (3d) reconstruction
Payling Visual music composition with electronic sound and video
US20200402214A1 (en) Method and electronic device for rendering background in image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination