CN111417064A - 一种基于ai识别的音画随行控制方法 - Google Patents

一种基于ai识别的音画随行控制方法 Download PDF

Info

Publication number
CN111417064A
CN111417064A CN201911226602.8A CN201911226602A CN111417064A CN 111417064 A CN111417064 A CN 111417064A CN 201911226602 A CN201911226602 A CN 201911226602A CN 111417064 A CN111417064 A CN 111417064A
Authority
CN
China
Prior art keywords
area
picture
sound
primary
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911226602.8A
Other languages
English (en)
Other versions
CN111417064B (zh
Inventor
陈智
游坤
赵贤磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Zhixinsheng New Energy Co ltd
Original Assignee
Nanjing Zhixinsheng Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhixinsheng Electronic Technology Co ltd filed Critical Nanjing Zhixinsheng Electronic Technology Co ltd
Priority to CN201911226602.8A priority Critical patent/CN111417064B/zh
Publication of CN111417064A publication Critical patent/CN111417064A/zh
Application granted granted Critical
Publication of CN111417064B publication Critical patent/CN111417064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于AI识别的音画随行控制方法,该方法包括如下步骤:识别画面中物体的位置和运动轨迹,将画面设置为层叠的一级区域和二级区域,确定发声区域,并对发声单元进行物理配制;根据决策算法,确定识别物体当前使用一级区域中的哪个一级子区域的对应数据;持续监测,直至被监测物体在屏幕中消失;通过决策算法实时分配声音数据;根据屏幕画面中各个被监测物体的位置,分配不同的音频数据权重比例。本发明可以让听众明显感觉到声音的输出是随着画面运动而有实际的运动的,虽然发声物体不变,但发声的位置的确在屏幕上进行了空间的运动,从而达到音画随行发声的直观感受。

Description

一种基于AI识别的音画随行控制方法
技术领域
本发明涉及一种音画随行控制方法,尤其涉及一种基于AI识别的音 画随行控制方法。
背景技术
现有技术的终端设备(例如,智能电视、智能手机等)的喇叭一般 安装在屏幕下方或屏幕两侧,在播放音视频节目时,喇叭的配制和发声 逻辑并不是根据图像内部的物品来追踪的。现有技术的通常做法是,屏 幕上的物体居于左边时左边的喇叭发声较多,屏幕上的物体居于右边时, 右边的喇叭发声较多,这样会导致屏幕上的物体和发声位置不相匹配, 降低了用户体验感。
发明内容
本发明的目的在于提供一种基于AI识别的音画随行控制方法,在终 端设备的后面安装喇叭,并通过算法来确定屏幕上物体的位置在哪里区 域,将该区域的喇叭同步激活发声,从而达到声音和发声物体位置相互 匹配的效果。
解决现有技术存在的缺憾。
本发明采用如下技术方案实现:
一种基于AI识别的音画随行控制方法,其特征在于,该方法包括如 下步骤:
步骤1):识别画面中物体的位置和运动轨迹,将画面设置为层叠的 一级区域和二级区域,所述一级区域将画面划分为M*N个一级子区域, 在一级区域的基础上,建立二级区域,所述二级区域划分为(M-1)*(N-1) 个二级子区域,
步骤2):确定发声区域,并对发声单元进行物理配制;屏幕上的被 监测物体的位置信息为坐标值,被监测物体的大小为所占屏幕的面积, 面积值为识别物体的高度值和宽度值的乘积。
确定被监测物体位置及大小,根据决策算法,确定识别物体当前使 用一级区域中的哪个一级子区域的对应数据;并进行2次查询:确定被 监测物体位置及大小,根据决策算法,确定识别物体当前使用二级区域 中的哪个二级子区域的对应数据;
持续监测,直至被监测物体在屏幕中消失;
所述决策算法指的是:为一级区域和二级区域设置不同的权重,计 算识别物体在各区域面积占比,取权重与面积占比的加权和,并进行比 较,取值最大区域为最终结果。
步骤3):通过决策算法实时分配声音数据;根据步骤1)、2)中配 制好的区域,根据屏幕画面中各个被监测物体的位置,重新分配音频数 据,对不同的被监测物体,依据其所处位置变化的不同,分配不同的音 频数据权重比例。
进一步的,还包括步骤4):进行临场级DSP处理优化声音数据,调 整相位,增强音频效果的整体临场感。
进一步的,在步骤1)中,一级区域和二级区域的中心点相互重合。
本发明的有益技术效果是:在终端设备的后面安装喇叭,并通过算 法来确定屏幕上物体的位置在哪里区域,将该区域的喇叭同步激活发声, 从而达到声音和发声物体位置相互匹配的效果,可以让听众明显感觉到 声音的输出是随着画面运动而有实际的运动的,虽然发声物体不变,但 发声的位置的确在屏幕上进行了空间的运动,从而达到音画随行发声的 直观感受。
附图说明
图1是AI算法识别声场与画面的关系。
图2是M和N分别为2的时候采取2*2分割方案的示意图。
图3是M和N分别为2的时候仅监测小鸟的示意图。
图4是识别物体位置并确定发声区域的示意图。
图5是发声单元的物理配制分区原理框图。
图6是SP配制图例和分区信息原理框图。
图7是持续4秒的视频。
图8是AI算法实时分配声音数据的示意图。
图9是AI算法实时分配声音数据第2秒的示意图。
图10是本发明控制方法的流程图。
具体实施方式
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能 也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制, 任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实 质的变换都应视为本发明的技术方案所限定的保护范围。
首先借助片上系统SOC上集成的嵌入式神经网络处理器NPU的运 算能力,搭载AI算法根据当前画面源数据中的图像和声音信息去识别当 前画面中各发声物体的发声频率和位置信息。追踪画面播放中的各发声 物体的运动轨迹和发声时间,实时产生备用数据。
一种基于AI识别的音画随行控制方法,该方法包括如下步骤:
步骤1):识别画面中物体的位置和运动轨迹,将画面设置为层叠的 一级区域和二级区域,一级区域将画面划分为M*N个一级子区域,在一 级区域的基础上,建立二级区域,二级区域划分为(M-1)*(N-1)个二 级子区域,一级区域和二级区域的中心点相互重合。
步骤2):确定发声区域,并对发声单元进行物理配制;屏幕上的被 监测物体的位置信息为坐标值,被监测物体的大小为所占屏幕的面积, 面积值为识别物体的高度值和宽度值的乘积。
确定被监测物体位置及大小,根据决策算法,确定识别物体当前使 用一级区域中的哪个一级子区域的对应数据;
并进行2次查询:确定被监测物体位置及大小,根据决策算法,确 定识别物体当前使用二级区域中的哪个二级子区域的对应数据;
持续监测,直至被监测物体在屏幕中消失;
决策算法指的是:为一级区域和二级区域设置不同的权重,计算识 别物体在各区域面积占比,取权重与面积占比的加权和,并进行比较, 取值最大区域为最终结果。在本实施例中,为一级区域设置权重A1,二 级区域设置权重A2。计算识别物体在各区域面积占比Bn,取权重与面 积占比的加权和,并进行比较,取值最大区域为最终结果。
步骤3):通过AI算法实时分配声音数据;根据步骤1)、2)中配制 好的区域,根据屏幕画面中各个被监测物体的位置,重新分配音频数据, 对不同的被监测物体,依据其所处位置变化的不同,分配不同的音频数 据权重比例。
如图所示,将画面划分成2*2区域,记为1级区域的一、二、三、 四级子区域,以相邻1级区域的中心点为顶点,创建矩形区域,记为2 级区域,二级区域个数为(N-1)*(M-1),在本实施例中为1个,记为 2级子区域,设定一级区域的权重为A1,二级区域权重为A2,确定识别 物体位置及大小[x1,y1]*[h1,w1],并进行2次查询,根据决策算法,确定 当前使用一级区域第三子区域对应的数据,确定识别物体位置及大小 [x2,y2]*[h2,w2],并进行2次查询,根据决策算法,确定当前使用二级子 区域一对应数据,持续监测,直至被监测物体在画面中消失。
步骤4):进行临场级DSP处理优化声音数据,调整相位,增强音频 效果的整体临场感。
如图6所示,在本实施例中,依据不同诉求和实际成本要求,进行 后端的发声系统配制,下面以4个SP的配制为例进行说明:4个SP将 整个电视机切割为4块区域,我们简单的将其命名为区域一、二、三、 四。SP配制好了后,在驱动回路上也需要进行相应的配制,我们这里使 用DSP为例(不仅局限于此配制),分别使用两个DSP去驱动L/R和 L/R-piezo,相应的前端数据也会分割成Data L/R和Data piezo L/R,这部 分的数据是由SOC经过处理后提供的。根据配制好的发声区域,片上系 统SOC针对他所收集到的数据,进行识别后重新分配音频数据,具体的 做法如下所示:
第一秒,根据画面中各发声物体的位置,进行音频数据进行如下表 的分配
音频数据分配表
Figure BDA0002302404130000061
第二秒,SOC侦测到闪电已经消失,所以相应的音频数据比例为0%, 此时小鸟飞到了位置②处,根据小鸟在整个电视机的位置进行了左表的 数据分配,同理应用于高铁列车。
音频数据分配表音频
Figure BDA0002302404130000062
第三秒,此时小鸟飞到了位置③处,根据小鸟在整个屏幕的位置进 行了数据分配,如下表所示,同理应用于高铁列车。
音频数据分配表
Figure BDA0002302404130000071
第四秒,此时小鸟飞到了位置④处,根据小鸟在整个屏幕的位置进行了数据分配,增加了左侧喇叭的数据配比,高铁列车也已经从画面中消失,所以删除了相关音频数 据
音频数据分配表
Figure BDA0002302404130000072
通过对第一秒至第四秒的上述处理,可以让听众明显感觉大到,声 音的输出是随着画面运动而有实际的运动的,虽然发声物体还是那个发 声物体,但发声的位置的确在屏幕上进行了空间的运动。从而达到音画 随行发声的直观感受。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了 解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样 的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可 以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质 中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施 方式或者实施方式的某些部分所述的方法。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以 分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造 性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个 人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处 理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网 络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计 算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布 式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络 而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块 可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示 例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上 述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的 具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
当然,本发明还可以有其他多种实施例,在不背离本发明精神及其 实质的情况下,熟悉本领域的技术人员可以根据本发明做出各种相应的 改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求 的保护范围。

Claims (3)

1.一种基于AI识别的音画随行控制方法,其特征在于,该方法包括如下步骤:
步骤1):识别画面中物体的位置和运动轨迹,将画面设置为层叠的一级区域和二级区域,所述一级区域将画面划分为M*N个一级子区域,在一级区域的基础上,建立二级区域,所述二级区域划分为(M-1)*(N-1)个二级子区域,
步骤2):确定发声区域,并对发声单元进行物理配制;
确定被监测物体位置及大小,根据决策算法,确定识别物体当前使用一级区域中的哪个一级子区域的对应数据;并进行2次查询:确定被监测物体位置及大小,根据决策算法,确定识别物体当前使用二级区域中的哪个二级子区域的对应数据;
持续监测,直至被监测物体在屏幕中消失;
所述决策算法指的是:为一级区域和二级区域设置不同的权重,计算识别物体在各区域面积占比,取权重与面积占比的加权和,并进行比较,取值最大区域为最终结果。
步骤3):通过决策算法实时分配声音数据;根据步骤1)、2)中配制好的区域,根据屏幕画面中各个被监测物体的位置,重新分配音频数据,对不同的被监测物体,依据其所处位置变化的不同,分配不同的音频数据权重比例。
2.根据权利要求1所述的基于AI识别的音画随行控制方法,其特征在于,还包括步骤4):进行临场级DSP处理优化声音数据,调整相位,增强音频效果的整体临场感。
3.根据权利要求1所述的基于AI识别的音画随行控制方法,其特征在于,在步骤1)中,一级区域和二级区域的中心点相互重合。
CN201911226602.8A 2019-12-04 2019-12-04 一种基于ai识别的音画随行控制方法 Active CN111417064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911226602.8A CN111417064B (zh) 2019-12-04 2019-12-04 一种基于ai识别的音画随行控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911226602.8A CN111417064B (zh) 2019-12-04 2019-12-04 一种基于ai识别的音画随行控制方法

Publications (2)

Publication Number Publication Date
CN111417064A true CN111417064A (zh) 2020-07-14
CN111417064B CN111417064B (zh) 2021-08-10

Family

ID=71494735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226602.8A Active CN111417064B (zh) 2019-12-04 2019-12-04 一种基于ai识别的音画随行控制方法

Country Status (1)

Country Link
CN (1) CN111417064B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199149A (zh) * 2020-10-16 2021-01-08 维沃移动通信有限公司 界面渲染方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86105001A (zh) * 1985-08-14 1987-04-29 株式会社日立制作所 多窗口系统的显示控制方法
CN104036789A (zh) * 2014-01-03 2014-09-10 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
US20150003648A1 (en) * 2013-06-27 2015-01-01 Samsung Electronics Co., Ltd. Display apparatus and method for providing stereophonic sound service
CN104822036A (zh) * 2010-03-23 2015-08-05 杜比实验室特许公司 用于局域化感知音频的技术
CN105451152A (zh) * 2015-11-02 2016-03-30 上海交通大学 基于听者位置跟踪的实时声场重建系统和方法
CN109062536A (zh) * 2018-07-23 2018-12-21 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN109194999A (zh) * 2018-09-07 2019-01-11 深圳创维-Rgb电子有限公司 一种实现声音与图像同位的方法、装置、设备及介质
CN109981967A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 用于智能机器人的拍摄方法、装置、终端设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86105001A (zh) * 1985-08-14 1987-04-29 株式会社日立制作所 多窗口系统的显示控制方法
CN104822036A (zh) * 2010-03-23 2015-08-05 杜比实验室特许公司 用于局域化感知音频的技术
US20150003648A1 (en) * 2013-06-27 2015-01-01 Samsung Electronics Co., Ltd. Display apparatus and method for providing stereophonic sound service
CN104036789A (zh) * 2014-01-03 2014-09-10 北京智谷睿拓技术服务有限公司 多媒体处理方法及多媒体装置
CN105451152A (zh) * 2015-11-02 2016-03-30 上海交通大学 基于听者位置跟踪的实时声场重建系统和方法
CN109981967A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 用于智能机器人的拍摄方法、装置、终端设备及介质
CN109062536A (zh) * 2018-07-23 2018-12-21 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN109194999A (zh) * 2018-09-07 2019-01-11 深圳创维-Rgb电子有限公司 一种实现声音与图像同位的方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199149A (zh) * 2020-10-16 2021-01-08 维沃移动通信有限公司 界面渲染方法、装置及电子设备

Also Published As

Publication number Publication date
CN111417064B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
US10074012B2 (en) Sound and video object tracking
US10496358B1 (en) Directional audio for virtual environments
CN104618797B (zh) 信息处理方法、装置及客户端
CN104036789B (zh) 多媒体处理方法及多媒体装置
CN101198945B (zh) 用于富媒体环境的管理系统
KR20150022694A (ko) 스포츠 이벤트를 햅틱으로 이용할 수 있는 시청
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
EP3622730B1 (en) Spatializing audio data based on analysis of incoming audio data
CN110797038B (zh) 音频处理方法、装置、计算机设备及存储介质
CN103335644B (zh) 街景地图的声音播放方法及相关设备
CN104010179B (zh) 基于立体多画的多用户聚类与视点计算系统及方法
JP2022550372A (ja) オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム
US20190200156A1 (en) Methods and Systems for Simulating Microphone Capture Within a Capture Zone of a Real-World Scene
CN105392102A (zh) 用于非球面扬声器阵列的三维音频信号生成方法及系统
US20220222882A1 (en) Interactive Virtual Reality Broadcast Systems And Methods
CN111417064B (zh) 一种基于ai识别的音画随行控制方法
CN105074752A (zh) 3d移动联网电视广告交易系统
CN114822568A (zh) 音频播放方法、装置、设备及计算机可读存储介质
US11308329B2 (en) Representation learning from video with spatial audio
CN114286275A (zh) 一种音频处理方法及装置、存储介质
CN111598923B (zh) 目标跟踪方法、装置、计算机设备及存储介质
CN109947850A (zh) 数据分发方法、装置和设备
CN113691861B (zh) 基于互联网的智能蓝牙音箱分控调节系统和方法
US10534571B2 (en) Object-based presentation system
Zhang et al. Automatic generation of spatial tactile effects by analyzing cross-modality features of a video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240509

Address after: Building 1, No. 003, Tuanshan Road, Industrial Community, Tangshan Street, Jiangning District, Nanjing, Jiangsu Province, 210000

Patentee after: Jiangsu Zhixinsheng New Energy Co.,Ltd.

Country or region after: China

Address before: 211100 3rd floor, building 2, No. 003, Tuan San Road, Tangshan town industrial community, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: Nanjing zhixinsheng Electronic Technology Co.,Ltd.

Country or region before: China