CN115834817A

CN115834817A - 视频内容提供方法及视频内容提供装置

Info

Publication number: CN115834817A
Application number: CN202111093439.XA
Authority: CN
Inventors: 杨建洲; 周辰威
Original assignee: Xinhua Technology Co ltd
Current assignee: Xinhua Technology Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-03-21

Abstract

本发明提供一种视频内容提供方法及视频内容提供装置。所述方法包括：取得宽视角图像流及对应的第一音频内容；在宽视角图像流中决定多个感兴趣区域，并将所述多个感兴趣区域中的候选区域整合为第一画面；从候选区域中挑选指定区域，并从第一音频内容中找出对应的第一音频成分；藉由抑制各第一音频成分以将第一音频内容调整为第二音频内容；以及将第一画面与第二音频内容整合为特定视频内容，并提供特定视频内容。借此，观看上述特定视频内容的用户即可仅听到对应于指定区域的音频成分，从而得到较佳的收听质量。

Description

视频内容提供方法及视频内容提供装置

技术领域

本发明涉及一种视频内容处理技术，且特别涉及一种视频内容提供方法及视频内容提供装置。

背景技术

在现代社会中，通过视频软件举行视频会议已是相当常见的一种会议形式。为提升各会议参与者的收音质量，现已有部分厂商提出相关的解决方案。

例如，有厂商提供一种搭配指向性麦克风的网络摄像机，而此指向性麦克风的收音方向经设定为大致对应于网络摄像机的取像范围。藉此，可避免收到取像范围外的声音，进而提升收音质量。

然而，对于可通过广角摄像头捕获广角画面及对应声音信号的会议装置而言，现今并未有能够有效地提升收音质量的技术手段存在。

发明内容

有鉴于此，本发明提供一种视频内容提供方法及视频内容提供装置，其可用于解决上述技术问题。

本发明提供一种视频内容提供方法，适于一视频内容提供装置，包括：取得一宽视角图像流，并取得对应于宽视角图像流的一第一音频内容，其中第一音频内容包括对应于多个声源方向的多个音频成分；在宽视角图像流中决定多个感兴趣区域，并基于一指定画面布局将所述多个感兴趣区域中的至少一候选区域整合为一第一画面；从至少一候选区域中挑选至少一指定区域，并从所述多个声源方向中取得未对应于至少一指定区域的至少一第一声源方向；从所述多个音频成分中找出对应于至少一第一声源方向的至少一第一音频成分；藉由抑制各第一音频成分以将第一音频内容调整为一第二音频内容；以及将第一画面与第二音频内容整合为一特定视频内容，并提供特定视频内容。

本发明提供一种视频内容提供装置，包括存储电路及处理器。存储电路存储程序代码。处理器耦接存储电路，并存取程序代码以执行：取得一宽视角图像流，并取得对应于宽视角图像流的一第一音频内容，其中第一音频内容包括对应于多个声源方向的多个音频成分；在宽视角图像流中决定多个感兴趣区域，并基于一指定画面布局将所述多个感兴趣区域中的至少一候选区域整合为一第一画面；从至少一候选区域中挑选至少一指定区域，并从所述多个声源方向中取得未对应于至少一指定区域的至少一第一声源方向；从所述多个音频成分中找出对应于至少一第一声源方向的至少一第一音频成分；藉由抑制各第一音频成分以将第一音频内容调整为一第二音频内容；以及将第一画面与第二音频内容整合为一特定视频内容，并提供特定视频内容。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1A是依据本发明第一实施例绘示的视频内容提供装置示意图。

图1B是依据本发明第二实施例绘示的视频内容提供装置及视频捕获装置的示意图。

图2是依据本发明的实施例绘示的视频内容提供方法流程图。

图3是依据本发明的实施例绘示的对齐基准角度的示意图。

图4是依据本发明的实施例绘示决定感兴趣区域及候选区域的示意图。

图5是依据本发明的实施例绘示的多个默认画面布局的示意图。

图6是依据本发明的实施例绘示的将候选区域整合为第一画面的示意图。

图7A是依据本发明第三实施例绘示的抑制音频成分的示意图。

图7B是依据图7A绘示的执行平滑化操作的示意图。

图8是依据本发明的实施例绘示的应用情境图。

图9是依据本发明的实施例绘示的另一应用情境图。

具体实施方式

现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在图式和描述中用来表示相同或相似部分。

于本说明书中所指视频或视频内容包括图像流及其对应之声音信号(音频)。请参照图1A，其是依据本发明第一实施例绘示的视频内容提供装置示意图。在图1A中，视频内容提供装置100a可包括广角摄像头101、存储电路102、收音装置103及处理器104。在一实施例中，视频内容提供装置100a可安装于会议室中，用以通过广角摄像头101(例如是360度摄像头)捕获会议室中的多个会议参与者的图像流，并通过收音装置103(例如是具有360度收音范围的麦克风数组)收取各会议参与者的声音信号。

在一实施例中，视频内容提供装置100a所设置的位置例如可位于会议室的中间，藉以让出现于视频内容提供装置100a周围的事物都能由广角摄像头101捕获。在此情境下，视频内容提供装置100a周围的声音也都能由收音装置103所接收，但可不限于此。

在不同的实施例中，存储电路102例如是任意型式的固定式或可移动式随机存取内存(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flashmemory)、硬盘或其他类似装置或这些装置的组合，而可用以记录多个程序代码或模块。

在一些实施例中，处理器104耦接于广角摄像头101、存储电路102、收音装置103，并可为一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(Application Specific Integrated Circuit，ASIC)、现场可程序门阵列电路(Field Programmable Gate Array，FPGA)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(Advanced RISC Machine，ARM)的处理器以及类似品。

在一些实施例中，在广角摄像头101拍摄周遭环境之后，可相应地提供宽视角图像流V1至处理器104，宽视角的定义为水平可视角度120度以上。另外，在收音装置103收取周遭环境的声音之后，可相应地提供第一音频内容A1至处理器104，但可不限于此。

在一些实施例中，在处理器104取得宽视角图像流V1及第一音频内容A1之后，可据以产生一特定视频内容。在一实施例中，处理器104例如可将此特定视频内容提供予其他的应用程序/软件作后续应用。举例而言，当上述会议室内的人员使用视频内容提供装置100a与另一群人进行视频会议时，处理器104可将所产生的特定视频内容提供予视频会议软件。在此情况下，所述视频会议软件即可将对应于上述会议室的特定视频内容呈现于视频会议软件的介面上，以供上述视频会议的其他参与者观看，但可不限于此。

请参照图1B，其是依据本发明第二实施例绘示的视频内容提供装置及视频捕获装置的示意图。在图1B中，视频捕获装置110例如可包括图1A中的广角摄像头101及收音装置103。相似于图1A的视频内容提供装置100a，视频捕获装置110可安装于会议室中，用以通过广角摄像头101(例如是360度摄像头)捕获会议室中的多个会议参与者的图像流，并通过收音装置103(例如是具有360度收音范围的麦克风数组)收取各会议参与者的声音信号。

与图1A不同之处在于，图1B的视频捕获装置110在拍摄周遭环境及收取周遭环境的声音之后，可相应地提供宽视角图像流V1及第一音频内容A1至外部的视频内容提供装置100b(其例如是各式计算机装置及/或智能型装置)，以由视频内容提供装置100b基于宽视角图像流V1及第一音频内容A1产生上述特定视频内容，但可不限于此。于另一实施例中，广角摄像头101及收音装置103可分别为两个不同的装置，分别经由不同的路径提供宽视角图像流V1及第一音频内容A1给视频内容提供装置100b。

在视频内容提供装置100b产生上述特定视频内容之后，同样可将所产生的特定视频内容提供予视频会议软件以实现先前所提及的应用，但可不限于此。

如图1B所示，视频内容提供装置100b可包括存储电路102及处理器104，而其相关的可能实施方式可参照先前实施例中的说明，于此不另赘述。

在本发明的实施例中，第一实施例或第二实施例中的处理器104可存取存储电路102中记录的模块、程序代码来实现本发明提出的视频内容提供方法，其细节详述如下。

请参照图2，其是依据本发明的实施例绘示的视频内容提供方法流程图。本实施例的方法可由图1A的视频内容提供装置100a或图1B的视频内容提供装置100b执行，以下即搭配图1A及图1B所示的组件说明图2各步骤的细节。

首先，在步骤S210中，处理器104可取得宽视角图像流V1，并取得对应于宽视角图像流V1的第一音频内容A1，其中第一音频内容A1包括对应于多个声源方向的多个音频成分。

在不同的实施例中，处理器104可基于各式公知的音频方向检测(AudioOrientation Detection)及声源分离(Source Separation)的技术来识别上述各声源方向的音频成分。

在一些实施例中，在检测音频方向时，处理器104例如可使用麦克风数组以基于波束成形(beamforming)估计到达方向(direction of arrival，DOA)。此外，假设麦克风数组本身即设定有多个默认收音方向(例如0/90/180/270度)，则处理器104可直接将所收到的声音视为来自上述默认收音方向。在一实施例中，处理器104还可基于一种称为Ambisonics的装置/技术来进行声源方向的估计，而其细节可参考相关的现有技术文献，于此不另赘述。

在一些实施例中，在进行声源分离时，处理器104例如可基于波束成形器-最小平方法(beamformer-least square solution)、线性限制最小变异(Linearly constrainedminimum-variance，LCMV)波束成型器等方式进行声源分离。此外，处理器104亦可基于”A.Hyvaerinen,J.Karhunen,and E.Oja,“Independent component analysis,”JohnWiley&Sons,2001”及”P.Bofill and M.Zibulevsky,“Blind separation of moresources than mixtures using sparsity of their short-time Fourier transform,”Proc.ICA2000,pp.87-92,2000/06”等文献的内容来实现声源分离，但可不限于此。

概略而言，在处理器104取得由收音装置103提供的第一音频内容A1(其例如是麦克风讯号)之后，处理器104可利用声源方位估测技术而对多个声源的DOA进行追踪。之后，处理器104可进行多声源方位的估测与声源追踪。接着，处理器104可对所追踪的多个声源进行声源分离与切音(source separation and segmentation)，进而获得对应于上述声源方向的上述音频成分，但可不限于此。

在一些实施例中，宽视角图像流V1可具有一视觉角度范围，且第一音频内容A1具有一收音角度范围。在此情况下，处理器104可取得上述视觉角度范围的第一基准角度，并取得上述收音角度范围的第二基准角度，再将第一基准角度对齐第二基准角度。藉此，可避免宽视角图像流V1及第一音频内容A1之间因视觉/收音角度范围的不匹配而使得后续的检测出现错误。

为使上述概念更易于理解，以下辅以图3作进一步说明。请参照图3，其是依据本发明的实施例绘示的对齐基准角度的示意图。在图3中，假设宽视角图像流V1的视觉角度范围R1及第一音频内容A1的收音角度范围R2皆为360度(即，广角摄像头101的视角及收音装置103的收音角皆为360度)。此外，假设视觉角度范围R1的第一基准角R11为视觉角度范围R1的0度角，而收音角度范围R2的第二基准角R12为收音角度范围的0度角。

由图3可看出，第一基准角R11及第二基准角R12虽皆为0度角，但此二者之间并未对齐。在此情况下，可能使得之后的图像与声音无法得到良好的匹配。举例而言，假设第一基准角R11的方向上有一人正在发言，但收音装置103可能会判定声音来自于第二基准角R21。在此情况下，处理器104后续可能无法将发言人的图像及其所对应的声音信号作出适当的匹配。因此，处理器104可通过软件校正或其他所需的方式来将第一基准角R11对齐于第二基准角R12。藉此，即可避免出现上述情形，但可不限于此。

之后，在步骤S220中，处理器104可在宽视角图像流V1中决定多个感兴趣区域，并基于指定画面布局将所述多个感兴趣区域中的候选区域整合为第一画面。

请参照图4，其是依据本发明的实施例绘示决定感兴趣区域及候选区域的示意图。在图4中，图像411例如是宽视角图像流V1的其中一个图像，而其例如是一会议室图像。

在不同的实施例中，处理器104例如可基于脸部识别操作及人体识别操作的至少其中之一而在图像411中决定一或多个感兴趣区域，其中上述脸部/人体识别操作可通过相应的人工智能模型及/或深度学习模型执行。在其他实施例中，处理器104亦可通过机器学习、隐藏式马可夫模型(Hidden Markov Model，HMM)、支持向量机(support vectormachine，SVM)等方式执行。

在一些实施例中，用户亦可通过视频内容提供装置100a或100b提供的相关操作介面而手动在图像411框选所需的区域(例如黑板、投影布幕等)作为感兴趣区域之一，但可不限于此。

在一些实施例中，在决定一或多个感兴趣区域之后，处理器104可对各感兴趣区域进行对象追踪。例如，处理器104可先对各感兴趣区域进行特征提取(featureextraction)，再据以进行追踪。在一实施例中，若某感兴趣区域对应于一人体，则处理器104可先对此人体进行姿态估计。之后，处理器104可在一预定义的人体结构置于此感兴趣区域中，并将此人体结构对齐此感兴趣区域内的人体姿态。在另一实施例中，处理器104亦可基于前景检测(foreground detection)的方式对各感兴趣区域进行对象追踪，但可不限于此。

在一实施例中，经决定有多个感兴趣区域的图像411可如图像412所示。在图像412中，可包括感兴趣区域412a～412e。在一些实施例中，处理器104可监控任二感兴趣区域之间的距离，并判断此距离是否小于一默认距离门限值。在一实施例中，反应于判定上述感兴趣区域中的第一感兴趣区域及第二感兴趣区域之间的距离小于默认距离门限值，处理器104可将第一感兴趣区域及第二感兴趣区域合并为第三感兴趣区域，但可不限于此。

在一些实施例中，各感兴趣区域412a～412e可个别经识别有一属性，而此属性例如是多个默认属性的其中之一。在一些实施例中，所述多个默认属性例如包括”钉选”、”说话中”、”合并”、”包括复数个人”、”静态”及”已识别”等，但可不限于此。在一些实施例中，上述属性可由处理器104自行识别而得，或是由使用者手动选定而得，但可不限于此。

在一些实施例中，各感兴趣区域412a～412e还可因应于各自的属性而经设定有对应的优先度。举例而言，属性为”钉选”的感兴趣区域例如可具有优先度1(例如是最高优先度)；属性为”说话中”的感兴趣区域例如可具有优先度2；属性为”合并”、”包括复数个人”的感兴趣区域例如可具有优先度3；属性为”动态”的感兴趣区域例如可具有优先度4；属性为”静态”及”已识别”的感兴趣区域例如可具有优先度5(例如是最低优先度)，但可不限于此。

在一些实施例中，处理器104可基于不同的方式从感兴趣区域412a～412e中决定至少一候选区域。举例而言，假设感兴趣区域412d对应于一会议的主讲者，则使用者例如可手动选定感兴趣区域412d作为候选区域之一，如图像413所示，但可不限于此。

在一实施例中，处理器104例如可将候选区域的画面内容汇整于上述指定画面布局中，而此指定画面布局例如是多个默认画面布局之一。在不同的实施例中，各默认画面布局可包括一或多个画面格，而处理器104可在决定指定画面布局之后，依据指定画面布局中的画面格的数量来决定选择哪些感兴趣区域作为所需的候选区域。

在一实施例中，假设所选定的指定画面布局包括N个(N为正整数)画面格，则处理器104例如可从上述感兴趣区域随机选定N者作为候选区域。在另一实施例中，处理器104可基于各感兴趣区域的属性决定候选区域。举例而言，处理器104可基于各感兴趣区域的优先度将上述感兴趣区域降序排序，再从上述感兴趣区域中挑选排序在前的N者作为候选区域，但可不限于此。

请参照图5，其是依据本发明的实施例绘示的多个默认画面布局的示意图。在图5中，处理器104例如可依据台湾专利申请号109128198的内容(其全文以引用方式并入本文中)而从默认画面布局511～516中择一作为指定画面布局，或是由使用者手动从中择一作为指定画面布局，但可不限于此。

在一实施例中，假设默认画面布局513经选定作为指定画面布局。在此情况下，由于默认画面布局513包括4个(即，N为4)画面格513a～513d，因此处理器104例如可从上述感兴趣区域中选择具较高优先度的4者作为候选区域，但可不限于此。

请参照图6，其是依据本发明的实施例绘示的将候选区域整合为第一画面的示意图。在图6中，假设宽视角图像流V1中经决定有候选区域611～614。在此情况下，假设所选定的指定画面布局为图5的默认画面布局513，则处理器104可据以将候选区域611～614整合为第一画面620。由第一画面620可看出，候选区域611～614经安排于默认画面布局513的4个画面格中，但可不限于此。

请再参照图2，在将候选区域整合为第一画面之后，在步骤S230中，处理器104可从候选区域中挑选指定区域，并从所述多个声源方向中取得未对应于指定区域的第一声源方向。

在一实施例中，处理器104可依一定的原则从候选区域中挑选一或多者作为指定区域。例如，处理器104可在识别某些候选区域是对应于会议的主讲者之后，将这些候选区域视为指定区域。在另一实施例中，处理器104亦可在用户从候选区域中选定一或多者之后，将使用者所选定的这些候选区域定义为指定区域。在一些实施例中，处理器104也可将全部的候选区域皆视为指定区域，但可不限于此。

在决定指定区域之后，处理器104可取得对应于指定区域的视角，并从上述声源方向中找出未对应于此视角的特定声源方向。为便于说明，以下再以图6为例作说明。

在图6中，假设候选区域611～614中仅有候选区域613(其例如对应于主讲者)被选定为指定区域。在此情况下，处理器104可取得对应于候选区域613的视角(例如角度AN3)，并找出未对应于此视角的一或多个特定声源方向。

在一些实施例中，上述特定声源方向例如可对应于候选区域611、612、614及/或收音装置103所收到的其他声音的方向，但可不限于此。之后，处理器104可将上述特定声源方向作为未对应于指定区域的第一声源方向。

在图6情境中，处理器104例如可将对应于候选区域611、612、614的视角(即，角度AN1、AN2、AN4)的声源方向作为上述第一声源方向，但可不限于此。

之后，在步骤S240中，处理器104可从所述多个音频成分中找出对应于第一声源方向的第一音频成分。之后，在步骤S250中，处理器104可藉由抑制各第一音频成分以将第一音频内容A1调整为第二音频内容A2。

请参照图7A，其是依据本发明第三实施例绘示的抑制音频成分的示意图。在一实施例中，处理器104可从第一音频内容A1的声源方向中取得对应于指定区域的第二声源方向，并基于第一声源方向及第二声源方向产生滤波函数710，其中滤波函数710在第一声源方向的增益为抑制因子，且此抑制因子可小于1。

在图7A中，假设对应于指定区域的第二声源方向为170～190度及310～350度，而其他非第二声源方向的声源方向即可理解为第一声源方向。相应地，在处理器104所产生的滤波函数710中，对应于各第一声源方向的增益可为0，而对应于各第二声源方向的增益可为1，但可不限于此。

在此情况下，在将滤波函数710与第一音频成分A1相乘之后，仅有位于170～190度及310～350度的音频成分(其对应于指定区域)会被保留，而来自其他角度的音频成分将会被抑制，但可不限于此。

简言之，处理器104可将非来自于指定区域(例如是包括主讲者的区域)的音频成分予以抑制，进而提升第二音频内容A2的声音质量。

于另一实施例中，图2的步骤S250亦可实现为由处理器104藉由增强对应于指定区域的各第二音频成分以将第一音频内容A1调整为第二音频内容A2。也就是说，处理器104可从第一音频内容A1的声源方向中取得对应于指定区域的第二声源方向，并基于第一声源方向及第二声源方向产生滤波函数710，其中滤波函数710在第二声源方向的增益为一增强因子，且此增强因子可大于1。于另一实施例中，图2的步骤S250还可实现为处理器104抑制部分第一音频成分并增强部分第二音频成分以将第一音频内容A1调整为第二音频内容A2。

以图6情境为例，假设指定区域为对应于主讲者的候选区域613。在此情况下，处理器104可将来自于候选区域611、612、614的声音皆予以抑制，以产生第二音频内容A2。在此情况下，第二音频内容A2中将仅存在对应于主讲者的音频成分，而不会存在对应于其他非主讲者的音频成分。藉此，可有效地改善第二音频内容A2的声音质量。

应了解的是，在图7A情境中，由于增益为1的范围的两侧较为陡峭，因此当对应的发声源(例如主讲者)因移动而离开对应的角度范围时，相关的声音信号将急遽地被抑制，进而可能造成不佳的听觉感受。在一实施例中，本发明可另藉由图7B所示机制改善上述问题。

请参照图7B，其是依据图7A绘示的执行平滑化操作的示意图。在一实施例中，在产生滤波函数710之后，处理器104例如可对滤波函数710执行一平滑化操作。在图7B中，滤波函数710可理解为包括多个高度为1的方波，而处理器104例如可对各个方波乘以一高斯函数(或是其他可用于平滑化各方波的函数)，以对滤波函数710执行平滑化操作，但可不限于此。

在一实施例中，假设经平滑化操作后的滤波函数710呈现为滤波函数720。之后，处理器104可将滤波函数720与第一音频成分A1相乘，以产生第二音频成分A2。在此情况下，除了可将非来自于指定区域(例如是包括主讲者的区域)的音频成分予以抑制之外，还可避免出现上述声音频急遽地被抑制的情况，进而进一步改善第二音频内容A2的声音质量。

在其他实施例中，设计者亦可依需求而直接将滤波函数710设计为一平滑化函数，藉以让处理器104可通过将滤波函数710与第一音频成分A1相乘的方式来产生第二音频成分A2。藉此，可同样达到避免出现上述声音频急遽地被抑制的情况，进而进一步改善第二音频内容A2的声音质量。

在取得第二音频内容A2之后，在步骤S260中，处理器104可将第一画面与第二音频内容A2整合为特定视频内容，并提供特定视频内容。

以图6为例，在经上述教示取得对应于图6情境的第二音频内容A2之后，处理器104例如可将第一画面620与第二音频内容A2整合为对应的特定视频内容。如先前所提及的，处理器104例如可将此特定视频内容提供予视频会议软件。在此情况下，所述视频会议软件即可将此特定视频内容呈现于视频会议软件的介面上，以供上述视频会议的其他参与者观看。

并且，由于在特定视频内容中仅保留有对应于指定区域(其例如对应于主讲者)的音频内容，因此视频会议的其他参与者将不会听到非来自于指定区域的音频内容。藉此，可让视频会议的其他参与者体验到更佳的声音质量。

请参照图8，其是依据本发明的实施例绘示的应用情境图。在图8中，假设会议室A及B中的人员正在进行视频会议，且会议室A及B中分别设置有第一视频内容提供装置及一第二视频内容提供装置(其个别可实现为图1A的视频内容提供装置100a)。在此情况下，位于会议室A中的第一视频内容提供装置例如可依上述教示而基于指定区域811～813而产生第一画面810。并且，第一视频内容提供装置还可依上述教示而产生对应的第二音频内容A2a，而此第二音频内容A2a例如可仅保留对应于指定区域811～813的音频内容。之后，第一视频内容提供装置可将第一画面810及第二音频内容A2a整合为特定视频内容，并提供予视频会议软件。在此情况下，位于会议室B内的人员即可看到第一画面810，并可仅听到对应于指定区域811～813的音频内容。

在图8中，位于会议室B中的第二视频内容提供装置亦可执行相似的操作，以让位于会议室A内的人员可看到第一画面820，并可仅听到对应于指定区域821～823的音频内容，但可不限于此。

在一些实施例中，用户亦可从指定区域811～813、821～823中点选欲抑制声音的一或多者。在此情况下，第一/第二视频内容提供装置可再相应地将使用者所选的一或多者对应的音频内容进行抑制，但可不限于此。举例来说，在图8中位于会议室A内的人员可再对第一画面810，点选欲抑制声音的一或多者，例如相对应811的位置，而使会议室B内的人员仅听到对应于指定区域812及813的音频内容；位于会议室A内的人员亦可再对第一画面820点选欲抑制声音的一或多者，例如相对应821的位置，而使会议室A内的人员仅听到对应于指定区域822及823的音频内容。于另一实施例中，用户亦可从指定区域811～813、821～823中点选欲增强声音的一或多者，或者同时或分别选择抑制声音以及增强声音的一或多者。

请参照图9，其是依据本发明的实施例绘示的另一应用情境图。在本实施例中，位于会议室A中的第一视频内容提供装置可执行先前实施例中教示的操作，以让位于会议室B内的人员可看到第一画面910，并可仅听到对应于指定区域911～912的音频内容。在图9中，第一视频内容提供装置例可在检测到指定区域911是对应于主讲者之后，自动将第一画面910切换为子母画面。于另一实施例中，并可增强指定区域911的音频内容，使得对应于主讲者之指定区域911音量大于指定区域912。

相似地，位于会议室B中的第二视频内容提供装置可执行先前实施例中教示的操作，以让位于会议室A内的人员可看到以子母画面呈现的第一画面920，并可仅听到对应于指定区域921～922的音频内容，但可不限于此。于另一实施例中，同样可增强指定区域921的音频内容，使得对应于主讲者之指定区域921音量大于指定区域922。

综上所述，本发明实施例可在基于宽视角图像流而决定一或多个指定区域之后，将这些指定区域整合为第一画面，并将第一音频内容中未对应于指定区域的音频成分予以抑制，以产生第二音频内容。之后，本发明可将第一画面及第二音频内容整合为特定视频内容。在此情况下，观看上述特定视频内容的用户即可仅听到对应于指定区域的音频成分，从而得到较佳的收听质量。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频内容提供方法，适于视频内容提供装置，其特征在于，包括：

取得宽视角图像流，并取得对应于所述宽视角图像流的第一音频内容，其中所述第一音频内容包括对应于多个声源方向的多个音频成分；

在所述宽视角图像流中决定多个感兴趣区域，并基于指定画面布局将所述多个感兴趣区域中的至少一候选区域整合为第一画面；

从所述至少一候选区域中挑选至少一指定区域，并从所述多个声源方向中取得未对应于所述至少一指定区域的至少一第一声源方向；

从所述多个音频成分中找出对应于所述至少一第一声源方向的至少一第一音频成分；

藉由抑制各所述第一音频成分以将所述第一音频内容调整为第二音频内容；以及

将所述第一画面与所述第二音频内容整合为特定视频内容，并提供所述特定视频内容。

2.根据权利要求1所述的方法，其中各所述感兴趣区域是经手动选取操作、脸部识别操作及人体识别操作的至少其中之一决定。

3.根据权利要求1所述的方法，其中所述宽视角图像流具有视觉角度范围，且所述第一音频内容具有收音角度范围，且在取得所述宽视角图像流，并取得对应于所述宽视角图像流的所述第一音频内容之后，所述方法还包括：

取得所述视觉角度范围的第一基准角度，并取得所述收音角度范围的第二基准角度；以及

将所述第一基准角度对齐所述第二基准角度。

4.根据权利要求1所述的方法，其中从所述多个声源方向中取得未对应于所述至少一指定区域的所述至少一第一声源方向的步骤包括：

取得对应于所述至少一指定区域的至少一视角；

从所述多个声源方向中找出未对应于所述至少一视角的至少一特定声源方向，并以所述至少一特定声源方向作为未对应于所述至少一指定区域的所述至少一第一声源方向。

5.根据权利要求1所述的方法，其中在所述宽视角图像流中决定所述多个感兴趣区域的步骤包括：

反应于判定所述多个感兴趣区域中的第一感兴趣区域及第二感兴趣区域之间的距离小于默认距离门限值，将所述第一感兴趣区域及所述第二感兴趣区域合并为第三感兴趣区域，并使所述多个感兴趣区域包括所述第三感兴趣区域。

6.根据权利要求1所述的方法，其中各所述感兴趣区域具有属性，且所述方法还包括：

基于各所述感兴趣区域的所述属性决定所述至少一候选区域。

7.根据权利要求6所述的方法，其中所述指定布局包括N个画面格，各所述感兴趣区域的所述属性为优先度，且基于各所述感兴趣区域的所述属性决定所述至少一候选区域的步骤包括：

基于各所述感兴趣区域的所述优先度将所述多个感兴趣区域降序排序；以及

从所述多个感兴趣区域中挑选排序在前的N者作为所述至少一候选区域，其中N为正整数。

8.根据权利要求1所述的方法，其中藉由抑制所述至少一第一音频成分以将所述第一音频内容调整为所述第二音频内容的步骤包括：

从所述多个声源方向中取得对应于所述至少一指定区域的至少一第二声源方向；

基于所述至少一第一声源方向及所述至少一第二声源方向产生滤波函数，其中所述滤波函数在所述至少一第一声源方向的增益为抑制因子，其中所述抑制因子小于1；以及

将所述第一音频内容乘以所述滤波函数，以将所述第一音频内容调整为所述第二音频内容。

9.根据权利要求8所述的方法，其中在将所述第一音频内容乘以所述滤波函数的步骤之前，所述方法还包括：

对所述滤波函数执行平滑化操作。

10.根据权利要求8所述的方法，其中所述滤波函数为平滑化函数。

11.根据权利要求1所述的方法，其中藉由抑制所述至少一第一音频成分以将所述第一音频内容调整为所述第二音频内容的步骤包括：

基于所述至少一第一声源方向及所述至少一第二声源方向产生滤波函数，其中所述滤波函数在所述至少一第二声源方向的增益为增强因子，其中所述增强因子大于1；以及

12.根据权利要求1所述的方法，其中藉由抑制所述至少一第一音频成分以将所述第一音频内容调整为所述第二音频内容的步骤包括：

基于所述至少一第一声源方向及所述至少一第二声源方向产生滤波函数，其中所述滤波函数在所述至少一第一声源方向的增益为抑制因子，所述滤波函数在所述至少一第二声源方向的增益为增强因子，其中所述抑制因子小于1，所述增强因子大于1；以及

13.根据权利要求1所述的方法，其中各所述感兴趣区域具有权重，且在将所述第一音频内容调整为所述第二音频内容的过程中，还包括：

从所述多个音频成分中找出对应于所述至少一第二声源方向的至少一第二音频成分；以及

基于各所述指定区域的所述权重调整对应的各所述第二音频成分。

14.根据权利要求13所述的方法，其中基于各所述指定区域的所述权重调整对应的各所述第二音频成分的步骤包括：

基于各所述指定区域的所述权重决定各所述指定区域的调整因子，其中各所述指定区域的所述调整因子正相关各所述指定区域的所述权重；以及

将各所述第二音频成分乘以对应的所述调整因子。

15.根据权利要求1所述的方法，其中从所述至少一候选区域中挑选所述至少一指定区域的步骤包括：

从所述至少一候选区域中识别对应于至少一讲者的至少一区域，并将所述至少一区域定义为所述至少一指定区域。

16.根据权利要求1所述的方法，其中从所述至少一候选区域中挑选所述至少一指定区域的步骤包括：

从所述至少一候选区域中找出经手动选定的至少一区域，并将所述至少一区域定义为所述至少一指定区域。

17.根据权利要求1所述的方法，其中所述视频内容提供装置包括广角摄像头及收音装置，且所述方法包括：

通过所述广角摄像头取得所述宽视角图像流，并通过所述收音装置取得对应于所述宽视角图像流的所述第一音频内容。

18.根据权利要求1所述的方法，其中提供所述特定视频内容的步骤包括：

将所述特定视频内容作为视频会议内容而提供至视频会议软件。

19.一种视频内容提供装置，其特征在于，包括：

存储电路，其存储程序代码；以及

处理器，其耦接所述存储电路，并存取所述程序代码以执行：

20.根据权利要求19所述的视频内容提供装置，还包括：

广角摄像头，用以拍摄所述宽视角图像流；以及

收音装置，用以接收对应于所述宽视角图像流的所述第一音频内容。