CN115567670A

CN115567670A - 会议检视方法及装置

Info

Publication number: CN115567670A
Application number: CN202110750995.3A
Authority: CN
Inventors: 周辰威
Original assignee: Xinhua Technology Co ltd
Current assignee: Xinhua Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-01-03

Abstract

本发明提供一种会议检视方法及装置，其可在取得某特定会议的宽视角视频、相关的会议事件数据及各参与者的发言内容之后，相应地产生此特定会议的精华视频。藉此，可提升会议检视的效率。

Description

会议检视方法及装置

技术领域

本发明涉及一种信息记录技术，且特别是涉及一种会议检视方法及装置。

背景技术

在现有技术中，常见的视频会议纪录软件多半都是直接录制整场视频会议的画面来产生会议记录。然而，此种方式除了造成录制的内容过于冗长之后，事后也难以用于查找到所需的会议重点部分。此外，上述方式通常也不一定能够录制到观看者想看的会议部分，而此这种情况在所使用的摄像机视角大于180度时更为严重。

发明内容

有鉴于此，本发明提供一种会议检视方法及装置，其可用于解决上述技术问题。

本发明提供一种会议检视方法，包括：取得一特定会议的一宽视角视频及关联于宽视角视频的多个会议事件数据，其中各会议事件数据对应于特定会议的一时间点，且各会议事件数据记录有在对应的时间点的一发言者的一声源方向及发言者在宽视角视频中的一影像范围；取得特定会议的多个参与者个别的发言内容；在宽视角视频中决定多个特定时间区段，并依据各特定时间区段对应的所述多个会议事件数据找出各特定时间区段中的至少一讨论者；取得各特定时间区段中的各讨论者的发言内容；将各特定时间区段的各讨论者的讨论画面及发言内容整理为对应的一讨论影音片段；将各特定时间区段对应的讨论影音片段组织为对应于特定会议的一会议记录视频。

本发明提供一种会议检视装置，包括存储电路及处理器。存储电路存储一程序代码。处理器其耦接存储电路，存取程序代码以执行：取得一特定会议的一宽视角视频及关联于宽视角视频的多个会议事件数据，其中各会议事件数据对应于特定会议的一时间点，且各会议事件数据记录有在对应的时间点的一发言者的一声源方向及发言者在宽视角视频中的一影像范围；取得特定会议的多个参与者个别的发言内容；在宽视角视频中决定多个特定时间区段，并依据各特定时间区段对应的所述多个会议事件数据找出各特定时间区段中的至少一讨论者；取得各特定时间区段中的各讨论者的发言内容；将各特定时间区段的各讨论者的讨论画面及发言内容整理为对应的一讨论影音片段；将各特定时间区段对应的讨论影音片段组织为对应于特定会议的一会议记录视频。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1A是依据本发明的实施例绘示的会议记录装置示意图。

图1B是依据本发明的实施例的宽视角会议画面的示意图。

图2是依据本发明的实施例绘示的会议事件数据示意图。

图3是依据本发明的实施例绘示的会议检视装置示意图。

图4是依据本发明的实施例绘示的会议检视方法流程图。

图5A是依据本发明第一实施例绘示的决定特定时间区段的示意图。

图5B是依据本发明第二实施例绘示的决定特定时间区段的示意图。

图6是依据本发明第三实施例绘示的决定特定时间区段的示意图。

图7是依据本发明的实施例绘示的产生讨论影音片段的示意图。

图8是依据图7绘示的设置锚点示意图。

图9是依据本发明的实施例绘示的产生会议记录视频的示意图。

具体实施方式

现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在图式和描述中用来表示相同或相似部分。

一般而言，常见的会议记录系统大多包括以下技术：(1)波束成形(beamforming)：可透麦克风阵列估算声音来源的方位；(2)对象追踪(object tracking)：追踪会议画面中的指定对象；(3)人物寻找(people finding)：可找出会议画面中的特定人物所在位置；(4)讲者视图(speaker view)：可自动将摄像机对准发声来源进行拍摄；(5)与会者模式：自动把整个会议的大画面缩减至只保留与会者的画面；(6)存储会议记录：直接录制整场视频会议的画面；(7)将声音转换为文字(voice to text)；(8)自然语言处理：包括翻译、摘要等。

请参照图1A，其是依据本发明的实施例绘示的会议记录装置示意图。在不同的实施例中，会议记录装置100可实现为各式智能型装置及/或计算机装置。

如图1A所示，会议记录装置100可包括存储电路102及处理器104。存储电路102例如是任意型式的固定式或可移动式随机存取内存(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash memory)、硬盘或其他类似装置或这些装置的组合，而可用以记录多个程序代码或模块。

处理器104耦接于存储电路102，并可为一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可程序门阵列电路(Field Programmable Gate Array，FPGA)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(Advanced RISCMachine，ARM)的处理器以及类似品。

在本发明的实施例中，处理器104可存取存储电路102中记录的模块、程序代码来实现本发明提出的会议记录方法，其细节详述如下。

在一实施例中，为使本发明的概念更易于理解，以下另辅以图1B作进一步说明，其中图1B是依据本发明的实施例的宽视角会议画面的示意图。

在图1B中，会议画面110例如是由设置于一会议场所中的宽视角摄像机 (其视角可大于或等于180度)所拍摄的某一个宽视角会议画面，但可不限于此。

在一实施例中，在取得会议画面110之后，会议记录装置100的用户可在会议画面110中将感兴趣的人物及/或对象(例如白板)以对应的长方框框出。另外，处理器104也可自动对会议画面110进行人物侦测，以将会议画面110中所侦测到的人物以对应的长方框框出，进而产生如会议画面120所示的内容。在经过上述操作之后，可会议画面110可相应地改变为包括多个长方框(例如长方框120a、120b)的会议画面120。

在一些实施例中，用户可自行对会议画面120中的各长方框编辑对应的标签(例如人名/物体名等)。举例而言，假设长方框120a、120b个别对应于会议的参与者，则用户可将各长方框120a、120b的标签写入对应的参与者名称，但可不限于此。此外，处理器104亦可自行将会议画面120中的一或多个长方框的标签以某些默认的名称显示。例如，对应于某些参与者的长方框，处理器104可将其标签编辑为”人物1”、”人物2”等预设名称。相似地，对应于某些物体的长方框，处理器104可将其标签编辑为”物体1”、”物体2”等默认名称，但可不限于此。

经过上述操作之后，会议画面120可相应地改变为会议画面130，其中各长方框可具有对应的标签，例如对应于长方框120a的标签130a，以及对应于长方框120b的标签130b，但可不限于此。

在一些实施例中，用户可在会议画面130中选取需要追踪的一或多个长方框(例如对应于主讲者的长方框)，而会议画面130可相应地改变为如会议画面140所示的内容。在此情况下，处理器104即会持续追踪位于所选取的一或多个长方框(例如长方框120c)内的人物/物体，并相应地让长方框随着此人物/物体的移动而移动。

在一实施例中，处理器104还可侦测会议中声音的声源方向，并基于此声源方向在会议画面140中找出对应的长方框。藉此，处理器104即可得知上述声音是由哪一个长方框所对应的人物所发出。在一实施例中，处理器104 可将对应于声源方向的长方框以特殊方式标记(例如改为某种特定颜色)，以突显当下是哪个长方框内的人物在发出声音，如会议画面150所例示的长方框120d。在一实施例中，处理器104还可将上述声音进行语音识别，以获得长方框120d内人物的发言内容(例如逐字稿)。

在一些实施例中，处理器104例如可基于波束成形、到达方向(direction ofarrival，DOA)、声源定位(sound localization)、唇部侦测(lip detection)、脸部辨识等技术来判定上述声音的声源方向及其对应的长方框，但可不限于此。

基于上述概念，处理器104可记录整场会议中的每个参与者在每个会议画面中的影像范围(即，对应的长方框)、其相关的发言内容及相关的时间点，但可不限于此。

请参照图2，其是依据本发明的实施例绘示的会议事件数据示意图。在本实施例中，处理器104可将会议中出现的各个会议事件以对应的会议事件数据进行记录，其中各会议事件例如对应于会议中的一或多个参与者的说话状态发生改变的时间点(例如从未说话改变为说话，或是从说话改变为停止说话)，但可不限于此。

在图2中，各会议事件相关的会议事件数据例如可采用格式200进行记录。举例而言，假设在时间点T1时出现了会议中的第1个会议事件，则处理器104可基于格式200而将相关的信息记录为会议事件数据210。在一实施例中，会议事件数据210例如可记录有所述第1个会议事件的索引值 (即，”1”)、时间点T1、事件内容(即，”参与者A及C开始说话”)、参与者A的声源方向及影像范围(即，当下对应于参与者A的长方框范围)、参与者C的声源方向及影像范围(即，当下对应于参与者C的长方框范围)，但可不限于此。并且，在产生会议事件数据221的同时，处理器104还可基于先前的教示一并将参与者A及C的相关发言内容予以记录。

此外，假设在时间点T2时出现了会议中的第2个会议事件，则处理器 104可基于格式200而将相关的信息记录为对应的会议事件数据221。在一实施例中，会议事件数据221例如可记录有所述第2个会议事件的索引值 (即，”2”)、时间点T2、事件内容(即，”参与者A停止说话”)、参与者A 的声源方向及影像范围。

在其他实施例中，由于所述第2个会议事件亦可理解为”参与者C持续说话”，故处理器104还可基于格式200而将所述第2个会议事件相关的信息记录为会议事件数据222。在一实施例中，会议事件数据222例如可记录有所述第2个会议事件的索引值(即，”2”)、时间点T2、事件内容(即，”参与者 C持续说话”)、参与者C的声源方向及影像范围。换言之，会议事件数据221 及222是对于同一个会议事件的不同记录方式，但可不限于此。并且，在产生会议事件数据221、222的同时，处理器104还可基于先前的教示一并将参与者C的相关发言内容予以记录。

针对其他的会议事件(例如”参与者C停止说话”、”参与者C开始说话”等)，处理器104亦可基于以上教示的方式将相关的信息记录为对应的会议事件数据，其细节于此不另赘述。

在一些实施例中，假设某个会议是由位于不同会议场所的参与者同步参与时，处理器104仍可基于上述教示而产生相关的会议事件数据。举例而言，假设在会议室A及B中分别设置有宽视角摄像机C及D，且会议室A及B 中的人员系参与同一场在线会议。在此情况下，处理器104可在接收宽视角摄像机C及D针对此在线会议所拍摄的会议画面时，执行先前实施例中教示的机制，以综合宽视角摄像机C及D的会议画面而产生上述在线会议相关的会议事件数据，但可不限于此。

在一些实施例中，本发明还提出一种会议检视方法，其可在取得某特定会议的宽视角视频(其包括所述特定会议的多个会议画面)及相关的会议事件数据之后，将较为冗长的所述宽视角视频以较为精简的会议记录视频(其可理解为上述特定会议的精华片段)呈现。藉此，可让用户可仅基于此会议记录视频即理解上述特定会议的大致内容。相关细节详述如下。

请参照图3，其是依据本发明的实施例绘示的会议检视装置示意图。在不同的实施例中，会议检视装置300可实现为各式智能型装置及/或计算机装置。

如图3所示，会议检视装置300可包括存储电路302及处理器304，其中存储电路302及处理器304个别可能的实施方式可参照存储电路102及处理器104，于此不另赘述。

在一些实施例中，会议记录装置100及会议检视装置300可实现为同一个装置，也可实现为不同的装置。

在本发明的实施例中，处理器304可存取存储电路302中记录的模块、程序代码来实现本发明提出的会议检视方法，其细节详述如下。

请参照图4，其是依据本发明的实施例绘示的会议检视方法流程图。在本实施例中，图4的方法可由图3的会议检视装置300执行，以下即搭配图 3所示的组件说明图4各步骤的细节。

首先，在步骤S410中，处理器304可取得特定会议的宽视角视频及关联于宽视角视频的多个会议事件数据。在一实施例中，假设会议记录装置100 系用于录制上述特定会议的宽视角视频及产生相关的会议记录数据，则处理器304例如可从会议记录装置100接收处理器104针对上述特定会议记录的宽视角视频及相关的会议事件数据，但可不限于此。

之后，在步骤S420中，处理器304可取得特定会议的多个参与者个别的发言内容。在一实施例中，处理器304还可从会议记录装置100接收处理器 104针对上述特定会议的各参与者记录的发言内容，但可不限于此。

在步骤S430中，处理器304可在宽视角视频中决定多个特定时间区段，并依据各特定时间区段对应的所述多个会议事件数据找出各特定时间区段中的讨论者。

在不同的实施例中，处理器304可基于不同的方式在宽视角视频中决定上述特定时间区段，以下将作进一步说明。

请参照图5A，其是依据本发明第一实施例绘示的决定特定时间区段的示意图。在本实施例中，处理器304例如可提供宽视角视频的会议时间轴50，以让用户自行在会议时间轴50上标示所需的一或多个时间段。假设用户在会议时间轴50上标示有多个指定时间区段50a～50c，则处理器304可以指定时间区段50a～50c作为步骤S430中的所述多个特定时间区段。

请参照图5B，其是依据本发明第二实施例绘示的决定特定时间区段的示意图。在本实施例中，处理器304例如可提供宽视角视频的会议时间轴50以供用户参考。此外，处理器304还可提供上述特定会议的各参与者在特定会议中的参与讨论时间轴，其中各参与者的参与讨论时间轴可标示有各参与者在特定会议中的参与讨论区间。

举例而言，假设上述特定会议包括参与者1至参与者K(其中K为正整数)，则处理器304可基于上述特定会议的相关会议记录数据而提供参与者1 至参与者K个别的参与讨论时间轴501～50K。在参与者1的参与讨论时间轴 501中，处理器304可标示有参与者1在特定会议中的参与讨论区间501a～501c，其中各参与讨论区间501a～501c例如是参与者1曾参与讨论(例如，发言)的时间区间，但可不限于此。相似地，在参与者K的参与讨论时间轴50K中，处理器304可标示有参与者K在特定会议中的参与讨论区间 50Ka～50Kc，其中各参与讨论区间50Ka～50Kc例如是参与者K曾参与讨论(例如，发言)的时间区间，但可不限于此。

基于参与讨论时间轴501～50K，用户即可得知哪个参与者在哪段时间曾参与讨论，进而决定欲在会议时间轴50上标示的一或多个时间段。假设用户在会议时间轴50上标示图5A中的指定时间区段50a～50c，则处理器304可以指定时间区段50a～50c作为步骤S430中的所述多个特定时间区段，但可不限于此。

请参照图6，其是依据本发明第三实施例绘示的决定特定时间区段的示意图。在本实施例中，处理器304可提供上述特定会议的参与者供选取。在图6中，处理器304可显示对应于上述参与者的图标60a～60c，而用户可从中选取一或多个欲关注的参与者。

举例而言，假设用户欲找出参与者Claire及Benny分别作为主讲者的参与讨论区间时，用户可相应地选取图标60a及60c。在此情况下，处理器304 可在宽视角视频的会议时间轴60上标示Claire及Benny在上述特定会议中的参与讨论区间61a～61c。

在图6中，依据上述会议事件数据，处理器304还可针对各参与讨论区间61a～61c提供对应的讨论者清单62a～62c，而用户即可据以得知在各参与讨论区间61a～61c参与讨论的讨论者。并且，处理器304还可在讨论者清单 62a～62c将当下的主讲者以特定方式加以强调，以让用户得知各参与讨论区间 61a～61c中的主讲者。

举例而言，假设Claire在参与讨论区间61a及61b中为主讲者，则处理器304可相应地在讨论者清单62a及62b中将Claire的图标以较大的尺寸呈现。举另一例而言，假设Benny在参与讨论区间61c中为主讲者，则处理器 304可相应地在讨论者清单62c中将Benny的图标以较大的尺寸呈现。藉此，用户即可得知Claire为参与讨论区间61a及61b中的主讲者，而Benny为参与讨论区间61c中的主讲者，但可不限于此。

此外，在提供参与讨论区间61a～61c之后，用户还可自行依需求调整各参与讨论区间61a～61c的大小。举例而言，假设参与讨论区间61a原本的时间起点及时间终点为所示的0:15:00至0:25:00，则用户可自行将上述时间起点及时间终点分别调整为所需的值，例如所示的0:14:00及0:26:00，但可不限于此。之后，处理器304即可将(经调整的)各参与讨论区间61a～61c作为步骤S430中的所述多个特定时间区段，但可不限于此。

在以上情境中，虽假设用户欲关注某些参与者作为主讲者的参与讨论区间，但在其他实施例中，用户亦可基于其他的原则来决定欲关注的参与者的特性。例如，在一些实施例中，假设用户欲找出参与者Claire及Benny分别作为讨论者的参与讨论区间时，用户可在触发处理器304提供相关的搜寻功能/接口后，相应地选取图标60a及60c。在此情况下，处理器304亦可在宽视角视频的会议时间轴60上标示Claire及Benny在上述特定会议中作为讨论者的参与讨论区间61a～61c，但可不限于此。

在其他实施例中，处理器304还可基于其他原则决定宽视角视频中的上述特定时间区段。举例而言，在第四实施例中，处理器304可先提供如图5A 所示的宽视角视频的会议时间轴50。之后，处理器304可取得用户所设定的一指定人数。

在一实施例中，处理器304可依据上述指定人数在会议时间轴50上标示多个第一参考时间区段。在一实施例中，各第一参考时间区段对应的参与者数量可不低于上述指定人数。具体而言，由于会议的过程中可能会有部分参与者因故而中途离开或加入，故在用户设定指定人数之后，处理器304可将上述特定会议过程中的参与者数量不小于指定人数的时间区段找出，以作为上述第一参考时间区段。藉此，可排除某些参与者数量过少的时间区段(例如休息时间)。

在另一实施例中，各第一参考时间区段对应的讨论者数量可不低于上述指定人数。具体而言，由于会议的过程中可能会有某些部分较多人热烈参与讨论，也可能会有某些部分只有少数人零星参与讨论。在此情况下，在用户设定指定人数之后，处理器304可将上述特定会议过程中较多人参与讨论的时间区段找出，以作为上述第一参考时间区段。藉此，可找出较为热烈的讨论区间。

在提供上述第一参考时间区段供用户参考之后，用户可从中选取一或多个指定时间区段(例如图5A中的指定时间区段50a～50c)。之后，处理器304 可相应地以上述指定时间区段作为步骤S430中的所述多个特定时间区段。

在第五实施例中，在决定宽视角视频中的上述特定时间区段的过程中，处理器304可先提供如图5A所示的宽视角视频的会议时间轴50。之后，处理器304可提供一关键词搜寻框，以供用户输入感兴趣的关键词。

在一实施例中，在取得用户于关键词搜寻框输入的搜寻关键词之后，处理器304可据以在会议时间轴50标示多个第二参考时间区段，其中所述特定会议的参与者在各第二参考时间区段中的发言内容可包括上述搜寻关键词。简言之，在取得搜寻关键词之后，处理器304可找出曾有参与者提及搜寻关键词的时间区段，并将这些时间区段取出作为上述第二参考时间区段。

在提供上述第二参考时间区段供用户参考之后，用户可从中选取一或多个指定时间区段(例如图5A中的指定时间区段50a～50c)。之后，处理器304 可相应地以上述指定时间区段作为步骤S430中的所述多个特定时间区段，但可不限于此。

在依上述教示决定宽视角视频中的上述特定时间区段之后，处理器304 可依据各特定时间区段对应的所述多个会议事件数据找出各特定时间区段中的讨论者。

以图2为例，假设某特定时间区段D1涵盖图2中的时间点T1及T2，则处理器304可基于对应于时间点T1及T2的会议事件数据210、221(或 222)而得知此特定时间区段D1中的讨论者包括参与者A及C，但可不限于此。

在其他实施例中，处理器304除了依据用户选取的一或多个指定时间区段来决定所述多个特定时间区段之外，还可依适当的机制自动决定所述多个特定时间区段。

举例而言，在所述第四实施例中，在处理器304依据上述指定人数在会议时间轴50上标示所述多个第一参考时间区段之后，处理器304可直接以这些第一参考时间区段作为步骤S430中的所述多个特定时间区段，但可不限于此。

在一实施例中，处理器304例如可从参与者中辨识特定会议的特定参与者(例如是整个特定会议的主讲者或是用户关注的其他参与者)，并提供此特定参与者在上述特定会议中的参与讨论时间轴。在一实施例中，此特定参与者的参与讨论时间轴可标示有此特定参与者在上述特定会议中的一或多个参与讨论区间。之后，处理器304可从此特定参与者的上述参与讨论区间中找出多个指定时间区段，并以这些指定时间区段作为步骤S430中的所述多个特定时间区段。在一实施例中，处理器304依上述方式找出的各指定时间区间之间的时间差可大于一时间门限值。藉此，可避免处理器304所找出的指定时间区间之间因过于相近而无法较佳地表征整场特定会议的内容，但可不限于此。

在一些实施例中，处理器304还可将先前各实施例中的指定时间区段往前/后扩展一段时间，再将扩展后的指定时间区段作为步骤S430中的所述多个特定时间区段，但可不限于此。

接着，在步骤S440中，处理器304可取得各特定时间区段中的各讨论者的发言内容。再以上述特定时间区段D1为例，在已知其中的讨论者包括参与者A及C之后，处理器304即可依据特定时间区段D1中的各个时间点而找出参与者A及C在特定时间区段D1中的发言内容，但可不限于此。

在步骤S450中，处理器304可将各特定时间区段的各讨论者的讨论画面及发言内容整理为对应的讨论影音片段。

在一实施例中，处理器304对于各特定时间区段所执行的用于产生对应讨论影音片段的机制大致相同，故以下暂以上述特定时间区段中的第i个(i 为索引值，且为正整数)特定时间区段为例作说明，但可不限于此。

概略而言，处理器304可找出属于所述第i个特定时间区段的一或多个讨论者，为与前述各讨论者区别，此处第i个特定时间区段的一或多个讨论者被称为第一讨论者，并找出各第一讨论者在所述第i个特定时间区段中的第一讨论画面及第一发言内容。之后，处理器304可依据指定画面布局将各第一讨论者的第一讨论画面及第一发言内容整理为对应于所述第i个特定时间区段的讨论影音片段。在一实施例中，上述指定画面布局可包括发言内容框及对应各第一讨论者的第一画面框，其中各第一画面框可呈现各第一讨论者的第一讨论画面，发言内容框可包括各第一讨论者的第一发言内容，且各第一讨论者的第一发言内容可依各第一讨论者的发言时间排序于发言内容框中。为使以上概念更易于理解，以下另辅以图7作进一步说明。

请参照图7，其是依据本发明的实施例绘示的产生讨论影音片段的示意图。在图7中，假设处理器304依先前实施例的教示而在会议时间轴70上决定了特定时间区段71。在此情况下，处理器304可找出属于特定时间区段71 的讨论者。为便于说明，以下假设特定时间区段71中的讨论者即为图6中的Claire及Benny，但可不限于此。

相应地，处理器304可找出Claire及Benny在特定时间区段71中的讨论画面及发言内容，并依据指定画面布局72将Claire及Benny在特定时间区段 71中的讨论画面及发言内容整理为对应于特定时间区段71的讨论影音片段。

在图7中，指定画面布局72可包括发言内容框72c及对应各讨论者的画面框72a及72b。在一实施例中，指定画面布局72例如可将特定时间区段71 中的主讲者(例如Claire)的讨论画面以较大的画面框72a呈现，并将其他讨论者(例如Benny)的讨论画面以较小的画面框72b呈现。并且，发言内容框72c可包括Claire及Benny在特定时间区段71中的发言内容，且这些发言内容可依各Claire及Benny的发言时间排序于发言内容框72c中。

在此情况下，在播放对应于特定时间区段71的讨论影音片段时，即可看到Claire及Benny在特定时间区段71中发表相关言论时的讨论画面，但可不限于此。

在不同的实施例中，以上由处理器304使用的指定画面布局亦可依设计者的需求而调整为其他布局形式，并不限于图7所示的子母画面态样。在一些实施例中，处理器304可自行决定指定画面布局的态样，或是由用户自行选择所需的态样作为指定画面布局，但可不限于此。

在一些实施例中，由于所述第i个特定时间区段中的一或多个第一讨论者可能会因故而在所述第i个特定时间区段中的某个子时间区段中不具有对应的第一讨论画面，因此处理器304可相应地调整上述第一讨论者在此子时间区段中的第一画面框的内容。

再以图7为例，假设Benny在特定时间区段71中的某个子时间区段中未具有对应的讨论画面。在此情况下，处理器304可找出对应于Benny的画面框72b，并在此子时间区段中将画面框72b显示为默认图(例如是一人像图) 或空白图，或是将此子时间区段调整为未包括画面框72b的画面布局(例如仅包括画面框72a的画面布局)，但可不限于此。

在一些实施例中，对于所述第i个特定时间区段而言，用户可进一步在其中设置锚点，以将所述第i个特定时间区段依序划分为多个子时间区段，并对各子时间区段设定不同的画面布局。

请参照图8，其是依据图7绘示的设置锚点示意图。在图8中，在决定特定时间区段71之后，假设用户另于特定时间区段71中设置锚点81(其对应的时间点例如是”0:20:00”)，则处理器304可据以将特定时间区段71划分为子时间区段71a及71b。

在本实施例中，处理器304例如可依据一第一画面布局82(其可相同于图7的指定画面布局72)将Claire与Benny在子时间段71a中的讨论画面及发言内容整理为对应于子时间段71a的第一子讨论影音片段。另外，处理器 304还可依据第二画面布局83将Claire与Benny在子时间段71b中的讨论画面及发言内容整理为对应于子时间段71b的第二子讨论影音片段。

在图8中，第二画面布局83可包括发言内容框83c及对应各讨论者的画面框83a及83b。在一实施例中，第二画面布局83例如可将子时间区段71b 中的讨论者(例如Benny及Claire)以相同尺寸的画面框83a及83b呈现。并且，发言内容框83c可包括Claire及Benny在子时间区段71b中的发言内容，且这些发言内容可依各Claire及Benny的发言时间排序于发言内容框83c 中，但可不限于此。

之后，处理器304可将第一子讨论影音片段及第二子讨论影音片段依序拼接为对应于特定时间区段71的讨论影音片段。在此情况下，在播放对应于特定时间区段71的讨论影音片段时，即可依序看到对应于第一画面布局82 的第一子讨论影音片段及对应于第二画面布局83的第二子讨论影音片段，但可不限于此。

在一些实施例中，在将特定时间区段71划分为子时间区段71a及71b之后，处理器304还可进一步在排序在前的子时间区段71a的结尾片段(例如是最后的一至数秒)插入一转场动画，其中此转场动画可用于将第一画面布局82转换为第二画面布局83。在此情况下，在播放对应于特定时间区段71 的讨论影音片段时，即可依序看到对应于第一画面布局82的第一子讨论影音片段、上述转场动画及对应于第二画面布局83的第二子讨论影音片段，但可不限于此。

在其他实施例中，用户可依需求而在所需的特定时间区段中设置所需数量的锚点，而处理器304所相应执行的操作可参考上述教示而得知，于此不另赘述。

在取得各特定时间区段对应的讨论影音片段之后，在步骤S460中，处理器304可将各特定时间区段对应的讨论影音片段组织为对应于特定会议的会议记录视频(其可理解为上述特定会议的精华片段)。

请参照图9，其是依据本发明的实施例绘示的产生会议记录视频的示意图。在本实施例中，假设处理器304在决定特定时间区段50a～50c之后，已依据上述教示而产生分别对应于特定时间区段50a～50c的讨论影音片段 90a～90c。在此情况下，处理器304例如可将讨论影音片段90a～90c依序组合为对应于上述特定会议的会议记录视频910，但可不限于此。

在一些实施例中，各特定时间区段对应的讨论影音片段还可经设定有不同的帧率，藉以在播放会议记录视频时达到缩时/慢速播放的效率。

以图9为例，假设用户欲让讨论影音片段90b、90c在被播放时产生缩时 /加速播放的效果，则用户例如可将讨论影音片段90a设定为第一帧率(例如 30帧/秒)，并将讨论影音片段90b、90c设定为高于第一帧率的第二帧率(例如60帧/秒)。之后，处理器304可再将讨论影音片段90a～90c依序组合为对应于上述特定会议的会议记录视频910。藉此，在播放会议记录视频910的过程中，当播放到讨论影音片段90b、90c的部分时，即会因帧率的改变而使得讨论影音片段90b、90c出现缩时/加速播放的效果，但可不限于此。

进一步而言，相较于公知以舍弃部分帧的方式来达到缩时/加速播放效果的作法，本发明的作法可更为完整地保留所有的画面。

另一方面，假设用户欲让讨论影音片段90b、90c在被播放时产生慢速播放的效果，则用户例如可将讨论影音片段90a设定为第一帧率(例如30帧/ 秒)，并将讨论影音片段90b、90c设定为低于第一帧率的第二帧率(例如15 帧/秒)。之后，处理器304可再将讨论影音片段90a～90c依序组合为对应于上述特定会议的会议记录视频910。藉此，在播放会议记录视频910的过程中，当播放到讨论影音片段90b、90c的部分时，即会因帧率的改变而使得讨论影音片段90b、90c出现慢速播放的效果，但可不限于此。

在一些实施例中，在进行缩时/慢速播放的调整时，处理器304亦可在保持音调的情况下对声音部分进行相应的调整，但可不限于此。

在一些实施例中，处理器304还可依据上述会议事件数据将各参与者的发言内容整理为可编辑逐字稿，其中此可编辑逐字稿可将各参与者的发言内容依对应的发言时间进行排序。在一些实施例中，处理器304还可提供对上述可编辑逐字稿进行翻译/摘要的功能。此外，用户还可在上述可编辑逐字稿选取一或多个段落，而处理器304可从用户所选的一或多个段落中找出主讲者(例如是发言内容最多的参与者)。此外，用户还可自行手动编辑上述可编辑逐字稿的内容。在一些实施例中，用户还可从参与者中选择欲关注的一者，而处理器304可相应地找出此参与者的相关发言内容的逐字稿，以供用户参考/编辑，但不限于此。

在一些实施例中，处理器304可依一定原则从上述可编辑逐字稿中找出一或多个文字片段，再将相应的画面进行结合，以产生对应的会议记录视频。举例而言，处理器304可依据各文字片段对应的互动热烈程度、语调起伏程度、语句间隔时间等因素对各文字片段进行评分，其中各文字片段的分数可正相关于其对应的互动热烈程度、语调起伏程度，并负相关于其对应的语句间隔时间，但可不限于此。

在一些实施例中，假设上述特定会议在进行时，相关人员曾在某些时间点将其发言模式切换为主讲者模式(即，只有主讲者在发言)，则处理器304 可将对应于主讲者模式的时间区段取出作为上述特定时间区段，但可不限于此。

在一些实施例中，假设上述宽视角视频中还包括如中国台湾专利申请号109145738(其全文以引用方式并入本文中)中所提及的感兴趣区域(region of interest，ROI)时，则处理器304可将各ROI的属性发生变化时的时间点找出，并将与这些时间点相关的时间区段取出作为上述特定时间区段，但可不限于此。

综上所述，本发明可在取得特定会议的宽视角视频相关的会议事件数据及各参与者的发言内容之后，让用户手动在宽视角视频中决定多个特定时间区段，或是由本发明的会议检视装置自动依一定的原则决定上述特定时间區段。之後，本發明的方法可將各特定時間區段的各討論者的討論畫面及發言內容整理為對應的討論影音片段，其中各特定時間區段對應的討論影音片段可採用對應的佈局畫面呈現各討論者的討論畫面及發言內容。接著，本發明的方法可將各特定時間區段對應的討論影音片段組織為對應於特定會議的會議記錄视频。藉此，本發明的方法可智慧地將冗長且不易查看的的寬視角视频濃縮為精簡的精華片段，進而改進檢視會議的效率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种会议检视方法，其特征在于，包括：

取得特定会议的宽视角视频及关联于所述宽视角视频的多个会议事件数据，其中各所述会议事件数据对应于所述特定会议的时间点，且各所述会议事件数据记录有在对应的所述时间点的发言者的声源方向及所述发言者在所述宽视角视频中的影像范围；

取得所述特定会议的多个参与者个别的发言内容；

在所述宽视角视频中决定多个特定时间区段，并依据各所述特定时间区段对应的所述多个会议事件数据找出各所述特定时间区段中的至少一讨论者；

将各所述特定时间区段的各所述讨论者的讨论画面及各所述讨论者的所述发言内容整理为对应的讨论影音片段；

将各所述特定时间区段对应的所述讨论影音片段组织为对应于所述特定会议的会议记录视频。

2.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

提供所述宽视角视频的会议时间轴；

反应于判定所述会议时间轴经用户标示有多个指定时间区段，以所述多个指定时间区段作为所述多个特定时间区段。

3.根据权利要求2所述的方法，更包括：

提供各所述参与者在所述特定会议中的参与讨论时间轴，其中各所述参与者的所述参与讨论时间轴标示有各所述参与者在所述特定会议中的至少一参与讨论区间。

4.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

提供所述特定会议的所述多个参与者供选取；

反应于判定所述多个参与者中的第一参与者经所述用户选取，在所述宽视角视频的会议时间轴上标示所述第一参与者在所述特定会议中的至少一参与讨论区间；

以所述第一参与者的所述至少一参与讨论区间作为所述多个特定时间区段。

5.根据权利要求4所述的方法，更包括：

依据所述多个会议事件数据找出在所述第一参与者的所述至少一参与讨论区间中的所述至少一讨论者，并将各所述参与讨论区间对应的各所述讨论者以对应于各所述参与讨论区间的讨论者清单呈现。

6.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

提供所述宽视角视频的会议时间轴；

取得指定人数，并据以在所述会议时间轴标示多个第一参考时间区段，其中各所述第一参考时间区段对应的参与者数量或讨论者数量不低于所述指定人数；

反应于判定所述多个第一参考时间区段经所述用户选定有多个指定时间区段，以所述多个指定时间区段作为所述多个特定时间区段。

7.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

提供所述宽视角视频的会议时间轴；

取得搜寻关键词，并据以在所述会议时间轴标示多个第二参考时间区段，其中所述多个参与者在各所述第二参考时间区段中的所述发言内容包括所述搜寻关键词；

反应于判定所述多个第二参考时间区段经所述用户选定有多个指定时间区段，以所述多个指定时间区段作为所述多个特定时间区段。

8.根据权利要求1所述的方法，其中所述多个特定时间区段包括第i个特定时间区段，i为正整数，且将各所述特定时间区段的各所述讨论者的讨论画面及所述发言内容整理为对应的所述讨论影音片段的步骤包括：

找出属于所述第i个特定时间区段的至少一第一讨论者，并找出各所述第一讨论者在所述第i个特定时间区段中的第一讨论画面及第一发言内容；

依据指定画面布局将各所述第一讨论者的所述第一讨论画面及所述第一发言内容整理为对应于所述第i个特定时间区段的所述讨论影音片段，其中所述指定画面布局包括发言内容框及对应所述至少一第一讨论者的至少一第一画面框，其中各所述第一画面框呈现各所述第一讨论者的所述第一讨论画面，所述发言内容框包括各所述第一讨论者的所述第一发言内容，且各所述第一讨论者的所述第一发言内容依各所述第一讨论者的发言时间排序于所述发言内容框中。

9.根据权利要求8所述的方法，其中反应于判定所述至少一第一讨论者中的第二讨论者在所述第i个特定时间区段中的子时间区段不具有对应的所述第一讨论画面，所述方法更包括：

在所述至少一第二画面框中找出对应于所述第二讨论者的第三画面框；

在所述子时间区段中将所述第三画面框显示为默认图或空白图，或是将所述子时间区段调整为未包括所述第三画面框的另画面布局。

10.根据权利要求1所述的方法，其中所述多个特定时间区段包括第i个特定时间区段，i为正整数，且所述方法更包括：

找出属于所述第i个特定时间区段的至少一第三讨论者，并找出各所述第三讨论者在所述第i个特定时间区段中的第一讨论画面及第一发言内容；

反应于判定所述第i个特定时间区段中经插入有锚点，依据所述锚点将所述所述第i个特定时间区段依序划分为第一子时间段及第二子时间段；

依据第一画面布局将各所述第三讨论者在所述第一子时间段中的所述第一讨论画面及所述第一发言内容整理为对应于所述第一子时间段的第一子讨论影音片段；

依据第二画面布局将各所述第三讨论者在所述第二子时间段中的所述第一讨论画面及所述第一发言内容整理为对应于所述第二子时间段的第二子讨论影音片段；

将所述第一子讨论影音片段及所述第二子讨论影音片段依序拼接为对应于所述第i个特定时间区段的所述讨论影音片段。

11.根据权利要求10所述的方法，更包括：

在所述第一子讨论影音片段的结尾片段插入转场动画，其中所述转场动画用于将所述第一画面布局转换为所述第二画面布局。

12.根据权利要求1所述的方法，更包括：

依据所述多个会议事件数据将各所述参与者的所述发言内容整理为可编辑逐字稿。

13.根据权利要求1所述的方法，其中所述多个特定时间区段包括第i个特定时间区段及第i+1个特定时间区段，i为正整数，且将各所述特定时间区段对应的所述讨论影音片段组织为对应于所述特定会议的所述会议记录视频的步骤更包括将对应于所述第i个特定时间区段的所述讨论影音片段设定为第一帧率，将对应于所述第i+1个特定时间区段的所述讨论影音片段设定为第二帧率，且所述第一帧率不同于所述第二帧率。

14.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

从所述多个参与者中辨识所述特定会议的特定参与者，并提供所述特定参与者在所述特定会议中的参与讨论时间轴，其中所述特定参与者的所述参与讨论时间轴标示有所述特定参与者在所述特定会议中的至少一参与讨论区间；

从所述特定参与者的所述至少一参与讨论区间中找出多个指定时间区段，并以所述多个指定时间区段作为所述多个特定时间区段，其中各所述指定时间区间之间的时间差大于时间门限值。

15.根据权利要求1所述的方法，其中在所述宽视角视频中决定所述多个特定时间区段的步骤包括：

提供所述宽视角视频的会议时间轴；

以所述多个第一参考时间区段作为所述多个特定时间区段。

16.根据权利要求1所述的方法，其中所述宽视角视频的视角大于或等于180度。

17.根据权利要求1所述的方法，更包括：

于所述宽视角视频中标出多个感兴趣的人物及/或对象，所述多个感兴趣的人物及/或对象至少部分对应于所述多个参与者；

选择性地以多个标签标注所述多个感兴趣的人物及/或对象的至少一部分；以及

选择性地令用户选取用以对应于所述多个参与者之所述多个感兴趣的人物及/或对象之所述至少部分。

18.一种会议检视装置，其特征在于，包括：

存储电路，其存储程序代码；以及

处理器，其耦接所述存储电路，存取所述程序代码以执行：

取得所述特定会议的多个参与者个别的发言内容；