CN103607556B

CN103607556B - 视频会议系统及其实现方法

Info

Publication number: CN103607556B
Application number: CN201310603760.7A
Authority: CN
Inventors: 方文腾; 谭小刚
Original assignee: Vtron Technologies Ltd
Current assignee: Vtron Group Co Ltd
Priority date: 2013-11-25
Filing date: 2013-11-25
Publication date: 2017-06-13
Anticipated expiration: 2033-11-25
Also published as: CN103607556A

Abstract

本发明提供一种视频会议系统及其实现方法，所述方法包括以下步骤：获取视频会议中预定的语音信息，对所述语音信息进行分析；根据所述语音信息的分析结果，对语音信息进行筛选，并获取包含预定词汇的语音数据；获取视频会议中预定的手势动作情况，对所述手势动作情况进行分析；根据手势动作情况的分析结果获取所述手势动作的运动轨迹；根据所述语音数据和/或运动轨迹获取相应的图像，并将图像嵌入至视频会议的视频流中。本发明的视频会议系统及其实现方法使得视频会议中预定的部分内容可通过图像可视化显示，从而有效提高了视频会议的质量。

Description

视频会议系统及其实现方法

技术领域

本发明涉及视频会议领域，特别是涉及一种视频会议系统的实现方法及一种视频会议系统。

背景技术

视频会议中最主要的信息传递方式是通过与会人员的语音交流来进行，对于摄像头只是用于展示出人的动作和表情。当发言人需要让其他与会人员了解到自己所描述的某个具体的物体时，通常会局限于语言和动作的表现能力，不少时候与会人员不明白发言人描述的物体。因此在视频会议的时候发言人往往需要通过更多的发言和手势来帮助与会人员了解描述的物体。

但是通常由于发言人的动作和发言始终是对物体的间接描述，描述的过程中不可避免会存在一定的差异和信息的丢失，从而导致视频会议的质量较低。

发明内容

针对上述视频会议的质量较低的问题，本发明提供一种视频会议系统及其实现方法。

一种视频会议系统的实现方法，包括以下步骤：

获取视频会议中预定的语音信息，对所述语音信息进行分析；

根据所述语音信息的分析结果对语音信息进行筛选，并获取包含预定词汇的语音数据；

获取视频会议中预定的手势动作情况，对所述手势动作情况进行分析；

根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹；

根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中。

一种视频会议系统，包括：

语音信息分析模块，用于获取视频会议中预定的语音信息，对所述语音信息进行分析；

语音数据获取模块，根据所述语音信息的分析结果对语音信息进行筛选，并获取包含预定词汇的语音数据；

手势动作情况分析模块，用于获取视频会议中预定的手势动作情况，对所述手势动作情况进行分析；

运动轨迹获取模块，用于根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹；

图像嵌入模块，用于根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中。

由以上方案可以看出，本发明的视频会议系统及其实现方法，通过视频会议中预定的语音数据和/或手势运动轨迹获取相应的图像，将该图像嵌入至视频会议的视频流中相应的位置，使得视频会议中预定的部分内容可通过图像可视化显示，从而有效提高了视频会议的质量。

附图说明

图1为本发明实施例中的一种视频会议系统的实现方法的流程示意图；

图2为本发明实施例中的步骤S103的流程示意图；

图3为本发明实施例中的步骤S105的流程示意图；

图4为本发明实施例中的一种视频会议系统结构示意图；

图5为本发明实施例中的一种手势动作情况分析模块结构示意图；

图6为本发明实施例中的一种图像嵌入模块结构示意图。

具体实施方式

下面结合附图以及具体的实施例，对本发明的技术方案作进一步的描述。

本实施例中以在视频会议中讨论鼠标造型设计为例。

如图1所示，一种视频会议系统的实现方法，包括以下步骤：

步骤S101，获取视频会议中预定的语音信息，对所述语音信息进行分析。

获取视频会议中发言人在发言时的语音信息，利用语音识别技术将语音信息进行识别，根据识别后的语音信息进行分析。例如，当视频会议的发言人在讨论鼠标造型设计的时候，提及到某个公司的鼠标产品，希望能该公司的鼠标产品作为造型设计，这时候发言人只要说出：“例如XX公司的鼠标，该鼠标的侧面是这样的，......”，则获取该发言人所将的内容，并根据发言人所述的内容进行分析，分析结果可包括：XX公司、鼠标、鼠标侧面、这样的、......。

步骤S102，根据所述语音信息的分析结果，对语音信息进行筛选，并获取包含预定词汇的语音数据。例如对上述的分析结果进行筛选，并获取包含有XX公司、鼠标、鼠标侧面等关键词汇的语音数据。

步骤S103，获取视频会议中预定的手势动作情况，对所述手势动作情况进行分析。

作为一个较好的实施例，如图2所示，步骤S103可以包括以下步骤：

步骤S1031，获取视频会议中发言人在比划过程中的手势动作情况后，将包括手势动作情况的视频流解析成若干帧的图像；例如，当视频会议中的发言人在说出：“例如XX公司的鼠标，侧面是这样的......”同时，并在特定的时间内通过手势比划出下鼠标形状、鼠标侧面的形状等手势动作情况（例如在说到“XX公司的鼠标”时比划处鼠标的形状；或者在说到“侧面是这样的”时比划鼠标侧面的形状或者侧面具有的图案）。

步骤S1032，根据视频的帧率给各帧图像打上时间标签；

步骤S1033，根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；

步骤S1034，根据所述分析结果获取各时间片内的手势动作信息，该手势的动作信息可包括在各时间片内的运动轨迹等信息。

步骤S104，根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹；可根据分析结果中各时间片内的运动轨迹得到发言人在某段时间内所比划的图案。

步骤S105，根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像视频会议的视频流中。该图案可为发言人在某段时间内比划时运动轨迹和/或语音数据相对应的图案，例如所述图案可为发言人在说到“侧面是这样的”，并同时通过比划出鼠标侧面的形状或者侧面具有的图案、与发言人的语音信息汇总包含有“XX公司的鼠标”关键词的语音数据想对应的图案。图案嵌入的位置可以由手势的位置决定，嵌入的时间则可以根据手势当前对应的时间标签确定。

作为一个较好的实施例，如图3所示，所述步骤S105可以包括以下步骤：

步骤S1051，对视频会议中发言人在发言过程中包括的所述语音数据及运动轨迹进行分析。

本实施例中分析完成后的分析结果可包括语音数据及运动轨迹所描述的图案的形状、类别等信息。此步骤中利用语音和手势运动轨迹相结合的方式可以进行互补，通过手势运动轨迹描绘出发言人想要表示的图像的大致轮廓，然后根据语音信息中的包含关键词汇的语音数据不断去修正该大致轮廓。因此同时对语音数据及运动轨迹进行分析可进一步提高发言人在发言过程中所描绘的图像的准确性。

步骤S1052，根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像。可采用历史优化分析时系统先去查询数据库中的数据，判断数据库中是否存在与关键词匹配的语音数据，即数据库中是否存在与关键词具有一定匹配率图像。该判断过程可根据系统的配置来确定。

步骤S1053，若步骤S1052判断的结果为否，即数据库中不存在与该语音数据及运动轨迹相匹配的图像，则可以根据所述手势的运动轨迹生成与手势的运动轨迹匹配的图像。在说明数据库中的图像均匀当前的语音数据及运动轨迹相似率达不到相应的要求，则重新对手势和语音内容集进行一个分析，生成与手势的运动轨迹一致的图像，根据图像的时间标签将图像嵌入之视频会议的视频流中，并将新生成的图像保存至数据库内。如果任务发言人已经准备开始描述另外一个话题，则将目前的分析语音数据和手势动作信息保存至数据库中，再进行下一轮图像显示过程。

作为一个较好的实施例，还可以包括步骤S1054：若步骤S1052判断的结果为是，即说明数据库中存在与该语音数据及运动轨迹相匹配的图像，则说明当前的语音数据及运动轨迹是已经曾经处理过，则可以直接从数据库中获取所述图像，另外还可在发言人比划的图像填充上去。根据图像的时间标签将图像视频流中。

作为一个较好的实施例，本发明在步骤S103之后、步骤S105之前，还可以包括以下步骤：

将所述包含预定词汇的语音数据打上时间标签；

根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。使得由于图像与声音同步的，最后将同步过的视频发送到显示设备进行显示，而音频发送到语音输出设备进行播放。

与实施例中的一种视频会议系统的实现方法相对应，本发明还提供一种视频会议系统，如图4所示，包括：

语音信息分析模块101，用于获取视频会议中预定的语音信息，对所述语音信息进行分析；

语音数据获取模块102，用于根据所述语音信息的分析结果获取包含预定词汇的语音数据；

手势动作情况分析模块103，用于获取视频会议中预定的手势动作情况，对所述手势动作情况进行分析；

运动轨迹获取模块104，用于根据所述手势动作情况的分析结果获取所述手势动作的运动轨迹；

图像嵌入模块105，用于根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像嵌入视频会议的视频流中。

作为一个较好的实施例，如图5所示，所述手势动作情况分析模块103可以包括：

视频流解析模块1031，用于获取视频会议中预定的手势动作情况后，将手势动作情况的视频流解析成若干帧的图像；

图像标记时间标签模块1032，用于根据视频的帧率给各帧图像打上时间标签；

图像分析模块1033，用于根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；

手势动作轨迹获取模块1034，根据所述分析结果获取各时间片内的手势动作轨迹。

作为一个较好的实施例，所述视频会议系统还可以包括：

筛选模块，用于对语音数据获取模块中获取的包含各词汇的语音数据根进行筛选，获取包含预定词汇的语音数据；

语音数据标记时间标签模块，用于将所述包含预定词汇的语音数据打上时间标签；

同步模块，用于根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。

作为一个较好的实施例，如图6所示，所述图像嵌入模块105可以包括：

语音数据及运动轨迹分析模块1051，用于对所述语音数据及运动轨迹进行分析；

判断模块1052，用于根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像；

图像生成模块1053，用于在所述判断模块的判断结果为否的情况下，根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

作为一个较好的实施例，所述图像嵌入模块还可以包括：

图像获取模块，用于在所述判断模块的判断结果为是的情况下，从数据库中获取所述图像。

本实施例中一种视频会议系统的其它技术特征与实施例中的一种视频会议系统的实现方法相同，此处不予赘述。

需要说明的是，除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

通过上述实施例的方案可以看出，本发明的视频会议系统及其实现方法，通过视频会议中预定的语音数据和/或手势运动轨迹获取相应的图像，将该图像嵌入至视频会议的视频流中相应的位置，使得视频会议中预定的部分内容可通过图像可视化显示，从而有效提高了视频会议的质量。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频会议系统的实现方法，其特征在于，包括以下步骤：

根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内语音数据和/或手势比划时运动轨迹相对应的图案；

根据所述语音数据和/或运动轨迹获取相应的图像，包括：

根据手势比划时运动轨迹得到相应的图像轮廓，根据所述语音数据修正所述图像轮廓。

2.根据权利要求1所述的视频会议系统的实现方法，其特征在于，所述获取视频会议中预定的手势动作情况、对所述手势动作情况进行分析的过程包括以下步骤：

获取视频会议中预定的手势动作情况后，将手势动作情况的视频流解析成若干帧的图像；

根据视频的帧率给各帧图像打上时间标签；

根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；

根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势动作信息。

3.根据权利要求2所述的视频会议系统的实现方法，其特征在于，在所述获取包含预定词汇的语音数据的过程之后、根据所述语音数据和/或运动轨迹获取相应的图像之前，还包括以下步骤：

将所述包含预定词汇的语音数据打上时间标签；

根据所述语音数据的时间标签及各帧图像的时间标签将语音数据与手势动作进行同步。

4.根据权利要求1所述的视频会议系统的实现方法，其特征在于，根据所述语音数据和/或运动轨迹获取相应的图像的过程包括以下步骤：

对所述语音数据及运动轨迹进行分析；

根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像；

若否，则根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

5.根据权利要求4所述的视频会议系统的实现方法，其特征在于，还包括步骤：

当数据库中存在与所述语音数据以及运动轨迹相匹配的图像时，则从数据库中获取所述图像。

6.一种视频会议系统，其特征在于，包括：

图像嵌入模块，用于根据所述语音数据和/或运动轨迹获取相应的图像，并将该图像嵌入到视频会议的视频流中；该图像为所述视频会议中发言人在某段时间内语音数据和/或手势比划时运动轨迹相对应的图案；

根据所述语音数据和/或运动轨迹获取相应的图像，包括：

7.根据权利要求6所述的视频会议系统，其特征在于，所述手势动作情况分析模块包括：

视频流解析模块，用于获取视频会议中预定的手势动作情况后，将手势动作情况的视频流解析成若干帧的图像；

图像标记时间标签模块，用于根据视频的帧率给各帧图像打上时间标签；

图像分析模块，用于根据所述时间标签对所述各帧图像进行分片，对各时间分片的图像进行分析；

手势动作信息获取模块，根据所述对各时间分片的图像进行分析的分析结果获取各时间片内的手势动作信息。

8.根据权利要求7所述的视频会议系统，其特征在于，该视频会议系统还包括：

9.根据权利要求6所述的视频会议系统，其特征在于，所述图像嵌入模块包括：

语音数据及运动轨迹分析模块，用于对所述语音数据及运动轨迹进行分析；

判断模块，用于根据分析结果判断数据库中是否存在与该语音数据及运动轨迹相匹配的图像；

图像生成模块，用于在所述判断模块的判断结果为否的情况下，根据所述手势的运动轨迹生成与手势的运动轨迹一致的图像。

10.根据权利要求9所述的视频会议系统，其特征在于，所述图像嵌入模块还包括：