CN115118913A

CN115118913A - 一种投影视频会议系统及投影视频方法

Info

Publication number: CN115118913A
Application number: CN202110328346.4A
Authority: CN
Inventors: 张亚军
Original assignee: Apra Co
Current assignee: Apra Co
Priority date: 2021-03-17
Filing date: 2021-03-26
Publication date: 2022-09-27
Also published as: US20220303320A1

Abstract

本申请公开了一种投影视频会议系统，包括：摄像模组，用于摄取会议场景的图像信息并生成会议视频；音频输入模组，用于采集会议场景的语音信号，所述语音信号包含可识别的语音指令和语音信息；信号处理模组，用于对所述语音信息进行复制处理和转换，以得到与所述会议视频同步输出的文本信息；投影模组，用于同步显示所述会议视频和文本信息；其中，所述信号处理模组还用于将所述文本信息与所述会议视频的每帧图像进行图像融合，以得到带有字幕信息的会议视频，并通过云服务同步输出所述带有字幕信息的会议视频和语音信息。通过上述方式，本申请能够输出带有字幕信息的会议视频，实现了语音信息的可视化呈现，且集成度高，方便携带。

Description

一种投影视频会议系统及投影视频方法

技术领域

本申请涉及视频会议技术领域，具体涉及一种投影视频会议系统及投影视频方法。

背景技术

疫情肆虐，视频会议这一便捷、无接触、实时性较强的办公模式受到越来越多企业的青睐，视频会议这一沟通模式也到了越来越快的发展。然而，目前的视频会议主要考虑不同场景下的视频画面的展示情况，并未对场景采集到的其他信息做充分的利用，在特殊场景下，会议双方的人无法捕捉到对方视频的语音信号或者对方的语音信号难以识别，造成了较差的用户体验。同时，现有的通过对摄像头、电视屏、音响、麦克风和会议控制设备(比如电脑)进行组合，跟对方视频会议系统建立即拨即通的视频会议，也存在设备昂贵，安装和使用灵活度差，体积较大，不方便携带的缺点。

发明内容

本申请提供一种投影视频会议系统，包括：摄像模组，用于摄取会议场景的图像信息并生成会议视频；音频输入模组，用于采集会议场景的语音信号，所述语音信号包含可识别的语音指令和语音信息；信号处理模组，用于对所述语音信息进行复制处理和转换，以得到与所述会议视频同步输出的文本信息；投影模组，用于同步显示所述会议视频和文本信息；其中，所述信号处理模组还用于将所述文本信息与所述会议视频的每帧图像进行图像融合，以得到带有字幕信息的会议视频，并通过云服务同步输出所述带有字幕信息的会议视频和语音信息。

在一实施方式中，所述信号处理模组包括信号识别处理器，所述信号识别处理器用于字幕需求对应的字幕开关状态信息进行判断，包括：对信号处理模组的字幕开关的物理按键的开关状态进行识别，得到字幕开关状态信息，并执行与字幕开关状态信息对应的操作。

在一实施方式中，所述信号处理模组包括信号识别处理器，所述信号识别处理器用于字幕需求对应的字幕开关状态信息进行判断，包括：对所述语音指令进行识别，得到关键词信息，并执行与所述关键词信息相应的字幕开关操作。

在一实施方式中，所述信号识别处理器还用于检测所述关键词信息与预设的词库中的关键词信息是否相同，若相同，则执行与所述关键词信息相应的操作；其中，所述关键词信息包括命令关键词/词组或确认关键词/词组，所述命令关键词/词组包括打开/关闭所述信号处理模组的字幕开关，所述确认关键词/词组包括是或否。

在一实施方式中，所述信号处理模组还包括信息转换处理器，所述信息转换处理器包括第一信息转换器和第二信息转换器，所述第一信息转换器用于判断当前语音信息的类型并将所述语音信息复制后转化为初始文本信息，所述第二信息转换器用于将所述初始文本信息转化并修正为显示文本信息。

在一实施方式中，所述信号处理模组还包括信息融合处理器，所述信息融合处理器用于按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合。

在一实施方式中，所述投影视频会议系统还包括缓存模组，所述缓存模组用于将所述信号处理模组转换后的文本信息进行存储，其中，所述缓存模组包括：缓存处理器，用于判断当前视频会议的进展状态，并根据视频会议的状态执行对应的操作；缓存存储器，将所述文本信息以日志的形式进行保存。

在一实施方式中，所述音频输入模组和所述信号处理模组还包括定位降噪模块，用于对采集的所述语音信号进行定位判断，并进行降噪处理。

在一实施方式中，所述投影视频会议系统还包括音频输出模组，所述音频输出模组用于播放所述信号处理模组发送的经云服务传输后的音频信号。

本申请还提供一种投影视频方法，包括：

获取由摄像模组摄取的图像信息生成的会议视频；

获取由音频输入模组采集的会议场景的语音信号；

判断当前的字幕开关状态，若为开，则对所述语音信息进行复制处理和转换以得到与所述会议视频同步输出的文本信息；

融合所述文本信息到所述会议视频的每帧图像中以得到带有字幕信息的会议视频；

同步发送所述带有字幕信息的会议视频至所述投影模组。

在一实施例中，所述对所述语音信息进行复制处理和转换以得到与所述会议视频同步输出的文本信息的步骤包括：

复制所述语言信息以得到复制后的语音信息；

判断当前语言信息的类型，并根据当前语音信息的类型转化所述复制后的语音信息转化为初始文本信息；

修正所述初始文本信息为显示文本信息。

在一实施例中，所述融合所述文本信息到所述会议视频的每帧图像中以得到带有字幕信息的会议视频的步骤包括：

按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合。

在一实施例中，所述按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合的步骤包括：

获取当前会议视频对应时刻的图像的显示分辨率。

生成与当前会议视频对应时刻的图像的显示分辨率大小相等的灰度值均为0的空矩阵。

将文本信息对应的灰度值信息像素级赋值到空矩阵,得到文本信息对应的矩阵图像。

将该矩阵图像与当前帧会议视频图像进行求和，得到带有字幕信息的会议视频。

通过上述方案，本申请的有益效果是：本申请中的投影视频会议系统通过一个系统集成设置了摄像模组、音频输入模组、信号处理模组以及投影模组，集成度较高，摄像模组采集会议场景，提供高清全景的效果；信号处理模组将音频输入模组采集的语音信号进行识别和处理，将会议场景中的语音信息进行复制并转换为文本信息，并将文本信息与摄像模组采集到的会议视频进行融合处理以得到带有字幕信息的会议视频，实现了将语音信息进行可视化呈现，同时，利用投影模组来对带有字幕信息的高清视频或会议对方发送的视频进行投影时，由于采用投影模组来显示会议场景，可直接将视频投影在墙上，无需显示屏即可进行显示，体积较小，方便用户携带；此外，还将语音控制引进了视频会议系统，提供语音识别和语音控制功能，通过语音识别和控制来实现对视频会议系统的控制，比如，可通过语音控制开启字幕开关等，实现智能控制，无需用户用手来控制设备，简化用户的操作。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的视频会议系统一实施例的结构示意图；

图2是本申请提供的信号处理模组一实施例的结构示意图；

图3是本申请提供的信号处理模组另一实施例的结构示意图；

图4是是本申请提的信号处理模组再一实施例的结构示意图；

图5是本申请提供的一种视频会议方法的示意图；

图6是本申请提供的另一种视频会议方法的示意图；

图7是本申请提供的再一种视频会议方法的示意图；

图8是本申请提供的再又一种视频会议方法的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前的视频会议主要考虑不同场景下的视频画面的展示情况。现有视频会议为由电视屏、摄像头、麦克风、音箱、遥控器和电脑等各自独立的设备组合而成，摄像头通常安装在电视屏顶部，用来极大化摄入会议场景，但是，这种视频会议在人员较多时会出现重叠现象，通过视频传给远端后会出现部分人员比较清晰，越往后要么被重叠挡住视野，要么因为距离摄像头太远看不清楚；麦克风和音箱通常远离电视屏，布置在会议桌面上，方便采集会议人员的语音信息以及播出会议对方发送过来的语音信息；由于音频设备和视频设备互相独立，在网络情况不佳时会存在同步失真，会议质量会变得较差；电脑用来启动和管理视频会议或分享屏幕等，也就是，目前的视频会议系统并未对场景采集到的信息做充分的利用，在特殊场景下，如与会人员较多、语言习惯不同，环境嘈杂等，从而造成会议双方的人无法捕捉到对方视频的语音信号或者对方的语音信号难以识别，用户体验较差。同时，现有的通过对摄像头、电视屏、音响、麦克风和会议控制设备(比如电脑)进行组合，跟对方视频会议系统建立即拨即通的视频会议，也存在设备昂贵，安装和使用灵活度差，体积较大，不方便携带的缺点。

本申请旨在解决上述视频会议系统所存在的问题，给用户带来新的视频会议体验，可便携，随时需要随时使用，集高清全景音视频于一体，并采用高清高亮的投影模组来取代传统的电视屏幕或显示器，投影尺寸根据投影距离来调整，既适合群组会议，也适合家庭和个人使用，且成本较低。而且将采集的语音信号进行识别和转化处理，得到带有字幕信息的会议视频，实现了将语音信息进行可视化呈现，同时，可通过手机或电脑来进行配置和管理，在云服务的协助下，可以与对方会议设备建立点到点的最优视频连接，以达到最佳视频会议效果。

请参阅图1至图4，图1是本申请提供的视频会议系统一实施例的结构示意图，视频会议系统10包括：摄像模组11、音频输入模组12、信号处理模组13、投影模组14、音频输出模组15以及存储模组16。

摄像模组11用于获取会议场景的全景视频，可将采集到的会议视频信息传输至信号处理模组13，摄像模组11包括摄像头，摄像头可以为广角镜头，其可为360度全景摄像头或覆盖局部场景的摄像头，可采用两个或三个广角镜头，每个广角镜头支持1080P或者4K等更高的分辨率，对所有广角镜头采集到的视频利用软件进行拼接，可以生成360度场景的高清视频，高清全景视频保持在1080P。在会议过程中可以通过对全景视频进行人工智能(Artificial Intelligence，AI)图像分析来实时跟踪所有参与会议的人员，并对发言者进行定位和标识，同时，也可以利用虚拟现实技术对采集到的视频信息进行进一步优化，提升参与者的体验感。

在一种实施方式中，摄像模组11可以包括壳体、摄像头、电机以及升降平台，电机与升降平台设置于壳体内，且升降平台设置于电机的上方，用于承载摄像头，摄像头设置于升降平台的上方；电机用于在接收到信号指令后驱动升降平台上下移动，以带动摄像头上下移动，实现将摄像头伸出或隐藏于壳体内，通过这种实施方式，能够对摄像头的位置进行精确的控制，提高了了会议视频的使用精度，同时，由于摄像头未使用时能够隐藏于壳体之中，有效避免了灰尘损害。

在另一种实施方式中，摄像模组11可包括壳体，摄像头，无线控制装置，四轴飞行器，无线控制装置设置于壳体内，四轴飞行器设置在无线控制装置可操控范围内，且摄像头设置在所述四轴飞行器上方，用于在接收到无线控制装置发出的指令后，带动摄像头飞出壳体，并对360度全景的视频信息进行采集，通过这种实施方式，本申请的摄像头能够脱离视频会议装置进行更多方位的信息捕捉，并能针对不同需求灵活调整摄像头的方位和位置，切换不同视场下的会议视频信息，能够适应更复杂的应用场景。

音频输入模组12用于采集语音信号，音频输入模组12可以为麦克风，可支持水平方向360度环绕的麦克风阵列，可采用8个水平平面均匀环绕的具有脉冲密度调制(PulseDensity Modulation，PDM)功能的数字微机电系统(MEMS，Micro Electro MechanicalSystem)麦克风阵列来进行远近场交互，或者采用8+1麦克风阵列，一个麦克风位于中间，来捕获远场音频，并将音频信息输出至信号处理模组13。

信号处理模组13用于对语音信息进行复制处理和转换，以得到与会议视频同步输出的文本信息，将所述文本信息与所述会议视频的每帧图像进行图像融合，以得到带有字幕信息的会议视频，并通过云服务同步输出所述带有字幕信息的会议视频和语音信息。

在一个实施例中，请参见图2，信号处理模组13包括信号识别处理器131、信息转换处理器132以及信息融合处理器133。

信号识别处理器131用于对字幕需求对应的字幕开关状态信息进行判断，请参见图4，信号识别处理器131包括识别模块1311和动作执行模块1312，在一种实施方式中，识别模块1311对信号处理模组的字幕开关的物理按键的开关状态进行识别，得到字幕开关状态信息，动作执行模块1312执行与字幕开关状态信息对应的操作；具体的，当字幕开关的物理状态为开时，表明需要开启视频会议系统的字幕功能，识别模块1311根据这一状态，指示动作执行模块1312开启字幕功能，可以理解的是，其他物理开关的状态对应的功能也可以通过识别模块1311进行识别，并指示动作执行模块1312执行相应功能。

在一些实施方式中，识别模块1311对所述语音指令进行识别，得到关键词信息，动作执行模块1312执行与所述关键词信息相应的字幕开关操作。在一具体的实施例中，可基于本地内置词库进行语音控制，即预先在本地存储一些命令关键词/词组以及确认关键词/词组，形成一个词库，该命令关键词/词组包括“打开字幕开关”、“关闭字幕开关”等；该确认关键词/词组包括是或否。在实际使用时，检测识别出的用户输入的语音与该词库中的关键词是否相同，如果相同，则执行相应的操作；例如，如果识别模块1311可识别出用户下发的语音指令是“打开字幕开关”，则动作执行模块1312控制字幕开关打开。

信息转换处理器132用于语音信息进行复制处理和转换，以得到与会议视频同步输出的文本信息，具体的，请参见图2，本申请的信息转化处理器132包括第一信息转换器1321和第二信息转换器1322，第一信息转换器1321用于判断当前语音信息的类型并将所述语音信息复制后转化为初始文本信息，所述第二信息转换器用于将所述初始文本信息转化并修正为显示文本信息。例如，第一信息转换器1321可以借助云服务(图中未示出)集成多种语音库，包括中文以及英文、日文等多种外语，并且，针对中文语音库还设置了方言子库，包括粤语、闽南话、陕西话等。可以理解的，第一信息转换器1321中集成了上述多种语言与普通话转换的转换规则；当第一信息转换器判断当前语音信息为中文时，则将当前语音信息进行复制，并对当前语音信息的具体类型进行判断，如判断为粤语，则将复制后的语音信息按照粤语与普通话的转换规则转换为初始文本信息，并将其传递至第二信息转换器1322，第二信息转换器对初始文本信息进行修正；当第一信息转换器判断当前语音信息为外语时，则将当前语音信息进行复制，并对当前语音信息的具体类型进行判断，如判断为英语，则将复制后的语音信息按照英语与普通话的翻译规则转换为初始文本信息，并将其传递至第二信息转换器1322；本实施例中，第二信息转换器借助云服务(图中未示出)集成了常用词库信息，通过逐一比对初始文本信息与常用词库信息中的词组及规则，将初始文本信息进行修正，如常用词组转换错误、断句错误、明显语病等，通过本实施例的第一信息转换器和第二信息转化器，本申请的会议视频系统能够将不同类型的语音信号转换为标准文本信息，便于与会人员更好的接收会议信息，实现了语音信号的文义呈现。

信息融合处理器133用于按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合，请参见图3，当信息融合处理器133检测到当前语音信号转换的文本信息时，将文本信息转换为与当前帧会议视频图像分辨率相等的矩阵图像，并将矩阵图像与当前帧会议视频图像求和，得到带有字幕信息的会议视频。可以理解的是，信息融合处理器将文本信息转换为矩阵图像时，可以将文本细节对应的灰度值较高的部分赋值到矩阵图像的下方中部或者上方中部，例如，当前帧会议视频图像的分辨率为1920×1080，则信息融合处理器预先设定一个灰度值均为0、大小为1920×1080的空矩阵，然后将文本信息对应的灰度值信息像素级赋值到空矩阵的第1620-1820行，200-880列等，从而得到文本信息对应的矩阵图像，将该矩阵图像与当前帧会议视频图像进行求和，得到带有字幕信息的会议视频，本实施方式能够将标准文本信息与视频会议进行有效的融合，计算方式简单，融合速度快，能够实时呈现当前字幕的准确含义。

在一种实施方式中，音频输入模组12和所述信号处理模组13还包括定位降噪模块134，用于对采集的所述语音信号进行定位判断，并进行降噪处理。具体地，定位降噪模块134包括数值信号处理模块1341、回声消除模块1342、声源定位模块1343、波束形成模块1344、噪声抑制模块1345、混响消除模块1346，处理后的音频信息会输出至信号识别处理器131。

在一种实施方式中，音频输入模组12的数字麦克风阵列可通过波束形成技术，抑制非目标方向的拾音，实现抑制噪音的目的，也可以增强声源角度内的人声，将处理后的语音信号传输至信号处理模组的数字信号处理模块1341。

请参阅图4，可利用数字信号处理模块1341对数字麦克风阵列输出的PDM数字信号进行数字滤波、抽取以及调节，以将1位PDM高频数字信号转换为具有合适音频频率的16位脉冲编码调制(Pulse Code Modulation，PCM)数据流；回声消除模块1342与数字信号处理模块1341连接，可对PCM数据流进行回声消除处理；波束形成模块1344与回声消除模块1342连接，可对回声消除模块1342输出的信号进行过滤；声源定位模块1343与回声消除模块1342以及波束形成模块1344连接，其基于回声消除模块1342输出的信号与波束形成模块1344的信号，检测出声源的方向，形成拾音波束区域；具体地，其可采用基于到达时间差(Time Difference Of Arrival，TDOA)的方法，通过计算信号到达各个麦克风之间的时间差，计算出声源的位置目标，检测出声源的方向，形成拾音波束区域；噪声抑制模块1345与声源定位模块1343连接，可对声源定位模块1343输出的信号进行噪声抑制处理；混响消除模块1346与噪声抑制模块1345连接，可对噪声抑制模块1345输出的信号进行混响消除处理，并将混响消除处理后的语音信号发送至信号识别处理器131，由于本实施例中设置了定位降噪模块，能够有效识别不同方位发出的语音信号，降低非定位位置的噪音信号，提升用户体验。

可以理解地，数字信号处理模块1341、回声消除模块1342、声源定位模块1343、波束形成模块1344、噪声抑制模块1345、混响消除模块1346、识别模块1311、动作执行模块1312以及音频解码模块1347可以为信号处理模组13中的定位降噪模块134，即由信号处理模组13来执行对音频输入模组12输出的语音信号进行后续处理的操作；或者视频会议系统10也包括一主处理器(图中未示出)，该主处理器包括数字信号处理模块1341、回声消除模块1342、声源定位模块1343、波束形成模块1344、噪声抑制模块1345、混响消除模块1346以及音频解码模块1347，即由该主处理器来执行对音频输入模组12输出的语音信号进行后续处理的操作。

在一些实施方式中，投影视频会议系统10还包括缓存模组16，用于将所述信号处理模组转换后的文本信息进行存储，其中，缓存模组16包括：缓存处理器161和缓存存储器162，缓存处理器用于判断当前视频会议的进展状态，并根据视频会议的状态执行对应的操作，缓存存储器将所述文本信息以日志的形式进行保存，由于本实施例中的存储单元将转换后的文本信息进行了有效存储，能够将会议场景中与会人员输出的各项语音信息进行语义存储，便于工作人员对会议视频进行有效记录。

投影模组14用于显示会议视频信息，具体来说，可以显示电脑或外接终端设备输入信号的视频，也可以显示摄像模组拍摄到的全景视频或对方会议设备发送的对方会议场景视频，可通过在电脑及外接电子终端的会议系统上进行选择所要显示的会议画面信息；具体地，投影模组14包括投影处理器(图未示)，由投影处理器来接收其他装置发送的经上述信息处理模组13处理后的带有字幕信息的会议视频，并进行投影显示；投影处理器还可支持通过图像分析和处理算法对参与会议的人员进行局部标识和勾画，然后将标识和勾画后的图像平列/竖列投影在投影区的上侧、下侧、左侧或右侧；还可支持通过图像分析和处理算法辅助麦克风阵列对视频会议发言者进行定位、聚焦或者放大。

优选地，由于激光具有高亮度、色域广、色彩真实、方向性强以及使用寿命长等优点，投影模组14采用基于激光光源的投影技术，输出亮度可以达到500流明以上，视频会议系统10输出视频达到1080P以上的分辨率，可用来投射会议对方的视频或实现电脑/手机等电子终端设备的屏幕共享。可以理解的是，投影模组14并不局限于采用基于激光光源的投影技术，也可以采用LED光源的投影技术。

音频输出模组15用于播放信号处理模组13发送的音频信号其可以为扬声器或音响，可采用360度环绕音响或采用局部方向的音响。

在一些实施方式中，电子设备(图未示)可与视频会议系统10进行网络通信，也即，网络连接方式可以是电子设备和视频会议系统加入同一个WIFI网络，通过网关设备(图未示)进行通信。视频会议系统10与电子设备工作时都配置在STA模式，通过网关设备来加入WIFI无线网络，电子设备通过网关设备来发现视频会议系统10、管理视频会议系统10以及与视频会议系统10通信，视频会议系统10无论是从云端获取数据还是进行视频分享均需通过网关设备，占用同一频段和接口资源。

在又一具体的实施方式中，电子设备可直接加入视频会议系统10的无线网络以进行通信，视频会议系统10中的无线通信模组(图未示)可以同时工作在STA模式和AP模式，属于单频分时通信，相比双频混合模式，数据速率将减半。

在另一具体的实施方式中，电子设备也可以通过无线蓝牙与视频会议系统10进行通信，即电子设备与视频会议系统10之间建立蓝牙通道，电子设备与视频会议系统10中的无线通信模组均工作在STA模式，可通过WIFI处理高速数据，比如播放视频流。

在其他具体的实施方式中，电子设备通过云服务与视频会议系统10远程通信；在远程通信时，电子设备与视频会议系统10不需要在同一个网络，电子设备将控制命令发送给云服务，通过视频会议系统10和云服务建立的安全信令通道将命令传递给视频会议系统10，从而达到与视频会议系统10通信的目的，需要说明的是，此种模式还可以实现不同视频会议系统之间的通信交互。

基于上面描述的视频会议系统10中的各个模块，下面对视频会议系统10的工作原理进行描述。

摄像模组11采集到会议视频信号并输入信号处理模组13，音频输入模组12采集视频会场的语音信号并输入信号处理模组13，信号处理模组14中的定位降噪模块134对语音信号进行降噪和定位处理，并将处理后的语音信号发送至信号识别处理器131，信号识别处理器131对语音信号的语音指令进行识别，信息转换处理器132判断语音信息的不同类型并进行复制和转换操作，输出转换后的文本信息到信息融合处理器133，信息融合处理器133将文本信息与会议视频进行融合，得到带有字幕信息的会议视频，并将带有字幕信息的会议视频经云服务发送至投影模组14投射出去，将语音信息经云服务发送至音频输出模块15，将转换后的文本信息发送至存储模组16。

请参考图5，本申请提供一种视频会议方法，所述视频会议方法包括步骤S11～S16。

步骤S11：获取由摄像模组摄取的图像信息生成的会议视频；

具体来说，通过视频会议系统10的摄像模组11来获取会议现场的图像信息。

步骤S12：获取由音频输入模组采集的会议场景的语音信号，语音信号包括可识别的语音指令和语音信息。

具体来说，通过视频会议系统10的音频输入模组12来采集语音信号，音频输入模组12可以为麦克风，可支持水平方向360度环绕的麦克风阵列。

进一步，所述语音信号包括可被信号识别处理器131进行识别的语音指令，所述语音指令为与视频会议系统10相关的操作，在一具体的实施例中，所述语音指令可以包括“打开字幕开关”、“关闭字幕开关”等。

步骤S13：判断当前的字幕开关状态，若为开(也即“是”)，则对所述语音信息进行复制处理和转换以得到与所述会议视频同步输出的文本信息。

具体来说，信号识别处理器131对信号处理模组13的字幕开关的物理按键的开关状态进行识别，得到字幕开关状态信息，或者对语音信号的语音指令进行识别，得到关键词对应的字幕开关信息。

若为关(也即“否”)，则仅输出语音信息到音频输出模块。

进一步地，请参阅图6，步骤S13包括：

步骤S131：复制所述语言信息以得到复制后的语音信息。

具体的，将当前语音信息进行复制备份后，再对复制后的语音信息进行处理。

步骤S132：判断当前语言信息的类型，并根据当前语音信息的类型转化所述复制后的语音信息转化为初始文本信息。

具体而言，判断当前语音信息的类型并将所述语音信息复制后转化为初始文本信息，例如，第一信息转换器可以借助云服务(图中未示出)集成多种语音库，包括中文以及英文、日文等多种外语，并且，针对中文语音库还设置了方言子库，包括粤语、闽南话、陕西话等，可以理解的，第一信息转换器中集成了上述多种语言与普通话转换的转换规则；当第一信息转换器判断当前语音信息为中文时，则将当前语音信息进行复制，并对当前语音信息的具体类型进行判断，如判断为粤语，则将复制后的语音信息按照粤语与普通话的转换规则转换为初始文本信息，并将其传递至第二信息转换器。

步骤S133：修正所述初始文本信息为显示文本信息。

具体而言，第二信息转换器1322对初始文本信息进行修改，以得到显示文本。第二信息转换器借助云服务(图中未示出)集成了常用词库信息，通过逐一比对初始文本信息与常用词库信息中的词组及规则，将初始文本信息进行修正，如常用词组转换错误、断句错误、明显语病。

步骤S14：融合所述文本信息到所述会议视频的每帧图像中以得到带有字幕信息的会议视频。

其中，如图7所示，步骤S14还包括：

步骤S141：按照所述文本信息的更新时刻，依次将文本信息处理为对应的矩阵信息并将其与会议视频的对应时刻的每帧图像进行图像融合。

具体地，如图8所示，步骤S141包括:

S141a:获取当前会议视频对应时刻的图像的显示分辨率。

S141b:生成与当前会议视频对应时刻的图像的显示分辨率大小相等的灰度值均为0的空矩阵。

S141c:将文本信息对应的灰度值信息像素级赋值到空矩阵,得到文本信息对应的矩阵图像。

S141d:将该矩阵图像与当前帧会议视频图像进行求和，得到带有字幕信息的会议视频。

通过上述方式，能够将标准文本信息与视频会议进行有效的融合，计算方式简单，融合速度快，能够实时呈现当前字幕的准确含义。

步骤S15：同步发送所述带有字幕信息的会议视频至所述投影模组。

具体来说，通过视频会议系统10的投影模组14投射会议视频，进一步，投影模组14用于显示摄像模组11采集到的全景视频或对方会议设备发送的对方会议场景视频，可通过在电脑及外接电子终端的会议系统上进行选择所要显示的会议视频画面信息。

步骤S16:存储所述文本信息至存储模组。

综上所述，本申请提供一种投影视频会议系统，包括：摄像模组，用于摄取会议场景的图像信息并生成会议视频；音频输入模组，用于采集会议场景的语音信号，所述语音信号包含可识别的语音指令和语音信息；信号处理模组，用于对所述语音信息进行复制处理和转换，以得到与所述会议视频同步输出的文本信息；投影模组，用于同步显示所述会议视频和文本信息；其中，所述信号处理模组还用于将所述文本信息与所述会议视频的每帧图像进行图像融合，以得到带有字幕信息的会议视频，并通过云服务同步输出所述带有字幕信息的会议视频和语音信息。

通过一个系统集成设置了摄像模组、音频输入模组、信号处理模组以及投影模组，集成度较高，摄像模组采集会议场景，提供高清全景的效果；信号处理模组将音频输入模组采集的语音信号进行识别和处理，将会议场景中的语音信息进行复制并转换为文本信息，并将文本信息与摄像模组采集到的会议视频进行融合处理以得到带有字幕信息的会议视频，实现了将语音信息进行可视化呈现，同时，利用投影模组来对带有字幕信息的高清视频或会议对方发送的视频进行投影时，由于采用投影模组来显示会议场景，可直接将视频投影在墙上，无需显示屏即可进行显示，体积较小，方便用户携带；此外，还将语音控制引进了视频会议系统，提供语音识别和语音控制功能，通过语音识别和控制来实现对视频会议系统的控制，比如，可通过语音控制开启字幕开关等，实现智能控制，无需用户用手来控制设备，简化用户的操作。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种投影视频会议系统，其特征在于，包括：

摄像模组，用于摄取会议场景的图像信息并生成会议视频；

音频输入模组，用于采集会议场景的语音信号，所述语音信号包含可识别的语音指令和语音信息；

信号处理模组，用于对所述语音信息进行复制处理和转换，以得到与所述会议视频同步输出的文本信息；

投影模组，用于同步显示所述会议视频和文本信息；

其中，所述信号处理模组还用于将所述文本信息与所述会议视频的每帧图像进行图像融合，以得到带有字幕信息的会议视频，并通过云服务同步输出所述带有字幕信息的会议视频和语音信息。

2.根据权利要求1所述的投影视频会议系统，其特征在于，

所述信号处理模组包括信号识别处理器，所述信号识别处理器用于字幕需求对应的字幕开关状态信息进行判断，包括：

对信号处理模组的字幕开关的物理按键的开关状态进行识别，得到字幕开关状态信息，并执行与字幕开关状态信息对应的操作。

3.根据权利要求1所述的投影视频会议系统，其特征在于，

对所述语音指令进行识别，得到关键词信息，并执行与所述关键词信息相应的字幕开关操作。

4.根据权利要求3所述的投影视频会议系统，其特征在于，

所述信号识别处理器还用于检测所述关键词信息与预设的词库中的关键词信息是否相同，若相同，则执行与所述关键词信息相应的操作；

其中，所述关键词信息包括命令关键词/词组或确认关键词/词组，所述命令关键词/词组包括打开/关闭所述信号处理模组的字幕开关，所述确认关键词/词组包括是或否。

5.根据权利要求3所述的投影视频会议系统，其特征在于，

所述信号处理模组还包括信息转换处理器，所述信息转换处理器包括第一信息转换器和第二信息转换器，所述第一信息转换器用于判断当前语音信息的类型并将所述语音信息复制后转化为初始文本信息，所述第二信息转换器用于将所述初始文本信息转化并修正为显示文本信息。

6.根据权利要求1所述的投影视频会议系统，其特征在于，所述信号处理模组还包括信息融合处理器，所述信息融合处理器用于按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合。

7.根据权利要求1所述的投影视频会议系统，其特征在于，所述投影视频会议系统还包括缓存模组，所述缓存模组用于将所述信号处理模组转换后的文本信息进行存储，其中，所述缓存模组包括：

缓存处理器，用于判断当前视频会议的进展状态，并根据视频会议的状态执行对应的操作；

缓存存储器，将所述文本信息以日志的形式进行保存。

8.根据权利要求1所述的投影视频会议系统，其特征在于，所述音频输入模组和所述信号处理模组还包括定位降噪模块，用于对采集的所述语音信号进行定位判断，并进行降噪处理。

9.根据权利要求1所述的投影视频会议系统，其特征在于，

所述投影视频会议系统还包括音频输出模组，所述音频输出模组用于播放所述信号处理模组发送的经云服务传输后的音频信号。

10.一种投影视频方法，包括：

获取由摄像模组摄取的图像信息生成的会议视频；

获取由音频输入模组采集的会议场景的语音信号；

同步发送所述带有字幕信息的会议视频至所述投影模组；

存储所述文本信息至存储模组。

11.根据权利要求10所述的投影视频方法，所述对所述语音信息进行复制处理和转换以得到与所述会议视频同步输出的文本信息的步骤包括：

复制所述语言信息以得到复制后的语音信息；

修正所述初始文本信息为显示文本信息。

12.根据权利要求10所述的投影视频方法，所述融合所述文本信息到所述会议视频的每帧图像中以得到带有字幕信息的会议视频的步骤包括：

13.根据权利要求12所述的投影视频方法，所述按照所述文本信息的更新时刻，依次将所述文本信息处理为对应的矩阵信息并将其与所述会议视频的对应时刻的每帧图像进行图像融合的步骤包括：

获取当前会议视频对应时刻的图像的显示分辨率；

生成与当前会议视频对应时刻的图像的显示分辨率大小相等的灰度值均为0的空矩阵；

将文本信息对应的灰度值信息像素级赋值到空矩阵,得到文本信息对应的矩阵图像；