CN109819202A

CN109819202A - 字幕添加装置及字幕添加方法

Info

Publication number: CN109819202A
Application number: CN201910214421.7A
Authority: CN
Inventors: 黄威; 黄华晨; 赵俊; 陈宁珏; 常飞; 赵瑢
Original assignee: Shanghai High House Mdt Infotech Ltd
Current assignee: Shanghai High House Mdt Infotech Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-05-28

Abstract

本发明揭示了一种字幕添加装置及字幕添加方法。字幕添加装置包括：语音识别部，该语音识别部对输入信号中的音频部分进行语音识别而得到原始文字，且将该原始文字作为字幕而输出；字幕叠加部，该字幕叠加部将所述语音识别部输出的字幕实时叠加到输入信号的视频部分上而生成字幕视频；输出部，该输出部将所述字幕叠加部生成的字幕视频输出到外部显示设备；以及控制接收部，该控制接收部接收来自外部控制设备的指令，对所述语音识别部、所述字幕叠加部、所述输出部的各种工作参数进行调整。根据本发明，能够低成本、快速、高效、便捷地进行视频会议。

Description

字幕添加装置及字幕添加方法

技术领域

本发明涉及一种字幕添加装置及字幕添加方法。

背景技术

随着企业的对外发展，视频会议系统是当前非常多的企业进行会议沟通等的一种主要模式，这样不仅可以节约成本而且可以有效的提高团体间的配合率，提高工作效率。

但是，在当前的视频会议系统中，存在着一些问题。例如，当有听力障碍人士参加会议时，由于无法听到其他参会人员所说的话，因此会造成沟通上的障碍。或者，由于参会人员中每个人的外语掌握能力的不同，有的参会人员无法理解外文的会议资料。或者，由于参会人员的国籍不同，在不同国籍的人员之间会造成沟通上的障碍。或者，在中外两地进行视频会议时，需要在两地都部署专门的翻译设备，从而造成了成本的提高。

因此如何低成本、快速、高效、便捷地进行视频会议就变得越来越迫切。

发明内容

本发明的一个目的在于克服现有技术的缺陷，提供一种帮助听力障碍人士融入会议内容，并且在不能发声或者嘈杂环境播放电视节目的情况下帮助观看人员进行理解的字幕添加装置。

为实现上述目的，本发明提出如下技术方案：一种字幕添加装置，包括：

语音识别部，该语音识别部对输入信号中的音频部分进行语音识别而得到原始文字，且将该原始文字作为字幕而输出；

字幕叠加部，该字幕叠加部将所述语音识别部输出的字幕实时叠加到输入信号的视频部分上而生成字幕视频；

输出部，该输出部将所述字幕叠加部生成的字幕视频输出到外部显示设备；以及

控制接收部，该控制接收部接收来自外部控制设备的指令，对所述语音识别部、所述字幕叠加部、所述输出部的各种工作参数进行调整，

所述字幕叠加部具有字幕判别单元和字幕延时单元，

所述字幕判别单元对输入信号的视频部分是否本身就有字幕进行判别，在判别为输入信号的视频部分本身就有字幕的情况下，所述字幕叠加部不进行字幕的实时叠加，

所述字幕延时单元在所述字幕叠加部进行字幕的实时叠加时使字幕延时叠加到输入信号的视频部分上。

优选地，所述语音识别部具有云翻译单元，该云翻译单元对所述原始文字进行云翻译而得到翻译文字，所述语音识别部将所述原始文字与所述翻译文字一起作为字幕而输出。

根据本发明所提供的字幕添加装置及方法，能够帮助听力障碍人士融入会议内容、在不能发声或者嘈杂环境播放电视节目的情况下帮助观看人员进行理解、低成本、快速、高效、便捷地进行视频会议。

附图说明

图1是本发明的字幕添加装置的应用场景示意图。

图2是本发明的字幕添加装置的结构框图。

具体实施方式

下面将结合本发明的附图，对本发明实施例的技术方案进行清楚、完整的描述。

本发明的第一实施方式是一种字幕添加装置。如图1所示，从输入信号源对该字幕添加装置输入信号，输入信号源例如是：有线电视信号、无线网络(例如Wifi、蓝牙)/有线网络、U盘等。字幕添加装置通过HDMI或其他视频线与外部显示设备连接。外部显示设备例如是LCD显示屏、投影仪、电视机等。

如图2所示，字幕添加装置包括：语音识别部、字幕叠加部、输出部、以及控制接收部。

语音识别部可以用现有的任意一种语音识别技术来实现，例如采用科大讯飞、百度、腾讯、微软、IBM等公司的语音识别技术来实现。在从输入信号源得到输入信号之后，语音识别部对输入信号中的音频部分进行语音识别而得到原始文字，且将该原始文字作为字幕而输出，即进行文字转写。在本发明中，该文字转写既可以通过字幕添加装置内部的语音识别部来进行，也可以由字幕添加装置外部的云端服务器来执行。

字幕叠加部将语音识别部输出的字幕实时叠加到输入信号的视频部分上而生成字幕视频。字幕叠加部具有字幕判别单元和字幕延时单元。字幕判别单元对输入信号的视频部分是否本身就有字幕进行判别，在判别为输入信号的视频部分本身就有字幕的情况下，字幕叠加部不进行字幕的实时叠加。如果判别为没有字幕，则进行字幕的实时叠加。在本发明中，该判别既可以通过字幕添加装置内部的作为字幕判别单元的AI(人工智能)分析单元来进行，也可以由字幕添加装置外部的云端服务器来执行。字幕延时单元在字幕叠加部进行字幕的实时叠加时使字幕延时叠加到输入信号的视频部分上，从而消除字幕生成的时间差，达到输出的字幕和视频图像同步效果。

输出部将字幕叠加部生成的字幕视频输出到外部显示设备。

参会人员可以对字幕添加装置发出指令。例如，参会人员使用作为外部控制设备的手机，以手机App扫码或者对码等方式通过认证之后，向字幕添加装置发出各种指令。或者，参会人员也可以使用作为外部控制设备的专用的遥控器进行同样的动作。字幕添加装置的控制接收部接收来自外部控制设备的指令，对语音识别部、字幕叠加部、输出部的各种工作参数进行调整。这些调整包括设备设置、字幕、音频、视频输出的参数调整。

如上所述，利用第一实施方式的字幕添加装置，由于在播放视频的同时也将音频作为字幕一起进行播放，因此即便是听力障碍人士也可以无障碍地了解视频内容，能够帮助听力障碍人士融入会议内容。

优选地，语音识别部具有云翻译单元，云翻译单元对原始文字进行云翻译而得到翻译文字，语音识别部将所述原始文字与所述翻译文字一起作为字幕而输出。云翻译单元可以用现有的任意一种云翻译技术来实现，例如采用百度、微软、谷歌等公司的云翻译技术来实现。如此一来，通过该字幕添加装置，由于将原始文字和翻译后的文字一起作为字幕进行显示，因此无论参会人员的外语水平如何，都可以无障碍地理解外文的会议资料。

本发明的第二实施方式是一种字幕添加方法。该字幕添加方法包括：语音识别步骤，对输入信号中的音频部分进行语音识别而得到原始文字，且将该原始文字作为字幕而输出；字幕叠加步骤，将语音识别步骤所输出的字幕实时叠加到输入信号的视频部分上而生成字幕视频；输出步骤，该输出步骤将字幕叠加步骤所生成的字幕视频输出到外部显示设备；以及控制接收步骤，该控制接收部接收来自外部控制设备的指令，对语音识别部、字幕叠加部、输出部的各种工作参数进行调整，字幕叠加步骤具有字幕判别子步骤和字幕延时子步骤，字幕判别子步骤对输入信号的视频部分是否本身就有字幕进行判别，在判别为输入信号的视频部分本身就有字幕的情况下，不进行字幕叠加步骤，字幕延时子步骤在字幕叠加步骤中的字幕的实时叠加时使字幕延时叠加到输入信号的视频部分上。

由于该字幕添加方法为与第一实施方式的字幕添加装置所对应的预警方法。因此在各种细节上都与第一实施方式相同，从而在此省略重复的说明。

如上所述，利用第二实施方式的字幕添加方法，由于在播放视频的同时也将音频作为字幕一起进行播放，因此即便是听力障碍人士也可以无障碍地了解视频内容，能够帮助听力障碍人士融入会议内容，而且在不能发声或者嘈杂环境播放电视节目的情况下帮助观看人员进行理解。

优选为，语音识别步骤具有云翻译子步骤，云翻译子步骤对原始文字进行云翻译而得到翻译文字，在语音识别步骤将原始文字与翻译文字一起作为字幕而输出。如此一来，通过该字幕添加方法，由于将原始文字和翻译后的文字一起作为字幕进行显示，因此无论参会人员的外语水平如何，都可以无障碍地理解外文的会议资料。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种字幕添加装置，其特征在于，包括：

所述字幕叠加部具有字幕判别单元和字幕延时单元，

2.根据权利要求1所述的字幕添加装置，其特征在于，

所述语音识别部具有云翻译单元，该云翻译单元对所述原始文字进行云翻译而得到翻译文字，

所述语音识别部将所述原始文字与所述翻译文字一起作为字幕而输出。

3.根据权利要求1所述的字幕添加装置，其特征在于，

所述外部显示设备为以下显示设备中的任意一种显示设备：LCD显示屏、投影仪、电视机。

4.根据权利要求1所述的字幕添加装置，其特征在于，

所述工作参数为以下工作参数中的任意一种或多种参数：设备设置、字幕、音频、视频输出。

5.一种字幕添加方法，其特征在于，包括：

语音识别步骤，对输入信号中的音频部分进行语音识别而得到原始文字，且将该原始文字作为字幕而输出；

字幕叠加步骤，将所述语音识别步骤所输出的字幕实时叠加到输入信号的视频部分上而生成字幕视频；

输出步骤，该输出步骤将所述字幕叠加步骤所生成的字幕视频输出到外部显示设备；以及

控制接收步骤，该控制接收部接收来自外部控制设备的指令，对所述语音识别部、所述字幕叠加部、所述输出部的各种工作参数进行调整，

所述字幕叠加步骤具有字幕判别子步骤和字幕延时子步骤，

所述字幕判别子步骤对输入信号的视频部分是否本身就有字幕进行判别，在判别为输入信号的视频部分本身就有字幕的情况下，不进行所述字幕叠加步骤，

所述字幕延时子步骤在所述字幕叠加步骤中的字幕的实时叠加时使字幕延时叠加到输入信号的视频部分上。

6.根据权利要求5所述的字幕添加方法，其特征在于，

所述语音识别步骤具有云翻译子步骤，该云翻译子步骤对所述原始文字进行云翻译而得到翻译文字，

在所述语音识别步骤将所述原始文字与所述翻译文字一起作为字幕而输出。