CN101505397A

CN101505397A - 一种语音和视频字幕同步呈现的方法及系统

Info

Publication number: CN101505397A
Application number: CNA2009100373006A
Authority: CN
Inventors: 杨海曜
Original assignee: Shenzhen Huawei Communication Technologies Co Ltd
Current assignee: Global Innovation Polymerization LLC; Tanous Co
Priority date: 2009-02-20
Filing date: 2009-02-20
Publication date: 2009-08-12
Anticipated expiration: 2029-02-20
Also published as: CN101505397B

Abstract

本发明实施例公开了一种语音和视频字幕同步呈现的方法，该方法由语音和视频字幕同步呈现的系统接收到语音信息，解析根据所述接收到的语音信息得到该语音信息对应的文字内容信息，判断根据所述接收到的语音信息得到的该语音信息对应的文字内容信息与预置文字内容信息是否相同，当判断所述接收到的语音信息得到的该语音信息对应的文字内容信息与预置文字内容信息相同时，视频同步显示所述语音信息对应的预置文字内容，否则不显示预置文字内容。本发明还公开了一种语音和视频字幕同步呈现的系统，实现了视频字幕的实时性。

Description

一种语音和视频字幕同步呈现的方法及系统

技术领域

本发明涉及通信领域，尤其涉及一种语音和视频字幕同步呈现的方法和系统。

背景技术

一般在会议电视和视频演讲中，大多数情况下演讲者一般是采用有稿件的宣读讲演，根据国际会议的调查发现，一般对着讲稿进行宣读的会议议题，约占大中型会议的演讲者发言70％时间以上，这70％中同时有配合胶片，而同时又按照讲演稿进行宣读的，又占有40％，不配有演讲胶片，而直接口头按照讲稿宣读的，约有30％左右，也就是说即使是即兴演讲发挥也不到30％，稿件一般不提前发给参与者，而采用朗读方式，一般没有字幕，这样就不便于理解。另有一种情况是进行演讲录像，然后重新配音或配上字幕，便于听众理解。进行录像后配字幕或配音的方式中，常见的有同声字幕显示，所述同声字幕显示一般采用人工识别演讲者的语义，而且是离线手工操作键入字幕，这种方式常用于录播中。另外就是同声传译，一般演讲者采用不同于听众的语音，在另外的声音信道上落后一段时间后进行人工翻译，一般字幕或翻译的语音在时间落后于演讲者语义1至2分钟。

采用同声字幕显示，录像后才能配上字幕，完全非实时的，不能用于现场的会议电视和视频演讲中。而同声传译，实时性也较差。

发明内容

有鉴于此，本发明实施例提供一种语音和视频字幕同步呈现的方法和系统，实现了视屏字幕的实时性，且不易出错，演讲者和参与者能够很好的互动。

本发明实施例提供了一种语音和视频字幕同步呈现的方法，包括以下步骤：

接收到语音信息；

通过解析所述接收到的语音信息，识别出该语音信息对应的文字内容信息；

判断所述识别出的文字内容信息与预置文字内容信息是否匹配；

当判断为是时，视频同步显示所述语音信息对应的预置文字内容。

本发明同时还提供了一种语音和视频字幕同步呈现的系统，包括：

语义识别模块，用于接收语音信息，并通过解析所述接收到的语音信息，识别出该语音信息对应的文字内容信息；

处理模块，用于判断所述识别出的文字内容信息与预置文字内容信息是否匹配；

显示模块，用于当所述处理模块判断为是时，在显示视频时，同步显示所述预置文字内容。

实施本发明实施例，接收到语音信息，通过解析所述接收到的语音信息识别出该语音信息对应的文字内容信息，判断所述识别出的该语音信息对应的文字内容信息与预置文字内容信息是否相同，当判断为是时，视频同步显示所述语音信息对应的预置文字内容，实现了视屏字幕同步显示的实时性，且不易出错，使演讲者和参与者能够很好的互动。

附图说明

图1是本发明实施例语音和视频字幕同步呈现的系统的示意图；

图2是本发明实施例语音和视频字幕同步呈现的系统语义识别模块的结构示意图；

图3是本发明实施例语音和视频字幕同步呈现的系统处理模块的结构示意图；

图4是本发明实施例语音和视频字幕同步呈现的系统处理模块的判断单元的结构示意图；

图5是图4中的显示模块的结构示意图；

图6是本发明实施例语音和视频字幕同步呈现的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图对本发明实施例进一步详细说明。

参考图1，是本发明实施例语音和视频字幕同步呈现的系统的示意图，如图1所示，本实施例的语音和视频字幕同步呈现的系统主要包括语义识别模块1、预置模块2、处理模块3以及显示模块4。下面对各单元功能以及相互关系做详细说明。

语义识别模块1，用于接收语音信息，并通过解析所述接收到的语音信息，识别出该语音信息对应的文字内容信息；参考图2，该语义识别模块1进一步包括：

接收单元11，用于接收所述语音信息；具体实现中，可以通过麦克风或其他拾音器材来接收所述语音信息。

识别单元12，用于解析所述接收单元11接收到的语音信息，识别出该语音信息对应的文字内容信息；具体实现中，所述识别单元12可以通过简单的语音识别技术，根据接收到语音信息识别出语音信息的文字内容。例如，可以通过数模和模数转换将接收到的语音信息转为数字音频信号输入到本系统内部，并同时进行必要的滤波或放大适配处理。将已经变成数字声音信号的讲演语音，进行信号前期处理，如自动增益控制、自动噪声抑制、自动回声抵消等前处理，便于进一步提高语音的清晰度，降低环境的干扰。同时可以预置即将要演讲的演讲人的语音特色模型，有利于语音识别正确率的提高。

预置模块2，用于接收并存放预置文字内容信息。

所述预置文字内容信息一般为事先存放所述与接收语音信息相关的文字内容信息，所述预置的文字内容信息包括演讲者本人的语言种类的文字内容信息同时也包括其他的相关翻译后的语言种类的文字内容信息，所述对应的翻译文字内容与演讲者本人的语言种类的文字内容信息一一对应，例如，在演讲和视频会议时，事先存放演讲稿和会议稿件对应的文字内容信息，所述文字内容有中文的和相对应的英文翻译文字内容信息。

处理模块3，用于判断所述语义识别模块1识别出的文字内容信息与预置模块2预置文字内容信息是否匹配，参考图3，该处理模块3进一步包括：

查找单元31，用于根据定位指针，查找预置文字内容信息；

所述定位指针包括全局指针、逐句指针和逐字指针，所述全局指针用于用于定位到预置文字内容信息中的某个段落位置，如利用匹配和提取出已经讲述过的话语对应于预设文字内容信息的段落位置，便于指导语音识别和匹配程序，进一步缩小文字匹配范围，同时也可以用于对应于非同一语种文稿的对应段落。逐句指针用于定位到所述某个段落的某个句子上；所述经过定位到段落后在经过逐句指针同步定位到预置文字内容信息的具体某一句上，便于进行同步字幕的显示，同时也可以用于对应于非同一语种文稿对应段落的对应句子。逐字指针用于定位到所述逐句指针指向的某个句子中的某个字或词，如该逐字指针可以跟随该文字稿对应句子的前几个字或词而变化，用于指示语音识别程序随后判断相关度，由此来判断讲演者是否是在讲述的逐句指针所指向的那一句话。例如，只有在第一段预置文字内容信息当中有“深圳”，而演讲者讲过的话语当中包含这个词，那么全局指针就会指向第一段，而演讲者当前如讲了一句话为“我刚从北京过来，准备到西安去”这句话，那么逐句指针就会根据这句话定位到第一段中的这句话，之后，逐字指针就跟随预置的文字内容信息中的这句话的全部字或者前几个字而变化。

判断单元32，用于判断所述识别出的文字内容信息与所述查找到的预置文字内容信息是否匹配，参考图4，该判断单元32进一步包括：

设置单元321，用于预设文字相关度；

所述文字相关度可以为包括字相关度、句子相关度以及段落相关度中一种或多种，体现为一阈值，例如接收到的语音信息对应的文字内容信息与所述预置文字内容信息一句话当中百分之多少的字相同(比如80％)，则判断两句话相匹配，这样可以防止讲演者宣读过程中的读字中存在“漏字”或“多读字”现象，当大于80％，则认为讲演者是在宣读这句话，否则认为没有达到相关度，讲演者没有在宣读演讲稿，也可以是接收到的语音信息对应的文字内容信息与所述预置文字内容信息一句话当中连续多少个相同后，则认为全句提前符合。例如，一句话连续5个字相同则认为全句提前符合。当然，相关度数值可通过实验获得并且匹配个人语音特性信息而进行后续的调整。该文字相关度的每个字的比较，是根据逐字指针定位一个字来对比语音信息对应的文字内容信息同预置文字内容信息对应的句子当中的每个字或词的比较。所述文字相关度也可以是读音波形模式匹配阈值，由于已经事先获得讲演文字稿，则可利用语音发生软件，将逐句指针所指定的那一句话的文字内容，提前生成数字语音波形。用于在数字语音波形模式上和讲演者的输入的数字语音波形进行波形模式匹配和比较。如果该两个数字语音的波形模式比较之后大于某个预先设定的波形模式匹配阈值认为达到了文字相关度，则认为讲演者是在说该逐句指针所指指向的那一句话，如果低于该波形模式匹配阈值，则认为没有达到相关度，讲演者没有在宣读演讲稿，当然，相关度数值可通过实验获得并且匹配个人语音特性信息而进行后续的调整。

判断子单元322，用于判断所述语音信息对应的文字内容信息与所述定位指针指向的预置的文字信息是否达到预设的文字相关度，当判断为是时，则判定所述识别出的语音信息对应的文字内容信息与所述定位指针指向的预置的文字内容信息匹配，否则，判定为不匹配。

所述当判断为是时，根据所述预置文字内容信息更新定位指针，如果所述语音信息对应的文字内容信息与所述根据定位指针指向的预置文字内容信息匹配，则输出逐字正常匹配结果，认为讲演者是在按稿件顺序宣读，则刷新定位指针。此时，刷新定位指针是根据预置的文字内容信息来更新的，例如，全局指针是维持在本段还是本段结束到了下一段，逐句指针是否指向紧接着的下一句话，逐字指针恢复到下一句的句头第一个字。此时还根据所述预置文字内容信息更新的指针和预置文字内容信息来判断预置文字内容信息是否宣讲完成了就将所述即兴演讲的内容通过语音识别记录下来，如果宣讲没有完成则根据更新的定位指针继续判断所述语音信息对应的文字内容信息与所述预置的文字内容信息是否匹配。如果所述语音信息对应的文字内容信息与所述根据定位指针指向的预置文字内容信息不匹配，则输出异常或根据语音信息对应的文字信息更新定位指针，此时，刷新定位指针是根据语音信息对应的文字信息来更新。

显示模块4，用于当所述处理模块3的判断结果为是时，在显示视频时，同步显示所述预置文字内容。具体实现中，对视频和文字的同步显示，可以是将预置文字同时传送在视频内部同步显示，也可以是将预置文字形成附加信息段同步显示在视频中供参与者选择是否观看附件内容。

进一步，参考图5，显示模块4包括显示控制单元41和显示输出单元42，其中，

显示控制单元41，用于控制所述预置文字内容信息的显示输出模式，所述显示输出模式包括字幕超前显示模式或全句语音识别显示模式；所述超前模式是指，在一句语音信息未接收完成前，提前显示与所述一句语音信息相匹配的预置文字内容信息；这样文字字幕输出可以提前于讲演的语音内容。所述全句语言识别显示模式是指，在一句语音信息接收并识别完成后，才显示与所述一句语音相匹配的预置文字内容信息。

显示输出单元42，用于根据所述显示控制单元的控制，按照字幕超前显示模式显示所述预置文字内容信息或按照全句语音识别显示模式显示所述预置文字内容信息。

本实施例的系统，接收到语音信息，通过解析所述接收到的语音信息识别出该语音信息对应的文字内容信息，判断所述识别出的该语音信息对应的文字内容信息与预置文字内容信息是否相同，当判断为是时，视频同步显示所述语音信息对应的预置文字内容，实现了视屏字幕同步显示的实时性。

参考图6，是本发明实施例语音和视频字幕同步呈现的方法的流程图。包括以下步骤：

步骤S101，预置文字内容信息。具体实现中，该实施例的该步骤可选。

本步骤中，所述预置文字内容信息一般为事先存放所述与接收语音信息相关的文字内容信息，例如，在演讲和视频会议时，事先存放演讲稿和会议稿件对应的文字内容信息。所述预置的文字内容信息包括演讲者本人的语言种类的文字内容信息同时也包括其他的相关翻译后的语言种类的文字内容信息，所述对应的翻译文字内容与演讲者本人的语言种类的文字内容信息一一对应，例如，在演讲和视频会议时，事先存放演讲稿和会议稿件对应的文字内容信息，所述文字内容有中文的和相对应的英文翻译文字内容信息。

步骤S102，接收到语音信息。

步骤S103，识别该语音信息对应的文字内容信息。

本步骤中，可以通过简单的语音识别技术，根据接收到语音信息识别出语音信息的文字内容。例如，可以通过数模和模数转换将接收到的语音信息转为数字音频信号输入到本系统内部，并同时进行必要的滤波或放大适配处理。将已经变成数字声音信号的讲演语音，进行信号前期处理，如自动增益控制、自动噪声抑制、自动回声抵消等前处理，便于进一步提高语音的清晰度，降低环境的干扰。同时可以预置即将要演讲的演讲人的语音特色模型，有利于语音识别正确率的提高。

步骤S104，根据定位指针，查找预置文字内容信息。

本步骤中，所述定位指针包括全局指针、逐句指针和逐字指针，所述全局指针用于定位到预置文字内容信息中的某个段落位置，如利用匹配和提取出已经讲述过的话语对应于预设文字内容信息的段落位置，便于指导语音识别和匹配程序，进一步缩小文字匹配范围，同时也可以用于对应于非同一语种文稿的对应段落。逐句指针用于定位到所述某个段落的某个句子上；所述经过定位到段落后在经过逐句指针同步定位到预置文字内容信息的具体某一句上，便于进行同步字幕的显示，同时也可以用于对应于非同一语种文稿对应段落的对应句子。逐字指针用于定位到所述逐句指针指向的某个句子中的某个字或词，如该逐字指针可以跟随该文字稿对应句子的前几个字或词而变化，用于指示语音识别程序随后判断相关度，由此来判断讲演者是否是在讲述的逐句指针所指向的那一句话。例如，只有在第一段预置文字内容信息当中有“深圳”，而演讲者讲过的话语当中包含这个词，那么全局指针就会指向第一段，而演讲者当前如讲了一句话为“我刚从北京过来，准备到西安去”这句话，那么逐句指针就会根据这句话定位到第一段中的这句话，之后逐字指针就跟随预置的文字内容信息中的这句话的全部字或者前几个字而变化。

步骤S105，判断所述语音信息对应的文字内容信息与所述定位指针指向的预置的文字信息是否达到预设的文字相关度，如果判断为是，执行步骤S106；否则执行步骤S107。所述文字相关度可以为事先设定的文字内容相似度，例如接收到的语音信息对应的文字内容信息与所述预置文字内容信息一句话当中百分之多少的字相同，则判断两句话相匹配，这样可以防止讲演者宣读过程中的读字中存在“漏字”或“多读字”现象，例如大于80％，则认为讲演者是在宣读这句话，否则认为没有达到相关度，讲演者没有在宣读演讲稿，也可以是接收到的语音信息对应的文字内容信息与所述预置文字内容信息一句话当中连续多少个相同后，则认为全句提前符合。例如，一句话连续5个字相同则认为全句提前符合。当然，相关度数值可通过实验获得并且匹配个人语音特性信息而进行后续的调整。该文字相关度的每个字的比较，是根据逐字指针定位一个字一个字来对比语音信息对应的文字内容信息同预置文字内容信息对应的句子当中的每个字或词的比较。所述文字相关度也可以是读音波形模式匹配阈值，由于已经事先获得讲演文字稿，则可利用语音发生软件，将逐句指针所指定的那一句话的文字内容，提前生成数字语音波形。用于在数字语音波形模式上和讲演者的输入的数字语音波形进行波形模式匹配和比较。如果该两个数字语音的波形模式比较之后大于某个预先设定的波形模式匹配阈值认为达到了文字相关度，则认为讲演者是在说该逐句指针所指指向的那一句话，如果低于该波形模式匹配阈值，则认为没有达到相关度，讲演者没有在宣读演讲稿，当然，相关度数值可通过实验获得并且匹配个人语音特性信息而进行后续的调整。

本步骤中，在进行判断时，逐字逐句地将所述识别出的文字内容信息与所述查找到的预置文字内心信息进行对比，得出所述识别出的文字内容信息与所述预置文字内容信息的相似度；

判断所述相似度是否达到预设的文字相关度，当判断为是时，则判定所述识别出的语音信息对应的文字内容信息与所述预置的文字内容信息匹配；

其中，在进行逐字逐句对比时，需要实时更新定位指针，例如，确定全局指针是维持在本段还是本段结束到了下一段，逐句指针是否指向紧接着的下一句话，逐字指针恢复到下一句的句头第一个字。此时还根据所述预置文字内容信息更新的指针和预置文字内容信息来判断预置文字内容信息是否宣讲完成了就将所述即兴演讲的内容通过语音识别记录下来，如果宣讲没有完成则根据更新的定位指针继续判断所述语音信息对应的文字内容信息与所述预置的文字内容信息是否匹配。如果所述语音信息对应的文字内容信息与所述根据定位指针指向的预置文字内容信息不匹配，则输出异常或根据语音文字信息更新定位指针，此时，刷新定位指针是根据语音对应的文字信息来更新。

步骤S106，视频同步显示所述语音信息对应的预置文字内容。本步骤中，具体实现中，对视频和文字的同步显示，可以是将预置文字同时传送在视频内部同步显示，也可以是将预置文字形成附加信息段同步显示在视频中供参与者选择是否观看附件内容。并且所述显示方式可为字幕超前显示模式或全句语音识别显示模式。

步骤S107，输出异常。输出异常后，系统可返回步骤S102进一步处理。

具体实现中，在步骤S105之后还可包括判断语音信息是否接收完毕或者判断预置文字内容信息是否显示完成的步骤，以便系统能及时判断出演讲者由宣讲转变为即兴演讲了，此时系统可停止语音识别处理。

实施本发明实施例，通过接收到语音信息，解析所述接收到的语音信息获取该语音信息对应的文字内容信息，判断根据所述接收到的语音信息识别出的该语音信息对应的文字内容信息与预置文字内容信息是否相同，当判断为是时，视频同步显示所述语音信息对应的预置文字内容，否则不显示预置文字内容，实现了视屏字幕的实时性，且不易出错，演讲者和参与者能够很好的互动。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1、一种语音和视频字幕同步呈现的方法，其特征在于，包括以下步骤：

接收到语音信息；

2、如权利要求1所述的方法，其特征在于，所述判断所述识别出的文字内容信息与预置文字内容信息是否匹配之前还包括：

接收并保存预置文字内容信息。

3、如权利要求1所述的方法，其特征在于，所述判断所述识别出的文字内容信息与预置文字内容信息是否匹配具体包括：

根据定位指针，查找预置文字内容信息，并判断所述识别出的文字内容信息与所述查找到的预置文字内容信息是否匹配。

4、如权利要求3所述的方法，其特征在于，所述根据定位指针，查找预置文字内容信息，并判断所述识别出的文字内容信息与所述预置文字内容信息是否匹配包括：

根据全局指针、逐句指针以及逐字指针查找预置文字内容信息，并逐字逐句地将所述识别出的文字内容信息与所述查找到的预置文字内心信息进行对比，得出所述识别出的文字内容信息与所述预置文字内容信息的相似度；

其中，所述全局指针用于定位到预置文字内容信息中的某个段落位置；

所述逐句指针用于定位到所述某个段落的某个句子上；

所述逐逐字指针用于定位到所述某个句子中的某个字或词。

5、如权利要求4所述的方法，其特征在于，所述视频同步显示所述语音信息对应的预置文字内容包括：

当判定所述识别出的语音信息对应的文字内容信息与所述预置的文字内容信息匹配时，启动字幕超前显示模式对所述预置文字内容信息进行显示，即在一句语音信息未接收完成前，提前显示与所述一句语音信息相匹配的预置文字内容信息；

或，当判定所述识别出的语音信息对应的文字内容信息与所述预置的文字内容信息匹配时，启动全句语音识别显示模式对所述预置文字内容信息进行显示，即在一句语音信息接收并识别完成后，才显示与所述一句语音相匹配的预置文字内容信息。

6、如权利要求4所述的方法，其特征在于，所述预设的文字相关度包括字相关度、句子相关度以及段落相关度中一种或多种。

7、如权利要求4所述的方法，其特征在于，当判断所述相似度是否达到预设的文字相关度的判断结果为否时，输出异常。

8、一种语音和视频字幕同步呈现的系统，其特征在于，包括：

9、如权利要求8所述的语言和视频字幕同步呈现的系统，其特征在于，还包括：

预置模块，用于接收并保存预置文字内容信息。

10、如权利要求9所述的语言和视频字幕同步呈现的系统，其特征在于，所述处理模块包括：

查找单元，用于根据定位指针，查找预置文字内容信息；

判断单元，用于判断所述识别出的文字内容信息与所述查找到的预置文字内容信息是否匹配。

11、如权利要求10所述的系统，其特征在于，所述查找单元进一步用于根据全局指针、逐句指针以及逐逐字指针查找预置文字内容信息，其中，所述全局指针用于定位到预置文字内容信息中的某个段落位置；所述逐句指针用于定位到所述某个段落的某个句子上；所述逐逐字指针用于定位到所述某个句子中的某个字或词；

所述判断单元进一步用于逐字逐句地将所述识别出的文字内容信息与所述查找到的预置文字内心信息进行对比，得出所述识别出的文字内容信息与所述预置文字内容信息的相似度；判断所述相似度是否达到预设的文字相关度，当判断为是时，则判定所述识别出的语音信息对应的文字内容信息与所述预置的文字内容信息匹配。

12、如权利要求11所述的系统，其特征在于，所述显示模块进一步包括：显示控制单元，用于控制所述预置文字内容信息的显示输出模式，所述显示输出模式包括字幕超前显示模式或全句语音识别显示模式；

显示输出单元，用于根据所述显示控制单元的控制，按照字幕超前显示模式显示所述预置文字内容信息或按照全句语音识别显示模式显示所述预置文字内容信息。