CN101931779A

CN101931779A - 一种可视电话及其通讯方法

Info

Publication number: CN101931779A
Application number: CN 200910108380
Authority: CN
Inventors: 梁立伟; 王宁
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2009-06-23
Filing date: 2009-06-23
Publication date: 2010-12-29
Also published as: WO2010148890A1

Abstract

本发明公开了一种可视电话通讯方法，包括以下步骤，步骤A：可视电话对语音进行识别，得到对应的文字信息；步骤B：将所述文字信息转换成字幕；步骤C：显示或发送所述字幕。本发明还保护了一种实现该通讯方法的可视电话。本发明的可视电话及其通讯方法不仅能够实现视频通讯，而且支持字幕功能，例如发送本端字幕或在可视电话中显示对端字幕等，还可使字幕与视频信息相叠加，因此适用于多种场合和多种用户，灵活便利，提高了通讯效率和用户体验度。

Description

一种可视电话及其通讯方法

技术领域

本发明涉及通讯领域，尤其涉及一种可视电话及其通讯方法。

背景技术

随着通讯技术的迅速发展，人们对通讯方式提出了越来越高的要求，除了使用传统的语音和文字进行通讯以外，近年来，基于新的无线通讯标准，可视电话实现了视频通讯的方式。可视电话通常包括多种终端，例如手机、固定电话、计算机、掌上电脑等。可视电话实现视频通讯的具体过程为：安装在可视电话本端的摄像头采集用户所需的视频图像，并根据通讯协议规定的视频压缩标准进行编码，接着通过无线传输协议将编码后的视频码流与音频码流一起发送至对方用户，对方用户对视频码流进行解码，最后将其显示在屏幕上进行观看。这样，通讯系统中两端的用户既可以听到对方的声音，又可以观看对方的视频图像，不仅为沟通带来了便利，而且提高了用户的体验度。

然而，目前的可视电话在功能上仍然存在一定的局限性。由于只支持语音和视频的通讯方式，在某些场合中不能保证用户顺利地进行沟通，例如噪杂的环境中，由于受到噪音的干扰难以听清对方的语音；或者在会议过程中，不方便放大可视电话的音量接听对方的语音。另外，对于一些存在听力障碍的用户，可视电话虽然能够看到对方的视频，但是无法听到对方的声音，因此还是难以进行正常的沟通。因此，现有技术的可视电话不能适用于各种场合和多种用户，为用户的通讯带来一定的不便。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种适用于多种场合、多种用户，且灵活便利的可视电话及其通讯方法。

本发明解决其技术问题所采用的技术方案是：

一种可视电话通讯方法，包括以下步骤：步骤A：可视电话对语音进行识别，得到对应的文字信息；步骤B：将所述文字信息转换成字幕；步骤C：显示或发送所述字幕。

步骤A中可视电话对本端语音进行识别，得到对应的文字信息，步骤B将所述文字信息转换成本端字幕，步骤C中对所述本端字幕进行编码得到码流，并发送所述码流。

步骤A中可视电话对对端语音进行识别，得到对应的文字信息，步骤B将所述文字信息转换成对端字幕，步骤C在可视电话上显示所述对端字幕。

步骤C之前还包括以下步骤：将所述本端字幕与可视电话采集的本端视频信息相叠加；步骤C中对所述叠加后的本端字幕和本端视频信息一并进行编码得到码流，并发送所述码流。

步骤C之前还包括以下步骤：将所述对端字幕与可视电话接收的对端视频信息相叠加；步骤C在可视电话上一并显示所述叠加后的对端字幕和对端视频信息。

一种可视电话，包括：语音识别模块、字幕转换模块和字幕处理模块；语音识别模块用于对语音进行识别，得到对应的文字信息；字幕转换模块用于将所述语音识别模块得到的文字信息转换成字幕；字幕处理模块用于显示或发送所述字幕转换模块转换后的字幕。

还包括视频叠加模块，所述视频叠加模块用于将所述字幕转换模块转换后的字幕与视频信息相叠加；所述字幕处理模块还用于一并显示或发送所述叠加后的字幕和视频信息。

还包括叠加控制模块，所述叠加控制模块用于选择需叠加的视频信息或控制叠加方式。

所述叠加方式包括：按照一定的透明度叠加，或将所述字幕与视频信息分别缩放后按照一定的比例布局。

所述字幕处理模块包括编码模块和发送模块；所述语音为本端语音时，所述语音识别模块用于对所述本端语音进行识别，得到对应的文字信息，所述字幕转换模块用于将所述语音识别模块得到的文字信息转换成本端字幕，所述编码模块用于对所述字幕转换模块转换后的本端字幕进行编码得到码流，所述发送模块用于发送所述编码模块编码后的码流。

所述字幕处理模块包括显示模块；所述语音为对端语音时，所述语音识别模块用于对所述对端语音进行识别，得到对应的文字信息，所述字幕转换模块用于将所述语音识别模块得到的文字信息转换成对端字幕，所述显示模块用于显示所述字幕转换模块转换后的对端字幕。

所述语音识别模块包括第一语音识别模块和第二语音识别模块，所述语音为本端语音时，所述第一语音识别模块用于对所述本端语音进行识别，得到对应的文字信息，所述语音为对端语音时，所述第二语音识别模块用于对所述对端语音进行识别，得到对应的文字信息；所述字幕转换模块包括第一字幕转换模块和第二字幕转换模块，所述第一字幕转换模块用于将所述第一语音识别模块得到的文字信息转换成本端字幕，所述第二字幕转换模块用于将所述第二语音识别模块得到的文字信息转换成对端字幕；字幕处理模块包括编码模块、发送模块和显示模块，所述编码模块用于对所述第一字幕转换模块转换后的本端字幕进行编码得到码流，发送模块用于发送所述编码模块编码后的码流，所述显示模块用于显示第二字幕转换模块转换后的对端字幕。

还包括字幕功能选择模块，所述字幕功能选择模块用于选择所述语音识别模块所需识别的语音。

本发明的有益效果是，本发明的可视电话通讯方法对语音进行识别得到文字信息，并将所述文字信息转换成相应的字幕，最后按照具体需要显示或发送得到的字幕。本发明使可视电话具有字幕功能，例如可发送本端字幕或显示对端字幕功能等，因此适用于多种场合和多种用户。例如可在噪杂的环境中无法听清声音时只需读取字幕便可与对方进行交流，在会议场合不便放大音量时可通过字幕获得对方的语音信息，对于听力障碍的用户只需读取字幕即可与对方进行沟通，因此本发明灵活便利，提高了通讯效率，同时提高了用户的体验度。

本发明还能够实现字幕与视频信息相叠加的功能，使字幕与视频信息同步显示，进一步方便用户之间的沟通。

本发明还保护了一种可视电话，该可视电话能够将语音转化成相应的字幕，并按照具体需要对字幕进行处理。本发明不仅支持视频通讯，而且具有字幕功能，例如发送本端字幕或显示对端字幕等，这两种功能还可在可视电话中任意选择、切换或者同时使用。因此，本发明的可视电话不仅适用于多种场合、多种用户，而且灵活便利，满足了用户的个性化需求。

附图说明

图1为本发明的可视电话通讯方法的流程图；

图2为本发明的可视电话通讯方法中发送本端字幕的实施方式；

图3为本发明的可视电话通讯方法中显示对端字幕的实施方式；

图4为本发明的可视电话通讯方法中选择发送本端字幕或显示对端字幕的实施方式；

图5为本发明的可视电话第一种具体实施方式结构框图；

图6为本发明的可视电话第二种具体实施方式结构框图；

图7为本发明的可视电话第三种具体实施方式结构框图；

图8为本发明的可视电话第四种具体实施方式结构框图。

具体实施方式

本发明提供了一种可视电话及其通讯方法，不仅能够实现可视电话的视频通讯，还具有字幕功能，例如可向对端用户发送字幕，或者在可视电话中直接显示对端用户的语音产生的字幕。本发明包括多种实施方式，以下将对各种实施方式分别进行说明，但并不局限于以下实施方式：

图1为本发明的可视电话通讯方法的流程图，包括以下步骤：

步骤S100：可视电话对语音进行识别，得到对应的文字信息。本发明中的语音指可视电话本端用户提供的语音(简称本端语音)、可视电话通过通讯网络接收到的对端用户提供的语音(简称对端语音)，或可视电话本身存储或产生的语音等。文字信息可为中文、英文或者其他语种等，语种可根据具体需要进行设置或由可视电话自动识别，还可根据需要增设翻译功能，得到的文字信息为翻译后的语种。

步骤S101：将步骤S100得到的文字信息转换成字幕，这些字幕通过一定的图像信息反映文字信息，还可根据需要设置字幕的大小、字体、色彩、透明度等，设置方式包括多种，例如可视电话固定预设、随机设置以及用户自行设置等。字幕转换过程中，考虑到通话速度、停顿时长和通话时长等因素对字幕显示时间的影响，还可根据需要灵活设置字幕显示时间的长短，例如对于通话速度较快的语音，可以对字幕进行动态更新；对于当前时刻之间的语音，可适当保持相对较长的显示时间。

步骤S102：根据字幕的种类或用户的个性化需求显示或发送字幕，例如对于本端语音，用户希望将对应的本端字幕发送至对端用户或其他对象；对于对端语音，用户希望将对应的对端字幕直接显示在可视电话上进行观看；对于可视电话本身提供的语音，用户可根据喜好将字幕发送至对端用户或直接显示在可视电话上自行观看。如果用户希望将字幕与视频信息一同显示，则可在本步骤之前将字幕与视频信息相叠加，接着可对叠加后的字幕与视频信息一并进行显示或发送，这些视频信息为可视电话采集到或接收到的实时视频信息，或可视电话中本身保存的视频信息等。

本发明的可视电话通讯方法对语音进行识别得到文字信息，并将所述文字信息转换成相应的字幕，最后按照具体需要对字幕进行显示或发送，本发明使可视电话具有字幕显示或字幕发送等功能，因此适用于多种场合和多种用户。例如可在噪杂的环境中无法听清声音时，只需读取字幕便可与对方进行交流，在会议场合不便放大音量时可通过字幕获得对方的语音信息，对于听力障碍的用户只需读取字幕即可与对方进行沟通，因此本发明灵活便利，提高了通讯效率，同时提高了用户的体验度。

图2为本发明的可视电话通讯方法中发送本端字幕的实施方式，包括以下步骤：

步骤S200：开启可视电话的发送本端字幕功能，该过程可设置在通话开始之前或通话进行过程中，还可由用户自行设定或固定设置在可视电话中默认开启该功能。

步骤S201：对本端语音进行识别，得到对应的文字信息，为了保持本端语音和字幕的一致性，通常需要实时识别本端语音，得到与本端语音实时对应的文字信息。

步骤S202：将文字信息转化成本端字幕。

步骤S203：判断是否需要与本端视频信息相叠加，如果是则进入步骤S204，否则进入步骤S207，该过程可由用户自行选择，也可在可视电话中直接默认一种方式。

步骤S204：需要与本端视频信息相叠加，则将本端字幕与可视电话采集的本端视频信息相叠加，保持本端字幕与本端视频信息在时间上的同步性。

步骤S205：对叠加后的本端字幕和本端视频信息一并进行编码。

步骤S206：发送码流至与可视电话进行通讯的对端用户，通常按照一定的无线通讯协议(例如H.324.M)进行发送。对方通过解码和播放即可观看本端字幕的单独显示效果，或者本端字幕叠加在本端视频信息中进行显示的效果。

步骤S207：不需要与本端视频信息相叠加，则对本端字幕进行编码得到码流，接着进入步骤S206发送码流。

图3为本发明的可视电话通讯方法中显示对端字幕的实施方式，包括以下步骤：

步骤S300：开启显示对端字幕功能，该过程可设置在通过开始之前或通话进行中，还可由用户自行设定或固定设置在可视电话中默认开启该功能。

步骤S301：对可视电话接收到的对端语音进行识别，得到对应的文字信息，为了保持对端语音和字幕的一致性，通常需要实时识别对端语音，得到与对端语音实时对应的文字信息。

步骤S302：将文字信息转换成对端字幕。

步骤S303：判断是否需要与对端视频信息相叠加，如果是则进入步骤S304，否则进入步骤S306。

步骤S304：将对端字幕和可视电话接收的对端视频信息相叠加，保持对端字幕与对端视频信息在时间上的同步性。

步骤S305：在可视电话上一并显示叠加后的对端字幕和对端视频信息。

步骤S306：如果不需要与对端视频信息相叠加，则在可视电话上直接显示对端字幕，这种情况下，可视电话用户只看到对端字幕，这些字幕并未与对端视频信息一同显示。

图4为本发明的可视电话通讯方法中选择发送本端字幕或显示对端字幕的实施方式，包括以下步骤：

步骤S400：开启字幕功能。

步骤S401：判断是否选择了发送本端字幕的功能？是则进入步骤S402，否则进入步骤S409。本实施方式中只设定可选择发送本端字幕或显示对端字幕两种功能，实际上还可根据需要选择其他功能，例如将可视电话中存储的语音转化成字幕、或将本端语音转化成字幕，并与可视电话中存储的视频信息相叠加后进行发送或显示的功能等。

步骤S402：对本端语音进行识别，得到对应的文字信息。

步骤S403：将文字信息转化成本端字幕。

步骤S404：判断是否需要与本端视频信息相叠加，如果是则进入步骤S405，否则进入步骤S408，该过程可由用户自行选择，也可在可视电话中直接默认一种方式。

步骤S405：需要与本端视频信息相叠加。

步骤S406：对叠加后的本端字幕与本端视频信息一并进行编码。

步骤S407：发送码流。

步骤S408：不需要与本端视频信息相叠加，则对本端字幕进行编码得到码流，接着进入步骤S407发送码流。

步骤S409：未选择发送本端字幕的功能，表明选择了显示对端字幕的功能，则对可视电话接收到的对端语音进行识别，得到对应的文字信息。

步骤S410：将文字信息转换成对端字幕。

步骤S411：判断是否需要与对端视频信息相叠加，如果是则进入步骤S412，否则进入步骤S414。该过程可由用户自行选择，也可在可视电话中直接默认一种方式。

步骤S412：将对端字幕与可视电话接收的对端视频信息相叠加，保持对端字幕与对端视频信息在时间上的同步性。

步骤S3413：在可视电话上一并显示叠加后的对端字幕和对端视频信息。

步骤S414：如果不需要与对端视频信息相叠加，则在可视电话上直接显示对端字幕。

图4所示的实施方式中，还可不包括步骤S401所述的判断或选择方式，实现在可视电话中既发送本端字幕又显示对端字幕的功能，可视电话接收到的对端语音所对应的字幕显示在可视电话上，对方也能够接收到本端语音所对应的字幕。本实施方式根据具体需求，同样可实现本端字幕与本端视频信息相叠加，以及对端字幕与对端视频信息相叠加的功能。因此本实施方式更加灵活、方便，进一步提高了用户之间的通讯效率和用户体验度。

本发明还保护了支持字幕功能的可视电话，该可视电话可为固定电话、手机、计算机和掌上电脑等能够进行视频通讯的终端。图5为本发明的可视电话第一种具体实施方式结构框图，包括语音识别模块10、字幕转换模块20和字幕处理模块30，箭头所示方向表示为信息流的传递方向。

其中，语音识别模块10用于对语音进行识别，得到对应的文字信息，可视电话中可预先设定所要识别的语音，用户也可自行指定需要识别的语音；字幕转换模块20用于将语音识别模块10得到的文字信息转换成字幕；字幕处理模块30用于对字幕转换模块20转换后的字幕进行显示或发送。

本实施方式的可视电话还可包括视频叠加模块40，用于将字幕转换模块20转换后的字幕与视频信息相叠加，这种实施方式下，字幕处理模块30还用于对叠加后的字幕与视频信息一并进行显示或发送。为了实现灵活的叠加方式，本实施方式还可进一步包括叠加控制模块41，用于选择需叠加的视频信息或控制叠加方式；用户可根据需求灵活选择需要叠加的视频信息，还可控制叠加方式，例如按照一定的透明度实现Alpha融合，或者将字幕与视频信息分别缩放后按照一定的比例进行布局等。

本实施方式的可视电话还可包括字幕功能开启模块11，用于开启或关闭语音识别模块10对语音进行识别的功能，该字幕功能开启模块11可由用户在通讯之前或通讯过程中控制，也可在可视电话开机时自动开启。本实施方式的可视电话还可包括字幕功能选择模块12，用于选择语音识别模块10需要识别的语音，例如本端语音或对端语音等。

图6为本发明的可视电话第二种具体实施方式结构框图，本实施方式的可视电话能够实现本端字幕的发送功能。

本实施方式与图5相似，还包括本端视频采集模块50，通常为摄像头等装置用于采集视频信息。本实施方式中，语音识别模块10对本端语音进行识别时，字幕转换模块20将语音识别模块10得到的文字信息转换成本端字幕；如果需要将本端字幕与本端视频信息相叠加，视频采集模块50将采集到的本端视频信息传送至视频叠加模块40实现本端字幕和本端视频信息的叠加。本实施方式的字幕处理模块30包括编码模块31和发送模块32，其中，编码模块31用于对字幕转换模块20转换后的本端字幕按照一定的视频压缩标准进行编码得到码流，或者对叠加后的本端字幕与本端视频信息一并进行编码得到码流(例如编码标准为H.263)；发送模块32用于发送编码模块31编码后的码流。本实施方式的可视电话同样可以包括图5所示的字幕功能开启模块11和字幕功能选择模块12。

图7为本发明的可视电话第三种具体实施方式结构框图，本实施方式的可视电话能够实现对端字幕的显示功能。

本实施方式与图5相似，还包括视频接收模块60和视频解码模块70，视频接收模块60用于接收对端视频，视频解码模块70用于对接收到的对端视频进行解码。本实施方式中，语音识别模块10对对端语音进行识别时，字幕转换模块20将语音识别模块10得到的文字信息转换成对端字幕，如果需要将对端字幕与对端视频信息相叠加，视频解码模块70将解码后的对端视频信息传送至视频叠加模块40实现对端字幕和对端视频信息的叠加。本实施方式的字幕处理模块30包括显示模块33，用于显示字幕转换模块20转换后的对端字幕，或者显示叠加后的对端字幕和对端视频信息。本实施方式的可视电话同样可以包括图5所示的字幕功能开启模块11和字幕功能选择模块12。

图6和图7所示的实施方式分别实现了可视电话的发送本端字幕和显示对端字幕功能，通过融合两图所述的功能模块还可在可视电话中实现两种功能，用户可自行选取、切换其中的功能或者同时实现两种功能。实现两种功能时，可视电话中的语音识别模块10和字幕转换模块20对指定的语音进行统一处理，或按照图8所示的优选的实施方式进行处理。图8所述的实施方式中，语音识别模块10、字幕转换模块20都包括两个子模块，分别实现本端语音的发送和对端语音的显示功能，该优选的实施方式对子模块的功能进行区分，处理效率更高，且易于实现两种功能的同步进行。

例如图8为本发明的可视电话第四种具体实施方式结构框图，该实施方式中，语音识别模块10包括第一语音识别模块13和第二语音识别模块14，第一语音识别模块13用于对本端语音进行识别，得到对应的文字信息；第二语音识别模块14用于对对端语音进行识别，得到对应的文字信息。字幕转换模块20包括第一字幕转换模块21和第二字幕转换模块22，第一字幕转换模块21用于将第一语音识别模块13得到的文字信息转换成本端字幕；第二字幕转换模块22用于将第二语音识别模块14得到的文字信息转换成对端字幕。视频叠加模块40(本图未画出)包括第一视频叠加模块41和第二视频叠加模块42，第一视频叠加模块41用于将本端字幕与本端视频信息相叠加；第二视频叠加模块42用于将对端字幕与对端视频信息相叠加。字幕处理模块30包括编码模块31、发送模块21和显示模块33，编码模块31用于对第一字幕转换模块21转换后的本端字幕进行编码得到码流，或对本端字幕和本端视频信息一并进行编码，发送模块32用于发送编码模块31编码后的码流，显示模块33用于显示第二字幕转换模块22转换后的对端字幕，或叠加后的对端字幕和对端视频信息。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种可视电话通讯方法，其特征在于，包括以下步骤：

步骤A：可视电话对语音进行识别，得到对应的文字信息；

步骤B：将所述文字信息转换成字幕；

步骤C：显示或发送所述字幕。

2.根据权利要求1所述的方法，其特征在于：步骤A中可视电话对本端语音进行识别，得到对应的文字信息，步骤B将所述文字信息转换成本端字幕，步骤C中对所述本端字幕进行编码得到码流，并发送所述码流。

3.根据权利要求1或2所述的方法，其特征在于：步骤A中可视电话对对端语音进行识别，得到对应的文字信息，步骤B将所述文字信息转换成对端字幕，步骤C在可视电话上显示所述对端字幕。

4.根据权利要求2所述的方法，其特征在于：步骤C之前还包括以下步骤：将所述本端字幕与可视电话采集的本端视频信息相叠加；步骤C中对所述叠加后的本端字幕和本端视频信息一并进行编码得到码流，并发送所述码流。

5.根据权利要求3所述的方法，其特征在于：步骤C之前还包括以下步骤：将所述对端字幕与可视电话接收的对端视频信息相叠加；步骤C在可视电话上一并显示所述叠加后的对端字幕和对端视频信息。

6.一种可视电话，其特征在于，包括：语音识别模块、字幕转换模块和字幕处理模块；

语音识别模块用于对语音进行识别，得到对应的文字信息；

字幕转换模块用于将所述语音识别模块得到的文字信息转换成字幕；

字幕处理模块用于显示或发送所述字幕转换模块转换后的字幕。

7.根据权利要求6所述的可视电话，其特征在于：还包括视频叠加模块，所述视频叠加模块用于将所述字幕转换模块转换后的字幕与视频信息相叠加；所述字幕处理模块还用于一并显示或发送所述叠加后的字幕和视频信息。

8.根据权利要求7所述的可视电话，其特征在于：还包括叠加控制模块，所述叠加控制模块用于选择需叠加的视频信息或控制叠加方式。

9.根据权利要求8所述的可视电话，其特征在于：所述叠加方式包括：按照一定的透明度叠加，或将所述字幕与视频信息分别缩放后按照一定的比例布局。

10.根据权利要求6至9中任一项所述的可视电话，其特征在于：所述字幕处理模块包括编码模块和发送模块；所述语音为本端语音时，所述语音识别模块用于对所述本端语音进行识别，得到对应的文字信息，所述字幕转换模块用于将所述语音识别模块得到的文字信息转换成本端字幕，所述编码模块用于对所述字幕转换模块转换后的本端字幕进行编码得到码流，所述发送模块用于发送所述编码模块编码后的码流。

11.根据权利要求6至9中任一项所述的可视电话，其特征在于：所述字幕处理模块包括显示模块；所述语音为对端语音时，所述语音识别模块用于对所述对端语音进行识别，得到对应的文字信息，所述字幕转换模块用于将所述语音识别模块得到的文字信息转换成对端字幕，所述显示模块用于显示所述字幕转换模块转换后的对端字幕。

12.根据权利要求6至9中任一项所述的可视电话，其特征在于：

所述语音识别模块包括第一语音识别模块和第二语音识别模块，所述语音为本端语音时，所述第一语音识别模块用于对所述本端语音进行识别，得到对应的文字信息，所述语音为对端语音时，所述第二语音识别模块用于对所述对端语音进行识别，得到对应的文字信息；

所述字幕转换模块包括第一字幕转换模块和第二字幕转换模块，所述第一字幕转换模块用于将所述第一语音识别模块得到的文字信息转换成本端字幕，所述第二字幕转换模块用于将所述第二语音识别模块得到的文字信息转换成对端字幕；

字幕处理模块包括编码模块、发送模块和显示模块，所述编码模块用于对所述第一字幕转换模块转换后的本端字幕进行编码得到码流，发送模块用于发送所述编码模块编码后的码流，所述显示模块用于显示第二字幕转换模块转换后的对端字幕。

13.根据权利要求6至9中任一项所述的可视电话，其特征在于：还包括字幕功能选择模块，所述字幕功能选择模块用于选择所述语音识别模块所需识别的语音。