CN103685985A

CN103685985A - 通话方法、发送装置、接收装置、语音处理和终端设备

Info

Publication number: CN103685985A
Application number: CN201210345722.1A
Authority: CN
Inventors: 严小平
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2012-09-17
Filing date: 2012-09-17
Publication date: 2014-03-26

Abstract

本发明实施例提供了一种用于通话的方法、发送装置、接收装置、终端设备和语音处理设备。所述用于通话的方法包括：在发送端采集视听数据，所述视听数据包括语音数据；对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；在接收端中获得所述视听数据和字幕数据；在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。在本发明的实施例中，能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

Description

通话方法、发送装置、接收装置、语音处理和终端设备

技术领域

本发明涉及通信技术领域，更具体地，涉及一种用于通话的方法、发送装置、接收装置、终端设备和语音处理设备。

背景技术

随着通信技术的发展，因特网和第三代移动通信(3G)网络使得人与人之间的沟通更加便捷和灵活。例如，通过具有显示屏幕的智能通信终端或计算机，人们不但可以进行单纯的语音通话，也可以进行能够看到通话对方的图像的可视通话。

在进行通话的过程中，为了减少通信终端对人体的辐射影响、或者为了看到通信终端上的显示屏幕的图像、或者为了使多个人能够同时听到通话内容等各种原因，可能利用耳机或采用免提的方式进行通话。然而，由于通信信道的不完善、以及用户所处环境的外界干扰，在通话过程中可以出现无法听清通话对方的声音的情况发生。例如，当使用因特网进行可视通话时，由于数据通信信道的不稳定以及所传输的数据量的变大，使得通话的语音会出现断续或丢失、通话视频中出现马赛克等；当用户使用免提方式通话时，如果周围环境出现噪音，则也可能导致用户难以听清通话对方的声音。这极大地降低了通话质量并丢失了部分通话信息，带给用户较差的通话体验。

因此，期望提供一种能够在通信条件差或周围环境嘈杂的情况下保证通话信息不被错失的通话手段。

发明内容

本发明实施例提供了一种用于通话的方法、发送装置、接收装置、终端设备和语音处理设备，其能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

一方面，提供了一种通话的方法，包括：在发送端采集视听数据，所述视听数据包括语音数据；对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；在接收端中获得所述视听数据和字幕数据；在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。

优选地，所述对所述语音数据进行语音识别并基于所识别的语音获得字幕数据的步骤可以是在发送端中执行的，并通过将所述视听数据和字幕数据从发送端传送到接收端来在接收端中获得所述视听数据和字幕数据。

优选地，在将所述视听数据和字幕数据传送到接收端的过程中，如果数据传输条件低于预设阈值，则可以仅将所述字幕数据从发送端传送到接收端而不发送所述视听数据。

优选地，将所述视听数据和字幕数据从发送端传送到接收端的步骤可包括：在发送端按照会话启动协议SIP来将所述视听数据和字幕数据封装为SIP数据包；将所述SIP数据包传送到所述接收端。

优选地，所述通话方法还可包括发送端将所述视听数据传送到独立于所述发送端和接收端的服务器，其中，在所述服务器中执行所述对所述视听数据进行语音识别并基于所识别的语音获得字幕数据，以及通过从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据来在接收端中获得所述视听数据和字幕数据。

优选地，在从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据的过程中，如果数据传输条件低于预设阈值，则从服务器向接收端仅发送字幕数据而不发送视听数据。

优选地，所述接收端的数目为多个，从所述发送端向多个接收端发送视听数据和从所述服务器向多个接收端发送字幕数据来在接收端中获得所述视听数据和字幕数据。

优选地，所述通话方法还可包括将所采集的视听数据传送到接收端，其中，在所述接收端中执行所述对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。

优选地，所述基于所识别的语音获得字幕数据的步骤可包括：基于所识别的语音获得与该语音的第一语言对应的文字；将所述第一语言的文字转换为与所述第一语言不同的第二语言对应的字幕。

优选地，在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示的步骤可包括：在接收端中设置字幕显示选项；当接收端的用户选择不显示所述字幕数据时，在接收端中执行所述视听数据的播放而不执行所述字幕数据的显示。

另一方面，提供了一种发送装置，用于终端设备，该发送装置包括：采集单元，用于采集视听数据，所述视听数据包括语音数据；语音识别单元，用于对语音数据进行语音识别并基于所识别的语音获得字幕数据；发送单元，用于发送所述视听数据和字幕数据，从而在接收装置中实现带字幕的通话。

另一方面，提供了一种接收装置，用于终端设备，该接收装置包括：接收单元，用于接收视听数据，该视听数据包括语音数据；字幕获取单元，用于获取与所述语音数据对应的字幕数据，该字幕数据是对所述语音数据进行语音识别并基于所识别的语音而获得的；处理单元，用于处理所述视听数据和所述字幕数据，以同步地进行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。

另一方面，提供了一种终端设备，包括上述的发送装置和上述的接收装置。

另一方面，提供了一种语音处理设备，连接到多个源终端设备和多个目的终端设备，该语音处理设备包括：接收单元，用于从所述多个源终端设备中的至少一个源终端设备接收语音数据；语音识别单元，用于对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；发送单元，用于将所述字幕数据发送到所述多个目的终端设备中的至少一个目的终端设备。

在本发明的上述实施例中，能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是图示了根据本发明实施例的用于通话的通信架构的示意图；

图2是示意性图示了根据本发明实施例的用于通话的方法的流程图；

图3图示了根据本发明实施例的带字幕的可视通话中的屏幕显示示例；

图4是示意性图示了根据本发明实施例的用于终端设备的发送装置的框图；

图5图示了根据本发明实施例的进行可视通话的发送装置的示意性结构图；

图6是示意性图示了根据本发明实施例的用于终端设备的接收装置的框图；

图7是示意性图示了根据本发明实施例的终端设备的框图；以及

图8是示意性图示了根据本发明实施例的语音处理设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

图1是图示了根据本发明实施例的用于通话的通信架构的示意图。在图1中，所述通信架构包括通信网络、以及连接到该通信网络的终端设备1、终端设备2、和服务器3。所述通信网络可以是诸如因特网、3G网络、长期演进(LTE，long term evolution)网络等已有的或将来具有的各种通信网络。所述服务器3可以是连接到所述通信网络的任何服务器。终端设备1和终端设备2可通过所述通信网络进行可视通话或单纯的语音通话，该通话通常是双向的。也就是说，终端设备1可以作为发送端向终端设备2发送视听数据，也可以作为接收端接收来自终端设备2的视听数据。在图1中，终端设备的数目被图示为两个，但这仅仅是示意性的。连接到通信网络的终端设备可以三个或更多。此外，各个终端设备之间不仅可以进行前述的双向通信，还可以进行例如仅仅终端设备1发送视听数据、终端设备2接收视听数据的单向通信，甚至还可以进行三个或更多终端设备之间的多方通话。具体的终端设备的数目已经通信方向不构成对本发明的限制。

为了简化，在下面的描述，仅仅描述其中终端设备1作为发送端发送视听数据、终端设备2作为接收端接收来自终端设备1的视听数据的示例性通话过程。

图2是示意性图示了根据本发明实施例的用于通话的方法的流程图。该通话方法200包括：在发送端采集视听数据，所述视听数据包括语音数据(S210)；对所述语音数据进行语音识别并基于所识别的语音获得字幕数据(S220)；在接收端中获得所述视听数据和字幕数据(S230)；在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话(S240)。

在S210中，在发送端采集视听数据，所述视听数据包括语音数据。

所述发送端是进行通话的双方中的说话的一方，在从图1中的终端设备1向终端设备2的示例性通话过程中，该发送端是所述终端设备1。要注意，该发送端不限于终端设备1，在从图1中的终端设备2向终端设备1的通话过程中，该发送端是所述终端设备2。此外，如果通话的终端设备改变，则该发送端还可以是其它的进行通话的终端设备。

在单纯的语音通话中，所述视听数据仅仅包括语音数据；在可视通话中，所述视听数据除了包括语音数据之外还包括图像数据。作为示例，在发送端中，可利用麦克风采集用户的语音，利用摄像头采集用户的图像，从而获得包括语音数据的视听数据。关于该视听数据的采集，可以利用现有的或将来出现的任何技术手段来实现。

在S220中，对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。可以利用任何语音识别技术来识别所述语音数据，并基于所识别的语音获得相应的字幕数据，使得进行通话的接收端能够在通话过程中看到通话内容的字幕。因此，即使接收端用户的周围环境偶尔变得嘈杂，也可以通过所述字幕知晓通话对方所讲的内容。此外，在发送端的用户具有方言口音的情况下，所述字幕数据还可以帮助接收端的用户理解发送端的用户的通话内容，以实现更好的沟通。

取决于语音识别技术的发展和完善，在该S220中，还可以先基于所识别的语音获得与该语音的第一语言(例如汉语)对应的文字；然后将所述第一语言的文字转换为与所述第一语言不同的第二语言(例如英语)对应的字幕。此外，在具有多个接收端、且接收端的各个用户理解不同语言的情况下，还可以获得与所述第一语言和第二语言分别对应的第一语言字幕和第二语言字幕二者，甚或获得与更多种语言对应的字幕，以将不同语言的字幕的发送到能够理解所述语言的对应用户。这样，当熟悉不同语言的用户进行通话时，用户可以接收到他所熟悉的语言的字幕，所述用户借助于所述字幕可以进行更好的沟通。

该S220可以在发送端、接收端或独立于所述发送端和接收端的其它设备中执行。例如，当发送端为计算机等处理能力强的终端设备时，可以在发送端中实现该S220；当接收端为计算机等处理能力强的终端设备时，可以将所述视听数据发送到接收端，由接收端实现该S220；如果想要减轻发送端和接收端的数据处理压力，可以将所述视听数据发送到独立于所述发送端和接收端的第三方，由该第三方执行所述S220以获得字幕数据，并然后将字幕数据传送到接收端。

在S230中，在接收端中获得所述视听数据和字幕数据。

如前所述，对所述语音数据进行语音识别并基于所识别的语音获得字幕数据(S220)可以在发送端、接收端或独立于所述发送端和接收端的第三方设备中执行。相应地，在接收端中获得所述视听数据和字幕数据的方式也会有所变化。下面具体描述接收端中的三种相应的数据获取情形。

情形一，当对语音数据进行语音识别并基于所识别的语音获得字幕数据(S220)是在发送端中执行时，可通过将所述视听数据和字幕数据从发送端传送到接收端来在接收端中获得所述视听数据和字幕数据(S230)。作为所述将视听数据和字幕数据从发送端传送到接收端的示例，可以在发送端按照会话启动协议(SIP，Session Initiation Protocol)来将所述视听数据和字幕数据封装为SIP数据包，并然后将所述SIP数据包传送到所述接收端。

以图1的通信架构为例，在终端设备1(发送端)采集视听数据，并在终端设备1中基于所述视听数据中的语音数据获得字幕数据，然后经由所述因特网或3G通信网络将所述视听数据和字幕数据发送到终端设备2(接收端)。

在将所述视听数据和字幕数据传送到接收端的过程中，如果发送端和/或接收所处于的通信环境的数据传输条件低于预设阈值，则仅将所述字幕数据从发送端传送到接收端而不发送所述视听数据。已知视听数据的数据量大、而字幕(即文本)数据的数据量小，在数据传输条件变差时仅传输字幕数据可以极大地降低通信网络的负载量，以改善数据传输条件，同时字幕数据的传输也保证了接收端的用户不错失通话信息。所述数据传输条件可以是通信信道的信噪比、时延等任何能够表征数据传输环境的参数，可以针对不同的通话质量要求而为这些数据传输条件设置相应的预设阈值，以基于所述预设阈值来判断数据传输环境的优劣。

情形二，当对语音数据进行语音识别并基于所识别的语音获得字幕数据(S220)是在独立于所述发送端和接收端的第三方设备(例如，图1中的服务器3)中执行时，在所述第三方设备中执行所述对语音数据进行语音识别并基于所识别的语音获得字幕数据，以及通过从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据来在接收端中获得所述视听数据和字幕数据。

以图1的通信架构为例，在终端设备1(发送端)采集视听数据，将所述视听数据中的语音数据发送到服务器3，在所述服务器3中执行所述对语音数据进行语音识别并基于所识别的语音获得字幕数据，并将字幕数据传送到终端设备2(接收端)，与此同时，也将所述视听数据从终端设备1发送到终端设备2，从而在所述终端设备2中获得所述视听数据和字幕数据。

在从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据的过程中，如果发送端和/或接收所处于的通信环境的数据传输条件低于预设阈值，则从服务器向接收端发送字幕数据而不执行视听数据从发送端向接收端的发送。此时，通过不从发送端向接收端的发送视听数据可以极大地降低通信网络的负载量，改善数据传输条件，同时从服务器3到接收端的字幕传输也保证了接收端的用户不错失通话信息。

所述接收端的数目可以为两个或更多，则所述发送端向各个接收端发送视听数据、和从所述服务器向各个接收端发送字幕数据来在各个接收端中获得所述视听数据和字幕数据，从而实现带字幕的通话。此外，如前所述，在所述服务器中可以获得与不同语言对应的字幕，并将不同语言的字幕发送到不同的接收端，从而为接收端的用户提供其所熟悉的语言的字幕。

情形三，当对语音数据进行语音识别并基于所识别的语音获得字幕数据(S220)是在接收端中执行时，可以先将所采集的视听数据传送到接收端，然后，在接收端中执行对所述语音数据进行语音识别并基于所识别的语音获得字幕数据(S230)。在该情形三中，也可以将所述视听数据传送到多个接收端，在全部或部分接收端中对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。此外，可以由各个接收端本身决定是实现带字幕的通话还是不带字幕的通话，从而实现多方通话。

以图1的通信架构为例，在终端设备1(发送端)采集视听数据，经由所述因特网或3G通信网络将所述视听数据发送到终端设备2(接收端)，并在终端设备2中基于所述视听数据中的语音数据获得字幕数据，以在接收端中实现带字幕的通话。

在S240中，在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。为了实现该S240，接收端典型地具有用于播放或传送语音的扬声器或耳机、以及用于显示字幕数据的显示屏。

在该S240中，可以在接收端中设置字幕显示选项。当接收端的用户选择不显示所述字幕数据时，在接收端中执行所述视听数据的播放而不执行所述字幕数据的显示。这样，当信道状况良好且通话环境安静的情况下，进行不带字幕的通话，从而节约字幕数据的传输流量、和/或减轻接收端的数据处理负担。

在本发明的上述用于进行通话的方法的实施例中，能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

图3图示了根据本发明实施例的带字幕的可视通话中的屏幕显示示例。在图3中，熟悉中文的小琳(Xiaolin)与熟悉英文的皮特进行带字幕的可视通话。图3中的左侧显示屏是小琳的终端设备的屏幕显示，在该左侧显示屏上，不仅显示通话对方皮特的头像，还用小琳所熟悉的中文来显示皮特的语音的字幕，从而当通信环境恶化无法听清皮特的声音的情况下，小琳也可以通过字幕与皮特沟通，保证通话信息不被错失。而且，因为字幕是以小琳所熟悉的中文进行显示，这可帮助她准确地理解皮特所讲的内容。类似地，图3中的右侧显示屏是皮特的终端设备的屏幕显示在该显示屏上，在该右侧显示屏上，不仅显示通话对方小琳的头像，还用皮特所熟悉的英文来显示小琳的语音的字幕，从而当通信环境恶化无法听清声音的情况下，皮特也可以通过字幕与小琳沟通，保证通话信息不被错失。而且，因为字幕是以皮特所熟悉的英文进行显示，这可帮助他准确地理解小琳所讲的内容。

下面结合图4－7来描述根据本发明实施例的用于进行带字幕的通话的装置的示例性实现。

图4是示意性图示了根据本发明实施例的用于终端设备的发送装置400的框图。该发送装置400所用于的终端设备是其用户讲话的终端设备。在从图1中的终端设备1向终端设备2的示例性通话过程中，该发送装置400用于所述终端设备1。在从图1中的终端设备2向终端设备1的通话过程中，该发送装置400用于所述终端设备2。

该发送装置400包括：采集单元410，用于采集视听数据，所述视听数据包括语音数据；语音识别单元420，用于对语音数据进行语音识别并基于所识别的语音获得字幕数据；发送单元430，用于发送所述视听数据和字幕数据，从而在接收装置中实现带字幕的通话。可选地，该发送装置400还可以包括传输条件确定单元440(如图4中的虚线所示)，用于确定所述发送装置所处于的通信网络的数据传输条件是否低于预设阈值，以确定所述发送单元430是发送所述视听数据和字幕数据二者、还是仅仅发送所述字幕数据。

所述采集单元410可以包括所述终端设备的麦克风和/或摄像头。在单纯的语音通话中，可利用所述麦克风采集语音数据，以形成视听数据。在可视通话中，可利用所述麦克风采集语音数据、并利用摄像头采集终端设备的用户的图像数据，从而基于该语音数据和图像数据形成视听数据。关于该采集单元410的视听数据采集，可以利用现有的或将来出现的任何技术手段来实现。

语音识别单元420可以对语音数据进行语音识别并基于所识别的语音获得字幕数据。该语音识别单元420可以利用任何语音识别技术来识别所述语音数据，并基于所识别的语音获得相应的字幕数据，使得进行通话的接收端能够在通话过程中显示通话内容的字幕。此外，在发送端的用户具有方言口音的情况下，所述字幕数据还可以帮助接收端的用户理解发送端的用户的通话内容，以实现更好的沟通。

取决于语音识别技术的发展和完善，所述语音识别单元420可通过如下操作来基于所识别的语音获得字幕数据：基于所识别的语音获得与该语音的第一语言(例如汉语)对应的第一语言字幕；将所述第一语言字幕转换为与所述第一语言不同的第二语言(例如英语)对应的第二语言字幕。这样，在具有多个接收端、且接收端的各个用户熟悉不同语言的情况下，还可以获得与所述第一语言和第二语言分别对应的第一语言字幕和第二语言字幕二者，甚或获得与更多种语言对应的字幕，以将不同语言的字幕的发送到能够熟悉所述语言的对应用户。这样，当熟悉不同语言的用户进行通话时，用户可以接收到他所熟悉的语言的字幕，各个用户借助于所述字幕可以进行更好的沟通。

所述发送单元430例如将所述视听数据和字幕数据发送到一个或多个接收装置，从而在接收装置中实现带字幕的通话。所述发送单元430可通过如下操作来发送所述视听数据和字幕数据：按照会话启动协议SIP来将所述视听数据和字幕数据封装为SIP数据包；发送所述SIP数据包。

在本发明的上述用于进行带字幕的通话的发送装置的示例性实现中，能够在提供通话的语音的同时提供与该语音对应的字幕，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

此外，如前所述，发送装置400还可以包括传输条件确定单元440，用于确定所述发送装置所处于的通信网络的数据传输条件是否低于预设阈值。作为示例，传输条件确定单元440可以通过监测用于传输视听数据和字幕数据的各个通信链路或节点的参数来确定所述数据传输条件是否低于预设阈值。当所述数据传输条件低于预设阈值时，所述传输条件确定单元440指示发送单元430仅发送所述字幕数据而不发送所述视听数据。在数据传输条件变差时仅传输字幕数据可以极大地降低通信网络的负载量(视听数据的数据量大、而字幕数据的数据量小)，以改善数据传输条件，同时字幕数据的传输也保证了接收端的用户不错失通话信息。如前所述，所述数据传输条件可以是通信信道的信噪比、时延等任何能够表征数据传输环境的参数，且可以针对不同的通话质量要求而为这些数据传输条件设置相应的预设阈值，以基于所述预设阈值来判断数据传输环境的优劣。

图5图示了根据本发明实施例的进行可视通话的发送装置的示意性结构图。在该图5中，所述麦克风和摄像头组成图4中的采集单元410来采集图像和声音；语音识别转字幕模块对应于图4中的语音识别单元；其余部分对应于图4中的发送单元。

当进行可视通话时，麦克风采集用户的语音数据，分别传给编码模块和语音识别转字幕模块。在编码模块中进行音频编码，同时在语音识别转字幕模块完成语音识别转字幕，这里的字幕可根据用户的实际需求，实现不同语言类别的字幕。尽管该语音识别转字幕模块被图示为单独的模块，但其也可以作为芯片而包含在数据处理模块中。数据处理模块与存储器通信连接。数据处理模块将通过摄像头获得的图像数据、来自语音识别转字幕模块的字幕数据、和利用所述编码模块编码的数据分别缓冲到存储器中，利用诸如SIP的数据封包程序对这些数据进行封装，通过网卡传输到可视通话的对方(接收端)。所述网卡可以是3G网卡、LTE网卡、4G网卡、WIFI(wireless fidelity)网卡中的任一个，还可以是任何能够与其它设备进行通信的其它网络接口。

要注意，图5的结构图仅仅示出了发送装置的实现示例，不能构成对本发明实施例的限制。在实践中，可以根据需要对图5中的组成模块进行其它组合、添加或删除。例如，可以将存储器包括在所述数据处理模块中，可以为所述发送装置添加显示器，在不进行可视通话时还可以删除所述摄像头。

图6是示意性图示了根据本发明实施例的用于终端设备的接收装置600的框图。

该接收装置600所用于的终端设备是其用户接收通话对方的视听信号的终端设备。在从图1中的终端设备1向终端设备2的示例性通话过程中，该接收装置600用于所述终端设备2。在从图1中的终端设备2向终端设备1的通话过程中，该接收装置600用于所述终端设备1。

所述接收装置600包括：接收单元610，用于接收视听数据，该视听数据包括语音数据；字幕获取单元620，用于获取与所述语音数据对应的字幕数据，该字幕数据是对所述语音数据进行语音识别并基于所识别的语音而获得的；处理单元630，用于处理所述视听数据和所述字幕数据，以同步地进行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。

可选地，该接收装置600还可以包括传输条件确定单元640、语音识别单元650、字幕显示按键660中的至少一个。所述传输条件确定单元640用于确定所述接收装置所处于的通信网络的数据传输条件是否低于预设阈值。所述语音识别单元650用于对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。所述字幕显示按键660用于启动或关闭所述字幕数据的显示。

所述接收单元610用于接收视听数据，该视听数据包括语音数据。所述接收单元610可以是前述的网卡、或者是任何能够与其它设备进行通信的其它网络接口。

所述字幕获取单元620用于获取与所述语音数据对应的字幕数据，该字幕数据是对所述语音数据进行语音识别并基于所识别的语音而获得的。如前面结合图2中的S220和S230进行的描述，所述用于获得所述字幕数据的语音识别单元可以位于发送端、服务器和接收端中，该字幕获取单元620获取字幕数据的方式将随着所述字幕数据的生成方式而改变。

当与所述语音数据对应的字幕数据来自发送装置或独立于发送装置和接收装置的服务器(例如图1中的服务器3)时，所述接收单元610还接收所述字幕数据，并将字幕数据传送到字幕获取单元620。因此，所述字幕获取单元620直接从该接收单元610获取所述字幕数据。可选地，所述接收装置600还可以包括传输条件确定单元640，用于确定所述接收装置600所处于的通信网络的数据传输条件是否低于预设阈值。该传输条件确定单元640类似于图4中的传输条件确定单元440。当所述数据传输条件低于预设阈值时，所述接收单元610仅接收所述字幕数据而不接收所述视听数据。关于该部分的描述可以参见前面在S230中的情形一和情形二中的相关描述。

当与所述语音数据对应的字幕数据是在接收端中产生时，所述接收装置600还包括语音识别单元650。所述语音识别单元650用于从接收单元接收视听数据中的语音数据，对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。这样，所述字幕获取单元620可以从所述语音识别单元640获取所述字幕数据。在接收装置600的用户所熟悉的语言不同于与接收单元610接收的语音数据对应的语言时，所述语音识别单元650可基于所识别的语音获得与该语音的第一语言对应的文字，并且将所述第一语言的文字转换为与所述第一语言不同的第二语言对应的字幕，从而获得与接收装置600的用户所熟悉的语言对应的字幕。关于该部分的描述可以参见前面在S230中的情形三中的相关描述。

所述处理单元630用于处理所述视听数据和所述字幕数据，以同步地进行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。所述处理单元630可以将已同步的视听数据和字幕数据分别传送到在终端设备中与所述接收装置连接的扬声器和显示器。

可选地，所述接收装置600还可包括字幕显示按键660，用于启动或关闭所述字幕数据的显示。当接收装置600的用户按下所述字幕显示按键660而选择关闭所述字幕数据的显示时，在接收装置600中仅执行所述视听数据的播放而不执行所述字幕数据的显示。作为仅执行所述视听数据的播放而不执行所述字幕数据的显示的手段，可以通过控制所述接收单元610和/或所述处理单元630来实现。例如，可以控制所述接收单元610不从外部接收中字幕数据，可以切断所述接收单元610与字幕获取单元620的连接，还可以指令所述处理单元630不接收所述字幕数据、或不向显示器发送所述字幕数据等。这样，当信道状况良好且通话环境安静的情况下，进行不带字幕的通话，从而节约字幕数据的传输流量、和/或减轻接收端的数据处理负担。

在本发明的上述用于进行带字幕通话的接收装置的实施例中，能够在接收视听数据的同时获得与该视听数据中的语音数据对应的字幕数据，从而即使通信环境恶化无法听清通话语音也保证通话信息不被错失。

图7是示意性图示了根据本发明实施例的终端设备的框图。该终端设备700包括图4所示的发送装置400和图6所示的接收装置600。通常，通话是两个终端设备之间进行的双向通信。也就是说，终端设备即可以发送通话数据(包括视听数据和字幕数据)也可以接收通话数据。因此，终端设备典型地如图7所示。要注意的是，在具体的实践中，可以将图7所示的终端设备中的发送装置和接收装置中的部分组成单元进行组合、增加或删减。例如，发送装置和接收装置可以共用一个语音识别单元，二者可以共用一个麦克风等；当在服务器中进行语音识别和字幕转换时，所述终端设备中可以不包括语音识别单元。

图8是示意性图示了根据本发明实施例的语音处理设备800的框图。

该语音处理设备800典型地是图1所示的独立于终端设备1和2的服务器3。该语音处理设备与多个源终端设备和多个目的终端设备通信连接，例如经由图1中所示的通信网络进行所述通信连接。如前所述，由于通话通常是双向通信，所以图1中的每个终端设备即可以是源终端设备也可以是目的终端设备。

该语音处理设备800包括：接收单元810，用于从所述多个源终端设备中的至少一个源终端设备接收语音数据；语音处理单元820，用于对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；发送单元830，用于将所述字幕数据发送到所述多个目的终端设备中的至少一个目的终端设备。在进行多方通话的情况中，该语音处理单元820可以基于所识别的语音获得与该语音的第一语言对应的第一语言字幕、并且将所述第一语言字幕转换为与所述第一语言不同的第二语言对应的第二语言字幕，然后所述发送单元830将所述第一语言字幕和第二语言字幕发送到不同的目的终端设备。关于该语音处理单元820所执行的功能，可以参见前面结合图2中S220、图4中的语音识别单元420、或图6中的语音识别单元650进行的描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合在一起，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种通话的方法，包括：

在发送端采集视听数据，所述视听数据包括语音数据；

对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；

在接收端中获得所述视听数据和字幕数据；

在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。

2.根据权利要求1的方法，其中所述对所述语音数据进行语音识别并基于所识别的语音获得字幕数据的步骤是在发送端中执行的，并通过将所述视听数据和字幕数据从发送端传送到接收端来在接收端中获得所述视听数据和字幕数据。

3.根据权利要求2的方法，其中，在将所述视听数据和字幕数据传送到接收端的过程中，如果数据传输条件低于预设阈值，则仅将所述字幕数据从发送端传送到接收端而不发送所述视听数据。

4.根据权利要求2的方法，其中，将所述视听数据和字幕数据从发送端传送到接收端的步骤包括：

在发送端按照会话启动协议SIP来将所述视听数据和字幕数据封装为SIP数据包；

将所述SIP数据包传送到所述接收端。

5.根据权利要求1的方法，还包括发送端将所述视听数据传送到独立于所述发送端和接收端的服务器，

其中，在所述服务器中执行所述对所述语音数据进行语音识别并基于所识别的语音获得字幕数据，以及通过从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据来在接收端中获得所述视听数据和字幕数据。

6.根据权利要求5的方法，其中，在从发送端向接收端发送视听数据和从服务器向接收端发送字幕数据的过程中，如果数据传输条件低于预设阈值，则从服务器向接收端仅发送字幕数据而不发送视听数据。

7.根据权利要求5的方法，其中，所述接收端的数目为多个，从所述发送端向多个接收端发送视听数据和从所述服务器向多个接收端发送字幕数据来在接收端中获得所述视听数据和字幕数据。

8.根据权利要求1的方法，还包括将所采集的视听数据传送到接收端，

其中，在所述接收端中执行对所述语音数据进行语音识别并基于所识别的语音获得字幕数据。

9.根据权利要求1的方法，其中，所述基于所识别的语音获得字幕数据的步骤包括：

基于所识别的语音获得与该语音的第一语言对应的文字；

将所述第一语言的文字转换为与所述第一语言不同的第二语言对应的字幕。

10.根据权利要求1的方法，其中，在接收端中同步地执行所述视听数据的播放和所述字幕数据的显示的步骤包括：

在接收端中设置字幕显示选项；

当接收端的用户选择不显示所述字幕数据时，在接收端中执行所述视听数据的播放而不执行所述字幕数据的显示。

11.一种发送装置，用于终端设备，该发送装置包括：

采集单元，用于采集视听数据，所述视听数据包括语音数据；

语音识别单元，用于对语音数据进行语音识别并基于所识别的语音获得字幕数据；

发送单元，用于发送所述视听数据和字幕数据，从而在接收装置中实现带字幕的通话。

12.根据权利要求11的发送装置，还包括传输条件确定单元，用于确定所述发送装置所处于的通信网络的数据传输条件是否低于预设阈值，

其中，当所述数据传输条件低于预设阈值时，所述传输条件确定单元指示发送单元仅发送所述字幕数据而不发送所述视听数据。

13.根据权利要求11的发送装置，其中所述发送单元通过如下操作来发送所述视听数据和字幕数据：

按照会话启动协议SIP来将所述视听数据和字幕数据封装为SIP数据包；

发送所述SIP数据包。

14.根据权利要求11的发送装置，其中，所述语音识别单元通过如下操作来基于所识别的语音获得字幕数据：

基于所识别的语音获得与该语音的第一语言对应的第一语言字幕；

将所述第一语言字幕转换为与所述第一语言不同的第二语言对应的第二语言字幕。

15.一种接收装置，用于终端设备，该接收装置包括：

接收单元，用于接收视听数据，该视听数据包括语音数据；

字幕获取单元，用于获取与所述语音数据对应的字幕数据，该字幕数据是对所述语音数据进行语音识别并基于所识别的语音而获得的；

处理单元，用于处理所述视听数据和所述字幕数据，以同步地进行所述视听数据的播放和所述字幕数据的显示，从而实现带字幕的通话。

16.根据权利要求15的接收装置，其中，所述接收单元还接收与所述语音数据对应的字幕数据，该字幕数据来自发送装置或独立于发送装置和接收装置的服务器，

所述字幕获取单元从所述接收单元获取所述字幕数据。

17.根据权利要求16的接收装置，其中，当接收单元所接收的字幕数据来自所述服务器时，所述接收装置还包括传输条件确定单元，用于确定所述接收装置所处于的通信网络的数据传输条件是否低于预设阈值，

其中，当所述数据传输条件低于预设阈值时，所述接收单元仅接收所述字幕数据而不接收所述视听数据。

18.根据权利要求15的接收装置，其中，所述接收装置还包括语音识别单元，用于对所述语音数据进行语音识别并基于所识别的语音获得字幕数据，

所述字幕获取单元从所述语音识别单元获取所述字幕数据。

19.根据权利要求18的接收装置，其中，所述语音识别单元通过如下操作基于所识别的语音获得字幕数据：

基于所识别的语音获得与该语音的第一语言对应的文字；以及

20.根据权利要求15的接收装置，还包括字幕显示按键，用于启动或关闭所述字幕数据的显示，

其中，当接收装置的用户按下所述字幕显示按键而选择关闭所述字幕数据的显示时，在接收装置中仅执行所述视听数据的播放而不执行所述字幕数据的显示。

21.一种终端设备，包括根据权利要求11的发送装置和根据权利要求15的接收装置。

22.一种语音处理设备，与多个源终端设备和多个目的终端设备通信连接，该语音处理设备包括：

接收单元，用于从所述多个源终端设备中的至少一个源终端设备接收语音数据；

语音识别单元，用于对所述语音数据进行语音识别并基于所识别的语音获得字幕数据；

发送单元，用于将所述字幕数据发送到所述多个目的终端设备中的至少一个目的终端设备。

23.根据权利要求22的语音处理设备，其中，所述语音识别单元基于所识别的语音获得与该语音的第一语言对应的第一语言字幕、并且将所述第一语言字幕转换为与所述第一语言不同的第二语言对应的第二语言字幕，

所述发送单元将所述第一语言字幕和第二语言字幕发送到不同的目的终端设备。