CN112399133B

CN112399133B - 一种会议分享方法及装置

Info

Publication number: CN112399133B
Application number: CN202011217692.7A
Authority: CN
Inventors: 初敏; 鄢志杰; 陈一宁
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2023-04-18
Anticipated expiration: 2036-09-30
Also published as: CN107911646B; CN107911646A; CN112399133A

Abstract

本申请公开了一种会议分享方法及装置，在该方法中云服务器可将参会用户的语音信息自动、实时的转换为相应的文字信息，并根据该文字信息，生成相应的会议记录，因此，相对于现有技术而言，会议记录的工作不再需要专门的会议记录员来完成，而是通过云服务器来代替会议记录员进行，这就极大的减轻了会议记录员的负担，给会议记录员带来了便利。不仅如此，由于云服务器生成的会议记录是基于参会用户的语音信息得来的，换句话说，云服务器相当于将参会用户说的每句话进行了记录，进而得到了相应的会议记录，本申请实施例中云服务器生成的会议记录与会议的真实内容相比不会出现偏差，进而给后续查看会议记录的用户带来方便。

Description

一种会议分享方法及装置

本申请为申请日为2016年9月30日、申请号为“201610875451.9”的发明专利申请的分案申请。

技术领域

本申请涉及计算机技术领域，尤其涉及一种会议分享、生成会议记录的方法及装置。

背景技术

随着计算机技术以及网络技术的迅猛发展，会议的模式也发生了翻天覆地的变化，现在，人们不必在像往常那样，需要参会人员都聚集在统一的一个会议室中进行开会，而是可通过诸如电话会议、视频会议等全新的方式，实现跨地域的参会，极大的丰富了人们的参会形式，并给人们带来了便利。

对于当前这些全新的会议模式来说，参会用户通常都需要使用能够支持这些会议模式的终端设备，才能通过这些会议模式来参会，例如，假设一些参会用户想要通过视频会议的模式来开展一次讨论会，则参加这次会议的参会用户需要使用带有视频播放功能以及图像采集功能的终端设备才能参与到这次会议当中，若某一原本要参加这次会议的参会用户身边恰巧没有这种终端设备，则该参会用户将无法参加此次会议，进而给参会用户带来了不便。

不仅如此，在现有技术中，无论是电话会议还是视频会议，往往都需要一个会议记录员对会议的内容进行记录，记录的方式通常是以手动记笔记的形式或打字的形式进行记录的。然而，在实际应用中，会议的内容往往较多，若依靠人工的方式来进行会议记录，将会给记录会议内容的会议记录员造成极大的不便。不仅如此，通常情况下，会议记录员记录的会议内容往往并不是会议的真实内容，而是会议记录员根据自己对会议内容的理解而简单记录的，而由于会议记录员主观因素的影响，会议记录员记录的会议内容可能与真实的会议内容相比会出现偏差，这就会给后续查看会议记录的其他人员带来了不便。

发明内容

本申请实施例提供一种会议分享的方法，用于解决现有技术中参会用户身边的终端设备由于不具备会议模式所需的功能而使参会用户无法进行参会的问题。

本申请实施例提供一种会议分享的装置，用于解决现有技术中参会用户身边的终端设备由于不具备会议模式所需的功能而使参会用户无法进行参会的问题。

本申请实施例采用下述技术方案：

本申请实施例提供一种会议分享的方法，包括：

采集各会议参与用户的各语音信息；

针对每个语音信息，将该语音信息进行处理，得到对应的文字信息；

将所述文字信息分享给其他的会议参与用户。

本申请实施例提供一种会议分享的装置，包括：

采集语音模块，采集各会议参与用户的各语音信息；

语音处理模块，针对每个语音信息，将该语音信息进行处理，得到对应的文字信息；

文字分享模块，将所述文字信息分享给其他的会议参与用户。

本申请实施例提供一种生成会议记录的方法，用于解决现有技术中人工记录会议内容的方式会给会议记录员带来不便，且记录的会议内容会与真实会议内容出现偏差的问题。

本申请实施例提供一种生成会议记录的装置，用于解决现有技术中人工记录会议内容的方式会给会议记录员带来不便，且记录的会议内容会与真实会议内容出现偏差的问题。

本申请实施例采用下述技术方案：

本申请实施例提供一种生成会议记录的方法，包括：

确定接入会议的各参会用户；

针对每个参会用户，采集该参会用户的语音信息，并将该语音信息发送至其他参会用户；

将针对各参会用户采集的语音信息转换为对应的文字信息；

根据所述文字信息，生成会议记录。

本申请实施例提供一种生成会议记录的装置，包括：

确定模块，确定接入会议的各参会用户；

采集发送模块，针对每个参会用户，采集该参会用户的语音信息，并将该语音信息发送至其他参会用户；

转换模块，将针对各参会用户采集的语音信息转换为对应的文字信息；

生成模块，根据所述文字信息，生成会议记录。

本申请实施例还提供一种会议分享的方法，包括：

通过视频会议参会终端采集视频信息和所述视频信息对应的语音信息；

将所述语音信息转换为对应的文字信息，作为所述视频信息的字幕；

在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息。

基于跟本申请实施例提供的会议分享的方法的同一发明构思，本申请实施例提供一种网络直播方法，其特征在于，包括：

采集网络主播的语音信息；

将所述语音信息转换为相应的文字信息；

将根据所述文字信息生成的字幕添加到网络直播画面中。

本申请实施例提供一种会议分享的装置，包括：

采集语音模块，通过视频会议参会终端采集视频信息和所述视频信息对应的语音信息；

语音处理模块，将所述语音信息转换为对应的文字信息，作为所述视频信息的字幕；

文字分享模块，在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息。

基于跟本申请实施例提供的会议分享的装置的同一发明构思，本申请实施例还提供一种网络直播装置，包括：

采集语音模块，采集网络主播的语音信息；

语音处理模块，将所述语音信息转换为相应的文字信息；

文字分享模块，将根据所述文字信息生成的字幕添加到网络直播画面。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于本申请实施例中，云服务器可将参会用户的语音信息实时转换为相应的文字信息并分享给其他的参会用户，这样一来，即使一些参会用户的身边不具备支持指定会议模式的终端设备，云服务器也可将会议内容以简单的文字形式发送给这些参会用户，从而使得这些参会用户也能参与到此次会议之中。不仅如此，由于在本申请实施例中，云服务器可将参会用户的语音信息自动、实时的转换为相应的文字信息，并根据该文字信息，生成相应的会议记录，因此，相对于现有技术而言，会议记录的工作不再需要专门的会议记录员来完成，而是通过云服务器来代替会议记录员进行，这就极大的减轻了会议记录员的负担，给会议记录员带来了便利。不仅如此，由于云服务器生成的会议记录是基于参会用户的语音信息得来的，换句话说，云服务器相当于将参会用户说的每句话进行了记录，继而得到了相应的会议记录，因此，相对于现有技术而言，本申请实施例中云服务器生成的会议记录与会议的真实内容相比将不会出现偏差，进而给后续查看会议记录的用户带来了方便。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的会议分享的过程；

图2为本申请实施例提供的生成会议记录的过程；

图3为本申请实施例提供的语音信息采集与发送的示意图；

图4为本申请实施例提供的会议记录的示意图；

图5为本申请实施例提供的一种带有字幕的视频会议示意图；

图6为本申请实施例提供的另一种带有字幕的视频会议示意图；

图7为本申请实施例提供的一种会议分享的装置示意图；

图8为本申请实施例提供的一种生成会议记录的装置示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的会议分享的过程，具体包括以下步骤：

S101：采集各会议参与用户的各语音信息。

通常情况下，用户在参加电话会议、视频会议时，其身边通常都需要具有能够支持此次会议的终端设备，以保证用户能够顺利的参与到此次会议之中，但是，在实际应用中，用户有时身边可能不具备能够支持指定会议模式的终端设备，如参会用户身边所持有的平板电脑、智能手机的摄像头坏了，或是平板电脑、智能手机的话筒或听筒坏了，亦或是参会用户身边只携带有诸如Kindle等电子阅读器，这些电子阅读器虽然能够上网，但是无法接收视频信息以及语音信息，所以，对于这种情况来说，该用户也将无法参与到此次指定的会议之中。

例如，假设某一用户在当前时刻需要参加一场视频会议，但是，用于该用户当前这里没有诸如电脑、平板电脑等能够支持此次视频会议的终端设备，因此，该用户将无法准时的参会到此次视频会议之中，从而给该用户带来了极大的不便。

为了有效解决上述问题，在本申请实施例中，云服务器可将各参会用户在会议中的语音信息转换为相应的文字信息，并将得到的文字信息分享给各个参会用户，由于接收文字信息对于各终端设备来说，其门槛相对较低，即，大部分终端设备都可接收文字信息，因此，参会用户即使身边没有支持指定会议模式的终端设备，该参会用户也可通过当前身边所持有的终端设备来接收云服务器分享过来的本次会议中的文字信息，从而参会到此次会议之中。而为了能够接收到云服务器分享的会议内容对应的文字信息，各参会用户需要向通过参会所使用的终端设备登录到云服务器中，并接入到指定的会议中，相应的，云服务器为了保证能够将后续转换得到的各文字信息分享给各参会用户，因此需要事先确定出接入会议的各参会用户，如，通过各参会用户接入会议所基于的账号，确定出接入会议的各参会用户。

而由于云服务器需要实时进行转换的会议内容，其实际上则是各参会用户在会议中通过各自的终端设备所发送的语音信息，所以，在本申请实施例中，云服务器可对每个参会用户通过各自参会终端所发送的语音信息进行采集，进而在后续的过程中，将各参会用户的语音信息转换为相应的文字信息。

需要说明的是，当一些参会用户需要进行一次视频会议时，云服务器除了需要采集各参会用户的语音信息外，还可对各参会用户通过各自的参会终端所发送的视频信息进行采集，进而在后续过程中，将各视频信息转发给各参会用户，这样一来，身边具备视频播放功能的参会用户将能够看到云服务器发送过来的其他参会用户的视频信息。

S102：针对每个语音信息，将该语音信息进行处理，得到对应的文字信息。

为了使身边只持有仅支持文字接收功能终端设备的参会用户也能进行参会，在本申请实施例中，云服务器在采集到各参会用户的语音信息后，可针对每个语音信息，将该语音信息进行处理，得到该语音信息对应的文字信息，其中，云服务器将该语音信息转换为文字信息的具体实施方式可以是：将该语音信息输入到预先训练的语义识别模型中去，进而得到该语音信息对应的文字信息。

S103：将所述文字信息分享给其他的会议参与用户。

云服务器在采集到各参会用户在会议中通过各自的参会终端所发送的语音信息后，可将各语音信息分别实时的转换为对应的文字信息，而后，云服务器可将得到的文字信息分享给其他的参会用户，从而使得即使有些参会用户身边不具备接收视频信息、语音信息功能的终端设备，也可通过接收云服务器转发过来的文字信息来进行参会，从而给参会用户带来了极大的便利。其中，这里提到的会议可以是多人进行讨论的会议，也可以是类似讲课一样的会议。

例如，在一次视频会议中，参与此次视频会议的各参会用户均在此次视频会议中进行了发言，即，此次视频会议为相互讨论的会议，则云服务器在确定出参与此次视频会议的各参会用户后，在视频会议过程中需要实时的采集各参会用户通过各自终端设备所发送的语音信息，并将各语音信息转换为相应的各文字信息，而后，云服务器可将各文字信息再分享给参与此次视频会议的各参会用户，这样一来就使得即使有些参会用户身边不具备支持此次视频会议的终端设备，这些参会用户也可通过能够接收文字信息的终端设备参会到此次视频会议的讨论中，从而给各参会用户带来了极大的方便。

再例如，在一次视频会议中有多名参会用户参加，其中，这些参会用户中有一名会议主讲人，而其他的参会用户均不参与此次参会用户的发言，即，一名参会用户负责讲解会议内容，而其他的参会用户则只需负责收听即可(类似讲课一样的会议)，对于这种视频会议来说话，云服务器可先确定出接入此次视频会议的各参会用户，并进一步的确定出此次视频会议的主讲人，而后，云服务器针对该主讲人在此次视频会议中通过终端设备发送的语音信息进行采集，并将采集到的语音信息转换为相应的文字信息，继而将该文字信息分享给其他收听此次视频会议的参会用户。

进一步的，云服务器将采集到的各语音信息实时转换为对应的各文字信息后，可将各文字信息以及各文字信息对应的各语音信息同步转发给各参会用户，使得一些身边具备语音接收功能的终端设备的参会用户不仅能够接收到云服务器转发过来的与会议内容对应的文字信息，还能接收到同步的语音信息，从而使得这些参会用户能够根据云服务器发送的语音信息以及对应的文字信息，进一步了解会议内容。

不仅如此，对于视频会议来说，当前的视频会议通常只会传输相应的视频画面(即视频信息)以及语音信息，而在整个视频会议中，通常都不会对各参会用户的语音信息配以相应的字幕，并将字幕打到视频画面中以呈现给各参会用户，继而可能会导致参会用户不能很好的理解会议内容。

而由于在本申请实施例中，云服务器可将各参会用户的语音信息转换为相应的文字信息，基于此，云服务器采集到参会视频会议的各参会用户的视频信息以及语音信息后，可先将采集到的语音信息转换为相应的文字信息，并将该文字信息作为采集到的视频信息的字幕转发给其他参会用户。这样一来，一些身边具备视频播放功能终端的参会用户不仅能够通过云服务器看到其他参会用户的视频画面，还能够在视频画面中看到相应的字幕，从而进一步提高了参会用户对会议内容的理解。

通过上述方法可以看出，由于云服务器可将在会议中采集到的各参会用户的语音信息转换为对应的文字信息，并将得到的文字信息分享给其他的参会用户，这就使得一些参会用户身边即使没有具备支持电话会议、视频会议等指定会议的终端设备，这些参会用户也可使用支持文字接收的终端设备来进行参会，从而大大降低了各参会用户进行参会的门槛，给各参会用户带来了极大的方便。

需要说明的是，在本申请实施例中，参会用户在使用支持文字接收的终端设备进行参会时，除了可通过云服务器接收到其他参会用户发送的语音信息所对应的文字信息外，也可通过终端将自己在会议中想要发表的言论编辑成相应的文字信息，并发送给云服务器，而云服务器则可将参会用户发送的文字信息分享给其他的参会用户，并可对该文字信息配以相应的语音信息，继而将该语音信息与该文字信息同步发送给其他的参会用户，其中，云服务器将文字信息转换为对应的语音信息可通过语音合成技术，将文字信息转换为一段人工的语音信息。

而云服务器除了可将转换语音信息(该语音信息为在会议中采集到的各参会用户的语音信息)得到的文字信息实时的分享给各参会用户以外，也可以在会议结束后，将转换得到的各文字信息按照时间顺序进行整理，并将整理后的各文字信息分享给各参会用户，以便于各参会用户对此次会议进行进一步的深入了解。

还需说明的是，在本申请实施例中，云服务器除了可将转换语音信息(该语音信息为在会议中采集到的各参会用户的语音信息)得到的文字信息分享给参与此次会议的各参会用户外，还可分享给未参与到此次会议的其他的用户。具体的，云服务器在确定接入会议的各参会用户后，可向各参会用户发送一个是否允许公开此次会议内容的选项，若云服务器根据各参会用户所选择的选项确定出超过一半的参会用户允许公开此次会议内容，则可将在此次会议中采集到的各参会用户的语音信息转换为相应的各文字信息，并将各文字信息分享至各参会用户所公有的聊天群组中，进而使得该群组中其他未参与到此次会议中的用户也能够通过云服务器分享的各文字信息得知此次会议的内容，从而为此次会议所讨论的话题营造一个更加良好的讨论氛围。

在现有技术中，无论是电话会议还是视频会议，其会议结束后所产生的会议记录通常都是由指定的会议记录员完成的，即，以人工的方式来进行会议记录。由于会议进行的过程中，每个参会人员的语速都不尽相同，有些参会人员在会议过程中的语速往往过快，这就给会议记录员的会议记录工作带来了极大的障碍。并且，由于会议记录都是由会议记录员人工记录的，其受会议记录员的主观因素较大，所以，会议记录员所记录的会议记录在内容上往往会与真实的会议内容存在差异，这就给后续查看会议记录的其他人员带来了不便。

为了避免上述情况的发生，本申请实施例提供了一种生成会议记录的方法，在该方法中，云服务器可将采集到的各参会用户的语音信息转换为相应的文字信息，并基于得到的文字信息来生成相应的会议记录，从而极大的简化了会议记录员的工作，并且，由于本申请实施例中的会议记录是基于参会用户的语音信息而生成的，所以该会议记录极大的还原了真实的会议内容，这就给后续查看该会议记录的其他人员带来了便利。具体的过程将在下面进行详细的阐述。

图2为本申请实施例提供的生成会议记录的过程，具体包括以下步骤：

S201：确定接入会议的各参会用户。

在实际应用中，用户通过电话会议、视频会议等方式参加会议时，通常需要通过具有通话功能的终端设备登录到相应的会议系统中，进而在会议过程中，通过该终端设备以及会议系统，将自己的声音、视频等信息传输给其他的参会用户。而由于本申请实施例意在通过云服务器来生成会议记录，因此，在本申请实施例中，参会用户在参会时，需要通过终端登录到云服务器中，相应的，云服务器可确定出接入会议的各参会用户，其中，为了保证最终生成的会议记录不会出现偏差，云服务器可进一步的确定出各参会用户的用户标识，这样一来，云服务器后续在采集各参会用户的语音信息时，可进一步的确定出采集到的语音信息出自哪一参会用户。

S202：针对每个参会用户，采集该参会用户的语音信息，并将该语音信息发送至其他参会用户。

为了使最终生成的会议记录相比于会议的真实内容能够不出现偏差，云服务器可基于参会用户的语音信息来生成会议记录。因此，在本申请实施例中，云服务器在确定出接入会议的各参会用户后，可针对每个参会用户，采集该参会用户的语音信息，并将该语音信息发送至其他的参会用户，如图2所示。

图3为本申请实施例提供的语音信息采集与发送的示意图。

在图3中，在会议过程中，每个参会用户都可通过终端设备将自己的语音信息发送至云服务器中，相应的，云服务器为了后续能够生成此次会议的会议记录，需要将各终端设备传输的语音信息进行采集，并将采集到的语音信息再转发至其他的参会用户。其中，云服务器所采集的语音信息中通常都会包含一些噪音，为保证整个会议的通话质量，云服务器可将采集到的语音信息进行一定的降噪处理，并将处理后的语音信息发送给其他的参会用户。

需要说明的是，在本申请实施例中，云服务器可将采集到的语音信息进行保存，以备后续对生成的会议记录进行校验的过程中使用，其中，会议记录的校验方式可以是，云服务器在生成会议记录后，可将保存的该会议记录对应的各语音信息按照各语音信息的采集时间进行播放，并将播放出的各语音信息转换成各文字信息，而后，云服务器可将各文字信息与生成的会议记录进行对照，进而对生成的会议记录实施校验。当然，云服务器可根据保存的各语音信息对生成的会议记录实施多次校验，以进一步的保证会议记录的准确性。

S203：将针对各参会用户采集的语音信息转换为对应的文字信息。

由于会议记录一般都是文字形式的，因此，云服务器在采集到各语音信息时，可将各语音信息转换为相应的文字信息，其中，在本申请实施例中，云服务器可通过预设的双向长短时记忆神经网络(Bidirectional Long Short Term Memory，BLSTM)，实现对语音信息的转换，具体的实现过程可以是，针对每个语音信息，云服务器可从该语音信息中提取出一些指定的参数，并将这些参数作为预设的BLSTM模型的输入参数进行输入，而预设的BLSTM模型则可根据该输入参数，输出该语音信息对应的文字信息。

需要说明的是，可将语音信息转换为文字信息的模型除BLSTM模型外，也可以是其他的语音识别模型。而BLSTM模型在对语音信息实施转换之前，通常都需要大量的训练样本进行训练，因此，在本申请实施例中，云服务器可预先对该BLSTM模型进行训练，具体的训练过程可以是，云服务器可预先采集大量的语音样本信息以及各语音样本信息对应的文字样本信息，而后，云服务器可针对每个语音样本信息，将该语音样本信息输入到该预设的BLSTM模型中，并通过该BLSTM模型得到该语音样本信息对应的文字信息，云服务器在得到该语音样本信息对应的文字信息后，可将该文字信息与该语音信息对应的文字样本信息进行比对，并根据比对的结果，对该BLSTM模型进行调整。经大量语音样本信息训练后的BLSTM模型可准确的将语音信息转换为相应的文字信息，进而为后续的会议记录生成工作提供服务。

S204：根据所述文字信息，生成会议记录。

云服务器在将各语音信息分别转换为各文字信息后，可基于各文字信息，来生成会议记录。具体的，在实际应用中，会议记录中除了记录各参会用户的谈话内容外，通常还需要记录每句话出自哪一参会用户，换句话说，会议记录中记录的每句谈话都应与各参会用户相对应。因此，在本申请实施例中，云服务器在生成会议记录之前，可先进一步的确定出各语音信息对应的用户标识，即确定出每句语音信息都出自哪一参会用户，其中，该用户标识可以是用户账号、或是参会用户的真实姓名、昵称等，而后，云服务器可针对每个用户标识以及与每个用户标识对应的每个语音信息，将该用户标识确定为该语音信息对应的文字信息的用户标识，即，确定出该语音信息对应的文字信息应出自于哪一参会用户。随后，云服务器可根据确定出的各文字信息对应的各用户标识，将各文字信息进行整合，进而生成会议记录。

例如，假设在一次会议中，云服务器确定出这次会议中的各语音信息分别出自参会用户A、参会用户B、参会用户C，相应的，云服务器可进一步的确定出各语音信息对应的各文字信息也出自于这三个参会用户，因此，云服务器在生成会议记录时，可将转换得到的各文字信息进行分类，将归属于同一参会用户的文字信息整合到一起，得到每个参会用户的会议记录，而后，云服务器可将各参会用户的会议记录进一步整合，并最终得到这次会议的会议记录。

需要说明的是，上述的说明的文字信息的整合方式并不唯一，也可以其他的整合方式，在此就不进行详细赘述了。

在实际应用中，会议记录中的每句话通常都是按照时间的顺序进行排序，因此，在本申请实施例中，云服务器也可在生成会议记录之前，先确定出各语音信息对应的采集时间，即相当于确定出了各语音信息是何时从参会用户的口中发出的，而后，云服务器可针对确定出的每个采集时间以及与每个采集时间对应的每个语音信息，将该采集时间确定为该语音信息对应的文字信息的生成时间，即，相当于确定出了参会用户是何时从口中说出了该文字信息。云服务器在确定出各文字信息的生成时间后，可根据各生成时间，对各文字信息进行整合，进而生成会议记录。

例如，假设云服务器在一次会议中，一共采集到了7条语音信息，云服务器可将这7条语音信息分别转换为相应的文字信息。在生成会议记录之前，云服务器可进一步的确定出这7条语音信息的采集时间，其中，各语音信息的采集时间如表1所示。

语音信息	采集时间
		语音信息A	13:02:13
语音信息B	13:00:02
		语音信息C	13:01:08
语音信息D	13:03:24
		语音信息E	13:01:45
语音信息F	13:04:21
		语音信息G	13:03:08

表1

云服务器确定出如表1所示的各语音信息的采集时间后，可将该采集时间就作为各语音信息对应的各文字信息的生成时间，如表2所示。

文字信息	生成时间
		文字信息A	13:02:13
文字信息B	13:00:02
		文字信息C	13:01:08
文字信息D	13:03:24
		文字信息E	13:01:45
文字信息F	13:04:21
		文字信息G	13:03:08

表2

云服务器在确定出如表2所示的各文字信息的生成时间后，可按照各生成时间的时间顺序，依次将这7个文字信息进行排序并整合，进而得到相应的会议记录，其中，该会议记录中各文字信息的排列顺序为文本信息B、文本信息C、文本信息E、文本信息A、文本信息G、文本信息D以及文本信息F。

需要说明的是，上述举例说明的根据确定出的各文字信息的生成时间来生成会议记录的方式并不唯一，在此就不作一一阐述了。

另外，为了使生成的会议记录在内容上能够更加的准确、清晰，在本申请实施例中，云服务器也可根据各语音信息的用户标识以及采集时间，分别确定出各文字信息的用户标识以及生成时间，并进一步的根据各文字信息的用户标识以及生成时间，对各文字信息进行整合，生成相应的会议记录。具体的，云服务器通过上述方式确定出各文字信息的用户标识以及生成时间后，可将各文字信息按照生成时间的时间顺序进行排列，而后，再用确定出的各用户标识依次标记出各文字信息，进而得到会议记录。

例如，继续沿用上例，假设在上述的7个文字信息实际上出自于4个参会用户，具体情况如表3所示。

表3

云服务器在生成会议记录的过程中，可根据如表2所示的各文字信息的生成时间，将这7个文字信息按照生成时间的时间顺序进行排序，而后，则通过确定出的用户标识，依次对这7个文字信息进行标记并整合，最终生成如图3所示的会议记录。

图4为本申请实施例提供的会议记录的示意图。

在图4中，会议记录右上角的时间可以由云服务器根据会议进行的过程中，对第一个语音信息的采集时间以及最后一个语音信息的采集时间而生成的，当然，也可通过其他的方式来表示会议的时间，如将各语音信息的采集时间进行加和平均，并将得到的结果就作为会议记录的时间。而上述的时间表示也并不唯一，可将第一语音信息的采集时间作为会议记录的时间，也可以将本次会议中最后一个语音信息的采集时间作为会议记录的时间，在此就不做具体的限定。

图4中会议记录右下角的日期可以由云服务器的系统时间来进行确定，而图4中会议记录的会议主题则可由参会用户将自己拟定的会议主题通过终端设备发送至云服务器中，相应的，云服务器则可将参会用户拟定的会议主题就作为该会议记录的会议主题。

云服务器在生成会议记录后，可将该会议记录进行保存，并通过邮件、站内信等形式发送至参会用户的终端中，除此之外，参会用户也可通过终端登录到该云服务器中，并从该云服务器中下载到该会议记录。

从上述方法可以看出，由于云服务器在会议过程中，可将参会用户通过终端设备发送的语音信息进行采集，以及将采集到的语音信息实时转换为相应的文字信息，并根据得到的文字信息，生成相应的会议记录。因此，云服务器可代替会议记录员在会议的过程中实时的记录会议内容，并在会议结束后生成相应的会议记录，从而极大的降低了会议记录员的工作负担，并且，由于云服务器生成的会议记录是基于各参会用户在会议过程中的语音信息而生成的，因此，云服务器在会议结束后最终生成的会议记录应与真实的会议内容相一致，这就避免了由于会议记录与真实会议内容不一致而导致的后续用户在参看会议记录的过程中会议记录会给用户造成误导的情况发生。

当前，视频会议的发展十分迅速，人们正以视频会议的方式来逐步的取代传统的会议模式，而在目前的视频会议中，参会用户看到的通常都只是其他参会用户的视频以及语音，而在视频画面上不会看到相应的字幕信息。然而，在实际应用中，视频会议所基于的网络有时会出现不稳定的情况，网络的不稳定可能会对视频会议中语音信息的传输造成影响，从而可能会使参会用户听不清其他参会用户在视频会议中的语音信息，所以，若视频会议中的视频画面没有相应的字幕，则当网络不稳定时，参会用户对于会议内容的理解上将会出现困难。

为了避免上述问题的发生，在本申请实施例中，云服务器在将采集到的参会用户的语音信息转换成相应的文字信息后，也可将文字信息作为视频会议中视频信息的字幕发送给其他的参会用户，从而使参会用户能够通过视频会议中的字幕进一步的理解会议的真实内容。

具体的，对于视频会议的情况来说，在上述步骤S102中，云服务器在采集各参会用户的语音信息的同时，也可通过参会用户的终端设备传输过来的视频画面，采集各参会用户的视频信息，并将该语音信息以及视频信息同时发送给其他的参会用户。

而云服务器在将采集的语音信息转换为相应的文字信息时，也可将该文字信息作为视频信息的字幕发送给其他的参会用户，这样一来，其他参会用户看到的将是带有字幕以及语音信息的视频画面。其中，字幕的形式可以如图4所示。

图5为本申请实施例提供的一种带有字幕的视频会议示意图。

在图5中，参会用户的终端设备中分别将其他每个参会用户的视频信息显示在了终端屏幕上，其中，对于屏幕中每个参会用户的视频画面来说，云服务器在采集到该参会用户的语音信息以及视频信息后，可将该语音信息转换为相应的文字信息，并将该文字信息作为该视频信息的字幕插入到该视频信息中去，即，相当于将该文字信息融合到该视频信息中去以得到带有字幕的视频信息，而后，云服务器可将该语音信息以及带有字幕的视频信息同步发送至其他参会用户的终端设备中，而对于每个参会用户来说，该参会用户的终端设备可将其他参会用户带有字幕的视频画面以及语音信息分别显示在终端屏幕上，以供该参会用户进行查看。

在实际应用中，通常会出现几个人坐在同一会议室中与其他的参会用户进行视频会议的情况，对于这种情况来说，由于在一个视频画面中，可能会有多个参会用户，为了将不同参会用户的语音信息加以区分，在本申请实施例中，云服务器在采集各参会用户的语音信息之前，可先针对每个参会用户，采集该参会用户的声纹信息以及面部特征信息，并将该声纹信息以及面部特征信息与确定出的该参会用户的用户标识(用户姓名)对应起来加以保存，云服务器后续在对参会用户的语音信息进行采集时，可将采集到的语音信息进行声纹分析或是对视频画面中的面部信息进行分析，以确定出该语音信息属于哪一参会用户，这样一来，后续云服务器在将该语音信息转换为相应的文字信息后，可将该文字信息与用户标识(用户姓名)相配合，一同作为视频信息的字幕进行显示，如图6所示。

图6为本申请实施例提供的另一种带有字幕的视频会议示意图。

在图6中，云服务器在采集到视频画面中各参会用户的语音信息后，可通过先前采集的声纹信息以及确定出的用户标识，对各语音信息进行声纹分析，以确定出该语音信息分别出自于哪一参会用户，当然，云服务器也可通过事先采集的面部特征信息来确定出各语音信息的归属，具体的方式可以是，云服务器在采集到各参会用户的语音信息后，可针对每个语音信息，确定出在采集该语音信息和视频信息时，视频信息中哪一参会用户有说话的动作，并采集该参会用户的面部信息，而后，云服务器可进一步的通过事先采集的面部特征信息确定出该面部信息属于哪一参会用户，进而在后续过程中，将转换语音信息得到的文字信息与该参会用户的用户标识相配合，一同作为视频信息中该参会用户的字幕进行显示。其中，在对视频信息添加字幕时，云服务器可将字幕以一定的效果插入到视频信息中去，如在图6中，视频画面中参会用户头顶上方以对话框的形式显示该字幕。

需要说明的是，当云服务器在采集语音信息的过程中，同一时刻采集到了多个语音信息，则云服务器可通过事先采集的声纹信息以及面部特征信息一同确定出各语音信息的归属，在将转换各语音信息得到的各文字信息与各用户标识相配合，以字幕的形式显示在视频信息中。

还需要说明的是，上述方法除了可用在视频会议中外，还可用于网络直播中，通过采集网络主播的语音信息，将该语音信息转换为相应的文字信息，并根据该文字信息生成网络直播的直播记录以及在网络直播中添加相应的字幕，其中，在网络直播的画面中添加字幕时，可利用网络直播的延迟时间，在此延迟时间中，将根据文字信息生成的字幕添加到网络直播画面中，并将添加字幕的网络直播画面呈现给观众。

以上为本申请实施例提供的生成会议记录的方法，基于同样的思路，本申请实施例还提供了会议分享的装置以及生成会议记录的装置，分别如图7、8所示。

图7为本申请实施例提供的一种会议分享的装置示意图，具体包括：

采集语音模块701，采集各会议参与用户的各语音信息；

语音处理模块702，针对每个语音信息，将该语音信息进行处理，得到对应的文字信息；

文字分享模块703，将所述文字信息分享给其他的会议参与用户。

所述文字分享模块703，将所述文字信息以及所述文字信息对应的语音信息同步分享给其他的会议参与用户。

所述采集语音模块702，采集各会议参会用户的各语音信息，以及各语音信息对应的各视频信息；

所述文字分享模块703，将所述文字信息作为所述视频信息的字幕分享给其他的会议参与用户。

可选地，采集语音模块701，通过视频会议参会终端采集视频信息和所述视频信息对应的语音信息；

语音处理模块702，将所述语音信息转换为对应的文字信息，作为所述视频信息的字幕；

文字分享模块703，在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息。

基于同一方面构思，图7所示装置可以应用到网络直播装置中。这样，采集语音模块701，采集网络主播的语音信息；

语音处理模块702，将所述语音信息转换为相应的文字信息；

文字分享模块703，将根据所述文字信息生成的字幕添加到网络直播画面。

图8为本申请实施例提供的一种生成会议记录的装置示意图，具体包括：

确定模块801，确定接入会议的各参会用户；

采集发送模块802，针对每个参会用户，采集该参会用户的语音信息，并将该语音信息发送至其他参会用户；

转换模块803，将针对各参会用户采集的语音信息转换为对应的文字信息；

生成模块804，根据所述文字信息，生成会议记录。

所述转换模块803，将针对各参会用户采集的语音信息输入到预设的双向长短时记忆神经网络BLSTM模型中，得到对应各语音信息的文字信息。

所述生成模块804，确定各语音信息对应的用户标识，针对每个用户标识以及与每个用户标识对应的每个语音信息，将该用户标识确定为该语音信息对应的文字信息的用户标识，根据各文字信息对应的各用户标识，将各文字信息进行整合，生成会议记录；和/或

确定各语音信息对应的采集时间，针对每个采集时间以及与每个采集时间对应的每个语音信息，将该采集时间确定为该语音信息对应的文字信息的生成时间，根据各文字信息对应的各生成时间，将各文字信息进行整合，生成会议记录。

所述装置还包括：

发送模块805，当监测到会议结束时，将所述会议记录发送给各参会用户。

所述采集发送模块802，针对每个参会用户，采集该参会用户的语音信息以及视频信息；

所述采集发送模块802，将该语音信息以及视频信息发送至其他参会用户；

所述转换模块803，将针对各参会用户采集的语音信息实时转换为对应的文字信息，并将所述文字信息作为所述视频信息的字幕发送至其他参会用户。

本申请实施例提供一种会议分享、生成会议记录的方法及装置，该方法中云服务器可将参会用户的语音信息实时转换为相应的文字信息并分享给其他的参会用户，这样一来，即使一些参会用户的身边不具备支持指定会议模式的终端设备，云服务器也可将会议内容以简单的文字形式发送给这些参会用户，从而使得这些参会用户也能参与到此次会议之中。不仅如此，由于在本申请实施例中，云服务器可将参会用户的语音信息自动、实时的转换为相应的文字信息，并根据该文字信息，生成相应的会议记录，因此，相对于现有技术而言，会议记录的工作不再需要专门的会议记录员来完成，而是通过云服务器来代替会议记录员进行，这就极大的减轻了会议记录员的负担，给会议记录员带来了便利。不仅如此，由于云服务器生成的会议记录是基于参会用户的语音信息得来的，换句话说，云服务器相当于将参会用户说的每句话进行了记录，继而得到了相应的会议记录，因此，相对于现有技术而言，本申请实施例中云服务器生成的会议记录与会议的真实内容相比将不会出现偏差，进而给后续查看会议记录的用户带来了方便。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤S201和步骤S202的执行主体可以为云服务器，步骤203的执行主体可以为云服务器中的转换单元；又比如，步骤201的执行主体可以为终端设备，步骤202和步骤203的执行主体可以为云服务器；等等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种会议分享的方法，其特征在于，包括：

判断会议参与用户所持的终端设备是否支持视频播放功能；

若是，则在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息；

若否，如果所述终端设备支持文字接收功能，则在所述终端设备播放所述文字信息；和/或，如果所述终端设备支持语音接收功能，则在所述终端设备播放所述文字信息以及所述文字信息对应的语音信息；

其中，所述在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息，具体包括：

将所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息同步发送至所述会议参与用户所持的终端设备播放。

2.如权利要求1所述的方法，其特征在于，将所述语音信息转换为对应的文字信息，作为所述视频信息的字幕，包括：

服务器将从所述视频会议参会终端采集的所述语音信息转换为对应的文字信息，作为所述视频信息的字幕。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述文字信息作为所述视频信息的字幕插入到所述视频信息；

在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息，包括：

在会议参与用户所持的终端设备播放所述语音信息以及插入所述字幕的视频信息。

4.如权利要求3所述的方法，其特征在于，将所述文字信息作为所述视频信息的字幕插入到所述视频信息，包括：

利用所述视频会议的延迟时间，在所述延迟时间中，将所述文字信息作为所述视频信息的字幕插入到所述视频信息。

5.如权利要求1所述的方法，其特征在于，通过视频会议参会终端采集视频信息和所述视频信息对应的语音信息，包括：

通过所述视频会议参会终端实时地采集视频信息和所述视频信息对应的语音信息；

在所述会议参与用户所持的终端设备实时地播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

对采集到的所述语音信息进行声纹分析或对所述视频信息中的会议参与用户的面部信息进行分析，以确定出所述语音信息所属会议参与用户的用户标识；

在所述会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息，包括：

将所述文字信息与所述用户标识一同作为所述视频信息的所述字幕在所述会议参与用户所持的终端设备进行显示。

7.如权利要求1所述的方法，其特征在于，还包括：

根据所述文字信息，生成会议记录。

8.如权利要求7所述的方法，其特征在于，根据所述文字信息，生成会议记录，具体包括：

确定各语音信息对应的用户标识，针对每个用户标识以及与每个用户标识对应的每个语音信息，将该用户标识确定为该语音信息对应的文字信息的用户标识，根据各文字信息对应的各用户标识，将各文字信息进行整合，生成会议记录；和/或

9.如权利要求7所述的方法，其特征在于，所述方法还包括：

当监测到会议结束时，将所述会议记录发送给所述视频会议的各参会用户。

10.一种会议分享的装置，其特征在于，包括：

文字分享模块，判断会议参与用户所持的终端设备是否支持视频播放功能；若是，则在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息；若否，如果所述终端设备支持文字接收功能，则在所述终端设备播放所述文字信息；和/或，如果所述终端设备支持语音接收功能，则在所述终端设备播放所述文字信息以及所述文字信息对应的语音信息；

其中，在会议参与用户所持的终端设备播放所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息，具体包括：将所述视频信息、所述视频信息对应的语音信息和作为所述视频信息的字幕的所述文字信息同步发送至所述会议参与用户所持的终端设备播放。