CN110232925A

CN110232925A - 生成会议记录的方法、装置和会议终端

Info

Publication number: CN110232925A
Application number: CN201910580294.2A
Authority: CN
Inventors: 耿雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-13

Abstract

本发明提供一种生成会议记录的方法、装置和会议终端。其中，生成会议记录的方法包括：通过声音采集装置获取多个与会人员中发言人的语音信号，根据发言人的语音信号通过摄像头获取发言人的人脸图像；其中，发言人的语音信号用于生成会议记录中的文字信息，人脸图像用于生成会议记录中发言人的身份信息；将发言人的语音信号和发言人的人脸图像发送给服务器。会议终端可以采集会议过程中每个发言人的语音信号和人脸图像，发送给服务器。从而，服务器可以生成包括发言人身份的会议记录，提升了处理效率。

Description

生成会议记录的方法、装置和会议终端

技术领域

本发明涉及信息管理技术领域，尤其涉及生成会议记录的方法、装置和会议终端。

背景技术

随着商业的快速发展，会议系统的应用十分广泛。对于多人参与的会议，在会议进行中或者会议结束后，通常需要生成会议纪录，以便后续达成会议决定及共识。

目前，会议记录通常通过人工整理。例如，会议记录人员在会议进行中快速记录不同说话人的发言，进行相应的文字记录。或者，在会议过程中利用摄像头、麦克风、录音笔等设备对各个人员的发言进行录音或录像。在会议结束后，会议记录人员查看录音或录像，从而整理出各个人员的会议记录。

但是，通过人工整理的方式形成会议记录，对用户来说费时费力，降低了处理效率。

发明内容

本发明提供一种生成会议记录的方法、装置和会议终端，提升了会议记录的生成效率。

第一方面，本发明提供一种生成会议记录的方法，包括：

通过声音采集装置获取多个与会人员中发言人的语音信号，根据所述语音信号通过摄像头获取所述发言人的人脸图像；其中，所述发言人的语音信号用于生成会议记录中的文字信息，所述人脸图像用于生成所述会议记录中所述发言人的身份信息；

将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。

可选的，所述通过声音采集装置获取多个与会人员中发言人的语音信号，包括：

通过所述声音采集装置获取所述发言人的原始语音信号；

对所述原始语音信号进行语句切分，获得所述语音信号；所述语音信号包括多个音频信号和每个音频信号的序号；其中，所述音频信号与语句对应；

相应的，将所述发言人的语音信号发送给服务器，包括：

将所述多个音频信号和每个音频信号的序号发送给所述服务器。

可选的，所述通过摄像头获取所述发言人的人脸图像，包括：

根据所述发言人的语音信号确定所述发言人的位置；

根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄，获取所述发言人的人脸图像。

可选的，所述通过声音采集装置获取多个与会人员中发言人的语音信号，通过摄像头获取所述发言人的人脸图像之前，还包括：

通过摄像头获取每个与会人员的人脸注册图像；

将每个与会人员的人脸注册图像发送给所述服务器。

可选的，所述人脸注册图像包括多个图片，所述多个图片中人脸的拍摄角度不同。

可选的，所述将所述发言人的语音信号和所述发言人的人脸图像发送给服务器，包括：

将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。

可选的，还包括：

接收所述服务器发送的会议记录；所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。

第二方面，本发明提供一种生成会议记录的装置，包括：

第一采集模块，用于通过声音采集装置获取多个与会人员中发言人的语音信号，所述发言人的语音信号用于生成会议记录中的文字信息；

第二采集模块，用于根据所述语音信号通过摄像头获取所述发言人的人脸图像，所述人脸图像用于生成所述会议记录中所述发言人的身份信息；

发送模块，用于将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。

可选的，所述第一采集模块具体用于：

通过所述声音采集装置获取所述发言人的原始语音信号；

所述发送模块具体用于：

可选的，所述第二采集模块具体用于：

根据所述发言人的语音信号确定所述发言人的位置；

可选的，还包括第三采集模块，所述第三采集模块用于：

通过摄像头获取每个与会人员的人脸注册图像；

所述发送模块，还用于将每个与会人员的人脸注册图像发送给所述服务器。

可选的，所述发送模块具体用于：

可选的，还包括接收模块，所述接收模块用于：

第三方面，本发明提供一种会议终端，包括：处理器、存储器和收发器；

所述收发器，用于与其他设备通信；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中存储的指令，以执行本发明第一方面任意实施方式提供的方法。

第四方面，本发明提供一种存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于本发明第一方面任意实施方式提供的方法。

第五方面，本申请实施例提供一种程序产品，该程序产品包括计算机程序(即执行指令)，该计算机程序存储在可读存储介质中。至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得该设备实施本发明第一方面任意实施方式提供的方法。

本发明提供一种生成会议记录的方法、装置和会议终端，通过声音采集装置获取多个与会人员中发言人的语音信号，根据语音信号通过摄像头获取发言人的人脸图像，将发言人的语音信号和发言人的人脸图像发送给服务器。服务器可以根据发言人的人脸图像获取发言人的身份信息，通过发言人的语音信号获取文字信息，从而生成包括发言人身份的会议记录，提升了会议记录的生成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例适用的系统架构图；

图2为本发明实施例提供的生成会议记录的方法的消息交互图；

图3为本发明实施例提供的生成会议记录的装置的结构示意图；

图4为本发明实施例提供的会议终端的结构示意图。

具体实施方式

下面，通过具体的实施例对本发明提供的生成会议记录的方法、装置和会议终端进行说明。

示例性的，图1为本发明实施例适用的系统架构图。如图1所示，系统可以包括会议终端100和服务器200。会议终端100与服务器200可以进行通信。本发明对于通信方式不做限定。例如，可以通过无线网络进行无线通信，也可以通过有线网络进行有线通信。其中，会议终端100包括声音采集装置和摄像头。声音采集装置用于采集声音信号，摄像头用于拍摄图像或视频。本发明对于声音采集装置、摄像头的实现方式、数量和在会议终端中的设置位置不做限定。例如，声音采集装置可以为麦克风阵列。例如，摄像头可以为多个，分别设置在会议终端的不同外表面上，可以拍摄不同方向的图像或视频。又例如，摄像头可以为一个，且可以调整拍摄方向。其中，服务器200可以获取会议终端100发送的数据。并且，服务器200可以实现语音识别、语义识别和人脸识别的功能，从而生成包括发言人身份信息的会议记录。可选的，会议终端100也可以实现语音识别、语义识别和人脸识别的功能。

需要说明的是，本实施例对于会议终端100的形状和结构不做限定。示例性的，如图1所示，会议终端100可以包括但不限于：麦克风阵列11、语音信号处理模块12、摄像头13、人脸识别模块14、通信接口15、扬声器16和供电模块17。麦克风阵列11可以采集语音信号。语音信号处理模块12可以对麦克风阵列11采集的语音信号进行处理，实现下列处理中的至少一项：回声消除、波束成形、噪声抑制、去混响，等。之后，语音信号处理模块12将处理后的语音信号发送给通信接口，通过通信接口15发送给服务器200。可选的，通信接口15可以包括但不限于：无线局域网(Wireless Fidelity，WIFI)模块151、网络接口152、电话线接口153。通信接口15提供了与服务器200进行通信的实现方式。其中，摄像头13用于拍摄图像或者视频。人脸识别模块14可以根据麦克风阵列11采集的语音信号获取发言人的图像或视频。

需要说明的是，本实施例对于服务器200的实现方式不做限定。服务器200可以为任意具有数据处理能力的设备，例如，单机服务器、集群服务器、云服务器，等等。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的生成会议记录的方法的消息交互图。本实施例提供的生成会议记录的方法，执行主体涉及生成会议记录的装置或会议终端，以及服务器。其中，会议终端可以包括生成会议记录的装置。如图2所示，本实施例提供的生成会议记录的方法，可以包括：

S201、会议终端通过声音采集装置获取多个与会人员中发言人的语音信号。其中，发言人的语音信号用于生成会议记录中的文字信息。

本实施例提供的生成会议记录的方法，应用场景可以为多人会议。其中，声音采集装置可以采集多个与会人员中发言人的语音信号。本实施例对于发言人的数量和发言人的位置不做限定。举例说明。假设，10个人参加会议。如果当前的发言人为发言人A，则通过声音采集装置可以获取发言人A的语音信号。发言人A的发言结束后，发言人B开始发言，则通过声音采集装置可以获取发言人B的语音信号。发言人A和发言人B可以在会议场景中固定的位置进行发言，也可以在自己的座位上进行发言。后续，会议终端可以将发言人A的语音信号和发言人B的语音信号发送给服务器，从而使得服务器生成发言人A和发言人B进行发言时的文字信息。

S202、会议终端根据发言人的语音信号通过摄像头获取发言人的人脸图像。其中，发言人的人脸图像用于生成会议记录中发言人的身份信息。

具体的，摄像头可以拍摄会议场景的图像或视频。在本实施例中，可以根据语音信号通过摄像头获取发言人的人脸图像，从而将发言人的语音信号与发言人的人脸图像匹配起来。后续，会议终端可以将发言人的人脸图像发送给服务器，从而使得服务器获取发言人的身份信息。

可选的，S202中，根据发言人的语音信号通过摄像头获取发言人的人脸图像，可以包括：

根据发言人的语音信号确定发言人的位置。

根据发言人的位置控制摄像头对发言人进行拍摄，获取发言人的人脸图像。

通过发言人的语音信号确定发言人的位置，再针对性的根据发言人的位置控制摄像头对发言人进行拍摄，从而获取发言人的人脸图像，提升了获取发言人的人脸图像的准确性。进而，提升了发言人的语音信号与发言人的人脸图像匹配的准确率。

其中，摄像头的数量以及在会议终端中的设置位置不同，根据发言人的位置控制摄像头对发言人进行拍摄的具体实现方式可以不同。例如，在一种实现方式中，摄像头为多个，分别设置在会议终端的不同外表面上，可以拍摄不同方向的图像或视频。在根据发言人的语音信号确定发言人的位置之后，可以控制与发言人的位置对应的摄像头进行拍摄，从而获取发言人的人脸图像。又例如，在另一种实现方式中，摄像头为一个且可以调整拍摄方向。在根据发言人的语音信号确定发言人的位置之后，可以控制该摄像头的拍摄方向，从而获取发言人的人脸图像。

S203、会议终端将发言人的语音信号和发言人的人脸图像发送给服务器。

相应的，服务器接收会议终端发送的发言人的语音信号和发言人的人脸图像。

可选的，在一种场景中，当多个会议终端同时与服务器进行通信时，为了区分不同会议终端发送的数据，S203中，会议终端将发言人的语音信号和发言人的人脸图像发送给服务器，可以包括：

会议终端将发言人的语音信号、发言人的人脸图像和会议终端的标识信息发送给服务器。

其中，会议终端的标识信息可以唯一区分不同的会议终端。本实施例对于会议终端的标识信息的实现方式不做限定。例如，会议终端的标识信息可以包括但不限于：会议终端的编号、名称，等。

通过将发言人的语音信号、发言人的人脸图像和会议终端的标识信息一起发送给终端设备，通过会议终端的标识信息可以区分不同出不同的会议，进而，服务器可以生成不同会议的会议记录，提升了处理效率和生成会议记录的准确性。

S204、服务器根据发言人的语音信号生成会议记录中的文字信息，根据发言人的人脸图像获取发言人的身份信息。

具体的，服务器可以根据发言人的语音信号生成会议记录中的文字信息。本实施例对于服务器生成会议记录中文字信息的实现方式不做限定，可以采用现有的任意一种可以实现语音识别、语义识别和文字转写功能的算法。例如，可以采用相应的神经网络模型、深度学习模型等实现上述功能。

服务器还可以根据发言人的人脸图像获取发言人的身份信息。本实施例对于服务器获取发言人身份信息的实现方式不做限定。例如，服务器中可以预先存储有人脸图像与身份信息之间的对应关系。根据该对应关系，可以获取发言人的人脸图像对应的发言人的身份信息。又例如，可以将发言人的人脸图像输入用于输出身份信息的神经网络模型、深度学习模型等，从而获取发言人的身份信息。

S205、服务器根据会议记录中的文字信息和发言人的身份信息生成会议记录。

可见，本实施例提供的生成会议记录的方法，通过声音采集装置获取多个与会人员中发言人的语音信号，根据发言人的语音信号通过摄像头获取发言人的人脸图像，将发言人的语音信号和发言人的人脸图像发送给服务器。进而，服务器可以生成包括发言人身份的会议记录。由于不需要人工整理会议记录，因此，提高了生成会议记录的处理效率。

可选的，S201中，通过声音采集装置获取多个与会人员中发言人的语音信号，可以包括：

通过声音采集装置获取发言人的原始语音信号。

对原始语音信号进行语句切分，获得语音信号。其中，语音信号包括多个音频信号和每个音频信号的序号，音频信号与语句对应。

相应的，S203中，将发言人的语音信号发送给服务器，可以包括：

将多个音频信号和每个音频信号的序号发送给服务器。

具体的，会议终端通过声音采集装置采集到发言人的原始语音信号后，可以先对原始语音信号进行语句切分，获取多个音频信号。本实施例对于语句切分的实现方式不做限定。例如，可以根据原始语音信号中的静默期进行切分，获得多个音频信号。又例如，在根据原始语音信号中的静默期进行切分的基础上，根据所述静默期的持续时间，进一步判断是否为发言者说的语句，从而获得多个音频信号。又例如，可以将发言人的原始语音信号输入用于输出多个音频信号的神经网络模型、深度学习模型等，从而获取多个音频信号以及对应的序号。其中，每个音频信号对应有序号，用于标识音频信号在原始语音信号中的顺序。

通过语句切分，降低了服务器进行语音识别、语义识别的复杂度，便于服务器进行文字转写，生成发言人的文字信息。

可选的，本实施例提供的生成会议记录的方法，在S201之前，还可以包括：

会议终端通过摄像头获取每个与会人员的人脸注册图像。

会议终端将每个与会人员的人脸注册图像发送给服务器。

具体的，在每次会议之前，可以通过摄像头获取每个与会人员的人脸注册图像，将每个与会人员的人脸注册图像发送给服务器，可以使得服务器建立针对本次会议的人脸信息数据库。由于针对不同的会议可以分别建立相应的人脸信息数据库，大大减少了人脸比对的信息，进一步提升了数据处理效率。

可选的，人脸注册图像可以包括多个图片，多个图片中人脸的拍摄角度不同。

可选的，本实施例提供的生成会议记录的方法，还可以包括：

服务器向会议终端发送会议记录。其中，会议记录包括发言人的语音信号对应的文字信息和发言人的身份信息。

相应的，会议终端可以接收服务器发送的会议记录。

具体的，服务器在生成本次会议的会议记录后，可以发送给会议终端，以便与会人员获得所述会议记录。

本实施例提供一种生成会议记录的方法，包括：会议终端通过声音采集装置获取多个与会人员中发言人的语音信号，根据发言人的语音信号通过摄像头获取发言人的人脸图像，将发言人的语音信号和发言人的人脸图像发送给服务器。从而，服务器可以根据发言人的人脸图像获取发言人的身份信息，通过发言人的语音信号获取文字信息，从而生成包括发言人身份的会议记录，提升了会议记录的生成效率。

图3为本发明实施例提供的生成会议记录的装置的结构示意图。本实施例提供的生成会议记录的装置，用于执行图2所示实施例提供的生成会议记录的方法中生成会议记录的装置或会议终端执行的操作。如图3所示，本实施例提供的生成会议记录的装置，可以包括：

第一采集模块31，用于通过声音采集装置获取多个与会人员中发言人的语音信号，所述发言人的语音信号用于生成会议记录中的文字信息；

第二采集模块32，用于根据所述语音信号通过摄像头获取所述发言人的人脸图像，所述人脸图像用于生成所述会议记录中所述发言人的身份信息；

发送模块33，用于将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。

可选的，所述第一采集模块31具体用于：

通过所述声音采集装置获取所述发言人的原始语音信号；

所述发送模块33具体用于：

可选的，所述第二采集模块32具体用于：

根据所述发言人的语音信号确定所述发言人的位置；

可选的，还包括第三采集模块34，所述第三采集模块34用于：

通过摄像头获取每个与会人员的人脸注册图像；

所述发送模块33，还用于将每个与会人员的人脸注册图像发送给所述服务器。

可选的，所述发送模块33具体用于：

可选的，还包括接收模块35，所述接收模块35用于：

本实施例提供的生成会议记录的装置，用于执行图2所示实施例提供的生成会议记录的方法中生成会议记录的装置或会议终端执行的操作。技术原理和技术效果相似，此处不再赘述。

图4为本发明实施例提供的会议终端的结构示意图。如图4所示，会议终端包括处理器41、存储器42和收发器43。所述收发器43，用于与其他设备通信。所述存储器42用于存储指令，所述处理器41用于执行所述存储器42中存储的指令，以使所述会议终端执行图2所示实施例提供的生成会议记录的方法中会议终端执行的操作。技术原理和技术效果相似，此处不再赘述。

本发明实施例还提供一种会议终端，包括图3所示实施例提供的生成会议记录的装置。技术原理和技术效果相似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种生成会议记录的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过声音采集装置获取多个与会人员中发言人的语音信号，包括：

通过所述声音采集装置获取所述发言人的原始语音信号；

相应的，将所述发言人的语音信号发送给服务器，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音信号通过摄像头获取所述发言人的人脸图像，包括：

根据所述发言人的语音信号确定所述发言人的位置；

4.根据权利要求1所述的方法，其特征在于，所述通过声音采集装置获取多个与会人员中发言人的语音信号，根据所述语音信号通过摄像头获取所述发言人的人脸图像之前，还包括：

通过摄像头获取每个与会人员的人脸注册图像；

将每个与会人员的人脸注册图像发送给所述服务器。

5.根据权利要求4所述的方法，其特征在于，所述人脸注册图像包括多个图片，所述多个图片中人脸的拍摄角度不同。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述发言人的语音信号和所述发言人的人脸图像发送给服务器，包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

8.一种生成会议记录的装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一采集模块具体用于：

通过所述声音采集装置获取所述发言人的原始语音信号；

所述发送模块具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第二采集模块具体用于：

根据所述发言人的语音信号确定所述发言人的位置；

11.根据权利要求8所述的装置，其特征在于，还包括第三采集模块，所述第三采集模块用于：

通过摄像头获取每个与会人员的人脸注册图像；

12.根据权利要求11所述的装置，其特征在于，所述人脸注册图像包括多个图片，所述多个图片中人脸的拍摄角度不同。

13.根据权利要求8至12任一项所述的装置，其特征在于，所述发送模块具体用于：

14.根据权利要求8至12任一项所述的装置，其特征在于，还包括接收模块，所述接收模块用于：

15.一种会议终端，其特征在于，包括：处理器、存储器和收发器；

所述收发器，用于与其他设备通信；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中存储的指令，以执行如权利要求1至7任一项所述的方法。

16.一种存储介质，其特征在于，包括：可读存储介质和计算机程序，所述计算机程序用于实现如权利要求1至7任一项所述的方法。