CN110232925A - 生成会议记录的方法、装置和会议终端 - Google Patents

生成会议记录的方法、装置和会议终端 Download PDF

Info

Publication number
CN110232925A
CN110232925A CN201910580294.2A CN201910580294A CN110232925A CN 110232925 A CN110232925 A CN 110232925A CN 201910580294 A CN201910580294 A CN 201910580294A CN 110232925 A CN110232925 A CN 110232925A
Authority
CN
China
Prior art keywords
spokesman
voice signal
server
minutes
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910580294.2A
Other languages
English (en)
Inventor
耿雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910580294.2A priority Critical patent/CN110232925A/zh
Publication of CN110232925A publication Critical patent/CN110232925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Abstract

本发明提供一种生成会议记录的方法、装置和会议终端。其中,生成会议记录的方法包括:通过声音采集装置获取多个与会人员中发言人的语音信号,根据发言人的语音信号通过摄像头获取发言人的人脸图像;其中,发言人的语音信号用于生成会议记录中的文字信息,人脸图像用于生成会议记录中发言人的身份信息;将发言人的语音信号和发言人的人脸图像发送给服务器。会议终端可以采集会议过程中每个发言人的语音信号和人脸图像,发送给服务器。从而,服务器可以生成包括发言人身份的会议记录,提升了处理效率。

Description

生成会议记录的方法、装置和会议终端
技术领域
本发明涉及信息管理技术领域,尤其涉及生成会议记录的方法、装置和会议终端。
背景技术
随着商业的快速发展,会议系统的应用十分广泛。对于多人参与的会议,在会议进行中或者会议结束后,通常需要生成会议纪录,以便后续达成会议决定及共识。
目前,会议记录通常通过人工整理。例如,会议记录人员在会议进行中快速记录不同说话人的发言,进行相应的文字记录。或者,在会议过程中利用摄像头、麦克风、录音笔等设备对各个人员的发言进行录音或录像。在会议结束后,会议记录人员查看录音或录像,从而整理出各个人员的会议记录。
但是,通过人工整理的方式形成会议记录,对用户来说费时费力,降低了处理效率。
发明内容
本发明提供一种生成会议记录的方法、装置和会议终端,提升了会议记录的生成效率。
第一方面,本发明提供一种生成会议记录的方法,包括:
通过声音采集装置获取多个与会人员中发言人的语音信号,根据所述语音信号通过摄像头获取所述发言人的人脸图像;其中,所述发言人的语音信号用于生成会议记录中的文字信息,所述人脸图像用于生成所述会议记录中所述发言人的身份信息;
将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。
可选的,所述通过声音采集装置获取多个与会人员中发言人的语音信号,包括:
通过所述声音采集装置获取所述发言人的原始语音信号;
对所述原始语音信号进行语句切分,获得所述语音信号;所述语音信号包括多个音频信号和每个音频信号的序号;其中,所述音频信号与语句对应;
相应的,将所述发言人的语音信号发送给服务器,包括:
将所述多个音频信号和每个音频信号的序号发送给所述服务器。
可选的,所述通过摄像头获取所述发言人的人脸图像,包括:
根据所述发言人的语音信号确定所述发言人的位置;
根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄,获取所述发言人的人脸图像。
可选的,所述通过声音采集装置获取多个与会人员中发言人的语音信号,通过摄像头获取所述发言人的人脸图像之前,还包括:
通过摄像头获取每个与会人员的人脸注册图像;
将每个与会人员的人脸注册图像发送给所述服务器。
可选的,所述人脸注册图像包括多个图片,所述多个图片中人脸的拍摄角度不同。
可选的,所述将所述发言人的语音信号和所述发言人的人脸图像发送给服务器,包括:
将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。
可选的,还包括:
接收所述服务器发送的会议记录;所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。
第二方面,本发明提供一种生成会议记录的装置,包括:
第一采集模块,用于通过声音采集装置获取多个与会人员中发言人的语音信号,所述发言人的语音信号用于生成会议记录中的文字信息;
第二采集模块,用于根据所述语音信号通过摄像头获取所述发言人的人脸图像,所述人脸图像用于生成所述会议记录中所述发言人的身份信息;
发送模块,用于将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。
可选的,所述第一采集模块具体用于:
通过所述声音采集装置获取所述发言人的原始语音信号;
对所述原始语音信号进行语句切分,获得所述语音信号;所述语音信号包括多个音频信号和每个音频信号的序号;其中,所述音频信号与语句对应;
所述发送模块具体用于:
将所述多个音频信号和每个音频信号的序号发送给所述服务器。
可选的,所述第二采集模块具体用于:
根据所述发言人的语音信号确定所述发言人的位置;
根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄,获取所述发言人的人脸图像。
可选的,还包括第三采集模块,所述第三采集模块用于:
通过摄像头获取每个与会人员的人脸注册图像;
所述发送模块,还用于将每个与会人员的人脸注册图像发送给所述服务器。
可选的,所述人脸注册图像包括多个图片,所述多个图片中人脸的拍摄角度不同。
可选的,所述发送模块具体用于:
将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。
可选的,还包括接收模块,所述接收模块用于:
接收所述服务器发送的会议记录;所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。
第三方面,本发明提供一种会议终端,包括:处理器、存储器和收发器;
所述收发器,用于与其他设备通信;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中存储的指令,以执行本发明第一方面任意实施方式提供的方法。
第四方面,本发明提供一种存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于本发明第一方面任意实施方式提供的方法。
第五方面,本申请实施例提供一种程序产品,该程序产品包括计算机程序(即执行指令),该计算机程序存储在可读存储介质中。至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得该设备实施本发明第一方面任意实施方式提供的方法。
本发明提供一种生成会议记录的方法、装置和会议终端,通过声音采集装置获取多个与会人员中发言人的语音信号,根据语音信号通过摄像头获取发言人的人脸图像,将发言人的语音信号和发言人的人脸图像发送给服务器。服务器可以根据发言人的人脸图像获取发言人的身份信息,通过发言人的语音信号获取文字信息,从而生成包括发言人身份的会议记录,提升了会议记录的生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例适用的系统架构图;
图2为本发明实施例提供的生成会议记录的方法的消息交互图;
图3为本发明实施例提供的生成会议记录的装置的结构示意图;
图4为本发明实施例提供的会议终端的结构示意图。
具体实施方式
下面,通过具体的实施例对本发明提供的生成会议记录的方法、装置和会议终端进行说明。
示例性的,图1为本发明实施例适用的系统架构图。如图1所示,系统可以包括会议终端100和服务器200。会议终端100与服务器200可以进行通信。本发明对于通信方式不做限定。例如,可以通过无线网络进行无线通信,也可以通过有线网络进行有线通信。其中,会议终端100包括声音采集装置和摄像头。声音采集装置用于采集声音信号,摄像头用于拍摄图像或视频。本发明对于声音采集装置、摄像头的实现方式、数量和在会议终端中的设置位置不做限定。例如,声音采集装置可以为麦克风阵列。例如,摄像头可以为多个,分别设置在会议终端的不同外表面上,可以拍摄不同方向的图像或视频。又例如,摄像头可以为一个,且可以调整拍摄方向。其中,服务器200可以获取会议终端100发送的数据。并且,服务器200可以实现语音识别、语义识别和人脸识别的功能,从而生成包括发言人身份信息的会议记录。可选的,会议终端100也可以实现语音识别、语义识别和人脸识别的功能。
需要说明的是,本实施例对于会议终端100的形状和结构不做限定。示例性的,如图1所示,会议终端100可以包括但不限于:麦克风阵列11、语音信号处理模块12、摄像头13、人脸识别模块14、通信接口15、扬声器16和供电模块17。麦克风阵列11可以采集语音信号。语音信号处理模块12可以对麦克风阵列11采集的语音信号进行处理,实现下列处理中的至少一项:回声消除、波束成形、噪声抑制、去混响,等。之后,语音信号处理模块12将处理后的语音信号发送给通信接口,通过通信接口15发送给服务器200。可选的,通信接口15可以包括但不限于:无线局域网(Wireless Fidelity,WIFI)模块151、网络接口152、电话线接口153。通信接口15提供了与服务器200进行通信的实现方式。其中,摄像头13用于拍摄图像或者视频。人脸识别模块14可以根据麦克风阵列11采集的语音信号获取发言人的图像或视频。
需要说明的是,本实施例对于服务器200的实现方式不做限定。服务器200可以为任意具有数据处理能力的设备,例如,单机服务器、集群服务器、云服务器,等等。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明实施例提供的生成会议记录的方法的消息交互图。本实施例提供的生成会议记录的方法,执行主体涉及生成会议记录的装置或会议终端,以及服务器。其中,会议终端可以包括生成会议记录的装置。如图2所示,本实施例提供的生成会议记录的方法,可以包括:
S201、会议终端通过声音采集装置获取多个与会人员中发言人的语音信号。其中,发言人的语音信号用于生成会议记录中的文字信息。
本实施例提供的生成会议记录的方法,应用场景可以为多人会议。其中,声音采集装置可以采集多个与会人员中发言人的语音信号。本实施例对于发言人的数量和发言人的位置不做限定。举例说明。假设,10个人参加会议。如果当前的发言人为发言人A,则通过声音采集装置可以获取发言人A的语音信号。发言人A的发言结束后,发言人B开始发言,则通过声音采集装置可以获取发言人B的语音信号。发言人A和发言人B可以在会议场景中固定的位置进行发言,也可以在自己的座位上进行发言。后续,会议终端可以将发言人A的语音信号和发言人B的语音信号发送给服务器,从而使得服务器生成发言人A和发言人B进行发言时的文字信息。
S202、会议终端根据发言人的语音信号通过摄像头获取发言人的人脸图像。其中,发言人的人脸图像用于生成会议记录中发言人的身份信息。
具体的,摄像头可以拍摄会议场景的图像或视频。在本实施例中,可以根据语音信号通过摄像头获取发言人的人脸图像,从而将发言人的语音信号与发言人的人脸图像匹配起来。后续,会议终端可以将发言人的人脸图像发送给服务器,从而使得服务器获取发言人的身份信息。
可选的,S202中,根据发言人的语音信号通过摄像头获取发言人的人脸图像,可以包括:
根据发言人的语音信号确定发言人的位置。
根据发言人的位置控制摄像头对发言人进行拍摄,获取发言人的人脸图像。
通过发言人的语音信号确定发言人的位置,再针对性的根据发言人的位置控制摄像头对发言人进行拍摄,从而获取发言人的人脸图像,提升了获取发言人的人脸图像的准确性。进而,提升了发言人的语音信号与发言人的人脸图像匹配的准确率。
其中,摄像头的数量以及在会议终端中的设置位置不同,根据发言人的位置控制摄像头对发言人进行拍摄的具体实现方式可以不同。例如,在一种实现方式中,摄像头为多个,分别设置在会议终端的不同外表面上,可以拍摄不同方向的图像或视频。在根据发言人的语音信号确定发言人的位置之后,可以控制与发言人的位置对应的摄像头进行拍摄,从而获取发言人的人脸图像。又例如,在另一种实现方式中,摄像头为一个且可以调整拍摄方向。在根据发言人的语音信号确定发言人的位置之后,可以控制该摄像头的拍摄方向,从而获取发言人的人脸图像。
S203、会议终端将发言人的语音信号和发言人的人脸图像发送给服务器。
相应的,服务器接收会议终端发送的发言人的语音信号和发言人的人脸图像。
可选的,在一种场景中,当多个会议终端同时与服务器进行通信时,为了区分不同会议终端发送的数据,S203中,会议终端将发言人的语音信号和发言人的人脸图像发送给服务器,可以包括:
会议终端将发言人的语音信号、发言人的人脸图像和会议终端的标识信息发送给服务器。
其中,会议终端的标识信息可以唯一区分不同的会议终端。本实施例对于会议终端的标识信息的实现方式不做限定。例如,会议终端的标识信息可以包括但不限于:会议终端的编号、名称,等。
通过将发言人的语音信号、发言人的人脸图像和会议终端的标识信息一起发送给终端设备,通过会议终端的标识信息可以区分不同出不同的会议,进而,服务器可以生成不同会议的会议记录,提升了处理效率和生成会议记录的准确性。
S204、服务器根据发言人的语音信号生成会议记录中的文字信息,根据发言人的人脸图像获取发言人的身份信息。
具体的,服务器可以根据发言人的语音信号生成会议记录中的文字信息。本实施例对于服务器生成会议记录中文字信息的实现方式不做限定,可以采用现有的任意一种可以实现语音识别、语义识别和文字转写功能的算法。例如,可以采用相应的神经网络模型、深度学习模型等实现上述功能。
服务器还可以根据发言人的人脸图像获取发言人的身份信息。本实施例对于服务器获取发言人身份信息的实现方式不做限定。例如,服务器中可以预先存储有人脸图像与身份信息之间的对应关系。根据该对应关系,可以获取发言人的人脸图像对应的发言人的身份信息。又例如,可以将发言人的人脸图像输入用于输出身份信息的神经网络模型、深度学习模型等,从而获取发言人的身份信息。
S205、服务器根据会议记录中的文字信息和发言人的身份信息生成会议记录。
可见,本实施例提供的生成会议记录的方法,通过声音采集装置获取多个与会人员中发言人的语音信号,根据发言人的语音信号通过摄像头获取发言人的人脸图像,将发言人的语音信号和发言人的人脸图像发送给服务器。进而,服务器可以生成包括发言人身份的会议记录。由于不需要人工整理会议记录,因此,提高了生成会议记录的处理效率。
可选的,S201中,通过声音采集装置获取多个与会人员中发言人的语音信号,可以包括:
通过声音采集装置获取发言人的原始语音信号。
对原始语音信号进行语句切分,获得语音信号。其中,语音信号包括多个音频信号和每个音频信号的序号,音频信号与语句对应。
相应的,S203中,将发言人的语音信号发送给服务器,可以包括:
将多个音频信号和每个音频信号的序号发送给服务器。
具体的,会议终端通过声音采集装置采集到发言人的原始语音信号后,可以先对原始语音信号进行语句切分,获取多个音频信号。本实施例对于语句切分的实现方式不做限定。例如,可以根据原始语音信号中的静默期进行切分,获得多个音频信号。又例如,在根据原始语音信号中的静默期进行切分的基础上,根据所述静默期的持续时间,进一步判断是否为发言者说的语句,从而获得多个音频信号。又例如,可以将发言人的原始语音信号输入用于输出多个音频信号的神经网络模型、深度学习模型等,从而获取多个音频信号以及对应的序号。其中,每个音频信号对应有序号,用于标识音频信号在原始语音信号中的顺序。
通过语句切分,降低了服务器进行语音识别、语义识别的复杂度,便于服务器进行文字转写,生成发言人的文字信息。
可选的,本实施例提供的生成会议记录的方法,在S201之前,还可以包括:
会议终端通过摄像头获取每个与会人员的人脸注册图像。
会议终端将每个与会人员的人脸注册图像发送给服务器。
具体的,在每次会议之前,可以通过摄像头获取每个与会人员的人脸注册图像,将每个与会人员的人脸注册图像发送给服务器,可以使得服务器建立针对本次会议的人脸信息数据库。由于针对不同的会议可以分别建立相应的人脸信息数据库,大大减少了人脸比对的信息,进一步提升了数据处理效率。
可选的,人脸注册图像可以包括多个图片,多个图片中人脸的拍摄角度不同。
可选的,本实施例提供的生成会议记录的方法,还可以包括:
服务器向会议终端发送会议记录。其中,会议记录包括发言人的语音信号对应的文字信息和发言人的身份信息。
相应的,会议终端可以接收服务器发送的会议记录。
具体的,服务器在生成本次会议的会议记录后,可以发送给会议终端,以便与会人员获得所述会议记录。
本实施例提供一种生成会议记录的方法,包括:会议终端通过声音采集装置获取多个与会人员中发言人的语音信号,根据发言人的语音信号通过摄像头获取发言人的人脸图像,将发言人的语音信号和发言人的人脸图像发送给服务器。从而,服务器可以根据发言人的人脸图像获取发言人的身份信息,通过发言人的语音信号获取文字信息,从而生成包括发言人身份的会议记录,提升了会议记录的生成效率。
图3为本发明实施例提供的生成会议记录的装置的结构示意图。本实施例提供的生成会议记录的装置,用于执行图2所示实施例提供的生成会议记录的方法中生成会议记录的装置或会议终端执行的操作。如图3所示,本实施例提供的生成会议记录的装置,可以包括:
第一采集模块31,用于通过声音采集装置获取多个与会人员中发言人的语音信号,所述发言人的语音信号用于生成会议记录中的文字信息;
第二采集模块32,用于根据所述语音信号通过摄像头获取所述发言人的人脸图像,所述人脸图像用于生成所述会议记录中所述发言人的身份信息;
发送模块33,用于将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。
可选的,所述第一采集模块31具体用于:
通过所述声音采集装置获取所述发言人的原始语音信号;
对所述原始语音信号进行语句切分,获得所述语音信号;所述语音信号包括多个音频信号和每个音频信号的序号;其中,所述音频信号与语句对应;
所述发送模块33具体用于:
将所述多个音频信号和每个音频信号的序号发送给所述服务器。
可选的,所述第二采集模块32具体用于:
根据所述发言人的语音信号确定所述发言人的位置;
根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄,获取所述发言人的人脸图像。
可选的,还包括第三采集模块34,所述第三采集模块34用于:
通过摄像头获取每个与会人员的人脸注册图像;
所述发送模块33,还用于将每个与会人员的人脸注册图像发送给所述服务器。
可选的,所述人脸注册图像包括多个图片,所述多个图片中人脸的拍摄角度不同。
可选的,所述发送模块33具体用于:
将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。
可选的,还包括接收模块35,所述接收模块35用于:
接收所述服务器发送的会议记录;所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。
本实施例提供的生成会议记录的装置,用于执行图2所示实施例提供的生成会议记录的方法中生成会议记录的装置或会议终端执行的操作。技术原理和技术效果相似,此处不再赘述。
图4为本发明实施例提供的会议终端的结构示意图。如图4所示,会议终端包括处理器41、存储器42和收发器43。所述收发器43,用于与其他设备通信。所述存储器42用于存储指令,所述处理器41用于执行所述存储器42中存储的指令,以使所述会议终端执行图2所示实施例提供的生成会议记录的方法中会议终端执行的操作。技术原理和技术效果相似,此处不再赘述。
本发明实施例还提供一种会议终端,包括图3所示实施例提供的生成会议记录的装置。技术原理和技术效果相似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (16)

1.一种生成会议记录的方法,其特征在于,包括:
通过声音采集装置获取多个与会人员中发言人的语音信号,根据所述语音信号通过摄像头获取所述发言人的人脸图像;其中,所述发言人的语音信号用于生成会议记录中的文字信息,所述人脸图像用于生成所述会议记录中所述发言人的身份信息;
将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。
2.根据权利要求1所述的方法,其特征在于,所述通过声音采集装置获取多个与会人员中发言人的语音信号,包括:
通过所述声音采集装置获取所述发言人的原始语音信号;
对所述原始语音信号进行语句切分,获得所述语音信号;所述语音信号包括多个音频信号和每个音频信号的序号;其中,所述音频信号与语句对应;
相应的,将所述发言人的语音信号发送给服务器,包括:
将所述多个音频信号和每个音频信号的序号发送给所述服务器。
3.根据权利要求1所述的方法,其特征在于,所述根据所述语音信号通过摄像头获取所述发言人的人脸图像,包括:
根据所述发言人的语音信号确定所述发言人的位置;
根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄,获取所述发言人的人脸图像。
4.根据权利要求1所述的方法,其特征在于,所述通过声音采集装置获取多个与会人员中发言人的语音信号,根据所述语音信号通过摄像头获取所述发言人的人脸图像之前,还包括:
通过摄像头获取每个与会人员的人脸注册图像;
将每个与会人员的人脸注册图像发送给所述服务器。
5.根据权利要求4所述的方法,其特征在于,所述人脸注册图像包括多个图片,所述多个图片中人脸的拍摄角度不同。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述发言人的语音信号和所述发言人的人脸图像发送给服务器,包括:
将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。
7.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
接收所述服务器发送的会议记录;所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。
8.一种生成会议记录的装置,其特征在于,包括:
第一采集模块,用于通过声音采集装置获取多个与会人员中发言人的语音信号,所述发言人的语音信号用于生成会议记录中的文字信息;
第二采集模块,用于根据所述语音信号通过摄像头获取所述发言人的人脸图像,所述人脸图像用于生成所述会议记录中所述发言人的身份信息;
发送模块,用于将所述发言人的语音信号和所述发言人的人脸图像发送给服务器。
9.根据权利要求8所述的装置,其特征在于,所述第一采集模块具体用于:
通过所述声音采集装置获取所述发言人的原始语音信号;
对所述原始语音信号进行语句切分,获得所述语音信号;所述语音信号包括多个音频信号和每个音频信号的序号;其中,所述音频信号与语句对应;
所述发送模块具体用于:
将所述多个音频信号和每个音频信号的序号发送给所述服务器。
10.根据权利要求8所述的装置,其特征在于,所述第二采集模块具体用于:
根据所述发言人的语音信号确定所述发言人的位置;
根据所述发言人的位置控制所述摄像头对所述发言人进行拍摄,获取所述发言人的人脸图像。
11.根据权利要求8所述的装置,其特征在于,还包括第三采集模块,所述第三采集模块用于:
通过摄像头获取每个与会人员的人脸注册图像;
所述发送模块,还用于将每个与会人员的人脸注册图像发送给所述服务器。
12.根据权利要求11所述的装置,其特征在于,所述人脸注册图像包括多个图片,所述多个图片中人脸的拍摄角度不同。
13.根据权利要求8至12任一项所述的装置,其特征在于,所述发送模块具体用于:
将所述发言人的语音信号、所述发言人的人脸图像和会议终端的标识信息发送给所述服务器。
14.根据权利要求8至12任一项所述的装置,其特征在于,还包括接收模块,所述接收模块用于:
接收所述服务器发送的会议记录;所述会议记录包括所述发言人的语音信号对应的文字信息和所述发言人的身份信息。
15.一种会议终端,其特征在于,包括:处理器、存储器和收发器;
所述收发器,用于与其他设备通信;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中存储的指令,以执行如权利要求1至7任一项所述的方法。
16.一种存储介质,其特征在于,包括:可读存储介质和计算机程序,所述计算机程序用于实现如权利要求1至7任一项所述的方法。
CN201910580294.2A 2019-06-28 2019-06-28 生成会议记录的方法、装置和会议终端 Pending CN110232925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910580294.2A CN110232925A (zh) 2019-06-28 2019-06-28 生成会议记录的方法、装置和会议终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910580294.2A CN110232925A (zh) 2019-06-28 2019-06-28 生成会议记录的方法、装置和会议终端

Publications (1)

Publication Number Publication Date
CN110232925A true CN110232925A (zh) 2019-09-13

Family

ID=67857683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910580294.2A Pending CN110232925A (zh) 2019-06-28 2019-06-28 生成会议记录的方法、装置和会议终端

Country Status (1)

Country Link
CN (1) CN110232925A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统
CN111401699A (zh) * 2020-03-04 2020-07-10 深圳创维-Rgb电子有限公司 一种智能会议管理方法、机器人及存储介质
CN112307196A (zh) * 2020-09-25 2021-02-02 浪潮金融信息技术有限公司 一种基于人脸识别与语音识别进行实时会议纪要的系统及方法
CN112786045A (zh) * 2021-01-04 2021-05-11 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
WO2021134720A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种会议数据处理方法及相关设备
CN113536257A (zh) * 2021-07-27 2021-10-22 南京邮电大学盐城大数据研究院有限公司 一种基于区块链的多方会议准入方法和系统
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
CN114125178A (zh) * 2021-11-16 2022-03-01 阿里巴巴达摩院(杭州)科技有限公司 视频拼接方法、设备和可读介质
WO2022062471A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 一种音频数据的处理方法、设备和系统
CN114666454A (zh) * 2020-12-23 2022-06-24 沈阳新松机器人自动化股份有限公司 一种智能会议系统
CN114745213A (zh) * 2022-04-11 2022-07-12 深信服科技股份有限公司 一种会议记录生成方法、装置及电子设备和存储介质
TWI783344B (zh) * 2021-01-11 2022-11-11 圓展科技股份有限公司 聲源追蹤系統及其方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102647577A (zh) * 2011-02-16 2012-08-22 鸿富锦精密工业(深圳)有限公司 远程会议管理系统及管理方法
CN105679319A (zh) * 2015-12-29 2016-06-15 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN105810208A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN105915798A (zh) * 2016-06-02 2016-08-31 北京小米移动软件有限公司 视频会议中摄像头的控制方法和控制装置
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备
US20170034481A1 (en) * 2015-07-28 2017-02-02 Ricoh Company, Ltd. Imaging apparatus, medium, and method for imaging
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107609045A (zh) * 2017-08-17 2018-01-19 深圳壹秘科技有限公司 一种会议记录生成装置及其方法
CN108335697A (zh) * 2018-01-29 2018-07-27 北京百度网讯科技有限公司 会议记录方法、装置、设备及计算机可读介质
CN108597518A (zh) * 2018-03-21 2018-09-28 安徽咪鼠科技有限公司 一种基于语音识别的会议记录智能麦克风系统
CN108737719A (zh) * 2018-04-04 2018-11-02 深圳市冠旭电子股份有限公司 摄像头拍摄控制方法、装置、智能设备及存储介质
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN109560941A (zh) * 2018-12-12 2019-04-02 深圳市沃特沃德股份有限公司 会议记录方法、装置、智能终端及存储介质
CN109817245A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 会议纪要的生成方法、装置、计算机设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647577A (zh) * 2011-02-16 2012-08-22 鸿富锦精密工业(深圳)有限公司 远程会议管理系统及管理方法
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN105810208A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN106033339A (zh) * 2015-03-13 2016-10-19 联想(北京)有限公司 一种信息处理方法及电子设备
US20170034481A1 (en) * 2015-07-28 2017-02-02 Ricoh Company, Ltd. Imaging apparatus, medium, and method for imaging
CN105679319A (zh) * 2015-12-29 2016-06-15 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN105915798A (zh) * 2016-06-02 2016-08-31 北京小米移动软件有限公司 视频会议中摄像头的控制方法和控制装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107609045A (zh) * 2017-08-17 2018-01-19 深圳壹秘科技有限公司 一种会议记录生成装置及其方法
CN108335697A (zh) * 2018-01-29 2018-07-27 北京百度网讯科技有限公司 会议记录方法、装置、设备及计算机可读介质
CN108597518A (zh) * 2018-03-21 2018-09-28 安徽咪鼠科技有限公司 一种基于语音识别的会议记录智能麦克风系统
CN108737719A (zh) * 2018-04-04 2018-11-02 深圳市冠旭电子股份有限公司 摄像头拍摄控制方法、装置、智能设备及存储介质
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN109560941A (zh) * 2018-12-12 2019-04-02 深圳市沃特沃德股份有限公司 会议记录方法、装置、智能终端及存储介质
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN109817245A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 会议纪要的生成方法、装置、计算机设备及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统
CN110881115B (zh) * 2019-12-24 2021-06-15 新华智云科技有限公司 会议视频的拆条方法及系统
WO2021134720A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种会议数据处理方法及相关设备
CN111401699A (zh) * 2020-03-04 2020-07-10 深圳创维-Rgb电子有限公司 一种智能会议管理方法、机器人及存储介质
WO2022062471A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 一种音频数据的处理方法、设备和系统
CN112307196A (zh) * 2020-09-25 2021-02-02 浪潮金融信息技术有限公司 一种基于人脸识别与语音识别进行实时会议纪要的系统及方法
CN114666454A (zh) * 2020-12-23 2022-06-24 沈阳新松机器人自动化股份有限公司 一种智能会议系统
CN112786045A (zh) * 2021-01-04 2021-05-11 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
CN112786045B (zh) * 2021-01-04 2024-03-12 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
TWI783344B (zh) * 2021-01-11 2022-11-11 圓展科技股份有限公司 聲源追蹤系統及其方法
CN113536257A (zh) * 2021-07-27 2021-10-22 南京邮电大学盐城大数据研究院有限公司 一种基于区块链的多方会议准入方法和系统
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
CN113611308B (zh) * 2021-09-08 2024-05-07 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
CN114125178A (zh) * 2021-11-16 2022-03-01 阿里巴巴达摩院(杭州)科技有限公司 视频拼接方法、设备和可读介质
CN114745213A (zh) * 2022-04-11 2022-07-12 深信服科技股份有限公司 一种会议记录生成方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110232925A (zh) 生成会议记录的方法、装置和会议终端
CN104767963B (zh) 视频会议中的与会人信息呈现方法和装置
CN104836981B (zh) 智能会议的协作方法和会议终端
US10904483B2 (en) System and methods for automatic call initiation based on biometric data
CN109377987A (zh) 智能语音设备间的交互方法、装置、设备及存储介质
US8340267B2 (en) Audio transforms in connection with multiparty communication
CN105376515B (zh) 用于视频通讯的通讯信息的呈现方法、装置及系统
CN109658352A (zh) 图像信息的优化方法及装置、电子设备和存储介质
US20220392224A1 (en) Data processing method and apparatus, device, and readable storage medium
US20140118472A1 (en) Active Speaker Indicator for Conference Participants
WO2011090411A1 (en) Meeting room participant recogniser
CN101715102A (zh) 在点对点和多点音频/视频会议期间显示动态呼叫者身份
CN110335621A (zh) 音频处理的方法、系统及相关设备
CN110324723A (zh) 字幕生成方法及终端
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
CN110022454A (zh) 一种在视频会议中识别身份的方法及相关设备
EP3407248B1 (en) An apparatus, a method and a computer program for video coding and decoding
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
US11468708B2 (en) Videoconferencing using hybrid edge/cloud inference with machine-learned systems
CN107578777A (zh) 文字信息显示方法、装置及系统、语音识别方法及装置
CN104751868B (zh) 语音录制方法、通话录音回放方法以及相关装置和系统
CN105389318B (zh) 一种信息处理方法及电子设备
CN114240342A (zh) 一种会议控制的方法和装置
CN112634879B (zh) 语音会议管理方法、装置、设备及介质
CN104780341B (zh) 一种信息处理方法以及信息处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination