CN114764690A - 一种智能进行会议纪要的方法、装置和系统 - Google Patents
一种智能进行会议纪要的方法、装置和系统 Download PDFInfo
- Publication number
- CN114764690A CN114764690A CN202011617142.4A CN202011617142A CN114764690A CN 114764690 A CN114764690 A CN 114764690A CN 202011617142 A CN202011617142 A CN 202011617142A CN 114764690 A CN114764690 A CN 114764690A
- Authority
- CN
- China
- Prior art keywords
- conference
- module
- speaker
- image
- mouth shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000008859 change Effects 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 238000013473 artificial intelligence Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/109—Time management, e.g. calendars, reminders, meetings or time accounting
- G06Q10/1093—Calendar-based scheduling for persons or groups
- G06Q10/1095—Meeting or appointment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及一种智能进行会议纪要的方法、装置和系统,所述方法包括:实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像;将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码,所述第二套编码用以将所述人脸图像对应的发言人的身份信息以编码形式进行记录;与所述会场音频信息的片段进行比对;识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;根据会场会务人员的指令输出视频会议纪要。本发明申请能够更高效的进行智能进行会议纪要。
Description
技术领域
本发明属于智能会议系统的技术领域,具体涉及一种智能进行会议纪要的方法、装置和系统。
背景技术
传统指挥中心及会场,一般由机房、坐席、数字会议系统、视频会议系统、扩声系统、显示系统、监控系统、指挥调度系统、中控系统等子系统组成,集中操控各路信号,保持指挥中心与现场、上下级单位、协同单位、远程专家等实时互联互通,利用计算机技术、多媒体技术、融合通信技术等进行高效的可视化的调度指挥。但很少引入人工智能的元素,使得指挥中心或会场的综合效能不高。布线一般是固定位置的布线,会场布置不灵活,效率不高;签到方式有纸质签到,电子刷卡签到,人脸签到;有录音录像设备记录会议进程,但是一般没有语音转录等功能,使得会议纪要的工作量巨大;资料展示及分享要到固定的主机上操作,使得会议效率低下,使用诸多不便,难以满足现代指挥中心及会场对灵活、便捷、高效、智能的要求。现有技术存在的技术问题:
现有指挥中心及会场多数用的传统技术,不够智能化。会场布置不灵活,拓展困难;会议签到方式不够多样化;会议自动跟踪困难,准确度低;会议记录低效率,容易出错;与会人员资料展示不便,沟通效率低下。
发明内容
本发明的目的在于提供一种智能进行会议纪要的方法、装置和系统,以解决上述技术问题。
为了实现上述目的,本发明采用如下技术方案:
本发明申请一实施例提供了一种智能进行会议纪要的系统,所述系统,包括:采编单元、加密会议单元、人工智能单元;
所述采编单元,用以实时采集会议人脸图像和会场音频信息;分别进行相互对应的编码;所述采编单元包括:图像采集模块、声音采集模块、编码模块;
所述图像采集模块,用以实时采集会议人脸图像;
所述声音采集模块,用以采集会场音频信息;分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
所述编码模块,用以采集会场音频信息并与所述口型图像,形成相互对应的第一套编码;调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码;对得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码;
所述加密会议单元,用以对所述会议系统的数据进行加密;所述加密会议单元,包括,密钥子单元;
所述密钥子单元,包括,涉密模块、投票表决模块、发言呼叫模块、身份显示模块;
所述涉密模块,用以对会议过程的全部数据进行加密或解密;
所述投票表决模块,用以根据语音及所述第二套编码相匹配判断并统计投票结果;
所述发言呼叫模块,用以根据语音及所述第二套编码相匹配向会议主持人发送发言请求或呼叫要求他人发言;
所述身份显示模块,用以根据语音及所述第二套编码相匹配向其他参会者显示发言人的身份信息;
所述人工智能单元,包括,身份识别子单元、会议纪要子单元;
所述身份识别子单元,包括,人脸识别模块、声纹识别模块、语音识别模块;
所述人脸识别模块,用以根据人脸图像的变化识别初始口型图像作为第一帧口型图像;将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
所述声纹识别模块,用以通过声纹识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
所述语音识别模块,用以通过人脸识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
所述会议纪要子单元,包括,文字模块、会议纪要编辑模块;
所述文字模块,用以识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;根据会场会务人员的指令输出视频会议纪要;
所述会议纪要编辑模块,用以对会议中转化的文字进行编辑。
优选地,所述人工智能单元,还包括:自动跟踪子单元;
所述自动跟踪子单元,包括,方位分析模块、自动跟踪模块;
所述自动跟踪模块,用以选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像;
所述方位分析模块,用以分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位。
优选地,所述加密会议单元,还包括:数据收发子单元;
所述数据收发子单元,包括,有线模块、无线模块;
所述有线模块,用以对包括,有线麦克风、有线耳机、有线USB、有线投屏、有线数据收发的管控,并具有对应的有线麦克风接口、有线耳机接口、有线USB接口、有线投屏接口、有线数据收发接口;
所述无线模块,用以对包括,无线麦克风、无线耳机、无线USB、无线投屏、无线数据收发、红外信息的管控,并具有对应的无线麦克风接口、无线耳机接口、无线USB接口、无线投屏接口、无线数据收发接口、红外信息接口。
本发明申请一实施例还提供了一种智能进行会议纪要的方法,所述方法,包括:
实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像;
将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
如果是,实时采集会场音频信息并与所述口型图像,形成相互对应的第一套编码,对所述会场音频信息与所述口型图像进行分别保存,并进行下一步;如果否,继续进行所述步骤实时采集会议人脸图像;
调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码,所述第二套编码用以将所述人脸图像对应的发言人的身份信息以编码形式进行记录;
调用声纹识别预存数据,与所述会场音频信息的片段进行比对,判断是否一致;
如果是,得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码,对所述会场音频信息的片段与所述口型图像进行分别保存,并进行下一步;如果否,则继续进行步骤实时采集所述会场音频信息;
识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;
根据会场会务人员的指令输出视频会议纪要。
优选地,所述实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像之前,还包括步骤:
通过人脸识别和/或声纹识别在会前入场时识别参会人员身份信息,进行数字签到;
通过人脸识别和/或声纹识别在会议中动态实时鉴别参会人员身份信息。
优选地,所述实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像之后,还包括步骤:
分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位;
根据所述实时定位进行跟踪拍摄和录音,用以实时采集所述会议人脸图像和所述会场音频信息。
优选地,所述将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位的方法,包括步骤,
分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;
用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位。
本发明申请一实施例还提供了一种智能进行会议纪要的装置,所述装置,用以实现任一项实施例所述的智能进行会议纪要的方法。
优选地,所述系统,包括:至少一个LED显示屏。
本发明申请一实施例还提供了一种电子设备,所述设备用以实现任一项实施例所述的智能进行会议纪要的方法。
本发明申请一实施例还提供了一种存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现任一项实施例所述的智能进行会议纪要的方法。
本发明申请提供的一种智能进行会议纪要的方法、装置和系统,具有以下有益效果:用户可以任意移动进行加密会议使得会场布置方便、安全、快捷。通过有线或者无线连接到会议主机,用户可以发言、签到、表决、呼叫服务,可以接受同传语音,可以插入存储介质分享文件图片,单元上面还可展示与会人员身份信息,可以插入存储介质分享资料,也可以插入耳机听取代表发言和同声传译,有线/无线加密会议单元,有无线投屏的功能,还有红外接收器接收红外发射面板发射的信息,会议更能更加全面。通过声场定位技术和说话人识别技术,实时识别说话人位置,通过会议主机或者中控系统向摄像系统发送指令,实现快速自动跟踪拍摄参会者图像,尤其是口型图像通过采集单元采集图像信息和声音,经过分析处理后,结合人脸识别单元和声纹识别单元提取生物特征,与数据库信息比对完成身份识别,实现会议电子签到、会议参会人员变动情况监控、生成并编辑会议纪要等功能,大幅度提高了会议效率和会议质量,确保会议更加高效、保密。
附图说明
图1为本发明申请一实施例的智能进行会议纪要系统采编单元的示意图;
图2为本发明申请一实施例的智能进行会议纪要系统加密会议单元的示意图;
图3为本发明申请一实施例的智能进行会议纪要系统人工智能单元的示意图;
图4为本发明申请又一实施例的智能进行会议纪要装置的示意图;
图5为本发明申请一实施例的智能进行会议纪要的方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本发明。
本发明申请一实施例的智能进行会议纪要系统,包括:采编单元、加密会议单元、人工智能单元;
请参阅图1,图1为本发明申请一实施例的智能进行会议纪要系统采编单元的示意图;采编单元10,用以实时采集会议人脸图像和会场音频信息;分别进行相互对应的编码;所述采编单元10包括:图像采集模块11、声音采集模块12、编码模块13;
图像采集模块11,用以实时采集会议人脸图像;
声音采集模块12,用以采集会场音频信息;分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
编码模块13,用以采集会场音频信息并与所述口型图像,形成相互对应的第一套编码;调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码;对得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码;
图2为本发明申请一实施例的智能进行会议纪要系统加密会议单元的示意图;加密会议单元20,用以对所述会议系统的数据进行加密;加密会议单元20包括,数据收发子单元21、密钥子单元25;
密钥子单元25,包括,涉密模块26、投票表决模块27、发言呼叫模块28、身份显示模块29;
涉密模块26,用以对会议过程的全部数据进行加密或解密;
投票表决模块27,用以根据语音及所述第二套编码相匹配判断并统计投票结果;
发言呼叫模块28,用以根据语音及所述第二套编码相匹配向会议主持人发送发言请求或呼叫要求他人发言;
身份显示模块29,用以根据语音及所述第二套编码相匹配向其他参会者显示发言人的身份信息;
数据收发子单元21,包括,有线模块22、无线模块23;
所述有线模块22,用以对包括,有线麦克风、有线耳机、有线USB、有线投屏、有线数据收发的管控,并具有对应的有线麦克风接口、有线耳机接口、有线USB接口、有线投屏接口、有线数据收发接口;
所述无线模块23,用以对包括,无线麦克风、无线耳机、无线USB、无线投屏、无线数据收发、红外信息的管控,并具有对应的无线麦克风接口、无线耳机接口、无线USB接口、无线投屏接口、无线数据收发接口、红外信息接口;
图3为本发明申请一实施例的智能进行会议纪要系统人工智能单元的示意图;
人工智能单元30,包括,身份识别子单元35、自动跟踪子单元31、会议纪要子单元;
身份识别子单元35,包括,人脸识别模块38、声纹识别模块37、语音识别模块39;
人脸识别模块38,用以根据人脸图像的变化识别初始口型图像作为第一帧口型图像;将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
声纹识别模块37,用以通过声纹识别在会议中动态实时鉴别参会人员身份信息;进行数字签到
语音识别模块39,用以通过人脸识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
自动跟踪子单元31,包括,方位分析32模块、自动跟踪模块33;
自动跟踪模块33,用以选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像;
方位分析模块32,用以分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位;
会议纪要子单元310,包括,文字模块311、会议纪要编辑模块312;
文字模块311,用以识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;根据会场会务人员的指令输出视频会议纪要;
会议纪要编辑模块312,用以对会议中转化的文字进行编辑;具体而言,所述编辑包括对错误的文字、标点进行校正;对文字前添加身份识别信息、日期、编码等;插入图像、视频、自动生成ppt、编辑数据并自动录入excel等。
本实施例的有益效果是一个子单元同时实现多种功能,布置方便。用户可以任意移动加密解密会议子单元,通过有线或者无线连接到会议主机,用户可以发言、签到、表决、呼叫服务,可以接受同传语音,可以插入存储介质分享文件图片,单元上面还可展示与会人员身份信息。用户可以插入存储介质分享资料,也可以插入耳机听取代表发言和同声传译,有线/无线加密会议单元,特征在于:有无线投屏的功能,还有红外接收器接收红外发射面板发射的信息。
本发明申请实施例还具有以下有益效果:通过声场定位技术和说话人识别技术,实时识别说话人位置,通过会议主机或者中控系统向摄像系统发送指令,实现快速自动跟踪摄影。
通过图像采集单元和声音采集单元采集原始信息,经过预处理单元处理后,通过人脸识别单元和声纹识别单元提取生物特征,通过与数据库信息比对完成身份识别,在入场身份核实、会议纪要生成、会后整理搜索发挥支撑作用。
请参阅图4,图4为本发明申请又一实施例的智能进行会议纪要装置的示意图;所述装置包括:
图像采集模块110,用以实时采集会议人脸图像;
声音采集模块120,用以采集会场音频信息;分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
编码模块130,用以采集会场音频信息并与所述口型图像,形成相互对应的第一套编码;调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码;对得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码;
发言呼叫模块280,用以根据语音及所述第二套编码相匹配向会议主持人发送发言请求或呼叫要求他人发言;
人脸识别模块380,用以根据人脸图像的变化识别初始口型图像作为第一帧口型图像;将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
声纹识别模块370,用以通过声纹识别在会议中动态实时鉴别参会人员身份信息;进行数字签到
语音识别模块390,用以通过人脸识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
自动跟踪子单元310,用以选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像;用以分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位;
会议纪要子单元3100,用以识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;根据会场会务人员的指令输出视频会议纪要;用以对会议中转化的文字进行编辑。
例如,参会人员1和参会人员2共同进入会场,图像采集模块110采集参会人员1和参会人员2的人脸图像,声音采集模块120采集参会人员1和参会人员2的声纹信息,分别通过人脸识别模块380、声纹识别模块370识别参会人员身份,进行入场签到;会议开始,图像采集模块110采集参会人员1和参会人员2的人脸图像和口型图像,声音采集模块120采集参会人员1和参会人员2的语音信息;将所述语音信息分割为语音片段,通过编码模块形成第一套编码;
具体而言,此时人脸图像与口型图像的编码与参会人员1和参会人员2相互对应;但是由于参会人员1和参会人员2存在共同说话的可能,因此所述语音片段信息与参会人员1和参会人员2并没有相互对应匹配;所述参会人员数量为至少一名参会人员;
将所述人脸图像、所述口型图像与所述语音片段进行匹配,通过编码模块130形成第二套编码;如果匹配失败,则对所述语音片段进一步切割,并重新匹配;最终通过声纹识别模块370的识别,得到与参会人员1和参会人员2各自的发言,再与其共同发言的语音信息片段进行拼接,就可以得到与参会人员1和参会人员2相互对应且分别匹配的第二套编码;自动跟踪子单元310分别通过图像采集模块110和声音采集模块120实时分别采集参会人员1和参会人员2的人脸图像、口型图像、语音信息,并进行定位分析与追踪;
参会人员1和参会人员2通过发言呼叫模块280提出发言申请并进行发言,语音识别模块390识别该发言并转化成文字、数据,并分别与参会人员1和参会人员2的身份信息相互匹配,通过会议纪要子单元3100形成会议纪要。
参会人员1和参会人员2通过投票表决模块270进行口头投票表决,语音识别模块390识别该投票表决并转化成文字、数据,并分别与参会人员1和参会人员2的身份信息相互匹配,通过会议纪要子单元3100形成会议纪要,记载表决过程和表决结果。
本发明申请的实施例在会议的过程中,同步进行人脸识别、声纹识别以及语音识别,通过人脸识别和声纹识别鉴别说话人身份,同时语音识别实时转录语音,通过三者搭配可以自动生成语音、图像、文字的会议纪要。智能会议系统引入了先进的人工智能技术,口型追踪、说话人识别、声场定位等技术,让会议系统效能更加强大。
在一些可选实施例中,所述系统还包括由会议主机通过有线或者无线的方式连接各路加密会议单元,以及中控系统、显示系统、摄像系统、视频会议系统、同传系统、扩声系统;所述口型图像进行追踪的同时,可以叠加眼球追踪,通过深色眼球的位置判断参会者关注的焦点,在根据关注时间进行屏幕局部的放大显示。
请参阅图5,图5为本发明申请一实施例的智能进行会议纪要的方法的流程图;所述方法,包括:
步骤S110、实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像;
步骤S120、将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
步骤S130、如果是,实时采集会场音频信息并与所述口型图像,形成相互对应的第一套编码,对所述会场音频信息与所述口型图像进行分别保存,并进行下一步;如果否,继续进行所述步骤实时采集会议人脸图像;
步骤S140、调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码,所述第二套编码用以将所述人脸图像对应的发言人的身份信息以编码形式进行记录;
步骤S150、调用声纹识别预存数据,与所述会场音频信息的片段进行比对,判断是否一致;
步骤S160、如果是,得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码,对所述会场音频信息的片段与所述口型图像进行分别保存,并进行下一步;如果否,则继续进行步骤实时采集所述会场音频信息;
步骤S170、识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;
步骤S180、根据会场会务人员的指令输出视频会议纪要。
在本发明申请的一些实施例中,步骤S110所述实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像之前,还包括步骤:
通过人脸识别和/或声纹识别在会前入场时识别参会人员身份信息,进行数字签到;
通过人脸识别和/或声纹识别在会议中动态实时鉴别参会人员身份信息;具体而言,在会议过程中,出现无法识别参会人员身份信信息时,自动检测网络运行状况是否正常,如果是,判定参会人员中途离开,所述参会人员再次进场时进行步骤S110;
在本发明申请的一些实施例中,所述步骤S110之后,还包括步骤:
分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位;
根据所述实时定位进行跟踪拍摄和录音,用以实时采集所述会议人脸图像和所述会场音频信息;
在本发明申请的一些实施例中,所述识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息之前,还包括步骤:
进行加密。具体而言对未加密文件进行加密。
在一些可选实施例中,所述将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位的方法,还包括,
分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;
用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位。
本发明申请通过对会议集成加密,使会议系统布置简单,信息传递更加安全,维护方便,使用更加便捷;引入人脸识别和声纹识别,可以无感实时识别身份,对身份核验、会议纪要整理,人物搜索提供了支撑作用;通过语音识别,能提高整理会议纪要的效率。声场定位和发言人图像识别可以快速定位说话人位置,可以实现会议拍摄实时跟踪;通过把红外信息接收、USB接口、耳机接口、无线投屏单元、有线麦、无线麦、身份显示模块、投票表决发言呼叫模块集成运用到一个加密会议中,使得会议方法和/或功能更加丰富,会场可以任意移动,可以有线连接也可以无线连接;任何可以连接到会场网络的地方都可以插入USB存储介质分享展示资料,进行发言、签到、投票表决、呼叫服务,插入耳机听取同声传译,使得单元功能更加强大、系统配置更加简单;通过引入人脸识别和/或声纹识别,在入场核实、会中跟踪记录、会后搜索及纪要整理等提供了非常重要的身份快速匹配功能,大大提高了会议系统的效能。具体而言,引入语音识别,可以实时语音转录,再通过人脸识别及声纹识别配合可实现实时会议纪要自动整理,再利用声场定位技术和图像识别技术快速定位发言单元位置,自动精准实时跟踪拍摄,大大提升了自动跟踪功能的效率和准确度。
本发明申请实施例还提供一种智能进行会议纪要的装置,所述装置用以实现本发明申请任一项实施例所述的智能进行会议纪要的方法。
本发明申请实施例还提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,在被处理器调用和执行时,所述处理器可执行指令促使所述处理器:实现本发明申请任一实施例所述的智能进行会议纪要的方法。
本发明申请充分满足了智能进行会议纪要的方法的实际使用情况,有效降低了成本,合理配置了流程,提高了设备效率、可以持续、稳定地工作,具有很好的效果。
本发明申请一实施例还提供一种存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现上述任一项实施例所述的智能进行会议纪要的方法。
所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储在一个计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明未尽事宜为公知技术。本发明中的方法或步骤与系统、装置中的功能模块/单元/部件相互对应。在本发明所提供的几个具体实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施方式仅仅是示意性的,例如,所述功能模块/单元/部件的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中,也可以是各个功能模块/单元/部件单独物理存在,也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现,也可以采用硬件加软件功能模块/部件的形式实现。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种智能进行会议纪要的系统,其特征在于,所述系统,包括:采编单元、加密会议单元、人工智能单元;
所述采编单元,用以实时采集会议人脸图像和会场音频信息;分别进行相互对应的编码;所述采编单元包括:图像采集模块、声音采集模块、编码模块;
所述图像采集模块,用以实时采集会议人脸图像;
所述声音采集模块,用以采集会场音频信息;分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
所述编码模块,用以采集会场音频信息并与所述口型图像,形成相互对应的第一套编码;调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码;对得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码;
所述加密会议单元,用以对所述会议系统的数据进行加密;所述加密会议单元,包括,密钥子单元;
所述密钥子单元,包括,涉密模块、投票表决模块、发言呼叫模块、身份显示模块;
所述涉密模块,用以对会议过程的全部数据进行加密或解密;
所述投票表决模块,用以根据语音及所述第二套编码相匹配判断并统计投票结果;
所述发言呼叫模块,用以根据语音及所述第二套编码相匹配向会议主持人发送发言请求或呼叫要求他人发言;
所述身份显示模块,用以根据语音及所述第二套编码相匹配向其他参会者显示发言人的身份信息;
所述人工智能单元,包括,身份识别子单元、会议纪要子单元;
所述身份识别子单元,包括,人脸识别模块、声纹识别模块、语音识别模块;
所述人脸识别模块,用以根据人脸图像的变化识别初始口型图像作为第一帧口型图像;将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
所述声纹识别模块,用以通过声纹识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
所述语音识别模块,用以通过人脸识别在会议中动态实时鉴别参会人员身份信息;进行数字签到;
所述会议纪要子单元,包括,文字模块、会议纪要编辑模块;
所述文字模块,用以识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;根据会场会务人员的指令输出视频会议纪要;
所述会议纪要编辑模块,用以对会议中转化的文字进行编辑。
2.根据权利要求1所述的智能进行会议纪要的系统,其特征在于,所述人工智能单元,还包括:自动跟踪子单元;
所述自动跟踪子单元,包括,方位分析模块、自动跟踪模块;
所述自动跟踪模块,用以选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像;
所述方位分析模块,用以分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位。
3.根据权利要求1所述的智能进行会议纪要的系统,其特征在于,所述加密会议单元,还包括:数据收发子单元;
所述数据收发子单元,包括,有线模块、无线模块;
所述有线模块,用以对包括,有线麦克风、有线耳机、有线USB、有线投屏、有线数据收发的管控,并具有对应的有线麦克风接口、有线耳机接口、有线USB接口、有线投屏接口、有线数据收发接口;
所述无线模块,用以对包括,无线麦克风、无线耳机、无线USB、无线投屏、无线数据收发、红外信息的管控,并具有对应的无线麦克风接口、无线耳机接口、无线USB接口、无线投屏接口、无线数据收发接口、红外信息接口。
4.一种智能进行会议纪要的方法,其特征在于,所述方法,包括:
实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像;
将后续口型图像与所述第一帧口型图像进行比较,判断口型是否一致;
如果是,实时采集会场音频信息并与所述口型图像,形成相互对应的第一套编码,对所述会场音频信息与所述口型图像进行分别保存,并进行下一步;如果否,继续进行所述步骤实时采集会议人脸图像;
调用人脸识别预存数据,与所述人脸图像进行比对,得出一时间点所有会场发言人的身份信息,对所述第一套编码进行编辑,形成第二套编码,所述第二套编码用以将所述人脸图像对应的发言人的身份信息以编码形式进行记录;
调用声纹识别预存数据,与所述会场音频信息的片段进行比对,判断是否一致;
如果是,得出一时间段与所述声纹识别预存数据相一致的所述会场音频信息的片段,并进行编码,形成与所述口型图像相互对应的第三套编码,对所述会场音频信息的片段与所述口型图像进行分别保存,并进行下一步;如果否,则继续进行步骤实时采集所述会场音频信息;
识别所述会场音频信息的片段并转化为文字,在所述文字前添加所述第三套编码对应的发言人的身份信息;
根据会场会务人员的指令输出视频会议纪要。
5.根据权利要求4所述的智能进行会议纪要的方法,其特征在于,所述实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像之前,还包括步骤:
通过人脸识别和/或声纹识别在会前入场时识别参会人员身份信息,进行数字签到;
通过人脸识别和/或声纹识别在会议中动态实时鉴别参会人员身份信息。
6.根据权利要求5所述的智能进行会议纪要的方法,其特征在于,所述实时采集会议人脸图像,并根据人脸图像的变化识别初始口型图像作为第一帧口型图像之后,还包括步骤:
分别采集LED显示屏到所述人脸图像对应的发言人之间形成的直线的发言人端点音量、中间点音量、LED显示屏端点音量;
选择所述发言人端点音量、中间点音量、LED显示屏端点音量的数值为依次降低的直线,将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位;
根据所述实时定位进行跟踪拍摄和录音,用以实时采集所述会议人脸图像和所述会场音频信息。
7.根据权利要求5所述的智能进行会议纪要的方法,其特征在于,所述将摄像设备沿所述直线向发言人端点聚焦并拍摄所述发言人图像,实现对发言人的实时定位的方法,包括步骤,
分别在所述发言人端点采集发言人人脸图像、在所述中间点采集发言人人脸图像、在所述LED显示屏端点发言人人脸图像;
用三次采集的人脸图像分析距离LED显示屏的距离,并以所述直线和所述LED显示屏的角度,确定所述发言人的方位。
8.一种智能进行会议纪要的装置,其特征在于,所述装置,用以实现权利要求4-7任一项所述的智能进行会议纪要的方法。
9.根据权利要求1所述的智能进行会议纪要的系统,其特征在于,所述系统,包括:至少一个LED显示屏。
10.一种电子设备,其特征在于,所述设备用以实现权利要求4-7任一项所述的智能进行会议纪要的方法。
11.一种存储介质,其特征在于,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现权利要求4-7任一项所述的智能进行会议纪要的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011617142.4A CN114764690A (zh) | 2020-12-31 | 2020-12-31 | 一种智能进行会议纪要的方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011617142.4A CN114764690A (zh) | 2020-12-31 | 2020-12-31 | 一种智能进行会议纪要的方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114764690A true CN114764690A (zh) | 2022-07-19 |
Family
ID=82364441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011617142.4A Pending CN114764690A (zh) | 2020-12-31 | 2020-12-31 | 一种智能进行会议纪要的方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114764690A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242568A (zh) * | 2022-07-22 | 2022-10-25 | 思必驰科技股份有限公司 | 动态更新声纹库的会议转写方法、系统和电子设备 |
-
2020
- 2020-12-31 CN CN202011617142.4A patent/CN114764690A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242568A (zh) * | 2022-07-22 | 2022-10-25 | 思必驰科技股份有限公司 | 动态更新声纹库的会议转写方法、系统和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346034B (zh) | 一种会议智能管理方法及系统 | |
CN111883123B (zh) | 基于ai识别的会议纪要生成方法、装置、设备及介质 | |
CN106782545B (zh) | 一种将音视频数据转化成文字记录的系统和方法 | |
US6687671B2 (en) | Method and apparatus for automatic collection and summarization of meeting information | |
CN110853646B (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
US20060173859A1 (en) | Apparatus and method for extracting context and providing information based on context in multimedia communication system | |
CN109003608A (zh) | 庭审控制方法、系统、计算机设备及存储介质 | |
CN107527623B (zh) | 传屏方法、装置、电子设备及计算机可读存储介质 | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
WO2007036838A1 (en) | Face annotation in streaming video | |
CN111739553A (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
CN111883168B (zh) | 一种语音处理方法及装置 | |
KR102263154B1 (ko) | 스마트 미러 기반 얼굴 감성 표현 시스템 및 그 운용방법 | |
CN109560941A (zh) | 会议记录方法、装置、智能终端及存储介质 | |
CN112449142A (zh) | 一种基于数据协同传输处理的远程视频会议系统 | |
JP2007241130A (ja) | 声紋認識を利用するシステムと装置 | |
CN114764690A (zh) | 一种智能进行会议纪要的方法、装置和系统 | |
CN114666454A (zh) | 一种智能会议系统 | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的系统 | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
CN113055194B (zh) | 一种云会议盒子快速入会方法、云会议盒子和可读存储介质 | |
CN211788155U (zh) | 智能会议记录系统 | |
CN111770300B (zh) | 一种会议信息处理的方法及虚拟现实头戴设备 | |
US20200184973A1 (en) | Transcription of communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |