CN117636209A - 一种自动可视化智慧大数据会议管理方法及系统 - Google Patents
一种自动可视化智慧大数据会议管理方法及系统 Download PDFInfo
- Publication number
- CN117636209A CN117636209A CN202311597261.1A CN202311597261A CN117636209A CN 117636209 A CN117636209 A CN 117636209A CN 202311597261 A CN202311597261 A CN 202311597261A CN 117636209 A CN117636209 A CN 117636209A
- Authority
- CN
- China
- Prior art keywords
- participants
- conference
- voice
- target
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 36
- 230000000007 visual effect Effects 0.000 title claims abstract description 27
- 210000001747 pupil Anatomy 0.000 claims abstract description 43
- 230000004913 activation Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 238000000926 separation method Methods 0.000 claims description 15
- 210000004279 orbit Anatomy 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 12
- 230000020411 cell activation Effects 0.000 claims description 9
- 210000000744 eyelid Anatomy 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种自动可视化智慧大数据会议管理方法及系统,属于智能会议管理技术领域,方法包括:S1:获取会议信息;S2:启用视频模组,识别会场的参会人员,在所述参会人员为预设参会人员的情况下,开启会议;S3:所述视频模组获取目标参会人员的瞳孔图像和目标词汇,在所述瞳孔图像和所述目标词汇满足预设条件的情况下,接收目标参会人员的语音,通过语音识别,形成会议记录。本方案可以解决当前会议管理工作繁重且处于无系统流程的状态,经常会有参会者忘记会议、因为会议流程的复杂,导致难以正常进行会议、难以完整的记录会议笔记的技术问题。
Description
技术领域
本发明属于智能会议管理技术领域,具体涉及一种自动可视化智慧大数据会议管理方法及系统。
背景技术
企业管理是对企业生产经营活动进行计划、组织、指挥、协调和控制等一系列活动的总称,是社会化大生产的客观要求。企业管理是尽可能利用企业的人力、物力、财力、信息等资源,实现省、快、多、好的目标,取得最大的投入产出效率。
会议是现代社会中企业和政府部门进行思想和问题决策的重要场合,对企业和政府的发展有着重要的意义,随着社会竞争的日益激烈,企事业单位内部会议也不断增多,企业公司内部需要经常通过会议沟通进行问题的解决以及决策的制定,而现在企事业的会议管理工作繁重且处于无系统流程的状态,经常会有参会者忘记会议、因为会议流程的复杂,导致难以正常进行会议、难以完整的记录会议笔记等问题,造成效率低,服务质量不高,不便于管理,容易出错,最终使会议效果受到影响。
发明课程
为了解决当前会议管理工作繁重且处于无系统流程的状态,经常会有参会者忘记会议、因为会议流程的复杂,导致难以正常进行会议、难以完整的记录会议笔记的技术问题,本发明提供一种自动可视化智慧大数据会议管理方法及系统。
第一方面
本发明提供了一种自动可视化智慧大数据会议管理方法,包括:
S1:获取会议信息;
S2:启用视频模组,识别会场的参会人员,在所述参会人员为预设参会人员的情况下,开启会议;
S3:所述视频模组获取目标参会人员的瞳孔图像和目标词汇,在所述瞳孔图像和所述目标词汇满足预设条件的情况下,接收目标参会人员的语音,通过语音识别,形成会议记录。
其中,所述会议信息包括会议地点,会议时间,参会人数,预设参会人员的信息,其中,所述预设参会人员的信息包括参会人员地址,参会人员编码和参会人员人脸图像。
进一步地,所述S2具体包括:
S201:启用所述视频模组,识别会场的参会人数;
S202:在所述参会人员为零的情况下,关闭会议;
S203:在所述参会人员不为零的情况下,获取参会人员的人脸图像,在所述人脸图像与所述参会人员人脸图像匹配的情况下,开启会议;
S204:在所述人脸图像与所述参会人员人脸图像不匹配的情况下,向所述参会人员发送参会申请,在所述参会申请被同意的情况下,开启会议。
进一步地,所述S3具体包括:
S301:在具有会议记录需求的情况下,所述目标参会人员看向所述视频模组并说出所述目标词汇,所述视频模组获取所述目标参会人员的瞳孔图像和所述目标词汇;
S302:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述目标参会人员的语音,其中,所述预设条件为具有眼眶和瞳孔图像,且所述瞳孔位于所述眼眶中心,所述眼眶具有眼头,眼位,上眼睑和下眼睑,所述预设词汇为记录会议笔记;
S303:将所述目标参会人员的语音通过语音识别,形成会议记录。
进一步地,所述S302,具体包括:
S3021:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述会场的语音信号,所述语音信号包括目标语音信号,所述目标语音信号的混响以及背景噪声;
S3022:将所述语音信号输入至语音识别模型,其中,所述语音识别模型包括增强模块,映射模块和分离模块;
S3023:接收所述分离模块输出的目标语音信号,作为所述目标参会人员的语音。
进一步地,所述S3022,具体包括:
S30221:将所述语音信号,通过深度循环神经网络,获得第一语音信号,其中,所述深度循环神经网络采用公式:
其中,0<l<L,L为深度循环神经网络的层数,是第l层第n帧的激励向量,是第l层第n帧的激活向量,/>是第l层第n-1帧的激活向量,表示当前层与上一层之间的连接,/>表示当前层的循环层,和/>是权重矩阵,/>是偏差系数矩阵,Nl∈R是第l层的节点个数,/>是N0=D维的输入特征向量,/>是激活函数;
S30222:将所述第一语音信号输入至所述增强模块,通过变换时间卷积网络,获得语音特征信号,其中,所述变换时间卷积网络包括时间卷积网络和非线性激活函数模块和归一化模块,
所述时间卷积网络采用公式:
S-conv(Y,K,L)=D-conv(Y,K)*L;
D-conv(Y,K)=concat(yl*kl);
其中,0<l<L,Y∈RG×M为S-conv的输入,K∈RG×M为大小为P的卷积核,yl∈Rl×M和kl∈Rl×P为矩阵Y和K的一行,L∈RG×H×1为大小为1的卷积核,*为卷积操作,D-conv(Y,K)*L代表D-conv(·)操作将输入Y的每一行与矩阵K的相应行进行卷积;
所述非线性激活函数模块采用公式:
其中,a∈R是一个可训练的标量,控制所述激活函数的负斜率;
所述归一化模块采用公式:
其中,fk∈RN×1为输入特征F的第k帧,ft≤k∈RN×k对应着前k个帧的特征[f1,f2,f3,...,fk,],γ和β∈RN×l是可训练参数;
S30223:将所述语音特征信号输入至映射层,从而获得增强语音特征信号,所述映射层包括谱特征算法模块,时频掩码算法模块和损失模块,其中,损失模块包括幅度谱损失和人声损失,
所述映射层采用公式:
其中,代表输入的混合带噪声语音信号LPS特征,/>代表参考干净语音信号LPS特征,/>表示基于最小均方误差准则的采用对数功率谱(LPS)优化目标函数,(l,k)表示时频单元,l为时间帧的索引,k是拼点的索引,/>表示输入的混合带噪声语音信号特征估计出的IRM,/>表示对应的干净语音信号IRM值,/>为基于最小均方误差准则的采用理想比值掩码(IRM)优化目标函数,α是调节两种学习目标之间比例的权重;
所述幅度谱损失采用公式:
其中,混合语音的复谱可以写成在进行压缩后可以写成也可以写成/>而/> 为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为/>预测的信号;
所述人声损失才用公式:
其中,a为损失参数,为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为预测的信号;
所述增强语音信息采用公式:
其中,是估计的干净语音LPS特征,/>是带噪生语音LPS特征经过时频掩码之后的LPS特征,LMag是幅度谱损失,LPer是人声损失;
S30224:将所述增强语音信息输入至所述分离层,所述分离层用于将所述目标参会人员的语音与其他所述参会人员的语音分离。
进一步地,所述S30221中还包括:
所述深度循环神经网络还包括变量变换层,所述变量变换层用于添加或删除信息,所述变量变换层包括输入层,遗忘层和输出层,所述语音信号通过所述变量变化层后,获得第一语音信号,
所述输入层采用公式:
it=σ(Wxixt+Whiht-1+bi);
ft=σ(Wxfxt+Whfht-1+bf);
其中,t表示时间帧序号,σ(·)表示Sigmoid函数,i表示输入门激活向量,f表示遗忘门激活向量,o表示输出门激活向量和c表示细胞激活向量,
所述遗忘层采用公式:
其中,c表示细胞激活向量,表示对应元素相乘,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号,i表示输入门激活向量,f表示遗忘门激活向量和c表示细胞激活向量;
所述输出层采用公式:
ot=σ(Wx0xt+Wh0ht-1+b0);
其中,o表示输出门激活向量,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号;
所述第一语音信号采用公式:
进一步地,所述会议记录,包括时间戳和所述参会人员的说话内容,所述S303具体包括:
S3031:在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳;
S3032:在所述第一时间戳的情况下,获取所述目标参会人员的说话内容,判断所述说话内容是否为有效内容;
S3033:若所述说话内容为有效内容的情况下,在所述第一时间戳后添加所述目标参会人员的说话内容;
S3034:若所述说话内容为无效内容的情况下,所述第一时间戳更新为第二时间戳,所述第二时间戳与所述第一时间戳之间相差预设时间。
进一步地,在所述S3031之前,还包括:
在所述视频模组显示界面上显示第一控件和第二控件,所述第一控件用于在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳;所述第二控件用于不获取所述目标参会人员的说话内容,所述第一控件还包括第一子控件,所述第一子控件用于获取语音识别时间,接收到所述语音识别时长的所述目标参会人员的语音,通过语音识别,形成所述会议记录。
第二方面
本发明提供了一种自动可视化智慧大数据会议管理系统,包括处理器和用于存储处理器可执行指令的存储器;所述处理器被配置为调用所述存储器存储的指令,以执行第一方面中的自动可视化智慧大数据会议管理方法。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过会议系统获取会议信息,在确定会场中的参会人员确实是需要参加本次会议的人员时,直接接通会议,从而避免参会人员不熟悉会议系统,或者会议系统过于繁琐不易操作,导致错过会议。在会场中的没有参会人员时,不接通会议,对于企业来说,可以节约用电,节省资源。
(2)在本发明中,在会议进行过程中,会议系统通过获取正在说话的参会人员对于记录会议笔记的指令,进而自动进行会议文字记录。本方案避免了参会人员手工记录会议笔记,或者在系统中手动输入,或在系统中翻找记录工具,造成的效率低下问题。此方案能够简化记录会议笔记的操作,简化操作流程,提升会议质量。
(3)在本发明中,通过运用深度循环神经网络的增强层,包括谱特征算法模块,时频掩码算法模块和损失模块的映射层以及能够对于增强语音进行语音分离的分离层,从而能够在繁杂的会议语音中,先消除非人声的噪声,后分离出正在讲话的参会人员的声音进行记录。
(4)在本发明中,在自动记录的会议文字记录中增加时间戳,在参会人员进行语音的时候,进行会议记录;在没有参会人员进行语音的时候不记录。本方案可方便用户在会后进行会议记录的查看。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种自动可视化智慧大数据会议管理方法的流程示意图。
图2是本发明提供的一种自动可视化智慧大数据会议管理系统的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的自动可视化智慧大数据会议管理方法的流程示意图。
本发明提供的一种自动可视化智慧大数据会议管理方法,包括:
S1:获取会议信息。
可选地,所述会议信息包括会议地点,会议时间,参会人数,预设参会人员信息,其中,所述预设参会人员信息包括参会人员地址,参会人员编码和参会人员人脸图像。例如2023年11月2日,在北京第一会场,有三位参会人员。预设参会人员信息分别是001号,张三,北京,张三照片;002号,李四,北京,李四照片;003号,王五,天津,王五照片。
S2:启用视频模组,识别会场的参会人员,在所述参会人员为预定参会人员的情况下,开启会议。
可选地,所述S2具体包括:
S201:启用所述视频模组,识别会场的参会人数。
可选地,视频模组对于当前会场中的图像进行拍摄,获得会场照片。会议系统对于会场照片进行人脸识别,获得到场人数。
S202:在所述参会人员为零的情况下,关闭会议。
具体地,会议系统对于会场照片进行人脸识别,获得到场人数,在到场人数为零的情况下,也就是说该会场没有人进行参会,那么会议将关闭,也就是不进行会议的接入。对于企业来说,可以节约用电,节省资源。
S203:在所述参会人员不为零的情况下,获取参会人员的人脸图像,在所述人脸图像与所述参会人员人脸图像匹配的情况下,开启会议。
具体地,会议系统对于会场照片进行人脸识别,获得到场人数,在到场人数不为零的情况下,也就是说该会场具有参会人员。那么将对参会人员进行分别,判断该会场中的人员是否是需要进行会议的。因此在进行人脸识别的时候,将该人脸识别数据与会议系统接收到的会议信息中的参会人员照片进行对比。在对比成功,确认该会场中的人员为参会人员,则自动接通会议,开始会议,从而避免参会人员不熟悉会议系统,或者会议系统过于繁琐不易操作,导致错过会议。
S204:在所述人脸图像与所述参会人员人脸图像不匹配的情况下,向所述参会人员发送参会申请,在所述参会申请被同意的情况下,开启会议。
具体地,在人脸图像与参会人员人脸图像不匹配的情况下,可能存在两种情况,一种是,该会场中的人员虽不属于参会人员,但是也希望能够旁听会议;另一种是,该会场中的人员与本会议无关,仅仅只是使用该会场的人员。对于希望旁听会议的人员,需要向会议主办方进行会议申请。该申请可以在该会场中对主办方进行拨号申请,或者请主办方增加参会人员的人脸图像,从而进行参会。
S3:所述视频模组获取目标参会人员的瞳孔图像和目标词汇,在所述瞳孔图像和所述目标词汇满足预设条件的情况下,接收目标参会人员的语音,通过语音识别,形成会议记录。
可选地,所述S3具体包括:
S301:在具有会议记录需求的情况下,所述目标参会人员看向所述视频模组并说出所述目标词汇,所述视频模组获取所述目标参会人员的瞳孔图像和所述目标词汇。
可选地,在会议过程中,存在需要进行会议记录或者不需要进行会议记录的情况。例如,在正式会议开始之前,具有主持人串词,就属于不需要进行会议记录的情况;在会议过程中具有结论性内容的时候,属于需要进行会议记录的情况。为避免造成资源的浪费或者记录内容的繁杂,对于需要进行会议记录的参会人员,在开始重要内容之前,先正面看向视频模组并说出目标词汇,由视频模组对于该参会人员进行拍摄操作。该操作能够自动开启会议记录模式,从而避免了参会人员手工记录会议笔记,或者在系统中手动输入,或在系统中翻找记录工具,造成的效率低下问题。另外,通过目标参会人员正面看向会议模组,从而与本会场中其他参会人员形成区别,避免对其他参会人员的说话内容进行记录。
S302:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述目标参会人员的语音,其中,所述预设条件为具有眼眶和瞳孔图像,且所述瞳孔位于所述眼眶中心,所述眼眶具有眼头,眼位,上眼睑和下眼睑,所述预设词汇为记录会议笔记。
可选地,所述S302,具体包括:
S3021:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述会场的语音信号,所述语音信号包括目标语音信号,所述目标语音信号的混响以及背景噪声。
可选地,预设条件可以包括完整的瞳孔图像,以及预设词汇。完整的瞳孔图像是指正常人类的瞳孔所具有的特征图像,例如瞳孔上方具有上眼睑,瞳孔下方具有下眼睑,瞳孔左侧和右侧具有眼头和眼位。通孔位于眼眶中部。其中,该中部指代的是大致位置,其与眼眶的物理中心可以存在一定的误差,该误差可由本领域技术人员根据实际场景进行设置。本方案对于瞳孔图像进行检测可以与其他参会人员,例如侧视视频模组的参会人员,或者无意间看向视频模组的参会人员进行区分,从而减少误差。预设词汇可以是“请进行会议记录”,当前,本领域技术人员可知,该目标词汇可以根据实际场景进行替换。采用目标词汇与预设词汇进行对比,能够减少由于会场中其他会场人员说话造成的误差。
S3022:将所述语音信号输入至语音识别模型,其中,所述语音识别模型包括增强模块,映射模块和分离模块。
接收到的声音信号包括目标参会人员的语音信号,即干净的声音信号,背景噪声和混响。背景噪声信号是目标参会人员的语音信号之外的声音,例如其余参会人员的语音信号,非人声的声音信号等。混响信号代表目标参会人员的语音信号在经过墙壁,桌子等障碍物产生的回响,采用公式可记为:
y(t)=x(t)*h(t)+n(t);
其中,y(t)为混合声音信号,x(t)为干净的声音信号,n(t)为背景噪声信号,h(t)为混响信号。
可选地,所述S3022,具体包括:
S30221:将所述语音信号,通过深度循环神经网络,获得第一语音信号,其中,所述深度循环神经网络采用公式:
其中,0<l<L,L为深度循环神经网络的层数,是第l层第n帧的激励向量,是第l层第n帧的激活向量,/>是第l层第n-1帧的激活向量,表示当前层与上一层之间的连接,/>表示当前层的循环层,和/>是权重矩阵,/>是偏差系数矩阵,Nl∈R是第l层的节点个数,/>是N0=D维的输入特征向量,/>是激活函数。
可选地,所述S30221中还包括:
所述深度循环神经网络还包括变量变换层,所述变量变换层用于添加或删除信息,所述变量变换层包括输入层,遗忘层和输出层,所述语音信号通过所述变量变化层后,获得第一语音信号。
具体地,在训练的时候,通常采用基于时间的反向传播算法对于深度循环神经网络的参数进行更新。然而在序列常规过大的情况下,会出现梯度消失或梯度爆炸的问题,因此在隐层节点中引入了细胞状态的概念,通过各种门结构对细胞状态进行删除或添加信息。
所述输入层采用公式:
it=σ(Wxixt+Whiht-1+bi);
ft=σ(Wxfxt+Whfht-1+bf);
其中,t表示时间帧序号,σ(·)表示Sigmoid函数,i表示输入门激活向量,f表示遗忘门激活向量,o表示输出门激活向量和c表示细胞激活向量,
所述遗忘层采用公式:
其中,c表示细胞激活向量,表示对应元素相乘,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号,i表示输入门激活向量,f表示遗忘门激活向量和c表示细胞激活向量;
所述输出层采用公式:
ot=σ(Wx0xt+Wh0ht-1+b0);
其中,o表示输出门激活向量,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号;
所述第一语音信号采用公式:
S30222:将所述第一语音信号输入至所述增强模块,通过变换时间卷积网络,获得语音特征信号,其中,所述变换时间卷积网络包括时间卷积网络和非线性激活函数模块和归一化模块,
所述时间卷积网络采用公式:
S-conv(Y,K,L)=D-conv(Y,K)*L;
D-conv(Y,K)=concat(yl*kl);
其中,0<l<L,Y∈RG×M为S-conv的输入,K∈RG×M为大小为P的卷积核,yl∈Rl×M和kl∈Rl×P为矩阵Y和K的一行,L∈RG×H×1为大小为1的卷积核,*为卷积操作,D-conv(Y,K)*L代表D-conv(·)操作将输入Y的每一行与矩阵K的相应行进行卷积;
所述非线性激活函数模块采用公式:
其中,a∈R是一个可训练的标量,控制所述激活函数的负斜率;
所述归一化模块采用公式:
其中,fk∈RN×1为输入特征F的第k帧,ft≤k∈RN×k对应着前k个帧的特征[f1,f2,f3,...,fk,],γ和β∈RN×l是可训练参数。归一化是取决于非因果关系配置。为了确保分离模块对输入的缩放是不变的,利用归一化方法对输入信号进行缩放,然后再向后传递。
S30223:将所述语音特征信号输入至映射层,从而获得增强语音特征信号,所述映射层包括谱特征算法模块,时频掩码算法模块和损失模块,其中,损失模块包括幅度谱损失和人声损失。人声损失是针对于至少两个估计语音信号,而至少两个估计语音信号距离干净语音信号的损失相同。
所述映射层采用公式:
其中,代表输入的混合带噪声语音信号LPS特征,/>代表参考干净语音信号LPS特征,/>表示基于最小均方误差准则的采用对数功率谱(LPS)优化目标函数,(l,k)表示时频单元,l为时间帧的索引,k是拼点的索引,/>表示输入的混合带噪声语音信号特征估计出的IRM,/>表示对应的干净语音信号IRM值,/>为基于最小均方误差准则的采用理想比值掩码(IRM)优化目标函数,α是调节两种学习目标之间比例的权重。
所述幅度谱损失采用公式:
其中,混合语音的复谱可以写成在进行压缩后可以写成也可以写成/>而/> 为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为/>预测的信号;
所述人声损失才用公式:
其中,a为损失参数,为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为预测的信号;
所述增强语音信息采用公式:
其中,是估计的干净语音LPS特征,/>是带噪生语音LPS特征经过时频掩码之后的LPS特征,LMag是幅度谱损失,LPer是人声损失。
S30224:将所述增强语音信息输入至所述分离层,所述分离层用于将所述目标参会人员的语音与其他所述参会人员的语音分离。
S3023:接收所述分离模块输出的目标语音信号,作为所述目标参会人员的语音。
S303:将所述目标参会人员的语音通过语音识别,形成会议记录。
可选地,所述S303具体包括:
S3031:在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳。
可选地,在所述S3031之前,还包括:
在所述视频模组显示界面上显示第一控件和第二控件,所述第一控件用于在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳;所述第二控件用于不获取所述目标参会人员的说话内容,所述第一控件还包括第一子控件,所述第一子控件用于获取语音识别时间,接收到所述语音识别时长的所述目标参会人员的语音,通过语音识别,形成所述会议记录。
在一种具体的实施例中,第一控件可以为同意进行会议记录的控件;第二控件可以为不同意进行会议记录的控件。第一子控件可以是对于时间输入的填写框,用户可以在此填写框中输入时间段。例如输入1小时,这意味着,自动记录从目标参会人员说出“请进行会议记录”之后1个小时的会议记录。在这样时间段之后,自动停止对进行会议记录。
S3032:在所述第一时间戳的情况下,获取所述目标参会人员的说话内容,判断所述说话内容是否为有效内容。
S3033:若所述说话内容为有效内容的情况下,在所述第一时间戳后添加所述目标参会人员的说话内容。
S3034:若所述说话内容为无效内容的情况下,所述第一时间戳更新为第二时间戳,所述第二时间戳与所述第一时间戳之间相差预设时间。
在进行会议记录的过程中,如果在第一时间戳时间中,有目标参会人员说话,那么会对此说话内容进行会议记录;如果在第一时间戳时间中,没有目标参会人员说话,那么第一时间戳的时间会跳动变化,并变化到第二时间戳。第二时间戳是第一时间戳在预设时间之后的一个时间。例如,预设时间为1秒,那么第二时间戳为第一时间戳后的1s时间。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过会议系统获取会议信息,在确定会场中的参会人员确实是需要参加本次会议的人员时,直接接通会议,从而避免参会人员不熟悉会议系统,或者会议系统过于繁琐不易操作,导致错过会议。在会场中的没有参会人员时,不接通会议,对于企业来说,可以节约用电,节省资源。
(2)在本发明中,在会议进行过程中,会议系统通过获取正在说话的参会人员对于记录会议笔记的指令,进而自动进行会议文字记录。本方案避免了参会人员手工记录会议笔记,或者在系统中手动输入,或在系统中翻找记录工具,造成的效率低下问题。此方案能够简化记录会议笔记的操作,简化操作流程,提升会议质量。
(3)在本发明中,通过运用深度循环神经网络的增强层,包括谱特征算法模块,时频掩码算法模块和损失模块的映射层以及能够对于增强语音进行语音分离的分离层,从而能够在繁杂的会议语音中,先消除非人声的噪声,后分离出正在讲话的参会人员的声音进行记录。
(4)在本发明中,在自动记录的会议文字记录中增加时间戳,在参会人员进行语音的时候,进行会议记录;在没有参会人员进行语音的时候不记录。本方案可方便用户在会后进行会议记录的查看。
实施例2
在一个实施例中,参考说明书附图2,示出了本发明提供的一种自动可视化智慧大数据会议管理系统的结构示意图。
本发明提供的自动可视化智慧大数据会议管理系统,包括处理器21和用于存储处理器21可执行指令的存储器22。处理器21被配置为调用存储器22存储的指令,以执行实施例1中的一种自动可视化智慧大数据会议管理方法。
本发明提供的一种自动可视化智慧大数据会议管理系统可以实现上述实施例1中的自动可视化智慧大数据会议管理方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,通过会议系统获取会议信息,在确定会场中的参会人员确实是需要参加本次会议的人员时,直接接通会议,从而避免参会人员不熟悉会议系统,或者会议系统过于繁琐不易操作,导致错过会议。在会场中的没有参会人员时,不接通会议,对于企业来说,可以节约用电,节省资源。
(2)在本发明中,在会议进行过程中,会议系统通过获取正在说话的参会人员对于记录会议笔记的指令,进而自动进行会议文字记录。本方案避免了参会人员手工记录会议笔记,或者在系统中手动输入,或在系统中翻找记录工具,造成的效率低下问题。此方案能够简化记录会议笔记的操作,简化操作流程,提升会议质量。
(3)在本发明中,通过运用深度循环神经网络的增强层,包括谱特征算法模块,时频掩码算法模块和损失模块的映射层以及能够对于增强语音进行语音分离的分离层,从而能够在繁杂的会议语音中,先消除非人声的噪声,后分离出正在讲话的参会人员的声音进行记录。
(4)在本发明中,在自动记录的会议文字记录中增加时间戳,在参会人员进行语音的时候,进行会议记录;在没有参会人员进行语音的时候不记录。本方案可方便用户在会后进行会议记录的查看。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种自动可视化智慧大数据会议管理方法,其特征在于,包括:
S1:获取会议信息;
S2:启用视频模组,识别会场的参会人员,在所述参会人员为预设参会人员的情况下,开启会议;
S3:所述视频模组获取目标参会人员的瞳孔图像和目标词汇,在所述瞳孔图像和所述目标词汇满足预设条件的情况下,接收目标参会人员的语音,通过语音识别,形成会议记录。
2.根据权利要求1所述的自动可视化智慧大数据会议管理方法,其特征在于,所述会议信息包括会议地点,会议时间,参会人数,预设参会人员的信息,其中,所述预设参会人员的信息包括参会人员地址,参会人员编码和参会人员人脸图像。
3.根据权利要求1所述的自动可视化智慧大数据会议管理方法,其特征在于,所述S2具体包括:
S201:启用所述视频模组,识别会场的参会人数;
S202:在所述参会人员为零的情况下,关闭会议;
S203:在所述参会人员不为零的情况下,获取参会人员的人脸图像,在所述人脸图像与所述参会人员人脸图像匹配的情况下,开启会议;
S204:在所述人脸图像与所述参会人员人脸图像不匹配的情况下,向所述参会人员发送参会申请,在所述参会申请被同意的情况下,开启会议。
4.根据权利要求1所述的自动可视化智慧大数据会议管理方法,其特征在于,所述S3具体包括:
S301:在具有会议记录需求的情况下,所述目标参会人员看向所述视频模组并说出所述目标词汇,所述视频模组获取所述目标参会人员的瞳孔图像和所述目标词汇;
S302:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述目标参会人员的语音,其中,所述预设条件为具有眼眶和瞳孔图像,且所述瞳孔位于所述眼眶中心,所述眼眶具有眼头,眼位,上眼睑和下眼睑,所述预设词汇为记录会议笔记;
S303:将所述目标参会人员的语音通过语音识别,形成会议记录。
5.根据权利要求4所述的自动可视化智慧大数据会议管理方法,其特征在于,所述S302,具体包括:
S3021:将所述瞳孔图像和所述目标词汇与所述预设条件进行对比,在所述瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述会场的语音信号,所述语音信号包括目标语音信号,所述目标语音信号的混响以及背景噪声;
S3022:将所述语音信号输入至语音识别模型,其中,所述语音识别模型包括增强模块,映射模块和分离模块;
S3023:接收所述分离模块输出的目标语音信号,作为所述目标参会人员的语音。
6.根据权利要求5所述的自动可视化智慧大数据会议管理方法,其特征在于,所述S3022,具体包括:
S30221:将所述语音信号,通过深度循环神经网络,获得第一语音信号,其中,所述深度循环神经网络采用公式:
其中,0<l<L,L为深度循环神经网络的层数,是第l层第n帧的激励向量,是第l层第n帧的激活向量,/>是第l层第n-1帧的激活向量,表示当前层与上一层之间的连接,/>表示当前层的循环层,和/>是权重矩阵,/>是偏差系数矩阵,Nl∈R是第l层的节点个数,/>是N0=D维的输入特征向量,/>是激活函数;
S30222:将所述第一语音信号输入至所述增强模块,通过变换时间卷积网络,获得语音特征信号,其中,所述变换时间卷积网络包括时间卷积网络和非线性激活函数模块和归一化模块,
所述时间卷积网络采用公式:
S-conv(Y,K,L)=D-conv(Y,K)*L;
D-conv(Y,K)=concat(yl*kl);
其中,0<l<L,Y∈RG×M为S-conv的输入,K∈RG×M为大小为P的卷积核,yl∈Rl×M和kl∈Rl×P为矩阵Y和K的一行,L∈RG×H×1为大小为1的卷积核,*为卷积操作,D-conv(Y,K)*L代表D-conv(·)操作将输入Y的每一行与矩阵K的相应行进行卷积;
所述非线性激活函数模块采用公式:
其中,a∈R是一个可训练的标量,控制所述激活函数的负斜率;
所述归一化模块采用公式:
其中,fk∈RN×1为输入特征F的第k帧,ft≤k∈RN×k对应着前k个帧的特征[f1,f2,f3,...,fk,],γ和β∈RN×l是可训练参数;
S30223:将所述语音特征信号输入至映射层,从而获得增强语音特征信号,所述映射层包括谱特征算法模块,时频掩码算法模块和损失模块,其中,损失模块包括幅度谱损失和人声损失,
所述映射层采用公式:
其中,代表输入的混合带噪声语音信号LPS特征,/>代表参考干净语音信号LPS特征,/>表示基于最小均方误差准则的采用对数功率谱(LPS)优化目标函数,(l,k)表示时频单元,l为时间帧的索引,k是拼点的索引,/>表示输入的混合带噪声语音信号特征估计出的IRM,/>表示对应的干净语音信号IRM值,/>为基于最小均方误差准则的采用理想比值掩码(IRM)优化目标函数,α是调节两种学习目标之间比例的权重;
所述幅度谱损失采用公式:
其中,混合语音的复谱可以写成在进行压缩后可以写成/>也可以写成/>而/> 为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为/>预测的信号;
所述人声损失才用公式:
其中,a为损失参数,为Xβ的实部,/>为Xβ的虚部,/>为/>预测的信号,/>为/>预测的信号;
所述增强语音信息采用公式:
其中,是估计的干净语音LPS特征,/>是带噪生语音LPS特征经过时频掩码之后的LPS特征,LMag是幅度谱损失,LPer是人声损失;
S30224:将所述增强语音信息输入至所述分离层,所述分离层用于将所述目标参会人员的语音与其他所述参会人员的语音分离。
7.根据权利要求6所述的自动可视化智慧大数据会议管理方法,其特征在于,所述S30221中还包括:
所述深度循环神经网络还包括变量变换层,所述变量变换层用于添加或删除信息,所述变量变换层包括输入层,遗忘层和输出层,所述语音信号通过所述变量变化层后,获得第一语音信号,
所述输入层采用公式:
it=σ(Wxixt+Whiht-1+bi);
ft=σ(Wxfxt+Whfht-1+bf);
其中,t表示时间帧序号,σ(·)表示Sigmoid函数,i表示输入门激活向量,f表示遗忘门激活向量,o表示输出门激活向量和c表示细胞激活向量,
所述遗忘层采用公式:
其中,c表示细胞激活向量,表示对应元素相乘,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号,i表示输入门激活向量,f表示遗忘门激活向量和c表示细胞激活向量;
所述输出层采用公式:
ot=σ(Wx0xt+Wh0ht-1+b0);
其中,o表示输出门激活向量,W表示各个门的权重矩阵,b表示各个门的偏置矩阵,t表示时间帧序号;
所述第一语音信号采用公式:
8.根据权利要求4所述的自动可视化智慧大数据会议管理方法,其特征在于,所述会议记录,包括时间戳和所述参会人员的说话内容,所述S303具体包括:
S3031:在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳;
S3032:在所述第一时间戳的情况下,获取所述目标参会人员的说话内容,判断所述说话内容是否为有效内容;
S3033:若所述说话内容为有效内容的情况下,在所述第一时间戳后添加所述目标参会人员的说话内容;
S3034:若所述说话内容为无效内容的情况下,所述第一时间戳更新为第二时间戳,所述第二时间戳与所述第一时间戳之间相差预设时间。
9.根据权利要求8所述的自动可视化智慧大数据会议管理方法,其特征在于,在所述S3031之前,还包括:
在所述视频模组显示界面上显示第一控件和第二控件,所述第一控件用于在瞳孔图像和所述目标词汇与所述预设条件匹配的情况下,获取所述第一时间戳;所述第二控件用于不获取所述目标参会人员的说话内容,所述第一控件还包括第一子控件,所述第一子控件用于获取语音识别时间,接收到所述语音识别时长的所述目标参会人员的语音,通过语音识别,形成所述会议记录。
10.一种自动可视化智慧大数据会议管理系统,其特征在于,包括处理器和用于存储处理器可执行指令的存储器;所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至9中任意一项所述的自动可视化智慧大数据会议管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597261.1A CN117636209A (zh) | 2023-11-24 | 2023-11-24 | 一种自动可视化智慧大数据会议管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597261.1A CN117636209A (zh) | 2023-11-24 | 2023-11-24 | 一种自动可视化智慧大数据会议管理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117636209A true CN117636209A (zh) | 2024-03-01 |
Family
ID=90015744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311597261.1A Pending CN117636209A (zh) | 2023-11-24 | 2023-11-24 | 一种自动可视化智慧大数据会议管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636209A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659674A (zh) * | 2019-09-05 | 2020-01-07 | 东南大学 | 一种基于视线跟踪的测谎方法 |
WO2020220546A1 (zh) * | 2019-04-30 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
WO2023035969A1 (zh) * | 2021-09-09 | 2023-03-16 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法、模型的训练方法及装置 |
CN116187949A (zh) * | 2023-02-23 | 2023-05-30 | 广东南方电力通信有限公司 | 一种智能会议记录方法 |
-
2023
- 2023-11-24 CN CN202311597261.1A patent/CN117636209A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020220546A1 (zh) * | 2019-04-30 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
CN110659674A (zh) * | 2019-09-05 | 2020-01-07 | 东南大学 | 一种基于视线跟踪的测谎方法 |
WO2023035969A1 (zh) * | 2021-09-09 | 2023-03-16 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法、模型的训练方法及装置 |
CN116187949A (zh) * | 2023-02-23 | 2023-05-30 | 广东南方电力通信有限公司 | 一种智能会议记录方法 |
Non-Patent Citations (1)
Title |
---|
ALI ABEDI ET AL.: "Improving state-of-the-art in Detecting Student Engagement with Resnet and TCN Hybrid Network", 《2021 18TH CONFERENCE ON ROBOTS AND VISION (CRV)》, 5 July 2021 (2021-07-05), pages 151 - 157 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10431205B2 (en) | Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network | |
WO2021143326A1 (zh) | 语音识别方法、装置、设备和存储介质 | |
US9635178B2 (en) | Coordinating voice calls between representatives and customers to influence an outcome of the call | |
US9900436B2 (en) | Coordinating voice calls between representatives and customers to influence an outcome of the call | |
CN107211062B (zh) | 虚拟声学空间中的音频回放调度 | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
CN107210045B (zh) | 会议搜索以及搜索结果的回放 | |
CN111866022B (zh) | 感知质量比会议中原始听到的更高的后会议回放系统 | |
WO2020233068A1 (zh) | 会议音频控制方法、系统、设备及计算机可读存储介质 | |
US11849256B2 (en) | Systems and methods for dynamically concealing sensitive information | |
CN113140216B (zh) | 选择性会议摘要 | |
CN107210036B (zh) | 会议词语云 | |
US10750018B2 (en) | Modeling voice calls to improve an outcome of a call between a representative and a customer | |
US20150154960A1 (en) | System and associated methodology for selecting meeting users based on speech | |
US10110743B2 (en) | Automatic pattern recognition in conversations | |
CN109658352A (zh) | 图像信息的优化方法及装置、电子设备和存储介质 | |
CN109887508A (zh) | 一种基于声纹的会议自动记录方法、电子设备及存储介质 | |
CN110298463A (zh) | 基于语音识别的会议室预定方法、装置、设备及存储介质 | |
WO2024045444A1 (zh) | 一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质 | |
US20220237263A1 (en) | Method for outputting, computer-readable recording medium storing output program, and output device | |
CN116137673A (zh) | 数字人表情驱动方法及其装置、设备、介质 | |
CN117636209A (zh) | 一种自动可视化智慧大数据会议管理方法及系统 | |
US11631399B2 (en) | Layer trajectory long short-term memory with future context | |
CN112002346A (zh) | 基于语音的性别年龄识别方法、装置、设备和存储介质 | |
WO2021047103A1 (zh) | 一种语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |