CN115052126B - 一种基于人工智能的超高清视频会议分析管理系统 - Google Patents

一种基于人工智能的超高清视频会议分析管理系统 Download PDF

Info

Publication number
CN115052126B
CN115052126B CN202210964383.9A CN202210964383A CN115052126B CN 115052126 B CN115052126 B CN 115052126B CN 202210964383 A CN202210964383 A CN 202210964383A CN 115052126 B CN115052126 B CN 115052126B
Authority
CN
China
Prior art keywords
participant
speech
voice
conference
network transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210964383.9A
Other languages
English (en)
Other versions
CN115052126A (zh
Inventor
陈家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dualshine Industry Co ltd
Original Assignee
Shenzhen Dualshine Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dualshine Industry Co ltd filed Critical Shenzhen Dualshine Industry Co ltd
Priority to CN202210964383.9A priority Critical patent/CN115052126B/zh
Publication of CN115052126A publication Critical patent/CN115052126A/zh
Application granted granted Critical
Publication of CN115052126B publication Critical patent/CN115052126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/015High-definition television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及视频会议管理技术领域,具体公开一种基于人工智能的超高清视频会议分析管理系统,包括目标视频会议参会人员统计模块、目标视频会议网络传输参数检测模块、目标视频会议网络传输异常提示模块、会议管理数据库、参会人员发言语音信息实时提取模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块,通过对超高清视频会议进行网络传输质量的监测管理、参会人员发言语音信息的字幕添加、音量调控及音色润色多功能管理和参会视频界面的显示亮度统筹调控,实现了超高清视频会议的多方面智能化在线管理,克服了目前超高清视频会议的在线管理存在的不足,能够提升参会人员对超高清视频会议在视觉和听觉上的双重体验感。

Description

一种基于人工智能的超高清视频会议分析管理系统
技术领域
本发明涉及视频会议管理技术领域,具体而言,是一种基于人工智能的超高清视频会议分析管理系统。
背景技术
随着互联网的迅猛发展和多媒体通信技术的进步,为视频会议的实现提供了可能。视频会议模式打破了传统会议在时间和空间上的限制,能够将处于不同地点、时区的会议对象进行整合,实现会议的召开,因此受到了广泛欢迎。伴随着时代的发展,视频会议也由曾经的标清视频会议升级到超高清视频会议,更加强化了视频会议的视觉体验感,而为了保障超高清视频会议的召开效果,对超高清视频会议进行在线管理显得至关重要。
然而目前对超高清视频会议的在线管理基本都集中在视频会议的图像呈现方面,比如视频界面中的人脸摄像追踪聚焦,不仅忽略了视频会议的网络传输质量监测管理,还对参会人员发言语音信息的管理关注度不够,具体体现在以下几个方面:第一方面:超高清视频会议相对于普通标清会议,其视频界面画质清晰度的改善是通过提高网络传输质量来实现的,当网络传输质量不佳时,视频会议的画质就达不到超高清的画质需求,进而影响参会人员的视觉感受,与此同时还容易造成卡顿,影响视频会议的召开流畅度,从而降低了超高清视频会议的召开效果。
第二方面:目前对超高清视频会议中参会人员发言语音信息的管理集中在音量调控方面,一方面缺乏对参会人员发言语音的字幕处理,由于参会人员大多来自各个地区,对于一些存在普通话发言困难的参会人员,其在发言过程中不可避免地会携带口音,这些携带口音的发言语音对其他参会人员就会造成倾听障碍,为了克服倾听障碍,就需要添加字幕来辅助会议内容理解,另一方面在对参会人员的发言语音进行音量调控时,只是单纯将发言语音的音量调控到人耳倾听的适宜基准音量,但由于发言语音的频率不同,对人耳造成的音量感受会存在差异,因此如果只是将发言语音的音量进行基准调控,就会导致调控精准度下降,不仅降低了倾听的清晰度效果,还可能会造成参会人员听神经的损伤。
发明内容
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种基于人工智能的超高清视频会议分析管理系统,包括:目标视频会议参会人员统计模块,用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n。
目标视频会议网络传输参数检测模块,用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测。
目标视频会议网络传输异常提示模块,用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示。
会议管理数据库,用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间。
参会人员发言语音信息实时提取模块,用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取。
参会人员发言语音处理模块,用于对提取的各参会人员的发言语音信息进行处理。
在一种可选的方式中,所述网络传输参数包括网络传输速度和网络信号强度。
在一种可选的方式中,所述筛选出网络传输异常参会人员对应的具体筛选方法如下:将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure 100002_DEST_PATH_IMAGE001
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure 115619DEST_PATH_IMAGE002
,其中
Figure 100002_DEST_PATH_IMAGE003
Figure 474137DEST_PATH_IMAGE004
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure 100002_DEST_PATH_IMAGE005
Figure 59839DEST_PATH_IMAGE006
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure 100002_DEST_PATH_IMAGE007
,e表示为自然常数。
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员。
在一种可选的方式中,所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元。
在一种可选的方式中,所述参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程参见以下步骤:从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种。
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息。
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音。
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息。
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息。
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色。
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加。
在一种可选的方式中,所述确定字幕适配字号和字幕适配颜色对应的具体操作方式如下:根据参会视频界面对应的尺寸获取参会视频界面的面积。
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure 37154DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
表示为字幕字体的适配面积,
Figure 888566DEST_PATH_IMAGE010
表示为参会视频界面的面积,
Figure 100002_DEST_PATH_IMAGE011
表示为字幕字体面积适配占比。
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,并从中筛选出字体面积相似度最大的字号作为字幕适配字号。
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
在一种可选的方式中,所述参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度。
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为
Figure 226007DEST_PATH_IMAGE012
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure 100002_DEST_PATH_IMAGE013
Figure 416948DEST_PATH_IMAGE014
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure 100002_DEST_PATH_IMAGE015
表示为人耳倾听的适宜基准音量。
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
在一种可选的方式中,所述参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别。
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
在一种可选的方式中,所述系统还包括参会人员参会视频界面显示亮度调控处理模块,用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间。
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则则对重合的适宜显示亮度区间中包含的所述多个显示亮度数据进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度。
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
与现有技术相比,本发明具有以下优点:1.本发明在进行超高清视频会议时,通过对各参会人员对应参会空间的网络传输质量进行检测分析,由此从中筛选出不满足超高清视频会议网络传输质量的参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,实现了超高清视频会议对应网络传输质量的监测管理,填补了当前超高清视频会议在线管理中存在的管理空白,进而提高了超高清视频会议的画质清晰度,由此增强了参会人员的视觉感受,避免了卡顿现象的发生,在一定程度上提升了视频会议召开的流畅度,从而保障了超高清视频会议的召开效果。
2.本发明在对超高清视频会议进行参会人员发言语音信息管理时,不仅实现了发言语音的音量调控,还增加了发言语音的字幕处理,体现了参会人员发言语音的多功能管理和个性化服务,大大弥补了发言语音的单一化管理造成的管理局限,其增加的发言语音字幕处理能够有效克服因发言口音带来的倾听障碍,为视频会议内容理解提供了行之有效地辅助手段,从而最大程度保障了视频会议的召开价值性。
3.本发明在对参会人员的发言语音信息进行音量调控时,充分考虑到了发言语音的不同频率会对人耳造成存在差异化的音量感受,由此通过对参会人员的发言语音进行声音频率检测,并据此识别出各参会人员对应发言语音的音量需求调控度,从而以人耳倾听的适宜基准音量为音量调控基础,将各参会人员对应发言语音的音量需求调控度与音量调控基础进行结合,得出各参会人员对应发言语音的适宜倾听音量,实现了参会人员发言语音信息对应音量的灵活化、精准性调控,不仅提高了参会人员发言语音的倾听清晰度,还避免因调控不当造成参会人员听神经的损伤,进而保障了参会人员的听力安全,具有较强的实用性价值。
4.本发明还通过设置参会人员参会视频界面显示亮度调控处理模块对参会人员的参会视频界面进行显示亮度调控处理,其调控方式利用参会人员对应参会空间的照明亮度获取各参会人员对应参会视频界面的适宜显示亮度区间,再将其进行重合处理,进而依据重合处理后的适宜显示亮度进行所有参会人员的参会视频界面显示亮度调控,实现了参会视频界面的显示亮度统筹调控,一方面能够提高每个参会人员参会视频界面的视觉感受,降低因显示亮度调控不当造成的视频界面过亮或过暗对眼睛造成的视神经伤害,另一方面由于视频会议界面中每个参会人员可以看到其他人员的显示画面,这样不同参会人员显示画面的显示亮度就会形成对比,而对比越强烈,就会给参会人员造成视觉不适,而通过对参会视频界面的显示亮度进行统筹调控,就会削弱视觉不适感,使得视觉体验感更佳。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的系统模块连接示意图。
图2为本发明的参会人员发言语音处理模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参看图1,本发明提供一种基于人工智能的超高清视频会议分析管理系统,包括目标视频会议参会人员统计模块、目标视频会议网络传输参数检测模块、目标视频会议网络传输异常提示模块、会议管理数据库、参会人员发言语音信息实时提取模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块,其中目标视频会议参会人员统计模块分别与目标视频会议网络传输参数检测模块、参会人员发言语音信息实时提取模块和参会人员参会视频界面显示亮度调控处理模块连接,目标视频会议网络传输参数检测模块与目标视频会议网络传输异常提示模块连接,参会人员发言语音信息实时提取模块和参会人员发言语音处理模块连接,会议管理数据库分别与目标视频会议网络传输异常提示模块、参会人员发言语音处理模块和参会人员参会视频界面显示亮度调控处理模块。
所述目标视频会议参会人员统计模块用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n。
所述目标视频会议网络传输参数检测模块用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测,其中网络传输参数包括网络传输速度和网络信号强度。
需要说明的是,上述提到的参会终端可以是手机、电脑、平板等。
所述目标视频会议网络传输异常提示模块用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,便于该参会人员直观了解其所在空间的网络传输状况,进而保障了该参会人员更换参会空间的及时性。
在本发明的具体实施例中,上述筛选出网络传输异常参会人员对应的具体筛选方法如下:将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure 814431DEST_PATH_IMAGE016
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure DEST_PATH_IMAGE017
,其中
Figure 356402DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure 576162DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure 667614DEST_PATH_IMAGE022
,e表示为自然常数。
示例性地,上述网络传输质量系数计算公式中若某参会人员的网络传输速度和网络信号强度越接近超高清模式对应的标准网络传输速度、标准网络信号强度时,则该参会人员对应参会空间的网络传输质量系数越大,表明网络传输质量越佳,越不容易出现卡顿现象。
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员。
本发明实施例在进行超高清视频会议时,通过对各参会人员对应参会空间的网络传输质量进行检测分析,由此从中筛选出不满足超高清视频会议网络传输质量的参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示,实现了超高清视频会议对应网络传输质量的监测管理,填补了当前超高清视频会议在线管理中存在的管理空白,进而提高了超高清视频会议的画质清晰度,由此增强了参会人员的视觉感受,避免了卡顿现象的发生,在一定程度上提升了视频会议召开的流畅度,从而保障了超高清视频会议的召开效果。
所述会议管理数据库用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间。
所述参会人员发言语音信息实时提取模块用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取。
所述参会人员发言语音处理模块用于对提取的各参会人员的发言语音信息进行处理。
在一个具体实施例中,参看图2,所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元。
其中参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程参见以下步骤:从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种。
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息。
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音。
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息。
在优选方案中,本发明在将参会人员的发言语音信息转化为普通话语音信息中,能够对其中转化失败的异常语音结合前后语音表达的意思进行修正转化,在一定程度上提高了发言语音信息转化的彻底性和精准度,为后续转化为文本信息提供了可靠的参考依据。
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息。
在进一步的优选方案中,本发明在将修正后的发言转化语音信息转化为文本信息时,利用上下文词组在转化文本上的表达连贯精准性,将修正后的发言转化语音信息进行语音词组划分,再依据划分的语音词组进行以词组为基础的文本转化,能够提升文本转化的正确率及文本转化效率,方便参会人员的理解。
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色,具体操作方式如下:根据参会视频界面对应的尺寸获取参会视频界面的面积。
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure DEST_PATH_IMAGE023
Figure 252311DEST_PATH_IMAGE024
表示为字幕字体的适配面积,
Figure DEST_PATH_IMAGE025
表示为参会视频界面的面积,
Figure 265266DEST_PATH_IMAGE026
表示为字幕字体面积适配占比,其中K的取值一般是小于1的分数,例如¼。
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,其中字体面积相似度的计算公式为
Figure DEST_PATH_IMAGE027
,其中某种字号对应的字体面积与字幕字体的适配面积越接近,该种字号对应的字体面积相似度越大,进而从中筛选出字体面积相似度最大的字号作为字幕适配字号。
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加。
在更进一步的优选方案中,本发明在对转化的发言文本信息进行字幕添加时,依据参会视频界面对应的尺寸和背景颜色来自动调整字幕的字号和颜色,使得添加的字幕更加适宜参会人员观看,进而提高参会人员的观看欲望。
其中参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度。
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为。
需要说明的是,上述提到的音量需求调控度可以为正值,也可以为负值,也可以为零。
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure 960821DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure 375621DEST_PATH_IMAGE030
表示为人耳倾听的适宜基准音量。
示例性地,上述适宜倾听音量计算公式中,当某参会人员对应发言语音的音量需求调控度为正值时,该参会人员对应发言语音的适宜倾听音量就比人耳倾听的适宜基准音量大,当某参会人员对应发言语音的音量需求调控度为零时,该参会人员对应发言语音的适宜倾听音量就与人耳倾听的适宜基准音量一致,当某参会人员对应发言语音的音量需求调控度为负值时,该参会人员对应发言语音的适宜倾听音量就比人耳倾听的适宜基准音量小。
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
本发明实施例在对参会人员的发言语音信息进行音量调控时,充分考虑到了发言语音的不同频率会对人耳造成存在差异化的音量感受,由此通过对参会人员的发言语音进行声音频率检测,并据此识别出各参会人员对应发言语音的音量需求调控度,从而以人耳倾听的适宜基准音量为音量调控基础,将各参会人员对应发言语音的音量需求调控度与音量调控基础进行结合,得出各参会人员对应发言语音的适宜倾听音量,实现了参会人员发言语音信息对应音量的灵活化、精准性调控,不仅提高了参会人员发言语音的倾听清晰度,还避免因调控不当造成参会人员听神经的损伤,进而保障了参会人员的听力安全,具有较强的实用性价值。
本发明实施例在对超高清视频会议进行参会人员发言语音信息管理时,不仅实现了发言语音的音量调控,还增加了发言语音的字幕处理,体现了参会人员发言语音的多功能管理和个性化服务,大大弥补了发言语音的单一化管理造成的管理局限,其增加的发言语音字幕处理能够有效克服因发言口音带来的倾听障碍,为视频会议内容理解提供了行之有效地辅助手段,从而最大程度保障了视频会议的召开价值性。
其中参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别。
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
在本发明的另一个优选实施例中,对参会人员对应的发言语音进行音色润色的目的在于参会人员受声带发育限制,使得每个参会人员的音色都会存在差异,但大部分的音色都不会影响倾听的效果,而有些音色在一定程度上就影响了倾听效果,例如嘶哑音色、鼻音音色等,如果不对这些音色进行处理,就会严重影响参会人员的倾听欲望,造成视频会议质量下降,因此对影响倾听效果的音色进行润色调整,能够提高参会人员对这些音色的倾听兴趣,从而强化了发言语音的倾听效果,提升了参会人员发言语音信息的管理水平。
所述参会人员参会视频界面显示亮度调控处理模块用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间。
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则则对重合的适宜显示亮度区间中包含的所述多个显示亮度数据进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度。
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
本发明实施例通过设置参会人员参会视频界面显示亮度调控处理模块对参会人员的参会视频界面进行显示亮度调控处理,其调控方式利用参会人员对应参会空间的照明亮度获取各参会人员对应参会视频界面的适宜显示亮度区间,再将其进行重合处理,进而依据重合处理后的适宜显示亮度进行所有参会人员的参会视频界面显示亮度调控,实现了参会视频界面的显示亮度统筹调控,一方面能够提高每个参会人员参会视频界面的视觉感受,降低因显示亮度调控不当造成的视频界面过亮或过暗对眼睛造成的视神经伤害,另一方面由于视频会议界面中每个参会人员可以看到其他人员的显示画面,这样不同参会人员显示画面的显示亮度就会形成对比,而对比越强烈,就会给参会人员造成视觉不适,而通过对参会视频界面的显示亮度进行统筹调控,就会削弱视觉不适感,使得视觉体验感更佳。
本发明通过对超高清视频会议进行网络传输质量的监测管理、参会人员发言语音信息的字幕添加、音量调控及音色润色多功能管理和参会视频界面的显示亮度统筹调控,实现了超高清视频会议的多方面智能化在线管理,克服了目前超高清视频会议的在线管理存在的不足和缺失,能够提升参会人员对超高清视频会议在视觉和听觉上的双重体验感,有利于超高清视频会议的长远发展。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (4)

1.一种基于人工智能的超高清视频会议分析管理系统,其特征在于,包括:
目标视频会议参会人员统计模块,用于将当前正在进行的视频会议记为目标视频会议,并统计目标视频会议中存在的参会人员数量,进而将各参会人员依次标记为1,2,...,i,...,n;
目标视频会议网络传输参数检测模块,用于由各参会人员对应的参会终端对其所处参会空间进行网络传输参数检测;所述网络传输参数包括网络传输速度和网络信号强度;
目标视频会议网络传输异常提示模块,用于对各参会人员对应参会空间的网络传输参数进行分析,由此筛选出网络传输异常参会人员,进而在该参会人员的参会视频界面进行网络传输异常弹窗提示;
会议管理数据库,用于存储超高清模式对应的标准网络传输参数,存储各种语种对应的口音特征,存储各种字号对应的字体面积,存储各种背景颜色对应匹配的字幕颜色,存储各种人耳倾听敏感度对应的声音频率区间,存储各种人耳倾听敏感度对应的音量需求调控度,存储人耳倾听的适宜基准音量,并存储各种照明亮度对应参会视频界面的适宜显示亮度区间;
参会人员发言语音信息实时提取模块,用于由各参会人员对应参会终端内置的麦克风实时对其发言语音信息进行提取;
参会人员发言语音处理模块,用于对提取的各参会人员的发言语音信息进行处理;
其中,所述筛选出网络传输异常参会人员对应的具体筛选方法如下:
将各参会人员对应参会空间的网络传输参数与会议管理数据库中超高清模式对应的标准网络传输参数进行对比,通过网络传输质量系数计算公式
Figure DEST_PATH_IMAGE001
,计算得到各参会人员对应参会空间的网络传输质量系数
Figure 114926DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
Figure 991615DEST_PATH_IMAGE004
分别表示为第i个参会人员对应参会空间的网络传输速度、网络信号强度,i表示为第i个参会人员的编号,
Figure DEST_PATH_IMAGE005
Figure 423864DEST_PATH_IMAGE006
分别表示为超高清模式对应的标准网络传输速度、标准网络信号强度,a、b分别表示为网络传输速度、网络信号强度对应的影响因子,且
Figure DEST_PATH_IMAGE007
,e表示为自然常数;
将各参会人员对应参会空间的网络传输质量系数与设定阈值进行对比,若某参会人员对应参会空间的网络传输质量系数小于设定阈值,表明该参会人员对应的参会空间存在网络传输异常,并将该参会人员记为网络传输异常参会人员;
所述参会人员发言语音处理模块包括参会人员发言字幕添加单元、参会人员发言音量调控单元和参会人员发言音色润色单元;
所述参会人员发言字幕添加单元用于将各参会人员的发言语音信息转化为发言文本信息,并将其在参会视频界面进行字幕添加,其具体执行过程包括以下步骤:
从各参会人员的发言语音信息中提取口音特征,并将其与会议管理数据库中各种语种对应的口音特征进行匹配,从中筛选出各参会人员对应的发言语种;
将各参会人员对应的发言语音信息导入到该参会人员对应发言语种的普通话模板,由此将各参会人员对应的发言语音信息转化为普通话语音信息,得到各参会人员对应的发言转化语音信息;
从各参会人员对应的发言转化语音信息中提取转化失败的语音,并将其记为异常语音,同时定位异常语音在发言转化语音信息中的位置,由此提取异常语音对应的前端语音和后端语音;
根据异常语音对应的前端语音和后端语音对异常语音进行修正,得到修正后的异常语音,将修正后的异常语音与发言转化语音信息进行融合,由此得到各参会人员对应的修正发言转化语音信息;
将各参会人员对应的修正发言转化语音信息进行语音分词划分,得到若干语音词组,进而将各参会人员对应修正发言转化语音信息划分的若干语音词组通过语音识别技术转化为发言文本信息;
获取参会视频界面对应的尺寸和背景颜色,并以此确定字幕适配字号和字幕适配颜色;
将各参会人员对应的发言文本信息在参会视频界面按照确定的字幕适配字号和字幕适配颜色进行字幕添加;
所述系统还包括参会人员参会视频界面显示亮度调控处理模块,用于通过各参会人员对应参会终端内置的亮度计对其所处参会空间的照明亮度进行检测,并以此对参会人员的参会视频界面进行显示亮度调控处理,其具体调控方法如下:
将各参会人员对应参会空间的照明亮度与会议管理数据库中各种照明亮度对应参会视频界面的适宜显示亮度区间进行匹配,从中提取各参会人员对应参会视频界面的适宜显示亮度区间;
将各参会人员对应参会视频界面的适宜显示亮度区间进行重合对比,从中提取重合的适宜显示亮度区间,若重合的适宜显示亮度区间中只有一个显示亮度数据,则将该显示亮度作为参会人员对应参会视频界面的优选显示亮度,若重合的适宜显示亮度区间中含有多个显示亮度数据,则对重合的适宜显示亮度区间中包含的所述多个显示亮度数据进行均值处理,得到平均显示亮度,并将该平均显示亮度作为参会人员对应参会视频界面的优选显示亮度;
将各参会人员对应参会视频界面的显示亮度进行调控,使其符合优选显示亮度。
2.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理系统,其特征在于:所述确定字幕适配字号和字幕适配颜色对应的具体操作方式如下:
根据参会视频界面对应的尺寸获取参会视频界面的面积;
依据参会视频界面的面积与预设的字幕字体面积适配占比计算字幕字体的适配面积,其计算公式为
Figure 956477DEST_PATH_IMAGE008
,
Figure DEST_PATH_IMAGE009
表示为字幕字体的适配面积,
Figure 765164DEST_PATH_IMAGE010
表示为参会视频界面的面积,
Figure DEST_PATH_IMAGE011
表示为字幕字体面积适配占比;
将字幕字体的适配面积与会议管理数据库中各种字号对应的字体面积进行对比,计算各种字号对应的字体面积相似度,并从中筛选出字体面积相似度最大的字号作为字幕适配字号;
将参会视频界面对应的背景颜色与会议管理数据库中各种背景颜色对应匹配的字幕颜色进行比对,从中匹配出字幕适配颜色。
3.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理系统,其特征在于:所述参会人员发言音量调控单元用于对各参会人员的发言语音进行音量调控,其具体调控过程如下:
对各参会人员的发言语音进行声音频率检测,并将其与会议管理数据库中各种人耳倾听敏感度对应的声音频率区间进行匹配,从中匹配出各参会人员对应发言语音所属声音频率的人耳倾听敏感度;
将各参会人员对应发言语音所属声音频率的人耳倾听敏感度与会议管理数据库中各种人耳倾听敏感度对应的音量需求调控度进行匹配,从中筛选出各参会人员对应发言语音的音量需求调控度,记为
Figure 247092DEST_PATH_IMAGE012
从会议管理数据库中提取人耳倾听的适宜基准音量,并将其结合各参会人员对应发言语音的音量需求调控度计算各参会人员对应发言语音的适宜倾听音量,其计算公式为
Figure DEST_PATH_IMAGE013
Figure 37193DEST_PATH_IMAGE014
表示为第i个参会人员对应发言语音的适宜倾听音量,
Figure DEST_PATH_IMAGE015
表示为人耳倾听的适宜基准音量;
对各参会人员对应发言语音的音量进行调控,使其符合该参会人员对应发言语音的适宜倾听音量。
4.根据权利要求1所述的一种基于人工智能的超高清视频会议分析管理系统,其特征在于:所述参会人员发言音色润色单元用于对各参会人员对应的发言语音进行音色润色调整,其具体执行过程如下:
对各参会人员的发言语音进行声带发育特征提取,由此识别出各参会人员对应的发言音色类别;
将各参会人员对应的发言音色类别与预设的影响倾听效果的发言音色类别进行匹配,若某参会人员对应的发言音色类别匹配成功,则判断该参会人员的发言语音需要进行音色润色调整,此时将该参会人员的发言语音导入到音色润色模型进行音色润色,并在润色结束后将输出的发言语音进行播放。
CN202210964383.9A 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理系统 Active CN115052126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964383.9A CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964383.9A CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理系统

Publications (2)

Publication Number Publication Date
CN115052126A CN115052126A (zh) 2022-09-13
CN115052126B true CN115052126B (zh) 2022-10-28

Family

ID=83167242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964383.9A Active CN115052126B (zh) 2022-08-12 2022-08-12 一种基于人工智能的超高清视频会议分析管理系统

Country Status (1)

Country Link
CN (1) CN115052126B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320613B (zh) * 2023-05-26 2023-08-15 深圳华付技术股份有限公司 一种基于多场景的音视频数据实时处理方法及系统
CN116668737B (zh) * 2023-08-02 2023-10-20 成都梵辰科技有限公司 一种基于深度学习的超高清视频清晰度测试方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8120638B2 (en) * 2006-01-24 2012-02-21 Lifesize Communications, Inc. Speech to text conversion in a videoconference
CN107527623B (zh) * 2017-08-07 2021-02-09 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN108111799B (zh) * 2017-12-14 2020-12-18 苏州科达科技股份有限公司 视频会议中发言人的标识方法及装置
CN108712627A (zh) * 2018-08-21 2018-10-26 云南电网有限责任公司 视频会议内容和质量检测设备及检测方法
CN112395461A (zh) * 2020-11-17 2021-02-23 南京鼓佳玺电子科技有限公司 一种基于大数据分析的商务会议智能管理系统
CN112801608A (zh) * 2021-01-15 2021-05-14 招明香 基于大数据和云计算的远程视频会议智能管理系统及云会议管理平台
CN113542903A (zh) * 2021-07-16 2021-10-22 思享智汇(海南)科技有限责任公司 一种支持字号自适应的字幕生成方法及装置
CN114422916A (zh) * 2022-01-20 2022-04-29 温州奇兰网络科技有限公司 一种基于场景分析管控的会议耳机智能调控管理系统

Also Published As

Publication number Publication date
CN115052126A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN115052126B (zh) 一种基于人工智能的超高清视频会议分析管理系统
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
US10581625B1 (en) Automatically altering the audio of an object during video conferences
CN107529068A (zh) 视频内容鉴别方法及系统
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
Chuang et al. Improved lite audio-visual speech enhancement
CN112037788B (zh) 一种语音纠正融合方法
US20220019746A1 (en) Determination of transcription accuracy
CN111639529A (zh) 基于多层次逻辑的语音话术检测方法、装置及计算机设备
CN111488487A (zh) 一种面向全媒体数据的广告检测方法及检测系统
CN110858477B (zh) 一种基于降噪自动编码器的语种识别分类方法及装置
CN112395461A (zh) 一种基于大数据分析的商务会议智能管理系统
CN111951629A (zh) 一种发音纠正系统、方法、介质和计算设备
Ma et al. Investigating the Lombard effect influence on end-to-end audio-visual speech recognition
CN116894442B (zh) 一种纠正引导发音的语言翻译方法及系统
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN107886940B (zh) 语音翻译处理方法及装置
CN112329748A (zh) 面向交互场景的自动谎言检测方法、装置、设备及介质
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
Um et al. Facetron: A Multi-Speaker Face-to-Speech Model Based on Cross-Modal Latent Representations
Li et al. CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition
CN113611282B (zh) 广播节目智能播报系统及方法
Chignoli Speech components in phonetic characterisation of speakers: a study on complementarity and redundancy of conveyed information
CN113485668B (zh) 一种智能开户方法及系统
Rastogi et al. LRNeuNet: An attention based deep architecture for lipreading from multitudinous sized videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant