CN116208433A - 虚拟会议室的音频处理方法、装置及存储介质 - Google Patents

虚拟会议室的音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN116208433A
CN116208433A CN202111450520.9A CN202111450520A CN116208433A CN 116208433 A CN116208433 A CN 116208433A CN 202111450520 A CN202111450520 A CN 202111450520A CN 116208433 A CN116208433 A CN 116208433A
Authority
CN
China
Prior art keywords
seat
participant
voiceprint information
audio processing
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111450520.9A
Other languages
English (en)
Inventor
王呈裕
陈柏诚
李育德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fulian Precision Electronics Tianjin Co Ltd
Original Assignee
Fulian Precision Electronics Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fulian Precision Electronics Tianjin Co Ltd filed Critical Fulian Precision Electronics Tianjin Co Ltd
Priority to CN202111450520.9A priority Critical patent/CN116208433A/zh
Priority to US17/566,250 priority patent/US11798561B2/en
Publication of CN116208433A publication Critical patent/CN116208433A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1818Conference organisation arrangements, e.g. handling schedules, setting up parameters needed by nodes to attend a conference, booking network resources, notifying involved parties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本申请公开了一种虚拟会议室的音频处理方法、装置及存储介质,涉及虚拟会议室技术领域。本申请一实施例的音频处理方法包括:根据虚拟会议室的座位分布设置网格顶点的数目。获取发言者的第一声纹信息,第一声纹信息包括语音信号的频率、振幅及相位差。根据网格顶点的数目调整第一声纹信息的频率或振幅,得到第二声纹信息。根据第二声纹信息确定发言者在虚拟会议室中的座位。本申请实施例能够模拟发言者的声源特性,使发言者的声音具有可识别性。

Description

虚拟会议室的音频处理方法、装置及存储介质
技术领域
本申请涉及虚拟会议室技术领域,具体涉及一种虚拟会议室的音频处理方法、装置及存储介质。
背景技术
虚拟会议室(Virtual Meeting Room,VMR)是一种高效、便捷的网络会议室。用户通过手机、电脑等移动终端产品可快速高效地与其他用户组建虚拟会议,不受时间和空间的局限,感受身临其境的会议沟通效果。目前的虚拟会议室是把发言者的图像放大,而难以区分不同发言者的声音。当虚拟会议室中有多个发言者同时讲话时,用户难以分辨每个发言者的讲话内容。
发明内容
鉴于此,本申请提供一种虚拟会议室的音频处理方法、装置及存储介质,以提升发言者的声音的可识别性。
本申请第一方面提供一种虚拟会议室的音频处理方法,包括:根据虚拟会议室的座位分布设置网格顶点的数目。获取发言者的第一声纹信息,第一声纹信息包括语音信号的频率、振幅及相位差。根据网格顶点的数目调整第一声纹信息的频率或振幅,得到第二声纹信息。根据第二声纹信息确定发言者在虚拟会议室中的座位。
在其中一种实施方式中,根据虚拟会议室的座位分布设置网格顶点的数目,包括:在各个座位所覆盖区域设置不同数目的网格顶点,以建立座位与网格顶点的数目的对应关系。
在另一种实施方式中,根据网格顶点的数目调整第一声纹信息的频率或振幅,包括:当第一座位所覆盖区域的网格顶点的数目大于第二座位所覆盖区域的网格顶点的数目时,调高来自于第一座位的第一声纹信息的频率,或调低来自于第二座位的第一声纹信息的频率,使得来自于第一座位的第一声纹信息的频率大于来自于第二座位的第一声纹信息的频率。
在另一种实施方式中,根据网格顶点的数目调整第一声纹信息的频率或振幅,包括:当第一座位所覆盖区域的网格顶点的数目大于第二座位所覆盖区域的网格顶点的数目时,调大来自于第一座位的第一声纹信息的振幅,或调小来自于第二座位的第一声纹信息的振幅,使得来自于第一座位的第一声纹信息的振幅大于来自于第二座位的第一声纹信息的振幅。
在另一种实施方式中,在根据第二声纹信息确定发言者在虚拟会议室中的座位之后,音频处理方法还包括:获取参会者的眼球运动方向信息。根据眼球运动方向信息确定参会者的专心度,专心度的取值为0或1。根据专心度确定参会者对会议议题是否有兴趣。
在另一种实施方式中,根据眼球运动方向信息确定参会者的专心度,包括:当参会者的眼球运动方向朝向发言者时,将专心度标记为1。当参会者的眼球运动方向远离发言者时,将专心度标记为0。
在另一种实施方式中,音频处理方法还包括:当存在多个发言者时,统计参会者在每个发言者发言时的专心度的取值。根据专心度的取值确定参会者对会议议题的专心度。
在另一种实施方式中,根据专心度确定参会者对会议议题是否有兴趣,包括:当专心度的取值大于或等于预设的兴趣阈值时,确定参会者对会议议题有兴趣。当专心度的取值小于兴趣阈值时,确定参会者对会议议题没有兴趣。
本申请第二方面提供一种音频处理装置,包括服务器、主设备及从设备,主设备用以发起虚拟会议,服务器用以根据来自于主设备的指令构建虚拟会议室,从设备用以根据来自于主设备的链接进入虚拟会议室,服务器包括第一处理器和第一存储器,第一处理器运行存储于第一存储器中的计算机程序或代码,实现本申请实施例的音频处理方法。
本申请第三方面提供一种存储介质,用于存储计算机程序或代码,当计算机程序或代码被处理器执行时,实现本申请实施例的音频处理方法。
本申请实施例将虚拟会议室中的每个座位所覆盖区域的网格顶点的数目与第一声纹信息建立对应关系,根据网格顶点的数目调整来自于不同座位的第一声纹信息的频率或振幅,得到更具辨识性的第二声纹信息,从而建立起每个座位与第二声纹信息的对应关系。如此,可根据第二声纹信息确定发言者在虚拟会议室中的座位。本申请实施例可模拟发言者的声源特性,使发言者的声音具有可识别性,用户可以清楚地分辨出每个发言者的讲话内容。
附图说明
图1是本申请一实施方式的音频处理装置的结构示意图。
图2是本申请一实施方式的音频处理方法的流程图。
图3a是本申请一实施方式的虚拟会议室的结构示意图。
图3b是本申请另一实施方式的虚拟会议室的结构示意图。
图4是本申请另一实施方式的音频处理方法的流程图。
图5是本申请一实施方式的虚拟会议室的示意图。
图6是本申请另一实施方式的虚拟会议室的示意图。
图7是本申请另一实施方式的音频处理方法的流程图。
图8是本申请一实施方式的第一声纹信息的示意图。
图9是本申请另一实施方式的音频处理方法的流程图。
主要元件符号说明
音频处理装置 100
服务器 200
电子设备 300
主设备 310
从设备 320
第一处理器 210
第一存储器 220
第二处理器 311
第二存储器 312
第一音频模块 313
第一显示屏 314
第一前置摄像头 315
第三处理器 321
第三存储器 322
第二音频模块 323
第二显示屏 324
第二前置摄像头 325
具体实施方式
需要说明的是,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
另外需要说明的是,本申请实施例中公开的方法或流程图所示出的方法,包括用于实现方法的一个或多个步骤,在不脱离权利要求的范围的情况下,多个步骤的执行顺序可以彼此互换,其中某些步骤也可以被删除。
图1是本申请一实施方式的音频处理装置100的结构示意图。
可参阅图1,音频处理装置100可以包括服务器200和电子设备300。电子设备300包括主设备310和从设备320。主设备310是指会议主持人使用的电子设备,从设备320是指其余参会者使用的电子设备。服务器200通信连接于主设备310和从设备320。主持人通过主设备310发起虚拟会议,服务器200根据来自于主设备310的指令构建虚拟会议室,主设备310发送会议链接至从设备320,其余参会者通过从设备320进入虚拟会议室。
其中,通信连接可以包括有线连接和无线连接。有线连接是指通过光纤或双绞线等有线传输介质进行连接。无线连接是指通过WiFi或移动通信网络(例如2G/3G/4G/5G)等无线传输介质进行连接。
在一些实施例中,音频处理装置100还可以包括360度鱼眼摄像机(图未示),360度鱼眼摄像机是指可以独立实现大范围无死角监控的全景摄像机。360度鱼眼摄像机通信连接于服务器200。360度鱼眼摄像机可以设置于办公室内部分工位的上空,镜头朝上或朝下,拍摄办公室内部分工位。服务器200将360度鱼眼摄像机拍摄到的工位映射到虚拟会议室模型中,使得工位上的人员如同置身于虚拟会议室中。当镜头拍摄到的画面为倒置画面时,服务器200对主设备310和从设备320显示出的画面进行倒置处理,以校正画面的方向。
服务器200可以包括第一处理器210和第一存储器220,第一处理器210可以运行存储于第一存储器220中的计算机程序或代码,实现本申请一些实施例的音频处理方法。
第一处理器210可以包括一个或多个处理单元。例如,第一处理器210可以包括,但不限于,应用处理器(Application Processor,AP)、调制解调处理器、图形处理器(Graphics Processing Unit,GPU)、图像信号处理器(Image Signal Processor,ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor,DSP)、基带处理器、神经网络处理器(Neural-Network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
第一处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,第一处理器210中的存储器为高速缓冲存储器。该存储器可以保存第一处理器210刚用过或循环使用的指令或数据。如果第一处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。
在一些实施例中,第一处理器210可以包括一个或多个接口。接口可以包括,但不限于,集成电路(Inter-Integrated Circuit,I2C)接口、集成电路内置音频(Inter-Integrated Circuit Sound,I2S)接口、脉冲编码调制(Pulse Code Modulation,PCM)接口、通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)接口、移动产业处理器接口(Mobile Industry Processor Interface,MIPI)、通用输入输出(General-Purpose Input/Output,GPIO)接口、用户标记模块(Subscriber IdentityModule,SIM)接口、通用串行总线(Universal Serial Bus,USB)接口等。
可以理解,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对服务器200的结构限定。在本申请另一些实施例中,服务器200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
第一存储器220可以包括外部存储器接口和内部存储器。其中,外部存储器接口可以用于连接外部存储卡,例如Micro SD卡,实现扩展服务器200的存储能力。外部存储卡通过外部存储器接口与第一处理器210通信,实现数据存储功能。内部存储器可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(例如声音播放功能,图像播放功能等)等。存储数据区可存储服务器200使用过程中所创建的数据(例如音频数据,图像数据等)等。此外,内部存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件或通用闪存存储器(UniversalFlash Storage,UFS)等。第一处理器210通过运行存储在内部存储器的指令,和/或存储在设置于第一处理器210中的存储器的指令,执行服务器200的各种功能应用以及数据处理,例如实现本申请一些实施例的音频处理方法。
在一些实施例中,服务器200可以包括多台虚拟机(Virtual Machine,VM)。服务器200具有高可用性(High Availability,HA)和弹性伸缩(Auto Scaling)功能。高可用性是指可提供冗余处理能力,当一个节点(Node)不可用或者不能处理用户的请求时,该请求会及时转到另外的可用节点来处理。弹性伸缩功能是指可根据业务需求和策略自动调整计算能力(即实例数量)。在业务需求增长时,弹性伸缩自动增加指定类型的实例,以保证计算能力。在业务需求下降时,弹性伸缩自动减少指定类型的实例,以节约成本。
在一些实施例中,主设备310可以包括第二处理器311、第二存储器312、第一音频模块313及第一显示屏314。第二处理器311电连接于其他上述部件和服务器200的第一处理器210。第一音频模块313用于对音频信号进行模数变换、编码和解码。第一显示屏314用于显示虚拟会议室的场景和部分参会者的头像。第二处理器311可以运行存储于第二存储器312中的计算机程序或代码,实现本申请另一些实施例的音频处理方法。
在本实施例中,主设备310可以包括可追踪用户眼球运动方向的3自由度(Degreeof Freedom,DoF)虚拟现实(Virtual Reality,VR)眼镜或头戴式设备(Head-MountedDevice,HMD)。
可以理解,第二处理器311和第二存储器312的具体实施方式可参阅上述第一处理器210和第一存储器220,此处不再赘述。
在一些实施例中,第一音频模块313可以设置于第二处理器311中,或将第一音频模块313的部分功能模块设置于第二处理器311中。主设备310可以通过第一音频模块313实现音频功能,例如语音播放、录音等。
在另一些实施例中,主设备310还可以包括第一前置摄像头315。第一前置摄像头315电连接于第二处理器311。第一前置摄像头315用于拍摄人脸和捕捉人眼的运动方向,以支持服务器200对用户参加虚拟会议的专注度和对会议议题的感兴趣程度进行分析。
在本实施例中,主设备310可以包括智能电话、平板电脑、个人计算机(PersonalComputer,PC)或个人数字助理(Personal Digital Assistant,PDA)。
在一些实施例中,从设备320可以包括第三处理器321、第三存储器322、第二音频模块323、第二显示屏324及第二前置摄像头325。第三处理器321电连接于其他上述部件、服务器200的第一处理器210及主设备310的第二处理器311。
可以理解,从设备320的各个部件和具体实施方式可参阅主设备310。
本申请实施例示意的结构并不构成对服务器200、主设备310或从设备320的具体限定。在本申请另一些实施例中,服务器200、主设备310或从设备320可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
图2是本申请一实施方式的音频处理方法的流程图。
可参阅图2,本实施例的音频处理方法应用于主设备310,音频处理方法可以包括以下步骤:
S101,响应于主持人的第一操作,主设备310发送建立会议的请求至服务器200。
其中,第一操作可以包括在主设备310的三维图形图像软件(例如Blender)中触发建立会议的控件。
在本实施例中,主设备310上安装有三维图形图像软件,主持人可以在三维图形图像软件中触发建立会议的控件,使得主设备310发送建立会议的请求至服务器200。其中,三维图形图像软件可提供全面的三维创作工具,包括建模(Modeling)、UV映射(UV-Mapping)、贴图(Texturing)、绑定(Rigging)、蒙皮(Skinning)、动画(Animation)、粒子(Particle)和其它系统的物理学模拟(Physics)、脚本控制(Scripting)、渲染(Rendering)、运动跟踪(Motion Tracking)、合成(Compositing)、后期处理(Post-production)等。
S102,响应于主持人的第二操作,主设备310从服务器200的模型库中选择虚拟会议室模型。
其中,第二操作可以包括在主设备310的三维图形图像软件中触发选择虚拟会议室模型的控件。
可参阅图3a和图3b,模型库中存储有多种不同形状特征的虚拟会议室,例如长方体虚拟会议室、环形虚拟会议室等。服务器200接收到来自于主设备310的建立会议的请求后,允许主设备310访问服务器200的模型库。主持人可以在三维图形图像软件中选择虚拟会议室模型,触发选择虚拟会议室模型的控件,使得主设备310从服务器200的模型库中选择虚拟会议室模型。
S103,响应于主持人的第三操作,主设备310收集主持人的第一声纹信息,并将第一声纹信息传送至服务器200。
其中,第三操作可以包括在主设备310的三维图形图像软件中触发录制音频的控件。
在本实施例中,主设备310确定虚拟会议室模型后,主持人在主设备310的三维图形图像软件中触发录制音频的控件,主设备310通过第一音频模块313录制主持人的语音信号,从语音信号中提取主持人的第一声纹信息,并将第一声纹信息传送至服务器200。其中,第一声纹信息可以包括语音信号的频率、振幅及相位差。
S104,响应于主持人的第四操作,主设备310根据虚拟会议室模型确定参会者的座位,并发送会议链接至从设备320。
其中,第四操作可以包括在主设备310的三维图形图像软件中触发添加会议链接的控件。
在本实施例中,主设备310发送主持人的第一声纹信息至服务器200后,主持人在主设备310的三维图形图像软件中触发添加会议链接的控件,主设备310根据虚拟会议室模型确定参会者的座位,虚拟会议室中的每个座位对应一个唯一的会议链接。主设备310发送会议链接至从设备320。
举例而言,虚拟会议室中可以设置N个座位,一个座位对应一个会议链接,主设备310可以将N个会议链接分别发送至N个从设备320。参会者通过一个会议链接进入虚拟会议室后,可从对应座位的视角观察虚拟会议室和其他参会者,且在会议中可以发言。
在一些实施例中,虚拟会议室中还可以设置多个旁听座位,每个旁听座位也对应一个唯一的会议链接。主设备310可以将M个旁听座位的会议链接分别发送至M个从设备320。参会者通过一个会议链接进入虚拟会议室后,可从旁听座位的视角观察虚拟会议室和其他参会者,旁听座位的参会者不能发言。其中,M和N均为正整数。
在另一些实施例中,主设备310将虚拟会议室的会议链接发送至多个从设备320。参会者通过虚拟会议室的会议链接进入虚拟会议室后,可通过从设备320选择座位。
图4是本申请另一实施方式的音频处理方法的流程图。
可参阅图4,本实施例的音频处理方法应用于从设备320,音频处理方法可以包括以下步骤:
S201,从设备320接收来自于主设备310的会议链接。
在本实施例中,主设备310建立虚拟会议室后,将虚拟会议室的会议链接或虚拟会议室中座位的会议链接发送至参会者。参会者通过从设备320接收来自于主设备310的会议链接。
S202,响应于参会者的第一操作,从设备320根据会议链接进入虚拟会议室。
其中,第一操作可以包括在从设备320上点击会议链接,启动浏览器应用(例如Chrome Browser)。
可参阅图5,从设备320接收到来自于主设备310的会议链接后,参会者在从设备320上点击会议链接,启动浏览器应用,通过浏览器应用进入虚拟会议室。
S203,从设备320根据虚拟会议室中是否有座位来确定会议链接是否为预定座位的会议链接。若会议链接为预定座位的会议链接,则执行步骤S204。若会议链接不是预定座位的会议链接,则执行步骤S205。
在本实施例中,从设备320根据会议链接进入虚拟会议室后,从设备320根据虚拟会议室中是否有座位来确定会议链接是否为预定座位的会议链接。当参会者在虚拟会议室中有座位时,从设备320从预定座位的视角显示虚拟会议室的场景和其他参会者。当参会者在虚拟会议室中没有座位时,从设备320显示整体虚拟会议室的场景。从设备320可以通过参会者进入虚拟会议室后的视角不同确定参会者在虚拟会议室中是否有座位,进而确定会议链接是否为预定座位的会议链接。
S204,响应于参会者的第二操作,从设备320收集参会者的第一声纹信息,并将第一声纹信息传送至服务器200。
其中,第二操作可以包括在从设备320的浏览器应用中触发录制音频的控件。
在本实施例中,从设备320确定会议链接为预定座位的会议链接后,参会者在从设备320的浏览器应用中触发录制音频的控件,从设备320通过第二音频模块323录制参会者的语音信号,从语音信号中提取参会者的第一声纹信息,并将第一声纹信息传送至服务器200。
S205,响应于参会者的第三操作,从设备320确定座位。
其中,第三操作可以包括在从设备320的浏览器应用中触发选择座位的控件。
在本实施例中,从设备320确定会议链接不是预定座位的会议链接后,参会者在从设备320的浏览器应用中触发选择座位的控件,从设备320选择座位,并读取该座位的选定信息。其中,座位的选定信息包括座位已被选定或座位未被选定。
S206,从设备320确定座位是否已被其他参会者选定。若座位已被其他参会者选定,则返回执行步骤S205。若座位未被其他参会者选定,则返回执行步骤S204。
在本实施例中,当参会者通过从设备320选择座位后,从设备320可以读取该座位的选定信息,以确定该座位是否已被其他参会者选定。当参会者选择的座位未被其他参会者选定时,从设备320可从选定座位的视角显示虚拟会议室的场景和其他参会者。当参会者选择的座位已被其他参会者选定时,从设备320提示参会者重选座位。
S207,从设备320显示虚拟会议室的座位图。
在本实施例中,当从设备320将第一声纹信息传送至服务器200后,显示虚拟会议室的座位图。可参阅图6,环形虚拟会议室中有6个座位,6个座位环绕形成虚拟会议室的座位图,呈现真实虚拟会议室的效果。
图7是本申请另一实施方式的音频处理方法的流程图。
可参阅图7,本实施例的音频处理方法应用于服务器200,音频处理方法可以包括以下步骤:
S301,服务器200接收来自于主设备310的建立会议的请求。
在本实施例中,主持人可以在三维图形图像软件中触发建立会议的控件,使得主设备310发送建立会议的请求至服务器200。服务器200接收来自于主设备310的建立会议的请求。
S302,服务器200根据建立会议的请求向主设备310开放模型库的访问权限。
在本实施例中,服务器200接收到来自于主设备310的建立会议的请求后,向主设备310开放模型库的访问权限,允许主设备310访问服务器200的模型库并从模型库中调用虚拟会议室模型。
S303,服务器200根据主设备310所选定的虚拟会议室模型建立虚拟会议室。
在本实施例中,主持人可以在三维图形图像软件中选择虚拟会议室模型,触发选择虚拟会议室模型的控件,使得主设备310从服务器200的模型库中选择虚拟会议室模型。服务器200根据主设备310所选定的虚拟会议室模型建立虚拟会议室。
在一些实施例中,服务器200可以根据预设的虚拟会议室比例建立虚拟会议室模型,并通过UV映射的工具,使得主设备310或从设备320可以显示虚拟会议室模型的动态画面。
在另一些实施例中,服务器200可以根据预存的虚拟会议室图片,从虚拟会议室图片中提取纹理特征,并通过贴图的工具,将纹理特征添加到预设的基本模型中,使得主设备310或从设备320可以显示虚拟会议室模型的静态画面。
S304,服务器200根据虚拟会议室的座位分布设置网格顶点的数目。
其中,网格(Mesh)是三维图形图像软件构图的基本单元,虚拟会议室由多个网格拼接构成。一个网格包括4个顶点(Vertex)。虚拟会议室中一个座位所覆盖区域包含的网格顶点的数目越多,该区域的网格顶点的密度也就越大。服务器200根据虚拟会议室的座位分布设置网格顶点的数目,在各个座位所覆盖区域设置不同数目的网格顶点,即各个座位所覆盖区域的网格顶点的密度不同,使得座位与网格顶点的数目或密度形成一一对应的关系。
S305,服务器200接收来自于主设备310或从设备320的第一声纹信息。
其中,第一声纹信息可以包括语音信号的频率、振幅及相位差。
在本实施例中,当主持人发言时,主持人在主设备310的三维图形图像软件中触发录制音频的控件,主设备310通过第一音频模块313录制主持人的语音信号,从语音信号中提取主持人的第一声纹信息,并将第一声纹信息传送至服务器200。服务器200可以接收来自于主设备310的第一声纹信息。
当参会者发言时,参会者在从设备320的浏览器应用中触发录制音频的控件,从设备320通过第二音频模块323录制参会者的语音信号,从语音信号中提取参会者的第一声纹信息,并将第一声纹信息传送至服务器200。服务器200可以接收来自于从设备320的第一声纹信息。
S306,服务器200根据网格顶点的数目调整第一声纹信息的频率或振幅,得到第二声纹信息。
在本实施例中,虚拟会议室中每个座位具有对应的网格顶点的数目。服务器200根据网格顶点的数目调整第一声纹信息的频率或振幅。例如,网格顶点数目越多或密度越大的座位对应的第一声纹信息的频率越高或振幅越大。当第一座位所覆盖区域的网格顶点的数目n1与第二座位所覆盖区域的网格顶点的数目n2满足:n1>n2时,服务器200调整来自于第一座位的第一声纹信息或来自于第二座位的第一声纹信息,使得来自于第一座位的第一声纹信息和来自于第二座位的第一声纹信息满足:f1>f2或a1>a2,其中,f1表示来自于第一座位的第一声纹信息的频率,f2表示来自于第二座位的第一声纹信息的频率,a1表示来自于第一座位的第一声纹信息的振幅,a2表示来自于第二座位的第一声纹信息的振幅。
举例而言,可参阅图8,服务器200预先设置每个座位的网格顶点的数目,当服务器200接收到6个参会者的第一声纹信息时,可以对6段第一声纹信息进行处理,根据每个座位的网格顶点的数目或密度调整相应的第一声纹信息的频率或振幅,得到6段第二声纹信息,以提高声纹信息的可辨识性。
S307,服务器200根据第二声纹信息确定发言者在虚拟会议室中的座位。
在本实施例中,当服务器200获取第一声纹信息后,无法确定第一声纹信息的来源。服务器200将虚拟会议室中的每个座位所覆盖区域的网格顶点的数目与第一声纹信息建立对应关系,网格顶点的数目越多的区域对应的第一声纹信息的频率或振幅越高。服务器200根据网格顶点的数目调整来自于不同座位的第一声纹信息的频率或振幅,得到更具辨识性的第二声纹信息。由于每个座位上的第二声纹信息的频率或振幅不同,使得第二声纹信息与每个座位具有一一对应的关系,服务器200由此可以根据第二声纹信息确定发言者在虚拟会议室中的座位。
图9是本申请另一实施方式的音频处理方法的流程图。
可参阅图9,本实施例的音频处理方法应用于服务器200,音频处理方法可以包括以下步骤:
S401,服务器200控制从设备320采集参会者的眼球运动方向信息。
在本实施例中,当一个参会者正在发言时,服务器200识别出该参会者的声纹信息后,控制其他从设备320采集其他参会者的眼球运动方向信息。
S402,服务器200根据参会者的眼球运动方向信息确定参会者的专心度。
其中,专心度是指参会者对发言者讲话内容的专心程度或对会议议题的专心程度。专心度越高表示参会者对会议议题越有兴趣。当一个发言者正在发言时,服务器200接收到其他参会者的眼球运动方向信息后,可以根据其他参会者的眼球运动方向信息确定其他参会者的专心度。
举例而言,当一个发言者正在发言时,如果一个参会者的眼球运动方向朝向该发言者,则表示该参会者当前是专心的,可将该参会者的专心度标记为1。如果该参会者的眼球运动方向远离该发言者,则表示该参会者当前不专心,可将该参会者的专心度标记为0。在整场会议的10轮发言中,如果一个参会者专心度为1的次数为6轮,专心度为0的次数为4轮,可认为该参会者对会议议题的专心度为6/10=0.6。
S403,服务器200根据参会者的专心度确定参会者对会议议题是否有兴趣。
在本实施例中,服务器200统计参会者对会议议题的专心度,可将专心度与预设的兴趣阈值进行比较,如果专心度大于或等于兴趣阈值,则说明参会者对会议议题有兴趣。如果专心度小于兴趣阈值,则说明参会者对会议议题没有兴趣。
举例而言,预设的兴趣阈值为0.6,在整场会议中,如果一个参会者对会议议题的专心度为0.5,由于该参会者对会议议题的专心度小于兴趣阈值,则说明该参会者对会议议题没有兴趣。如果一个参会者对会议议题的专心度为0.7,由于该参会者对会议议题的专心度大于兴趣阈值,则说明该参会者对会议议题有兴趣。
本申请实施例还提供一种存储介质,用于存储计算机程序或代码,当所述计算机程序或代码被处理器执行时,实现本申请实施例的音频处理方法。
存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。存储介质包括,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-OnlyMemory,ROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、闪存或其它存储器、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。
上面结合附图对本申请实施例作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下做出各种变化。

Claims (10)

1.一种虚拟会议室的音频处理方法,其特征在于,所述方法包括:
根据所述虚拟会议室的座位分布设置网格顶点的数目;
获取发言者的第一声纹信息,所述第一声纹信息包括语音信号的频率、振幅及相位差;
根据所述网格顶点的数目调整所述第一声纹信息的频率或振幅,得到第二声纹信息;
根据所述第二声纹信息确定所述发言者在所述虚拟会议室中的座位。
2.如权利要求1所述的音频处理方法,其特征在于,所述根据所述虚拟会议室的座位分布设置网格顶点的数目,包括:
在各个座位所覆盖区域设置不同数目的所述网格顶点,以建立所述座位与所述网格顶点的数目的对应关系。
3.如权利要求1所述的音频处理方法,其特征在于,所述根据所述网格顶点的数目调整所述第一声纹信息的频率或振幅,包括:
当第一座位所覆盖区域的网格顶点的数目大于第二座位所覆盖区域的网格顶点的数目时,调高来自于第一座位的第一声纹信息的频率,或调低来自于第二座位的第一声纹信息的频率,使得所述来自于第一座位的第一声纹信息的频率大于所述来自于第二座位的第一声纹信息的频率。
4.如权利要求1所述的音频处理方法,其特征在于,所述根据所述网格顶点的数目调整所述第一声纹信息的频率或振幅,包括:
当第一座位所覆盖区域的网格顶点的数目大于第二座位所覆盖区域的网格顶点的数目时,调大来自于第一座位的第一声纹信息的振幅,或调小来自于第二座位的第一声纹信息的振幅,使得所述来自于第一座位的第一声纹信息的振幅大于所述来自于第二座位的第一声纹信息的振幅。
5.如权利要求1所述的音频处理方法,其特征在于,在所述根据所述第二声纹信息确定所述发言者在所述虚拟会议室中的座位之后,所述方法还包括:
获取参会者的眼球运动方向信息;
根据所述眼球运动方向信息确定所述参会者的专心度,所述专心度的取值为0或1;
根据所述专心度确定所述参会者对会议议题是否有兴趣。
6.如权利要求5所述的音频处理方法,其特征在于,所述根据所述眼球运动方向信息确定所述参会者的专心度,包括:
当所述参会者的眼球运动方向朝向所述发言者时,将所述专心度标记为1;
当所述参会者的眼球运动方向远离所述发言者时,将所述专心度标记为0。
7.如权利要求6所述的音频处理方法,其特征在于,所述方法还包括:
当存在多个发言者时,统计所述参会者在每个所述发言者发言时的所述专心度的取值;
根据所述专心度的取值确定所述参会者对所述会议议题的专心度。
8.如权利要求5所述的音频处理方法,其特征在于,所述根据所述专心度确定所述参会者对会议议题是否有兴趣,包括:
当所述专心度的取值大于或等于预设的兴趣阈值时,确定所述参会者对会议议题有兴趣;
当所述专心度的取值小于所述兴趣阈值时,确定所述参会者对会议议题没有兴趣。
9.一种音频处理装置,包括服务器、主设备及从设备,所述主设备用以发起虚拟会议,所述服务器用以根据来自于所述主设备的指令构建虚拟会议室,所述从设备用以根据来自于所述主设备的链接进入所述虚拟会议室,所述服务器包括第一处理器和第一存储器,其特征在于,所述第一处理器运行存储于所述第一存储器中的计算机程序或代码,实现如权利要求1至8中任一项所述的音频处理方法。
10.一种存储介质,用于存储计算机程序或代码,其特征在于,当所述计算机程序或代码被处理器执行时,实现如权利要求1至8中任一项所述的音频处理方法。
CN202111450520.9A 2021-11-30 2021-11-30 虚拟会议室的音频处理方法、装置及存储介质 Pending CN116208433A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111450520.9A CN116208433A (zh) 2021-11-30 2021-11-30 虚拟会议室的音频处理方法、装置及存储介质
US17/566,250 US11798561B2 (en) 2021-11-30 2021-12-30 Method, apparatus, and non-transitory computer readable medium for processing audio of virtual meeting room

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111450520.9A CN116208433A (zh) 2021-11-30 2021-11-30 虚拟会议室的音频处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116208433A true CN116208433A (zh) 2023-06-02

Family

ID=86500470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111450520.9A Pending CN116208433A (zh) 2021-11-30 2021-11-30 虚拟会议室的音频处理方法、装置及存储介质

Country Status (2)

Country Link
US (1) US11798561B2 (zh)
CN (1) CN116208433A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100315482A1 (en) * 2009-06-15 2010-12-16 Microsoft Corporation Interest Determination For Auditory Enhancement
CN102007730A (zh) * 2007-10-24 2011-04-06 社会传播公司 在共享虚拟区域通信环境中的自动化实时数据流交换
WO2018127782A1 (en) * 2017-01-03 2018-07-12 Xing Zhou Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
CN110035250A (zh) * 2019-03-29 2019-07-19 维沃移动通信有限公司 音频处理方法、处理设备、终端及计算机可读存储介质
US20200169693A1 (en) * 2016-02-03 2020-05-28 Hewlett-Packard Development Company, L.P. Eye gaze angle feedback in a remote meeting
US20210352401A1 (en) * 2021-06-02 2021-11-11 Luxshare-Ict Co., Ltd. Sound-receiving device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4876687B2 (ja) 2006-04-19 2012-02-15 株式会社日立製作所 注目度計測装置及び注目度計測システム
EP2063767A4 (en) * 2006-09-05 2014-05-21 Innerscope Res Inc METHOD AND SYSTEM FOR DETERMINING THE RESPONSE OF A PUBLIC TO A SENSORY STIMULUS
US20160191995A1 (en) * 2011-09-30 2016-06-30 Affectiva, Inc. Image analysis for attendance query evaluation
US8640021B2 (en) * 2010-11-12 2014-01-28 Microsoft Corporation Audience-based presentation and customization of content
US9495663B2 (en) * 2011-01-19 2016-11-15 Cisco Technology, Inc. Automatic meeting invitation based on proximity

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102007730A (zh) * 2007-10-24 2011-04-06 社会传播公司 在共享虚拟区域通信环境中的自动化实时数据流交换
US20200336529A1 (en) * 2007-10-24 2020-10-22 Sococo, Inc. Automated Real-Time Data Stream Switching in a Shared Virtual Area Communication Environment
US20100315482A1 (en) * 2009-06-15 2010-12-16 Microsoft Corporation Interest Determination For Auditory Enhancement
US20200169693A1 (en) * 2016-02-03 2020-05-28 Hewlett-Packard Development Company, L.P. Eye gaze angle feedback in a remote meeting
WO2018127782A1 (en) * 2017-01-03 2018-07-12 Xing Zhou Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
CN110035250A (zh) * 2019-03-29 2019-07-19 维沃移动通信有限公司 音频处理方法、处理设备、终端及计算机可读存储介质
US20210352401A1 (en) * 2021-06-02 2021-11-11 Luxshare-Ict Co., Ltd. Sound-receiving device

Also Published As

Publication number Publication date
US11798561B2 (en) 2023-10-24
US20230169982A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
CN107240319B (zh) 一种用于k12阶段的互动情景教学系统
CN106534757B (zh) 人脸交换方法、装置、主播终端及观众终端
CN110401810B (zh) 虚拟画面的处理方法、装置、系统、电子设备及存储介质
CN108877848B (zh) 在虚拟三维空间讲房模式中应对用户操作的方法及装置
CN108880983B (zh) 一种虚拟三维空间的语音实时处理方法及装置
CN111064919A (zh) 一种vr远程会议方法及装置
EP3024223B1 (en) Videoconference terminal, secondary-stream data accessing method, and computer storage medium
CN111683260A (zh) 基于虚拟主播的节目视频生成方法、系统和存储介质
CN111641829B (zh) 视频处理方法及装置、系统、存储介质和电子设备
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
CN113873195A (zh) 视频会议控制方法、装置和存储介质
CN113411537A (zh) 视频通话方法、装置、终端及存储介质
CN116208433A (zh) 虚拟会议室的音频处理方法、装置及存储介质
TWI807504B (zh) 虛擬會議室之音訊處理方法、裝置及存儲介質
CN115767158A (zh) 同步播放方法、终端设备及存储介质
CN115423728A (zh) 一种图像处理方法、装置及系统
CN112804551A (zh) 一种直播方法、装置、计算机设备及存储介质
JP6680031B2 (ja) 会議用装置、送信方法、およびコンピュータプログラム
CN115499673B (zh) 一种直播方法及装置
CN114531564B (zh) 处理方法及电子设备
CN217612860U (zh) 一种基于led显示屏的沉浸式虚拟显示系统
CN115623156B (zh) 音频处理方法和相关装置
CN108668060B (zh) 图像处理方法、全景摄像头、全景投影方法、系统及计算机可读存储介质
US20230283888A1 (en) Processing method and electronic device
CN114363666A (zh) 视频处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination