CN112543302B - 一种多人远程会议中智能降噪的方法和设备 - Google Patents

一种多人远程会议中智能降噪的方法和设备 Download PDF

Info

Publication number
CN112543302B
CN112543302B CN202011396403.4A CN202011396403A CN112543302B CN 112543302 B CN112543302 B CN 112543302B CN 202011396403 A CN202011396403 A CN 202011396403A CN 112543302 B CN112543302 B CN 112543302B
Authority
CN
China
Prior art keywords
speaker
conference
voice
determining
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011396403.4A
Other languages
English (en)
Other versions
CN112543302A (zh
Inventor
蒋莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202011396403.4A priority Critical patent/CN112543302B/zh
Publication of CN112543302A publication Critical patent/CN112543302A/zh
Application granted granted Critical
Publication of CN112543302B publication Critical patent/CN112543302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种多人远程会议中智能降噪的方法和设备,该方法包括:通过人脸识别的方式确定发言者在会议室的方位信息;将方位信息输入会议机中的语音降噪模块,以完成定向拾音方向的配置;通过配置完成的会议机中的麦克风阵列采集发言者的语音,并将采集到的语音输入语音降噪模块;通过语音降噪模块对发言者的方向的语音进行增强,同时对方向以外的其他方向的语音进行抑制;将语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放。本方案可以不用强制禁止非发言人不说话,甚至支持非发言人对发言人进行必要的语音交互,同时不会影响远程会议另一端用户的听感,提升了会议的体验感。

Description

一种多人远程会议中智能降噪的方法和设备
技术领域
本发明涉及降噪技术领域,具体涉及一种多人远程会议中智能降噪的方法和设备。
背景技术
目前,随着商务活动的日益频繁,多人远程会议应用的也越来越广泛,通过多人远程会议,不同的人在不同的位置可以基于网络实现在线会议,不必要所有与会人员都聚集在一起,而多人会议,顾名思义会有多人发言,且需要将发言进行远距离传输,而发言者在发言时,其他与会人员说话会带来噪声,不利于远端的与会人员获取到准确的会议语音信息。
针对这种情况,现有的降噪方法是通过语音信号前端处理的,无法区分目标说话者声音和非目标说话者声音,因此无法将非目标说话者的声音进行有效抑制,具体的当目标说话者发言时只能通过禁止其他人说话的方式降低人声噪声干扰,否则会严重影响会议另一端用户的听感,这种方式对会议的进行造成了影响,需要频繁禁止其他人说话,导致会议体验很不好。
由此,目前需要一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供一种多人远程会议中智能降噪的方法和设备,能够解决目前会议降噪需要禁止其他人发言的方式所造成的会议体验不好的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种多人远程会议应用于包括麦克风阵列、语音降噪模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,该方法包括:通过人脸识别的方式确定发言者在会议室的方位信息;将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放。
在一个具体的实施例中,所述会议室还包括:语音识别模块及带有人脸识别模块的抓拍机;所述“通过人脸识别的方式确定发言者在会议室的方位信息”,包括:通过所述语音识别模块以语音识别的方式确定发言者的标识信息;基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
在一个具体的实施例中,所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
在一个具体的实施例中,所述标识信息包括:姓名。
在一个具体的实施例中,还包括:针对各所述会议参与者,对所述会议参与者进行拍摄,以获取所述会议参与者的人脸图像;将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联,生成注册数据库。
在一个具体的实施例中,所述“确定发言者的标识信息”,包括:通过提示语音以指定发言者;其中,所述提示语音中包含有标识信息;对所述提示语音进行语音识别,以获取发言者的标识信息。
在一个具体的实施例中,所述会议机中还包括语音识别模块;所述“对所述提示语音进行语音识别,以获取发言者的标识信息”,包括:通过所述语音识别模块对所述提示语音进行语音识别,以确定发言者的标识信息。
本发明实施例还提出了一种多人远程会议中智能降噪的设备,应用于包括麦克风阵列、语音降噪模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,该装置包括:确定模块,用于通过人脸识别的方式确定发言者在会议室的方位信息;配置模块,用于将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;输入模块,用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;降噪模块,用于通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;播放模块,用于将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放。
在一个具体的实施例中,所述会议室还包括:带有人脸识别模块的抓拍机;所述确定模块,用于:通过所述语音识别模块以语音识别的方式确定发言者的标识信息;基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;
基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
在一个具体的实施例中,所述确定模块“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
本发明的有益效果是:通过人脸识别技术获取发言人的方位信息,根据该方位信息设置定向拾音的方向,进而通过定向拾音技术实现对输入音频的针对性降噪处理。本方案可以不用强制禁止非发言人不说话,甚至支持非发言人对发言人进行必要的语音交互,同时不会影响远程会议另一端用户的听感,提升了会议的体验感。
附图说明
图1为本发明实施例提供的一种多人远程会议中智能降噪的方法的流程示意图;
图2为本发明实施例提供的一种多人远程会议中智能降噪的方法所应用的会议室的结构示意图;
图3为本发明实施例提供的一种多人远程会议中智能降噪的方法中方位信息的获取流程示意图;
图4为本发明实施例提供的一种多人远程会议中智能降噪的方法的示意图;
图5为本发明实施例提供的一种多人远程会议中智能降噪的设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明实施例1提供的一种多人远程会议中智能降噪的方法,其特征在于,应用于包括麦克风阵列、语音降噪模块、语音识别模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,如图1所示,该方法包括以下步骤:
步骤101、通过人脸识别的方式确定发言者在会议室的方位信息;
具体的,会议室内的格局如图2所示,涉及到的硬件装置主要包括:抓拍机、会议机,其中抓拍机中包含人脸识别模块,会议机包含麦克风阵列、语音降噪模块、语音识别模块、扬声器,硬件安装或摆放位置如图2所示,会议室内进行会议时,各会议参与者的位置一般是固定的,为此,当有人发言,成为发言者时,可以采用人脸识别的方式识别该发言者,且进一步确定该发言者在会议室的方位信息。
步骤102、将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;
具体的,在获取到方位信息后,在语音降噪模块中完成定向拾音方向的配置,以便后续步骤进行降噪处理。
步骤103、通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;
通过麦克风阵列采集发言者的语音,并将获取到的该语音输入语音降噪模块进行处理,具体的处理如步骤104所示。
步骤104、通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;
具体的,基于步骤103的配置,可以对发言者方向的语音进行定向增强,与此同时,对其他方向的语音进行抑制,可以提高发言人语音的降噪效果。
步骤105、将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放。
基于前述步骤101-104,提高了发言人语音的降噪效果,大大提升会议另一端用户的听感。
可选的,所述会议室还包括:带有人脸识别模块的抓拍机;步骤101中所述“通过人脸识别的方式确定发言者在会议室的方位信息”,如图3所示,包括:
步骤1011、通过所述语音识别模块以语音识别的方式确定发言者的标识信息;
步骤1012、基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;
步骤1013、基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;
步骤1014、通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;
步骤1015、基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;
步骤1016、基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;
步骤1017、基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
具体的,所述标识信息包括:姓名。以此,在一个实际的应用场景中,事先建立有注册数据库,该注册数据库中存储有各会议参与者,也可以公司的成员的人脸图像以及标识信息之间的关联关系,后续当确定了发言者的标识信息后,可以基于当前会议所有参与者的人脸图像以及注册数据库进行比对确定哪位参与者作为发言者,进而确定发言者在会议室的方位信息,通过这种方式可以实现对发言者的自动化位置识别,而不需要增加其他额外的设备,且识别的流程简单有效。
可选的,所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
具体的,以图形化的方式确定发言者在会议室的方位信息,不需要增加多余的设备,只需要利用本来基于有设置的抓拍设备进行人脸图像的获取,然后通过位置定位的算法,例如三角定位的方法确定发言者在会议室的方位信息,简单有效,且不需要成本降低适应性好。
可选的,还包括:针对各所述会议参与者,对所述会议参与者进行拍摄,以获取所述会议参与者的人脸图像;将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联,生成注册数据库。
具体的拍摄过程可以为自身通过移动终端进行拍摄后,然后手动输入自身的标识信息,进行关联,最终汇总所有会议参与者得到注册数据库。
可选的,所述“确定发言者的标识信息”,包括:通过提示语音以指定发言者;其中,所述提示语音中包含有标识信息;对所述提示语音进行语音识别,以获取发言者的标识信息(例如为姓名)。通过语音识别(也即把语音信号转变为相应的文本或命令)的这种方式可以很简单有效的确定发言者,也可以有效对发言流程进行控制。
可选的,所述会议机中还包括语音识别模块;所述“对所述提示语音进行语音识别,以获取发言者的标识信息”,包括:通过所述语音识别模块对所述提示语音进行语音识别,以确定发言者的标识信息。
在一个具体的应用场景下,本方案的具体流程,如图4所示,包括如下步骤:
第1步:公司成员在终端设备上通过摄像头拍摄人脸图像,用于不同用户ID(例如为用户的姓名)的注册,最终生成注册数据库,注册数据库中包含有该成员的人脸图像与ID之间的关联关系;
第2步:用户通过特定语音“请XXX发言”指定特定人员发言;
第3步:将第2步的音频传入会议机中的语音识别模块进行识别,得到发言人ID信息;
第4步:会议室抓拍机定期拍摄会议现场图片;
第5步:将抓拍机拍摄的图片送入人脸识别模块进行人脸识别,得到图片中各员工的ID信息;
第6步:将第3步得到的ID信息与第5步得到的ID信息进行匹配,找出发言人在图片中的位置;
第7步:根据发言人在图片中的人脸大小、人脸距离图片中心线的夹角,计算得到发言人在会议室的方位信息;
第8步:将第7步得到的方位信息送入会议机中的语音降噪模块,完成定向拾音方向的配置;
第9步:会议机上的麦克风阵列采集发言人语音,并将采集到的语音送入语音降噪模块;
第10步:语音降噪模块对发言人方向的语音信号进行增强,对其他方向的噪声进行有效抑制;
第11步:将语音降噪模块处理后的音频传入另一端会议机,并通过扬声器进行播放。
本方案通过引入人脸识别技术获取发言人的方位信息,根据该方位信息设置定向拾音的方向,进而基于固定波束形成与广义旁瓣相消算法相结合的定向拾音技术进行有效降噪。
进一步的,本发明实施例2还提出了一种多人远程会议中智能降噪的设备,应用于包括麦克风阵列、语音降噪模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,如图5所示。该装置包括:
确定模块201,用于通过人脸识别的方式确定发言者在会议室的方位信息;
配置模块202,用于将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;
输入模块203,用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;
降噪模块204,用于通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;
播放模块205,用于将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放。
在一个具体的实施例中,所述会议室还包括:语音识别模块及带有人脸识别模块的抓拍机;
所述确定模块201,用于:
通过所述语音识别模块以语音识别的方式确定发言者的标识信息;
基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;
基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;
通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;
基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;
基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;
基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
在一个具体的实施例中,所述确定模块201“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:
基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;
基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
在一个具体的实施例中,所述标识信息包括:姓名。
在一个具体的实施例中,还包括:注册模块,用于针对各所述会议参与者,对所述会议参与者进行拍摄,以获取所述会议参与者的人脸图像;
将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联,生成注册数据库。
在一个具体的实施例中,所述确定模块201“确定发言者的标识信息”,包括:
通过提示语音以指定发言者;其中,所述提示语音中包含有标识信息;
对所述提示语音进行语音识别,以获取发言者的标识信息。
在一个具体的实施例中,所述确定模块201“对所述提示语音进行语音识别,以获取发言者的标识信息”,包括:
通过所述语音识别模块对所述提示语音进行语音识别,以确定发言者的标识信息。
目前的语音降噪算法仅通过单一的音频输入,无法对音频中非目标说话者的语音进行针对性消除,而本方案通过人脸识别算法确定发言人方位,并将该方位信息输入至语音降噪算法,通过定向拾音技术实现对输入音频的针对性降噪处理,本方案可以不用强制禁止非发言人不说话,甚至支持非发言人对发言人进行必要的语音交互,但不会影响远程会议另一端用户的听感。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种多人远程会议中智能降噪的方法,其特征在于,应用于包括麦克风阵列、语音降噪模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,该方法包括:
通过人脸识别的方式确定发言者在会议室的方位信息;
将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;
通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;
通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;
将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放;
所述会议室还包括:语音识别模块及带有人脸识别模块的抓拍机;所述“通过人脸识别的方式确定发言者在会议室的方位信息”,包括:通过所述语音识别模块以语音识别的方式确定发言者的标识信息;基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
2.根据权利要求1所述的方法,其特征在于,所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:
基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;
基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
3.如权利要求1所述的方法,其特征在于,所述标识信息包括:姓名。
4.如权利要求1所述的方法,其特征在于,还包括:
针对各所述会议参与者,对所述会议参与者进行拍摄,以获取所述会议参与者的人脸图像;
将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联,生成注册数据库。
5.如权利要求1所述的方法,其特征在于,所述“确定发言者的标识信息”,包括:
通过提示语音以指定发言者;其中,所述提示语音中包含有标识信息;
对所述提示语音进行语音识别,以获取发言者的标识信息。
6.如权利要求5所述的方法,其特征在于,
所述“对所述提示语音进行语音识别,以获取发言者的标识信息”,包括:
通过所述语音识别模块对所述提示语音进行语音识别,以确定发言者的标识信息。
7.一种多人远程会议中智能降噪的系统,其特征在于,应用于包括麦克风阵列、语音降噪模块、扬声器的会议机;所述会议机设置在会议室中的固定位置,该系统包括:
确定模块,用于通过人脸识别的方式确定发言者在会议室的方位信息;配置模块,用于将所述方位信息输入所述会议机中的语音降噪模块,以完成定向拾音方向的配置;
输入模块,用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音,并将采集到的语音输入所述语音降噪模块;
降噪模块,用于通过所述语音降噪模块对所述发言者的方向的语音进行增强,同时对所述方向以外的其他方向的语音进行抑制;
播放模块,用于将所述语音降噪模块处理后的语音传输至其他会议机,并通过所述其他会议机中的扬声器进行播放;
所述会议室还包括:语音识别模块及带有人脸识别模块的抓拍机;所述确定模块,用于:通过所述语音识别模块以语音识别的方式确定发言者的标识信息;基于所述标识信息在注册数据库中进行查找,确定发言者的人脸图像;其中,注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系;基于所述抓拍机对所述会议室进行拍摄,得到会议现场图片;通过人脸识别模块对所述会议现场图片进行人脸识别,以确定各所述会议参与者的人脸图像;基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息;基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像;基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。
8.根据权利要求7所述的系统,其特征在于,所述确定模块“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”,包括:
基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息;
基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。
CN202011396403.4A 2020-12-03 2020-12-03 一种多人远程会议中智能降噪的方法和设备 Active CN112543302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011396403.4A CN112543302B (zh) 2020-12-03 2020-12-03 一种多人远程会议中智能降噪的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011396403.4A CN112543302B (zh) 2020-12-03 2020-12-03 一种多人远程会议中智能降噪的方法和设备

Publications (2)

Publication Number Publication Date
CN112543302A CN112543302A (zh) 2021-03-23
CN112543302B true CN112543302B (zh) 2023-01-31

Family

ID=75015496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011396403.4A Active CN112543302B (zh) 2020-12-03 2020-12-03 一种多人远程会议中智能降噪的方法和设备

Country Status (1)

Country Link
CN (1) CN112543302B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345462B (zh) * 2021-05-17 2023-12-29 浪潮金融信息技术有限公司 一种拾音去噪方法、系统及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN109816722A (zh) * 2019-01-18 2019-05-28 深圳市沃特沃德股份有限公司 定位发言人位置的方法、装置、存储介质及计算机设备
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110300279A (zh) * 2019-06-26 2019-10-01 视联动力信息技术股份有限公司 一种会议发言人的追踪方法及装置
CN111260313A (zh) * 2020-01-09 2020-06-09 苏州科达科技股份有限公司 发言者的识别方法、会议纪要生成方法、装置及电子设备
CN111343411A (zh) * 2020-03-20 2020-06-26 青岛海信智慧家居系统股份有限公司 一种智能远程视频会议系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017034313A (ja) * 2015-07-28 2017-02-09 株式会社リコー 撮影装置、プログラム及び撮影方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN109816722A (zh) * 2019-01-18 2019-05-28 深圳市沃特沃德股份有限公司 定位发言人位置的方法、装置、存储介质及计算机设备
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110300279A (zh) * 2019-06-26 2019-10-01 视联动力信息技术股份有限公司 一种会议发言人的追踪方法及装置
CN111260313A (zh) * 2020-01-09 2020-06-09 苏州科达科技股份有限公司 发言者的识别方法、会议纪要生成方法、装置及电子设备
CN111343411A (zh) * 2020-03-20 2020-06-26 青岛海信智慧家居系统股份有限公司 一种智能远程视频会议系统

Also Published As

Publication number Publication date
CN112543302A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
US9030520B2 (en) Automatic camera selection for videoconferencing
CN107067414B (zh) 电子设备定向音频视频采集
CN107534725B (zh) 一种语音信号处理方法及装置
US8606249B1 (en) Methods and systems for enhancing audio quality during teleconferencing
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US10904658B2 (en) Electronic device directional audio-video capture
US20090220065A1 (en) Method and apparatus for active speaker selection using microphone arrays and speaker recognition
CN117480554A (zh) 语音增强方法及相关设备
CN112351364B (zh) 一种语音播放方法、耳机和存储介质
CN115482830B (zh) 语音增强方法及相关设备
CN108063910A (zh) 用于视频会议系统中的摄像机底座及其方法
CN112543302B (zh) 一种多人远程会议中智能降噪的方法和设备
CA3228068A1 (en) Multi-source audio processing systems and methods
US20100266112A1 (en) Method and device relating to conferencing
Rui et al. Sound source localization for circular arrays of directional microphones
CN110265038B (zh) 一种处理方法及电子设备
CN114762039A (zh) 一种会议数据处理方法及相关设备
CN111222117A (zh) 身份信息的识别方法及装置
CN114531425B (zh) 一种处理方法和处理装置
JP7361460B2 (ja) コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法
JP2021197658A (ja) 収音装置、収音システム及び収音方法
CN113923395A (zh) 一种提升会议质量的方法、设备和存储介质
WO2024004006A1 (ja) チャット端末、チャットシステム、およびチャットシステムの制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant