CN111986690A - 一种视频的语音降噪方法和装置 - Google Patents
一种视频的语音降噪方法和装置 Download PDFInfo
- Publication number
- CN111986690A CN111986690A CN202010875649.3A CN202010875649A CN111986690A CN 111986690 A CN111986690 A CN 111986690A CN 202010875649 A CN202010875649 A CN 202010875649A CN 111986690 A CN111986690 A CN 111986690A
- Authority
- CN
- China
- Prior art keywords
- scene
- video
- processed
- face
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 29
- 241000282414 Homo sapiens Species 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 13
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims 2
- 230000007613 environmental effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频的语音降噪方法和装置,其中方法包括:利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。采用本发明,可以有效抑制视频会话场景中背景噪声和其它人声干扰。
Description
技术领域
本发明涉及计算机应用技术,特别是涉及一种视频的语音降噪方法和装置。
背景技术
在很多视频会话场景(如视频会议、与机器人交流)中,对会话声音进行降噪处理,是保障会话质量的必要技术之一。现有的语音降噪技术通常是针对语音中的环境噪声进行抑制,而在实际应用中,其他的人声干扰,有时候比环境噪声更会影响视频会话的质量。
目前,尚未提出一种能够同时有效抑制视频会话场景中背景噪声和其它人声干扰的技术方案。
发明内容
有鉴于此,本发明的主要目的在于提供一种视频的语音降噪方法和装置,可以有效抑制视频会话场景中背景噪声和其它人声干扰。
为了达到上述目的,本发明提出的技术方案为:
一种视频的语音降噪方法,包括:
利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;
当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
较佳地,所述确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景包括:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;
当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
较佳地,所述采用人工智能的方式,确定所述场景中的主要发声者包括:
利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵;
对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默;
根据所述人脸的动作类别,确定所述场景中的主要发声者。
较佳地,所述根据每张所述人脸的动作类别,确定所述场景中的主要发声者包括:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
较佳地,所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。
较佳地,所述方法进一步包括:
当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
一种视频的语音降噪装置,包括:处理器,所述处理器用于:
利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;
当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
较佳地,所述处理器,具体用于确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景,包括:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;
当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
较佳地,所述处理器,具体用于采用人工智能的方式,确定所述场景中的主要发声者,包括:
利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵;
对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默;
根据所述人脸的动作类别,确定所述场景中的主要发声者。
较佳地,所述处理器,具体用于根据每张所述人脸的动作类别,确定所述场景中的主要发声者,包括:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
较佳地,所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。
较佳地,所述处理器,进一步用于当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
本申请还公开了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如前所述的视频的语音降噪方法的步骤。
本申请还公开了一种电子设备,包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
由上述技术方案可见,本发明提出的视频的语音降噪方法和装置,通过对视频场景的类别进行识别,并针对以人为主题的场景进行音轨分解,并采用只保留主要讲话者语音的策略,为视频的音频进行降噪处理,这样,视频的输出语音仅为主要讲话者的语音,从而使得视频的语音输出更清晰、准确,有效抑制了视频会话场景中背景噪声和其它人声的干扰。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例适用的为视频通话场景示意图;
图3为本发明实施例适用的视频录制场景示意图;
图4为本发明实施例适用的人机交互场景示意图;
图5为本发明实施例适用的视频会议场景示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:对于以人为主题的视频会话场景,从中筛选出主要讲话人,然后去除主要讲话人之外的语音,仅保留主要讲话人的音频数据,以提高降噪的精准度,彻底保障视频会话主体的语音质量。
图1为本发明实施例的流程示意图,如图1所示,该实施例实现的视频的语音降噪方法,主要包括:
步骤101、利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景。
本步骤用于确定当前降噪处理周期中需要处理的视频所对应的场景类型,即是否为以人为主题的场景,以便之后针对以人为主题的场景进行特殊的降噪处理,既要去除环境噪音,也要去除属于非会话人的其它人声干扰,以确保视频会话主体的语音质量。
这里需要说明的是,所述噪处理周期用于限定每次降噪处理的视频长度,具体可以由本领域技术人员根据实际需要设置合理的周期长度,例如,可以是1秒至2秒的视频长度,但不限于此。
较佳地,可以采用下述方法,利用预先训练的场景主题识别网络模型,来确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
上述方法中,需要对当前降噪处理周期中待处理视频对应的一组连续视频帧画面,分别进行以人为主题的类型识别,然后再根据识别结果中以人为主体的比例,来确定待处理视频对应的场景是否是以人为主题的场景。上述比例阈值具体可由本领域技术人员根据实际需要进行设置,例如可以是70%、80%等,但不限于此,在此不再赘述。
步骤102、当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
本步骤中,将针对以人为主题的场景的视频进行降噪处理,这里,需要将场景中每个发声者的音频数据分离出来,同时需要采用人工智能的方式,从场景中识别出主要发声者,之后再通过仅保留所述主要发声者的语音的方式,来确定当前所处理视频的音频输出数据。这样,本步骤得到所述待处理视频对应的音频输出数据之后,便可以利用该音频输出数据和该待处理视频,进行相应的视频播放。由于在视频输出语音时仅会输出主要发声者的音频数据,而不存在环境噪音和其他人声的音频数据,因此,可以获得很好的降噪效果,确保主要发声者的语音质量。
较佳地,步骤102中可以采用下述方法确定所述场景中的主要发声者包括:
x1、利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵。
x2、对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默。
x3、根据所述人脸的动作类别,确定所述场景中的主要发声者。
较佳地,考虑到多人会话的场景中,主要发声者的数量可能为多个(例如,图2所示的视频通话场景中的电视画面中的两个人均为主要发声者),为了提高此情景下的智能降噪能力,避免必要的语音被去除,步骤x3中可以采用下述方法来确定所述场景中的主要发声者:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
上述方法中,当面向镜头讲话的人中距离镜头最近的人Dnear的周围还有距离其较近的其他发声者时,也会将这些其他发声者视为主要发声者,以保留对他们的声音。
具体地,所述预设范围可由本领域技术人员根据实际需要进行设置,例如可以是距离所述Dnear二十厘米或三十厘米等,但是不限于此。
在实际应用,当主要发声者为多个时,需要将这些发起者的音频数据进行合成后进行输出,具体地可以采用下述方法,区分主要发声者的数量,得到所述待处理视频对应的音频输出数据:
如果所述主要发声者为一个,则将所述主要发声者的所述音频数据,作为所述音频输出数据;
如果所述主要发声者为多个,则将所有所述主要发声者的所述音频数据进行合成,将合成得到的音频数据,作为所述音频输出数据。
较佳地,为了提高降噪效率,可以基于卷积神经网络模型训练得到上述场景主题识别网络模型、人脸识别网络模型和所述脸部动作识别网络模型。但是,在实际应用中,并不限于卷积神经网络模型,也可以采用其他机器学习网络模型。上述模型的具体训练方法为本领域技术人员所掌握,在此不再赘述。
较佳地,对于不是以人为主题的场景的视频,为了避免降噪处理对场景背景音的错误删除,可以不对视频对应的输入音频做任何处理,即:
当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
从上述技术方案可以看出,采用上述实施例,针对以人为主题的视频场景,在降噪处理过程中通过只保留主要发声者的音频数据,来生成相应的音频输出数据,可以有效确保以人为主题的视频场景下主要发声者的语音质量,避免受到环境音和其他人声的干扰。
上述实施例既可以应用于实时录制视频进行播放的会话场景,即对摄像装置采集到的视频进行实时处理以便实时播放,如图3-图5所示的会话场景,同时也可以应用于事先已录制完成的视频的播放降噪处理,即在已录制完成的视频播放前,先应用上述实施例进行降噪处理,再基于降噪处理后的音频进行视频播放。
图3给出了视频录制的场景示意图。如图3所示,当上述实施例应用于该场景时,只有场景中的人物在面对镜头讲话时,才会仅保留于该讲话者的音频数据,而当其中的人物动作发生变动,不再面对镜头讲话时,则会在视频输出时保留原始的场景输入音频。
图4给出了人机交互场景示意图。如图4所示,该场景中有三个人和一个机器人,在机器人应用上述实施例,分别识别出这三人的人脸动作类型为面对镜头讲话,未面对镜头讲话和沉默三种,此时,机器人将只会接收其摄像头录制的视频中面对镜头讲话的语音,因此,机器人只会对面对镜头讲话的人的语音给予相应的反应,从而可以避免其他人对机器人控制的干扰。
图5给出了视频会议场景示意图。如图5所示,在该场景中应用上述实施例,可以确保仅有视频画面中面对镜头讲话的主讲人(图中用圆圈标识的头像)的语音被输出,而环境噪音和会议中其他人声的语音均可以被屏蔽,从而可以确保视频会议中主讲人的语音质量。
与上述方法实施例相对应,本申请还提出了一种视频的语音降噪装置,包括:处理器,所述处理器用于:
利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;
当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
较佳地,所述处理器,具体用于确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景,包括:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;
当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
较佳地,所述处理器,具体用于采用人工智能的方式,确定所述场景中的主要发声者,包括:
利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵;
对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默;
根据所述人脸的动作类别,确定所述场景中的主要发声者。
较佳地,所述处理器,具体用于根据每张所述人脸的动作类别,确定所述场景中的主要发声者,包括:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
较佳地,所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。
较佳地,所述处理器,进一步用于当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
本申请还公开了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如前所述的视频的语音降噪方法的步骤。
本申请还公开了一种电子设备,包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种视频的语音降噪方法,其特征在于,包括:
利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;
当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
2.根据权利要求1所述的方法,其特征在于,所述确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景包括:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;
当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
3.根据权利要求1所述的方法,其特征在于,所述采用人工智能的方式,确定所述场景中的主要发声者包括:
利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵;
对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默;
根据所述人脸的动作类别,确定所述场景中的主要发声者。
4.根据权利要求3所述的方法,其特征在于,所述根据每张所述人脸的动作类别,确定所述场景中的主要发声者包括:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
5.根据权利要求3所述的方法,其特征在于,所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
7.一种视频的语音降噪装置,其特征在于,包括:处理器,所述处理器用于:
利用预设的场景主题识别网络模型,确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景;
当所述场景是以人为主题的场景时,对所述待处理视频对应的音频输入数据进行音轨分解,得到所述场景中所有发声者各自对应的音频数据;采用人工智能的方式,确定所述场景中的主要发声者;按照仅保留所述主要发声者的语音的策略,根据所述音频数据,得到所述待处理视频对应的音频输出数据。
8.根据权利要求7所述的装置,其特征在于,所述处理器,具体用于确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景,包括:
对于所述待处理视频中的每一帧画面,利用所述场景主题识别网络模型,识别该帧画面是否以人为主题;
当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时,确定所述场景是以人为主题的场景。
9.根据权利要求7所述的装置,其特征在于,所述处理器,具体用于采用人工智能的方式,确定所述场景中的主要发声者,包括:
利用预设的人脸识别网络模型,对所述待处理视频中的画面进行人脸识别,并对人脸识别所得到的每张人脸的人脸关键点数据进行重组,得到相应人脸的数据矩阵;
对于每张所述人脸,将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理,得到相应人脸的动作类别;所述动作类别包括:面向镜头讲话、非面向镜头讲话和沉默;
根据所述人脸的动作类别,确定所述场景中的主要发声者。
10.根据权利要求9所述的装置,其特征在于,所述处理器,具体用于根据每张所述人脸的动作类别,确定所述场景中的主要发声者,包括:
如果所述待处理视频中仅有一人面向镜头讲话,则将该面向镜头讲话的人作为所述主要发声者;
如果所述待处理视频中有多人面向镜头讲话,则将面向镜头讲话的人中距离镜头最近的人Dnear以及该Dnear周围预设范围内的所有面向镜头讲话的人,作为所述主要发声者。
11.根据权利要求9所述的装置,其特征在于,所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。
12.根据权利要求7所述的方法,其特征在于,所述处理器,进一步用于当所述场景不是以人为主题的场景时,直接将所述待处理视频对应的音频输入数据,作为所述待处理视频对应的音频输出数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010875649.3A CN111986690A (zh) | 2020-08-27 | 2020-08-27 | 一种视频的语音降噪方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010875649.3A CN111986690A (zh) | 2020-08-27 | 2020-08-27 | 一种视频的语音降噪方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986690A true CN111986690A (zh) | 2020-11-24 |
Family
ID=73440685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010875649.3A Pending CN111986690A (zh) | 2020-08-27 | 2020-08-27 | 一种视频的语音降噪方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986690A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911198A (zh) * | 2021-01-18 | 2021-06-04 | 广州佰锐网络科技有限公司 | 一种视频通信中的音频智能降噪的处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070248327A1 (en) * | 2006-04-21 | 2007-10-25 | Cyberlink Corp. | Systems and methods for detecting exciting scenes in sports video |
CN108629300A (zh) * | 2018-04-24 | 2018-10-09 | 北京科技大学 | 一种跌倒检测方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110147702A (zh) * | 2018-07-13 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种实时视频的目标检测与识别方法和系统 |
CN110909630A (zh) * | 2019-11-06 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 一种异常游戏视频检测方法和装置 |
CN110970057A (zh) * | 2018-09-29 | 2020-04-07 | 华为技术有限公司 | 一种声音处理方法、装置与设备 |
-
2020
- 2020-08-27 CN CN202010875649.3A patent/CN111986690A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070248327A1 (en) * | 2006-04-21 | 2007-10-25 | Cyberlink Corp. | Systems and methods for detecting exciting scenes in sports video |
CN108629300A (zh) * | 2018-04-24 | 2018-10-09 | 北京科技大学 | 一种跌倒检测方法 |
CN110147702A (zh) * | 2018-07-13 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种实时视频的目标检测与识别方法和系统 |
CN110970057A (zh) * | 2018-09-29 | 2020-04-07 | 华为技术有限公司 | 一种声音处理方法、装置与设备 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110909630A (zh) * | 2019-11-06 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 一种异常游戏视频检测方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911198A (zh) * | 2021-01-18 | 2021-06-04 | 广州佰锐网络科技有限公司 | 一种视频通信中的音频智能降噪的处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110446000B (zh) | 一种生成对话人物形象的方法和装置 | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
CN103391347B (zh) | 一种自动录音的方法及装置 | |
BRPI0904540A2 (pt) | método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
US20220392224A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
JP4641389B2 (ja) | 情報処理方法、情報処理装置 | |
WO2024011903A1 (zh) | 一种视频生成方法及装置、计算机可读存储介质 | |
CN114187547A (zh) | 目标视频的输出方法及装置、存储介质及电子装置 | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN111696538A (zh) | 语音处理方法、装置和介质 | |
CN113571047A (zh) | 一种音频数据的处理方法、装置及设备 | |
CN111986690A (zh) | 一种视频的语音降噪方法和装置 | |
CN106326804B (zh) | 一种录音控制方法和装置 | |
CN115862658A (zh) | 提取目标说话者语音的系统和方法 | |
KR102408455B1 (ko) | 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102389995B1 (ko) | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
Xiao et al. | Acoustic and Visual Cues of Turn-Taking Dynamics in Dyadic Interactions. | |
CN112634879B (zh) | 语音会议管理方法、装置、设备及介质 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Shen et al. | Vida-man: visual dialog with digital humans | |
CN115705839A (zh) | 语音播放方法、装置、计算机设备和存储介质 | |
Okuno et al. | Realizing audio-visually triggered ELIZA-like non-verbal behaviors | |
CN113362849A (zh) | 一种语音数据处理方法以及装置 | |
KR102378895B1 (ko) | 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |