CN110827849A - 数据建库的人声分离方法、装置、终端及可读存储介质 - Google Patents

数据建库的人声分离方法、装置、终端及可读存储介质 Download PDF

Info

Publication number
CN110827849A
CN110827849A CN201911099096.0A CN201911099096A CN110827849A CN 110827849 A CN110827849 A CN 110827849A CN 201911099096 A CN201911099096 A CN 201911099096A CN 110827849 A CN110827849 A CN 110827849A
Authority
CN
China
Prior art keywords
voice
person
database
frequency
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911099096.0A
Other languages
English (en)
Other versions
CN110827849B (zh
Inventor
陈昊亮
许敏强
杨世清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Acoustic Intelligent Technology Co Ltd
Original Assignee
Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Acoustic Intelligent Technology Co Ltd filed Critical Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority to CN201911099096.0A priority Critical patent/CN110827849B/zh
Publication of CN110827849A publication Critical patent/CN110827849A/zh
Application granted granted Critical
Publication of CN110827849B publication Critical patent/CN110827849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种数据建库的人声分离方法,检测原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,将所述第一多人声语音按时序分成若干个预设时长的语音片段,提取所述语音片段中的第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,将所述第一单人声语音的频率作为筛选频率,以获取第二单人声语音,剔除所述第二单人声语音得到第三多人声语音,使用预设二分算法分离所述第三多人声语音得到第三单人声语音,将所有单人声语音存入语音数据库中。本发明还公开了一种装置、终端及可读存储介质。提高了语音会议记录处理效率,降低了语音会议记录处理的误差。

Description

数据建库的人声分离方法、装置、终端及可读存储介质
技术领域
本发明涉及人声分离技术领域,尤其涉及数据建库的人声分离方法、装置、终端及可读存储介质。
背景技术
当前会议记录有很多形式,比如语音,以便进行会议回顾。但是,会议过程中会有如讨论、争论等情形,这种多人同时讲话加上其他噪声,给后期的人工处理语音会议记录,也就是将参会人员所说的内容分别记录带来了巨大的难度,需要花费大量的时间来处理,而计算机又难以将参会人员所说的内容分开记录,并且由于人的主观性,会导致处理语音会议记录时出现误差,造成了语音会议记录处理效率低、误差大的问题。
发明内容
本发明的主要目的在于提供一种涉及数据建库的人声分离方法、装置、终端及可读存储介质,旨在解决语音会议记录处理过程中出现的效率低、误差大的技术问题。
为实现上述目的,本发明提供一种数据建库的人声分离方法,所述数据建库的人声分离方法包括:
检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音;
将所述第一多人声语音按时序分成若干个预设时长的语音片段;
提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
可选地,所述使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音的步骤包括:
确定预设初始频率区间,基于预设二分算法,将所述初始频率区间分为两个子频率区间;
根据所述子频率区间,对所述第三多人声语音进行语音分离,直至提取所有单人声语音,以作为第三单人声语音。
可选地,所述根据所述子频率区间,对所述第三多人声语音进行语音分离的步骤具体包括:
根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果;
判断所述分离中间结果是否只包含单人声语音;
若所述分离中间结果只包含单人声语音,则将所述分离中间结果作为第三单人声语音;
若所述分离中间结果为多人声语音,则基于预设二分算法对所述子频率区间拆分,形成新的子频率区间,执行所述根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果的步骤,直至所述分离中间结果只包含单人声语音,将所述分离中间结果作为第三单人声语音。
可选地,所述将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中的步骤之前包括:
为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音建立索引,所述索引为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音的开始时刻和结束时刻。
可选地,所述检测待处理的原始语音是否存在多人混音的步骤之后还包括:
若所述原始语音不存在多人混音,则对所述原始语音进行降噪处理,得到纯单人声语音;
提取所述纯单人声语音中的第四单人声语音,并存入语音数据库。
可选地,所述并存入语音数据库中的步骤之前包括:
为所述第四单人声语音建立索引,所述索引为所述第四单人声语音的开始时刻和结束时刻。
可选地,所述对所述原始语音进行降噪处理的步骤包括:
获取反向接入电路的麦克风的负信号语音;
将所述负信号语音与所述原始语音进行相互叠加以消除噪音。
为实现上述目的,本发明还提供一种数据建库的人声分离装置,所述数据建库的人声分离装置包括以下步骤:
检测模块,用于检测待处理的原始语音是否存在多人对话,若原始语音存在多人对话,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述第一多人声语音为包含单人声和多人混音或只包含多人混音的语音;
处理模块,用于将所述第一多人声语音按时序分成若干个预设时长的语音片段;
获取模块,用于提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
获取模块,还用于将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
获取模块,还用于剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
获取模块,还用于使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
存储模块,用于将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据建库的人声分离程序,所述数据建库的人声分离程序被所述处理器执行时实现上述的数据建库的人声分离方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,计算机存储介质上存储有数据建库的人声分离程序,数据建库的人声分离程序被处理器执行时实现上述的数据建库的人声分离方法的步骤。
本发明实施例提出的一种数据建库的人声分离方法、装置、终端及可读存储介质,通过检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音,将所述第一多人声语音按时序分成若干个预设时长的语音片段,提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音,将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音,剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音,使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音,将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。由于会议时间一般比较长,所以将上述第一多人声语音按时序分成若干个预设时长的语音片段,方便对多个语音片段同时处理,提高对语音的处理效率,采用预设二分算法的好处在于循环结构简单,没有复杂的步骤,只需要不断地拆分频率区间就能达到将多人声语音根据参会人员语音频率的不同分离成单人声语音,提高了对语音处理的效率,另外,由于语音都有固定的频率,通过不断缩小频率区间,实现精确区分每一位参会人员的语音,保证语音会议记录处理的准确性。实现了提高语音会议记录处理效率,降低语音会议记录处理的误差的目的。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明数据建库的人声分离方法第一实施例的流程示意图;
图3为本发明数据建库的人声分离方法第一实施例的举例说明示意图;
图4为本发明数据建库的人声分离方法第二实施例的流程示意图;
图5为本发明数据建库的人声分离方法第二实施例中预设二分算法的一种可能结果的流程示意图;
图6为本发明数据建库的人声分离方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音,将所述第一多人声语音按时序分成若干个预设时长的语音片段,提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音,将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音,剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音,使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音,将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。实现了提高语音会议记录处理效率,降低语音会议记录处理的误差的目的。
由于现有技术在处理语音会议记录时,是由人工进行处理的,由于人的主观性,处理会议记录的过程中可能会出现听到的和写下来的不一致,导致会议记录出现误差,并且在进行人声分离的过程中处理速度慢,效率低。
本发明提供一种解决方案,使语音会议记录处理过程更高效,误差更小。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据建库的人声分离程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据建库的人声分离程序,并执行以下操作:
检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音;
将所述第一多人声语音按时序分成若干个预设时长的语音片段;
提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
进一步地,使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音的步骤包括:
确定预设初始频率区间,基于预设二分算法,将所述初始频率区间分为两个子频率区间;
根据所述子频率区间,对所述第三多人声语音进行语音分离,直至提取所有单人声语音,以作为第三单人声语音。
进一步地,根据所述子频率区间,对所述第三多人声语音进行语音分离的步骤具体包括:
根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果;
判断所述分离中间结果是否只包含单人声语音;
若所述分离中间结果只包含单人声语音,则将所述分离中间结果作为第三单人声语音;
若所述分离中间结果为多人声语音,则基于预设二分算法对所述子频率区间拆分,形成新的子频率区间,执行所述根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果的步骤,直至所述分离中间结果只包含单人声语音,将所述分离中间结果作为第三单人声语音。
进一步地,将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中的步骤之前包括:
为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音建立索引,所述索引为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音的开始时刻和结束时刻。
进一步地,检测待处理的原始语音是否存在多人混音的步骤之后还包括:
若所述原始语音不存在多人混音,则对所述原始语音进行降噪处理,得到纯单人声语音;
提取所述纯单人声语音中的第四单人声语音,并存入语音数据库。
进一步地,并存入语音数据库的步骤之前包括:
为所述第四单人声语音建立索引,所述索引为所述第四单人声语音的开始时刻和结束时刻。
进一步地,对所述原始语音进行降噪处理的步骤包括:
获取反向接入电路的麦克风的负信号语音;
将所述负信号语音与所述原始语音进行相互叠加以消除噪音。
参照图2,在本发明数据建库的人声分离方法第一实施例中,所述数据建库的人声分离方法包括:
步骤S10,检测待处理的原始语音是否存在多人对话,若原始语音存在多人对话,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述第一多人声语音为包含单人声和多人混音或只包含多人混音的语音;
检测待处理的原始语音是否存在多人对话,如果待处理的原始语音存在多人对话,那么需要对原始语音进行降噪处理,经过降噪处理得到去除噪声后,得到只包含人声的第一多人声语音,其中,多人声语音是指包含单人声和多人混音或只包含多人混音的语音,降噪技术具体为,除了距离参会人员很近的麦克风采集正信号之外,还有一个离参会人员较远的麦克风,较远的麦克风反向接入电路,它采集的是负信号,在正负信号进行叠加时,由于噪音与较近的麦克风和较远的麦克风之间的距离相等,所以被抵消,而参会人员由于距离两个麦克风距离不同,叠加时会有一个差值,从而不会被抵消,例,噪音正信号强度为1,噪音负信号强度为-1,参会人员语音正信号强度为2,参会人员负信号强度为-0.5,那么在正负信号进行叠加时,噪音消除,得到强度为1.5的参会人员语音。
步骤S20,将所述第一多人声语音按时序分成若干个预设时长的语音片段;
将第一多人声语音按照时间的先后顺序分成若干个预设时长的语音片段,便于后续对语音的处理,时长可以按需要设置,例,多人声语音时长为500秒,时长可以设置为50秒,则得到10个语音片段。
步骤S30,提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
把容易提取的单人声语音先提取出来,并且作为第一单人声语音,然后将所有语音片段中的单人声语音剔除,得到不包含单人声语音的第二多人声语音,其中,单人声语音是指只包含一种人声的语音,将所有语音片段中的单人声语音剔除的方法是,首先将所有提取到的单人声语音的语音信号反相,然后将得到的单人声语音的反相语音信号与所有语音片段中的语音信号进行叠加,就可以得到剔除了所有语音片段中的单人声语音的不包含单人声语音的第二多人声语音。
步骤S40,将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
会议过程中,有些参会人员存在单独发言的情况,有些参会人员可能只在和其他参会人员一起讨论时发过言,参会人员单独发言的语音就是第一单人声语音,相应的,参会人员一起讨论时的语音就是第二多人声语音,将第一单人声语音的频率作为筛选频率来筛选第二多人声语音,就可以得到存在单独发言的情况的参会人员在和其他参会人员一起讨论时发言的语音,将它作为第二单人声语音。
步骤S50,剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
将第二多人声语音中的第二单人声语音剔除得到第三多人声语音的方案与上述步骤S30中的将所有语音片段中的单人声语音剔除的方法类似,在此不再赘述。
步骤S60,使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
使用预设的二分算法,通过不断地拆分预设初始频率区间,使第三多人声语音依据语音频率的不同,分离为单人声语音。
参照图3,其中,a、b和c分别代表三个参会人员的语音,根据降噪后的第一多人声语音,第一多人声语音总时长为120s,分成四个语音片段,则每个语音片段的时长为30s,第一个语音片段包含单人声语音a,第二个语音片段包含单人声语音a和多人混音abc,第三个语音片段包含单人声语音a和多人混音ab,第四个语音片段包含多人混音ac,首先,提取四个语音片段中的单人声语音a,作为第一单人声语音,每个语音片段剔除单人声语音a得到包含第二语音片段的多人混音abc、第三语音片段的多人混音ab和第四语音片段的多人混音ac作为第二多人声语音,获取第一单人声语音a的频率,根据第一单人声语音a的频率,获取第二多人声语音abc、ab和ac中与第一单人声语音a的频率相同的单人声语音a作为第二单人声语音,剔除第二多人声语音abc、ab和ac中的第二单人声语音a得到包含多人混音bc、单人声语音b和单人声语音c的第三多人声语音,然后根据预设的二分算法,通过不断地二分频率区间,直到得到单人声语音b和单人声语音c作为第三单人声语音。
步骤S70,将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
将第一单人声语音、第二单人声语音和第三单人声语音的开始时刻和结束时刻作为索引,方便后续根据大致时刻来查找相应时刻的语音,比如,想知道某位参会人员某句话之后的语音内容比如对该参会人员问题的回复,可以根据该参会人员某句话的结束时刻来搜索接下来的语音就可以得到想要的语音,相应地,想知道某位参会人员某句话之前的语音内容比如对该参会人员答复的提问,可以根据该参会人员某句话的开始时刻来搜索之前的语音就可以得到想要的语音。
在本实施例中终端检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音,将所述第一多人声语音按时序分成若干个预设时长的语音片段,提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音,将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音,剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音,使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音,将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。由于会议时间一般比较长,所以将上述第一多人声语音按时序分成若干个预设时长的语音片段,方便对多个语音片段同时处理,提高对语音的处理效率,采用预设二分算法的好处在于循环结构简单,没有复杂的步骤,只需要不断地拆分频率区间就能达到将多人声语音根据参会人员语音频率的不同分离成单人声语音,提高了对语音处理的效率,另外,由于语音都有固定的频率,通过不断缩小频率区间,实现精确区分每一位参会人员的语音,保证语音会议记录处理的准确性。实现了提高语音会议记录处理效率,降低语音会议记录处理的误差的目的。
进一步地,参照图4,在本发明数据建库的人声分离方法第二实施例中,基于第一实施例,所述使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音的步骤包括:
步骤S80,确定预设初始频率区间,基于预设二分算法,将所述初始频率区间分为两个子频率区间;
确定预设的初始频率区间,例,该频率区间可以是20-20000Hz,也可以将区间缩小,设置为人的语音频率区间,一般为300-3000Hz,根据预设二分算法,将初始频率均分为两个子频率区间。
步骤S90,根据所述子频率区间,对所述第三多人声语音进行语音分离,直至提取所有单人声语音,以作为第三单人声语音。
参照图5,N为自然数,由于二分算法的循环次数是根据语音会议记录中混音的复杂程度决定的,所以循环次数是不固定的,因此,N可以为0,也可以为其它的正整数,如1、2等,将第三多人声语音根据其频率所属子频率区间的不同分到各自所属的子频率区间,判断两个子频率区间中的语音是否都是单人声语音,如果两个子频率区间中的语音都是单人声语音,则语音分离过程结束,将基于预设二分算法得到的单人声语音作为第三单人声语音;如果属于两个子频率区间中的语音还有多人声语音,则继续判断属于两个子频率区间中的多人声语音是否有单人声语音,如果有单人声语音,则将单人声语音作为第三单人声语音的一部分并将多人声语音所处的子频率区间继续基于预设二分算法分为新的两个子频率区间,如果没有单人声语音,则将多人声语音所处的子频率区间分别继续分为新的两个子频率区间,然后将多人声语音中的语音根据频率的不同分到各自所属的新子频率区间,判断新子频率区间中的语音是否都是单人声语音,如果新子频率区间中的语音都是单人声语音,则语音分离过程结束,得到单人声语音,并将分离过程得到的所有单人声语音作为第三单人声语音,如果两个子频率区间中的语音还有多人声语音,则继续按照上述预设二分算法进行分离,直到经过语音分离过程得到的所有语音都是单人声语音也就是得到第三单人声语音为止。
在本实施例中,通过不断循环缩小频率区间,直到所有子频率区间的语音都为单人声语音为止,因为预设的二分算法循环结构简单,没有复杂的步骤,所以处理过程高效,提高了对语音处理的效率,并且,由于语音都有固定的频率,通过不断缩小频率区间,实现精确区分每一位参会人员的语音,保证了语音会议记录处理的准确性,降低了语音会议记录处理的误差。
参照图6,在本发明数据建库的人声分离方法第三实施例中,基于第二实施例,所述检测待处理的原始语音是否存在多人混音的步骤之后还包括:
步骤S100,若所述原始语音不存在多人混音,则对所述原始语音进行降噪处理,得到纯单人声语音;
如果原始语音中没有多人混音,只有单人声语音,则对原始语音进行降噪处理,降噪技术具体为,除了距离参会人员很近的麦克风采集正信号之外,还有一个离参会人员较远的麦克风,较远的麦克风反向接入电路,它采集的是负信号,在正负信号进行叠加时,由于噪音与较近的麦克风和较远的麦克风之间的距离相等,所以被抵消,而参会人员由于距离两个麦克风距离不同,叠加时会有一个差值,从而不会被抵消,例,噪音正信号强度为1,噪音负信号强度为-1,参会人员语音正信号强度为2,参会人员负信号强度为-0.5,那么在正负信号进行叠加时,噪音消除,得到强度为1.5的参会人员语音,经过降噪处理得到去除噪声后,得到只包含人声的纯人声语音。
步骤S110,提取所述纯单人声语音中的第四单人声语音,并存入语音数据库。
提取每个参会人员的语音作为第四单人声语音,并将每个语音的开始时刻和结束时刻作为索引,方便后续根据大致时刻来查找相应时刻的语音,比如,想知道某位参会人员某句话之后的语音内容比如对该参会人员问题的回复,可以根据该参会人员某句话的结束时刻来搜索接下来的语音就可以得到想要的语音,相应地,想知道某位参会人员某句话之前的语音内容比如对该参会人员答复的提问,可以根据该参会人员某句话的开始时刻来搜索之前的语音就可以得到想要的语音。
在本实施例中,原始语音不存在多人混音,只包含单人声语音,将每个语音的开始时刻和结束时刻作为索引然后存入数据库,方便后续对指定语音的取用,而不用遍历数据库,然后逐条判断该语音是否是当前需要使用的语音,提高了语音会议记录处理的效率。
本发明还提供一种数据建库的人声分离装置,所述数据建库的人声分离装置包括:
检测模块,用于检测待处理的原始语音是否存在多人对话,若原始语音存在多人对话,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述第一多人声语音为包含单人声和多人混音或只包含多人混音的语音;
处理模块,用于将所述第一多人声语音按时序分成若干个预设时长的语音片段;
获取模块,用于提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
获取模块,还用于将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
获取模块,还用于剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
获取模块,还用于使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
存储模块,用于将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
本发明还提供一种终端,所述终端包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据建库的人声分离程序,所述数据建库的人声分离程序被所述处理器执行时实现上述数据建库的人声分离方法各实施例的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据建库的人声分离程序,所述数据建库的人声分离程序被处理器执行时实现上述数据建库的人声分离方法各实施例的步骤。
在本发明数据建库的人声分离装置、终端和计算机可读存储介质的实施例中,包含了上述数据建库的人声分离方法各实施例的全部技术特征,说明书拓展和解释内容与上述数据建库的人声分离方法各实施例基本相同,在此不做累述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据建库的人声分离方法,其特征在于,包括:
检测待处理的原始语音是否存在多人混音,若所述原始语音存在多人混音,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述多人声语音为包含单人声和多人混音或只包含多人混音的语音;
将所述第一多人声语音按时序分成若干个预设时长的语音片段;
提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
2.如权利要求1所述的数据建库的人声分离方法,其特征在于,所述使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音的步骤包括:
确定预设初始频率区间,基于预设二分算法,将所述初始频率区间分为两个子频率区间;
根据所述子频率区间,对所述第三多人声语音进行语音分离,直至提取所有单人声语音,以作为第三单人声语音。
3.如权利要求2所述的数据建库的人声分离方法,其特征在于,所述根据所述子频率区间,对所述第三多人声语音进行语音分离的步骤具体包括:
根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果;
判断所述分离中间结果是否只包含单人声语音;
若所述分离中间结果只包含单人声语音,则将所述分离中间结果作为第三单人声语音;
若所述分离中间结果为多人声语音,则基于预设二分算法对所述子频率区间拆分,形成新的子频率区间,执行所述根据所述子频率区间,对所述第三多人声语音进行语音分离,得到分离中间结果的步骤,直至所述分离中间结果只包含单人声语音,将所述分离中间结果作为第三单人声语音。
4.如权利要求1所述的数据建库的人声分离方法,其特征在于,所述将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中的步骤之前包括:
为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音建立索引,所述索引为所述第一单人声语音、所述第二单人声语音和所述第三单人声语音的开始时刻和结束时刻。
5.如权利要求1所述的数据建库的人声分离方法,其特征在于,所述检测待处理的原始语音是否存在多人混音的步骤之后还包括:
若所述原始语音不存在多人混音,则对所述原始语音进行降噪处理,得到纯单人声语音;
提取所述纯单人声语音中的第四单人声语音,并存入语音数据库。
6.如权利要求5所述的数据建库的人声分离方法,其特征在于,所述并存入语音数据库中的步骤之前包括:
为所述第四单人声语音建立索引,所述索引为所述第四单人声语音的开始时刻和结束时刻。
7.如权利要求1至6所述的数据建库的人声分离方法,其特征在于,所述对所述原始语音进行降噪处理的步骤包括:
获取反向接入电路的麦克风的负信号语音;
将所述负信号语音与所述原始语音进行相互叠加以消除噪音。
8.一种数据建库的人声分离装置,其特征在于,包括:
检测模块,用于检测待处理的原始语音是否存在多人对话,若原始语音存在多人对话,对所述原始语音进行降噪处理,得到第一多人声语音,其中,所述第一多人声语音为包含单人声和多人混音或只包含多人混音的语音;
处理模块,用于将所述第一多人声语音按时序分成若干个预设时长的语音片段;
获取模块,用于提取各所述语音片段中存在的单人声语音,以作为第一单人声语音,并提取各所述语音片段中剩余的第二多人声语音,其中,所述单人声语音为只包含一种人声的语音;
获取模块,还用于将所述第一单人声语音的频率作为筛选频率,获取所述第二多人声语音中语音频率与所述筛选频率相同的第二单人声语音;
获取模块,还用于剔除所述第二多人声语音中的所述第二单人声语音得到第三多人声语音;
获取模块,还用于使用预设二分算法在预设初始频率区间内将所述第三多人声语音进行分离,得到第三单人声语音;
存储模块,用于将所述第一单人声语音、所述第二单人声语音和所述第三单人声语音存入语音数据库中。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据建库的人声分离程序,所述数据建库的人声分离程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据建库的人声分离方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据建库的人声分离方法的步骤。
CN201911099096.0A 2019-11-11 2019-11-11 数据建库的人声分离方法、装置、终端及可读存储介质 Active CN110827849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099096.0A CN110827849B (zh) 2019-11-11 2019-11-11 数据建库的人声分离方法、装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099096.0A CN110827849B (zh) 2019-11-11 2019-11-11 数据建库的人声分离方法、装置、终端及可读存储介质

Publications (2)

Publication Number Publication Date
CN110827849A true CN110827849A (zh) 2020-02-21
CN110827849B CN110827849B (zh) 2022-07-26

Family

ID=69554228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099096.0A Active CN110827849B (zh) 2019-11-11 2019-11-11 数据建库的人声分离方法、装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN110827849B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627457A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音分离方法、系统及计算机可读存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070109156A (ko) * 2006-05-10 2007-11-15 에이펫(주) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
US20090055170A1 (en) * 2005-08-11 2009-02-26 Katsumasa Nagahama Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program
KR20100073167A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음원 분리 방법 및 그 장치
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
US20160240212A1 (en) * 2015-02-13 2016-08-18 Fideliquest Llc Digital audio supplementation
US20170110121A1 (en) * 2015-01-30 2017-04-20 Mattersight Corporation Face-to-face communication analysis via mono-recording system and methods
CN108182945A (zh) * 2018-03-12 2018-06-19 广州势必可赢网络科技有限公司 一种基于声纹特征的多人声音分离方法及装置
CN108449497A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
WO2019008580A1 (en) * 2017-07-03 2019-01-10 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION
CN109326303A (zh) * 2018-11-28 2019-02-12 广东小天才科技有限公司 一种语音分离方法及系统
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、系统及智能终端
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055170A1 (en) * 2005-08-11 2009-02-26 Katsumasa Nagahama Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program
KR20070109156A (ko) * 2006-05-10 2007-11-15 에이펫(주) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
KR20100073167A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음원 분리 방법 및 그 장치
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
US20170110121A1 (en) * 2015-01-30 2017-04-20 Mattersight Corporation Face-to-face communication analysis via mono-recording system and methods
US20160240212A1 (en) * 2015-02-13 2016-08-18 Fideliquest Llc Digital audio supplementation
WO2019008580A1 (en) * 2017-07-03 2019-01-10 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION
CN108182945A (zh) * 2018-03-12 2018-06-19 广州势必可赢网络科技有限公司 一种基于声纹特征的多人声音分离方法及装置
CN108449497A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、系统及智能终端
CN109326303A (zh) * 2018-11-28 2019-02-12 广东小天才科技有限公司 一种语音分离方法及系统
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JESSICA RINCÓN-TRUJILLO ET AL.: "Analysis of Speech Separation Methods based on Deep Learning", 《RESEARCH IN COMPUTING SCIENCE》 *
周燕: "基于Fast ICA的多说话人识别系统", 《苏州市职业大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627457A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音分离方法、系统及计算机可读存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110827849B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN110246512B (zh) 声音分离方法、装置及计算机可读存储介质
CN110827849B (zh) 数据建库的人声分离方法、装置、终端及可读存储介质
JP2021516786A (ja) 複数人の音声を分離する方法、装置、およびコンピュータプログラム
CN110992989B (zh) 语音采集方法、装置及计算机可读存储介质
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
CN109215640B (zh) 语音识别方法、智能终端及计算机可读存储介质
CN110992963A (zh) 网络通话方法、装置、计算机设备及存储介质
CN110827825A (zh) 语音识别文本的标点预测方法、系统、终端及存储介质
CN110875036A (zh) 语音分类方法、装置、设备及计算机可读存储介质
CN108763475B (zh) 一种录制方法、录制装置及终端设备
EP3826008A1 (en) Voice processing method and apparatus, storage medium, and electronic device
CN111984180B (zh) 终端读屏方法、装置、设备及计算机可读存储介质
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN113033245A (zh) 一种功能调节方法、装置、存储介质及电子设备
CN112509586A (zh) 电话信道声纹识别方法及装置
CN112259076B (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
CN105989000B (zh) 音视频拷贝检测方法及装置
CN110767229B (zh) 基于声纹的音频输出方法、装置、设备及可读存储介质
CN110827850B (zh) 音频分离方法、装置、设备及计算机可读存储介质
CN110992930A (zh) 声纹特征提取方法、装置、终端及可读存储介质
JP2014149571A (ja) コンテンツ検索装置
CN110459239A (zh) 基于声音数据的角色分析方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant