CN111640422A - 语音人声分离方法、装置、终端及存储介质 - Google Patents
语音人声分离方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111640422A CN111640422A CN202010405178.XA CN202010405178A CN111640422A CN 111640422 A CN111640422 A CN 111640422A CN 202010405178 A CN202010405178 A CN 202010405178A CN 111640422 A CN111640422 A CN 111640422A
- Authority
- CN
- China
- Prior art keywords
- voice
- unit
- separated
- noise
- time axis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音人声分离方法、装置、终端和计算机可读存储介质,语音人声分离方法通过在接收到语音人声分离请求时,获取待分离语音数据;将所述待分离语音数据按照获取时间顺序,进行有序存储;识别所述待分离语音数据中的噪声单元和人声单元;冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音人声分离方法、装置、终端及计算机可读存储介质。
背景技术
目前在一些支持语音操作的智能终端中往往需要用到语音识别的功能,即通过识别说话人的声纹以及语句得到智能终端能够执行的指令,进而根据该指令执行相应的操作。由于说话人发出的声音在传播过程中夹杂了外界的噪音和说话人在说话时产生的噪音,导致了说话人语音识别准确率低,因此需要先将说话人声音(说话人发出的声音)分离出来,再识别这部分分离出来的说话人声音,才能到达比较好的说话人声音识别效果。然而,目前说话人声音分离一般是通过识别并滤除噪声来实现语音人声分离,而噪声是不断变化的。由此可见,目前在语音人声分离过程中需要滤除噪声导致了数据处理量大,并且语音人声分离的效率和准确率低。
发明内容
本申请的主要目的在于提供一种语音人声分离方法、装置、终端及计算机存储介质,旨在解决现有技术中语音人声分离过程中数据处理量大、分离的效率和准确率低的技术问题。
为实现上述目的,本申请实施例提供一种语音人声分离方法,所述语音人声分离方法的步骤包括:
在接收到语音人声分离请求时,获取待分离语音数据;
将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别所述待分离语音数据中的噪声单元和人声单元;
冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
可选地,所述识别所述待分离语音数据中的噪声单元和人声单元的步骤包括:
按照所述获取时间顺序,将所述待分离语音数据分割为预设个数的语音片段单元;
基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元。
可选地,所述基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元的步骤包括:
依次将各所述语音片段单元与预设的噪声特征模型进行比对,获得各所述语音片段单元相对所述噪声特征模型的相似度;
依次将各所述相似度和预设特征阈值进行比较;
将所述相似度超过所述预设特征阈值的所述语音片段单元,确定为所述噪声单元;
将所述相似度不超过所述预设特征阈值的所述语音片段单元,确定为所述人声单元。
可选地,所述冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元的步骤包括:
按照所述获取时间顺序,生成所述语音片段单元的时间轴信息;
从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识;
基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元;
基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元。
可选地,所述从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识的步骤包括:
获取所述噪声单元在所述语音片段单元的第一位置信息,将所述第一位置信息在所述时间轴信息中指向的时间点,确定为所述噪声单元的第一时间轴标识;
获取所述人声单元在所述语音片段单元的第二位置信息,将所述第二位置信息在所述时间轴信息中指向的时间点,确定为所述人声单元的第二时间轴标识。
可选地,所述基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元的步骤包括:
从所述待分离语音数据中筛选出时间轴信息为所述第一时间轴标识的目标噪声;
锁定各所述目标噪声。
可选地,所述基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元的步骤包括:
从所述待分离语音数据中提取时间轴信息为所述第二时间轴标识的目标人声;
将各所述目标人声按照所述时间顺序进行重组,生成所述人声单元。
本申请还提供一种语音人声分离装置,所述语音人声分离装置包括:
获取模块,用于在接收到语音人声分离请求时,获取待分离语音数据;
存储模块,用于将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别模块,用于识别所述待分离语音数据中的噪声单元和人声单元;
分离模块,用于冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
可选地,所述识别模块包括:
分割子模块,用于按照所述待分离语音数据的获取时间顺序,将所述待分离语音数据分割为预设个数的语音片段单元;
识别子模块,用于基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元。
可选地,所述识别子模块包括:
比对单元,用于依次将各所述语音片段单元与预设的噪声特征模型进行比对,获得各所述语音片段单元相对所述噪声特征模型的相似度;
比较单元,用于依次将各所述相似度和预设特征阈值进行比较;
第一确定单元,用于将所述相似度超过所述预设特征阈值的所述语音片段单元,确定为所述噪声单元;
第二确定单元,用于将所述相似度不超过所述预设特征阈值的所述语音片段单元,确定为所述人声单元。
可选地,所述分离模块包括:
生成子模块,用于按照所述获取时间顺序,生成所述语音片段单元的时间轴信息;
获取子模块,用于从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识;
冻结子模块,用于基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元;
分离子模块,用于基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元。
可选地,所述获取子模块包括:
第一获取单元,用于获取所述噪声单元在所述语音片段单元的第一位置信息,将所述第一位置信息在所述时间轴信息中指向的时间点,确定为所述噪声单元的第一时间轴标识;
第二获取单元,获取所述人声单元在所述语音片段单元的第二位置信息,将所述第二位置信息在所述时间轴信息中指向的时间点,确定为所述人声单元的第二时间轴标识。
可选地,所述冻结子模块包括:
筛选单元,用于从所述待分离语音数据中筛选出时间轴信息为所述第一时间轴标识的目标噪声;
锁定单元,用于锁定各所述目标噪声。
可选地,所述分离子模块包括:
提取单元,用于从所述待分离语音数据中提取时间轴信息为所述第二时间轴标识的目标人声;
重组单元,用于将各所述目标人声按照所述时间顺序进行重组,生成所述人声单元。
本申请还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音人声分离程序,所述语音人声分离程序被所述处理器执行时实现如上所述的语音人声分离方法的步骤。
本申请还提供一种计算机存储介质,所述计算机存储介质上存储有语音人声分离程序,所述语音人声分离程序被处理器执行时实现如上所述的语音人声分离方法的步骤。
本申请公开了一种语音人声分离方法、装置、终端和计算机可读存储介质,所述语音人声分离方法通过在接收到语音人声分离请求时,获取待分离语音数据;将所述待分离语音数据按照获取时间顺序,进行有序存储;识别所述待分离语音数据中的噪声单元和人声单元;冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一个可选的终端的硬件结构示意图;
图2为本申请语音人声分离方法第一实施例的流程示意图;
图3为本申请语音人声分离方法第二实施例的流程示意图;
图4为本申请语音人声分离方法第三实施例的流程示意图;
图5为本申请语音人声分离方法第四实施例的流程示意图;
图6为本申请语音人声分离方法第五实施例的流程示意图;
图7为本申请语音人声分离方法第六实施例的流程示意图;
图8为本申请语音人声分离方法第七实施例的流程示意图;
图9为本申请语音人声分离装置的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端可以是固定终端,如物联网智能设备,包括智能空调、智能电灯、智能电源、智能路由器等智能家居;也可以是移动终端,包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备。
如图1所示,该语音人声分离系统的架构设计包括节点和服务器,其设备结构可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该语音人声分离系统还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、触摸屏、摄像头(包括AR/VR设备)等,可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口、蓝牙接口、探针接口、3G/4G/5G联网通信接口等)。
本领域技术人员可以理解,图1中示出的语音人声分离系统结构并不构成对语音人声分离系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音人声分离程序。操作系统是管理和控制语音人声分离系统硬件和软件资源的程序,支持语音人声分离程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与语音人声分离系统中其它硬件和软件之间通信。
在图1所示的语音人声分离系统中,处理器1001用于执行存储器1005中存储的语音人声分离程序,实现以下步骤:
在接收到语音人声分离请求时,获取待分离语音数据;
将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别所述待分离语音数据中的噪声单元和人声单元;
冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
按照所述获取时间顺序,将所述待分离语音数据分割为预设个数的语音片段单元;
基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
依次将各所述语音片段单元与预设的噪声特征模型进行比对,获得各所述语音片段单元相对所述噪声特征模型的相似度;
依次将各所述相似度和预设特征阈值进行比较;
将所述相似度超过所述预设特征阈值的所述语音片段单元,确定为所述噪声单元;
将所述相似度不超过所述预设特征阈值的所述语音片段单元,确定为所述人声单元。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
按照所述获取时间顺序,生成所述语音片段单元的时间轴信息;
从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识;
基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元;
基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
获取所述噪声单元在所述语音片段单元的第一位置信息,将所述第一位置信息在所述时间轴信息中指向的时间点,确定为所述噪声单元的第一时间轴标识;
获取所述人声单元在所述语音片段单元的第二位置信息,将所述第二位置信息在所述时间轴信息中指向的时间点,确定为所述人声单元的第二时间轴标识。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
从所述待分离语音数据中筛选出时间轴信息为所述第一时间轴标识的目标噪声;
锁定各所述目标噪声。
进一步地,处理器1001可以调用存储器1005中存储的语音人声分离程序,还执行以下操作:
从所述待分离语音数据中提取时间轴信息为所述第二时间轴标识的目标人声;
将各所述目标人声按照所述时间顺序进行重组,生成所述人声单元。
基于上述硬件结构,提出本申请语音人声分离方法的各个实施例。
参照图2,本申请语音人声分离方法第一实施例提供一种语音人声分离方法,所述语音人声分离方法包括:
步骤S10,在接收到语音人声分离请求时,获取待分离语音数据;
本申请的应用场景可以是,在一些支持语音操作的智能终端中往往需要用到语音识别的功能,即通过识别说话人的声纹以及语句得到智能终端能够执行的指令,进而根据该指令执行相应的操作。由于说话人发出的声音在传播过程中夹杂了外界的噪音和说话人在说话时产生的噪音,导致了说话人语音识别准确率低,因此需要先将说话人声音(说话人发出的声音)分离出来,再识别这部分分离出来的说话人声音,才能到达比较好的说话人声音识别效果。然而,目前说话人声音分离一般是通过识别并滤除噪声来实现语音人声分离,而噪声是不断变化的。由此可见,目前在语音人声分离过程中需要滤除噪声,从而导致了分离数据处理量大,并且语音人声分离的效率和准确率低。因此使用语音人声分离方法对目前的语音人声分离处理进行优化,从而解决现有技术中语音人声分离过程中数据处理量大、分离的效率和准确率低的技术问题。
步骤S20,将待分离语音数据按照获取时间顺序,进行有序存储;
在本申请公开的技术方案中,语音人声分离请求指的是将说话人声音从语音数据中分离出来的请求。将待分离语音数据按照获取时间顺序进行有序存储,有利于确定待分离语音数据中每个语音单元的获取时间,同时便于确认噪声单元和人声单元所在位置。
在本申请公开的技术方案中,待分离语音数据指的是需要将说话人声音分离出来的语音数据,例如会议、人机交互等过程中的语音数据;待分离语音数据包括了说话人的声音、说话时产生噪音的语音和声音在传输过程中由外界产生的噪音。由于后续需要将待分离语音数据进行语音人声分离处理,因此在获取到待分离语音数据之后,需要将获取的待分离语音数据有序地存储起来。
步骤S30,识别待分离语音数据中的噪声单元和人声单元;
在本申请公开的技术方案中,待分离语音数据中除了说话人声音,还有其他例如说话时产生噪音的语音和声音在传输过程中由外界产生的噪音,这部分声音称为噪声,将噪声进行分割,可以得到一系列的噪声单元,即噪声由一系列的噪声单元组成。待分离语音数据中说话人声音称为人声,将人声进行分割,可以得到一系列的人声单元,即人声由一系列的人声单元组成。
步骤S40,冻结各噪声单元,并从待分离语音数据中分离人声单元。
在本申请公开的技术方案中,冻结各噪声单元,从而噪声单元不参与到语音人声分离的过程中去,即只分离待分离语音数据和人声单元。由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
在本实施例中,语音人声分离方法通过在接收到语音人声分离请求时,获取待分离语音数据;将所述待分离语音数据按照获取时间顺序,进行有序存储;识别所述待分离语音数据中的噪声单元和人声单元;冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
进一步地,在本申请语音人声分离方法第二实施例中,参照图3,步骤S30包括:
步骤S31,按照待分离语音数据的获取时间顺序,将待分离语音数据分割为预设个数的语音片段单元;
在本申请公开的技术方案中,由于获取(接收)待分离语音数据会有一定的先后顺序,因此先按照待分离语音数据的获取时间顺序,将待分离语音数据分割为预设个数的语音片段单元,有利于后续判断待分离语音数据中的噪声单元和人声单元的位置信息。需要说明的是,在本申请公开的技术方案中,预设个数需要足够多,才能将待分离语音数据分割的越细,从而能得到更具有代表性的足够数量的语音片段单元,预设个数具体数量在实施过程中可灵活设置,此处不做限制。
步骤S32,基于各语音片段单元,识别待分离语音数据中的噪声单元和人声单元。
在本申请公开的技术方案中,由于待分离语音数据由噪声和人声组成,因此将分离语音数据分割成预设个数的语音片段单元之后,可以对应得到噪声单元和人声单元。
在本实施例中,识别所述待分离语音数据中的噪声单元和人声单元;从而有利于后续冻结各所述噪声单元,并分离所述待分离语音数据和所述人声单元,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
进一步地,在本申请语音人声分离方法第三实施例中,参照图4,步骤S32包括:
步骤S321,依次将各语音片段单元与预设的噪声特征模型进行比对,获得各语音片段单元相对噪声特征模型的相似度;
在本申请公开的技术方案中,预设的噪声特征模型指的是经过训练的能够识别出噪声数据的语音模型。相似度指的是两个事物的相似性,可以通过计算两个事物特征的距离来确定相似度。具体地,依次将各语音片段单元与预设的噪声特征模型进行比对,获得各语音片段单元相对预设的噪声特征模型的相似度,即通过分别计算各语音片段单元特征值与预设的噪声特征模型特征值的距离,从而获得各语音片段单元特征值与预设的噪声特征模型特征值的相似度。需要说明的是,可以使用欧式距离或者皮尔逊系数、余弦相似度等方法计算相似度,相似度的计算方法在实施过程中可灵活设置,此处不做限制。
步骤S322,依次将各相似度和预设特征阈值进行比较;
在本申请公开的技术方案中,预设特征阈值指的是判断相似度所归属的语音片段单元属于噪声单元还是属于人声单元的数值,例如分贝值等,由于噪声单元和人声单元属于不同类型的语音数据,它们之间存在区别特征,因此可以通过预先设置的高度概括区别特征的预设特征阈值,来区分噪声单元和人声单元。需要说明的是,预设特征阈值在实施过程中可灵活设置,此处不做限制。
步骤S323,将相似度超过预设特征阈值的语音片段单元,确定为噪声单元;
步骤S324,将相似度不超过预设特征阈值的语音片段单元,确定为人声单元。
在本申请公开的技术方案中,可以理解的是,人声和噪声的分贝范围是不同的,噪声的分贝范围更大,因此可以设置预设特征阈值为某个分贝值,则超过该声音分贝值的语音片段单元确定为噪声单元;不超过该声音分贝值的语音片段单元确定为人声单元。
在本实施例中,区分噪声单元和人声单元,有利于冻结噪声单元,并且,在后续分离所述待分离语音数据和所述人声单元的过程中,由于冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
进一步地,在本申请语音人声分离方法第四实施例中,参照图5,步骤S40包括:
步骤S41,按照获取时间顺序,生成语音片段单元的时间轴信息;
在本申请公开的技术方案中,由于语音片段单元的时间轴信息是按照获取时间顺序生成的,因此语音片段单元的时间轴信息和获取时间顺序一一对应。
步骤S42,从时间轴信息中提取噪声单元的第一时间轴标识和人声单元的第二时间轴标识;
步骤S43,基于时间轴信息和第一时间轴标识,冻结各噪声单元。
步骤S44,基于时间轴信息和第二时间轴标识,从待分离语音数据中分离人声单元。
在本实施例中,冻结了无效的噪声,因此只需要将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
进一步地,在本申请语音人声分离方法第五实施例中,参照图6,步骤S42包括:
步骤S421,获取噪声单元在语音片段单元的第一位置信息,将第一位置信息在时间轴信息中指向的时间点,确定为噪声单元的第一时间轴标识;
在本申请公开的技术方案中,例如,噪声单元在语音片段单元的第一位置信息是01位、03位和05位,时间轴信息是第一秒、第三秒和第五秒,因此可以得到噪声单元的第一时间轴标识是1、3和5。
步骤S422,获取人声单元在语音片段单元的第二位置信息,将第二位置信息在时间轴信息中指向的时间点,确定为人声单元的第二时间轴标识。
同理,人声单元在语音片段单元的第二位置信息是02位、04位和06位,时间轴信息是第二秒、第四秒和第六秒,因此可以得到人声单元的第二时间轴标识是2、4和6。
进一步地,在本申请语音人声分离方法第六实施例中,参照图7,步骤S43包括:
步骤S431,从待分离语音数据中筛选出时间轴信息为第一时间轴标识的目标噪声;
步骤S432,锁定各目标噪声。
在本申请公开的技术方案中,冻结指的是保持原有状态不做任何变化,由于噪声单元在待分离语音数据中的标识是第一时间轴标识,因此从待分离语音数据中筛选出时间轴信息为第一时间轴标识的目标噪声,并且锁定各目标噪声,可以实现冻结各噪声单元。具体地,可以将需要锁定的第一时间轴标识输入到具备冻结功能的预设设备,然后接收预设设备输出的冻结结果,也即将噪声单元冻结、不参与到语音人声分离中。
例如,当噪声单元的第一时间轴标识是1、3和5,将1、3和5锁定之后,第一时间轴标识是1、3和5的噪声单元也被冻结,因此不参与到语音人声分离的过程中去,也即冻结了无效的噪声,因此只需要将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
在本实施例中,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
进一步地,在本申请语音人声分离方法第七实施例中,参照图8,步骤S44包括:
步骤S441,从待分离语音数据中提取时间轴信息为第二时间轴标识的目标人声;
步骤S442,将各目标人声按照时间顺序进行重组,生成人声单元。
在本申请公开的技术方案中,例如人声单元的第二时间轴标识是2、4和6,那么先提取时间轴信息为2、4和6的目标人声,然后将各目标人声按照时间顺序进行重组,可以得到人声单元,因此实现了从待分离语音数据中分离人声单元,需要说明的是,目标人声指的是时间轴信息为第二时间轴标识的人声。
在本实施例中,由于在语音人声分离过程中冻结了无效的噪声,只将人声从待分离语音数据分离出来,从而不仅减少了分离过程中语音数据的处理量,而且提高了语音人声分离的效率和准确率。
此外,参照图9,本发明实施例还提出一种语音人声分离装置,语音人声分离装置包括:
获取模块,用于在接收到语音人声分离请求时,获取待分离语音数据;
存储模块,用于将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别模块,用于识别所述待分离语音数据中的噪声单元和人声单元;
分离模块,用于冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
本申请还提供一种终端,所述终端包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音人声分离程序,所述语音人声分离程序被所述处理器执行时实现上述语音人声分离方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音人声分离程序,所述语音人声分离程序被处理器执行时实现上述的语音人声分离方法的步骤。
在本申请语音人声分离方法、装置、终端及可读存储介质的实施例中,包含了上述语音人声分离方法各实施例的全部技术特征,说明书拓展和解释内容与上述语音人声分离方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音人声分离方法,其特征在于,所述语音人声分离方法包括以下步骤:
在接收到语音人声分离请求时,获取待分离语音数据;
将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别所述待分离语音数据中的噪声单元和人声单元;
冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
2.如权利要求1所述的语音人声分离方法,其特征在于,所述识别所述待分离语音数据中的噪声单元和人声单元的步骤包括:
按照所述获取时间顺序,将所述待分离语音数据分割为预设个数的语音片段单元;
基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元。
3.如权利要求2所述的语音人声分离方法,其特征在于,所述基于各所述语音片段单元,识别所述待分离语音数据中的所述噪声单元和所述人声单元的步骤包括:
依次将各所述语音片段单元与预设的噪声特征模型进行比对,获得各所述语音片段单元相对所述噪声特征模型的相似度;
依次将各所述相似度和预设特征阈值进行比较;
将所述相似度超过所述预设特征阈值的所述语音片段单元,确定为所述噪声单元;
将所述相似度不超过所述预设特征阈值的所述语音片段单元,确定为所述人声单元。
4.如权利要求3所述的语音人声分离方法,其特征在于,所述冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元的步骤包括:
按照所述获取时间顺序,生成所述语音片段单元的时间轴信息;
从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识;
基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元;
基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元。
5.如权利要求4所述的语音人声分离方法,其特征在于,所述从所述时间轴信息中提取所述噪声单元的第一时间轴标识和所述人声单元的第二时间轴标识的步骤包括:
获取所述噪声单元在所述语音片段单元的第一位置信息,将所述第一位置信息在所述时间轴信息中指向的时间点,确定为所述噪声单元的第一时间轴标识;
获取所述人声单元在所述语音片段单元的第二位置信息,将所述第二位置信息在所述时间轴信息中指向的时间点,确定为所述人声单元的第二时间轴标识。
6.如权利要求5所述的语音人声分离方法,其特征在于,所述基于所述时间轴信息和所述第一时间轴标识,冻结各所述噪声单元的步骤包括:
从所述待分离语音数据中筛选出时间轴信息为所述第一时间轴标识的目标噪声;
锁定各所述目标噪声。
7.如权利要求6所述的语音人声分离方法,其特征在于,所述基于所述时间轴信息和所述第二时间轴标识,从所述待分离语音数据中分离所述人声单元的步骤包括:
从所述待分离语音数据中提取时间轴信息为所述第二时间轴标识的目标人声;
将各所述目标人声按照所述时间顺序进行重组,生成所述人声单元。
8.一种语音人声分离装置,其特征在于,所述语音人声分离装置包括:
获取模块,用于在接收到语音人声分离请求时,获取待分离语音数据;
存储模块,用于将所述待分离语音数据按照获取时间顺序,进行有序存储;
识别模块,用于识别所述待分离语音数据中的噪声单元和人声单元;
分离模块,用于冻结各所述噪声单元,并从所述待分离语音数据中分离所述人声单元。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音人声分离程序,所述语音人声分离程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音人声分离方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有语音人声分离程序,所述语音人声分离程序被处理器执行时实现如权利要求1至7中任一项所述的语音人声分离方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405178.XA CN111640422A (zh) | 2020-05-13 | 2020-05-13 | 语音人声分离方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405178.XA CN111640422A (zh) | 2020-05-13 | 2020-05-13 | 语音人声分离方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111640422A true CN111640422A (zh) | 2020-09-08 |
Family
ID=72332031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405178.XA Pending CN111640422A (zh) | 2020-05-13 | 2020-05-13 | 语音人声分离方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111640422A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102854A (zh) * | 2020-09-22 | 2020-12-18 | 福建鸿兴福食品有限公司 | 一种录音过滤方法、装置及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN109087632A (zh) * | 2018-08-17 | 2018-12-25 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110718228A (zh) * | 2019-10-22 | 2020-01-21 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
CN110751960A (zh) * | 2019-10-16 | 2020-02-04 | 北京网众共创科技有限公司 | 噪声数据的确定方法及装置 |
WO2020039571A1 (ja) * | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
-
2020
- 2020-05-13 CN CN202010405178.XA patent/CN111640422A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN109087632A (zh) * | 2018-08-17 | 2018-12-25 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
WO2020039571A1 (ja) * | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
CN110751960A (zh) * | 2019-10-16 | 2020-02-04 | 北京网众共创科技有限公司 | 噪声数据的确定方法及装置 |
CN110718228A (zh) * | 2019-10-22 | 2020-01-21 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102854A (zh) * | 2020-09-22 | 2020-12-18 | 福建鸿兴福食品有限公司 | 一种录音过滤方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854570B2 (en) | Electronic device providing response to voice input, and method and computer readable medium thereof | |
CN109584876B (zh) | 语音数据的处理方法、装置和语音空调 | |
WO2020014899A1 (zh) | 语音控制方法、中控设备和存储介质 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN110290280B (zh) | 一种终端状态的识别方法、装置及存储介质 | |
CN104575503A (zh) | 语音识别方法和装置 | |
US20170270909A1 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN111798836B (zh) | 一种自动切换语种方法、装置、系统、设备和存储介质 | |
CN105100852B (zh) | 终端的语音遥控方法、装置及系统 | |
CN106486118B (zh) | 一种应用的语音控制方法和装置 | |
KR20230118089A (ko) | 사용자 스피치 프로파일 관리 | |
CN111640422A (zh) | 语音人声分离方法、装置、终端及存储介质 | |
CN111627453B (zh) | 公安语音信息管理方法、装置、设备及计算机存储介质 | |
CN107680598B (zh) | 基于好友声纹通讯录的信息交互方法、装置及其设备 | |
KR101434515B1 (ko) | 사용자 음성 데이터베이스를 이용한 음성 명령 등록/실행 장치 및 그 등록 방법과 실행 방법 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
CN111916080A (zh) | 语音识别资源选取方法、装置、计算机设备及存储介质 | |
CN110600031A (zh) | 播放控制方法、播放设备及计算机可读存储介质 | |
CN110708370A (zh) | 一种数据处理方法及终端 | |
CN114005436A (zh) | 语音端点的确定方法、装置及存储介质 | |
CN110570854B (zh) | 一种智能语音输出方法及装置 | |
CN110430508B (zh) | 麦克风降噪处理方法及计算机存储介质 | |
CN109065066B (zh) | 一种通话控制方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |
|
RJ01 | Rejection of invention patent application after publication |