CN109326303B - 一种语音分离方法及系统 - Google Patents

一种语音分离方法及系统 Download PDF

Info

Publication number
CN109326303B
CN109326303B CN201811430304.6A CN201811430304A CN109326303B CN 109326303 B CN109326303 B CN 109326303B CN 201811430304 A CN201811430304 A CN 201811430304A CN 109326303 B CN109326303 B CN 109326303B
Authority
CN
China
Prior art keywords
voice
basic waveform
user information
module
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811430304.6A
Other languages
English (en)
Other versions
CN109326303A (zh
Inventor
崔颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201811430304.6A priority Critical patent/CN109326303B/zh
Publication of CN109326303A publication Critical patent/CN109326303A/zh
Application granted granted Critical
Publication of CN109326303B publication Critical patent/CN109326303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

本发明提供了一种语音分离方法及系统,其方法包括:获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库;获取多人混合语音;将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。本发明从一个多人混合语音中分离出每个用户各自产生的单人语音,从而便于用户对单人语音进行处理。

Description

一种语音分离方法及系统
技术领域
本发明涉及语音识别技术领域,尤指一种语音分离方法及系统。
背景技术
用户在使用家教机朗读工具的时候,点击开始朗读进行录音,直至朗读结束进行回放,但是此过程中没有对收集回来的音频信息进行任何的处理,回放的时候是多种声音混合的效果。在课堂上、课后,学生们喜欢一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音,朗读回放的时候也会呈现多个用户同时朗读合成的混杂的声音,无法辨别单个用户朗读的准确性。因此,急需一种对混合的语音进行分离的方法及系统。
发明内容
本发明的目的是提供一种语音分离方法及系统,实现从一个多人混合语音中分离出每个用户各自产生的单人语音,从而便于用户对单人语音进行处理。
本发明提供的技术方案如下:
本发明提供一种语音分离方法,包括:
获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库;
获取多人混合语音;
将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
进一步的,所述的获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立所述基本波形库具体包括:
获取用户语音以及对应的用户信息;
分析所述用户语音,得到对应的用户的声音的基本波形;
根据所述基本波形和所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
进一步的,所述的将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音具体包括:
根据所述多人混合语音得到对应的混合语音波形;
将所述混合语音波形和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
进一步的,还包括:
获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数;
统计分离出的所述单人语音的个数;
当所述个数小于所述人数时,根据所述基本波形库获取将所述单人语音对应的单人语音用户信息;
将所述单人语音用户信息和所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息;
根据所述未分离语音用户信息获取对应的未分离语音基本波形;
根据所述未分离语音基本波形和对应的所述未分离语音用户信息更新所述基本波形库;
根据所述未分离语音基本波形分离所述多人混合语音。
进一步的,所述的将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音之后包括:
将所述用户信息作为标记信息标记对应的所述单人语音;
根据所述标记信息存储所述单人语音;
根据存储的所述单人语音分析对应的用户的语音质量。
本发明还提供一种语音分离系统,包括:
波形库建立模块,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库;
语音获取模块,获取多人混合语音;
分离模块,将所述语音获取模块获取的所述多人混合语音和所述波形库建立模块建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
进一步的,所述波形库建立模块具体包括:
获取单元,获取用户语音以及对应的用户信息;
分析单元,分析所述获取单元获取的所述用户语音,得到对应的用户的声音的基本波形;
波形库建立单元,根据所述分析单元得到的所述基本波形和所述获取单元获取的所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
进一步的,所述分离模块具体包括:
处理单元,根据所述多人混合语音得到对应的混合语音波形;
分离单元,将所述处理单元得到的所述混合语音波形和所述波形库建立模块建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
进一步的,还包括:
信息获取模块,获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数;
统计模块,统计所述分离模块分离出的所述单人语音的个数;
获取模块,当所述统计模块统计的所述个数小于所述信息获取模块得到的所述人数时,根据所述波形库建立模块建立的所述基本波形库获取将所述单人语音对应的单人语音用户信息;
对比模块,将所述获取模块获取的所述单人语音用户信息和所述信息获取模块获取的所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息;
波形获取模块,根据所述对比模块得到的所述未分离语音用户信息获取对应的未分离语音基本波形;
更新模块,根据所述波形获取模块获取的所述未分离语音基本波形和所述对比模块得到的对应的所述未分离语音用户信息更新所述基本波形库;
控制模块,根据所述波形获取模块获取的所述未分离语音基本波形分离所述语音获取模块获取的所述多人混合语音。
进一步的,还包括:
标记模块,将所述波形库建立模块获取的所述用户信息作为标记信息标记对应的所述单人语音;
存储模块,根据所述标记模块得到的所述标记信息存储所述单人语音;
分析模块,根据所述存储模块存储的所述单人语音分析对应的用户的语音质量。
通过本发明提供的一种语音分离方法及系统,能够带来以下至少一种有益效果:
1、本发明中,通过每个用户声音的基本波形将多人混合语音分离成多个单人语音,便于识别每个用户对应的单人语音。
2、本发明中,通过将分离出来的单人语音对应的用户信息和多人混合语音所包含的用户信息进行对比,从而确定未分离出的单人语音,并采取相应的措施进行分离,以及更新基本波形库。
3、本发明中,将分离出的单人语音按照对应的用户信息进行标记以及存储,以便后续进行单独分析。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语音分离方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种语音分离方法的一个实施例的流程图;
图2是本发明一种语音分离方法的另一个实施例的流程图;
图3是本发明一种语音分离方法的另一个实施例的流程图;
图4是本发明一种语音分离方法的另一个实施例的流程图;
图5是本发明一种语音分离方法的另一个实施例的流程图;
图6是本发明一种语音分离系统的一个实施例的结构示意图;
图7是本发明一种语音分离系统的另一个实施例的结构示意图;
图8是本发明一种语音分离系统的另一个实施例的结构示意图;
图9是本发明一种语音分离系统的另一个实施例的结构示意图;
图10是本发明一种语音分离系统的另一个实施例的结构示意图。
附图标号说明:
1000语音分离系统
1100波形库建立模块 1110获取单元 1120分析单元 1130波形库建立单元
1200语音获取模块
1300分离模块 1310处理单元 1320分离单元
1400信息获取模块
1450统计模块 1500获取模块 1550对比模块 1600波形获取模块
1650更新模块 1700控制模块 1800标记模块 1850存储模块
1900分析模块
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种语音分离方法,包括:
S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
具体的,每一种声音都有各自的基本波形,称为基波。获取用户声音的基本波形以及对应的用户信息,该用户信息包括用户姓名、年龄、性别等信息。然后根据基本波形和用户信息建立基本波形库。
S200获取多人混合语音。
具体的,获取多人混合语音。例如在课堂上、课后,学生们喜欢一起大声朗读,如果此时进行录音,家教机接收的是来自不同用户的声音所形成的多人混合语音。
S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
具体的,将多人混合语音和基本波形库进行匹配,由于基本波形库中包含多个用户声音的基本波形,因此根据每个用户声音的基本波形将多人混合语音分离为多个单人语音。
本实施例中,获取每个用户声音独特的基本波形,然后通过每个用户声音的基本波形将获取的多人混合语音分离成多个单人语音,从而便于识别每个用户对应的单人语音。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图2所示,包括:
S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
S200获取多人混合语音。
S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
S800将所述用户信息作为标记信息标记对应的所述单人语音。
具体的,根据基本波形库确定分离出来的单人语音对应的用户信息,然后将该用户信息作为标记信息对对应的单人语音进行标记,便于对单人语音进行区分。
S850根据所述标记信息存储所述单人语音。
具体的,将分离出来的单人语音存储起来,根据标记信息进行标记,例如存储时将标记信息作为对应的单人语音的文件命名,便于后续用户寻找需要的单人语音。
S900根据存储的所述单人语音分析对应的用户的语音质量。
具体的,根据存储的单人语音分析对应的用户的语音质量,单人语音是根据标记信息进行存储,因此用户可以明确每一个单人语音对应的用户。例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音,分离出每个学生各自产生的单人语音,并进行存储,那么用户后续可以随时回放和老师检查每一个学生的朗读效果。
本实施例中,将分离出的单人语音按照对应的用户信息进行标记以及存储,一方面便于查找对应的用户的单人语音,另一方面便于后续针对每一个单人语音进行单独分析。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图3所示,包括:
S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
所述的S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库具体包括:
S110获取用户语音以及对应的用户信息。
S120分析所述用户语音,得到对应的用户的声音的基本波形。
具体的,获取用户语音以及对应的用户信息,分析用户语音得到对应的用户的声音的基本波形。由于获取用户语音是用于分析对应的基本波形,因此用户语音的内容并没有特定的限制。另外该用户信息包括用户姓名、年龄、性别等信息。
S130根据所述基本波形和所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
具体的,根据基本波形和用户信息建立基本波形库,在基本波形库中建立基本波形和用户信息之间的映射关系,便于后续确定分离出的单人语音对应的用户信息。
S200获取多人混合语音。
S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
S800将所述用户信息作为标记信息标记对应的所述单人语音。
S850根据所述标记信息存储所述单人语音。
S900根据存储的所述单人语音分析对应的用户的语音质量。
本实施例中,根据基本波形和用户信息建立基本波形库,在基本波形库中建立基本波形和用户信息之间的映射关系,便于后续确定分离出的单人语音对应的用户信息。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图4所示,包括:
S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
S200获取多人混合语音。
S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
所述的S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音具体包括:
S310根据所述多人混合语音得到对应的混合语音波形。
S320将所述混合语音波形和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
具体的,根据多人混合语音得到对应的混合语音波形,便于和基本波形库中的基本波形进行对比以及匹配,然后将混合语音波形和基本波形库进行匹配,将多人混合语音分离为多个单人语音。
例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音所组成的多人混合语音,根据多人混合语音得到对应的混合语音波形,然后根据预先获取的每个学生的声音对应的基本波形从混合语音波形中分离出每个学生各自产生的单人语音,并进行存储,那么用户后续可以随时回放和老师检查每一个学生的朗读效果。
S800将所述用户信息作为标记信息标记对应的所述单人语音。
S850根据所述标记信息存储所述单人语音。
S900根据存储的所述单人语音分析对应的用户的语音质量。
本实施例中,根据获取的多人混合语音得到对应的混合语音波形,然后通过每个用户声音的基本波形将混合语音波形分离成多个单人语音,便于识别每个用户对应的单人语音。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图5所示,包括:
S100获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
S200获取多人混合语音。
S300将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
S400获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数。
具体的,获取多人混合语音对应的混合语音用户信息,得到多人混合语音中包含的人数。例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音所组成的多人混合语音,获取一起朗读的学生的姓名以及人数。
S450统计分离出的所述单人语音的个数。
具体的,统计上述根据基本波形库从多人混合语音中分离出来的单人语音的个数。
S500当所述个数小于所述人数时,根据所述基本波形库获取将所述单人语音对应的单人语音用户信息。
具体的,当分离出来的单人语音的个数小于多人混合语音中包含的人数时,说明存在部分用户对应的单人语音没有从多人混合语音中分离出来。根据所述基本波形库中基本波形与用户信息之间的对应关系,获取分离出来的单人语音对应的单人语音用户信息。
S550将所述单人语音用户信息和所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息。
S600根据所述未分离语音用户信息获取对应的未分离语音基本波形。
具体的,将分离出来的单人语音对应的单人语音用户信息和多人混合语音对应的混合语音用户信息进行对比,从而得到多人混合语音中未分离的语音对应的未分离语音用户信息,获取该未分离语音用户信息对应的用户的语音。然后分析得出对应的未分离语音基本波形。
例如,在课堂上、课后,10个学生们一起大声朗读,此时朗读录音,家教机接收的是来自10个用户的声音所组成的多人混合语音,但是只分离出9个单人语音,对比得到学生甲的单人语音没有被分离出来,获取学生甲的语音,从中分析得到学生甲的声音的基本波形。
S650根据所述未分离语音基本波形和对应的所述未分离语音用户信息更新所述基本波形库。
S700根据所述未分离语音基本波形分离所述多人混合语音。
具体的,将未分离语音基本波形和对应的未分离语音用户信息添加进基本波形库,从而更新基本波形库。然后根据得到的未分离语音基本波形从多人混合语音中分离出之前没有分离出来的单人语音。上述更新基本波形库以及分离之前没有分离出来的单人语音的步骤没有先后之分。
S800将所述用户信息作为标记信息标记对应的所述单人语音。
S850根据所述标记信息存储所述单人语音。
S900根据存储的所述单人语音分析对应的用户的语音质量。
本实施例中,通过将分离出来的单人语音对应的用户信息和多人混合语音所包含的用户信息进行对比,从而确定未分离出的单人语音,并采取相应的措施急需进行分离,以及更新基本波形库。
本发明的一个实施例,如图6所示,一种语音分离系统1000,包括:
波形库建立模块1100,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
具体的,每一种声音都有各自的基本波形,称为基波。波形库建立模块1100获取用户声音的基本波形以及对应的用户信息,该用户信息包括用户姓名、年龄、性别等信息。然后根据基本波形和用户信息建立基本波形库。
语音获取模块1200,获取多人混合语音。
具体的,语音获取模块1200获取多人混合语音。例如在课堂上、课后,学生们喜欢一起大声朗读,如果此时进行录音,家教机接收的是来自不同用户的声音所形成的多人混合语音。
分离模块1300,将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
具体的,分离模块1300将多人混合语音和基本波形库进行匹配,由于基本波形库中包含多个用户声音的基本波形,因此根据每个用户声音的基本波形将多人混合语音分离为多个单人语音。
本实施例中,获取每个用户声音独特的基本波形,然后通过每个用户声音的基本波形将获取的多人混合语音分离成多个单人语音,从而便于识别每个用户对应的单人语音。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图7所示,包括:
波形库建立模块1100,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
语音获取模块1200,获取多人混合语音。
分离模块1300,将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
标记模块1800,将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。
具体的,标记模块1800根据基本波形库确定分离出来的单人语音对应的用户信息,然后将该用户信息作为标记信息对对应的单人语音进行标记,便于对单人语音进行区分。
存储模块1850,根据所述标记模块1800得到的所述标记信息存储所述单人语音。
具体的,存储模块1850将分离出来的单人语音存储起来,根据标记信息进行标记,例如存储时将标记信息作为对应的单人语音的文件命名,便于后续用户寻找需要的单人语音。
分析模块1900,根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。
具体的,分析模块1900根据存储的单人语音分析对应的用户的语音质量,单人语音是根据标记信息进行存储,因此用户可以明确每一个单人语音对应的用户。例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音所组成的多人混合语音,分离出每个学生各自产生的单人语音,并进行存储,那么用户后续可以随时回放和老师检查每一个学生的朗读效果。
本实施例中,将分离出的单人语音按照对应的用户信息进行标记以及存储,一方面便于查找对应的用户的单人语音,另一方面便于后续针对每一个单人语音进行单独分析。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图8所示,包括:
波形库建立模块1100,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
所述波形库建立模块1100具体包括:
获取单元,获取用户语音以及对应的用户信息。
分析单元,分析所述获取单元获取的所述用户语音,得到对应的用户的声音的基本波形。
具体的,获取单元获取用户语音以及对应的用户信息,分析单元分析用户语音得到对应的用户的声音的基本波形。由于获取用户语音是用于分析对应的基本波形,因此用户语音的内容并没有特定的限制。另外该用户信息包括用户姓名、年龄、性别等信息。
波形库建立单元,根据所述分析单元得到的所述基本波形和所述获取单元获取的所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
具体的,波形库建立单元根据基本波形和用户信息建立基本波形库,在基本波形库中建立基本波形和用户信息之间的映射关系,便于后续确定分离出的单人语音对应的用户信息。
语音获取模块1200,获取多人混合语音。
分离模块1300,将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
标记模块1800,将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。
存储模块1850,根据所述标记模块1800得到的所述标记信息存储所述单人语音。
分析模块1900,根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。
本实施例中,根据基本波形和用户信息建立基本波形库,在基本波形库中建立基本波形和用户信息之间的映射关系,便于后续确定分离出的单人语音对应的用户信息。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图9所示,包括:
波形库建立模块1100,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
语音获取模块1200,获取多人混合语音。
分离模块1300,将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
所述分离模块1300具体包括:
处理单元,根据所述多人混合语音得到对应的混合语音波形。
分离单元,将所述处理单元得到的所述混合语音波形和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
具体的,处理单元根据多人混合语音得到对应的混合语音波形,便于和基本波形库中的基本波形进行对比以及匹配,然后分离单元将混合语音波形和基本波形库进行匹配,将多人混合语音分离为多个单人语音。
例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音所组成的多人混合语音,根据多人混合语音得到对应的混合语音波形,然后根据预先获取的每个学生的声音对应的基本波形从混合语音波形中分离出每个学生各自产生的单人语音,并进行存储,那么用户后续可以随时回放和老师检查每一个学生的朗读效果。
标记模块1800,将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。
存储模块1850,根据所述标记模块1800得到的所述标记信息存储所述单人语音。
分析模块1900,根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。
本实施例中,根据获取的多人混合语音得到对应的混合语音波形,然后通过每个用户声音的基本波形将混合语音波形分离成多个单人语音,便于识别每个用户对应的单人语音。
本发明的另一个实施例,是在上述实施例基础上的优化实施例,如图10所示,包括:
波形库建立模块1100,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库。
语音获取模块1200,获取多人混合语音。
分离模块1300,将所述语音获取模块1200获取的所述多人混合语音和所述波形库建立模块1100建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
信息获取模块1400,获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数。
具体的,信息获取模块1400获取多人混合语音对应的混合语音用户信息,得到多人混合语音中包含的人数。例如,在课堂上、课后,学生们一起大声朗读,此时朗读录音,家教机接收的是来自不同用户的声音所组成的多人混合语音,获取一起朗读的学生的姓名以及人数。
统计模块1450,统计所述分离模块1300分离出的所述单人语音的个数。
具体的,统计模块1450统计上述根据基本波形库从多人混合语音中分离出来的单人语音的个数。
获取模块1500,当所述统计模块1450统计的所述个数小于所述信息获取模块1400得到的所述人数时,根据所述波形库建立模块1100建立的所述基本波形库获取将所述单人语音对应的单人语音用户信息。
具体的,当分离出来的单人语音的个数小于多人混合语音中包含的人数时,说明存在部分用户对应的单人语音没有从多人混合语音中分离出来。获取模块1500根据所述基本波形库中基本波形与用户信息之间的对应关系,获取分离出来的单人语音对应的单人语音用户信息。
对比模块1550,将所述获取模块1500获取的所述单人语音用户信息和所述信息获取模块1400获取的所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息。
波形获取模块1600,根据所述对比模块1550得到的所述未分离语音用户信息获取对应的未分离语音基本波形。
具体的,对比模块1550将分离出来的单人语音对应的单人语音用户信息和多人混合语音对应的混合语音用户信息进行对比,从而得到多人混合语音中未分离的语音对应的未分离语音用户信息,波形获取模块1600获取该未分离语音用户信息对应的用户的语音。然后分析得出对应的未分离语音基本波形。
例如,在课堂上、课后,10个学生们一起大声朗读,此时朗读录音,家教机接收的是来自10个用户的声音所组成的多人混合语音,但是只分离出9个单人语音,对比得到学生甲的单人语音没有被分离出来,获取学生甲的语音,从中分析得到学生甲的声音的基本波形。
更新模块1650,根据所述波形获取模块1600获取的所述未分离语音基本波形和所述对比模块1550得到的对应的所述未分离语音用户信息更新所述基本波形库。
控制模块1700,根据所述波形获取模块1600获取的所述未分离语音基本波形分离所述语音获取模块1200获取的所述多人混合语音。
具体的,更新模块1650将未分离语音基本波形和对应的未分离语音用户信息添加进基本波形库,从而更新基本波形库。然后控制模块1700根据得到的未分离语音基本波形从多人混合语音中分离出之前没有分离出来的单人语音。上述更新模块1650更新基本波形库以及控制模块1700分离之前没有分离出来的单人语音的步骤没有先后之分。
标记模块1800,将所述波形库建立模块1100获取的所述用户信息作为标记信息标记对应的所述单人语音。
存储模块1850,根据所述标记模块1800得到的所述标记信息存储所述单人语音。
分析模块1900,根据所述存储模块1850存储的所述单人语音分析对应的用户的语音质量。
本实施例中,通过将分离出来的单人语音对应的用户信息和多人混合语音所包含的用户信息进行对比,从而确定未分离出的单人语音,并采取相应的措施急需进行分离,以及更新基本波形库。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语音分离方法,其特征在于,包括:
获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库;
获取多人混合语音;
将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音;
获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数;
统计分离出的所述单人语音的个数;
当所述个数小于所述人数时,根据所述基本波形库获取所述单人语音对应的单人语音用户信息;
将所述单人语音用户信息和所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息;
根据所述未分离语音用户信息获取对应的未分离语音基本波形;
根据所述未分离语音基本波形分离所述多人混合语音。
2.根据权利要求1所述的语音分离方法,其特征在于,所述的获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立所述基本波形库具体包括:
获取用户语音以及对应的用户信息;
分析所述用户语音,得到对应的用户的声音的基本波形;
根据所述基本波形和所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
3.根据权利要求1所述的语音分离方法,其特征在于,所述的将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音具体包括:
根据所述多人混合语音得到对应的混合语音波形;
将所述混合语音波形和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
4.根据权利要求1所述的语音分离方法,其特征在于,还包括:
根据所述未分离语音基本波形和对应的所述未分离语音用户信息更新所述基本波形库。
5.根据权利要求1-4任一项所述的语音分离方法,其特征在于,所述的将所述多人混合语音和所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音之后包括:
将所述用户信息作为标记信息标记对应的所述单人语音;
根据所述标记信息存储所述单人语音;
根据存储的所述单人语音分析对应的用户的语音质量。
6.一种语音分离系统,其特征在于,包括:
波形库建立模块,获取用户声音的基本波形以及对应的用户信息,根据所述基本波形和所述用户信息建立基本波形库;
语音获取模块,获取多人混合语音;
分离模块,将所述语音获取模块获取的所述多人混合语音和所述波形库建立模块建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音;
信息获取模块,获取所述多人混合语音对应的混合语音用户信息,得到所述多人混合语音中包含的人数;
统计模块,统计所述分离模块分离出的所述单人语音的个数;
获取模块,当所述统计模块统计的所述个数小于所述信息获取模块得到的所述人数时,根据所述波形库建立模块建立的所述基本波形库获取所述单人语音对应的单人语音用户信息;
对比模块,将所述获取模块获取的所述单人语音用户信息和所述信息获取模块获取的所述混合语音用户信息进行对比,获取所述多人混合语音中未分离的语音对应的未分离语音用户信息;
波形获取模块,根据所述对比模块得到的所述未分离语音用户信息获取对应的未分离语音基本波形;
控制模块,根据所述波形获取模块获取的所述未分离语音基本波形分离所述语音获取模块获取的所述多人混合语音。
7.根据权利要求6所述的语音分离系统,其特征在于,所述波形库建立模块具体包括:
获取单元,获取用户语音以及对应的用户信息;
分析单元,分析所述获取单元获取的所述用户语音,得到对应的用户的声音的基本波形;
波形库建立单元,根据所述分析单元得到的所述基本波形和所述获取单元获取的所述用户信息建立所述基本波形库,在所述基本波形库建立所述基本波形和所述用户信息之间的映射关系。
8.根据权利要求6所述的语音分离系统,其特征在于,所述分离模块具体包括:
处理单元,根据所述多人混合语音得到对应的混合语音波形;
分离单元,将所述处理单元得到的所述混合语音波形和所述波形库建立模块建立的所述基本波形库进行匹配,将所述多人混合语音分离为多个单人语音。
9.根据权利要求6所述的语音分离系统,其特征在于,还包括:
更新模块,根据所述波形获取模块获取的所述未分离语音基本波形和所述对比模块得到的对应的所述未分离语音用户信息更新所述基本波形库。
10.根据权利要求6-9任一项所述的语音分离系统,其特征在于,还包括:
标记模块,将所述波形库建立模块获取的所述用户信息作为标记信息标记对应的所述单人语音;
存储模块,根据所述标记模块得到的所述标记信息存储所述单人语音;分析模块,根据所述存储模块存储的所述单人语音分析对应的用户的语音质量。
CN201811430304.6A 2018-11-28 2018-11-28 一种语音分离方法及系统 Active CN109326303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811430304.6A CN109326303B (zh) 2018-11-28 2018-11-28 一种语音分离方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811430304.6A CN109326303B (zh) 2018-11-28 2018-11-28 一种语音分离方法及系统

Publications (2)

Publication Number Publication Date
CN109326303A CN109326303A (zh) 2019-02-12
CN109326303B true CN109326303B (zh) 2021-12-24

Family

ID=65259165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811430304.6A Active CN109326303B (zh) 2018-11-28 2018-11-28 一种语音分离方法及系统

Country Status (1)

Country Link
CN (1) CN109326303B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514884A (zh) * 2012-06-26 2014-01-15 华为终端有限公司 通话音降噪方法及终端
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108696768A (zh) * 2018-05-08 2018-10-23 北京恒信彩虹信息技术有限公司 一种语音识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514884A (zh) * 2012-06-26 2014-01-15 华为终端有限公司 通话音降噪方法及终端
CN107749313A (zh) * 2017-11-23 2018-03-02 郑州大学第附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108696768A (zh) * 2018-05-08 2018-10-23 北京恒信彩虹信息技术有限公司 一种语音识别方法及系统

Also Published As

Publication number Publication date
CN109326303A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109887349B (zh) 一种听写辅助方法及装置
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
CN109697976B (zh) 一种发音识别方法及装置
JP3848319B2 (ja) 情報処理方法及び情報処理装置
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
CN109545218A (zh) 一种语音识别方法及系统
CN111048095A (zh) 一种语音转写方法、设备及计算机可读存储介质
CN111681143A (zh) 基于课堂语音的多维度分析方法、装置、设备及存储介质
US20180210951A1 (en) Audio augmented reality system
KR20200002141A (ko) 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
CN109326303B (zh) 一种语音分离方法及系统
CN110111778A (zh) 一种语音处理方法、装置、存储介质及电子设备
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
CN112201217A (zh) 一种乐器演奏的评判方法、装置和设备
CN107452408B (zh) 一种音频播放方法及装置
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
JP3664499B2 (ja) 音声情報の処理方法及びその装置
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
CN111859008A (zh) 一种推荐音乐的方法及终端
US20220012420A1 (en) Process, system, and method for collecting, predicting, and instructing the pronunciaiton of words
CN110570838B (zh) 语音流处理方法和装置
CN108182946B (zh) 一种基于声纹识别的声乐模式选择方法及装置
TW202109280A (zh) 學習支援裝置、學習支援方法及記錄媒體
CN110099332A (zh) 一种音频环境展示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant