CN111105801B - 一种角色语音分离方法及装置 - Google Patents
一种角色语音分离方法及装置 Download PDFInfo
- Publication number
- CN111105801B CN111105801B CN201911221798.1A CN201911221798A CN111105801B CN 111105801 B CN111105801 B CN 111105801B CN 201911221798 A CN201911221798 A CN 201911221798A CN 111105801 B CN111105801 B CN 111105801B
- Authority
- CN
- China
- Prior art keywords
- user group
- voiceprint
- user
- result
- voiceprint characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 239000012634 fragment Substances 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 16
- 230000009286 beneficial effect Effects 0.000 description 6
- 210000001508 eye Anatomy 0.000 description 6
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种角色语音分离方法及装置,包括:建立一个数据信息库;在检测到用户对话时,对对话中的每一句话进行识别,其中,用户包括用户组a和用户组b;对识别的结果提取声纹特征,输出提取结果;获取提取结果中属于用户组a的声纹特征存入数据信息库中。通过将用户的对话内容进行声纹特征提取然后将提取的声纹特征根据角色的不同而各自对应分离,进而实现了语音的分离,只需获取到用户的对话内容进而提取即可实现,准备工作简单且方便。解决了现有技术中需要前期进行录音并根据录音训练数据,准备工作的实施成本太高的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种角色语音分离方法及装置。
背景技术
目前,在各个公司的行政和客服人员都要和客户进行沟通和交流,在交流完后会根据需要的对对话内容进行角色分离和设定,相同的情况还有提审系统、会议系统外呼系统等。现有的角色分离技术是通过程控交换机、声卡等专业设备,配合软件,在通道上实现角色的分离和设定的,但是这种方法存着着以下问题:为了获取较高的准确率,达到实际可用,需要前期进行录音,根据录音训练数据,准备工作的实施成本太高。
发明内容
针对上述所显示出来的问题,本方法基于利用声纹识别引擎和聚类算法来提取出对话内容中的声音特征来区分角色进而来实现角色的分离。
一种角色语音分离方法,包括以下步骤:
建立一个数据信息库;
在检测到用户对话时,对所述对话中的每一句话进行识别,其中,所述用户包括用户组a和用户组b;
对识别的结果提取声纹特征,输出提取结果;
获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中。
优选的,所述在检测到用户对话时,对所述对话中的每一句话进行识别,包括:
获取所述用户的对话内容;
提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b;
将所述对话内容通过声纹引擎进行识别分类,分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集。
优选的,所述对识别的结果提取声纹特征,输出提取结果,包括:
利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征;
保存提取出来的所述用户组a和用户组b的m+n个声纹特征;
利用聚类算法将所述m+n个声纹特征进行分类统计,输出第一统计结果。
优选的,所述方法还包括:
获取用户组a的声音素材进而生成声音信号谱;
根据所述声音信号谱对所述第一统计结果进行检索,检索出所述第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
若是,将所述属于用户组a的声纹特征整合起来保存;
否则,重新获取用户组a和用户组b的声音片段集并且提取所述声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。
优选的,所述获取提取结果中属于所述用户组a的声纹特征存入所述数据信息库中,包括:
将保存的声纹特征输入到所述数据信息库中;
将所述保存的声纹特征和用户组a的身份信息相匹配;
保存匹配的结果以更新所述数据信息库。
一种角色语音分离装置,该装置包括:
构建模块,用于建立一个数据信息库;
识别模块,用于在检测到用户对话时,对所述对话中的每一句话进行识别,其中,所述用户包括用户组a和用户组b;
提取模块,用于对识别的结果提取声纹特征,输出提取结果;
保存模块,用于获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中。
优选的,所述识别模块,包括:
获取子模块,用于获取所述用户的对话内容;
提取子模块,用于提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b;
识别子模块,用于将所述对话内容通过声纹引擎进行识别分类,分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集。
优选的,所述提取模块,包括:
提取子模块,用于利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征;
保存子模块,用于保存提取出来的所述用户组a和用户组b的m+n个声纹特征;
统计子模块,用于利用聚类算法将所述m+n个声纹特征进行分类统计,输出第一统计结果。
优选的,所述装置还包括:
获取模块,用于获取用户组a的声音素材进而生成声音信号谱;
检索模块,用于根据所述声音信号谱对所述第一统计结果进行检索,检索出所述第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定模块,用于确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
控制模块,用于当所述确定模块确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率时,将所述属于用户组a的声纹特征整合起来保存,否则,控制所述提取模块重新提取声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。
优选的,所述保存模块,包括:
输入子模块,用于将保存的声纹特征输入到所述数据信息库中;
匹配子模块,用于将所述保存的声纹特征和用户组a的身份信息相匹配;
更新子模块,用于保存匹配的结果以更新所述数据信息库。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种角色语音分离方法的工作流程图;
图2为本发明所提供的一种角色语音分离方法的另一工作流程图;
图3为本发明所提供的一种角色语音分离方法的工作流程截图;
图4为本发明所提供的一种角色语音分离方法的另一工作流程截图;
图5为本发明所提供的一种角色语音分离装置的结构图;
图6为本发明所提供的一种角色语音分离装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
目前,在各个公司的行政和客服人员都要和客户进行沟通和交流,在交流完后会根据需要的对对话内容进行角色分离和设定,相同的情况还有提审系统、会议系统外呼系统等。现有的角色分离技术是通过程控交换机、声卡等专业设备,配合软件,在通道上实现角色的分离和设定的,但是这种方法存着着以下问题:1、为了获取较高的准确率,达到实际可用,需要前期进行录音,根据录音训练数据,准备工作的实施成本太高。2、程控交换机、声卡等专业设备,设备成本高,实施周期长。且在声音混合存储以后,再处理较为不便。为了解决上述问题,本实施例公开了一种基于利用声纹识别引擎和聚类算法来提取出对话内容中的声音特征来区分角色进而来实现角色的分离的方法。
一种角色语音分离方法,如图1所示,包括以下步骤:
步骤S101、建立一个数据信息库;
步骤S102、在检测到用户对话时,对对话中的每一句话进行识别,其中,用户包括用户组a和用户组b;
步骤S103、对识别的结果提取声纹特征,输出提取结果;
步骤S104、获取提取结果中属于用户组a的声纹特征存入数据信息库中;
特别的,上述用户组a的可以为客服、人事等服务人员,上述用户组b可以为客户等被服务对象;用户组a与用户组b为对话双方。
上述技术方案的工作原理为:预先建立一个数据信息库用于存储用户数据,然后检测上述用户的对话状态,当检测到用户对话时,对对话中的每一句话进行识别,对识别的结果提取声纹特征并且提取出上述声纹特征中属于用户中用户组a的声纹特征进行保存,最后将保存的声纹特征存入到预先建立的数据信息库中。
上述技术方案的有益效果为:通过将用户的对话内容进行声纹特征提取然后将提取的声纹特征根据角色的不同而各自对应分离,进而实现了语音的分离,只需获取到用户的对话内容进而提取即可实现,准备工作简单且方便。解决了现有技术中需要前期进行录音并根据录音训练数据,准备工作的实施成本太高的问题。
在一个实施例中,在检测到用户对话时,对对话中的每一句话进行识别,包括:
获取用户的对话内容;
提取用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b;
将对话内容通过声纹引擎进行识别分类,分为用户组a的m个声音片段集和用户组b的n个声音片段集;
特别的,上述m与n为大于等于1的正整数,m和n的值可以是相同的也可以是不同的,取决于用户组a和用户组b的对话内容,当用户组a和用户组b的语音数量相同时,则m=n,否则m≠n,m和n的数量关系取决于用户组a和用户组b哪一个的语音数量多。
上述技术方案的有益效果为:提取用户组a的身份信息并存储到数据信息库中可以和提取出来的用户组a的声纹特征相匹配,避免多个声纹特征混乱无法分清的现象,分为m个声音片段集和n个声音片段集可以更快的提取声纹特征,而无需提取出来结果进行分类,提高了语音分离的效率。
在一个实施例中,如图2所示,对识别的结果提取声纹特征,输出提取结果,包括:
步骤S201、利用声纹识别引擎提取用户组a的m个声音片段集和用户组b的n个声音片段集的声纹特征;
步骤S202、保存提取出来的用户组a和用户组b的m+n个声纹特征;
步骤S203、利用聚类算法将m+n个声纹特征进行分类统计,输出第一统计结果。
上述技术方案的有益效果为:利用聚类算法可将用户组a和用户组b的声纹特征分别统计,并且聚类算法相比于现有技术分离的结果更加准确,提取的声纹特征也是稳定无误的,相比于现有技术提高了稳定性和准确性。
在一个实施例中,上述方法还包括:
获取用户组a的声音素材进而生成声音信号谱;
根据声音信号谱对第一统计结果进行检索,检索出第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
若是,将属于用户组a的声纹特征整合起来保存;
否则,重新获取用户组a和用户组b的声音片段集并且提取声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止;
特别的,上述预设阈值可以为1,上述预设概率可以为80%。
上述技术方案的有益效果为:根据用户组a的声音素材生成信号谱,然后根据信号谱检索出用户组a的声纹特征可以将用户组a的声纹特征和用户组b的声纹特征更加明了的分离开来,确定用户组a的声纹特征和预设阈值或者概率的比较结果进而可以更加确定用户组a的声纹特征,避免了误识别和提取错误声纹特征的情况,进一步地提高了稳定性和准确性。
在一个实施例中,获取提取结果中属于用户组a的声纹特征存入数据信息库中,包括:
将保存的声纹特征输入到数据信息库中;
将保存的声纹特征和用户组a的身份信息相匹配;
保存匹配的结果以更新数据信息库。
上述技术方案的有益效果为:将保存的声纹信息和用户组a的身份信息相匹配方便以后再提取出用户组a的声纹特征后可以直接识别并且第一时间内快速的将语音进行分离,无需多次进行声纹提取,提高了效率,并且可根据用户a的身份信息随时更新其对应的声纹特征以应对更多情况,同时,用户可以根据身份信息随时调取包含用户组a的声纹信息的对应对话内容,方面快捷。解决了现有技术中程控交换机、声卡等专业设备设备成本高、实施周期长且在声音混合存储以后,再处理较为不便的问题。
在一个实施例中,如图3、图4所示,包括:
创建空的声纹-身份信息数据库,开始使用该套系统。设固定角色工作人员A(agent)通过账号A_Id登录系统,接收到n个顾客C1(Client)、C2、…、Cn打来的电话。设判定标准为超过数量阈值T,或者超过百分比P。
步骤1、将身份信息A_Id保存到数据库,相应声纹信息为空,此时数据库为[[Null,A_Id]];
步骤2、if A_Id对应的声纹信息==Null:
顾客Cn打来电话,A接听,分离对话,得到声音片段集,Xn1和Xn2,其中一个属于顾客,一个属于客服;
Xn1->通过声纹识别引擎->提取声纹特征Fn1;
Xn2->通过声纹识别引擎->提取声纹特征Fn2;
将Fn1、Fn2与之前1~n-1对特征暂存到一起,[F01,F02,…,Fn1,Fn2],输入到聚类算法模块,得到聚类结果;
如果其中一类结果数量>数量阈值Tor比重>百分比P:
将此类特征认定为角色A的声纹特征;
更新声纹-身份信息数据库,[[feature_A,A_Id]];
否则:等待下一通电话,重复步骤2;
步骤3、如果A_Id对应的声纹信息!=Null:
顾客Cn打来电话,A接听,分离对话,得到声音片段集,Xn1和Xn2;
已知A的声纹特征feature_A,通过声纹识别引擎对语音进行分类,判定顾客的语音和客服的语音;
步骤4、重复上述123,实现整个系统全部人员的特征提取和完善,得到数据库[[feature_A,A_Id],[feature_B,B_Id],…,]。
上述技术方案的工作原理和有益效果为:预先建立一个数据信息库用于存储用户数据,然后检测上述用户的对话状态,当检测到用户对话时,对对话中的每一句话进行识别,对识别的结果提取声纹特征并且提取出上述声纹特征中属于用户中用户组a的声纹特征进行保存,最后将保存的声纹特征存入到预先建立的数据信息库中。针对一方角色人员固定的对话系统,在几次会话之后,完成声纹特征的自动学习,从而实现角色自动分离和设定。相对于现有方法,不需要昂贵的专业设备,成本低、实施周期短、操作简便、无人工训练、应对人员流动和变化更加灵活。
本实施例还提供了一种角色语音分离装置,如图5所示,该装置包括:
构建模块501,用于建立一个数据信息库;
识别模块502,用于在检测到用户对话时,对对话中的每一句话进行识别,其中,用户包括用户组a和用户组b;
提取模块503,用于对识别的结果提取声纹特征,输出提取结果;
保存模块504,用于获取提取结果中属于用户组a的声纹特征存入数据信息库中。
在一个实施例中,识别模块,包括:
获取子模块,用于获取用户的对话内容;
提取子模块,用于提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b;
识别子模块,用于将对话内容通过声纹引擎进行识别分类,分为用户组a的m个声音片段集和用户组b的n个声音片段集。
在一个实施例中,如图6所示,提取模块,包括:
提取子模块5031,用于利用声纹识别引擎提取用户组a的m个声音片段集和用户组b的n个声音片段集的声纹特征;
保存子模块5032,用于保存提取出来的用户组a和用户组b的m+n个声纹特征;
统计子模块5033,用于利用聚类算法将m+n个声纹特征进行分类统计,输出第一统计结果。
在一个实施例中,上述装置还包括:
获取模块,用于获取用户组a的声音素材进而生成声音信号谱;
检索模块,用于根据声音信号谱对第一统计结果进行检索,检索出第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定模块,用于确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
控制模块,用于当确定模块确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率时,将属于用户组a的声纹特征整合起来保存,否则,控制提取模块重新提取声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于预设阈值或者概率大于等于预设概率为止。
在一个实施例中,保存模块,包括:
输入子模块,用于将保存的声纹特征输入到数据信息库中;
匹配子模块,用于将保存的声纹特征和用户组a的身份信息相匹配;
更新子模块,用于保存匹配的结果以更新数据信息库。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。例如:第一眼部区域特征是检测阶段的眼部特征,第二为训练阶段,且眼部特征可以是眼的大小、上下眼皮的距离等。关键点可以是位置等,如人脸关键点可以是人脸上轮廓、五官的位置等,人眼关键点可以是人眼的位置等。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (4)
1.一种角色语音分离方法,其特征在于,包括以下步骤:
建立一个数据信息库;
在检测到用户对话时,对所述对话中的每一句话进行识别,其中,所述用户包括用户组a和用户组b;
对识别的结果提取声纹特征,输出提取结果;
获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中;
所述在检测到用户对话时,对所述对话中的每一句话进行识别,包括:
获取所述用户的对话内容;
提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b;
将所述对话内容通过声纹引擎进行识别分类,分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集;
所述对识别的结果提取声纹特征,输出提取结果,包括:
利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征;
保存提取出来的所述用户组a和用户组b的m+n个声纹特征;
利用聚类算法将所述m+n个声纹特征进行分类统计,输出第一统计结果;
获取用户组a的声音素材进而生成声音信号谱;
根据所述声音信号谱对所述第一统计结果进行检索,检索出所述第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
若是,将所述属于用户组a的声纹特征整合起来保存;
否则,重新获取用户组a和用户组b的声音片段集并且提取所述声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。
2.根据权利要求1所述角色语音分离方法,其特征在于,所述获取提取结果中属于所述用户组a的声纹特征存入所述数据信息库中,包括:
将保存的声纹特征输入到所述数据信息库中;
将所述保存的声纹特征和用户组a的身份信息相匹配;
保存匹配的结果以更新所述数据信息库。
3.一种角色语音分离装置,其特征在于,该装置包括:
构建模块,用于建立一个数据信息库;
识别模块,用于在检测到用户对话时,对所述对话中的每一句话进行识别,其中,所述用户包括用户组a和用户组b;
提取模块,用于对识别的结果提取声纹特征,输出提取结果;
保存模块,用于获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中;
所述识别模块,包括:
获取子模块,用于获取所述用户的对话内容;
提取子模块,用于提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b;
识别子模块,用于将所述对话内容通过声纹引擎进行识别分类,分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集;
所述提取模块,包括:
提取子模块,用于利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征;
保存子模块,用于保存提取出来的所述用户组a和用户组b的m+n个声纹特征;
统计子模块,用于利用聚类算法将所述m+n个声纹特征进行分类统计,输出第一统计结果;
获取模块,用于获取用户组a的声音素材进而生成声音信号谱;
检索模块,用于根据所述声音信号谱对所述第一统计结果进行检索,检索出所述第一统计结果中属于用户组a的声纹特征,输出为第二统计结果;
确定模块,用于确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率;
控制模块,用于当所述确定模块确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率时,将所述属于用户组a的声纹特征整合起来保存,否则,控制所述提取模块重新提取声音片段集中用户组a和用户组b的声纹特征,直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。
4.根据权利要求3所述角色语音分离装置,其特征在于,所述保存模块,包括:
输入子模块,用于将保存的声纹特征输入到所述数据信息库中;
匹配子模块,用于将所述保存的声纹特征和用户组a的身份信息相匹配;
更新子模块,用于保存匹配的结果以更新所述数据信息库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221798.1A CN111105801B (zh) | 2019-12-03 | 2019-12-03 | 一种角色语音分离方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221798.1A CN111105801B (zh) | 2019-12-03 | 2019-12-03 | 一种角色语音分离方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105801A CN111105801A (zh) | 2020-05-05 |
CN111105801B true CN111105801B (zh) | 2022-04-01 |
Family
ID=70420950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911221798.1A Active CN111105801B (zh) | 2019-12-03 | 2019-12-03 | 一种角色语音分离方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111105801B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968650B (zh) * | 2020-08-17 | 2024-04-30 | 科大讯飞股份有限公司 | 语音匹配方法、装置、电子设备及存储介质 |
CN111968657B (zh) * | 2020-08-17 | 2022-08-16 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112562682A (zh) * | 2020-12-02 | 2021-03-26 | 携程计算机技术(上海)有限公司 | 基于多人通话的身份识别方法、系统、设备及存储介质 |
CN112562644A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 基于人声分离的客服服务质检方法、系统、设备及介质 |
CN112735432B (zh) * | 2020-12-24 | 2023-05-02 | 北京百度网讯科技有限公司 | 音频识别的方法、装置、电子设备及存储介质 |
CN113096669B (zh) * | 2021-03-31 | 2022-05-27 | 重庆风云际会智慧科技有限公司 | 基于角色识别的语音识别系统 |
CN113436625A (zh) * | 2021-06-25 | 2021-09-24 | 安徽淘云科技股份有限公司 | 一种人机交互方法及其相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778917A (zh) * | 2014-01-10 | 2014-05-07 | 厦门快商通信息技术有限公司 | 一种在电话满意度调查中检测身份冒充的系统与方法 |
CN104123115A (zh) * | 2014-07-28 | 2014-10-29 | 联想(北京)有限公司 | 一种音频信息处理方法及电子设备 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-12-03 CN CN201911221798.1A patent/CN111105801B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778917A (zh) * | 2014-01-10 | 2014-05-07 | 厦门快商通信息技术有限公司 | 一种在电话满意度调查中检测身份冒充的系统与方法 |
CN104123115A (zh) * | 2014-07-28 | 2014-10-29 | 联想(北京)有限公司 | 一种音频信息处理方法及电子设备 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111105801A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105801B (zh) | 一种角色语音分离方法及装置 | |
US10642889B2 (en) | Unsupervised automated topic detection, segmentation and labeling of conversations | |
CN110610705B (zh) | 一种基于人工智能的语音交互提示器 | |
CN109902957B (zh) | 一种数据处理方法和装置 | |
CN110110593A (zh) | 基于自学习的人脸考勤方法、装置、设备及存储介质 | |
CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
CN110210301B (zh) | 基于微表情评价面试者的方法、装置、设备和存储介质 | |
CN112185358A (zh) | 意图识别方法、模型的训练方法及其装置、设备、介质 | |
CN108924371B (zh) | 电力客服过程中通过来电号码识别户号的方法 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN111597821B (zh) | 一种确定应答概率的方法及装置 | |
CN113505606B (zh) | 一种培训信息获取方法、装置、电子设备及存储介质 | |
CN110428816B (zh) | 一种语音细胞库训练和分享的方法及装置 | |
CN109783822B (zh) | 一种基于验证码的数据样本识别系统及其方法 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN115099242B (zh) | 意图识别方法、系统、计算机及可读存储介质 | |
CN113793099B (zh) | 一种基于深度学习的智能客服交互管理方法、设备及计算机存储介质 | |
CN110428184B (zh) | 待办事项分发方法、装置、设备及计算机可读存储介质 | |
CN110874533B (zh) | 基于语音识别后的关键词匹配和应答路径的意向识别方法 | |
CN113191711A (zh) | 快递寄件策略确定方法、装置、设备及存储介质 | |
CN113642503B (zh) | 基于图像和语音识别的窗口服务评分方法及系统 | |
CN114154513B (zh) | 一种领域语义网自动构建方法及系统 | |
CN113345419B (zh) | 基于方言口音的语音转译方法、系统和可读存储介质 | |
CN110895657B (zh) | 一种基于口语对话特征的语义逻辑表达和分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |