CN107967912A - 一种人声分割方法及装置 - Google Patents
一种人声分割方法及装置 Download PDFInfo
- Publication number
- CN107967912A CN107967912A CN201711215764.2A CN201711215764A CN107967912A CN 107967912 A CN107967912 A CN 107967912A CN 201711215764 A CN201711215764 A CN 201711215764A CN 107967912 A CN107967912 A CN 107967912A
- Authority
- CN
- China
- Prior art keywords
- voice
- sound bite
- module
- cluster
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000004913 activation Effects 0.000 claims abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种人声分割方法及装置,包括:对音频数据进行特征向量的提取;对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;将不同聚类标签对应的语音片段分别按照时间顺序进行排列,并输出排列和合并后的不同聚类标签的语音片段。本发明中采用概率分布聚类方法进行聚类操作,无需对语音片段进行建模,可以对语音的特征向量快速聚类;加入了语音激活监测,只对语音片段进行处理,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。
Description
技术领域
本发明涉及音频领域,尤其涉及一种人声分割方法及装置。
背景技术
传统的基于文本的音频检索采用人工标注的方式,不但成本昂贵,而且效率低,而基于语音识别的检索技术虽然在效率上有所提升,但是却丢失了同样重要的说话人信息,因此,需要通过人声分割系统进行弥补。
人声分割是指在无先验知识的条件下,即在说话人数量和身份都未知的情况下,自动找到一段多个说话人语音的说话人改变点,并对这些语音段进行分类标注,使相同的说话人数据被标注为同一类。
目前的人声分割系统先寻找连续语音中的说话人改变点,将长语音分割成若干段短语音,之后对每段短语音提取特征,再运用常用层次聚类方法来对说话人进行聚类。它通过不断的分裂或合并来分割大类或者合并小类,直到满足一定的停止聚类准则。
但是这种人声分割系统的效率较低,需要对每段语音片段进行建模,建模过程需要的时间较长。因此,导致了传统人声分割系统效率低,耗费时间长的技术问题。
发明内容
本发明提供了一种人声分割方法及装置,解决了传统人声分割系统效率低,耗费时间长的技术问题。
本发明提供了一种人声分割方法,其特征在于,包括:
S1:对音频数据进行特征向量的提取;
S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
优选地,步骤S2具体包括:
S201:根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
S202:以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则执行步骤S204,若否,则执行步骤S203;
S203:将求解值最小的两个语音片段进行合并,并返回步骤S202;
S204:停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。
优选地,步骤S1之前还包括:
S0:获取wav文件格式中的音频数据。
本发明提供了一种人声分割装置,其特征在于,包括:
特征提取模块,用于对音频数据进行特征向量的提取;
语音激活模块,用于对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
聚类模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
排列输出模块,用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
优选地,聚类模块具体包括:
分割子模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
丢失计算子模块,用于以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则触发聚类输出子模块,若否,则触发合并子模块;
合并子模块,用于将求解值最小的两个语音片段进行合并,并触发丢失计算子模块;
聚类输出子模块,用于停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。
优选地,还包括:
读取模块,用于获取wav文件格式中的音频数据。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种人声分割方法,其特征在于,包括:S1:对音频数据进行特征向量的提取;S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
本发明中采用概率分布聚类方法对语音片段进行聚类操作,无需像传统的人声分割系统对语音片段进行建模,可以对语音的特征向量快速处理,实现快速聚类;并且加入了语音激活监测,区分静音片段和语音片段,只对语音片段进行处理,进一步减少了人声分割的工作量,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种人声分割方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种人声分割方法的另一个实施例的流程示意图;
图3为本发明实施例提供的一种人声分割装置的一个实施例的流程示意图;
图4为本发明实施例提供的一种人声分割装置的另一个实施例的流程示意图。
具体实施方式
本发明实施例提供了一种人声分割方法及装置,解决了传统人声分割系统效率低,耗费时间长的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种人声分割方法的一个实施例,包括:
步骤101:对音频数据进行特征向量的提取;
步骤102:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
需要说明的是,PCM数据进行特征向量的提取和语音激活监测后存入内存,转而释放PCM数据内存块;
通过语音激活检测可以将静音片段过滤,减小人声分割的工作量。
步骤103:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
需要说明的是,概率分布聚类方法从率失真理论的基础上发展而来,采用联合概率分布表示数据,以互信息作为度量手段,刻画样本和样本属性的相关性,并不需要对样本之间的距离函数做任何假设。
步骤104:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
需要说明的是,例如最后剩下三个标签,但是三个标签中的语音片段都是杂乱的,需要对各个标签中的语音片段按照时间顺序进行排列梳理,然后再分别输出。
本发明中采用概率分布聚类方法对语音片段进行聚类操作,无需像传统的人声分割系统对语音片段进行建模,可以对短语音的特征向量快速处理,实现快速聚类;并且加入了语音激活监测,区分静音片段和语音片段,只对语音片段进行处理,进一步减少了人声分割的工作量,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。
以上为本发明提供的一种人声分割方法的一个实施例,以下为本发明提供的一种人声分割方法的另一个实施例。
请参阅图2,本发明提供了一种人声分割方法的另一个实施例,包括:
步骤201:获取wav文件格式中的音频数据;
需要说明的是,读取wav格式的音频数据(即PCM数据),将PCM数据导入内存,进行后续的步骤。
步骤202:对音频数据进行特征向量的提取;
步骤203:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
需要说明的是,例如三个人对话,则将人声的部分作为语音片段,非人声的部分作为静音片段。
步骤204:根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
需要说明的是,例如将语音片段以250ms为单位进行分割。
步骤205:以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则执行步骤207,若否,则执行步骤206;
需要说明的是,步骤205需要将所有的分割后的语音片段以两两为一组进行组合,例如:存在A、B、C三个片段,则有AB、AC和BC三种两两为一组的组合方式;
并且计算每一种组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值;
此步骤是为了衡量当合并两个语音片段时语音片段信息的损失程度,判断是否仍有可合并的两个语音片段。
步骤206:将求解值最小的两个语音片段进行合并,并返回步骤205;
需要说明的是,如果任意两个语音片段的信息丢失函数都不超过预置阈值,则将信息丢失函数最小,即相性最高的两个语音片段进行融合,并返回步骤205。
步骤207:停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签;
需要说明的是,若存在任意两个语音片段的信息丢失函数超过预置阈值,则停止聚类操作,例如最后剩下三个合并后的语音片段,则输出三个聚类标签。
步骤208:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
需要说明的是,本发明中采用概率分布聚类方法对语音片段进行聚类操作,无需像传统的人声分割系统对语音片段进行建模,可以对短语音的特征向量快速处理,实现快速聚类;并且加入了语音激活监测,区分静音片段和语音片段,只对语音片段进行处理,进一步减少了人声分割的工作量,提高了工作效率,解决了传统人声分割系统效率低,耗费时间长的技术问题。
以上为本发明提供的一种人声分割方法的另一个实施例,以下为本发明提供的一种人声分割装置的一个实施例。
请参阅图3,本发明提供了一种人声分割装置的一个实施例,包括:
特征提取模块301,用于对音频数据进行特征向量的提取;
语音激活模块302,用于对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
聚类模块303,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
排列输出模块304,用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
以上为本发明实施例提供的一种人声分割装置的一个实施例,以下为本发明实施例提供的一种人声分割装置的另一个实施例。
请参阅图4,本发明是实力提供了一种人声分割装置的另一个实施例,包括:
特征提取模块402,用于对音频数据进行特征向量的提取;
语音激活模块403,用于对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
聚类模块404,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
排列输出模块405,用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
进一步地,聚类模块404具体包括:
分割子模块4041,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
丢失计算子模块4042,用于以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则触发聚类输出子模块4044,若否,则触发合并子模块4043;
合并子模块4043,用于将求解值最小的两个语音片段进行合并,并触发丢失计算子模块4042;
聚类输出子模块4044,用于停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。
进一步地,还包括:
读取模块401,用于获取wav文件格式中的音频数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种人声分割方法,其特征在于,包括:
S1:对音频数据进行特征向量的提取;
S2:对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
S3:根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
S4:将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
2.根据权利要求1所述的一种人声分割方法,其特征在于,步骤S2具体包括:
S201:根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
S202:以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则执行步骤S204,若否,则执行步骤S203;
S203:将求解值最小的两个语音片段进行合并,并返回步骤S202;
S204:停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。
3.根据权利要求1所述的一种人声分割方法,其特征在于,步骤S1之前还包括:
S0:获取wav文件格式中的音频数据。
4.一种人声分割装置,其特征在于,包括:
特征提取模块,用于对音频数据进行特征向量的提取;
语音激活模块,用于对音频数据进行语音激活监测,将静音片段和语音片段分别进行标注;
聚类模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割,将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签;
排列输出模块,用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并,并输出排列和合并后的不同聚类标签的语音片段。
5.根据权利要求1所述的一种人声分割装置,其特征在于,聚类模块具体包括:
分割子模块,用于根据标注提取语音片段,将语音片段按照预置时间长度进行分割;
丢失计算子模块,用于以任意两个分割后的语音片段为一种组合方式,计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值,判断最小的求解值是否超过预置阈值,若是,则触发聚类输出子模块,若否,则触发合并子模块;
合并子模块,用于将求解值最小的两个语音片段进行合并,并触发丢失计算子模块;
聚类输出子模块,用于停止聚类并根据聚类结果进行排列和合并,分别输出对应的聚类标签。
6.根据权利要求1所述的一种人声分割装置,其特征在于,还包括:
读取模块,用于获取wav文件格式中的音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711215764.2A CN107967912B (zh) | 2017-11-28 | 2017-11-28 | 一种人声分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711215764.2A CN107967912B (zh) | 2017-11-28 | 2017-11-28 | 一种人声分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967912A true CN107967912A (zh) | 2018-04-27 |
CN107967912B CN107967912B (zh) | 2022-02-25 |
Family
ID=61998122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711215764.2A Active CN107967912B (zh) | 2017-11-28 | 2017-11-28 | 一种人声分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967912B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637547A (zh) * | 2019-01-29 | 2019-04-16 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
CN110930984A (zh) * | 2019-12-04 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111063341A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 复杂环境中多人语音的分割聚类方法及系统 |
CN111240540A (zh) * | 2019-12-27 | 2020-06-05 | 咪咕视讯科技有限公司 | 视频调整方法、具有柔性屏的终端及存储介质 |
CN111613249A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种语音分析方法和设备 |
CN111785302A (zh) * | 2020-06-23 | 2020-10-16 | 北京声智科技有限公司 | 说话人分离方法、装置及电子设备 |
CN112513892A (zh) * | 2018-07-31 | 2021-03-16 | 三菱电机株式会社 | 信息处理装置、程序及信息处理方法 |
CN113178196A (zh) * | 2021-04-20 | 2021-07-27 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
CN113870890A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 说话人分割聚类方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1801714B1 (en) * | 2005-12-20 | 2011-04-20 | Xerox Corporation | Generation of descriptions for classes and clusters of documents |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN104240719A (zh) * | 2013-06-24 | 2014-12-24 | 浙江大华技术股份有限公司 | 音频的特征提取方法、音频的分类方法和相关装置 |
CN104835493A (zh) * | 2014-02-10 | 2015-08-12 | 株式会社东芝 | 语音合成字典生成装置和语音合成字典生成方法 |
CN107038155A (zh) * | 2017-04-23 | 2017-08-11 | 四川用联信息技术有限公司 | 基于改进的小世界网络模型实现文本特征的提取方法 |
-
2017
- 2017-11-28 CN CN201711215764.2A patent/CN107967912B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1801714B1 (en) * | 2005-12-20 | 2011-04-20 | Xerox Corporation | Generation of descriptions for classes and clusters of documents |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN104240719A (zh) * | 2013-06-24 | 2014-12-24 | 浙江大华技术股份有限公司 | 音频的特征提取方法、音频的分类方法和相关装置 |
CN104835493A (zh) * | 2014-02-10 | 2015-08-12 | 株式会社东芝 | 语音合成字典生成装置和语音合成字典生成方法 |
CN107038155A (zh) * | 2017-04-23 | 2017-08-11 | 四川用联信息技术有限公司 | 基于改进的小世界网络模型实现文本特征的提取方法 |
Non-Patent Citations (4)
Title |
---|
冯志伟: "《自然语言计算机形式分析的理论与方法》", 31 January 2017 * |
冷严: "复杂音频的事件检测与分类中的关键问题研究", 《中国博士学位论文全文数据库信息科技辑》 * |
张力: "一种融合IB准则特征的说话人分段聚类方法", 《太赫兹科学与电子信息学报》 * |
李晓雯: "一种基于几何概率的聚类有效性函数", 《中国图象图形学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112513892A (zh) * | 2018-07-31 | 2021-03-16 | 三菱电机株式会社 | 信息处理装置、程序及信息处理方法 |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
CN109637547A (zh) * | 2019-01-29 | 2019-04-16 | 北京猎户星空科技有限公司 | 音频数据标注方法、装置、电子设备及存储介质 |
CN110930984A (zh) * | 2019-12-04 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111240540A (zh) * | 2019-12-27 | 2020-06-05 | 咪咕视讯科技有限公司 | 视频调整方法、具有柔性屏的终端及存储介质 |
CN111240540B (zh) * | 2019-12-27 | 2023-11-10 | 咪咕视讯科技有限公司 | 视频调整方法、具有柔性屏的终端及存储介质 |
CN111063341A (zh) * | 2019-12-31 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 复杂环境中多人语音的分割聚类方法及系统 |
CN111613249A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种语音分析方法和设备 |
CN111785302A (zh) * | 2020-06-23 | 2020-10-16 | 北京声智科技有限公司 | 说话人分离方法、装置及电子设备 |
CN113178196A (zh) * | 2021-04-20 | 2021-07-27 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
CN113870890A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 说话人分割聚类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107967912B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967912A (zh) | 一种人声分割方法及装置 | |
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
US10902856B2 (en) | System and method of diarization and labeling of audio data | |
CN109408555B (zh) | 数据类型识别方法及装置、数据入库方法及装置 | |
CN110390946A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN110517667A (zh) | 一种语音处理方法、装置、电子设备和存储介质 | |
CN108182945A (zh) | 一种基于声纹特征的多人声音分离方法及装置 | |
CN112289323A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN108257592A (zh) | 一种基于长短期记忆模型的人声分割方法及系统 | |
CN112966082B (zh) | 音频质检方法、装置、设备以及存储介质 | |
CN107393527A (zh) | 说话人数目的判断方法 | |
CN111462758A (zh) | 智能会议角色分类的方法、装置、设备及存储介质 | |
CN108763212A (zh) | 一种地址信息提取方法及装置 | |
CN104732969A (zh) | 语音处理系统及语音处理方法 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
US20230087477A1 (en) | Apparatus and method for separating voice sections from each other | |
CN112562682A (zh) | 基于多人通话的身份识别方法、系统、设备及存储介质 | |
CN105205636A (zh) | 一种计算物料需求计划mrp的方法及装置 | |
CN112331188A (zh) | 一种语音数据处理方法、系统及终端设备 | |
CN114861677A (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN109615087B (zh) | 一种标签辅助提高电网运维效率的方法 | |
CN111427996B (zh) | 一种人机交互文本中抽取日期时间的方法和装置 | |
CN115063155B (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
CN113393845A (zh) | 用于说话人识别的方法、装置、电子设备及可读存储介质 | |
CN115985315A (zh) | 说话人标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |