CN116129909A - 一种基于聚类的声纹数据自动采集方法 - Google Patents

一种基于聚类的声纹数据自动采集方法 Download PDF

Info

Publication number
CN116129909A
CN116129909A CN202211579797.6A CN202211579797A CN116129909A CN 116129909 A CN116129909 A CN 116129909A CN 202211579797 A CN202211579797 A CN 202211579797A CN 116129909 A CN116129909 A CN 116129909A
Authority
CN
China
Prior art keywords
voiceprint
data
audio
audio data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211579797.6A
Other languages
English (en)
Inventor
夏立
周枫
朱和军
董文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202211579797.6A priority Critical patent/CN116129909A/zh
Publication of CN116129909A publication Critical patent/CN116129909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明属于声纹数据采集技术领域,提供了一种基于聚类的声纹数据自动采集方法,包括以下步骤:收集数据、音频解码、语音活性检测、音频质量检测、提取声纹特征、声纹聚类和处理缓存数据,首先通过收集大量的含有声音的原始音频数据,构建原始音频数据库,并通过音频解码模块对音频数据进行解码,确保音频数据符合后续的程序检测条件,并根据数据来源及标签情况进行声纹聚类;本发明通过一整套完备的声纹数据自动采集方案,可以从海量数据中筛选声纹数据,并融合了语音活性检测、声纹识别、声纹聚类算法等关键技术解决了无标签数据声纹样本采集的问题。

Description

一种基于聚类的声纹数据自动采集方法
技术领域
本发明属于声纹数据采集技术领域,更具体地说是一种基于聚类的声纹数据自动采集方法。
背景技术
声纹即是用电声学仪器显示的携带言语信息的声波频谱,实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不变,因此基于声纹的这两个特征,侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,迅速认定罪犯,为侦查破案提供可靠的证据。
目前基于深度学习的声纹识别算法,声纹识别框架主要分为三个阶段:训练阶段、注册阶段和验证阶段,其中在训练阶段,需要海量的有标签数据作为模型训练基础,传统模式中这些标签数据的获取方式主要为人工打标和录音两种方式,虽然上述方式能够解决数据获取的问题,但是仍存在以下问题:
1、人工打标成本过高,并且耗时较久,在复杂场景下容易出错,存在一定的数据泄露风险;
2、录音存在用时较久,并且适应的场景单一,且人员召集和组织起来较为困难,仅能处理小批量的数据,难以达到训练阶段所需的海量数据量。
因此,亟需一种基于聚类的声纹数据能够自动高效,且能够处理大批量含标签音频数据的采集方法。
发明内容
为了解决上述技术问题,本发明提供一种基于聚类的声纹数据自动采集方法,通过使用语音活性检测、声纹识别、声纹聚类算法等关键技术,结合音频质量检测等工具进行质量把控,获取数据准确率与可靠性较好,以解决传统模式下通过人工打标或录音等方式存在数据易泄漏以及处理时间长等问题。
本发明具体的技术方案如下:
一种基于聚类的声纹数据自动采集方法,包括以下步骤:
S1:收集数据,首先通过收集大量的含有声音的原始音频数据,构建原始音频数据库,音频数据包括电影、电视、电台、录音等;
S2:音频解码,通过音频解码模块将S1数据库中的每一条音频数据进行解码,确保音频数据符合后续的程序检测条件;
S3:语音活性检测,通过语音活性检测模块对音频数据进行分割;
S4:音频质量检测,通过音频质量检测模块对每一条音频数据进行处理,筛选出质量完好的音频数据,以确保后续的声纹识别正确度更高,保留下来的音频数据按照来源进行分类存储;
S5:提取声纹特征,通过声纹识别模块提取S4中音频数据的声纹特征;
S6:声纹聚类,根据数据来源及标签情况处理S5中的声纹特征;
S7:处理缓存数据,对S6中处理后的数据进行声纹聚类,以进一步筛选有效音频数据到声纹数据库中,其中声纹数据库可以是实体硬盘,也可以存储云盘,根据实际使用,可进行灵活调整。
作为本发明的进一步方案,步骤S2中,音频解码模块将数据处理至16k采样、16bit、单通道wav格式数据。
作为本发明的进一步方案,步骤S3中,语音活性检测模块将S2中的解码音频数据进行切分,且切分后单条音频最长时长不超过60秒。
作为本发明的进一步方案,语音活性检测模块将音频数据中的音频帧分为语音和非语音两个类别。
作为本发明的进一步方案,步骤S4中,音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除,其中能量E计算公式为:
Figure BDA0003990301050000031
作为本发明的进一步方案,步骤S6中,音频数据标签分为有标签和无标签。
作为本发明的进一步方案,步骤S6中,有标签的音频数据,将其标签作为聚档I D,通过声纹聚类模块找到该I D的音频数据后存入声纹数据库。
作为本发明的进一步方案,步骤S6中,无标签的音频数据,从已有的声纹数据库中获取聚档I D,并进行全量特征检索,根据检索到的结果进行相似度阀值过滤、匹配,若满足条件(即相似度大于0.5),将检索到的特征对应的聚档I D赋给待聚档的特征;若不满足条件,分配新的聚档I D,并且将待聚档特征及其聚档I D,更新至缓存数据库。
作为本发明的进一步方案,所述音频数据全量特征检索前,根据从已有的声纹数据库中获取的聚档I D,计算每一个I D的特征向量
Figure BDA0003990301050000041
其中
Figure BDA0003990301050000042
为该I D下所有特征的均值,计算公式如下:
Figure BDA0003990301050000043
计算得到每个I D的特征向量,更新至缓存数据库中,即每个I D仅一条特征,以此作为基础底库进行声纹检索。
作为本发明的进一步方案,步骤S7中,对S6中处理的且含有聚档I D的数据进行声纹聚类,进一步筛选后将音频数据存入声纹数据库中。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过提出了一整套完备的声纹数据自动采集方案,可以从海量数据中筛选声纹数据,并融合了语音活性检测、声纹识别、声纹聚类算法等关键技术解决了无标签数据声纹样本采集的问题,与其他可能存在的声纹数据自动采集方案不同,本发明的处理对象可为音视频,数据来源广较易形成一定规模。
附图说明
图1是本发明方法步骤流程图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
本实施例中,如图1所示,一种基于聚类的声纹数据自动采集方法,通过使用语音活性检测、声纹识别、声纹聚类算法等关键技术,结合音频质量检测等工具进行质量把控,与其他声纹数据采集的方式不同,本发明的处理对象可为音视频数据,包含常见的电影、电视、短视频、电台、语音其他开源数据集等文件,如数据带有说话人标签可快速处理,没有标签也可进行处理,适用范围更加广泛,并且本发明人力资源需求较少,数据采集效率高,能够进行可持续收集,具体主要包括以下步骤:
第一步:收集数据
首先通过收集大量的含有声音的原始音频数据,数据包括电影、电视、电台、录音等含有人声的数据,构建原始音频数据库;本发明以100个采访视频,及100个会议记录视频为例,每一条视频时长在5mi n左右,其中100个采访视频含有标签,100个会议记录视频没有标签。
第二步:音频解码
通过音频解码模块对第一步中的200个音频数据进行解码,进而获得总计200条,每条16k采样、16bit、单通道的wav格式数据,其中音频解码模块为市场上常规的音频解码软件。
第三步:语音活性检测
通过语音活性检测模块对第二步中解码的200个音频数据进行分割,分割后单条音频最长时长不超过60秒,本发明以分割后的每条音频30秒左右为例,200个音频数据共可获得2000条分割后的音频数据;
其中语音活性检测模块通过计算短时能量和短时过零率来判断静音段,通过语音活性检测模块对音频数据分割后,使得每段音频中只有一个说话人,其中每段的音频时长不宜过长,不建议超过60秒,因为若片段太长,可能包含说话人转换点,在后续的声纹检测中在转换点处的预测结果容易出现错位;其中也不建议片段过短,不建议时长低于1秒,因为若时长较短,会导致说话人声纹信息不足,导致识别准确率下降。
第四步:音频质量检测
通过音频质量检测模块对每一条音频数据进行处理,筛选出质量完好的音频数据,以确保后续的声纹识别正确度更高,保留下来的音频数据按照来源进行分类存储;
通过音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除,其中能量E计算公式为:
Figure BDA0003990301050000061
其中X为音频采样值,N为音频采样点数,本发明以能量E以30作为标准,通过上述公式计算音频数据的能量值E后,将能量E低于30的音频判定为能量较低,进而直接舍弃。
进一步的,音频质量检测模块对音频的信噪比SNR计算,进而对音频数据进行进一步筛选,,信噪比SNR计算公式为:SNR=10log(Ps/Pn);
其中Ps为信号有效功率,Pn为噪音有效功率,本发明以SNR以20作为标准,通过上述公式计算音频数据的SNR后,将SNR低于20的音频判定为质量较低,进而直接将这部分的音频数据进行舍弃;
经过音频质量检测模块检测完成后,筛选下来的有标签和无标签数据,假设筛选后的数据各存有900条,按照数据的来源以及标签进行分类存储。
第五步:提取声纹特征
针对第四步中筛选出的数据,通过声纹识别模块提取音频中的声纹特征,此处以传统的x-vector为例,其主体网络TDNN结构如下表,训练l oss选用AAM-softmax,利用声纹公开数据集,即可训练满足基本要求的声纹识别模型,其中提取的特征为X=[x1,x2,...,xn],其中本发明中的n取256,256为声纹特征向量的维度,常见的维度有192,256,512等,一般与数据库配套;
Figure BDA0003990301050000071
Figure BDA0003990301050000081
第六步:声纹聚类
根据音频数据的来源以及标签情况,分类处理第五步中获取的声纹特征,其中根据标签情况,分为有标签好无标签两种处理情况,具体如下:
6.1、有标签数据,此处为900条采访视频数据,在此含标签的数据中,声纹聚类算法以KNN(k-近邻算法)分类算法为基础,通过聚类获取其主要分类的音频段,即作为该明星的声纹数据,聚档I D在数据库中以I D00001为例,在数据库中更新其音频文件,并且表单中的两条音频均为star_1.wav音频切分而来。数据库表单如下:
Figure BDA0003990301050000082
6.2、无标签数据,此处为会议记录音频,在此不含标签的数据中,首先从声纹数据库中获取已有的聚档I D,并计算每个I D的特征向量
Figure BDA0003990301050000091
其中
Figure BDA0003990301050000092
为该I D下所有特征的均值,计算公式如下:
Figure BDA0003990301050000093
通过计算得到每个ID的特征向量,更新至缓存数据库中,即每个ID仅一条特征,以此作为基础底库进行声纹检索,即900条会议记录音频的特征分别与每个I D的特征向量计算余弦相似度,当检索top1相似度与大于阈值(0.5)时,将检索到的特征对应的聚档ID赋给待聚档的特征,若库中已有ID均不大于阈值,则分配新的聚档I D;
本发明例假设有两条数据meet i ng_1_001和meet i ng_2_001,其中meet i ng_1_001中说话人I D假设为I D00002且在声纹库中,meet i ng_2_001中说话人I D假设为ID01000不在已有声纹库中,meet i ng_1_001与已有聚档I D计算特征相似度结果为[0.32,0.78,…,0.21],其top1相似度为0.78对应库中说话人I D00002,在缓存数据库中将meet ing_1_001存至I D00002下。
meet i ng_2_001与已有聚档ID计算特征相似度结果为[0.12,0.38,…,0.39],其top1相似度为0.39,未超过设定阈值,在缓存数据库中添加新的聚档I D01000,并将meet ing_2_001存至ID01000下其声纹特征作为该ID的特征向量。缓存数据库表单如下:
Figure BDA0003990301050000094
Figure BDA0003990301050000101
需要说明的是:缓存数据库为一个临时的数据存储硬盘或存储云盘,一般音频数据在缓存数据库中的缓存时间为7-15天。
第七步:处理缓存数据
针对第六步处理完成的音频数据,对缓存数据库中还没有处理的音频数据进行进一步处理,对缓存数据库中已有I D进行步骤6.1中的有标签声纹聚类,进一步筛选有效数据后存入声纹数据库。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。

Claims (10)

1.一种基于聚类的声纹数据自动采集方法,其特征在于,包括以下步骤:
S1:收集数据,首先通过收集大量的含有声音的原始音频数据,构建原始音频数据库;
S2:音频解码,通过音频解码模块将S1数据库中的每一条音频数据进行解码,确保音频数据符合后续的程序检测条件;
S3:语音活性检测,通过语音活性检测模块对音频数据进行分割;
S4:音频质量检测,通过音频质量检测模块对每一条音频数据进行处理,筛选出质量完好的音频数据,以确保后续的声纹识别正确度更高,保留下来的音频数据按照来源进行分类存储;
S5:提取声纹特征,通过声纹识别模块提取S4中音频数据的声纹特征;
S6:声纹聚类,根据数据来源及标签情况处理S5中的声纹特征;
S7:处理缓存数据,对S6中处理后的数据进行声纹聚类,以进一步筛选有效音频数据到声纹数据库中。
2.如权利要求1所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S2中,音频解码模块将数据处理至16k采样、16bit、单通道wav格式数据。
3.如权利要求1所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S3中,语音活性检测模块将S2中的解码音频数据进行切分,且切分后单条音频最长时长不超过60秒。
4.如权利要求3所述基于聚类的声纹数据自动采集方法,其特征在于:语音活性检测模块将音频数据中的音频帧分为语音和非语音两个类别。
5.如权利要求1所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S4中,音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除,其中能量E计算公式为:
Figure FDA0003990301040000021
6.如权利要求1所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S6中,音频数据标签分为有标签和无标签。
7.如权利要求6所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S6中,有标签的音频数据,将其标签作为聚档ID,通过声纹聚类模块找到该ID的音频数据后存入声纹数据库。
8.如权利要求6所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S6中,无标签的音频数据,从已有的声纹数据库中获取聚档ID,并进行全量特征检索,根据检索到的结果进行相似度阀值过滤、匹配。
9.如权利要求6所述基于聚类的声纹数据自动采集方法,其特征在于:所述全量特征检索前,根据从已有的声纹数据库中获取的聚档ID,计算每一个ID的特征向量X,其中X为该ID下所有特征的均值,计算公式如下:
Figure FDA0003990301040000022
计算得到每个ID的特征向量,更新至缓存数据库中,即每个ID仅一条特征,以此作为基础底库进行声纹检索。
10.如权利要求8所述基于聚类的声纹数据自动采集方法,其特征在于:步骤S7中,对S6中处理的且含有聚档ID的数据进行声纹聚类,进一步筛选后将音频数据存入声纹数据库中。
CN202211579797.6A 2022-12-09 2022-12-09 一种基于聚类的声纹数据自动采集方法 Pending CN116129909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211579797.6A CN116129909A (zh) 2022-12-09 2022-12-09 一种基于聚类的声纹数据自动采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211579797.6A CN116129909A (zh) 2022-12-09 2022-12-09 一种基于聚类的声纹数据自动采集方法

Publications (1)

Publication Number Publication Date
CN116129909A true CN116129909A (zh) 2023-05-16

Family

ID=86309034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211579797.6A Pending CN116129909A (zh) 2022-12-09 2022-12-09 一种基于聚类的声纹数据自动采集方法

Country Status (1)

Country Link
CN (1) CN116129909A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117594058A (zh) * 2024-01-19 2024-02-23 南京龙垣信息科技有限公司 基于深度学习的音频话者分离方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117594058A (zh) * 2024-01-19 2024-02-23 南京龙垣信息科技有限公司 基于深度学习的音频话者分离方法

Similar Documents

Publication Publication Date Title
US6434520B1 (en) System and method for indexing and querying audio archives
CN102799605B (zh) 一种广告监播方法和系统
Lu et al. Speaker change detection and tracking in real-time news broadcasting analysis
US6424946B1 (en) Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
Butko et al. Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion
US20140161263A1 (en) Facilitating recognition of real-time content
US20040260550A1 (en) Audio processing system and method for classifying speakers in audio data
US9183177B2 (en) Automated detection and filtering of audio advertisements
JP2005530214A (ja) メガ話者識別(id)システム及びその目的に相当する方法
CN106372653B (zh) 一种基于堆栈式自动编码器的广告识别方法
Bredin et al. Improving speaker diarization of tv series using talking-face detection and clustering
CN111369981B (zh) 一种方言地域识别方法、装置、电子设备及存储介质
Huijbregts et al. Robust speech/non-speech classification in heterogeneous multimedia content
CN116318457B (zh) 一种无线电信号监测方法及系统
US20240160849A1 (en) Speaker diarization supporting episodical content
Kim et al. Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation
CN116129909A (zh) 一种基于聚类的声纹数据自动采集方法
Sharma et al. Two-stage supervised learning-based method to detect screams and cries in urban environments
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
Wu et al. UBM-based real-time speaker segmentation for broadcasting news
CN111382302B (zh) 一种基于变速模板的音频样例检索方法
JP2001060098A (ja) 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置
Jingzhou et al. Audio segmentation and classification approach based on adaptive CNN in broadcast domain
US20060092327A1 (en) Story segmentation method for video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination