CN113891177B - 一种音视频数据的摘要生成方法、装置、设备和存储介质 - Google Patents
一种音视频数据的摘要生成方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113891177B CN113891177B CN202111124453.1A CN202111124453A CN113891177B CN 113891177 B CN113891177 B CN 113891177B CN 202111124453 A CN202111124453 A CN 202111124453A CN 113891177 B CN113891177 B CN 113891177B
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- audio
- features
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008859 change Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本申请公开了一种音视频数据的摘要生成方法、装置、设备和存储介质,其中方法包括:获取待分析音视频数据中的语音帧数据;对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据;对所述分段语音数据进行句子级别的特征提取,得到第一特征;对所述第一特征进行聚类,得到聚类结果;对所述分段语音数据中的语言内容进行识别,得到识别结果;根据所述聚类结果、所述识别结果,生成所述待分析音视频数据的摘要结果。解决了现有的音视频数据的摘要生成方法,效率较低的技术问题。
Description
本申请要求申请日为2021年05月31日,申请号为202110601814.0的中国专利申请的优先权。
技术领域
本申请涉及计算机网络技术领域,尤其涉及一种音视频数据的摘要生成方法、装置、设备和存储介质。
背景技术
随着互联网的快速发展,每天都会产生大量的音视频数据,例如会议视频、电视剧、短视频等。构建音视频数据的摘要有助于用户快速获取感兴趣内容,因此摘要的构建是相关人员的研究热点。
现有生成摘要的方法大都是先确定目标音频的类别、音调及音色特征。然后再将音频文件中的声音类别、音调及音色特征按帧与预先确定的目标音频比对,最后将相似度匹配成功的所有帧按顺序生成摘要。该方法需要预先确定目标音频,效率较低。
发明内容
本申请提供了一种音视频数据的摘要生成方法、装置、设备和存储介质,解决了现有的音视频数据的摘要生成方法,效率较低的技术问题。
有鉴于此,本申请第一方面提供了一种音视频数据的摘要生成方法,包括:
获取待分析的待分析音视频数据;
获取待分析音视频数据中的语音帧数据;
对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据;
对所述分段语音数据进行句子级别的特征提取,得到第一特征;
对所述第一特征进行聚类,得到聚类结果;
对所述分段语音数据中的语言内容进行识别,得到识别结果;
根据所述聚类结果、所述识别结果,生成所述待分析音视频数据的摘要结果。
可选地,对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据,具体包括:
根据各所述语音帧数据相邻语音帧数据的向量特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果;
将所述第二分类结果大于第二预设分类阈值的语音帧数据作为说话人变化点,并记录各说话人变化点对应的时间;
基于所有所述时间,对所述语音帧数据按照说话人进行分段,得到若干分段语音数据。
可选地,根据各所述语音帧数据相邻语音帧数据的向量特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果,具体包括:
对各所述语音帧数据进行向量特征的提取,得到各所述语音帧数据对应的向量特征;
将各所述语音帧数据的前一向量特征和后一向量特征进行点乘,得到该语音帧对应的乘积特征,其中,所述前一向量特征为该语音帧数据的前一语音帧数据的向量特征,所述后一向量特征为该语音帧数据的后一语音帧数据的向量特征;
基于各所述语音帧数据的乘积特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果。
可选地,对所述第一特征进行聚类,得到聚类结果,具体包括:
步骤S1、基于所述第一特征之间的距离,对所述第一特征进行聚类,得到各所述第一特征对应的特征矩阵;
步骤S2、通过infomap社区发现算法,对所述特征矩阵进行聚类,得到聚类结果。
可选地,对所述第一特征进行聚类,得到聚类结果,还包括:
当步骤S2执行完还存在孤立的第一特征时,计算所述孤立的第一特征和离其最近的第一特征之间的相似度,若所述相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵。
可选地,获取待分析音视频数据中的语音帧数据,具体包括:
对待分析音视频数据中的每帧数据进行是否为语音帧的分类,得到各帧数据对应的第一分类结果;
将所述第一分类结果大于第一预设分类阈值的帧数据作为所述待分析音视频数据中的语音帧数据。
可选地,对所述分段语音数据进行句子级别的特征提取,得到第一特征,具体包括:
对各所述分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征;
通过时间平均的方式,将所述帧提取特征转换为句子级别的特征表达,得到第一特征。
可选地,根据所述聚类结果、所述识别结果,生成所述待分析音视频数据的摘要结果,具体包括:
对所述聚类结果中各类别的第一特征进行说话人属性分析,得到所述待分析音视频数据对应的说话人属性;
基于说话人和时间的第一维度、所述说话人属性,生成基于说话人身份的第一子摘要;
基于说话内容和时间的第二维度、所述识别结果,生成基于说话人内容的第二子摘要;
综合所述第一子摘要、所述第二子摘要,生成所述待分析音视频数据的摘要结果。
本申请第二方面提供了一种音视频数据的摘要生成装置,包括:
获取单元,用于获取待分析音视频数据中的语音帧数据;
分段单元,用于对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据;
提取单元,用于对所述分段语音数据进行句子级别的特征提取,得到第一特征;
聚类单元,用于对所述第一特征进行聚类,得到聚类结果;
识别单元,用于对所述分段语音数据中的语言内容进行识别,得到识别结果;
生成单元,用于根据所述聚类结果、所述识别结果,生成所述待分析音视频数据的摘要结果。
本申请第三方面提供了一种音视频数据的摘要生成设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述任一种第一方面所述的音视频数据的摘要生成方法。
本申请第四方面提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述任一种第一方面所述的音视频数据的摘要生成方法。
从以上技术方法可以看出,本申请具有以下优点:
本申请中音视频数据的摘要生成方法,首先获取待分析音视频数据中的语音帧数据,接着对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据,然后对所述分段语音数据进行句子级别的特征提取,得到第一特征,再接着对所述第一特征进行聚类,得到聚类结果,然后对所述分段语音数据中的语言内容进行识别,得到识别结果,最后根据所述聚类结果、所述识别结果,生成所述待分析音视频数据的摘要结果。由上述可知本申请中音视频的摘要生成方法,不需要预先确定目标音频,因此可以较为快速有效地生成摘要,从而解决了现有技术中音视频数据的摘要生成方法需要预先确定目标音频,导致的效率较低的技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方法,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种音视频数据的摘要生成方法的实施例一的流程示意图;
图2为本申请实施例中一种音视频数据的摘要生成方法的实施例二的流程示意图;
图3为本申请实施例中一种音视频数据的摘要生成方法的过程说明示意图;
图4为根据申请实施例中音视频数据的摘要生成方法生成的摘要示意图;
图5为根据申请实施例中音视频数据的摘要结果的导出示意图;
图6为本申请实施例中一种音视频数据的摘要生成装置的实施例的结构示意图。
具体实施方式
本申请实施例提供了一种音视频数据的摘要生成方法、装置、设备和存储介质,解决了现有的音视频数据的摘要生成方法,效率较低的技术问题。
为了使本技术领域的人员更好地理解本申请方法,下面将结合本申请实施例中的附图,对本申请实施例中的技术方法进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以便于理解,请参阅图1,图1为本申请实施例中一种音视频数据的摘要生成方法的实施例一的流程示意图。
本实施例中的一种音视频数据的摘要生成方法,包括:
步骤101、获取待分析音视频数据中的语音帧数据。
上述的待分析音视频数据中可能包括说话人对应的语音数据和其他背景音、干扰应等的非语音数据,而对应生成摘要时是基于说话人的语音数据进行时,故本实施例中首先获取待分析音视频数据中的语音帧数据。
可以理解的是,对获取语音帧数据之前首先对待分析音视频数据进行是否为音频数据的判断,若不是,则说明该待分析音视频数据为视频数据,此时对该待分析音视频数据进行音频数据的提取。
待分析音视频帧数据可以是:电视剧数据、短视频数据等,本实施例中对此不做具体限定。
步骤102、对语音帧数据进行说话人变化的分段,得到若干分段语音数据。
语音帧数据可能对应多个说话人,因此在得到语音帧数据后,基于说话人的变化对语音帧数据进行分段,得到若干分段语音数据。
步骤103、对分段语音数据进行句子级别的特征提取,得到第一特征。
在生成摘要时,摘要中的语句一般都是成句表达的,故在得到基于说话人变化的分段语音数据后,对分段语音数据进行句子级别的特征提取,得到第一特征。
步骤104、对第一特征进行聚类,得到聚类结果。
由于分段语音数据是基于不同说话人得到的,对应的得到的第一特征也是对应不同说话人,此时对第一特征进行聚类,便可将同一说话人的第一特征聚类在一起,以便于后面的摘要生成。
步骤105、对分段语音数据中的语言内容进行识别,得到识别结果。
对分段语音数据中的语音内容进行识别,可以是语音检测模型或其他可以实现语音内容识别的模型,本领域技术人员对此不做具体限定。
步骤106、根据聚类结果、识别结果,生成待分析音视频数据的摘要结果。
在得到聚类结果和识别结果后,便可以基于聚类结果和识别结果生成待分析音频数据的摘要结果。
可以理解的是,不同的聚类结果代表不同的说话人,因此不需要确定目标音频,直接根据聚类结果和语音内容的识别结果,便可生成基于不同说话人的摘要。
本实施例中的音视频数据的摘要生成方法,首先获取待分析音视频数据中的语音帧数据,接着对语音帧数据进行说话人变化的分段,得到若干分段语音数据,然后对分段语音数据进行句子级别的特征提取,得到第一特征,再接着对第一特征进行聚类,得到聚类结果,然后对分段语音数据中的语言内容进行识别,得到识别结果,最后根据聚类结果、识别结果,生成待分析音视频数据的摘要结果。由上述可知本申请中音视频的摘要生成方法,不需要预先确定目标音频,因此可以较为快速有效地生成摘要,从而解决了现有技术中音视频数据的摘要生成方法需要预先确定目标音频,导致的效率较低的技术问题。
以上为本申请实施例提供的一种音视频数据的摘要生成方法的实施例一,以下为本申请实施例提供的一种音视频数据的摘要生成方法的实施例二。
请参阅图2,图2为本申请实施例中一种音视频数据的摘要生成方法的实施例二的流程示意图。
本实施例中的一种音视频数据的摘要生成方法,包括:
步骤201、获取待分析音视频数据中的语音帧数据。
可以理解的是,从待分析音视频数据中获取语音帧数据可以是基于语音活动性检测实现的,具体地,步骤201的步骤包括:
获取待分析音视频数据中的语音帧数据,具体包括:
对待分析音视频数据中的每帧数据进行是否为语音帧的分类,得到各帧数据对应的第一分类结果;
将第一分类结果大于第一预设分类阈值的帧数据作为待分析音视频数据中的语音帧数据。
具体地,上述的分类可以是通过DNN(深度神经网络)实现,同时借助于HMM(隐马尔科夫模型),帮助网络去限制最短的语音帧,更好区分背景噪声。
步骤202、根据各语音帧数据相邻语音帧数据的向量特征,对各语音帧数据进行是否为说话人变化点的分类,得到各语音帧数据对应的第二分类结果。
可以理解的是,在一种实施方式中,上述根据各语音帧数据相邻语音帧数据的向量特征,对各语音帧数据进行是否为说话人变化点的分类,得到各语音帧数据对应的第二分类结果,具体包括:
对各语音帧数据进行向量特征的提取,得到各语音帧数据对应的向量特征;
将各语音帧数据的前一向量特征和后一向量特征进行点乘,得到该语音帧对应的乘积特征,其中,前一向量特征为该语音帧数据的前一语音帧数据的向量特征,后一向量特征为该语音帧数据的后一语音帧数据的向量特征;
基于各语音帧数据的乘积特征,对各语音帧数据进行是否为说话人变化点的分类,得到各语音帧数据对应的第二分类结果。
为了便于理解,本实施例中对于步骤202的实现进行简单的举例说明:通过TDNN(时延神经网络)模型提取语言帧的d-vector(深度网络提取的向量特征),在当前帧位置分别取前k帧和后k帧的d-vector,然后各自通过各自的RNN(循环神经网络),将两个RNN模型的输出特征点乘,再通过全连接网络,最后二分类输出,得到该当前帧是否是说话人变化点,同时记录说话人开始和变化点的时间戳。其中需要说明的是若当前帧不为说话人变化点,那当前帧的前k帧和后k帧均对应同一说话人,二者的乘积特征应该为第一定值,而若当前帧为说话人变化点,那当前帧的前k帧和后k帧对应的不是同一说话人,二者的乘积特征就不是第一定值了,可能是和第一定值相似的值。
也就是说,当前帧不为说话人变化点时,上述的乘积特征(目标乘积特征)为第一定值,而若当前帧为说话人变化点,上述的乘积特征就不是第一定值了,而上述分类结果可以是计算实际的乘积特征和目标乘积特征之间的相似度,也可以是实际的乘积特征为目标乘积特征概率。
步骤203、将第二分类结果大于第二预设分类阈值的语音帧数据作为说话人变化点,并记录各说话人变化点对应的时间。
将相似度大于预设值或概率大于预设概率的第一分类结果对应的语音帧数据作为说话人变化点,并记录各说话人变化点对应的时间。
步骤204、基于所有时间,对语音帧数据按照说话人进行分段,得到若干分段语音数据。
一般来说时间往往是成对出现的,一个结束时间紧跟着其对应的开始时间,因此便可根据时间,知道不同说话人对应的说话时间段,对应语音帧数据上便可知道不同说话人对应的分段数据。
步骤205、对各分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征。
可以理解的是,上述步骤205可以是通过ResCNN或GRU(门控循环单元)分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征。
步骤206、通过时间平均的方式,将帧提取特征转换为句子级别的特征表达,得到第一特征。
可以理解的是,在得到第一特征后,还可以将第一特征进行长度归一化,以减少计算干扰,提高计算准确度。
步骤207、基于第一特征之间的距离,对第一特征进行聚类,得到各第一特征对应的特征矩阵。
可以理解的是,上述步骤207的实现可以是,用KNN算法计算各第一特征对应的距离最近的k个第一特征以及距离排序,生成特征矩阵。
步骤208、通过infomap社区发现算法,对特征矩阵进行聚类,得到聚类结果。
步骤209、当步骤208执行完还存在孤立的第一特征时,计算孤立的第一特征和离其最近的第一特征之间的相似度,若相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵。
步骤210、对分段语音数据中的语言内容进行识别,得到识别结果。
步骤211、对聚类结果中各类别的第一特征进行说话人属性分析,得到待分析音视频数据对应的说话人属性。
可以理解的是,上述的说话人属性可以是语种信息、说话人性别等。例如类别一(对应第一个说话人),A01,男性,中文。
步骤212、基于说话人和时间的第一维度、说话人属性,生成基于说话人身份的第一子摘要。
步骤213、基于说话内容和时间的第二维度、识别结果,生成基于说话人内容的第二子摘要。
步骤214、综合第一子摘要、第二子摘要,生成待分析音视频数据的摘要结果。
根据聚类、识别结果以及说话人一段话的开始和结束时间戳信息,从两个维度在界面多轨显示待分析音视频数据的摘要结果,用户能非常直观且全面地在界面上看到各个说话人的内容摘要。
根据需要导出的任务,分人物导出对应人在所有音视频文件中说话内容片断的合辑,同时也可以导出说话内容的文本摘要及语音属性信息和时间戳。
本实施例中的音视频数据的摘要生成方法,首先获取待分析音视频数据中的语音帧数据,接着对语音帧数据进行说话人变化的分段,得到若干分段语音数据,然后对分段语音数据进行句子级别的特征提取,得到第一特征,再接着对第一特征进行聚类,得到聚类结果,然后对分段语音数据中的语言内容进行识别,得到识别结果,最后根据聚类结果、识别结果,生成待分析音视频数据的摘要结果。由上述可知本申请中音视频的摘要生成方法,不需要预先确定目标音频,因此可以较为快速有效地生成摘要,从而解决了现有技术中音视频数据的摘要生成方法需要预先确定目标音频,导致的效率较低的技术问题。
为了便于理解,请参阅图3,根据图3对本申请中的音视频数据的摘要生成方法生成过程进行详细说明:
1、获取需要分析处理的音视频序列,即获取待分析音视频数据。
获取待分析音视频数据,如电视剧全集等。判断是音频还是视频,是视频则进行音频提取。
2、语音活动性检测。对待分析音视频数据进行语音活动性检测,剔除非语音数据后,得到语音数据。
检测待分析音视频数据中说话人的语音部分,剔除掉非语音部分。其中具体地,使用DNN(深度神经网络)作为二分类器来计算当前帧数据属于语音帧和非语音帧的概率,并将概率大于预设概率阈值的帧作为语音帧数据。同时使用HMM(隐马尔科夫模型),帮助网络去限制最短的语音帧,更好区分背景噪声,便可得到语音部分数据。
3、说话人变化点检测。对语音帧数据进行说话人变化点分段,得到若干分段语音数据。
通过预训练的TDNN(时延神经网络)模型提取语言帧的d-vector(深度网络提取的向量特征),在当前帧位置分别取前k帧和后k帧的d-vector,然后各自通过各自的RNN(循环神经网络),将两个RNN模型输出特征点乘,再通过全连接网络,最后二分类输出是否是说话人变化点,同时记录说话人开始和变化点的时间戳,便可得到若干分段语音数据。
4、说话人声纹特征提取。对分段语音数据进行声纹特征提取,得到声纹特征。
对经过说话人变化点检测的分段语音数据分别采用ResCNN或GRU(门控循环单元)进行帧级别的特征提取,然后在时间平均层将输入序列帧级别的特征转化为句子级别的特征表达,彷射变换层将编码映射到指定维度,长度归一化层输出512维向量。
句子级别的特征编码:
式中,h为句子级别的特征编码,T为句子序列所有帧总数,x(t)为第t帧提取特征。
5、声纹特征最近邻聚类。用KNN算法计算所有512维深度声纹特征中每个声纹特征距离最近的k个邻邻居的序号以及距离排序,生成512*k维的特征矩阵。
6、声纹特征聚类。对声纹特征进行聚类,得到聚类结果。
6.1、采用infomap社区发现算法,对特征矩阵进行聚类,得到聚类结果。
6.2、二次聚类。对孤立节点的第一特征,计算孤立的第一特征和离其最近的第一特征之间的相似度,若相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵。
cos(xi,xj)=xi Txj;
式中,xi为第i个句子级别的特征编码,xj为第j个句子级别的特征编码。
7、声纹属性识别。对聚类结果中各类别的第一特征进行说话人属性分析,得到待分析音视频数据对应的说话人属性,例如语种信息、说话者性别。
8、语言识别。根据说话人变化点检测结果,对分段语音数据进行语音识别,对每次说话人的语言内容进行识别。
9、音视频分析结果显示。根据聚类结果、识别结果,生成待分析音视频数据的摘要结果,如图4所示。
10、摘要导出。如图5所示,根据需要导出的人物,分人物导出对应人在所有音视频文件中说话内容片断的合辑,同时也可以导出说话内容的文本摘要及语音属性信息和时间戳。
与现有技术相比,本实施例中的音视频数据的摘要生成方法存在以下优点:提出采用knn计算k个最近邻,采用社区发现算法infomap,同时对孤立节点进行二次聚类,可以比较好得保证聚类的速度和准确度。本方案在时间维度和身份标签维度两个维度上多轨显示聚类分割结果非常方便用户找到自己感兴趣的内容,或者对需要快速分析音视频的用户,能非常直观全面地达到目的。
以上为本申请实施例提供的一种音视频数据的摘要生成方法的实施例,以下为本申请实施例提供的一种音视频数据的摘要生成装置的实施例。
请参阅图6,本实施例中的音视频数据的摘要生成装置,具体包括:
获取单元601,用于获取待分析音视频数据中的语音帧数据;
分段单元602,用于对语音帧数据进行说话人变化的分段,得到若干分段语音数据;
提取单元603,用于对分段语音数据进行句子级别的特征提取,得到第一特征;
聚类单元604,用于对第一特征进行聚类,得到聚类结果;
识别单元605,用于对分段语音数据中的语言内容进行识别,得到识别结果;
生成单元606,用于根据聚类结果、识别结果,生成待分析音视频数据的摘要结果。
可选地,分段单元602具体包括:
第一分类子单元,用于根据各语音帧数据相邻语音帧数据的向量特征,对各语音帧数据进行是否为说话人变化点的分类,得到各语音帧数据对应的第二分类结果;
记录子单元,用于将第二分类结果大于第二预设分类阈值的语音帧数据作为说话人变化点,并记录各说话人变化点对应的时间;
分段子单元,用于基于所有时间,对语音帧数据按照说话人进行分段,得到若干分段语音数据。
可选地,第一分类子单元具体包括:
提取子子单元,用于对各语音帧数据进行向量特征的提取,得到各语音帧数据对应的向量特征;
点乘子子单元,用于将各语音帧数据的前一向量特征和后一向量特征进行点乘,得到该语音帧对应的乘积特征,其中,前一向量特征为该语音帧数据的前一语音帧数据的向量特征,后一向量特征为该语音帧数据的后一语音帧数据的向量特征;
分类子子单元,用于基于各语音帧数据的乘积特征,对各语音帧数据进行是否为说话人变化点的分类,得到各语音帧数据对应的第二分类结果。
可选地,聚类单元604具体包括:
第一聚类子单元,用于基于第一特征之间的距离,对第一特征进行聚类,得到各第一特征对应的特征矩阵;
第二聚类子单元,用于通过infomap社区发现算法,对特征矩阵进行聚类,得到聚类结果。
可选地,聚类单元604还包括:
当第二聚类子单元执行完还存在孤立的第一特征时,计算孤立的第一特征和离其最近的第一特征之间的相似度,若相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵。
可选地,提取单元603具体包括:
提取子单元,用于对各分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征;
转换子单元,用于通过时间平均的方式,将帧提取特征转换为句子级别的特征表达,得到第一特征。
可选地,生成单元606具体包括:
分析子单元,用于对聚类结果中各类别的第一特征进行说话人属性分析,得到待分析音视频数据对应的说话人属性;
第一生成子单元,用于基于说话人和时间的第一维度、说话人属性,生成基于说话人身份的第一子摘要;
第二生成子单元,用于基于说话内容和时间的第二维度、识别结果,生成基于说话人内容的第二子摘要;
第三生成子单元,用于综合第一子摘要、第二子摘要,生成待分析音视频数据的摘要结果。
本实施例中的音视频数据的摘要生成装置,首先获取待分析音视频数据中的语音帧数据,接着对语音帧数据进行说话人变化的分段,得到若干分段语音数据,然后对分段语音数据进行句子级别的特征提取,得到第一特征,再接着对第一特征进行聚类,得到聚类结果,然后对分段语音数据中的语言内容进行识别,得到识别结果,最后根据聚类结果、识别结果,生成待分析音视频数据的摘要结果。由上述可知本申请中音视频的摘要生成方法,不需要预先确定目标音频,因此可以较为快速有效地生成摘要,从而解决了现有技术中音视频数据的摘要生成方法需要预先确定目标音频,导致的效率较低的技术问题。
本申请实施例还提供了一种音视频数据的摘要生成设备的实施例,本实施例中的检测设备包括处理器以及存储器;存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行前述实施例中的音视频数据的摘要生成方法。
本申请实施例还提供了一种存储介质的实施例,本实施例中的存储介质用于存储程序代码,程序代码用于执行前述实施例中的音视频数据的摘要生成方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-Only Memory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (7)
1.一种音视频数据的摘要生成方法,其特征在于,包括:
获取待分析音视频数据中的语音帧数据;
对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据;
对所述分段语音数据进行句子级别的特征提取,得到第一特征;
对所述第一特征进行聚类,得到聚类结果;
对所述分段语音数据中的语言内容进行识别,得到识别结果;
根据所述聚类结果和所述识别结果,生成所述待分析音视频数据的摘要结果;
所述对所述分段语音数据进行句子级别的特征提取,得到第一特征,具体包括:
对各所述分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征;
通过帧平均的方式,将所述帧提取特征转换为句子级别的特征编码,得到第一特征;
其中,所述句子级别的特征编码计算公式为:
;
式中,h为句子级别的特征编码,T为句子序列所有帧总数,x(t)为第t帧提取特征;
所述对所述第一特征进行聚类,得到聚类结果,具体包括:
步骤S1、基于所述第一特征之间的距离,对所述第一特征进行聚类,得到各所述第一特征对应的特征矩阵;
步骤S2、通过infomap社区发现算法,对所述特征矩阵进行聚类,得到聚类结果;
当步骤S2执行完还存在孤立的第一特征时,计算所述孤立的第一特征和离其最近的第一特征之间的相似度,若所述相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵;
所述相似度计算公式为:
;
式中,x i 为第i个句子级别的特征编码,x j 为第j个句子级别的特征编码。
2.根据权利要求1所述的音视频数据的摘要生成方法,其特征在于,对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据,具体包括:
根据各所述语音帧数据的相邻语音帧数据的向量特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果;
将所述第二分类结果大于第二预设分类阈值的语音帧数据作为说话人变化点,并记录各说话人变化点对应的时间;
基于所有所述时间,对所述语音帧数据按照说话人进行分段,得到若干分段语音数据。
3.根据权利要求2所述的音视频数据的摘要生成方法,其特征在于,根据各所述语音帧数据的相邻语音帧数据的向量特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果,具体包括:
对各所述语音帧数据进行向量特征的提取,得到各所述语音帧数据对应的向量特征;
将各所述语音帧数据的前一向量特征和后一向量特征进行点乘,得到该语音帧对应的乘积特征,其中,所述前一向量特征为该语音帧数据的前一语音帧数据的向量特征,所述后一向量特征为该语音帧数据的后一语音帧数据的向量特征;
基于各所述语音帧数据的乘积特征,对各所述语音帧数据进行是否为说话人变化点的分类,得到各所述语音帧数据对应的第二分类结果。
4.根据权利要求1所述的音视频数据的摘要生成方法,其特征在于,根据所述聚类结果和所述识别结果,生成所述待分析音视频数据的摘要结果,具体包括:
对所述聚类结果中各类别的第一特征进行说话人属性分析,得到所述待分析音视频数据对应的说话人属性;
基于说话人和时间的第一维度和所述说话人属性,生成基于说话人身份的第一子摘要;
基于说话内容和时间的第二维度和所述识别结果,生成基于说话人内容的第二子摘要;
综合所述第一子摘要和所述第二子摘要,生成所述待分析音视频数据的摘要结果。
5.一种音视频数据的摘要生成装置,其特征在于,包括:
获取单元,用于获取待分析音视频数据中的语音帧数据;
分段单元,用于对所述语音帧数据进行说话人变化的分段,得到若干分段语音数据;
提取单元,用于对所述分段语音数据进行句子级别的特征提取,得到第一特征;
聚类单元,用于对所述第一特征进行聚类,得到聚类结果;
识别单元,用于对所述分段语音数据中的语言内容进行识别,得到识别结果;
生成单元,用于根据所述聚类结果和所述识别结果,生成所述待分析音视频数据的摘要结果;
所述提取单元具体包括:
提取子单元,用于对各分段语音数据中的各帧数据进行特征提取,得到各帧数据对应的帧提取特征;
转换子单元,用于通过帧平均的方式,将帧提取特征转换为句子级别的特征编码,得到第一特征;
其中,所述句子级别的特征编码计算公式为:
;
式中,h为句子级别的特征编码,T为句子序列所有帧总数,x(t)为第t帧提取特征;
所述聚类单元具体包括:
第一聚类子单元,用于基于第一特征之间的距离,对第一特征进行聚类,得到各第一特征对应的特征矩阵;
第二聚类子单元,用于通过infomap社区发现算法,对特征矩阵进行聚类,得到聚类结果;
当第二聚类子单元执行完还存在孤立的第一特征时,计算孤立的第一特征和离其最近的第一特征之间的相似度,若相似度大于预设相似度阈值,则将该孤立的第一特征添加到其最近的第一特征的特征矩阵;
所述相似度计算公式为:
;
式中,x i 为第i个句子级别的特征编码,x j 为第j个句子级别的特征编码。
6.一种音视频数据的摘要生成设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至4中任一项所述的音视频数据的摘要生成方法。
7.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至4中任一项所述的音视频数据的摘要生成方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110601814 | 2021-05-31 | ||
CN2021106018140 | 2021-05-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113891177A CN113891177A (zh) | 2022-01-04 |
CN113891177B true CN113891177B (zh) | 2024-01-05 |
Family
ID=79006524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111124453.1A Active CN113891177B (zh) | 2021-05-31 | 2021-09-24 | 一种音视频数据的摘要生成方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113891177B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938462B (zh) * | 2022-06-07 | 2023-06-30 | 平安科技(深圳)有限公司 | 授课视频的智能剪辑方法、系统、电子设备及存储介质 |
CN115022733B (zh) * | 2022-06-17 | 2023-09-15 | 中国平安人寿保险股份有限公司 | 摘要视频生成方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN106446109A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 语音文件摘要的获取方法和装置 |
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
CN110968690A (zh) * | 2018-09-30 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 词语的聚类划分方法和装置、设备以及存储介质 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
-
2021
- 2021-09-24 CN CN202111124453.1A patent/CN113891177B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN106446109A (zh) * | 2016-09-14 | 2017-02-22 | 科大讯飞股份有限公司 | 语音文件摘要的获取方法和装置 |
CN110968690A (zh) * | 2018-09-30 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 词语的聚类划分方法和装置、设备以及存储介质 |
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113891177A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
US10497382B2 (en) | Associating faces with voices for speaker diarization within videos | |
KR102433393B1 (ko) | 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 | |
CN113891177B (zh) | 一种音视频数据的摘要生成方法、装置、设备和存储介质 | |
WO2020216064A1 (zh) | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 | |
Natarajan et al. | BBN VISER TRECVID 2011 Multimedia Event Detection System. | |
Khoury et al. | Bi-modal biometric authentication on mobile phones in challenging conditions | |
Emerich et al. | Emotions recognition by speechand facial expressions analysis | |
Senthilkumar et al. | Speech emotion recognition based on Bi-directional LSTM architecture and deep belief networks | |
CN108615532B (zh) | 一种应用于声场景的分类方法及装置 | |
Mower et al. | A hierarchical static-dynamic framework for emotion classification | |
WO2020135756A1 (zh) | 视频段的提取方法、装置、设备及计算机可读存储介质 | |
CN112700794A (zh) | 一种音频场景分类方法、装置、电子设备和存储介质 | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
Kumar et al. | Weakly supervised scalable audio content analysis | |
Ding et al. | Three-layered hierarchical scheme with a Kinect sensor microphone array for audio-based human behavior recognition | |
CN111488813A (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
JP6923089B2 (ja) | 情報処理装置、方法およびプログラム | |
WO2020238681A1 (zh) | 音频处理方法、装置和人机交互系统 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN107507627B (zh) | 语音数据热度分析方法及系统 | |
Imoto et al. | Acoustic scene analysis from acoustic event sequence with intermittent missing event | |
Jitaru et al. | Lrro: a lip reading data set for the under-resourced romanian language | |
EP3816996A1 (en) | Information processing device, control method, and program | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |