CN105933635A

CN105933635A - 一种对音频或视频内容附加标签的方法

Info

Publication number: CN105933635A
Application number: CN201610290280.3A
Authority: CN
Inventors: 王磊
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2016-09-07

Abstract

本发明涉及对音频、视频内容附加标签的方法和系统，本发明涉及对人声的检测。本发明提供一种对音频或视频内容附加标签的系统，包括检测模块和标签模块，其检测模块进一步包括：分割模块，用于将所述音频或视频的声音信号按预定时间长度A分割为帧；元音分析模块，用于分析每帧声音信号是否包含元音；人声判断模块，用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。所述元音判断模块进一步包括：傅里叶变换模块，用于将每帧声音信号从时域由傅里叶变换变换到频域；元音比对模块，用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音。

Description

一种对音频或视频内容附加标签的方法

技术领域

本发明涉及一种对音频或视频内容检测并附加标签的方法和系统。本发明主要涉及语音模式检测领域，具体内容为语音标签的创建、嵌入、存储、回放、定位等。本发明涉及对人的声音的检测，本发明涉及在讯问、询问环境下的声音检测。本发明的方法和系统主要应用在公安、检察院、法院对犯罪嫌疑人、被告人进行讯问，对证人进行询问，以及庭审的全程同步录音录像内容审查，也可用于其它音视频文件的审查。

背景技术

语音检测技术，主要是指在音频数据中检测到特定对象的声音，区别于其他对象。语音检测领域所涉及到的技术有信号处理、模式识别、概率论、信息论、人工智能。语音检测技术包括：特征提取技术，模式匹配准则以及模型训练技术三个方面。随着信息技术领域的科技发展，预计未来几年语音检测技术将进入军事、审讯、庭审、通信、电子医疗、家庭服务、消费电子产品等各个领域。语音检测领域前景广阔，通过与其他技术的结合，可以应用于更加复杂的场景。

随着社会经济发展，犯罪形式愈发朝着多样化、复杂化、科技化、隐秘化的方向发展，使得查办案件难度加大，需要办案人员反复进行案情分析。其中讯问全程的同步录音录像，可以回溯再现讯问当时的情境，能够重现犯罪嫌疑人在讯问中陈述的内容以及说话时的面部表情和精神状态，是侦查部门进行事后案情分析重要的线索来源。此外，侦监和公诉部门进行案件监督审查时，需要全程回放案件的录音录像进行审查是否有刑讯逼供、指供、诱供等非法行为发生。

但是，由于办案审讯时间通常较长，很大部分录像是没有审讯声音的无用录像，实际案件的全程同步录音录像往往持续数个小时，若全程回放案件的录音录像以进行调查、搜集关键线索和监督审查，会降低案件调查取证和监督审查的效率，增加工作强度，甚至由于观看人员的疲劳错失关键的画面或声音等内容。

因此可知，现有技术存在着对音频或视频内容无法做到有效的甄别，存在办案人员观看音频或视频内容时效率低，工作强度大的问题。

此外，现有技术中对人声进行检测的技术也存在种种问题，首先，存在检测准确性不高的问题；其次，目前的检测算法复杂，导致运算成本过高，导致运行速度慢、对设备要求高等问题；现有检测算法也无法针对讯问、询问、庭审这种典型的环境，现有检测算法存在没有针对性，效率不高、检测速度慢，或对设备要求较高等问题。

发明内容

本发明针对现有技术的不足，提供了一种对音频或视频内容附加标签的方法。

本发明所采用的技术方案如下：

本发明提供一种对音频或视频内容附加标签的方法，其特征在于，包括以下步骤：对音频或视频进行人声检测并获得检测结果；依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。

优选的，所述一种对音频或视频内容附加标签的方法中，所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤：将所述音频或视频的声音信号按预定时间长度A分割为帧；分析每帧声音信号是否包含元音；依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。

优选的，所述预定时间长度A为40毫秒。

优选的，所述预定时间长度B为1秒；若所述预定时间长度内包含元音的声音信号的帧的数量大于9帧，则判断相应音频或视频包含人的语音。

优选的，所述一种对音频或视频内容附加标签的方法中，所述分析每帧声音信号是否包含元音的步骤进一步包括以下步骤：将每帧声音信号从时域由傅里叶变换变换到频域，将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音。

优选的，所述一种对音频或视频内容附加标签的方法中，所述将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音，依据包括：元音的频率范围200HZ-8000HZ和/或元音有共振峰特性。

优选的，所述一种对音频或视频内容附加标签的方法中，所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤：将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。

本发明还提供一种对音频或视频内容进行处理的方法，其特征在于包括以下步骤：按照本发明前述任何一种对音频或视频内容附加标签的方法对音频或视频内容附加标签；对音频或视频内容的特定标签进行显示；或者对附加标签后的音频或视频进行存储；或者依据特定标签，对相应音频或视频的部分进行播放；或者依据特定标签，对相应音频或视频的部分进行提取，生成一个或多个可连续播放的文件。

本发明还提供一种对音频或视频内容附加标签的系统，其特征在于，包括以下模块：检测模块，用于对音频或视频进行人声检测并获得检测结果；标签模块，用于依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。

优选的，所述一种对音频或视频内容附加标签的系统中，其检测模块进一步包括：分割模块、元音分析模块、人声判断模块。所述分割模块，用于将所述音频或视频的声音信号按预定时间长度A分割为帧。所述元音分析模块，用于分析每帧声音信号是否包含元音；所述元音判断模块进一步包括：傅里叶变换模块，用于将每帧声音信号从时域由傅里叶变换变换到频域；元音比对模块，用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音。所述人声判断模块，用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。

本发明还提供一种对音频或视频内容进行处理的装置，其特征在于，包括：本发明前述对音频或视频内容附加标签的系统；以及处理模块，用于对音频或视频内容的特定标签进行显示；或者对附加标签后的音频或视频进行存储；或者依据特定标签，对相应音频或视频的部分进行播放；或者依据特定标签，对相应音频或视频的部分进行提取，生成一个或多个可连续播放的文件。

本发明相对现有技术具有突出的实质性特点和显著地进步，具体地说，其使得侦查人员或监督人员无需全程播放问讯声频或视频文件，自动播放有人声的有效内容，提高了侦查和监督的效率，减少了工作量。本发明涉及的人声检测算法识别准确率高，能特别针对讯问、询问、庭审这种典型的环境，算法高效，运行成本较低，减轻了设备成本或负担。

此外，为有助于本发明的实施，本申请还提供以下信息，以下信息并不构成对本发明的任何限制：

(1)目前在行业应用中使用率最高的音频编码格式有AAC、G.711A、G.711U，这些音频编码格式的特点都是压缩率较高且音质损失小，可以满足行业应用，在对这些音频格式进行分析前，可将其统一转换为PCM格式。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于各行业的数字音频编码中。PCM格式的音频数据进行每40ms为1帧的分割，基于经验推算40毫秒为一个较优的合理的时间段，40毫秒大致为正常语速元音的持续时间。

(2)将经过数据分割的数据进行傅里叶变换，转换到频域，傅里叶变换的公式为：其中N表示语音数据的长度，x(n)为语音数据的值。X(k)为对应的频率值。

(3)对音频数据进行频域分析：对变换后的频谱图进行分析检测，检测该帧音频数据中是否包含元音音节。优选的，元音音节的检测主要是依据元音的频谱特性，包括：元音的频率范围通常在(200hz-8000hz)以及或元音有共振峰特性。

(4)优选的，如果在一个时间段内(通常为1秒)，包含有元音的数据帧的帧数大于N(通常为9)帧，则可以判定这段音频无限接近于人的声音，继而创建语音标签。

(5)优选的，将音视频流缓存在存储介质，存储音频或视频文件时，从存储介质提取数据进行数据类型判断，如果数据类型匹配，则将语音标签嵌入至音频或视频文件中，当音频或视频文件打包时，将语音标签随音频或视频文件一起存储。

(6)优选的，回放时，回放器打开文件，定位到特定数据类型位置。读取该位置中附加的信息，分析附加信息中的人声标记点，并在回放器的进度条上显示，这些点就表示该音频或视频文件中存在人声音频的位置。根据进度条上的标记点，可进行快速定位。

(7)优选的，可以有标签浓缩回放功能，即提供用户按照预设的各类标签进行音频或视频浓缩回放的功能，用户可自行选择某种音频或视频标签的类型，系统会按照用户选择的标签对音频或视频文件进行浓缩，将该整段文件中的类型标签显示出来，从而提供用户单独回放某种类型标签标记的音频或视频文件，使用户可以更有针对性和更高效的对同录资料进行审查。

附图说明

图1为依据本发明的一种对音频或视频内容附加标签的方法的实施例1的流程图。

图2为依据本发明的一种对音频或视频内容附加标签的方法的实施例2的流程图。

图3为实施例2中依据每一秒元音个数其判断是否为人声的一个例子的示意图。

图4为依据本发明的一种对音频或视频内容附加标签的方法的实施例3的流程图。

图5为依据本发明一种对音频或视频内容进行处理的方法的实施例4流程图。

图6为本发明一种对音频或视频内容附加标签的系统600的实施例5的系统框图。

图7为本发明一种对音频或视频内容附加标签的系统600的实施例6的系统框图。

图8为本发明一种对音频或视频内容进行处理的装置700的系统框图。

具体实施方式

为了使本发明的技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例1

参考图1，图1为依据本发明的一种对音频或视频内容附加标签的方法的实施例1的流程图。该方法包括步骤S100-步骤S200。

在步骤S100处，对音频或视频进行人声检测并获得检测结果。一般问讯所录制的内容为视频或者音频，本步骤的人声检测可以检测视频或者音频。本步骤的人声检测包括但不限于两种类型：

第一种人声检测为判断是判断否为人声。例如，一段60分钟的视频，检测识别第1-20分钟为人声，第21-40分钟为非人声，第41-60分钟为人声。具体的检测方法实施者可以自行选择。例如，一种较为初步而简单的方法即依据音量来判断，当音量超过一般的噪音水平时即判断为人声，当然此种判断方法有可能有一定的错误率，即被判断为人身的内容可能不是人声，而是例如人站起时桌椅的声音，但即使被判断为人声的内容有一定错误率其仍可以初步实现本发明的目的之一，减少公检法人员回放问讯内容的观看量，增加公检法人员工作效率。本发明优选的一种人声检测方法将在实施例2中给予介绍。

第二种人声检测为将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。具体而言，对问讯内容的声音信号进行检测有可能发现其不同部分有不同的频谱特性，所述不同的频谱特性可以推断为不同的自然人发出的声音，例如，检测第发现一段60分钟视频中有两个自然人的频谱特性分别为甲、乙，第1-10分钟、第41-50分钟检测为甲；第11-20分钟、第51-60分钟视频检测为乙。

当然，上述两种人声检测可以使用其中任何一种或同时使用两种。

在步骤S200处，依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。

依据步骤S100，当检测为判断是否为人声时，则在步骤S200对检测为人声的问讯音频或视频的部分附加人声标签。例如，一段60分钟的视频，检测识别第1-20分钟为人声，第21-40分钟为非人声，第41-60分钟为人声，则对第1-20分钟、第41-60分钟附加人声标签。

当步骤S100检测不同的自然人的人声时，则在步骤S200处对检测为一个或多个自然人的问讯音频或视频的部分附加与所述一个或多个自然人对应的标签。例如，检测第发现一段60分钟视频中有两个自然人的频谱特性分别为甲、乙，第1-10分钟、第41-50分钟检测为甲，则对相应部分附加标签“甲”；第11-20分钟、第51-60分钟视频检测为乙，则对相应部分附加标签“乙”。

此外，即使在步骤S100没有检测不同自然人的人声，也可以在步骤S200处，通过人工的方式对检测到的人声内容进行进一步判断，人工判断不同自然人的声音，本步骤依据人的判断和操作附加相应标签。

此外，还可以通过人工的方式对检测到的人声内容判断其对于案件的重要程度，若出现重要证据或者出现突发情况，办案人员可以选择进行相应的操作，本步骤依据人的操作附加相应标签。

上述附加标签一般为以电子的方式进行标签。标签可以对需被附加标签的一段内容的起始时间和结束时间进行记载，以使标签指向该部分内容。标签可以以可视化的方式显示并被使用者观看，例如，屏幕中有一个显示的整个问讯内容进度条，标签用不同的颜色在所述进度条中标记人声和非人声；或者以不同的颜色标记甲、乙不同的自然人发出的声音；或者以一种或各种的颜色标注对案件有重要意义的内容。所述标签可以为系统自动附加，也可是依据人的操作附加相应标签。

实施例2

参考图2，为依据本发明的一种对音频或视频内容附加标签的方法的实施例2的流程图。实施例2的步骤S100-S200如实施例1，不再赘述。其步骤S100优选的可包括可步骤S110-S130。参考图3，图3为实施例2中每一秒元音个数及判断是否为人声的一个例子。

步骤S110处，将所述音频或视频的声音信号按预定时间长度A分割为帧。所述音频或视频的声音信号可以从原始音频或视频文件中获得，或者可从原始音频或视频文件中处理后获得，此声音信号尤其可以是PCM格式的音频数据。所述的帧是人为地用预定时间长度A分割的帧，而非视频技术中一般意义上的帧(一“帧”画面)。所述预定时间长度A的选择是考虑正常语速范围内人声的元音的持续时间而进行选择的。优选的，预定时间长度A为40毫秒；所述的对预定时间长度A的数值范围的设定以及40毫秒的设定，可供较准确的判断是否包含元音。分割后一个帧为一个待处理的单元。

步骤S120处，分析每帧声音信号是否包含元音。例如，有一段10秒的视频，预定时间长度A设定为40毫秒，则该视频的声音信号被分割为10秒/40毫秒＝250帧。分别判断此250帧是否为元音。判断一帧的声音信号是否为元音可以由实施者采用各种不同的已知的方法，本发明优选的方法将在实施例3中示出。

步骤S130处，依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。优选的，所述预定时间长度B为1秒；若1秒内包含元音的声音信号的帧的数量大于等于9帧，则判断为人声。参考图3，例如，有一段10秒的视频，预定时间长度A设定为40毫秒，预定时间长度B为1秒，则每一秒包含25帧，设定预定时间长度B内元音的帧数大于等于9帧判定为人声，若每一秒的元音个数如图3所示，则相应的秒是否为人声也可判断。

实施例3

参考图4，为依据本发明的一种对音频或视频内容附加标签的方法的实施例3的流程图。步骤S120优选的可包括的步骤S121-S122，共两个步骤。

在步骤S121处，将每帧声音信号从时域由傅里叶变换变换到频域；傅里叶变换的公式为：其中N表示语音数据的长度，x(n)为语音数据的值。,X(k)为对应的频率值。

在步骤S122处，将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音。所述频谱特性的比对可由实施者依据对元音的频谱认识及特征条件选择而采用不同的方法。本发明优选的依据元音的下述特征进行比对，第一，依据元音的频率范围200HZ-8000HZ进行比对；第二，依据元音有共振峰特性进行比对。例如，若某帧声音信号变换到频域后的频率范围为200HZ-8000HZ，则判断其为元音。再例如，若某帧声音信号变换到频域后符合元音的共振峰特性，则判断其为元音。当然，本发明可以采用任何一种比对方式，或同时采用两种比对方式。

实施例4

图5为依据本发明一种对音频或视频内容进行处理的方法的实施例4流程图，包括步骤S510、S521、S522、S523、S524步骤。所述对音频或视频内容的处理包括但不限于对相应标签进行显示，对带有标签的内容进行存储，对标签相应的内容进行播放，或依据标签生成其他文件。

在步骤S510处，对音频或视频内容附加标签。所述对音频或视频内容附加标签，为依据实施例1—3所述方法，不再赘述。

在步骤S510后，可执行步骤521。在步骤S521处，对音频或视频内容的特定标签进行显示。所述特定标签可以是全部标签或者被选定的标签。显示方式可以采用一种或各种颜色显示，或采可视觉区分的不同方式进行显示。

或者，在步骤S510后，可执行步骤S522。在步骤522处，对附加标签后的音频或视频进行存储。

或者，在步骤S510后，可执行步骤S523。在步骤523处，在步骤S523处，依据特定标签，对相应问讯音频或视频的部分进行播放。所述特定标签可以为：全部的人声标签，此时，对相应问讯音频或视频的部分进行播放即对所有附有人声标签的内容进行播放；所述特定标签还可以为，用户手动选择的部分标签，即用户选择哪些标签即播放那些标签相应的音频或视频部分。在回放全程同步录音录像时可以选择所有人的语音标签各个起始结束音视频位置连续或离散播放，也可以选择某人的语音标签各个起始结束音视频位置连续或离散播放。

或者，在步骤S510后，可执行步骤S524。在步骤S524处，依据特定标签，对相应问讯音频或视频的部分进行提取，生成一个或多个可连续播放的文件。所述特定标签可以为：全部的人声标签，此时，对相应问讯音频或视频的部分进行提取即对所有附有人声标签的内容进行提取；所述特定标签还可以为，用户手动选择的部分标签，即用户选择那些标签即提取哪些标签相应的音频或视频部分。进行所述提取后，生成一个或多个可供连续播放的文件。

在执行完S510后，所述S521、S522、S523、S524也可以各种方式组合进行执行，不再赘述。

实施例5

参考图6，图6为本发明一种对音频或视频内容附加标签的系统600的实施例5的系统框图。包括检测模块100，标签模块200。

所述检测模块100，用于对音频或视频进行人声检测并获得检测结果。其功能如实施例1的步骤S100所述。

所述标签模块200，用来用于依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。其功能如实施例1的步骤S200所述。

实施例6

参考图7，为本发明一种对音频或视频内容附加标签的系统600的实施例6的系统框图。包括检测模块100，标签模块200。

检测模块100又包括：

分割模块110、用于将所述音频或视频的声音信号按预定时间长度A分割为帧；其功能如实施例2的步骤S110所述。

元音分析模块120、用于分析每帧声音信号是否包含元音，其功能如实施例2的步骤S120所述。所述元音判断模块120进一步包括：傅里叶变换模块121，用于将每帧声音信号从时域由傅里叶变换变换到频域，其功能如实施例3步骤S121所述；元音比对模块122，用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音，其功能如实施例3步骤S122所述。

人声判断模块130，用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声，其功能如实施例2步骤S130所述。

实施例7

参考图8，图8为本发明一种对音频或视频内容进行处理的装置700的系统框图。其包括：

如权利要求9-10所述的对音频或视频内容附加标签的系统600，以及

处理模块710，用于对音频或视频内容的特定标签进行显示；或者

对附加标签后的音频或视频进行存储；或者

依据特定标签，对相应音频或视频的部分进行播放；或者

依据特定标签，对相应音频或视频的部分进行提取，生成一个或多个可连续播放的文件。

所述处理模块710的相应功能如本发明实施例4步骤S521-S524所述。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种对音频或视频内容附加标签的方法，其特征在于，包括以下步骤：

对音频或视频进行人声检测并获得检测结果；

依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。

2.如权利要求1所述一种对音频或视频内容附加标签的方法，其特征在于，所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤：

将所述音频或视频的声音信号按预定时间长度A分割为帧；

分析每帧声音信号是否包含元音；

依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。

3.如权利要求2所述一种对音频或视频内容附加标签的方法，其特征在于，所述预定时间长度A为40毫秒。

4.如权利要求2-3所述一种对音频或视频内容附加标签的方法，其特征在于，所述预定时间长度B为1秒；若所述预定时间长度内包含元音的声音信号的帧的数量大于9帧，则判断相应音频或视频包含人的语音。

5.如权利要求2-4所述一种对音频或视频内容附加标签的方法，其特征在于，所述分析每帧声音信号是否包含元音的步骤进一步包括以下步骤：

将每帧声音信号从时域由傅里叶变换变换到频域；

将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音。

6.如权利要求5所述一种对音频或视频内容附加标签的方法，其特征在于，所述将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音，依据包括：

元音的频率范围200HZ-8000HZ和/或元音有共振峰特性。

7.如权利要求1所述一种对音频或视频内容附加标签的方法，其特征在于，所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤：

将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。

8.一种对音频或视频内容进行处理的方法，其特征在于包括以下步骤：

按照权利要求1-7所述方法对音频或视频内容附加标签；

对音频或视频内容的特定标签进行显示；或者

对附加标签后的音频或视频进行存储；或者

依据特定标签，对相应音频或视频的部分进行播放；或者

9.一种对音频或视频内容附加标签的系统，其特征在于，包括以下模块：

检测模块，用于对音频或视频进行人声检测并获得检测结果；

标签模块，用于依据检测结果对音频或视频附加标签，所述附加标签包括对判断为人声的音频或视频的部分附加人声标签，或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签，所述附加标签为自动附加或依据人的操作附加相应标签。

10.如权利要求9所述一种对音频或视频内容附加标签的系统，其特征在于，其检测模块进一步包括：

分割模块，用于将所述音频或视频的声音信号按预定时间长度A分割为帧；

元音分析模块，用于分析每帧声音信号是否包含元音；所述元音判断模块进一步包括：傅里叶变换模块，用于将每帧声音信号从时域由傅里叶变换变换到频域；元音比对模块，用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对，判断其是否包含元音；

人声判断模块，用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。

11.一种对音频或视频内容进行处理的装置，其特征在于，包括：

如权利要求9-10所述的对音频或视频内容附加标签的系统；以及

处理模块，用于对音频或视频内容的特定标签进行显示；或者对附加标签后的音频或视频进行存储；或者依据特定标签，对相应音频或视频的部分进行播放；或者依据特定标签，对相应音频或视频的部分进行提取，生成一个或多个可连续播放的文件。