CN105933635A - 一种对音频或视频内容附加标签的方法 - Google Patents

一种对音频或视频内容附加标签的方法 Download PDF

Info

Publication number
CN105933635A
CN105933635A CN201610290280.3A CN201610290280A CN105933635A CN 105933635 A CN105933635 A CN 105933635A CN 201610290280 A CN201610290280 A CN 201610290280A CN 105933635 A CN105933635 A CN 105933635A
Authority
CN
China
Prior art keywords
audio
video
label
vowel
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610290280.3A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610290280.3A priority Critical patent/CN105933635A/zh
Publication of CN105933635A publication Critical patent/CN105933635A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9206Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a character code signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • H04N5/9305Regeneration of the television signal or of selected parts thereof involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及对音频、视频内容附加标签的方法和系统,本发明涉及对人声的检测。本发明提供一种对音频或视频内容附加标签的系统,包括检测模块和标签模块,其检测模块进一步包括:分割模块,用于将所述音频或视频的声音信号按预定时间长度A分割为帧;元音分析模块,用于分析每帧声音信号是否包含元音;人声判断模块,用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。所述元音判断模块进一步包括:傅里叶变换模块,用于将每帧声音信号从时域由傅里叶变换变换到频域;元音比对模块,用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音。

Description

一种对音频或视频内容附加标签的方法
技术领域
本发明涉及一种对音频或视频内容检测并附加标签的方法和系统。本发明主要涉及语音模式检测领域,具体内容为语音标签的创建、嵌入、存储、回放、定位等。本发明涉及对人的声音的检测,本发明涉及在讯问、询问环境下的声音检测。本发明的方法和系统主要应用在公安、检察院、法院对犯罪嫌疑人、被告人进行讯问,对证人进行询问,以及庭审的全程同步录音录像内容审查,也可用于其它音视频文件的审查。
背景技术
语音检测技术,主要是指在音频数据中检测到特定对象的声音,区别于其他对象。语音检测领域所涉及到的技术有信号处理、模式识别、概率论、信息论、人工智能。语音检测技术包括:特征提取技术,模式匹配准则以及模型训练技术三个方面。随着信息技术领域的科技发展,预计未来几年语音检测技术将进入军事、审讯、庭审、通信、电子医疗、家庭服务、消费电子产品等各个领域。语音检测领域前景广阔,通过与其他技术的结合,可以应用于更加复杂的场景。
随着社会经济发展,犯罪形式愈发朝着多样化、复杂化、科技化、隐秘化的方向发展,使得查办案件难度加大,需要办案人员反复进行案情分析。其中讯问全程的同步录音录像,可以回溯再现讯问当时的情境,能够重现犯罪嫌疑人在讯问中陈述的内容以及说话时的面部表情和精神状态,是侦查部门进行事后案情分析重要的线索来源。此外,侦监和公诉部门进行案件监督审查时,需要全程回放案件的录音录像进行审查是否有刑讯逼供、指供、诱供等非法行为发生。
但是,由于办案审讯时间通常较长,很大部分录像是没有审讯声音的无用录像,实际案件的全程同步录音录像往往持续数个小时,若全程回放案件的录音录像以进行调查、搜集关键线索和监督审查,会降低案件调查取证和监督审查的效率,增加工作强度,甚至由于观看人员的疲劳错失关键的画面或声音等内容。
因此可知,现有技术存在着对音频或视频内容无法做到有效的甄别,存在办案人员观看音频或视频内容时效率低,工作强度大的问题。
此外,现有技术中对人声进行检测的技术也存在种种问题,首先,存在检测准确性不高的问题;其次,目前的检测算法复杂,导致运算成本过高,导致运行速度慢、对设备要求高等问题;现有检测算法也无法针对讯问、询问、庭审这种典型的环境,现有检测算法存在没有针对性,效率不高、检测速度慢,或对设备要求较高等问题。
发明内容
本发明针对现有技术的不足,提供了一种对音频或视频内容附加标签的方法。
本发明所采用的技术方案如下:
本发明提供一种对音频或视频内容附加标签的方法,其特征在于,包括以下步骤:对音频或视频进行人声检测并获得检测结果;依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。
优选的,所述一种对音频或视频内容附加标签的方法中,所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤:将所述音频或视频的声音信号按预定时间长度A分割为帧;分析每帧声音信号是否包含元音;依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。
优选的,所述预定时间长度A为40毫秒。
优选的,所述预定时间长度B为1秒;若所述预定时间长度内包含元音的声音信号的帧的数量大于9帧,则判断相应音频或视频包含人的语音。
优选的,所述一种对音频或视频内容附加标签的方法中,所述分析每帧声音信号是否包含元音的步骤进一步包括以下步骤:将每帧声音信号从时域由傅里叶变换变换到频域,将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音。
优选的,所述一种对音频或视频内容附加标签的方法中,所述将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音,依据包括:元音的频率范围200HZ-8000HZ和/或元音有共振峰特性。
优选的,所述一种对音频或视频内容附加标签的方法中,所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤:将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。
本发明还提供一种对音频或视频内容进行处理的方法,其特征在于包括以下步骤:按照本发明前述任何一种对音频或视频内容附加标签的方法对音频或视频内容附加标签;对音频或视频内容的特定标签进行显示;或者对附加标签后的音频或视频进行存储;或者依据特定标签,对相应音频或视频的部分进行播放;或者依据特定标签,对相应音频或视频的部分进行提取,生成一个或多个可连续播放的文件。
本发明还提供一种对音频或视频内容附加标签的系统,其特征在于,包括以下模块:检测模块,用于对音频或视频进行人声检测并获得检测结果;标签模块,用于依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。
优选的,所述一种对音频或视频内容附加标签的系统中,其检测模块进一步包括:分割模块、元音分析模块、人声判断模块。所述分割模块,用于将所述音频或视频的声音信号按预定时间长度A分割为帧。所述元音分析模块,用于分析每帧声音信号是否包含元音;所述元音判断模块进一步包括:傅里叶变换模块,用于将每帧声音信号从时域由傅里叶变换变换到频域;元音比对模块,用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音。所述人声判断模块,用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。
本发明还提供一种对音频或视频内容进行处理的装置,其特征在于,包括:本发明前述对音频或视频内容附加标签的系统;以及处理模块,用于对音频或视频内容的特定标签进行显示;或者对附加标签后的音频或视频进行存储;或者依据特定标签,对相应音频或视频的部分进行播放;或者依据特定标签,对相应音频或视频的部分进行提取,生成一个或多个可连续播放的文件。
本发明相对现有技术具有突出的实质性特点和显著地进步,具体地说,其使得侦查人员或监督人员无需全程播放问讯声频或视频文件,自动播放有人声的有效内容,提高了侦查和监督的效率,减少了工作量。本发明涉及的人声检测算法识别准确率高,能特别针对讯问、询问、庭审这种典型的环境,算法高效,运行成本较低,减轻了设备成本或负担。
此外,为有助于本发明的实施,本申请还提供以下信息,以下信息并不构成对本发明的任何限制:
(1)目前在行业应用中使用率最高的音频编码格式有AAC、G.711A、G.711U,这些音频编码格式的特点都是压缩率较高且音质损失小,可以满足行业应用,在对这些音频格式进行分析前,可将其统一转换为PCM格式。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于各行业的数字音频编码中。PCM格式的音频数据进行每40ms为1帧的分割,基于经验推算40毫秒为一个较优的合理的时间段,40毫秒大致为正常语速元音的持续时间。
(2)将经过数据分割的数据进行傅里叶变换,转换到频域,傅里叶变换的公式为:其中N表示语音数据的长度,x(n)为语音数据的值。X(k)为对应的频率值。
(3)对音频数据进行频域分析:对变换后的频谱图进行分析检测,检测该帧音频数据中是否包含元音音节。优选的,元音音节的检测主要是依据元音的频谱特性,包括:元音的频率范围通常在(200hz-8000hz)以及或元音有共振峰特性。
(4)优选的,如果在一个时间段内(通常为1秒),包含有元音的数据帧的帧数大于N(通常为9)帧,则可以判定这段音频无限接近于人的声音,继而创建语音标签。
(5)优选的,将音视频流缓存在存储介质,存储音频或视频文件时,从存储介质提取数据进行数据类型判断,如果数据类型匹配,则将语音标签嵌入至音频或视频文件中,当音频或视频文件打包时,将语音标签随音频或视频文件一起存储。
(6)优选的,回放时,回放器打开文件,定位到特定数据类型位置。读取该位置中附加的信息,分析附加信息中的人声标记点,并在回放器的进度条上显示,这些点就表示该音频或视频文件中存在人声音频的位置。根据进度条上的标记点,可进行快速定位。
(7)优选的,可以有标签浓缩回放功能,即提供用户按照预设的各类标签进行音频或视频浓缩回放的功能,用户可自行选择某种音频或视频标签的类型,系统会按照用户选择的标签对音频或视频文件进行浓缩,将该整段文件中的类型标签显示出来,从而提供用户单独回放某种类型标签标记的音频或视频文件,使用户可以更有针对性和更高效的对同录资料进行审查。
附图说明
图1为依据本发明的一种对音频或视频内容附加标签的方法的实施例1的流程图。
图2为依据本发明的一种对音频或视频内容附加标签的方法的实施例2的流程图。
图3为实施例2中依据每一秒元音个数其判断是否为人声的一个例子的示意图。
图4为依据本发明的一种对音频或视频内容附加标签的方法的实施例3的流程图。
图5为依据本发明一种对音频或视频内容进行处理的方法的实施例4流程图。
图6为本发明一种对音频或视频内容附加标签的系统600的实施例5的系统框图。
图7为本发明一种对音频或视频内容附加标签的系统600的实施例6的系统框图。
图8为本发明一种对音频或视频内容进行处理的装置700的系统框图。
具体实施方式
为了使本发明的技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例1
参考图1,图1为依据本发明的一种对音频或视频内容附加标签的方法的实施例1的流程图。该方法包括步骤S100-步骤S200。
在步骤S100处,对音频或视频进行人声检测并获得检测结果。一般问讯所录制的内容为视频或者音频,本步骤的人声检测可以检测视频或者音频。本步骤的人声检测包括但不限于两种类型:
第一种人声检测为判断是判断否为人声。例如,一段60分钟的视频,检测识别第1-20分钟为人声,第21-40分钟为非人声,第41-60分钟为人声。具体的检测方法实施者可以自行选择。例如,一种较为初步而简单的方法即依据音量来判断,当音量超过一般的噪音水平时即判断为人声,当然此种判断方法有可能有一定的错误率,即被判断为人身的内容可能不是人声,而是例如人站起时桌椅的声音,但即使被判断为人声的内容有一定错误率其仍可以初步实现本发明的目的之一,减少公检法人员回放问讯内容的观看量,增加公检法人员工作效率。本发明优选的一种人声检测方法将在实施例2中给予介绍。
第二种人声检测为将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。具体而言,对问讯内容的声音信号进行检测有可能发现其不同部分有不同的频谱特性,所述不同的频谱特性可以推断为不同的自然人发出的声音,例如,检测第发现一段60分钟视频中有两个自然人的频谱特性分别为甲、乙,第1-10分钟、第41-50分钟检测为甲;第11-20分钟、第51-60分钟视频检测为乙。
当然,上述两种人声检测可以使用其中任何一种或同时使用两种。
在步骤S200处,依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。
依据步骤S100,当检测为判断是否为人声时,则在步骤S200对检测为人声的问讯音频或视频的部分附加人声标签。例如,一段60分钟的视频,检测识别第1-20分钟为人声,第21-40分钟为非人声,第41-60分钟为人声,则对第1-20分钟、第41-60分钟附加人声标签。
当步骤S100检测不同的自然人的人声时,则在步骤S200处对检测为一个或多个自然人的问讯音频或视频的部分附加与所述一个或多个自然人对应的标签。例如,检测第发现一段60分钟视频中有两个自然人的频谱特性分别为甲、乙,第1-10分钟、第41-50分钟检测为甲,则对相应部分附加标签“甲”;第11-20分钟、第51-60分钟视频检测为乙,则对相应部分附加标签“乙”。
此外,即使在步骤S100没有检测不同自然人的人声,也可以在步骤S200处,通过人工的方式对检测到的人声内容进行进一步判断,人工判断不同自然人的声音,本步骤依据人的判断和操作附加相应标签。
此外,还可以通过人工的方式对检测到的人声内容判断其对于案件的重要程度,若出现重要证据或者出现突发情况,办案人员可以选择进行相应的操作,本步骤依据人的操作附加相应标签。
上述附加标签一般为以电子的方式进行标签。标签可以对需被附加标签的一段内容的起始时间和结束时间进行记载,以使标签指向该部分内容。标签可以以可视化的方式显示并被使用者观看,例如,屏幕中有一个显示的整个问讯内容进度条,标签用不同的颜色在所述进度条中标记人声和非人声;或者以不同的颜色标记甲、乙不同的自然人发出的声音;或者以一种或各种的颜色标注对案件有重要意义的内容。所述标签可以为系统自动附加,也可是依据人的操作附加相应标签。
实施例2
参考图2,为依据本发明的一种对音频或视频内容附加标签的方法的实施例2的流程图。实施例2的步骤S100-S200如实施例1,不再赘述。其步骤S100优选的可包括可步骤S110-S130。参考图3,图3为实施例2中每一秒元音个数及判断是否为人声的一个例子。
步骤S110处,将所述音频或视频的声音信号按预定时间长度A分割为帧。所述音频或视频的声音信号可以从原始音频或视频文件中获得,或者可从原始音频或视频文件中处理后获得,此声音信号尤其可以是PCM格式的音频数据。所述的帧是人为地用预定时间长度A分割的帧,而非视频技术中一般意义上的帧(一“帧”画面)。所述预定时间长度A的选择是考虑正常语速范围内人声的元音的持续时间而进行选择的。优选的,预定时间长度A为40毫秒;所述的对预定时间长度A的数值范围的设定以及40毫秒的设定,可供较准确的判断是否包含元音。分割后一个帧为一个待处理的单元。
步骤S120处,分析每帧声音信号是否包含元音。例如,有一段10秒的视频,预定时间长度A设定为40毫秒,则该视频的声音信号被分割为10秒/40毫秒=250帧。分别判断此250帧是否为元音。判断一帧的声音信号是否为元音可以由实施者采用各种不同的已知的方法,本发明优选的方法将在实施例3中示出。
步骤S130处,依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。优选的,所述预定时间长度B为1秒;若1秒内包含元音的声音信号的帧的数量大于等于9帧,则判断为人声。参考图3,例如,有一段10秒的视频,预定时间长度A设定为40毫秒,预定时间长度B为1秒,则每一秒包含25帧,设定预定时间长度B内元音的帧数大于等于9帧判定为人声,若每一秒的元音个数如图3所示,则相应的秒是否为人声也可判断。
实施例3
参考图4,为依据本发明的一种对音频或视频内容附加标签的方法的实施例3的流程图。步骤S120优选的可包括的步骤S121-S122,共两个步骤。
在步骤S121处,将每帧声音信号从时域由傅里叶变换变换到频域;傅里叶变换的公式为:其中N表示语音数据的长度,x(n)为语音数据的值。,X(k)为对应的频率值。
在步骤S122处,将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音。所述频谱特性的比对可由实施者依据对元音的频谱认识及特征条件选择而采用不同的方法。本发明优选的依据元音的下述特征进行比对,第一,依据元音的频率范围200HZ-8000HZ进行比对;第二,依据元音有共振峰特性进行比对。例如,若某帧声音信号变换到频域后的频率范围为200HZ-8000HZ,则判断其为元音。再例如,若某帧声音信号变换到频域后符合元音的共振峰特性,则判断其为元音。当然,本发明可以采用任何一种比对方式,或同时采用两种比对方式。
实施例4
图5为依据本发明一种对音频或视频内容进行处理的方法的实施例4流程图,包括步骤S510、S521、S522、S523、S524步骤。所述对音频或视频内容的处理包括但不限于对相应标签进行显示,对带有标签的内容进行存储,对标签相应的内容进行播放,或依据标签生成其他文件。
在步骤S510处,对音频或视频内容附加标签。所述对音频或视频内容附加标签,为依据实施例1—3所述方法,不再赘述。
在步骤S510后,可执行步骤521。在步骤S521处,对音频或视频内容的特定标签进行显示。所述特定标签可以是全部标签或者被选定的标签。显示方式可以采用一种或各种颜色显示,或采可视觉区分的不同方式进行显示。
或者,在步骤S510后,可执行步骤S522。在步骤522处,对附加标签后的音频或视频进行存储。
或者,在步骤S510后,可执行步骤S523。在步骤523处,在步骤S523处,依据特定标签,对相应问讯音频或视频的部分进行播放。所述特定标签可以为:全部的人声标签,此时,对相应问讯音频或视频的部分进行播放即对所有附有人声标签的内容进行播放;所述特定标签还可以为,用户手动选择的部分标签,即用户选择哪些标签即播放那些标签相应的音频或视频部分。在回放全程同步录音录像时可以选择所有人的语音标签各个起始结束音视频位置连续或离散播放,也可以选择某人的语音标签各个起始结束音视频位置连续或离散播放。
或者,在步骤S510后,可执行步骤S524。在步骤S524处,依据特定标签,对相应问讯音频或视频的部分进行提取,生成一个或多个可连续播放的文件。所述特定标签可以为:全部的人声标签,此时,对相应问讯音频或视频的部分进行提取即对所有附有人声标签的内容进行提取;所述特定标签还可以为,用户手动选择的部分标签,即用户选择那些标签即提取哪些标签相应的音频或视频部分。进行所述提取后,生成一个或多个可供连续播放的文件。
在执行完S510后,所述S521、S522、S523、S524也可以各种方式组合进行执行,不再赘述。
实施例5
参考图6,图6为本发明一种对音频或视频内容附加标签的系统600的实施例5的系统框图。包括检测模块100,标签模块200。
所述检测模块100,用于对音频或视频进行人声检测并获得检测结果。其功能如实施例1的步骤S100所述。
所述标签模块200,用来用于依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。其功能如实施例1的步骤S200所述。
实施例6
参考图7,为本发明一种对音频或视频内容附加标签的系统600的实施例6的系统框图。包括检测模块100,标签模块200。
检测模块100又包括:
分割模块110、用于将所述音频或视频的声音信号按预定时间长度A分割为帧;其功能如实施例2的步骤S110所述。
元音分析模块120、用于分析每帧声音信号是否包含元音,其功能如实施例2的步骤S120所述。所述元音判断模块120进一步包括:傅里叶变换模块121,用于将每帧声音信号从时域由傅里叶变换变换到频域,其功能如实施例3步骤S121所述;元音比对模块122,用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音,其功能如实施例3步骤S122所述。
人声判断模块130,用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声,其功能如实施例2步骤S130所述。
实施例7
参考图8,图8为本发明一种对音频或视频内容进行处理的装置700的系统框图。其包括:
如权利要求9-10所述的对音频或视频内容附加标签的系统600,以及
处理模块710,用于对音频或视频内容的特定标签进行显示;或者
对附加标签后的音频或视频进行存储;或者
依据特定标签,对相应音频或视频的部分进行播放;或者
依据特定标签,对相应音频或视频的部分进行提取,生成一个或多个可连续播放的文件。
所述处理模块710的相应功能如本发明实施例4步骤S521-S524所述。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (11)

1.一种对音频或视频内容附加标签的方法,其特征在于,包括以下步骤:
对音频或视频进行人声检测并获得检测结果;
依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。
2.如权利要求1所述一种对音频或视频内容附加标签的方法,其特征在于,所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤:
将所述音频或视频的声音信号按预定时间长度A分割为帧;
分析每帧声音信号是否包含元音;
依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。
3.如权利要求2所述一种对音频或视频内容附加标签的方法,其特征在于,所述预定时间长度A为40毫秒。
4.如权利要求2-3所述一种对音频或视频内容附加标签的方法,其特征在于,所述预定时间长度B为1秒;若所述预定时间长度内包含元音的声音信号的帧的数量大于9帧,则判断相应音频或视频包含人的语音。
5.如权利要求2-4所述一种对音频或视频内容附加标签的方法,其特征在于,所述分析每帧声音信号是否包含元音的步骤进一步包括以下步骤:
将每帧声音信号从时域由傅里叶变换变换到频域;
将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音。
6.如权利要求5所述一种对音频或视频内容附加标签的方法,其特征在于,所述将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音,依据包括:
元音的频率范围200HZ-8000HZ和/或元音有共振峰特性。
7.如权利要求1所述一种对音频或视频内容附加标签的方法,其特征在于,所述对音频或视频进行人声检测并或得检测结果的步骤进一步包括以下步骤:
将所述音频或视频的声音信号依据不同的频谱特性区分为不同自然人的部分。
8.一种对音频或视频内容进行处理的方法,其特征在于包括以下步骤:
按照权利要求1-7所述方法对音频或视频内容附加标签;
对音频或视频内容的特定标签进行显示;或者
对附加标签后的音频或视频进行存储;或者
依据特定标签,对相应音频或视频的部分进行播放;或者
依据特定标签,对相应音频或视频的部分进行提取,生成一个或多个可连续播放的文件。
9.一种对音频或视频内容附加标签的系统,其特征在于,包括以下模块:
检测模块,用于对音频或视频进行人声检测并获得检测结果;
标签模块,用于依据检测结果对音频或视频附加标签,所述附加标签包括对判断为人声的音频或视频的部分附加人声标签,或对判断为一个或多个自然人的音频或视频的部分附加与所述一个或多个自然人对应的标签,所述附加标签为自动附加或依据人的操作附加相应标签。
10.如权利要求9所述一种对音频或视频内容附加标签的系统,其特征在于,其检测模块进一步包括:
分割模块,用于将所述音频或视频的声音信号按预定时间长度A分割为帧;
元音分析模块,用于分析每帧声音信号是否包含元音;所述元音判断模块进一步包括:傅里叶变换模块,用于将每帧声音信号从时域由傅里叶变换变换到频域;元音比对模块,用于将每帧声音信号变换到频域后的频谱特性与元音的频谱特性进行比对,判断其是否包含元音;
人声判断模块,用于依据预定时间长度B内包含元音的声音信号的帧的数量判断人声。
11.一种对音频或视频内容进行处理的装置,其特征在于,包括:
如权利要求9-10所述的对音频或视频内容附加标签的系统;以及
处理模块,用于对音频或视频内容的特定标签进行显示;或者对附加标签后的音频或视频进行存储;或者依据特定标签,对相应音频或视频的部分进行播放;或者依据特定标签,对相应音频或视频的部分进行提取,生成一个或多个可连续播放的文件。
CN201610290280.3A 2016-05-04 2016-05-04 一种对音频或视频内容附加标签的方法 Pending CN105933635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610290280.3A CN105933635A (zh) 2016-05-04 2016-05-04 一种对音频或视频内容附加标签的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610290280.3A CN105933635A (zh) 2016-05-04 2016-05-04 一种对音频或视频内容附加标签的方法

Publications (1)

Publication Number Publication Date
CN105933635A true CN105933635A (zh) 2016-09-07

Family

ID=56835068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610290280.3A Pending CN105933635A (zh) 2016-05-04 2016-05-04 一种对音频或视频内容附加标签的方法

Country Status (1)

Country Link
CN (1) CN105933635A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792346A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种教学视频中的音频调整方法及装置
CN108538309A (zh) * 2018-03-01 2018-09-14 杭州趣维科技有限公司 一种歌声侦测的方法
CN110415735A (zh) * 2018-04-28 2019-11-05 海能达通信股份有限公司 一种语音播放方法、装置及客户端
CN111556254A (zh) * 2020-04-10 2020-08-18 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN112653916A (zh) * 2019-10-10 2021-04-13 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002862A1 (en) * 2002-06-28 2004-01-01 Samsung Electronics Co., Ltd. Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
CN1794315A (zh) * 2004-12-24 2006-06-28 雅马哈株式会社 语言学习系统
CN102982800A (zh) * 2012-11-08 2013-03-20 鸿富锦精密工业(深圳)有限公司 具有影音文件处理功能的电子装置及影音文件处理方法
CN103260110A (zh) * 2012-02-16 2013-08-21 Jvc建伍株式会社 噪声降低装置、声音输入装置、无线通信装置及噪声降低方法
CN104123115A (zh) * 2014-07-28 2014-10-29 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104252464A (zh) * 2013-06-26 2014-12-31 联想(北京)有限公司 信息处理方法和装置
CN104867494A (zh) * 2015-05-07 2015-08-26 广东欧珀移动通信有限公司 一种录音文件的命名分类方法及系统
CN105100892A (zh) * 2015-07-28 2015-11-25 努比亚技术有限公司 视频播放装置及方法
CN105224925A (zh) * 2015-09-30 2016-01-06 努比亚技术有限公司 视频处理装置、方法及移动终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002862A1 (en) * 2002-06-28 2004-01-01 Samsung Electronics Co., Ltd. Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
CN1794315A (zh) * 2004-12-24 2006-06-28 雅马哈株式会社 语言学习系统
CN103260110A (zh) * 2012-02-16 2013-08-21 Jvc建伍株式会社 噪声降低装置、声音输入装置、无线通信装置及噪声降低方法
CN102982800A (zh) * 2012-11-08 2013-03-20 鸿富锦精密工业(深圳)有限公司 具有影音文件处理功能的电子装置及影音文件处理方法
CN104252464A (zh) * 2013-06-26 2014-12-31 联想(北京)有限公司 信息处理方法和装置
CN104123115A (zh) * 2014-07-28 2014-10-29 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104867494A (zh) * 2015-05-07 2015-08-26 广东欧珀移动通信有限公司 一种录音文件的命名分类方法及系统
CN105100892A (zh) * 2015-07-28 2015-11-25 努比亚技术有限公司 视频播放装置及方法
CN105224925A (zh) * 2015-09-30 2016-01-06 努比亚技术有限公司 视频处理装置、方法及移动终端

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792346A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种教学视频中的音频调整方法及装置
CN108538309A (zh) * 2018-03-01 2018-09-14 杭州趣维科技有限公司 一种歌声侦测的方法
CN108538309B (zh) * 2018-03-01 2021-09-21 杭州小影创新科技股份有限公司 一种歌声侦测的方法
CN110415735A (zh) * 2018-04-28 2019-11-05 海能达通信股份有限公司 一种语音播放方法、装置及客户端
CN112653916A (zh) * 2019-10-10 2021-04-13 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备
CN112653916B (zh) * 2019-10-10 2023-08-29 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备
CN111556254A (zh) * 2020-04-10 2020-08-18 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN111556254B (zh) * 2020-04-10 2021-04-02 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备

Similar Documents

Publication Publication Date Title
US11183198B2 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
CN105933635A (zh) 一种对音频或视频内容附加标签的方法
US10026410B2 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
Istrate et al. Information extraction from sound for medical telemonitoring
Gupta et al. Current developments and future trends in audio authentication
EP1081960A1 (en) Signal processing method and video/voice processing device
US20050197724A1 (en) System and method to generate audio fingerprints for classification and storage of audio clips
US20050171768A1 (en) Detection of voice inactivity within a sound stream
TW200300925A (en) System and method for music identification
Nam et al. Speaker identification and video analysis for hierarchical video shot classification
Vacher et al. Sound detection and classification for medical telesurvey
Jiang et al. Video segmentation with the support of audio segmentation and classification
EP2787503A1 (en) Method and system of audio signal watermarking
Sharma et al. Two-stage supervised learning-based method to detect screams and cries in urban environments
CN105283916B (zh) 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
Qi et al. Enhancement of female esophageal and tracheoesophageal speech
CN108735230A (zh) 基于混合音频的背景音乐识别方法、装置及设备
Tsekeridou et al. Audio-visual content analysis for content-based video indexing
Pfeiffer et al. Formalisation of MPEG-1 compressed domain audio features
Chen et al. A robust feature extraction algorithm for audio fingerprinting
CN113099283B (zh) 监控画面和声音同步的方法及相关设备
US20160163354A1 (en) Programme Control
Hayasaka et al. Noise-robust scream detection using band-limited spectral entropy
JP5907487B2 (ja) 情報伝送システム、送信装置、受信装置、情報伝送方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication