CN107402965A - 一种音频检索方法 - Google Patents
一种音频检索方法 Download PDFInfo
- Publication number
- CN107402965A CN107402965A CN201710482883.8A CN201710482883A CN107402965A CN 107402965 A CN107402965 A CN 107402965A CN 201710482883 A CN201710482883 A CN 201710482883A CN 107402965 A CN107402965 A CN 107402965A
- Authority
- CN
- China
- Prior art keywords
- audio
- jing yin
- candidate
- word
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种音频检索方法,包括:S1、获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。本发明具有并不需要高维距离计算,并且基于语音型的特点优化传统的表示级检索方法,在没有完善领域字典的情况下也能快速准确的技术优势。
Description
技术领域
本发明涉及信号处理技术领域,更具体地,涉及一种音频检索方法。
背景技术
基于内容的音频检索根据检索的依据可以分为表示级检索和语义级检索。目前的研究中,针对语音类型的检索大都是通过语义级检索来实现,其中以语音识别为核心的语音文档检索发展已经比较成熟,针对不同的领域,需要设计不同的词典,针对性较强。
但是,针对于特定应用场景的语音识别必须以专业词库为基础,特别类似农业等领域专有词很多,不同地域的差异很大的复杂语境下,专业词库的设计比较复杂。相比之下,表示级检索方法虽然相对简单一些,但是具有更好的普适性,受应用场景的限制小,在相专用词典比较匮乏的情况下,如果能够较快的通过表示级检索来实现语音样例的检索,不失为一种替代选择。
近些年来,越来越多的学者开始关注表示级检索算法。表示级检索以音频样例检索为主要方式,使用更一般的音频特征来进行检索,需要经过音频预处理、特征提取、音频分割、音频分类和索引检索等步骤。近些年来,针对表示级检索方法的研究不多,大都集中于广告检测、片头、片尾曲重复性检测等实时性音频样例检索,也有一些针对于音乐类型数据的特定表示级检索方法研究,但是针对语音样例的表示级检索方法研究不多。直接采用传统的顺序匹配需要进行大量的高维距离计算,在面对海量数据库的检索时的时间难以忍受。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种音频检索方法。
根据本发明的一个方面,提供一种音频检索方法,包括:一种音频检索方法,包括:
S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;
S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;
S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。
优选地,所述步骤S2之前还包括:根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录,获得所述倒排索引表。
优选地,所述步骤S1包括:
S1.1、基于STE动态阈值和有效静音阈值,对所述样例音频进行静音检测,获得所述样例音频的有效静音特征;
S1.2、根据所述样例音频的有效静音特征的变化帧数阈值,对所述样例音频的有效静音特征进行求余运算,获得所述样例音频的静音词,作为所述查询静音词。
优选地,所述获得所述倒排索引表的步骤,进一步包括:
获得各音频包含的静音词;
对于任意一个音频,将所述音频的静音词中出现次数最多的若干个静音词作为停用词,将非停用词以按时序排列且两两相邻的静音词对的形式作为词项,添加至倒排索引词典;
对于所述倒排索引词典中的任意一个词项,设置所述词项对应的音频中的IDF以及倒排表指针,根据包含所述词项的音频的唯一标识以及所述词项在所述音频中的TF和位置序列,获得所述词项的、与所述倒排表指针对应的倒排记录。
优选地,所述步骤S2包括:
S2.1、在所述倒排索引词典中检索与所述查询静音词相同的词项,作为检出静音词,根据所述检出静音词获得对应的音频,作为所述候选音频,同时获得所述词项在所述候选音频中的IDF以及倒排表指针;
S2.2、根据所述倒排表指针,获得所述检出静音词的、与所述倒排表指针对应的倒排记录,根据所述倒排记录,获得所述检出静音词在所述候选音频中的TF。
优选地,所述步骤S3包括:
S3.1、对于任意一个候选音频,根据所有所述检出静音词在所述候选音频中的反文件频率和词频频率TF,获得所述候选音频的TF-IDF权重和;
S3.2、设置个数阈值,根据候选音频的个数与所述个数阈值的关系以及各所述候选音频的TF-IDF权重和,获得作为目标音频的候选音频。
优选地,所述步骤S3.2包括:
当所述候选音频的个数为1时,遍历所有检出静音词的位置序列,若检出静音词的位置序列唯一,则将所述候选音频作为目标音频。
优选地,所述步骤S3.2包括:
当所述候选音频的个数大于所述个数阈值时,将各所述候选音频的TF-IDF权重和由高到低进行排序,将排序靠前一定数量的候选音频作为目标音频。
优选地,还包括:
获得所述查询静音词的音频特征向量,作为第一音频特征序列;
获得所述检出静音词在相应的候选音频中的音频特征向量,作为所述相应的候选音频的第二音频特征序列;
相应地,所述步骤S3.2还包括:
当所述候选音频的个数小于所述个数阈值且大于1时,将各所述候选音频的TF-IDF权重和由高至低进行排序,获得排序靠前一定数量的候选音频,作为第二候选文件,构成候选音频集合;
根据欧式距离,获得所述第一音频特征序列与每个第二候选音频的第二音频特征序列的相似度;
对于任意一个所述第二候选文件,根据所述第一音频特征序列与该第二候选音频的第二音频特征序列的相似度,以及所述第二候选音频中的检出静音词的个数,获得该第二候选音频与样例音频的相关度;
根据所有第二候选音频与样例音频的相关度由大到小进行排序,将排序靠前的一定数量的第二候选音频作为目标音频。
优选地,所述音频特征向量为21维的音频特征向量,所述21维的音频特征向量包括LSTER、HZCRR、SC方差、SE均值、SED均值、BW均值及12维的MFCC系数均值。
本申请提出的一种音频检索方法,通过以静音词作为倒排索引的索引项,同时根据静音词在候选音频中的IDF和TF,获得目标音频。相比现有技术,本发明具有并不需要高维距离计算,并且基于语音型的特点优化传统的表示级检索方法,在没有完善领域字典的情况下也能快速准确的技术优势。
附图说明
图1为根据本发明实施例的音频检索方法的流程示意图;
图2为根据本发明实施例的音频的识别结果示意图;
图3为根据本发明实施例的在音频结尾处可能出现的三种情况的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
为了克服现有技术的上述问题,本发明实施例提供了一种音频检索方法,如图1所示,包括:
S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;
S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;
S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。
倒排索引源于实际应用中需要根据属性的值来查找记录。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(英文简称:II,英文全称:inverted index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(invertedfile),也称之为倒排表,用于给定词项给出它在文档中所有出现的位置。
倒排索引词典是由一定数量的词项构成的,每个词项即是倒排索引时使用的索引项,且每一个索引项具有两个属性:(1)IDF(中文:反文档频率,英文全称:inversedocument frequency),是DF(中文:文档频率,英文全称:document frequency)的倒数;(2)倒排表指针,用于指向该索引项对应的倒排表,在检索时根据该倒排表指针就找到倒排表。
TF-IDF(英文全称:term frequency–inverse document frequency,中文名称:词项频率-反文件频率)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
需要说明的是,本发明实施例通过以静音词作为倒排索引的索引项,同时根据静音词在候选音频中的IDF和TF,获得目标音频。相比现有技术,本发明并不需要高维距离计算,基于语音型的特点优化传统的表示级检索方法,在没有完善领域字典的情况下也能快速准确的技术优势。
在一个可选实施例中,步骤S2之前还包括:根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录,获得倒排索引表。表1示出了倒排索引表的组成结构。
表1倒排索引表的组成结构表
静音词 | IDF | 倒排记录 |
7,26 | 0.35 | 2,0.44,(2,7) |
表1中7,26表示由两个静音词组成的词项,该词项出现在对应的音频中的IDF为0.35,倒排记录中2表示该词项对应的音频的唯一标识是2,0.44表示该词项出现在音频2中的TF,(2,7)表示该词项一共出现在音频2中两次,其中第一次位于音频2的静音词组成的词项序列中第二项,第二次位于音频2的静音词组成的词项序列中的第7项。
需要说明的是,在倒排索引中,每个倒排记录的结构为:
[Doc ID,TF,<POS>]
其中,Doc ID、TF以及<POS>分别对应音频的唯一标识、词项频率以及检出位置序列,Doc ID是每个音频文件独一无二的标识。因为每个静音词在一个文件中一般会出现不止一次,因此需要记录其出现的全部位置,在这些位置中,只有一个位置是所需的,通过相似度度量来筛选。
因此,当查找出与查询静音词对应的词项后,根据词项的倒排表指针属性,就可以获得该词项对应的倒排表,进而根据倒排表,获得包含查询静音词的检出静音词以及与检出静音词对应的倒排表。也可以说,每个倒排表对应一个静音词对,获取到静音词对的集合,直接根据词典中的指针就获得了每个静音词对对应的倒排表,形成倒排表集合。每个倒排表中以链表形式存储了许多个倒排记录,每个倒排记录记录了一个文件中出现该静音词对的位置、TF等信息。
在上述各实施例的基础上,步骤S1包括:
S1.1、基于STE动态阈值和有效静音阈值,对样例音频进行静音检测,获得样例音频的有效静音特征;
需要说明的是,在特征提取的基础上,本发明首先基于STE(英文:Short TimeEnergy,中文:短时能量特征)动态阈值Eth对音频进行静音检测,根据静音出现的场景,可以将其分为两种类型:一种用于过渡不同的音频类型,或过渡不同的主题段落,本发明将这类静音归为第一类静音:SF(Silence Fragment,SF),这种静音类型时间偏长,但是一般不会超过2s;另一种是说话人在朗读段落时出现的停顿,本发明实施例将这种类型归为第二类静音:SP(Silence Pause,SP),与SF相比,这类静音一般较短,从几十帧到几百帧不等,并且基本出现在纯语音段中,少数会出现在纯音乐中。
SP虽然有可能出现在纯音乐中,但是时间不会太久,即使出现,也是零碎低频率的,高频且连续出现的SP只会出现在纯语音段中。现有技术仅仅识别出SF,然后丢弃,而对于SP,一般都认为静音不包含任何有用的信息,属于纯语音中的一部分而不需要单独进行处理。但是在检索中,静音的长度,分布规律及其时序性等均是可以匹配的信息。静音的识别已经可以做到快速准确,直接丢弃静音部分是很大的浪费,合理地利用这种信息可以有效地提高检索的速度。
单独采用STE阈值来检测只能判断出帧级别的静音,无论是SF还是SP的检测,都需要统计连续静音帧的个数,即有效静音阈值Mins,从而保证至少有Mins个连续的静音帧出现,才认为是有效的静音特征,本发明实施例经过实验后取Mins=20。
随机截取一段视频中的音频部分进行静音的识别,其中前25帧和175帧以后为纯语音,而中间部分以带背景音乐的语音为主,同时包含短暂的带噪语音。识别结果如图2所示,其中每个矩形内均为有效静音特征。通过实验可以看出,纯语音部分的SP明显较多,此外,只有在纯语音段中,SP才会频繁地出现。因此,本发明实施例将SF舍弃后,利用SP来实现针对语音样例的字符化。
倒排索引是基于词进行的,因此需要将有效静音特征量化处理,本发明将SP量化为静音词(英文全称:Silence Word,英文简称:SW),从而实现音频的字符化。在字符化之前,首先要考虑到样例的SP可能出现波动,主要有以下几个情况:
(1)样例的分帧起止点很有可能和完整音频不同,从而导致以帧为基础单元的特征值在计算中出现一些偏差;
(2)样例中存在噪音干扰,波形从本质上发生了变化,从而导致特征值出现变化。
针对第一个情况,本发明进行了相关实验,在分帧位置完全一致时,SP以及SF的长度等特征完全相同,而在分帧不一致时,连续静音帧的个数变化一般不会超过10帧,并且两端差异最大,中间的静音特征变化不会超5帧。所谓分帧,通俗地理解就是,加窗处理、分段处理。随着窗口的往右(假设向右代表时间向前)推移,对加窗后的信号逐步展开处理。
若出现样例位于两段较长的静音段中间的情况,在实际处理时可以舍弃样例两端的不完整的两段静音部分,只保留中间完整的SP,这样在检索时就不会受残缺段的影响,从而保证较小波动。
第二个情况在任何一种基于内容的音频检索中都有可能存在,需要使用去噪技术来还原波形或者使用一些模糊匹配的方法,为了避免影响,本发明所用的所有样例都从音频中随机位置手动截取,而不通过麦克风采集。
考虑到存在波动的可能性,直接使用SP的值作为索引项的话,当样例的SP发生波动时,该SP就无法标识出正确的片段,因此需要将原始的SP量化为SW。这时,显然用时长来量化是不合适的,因为分帧是精确到毫秒级别的,用秒来度量的话区分度太低,一秒包含了太多不同的毫秒级别的SP,而直接使用毫秒又太精确,难以处理分帧位置不一致的情况。
S1.2、根据样例音频的有效静音特征的变化帧数阈值,对样例音频的有效静音特征进行求余运算,获得样例音频的静音词,作为查询静音词。
例如,获取样例音频1的5个静音词:A、B、C、D和E,这5个静音词的时序为A、C、B、E、D,那么样例音频的查询静音词序列为:S1=[A,C,B,E,D],其中,S1表示样例音频文件1的查询静音词序列。
需要注意的是,在音频文件结尾处有可能不够1s长度,从而无法提取后续段的音频特征。图3示出了在音频文件结尾处可能出现的三种情况,针对如音频文件B和C的情况,由于无法提取后续段特征,也就无法进行相似度度量,因此最后一个SP无法参与最终的文件打分,本发明在进行静音词提取时就判断后续段长是否足够1s,不够的话直接舍弃最后一个静音词。
需要说明的是,在上述实验中提到,分帧的差别所导致的静音特征数值变化最多不会超过5帧,因此本发明下列公式来确定静音词,同时缩小样例SP波动对检索的影响:
SW=SP mod5
其中,mod表示求余运算,5表示本实施例中的静音特征的数值变化阈值,采用这种方法确定SW的速度很快,虽然依然会存在相同片段得到静音词不同的情况,但是只有跨越临界值才会出现。经实验验证,这种情况很少。一段样例有不止一个SP,后期可以设置一个检出阈值,只要相同的静音词个数超过检出阈值就认为检出,因此一两个静音词不同可以作为误差。
采用本发明所提出的量化方法,可以实现对音频进行字符化,将原始的非字符型音频转化为字符型的静音词的序列。同时也实现了对原本动辄千万维的音频序列实现了降维,经试验验证,一段以纯语音为主的30分钟左右视频,经字符化后静音词个数仅为600左右。
在上述各实施例的基础上,获得倒排索引表的步骤,进一步包括:
获得各音频包含的静音词;
需要说明的是,获取各音频包含的静音词的方法与获取样例音频包含的静音词的方法一致,通过上述实施例记载的方法即可获得。
对于任意一个音频,将音频的静音词中出现次数最多的若干个静音词作为停用词,将非停用词以按时序排列且两两相邻的静音词对的形式作为词项,添加至倒排索引词典;
需要说明的是,在丢弃SF后,一段音频的SP基本上位于[4,100]的区间内,由于在静音检测时mins=20,因此结合静音词量化方法:计算后,4出现次数最多(SW=20mod5),这也是所有的音频文件都会出现的共性。同时通过实验发现,“4”也是最容易发生波动的静音词,由于分帧所导致的静音词变化一般不会超过1,导致SW=“5”出现次数也较多,二者出现的次数可以占一段音频静音特征总数的30%以上。结合倒排索引的思想,IBSW中将“4”,“5”作为停用词处理,不再加入倒排索引词典,从而减少了词项,节约内存及检索时间,同时也能够再次减少样例静音词波动的概率。
例如,音频文件2的静音词按时序排列为Q、W、E和R,那么在倒排索引词典中,关于音频文件2的词项有3个,分别为(Q,W)、(W,E)和(E,R)。显然,如果以单个静音词的集合作为倒排索引词典中的索引项,将导致索引项的长度比本实施例中的索引项的长度多1,经过试验验证,本发明实施例的这一做法能够大大提高词项对于一篇文档的标识性。
并且,由于样例音频文件本身的时长较短,通常在1至5分钟,因此其具有的静音词的数据范围也并不太大,并且都为整数,相邻SW对的形式可以很好地和坐标结合,因此在IBSW中采用2维数组Dictionary作为词典的数据结构,将每个SW对看成坐标,通过词项本身可以直接得到其在Dictionary中的位置,即矩阵坐标,例如,某个Dictionary的映射关系如下:
Dictionary[A-6][B-6]
其中,A和B为两个相邻的静音词,Dictionary的大小为95*95,能够保存的词项为9025个,完全能够满足静音词对的取值范围,即使有超出的静音词,个数也很少,可以采用一个单独的异常链表来保存,本发明暂不考虑。采用二维数组作为词典的结构后,利用数组的随机存储特性,与词典常见的哈希加链表结构以及树形结构相比,不需要进行词项的匹配和查找,从而提高了检索效率。之所以上述Dictionary的映射关系为Dictionary[A-6][B-6],是基于静音词范围为4到100,以及停用词为4和5获得的,因此去掉4、5两个停用词后,静音词的范围为6-100,共95个整数取值,因此用一个95*95的矩阵来存储静音词对坐标,范围为(0,0)-(94,94)。也就是说,在本发明实施例中,Dictionary的映射关系为:Dictionary[A-x][B-x],其中,A和B为两个相邻的静音词,x表示剔除停用词后的最小一个静音词。
对于倒排索引词典中的任意一个词项,设置词项对应的音频中的IDF以及倒排表指针,根据包含词项的音频的唯一标识以及词项在音频中的TF和位置序列,获得词项的、与倒排表指针对应的倒排记录。
所谓的音频检索,就是找出与样例音频相似度最高的音频,即目标音频。静音词是音频文件中静音部分量化后的值,由于音频的本质是一种带有语音、音效的声波的频率、幅度变化信息的载体,因此,音频特征向量就是决定音频特征的一些重要参数,在对音频进行量化的基础上,可以设计合理的倒排索引词典来实现对音频文件的索引。
传统的倒排索引中,词语之间的顺序是被忽略的,如果拿单个词来当索引,就忽略了时序性,这在文本检索中或许能够行得通,但是音频本身是一种时间序列,时序性是音频数据很重要的一个特点,因此,为了弥补无法反映音频的时序特征的不足,本发明实施例采用两两相邻的每对静音词作为最终存储在词典中的词项,并且需要保留分隔符,从而一定程度上反映出静音词之间的时序关系。
在上述各实施例的基础上,步骤S2包括:
S2.1、在倒排索引词典中检索与查询静音词相同的词项,作为检出静音词,根据检出静音词获得对应的音频,作为候选音频,同时获得词项在候选音频中的IDF以及倒排表指针;
S2.2、根据倒排表指针,获得检出静音词的、与倒排表指针对应的倒排记录,根据倒排记录,获得检出静音词在候选音频中的TF。
在上述各实施例的集成上,步骤S3包括:
S3.1、对于任意一个候选音频,根据所有检出静音词在候选音频中的反文件频率和词频频率TF,获得候选音频的TF-IDF权重和;
需要说明的是,本发明中样例的静音词是可能发生偏差的,交集有可能不存在,因此先求交集无法适应全部的情况。但是,即使静音词有波动,目标音频文件中包含的查询静 音词也一定是最多的,结合TF-IDF权重的意义,本发明采用TF-IDF权重和来反映一个音频文件为目标文件的可能性。
具体地,音频文件为目标文件的可能性通过如下公式获得:
其中,p表示音频为目标音频的可能性,n为该音频检出的倒排记录个数,tfi和idfi分别对应第i个倒排记录的词项频率和其所属的倒排表对应的反文档频率。在得到倒排表集合后,遍历倒排记录并统计每个Doc ID对应的所有倒排记录的p值,只对p值较高的音频文件进行后续的相似度度量,从而实现索引去除,减少后续需要相似度度量的段数,提高检索效率。
例如,一个倒排表对应的静音词对为(X,Y),那么该倒排表中,每个倒排记录对应的是一个音频文件中(X,Y)出现的记录,包括该文件的DOCID、(X,Y)的出现位置集合以及TF值。
S3.2、设置个数阈值,根据候选音频的个数与个数阈值的关系以及各候选音频的TF-IDF权重和,获得作为目标音频的候选音频。
在上述各实施例的基础上,步骤S3.2包括:
当候选音频的个数为1时,遍历所有检出静音词的位置序列,若检出静音词的位置序列唯一,则将候选音频作为目标音频。
在上述各实施例的基础上,步骤S3.2包括:
当候选音频的个数大于个数阈值时,将各候选音频的TF-IDF权重和由高到低进行排序,将排序靠前一定数量的候选音频作为目标音频。
在上述各实施例的基础,本发明实施例的音频检索方法还包括:
获得查询静音词的音频特征向量,作为第一音频特征序列;
获得检出静音词在相应的候选音频中的音频特征向量,作为相应的候选音频的第二音频特征序列;
需要说明的是,针对每个静音词的后续若干秒的音频段进行段特征提取,每段提取出多维的音频特征向量(SW Fragment Features,SWF)并存储在特征数据库中,以文档号和静音序列号结合作为主键。表1示出了一个实施例中特征数据库的结构表。
表1特征数据库的结构表
属性 | 值 | 备注 |
ID | Doc ID+SW序号 | 主键 |
Location | SWF起始帧号 | |
Features | SWF段特征向量 | 21维 |
相应地,步骤S3.2还包括:
当候选音频的个数小于个数阈值且大于1时,将各候选音频的TF-IDF权重和由高至低进行排序,获得排序靠前一定数量的候选音频,作为第二候选文件,构成候选音频集合;
根据欧式距离,获得第一音频特征序列与每个第二候选音频的第二音频特征序列的相似度;
对于任意一个第二候选文件,根据第一音频特征序列与该第二候选音频的第二音频特征序列的相似度,以及第二候选音频中的检出静音词的个数,获得该第二候选音频与样例音频的相关度;
根据所有第二候选音频与样例音频的相关度由大到小进行排序,将排序靠前的一定数量的第二候选音频作为目标音频。
具体地,查询静音词的音频特征向量,作为第一音频特征序列L:SWFi(x1,x2,x3,...,xt),检出静音词在相应的候选音频中的音频特征向量,作为相应的候选音频的第二音频特征序列M:
SWFi′(y1,y2,y3,...,yt),获取L和M的相似度:
其中,Simi表示序列L中第i个音频特征向量和序列M中第i个音频特征向量的相似度,t表示音频特征向量的总维度,k表示第k个音频特征向量维度。
根据第一音频特征序列与该第二候选音频的第二音频特征序列的相似度,以及第二候选音频中的检出静音词的个数,获得该第二候选音频与样例音频的相关度:
其中,R表示候选音频与样例音频的相似度,n表示候选音频文件中检出静音词的个数。
将与样例音频文件的相似度最大的前5个候选音频作为目标音频。
由上述内容可知,本发明采用欧氏距离作为相似度的衡量标准。由于相似度度量需要涉及到高维向量的计算,因此需要耗费一定的时间,相似度度量作为最后一步,目的是筛选出包含样例静音词的音频文件集合中真正包含样例内容的部分,因此,当仅有一个音频文件包含样例静音词时,可以省略这一步以提高检索速度。
在上述各实施例的基础上,音频特征向量为21维的音频特征向量,21维的音频特征向量包括LSTER(中文:低能量比率,英文全称:low short time energy ratio)、HZCRR(中文:高过零比率,英文全称:high zero cross rate ratio)、SC(中文:频谱质心,英文全称:spectrum center)方差、SE(中文:频域能量,英文全称:spectrum energy)均值、SED(中文:子带能量比,英文全称:spectrum energy distribution)均值、BW(中文:带宽,英文全称:bandwidth)均值及12维的MFCC(中文:梅尔频率倒谱系数,英文全称:mel frequencycepstrum coefficient)系数均值。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频检索方法,其特征在于,包括:
S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;
S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;
S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。
2.如权利要求1所述的音频检索方法,其特征在于,所述步骤S2之前还包括:根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录,获得所述倒排索引表。
3.如权利要求1所述的音频检索方法,其特征在于,所述步骤S1包括:
S1.1、基于STE动态阈值和有效静音阈值,对所述样例音频进行静音检测,获得所述样例音频的有效静音特征;
S1.2、根据所述样例音频的有效静音特征的变化帧数阈值,对所述样例音频的有效静音特征进行求余运算,获得所述样例音频的静音词,作为所述查询静音词。
4.如权利要求2所述的音频检索方法,其特征在于,所述获得所述倒排索引表的步骤,进一步包括:
获得各音频包含的静音词;
对于任意一个音频,将所述音频的静音词中出现次数最多的若干个静音词作为停用词,将非停用词以按时序排列且两两相邻的静音词对的形式作为词项,添加至倒排索引词典;
对于所述倒排索引词典中的任意一个词项,设置所述词项对应的音频中的IDF以及倒排表指针,根据包含所述词项的音频的唯一标识以及所述词项在所述音频中的TF和位置序列,获得所述词项的、与所述倒排表指针对应的倒排记录。
5.如权利要求4所述的音频检索方法,其特征在于,所述步骤S2包括:
S2.1、在所述倒排索引词典中检索与所述查询静音词相同的词项,作为检出静音词,根据所述检出静音词获得对应的音频,作为所述候选音频,同时获得所述词项在所述候选音频中的IDF以及倒排表指针;
S2.2、根据所述倒排表指针,获得所述检出静音词的、与所述倒排表指针对应的倒排记录,根据所述倒排记录,获得所述检出静音词在所述候选音频中的TF。
6.如权利要求1所述的音频检索方法,其特征在于,所述步骤S3包括:
S3.1、对于任意一个候选音频,根据所有所述检出静音词在所述候选音频中的反文件频率和词频频率TF,获得所述候选音频的TF-IDF权重和;
S3.2、设置个数阈值,根据候选音频的个数与所述个数阈值的关系以及各所述候选音频的TF-IDF权重和,获得作为目标音频的候选音频。
7.如权利要求6所述的音频检索方法,其特征在于,所述步骤S3.2包括:
当所述候选音频的个数为1时,遍历所有检出静音词的位置序列,若检出静音词的位置序列唯一,则将所述候选音频作为目标音频。
8.如权利要求6所述的音频检索方法,其特征在于,所述步骤S3.2包括:
当所述候选音频的个数大于所述个数阈值时,将各所述候选音频的TF-IDF权重和由高到低进行排序,将排序靠前一定数量的候选音频作为目标音频。
9.如权利要求6所述的音频检索方法,其特征在于,还包括:
获得所述查询静音词的音频特征向量,作为第一音频特征序列;
获得所述检出静音词在相应的候选音频中的音频特征向量,作为所述相应的候选音频的第二音频特征序列;
相应地,所述步骤S3.2还包括:
当所述候选音频的个数小于所述个数阈值且大于1时,将各所述候选音频的TF-IDF权重和由高至低进行排序,获得排序靠前一定数量的候选音频,作为第二候选文件,构成候选音频集合;
根据欧式距离,获得所述第一音频特征序列与每个第二候选音频的第二音频特征序列的相似度;
对于任意一个所述第二候选文件,根据所述第一音频特征序列与该第二候选音频的第二音频特征序列的相似度,以及所述第二候选音频中的检出静音词的个数,获得该第二候选音频与样例音频的相关度;
根据所有第二候选音频与样例音频的相关度由大到小进行排序,将排序靠前的一定数量的第二候选音频作为目标音频。
10.如权利要求9所述的音频检索方法,其特征在于,所述音频特征向量为21维的音频特征向量,所述21维的音频特征向量包括LSTER、HZCRR、SC方差、SE均值、SED均值、BW均值及12维的MFCC系数均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710482883.8A CN107402965B (zh) | 2017-06-22 | 2017-06-22 | 一种音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710482883.8A CN107402965B (zh) | 2017-06-22 | 2017-06-22 | 一种音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107402965A true CN107402965A (zh) | 2017-11-28 |
CN107402965B CN107402965B (zh) | 2020-04-28 |
Family
ID=60404846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710482883.8A Expired - Fee Related CN107402965B (zh) | 2017-06-22 | 2017-06-22 | 一种音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107402965B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108156518A (zh) * | 2017-12-26 | 2018-06-12 | 上海亿动信息技术有限公司 | 一种通过用户关注广告进行广告定向投放的方法及装置 |
CN108664557A (zh) * | 2018-03-30 | 2018-10-16 | 大连大学 | 基于示例语义的音乐检索装置 |
CN108664622A (zh) * | 2018-05-14 | 2018-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于二级倒排表的树状音频特征索引库建立方法 |
CN108984747A (zh) * | 2018-07-17 | 2018-12-11 | 厦门美图之家科技有限公司 | 音频检索索引生成方法及装置 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
WO2019184519A1 (zh) * | 2018-03-29 | 2019-10-03 | 北京字节跳动网络技术有限公司 | 一种媒体检索方法及装置 |
CN110322897A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频检索识别方法及装置 |
CN112019786A (zh) * | 2020-08-24 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 智能教学录屏方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
US9407223B2 (en) * | 2012-09-28 | 2016-08-02 | Pantech Co., Ltd. | Mobile terminal and method for controlling sound output |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
-
2017
- 2017-06-22 CN CN201710482883.8A patent/CN107402965B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9407223B2 (en) * | 2012-09-28 | 2016-08-02 | Pantech Co., Ltd. | Mobile terminal and method for controlling sound output |
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
Non-Patent Citations (2)
Title |
---|
孙荣坤: "基于内容的快速音频检索", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张雪源等: "一种基于倒排索引的音频检索方法", 《电子与信息学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108156518A (zh) * | 2017-12-26 | 2018-06-12 | 上海亿动信息技术有限公司 | 一种通过用户关注广告进行广告定向投放的方法及装置 |
CN110322897B (zh) * | 2018-03-29 | 2021-09-03 | 北京字节跳动网络技术有限公司 | 一种音频检索识别方法及装置 |
US11874869B2 (en) | 2018-03-29 | 2024-01-16 | Beijing Bytedance Network Technology Co., Ltd. | Media retrieval method and apparatus |
WO2019184519A1 (zh) * | 2018-03-29 | 2019-10-03 | 北京字节跳动网络技术有限公司 | 一种媒体检索方法及装置 |
CN110322897A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频检索识别方法及装置 |
CN110555114A (zh) * | 2018-03-29 | 2019-12-10 | 北京字节跳动网络技术有限公司 | 一种媒体检索方法及装置 |
US11182426B2 (en) | 2018-03-29 | 2021-11-23 | Beijing Bytedance Network Technology Co., Ltd. | Audio retrieval and identification method and device |
CN108664557A (zh) * | 2018-03-30 | 2018-10-16 | 大连大学 | 基于示例语义的音乐检索装置 |
CN108664622A (zh) * | 2018-05-14 | 2018-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于二级倒排表的树状音频特征索引库建立方法 |
CN108984747A (zh) * | 2018-07-17 | 2018-12-11 | 厦门美图之家科技有限公司 | 音频检索索引生成方法及装置 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN109871463B (zh) * | 2019-03-06 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN112019786B (zh) * | 2020-08-24 | 2021-05-25 | 上海松鼠课堂人工智能科技有限公司 | 智能教学录屏方法和系统 |
CN112019786A (zh) * | 2020-08-24 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 智能教学录屏方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107402965B (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107402965A (zh) | 一种音频检索方法 | |
US7725318B2 (en) | System and method for improving the accuracy of audio searching | |
Dhanaraj et al. | Automatic Prediction of Hit Songs. | |
Mantena et al. | Speed improvements to information retrieval-based dynamic time warping using hierarchical k-means clustering | |
CN108346474B (zh) | 基于单词的类内分布与类间分布的电子病历特征选择方法 | |
CN112256843A (zh) | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 | |
Nandwana et al. | Analysis of Critical Metadata Factors for the Calibration of Speaker Recognition Systems. | |
CN112035696A (zh) | 一种基于音频指纹的语音检索方法及系统 | |
De Leon et al. | Enhancing timbre model using MFCC and its time derivatives for music similarity estimation | |
CN113988053A (zh) | 一种热词提取方法及装置 | |
Anguera | Information retrieval-based dynamic time warping. | |
Ng et al. | Novelty detection for text documents using named entity recognition | |
Fan et al. | Deep Hashing for Speaker Identification and Retrieval. | |
Ng | Information fusion for spoken document retrieval | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN118133221A (zh) | 一种隐私数据分类分级方法 | |
CN113626604A (zh) | 基于最大间隔准则的网页文本分类系统 | |
Su et al. | Improved TF-IDF weight method based on sentence similarity for spoken dialogue system | |
Chandra | Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm | |
Suzuki et al. | Unsupervised language model adaptation based on automatic text collection from WWW | |
Rouniyar et al. | Channel response based multi-feature audio splicing forgery detection and localization | |
Gotlur et al. | Music genre classification using machine learning | |
Yu et al. | Local summarization and multi-level LSH for retrieving multi-variant audio tracks | |
CN115129808A (zh) | 一种食药环热线类事件犯罪线索筛查方法及系统 | |
Choi et al. | SCAN-speech content based audio navigator: a system overview. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200428 Termination date: 20210622 |
|
CF01 | Termination of patent right due to non-payment of annual fee |