CN105825850A - 一种音频处理方法及装置 - Google Patents
一种音频处理方法及装置 Download PDFInfo
- Publication number
- CN105825850A CN105825850A CN201610286452.XA CN201610286452A CN105825850A CN 105825850 A CN105825850 A CN 105825850A CN 201610286452 A CN201610286452 A CN 201610286452A CN 105825850 A CN105825850 A CN 105825850A
- Authority
- CN
- China
- Prior art keywords
- audio file
- audio
- print information
- finger print
- burst
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 43
- 239000012634 fragment Substances 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 230000001174 ascending effect Effects 0.000 claims description 7
- 230000002045 lasting effect Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种音频处理方法及装置,其中的方法可包括:对待处理音频文件进行偏移切片处理,获得至少一个音频分片;采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;根据比对结果获取所述待处理音频文件对应的文本文件。本发明能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,有效提升音频处理的效率和准确度。
Description
技术领域
本发明涉及互联网技术领域,具体涉及音频技术领域,尤其涉及一种音频处理方法及装置。
背景技术
音频文件可以分为两类,一类指音乐类音频文件,如歌曲,主要由唱片公司或者网络歌手提供;另一类指非音乐类音频文件,包括电台类节目或相声类等语音类节目,主要由电台主播或表演者所提供。对于音乐类音频文件对应的文本文件(即歌词文件)一般已由唱片公司或网络歌手提供;而对于非音乐类音频文件,由于这类音频文件可能由许多音乐片断及人声混合交叉组合而成,而电台主播或表演者并不会提供相对应的文本文件,因此,针对非音乐类音频文件对应的文本文件的查找及输出成为一个空白。
发明内容
本发明实施例提供一种音频处理方法及装置,能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,有效提升音频处理的效率和准确度。
本发明实施例第一方面提供一种音频处理方法,可包括:
对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;
根据比对结果获取所述待处理音频文件对应的文本文件。
优选地,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片,包括:
从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片;
依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性;
其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
优选地,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片之前,还包括:
创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
优选地,所述将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对,包括:
按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片,将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对;
若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
优选地,所述对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,包括:
如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量;
选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识;
将与目标音频文件相匹配的连续音频分片进行拼接处理;
将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
优选地,所述根据比对结果获取所述待处理音频文件对应的文本文件,包括:
从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件;
根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段;
将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
本发明实施例第二方面一种音频处理装置,可包括:
处理单元,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
采集单元,用于采集所述至少一个音频分片的指纹信息;
比对单元,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;
获取单元,用于根据比对结果获取所述待处理音频文件对应的文本文件。
优选地,所述处理单元包括:
音频分片提取单元,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片;
存储单元,用于依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性;
其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
优选地,该装置还包括:
创建单元,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
优选地,所述比对单元包括:
当前选取单元,用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片;
当前比对单元,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对;
比对记录保存单元,用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
去重处理单元,用于对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
优选地,所述去重处理单元包括:
数量统计单元,用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量;
标识确定单元,用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识;
拼接处理单元,用于将与目标音频文件相匹配的连续音频分片进行拼接处理;
映射位置确定单元,用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
优选地,所述获取单元包括:
查找单元,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件;
文本片段提取单元,用于根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段;
文本文件确定单元,用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
本发明实施例可以对待处理音频文件进行偏移切片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频处理方法的流程图;
图2为本发明实施例提供的另一种音频处理方法的流程图;
图3为本发明实施例提供的一种音频处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
音频文件可以分为两类,一类指音乐类音频文件,如歌曲;另一类指非音乐类音频文件,包括电台类节目或相声类等语音类节目。本发明实施例的音频处理方案优选适用于对非音乐类音频文件进行处理,为了更为准确地进行音频处理,本发明后续各实施例中所述的音频文件,优选指非音乐类的、原始音频格式的文件,即优选为8K采样率、16bit量化位数、单声道wav(一种声音文件格式)文件。若待处理音频文件为其他音频格式的文件,例如:MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、WMA(WindowsMediaAudio,数字音频格式)、APE(一种数字音频无损压缩格式)等格式的音频文件,则需要首先对其进行格式转换处理。
本发明实施例可以对待处理音频文件进行偏移切片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和准确度。
基于上述描述,本发明实施例提供了一种音频处理方法,请参见图1,该方法可包括以下步骤S101-步骤S104。
S101,对待处理音频文件进行偏移切片处理,获得至少一个音频分片。
偏移分片处理是指每隔一定的偏移时间即切取一段一定时长的音频分片,例如:假设偏移时间为1s,而分片时长为10s,那么,可从待处理音频文件的开始位置起,偏移0s时切时长为10s的第一音频分片,该第一音频分片的偏移时间为0s,起止时间为0s-10s;偏移1s时切时长为10s的第二音频分片,该第二音频分片的偏移时间为1s,起止时间为1s-11s;偏移2s时切时长为10s的第三音频分片,该第三音频分片的偏移时间为2s,起止时间为2s-12s;以此类推。由此可见,偏移处理后所获得的至少一个音频分片中每个音频分片的时长相同,每个音频分片所包含的音频数据存在重叠,但每个音频分片的起止时间和偏移时间均不相同。具体实现中,可以采用一些音频处理工具来对待处理音频文件进行偏移切片处理,此处的音频处理工具可以包括但不限于:ffmpeg(FastForwardMpeg,用于记录、转换数字音频、视频,并将其转化为流的开源计算机程序)工具。优选地,音频分片为8K采样率、16bit量化位数、单声道wav文件。
S102,采集所述至少一个音频分片的指纹信息。
音频的指纹信息是指可以代表一段音频的重要声学特征、基于该音频所包含的内容的紧致数字签名,具备如下主要优点:①鲁棒性,即使音频出现比较严重的失真、噪声、变调等情况,指纹信息仍然能够识别并表征该音频的重要声学特征;②区分性,一个指纹信息可唯一标识一段音频,不同音频之间的指纹信息具有差异;③可靠性,即通过指纹信息识别音频时其错误识别的概率较低。也就是说,音频分片的指纹信息是指可以代表该音频分片的重要声学特征的基于内容的紧致数字签名。具体实现中,可以采用一些音频指纹提取算法来采集每个音频分片的指纹信息,此处的音频指纹提取算法可包括但不限于:最大指纹特征算法、哈希算法、复倒谱变换算法、小波包变换算法等等。一个音频分片对应一个指纹信息。
S103,将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对。
预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。具体实现中,可依次将所述至少一个音频分片的指纹信息分别与预置指纹信息库中的各音频文件的指纹信息进行比对,如果某个音频分片的指纹信息与某个音频文件的指纹信息的相似度达到预设值(此处的预设值可根据实际需要设定,例如:85%、90%等)以上,那么可认为该音频分片与预置指纹信息库中的该音频文件相匹配。
S104,根据比对结果获取所述待处理音频文件对应的文本文件。
比对结果可包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。那么,根据目标音频文件的标识可从预置指纹信息库中获得目标音频文件对应的文本文件,进一步,根据待处理音频文件在目标音频文件中的映射位置,那么可从目标音频文件对应的文本文件中提取映射位置对应的文本片段,此文本片段即为待处理音频文件对应的文本文件。
本发明实施例的音频处理方法,可以对待处理音频文件进行偏移切片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和准确度。
本发明实施例还提供了另一种音频处理方法,本实施例的方法侧重于描述如何定位目标音频文件的片头位置的过程。请参见图2,该方法可包括以下步骤S201-步骤S210。
S201,创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
本实施例中,预置指纹信息库可以采用下述表一进行表示:
表一:预置指纹信息库
名称 | 标识 | 指纹信息 | 文本文件 |
歌曲A | a1 | xxxx1 | 歌词A1 |
歌曲A | a2 | xxxx2 | 歌词A2 |
歌曲B | b | yyyy | 歌词B |
歌曲C | c | zzzz | 歌词C |
… | … | … | … |
上述表一可知,一个标识可唯一标识一个音频文件,预置指纹信息库中可包含相同名称不同标识的音频文件,例如上述表一中的标识为a1的歌曲A及标识为a2的歌曲A。预置指纹信息库中也可包含名称不同、标识不同的音频文件,例如上述表一中的标识为b的歌曲B及标识为c的歌曲C。一般地,具备相同名称不同标识的音频文件通常可能是同一音乐的不同版本,例如:歌曲A可包含原唱版、演唱会版、网络版等不同版本。
S202,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片。
S203,依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性。其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
本实施例的步骤S202-S203可以为图1所示实施例的步骤S101的具体细化步骤。步骤S202-S203中,预置偏移时间及预置分片时长均可以根据实际需要进行设定。本实施例可假设预置偏移时间为1s,预置分片时长为10s,那么假设待处理音频文件为歌曲A,从歌曲A的开始位置即0s的时刻,偏移0s时切时长为10s的第一音频分片,该第一音频分片相对歌曲A的起始位置的偏移时间为0s,起止时间为0s-10s;偏移1s时切时长为10s的第二音频分片,该第二音频分片相对歌曲A的起始位置的偏移时间为1s,起止时间为1s-11s;偏移2s时切时长为10s的第三音频分片,该第三音频分片相对歌曲A的起始位置的偏移时间为2s,起止时间为2s-12s;以此类推。所获得的至少一个音频分片可以采用下述表二进行表示:
表二:音频分片
名称 | 偏移时间 | 起止时间 |
第一音频分片 | 0s | 0s-10s |
第二音频分片 | 1s | 1s-11s |
第三音频分片 | 2s | 2s-12s |
… | … | … |
S204,采集所述至少一个音频分片的指纹信息。本步骤可参见图1所示实施例的步骤S102,在此不赘述。
S205,按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片。
S206,将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对。
S207,若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录。
步骤S205-S207中,按照偏移时间由小到大的顺序,参照上述表二首先选取第一音频分片为当前音频分片,将第一音频分片的指纹信息与预置指纹信息库中的各音频文件的指纹信息进行比对,如果存在与第一音频分片的指纹信息相匹配的音频文件,那么将相匹配的音频文件的标识和名称,以及第一音频分片在相匹配的音频文件中的映射位置保存为第一音频分片的一条比对记录;然后再按照上述表二依次选取第二音频分片为当前音频分片,重复上述步骤。如果预置指纹信息库中不存在与第一音频分片的指纹信息相匹配的音频文件,那么直接按照上述表二依次选取第二音频分片为当前音频分片,重复上述步骤。经过步骤S205-S207,可以将待处理音频文件偏移切片得到的所有音频分片进行比对,得到若干条比对记录。此处需要说明的是,由于音频分片是不完整的音频数据,而预置指纹信息库中的音频文件通常是完整的音频数据,因此,音频分片的指纹信息与音频文件的指纹信息进行比对的过程中,除了匹配指纹信息之间的相似度之外,同时可获得音频分片在相匹配的音频文件中的映射位置,例如:第八音频分片在歌曲B中的映射位置为第25s开始持续7s;或者,第九音频分片在歌曲B中的映射位置为第26s开始持续6s;或者,第十音频分片在歌曲B中的映射位置为第27s开始持续5s;等等。
S208,对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
由于音频分片的数量较多且相互之间存在重叠,那么所获得的若干条比对记录中包含许多重复数据,为了保证音频处理的准确性,本步骤需要对若干条比对记录进行去重处理,得到最终的比对结果。该方法在执行步骤S208的过程中,具体执行如下步骤s11-s14:
s11,如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量。
s12,选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识。
步骤s11-s12是针对同名音频文件的去重步骤,例如:假设某三条比对记录中均包含歌曲A,但歌曲A在三条比对记录中的标识不同,分别为标识为a1的歌曲A为原唱版,标识为a2的歌曲A为演唱会版,标识为a3的歌曲A为网络版;那么,本步骤则统计歌曲A不同版本相匹配的音频分片的数量,进一步假设与歌曲A的原唱版相匹配的音频分片的数量为20片,与歌曲A的演唱会版相匹配的音频分片的数量为18片,与歌曲A的网络版相匹配的音频分片的数量为16片,由此可见歌曲A的原唱版相匹配的音频分片的数量为最多,则可认为歌曲A的原唱版的置信度最高;由于与歌曲A的原唱版相匹配的音频分片均来自待处理音频文件,因此可将歌曲A的原唱版确定为与待处理音频文件相匹配的目标音频文件,其标识为a1。
s13,将与目标音频文件相匹配的连续音频分片进行拼接处理。
s14,将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
步骤s13-s14是针对重复音频分片的去重步骤;如前述例子可知,目标音频文件为歌曲A的原唱版,其相匹配的音频分片的数量为20片,那么,这20片中出现的连续音频分片可以进行拼接处理,具体是否连续可依据各音频分片的时间属性确定,例如:假设20片音频分片为第一音频分片至第二十音频分片,其偏移时间从0s至19s,因此这20片音频分片即为连续音频分片,根据比对记录,第一音频分片在歌曲A的原唱版中的映射位置为第11s开始持续9s,第二音频分片在歌曲A的原唱版中的映射位置为第12s开始持续8s,以此类推,第二十音频分片在歌曲A的原唱版中的映射位置为第31s开始持续2s,则可得到拼接处理后的连续音频分片在歌曲A的原唱版的映射位置为11s-33s,可确定待处理音频文件在目标音频文件中的映射位置为11s-33s。可以理解的是,上述例子中,如果20片音频分片中除了连续音频分片之外还存在单个的音频分片,那么待处理音频文件在目标音频文件中的映射位置由拼接处理后的连续音频分片在目标音频文件中的映射位置,以及单个音频分片在目标音频文件中的映射位置共同组成。
本实施例的步骤S204-S208可以为图1所示实施例的步骤S103的具体细化步骤。
S209,从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件。
S210,根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段。
S211,将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
本实施例的步骤S209-S211可以为图1所示实施例的步骤S104的具体细化步骤。步骤S209-S211中,由于比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。那么,根据目标音频文件的标识可从预置指纹信息库中获得目标音频文件对应的文本文件,进一步,根据待处理音频文件在目标音频文件中的映射位置,那么可从目标音频文件对应的文本文件中提取映射位置对应的文本片段,此文本片段即为待处理音频文件对应的文本文件。按照本实施例所示例子,待处理音频文件在歌曲A的原唱版中的映射位置为11s-33s,那么,从歌曲A的原唱版的歌词文件中提取11s-33s的歌词片段,确定为待处理音频文件对应的文本文件。可以理解的是,由于待处理音频文件可能由许多音乐片断及人声混合交叉组合而成,因此通过本发明实施例得到的待处理音频文件对应的文本文件也可能是由多个音乐歌词片段及语音文本片段共同构成。
本发明实施例的音频处理方法,可以对待处理音频文件进行偏移切片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和准确度。
基于上述方法实施例的描述,下面将结合附图3,对本发明实施例提供的音频处理装置进行详细介绍。需要说明的是,下述的音频处理装置可用于执行上述图1-图2所示的音频处理方法。具体地,本发明实施例提供了一种音频处理装置,请一并参见图3,该装置运行如下单元:
处理单元101,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分片。
采集单元102,用于采集所述至少一个音频分片的指纹信息。
比对单元103,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对。
获取单元104,用于根据比对结果获取所述待处理音频文件对应的文本文件。
具体实现中,该装置在运行所述处理单元101的过程中,具体运行如下单元:
音频分片提取单元1001,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片。
存储单元1002,用于依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性。其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
具体实现中,该装置还运行如下单元:
创建单元105,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
具体实现中,该装置在运行所述比对单元103的过程中,具体运行如下单元:
当前选取单元2001,用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片。
当前比对单元2002,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对。
比对记录保存单元2003,用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
去重处理单元2004,用于对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
具体实现中,该装置在运行所述去重处理单元2004的过程中,具体运行如下单元:
数量统计单元2401,用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量。
标识确定单元2402,用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识。
拼接处理单元2403,用于将与目标音频文件相匹配的连续音频分片进行拼接处理。
映射位置确定单元2404,用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
具体实现中,该装置在运行所述获取单元104的过程中,具体运行如下单元:
查找单元3001,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件。
文本片段提取单元3002,用于根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段。
文本文件确定单元3003,用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
由于图3所示的音频处理装置可用于执行图1-图2所示实施例的方法,因此,图3所示的各单元的功能可参见图1-图2所示方法各步骤的相关描述,在此不赘述。需要特别说明的是,图3所示的音频处理装置可以是运行于实体设备中的一个应用程序,并且至少存在以下两种可行的实施方式:
在一种可行的实施方式中,该音频处理装置可以是运行于一个实体设备中独立工作,例如:该音频处理装置可以运行于一个终端中,该终端可包括但不限于:PC(PersonalComputer,个人计算机)、手机、PDA(平板电脑)、智能可穿戴设备等等,由终端独立实现图1-图2所示的方法流程;或者,该音频处理装置也可以运行于一个服务器中,由服务器独立实现图1-图2所示的方法流程。
在另一种可行的实施方式中,该音频处理装置可以是分布运行于多个实体设备中,分布部分协调工作,例如:该音频处理装置的一部分可以运行于一个终端中,而另一部分可以运行于一个服务器中,由终端与服务器协调工作从而实现图1-图2所示的方法流程。在此实施方式中,图3所示的创建单元105、比对单元103和获取单元104可以位于服务器中,而处理单元101和采集单元102可以位于终端中;而对应在执行图1-图2所示的方法流程时,创建预置指纹信息库的过程、比对过程以及获得文本文件的过程可以发生于服务器中,而其他过程包括获得至少一个音频分片,采集至少一个音频分片的指纹信息可以发生于终端中。具体地,终端可以将音频分片的指纹信息发送至服务器进行比对,服务器根据比对结果获取待处理音频文件对应的文本文件并反馈给终端输出。
与方法同理,本发明实施例的音频处理装置,可以对待处理音频文件进行偏移切片处理,获得至少一个音频分片,采用预置指纹信息库来比对至少一个音频分片的指纹信息,根据比对结果获取所述待处理音频文件对应的文本文件;通过上述过程能够自动为非音乐类音频文件生成对应的歌词、人声等文本文件,无需人工干预节省人力成本,并且能够有效地提升音频处理的效率和准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (12)
1.一种音频处理方法,其特征在于,包括:
对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
采集所述至少一个音频分片的指纹信息,并将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;
根据比对结果获取所述待处理音频文件对应的文本文件。
2.如权利要求1所述的方法,其特征在于,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片,包括:
从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片;
依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性;
其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
3.如权利要求1或2所述的方法,其特征在于,所述对待处理音频文件进行偏移切片处理,获得至少一个音频分片之前,还包括:
创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
4.如权利要求3所述的方法,其特征在于,所述将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对,包括:
按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片,将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对;
若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
5.如权利要求4所述的方法,其特征在于,所述对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,包括:
如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量;
选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识;
将与目标音频文件相匹配的连续音频分片进行拼接处理;
将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
6.如权利要求5所述的方法,其特征在于,所述根据比对结果获取所述待处理音频文件对应的文本文件,包括:
从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件;
根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段;
将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
7.一种音频处理装置,其特征在于,包括:
处理单元,用于对待处理音频文件进行偏移切片处理,获得至少一个音频分片;
采集单元,用于采集所述至少一个音频分片的指纹信息;
比对单元,用于将所述至少一个音频分片的指纹信息分别与预置指纹信息库进行比对;
获取单元,用于根据比对结果获取所述待处理音频文件对应的文本文件。
8.如权利要求7所述的装置,其特征在于,所述处理单元包括:
音频分片提取单元,从待处理音频文件的起始位置每隔预置偏移时间提取一段预置分片时长的音频分片;
存储单元,用于依次存储所获得的至少一个音频分片,并记录所述至少一个音频分片的时间属性;
其中,一个音频分片的时间属性包括:起止时间及相对于所述待处理音频文件的起始位置的偏移时间。
9.如权利要求7或8所述的装置,其特征在于,还包括:
创建单元,用于创建预置指纹信息库,所述预置指纹信息库中包含至少一个音频文件的标识、所述至少一个音频文件的名称、所述至少一个音频文件的指纹信息,以及所述至少一个音频文件对应的文本文件。
10.如权利要求9所述的装置,其特征在于,所述比对单元包括:
当前选取单元,用于按照偏移时间由小到大的顺序依次从所述至少一个音频分片选取当前音频分片;
当前比对单元,用于将所选取的当前音频分片的指纹信息与所述预置指纹信息库中的至少一个音频文件的指纹信息进行比对;
比对记录保存单元,用于若所述预置指纹信息库中存在音频文件的指纹信息与所选取的当前音频分片的指纹信息相匹配,则将相匹配的音频文件的标识和名称,以及所述当前音频分片在相匹配的音频文件中的映射位置保存为所述当前音频分片的一条比对记录;
去重处理单元,用于对所述至少一个音频分片的比对记录进行去重处理,获得比对结果,所述比对结果包括与所述待处理音频文件相匹配的目标音频文件的标识以及所述待处理音频文件在相匹配的目标音频文件中的映射位置。
11.如权利要求10所述的装置,其特征在于,所述去重处理单元包括:
数量统计单元,用于如果存在至少两条比对记录包含名称相同但标识不同的音频文件,分别统计与所述标识不同的音频文件相匹配的音频分片的数量;
标识确定单元,用于选取数量最大的音频文件的标识确定为与所述待处理音频文件相匹配的目标音频文件的标识;
拼接处理单元,用于将与目标音频文件相匹配的连续音频分片进行拼接处理;
映射位置确定单元,用于将拼接处理后的音频分片在所述目标音频文件中的映射位置确定为所述待处理音频文件在目标音频文件中的映射位置。
12.如权利要求11所述的装置,其特征在于,所述获取单元包括:
查找单元,用于从所述预置指纹信息库中查找与所述待处理音频文件相匹配的目标音频文件对应的目标文本文件;
文本片段提取单元,用于根据所述待处理音频文件在所述目标音频文件中的映射位置,从所述目标文本文件中提取所述映射位置对应的文本片段;
文本文件确定单元,用于将所提取的文本片段确定为所述待处理音频文件对应的文本文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286452.XA CN105825850B (zh) | 2016-04-29 | 2016-04-29 | 一种音频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286452.XA CN105825850B (zh) | 2016-04-29 | 2016-04-29 | 一种音频处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105825850A true CN105825850A (zh) | 2016-08-03 |
CN105825850B CN105825850B (zh) | 2021-08-24 |
Family
ID=56528967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610286452.XA Active CN105825850B (zh) | 2016-04-29 | 2016-04-29 | 一种音频处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105825850B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106802960A (zh) * | 2017-01-19 | 2017-06-06 | 湖南大学 | 一种基于音频指纹的分片音频检索方法 |
CN107577773A (zh) * | 2017-09-08 | 2018-01-12 | 科大讯飞股份有限公司 | 一种音频匹配方法与装置、电子设备 |
CN107784128A (zh) * | 2017-11-30 | 2018-03-09 | 成都嗨翻屋文化传播有限公司 | 一种数字音频指纹大数据存储检索的方法及系统 |
CN107844239A (zh) * | 2017-09-29 | 2018-03-27 | 维沃移动通信有限公司 | 一种音乐文件的生成方法及移动终端 |
CN108205550A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 音频指纹的生成方法及装置 |
CN108305622A (zh) * | 2018-01-04 | 2018-07-20 | 海尔优家智能科技(北京)有限公司 | 一种基于语音识别的音频摘要文本创建方法及其创建装置 |
CN108428441A (zh) * | 2018-02-09 | 2018-08-21 | 咪咕音乐有限公司 | 多媒体文件生成方法、电子设备和存储介质 |
CN110209872A (zh) * | 2019-05-29 | 2019-09-06 | 天翼爱音乐文化科技有限公司 | 片段音频歌词生成方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050154973A1 (en) * | 2004-01-14 | 2005-07-14 | Isao Otsuka | System and method for recording and reproducing multimedia based on an audio signal |
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
CN101673262A (zh) * | 2008-09-12 | 2010-03-17 | 未序网络科技(上海)有限公司 | 音频内容的搜索方法 |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
CN103093761A (zh) * | 2011-11-01 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 音频指纹检索方法及装置 |
CN103971689A (zh) * | 2013-02-04 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
-
2016
- 2016-04-29 CN CN201610286452.XA patent/CN105825850B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050154973A1 (en) * | 2004-01-14 | 2005-07-14 | Isao Otsuka | System and method for recording and reproducing multimedia based on an audio signal |
CN101673262A (zh) * | 2008-09-12 | 2010-03-17 | 未序网络科技(上海)有限公司 | 音频内容的搜索方法 |
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
CN103093761A (zh) * | 2011-11-01 | 2013-05-08 | 腾讯科技(深圳)有限公司 | 音频指纹检索方法及装置 |
CN103971689A (zh) * | 2013-02-04 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108205550A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 音频指纹的生成方法及装置 |
CN106802960A (zh) * | 2017-01-19 | 2017-06-06 | 湖南大学 | 一种基于音频指纹的分片音频检索方法 |
CN106802960B (zh) * | 2017-01-19 | 2020-07-14 | 湖南大学 | 一种基于音频指纹的分片音频检索方法 |
CN107577773A (zh) * | 2017-09-08 | 2018-01-12 | 科大讯飞股份有限公司 | 一种音频匹配方法与装置、电子设备 |
CN107844239A (zh) * | 2017-09-29 | 2018-03-27 | 维沃移动通信有限公司 | 一种音乐文件的生成方法及移动终端 |
CN107844239B (zh) * | 2017-09-29 | 2020-04-03 | 维沃移动通信有限公司 | 一种音乐文件的生成方法及移动终端 |
CN107784128A (zh) * | 2017-11-30 | 2018-03-09 | 成都嗨翻屋文化传播有限公司 | 一种数字音频指纹大数据存储检索的方法及系统 |
CN107784128B (zh) * | 2017-11-30 | 2021-06-25 | 成都嗨翻屋科技有限公司 | 一种数字音频指纹大数据存储检索的方法及系统 |
CN108305622A (zh) * | 2018-01-04 | 2018-07-20 | 海尔优家智能科技(北京)有限公司 | 一种基于语音识别的音频摘要文本创建方法及其创建装置 |
CN108428441A (zh) * | 2018-02-09 | 2018-08-21 | 咪咕音乐有限公司 | 多媒体文件生成方法、电子设备和存储介质 |
CN110209872A (zh) * | 2019-05-29 | 2019-09-06 | 天翼爱音乐文化科技有限公司 | 片段音频歌词生成方法、装置、计算机设备和存储介质 |
CN110209872B (zh) * | 2019-05-29 | 2021-06-22 | 天翼爱音乐文化科技有限公司 | 片段音频歌词生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105825850B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825850A (zh) | 一种音频处理方法及装置 | |
US10210884B2 (en) | Systems and methods facilitating selective removal of content from a mixed audio recording | |
US10497378B2 (en) | Systems and methods for recognizing sound and music signals in high noise and distortion | |
Cano et al. | Robust sound modeling for song detection in broadcast audio | |
Haitsma et al. | A highly robust audio fingerprinting system with an efficient search strategy | |
EP2791935B1 (en) | Low complexity repetition detection in media data | |
CN103971689B (zh) | 一种音频识别方法及装置 | |
CN105975568B (zh) | 一种音频处理方法及装置 | |
AU2006288921A1 (en) | Music analysis | |
US9659092B2 (en) | Music information searching method and apparatus thereof | |
CN103729368B (zh) | 一种基于局部频谱图像描述子的鲁棒音频识别方法 | |
JP2006501498A (ja) | 指紋抽出 | |
CN111326171B (zh) | 一种基于简谱识别和基频提取的人声旋律提取方法及系统 | |
CN102063904A (zh) | 一种音频文件的旋律提取方法及旋律识别系统 | |
EP1497935B1 (en) | Feature-based audio content identification | |
CN109271501A (zh) | 一种音频数据库的管理方法及系统 | |
CN110970027A (zh) | 一种语音识别方法、装置、计算机存储介质及系统 | |
CN108268572B (zh) | 一种歌曲同步方法及系统 | |
CN108205550B (zh) | 音频指纹的生成方法及装置 | |
Deng et al. | An audio fingerprinting system based on spectral energy structure | |
Htun | Analytical approach to MFCC based space-saving audio fingerprinting system | |
CN112784100A (zh) | 一种音频指纹的处理方法、装置、计算机设备和存储介质 | |
CN112732972A (zh) | 一种音频指纹生成系统及方法 | |
CN112037815B (zh) | 音频指纹提取方法、服务器、存储介质 | |
JPH1051337A (ja) | Fm文字多重放送録音制御プログラム装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |