CN109657093A - 音频检索方法、装置及存储介质 - Google Patents

音频检索方法、装置及存储介质 Download PDF

Info

Publication number
CN109657093A
CN109657093A CN201811428967.4A CN201811428967A CN109657093A CN 109657093 A CN109657093 A CN 109657093A CN 201811428967 A CN201811428967 A CN 201811428967A CN 109657093 A CN109657093 A CN 109657093A
Authority
CN
China
Prior art keywords
audio
frequency fingerprint
database
matched
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811428967.4A
Other languages
English (en)
Inventor
赵伟峰
张庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN201811428967.4A priority Critical patent/CN109657093A/zh
Publication of CN109657093A publication Critical patent/CN109657093A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种音频检索方法、装置及存储设备,其中音频检索方法包括:当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;基于所述音频指纹在第一预设音频数据库中进行匹配;当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。该方案可以提高音频检索的成功率。

Description

音频检索方法、装置及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种音频检索方法、装置及存储介质。
背景技术
用户经常会遇到这样的情况,当听到一首非常好听的音乐但由于不知道音乐的名字,无法通过各种渠道(如网络下载或到音像制品店购买)获取该音乐。
为了解决该问题,一种“听音识曲”的检索方式应运而生,当用户听到一段好听的音乐却不知道名字的情况下,用户只需用手机录一段听到的音乐片段,即可通过音频指纹检索的方式获知到该音乐的名称。
在实现本发明过程中,发明人发现目前的音频指纹检索系统都是实时反馈,在检索过程中由于音频还未入库,或者检索时间过长等原因,导致会出现检索无结果或检索结果未能返回等问题。
发明内容
本发明实施例提供一种音频检索方法、装置及存储介质,可以提高音频检索的成功率。
本发明实施例提供了一种音频检索方法,包括:
当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
基于所述音频指纹在第一预设音频数据库中进行匹配;
当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;
若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;
当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
本发明实施例提供了一种音频检索装置,包括:
指纹提取单元,用于当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
音频匹配单元,用于基于所述音频指纹在第一预设音频数据库中进行匹配;
第一检索单元,用于当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
信息发送单元,用于当检索到与所述音频指纹匹配的音频数据时,将所述音频数据的音频信息发送至所述客户端;
数据监测单元,用于当未检索到与所述音频指纹匹配的音频数据时,按照预设策略对所述第二预设音频数据库进行监测;
第二检索单元,用于当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
本发明实施例还提供了一种存储介质,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行本发明实施例所提供的音频检索方法。
本发明实施例采用当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;基于所述音频指纹在第一预设音频数据库中进行匹配;当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。该方案可以通过长时间的离线检索,在检索到与音频指纹匹配的音频数据后,将该音频数据的音频信息发送至客户端,提高了音频检索的成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的音频检索方法的应用场景示意图。
图1b是本发明实施例提供的音频检索方法的流程示意图。
图2是本发明实施例提供的音频检索方法的另一流程示意图。
图3a是本发明实施例提供的音频检索装置的结构示意图。
图3b是本发明实施例提供的音频检索装置的另一结构示意图。
图3c是本发明实施例提供的音频检索装置的又一结构示意图。
图4是本发明实施例所提供的服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供了一种音频检索方法、装置及存储介质,该音频检索方法的执行主体可以是本发明实施例提供的音频检索装置,该音频检索装置可以采用硬件或软件的方式实现。在一个具体的实施例中,该音频检索装置可以集成在服务器中,例如集成在网页web服务器。
请参阅图1a,图1a是本发明实施例提供的音频检索方法的应用场景示意图,以音频检索装置集成在服务器为例,可以由安装在终端的客户端录制音频数据,并将该音频数据转换为音频指纹封装到音频检索请求中,当服务器接收到安装在终端上的客户端发送的音频检索请求时,可以直接从该音频检索请求中提取音频指纹,然后再将该音频指纹与第一预设音频数据库中的音频数据进行匹配,当第一预设音频数据库中没有匹配的音频数据时,可以从音频检索请求中将发起该请求的地理位置信息提取出来,然后根据地理位置信息对该音频指纹进行相应的处理,比如,该音频指纹是在商场等嘈杂的地方录制的,则可以进行降噪处理;在山谷等有回音的地方录制的,则可以进行回声去除处理等,然后再将经过处理之后的音频指纹与第一预设音频数据库中的音频数据进行匹配。
当在第一预设音频数据库中未匹配到相应的音频数据时,可以将该音频指纹与第二预设音频数据库中的音频数据进行匹配;当第二预设音频数据库中没有与该音频指纹匹配的音频数据时,可以对该音频指纹进行存储,并在第二预设音频数据库更新即有新音频数据加入该第二预设音频数据库时,将音频指纹与第二预设音频数据库中的音频数据重新进行匹配。
此外,当匹配到相应的音频数据时,可以将该音频数据的音频信息发送至客户端。当客户端处于开启状态时,可以直接将该音频信息发送至客户端进行展示;当客户端处于关闭状态时,可以将音频信息发送至客户端,由客户端后台生成推送信息,以提醒终端用户;也可以将该音频信息保存至客户端的历史查询记录中,当用户再次打开客户端时,在该历史查询记录中给予显示和提示、通知。
以下分别进行详细说明。
本实施例将从音频检索装置的角度进行描述,该音频检索装置可以集成在服务器,如图1b所示,本实施例的方法的具体流程可以如下:
101、当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹。
其中,客户端可以是音频播放器、浏览器等应用程序。其中,音频指纹为一段音频中独一无二的数字特征,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。
比如,当用户在听到感兴趣的音频时,可以通过客户端录制一小段音频数据,客户端可将录制的音频数据转换为音频指纹,并将录制的音频指纹封装到音频检索请求中,当接收到音频检索请求后,直接从该检索请求中提取音频指纹。
此外,为了减轻客户端的工作量,还可以由客户端直接将录制的音频数据封装到音频检索请求中,当接收到该检索请求后,再从查询请求携带的音频数据中提取音频指纹。
102、基于所述音频指纹在第一预设音频数据库中进行匹配。
具体的,可以在第一预设音频数据库中检索与音频指纹匹配的音频数据。
在一实施例中,用户录制的音频数据可能夹杂着各种噪音,使得提取的音频指纹不清晰,影响最终对音频指纹的识别,导致在第一预设音频数据库中检索不到与音频指纹匹配的音频数据。比如,当用户录制音频数据的地点是超市时,录制的音频数据中会存在人们说话、翻选商品的声音;当用户录制音频数据的地点是超市时,录制的音频数据中会存在着回声。因此,在实施过程中,可以根据用户录制音频数据的地点,对从该音频数据中提取的音频指纹进行相应的处理,使得音频指纹更加清晰。比如,音频数据是在商场等嘈杂的地方录制的,则可以对音频指纹进行降噪处理;音频数据是在山谷等有回音的地方录制的,则可以对音频指纹进行回声去除处理等。
具体的,当在第一预设音频数据库中未检索到与音频指纹匹配的音频数据时,可以对音频指纹进行预设处理,然后再将处理后的音频指纹与第一预设音频数据库中的音频数据进行匹配。也即,步骤“基于所述音频指纹在第一预设音频数据库中进行匹配”可以包括:
将所述音频指纹与第一预设音频数据库中的音频数据进行匹配;
当未匹配成功时,对所述音频指纹进行预设处理;
将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配。
其中,在用户录制并发起音频检索请求时,可以通过终端自带的定位软件,比如GPS(Global Positioning System,全球定位系统)对此时终端的所在地进行定位,得到用户发起音频检索请求时所在的地理位置信息。然后可以将地理位置信息封装到音频检索请求中。也即,步骤“对所述音频指纹进行预设处理”可以包括:
从所述检索请求中提取用户发起所述检索请求的地理位置信息;
基于所述地理位置信息对所述音频指纹进行相应的处理。
其中,第一预设音频数据包括大部分的音频数据。一实施例中,由于第一预设音频数据库中音频数据的数量十分庞大,可高达几百万个,通常热门音频数据的数量只占音频数据总量的一小部分,比如,第一预设音频数据库中的音频数据总量为800万个,排序前1%的8万个音频数据作为热门音频数据,就可以满足广大用户的检索需求。并且,热门音频数据的检索率通常占总的音频数据搜索率的90%以上。因此,为了提高检索效率,可以按照热度将第一预设音频数据库分为一个热门音频数据库和多个冷门音频数据库。在进行检索时,可以先在热门音频数据库中进行检索,如果热门音频数据库中检索不到匹配的音频数据,再按照热门程度从高到低的顺序遍历各冷门音频数据库。也即,第一预设音频数据库可以包括热门音频数据库和多个冷门音频数据库,步骤“基于所述音频指纹在第一预设音频数据库中进行匹配”可以包括:
在热门音频数据库中检索与所述音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述音频指纹与各冷门音频数据库中的音频数据进行匹配。
其中,当在热门音频数据库和各冷门音频数据库中均未检索到与音频指纹匹配的音频数据时,可以对音频指纹进行预设处理,然后再将处理后的音频指纹依次与热门音频数据库和各冷门音频数据库中的音频数据进行匹配。即是,步骤“将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配”可以包括:
在热门音频数据库中检索与处理后的音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述处理后的音频指纹与各冷门音频数据库中的音频数据进行匹配。
其中,在建立第一预设音频数据库之前,可以通过网络预先统计各音频数据被检索的次数、被下载的次数或在线收听的次数。然后根据统计的次数对各音频数据进行排序,按照次数从多到少的次数排序。排在前面的音频数据说明是用户经常检索或收听的音频数据,将其归类为热门音频数据;而排在后面的其他音频数据说明是用户很少或从不检索或收听的音频数据,将其归类为冷门音频数据。为了保证热度的准确性,可以设定每隔预设时间段重新统计一次,比如,一天、一周等。
一实施例中,可能在检索过程中,由于算法复杂,导致检索时间过长,使得用户在没有检索到相应的音频数据就关闭了客户端,导致检索失败。因此,在本实施例中,当接收到客户端发起的音频检索请求时,可以实时监测客户端状态。当监测到客户端处于关闭状态时,可以对该音频指纹进行存储,并继续检索,当检索到与音频指纹匹配的音频数据时,可以将该音频数据的的音频信息发送至客户端,再由客户端推送至其所在终端,以提醒用户;也可以将音频数据的音频信息保存至客户端的历史查询记录中,当用户再次打开客户端时,在历史查询记录中给予显示和提示、通知。当客户端处于开启状态时,若检索到与音频指纹匹配的音频数据时,可以直接将该音频数据的音频信息发送至客户端进行展示。
103、当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
具体的,当在第一预设音频数据库中未匹配到与音频指纹匹配的音频数据时,可以将音频指纹与第二预设音频数据库中的音频数据进行匹配。
其中,第二预设音频数据库中包括近期添加的新音频数据,并且,第二预设音频数据库中的音频数据都设有期限,当音频数据在第二预设音频数据库中的存储时间超过期限时,会将所述音频数据转移至所述第一预设音频数据库中。其中,期限可以根据实际情况设定,比如一天、一周等。
104、若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测。
具体的,当在第二预设音频数据库中没有检索到与音频指纹匹配的音频数据时,可以每隔预设时间段对第二预设音频数据库检测一次,检测是否有新的音频数据加入。
其中,预设时间段可以根据实际情况设定,比如可以每隔一天对第二预设音频数据库检测一次、每隔一周对第二预设音频数据库检测一次等。
105、当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
为了节省系统资源,减少系统的存储和计算压力。可以对保存的音频指纹设置期限,若是在预设时间内仍未匹配到相应的音频数据,则将该音频指纹删除。其中,预设时间可以根据实际情况设定,也可以由用户自行设定,此处不做任何限制。
在一实施例中,当在第二预设音频数据库中检索到与该音频指纹匹配的音频数据时,可以将该音频数据的音频信息发送至客户端,由客户端后台生成推送信息,以提醒终端用户;也可以将该音频信息保存至客户端的历史查询记录中,当用户再次打开客户端时,在该历史查询记录中给予显示和提示、通知。
本实施例采用当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;基于所述音频指纹在第一预设音频数据库中进行匹配;当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;当监测到有新音频数据加入所述第二预设音频数据库时,返回执行在第二预设音频数据库中检索与所述音频指纹匹配的音频数据的步骤。该方案可以通过长时间的离线检索,在检索到与音频指纹匹配的音频数据后,将该音频数据的音频信息发送至客户端,提高了音频检索的成功率。
上述实施例所描述的方法,以下将举例作进一步详细说明。如图2所示,本实施例的音频检索方法的具体流程可以如下:
201、当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹。
其中,客户端可以是音频播放器、浏览器等应用程序。其中,音频指纹为一段音频中独一无二的数字特征,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。
比如,当用户在听到感兴趣的音频时,可以通过客户端录制一小段音频数据,客户端可将录制的音频数据转换为音频指纹,并将录制的音频指纹封装到音频检索请求中,当接收到音频检索请求后,直接从该检索请求中提取音频指纹。
此外,为了减轻客户端的工作量,还可以由客户端直接将录制的音频数据封装到音频检索请求中,当接收到该检索请求后,再从查询请求携带的音频数据中提取音频指纹。
202、在热门音频数据库中检索与所述音频指纹匹配的音频数据;当在热门音频数据库中有匹配的音频数据时,执行步骤209,当在热门音频数据库中没有匹配的音频数据时,执行步骤203。
203、将所述音频指纹与各冷门音频数据库中的音频数据进行匹配;若匹配成功,则执行步骤209,若未匹配成功,则执行步骤204。
一实施例中,由于第一预设音频数据库中音频数据的数量十分庞大,可高达几百万个,通常热门音频数据的数量只占音频数据总量的一小部分,比如,第一预设音频数据库中的音频数据总量为800万个,排序前1%的8万个音频数据作为热门音频数据,就可以满足广大用户的检索需求。并且,热门音频数据的检索率通常占总的音频数据搜索率的90%以上。因此,为了提高检索效率,可以按照热度将第一预设音频数据库分为一个热门音频数据库和多个冷门音频数据库。在进行检索时,可以先在热门音频数据库中进行检索,如果热门音频数据库中检索不到匹配的音频数据,再按照热门程度从高到低的顺序遍历各冷门音频数据库。
204、对所述音频指纹进行预设处理,并将处理后的音频指纹与热门音频数据库中的音频数据进行匹配;匹配成功则执行步骤209,匹配失败则执行步骤205。
205、将处理后的音频指纹与各冷门音频数据库中的音频数据进行匹配。匹配成功则执行步骤209,匹配失败则执行步骤206。
在一实施例中,用户录制的音频数据可能夹杂着各种噪音,使得提取的音频指纹不清晰,影响最终对音频指纹的识别,导致在第一预设音频数据库中检索不到与音频指纹匹配的音频数据。比如,当用户录制音频数据的地点是超市时,录制的音频数据中会存在人们说话、翻选商品的声音;当用户录制音频数据的地点是超市时,录制的音频数据中会存在着回声。因此,在实施过程中,可以根据用户录制音频数据的地点,对从该音频数据中提取的音频指纹进行相应的处理,使得音频指纹更加清晰。比如,音频数据是在商场等嘈杂的地方录制的,则可以对音频指纹进行降噪处理;音频数据是在山谷等有回音的地方录制的,则可以对音频指纹进行回声去除处理等。
其中,当在热门音频数据库和各冷门音频数据库中均未检索到与音频指纹匹配的音频数据时,可以对音频指纹进行预设处理,然后再将处理后的音频指纹依次与热门音频数据库和各冷门音频数据库中的音频数据进行匹配。
其中,在建立第一预设音频数据库之前,可以通过网络预先统计各音频数据被检索的次数、被下载的次数或在线收听的次数。然后根据统计的次数对各音频数据进行排序,按照次数从多到少的次数排序。排在前面的音频数据说明是用户经常检索或收听的音频数据,将其归类为热门音频数据;而排在后面的其他音频数据说明是用户很少或从不检索或收听的音频数据,将其归类为冷门音频数据。为了保证热度的准确性,可以设定每隔预设时间段重新统计一次,比如,一天、一周等。
206、在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则执行步骤209,若未检索到与所述音频指纹匹配的音频数据,则执行步骤207。
具体的,当在第一预设音频数据库中未匹配到与音频指纹匹配的音频数据时,可以将音频指纹与第二预设音频数据库中的音频数据进行匹配。
其中,第二预设音频数据库中包括近期添加的新音频数据,并且,第二预设音频数据库中的音频数据都设有期限,当音频数据在第二预设音频数据库中的存储时间超过期限时,会将所述音频数据转移至所述第一预设音频数据库中。其中,期限可以根据实际情况设定,比如一天、一周等。
207、按照预设策略对所述第二预设音频数据库进行监测。
具体的,当在第二预设音频数据库中没有检索到与音频指纹匹配的音频数据时,可以每隔预设时间段对第二预设音频数据库检测一次,检测是否有新的音频数据加入。
其中,预设时间段可以根据实际情况设定,比如可以每隔一天对第二预设音频数据库检测一次、每隔一周对第二预设音频数据库检测一次等。
208、当监测到有新音频数据加入所述第二预设音频数据库时,返回执行步骤206。
209、将所述音频数据的音频信息发送至所述客户端。
为了节省系统资源,减少系统的存储和计算压力。可以对保存的音频指纹设置期限,若是在预设时间内仍未匹配到相应的音频数据,则将该音频指纹删除。其中,预设时间可以根据实际情况设定,也可以由用户自行设定,此处不做任何限制。
一实施例中,可能在检索过程中,由于算法复杂,导致检索时间过长,使得用户在没有检索到相应的音频数据就关闭了客户端,导致检索失败。因此,在本实施例中,当接收到客户端发起的音频检索请求时,可以实时监测客户端状态。当监测到客户端处于关闭状态时,可以对该音频指纹进行存储,并继续检索,当检索到与音频指纹匹配的音频数据时,可以将该音频数据的的音频信息发送至客户端,再由客户端后台生成推送信息,以提醒终端用户;也可以将音频数据的音频信息保存至客户端的历史查询记录中,当用户再次打开客户端时,在历史查询记录中给予显示和提示、通知。当客户端处于开启状态时,若检索到与音频指纹匹配的音频数据时,可以直接将该音频数据的音频信息发送至客户端进行展示。
本实施例所提供的方案可以通过长时间的离线检索,在检索到与音频指纹匹配的音频数据后,将该音频数据的音频信息发送至客户端,提高了音频检索的成功率。
为了更好的实施以上方法,本发明实施例还提供一种音频检索装置,如图3a所示,该音频检索装置包括:指纹提取单元301、音频匹配单元302、第一检索单元单元303、信息发送单元304、数据监测单元305以及第二检索单元306,如下:
指纹提取单元301,用于当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
音频匹配单元302,用于基于所述音频指纹在第一预设音频数据库中进行匹配;
第一检索单元303,用于当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
信息发送单元304,用于当检索到与所述音频指纹匹配的音频数据时,将所述音频数据的音频信息发送至所述客户端;
数据监测单元305,用于当未检索到与所述音频指纹匹配的音频数据时,按照预设策略对所述第二预设音频数据库进行监测;
第二检索单元306,用于当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
在一些实施例中,当所述音频数据在所述第二预设音频数据库中的存储时间超过所述期限时,将所述音频数据转移至所述第一预设音频数据库中。
在一些实施例中,参考图3b,所述音频匹配单元302,可以包括:
第一匹配子单元3021,用于将所述音频指纹与第一预设音频数据库中的音频数据进行匹配;
指纹处理子单元3022,用于当未匹配成功时,对所述音频指纹进行预设处理;
第二匹配子单元3023,用于将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配。
在一些实施例中,所述第一预设音频数据库包括热门音频数据库和多个冷门音频数据库,所述第一匹配子单元3021,可以用于:
在热门音频数据库中检索与所述音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述音频指纹与各冷门音频数据库中的音频数据进行匹配。
在一些实施例中,所述指纹处理子单元3022,可以用于:
当未匹配成功时,从所述检索请求中提取用户发起所述检索请求的地理位置信息;
基于所述地理位置信息对所述音频指纹进行相应的处理。
在一些实施例中,参考图3c,所述音频检索装置,还可以包括:
指纹删除单元307,可以用于当在预设时间内未检索到与所述音频指纹匹配的音频数据时,删除所述音频指纹。
需要说明的是,上述实施例提供的音频检索装置在进行音频检索时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频检索装置与音频检索方法属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
本实施例提供的音频检索装置可以通过指纹提取单元301当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;由音频匹配单元302基于所述音频指纹在第一预设音频数据库中进行匹配;由第一检索单元303当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;由信息发送单元304当检索到与所述音频指纹匹配的音频数据时,将所述音频数据的音频信息发送至所述客户端;由数据监测单元305当未检索到与所述音频指纹匹配的音频数据时,按照预设策略对所述第二预设音频数据库进行监测;由第二检索单元306当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。该方案可以通过长时间的离线检索,在检索到与音频指纹匹配的音频数据后,将该音频数据的音频信息发送至客户端,提高了音频检索的成功率。
本发明实施例还提供一种服务器,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源405、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
尽管未示出,服务器还可以包括蓝牙模块等其他模块,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
基于所述音频指纹在第一预设音频数据库中进行匹配;
当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;
若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;
当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
一实施例中,处理器401具体用于执行以下步骤:
将所述音频指纹与第一预设音频数据库中的音频数据进行匹配;
当未匹配成功时,对所述音频指纹进行预设处理;
将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配。
一实施例中,所述第一预设音频数据库包括热门音频数据库和多个冷门音频数据库,处理器401具体用于执行以下步骤:
在热门音频数据库中检索与所述音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述音频指纹与各冷门音频数据库中的音频数据进行匹配。
一实施例中,处理器401具体用于执行以下步骤:
从所述检索请求中提取用户发起所述检索请求的地理位置信息;
基于所述地理位置信息对所述音频指纹进行相应的处理。
一实施例中,处理器401具体用于执行以下步骤:
若在预设时间内未检索到与所述音频指纹匹配的音频数据,则删除所述音频指纹。
一实施例中,所述第二预设音频数据库中的音频数据设有期限,处理器401具体用于执行以下步骤:
当所述音频数据在所述第二预设音频数据库中的存储时间超过所述期限时,将所述音频数据转移至所述第一预设音频数据库中。
本实施例提供的服务器,当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;基于所述音频指纹在第一预设音频数据库中进行匹配;当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。该方案可以通过长时间的离线检索,在检索到与音频指纹匹配的音频数据后,将该音频数据的音频信息发送至客户端,提高了音频检索的成功率。
本申请实施例还提供一种存储设备,所述存储设备存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的会话信息处理方法,比如:当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;基于所述音频指纹在第一预设音频数据库中进行匹配;当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
在本申请实施例中,存储设备可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的音频检索方法而言,本领域普通决策人员可以理解实现本申请实施例的音频检索方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如音频检索方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的音频检索装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种音频检索方法、终端及存储设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种音频检索方法,其特征在于,包括:
当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
基于所述音频指纹在第一预设音频数据库中进行匹配;
当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
若检索到与所述音频指纹匹配的音频数据,则将所述音频数据的音频信息发送至所述客户端;
若未检索到与所述音频指纹匹配的音频数据,则按照预设策略对所述第二预设音频数据库进行监测;
当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
2.如权利要求1所述的音频检索方法,其特征在于,所述基于所述音频指纹在第一预设音频数据库中进行匹配,包括:
将所述音频指纹与第一预设音频数据库中的音频数据进行匹配;
当未匹配成功时,对所述音频指纹进行预设处理;
将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配。
3.如权利要求1所述的音频检索方法,其特征在于,所述第一预设音频数据库包括热门音频数据库和多个冷门音频数据库;
所述将所述音频指纹与第一预设音频数据库中的音频数据进行匹配,包括:
在热门音频数据库中检索与所述音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述音频指纹与各冷门音频数据库中的音频数据进行匹配。
4.如权利要求2所述的音频检索方法,其特征在于,所述对所述音频指纹进行预设处理,包括:
从所述检索请求中提取用户发起所述检索请求的地理位置信息;
基于所述地理位置信息对所述音频指纹进行相应的处理。
5.如权利要求1所述的音频检索方法,其特征在于,还包括:
若在预设时间内未检索到与所述音频指纹匹配的音频数据,则删除所述音频指纹。
6.如权利要求1所述的音频检索方法,其特征在于,所述第二预设音频数据库中的音频数据设有期限;
当所述音频数据在所述第二预设音频数据库中的存储时间超过所述期限时,将所述音频数据转移至所述第一预设音频数据库中。
7.一种音频检索装置,其特征在于,包括:
指纹提取单元,用于当接收到客户端发送的音频检索请求时,提取所述检索请求中的音频指纹;
音频匹配单元,用于基于所述音频指纹在第一预设音频数据库中进行匹配;
第一检索单元,用于当未匹配成功时,在第二预设音频数据库中检索与所述音频指纹匹配的音频数据;
信息发送单元,用于当检索到与所述音频指纹匹配的音频数据时,将所述音频数据的音频信息发送至所述客户端;
数据监测单元,用于当未检索到与所述音频指纹匹配的音频数据时,按照预设策略对所述第二预设音频数据库进行监测;
第二检索单元,用于当监测到有新音频数据加入所述第二预设音频数据库时,则在所述第二预设音频数据库中检索与所述音频指纹匹配的音频数据。
8.如权利要求7所述的音频检索装置,其特征在于,所述音频匹配单元,包括:
第一匹配子单元,用于将所述音频指纹与第一预设音频数据库中的音频数据进行匹配;
指纹处理子单元,用于当未匹配成功时,对所述音频指纹进行预设处理;
第二匹配子单元,用于将处理后的音频指纹与所述第一预设音频数据库中的音频数据进行匹配。
9.如权利要求8所述的音频检索装置,其特征在于,所述第一预设音频数据库包括热门音频数据库和多个冷门音频数据库;
所述第一匹配子单元,用于:
在热门音频数据库中检索与所述音频指纹匹配的音频数据;
当所述热门音频数据库中没有匹配的音频数据时,将所述音频指纹与各冷门音频数据库中的音频数据进行匹配。
10.如权利要求8所述的音频检索装置,其特征在于,所述指纹处理子单元,用于:
当未匹配成功时,从所述检索请求中提取用户发起所述检索请求的地理位置信息;
基于所述地理位置信息对所述音频指纹进行相应的处理。
11.如权利要求1所述的音频检索装置,其特征在于,还包括:
指纹删除单元,当在预设时间内未检索到与所述音频指纹匹配的音频数据时,删除所述音频指纹。
12.一种存储介质,其特征在于,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行如权利要求1-6任一项所述的步骤。
CN201811428967.4A 2018-11-27 2018-11-27 音频检索方法、装置及存储介质 Pending CN109657093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811428967.4A CN109657093A (zh) 2018-11-27 2018-11-27 音频检索方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811428967.4A CN109657093A (zh) 2018-11-27 2018-11-27 音频检索方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN109657093A true CN109657093A (zh) 2019-04-19

Family

ID=66111642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811428967.4A Pending CN109657093A (zh) 2018-11-27 2018-11-27 音频检索方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109657093A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444376A (zh) * 2020-04-15 2020-07-24 厦门快商通科技股份有限公司 一种音频指纹的识别方法和装置以及设备
CN111629226A (zh) * 2020-05-15 2020-09-04 上海幕革科技有限公司 一种基于中心存储的数据处理设备及其处理方法
CN112667844A (zh) * 2020-12-23 2021-04-16 腾讯音乐娱乐科技(深圳)有限公司 检索音频的方法、装置、设备和存储介质
CN112784100A (zh) * 2021-03-18 2021-05-11 百果园技术(新加坡)有限公司 一种音频指纹的处理方法、装置、计算机设备和存储介质
CN113761232A (zh) * 2021-04-25 2021-12-07 腾讯科技(深圳)有限公司 一种音频库的生成方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289518A (zh) * 2011-09-13 2011-12-21 盛乐信息技术(上海)有限公司 音频指纹检索库的更新方法及系统
CN103995890A (zh) * 2014-05-30 2014-08-20 杭州智屏软件有限公司 一种实时音频指纹检索库数据更新和检索方法
CN104679847A (zh) * 2015-02-13 2015-06-03 王磊 一种构建在线实时更新海量音频指纹库的方法和设备
CN105138541A (zh) * 2015-07-08 2015-12-09 腾讯科技(深圳)有限公司 音频指纹匹配查询的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289518A (zh) * 2011-09-13 2011-12-21 盛乐信息技术(上海)有限公司 音频指纹检索库的更新方法及系统
CN103995890A (zh) * 2014-05-30 2014-08-20 杭州智屏软件有限公司 一种实时音频指纹检索库数据更新和检索方法
CN104679847A (zh) * 2015-02-13 2015-06-03 王磊 一种构建在线实时更新海量音频指纹库的方法和设备
CN105138541A (zh) * 2015-07-08 2015-12-09 腾讯科技(深圳)有限公司 音频指纹匹配查询的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444376A (zh) * 2020-04-15 2020-07-24 厦门快商通科技股份有限公司 一种音频指纹的识别方法和装置以及设备
CN111629226A (zh) * 2020-05-15 2020-09-04 上海幕革科技有限公司 一种基于中心存储的数据处理设备及其处理方法
CN112667844A (zh) * 2020-12-23 2021-04-16 腾讯音乐娱乐科技(深圳)有限公司 检索音频的方法、装置、设备和存储介质
CN112784100A (zh) * 2021-03-18 2021-05-11 百果园技术(新加坡)有限公司 一种音频指纹的处理方法、装置、计算机设备和存储介质
CN113761232A (zh) * 2021-04-25 2021-12-07 腾讯科技(深圳)有限公司 一种音频库的生成方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109657093A (zh) 音频检索方法、装置及存储介质
US10496747B2 (en) Text information processing method and apparatus
EP3502880B1 (en) Method for preloading application, storage medium, and terminal device
CN107291962B (zh) 搜索方法、装置、存储介质及电子设备
CN108391009A (zh) 应用页面的显示方法、装置、存储介质及电子设备
CN106201890B (zh) 一种应用的性能优化方法及服务器
CN110472941A (zh) 基于通知消息的日程创建方法和装置、终端、存储介质
CN107332757A (zh) 删除推送消息的方法及相关产品
US20220052976A1 (en) Answer text processing methods and apparatuses, and key text determination methods
US11240777B2 (en) Device positioning method and apparatus
US11050688B2 (en) Apparatus and method for improving communication between matched individuals
CN108572908A (zh) 信息反馈方法及装置
CN108416041A (zh) 语音日志分析方法和系统
CN103686622A (zh) 一种用于向移动终端推送信息的方法和装置
CN113537685B (zh) 一种数据处理方法和装置
CN108268438A (zh) 一种页面内容提取方法、装置以及客户端
CN106909447A (zh) 一种后台应用程序的处理方法、装置及终端
CN106909407A (zh) 一种后台应用程序的关闭方法、装置及终端
CN106815219A (zh) 数据库编辑器的编辑方法和装置
CN107452361A (zh) 歌曲分句方法及装置
US7599946B2 (en) Systems and methods for discovering frequently accessed subtrees
US20120311145A1 (en) Method and system to monitor equipment of an it infrastructure
CN107220283A (zh) 数据处理方法、装置、存储介质及电子设备
CN105991312B (zh) 一种网络资源的排重方法及装置
CN112801837B (zh) 设备聚类方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419

RJ01 Rejection of invention patent application after publication