CN108172241B - 一种基于智能终端的音乐推荐方法及音乐推荐系统 - Google Patents
一种基于智能终端的音乐推荐方法及音乐推荐系统 Download PDFInfo
- Publication number
- CN108172241B CN108172241B CN201711445609.XA CN201711445609A CN108172241B CN 108172241 B CN108172241 B CN 108172241B CN 201711445609 A CN201711445609 A CN 201711445609A CN 108172241 B CN108172241 B CN 108172241B
- Authority
- CN
- China
- Prior art keywords
- audio
- music
- intelligent terminal
- file
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000008597 Diospyros kaki Nutrition 0.000 description 1
- 244000236655 Diospyros kaki Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005405 multipole Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于智能终端的音乐推荐方法,包括以下步骤:采集所述智能终端内一当前播放资源的音频文件;提取所述音频文件的音频特征,所述音频特征包括:音频幅值、音频基频或音频流中的一种或多种;基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音;基于所述音频基频确定所述音频特征是否为音乐;转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐;于所述智能终端内显示所述推荐音乐。采用上述技术方案后,可自动地帮助用户下载和筛选看到的视频内具有的音乐,提高用户体验。
Description
技术领域
本发明涉及智能设备控制领域,尤其涉及一种基于智能终端的音乐推荐方法及音乐推荐系统。
背景技术
当前,智能终端如智能手机、平板电脑已经成为人们生活中必不可少的一部分,智能手机的功能也变得越来越强大,从以前的只能打电话、发短信到现在的播放音乐、播放视频、蓝牙、拍照、上网、阅读等,智能手机的功能变得越来越强大,对智能手机的耗电量也越来越高。其中,不少用户把智能手机作为音乐播放器使用,在碎片时间里收听音乐。
而且相信不少用户都有在观看视频、或是听到通话中的一个彩铃时,觉得当前播放的音乐很不错,但不知道该音乐的名称,想要再次搜索到时,无法入手。虽然目前的音乐播放器可以通过用户哼出该音乐的曲调来搜索,但成功率低,且对用户提出了要求。一旦用户忘了该音乐的曲调,则无法搜索到。
因此,需要一种无需用户操作的基于智能终端的音乐推荐方法,可自动地帮助用户下载和筛选看到的视频内具有的音乐,提高用户体验。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供一种基于智能终端的音乐推荐方法及音乐推荐系统,可帮助用户在不知晓任何音乐信息的条件下,找到相关歌曲推荐。
本发明公开了一种基于智能终端的音乐推荐方法,包括以下步骤:
采集所述智能终端内一当前播放资源的音频文件;
提取所述音频文件的音频特征,所述音频特征包括:音频幅值、音频基频或音频流中的一种或多种;
基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音;
基于所述音频基频确定所述音频特征是否为音乐;
转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐;
于所述智能终端内显示所述推荐音乐。
优选地,基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音的步骤包括:
于所述智能终端内预设一幅值阈值;
将所述音频幅值与所述幅值阈值进行比较;
当所述音频幅值小于所述幅值阈值时,确定具有所述音频特征的音频文件为静音文件。
优选地,转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐的步骤包括:
基于移动窗函数对所述音频流分帧,形成至少一帧单位音频流;
将每一所述单位音频流转化为一多维向量;
分析所述音频文件的播放时域,记录所述播放时域的时间帧;
基于所述时间帧,解析所述多维向量至所述文字信息;
上传所述文字信息至一服务器,由所述服务器于一歌词数据库内搜索与所述文字信息匹配的推荐音乐。
优选地,所述音乐推荐方法还包括以下步骤:
于所述智能终端内新建一推荐文件夹;
下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内。
优选地,下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内的步骤包括:
下载所述推荐音乐的音乐文件及与所述音乐文件关联的音乐信息,所述音乐信息包括:所述音乐文件的演唱者、翻唱者、歌词中的一种或多种;
存储所述音乐文件及音乐信息至所述推荐文件夹。
本发明还公开了一种基于智能终端的音乐推荐系统,所述音乐推荐系统包括智能终端,所述智能终端包括:
采集模块,采集所述智能终端内一当前播放资源的音频文件;
提取模块,与所述采集模块连接,提取所述音频文件的音频特征,所述音频特征包括:音频幅值、音频基频或音频流中的一种或多种;
处理模块,与所述提取模块连接,分别:
基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音;
基于所述音频基频确定所述音频特征是否为音乐;
转换模块,与所述提取模块链接,转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐;
显示模块,设于所述智能终端内,显示所述推荐音乐。
优选地,所述智能终端内预设一幅值阈值;
所述处理模块包括:
比较单元,将所述音频幅值与所述幅值阈值进行比较;
验证单元,与所述比较单元连接,当所述音频幅值小于所述幅值阈值时,确定具有所述音频特征的音频文件为静音文件。
优选地,所述转换模块包括:
分帧单元,基于移动窗函数对所述音频流分帧,形成至少一帧单位音频流;
向量转化单元,与所述分帧单元连接,将每一所述单位音频流转化为一多维向量;
分析单元,分析所述音频文件的播放时域,记录所述播放时域的时间帧;
解析单元,与所述分析单元连接,基于所述时间帧,解析所述多维向量至所述文字信息;
所述音乐推荐系统还包括一服务器,所述智能终端上传所述文字信息至所述服务器,由所述服务器于一歌词数据库内搜索与所述文字信息匹配的推荐音乐。
优选地,所述音乐推荐系统还包括:
下载模块,于所述智能终端内新建一推荐文件夹,下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内。
优选地,所述下载模块,下载所述推荐音乐的音乐文件及与所述音乐文件关联的音乐信息,所述音乐信息包括:所述音乐文件的演唱者、翻唱者、歌词中的一种或多种,并存储所述音乐文件及音乐信息至所述推荐文件夹。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
1.用户可在不知晓任何音乐信息的条件下,可以找到相关歌曲推荐,避免了无法找到喜欢的音乐的尴尬。
2.找到推荐音乐后,还可帮助用户进一步对推荐音乐有深层次的了解;
3.用户全称无需操作,提高了用户的体验。
附图说明
图1为符合本发明一优选实施例中音乐推荐方法的流程示意图;
图2为符合本发明一优选实施例中确定音频特征是否为静音的流程示意图;
图3为符合本发明一优选实施例中转换音频流的流程示意图;
图4为符合本发明另一优选实施例中音乐推荐方法的流程示意图;
图5为符合本发明一优选实施例中音乐推荐系统的结构示意图。
附图标记:
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
参阅图1,为符合本发明一优选实施例中音乐推荐方法的流程示意图。在该实施例中,基于智能终端的音乐推荐方法,包括以下步骤:
采集智能终端内一当前播放资源的音频文件。
当智能终端在播放一如视频、音频、通话过程中的彩铃等的当前播放资源时,将对此类的当前播放资源的音频文件进行采集和记录,如以视频的背景音乐为音频文件作记录,以音频本身的音频文件作记录,以彩铃为音频文件作记录等。以上采集的过程由智能终端自行执行,可无需用户点击触发(若配置为用户点击触发也可)。也就是说,智能终端将实时地采集当前播放资源的音频文件,考虑到音频文件的大小,可配置为上述音频文件缓存在智能终端内,在执行完后续的步骤后将从智能终端内删除,以节省智能终端的存储空间。
提取音频文件的音频特征,音频特征包括:音频幅值、音频基频或音频流中的一种或多种。
获取到音频文件后,将对音频文件内的音频特征作提取,以作为判断该音频文件实际包含的音乐的名称和种类之用。所需要提取的主要音频特征可以是音频幅值、音频基频或音频流中的一种或多种。
物理学中,把人耳感觉到的声音的强弱叫做响度。响度又称音量或声量。声音的响度体现在音频特征中即为音频幅值,在声学上,人们通常用分贝作为单位来计量声音的强弱。分贝的符号为dB。把人耳所能听见的最弱声音的强度定为零分贝,这是听觉的下限。10分贝相当于微风吹拂树叶的沙沙声。轻声说话20~30(安静)、正常说话40~50、大声呼喊70~80(吵)、汽车喇叭90(响)、载重汽车100~110(震耳)、飞机发动机120~130(疼痛难忍)。对音频幅值的影响因素主要有两点:1、与声源振动的幅度有关,振幅越大,响度越大。2、与距离声源的远近有关,越远响度越小。
音频基频,即基本频率,当发声体由于振动而发出声音时,声音一般可以分解为许多单纯的正弦波,也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的,其中频率最低的正弦波即为基音,而其他频率较高的正弦波则为泛音。一个曲子就算是只有一种乐器,随着震动的方式不断变化,基频也就是不断变化的,因此基频是与时间对应的。如果是多种乐器再加上人声,它们的基频都是不一样的,表现的结果就是混在一起。
基于预设于智能终端内的幅值阈值,比较音频幅值及幅值阈值,确定音频特征是否为静音。
参阅图2,在智能终端中,预设了一幅值阈值,可通过比较音频幅值及幅值阈值,确定音频特征是否为静音。例如,在智能终端内设置的幅值阈值为0、接近于0或是较小的值,若音频特征为静音,则其在音频幅值的这一参数上将表现的较小,而具有人声、音乐的音频特征则将在音频幅值的这一参数上表现的较大,通过这一差异,来确定具有该音频特征的音频文件是否为静音文件。
基于音频基频确定音频特征是否为音乐。
在去除了音频文件中的静音或低音量的音频特征后,需要进一步分割人声和音乐声。考虑到人声和音乐有两点主要的不同:人声是单个声源发出的,大部分时间有一个单一的基频,而音乐一般是多个声源发出的,有多个混在一起的基频。人声的基频不稳定,而音乐的基频较稳定。针对这两点不同,可使用如下两种声学特征:基频提取器对提取音频的基频,以及基频变化率来确定哪部分为人声哪部分为音乐声,在音频基频上,人声部分会较高,音乐部分会较低,而在基频变化率上,人声部分会偏离0,音乐部分会接近0。对每一帧提取出这些音频特征中的音频基频后,可以进行聚类,来得到哪些帧是人声,哪些帧是音乐。
转换音频流为一文字信息,将文字信息与一歌词数据库比较以获得与文字信息匹配的推荐音乐。
确定了音频中的音乐后,需确定该音乐的具体内容,因此,可根据其歌词来确定该音乐为哪首歌曲,具体地,参阅图3,示出了符合本发明一优选实施例中转换音频流的流程示意图,在该实施例中,对文字信息的转换步骤,由以下过程实现:
基于移动窗函数对所述音频流分帧,形成至少一帧单位音频流;
将每一所述单位音频流转化为一多维向量;
分析所述外部语音信息的播放时域,记录所述播放时域的时间帧;
基于所述时间帧,解析所述多维向量至所述文字信息。
具体地,由于声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。在开始外部语音信息识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对音频流进行分析,需要对音频流分帧,也就是把音频流切开成一小段一小段,每小段称为一帧单位音频流。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。单位音频流与单位音频流之间一般是有交叠的,例如,每帧单位音频流的长度为25毫秒,每两帧单位音频流之间有25-10=15毫秒的交叠,称为以帧长25ms、帧移10ms分帧。分帧后,外部语音信息就变成了很多小段单位音频流。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧单位音频流波形变成一个多维向量,可以简单地理解为这个向量包含了这帧单位音频流的内容信息。这个过程叫做声学特征提取。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。接下来就要需要把这个矩阵变成文本了。考虑到语言对文字的影响,在转化前,需要考虑:1)音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。2)状态:可理解成比音素更细致的语音单位。通常把一个音素划分成3个状态。3)时域。外部语音信息的成形是基于时域的,因此,需要分析外部语音信息的播放时域,并将其记录为时间帧。接下来,由三个小步骤进行帧处理:把单位音频流识别成状态;把状态组合成音素;把音素组合成单词。若干单位音频流对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧单位音频流对应哪个状态了,语音识别的结果也就出来了。后利用“声学模型”内存有的一大堆参数,通过这些参数,就可以知道单位音频流和状态对应的概率。获取这一大堆参数的方法叫做“训练”,需要使用巨大数量的语音数据。继而使用隐马尔可夫模型(Hidden Markov Model,HMM),第一步,构建一个状态网络。第二步,从状态网络中寻找与声音最匹配的路径。这样就把结果限制在预先设定的网络中,再通过搭建状态网络,在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。这样基本上便可完成基于时间帧,对多维向量的处理后得到的文字信息。
进一步优选的实施例中,对单位音频流转化为多维向量的步骤还包括:
基于小波变换对单位音频流信号进行处理。具体地,小波变换的应用是基于信号的双通道分解及其级联。在对单位音频流信号的采样满足香农定理Shannon时,会假设其数字频率在0~+π。将此单位音频流信号分别通过一个理想低通滤波器H和一个理想高通滤波器G,那么提取出的单位音频流信号的频谱被分解成了低频部分和的高频部分。低频部分可以认为是单位音频流信号的平滑部分,也可以理解为单位音频流信号的概貌,从函数角度看,它是对单位音频流信号的逼近;而高频部分可以认为是单位音频流信号的细节部分。此处理后的两路输出信号的频带不交叠,两路信号是正交的,即双通道分解处理。经过滤波器H或G后,由于输出信号的带宽均减为x[n]带宽的1/2,采样率降低为原单位音频流信号采样率的1/2而不会丢失信息。为了减少以变换后的数据量,在滤波后需要进行下抽样。下抽样指的是将输入序列每隔一个位置取值一次,组成长度缩短1/2的新序列。
将上述双通道分解处理视为一级处理模块,那么可以将多级处理进行级联,将上一级分解后的低频部分作为下一级单位音频流信号的输入再次经过G和H进行再分解,每一个G和H后都进行二抽取操作。
一般而言,单位音频流信号的精细结构和突变部分主要有高频成分起作用,为了体现小波变换的时间局部化分析,需在高频细节部分时间细分,因而只对每一层的低频部分进行再分解,没有在高频上进行级联分解。
单位音频流信号经小波变换多级分解后,形成了多级、即n层系数的代表音频流信号的多维向量,每层系数均为低频部分和高频部分提取后的向量特征。
最优选地,n层系数的行程可基于小波变换的分解与重构单元完成,主要是基于小波函数与单位音频流信号的卷积,形成上述n层系数。具体地,单位音频流的分解与重构基于小波函数为Morlet小波或Maar小波及其他必要理论:
根据多分辨率理论,得出结论:
其中,Pj f(t):f(t)在Vj中的投影,是f(t)在分辨率j下的平滑逼近。Xn(j):线性组合的权重,也就是f(t)在分辨率j下的平滑逼近的概貌。φjn(t):离散后的正交小波基当j=0时,
因为D1f(t)与φ1k(t)正交,所以<D0f(t),φ1k(t)>=0,所以
其中
<φ0n(t),φ1k(t)〉=h0(n-2k)
代入(2)得
从设计滤波器的角度考虑,设
经过下抽样后,得
将(5)式代入上式,得
类似还可以得到
注:(6)(7)式表现了由V0到V1,W1的分解。
其中分解系数为
<φ1n(t),φ2k(t)〉=<φ0n(t),φ1k(t)〉=h0(n-2k)
需的电路结构不变,且滤波器的系数仍为h0(-k)=h'0(k),h1(-k)=h'1(k),从而可以重复推演下去。
由信号分解中相同的证明,我们可以得到
<φjk(t),φj-1,n(t)〉=<φ1k(t),φ0n(t)〉=h0(n-2k)
其中g0(k)、g1(k)与前面的h0(k)、h1(k)一样,为重构系数。
上述便是实现离散快速小波变换的算法,实现了小波变换的多极分解与小波重构。
将上述转换所获得的文字信息与一歌词数据库比较后,判断该段转换的文字信息与哪首歌曲的歌词匹配,从而确定当前播放资源内所包含的歌曲为何。歌词数据库的建立,可以预设在智能终端内,也可如图3所示实施例中,将该段文字信息上传至一云端服务器,由服务器远程搜索与文字信息匹配的推荐音乐。
最后,获得了推荐音乐后,于智能终端内显示推荐音乐。
参阅图4,在一实施例中,其显示的方法可以是在智能终端内新建一推荐文件夹,从云端服务器处下载推荐音乐,并将下载后的推荐音乐存储到推荐文件夹内,由用户统一规划整理,用户可对推荐文件夹内的所有推荐音乐进行播放试听、删除等操作。
同时,考虑到用户的需求,在一进一步优选的实施例中,下载推荐音乐,并将推荐音乐存储至推荐文件夹内的步骤包括:
在下载推荐音乐的音乐文件的同时,下载与音乐文件关联的音乐信息,音乐信息包括:音乐文件的演唱者、翻唱者、歌词中的一种或多种,存储音乐文件及音乐信息至推荐文件夹,使得用户在收听音乐的同时,可进一步了解该音乐的背后故事。
参阅图5,本发明另一优选实施例中,提供了一种基于智能终端的音乐推荐系统,音乐推荐系统包括智能终端,智能终端包括:
采集模块,采集智能终端内一当前播放资源的音频文件;
提取模块,与采集模块连接,提取音频文件的音频特征,音频特征包括:音频幅值、音频基频或音频流中的一种或多种;
处理模块,与提取模块连接,分别:基于预设于智能终端内的幅值阈值,比较音频幅值及幅值阈值,确定音频特征是否为静音;和基于音频基频确定音频特征是否为音乐;
转换模块,与提取模块链接,转换音频流为一文字信息,将文字信息与一歌词数据库比较以获得与文字信息匹配的推荐音乐;
显示模块,设于智能终端内,显示推荐音乐。
一优选实施例中,智能终端内预设一幅值阈值;处理模块包括:比较单元,将音频幅值与幅值阈值进行比较;验证单元,与比较单元连接,当音频幅值小于幅值阈值时,确定具有音频特征的音频文件为静音文件。
另一优选或可选实施例中,转换模块包括:分帧单元,基于移动窗函数对音频流分帧,形成至少一帧单位音频流;向量转化单元,与分帧单元连接,将每一单位音频流转化为一多维向量;分析单元,分析音频文件的播放时域,记录播放时域的时间帧;解析单元,与分析单元连接,基于时间帧,解析多维向量至文字信息;音乐推荐系统还包括一服务器,智能终端上传文字信息至服务器,由服务器于一歌词数据库内搜索与文字信息匹配的推荐音乐。
另一优选或可选实施例中,音乐推荐系统还包括:下载模块,于智能终端内新建一推荐文件夹,下载推荐音乐,并将推荐音乐存储至推荐文件夹内。
进一步地,下载模块,下载推荐音乐的音乐文件及与音乐文件关联的音乐信息,音乐信息包括:音乐文件的演唱者、翻唱者、歌词中的一种或多种,并存储音乐文件及音乐信息至推荐文件夹。
智能终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的智能终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是智能终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种基于智能终端的音乐推荐方法,其特征在于,包括以下步骤:
采集所述智能终端内一当前播放资源的音频文件;
提取所述音频文件的音频特征,所述音频特征包括:音频幅值、音频基频或音频流中的一种或多种;
基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音;
基于所述音频基频确定所述音频特征是否为音乐;
转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐;
于所述智能终端内显示所述推荐音乐;
其中,转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐的步骤包括:
基于移动窗函数对所述音频流分帧,形成至少一帧单位音频流;
将每一所述单位音频流转化为一多维向量;
分析所述音频文件的播放时域,记录所述播放时域的时间帧;
基于所述时间帧,解析所述多维向量至所述文字信息;
上传所述文字信息至一服务器,由所述服务器于一歌词数据库内搜索与所述文字信息匹配的推荐音乐。
2.如权利要求1所述的音乐推荐方法,其特征在于,
基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音的步骤包括:
于所述智能终端内预设一幅值阈值;
将所述音频幅值与所述幅值阈值进行比较;
当所述音频幅值小于所述幅值阈值时,确定具有所述音频特征的音频文件为静音文件。
3.如权利要求1所述的音乐推荐方法,其特征在于,
所述音乐推荐方法还包括以下步骤:
于所述智能终端内新建一推荐文件夹;
下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内。
4.如权利要求3所述的音乐推荐方法,其特征在于,
下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内的步骤包括:
下载所述推荐音乐的音乐文件及与所述音乐文件关联的音乐信息,所述音乐信息包括:所述音乐文件的演唱者、翻唱者、歌词中的一种或多种;
存储所述音乐文件及音乐信息至所述推荐文件夹。
5.一种基于智能终端的音乐推荐系统,其特征在于,所述音乐推荐系统包括智能终端,所述智能终端包括:
采集模块,采集所述智能终端内一当前播放资源的音频文件;
提取模块,与所述采集模块连接,提取所述音频文件的音频特征,所述音频特征包括:音频幅值、音频基频或音频流中的一种或多种;
处理模块,与所述提取模块连接,分别:
基于预设于所述智能终端内的幅值阈值,比较所述音频幅值及幅值阈值,确定所述音频特征是否为静音;
基于所述音频基频确定所述音频特征是否为音乐;
转换模块,与所述提取模块链接,转换所述音频流为一文字信息,将所述文字信息与一歌词数据库比较以获得与所述文字信息匹配的推荐音乐;
显示模块,设于所述智能终端内,显示所述推荐音乐;
其中,所述转换模块包括:
分帧单元,基于移动窗函数对所述音频流分帧,形成至少一帧单位音频流;
向量转化单元,与所述分帧单元连接,将每一所述单位音频流转化为一多维向量;
分析单元,分析所述音频文件的播放时域,记录所述播放时域的时间帧;
解析单元,与所述分析单元连接,基于所述时间帧,解析所述多维向量至所述文字信息;
所述音乐推荐系统还包括一服务器,所述智能终端上传所述文字信息至所述服务器,由所述服务器于一歌词数据库内搜索与所述文字信息匹配的推荐音乐。
6.如权利要求5所述的音乐推荐系统,其特征在于,
所述智能终端内预设一幅值阈值;
所述处理模块包括:
比较单元,将所述音频幅值与所述幅值阈值进行比较;
验证单元,与所述比较单元连接,当所述音频幅值小于所述幅值阈值时,确定具有所述音频特征的音频文件为静音文件。
7.如权利要求5所述的音乐推荐系统,其特征在于,
所述音乐推荐系统还包括:
下载模块,于所述智能终端内新建一推荐文件夹,下载所述推荐音乐,并将所述推荐音乐存储至所述推荐文件夹内。
8.如权利要求7所述的音乐推荐系统,其特征在于,
所述下载模块,下载所述推荐音乐的音乐文件及与所述音乐文件关联的音乐信息,所述音乐信息包括:所述音乐文件的演唱者、翻唱者、歌词中的一种或多种,并存储所述音乐文件及音乐信息至所述推荐文件夹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445609.XA CN108172241B (zh) | 2017-12-27 | 2017-12-27 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445609.XA CN108172241B (zh) | 2017-12-27 | 2017-12-27 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108172241A CN108172241A (zh) | 2018-06-15 |
CN108172241B true CN108172241B (zh) | 2020-11-17 |
Family
ID=62518345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711445609.XA Active CN108172241B (zh) | 2017-12-27 | 2017-12-27 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108172241B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021127975A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声音采集对象声纹检测方法、装置和设备 |
CN113053403B (zh) * | 2021-03-19 | 2024-05-07 | 北京乐学帮网络技术有限公司 | 一种语音评测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664031A (zh) * | 2011-12-13 | 2012-09-12 | 中华电信股份有限公司 | 具导航特性的音乐推荐系统与方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN103685520A (zh) * | 2013-12-13 | 2014-03-26 | 深圳Tcl新技术有限公司 | 基于语音识别的歌曲推送的方法和装置 |
CN105956014A (zh) * | 2016-04-22 | 2016-09-21 | 成都涂鸦科技有限公司 | 一种基于深度学习的音乐播放方法 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
CN106649713A (zh) * | 2016-12-21 | 2017-05-10 | 中山大学 | 一种基于内容的电影可视化处理方法及其系统 |
CN106776977A (zh) * | 2016-12-06 | 2017-05-31 | 深圳前海勇艺达机器人有限公司 | 搜索音乐的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6998527B2 (en) * | 2002-06-20 | 2006-02-14 | Koninklijke Philips Electronics N.V. | System and method for indexing and summarizing music videos |
WO2014018115A1 (en) * | 2012-07-26 | 2014-01-30 | Changello Enterprise Llc | Ultrasound-based force sensing of inputs |
JP2017530579A (ja) * | 2014-08-14 | 2017-10-12 | レンセラール ポリテクニック インスティチュート | 両耳統合相互相関自己相関メカニズム |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
KR101780644B1 (ko) * | 2016-01-28 | 2017-09-28 | 손지혜 | 주파수 기반의 음악 장르 분류 방법 및 그 장치 |
-
2017
- 2017-12-27 CN CN201711445609.XA patent/CN108172241B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664031A (zh) * | 2011-12-13 | 2012-09-12 | 中华电信股份有限公司 | 具导航特性的音乐推荐系统与方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN103685520A (zh) * | 2013-12-13 | 2014-03-26 | 深圳Tcl新技术有限公司 | 基于语音识别的歌曲推送的方法和装置 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
CN105956014A (zh) * | 2016-04-22 | 2016-09-21 | 成都涂鸦科技有限公司 | 一种基于深度学习的音乐播放方法 |
CN106776977A (zh) * | 2016-12-06 | 2017-05-31 | 深圳前海勇艺达机器人有限公司 | 搜索音乐的方法及装置 |
CN106649713A (zh) * | 2016-12-21 | 2017-05-10 | 中山大学 | 一种基于内容的电影可视化处理方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108172241A (zh) | 2018-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6691090B1 (en) | Speech recognition system including dimensionality reduction of baseband frequency signals | |
Kingsbury et al. | Recognizing reverberant speech with RASTA-PLP | |
US6529866B1 (en) | Speech recognition system and associated methods | |
JP4150798B2 (ja) | デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体 | |
CN111508498B (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
US8438027B2 (en) | Updating standard patterns of words in a voice recognition dictionary | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP2004530153A (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
KR20190005103A (ko) | 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체 | |
CN108172241B (zh) | 一种基于智能终端的音乐推荐方法及音乐推荐系统 | |
Siam et al. | A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification | |
JP2023527473A (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
CN111027675B (zh) | 一种多媒体播放设置自动调节方法及系统 | |
TWI801941B (zh) | 個人化語音轉換系統 | |
WO2023030017A1 (zh) | 音频数据处理方法、装置、设备以及介质 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
US20220208171A1 (en) | Method and apparatus for audio signal processing evaluation | |
CN114333874A (zh) | 处理音频信号的方法 | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
CN115129923B (zh) | 语音搜索方法、设备及存储介质 | |
US20210335364A1 (en) | Computer program, server, terminal, and speech signal processing method | |
Daalache et al. | An efficient distributed speech processing in noisy mobile communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210914 Address after: 200000 floor 3, building 1, Lane 36, Xuelin Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Patentee after: Shanghai Xiaochuan Technology Co.,Ltd. Address before: 201203 Room 301, building 1, No. 433, GuoShouJing Road, Pudong New Area pilot Free Trade Zone, Shanghai Patentee before: SHANGHAI TRANSSION INFORMATION TECHNOLOGY Ltd. |
|
TR01 | Transfer of patent right |