【发明内容】
本发明的多个方面提供一种音频推广信息的处理方法及装置,用以提高音频推广信息的转化率。
本发明的一方面,提供一种音频推广信息的处理方法,包括:
获取音频推广信息的原始音频数据;
根据所述原始音频数据,获得所述音频推广信息的音频特征;
根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征;
根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取音频推广信息的原始音频数据,包括:
实时采集所述原始音频数据;或者
获取所述音频推广信息,对所述音频推广信息进行解码处理,以获得所述原始音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征,包括:
根据所述音频特征,利用预先建立的音频特征与文本特征的对应关系,获得所述音频推广信息的文本特征;和/或
根据所述原始音频数据,采用语音识别技术,获得所述音频推广信息的文本特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况,包括:
计算推广属性特征与所述音频特征和所述文本特征中的至少一项的匹配度,以作为所述音频推广信息的展现得分;
根据所述展现得分,获得所述音频推广信息的展现情况。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推广属性特征包括下列特征中的至少一项:
展现音频推广信息的页面的属性特征;
展现音频推广信息的页面所属网站的属性特征;以及
音频推广信息的推送用户的属性特征。
本发明的另一方面,提供一种音频推广信息的处理装置,包括:
获取单元,用于获取音频推广信息的原始音频数据;
音频单元,用于根据所述原始音频数据,获得所述音频推广信息的音频特征;
映射单元,用于根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征;
展现单元,用于根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于
实时采集所述原始音频数据;或者
获取所述音频推广信息,对所述音频推广信息进行解码处理,以获得所述原始音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述映射单元,具体用于
根据所述音频特征,利用预先建立的音频特征与文本特征的对应关系,获得所述音频推广信息的文本特征;和/或
根据所述原始音频数据,采用语音识别技术,获得所述音频推广信息的文本特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述展现单元,具体用于
计算推广属性特征与所述音频特征和所述文本特征中的至少一项的匹配度,以作为所述音频推广信息的展现得分;以及
根据所述展现得分,获得所述音频推广信息的展现情况。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推广属性特征包括下列特征中的至少一项:
展现音频推广信息的页面的属性特征;
展现音频推广信息的页面所属网站的属性特征;以及
音频推广信息的推送用户的属性特征。
由上述技术方案可知,本发明实施例通过根据所获取的音频推广信息的原始音频数据,获得所述音频推广信息的音频特征,进而根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征,使得能够根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况,由于不再完全依赖音频推广信息的文本内容属性进行音频推广信息的展现,而是考虑音频推广信息的音频特征这一能够更加准确地描述音频推广信息的属性,进行音频推广信息的展现,能够保证音频推广信息的精准展现,从而提高了音频推广信息的转化率。
另外,采用本发明提供的技术方案,无需人工参与,即能实现音频推广信息的自动推送,因此,能够有效提高音频推广信息的推送成本。
另外,采用本发明提供的技术方案,操作简单,因此,能够有效提高音频推广信息的处理的效率。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种音频推广信息的处理方法的流程示意图,如图1所示。
101、获取音频推广信息的原始音频数据。
102、根据所述原始音频数据,获得所述音频推广信息的音频特征。
103、根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征。
104、根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况。
所谓的所述音频推广信息,可以是指一个完整的音频文件,可以预先存储在终端的存储设备中。所述音频推广信息可以包括现有技术中各种编码格式的音频文件,例如,动态图像专家组(Moving Picture Experts Group,MPEG层3(MPEGLayer-3,MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding,AAC)格式音频文件或APE格式音频文件等,本实施例对此不进行特别限定。
在一个具体的实现过程中,所述终端的存储设备可以慢速存储设备,具体可以为计算机系统的硬盘,或者还可以为手机的非运行内存即物理内存,例如,只读存储器(Read-Only Memory,ROM)和内存卡等,本实施例对此不进行特别限定。
在另一个具体的实现过程中,所述终端的存储设备还可以为快速存储设备,具体可以为计算机系统的内存,或者还可以为手机的运行内存即系统内存,例如,随机存储器(Random Access Memory,RAM)等,本实施例对此不进行特别限定。
需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software DevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过根据所获取的音频推广信息的原始音频数据,获得所述音频推广信息的音频特征,进而根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征,使得能够根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况,由于不再完全依赖音频推广信息的文本内容属性进行音频推广信息的展现,而是考虑音频推广信息的音频特征这一能够更加准确地描述音频推广信息的属性,进行音频推广信息的展现,能够保证音频推广信息的精准展现,从而提高了音频推广信息的转化率。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以实时采集所述原始音频数据。
具体地,具体可以采集音频推广信息的声音信号,然后,将所述声音信号转换为原始音频数据。例如,对所述声音信号进行抽样、量化和编码处理,以获得脉冲编码调制(Pulse Code Modulation,PCM)数据。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述音频推广信息,对所述音频推广信息进行解码处理,以获得所述原始音频数据。
在一个具体的实现过程中,具体可以通过对所述音频推广信息的数据块进行解码处理,获得所述原始音频数据。所谓的原始音频数据,是由对音频信号转换而来的数字信号,例如,对所述音频信号进行抽样、量化和编码处理,以获得PCM数据。解码处理的详细描述可以参见现有技术中的相关内容,此处不再赘述。
本实施例中,通过执行101,所获得的所述原始音频数据,可以为一个声道所对应的原始音频数据,如果音频推广信息存在多个声道,具体可以对每个声道所对应的原始音频数据,都分别执行后续的处理流程即102~104。
在一个具体的实现过程中,具体可以确定所述音频推广信息的声道数目,以及对所述音频推广信息的数据块进行解码处理,以获得原始音频数据。然后,则可以根据所述声道数目和所述原始音频数据,获得每个声道所对应的原始音频数据。
例如,具体可以对所述音频推广信息的帧头进行解析处理,以确定所述音频推广信息的声道数目。
或者再例如,具体可以对所述音频推广信息的文件头进行解析处理,以确定所述音频推广信息的声道数目。
或者再例如,具体可以对音频推广信息的其他部分进行解析处理,以确定所述音频推广信息的声道数目,本实施例对此不进行特别限定。
或者再例如,具体还可以从配置文件中,获得所述音频推广信息的声道数目。
可以理解的是,“确定所述音频推广信息的声道数目”,以及“对所述音频推广信息的数据块进行解码处理,以获得原始音频数据”的两个步骤,没有固定顺序,所述处理装置可以先执行“确定所述音频推广信息的声道数目”的步骤,再执行“对所述音频推广信息的数据块进行解码处理,以获得原始音频数据”的步骤,或者还可以先执行“对所述音频推广信息的数据块进行解码处理,以获得原始音频数据”的步骤,再执行“确定所述音频推广信息的声道数目”的步骤,或者还可以同时执行这两个步骤,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以对所述原始音频数据进行分帧处理,以获得至少一帧数据,进而对至少一帧数据中每帧数据进行音频分析处理,以获得每帧数据的音频特征。
在一个具体的实现过程中,可以对所述原始音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得所述原始音频数据的至少一帧数据。
在另一个具体的实现过程中,所述音频特征可以包括但不限于所述原始音频数据的时域音频特征和所述原始音频数据的频域音频特征中的至少一项,本实施例对此不进行特别限定。
所述原始音频数据的时域音频特征,可以包括以下参数中的至少一项:
时域波形、强度、过零率、线性预测(Linear Prediction Coding,LPC)系数、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或感知线性预测(Perceptual LinearPredictive,PLP)系数、节拍、音调、以及调性。
所述原始音频数据的频域音频特征,可以包括但不限于原始音频数据的频谱信息。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述音频特征,利用预先建立的音频特征与文本特征的对应关系,获得所述音频推广信息的文本特征。
所谓的文本特征,具体可以为一切能够描述音频推广信息的描述内容,例如,音频推广信息的节奏快、音频推广信息的节奏慢、音频推广信息的音质高、音频推广信息的音质低等。
所谓的音频推广信息的音质,是指经过压缩处理之后的原始音频数据的保真度。高音质的音频文件,能够完全恢复原始音频数据,而不引起任何失真;而低音质的音频文件,则不能够完全恢复原始音频数据,而引起部分失真。
在一个具体的实现过程中,可以预先设置一个节拍阈值,例如,100下每分钟(BeatPer Minute,BPM),以作为音频特征与文本特征的对应关系的表现形式。若所获得的节拍小于或等于该节拍阈值,则可以映射为用于指示舒缓的文本特征,反之,若所获得的节拍大于该节拍阈值,则可以映射为用于指示欢快的文本特征。
在另一个具体的实现过程中,还可以预先设置时域波形无削波失真与用于指示高音质的文本特征,以及时域波形有削波失真与用于指示低音质的文本特征。若所获得的时域波形无削波失真,则可以映射为用于指示高音质的文本特征,反之,若所获得的时域波形有削波失真,则可以映射为用于指示低音质的文本特征。
在另一个具体的实现过程中,具体可以采用预先指定的训练样本集,进行训练,以构建学习模型,该学习模型用于描述音频特征与文本特征的对应关系。其中,训练样本集中所包含的训练样本,可以为经过标注的已知样本,这样,可以直接利用这些已知样本进行训练,以构建学习模型;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始学习模型,然后,再利用初始学习模型对未知样本进行评测,以获得识别结果,进而则可以根据未知样本的识别结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的学习模型,直到所构建的学习模型或已知样本满足学习模型的截止条件为止,如识别准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述原始音频数据,采用语音识别技术,获得所述音频推广信息的文本特征。
具体的语音识别技术,可以采用现有的任何技术,只要能够识别出特定关键词,以作为所述音频推广信息的文本特征都可以,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述音频特征,利用预先建立的音频特征与文本特征的对应关系,获得所述音频推广信息的文本特征,以及根据所述原始音频数据,采用语音识别技术,获得所述音频推广信息的文本特征。
具体地,具体可以采用上述两个实现方式中的技术方案进行有机结合,获得所述音频推广信息的文本特征。详细描述可以分别参考上述两个实现方式中的相关描述,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在104中,具体可以计算推广属性特征与所述音频特征和所述文本特征中的至少一项的匹配度,以作为所述音频推广信息的展现得分,进而,则可以根据所述展现得分,获得所述音频推广信息的展现情况。
其中,所谓的推广属性特征,可以由本次推广的主题模型进行描述。主题模型,顾名思义,就是对文本、音频等内容中隐含主题的一种建模方法。例如,“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。具体来说,所述推广属性特征可以包括但不限于下列特征中的至少一项:
展现音频推广信息的页面的属性特征,如购物页面、游戏页面、新闻页面等;
展现音频推广信息的页面所属网站的属性特征,如购物网站、游戏网站、新闻网站等;以及
音频推广信息的推送用户的属性特征,如青少年、老年人等。
众所周知,基于互联网的推广信息,是互联网行业最主要的赢利模式,流量变现成为互联网商业产品非常重要的评价标准。具体地,以广告为例,这个评价标准具体可以采用实时竞价(Real Time Bidding,RTB)模式,跟传统购买形式相比,RTB是一种利用第三方技术在数以百万计的网站上针对每一个广告展示曝光进行评估以及出价的竞价技术。因此,在计算匹配度时,除了需要考虑音频推广信息的音频特征以及文本特征之外,还需要进一步音频推广信息的出价。
本实施例中,通过根据所获取的音频推广信息的原始音频数据,获得所述音频推广信息的音频特征,进而根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征,使得能够根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况,由于不再完全依赖音频推广信息的文本内容属性进行音频推广信息的展现,而是考虑音频推广信息的音频特征这一能够更加准确地描述音频推广信息的属性,进行音频推广信息的展现,能够保证音频推广信息的精准展现,从而提高了音频推广信息的转化率。
另外,采用本发明提供的技术方案,无需人工参与,即能实现音频推广信息的自动推送,因此,能够有效提高音频推广信息的推送成本。
另外,采用本发明提供的技术方案,操作简单,因此,能够有效提高音频推广信息的处理的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的音频推广信息的处理装置的结构示意图,如图2所示。本实施例的音频推广信息的处理装置可以包括获取单元21、音频单元22、映射单元23和展现单元24。其中,获取单元21,用于获取音频推广信息的原始音频数据;音频单元22,用于根据所述原始音频数据,获得所述音频推广信息的音频特征;映射单元23,用于根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征;展现单元24,用于根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况。
需要说明的是,本实施例所提供的音频推广信息的处理装置的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述获取单元21,具体可以用于实时采集所述原始音频数据。
可选地,在本实施例的一个可能的实现方式中,所述获取单元21,具体可以用于获取所述音频推广信息,对所述音频推广信息进行解码处理,以获得所述原始音频数据。
可选地,在本实施例的一个可能的实现方式中,所述映射单元23,具体可以用于根据所述音频特征,利用预先建立的音频特征与文本特征的对应关系,获得所述音频推广信息的文本特征;和/或根据所述原始音频数据,采用语音识别技术,获得所述音频推广信息的文本特征。
可选地,在本实施例的一个可能的实现方式中,所述展现单元24,具体可以用于计算推广属性特征与所述音频特征和所述文本特征中的至少一项的匹配度,以作为所述音频推广信息的展现得分;以及根据所述展现得分,获得所述音频推广信息的展现情况。
具体来说,所述推广属性特征可以包括但不限于下列特征中的至少一项:
展现音频推广信息的页面的属性特征,如购物页面、游戏页面、新闻页面等;
展现音频推广信息的页面所属网站的属性特征,如购物网站、游戏网站、新闻网站等;以及
音频推广信息的推送用户的属性特征,如青少年、老年人等。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的音频推广信息的处理装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过音频单元根据获取单元所获取的音频推广信息的原始音频数据,获得所述音频推广信息的音频特征,进而由映射单元根据所述原始音频数据和所述音频特征中的至少一项,获得所述音频推广信息的文本特征,使得展现单元能够根据所述音频特征和所述文本特征中的至少一项,获得所述音频推广信息的展现情况,由于不再完全依赖音频推广信息的文本内容属性进行音频推广信息的展现,而是考虑音频推广信息的音频特征这一能够更加准确地描述音频推广信息的属性,进行音频推广信息的展现,能够保证音频推广信息的精准展现,从而提高了音频推广信息的转化率。
另外,采用本发明提供的技术方案,无需人工参与,即能实现音频推广信息的自动推送,因此,能够有效提高音频推广信息的推送成本。
另外,采用本发明提供的技术方案,操作简单,因此,能够有效提高音频推广信息的处理的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,音频处理引擎,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。