CN103493126B - 音频数据分析系统和方法 - Google Patents

音频数据分析系统和方法 Download PDF

Info

Publication number
CN103493126B
CN103493126B CN201080070350.5A CN201080070350A CN103493126B CN 103493126 B CN103493126 B CN 103493126B CN 201080070350 A CN201080070350 A CN 201080070350A CN 103493126 B CN103493126 B CN 103493126B
Authority
CN
China
Prior art keywords
user
frequency spectrum
grade
spectrum data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080070350.5A
Other languages
English (en)
Other versions
CN103493126A (zh
Inventor
刘青焱
李强
O.伦德斯特伦
麦兴隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ericsson China Communications Co Ltd
Original Assignee
Ericsson China Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson China Communications Co Ltd filed Critical Ericsson China Communications Co Ltd
Publication of CN103493126A publication Critical patent/CN103493126A/zh
Application granted granted Critical
Publication of CN103493126B publication Critical patent/CN103493126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供一种用于与用户相关的音频数据的分析系统和方法,以便可以基于分析结果将用户分类为具有假设的概率的多个等级中的一个等级。分析系统包括:音频变换器(110),适应于将与用户相关的音频数据变换为频谱数据;样式识别器(120),适应于将频谱数据分解为预定特征向量以获得频谱数据的分解样式;评分器(130),适应于基于频谱数据的分解样式和用户的属性而使用所训练的模型来计算与用户相关的多个等级的假设得分。

Description

音频数据分析系统和方法
技术领域
本发明涉及音频分析技术领域,特别涉及用于分析例如用户的呼叫者回铃音等与用户相关的音频数据以便可以基于分析结果来分类用户的分析系统和方法。本发明还涉及用于实现音频分析系统和方法的计算机程序和计算机程序产品。
背景技术
电话营销是销售人员试着拨打并恳求预期消费者购买产品或服务的直接营销方法。很多B2B或B2C公司大量利用这样的方法。
传统的电话营销系统可为销售人员提供从例如CRM(消费者关系管理)系统或EDW(企业数据库)系统等支持系统所检索的消费者的背景信息,以便当销售人员与消费者对话时,可以用消费者的背景信息来帮助销售人员。
然而,传统的电话营销系统通常具有下文的主要缺点:
(1)缺少个性化:支持系统仅可提供例如消费者的名字、电话号码、电子邮件等最简单的消费者信息。因此,销售人员不能为不同消费者找出个性化的策略;以及
(2)缺少在线成绩改进循环:因为支持系统仅提供最简单的消费者信息,所以销售人员在呼叫的循环期间不能改进他的成绩。
可以发现传统的电话营销系统的主要缺点主要起因于支持系统的简单的功能。为了改进电话营销效率和成绩,支持系统应提供增强的消费者信息。
CRBT(呼叫者回铃音)是RBT(回铃音)的个性化型式。RBT是在拨打后和呼叫在接收端被接听前由呼叫方在电话线路上所听到的歌曲或声音。现在,越来越多的人个性化他们的RBT以提供CRBT。
因此,与传统的电话营销系统关联的一个问题是支持系统仅能提供简单的消费者信息。
发明内容
本发明的目标是在电话营销系统中增加个性化数据。
根据本发明的一方面,采用一种分析系统的帮助来实现此目标,该分析系统用于分析与用户相关的音频数据以便可以基于分析结果将用户分类为具有假设的概率的多个等级中的一个等级。分析系统包括音频变换器,适应于将与用户相关的音频数据变换为频谱数据;样式识别器,适应于将所述频谱数据分解为预定特征向量以获得频谱数据的分解样式;以及评分器,适应于基于频谱数据的分解样式和用户的属性使用所训练的模型来计算与用户相关的多个等级的假设得分。
可选地,在本发明的分析系统中,评分器将用户归类于在所有多个等级中具有最高假设得分的等级。与用户关联的假设的等级可用于例如电话营销系统等某个应用以用更多个性化的用户信息帮助销售人员,以便可改善电话营销效率和成绩。
可选地,本发明的分析系统包括训练器,适应于基于至少一个历史项目来训练所训练的模型,每个历史项目包括对应于历史用户的历史音频数据的频谱数据的分解样式、历史用户的属性以及用于历史用户的多个等级中的一个等级的实际得分,以及训练器基于历史项目和包括频谱数据的分解样式、用户的属性以及多个等级中的实际等级的实际得分的新项目来保持所训练的模型。通过使用历史项目和实际结果持续训练所训练的模型,改进了由评分器使用所训练的模型所计算的假设结果的准确性。
可选地,在本发明的分析系统中,评分器基于朴素贝叶斯分类器,并且多个等级的假设得分是在频谱数据的分解样式和用户的属性上的多个等级的后验概率。
可选地,本发明的分析系统包括:音频数据库,用于存储与各用户相关的音频数据;频谱数据库,用于存储从存储于音频数据库中的音频数据所变换的频谱;以及特征向量生成器,适应于使用主成分分析法处理频谱数据库中的频谱以生成预定特征向量。
可选地,在本发明的分析系统中,要分析的音频数据包括用户的呼叫者回铃音(CRBT),这是因为在电信系统中CRBT是通常使用的用户的个性化音调,当本发明的分析系统用于电话营销系统时分析用户的CRBT尤其有用。
根据本发明的另一方面,此目标由一种分析方法来实现,该分析方法用于分析与用户相关的音频数据以便可以基于分析结果将用户分类为具有假设的概率的多个等级中的一个等级。分析方法包括下文的步骤:将与用户相关的音频数据变换为频谱数据;将所述频谱数据分解为预定特征向量以获得频谱数据的分解样式;以及基于频谱数据的分解样式和用户的属性使用所训练的模型来计算与用户相关的多个等级的假设得分。
可选地,本发明的分析方法包括将用户归类于在所有多个等级中具有最高假设得分的等级的步骤。
可选地,本发明的分析方法包括基于历史项目训练所训练的模型的步骤,每个历史项目包括对应于历史用户的历史音频数据的频谱数据的分解样式、历史用户的属性以及用于历史用户的多个等级中的一个等级的实际得分,以及基于历史项目和包括频谱数据的分解样式、用户的属性以及多个等级中的实际等级的实际得分的新项目来保持所训练的模型的步骤。
可选地,在本发明的分析方法中,计算多个等级的假设得分的步骤基于朴素贝叶斯分类器,以及多个等级的假设得分是在频谱数据的分解样式和用户的属性上的多个等级的后验概率。
可选地,本发明的分析方法包括将存储于音频数据库的与各用户相关的音频数据变换为对应频谱的步骤,以及使用主成分分析法处理对应频谱以生成预定特征向量的步骤。
可选地,在本发明的分析方法中,与用户相关的音频包括用户的呼叫者回铃音。
根据本发明的另一方面,提供一种电话营销系统,包括本发明的分析系统以分析与电话营销系统的客户相关的音频。
根据本发明的另一方面,提供一种计算机程序,包括计算机可读代码,当在应用服务器上运行该计算机可读代码时,使应用服务器执行根据以上描述的实施例中的任一个的分析方法,并且还提供一种计算机可读介质,其中在该计算机可读代码上存储有计算机程序。
附图说明
当与附图一起阅读时本发明的目标、优点和效果以及特征将从本发明的实施例的以下详细描述而更容易理解,附图中:
图1图示根据本发明的实施例的用于分析与用户相关的音频数据的分析系统;
图2示出根据本发明的实施例的用于分析与用户相关的音频数据的分析方法的流程图;
图3示出根据本发明的实施例的用于生成预定特征向量的分析方法的图2的流程图的一部分;
图4示出根据本发明的实施例的使用分析系统的电话营销系统;
图5示出图示用于实现本发明的实施例的服务器的框图;以及
图6示出容纳或承载用于由服务器使用的程序代码的存储器单元的示意图。
具体实施方式
在附图中示出并将在下文中详细描述本发明的实施例,尽管本发明覆盖各种修改和备选构造。然而,应该理解,具体描述和附图并不旨在将本发明限制为所公开的具体形式。相反,旨在要求保护的发明的范围包括落入如所附的权利要求中所表达的本发明的范围的其所有修改和备选构造。
图l图示根据本发明的实施例的用于分析与用户相关的音频数据的说明分析系统100。如图1所示,分析系统100包括适应于将与用户相关的音频数据变换为频谱数据的音频变换器110。与用户相关的音频数据可以是任何用户特定音频数据,例如是由电信系统中的用户个性化的呼叫者回铃音、由用户说的某东西或可以由用户个性化以反映用户的兴趣或特性的任何其它音频数据。由音频变换器110接收的音频数据通常采用数字形式,并存在可由音频变换器110使用以将音频数据变换为频谱范围的很多方式。根据实施例,在音频变换器110中采用FFT(快速傅里叶变换)以将音频数据变换为频谱数据。应该注意到FFT仅仅是示例,能将值变换为频谱范围的任何技术可用于本发明中。例如,STE(短时间能量)、MFCC(Mel频率倒谱系数)、LPC(线性预测系数)等中的任一个也可用于变换音频数据。
分析系统100还包括适应于从音频变换器获得频谱数据的分解样式的样式识别器120。根据本发明的实施例,样式识别器120通过将频谱数据分解为预定特征向量来获得频谱数据的分解样式。预定特征向量可以从多个现存的音频数据导出,其将在下文描述中详细描述。假设预定特征向量可以表示为:
(1)
频谱数据可以分解如下:
(2)
其中是分解因数并且频谱数据的分解样式可以是:
。(3)
即,通过将频谱数据分解为特征向量的组分,得到的分解因数可以记录为频谱数据的分解样式。
分析系统100还包括评分器130,该评分器130适应于基于由样式识别器120所获得的分解样式和用户的背景信息使用所训练的模型来计算与用户相关的多个等级的假设得分。
与用户相关的等级可取决于分析系统100所应用的应用而变化。例如,在分析系统用于分析用户购买产品的意愿的情况下,等级可包括具有同意购买Caccept属性的等级以及具有拒绝购买Creject属性的等级。在分析系统用于分析用户升级某个拥有的服务的意愿的情况下,等级可包括具有同意升级Caccept属性的等级以及具有拒绝升级Creject属性的等级。应该注意到,等级的数量不限于两个,并且可使用多于两个等级,例如,在分析系统用于分析如上所述的用户购买产品的意愿的情况下,等级可包括多于两个等级,例如包括具有同意购买Caccept属性的等级、具有同意尝试Ctry属性的等级、具有通过延迟而拒绝Cdelay属性的等级以及具有拒绝购买Creject属性的等级。那些等级反映用户的偏好,其可与用户的个性化信息(例如由用户个性化的音频数据)具有某种内在关联。多个等级的假设得分表示用户被分类为由评分器130所计算的那些等级中的一个等级的概率。
根据实施例,评分器130可以利用机器学习的概率性方法来计算与用户相关的多个等级的假设得分,即,所训练的模型可以是用于机器学习的概率性方法的概率模型。下文的描述将以朴素贝叶斯分类器作为由评分器130所使用的概率性方法作为示例,然而,应该注意到,本申请不限于朴素贝叶斯分类器,其它机器学习中的概率性方法也可应用于本申请,例如SVM(支持向量机)。
在朴素贝叶斯分类器中,有定义的特征的向量,。向量的特征可能是频谱数据的分解样式和用户的背景信息。用于等级C的向量的假设得分定义为在特征的向量上的等级C的后验概率:
。(4)
基于中的独立性的假设,假设得分可以表示如下:
,(5)
其中Z是仅取决于的缩放因数,其对所有等级是常数值并且当为每个等级C计算得分时可以忽略;p(C)是等级C的概率;以及p(Fi|C)表示当等级C出现时特征Fi存在的概率。应该注意到p(C)和p(Fi|C)两者都是由所训练的模型已知的先验概率。
除了通过使用例如上述式子(5)等机器学习的概率性方法来计算每个等级的假设得分以外,可选地,评分器130还能将用户归类于在所有多个等级中具有最高假设得分的建议等级。在采用朴素贝叶斯分类器的实施例中,可以作为具有最高得分scoreC的等级c来计算建议等级C(classsuggest):
(6)
用户的背景信息可以从例如CRM(消费者关系管理)系统或EDW(企业数据库)系统等某个传统的支持系统检索,并且背景信息可包括年龄、性别、城市等用户信息。
可选地,用户的背景信息可以是描述性的(例如关于用户的性别的“男性”或“女性”),其不能直接用于要求某个数字值的评分器130中,分析系统100还包括适应于将用户的背景信息转换为数字值的属性标准化器150。例如,关于用户的性别,“男性”可以转换为值1以及“女性”可以转换为值0。根据本发明的实施例,属性标准化器150可将用户的背景信息转换为范围为从0到1的数字值,以便评分器130可在操作期间容易地使用背景信息的向量。
在分析系统100中由训练器140基于历史项目训练由评分器130所使用的所训练的模型。每个历史项目对应于与由分析系统100在以前分析的历史用户相关的历史音频数据,其可包括对应历史音频数据的频谱数据的分解样式、历史用户的属性以及历史用户的多个等级中的一个等级的实际得分。在由分析系统100提供的假设得分用于各种应用中之后,那些应用的用户可向分析系统100提供等级的实际得分。训练器140可使用机器学习的概率性方法领域中已知的任何方法来基于历史项目训练所训练的模型。根据本发明的实施例,假设所训练的模型可以是例如具有一些要确定的参数的正态、对数正态、伽玛和泊松密度函数模型等预定模型,并且训练方法涉及使用已知历史项目以通过任何已知逼近方法来计算那些参数,以便所训练的模型可最准确地反映那些历史项目。
可选地,分析系统100还包括历史DB存储160以存储历史项目。训练器140可采用持续方式来训练所训练的模型,即,当由分析系统100分析用户的新音频数据时,训练器140可使用包括对应于新音频数据的频谱数据的分解样式、用户的背景信息和等级的实际得分的新项目以及历史项目来保持所训练的模型。通过持续地使用实践结果保持所训练的模型,基于所训练的模型的评分器130能提供越来越准确的结果。
如以上所描述的,预定特征向量可以从多个已存在的音频数据中导出。为了导出预定特征向量,可选地,分析系统100还包括:存储与各用户相关的大量音频数据的音频存储170;存储从存储于音频存储中的音频数据所变换的频谱数据的频谱存储180;以及适应于处理频谱存储180中的频谱以生成预定特征向量的特征向量生成器190。存储于音频存储170中的音频数据可以采用数字形式,并且类似于音频变换器的操作,音频数据可以使用任何已知方法(例如FFT、STE、MFCC以及LPC)变换到频谱域并在频谱存储180中存储作为频谱数据。根据应用的实施例,特征向量生成器190使用主成分分析(PCA)法从存储在频谱存储180上的频谱数据导出预定特征向量,然而,可从作为基础的频谱数据导出预定特征向量的任何方法在本申请的保护范围内也可以是可应用的。
通过使用分析系统100,用户特定音频数据或由用户个性化的音频数据可用于特性化除了普通的用户背景信息以外的用户的偏好。那些音频数据可反映用户的某个特性并可与用户的偏好具有某种隐含的关联,本发明的分析系统100提供了操作(leverage)那些用户音频数据的新的方式,并可使用于各种应用用于帮助找出用户的偏好。
图2示出根据本发明的实施例的用于分析与用户相关的音频数据的分析方法200的流程图。分析方法200可以由本发明的分析系统100来执行。分析方法200开始于步骤S210,其中与用户相关的音频数据被变换为频谱数据。与用户相关的音频数据可以是任何用户特定音频数据,例如可以是在电信系统中由用户个性化的呼叫者回铃音、由用户说的某个东西或可以由用户个性化以反映用户的兴趣或特性的任何其它音频数据。在步骤S210中,存在可用于将音频数据变换为频谱域的很多方式。根据本发明的实施例,可采用FFT(快速傅里叶变换)以将音频数据变换为频谱数据。应该注意到其它技术(例如STE、MFCC和LPC中的任一个)也可用于变换音频数据。可选地,步骤S210的过程可由分析系统100的音频变换器110来执行。
然后方法200前进到步骤S220,其中将在步骤S210中所获得的频谱数据分解为预定特征向量以获得频谱数据的分解样式。从多个已存在的音频数据导出预定特征向量,并且用于导出预定特征向量的步骤将结合图3在下文描述。根据本发明的实施例,频谱数据的分解样式可以根据结合如上所述的式子(1)-(3)的描述而获得。可选地,步骤S220的过程可由分析系统100的样式识别器120来执行。
基于在步骤S220中所获得的频谱数据的分解样式以及可以从例如CRM(消费者关系管理)系统或EDW(企业数据库)系统等某个传统的支持系统检索到的用户的背景信息,在步骤S230中,使用所训练的模型来计算与用户相关的多个等级的假设得分。如以前所描述的,根据本发明的实施例,机器学习的概率性方法可在步骤S230中使用,并且所训练的模型可以是用于机器学习的概率性方法的概率模型。还可以基于上述朴素贝叶斯分类器来计算多个等级的假设得分。可选地,步骤S230的过程可由分析系统100的评分器130来执行。
此外,在已经在步骤S230中计算出多个等级的假设得分之后,分析方法还可包括步骤S240以将用户归类于所有多个等级中的具有最高假设得分的等级。步骤S240还可由分析系统100的评分器130来执行。
可选地,在已经在步骤S230中使用用户的背景信息以计算多个等级的假设得分之前,方法还包括用于将用户的背景信息转换为数字值(尤其是其范围为从0到1)的步骤,该步骤可由分析系统100的标准化器150来执行,以便这样的背景信息可以容易地在步骤S230中使用。
可选地,所训练的模型应该在使用于步骤S230之前被训练,所训练的模型可以基于历史项目来训练。每个历史项目对应于通过分析方法在以前分析的音频数据,其可包括对应于历史用户的历史音频数据的频谱数据的分解样式、历史用户的属性以及历史用户的多个等级中的一个等级的实际得分。本发明的分析方法还包括用于基于历史项目使用机器学习的概率性方法领域中已知的任何方法来训练所训练的模型的步骤。
此外,所训练的模型应该以持续的方式来训练,即,当由分析方法分析用户的新音频数据时,分析方法还包括用于使用包括对应于新音频数据的频谱数据的分解样式、用户的背景信息和等级的实际得分的新项目以及历史项目来保持所训练的模型的方法步骤。通过使用实践结果持续地保持所训练的模型,所训练的模型可提供更准确的结果。可选地,用于训练和保持所训练的模型的方法步骤可由分析系统100的训练器140来执行。
如上所述,预定特征向量可以从多个已存在的音频数据中导出。图3示出根据本发明的实施例的用于生成预定特征向量的图2的分析方法的步骤S220的流程图。在步骤S310中,使用任何用于将数字信号变换为频谱域的已知方法(例如FFT)将可存储于分析系统100的音频存储170中的多个音频数据变换为频谱数据。频谱数据可存储于分析系统100的频谱存储180中。然后在步骤S320中,处理在步骤S310中所获得的频谱数据以生成预定特征向量。根据本申请的实施例,使用主成分分析(PCA)法从频谱数据中导出预定特征向量,然而,可从作为基础的频谱数据导出预定特征向量的任何方法在本申请的保护范围内也可以是可应用的。
根据本发明的分析方法,用户特定音频数据或由用户个性化的音频数据可用于特性化用户的除了普通的用户背景信息以外的偏好。那些音频数据可反映用户的某个特性并可与用户的偏好具有某种隐含的关联,本发明的分析方法提供了用于操作那些用户的音频数据的新方式,并可使用于各种应用用于帮助找出用户的偏好。
图4示出根据本发明的实施例的使用分析系统的电话营销系统400。电话营销系统400包括电话营销控制器410和根据本发明的实施例的分析系统420。如图4所示,电话营销系统400的销售人员440可经由电话营销控制器410从例如CRM(消费者关系管理)系统或EDW(企业数据库)系统等支持系统430中选择消费者450,并且然后拨打所选择的消费者。然后消费者的CRBT将记录于电话营销控制器410。电话营销控制器410将消费者的CRBT以及来自支持系统430的其它背景信息发送到分析系统420。分析系统420将立即开始分析CRBT和背景信息以输出评分结果。当对消费者450进行电话营销时,销售人员440可立即获得评分结果以供早期反馈以做决定以及采取合适的措施。在电话营销后,销售人员440可提供销售结果(即实际得分)到电话营销控制器410,并且电话营销控制器410将这样的实际得分发送给分析系统420,以便此实际得分和对应CRBT以及用户的背景信息可用于保持由分析系统420的评分器使用的所训练的模型并且可作为历史项目而存储到分析系统420的历史DB存储中。
使用本申请的分析系统,电话营销系统将具有下文的好处,即分析系统可帮助销售人员作出个性化的决定并基于早期分析结果为呼叫做出更好的准备以及可以为每个电话营销尝试保持并持续地改进所训练的模型,这又帮助销售人员获得成绩提高并提升他的效率。
应该注意到,在分析系统100中,取决于要实现的功能而在逻辑上划分其中的部件,但是本发明不限于此,可以取决于要求而重新划分或组合分析系统100中的相应部件,例如,一些部件可以组合为单个部件,或一些部件可以进一步划分为更多的子部件。
本发明的实施例可以采用硬件或作为运行在一个或多个处理器上的软件模块或采用其组合来实现。即,本领域技术人员将意识到,例如专用集成电路(ASIC)或数字信号处理器(DSP)等具体硬件电路可用于实践以实现根据本发明的实施例的分析系统100的所有部件的一些或所有的功能性。分析系统100的部件的一些或所有功能性可备选地通过与例如计算机程序结合的应用服务器的微处理器来实现,当该计算机程序运行在微处理器上时,该计算机程序使应用服务器执行例如如上所述的分析方法的步骤。本发明还可实施为用于执行任何本文所描述的方法的部分或全部的一个或多个装置或器件程序(例如计算机程序和计算机程序产品)。实施本发明的这样的程序可以存储在计算机可读介质上,或可以例如采用一个或多个信号的形式。这样的信号可以是从因特网网站可下载的数据信号,或在载波信号上提供,或采用任何其它形式。
例如,图5示出服务器(例如应用服务器),其可实现本申请的实施例,服务器以传统方式可包括处理器510和采用存储器520的形式的计算机程序产品/计算机可读介质。存储器520可以是电子存储器,例如可以是闪速存储器、EEPROM(电可擦除可编程只读存储器)、EPROM(可擦除可编程只读存储器)、硬盘或ROM。存储器520可具有程序代码空间530,该程序代码用于执行以上描述的任何方法步骤。例如,程序代码空间530可包括用于如以前在步骤S210中描述的将与用户相关的音频数据变换为频谱数据的程序531,用于如以前在步骤S220中描述的将频谱数据分解为预定特征向量以获得频谱数据的分解样式的程序532,用于如以前在步骤S230中描述的使用所训练的模型计算与用户相关的多个等级的假设得分的程序533,以及用于如以前在步骤S240中描述的将用户归类于所有多个等级中具有最高假设得分的等级的程序534。程序代码可已经写入一个或多个计算机程序产品,并可以或已经从一个或多个计算机程序产品读出,该计算机程序产品(即程序代码载体)例如可以是硬盘、压缩盘(CD)、存储器卡或软盘。这样的计算机程序产品通常是可以是如在图6中所图示的便携式或固定式的存储器单元。其可具有大体上如在图5的服务器的存储器520中地安排的存储器段、存储器元件和存储器空间。例如可以采用合适的方式来压缩程序代码。一般而言,存储器单元因此包括计算机可读代码,即可由电子处理器(例如510)读取的代码,其当由服务器运行时使服务器执行用于执行服务器根据以上描述进行的一个或多个过程或过程步骤的步骤。
应该注意到前述实施例用于说明本发明而不是限制本发明,可以由本领域技术人员设计替代实施例而不背离所附权利要求的范围。词语“包括”不排除存在但没有在权利要求中列出的元件或步骤。元件前面的词语“一”不排除多个这样的元件的存在。本发明可以利用包括若干不同元件的硬件或利用合适地编程的计算机来实现。在列出若干组件的单元权利要求中,这些组件中的若干个可以具体地实施于相同的硬件项目中。这样的词语(如第一、第二、第三)的使用不表示任何顺序,其可简单地解释为名称。

Claims (30)

1.一种用于分析与用户相关的音频数据的分析系统,包括:
音频变换器,适应于将所述音频数据变换为频谱数据;
样式识别器,适应于将所述频谱数据分解为预定特征向量以获得所述频谱数据的分解样式;以及
评分器,适应于基于所述频谱数据的所述分解样式和所述用户的属性而使用所训练的模型来计算与所述用户相关的多个等级的假设得分。
2.根据权利要求1所述的音频分析系统,其中所述评分器适应于将所述用户归类于在所有多个等级中具有最高假设得分的等级。
3.根据权利要求1或2所述的音频分析系统,还包括:
训练器,适应于基于至少一个历史项目来训练所述所训练的模型,每个历史项目包括对应于历史用户的历史音频数据的频谱数据的分解样式、所述历史用户的属性以及用于所述历史用户的所述多个等级中的一个等级的实际得分。
4.根据权利要求3所述的音频分析系统,其中所述训练器适应于基于所述历史项目和新项目来保持所述所训练的模型,所述新项目包括所述频谱数据的分解样式、所述用户的属性以及所述多个等级中的实际等级的实际得分。
5.根据权利要求1或2所述的音频分析系统,其中所述评分器基于朴素贝叶斯分类器,并且所述多个等级的假设得分是所述频谱数据的分解样式和所述用户的属性上的多个等级的后验概率。
6.根据权利要求1或2所述的音频分析系统,还包括:
音频数据库,存储与各用户相关的音频数据;
频谱数据库,存储从存储于所述音频数据库中的所述音频数据所变换的频谱;以及
特征向量生成器,适应于使用主成分分析法处理所述频谱数据库中的频谱以生成预定特征向量。
7.根据权利要求1或2所述的音频分析系统,其中所述频谱数据的分解样式是所述预定特征向量的分解因数。
8.根据权利要求1或2所述的音频分析系统,包括:
属性标准化器,适应于将所述用户的属性转换成范围是从0到1的数字值,所述数字值包括端点0和1。
9.根据权利要求1或2所述的音频分析系统,其中所述用户的属性包括与所述用户相关的年龄、性别、城市中的一个或多个。
10.根据权利要求1或2所述的音频分析系统,其中与所述用户相关的音频包括所述用户的呼叫者回铃音。
11.一种用于分析用户的音频数据的分析方法,包括步骤:
将与所述用户相关的音频数据变换为频谱数据;
将所述频谱数据分解为预定特征向量以获得所述频谱数据的分解样式;以及
基于所述频谱数据的分解样式和所述用户的属性而使用所训练的模型来计算与所述用户相关的多个等级的假设得分。
12.根据权利要求11所述的音频分析方法,包括步骤:
将所述用户归类于在所有所述多个等级中具有最高假设得分的等级。
13.根据权利要求11或12的所述的音频分析方法,包括步骤:
基于历史项目来训练所述所训练的模型,每个历史项目包括对应于历史用户的历史音频数据的频谱数据的分解样式、所述历史用户的属性以及用于所述历史用户的所述多个等级中的一个等级的实际得分。
14.根据权利要求13所述的音频分析方法,包括步骤:
基于所述历史项目和新项目来保持所述所训练的模型,所述新项目包括所述频谱数据的分解样式、所述用户的属性以及所述多个等级的实际等级的实际得分。
15.根据权利要求11或12所述的音频分析方法,其中所述计算多个等级的假设得分的步骤基于朴素贝叶斯分类器,以及所述多个等级的假设得分是在所述频谱数据的分解样式和所述用户的属性上的所述多个等级的后验概率。
16.根据权利要求11或12所述的音频分析方法,还包括步骤:
将存储于音频数据库的与各用户相关的音频数据变换为对应频谱;
使用主成分分析法处理所述对应频谱以生成所述预定特征向量。
17.根据权利要求11或12所述的音频分析方法,其中所述频谱数据的分解样式是所述预定特征向量的分解因数。
18.根据权利要求11或12所述的音频分析方法,包括步骤:
在所述计算所述多个等级的假设得分的步骤之前,将所述用户的属性转换成范围为从0到1的数字值,所述数字值包括端点0和1。
19.根据权利要求11或12所述的音频分析方法,其中所述用户的属性包括与所述用户相关的年龄、性别、城市中的一个或多个。
20.根据权利要求11或12所述的音频分析方法,其中与所述用户相关的音频包括所述用户的呼叫者回铃音。
21.一种用于分析用户的音频数据的分析产品,包括:
用于将与所述用户相关的音频数据变换为频谱数据的部件;
用于将所述频谱数据分解为预定特征向量以获得所述频谱数据的分解样式的部件;以及
用于基于所述频谱数据的分解样式和所述用户的属性而使用所训练的模型来计算与所述用户相关的多个等级的假设得分的部件。
22.根据权利要求21所述的音频分析产品,包括:
用于将所述用户归类于在所有所述多个等级中具有最高假设得分的等级的部件。
23.根据权利要求21或22的所述的音频分析产品,包括:
用于基于历史项目来训练所述所训练的模型的部件,每个历史项目包括对应于历史用户的历史音频数据的频谱数据的分解样式、所述历史用户的属性以及用于所述历史用户的所述多个等级中的一个等级的实际得分。
24.根据权利要求23所述的音频分析产品,包括:
用于基于所述历史项目和新项目来保持所述所训练的模型的部件,所述新项目包括所述频谱数据的分解样式、所述用户的属性以及所述多个等级的实际等级的实际得分。
25.根据权利要求21或22所述的音频分析产品,其中所述用于计算多个等级的假设得分的产品基于朴素贝叶斯分类器,以及所述多个等级的假设得分是在所述频谱数据的分解样式和所述用户的属性上的所述多个等级的后验概率。
26.根据权利要求21或22所述的音频分析产品,还包括:
用于将存储于音频数据库的与各用户相关的音频数据变换为对应频谱的部件;
用于使用主成分分析法处理所述对应频谱以生成所述预定特征向量的部件。
27.根据权利要求21或22所述的音频分析产品,其中所述频谱数据的分解样式是所述预定特征向量的分解因数。
28.根据权利要求21或22所述的音频分析产品,包括:
用于在用于计算假设得分的部件计算所述多个等级的假设得分之前,将所述用户的属性转换成范围为从0到1的数字值的部件,所述数字值包括端点0和1。
29.根据权利要求21或22所述的音频分析产品,其中所述用户的属性包括与所述用户相关的年龄、性别、城市中的一个或多个。
30.根据权利要求21或22所述的音频分析产品,其中与所述用户相关的音频包括所述用户的呼叫者回铃音。
CN201080070350.5A 2010-11-25 2010-11-25 音频数据分析系统和方法 Active CN103493126B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/001889 WO2012068705A1 (en) 2010-11-25 2010-11-25 Analysis system and method for audio data

Publications (2)

Publication Number Publication Date
CN103493126A CN103493126A (zh) 2014-01-01
CN103493126B true CN103493126B (zh) 2015-09-09

Family

ID=46145338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080070350.5A Active CN103493126B (zh) 2010-11-25 2010-11-25 音频数据分析系统和方法

Country Status (3)

Country Link
US (1) US20130243207A1 (zh)
CN (1) CN103493126B (zh)
WO (1) WO2012068705A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014152542A2 (en) * 2013-03-15 2014-09-25 Forrest S. Baker Iii Trust, U/A/D 12/30/1992 Voice detection for automated communication system
US10095850B2 (en) * 2014-05-19 2018-10-09 Kadenze, Inc. User identity authentication techniques for on-line content or access
CN106875076A (zh) * 2015-12-10 2017-06-20 中国移动通信集团公司 建立外呼质量模型、外呼模型及外呼评价的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1197526A (zh) * 1995-06-07 1998-10-28 拉脱格斯大学 说话者验证系统
US6658385B1 (en) * 1999-03-12 2003-12-02 Texas Instruments Incorporated Method for transforming HMMs for speaker-independent recognition in a noisy environment
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996572B1 (en) * 1997-10-08 2006-02-07 International Business Machines Corporation Method and system for filtering of information entities
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7739115B1 (en) * 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
US6724866B2 (en) * 2002-02-08 2004-04-20 Matsushita Electric Industrial Co., Ltd. Dialogue device for call screening and classification
US7081579B2 (en) * 2002-10-03 2006-07-25 Polyphonic Human Media Interface, S.L. Method and system for music recommendation
US20040133429A1 (en) * 2003-01-08 2004-07-08 Runyan Donald R. Outbound telemarketing automated speech recognition data gathering system
US20090132347A1 (en) * 2003-08-12 2009-05-21 Russell Wayne Anderson Systems And Methods For Aggregating And Utilizing Retail Transaction Records At The Customer Level
US7844045B2 (en) * 2004-06-16 2010-11-30 Panasonic Corporation Intelligent call routing and call supervision method for call centers
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
US8762733B2 (en) * 2006-01-30 2014-06-24 Adidas Ag System and method for identity confirmation using physiologic biometrics to determine a physiologic fingerprint
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
US20080288255A1 (en) * 2007-05-16 2008-11-20 Lawrence Carin System and method for quantifying, representing, and identifying similarities in data streams
US8359192B2 (en) * 2008-11-19 2013-01-22 Lemi Technology, Llc System and method for internet radio station program discovery
US20100158237A1 (en) * 2008-12-19 2010-06-24 Nortel Networks Limited Method and Apparatus for Monitoring Contact Center Performance
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
KR101683943B1 (ko) * 2009-10-02 2016-12-07 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
US8306814B2 (en) * 2010-05-11 2012-11-06 Nice-Systems Ltd. Method for speaker source classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1197526A (zh) * 1995-06-07 1998-10-28 拉脱格斯大学 说话者验证系统
US6658385B1 (en) * 1999-03-12 2003-12-02 Texas Instruments Incorporated Method for transforming HMMs for speaker-independent recognition in a noisy environment
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统

Also Published As

Publication number Publication date
CN103493126A (zh) 2014-01-01
WO2012068705A1 (en) 2012-05-31
US20130243207A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
US11094309B2 (en) Audio processing techniques for semantic audio recognition and report generation
CN111192136A (zh) 一种信贷业务的催收方法、装置、电子设备及存储介质
CN102654859B (zh) 一种歌曲推荐方法及系统
US10409797B2 (en) Systems and methods for providing searchable customer call indexes
Kim et al. MPEG-7 audio and beyond: Audio content indexing and retrieval
US9396257B2 (en) Query by humming for ringtone search and download
US20160012807A1 (en) Audio matching with supplemental semantic audio recognition and report generation
US20090112600A1 (en) System and method for increasing accuracy of searches based on communities of interest
US20210065203A1 (en) Machine-learning based systems and methods for generating an ordered listing of objects for a particular user
CN101014953A (zh) 音频指纹识别系统和方法
WO2020237769A1 (zh) 一种伴奏纯净度评估方法以及相关设备
US7177800B2 (en) Method and device for the processing of speech information
CN103493126B (zh) 音频数据分析系统和方法
CN110400567A (zh) 注册声纹动态更新方法及计算机存储介质
CN108280179A (zh) 音频广告检测的方法及系统、终端以及计算机可读存储介质
EP1875730A1 (en) Method and system for searching and ranking entries stored in a directory
Turnbull et al. Modelling music and words using a multi-class naıve bayes approach
JP2001514768A (ja) 話者証明システム
JP6548974B2 (ja) 営業支援情報提供システム及び営業支援情報提供方法
CN113297412A (zh) 音乐推荐方法、装置、电子设备和存储介质
CN113516963A (zh) 音频数据的生成方法、装置、服务器和智能音箱
JP5699316B2 (ja) 音響データの関連情報検索装置
CN113726962B (zh) 服务质量的评价方法、装置、电子设备以及存储介质
JP5777568B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム
JP5561041B2 (ja) 音響データの関連情報検索装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant