CN113766307A - 用于音轨分析以支持音频个性化的技术 - Google Patents

用于音轨分析以支持音频个性化的技术 Download PDF

Info

Publication number
CN113766307A
CN113766307A CN202110576253.3A CN202110576253A CN113766307A CN 113766307 A CN113766307 A CN 113766307A CN 202110576253 A CN202110576253 A CN 202110576253A CN 113766307 A CN113766307 A CN 113766307A
Authority
CN
China
Prior art keywords
audio
track
category
user
properties
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110576253.3A
Other languages
English (en)
Inventor
O.康萨里普尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Ltd
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/889,535 external-priority patent/US12010495B2/en
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN113766307A publication Critical patent/CN113766307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

各种实施方案阐述了用于实现音频个性化的系统和技术。所述技术包括:确定针对音频类别的音频个性化设置;确定音轨的一个或多个音频性质;基于所述一个或多个音频性质而选择所述音轨的代表所述音频类别的第一部分;为使用者播放所述音轨的所述第一部分;以及在回放所述音轨的所述第一部分时基于来自所述使用者的输入而调整针对所述使用者的个性化设置。

Description

用于音轨分析以支持音频个性化的技术
技术领域
本公开的实施方案总体上涉及音频装置,并且更具体地,涉及用于支持音频个性化的音轨分析。
背景技术
个人娱乐装置可包括允许使用者来个性化电子媒体和音频内容的移动应用和计算机软件。举例来说,此类应用可允许使用者选择并收听优选内容或调整设置,以便在收听音频内容(诸如,音乐、视频,视频游戏、在线广告等)的同时加强使用者体验。此类应用还可允许使用者以数字方式操纵音频内容,以便加强或阐明某些音频品质。
然而,为了实现对给定音频内容的期望的音频体验,使用者通常手动调整各种应用和/或设置,这可能是枯燥、耗时和/或费力的。举例来说,使用者可能需要基于个人偏好而升高或降低低音水平或高音水平,调整频带滤波器和/或应用压缩或均衡,以便更好地听出音轨中的细微差别或伪像和/或实现其他期望的目的。
另外,当在不同类别的音频内容之间切换时,使用者可能会发现难以个性化应用设置。特别地,音频性质可基于音频类别而变化。例如,特定于第一音频类别(例如,摇滚)的音频个性化设置可能不适合来自第二音频类别(例如,古典)的音频内容。因此,当将针对第一音频类别的音频个性化设置应用于来自第二音频类别的音频内容时,音频个性化设置可能无法匹配来自第二音频类别的音频内容,从而导致对来自第二音频类别的音频内容的收听体验不良。因此,每当类别之间发生切换时,使用者都可调整音频个性化设置。这通常难以始终如一地实现期望的收听体验,尤其是当对音频内容进行流传输时。通过针对每种音频类别为使用者存储个性化设置,可解决这些个性化问题中的一些。然后,每当向使用者回放来自对应音频类别的音轨时,便可加载和应用针对使用者的个性化设置。
然而,难以选择代表具体音频类别的音频样本,通过该音频样本可初始配置针对该具体音频类别的个性化设置。例如,使用者可能熟悉具体音频类别内的大量音频内容,但可能无法轻松确定选择哪种具体音轨作为用于创建其个性化设置的代表性样本。另外,音频性质在音频内容的片段内通常会变化,以使得即使具体音轨代表具体音频类别,也不是具体音轨的所有部分都可能适合于配置针对具体音频类别的个性化设置。
因此,使用者通常会经历枯燥、耗时且易于出错的个性化过程,极有可能选择不良的代表性样本来配置个性化设置,以至于经常导致对来自每种音频类别的许多音频内容片段的欠佳的个性化设置和不良收听体验。
因此,需要使得使用者能够更好地选择音频样本以在为不同类别的声音内容配置个性化设置时使用的技术。
发明内容
各种实施方案阐述了一种用于确定针对音频类别的音频个性化设置的计算机实现的方法。所述方法包括:确定音轨的一个或多个音频性质;基于一个或多个音频性质而选择音轨的代表音频类别的第一部分;为使用者播放音轨的第一部分;以及在回放音轨的第一部分时基于来自使用者的输入而调整针对使用者的个性化设置。
其他实施方案尤其提供了一种系统和一个或多个计算机可读存储介质,它们被配置成实现上面阐述的方法。
相对于现有技术,所公开的技术的至少一个技术优点在于,所公开的技术通过允许使用者更高效且有效地选择包含音频特性的正确平衡的代表音轨和来自所述代表性音轨的代表性音频样本来实现改进的音频个性化,这将允许使用者针对具体音频类别实现其优选的个性化设置。所公开的技术可基于使用者的选择而建议不同的代表性音轨,以用于创建针对具体音频类别的个性化设置。另外,所公开的技术为使用者提供了一种更快且计算效率更高的装置,用于生成音轨的包含可用于配置个性化设置的音频特性的类别特定的平衡的部分。
附图说明
为了能够详细地理解上面叙述的各种实施方案的特征,可通过参考各种实施方案来对以上简要概述的发明概念进行更具体的描述,附图中示出了所述实施方案中的一些。然而,应注意,附图仅示出发明概念的典型实施方案,并且因此不应被视为以任何方式限制其范围,并且存在其他同样有效的实施方案。
图1是示出被配置成实现本公开的一个或多个方面的音频个性化系统的示意图。
图2是被配置成实现本公开的各种实施方案的一个或多个方面的计算系统的概念框图。
图3是根据本公开的各种实施方案的用于针对音频类别定制个性化设置的方法步骤的流程图。
图4是根据本公开的各种实施方案的用于将音频个性化设置应用于音轨的回放的方法步骤的流程图。
为清楚起见,在适用情况下,已经使用相同的参考数字来指代附图中通用的相同元件。可预期的是,一个实施方案的特征可并入其他实施方案中,而无需进一步叙述。
具体实施方式
在以下描述中,阐述了众多具体细节以提供对各种实施方案的更透彻理解。然而,对本领域技术人员而言将显而易见的是,可在没有这些具体细节中的一个或多个的情况下实践发明概念。
图1是示出被配置成实现本公开的一个或多个方面的音频个性化系统100的示意图。音频个性化系统100包括但不限于一个或多个音频环境110、使用者简档数据库120、音频简档数据库130和计算装置140。音频个性化系统100被配置成允许使用者更高效且有效地选择代表性音轨和来自所述代表性音轨的代表性音频样本,这将允许使用者针对对应音频类别实现其优选的个性化设置。在一些实施方案中,音频个性化系统100被配置成允许使用者定制针对多个音频类别的个性化设置。
在一些实施方案中,将用于音频体验的音频内容本地存储在计算装置140中,而在其他实施方案中,这种音频内容由在基于云的基础设施105中实现的流传输服务104提供。音频内容可能包括音乐、视频、电影、视频游戏、在线广告、有声读物、声音(铃声、动物声音、合成声音)、播客、体育赛事或可在听觉上听出或录制的任何其他内容。
基于云的基础设施105可能是任何技术上可行的基于互联网的计算系统,诸如分布式计算系统和/或基于云的存储系统。在一些实施方案中,基于云的基础设施105包括但不限于多个网络、多个服务器、多个操作系统、多个存储装置等。服务器可能是独立服务器、服务器的聚类或“群”、一个或多个网络家电或者适合于实现本公开的一个或多个方面的任何其他装置。
一个或多个音频环境110中的每个被配置成为特定使用者播放音频内容。例如,音频环境110可包括但不限于一个或多个智能装置111、耳机112、智能扬声器113和/或其他输入/输出(I/O)装置119。
在图1中示出的实施方案中,音频环境110经由无线或有线点对点或联网通信链路的任何技术上可行的组合来播放从计算装置140接收到的音频内容。联网的通信链路包括任何合适的通信链路以实现远程或本地计算机系统和计算装置之间的通信,包括但不限于蓝牙通信通道、无线和有线LAN(局域网)、基于互联网的WAN(广域网)、蜂窝网络等。因此,音频环境110可包括可直接从计算装置140接收音频内容的任何音频装置,诸如家庭中的“哑”扬声器、车辆中的立体声系统、一对常规耳机等。此外,在图1中示出的实施方案中,音频环境110不依赖于内部执行音频信号处理或从在基于云的基础设施105中实现的实体接收音频内容或其他信息的能力。
智能装置111可包括但不限于计算装置,所述计算装置可能是个人计算机、个人数字助理、平板计算机、移动电话、智能电话、媒体播放器、移动装置或适合于实现本发明的一个或多个方面的任何其他装置。智能装置111可通过提供各种服务来增强音频个性化系统100的功能性,所述服务包括但不限于电话服务、导航服务、信息娱乐服务等。此外,智能装置111可从传感器获取数据,并将该数据传输至音频个性化系统100。智能装置111可经由音频输入装置获取声音数据,并且将声音数据传输至音频个性化系统100以进行处理。同样地,智能装置111可从音频个性化系统100接收声音数据,并将声音数据传输至音频输出装置,以使得使用者可听出源自音频个性化系统100的音频。
耳机112可包括音频输出装置,该音频输出装置可基于从音频个性化系统100和/或替代音频装置(诸如与音频个性化系统100相关联的功率放大器)接收到的一个或多个音频信号而生成声音。更具体地,音频输出装置可将一个或多个电信号转换成声波,并将声波引导到物理环境中。
智能扬声器113可包括音频输入装置,该音频输入装置可从周围环境中获取诸如使用者的声音等声学数据,并将与该声学数据相关联的信号传输至音频个性化系统100。
耳机112和智能扬声器113中的每个包括一个或多个扬声器117,并且在一些实施方案中,包括一个或多个传感器118。扬声器117是音频输出装置,该音频输出装置被配置成基于从计算装置140接收到的定制的音频信号而产生声音输出。传感器118被配置成从使用者获取生物统计数据(例如,心率、皮肤电导率等),并将与生物统计数据相关联的信号传输至计算装置140。然后,可由在计算装置140上运行的个性化应用145处理由传感器118获取的生物统计数据,以确定特定使用者的一个或多个个人音频偏好。在各种实施方案中,传感器118可包括能够获取生物统计数据的任何类型的图像传感器、电传感器、生物统计传感器等,包括例如但不限于相机、电极、传声器等。
其他I/O装置119包括但不限于输入装置、输出装置以及既能够接收输入数据又能够生成输出数据的装置。其他I/O装置119可包括但不限于有线和/或无线通信装置,该有线和/或无线通信装置向智能装置111、耳机112、智能扬声器113、扬声器117、传感器118、远程数据库、其他计算装置等发送数据,和/或从它们接收数据。另外,在一些实施方案中,其他I/O装置119可包括一键通(PTT)按钮,诸如包括在车辆中、在移动装置上、在智能扬声器等上的PTT按钮。
使用者简档数据库120存储使用者特定的信息,该信息实现在任何一个音频环境110中为特定使用者产生个性化的音频体验。如图所示,使用者简档数据库120可在基于云的基础设施105中实现,并且因此可在计算装置140有权访问联网的通信链路时由计算装置140访问。在一些实施方案中,与特定使用者相关联并且存储在使用者简档数据库120中的信息也本地存储在与该特定使用者相关联的计算装置140中。在此类实施方案中,使用者偏好简档121和/或个性化设置122存储在计算装置140的本地使用者简档数据库143中。存储在使用者简档数据库120中的使用者特定的信息可包括使用者偏好简档121和个性化设置122中的一个或多个。
使用者偏好简档121可包括被采用来为特定使用者产生个性化音频体验的使用者特定的信息。在一些实施方案中,使用者偏好简档121包括与特定使用者相关联的声学滤波器和/或EQ曲线。在一些实施方案中,使用者偏好简档121包括其他使用者优选的信号处理,诸如音频信号的动态范围压缩、动态扩展、音频限制、空间处理等。在一些实施方案中,使用者偏好简档121可包括在使用者设立优选的收听设置期间选择的预设EQ曲线。EQ曲线可包括在使用者设立优选的收听设置期间由使用者执行的一个或多个离散的幅度调整。预设的EQ曲线可与不同的使用者(诸如,著名的音乐家或名人)相关联。在一些实施方案中,EQ曲线可包括特定于特定使用者的与头部有关的传递函数(HRTF)信息。
个性化设置122可包括被采用来在回放对应的音频类别期间为特定使用者产生个性化音频体验的信息。在一些实施方案中,可基于使用者在音轨的回放期间设定的设置而生成每个个性化设置122,所述音轨具有代表特定音频类别的一个或多个音频性质。在一些实施方案中,可从在回放音轨的一部分期间接收到的使用者输入确定每个个性化设置122,其中音轨的所述部分具有代表特定音频类别的一个或多个音频性质。
在一些实施方案中,每种特定音频类别可包括音乐或非音乐音频内容的任何分类。例如,音频类别可包括音乐流派(古典、乡村、嘻哈、摇滚等)。音频类别还可能包括以下的任何分类:视频、电影、视频游戏、在线广告、有声读物、声音(铃声、动物声音、合成声音)、播客、体育赛事或可在听觉上听出或录制的任何其他内容。在一些实施方案中,每种特定音频类别可包括基于诸如韵律、和声、乐器、音调、节奏等属性的组合的任何分类。
在一些实施方案中,修改由特定使用者选择并在音频环境110中的一个中回放的音频内容,以在回放来自对应音频类别的音轨期间配合该使用者的个人收听偏好。替代地或另外,在一些实施方案中,个性化设置122包括要在对应音频类别的回放期间应用的其他使用者优选的和类别特定的信号处理,诸如音频信号的类别特定的动态范围压缩、类别特定的动态扩展、类别特定的音频限制、类别特定的空间处理等。在一些实施方案中,当使用者在音频环境110中的一个中回放音频内容时,音频处理应用146还可采用此种类别特定的信号处理来修改所述音频内容。
计算装置140可能是可被配置成实现本文所描述的本公开的至少一个方面的任何计算装置,包括智能电话、电子平板电脑、笔记本计算机、个人计算机、个人数字助理、移动装置或适合于实现本公开的一个或多个方面的任何其他装置。通常,计算装置140可能是能够执行应用程序的任何类型的装置,所述应用程序包括但不限于与个性化应用145和/或音频处理应用146相关联的指令。在一些实施方案中,计算装置140还被配置成存储本地使用者简档数据库143,所述本地使用者简档数据库可包括使用者偏好简档121和/或个性化设置122中的一个或多个。在一些实施方案中,计算装置140还被配置成存储音频内容144,诸如音频内容的数字录音。
个性化应用145被配置成执行计算装置140与使用者简档数据库120、音频简档数据库130和音频环境110之间的通信。在一些实施方案中,个性化应用145还被配置成向使用者呈现使用者界面(未示出),以在回放来自对应音频类别的音轨期间实现使用者声音偏好测试、设立操作等。在一些实施方案中,个性化应用145还被配置成基于使用者特定的音频处理信息和类别特定的音频处理信息而为音频信号生成定制的音频个性化程序。
音频处理应用146可通过使用由个性化应用145生成的定制的音频个性化程序来处理初始音频信号,来动态地生成定制的音频信号。举例来说,音频处理应用146可通过基于与特定音频类别的回放相关联的一个或多个可应用的使用者个性化设置122而修改初始音频信号,来生成定制的音频信号。
音频简档数据库130为多个类别的音频内容中的每个存储一个或多个音频度量131。与特定音频类别相关联的音频度量131中的每个代表落入该特定音频类别内的音频样本。个性化应用145可使用这些一个或多个音频度量131以帮助选择用于为对应音频类别设定个性化设置122的代表性音轨和/或音频样本。如图所示,音频简档数据库130可在基于云的基础设施105中实现,并且因此可在计算装置140有权访问联网的通信链路时由计算装置140访问。音频简档数据库130可存储诸如音频度量131等信息。
在一些实施方案中,可基于对代表音频类别中的每个的音频内容的分析而生成音频度量131。在一些实施方案中,音频度量131可包括与一个或多个音频性质(诸如,动态性质、低音或高音水平、频谱、能量、节奏等)相关联的数据。
在一些实施方案中,可从音频类别已经被预先标记和/或分类的音频样本的精选集合中选择用于确定针对音频类别中的每个的音频度量131的音频样本。在一些实施方案中,可使用一种算法来确定一个或多个音频类别,该算法确定与音频样本的预先标记或分类一致的音频样本的各种音频性质之间的一个或多个边界。在一些实施方案中,可使用聚类技术(例如,k均值聚类分析)、机器学习技术等来确定一个或多个边界。
在一些实施方案中,针对每种音频类别分别存储音频度量131。在一些实施方案中,可基于对聚合音频内容的统计建模、数据挖掘和/或其他算法分析而生成音频度量131。在一些实施方案中,音频度量131可包括针对音频类别中的每个的音频内容的一个或多个音频性质的一个或多个统计性质,诸如平均值、标准偏差、值的范围、中值等。作为非限制性示例,音频度量131可包括一系列预定义频带中的每个中的频谱能量的平均值和标准偏差,它们指示针对音频类别中的每个的预定义频带中的每个中的频谱能量的典型量。作为另一非限制性示例,音频度量131可包括连续节奏脉冲信号、能量通量、能量尖峰、下拍位置等之间的时间间隔的平均值和标准偏差。在一些实施方案中,音频度量131可包括节奏脉冲信号的频率、能量通量、能量尖峰、下拍位置等的平均值和标准偏差。在一些实施方案中,音频度量131可在预定时间段期间包括节奏脉冲信号的数目、能量通量、能量尖峰、下拍位置等的平均值和标准偏差。
在一些实施方案中,音频度量131可包括与每种音频类别相关联的容限窗口。容限窗口可能是针对对应音频类别的音频内容的一个或多个音频性质的期望值的预定范围。在一些实施方案中,容限窗口可包括针对一个或多个音频性质的偏差的极限。
在一些实施方案中,音频度量可包括在复合或聚合音频度量的计算中要指派给音频性质中的每个的相对权重或绝对权重或分值,以与音频样本与对应的音频类别匹配的程度相关联。在一些实施方案中,聚合音频度量可与音频性质的平衡相关联,该音频性质可用于为对应的音频类别配置优选的个性化设置。
在一些实施方案中,个性化应用145可使用音频度量131,以辅助使用者选择代表性音轨和代表性音频样本,以供使用者用于针对音频类别定制个性化设置122。在一些实施方案中,使用者可选择音轨的全长,音轨的一部分,或一个或多个音轨的一个或多个部分的集合等作为潜在的候选音轨,以在为使用者设置个性化设置122时使用。在一些实施方案中,个性化应用145将音轨的音频性质与和选定音轨相关联的音频类别的音频度量131进行比较。在一些实施方案中,使用者可从与选定音轨和/或音频类别的标识相关联的分类数据和/或其他元数据(例如,流派、子流派、艺术家、标题等)来确定选定音轨的音频类别。在一些实施方案中,个性化应用145可针对一个或多个在线数据库执行分类数据和/或其他元数据的实时查找,以便确定相关联的音频类别。在一些实施方案中,个性化应用145可识别音轨中的一种或多种乐器,并且执行一种或多种音频图案匹配技术以确定对应的音频类别。
在一些实施方案中,个性化应用145确定选定音轨的一个或多个音频性质,诸如动态性质、低音或高音水平、频谱、能量、节奏等。在一些实施方案中,音轨的能量包括各种频率子带中的幅度(dB水平)。在一些实施方案中,音轨的频率范围可被划分为频率子带。在一些实施方案中,子带与预定频率范围相关联。在一些实施方案中,可使用诸如修改的离散余弦变换(MDCT)、快速傅立叶变换(FFT)、正交镜像滤波器组(QMF)、共轭正交镜像滤波器组(CQMF)等时频域变换技术来确定对应于子带中的每个中的频谱能量的子带系数。
在一些实施方案中,可使用条线检测技术来确定节奏,诸如与能量通量的脉冲信号相关性、发现反复的能量尖峰、下拍位置等。在一些实施方案中,可将节奏确定为能量尖峰之间的平均持续时间、下拍位置等。在一些实施方案中,可将节奏确定为能量尖峰的平均频率、下拍位置等。在一些实施方案中,可将节奏确定为在预定时间段期间发生的能量尖峰的数目的计数、下拍位置等。在一些实施方案中,个性化应用145使用诸如短时傅立叶变换(STFT)等的技术来确定能量通量。
在一些实施方案中,个性化应用145通过将选定音轨的音频性质与和对应音频类别相关联的一个或多个音频度量131进行比较来确定选定的音轨是否代表对应的音频类别。在一些实施方案中,个性化应用145将音轨的音频性质与和对应的音频类别相关联的统计性质和/或容限窗口中的一个或多个的组合进行比较。
在一些实施方案中,个性化应用145确定选定音轨的音频性质的全部或预定百分比(例如,90%、80%、75%等)是否在音频度量131中的每个音频性质的对应范围内。在一些实施方案中,基于与每个音频度量131的对应平均值的标准偏差的预定数目、每个音频度量131的容限窗口等而确定范围。
在一些实施方案中,个性化应用145确定音频性质与对应音频类别的对应音频度量131之间的聚合差异是否低于阈值差异。在一些实施方案中,音频性质与对应的音频度量131之间的差异基于音频性质与对应的音频度量131的平均值相差多少。在一些实施方案中,通过确定指示音频性质与对应的音频度量的平均值有多少标准偏差的z分值来测量差异。在一些实施方案中,可使用距离函数(例如,欧几里得距离)、加权和等来聚合音频性质与对应的音频度量131之间的差异。在一些实施方案中,在加权和中使用的权重可对应于指派给每个音频性质的权重或分值,该权重或分值指示音频性质在确定与对应类别相关联的个性化设置的过程中相对于其他音频性质的重要性。
在一些实施方案中,当个性化应用145确定一个或多个音频性质不满足一个或多个音频度量时,个性化应用145可建议替代的音轨。在一些实施方案中,个性化应用145从以下中的一个或多个中选择音轨:来自用于音频度量131的音频样本的精选库的音频样本、经由流传输服务104播放的音频内容、音频内容144、基于web的程序、本地存储在计算装置140上的程序、播放列表等。在一些实施方案中,个性化应用145建议音频样本,该音频样本的音频性质类似于对应音频类别的音频性质。
在一些实施方案中,个性化应用145可动态地生成针对对应音频类别的替代音轨的建议。在一些实施方案中,个性化应用145可基于分析用于音频量度131的音频样本的精选库中的音频样本中的一个或多个而建议代表对应音频类别的音轨。在一些实施方案中,个性化应用145通过分析具有类似于对应音频类别的音频性质的音频性质的多个音轨来动态地生成替代音轨的建议。在一些实施方案中,个性化应用145使用一种算法,该算法被预先配置成基于一个或多个音频样本的一个或多个音频性质相对于对应音频类别的一个或多个音频度量131的动态分析而自动地选择不同的代表性曲目。在一些实施方案中,个性化应用145可基于关于使用者在相关音频类别中对代表性曲目的选择的历史数据,关于该音频类别的代表性音轨的数据,指示类似使用者所选的一个或多个代表性曲目的人口统计数据等而建议不同的音轨。
在一些实施方案中,个性化应用145将音轨的一个或多个部分的音频性质与一个或多个音频度量131进行比较,以确定音轨的代表对应的音频类别的部分。在一些实施方案中,个性化应用145将选定的音轨划分成一个或多个帧。在一些实施方案中,个性化应用145将音轨的一个或多个部分的音频性质与和对应的音频类别相关联的统计性质和/或容限窗口中的一个或多个的组合进行比较。在一些实施方案中,个性化应用145使用类似于上述关于确定选定的音轨是否代表对应的音频类别的技术的技术来确定音轨的最能代表对应的音频类别的部分。
在一些实施方案中,个性化应用145基于所述音轨的所述部分而创建音频样本。在一些实施方案中,音频样本可包括从所述音轨的所述部分生成的音频内容的预定义长度。举例来说,音频样本可能是从音轨的所述部分中选择的15秒至25秒的样本。在一些实施方案中,个性化应用145从音轨的所述部分中预选择音频样本或基于使用者输入而创建音频样本。在一些实施方案中,音频样本是从音轨的所述部分生成的反复循环。在一些实施方案中,音频样本包括音轨的所述部分的多个重复。
在一些实施方案中,个性化应用145通过将音轨的所述部分的重复无缝地一起编辑到音频样本中来创建音频样本。在一些实施方案中,个性化应用缩短或延长了音轨的所述部分的长度,以使得未在音轨的所述部分的第一次重复的结束与所述音轨的第二次重复的开始之间创建节奏的不连续性。在一些实施方案中,对缩短或延长进行选择,以使得在第一次重复中的最后一个节奏脉冲信号、能量尖峰、下拍位置等与第二次重复中的第一个节奏脉冲信号、能量尖峰、下拍位置等之间的持续时间与音轨的所述部分的整体节奏一致。在一些实施方案中,当音轨的多个部分被组合在一起以创建音频样本时,可使用类似的技术。
在一些实施方案中,个性化应用145基于对音频样本的一个或多个音频性质的动态分析而连续回放音频样本的一个或多个具体区段。在一些实施方案中,音频样本的回放基于将音频样本的音频性质与和对应的音频类别相关联的一个或多个音频度量131进行比较。在一些实施方案中,音频样本的回放将使用者的注意力重定向到音频样本的一个或多个具体区段,所述一个或多个具体区段与对应的音频类别的一个或多个音频度量131具有最小的聚合差异。
在一些实施方案中,个性化应用145然后可在回放音频样本时基于使用者输入而调整针对使用者的一个或多个个性化设置。在一些实施方案中,使用者可升高或降低低音或高音水平,调整频带滤波器,应用压缩或均衡,执行离散幅度调整,选择或修改预设声学滤波器,为音频类别选择优选的信号处理(诸如,音频信号的动态范围压缩、动态扩展、音频限制、空间处理)等。在一些实施方案中,使用者可选择用于相关音频类别的历史个性化设置作为起点,并且在音频样本的回放期间更新个性化设置。
在一些实施方案中,个性化应用145然后保存针对音频类别的一个或多个个性化设置。在一些实施方案中,将个性化设置保存在使用者简档数据库120中的个性化设置122中。
在一些实施方案中,音频处理应用146可将个性化设置应用于音轨的回放。在一些实施方案中,使用者可选择音轨的全长,音轨的一部分,或一个或多个音轨的一个或多个部分的集合等。在一些实施方案中,音频处理应用146可通过使用与上文关于个性化应用145所述的技术类似的技术来确定音轨的音频类别。在一些实施方案中,音频处理应用146从与选定的音轨相关联的分类数据和/或其他元数据,从使用者输入等确定针对选定音轨的音频类别。
在一些实施方案中,音频处理应用146确定个性化设置是否可用于特定音频类别。在一些实施方案中,如果音频处理应用146确定个性化设置不可用于特定音频类别,则音频处理应用146提供用于使用个性化应用145创建个性化设置的选项。在一些实施方案中,如果音频处理应用146确定个性化设置可用于音频类别,则音频处理应用146针对音频类别加载个性化设置。在一些实施方案中,音频处理应用146从使用者简档数据库120中的保存的个性化设置122中加载针对音频类别的个性化设置。在一些实施方案中,音频处理应用146将个性化设置应用于音轨的回放。
图2是被配置成实现各种实施方案的一个或多个方面的计算装置200的概念框图。在一些实施方案中,计算装置200与计算装置140一致。计算装置200可能是能够执行应用程序的任何类型的装置,包括但不限于与个性化应用145、音频处理应用146等相关联的指令。例如但不限于,计算装置200可能是电子平板电脑、智能电话、笔记本计算机、并入车辆中的信息娱乐系统、家庭娱乐系统等。替代地,计算装置200可被实现为诸如微处理器等独立芯片,或者被实现为更全面的解决方案的一部分,该更全面的解决方案被实现为专用集成电路(ASIC)、片上系统(SoC)等。应注意,本文描述的计算系统是说明性的,并且任何其他技术上可行的配置都落入本发明的范围内。
如图所示,计算装置200包括但不限于连接处理器250的互连(总线)240、联接至图1的音频环境110的输入/输出(I/O)装置接口260、存储器210、存储装置230以及网络接口270。处理器250可能是被实现为中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、任何其他类型的处理单元或不同处理单元的组合的任何合适的处理器,诸如被配置成连同数字信号处理器(DSP)一起操作的CPU。例如,在一些实施方案中,处理器250包括CPU和DSP。通常,如本文所述,处理器250可能是能够处理数据和/或执行指令以促进计算装置200的操作的任何技术上可行的硬件单元。此外,在本公开的背景中,计算装置200中示出的计算元件可对应于物理计算系统(例如,数据中心中的系统),或者可能是在计算云内执行的虚拟计算实例。
I/O装置接口260实现图1的音频环境110与处理器250的通信。I/O装置接口260通常包括必要的逻辑,用于解释由处理器250生成的对应于音频环境110的地址。I/O装置接口260还可被配置成实现处理器250与音频环境110之间的信号交换,和/或生成与音频环境110相关联的中断。I/O装置接口260可被实现为任何技术上可行的CPU、ASIC、FPGA、任何其他类型的处理单元或装置。
网络接口270是将处理器250连接至通信网络205的计算机硬件部件。网络接口270可在计算装置200中实现为独立卡、处理器或其他硬件装置。在一些实施方案中,网络接口270可配置有蜂窝通信能力、卫星电话通信能力、无线WAN通信能力或允许与通信网络205和计算装置200外部的其他计算装置进行通信的其他类型的通信能力。
存储器210可包括随机存取存储器(RAM)模块、快闪存储器单元或任何其他类型的存储器单元或它们的组合。处理器250、I/O装置接口260和网络接口270被配置成从存储器210读取数据并将数据写入所述存储器。存储器210包括可由处理器250执行的各种软件程序以及与所述软件程序相关联的应用数据,包括个性化应用145、音频处理应用146等。
存储器230可包括非暂时性计算机可读介质,诸如非易失性存储装置。在一些实施方案中,存储装置230包括本地使用者简档数据库143。
图3是根据本公开的各种实施方案的用于针对音频类别定制个性化设置的方法步骤的流程图。虽然关于图1的系统描述了方法步骤,但是本领域技术人员应理解,被配置成以任何顺序执行方法步骤的任何系统都落入各种实施方案的范围内。在一些实施方案中,图3的方法中的步骤的一些或全部可由个性化应用145执行。
如图所示,方法300在步骤301处开始,其中使用者选择音轨。在一些实施方案中,使用者可选择音轨的全长,音轨的一部分,或一个或多个音轨的一个或多个部分的集合等。在一些实施方案中,使用者可从经由流传输服务104播放的音频内容或从本地存储在计算装置140上的音频内容144中选择音轨。在一些实施方案中,使用者可使用基于web的程序或本地存储在计算装置140上的程序来选择音轨。在一些实施方案中,可基于从传感器118或位于智能装置111上的传感器获取的数据而自动地选择音轨。举例来说,可基于传感器而选择音轨,该传感器捕获说出选择的使用者,使用者的与音轨的选择相关联的运动和/或手势,使用者与输入装置的交互等。在一些实施方案中,可从播放列表中选择音轨。
在步骤302中,确定音轨的音频性质。在一些实施方案中,确定了选定音轨的一个或多个音频性质,诸如动态性质、低音或高音水平、频谱、能量、节奏等。在一些实施方案中,音轨的频率范围可被划分成频率子带。在一些实施方案中,类似于上文关于图1中的个性化应用145所描述的那些技术的频域技术被用于确定对应于子带中的每个中的频谱能量的子带系数。
在步骤303中,确定音轨的音频类别。在一些实施方案中,可从与选定的音轨相关联的分类数据和/或其他元数据中确定针对选定音轨的音频类别。在一些实施方案中,可通过针对一个或多个在线数据库执行分类数据和/或其他元数据的实时查找来确定针对选定音轨的音频类别。在一些实施方案中,可通过识别音轨中的一种或多种乐器并执行一种或多种音频图案匹配技术来确定针对选定音轨的音频类别。
在一些实施方案中,基于使用者选择而确定音频类别。在一些实施方案中,可基于从传感器118或位于智能装置111上的传感器获取的数据而自动地选择音频类别。例如,可基于传感器118而选择音频类别,所述传感器捕获识别音频类别选择的语音命令,使用者的识别音频类别的选择的运动和/或手势,使用者与输入装置的交互等。
在步骤304中,将音轨的音频性质与音频类别的一个或多个音频度量131进行比较,以确定选定的音轨是否代表对应的音频类别。在一些实施方案中,将音轨的音频性质与和对应的音频类别相关联的统计性质和/或容限窗口中的一个或多个的组合进行比较。
在一些实施方案中,将音轨的音频性质与对应音频度量131的范围或平均值进行比较,以确定多少百分比的音频性质在对应范围内,在与对应平均值的预定数目的标准偏差内,在对应音频度量131的容限窗口内等。在一些实施方案中,将音轨的音频性质与对应的音频度量131之间的聚合差异与阈值差异进行比较。在一些实施方案中,聚合差异基于距离函数(例如,欧几里得距离)、加权和等。在一些实施方案中,从对应的音频度量131的平均值测量音频性质与对应的音频度量131之间的差异,或者通过确定确定指示音频性质与对应的音频度量的平均值有多少标准偏差的z分值来测量所述差异。
当音频性质与对应的音频类别的音频度量131不一致时(例如,太多音频性质在对应范围之外和/或聚合距离在阈值距离以上),则在步骤305中建议替代的音轨。当音频性质与用于音轨的音频类别的音频度量131一致时,从步骤306开始进一步处理选定的音轨。
在步骤305中,建议了替代的音轨。在一些实施方案中,可基于关于使用者在相关音频类别中对代表性曲目的选择的历史数据,关于该音频类别的代表性音轨的数据,指示类似使用者所选的一个或多个代表性曲目的人口统计数据等而建议不同的音轨。然后,重复步骤301至304,以允许使用者选择另一音轨,以确定另一音轨是否与音频类别一致。
在步骤306中,选择音轨的代表音频类别的一部分。在一些实施方案中,将音轨划分成一个或多个帧或区段。在一些实施方案中,将类似于在步骤304中使用的那些技术的技术用于确定所述帧和/或区段中的哪些具有最好地代表在步骤303期间确定的音频类别的音频性质。然后,选择最具代表性的帧或区段作为所述音轨的所述部分。在一些实施方案中,将与针对音频类别的一个或多个音频度量131具有最小的聚合差异的帧和/或区段选择作为所述音轨的所述部分。
在步骤307中,基于所述音轨的所述部分而创建音频样本。在一些实施方案中,音频样本可包括从所述音轨的所述部分生成的音频内容的预定义长度(例如,15秒至25秒样本)。在一些实施方案中,音频样本是从音轨的所述部分生成的反复循环。在一些实施方案中,音频样本包括第一音轨的第一部分的多个重复。在一些实施方案中,通过将音轨的所述部分的重复无缝地一起编辑到音频样本中来创建音频样本,以使得未在音轨的第一部分的任何两次重复之间创建节奏的不连续性。
在步骤308中,为使用者回放音频样本。可使用音频环境110中的装置中的任何一个回放音频样本,所述装置包括但不限于一个或多个智能装置111、耳机112、智能扬声器113和其他输入/输出(I/O)装置119。在一些实施方案中,可基于从传感器118或位于智能装置111上的传感器获取的数据而自动地回放音频样本。举例来说,可基于传感器而回放音频样本,该传感器捕获说出回放命令的使用者,使用者的与音频样本的回放启动相关联的运动和/或手势,使用者与输入装置的交互等。
在步骤309中,当回放音频样本时,基于使用者输入而调整针对使用者的一个或多个个性化设置。在一些实施方案中,使用者可升高或降低低音或高音水平,调整频带滤波器,应用压缩或均衡,执行离散幅度调整,选择或修改预设声学滤波器,为音频类别选择优选的信号处理(诸如,音频信号的动态范围压缩、动态扩展、音频限制、空间处理)等。在一些实施方案中,使用者可选择针对选定音轨的相关音频类别的历史个性化设置作为起点,并且在音频样本的回放期间更新所述个性化设置。
在一些实施方案中,基于从传感器118或位于智能装置111上的传感器获取的数据而自动地调整个性化设置。举例来说,可基于传感器而调整个性化设置,该传感器捕获说出升高、降低、选择、修改或调整设置的命令的使用者。在一些实施方案中,可基于传感器而调整个性化设置,该传感器捕获使用者的与设置的调整相关联的运动和/或手势、使用者与输入装置的交互等。
在步骤310中,保存针对音频类别的个性化设置。在一些实施方案中,使用者可将个性化设置保存为新的个性化设置,或者更新先前存储的针对音频内容的一个或多个相关类别的个性化设置。在一些实施方案中,个性化设置与音频类别相关联。在一些实施方案中,基于从传感器118或位于智能装置111上的传感器获取的数据而自动地保存个性化设置。举例来说,可基于传感器而保存个性化设置,该传感器捕获说出保存或更新命令的使用者,使用者的与保存或更新个性化设置的启动相关联的运动和/或手势,使用者与输入装置的交互等。在一些实施方案中,将个性化设置保存在使用者简档数据库120中的个性化设置122中。
图4是用于将音频个性化设置应用于音轨的回放的方法步骤的流程图。虽然关于图1的系统描述了方法步骤,但是本领域技术人员应理解,被配置成以任何顺序执行方法步骤的任何系统都落入各种实施方案的范围内。在一些实施方案中,图3的方法的步骤中的一些或全部可由音频处理应用146执行。
如图所示,方法400在步骤401处开始,其中使用者选择用于回放的音轨。在一些实施方案中,使用者可选择音轨的全长,音轨的一部分,或一个或多个音轨的一个或多个部分的集合等。使用者可从经由流传输服务104播放的音频内容或从本地存储在计算装置140上的音频内容144中选择音轨。使用者可使用基于web的程序或本地存储在计算装置140上的程序来选择音轨。可基于从传感器118或位于智能装置111上的传感器获取的数据而自动地选择音轨。举例来说,可基于传感器而选择音轨,该传感器捕获说出选择的使用者,使用者的与音轨的选择相关联的运动和/或手势,使用者与输入装置的交互等。
在步骤402中,确定音轨的音频类别。在一些实施方案中,可从与选定的音轨相关联的分类数据和/或其他元数据中确定针对选定音轨的音频类别。在一些实施方案中,可通过针对一个或多个在线数据库执行分类数据和/或其他元数据的实时查找来确定针对选定音轨的音频类别。在一些实施方案中,可通过识别音轨中的一种或多种乐器并执行一种或多种音频图案匹配技术来确定针对选定音轨的音频类别。
在一些实施方案中,基于使用者选择而确定音频类别。在一些实施方案中,可基于从传感器118或位于智能装置111上的传感器获取的数据而自动地选择音频类别。例如,可基于传感器118而选择音频类别,所述传感器捕获识别音频类别选择的语音命令,使用者的识别音频类别的选择的运动和/或手势,使用者与输入装置的交互等。
在一些实施方案中,将类似于在步骤304中使用的那些技术的技术用于确定选定音轨的音频类别。在一些实施方案中,通过以下方式确定音频类别:将选定音轨的音频性质与和一个或多个音频类别相关联的一个或多个音频度量131进行比较,以找出一个或多个音频度量131最好地匹配选定曲目的音频性质的音频类别。
在步骤403中,确定个性化设置是否可用于特定音频类别。在一些实施方案中,软件应用查询使用者简档数据库120以确定存储的个性化设置122是否包括针对特定音频类别的个性化设置。在一些实施方案中,当未找出针对特定音频类别的个性化设置时,在步骤404中提供用于创建个性化设置的选项。在一些实施方案中,当个性化设置可用于特定音频类别时,从步骤405开始进一步处理选定的音轨。
在步骤404中,提供用于创建个性化设置的选项。在一些实施方案中,生成了针对特定音频类别的个性化设置的建议选项,从而允许使用者选择针对音频类别的个性化设置。在一些实施方案中,向使用者提供选项以选择针对相关音频类别的历史个性化设置并保存针对特定音频类别的个性化设置。在一些实施方案中,向使用者提供选项以启动用于定制针对音频类别的个性化设置的过程,诸如图3中公开的方法。
在步骤405中,加载针对音频类别的个性化设置。在一些实施方案中,针对音频类别的个性化设置对应于在步骤310期间保存的个性化设置。
在步骤406中,将个性化设置应用于音轨的回放。在一些实施方案中,通过以下方式生成定制的音频信号:根据在步骤405期间加载的个性化设置来修改来自在步骤401期间选择的音轨的音频。
总之,各种实施方案阐述了通过提供用于选择代表性音轨和代表性音频样本的高效且便利的装置来实现音频个性化的系统和技术。在所公开的实施方案中,软件应用通过以下方式确定音轨是否代表对应的音频类别:分析音轨以确定其音频性质,并将音轨的音频性质与和对应的音频类别相关联的一个或多个音频度量进行比较。当音轨足够代表对应的音频类别时,软件应用将音轨的一个或多个部分的音频性质与一个或多个音频度量进行比较,以确定音轨的代表对应的音频类别的部分。然后,软件应用基于音轨的所述部分而创建音频样本。在一些实施方案中,然后,软件应用可在回放音频样本时基于使用者输入而调整针对使用者的一个或多个个性化设置。在一些实施方案中,可将一个或多个个性化设置应用于来自对应音频类别的音轨的回放。
相对于现有技术,所公开的技术的至少一个技术优点在于,所公开的技术通过允许使用者更高效且有效地选择包含音频性质的正确平衡的代表性音轨来实现改进的音频个性化,这将允许使用者针对具体音频类别实现其优选的个性化设置。所公开的技术可基于使用者的选择而建议不同的代表性音轨,以用于创建针对具体音频类别的个性化设置。另外,所公开的技术为使用者提供了一种更快且计算效率更高的装置,用于生成音轨的包含可用于配置个性化设置的音频特性的类别特定的平衡的部分。
1.在一些实施方案中,一种用于确定针对音频类别的音频个性化设置的计算机实现的方法包括:确定音轨的一个或多个音频性质;基于一个或多个音频性质而选择音轨的代表音频类别的第一部分;为使用者播放音轨的第一部分;以及在回放音轨的第一部分时基于来自使用者的输入而调整针对使用者的个性化设置。
2.如条款1所述的计算机实现的方法,其还包括:创建包括音轨的第一部分的多次重复的音频样本,其中播放音轨的第一部分还包括播放音频样本。
3.如条款1或2所述的计算机实现的方法,其中创建所述音频样本包括缩短或延长音轨的第一部分的持续时间,以避免在音频样本中的音轨的第一部分的重复之间创建节奏的不连续性。
4.如条款1至3中任一项所述的计算机实现的方法,其还包括:在选择音轨的第一部分之前并且基于一个或多个音频性质,确定音轨是否代表音频类别。
5.如条款1至4中任一项所述的计算机实现的方法,其还包括:基于所述确定而建议代表所述音频类别的第二音轨。
6.如条款1至5中任一项所述的计算机实现的方法,其中一个或多个音频性质包括低音水平、高音水平、频谱、能量或节奏中的至少一个。
7.如条款1至6中任一项所述的计算机实现的方法,其中选择音轨的第一部分包括:将一个或多个音频性质中的每个与和音频类别相关联的对应音频度量进行比较。
8.如条款1至7中任一项所述的计算机实现的方法,其中选择音轨的第一部分包括:确定一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量之间的聚合差异是否低于阈值差异。
9.如条款1至8中任一项所述的计算机实现的方法,其中选择音轨的第一部分包括:将一个或多个音频性质中的每个与和音频类别相关联的对应音频度量的范围进行比较。
10.如条款1至9中任一项所述的计算机实现的方法,其还包括基于与音轨或使用者选择相关联的元数据而确定针对音轨的音频类别。
11.在一些实施方案中,一种系统包括:存储器,所述存储器存储一个或多个软件应用;以及处理器,所述处理器当执行所述一个或多个软件应用时被配置成执行以下步骤:确定音轨的一个或多个音频性质;基于一个或多个音频性质而选择音轨的代表音频类别的第一部分;为使用者播放音轨的第一部分;以及在回放音轨的第一部分时基于来自使用者的输入而调整针对使用者的个性化设置。
12.如条款11所述的系统,其中所述处理器还被配置成执行以下步骤:在选择音轨的第一部分之前并且基于所述一个或多个音频性质,确定所述音轨是否代表所述音频类别。
13.如条款11或12所述的系统,其中所述处理器还被配置成基于所述确定而执行建议代表音频类别的第二音轨的步骤。
14.如条款11至13中任一项所述的系统,其中选择音轨的第一部分包括:将一个或多个音频性质中的每个与和音频类别相关联的对应音频度量进行比较。
15.如条款11至14中任一项所述的系统,其中选择音轨的第一部分包括:确定一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量之间的聚合差异是否低于阈值差异。
16.如条款11至15中任一项所述的系统,其中选择音轨的第一部分包括:将一个或多个音频性质中的每个与和音频类别相关联的对应音频度量的范围进行比较。
17.在一些实施方案中,一种或多种非暂时性计算机可读介质存储指令,所述指令当由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:确定音轨的一个或多个音频性质;基于一个或多个音频性质而选择音轨的代表音频类别的第一部分;为使用者播放音轨的第一部分;以及在回放音轨的第一部分时基于来自使用者的输入而调整针对使用者的个性化设置。
18.如条款17所述的一种或多种非暂时性计算机可读介质,其还包括:在选择音轨的第一部分之前并且基于一个或多个音频性质,确定音轨是否代表音频类别。
19.如条款17或18所述的一种或多种非暂时性计算机可读介质,其还包括:将所述个性化设置与所述音频类别相关联;以及保存所述个性化设置。
20.如条款17至19中任一项所述的一种或多种非暂时性计算机可读介质,其还包括:接收对用于回放的第二音轨的选择;确定针对第二音轨的第二音频类别;加载与第二音频类别相关联的第二个性化设置;通过根据第二个性化设置修改来自第二音轨的音频来生成定制的音频信号;以及向使用者回放定制的音频信号。
权利要求中任一项所述的权利要求要素和/或本申请中描述的任何要素中的任何一个的呈任何形式的任何和所有组合均落入本发明和保护的预期范围内。
各种实施方案的描述已经呈现以用于说明目的,而并非意在穷举或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说将是显而易见的。
本实施方案的各方面可体现为系统、方法或计算机程序产品。因此,本公开的各方面可采用以下形式:完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合了软件方面与硬件方面的实施方案,所述各实施方案在本文中一般都可称为“模块”、“系统”或“计算机”。另外,本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可被实现为电路或电路的集合。此外,本公开的各方面可采用计算机程序产品的形式,所述计算机程序产品在其上体现有计算机可读程序代码的一个或多个计算机可读介质中体现。
可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可能是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下介质:具有一个或多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述介质的任何合适的组合。在本文献的背景中,计算机可读存储介质可能是可含有或存储供指令执行系统、设备或装置使用或与其结合使用的程序的任何有形介质。
参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本公开的各方面。应理解,流程图图解和/或框图中的每个框以及流程图图解和/或框图中的框组合能够通过计算机程序指令来实现。可将这些计算机程序指令提供给通用计算机、特殊用途计算机或其他可编程数据处理设备的处理器以产生机器。当经由计算机或其他可编程数据处理设备的处理器执行指令时,使得能够实施流程图和/或框图的一个或多个框中所指定的功能/动作。此类处理器可为但不限于通用处理器、特殊用途处理器、专用处理器或现场可编程门阵列。
附图中的流程图和框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能的实现方式的架构、功能性和操作。就这一点而言,流程图或框图中的每个框可代表代码的模块、区段或部分,所述代码包括用于实现指定的逻辑功能的一个或多个可执行指令。还应注意,在一些替代实现方式中,框中所提出的功能可不按附图中提出的顺序发生。例如,实际上依据所涉及的功能性,可基本上同时执行连续示出的两个框,或者有时可以相反的顺序执行所述框。还应注意,框图和/或流程图图解的每个框以及框图和/或流程图图解中的框的组合可由执行指定的功能或动作的基于特殊用途硬件的系统或者特殊用途硬件和计算机指令的组合来实现。
虽然前述内容涉及本公开的实施方案,但是可在不背离本公开的基本范围的情况下设计出本公开的其他和更多实施方案,且本公开的范围由所附权利要求确定。

Claims (20)

1.一种用于确定针对音频类别的音频个性化设置的计算机实现的方法,所述方法包括:
确定音轨的一个或多个音频性质;
基于所述一个或多个音频性质而选择代表所述音频类别的所述音轨的第一部分;
为使用者播放所述音轨的所述第一部分;以及
在回放所述音轨的所述第一部分时基于来自所述使用者的输入而调整针对所述使用者的个性化设置。
2.如权利要求1所述的计算机实现的方法,其还包括:
创建包括所述音轨的所述第一部分的多次重复的音频样本,
其中播放所述音轨的所述第一部分还包括播放所述音频样本。
3.如权利要求2所述的计算机实现的方法,其中创建所述音频样本包括缩短或延长所述音轨的所述第一部分的持续时间,以避免在所述音频样本中的所述音轨的所述第一部分的所述重复之间创建节奏的不连续性。
4.如权利要求1所述的计算机实现的方法,其还包括:在选择所述音轨的所述第一部分之前并且基于所述一个或多个音频性质,确定所述音轨是否代表所述音频类别。
5.如权利要求4所述的计算机实现的方法,其还包括:基于所述确定而建议代表所述音频类别的第二音轨。
6.如权利要求1所述的计算机实现的方法,其中所述一个或多个音频性质包括低音水平、高音水平、频谱、能量或节奏中的至少一个。
7.如权利要求1所述的计算机实现的方法,其中选择所述音轨的所述第一部分包括:将所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量进行比较。
8.如权利要求1所述的计算机实现的方法,其中选择所述音轨的所述第一部分包括:确定所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量之间的聚合差异是否低于阈值差异。
9.如权利要求1所述的计算机实现的方法,其中选择所述音轨的所述第一部分包括:将所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量的范围进行比较。
10.如权利要求1所述的计算机实现的方法,其还包括基于与所述音轨或使用者选择相关联的元数据而确定针对所述音轨的所述音频类别。
11.一种系统,包括:
存储器,所述存储器存储一个或多个软件应用;以及
处理器,所述处理器当执行所述一个或多个软件应用时被配置成执行以下步骤:
确定音轨的一个或多个音频性质;
基于所述一个或多个音频性质而选择代表音频类别的所述音轨的第一部分;
为使用者播放所述音轨的所述第一部分;以及
在回放所述音轨的所述第一部分时基于来自所述使用者的输入而调整针对所述使用者的个性化设置。
12.如权利要求11所述的系统,其中所述处理器还被配置成执行以下步骤:在选择所述音轨的所述第一部分之前并且基于所述一个或多个音频性质,确定所述音轨是否代表所述音频类别。
13.如权利要求11所述的系统,其中所述处理器还被配置成基于所述确定而执行建议代表所述音频类别的第二音轨的步骤。
14.如权利要求11所述的系统,其中选择所述音轨的所述第一部分包括:将所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量进行比较。
15.如权利要求11所述的系统,其中选择所述音轨的所述第一部分包括:确定所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量之间的聚合差异是否低于阈值差异。
16.如权利要求11所述的系统,其中选择所述音轨的所述第一部分包括:将所述一个或多个音频性质中的每个与和所述音频类别相关联的对应音频度量的范围进行比较。
17.一种或多种非暂时性计算机可读介质,其存储指令,所述指令当由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:
确定音轨的一个或多个音频性质;
基于所述一个或多个音频性质而选择代表音频类别的所述音轨的第一部分;
为使用者播放所述音轨的所述第一部分;以及
在回放所述音轨的所述第一部分时基于来自所述使用者的输入而调整针对所述使用者的个性化设置。
18.如权利要求17所述的一种或多种非暂时性计算机可读介质,其还包括:在选择所述音轨的所述第一部分之前并且基于所述一个或多个音频性质,确定所述音轨是否代表所述音频类别。
19.如权利要求17所述的一种或多种非暂时性计算机可读介质,其还包括:
将所述个性化设置与所述音频类别相关联;以及
保存所述个性化设置。
20.如权利要求17所述的一种或多种非暂时性计算机可读介质,其还包括:
接收对用于回放的第二音轨的选择;
确定针对所述第二音轨的第二音频类别;
加载与所述第二音频类别相关联的第二个性化设置;
通过根据所述第二个性化设置修改来自所述第二音轨的音频来生成定制的音频信号;以及
向使用者回放所述定制的音频信号。
CN202110576253.3A 2020-06-01 2021-05-26 用于音轨分析以支持音频个性化的技术 Pending CN113766307A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/889,535 US12010495B2 (en) 2020-06-01 Techniques for audio track analysis to support audio personalization
US16/889,535 2020-06-01

Publications (1)

Publication Number Publication Date
CN113766307A true CN113766307A (zh) 2021-12-07

Family

ID=75825508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110576253.3A Pending CN113766307A (zh) 2020-06-01 2021-05-26 用于音轨分析以支持音频个性化的技术

Country Status (4)

Country Link
EP (1) EP3920049A1 (zh)
JP (1) JP2021189450A (zh)
KR (1) KR20210148916A (zh)
CN (1) CN113766307A (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031244B2 (en) * 2012-06-29 2015-05-12 Sonos, Inc. Smart audio settings
US9372925B2 (en) * 2013-09-19 2016-06-21 Microsoft Technology Licensing, Llc Combining audio samples by automatically adjusting sample characteristics
US10547910B2 (en) * 2015-04-17 2020-01-28 Hewlett-Packard Development Company, L.P. Adjusting speaker settings

Also Published As

Publication number Publication date
EP3920049A1 (en) 2021-12-08
US20210377662A1 (en) 2021-12-02
JP2021189450A (ja) 2021-12-13
KR20210148916A (ko) 2021-12-08

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
CN109478400B (zh) 现场音乐表演的多媒体内容的基于网络的处理及分布
US7774078B2 (en) Method and apparatus for audio data analysis in an audio player
US7711129B2 (en) Method and system for approximating graphic equalizers using dynamic filter order reduction
KR101275467B1 (ko) 오디오 재생 장치의 이퀄라이저 자동 제어 장치 및 방법
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
KR102477001B1 (ko) 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
EP2979359A1 (en) Equalizer controller and controlling method
WO2011035626A1 (zh) 音频播放方法及音频播放装置
Wilson et al. Perception & evaluation of audio quality in music production
US12010495B2 (en) Techniques for audio track analysis to support audio personalization
EP3920049A1 (en) Techniques for audio track analysis to support audio personalization
JP2023539121A (ja) オーディオコンテンツの識別
JP2020537470A (ja) オーディオ信号の個人適用のためのパラメータを設定するための方法
EP3889958A1 (en) Dynamic audio playback equalization using semantic features
KR20080087229A (ko) 이퀄라이져 자동 설정방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination