CN1717956B - 根据用户的喜好适配音频信号的装置和方法 - Google Patents

根据用户的喜好适配音频信号的装置和方法 Download PDF

Info

Publication number
CN1717956B
CN1717956B CN2003801040523A CN200380104052A CN1717956B CN 1717956 B CN1717956 B CN 1717956B CN 2003801040523 A CN2003801040523 A CN 2003801040523A CN 200380104052 A CN200380104052 A CN 200380104052A CN 1717956 B CN1717956 B CN 1717956B
Authority
CN
China
Prior art keywords
audio
audio signal
user
preference information
perceptual parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2003801040523A
Other languages
English (en)
Other versions
CN1717956A (zh
Inventor
徐廷一
张大永
姜京玉
金镇雄
安致得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Priority claimed from PCT/KR2003/002148 external-priority patent/WO2004036954A1/en
Publication of CN1717956A publication Critical patent/CN1717956A/zh
Application granted granted Critical
Publication of CN1717956B publication Critical patent/CN1717956B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234318Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种用于根据用户的喜好适配音频信号的装置和方法。所述装置和方法通过使音频内容适合于用户的声场喜好而允许用户提供数字内容的最佳感受。所述装置包括音频使用环境管理单元和音频适配单元,用于适配与用户的适配请求相关联的音频内容。

Description

根据用户的喜好适配音频信号的装置和方法
技术领域
本发明涉及一种音频信号适配装置及其方法,具体地说,涉及一种用于使音频信号适合于用户喜好的装置及其方法。
背景技术
运动图像专家组(MPEG)已经提出了作为新标准工作项的数字项适配(DIA)。数字项(DI)是指具有标准表示法、标识和元数据的结构化数字对象,DIA表示用于生成在资源适配引擎或描述符适配引擎中处理之后获得的经适配的ID。
这里,资源是指诸如视频或音频、图像或纹理结构等可单独识别的项。描述符是指与所述DI中的一个项或成分相关的信息。另外,用户包括所有的制作者、公证人、发行人和消费者。媒体资源是指能够直接用数字表示的内容,此后,术语“内容”被用在DI、媒体资源和资源的相同含义中。
传统的技术具有下述问题,即,它们不能提供一种单源多使用环境,在这种环境下,通过使用与诸如用户特征、用户的自然环境和用户终端的能力的消费所述音频内容的使用环境相关的信息可以使一个单一音频内容适合于不同的使用环境。
“单一源”是指从多媒体源中产生的一个单一内容,而“多使用”是指多个用户终端,其中的每个终端都具有不同的使用环境,并消费适合于每个使用环境的“单一源”。
单一源多使用的优点在于通过将内容处理成适合于不同的使用环境,可以以不同的形式提供一个内容。此外,当适合于各种使用环境的单一源被提供给多个用户终端时,该单一源多使用可以使网络带宽减小或被有效使用。
因此,内容提供者可以减少当多个内容被产生和发送以便使音频信号与不同使用环境相适配时所产生的不必要的成本。内容的消费者也能够克服他/她的环境的空间限制和消费满足该内容消费者的听力和喜好的最佳音频内容。
但是,即使是在通用多媒体接入(UMA)环境下,现有技术也不能最佳地利用单一源多使用环境的优点。
也就是说,所述多媒体源在不考虑诸如用户特征、用户的自然环境和用户终端的能力等的使用环境的情况下不加区别地发送音频内容。由于装备有诸如视窗媒体播放器、MP3播放器和真实播放器(Real Player)等的音频播放器的用户终端消费其形式同于从所述多媒体源接收的音频内容,所以,它不适合于单一源多使用环境。
为了克服现有技术的缺点和支持所述单一源多使用环境,所述多媒体源提供多个考虑到各种使用环境的多媒体内容。但是,这在内容的产生和发送方面带来了更多的负担。
发明内容
因此,本发明的一个目的就是提供一种音频适配装置和方法,用于通过使用描述用户终端的使用环境的信息来使音频内容适合于多种使用环境。
通过附图、本发明的详细描述以及本说明书的权利要求,本领域内普通技术人员将很容易理解本发明的其它目的和优点。
根据本发明的一个方面,提供了一种用于使音频信号适合于单一源多使用的装置,该装置包括:音频使用环境信息管理单元,用于收集、描述和管理来自每个消费所述音频信号的用户终端的音频使用环境信息;和音频适配单元,用于适配所述音频信号,从而将所述音频信号输出给可适合于音频使用环境信息的用户终端,其中,所述音频使用环境信息包括用于描述所述用户对所述音频信号的声场喜好的用户特征信息。
根据本发明的另一方面,提供了一种方法,用于使音频信号适合于单一源多使用,该方法包括下述步骤:a)收集、描述和管理来自消费所述音频信号的每个用户终端的音频使用环境信息;和b)适配所述音频信号,从而将所述音频信号输出给可适合于所述音频使用环境信息的所述用户终端,其中,所述音频使用环境信息包括用于描述所述用户对所述音频信号的声场喜好的用户特征信息。
附图说明
通过下面结合附图给出的最佳实施例的详细描述,本发明的上述和其它目的和特性将变得更加清楚,其中:
图1是示出了包括根据本发明一个实施例的音频信号适配装置的用户终端的概况的框图;
图2是示出了根据本发明一个实施例的音频适配装置的框图;
图3是描述了在图1所示的音频信号适配装置中执行的音频信号适配处理的流程图;
图4是示出了图3所示的音频信号适配处理的流程图;
图5是示出了通过音频内容和脉冲响应的卷积来具体表达用户喜好的声场特征的图;和
图6是用于描述感知参数的描述符的曲线图。
具体实施方式
通过下面结合附图对实施例的描述,本发明的其它目的和方面将变得明显,这将在下文中阐明。
下面的描述仅仅举例说明了本发明的原理。即使是在本说明书中没有描述或清楚地示出这些例子,本领域的普通技术人员也能够使本发明的原理具体化并在本发明的概念和范围内发明各种装置。
在本说明书中示出的条件术语和实施例的使用只是试图使得本发明的概念更容易被理解,本发明并不局限于在说明书中描述的这些实施例和状态。
另外,关于本发明的原理、观点和实施例以及特定实施例的所有描述都应当被理解为包括在结构和功能方面与其等效的等效物。所述等效物不仅包括当前已知的等效物,还包括将来要被开发出来的等效物,即,被开发出来执行相同功能的所有设备,而不管它们的结构如何。
例如,本发明的框图应当被理解为示出了实施本发明的原理的示范性电路的概念性观点。类似地,所有的流程图、状态转换图、伪代码等都可以在计算机可读媒体中得到足够的表示,和无论是鉴别性地描述了计算机还是处理器,它们都应当被理解为表示由计算机或处理器运行的各种处理。
不仅可以通过使用专用于所述功能的硬件、而且还可以通过使用能够运行用于所述功能的适当软件的硬件来提供在包括被表示为处理器或类似概念的功能块的附图中所示出的各种设备的功能。当利用处理器提供功能时,可以通过单一专用处理器、信号共享处理器或其中的一部分可以被共享的多个单独的处理器来提供所述功能。
术语‘处理器’、‘控制’或类似的概念的表面的使用不应当被理解为专指能够运行软件的一部分硬件,而应当被理解为隐含地包括数字信号处理器(DSP)、硬件以及用于存储软件的ROM、RAM以及非易失性存储器。其中也可以包括其它已经公知和公用的硬件。
在本说明书的权利要求书中,被表示为用于执行详细说明书中所描述的功能的装置的元件试图包括所有用于执行包括诸如用于执行所需功能的电路的组合、固件/微码等的所有软件格式的功能的所有方法。
为了执行所需的功能,所述元件与一适当电路协作以执行所述软件。由权利要求所定义的本发明包括用于执行多种特定功能的各种装置,和所述装置以所述权利要求书中请求的方法彼此相互连接。因此,能够提供所述功能的任何一种装置都应当被理解为与本说明书所指出的相关装置等效。
通过下面结合附图对实施例的描述,本发明的其它目的和方面将变得更加清楚,这在下文中阐明。相同的附图标记被给予相同的元件,尽管这些元件出现在不同的附图中。另外,如果确定对相关现有技术的进一步详细描述将使本发明的观点模糊,则这种描述将予以省略。下面,将参考附图对本发明的最佳实施例做详细的描述。
图1是示出了根据本发明一个实施例的包括音频信号适配装置的用户终端的概况的框图。音频适配装置100包括音频适配单元103和音频使用环境信息管理单元107。音频适配单元103和音频使用环境信息管理单元107中的每一个都能够被单独安装在音频处理系统上。
所述音频处理系统包括膝上型计算机、笔记本计算机、桌上型计算机、工作站、主机或其它类型的计算机。还包括诸如个人数字助理(PDA)和移动通信站的数据处理系统或信号处理系统。
所述音频处理系统可以是形成网络路径的多个节点之一,例如是多媒体源节点系统、多媒体中继节点系统和末端用户终端。所述末端用户终端装备配有音频播放器,诸如是视窗媒体播放器、MP3播放器或真实播放器(realplayer)。
例如,当音频适配装置100被安装在多媒体源节点系统上并被运行时,音频适配装置100从末端用户终端接收使用环境信息,适配内容使其适合于使用环境,并将经适配的内容发送给末端用户终端。即,使用与其中消费音频内容的使用环境相关的信息将所述内容适配为适合于所述适用环境。
国际标准组织技术委员会(ISO)/国际电子技术委员会(IEC)在其标准文本中描述了本发明的最佳实施例中示出的元件的功能和操作。因此,所述标准文本可以作为本发明的一部分被包括在帮助理解本发明的技术的范围内。
音频数据源单元101接收从多媒体源产生的音频数据。音频数据源单元101可以被包括在多媒体源节点系统中,或被包括在多媒体中继节点系统中、或被包括在接收从多媒体源节点系统经由有线/无线网络发送的音频数据的末端用户终端中。
音频适配单元103从音频数据源单元101中接收音频数据。然后,音频使用环境信息管理单元107通过使用包括与用户特征、用户的自然环境和用户终端的能力相关的信息的使用环境信息来适配所述音频数据使其适合于使用环境。
这里,音频适配单元103的功能不必被包括在任何一个节点系统中,但它可以被分散(dispersed)在形成网络路径的另一节点系统中。例如,具有控制音量功能并与网络带宽无关的音频适配单元103被包括在末端用户终端中,而具有与网络带宽相关的功能,例如控制音级、即时域中特定音频信号的强度的功能的音频适配单元103能够被包括在多媒体源节点系统中。
音频使用环境信息管理单元107预先从用户、该用户的用户终端和自然环境中收集信息,然后加以描述并管理使用环境信息。
与由音频适配单元103执行的功能相关的使用环境信息可以被分散在网络路径上的节点系统中,恰好做为音频适配单元103。
音频数据输出单元105输出由音频适配单元103适配的音频数据。所输出的音频数据可以经过有线/无线网络被发送给末端用户终端的音频播放器,或被发送给多媒体中继节点系统或末端用户终端。
图2是示出了根据本发明一个实施例的音频适配装置的框图。参看图2,音频数据源单元101包括音频元数据201和音频内容203。
音频数据源单元101收集和存储由多媒体源产生的音频内容203和音频元数据201。这里,音频内容203可以以例如是MP3、AC-3、AAC、WMA、RA和CELP等各种不同的编码方法来被存储,或者它们包括以信息流形式发送的不同音频格式。
音频元数据201是与音频内容相关的数据,诸如编码方法、取样速率、信道数量(例如单声道、立体声和5.1信道)和位速率。可以使用可扩展的标记语言(XML)方案来定义和描述它们。
音频使用环境信息管理单元107包括:用户特征信息管理单元207、用户特征信息输入单元217、用户自然环境信息管理单元209、用户自然环境信息输入单元219、音频终端能力信息管理单元211和音频终端能力信息输入单元221。
用户特征信息管理单元207从用户终端接收用户特征信息并管理该信息。所述用户特征信息包括听力、所喜好的音频量以及关于所喜好频谱的均衡模式等的特征。特别是,用户特征信息管理单元207接收和管理与该用户所喜好的声场相关的信息。所输入的用户特征信息以例如XML形式的语言的机械可读的语言进行管理。
用户自然环境信息管理单元209接收与其中经过用户自然环境信息输入单元219消费音频内容的自然环境相关的信息并管理该自然环境信息。所输入的自然环境信息以例如XML形式的语言的机械可读的语言进行管理。
用户自然环境信息输入单元219将能够由噪声环境分类表所定义的噪声环境特征信息发送给用户自然环境信息管理单元209。所述噪声环境分类表是预先确定的,或者是通过收集特定地方的数据和分析所述数据获得的。
音频终端能力信息管理单元211经过音频终端能力信息输入单元221接收音频终端能力信息并管理该信息。所输入的音频终端能力信息以例如XML形式的语言的机械可读的语言进行管理。
音频终端能力信息输入单元221能够将在用户终端中确定或由用户输入的音频终端能力信息发送给音频终端能力信息管理单元211。
音频适配单元103能包括音频元数据适配处理单元213和音频内容适配处理单元215。音频内容适配处理单元215经过诸如噪声掩蔽(noise-masking)的音频信号处理来解析在用户自然环境信息管理单元209中被管理的所述用户自然环境信息并执行代码转换,从而使所述音频内容被适配为适合于所述自然环境进而能够承受所述噪声环境。
类似地,音频内容适配处理单元215解析分别在用户特征信息管理单元217和音频终端能力信息管理单元211中被管理的所述用户特征信息和所述音频终端能力信息,并对所述音频信号进行适配,从而使得所述音频内容适合于用户特征和音频终端能力。
音频元数据适配处理单元213提供音频内容适配处理所需的元数据并对与所述音频内容适配的结果相对应的音频元数据的内容进行适配。
图3是描述了在图1所示的音频信号适配装置中执行的音频信号适配处理的流程图。参看图3,本发明的处理开始于音频使用环境信息管理单元107。
在步骤S301,音频使用环境信息管理单元107预先从用户、移动终端和自然环境收集音频内容的使用环境信息,并描述用户特征信息、用户自然环境信息和用户终端能力信息。在步骤S303,音频数据源单元101接收音频数据。
最后,在步骤S305,音频适配单元103使用在步骤S301处所描述的使用环境信息对在步骤S303接收的音频内容的音频信号进行适配以使其适合于例如用户特征、用户自然环境和用户终端能力的所述使用环境信息。在步骤S307,音频数据输出单元105输出在步骤S305处适配的音频数据。
图4示出了图3的音频信号适配处理的流程图。参看图4,在步骤S401,音频适配单元103检查由音频数据源单元101所接收的音频内容和音频元数据。然后,在步骤S403,所述音频数据被适配为适合于所述用户特征、用户自然环境和用户终端能力。
随后,在步骤S405,音频适配单元103基于在步骤S403处的音频内容适配的结果对音频内容的音频元数据的内容进行适配。下面将描述由音频使用环境信息管理单元107管理的描述信息的结构。
应当使用诸如用户特征、用户自然环境和用户终端能力的被预先描述的使用环境信息对与用户特征、用户终端能力和自然环境特征相关的信息进行管理,以便使所述音频内容适合于其中消费所述音频内容的使用环境。
特别是,用户特征信息包括多个“AudioPresentationPreference”,描述符,用于描述用户的音频表达喜好。在运动图像专家组21(MPEG21)中已经讨论的“AudioPresentationPreference”描述符是“AudioPower”、“Mute”、“FrequencyEqualizer”、“Period”、“Level”、“PresetEqualizer”、“AudioFrequencyRange”和“AudibleLevelRange”描述符。
“AudioPower”描述符表示用户对音频响度的喜好。它被以从0到1的归一化百分比标度进行描述。“Mute”描述符表示用户对数字设备中音频的静音部分的喜好。
“FrequencyEqualizer”描述符表示用户对于使用频域和衰减值均衡的唯一概念的喜好。“Period”描述符是“FrequencyEqualizer”描述符的一特性,它定义了以赫兹(Hz)表示的均衡范围的下角频率和上角频率。
“Level”描述符是所述“FrequencyEqualizer”描述符的特性,它定义了以分贝(db)表示的标度从-15到15的频率范围的放大和衰减值。
“PresetEqualizer”描述符表示用户对于经均衡器予置的语言学技术均衡的唯一概念的喜好。所述予置被表达为爵士、摇滚、古典音乐和流行音乐。“AudioFrequencyRange”描述符表示用户对于特定频率区域的喜好。它是以赫兹(Hz)的形式从所述下角频率到所述上角频率表示的。
“AudibleLevelRange”描述符表示用户对特定级别范围的喜好。最高值和最低值分别为1和0。
其间,“AudioPresentationPreference”描述符不能充分描述用户对声场的喜好。因此,需要一种能够描述用户对声场喜好信息的描述符。因此,本发明建议利用脉冲响应和多个感知参数在特定地方描述对声场的喜好。
例如,诸如礼堂或教堂的声场可以通过利用一个或多个麦克风获得相应地方的脉冲响应和利用对应的音频内容卷积所获得的脉冲响应来表示。
图5是示出了通过音频内容和脉冲响应的卷积而实施的用户喜好的声场特征的图。参看图5,音频适配单元103卷积所述脉冲响应和所述音频内容,从而使所述音频内容能够反映用户的声场特征。
脉冲响应的使用使得可以最恰当地描述被消费内容的声场,所述感知参数表示诸如声源兴奋和声音沉重的由该用户所接收的音频信号的感觉。
下面描述由图1所示的音频使用环境信息管理单元107管理的使用环境的技术信息的结构。它示出了一个表示在XML方案定义的基础上用户所喜好的声场的解释性语法。
<元素名称=“SoundFieldGenerator”>
<顺序>
<元素名称=“ImpulseResponse”minOccurs=“0”>
<complexType>
<顺序maxOccurs=“不限制”>
<元素名称=“时间”型=“浮动”/>
<元素名称=“幅度”型=“浮动”/>
</顺序>
</complexType>
<元素>
<元素名称=“PerceptualParameters”minOccurs=“0”>
<顺序>
<元素名称=“SourcePresence”型=“浮动”/>
<元素名称=“SourceWarmth”型=“浮动”/>
<元素名称=“SourceBrilliance”型=“浮动”/>
<元素名称=“RoomPresence”型=“浮动”/>
<元素名称=“RunningReverberance”型=“浮动”/>
<元素名称=“Envelopment”型=“浮动”/>
<元素名称=“LateReverberance”型=“浮动”/>
<元素名称=“Heavyness”型=“浮动”/>
<元素名称=“Liveness”型=“浮动”/>
<元素名称=“RefDistance”型=“浮动”/>
<元素名称=“FreqLow”型=“浮动”/>
<元素名称=“FreqHigh”型=“浮动”/>
<元素名称=“Timelimit1”型=“浮动”/>
<元素名称=“Timelimit2”型=“浮动”/>
<元素名称=“Timelimit3”型=“浮动”/>
</元素>
描述符“ImpulseResponse”和描述符“Perceptural Parameters”分别描述了脉冲响应和感知参数。音频适配单元103基于描述符“ImpulseResponse”和描述符“Perceptural Parameters”将音频数据适配为适合于用户喜好的声场特征。
如在上述XML码中所示,脉冲响应可以用连续的时间值和幅度值表示。另一方面,可以通过考虑“ImpulseResponse”的数据量来利用具有脉冲响应特征信息的唯一资源识别符(URI)地址来代替脉冲响应。
另外,用户对于声场的喜好可以通过添加诸如“SamplingFrequency”、“BitsPerSample”和“NumOfChannel”描述符并与从URI地址获得的脉冲响应特征一起来反映。感知参数使用MPEG-4 Advanced AudioBIFS的“PerceptualParameters”描述符去描述用户喜好的场面。关于每个描述符的更多说明,可以参考“ISO/IEC 14496-1:1999”。
如在上述XML码中所示,所述“PerceptualParameters”包括:“SourcePresence”、“SourceWarmth”、“SourceBrilliance”、“RoomPresence”、“RunningReverberance”、“Envelopment”、“LateReverberance”、“Heavyness”、“Liveness”、“RefDistance”、“FreqLow”、“FreqHigh”、“TimeLimit1”、“TimeLimit2”和“TimeLimit3”描述符。
图6示出了描述符“PerceptionParameters”的曲线图。“SourcePresence”描述符以分贝的形式描述了直达声和早先室内效果的能量。所述“SourceWarmth”描述符以分贝的形式描述了低频处相对早的能量。
“SourceBrilliance”描述符以分贝的形式描述了高频处相对早的能量。描述符“RoomPresence”以分贝的形式描述了较后室内效果的能量。
描述符“RunningReverberance”描述了毫秒(ms)级的相对早的衰减时间。描述符“Envelopment”以分贝的形式描述了早先室内效果相对于直达声的能量。
“LateReverberance”描述符描述了毫秒(ms)级的最近衰减时间。“Heavyness”描述符描述了低频处的相对衰减时间。“Liveness”描述符描述了高频处的相对衰减时间。
“RefDistance”描述符以米(m)的形式描述了定义感知参数的参考距离。“FreqLow”描述符以赫兹(Hz)的形式描述了低频的限制,如图6所示。“FreqHigh”描述符以赫兹(Hz)的形式描述了高频的限制,如图6所示
“TimeLimit1”描述符以毫秒(ms)的形式描述了第一瞬间的限制(l1),如图6所示。“TimeLimit2”描述符以毫秒(ms)的形式描述了第二瞬间的限制(l2),如图6所示。“TimeLimit3”描述符以毫秒(ms)的形式描述了第三瞬间的限制(l3),如图6所示。
正如所述脉冲响应,所述音频适配单元103在所述感知参数的基础上反映了在所述音频内容中所述用户喜好的声场特征。
另外,对于脉冲响应特征和感知参数来讲,可以添加“AuditoriumParameters”描述符,以获得三维声音。
其中消费内容的空间可以根据用户而不同,即使用户所喜好的声场特征是相同的。因此,被恢复的内容可以具有不同的声场特征。因此,音频适配单元103在“AuditoriumParameters”描述符的基础上消除由用户声音环境所引起的不良影响。
下面将描述由图1的音频使用环境信息管理单元107管理的使用环境的技术信息的结构。它示出了在XML方案定义的基础上表示所述用户声音环境的解释性语法。
<元素名称=“AuditoriumParameters”minOccurs=“0”>
<顺序>
<元素名称=“ReverberationTime”型=“浮动”minOccurs=“0”/>
<元素名称=“InitialDecayTime”型=“浮动”minOccurs=“0”/>
<元素名称=“RDRatio”型=“浮动”minOccurs=“0”/>
<元素名称=“Clrity”型=“浮动”minOccurs=“0”/>
<元素名称=“IACC”型=“浮动minOccurs=“0”/>
</顺序>
</元素>
“AuditoriumParameters”使用“ReverberationTime”、“InitialDecayTime”、“RDRatio”、“Clarity”和“IACC”描述符来表示用户消费音频内容的空间的声音环境。
“ReverberationTime”描述符表示混响时间(reverberation time)。它以毫秒的形式描述将声级衰减60分贝所占用的时间。混响时间被表示为RT或T60,这是一个表示内部声音特征的最基本的物理量。
“InitialDecayTime”描述符表示最初的衰减时间。它以毫秒的形式描述了在直达声和反射声之间的时间差。最初的衰减时间是表示与礼堂(hall)亲合性的物理量。它也被称之为IDT。
“RDRatio”描述符以百分比(%)的形式描述在50毫秒之后直达声和反射声的能量比。该“RDRatio”描述符是表示单声和混响声(reverberation sound)的波形的信息量,它是一个指出图像清晰度的物理量并被称之为D50。
“clarity”描述符以百分比(%)的形式描述在80毫秒之后直达声和所述反射声的能量比。它是一个指出音乐清晰度的基本物理量合并被称之为C80。
“IACC”描述符描述了当在从-1ms到1ms范围内获取在左耳和右耳处获得的脉冲响应的内部交叉相关功能时获得的最大值。“IACC”描述符表示到达听众每个耳朵处的声音的相似度。它是一个指出声音传播感觉的物理量。
上述描述符表示了所述用户的声音环境特征。根据本发明,可以提供一种单源多使用环境,其中,通过使用用户喜好的声场信息和用户声音环境信息,可以在不同的使用环境下将音频内容适配为适合于各种用户的所述特征和兴趣。
尽管已经结合某些最佳实施例描述了本发明,但是,很明显,对于本领域的普通技术人员来讲,在不脱离在后述权利要求书所定义的本发明的范围的情况下,可以做出各种改变和修改。

Claims (16)

1.一种适配音频信号的装置,包括:
音频使用环境信息管理装置,用于收集、描述和管理与消费所述音频信号有关的音频使用环境信息;
音频适配装置,用于使所述音频信号适合于所述音频使用环境信息,并且该音频适配装置包括音频元数据适配装置,该音频元数据适配装置用于适配与音频内容的适配结果对应的音频信号的音频元数据的内容,
其中,所述音频使用环境信息包括描述用户对所述音频信号的声场喜好的用户特征信息,并且用户对所述音频信号的声场喜好由采样频率、每采样的位、频道数和从URI地址获得的脉冲响应特性一起来反映。
2.根据权利要求1所述的装置,其中,所述用户特征信息包括通过脉冲响应描述用户的声场喜好的脉冲响应喜好信息,以及所述音频适配装置通过基于所述脉冲响应喜好信息来改变所述音频信号的声场特征来适配该音频信号,并将经过适配的音频信号发送给消费所述音频信号的用户终端。
3.根据权利要求1所述的装置,其中,所述用户特征信息包括通过感知参数描述用户的声场喜好的感知参数喜好信息,和所述音频适配装置通过基于所述感知参数喜好信息改变所述音频信号的声场特征来适配所述音频信号,并将经过适配的音频信号发送给消费所述音频信号的用户终端。
4.根据权利要求3所述的装置,其中,所述感知参数喜好信息包括描述直达声、早先室内效果的能量、以及在低频和高频处的相对早的能量的信息。
5.根据权利要求3所述的装置,其中,所述感知参数喜好信息包括较后室内效果的能量以及相对早的衰减时间。
6.根据权利要求3所述的装置,其中,所述感知参数喜好信息包括早先室内效果相对于直达声的能量以及最近衰减时间。
7.根据权利要求3所述的装置,其中,所述感知参数喜好信息包括在低频处和高频处的相对衰减时间和定义感知参数的参考距离。
8.根据权利要求3所述的装置,其中,所述感知参数喜好信息包括低频和高频的限制以及时间限制。
9.一种适配音频信号的方法,包括下述步骤:
a)收集和管理与消费所述音频信号有关的音频使用环境信息;
b)使所述音频信号适合于所述音频使用环境信息,包括适配与音频内容的适配结果对应的音频信号的音频元数据的内容,
其中,所述音频使用环境信息包括用于描述用户对所述音频信号的声场喜好的用户特征信息,并且用户对所述音频信号的声场喜好由采样频率、每采样的位、频道数和从URI地址获得的脉冲响应特性一起来反映。
10.根据权利要求9所述的方法,其中,所述用户特征信息包括通过脉冲响应描述用户的声场喜好的脉冲响应喜好信息,和在步骤b),通过基于所述脉冲响应喜好信息改变所述音频信号的声场特征来适配所述音频信号,并将该音频信号发送给消费所述音频信号的用户终端。
11.根据权利要求9所述的方法,其中,所述用户特征信息包括通过感知参数描述用户的声场喜好的感知参数喜好信息,和在步骤b),通过基于所述感知参数喜好信息改变所述音频信号的声场特征来适配所述音频信号并将该音频信号发送给消费所述音频信号的用户终端。
12.根据权利要求11所述的方法,其中,所述感知参数喜好信息包括描述直达声、早先室内效果的能量、以及在低频和高频处的相对早的能量的信息。
13.根据权利要求11所述的方法,其中,所述感知参数喜好信息包括较后室内效果的能量以及相对早的衰减时间。
14.根据权利要求11所述的方法,其中,所述感知参数喜好信息包括早先室内效果相对于直达声的能量以及最近衰减时间。
15.根据权利要求11所述的方法,其中,所述感知参数喜好信息包括低频处和高频处的相对衰减时间和定义感知参数的参考距离。
16.根据权利要求11所述的方法,其中,所述感知参数喜好信息包括低频和高频的限制以及时间限制。
CN2003801040523A 2002-10-15 2003-10-15 根据用户的喜好适配音频信号的装置和方法 Expired - Fee Related CN1717956B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2002-0062956 2002-10-15
KR1020020062956 2002-10-15
KR20020062956 2002-10-15
KR1020030071344 2003-10-14
KR10-2003-0071344 2003-10-14
KR1020030071344A KR100626653B1 (ko) 2002-10-15 2003-10-14 사용자의 선호도에 따른 오디오 신호 적응 변환 장치 및그 방법
PCT/KR2003/002148 WO2004036954A1 (en) 2002-10-15 2003-10-15 Apparatus and method for adapting audio signal according to user's preference

Publications (2)

Publication Number Publication Date
CN1717956A CN1717956A (zh) 2006-01-04
CN1717956B true CN1717956B (zh) 2012-11-07

Family

ID=35822619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2003801040523A Expired - Fee Related CN1717956B (zh) 2002-10-15 2003-10-15 根据用户的喜好适配音频信号的装置和方法

Country Status (2)

Country Link
KR (1) KR100626653B1 (zh)
CN (1) CN1717956B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100673288B1 (ko) * 2004-06-14 2007-01-24 (주)엑스파미디어 오디오 데이타 제공 시스템 및 그 오디오 데이타 제공방법
US8826133B2 (en) 2006-03-06 2014-09-02 Razer (Asia-Pacific) Pte. Ltd. Enhanced 3D sound
KR100929617B1 (ko) * 2006-05-26 2009-12-03 권대훈 네트워크를 이용한 청력도 기반 이퀄라이제이션 시스템
US8855319B2 (en) * 2011-05-25 2014-10-07 Mediatek Inc. Audio signal processing apparatus and audio signal processing method
EP3101612A1 (en) * 2015-06-03 2016-12-07 Skullcandy, Inc. Audio devices and related methods for acquiring audio device use information
CN106612482B (zh) * 2015-10-23 2020-06-19 中兴通讯股份有限公司 一种调整音频参数的方法及移动终端
KR101721406B1 (ko) * 2015-11-30 2017-03-31 전자부품연구원 적응형 음장 제어 방법 및 이를 위한 장치
DE102015223935A1 (de) * 2015-12-01 2017-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System zur Ausgabe von Audio-Signalen sowie zugehöriges Verfahren und Einstellvorrichtung
US10171971B2 (en) 2015-12-21 2019-01-01 Skullcandy, Inc. Electrical systems and related methods for providing smart mobile electronic device features to a user of a wearable device
CN109119076B (zh) * 2018-08-02 2022-09-30 重庆柚瓣家科技有限公司 一种老人用户交流习惯的收集系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISO/IEC JTC1/SC29/WG11/N4801.MPEG-21 Overview v.4.1-18. *
Jean-Michel Trivi, Jean-Marc Jot.Rendering MPEG-4 AABIFS content through a low-levelcross-platform 3D audio API.Multimedia and Expo, 2002.ICME '02. Proceedings. 2002 IEEE International Conference on Multimedia and Expo1.1513-516. *
Jean-MichelTrivi Jean-Marc Jot.Rendering MPEG-4 AABIFS content through a low-levelcross-platform 3D audio API.Multimedia and Expo

Also Published As

Publication number Publication date
KR100626653B1 (ko) 2006-09-22
CN1717956A (zh) 2006-01-04
KR20040034442A (ko) 2004-04-28

Similar Documents

Publication Publication Date Title
CN108305603B (zh) 音效处理方法及其设备、存储介质、服务器、音响终端
JP4393383B2 (ja) ユーザの選好度によるオーディオ信号適応変換装置、および、その方法
CN101820474B (zh) 通信系统
EP2092409B1 (en) Apparatus and method for inputting a command, method for displaying user interface of media signal, and apparatus for implementing the same, apparatus for processing mix signal and method thereof
KR100981694B1 (ko) 스테레오 신호들의 코딩
WO2016200530A1 (en) System and methods for locally customizing media content for rendering
US20050180578A1 (en) Apparatus and method for adapting audio signal
US20090132356A1 (en) System and method for profile based advertisement insertion into content for single and multi-user scenarios
CN1717956B (zh) 根据用户的喜好适配音频信号的装置和方法
JP2008269382A (ja) 携帯端末における自動ユーザ嗜好収集システムおよび該システムに用いるサーバ装置
KR101863672B1 (ko) 멀티미디어 컨텐츠 정보를 기반으로 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
KR102252541B1 (ko) 와이파이를 이용한 음향의 무선 디지털 전송 방법
Hwang et al. On-Device Intelligence for Real-Time Audio Classification and Enhancement
Franck et al. A system architecture for semantically informed rendering of object-based audio
EP2573728A1 (en) Sound-source distribution method for an electronic terminal, and system for same
Janer et al. An online platform for interactive soundscapes with user-contributed audio content
KR20180069614A (ko) 멀티미디어 컨텐츠 정보를 기반으로 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
Herre Audio coding-an all-round entertainment technology
Staff Intelligent Audio Environments
KR100885449B1 (ko) 믹스 신호 처리 장치 및 방법
Härmä Online acoustic measurements in a networked audio system
Yeh et al. A Karaoke System with Real‐Time Media Merging and Sharing Functions for a Cloud‐Computing‐Integrated Mobile Device
Piotrowski et al. Subjective tests on audio mix dedicated to MP3 coding
Smyth et al. Reducing the complexity of sub-band ADPCM coding to enable high-quality audio streaming from mobile devices
Mowen Can future audio products ever match the soundstage (perception of sound) and emotion conveyed from that of industry-standard monitors and acoustic spaces?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20060104

Assignee: Neo Lab Convergence Inc.

Assignor: Korea Electronic Communication Institute

Contract record no.: 2016990000259

Denomination of invention: Apparatus and method for adapting audio signal according to user's preference

Granted publication date: 20121107

License type: Exclusive License

Record date: 20160630

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20171015

CF01 Termination of patent right due to non-payment of annual fee