CN101427314B - 用于自动调整音频数据的播放速度的方法和装置 - Google Patents
用于自动调整音频数据的播放速度的方法和装置 Download PDFInfo
- Publication number
- CN101427314B CN101427314B CN200780014500.9A CN200780014500A CN101427314B CN 101427314 B CN101427314 B CN 101427314B CN 200780014500 A CN200780014500 A CN 200780014500A CN 101427314 B CN101427314 B CN 101427314B
- Authority
- CN
- China
- Prior art keywords
- voice data
- situation
- feature
- described voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008859 change Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 10
- 206010038743 Restlessness Diseases 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
一种管理音频数据的方法包括识别音频数据中的状况。响应识别状况,自动调整音频数据的回放速率。还公开其它实施例。
Description
技术领域
本发明的实施例涉及用于播放音频数据的媒体播放器。更具体地说,本发明的实施例涉及用于自动调整音频数据的播放速度的方法和装置。
背景技术
存在具有允许以比正常速率快的速率播放音频和音频-视频会话的记录的功能部件的媒体播放器。这允许用户在较短的时间周期内收听或观看这些会话。这些功能部件的使用在商业应用中很常见,例如在员工观看和/或收听培训会话、会议、会谈和报告时。这些功能部件的使用在娱乐应用中也很常见,例如在用户听收音机或播客、或看电视时。这些功能部件允许快速回放而无音频和视频小故障(glitch)。
通常,用户认为以正常回放速率的约1.2-1.9倍的回放速率回放音频数据是可以听清楚和理解的。但是,由于发言者的语速、背景噪声、沉默或填补式停顿的存在、和在音频数据回放过程中发生改变的其它标准,最佳速率会在回放期间改变。
现有的媒体播放器允许用户手动地调整音频数据的回放速率。当最佳回放速率在回放音频数据的过程中频繁改变时,手动做出调整会很不方便。此外,当做出手动调整时,收听者只会对音频数据的变化做出反应。在检测音频数据的变化和对此做出反应时体验到的延迟会导致以收听者不可理解的速率回放音频数据的部分。这会使收听者重新播放音频数据,并且因此否定了快速播放的一些益处。
附图说明
举例说明了本发明的实施例的特征和优点,不希望它们将本发明的实施例的范围限制在所示的特定实施例。
图1是可以在其中实现本发明的一个示范实施例的示例性系统的框图。
图2是根据本发明的一个示范实施例的播放速度调整单元的框图。
图3是根据本发明的一个示范实施例的变化速率积分器单元的框图。
图4是说明根据本发明的第一实施例用于管理音频数据的方法的流程图。
图5是说明根据本发明的第二实施例用于管理音频数据的方法的流程图。
图6是说明根据本发明的一个实施例用于生成播放速度控制值的方法的流程图。
具体实施方式
在以下描述中,出于说明的目的,阐述了特定术语,以便充分理解本发明的实施例。但是,本领域的技术人员将明白,不需要这些具体细节也可以实现本发明的实施例。在其它情况下,以框图形式示出熟知的电路、设备和过程,以免不必要地使本发明的实施例晦涩难懂。
图1是可以在其中实现本发明的实施例的系统的第一实施例的框图。该系统是计算机系统100。计算机系统100包括用于处理数据信号的一个或多个处理器。如图所示,计算机系统100包括第一处理器和第n个处理器105,其中n可以是任何数字。处理器101和105可以是复杂指令集计算机微处理器、精简指令集计算微处理器、超长指令字微处理器、用于实现指令集的组合的处理器或其它处理器设备。处理器101和105可以是在每个芯片上具有多个处理器核的多核处理器。处理器101和105耦合到CPU总线110,CPU总线110用于在处理器101和105与计算机系统100内的其它组件之间传送数据信号。
计算机系统100包括存储器113。存储器113包括可以是动态随机存取存储器(DRAM)设备的主存储器。存储器113可以存储由数据信号表示的指令和代码,这些指令和代码可由处理器101和105执行。高速缓存存储器(处理器高速缓存)可驻留在每个处理器101和105内以存储来自存储器113的数据信号。高速缓存可以通过利用它的存取局部性来加速处理器101和105的存储器存取。在计算机系统100的一个备选实施例中,高速缓存可驻留在处理器101和105的外部。
桥存储器控制器111耦合到CPU总线110和存储器113。桥存储器控制器111指挥处理器101和105、存储器113与计算机系统100内的其它组件之间的数据信号,并桥接CPU总线110、存储器113与第一输入输出(IO)总线120之间的数据信号。
第一IO总线120可以是单个总线或多个总线的组合。第一IO总线120提供计算机系统100中的组件之间的通信链接。网络控制器121耦合到第一IO总线120。网络控制器121可以将计算机系统100链接到计算机网络(未示出),并支持机器间的通信。显示设备控制器122耦合到第一IO总线120。显示设备控制器122允许将显示设备(未示出)耦合到计算机系统100,并充当显示设备与计算机系统100之间的接口。
第二IO总线130可以是单个总线或多个总线的组合。第二IO总线130提供计算机系统100中的组件之间的通信链接。数据存储设备131耦合到第二IO总线130。数据存储设备131可以是硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其它大容量存储设备。输入接口132耦合到第二IO总线130。输入接口132可以是例如键盘和/或鼠标控制器或其它输入接口。输入接口132可以是专用设备,或者可以驻留在诸如总线控制器或其它控制器的另一设备内。输入接口132允许将输入设备耦合到计算机系统100,并将数据信号从输入设备传送到计算机系统100。音频控制器133耦合到第二IO总线130。音频控制器133进行操作以便协调声音的记录和播放。总线桥123将第一IO总线120耦合到第二IO总线130。总线桥123进行操作以便缓冲和桥接第一IO总线120与第二IO总线130之间的数据信号。
根据本发明的一个实施例,可以在计算机系统100上实现播放速度调整单元140。根据一个实施例,响应处理器101执行存储器113中由播放速度调整单元140表示的指令序列,计算机系统100执行音频数据管理。这些指令可从诸如数据存储设备131的其它计算机可读介质或从经由网络控制器112连接到网络的计算机读入到存储器113中。存储器113中的指令序列的执行使处理器支持音频数据的管理。根据本发明的一个实施例,播放速度调整单元140识别音频数据的状况。响应识别到状况,播放速度调整单元140自动调整音频数据的回放速率。状况可以是例如语速(rate of speech)、背景噪声、填补式停顿(filled pause)或其它状况。
图2是根据本发明的一个示范实施例的播放速度调整单元200的框图。播放速度调整单元200可用于实现如图1所示的播放速度调整单元140。应明白,播放速度调整单元200可驻留在其它类型的系统中。播放速度调整单元200包括能以软件实现的多个模块。在备选实施例中,硬接线电路可以替代软件或与软件组合用于执行音频数据管理。因此,本发明的实施例不限于硬件电路和软件的任何特定组合。
播放速度调整单元200包括特征提取器单元210。特征提取器单元210从它接收的音频数据中提取特征。根据本发明的一个实施例,特征提取器单元210将音频数据从时域变换到频域,并在频域中识别特征。在一个实施例中,特征可以基于子带能量。在该实施例中,可以利用Mel频率倒谱系数或通过利用其它技术或过程来识别特征。根据一个备选实施例,特征可以基于音位特性。在该实施例中,音位特性可通过利用隐马尔可夫模型、维特比排列或动态时间规整相对于基准语音信号进行模式匹配或模式分类、或通过利用其它技术或过程来识别。应明白,特征可以基于其它性质并利用其它技术来识别。
播放速度调整单元200包括变化速率积分器单元220。变化速率积分器单元220辨识其中音频数据包含以发生变化的速率产生的语音的状况。根据一个实施例,变化速率积分器单元220产生对应于来自单元210的特征的在时间上平均的变化速率的输出。变化速率积分器220可以生成可用于调整音频数据的回放速率的播放速度控制值。根据其中特征是基于子带能量的实施例,变化速率积分器单元220可以测量特征的连续样本之间的差。通过对来自多个特征的测量结果取平均值,识别特征的总的变化速率。变化速率可用于确定语音变化速率和要生成的合适的播放速度控制值。根据其中特征是基于音位的实施例,可以在时间上对音位特性的变化速率求平均值以生成合适的播放速度控制值。
播放速度调整单元200可包括比较器单元230。比较器单元230辨识音频数据中何时存在其它状况。比较器单元230可以生成一个或多个播放速度控制值,这个或这些控制值可用于基于状况调整音频数据的回放速率。根据播放速度调整单元200的一个实施例,比较器单元230可以将音频数据的特征与反映不同状况的语音模型中的特征进行比较。可以将音频数据的特征与反映背景噪声的高、低量的语音模型进行比较,以便确定音频数据中存在的背景噪声的程度和录音的质量。根据本发明的一个实施例,如果音频数据中存在较大程度的背景噪声,则比较器单元230生成减缓回放速率的播放速度控制值。可以将音频数据的特征与反映语音停顿或用不会对音频数据的内容造成影响的措辞填补的停顿的语音模型进行比较,以便确定音频数据的一部分是否可在回放期间加速或进行编辑。应明白,还可类似地检测其它状况。例如,比较器单元230可以生成用于基于视频图像的变化来调整音频数据的回放速率的播放速度控制值。
播放速度调整单元200包括音频数据处理单元240。音频数据处理单元240接收一个或多个播放速度控制值。当音频数据处理单元240接收到多于一个播放速度控制值时,它可以取这些值的平均值,计算这些值的加权平均值,或取最小或最大值。音频数据处理单元240还接收待播放的音频数据,并响应上述一个或多个播放速度控制值而调整音频数据的回放速率。根据本发明的一个实施例,音频数据处理单元240可以通过执行选择性采样、同步重叠相加(synchronizedoverlap-add)、谐波定标(harmonic scaling)、或通过执行其它过程或技术来调整回放速率。
播放速度调整单元200可包括时间延迟单元250。时间延迟单元250延迟音频数据处理单元240接收音频数据的时间。通过插入延迟,时间延迟单元250允许变化速率积分器单元220和比较器单元230在通过音频数据处理单元240播放音频数据之前分析音频数据的特征并生成合适的播放速度控制值。
根据播放速度调整单元200的一个实施例,特征提取器单元210、变化速率积分器单元220、比较器单元230、音频数据处理单元240和时间延迟单元250可利用任何合适的过程、技术或电路来实现。应明白,所示的一些组件是可选的,如比较器单元230和时间延迟单元250。
图3是根据本发明的一个示范实施例的变化速率积分器单元300的框图。变化速率积分器单元300可以作为如图2所示的变化速率积分器单元220的一个实施例来实现。变化速率积分器单元300包括多个差单元。根据变化速率积分器单元300的一个实施例,为通过变化速率积分器单元300处理的每个特征类型提供一个差(difference)单元。方框310表示第一差单元。方框311表示第n个差单元,其中n可以是任何数字。差单元310和311将在不同时间周期从特征提取器单元接收的特征的性质进行比较,并计算差的绝对值(绝对差值)。例如,差单元310可以计算在时间t识别的第一类型的特征与在t-1识别的第一类型的特征的绝对差值。差单元311可以计算在时间t识别的第二类型的特征与在t-1识别的第二类型的特征的绝对差值。
变化速率积分器单元300可包括多个可选的加权单元。根据变化速率积分器单元300的一个实施例,为通过变化速率积分器单元300处理的每个特征类型提供一个加权单元。方框320表示第一加权单元。方框321表示第n个加权单元。每个加权单元对特征类型的绝对差值加权。加权单元320和321可以基于特征的性质对绝对差值加权。
变化速率积分器单元300包括求和单元330。求和单元330将由加权单元320和321接收的加权后的绝对差值求和。
变化速率积分器单元300包括播放速度控制单元340。播放速度控制单元340根据加权后的绝对差值的和生成播放速度控制值。根据变化速率积分器单元300的一个实施例,播放速度控制单元340对加权后的绝对差值的和取平均值。根据一个备选实施例,播放速度控制单元340在一定时间周期内对加权后的绝对差值的和求积分。
图4是说明根据本发明的第一实施例用于管理音频数据的方法的流程图。在401,将音频数据从时域变换到频域。根据本发明的一个实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频域。
在402,从变换到频域的音频数据识别特征。根据本发明的一个实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱系数来识别特征。根据本发明的一个备选实施例,频率可以基于音位特性(phoneme characteristics)。
在403,生成特征的变化速率的测量值(measure)。根据本发明的一个实施例,可以通过分析音频数据的特征来生成特征的变化速率的测量值。特征的变化速率的测量值可用于识别其中发言者的语速发生改变的状况。根据本发明的一个实施例,生成播放速度控制值。
在404,调整音频数据的回放速率。该调整可以基于在403确定的如播放速度控制值所反映的特征的变化速率。根据本发明的一个实施例,可以通过执行选择性采样、同步重叠相加、谐波定标、或通过执行其它过程来调整音频的回放速率。
图5是说明根据本发明的第二实施例用于管理音频数据的方法的流程图。在501,将音频数据从时域变换到频域。根据本发明的一个实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频域。
在502,从变换到频域的音频数据识别特征。根据本发明的一个实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱系数来识别特征。根据本发明的一个实施例,特征也可以基于音位特性。
在503,生成特征的变化速率的测量值。根据本发明的一个实施例,可以通过分析音频数据的特征来生成特征的变化速率的测量值。特征的变化速率的测量值可用于识别其中发言者的语速发生改变的状况。根据本发明的一个实施例,生成播放速度控制值。
在504,将在502识别的音频数据的特征与反映不同状况的语音模型中的特征进行比较,以便确定状况的存在。例如,可以将音频数据的特征与反映背景噪声的高、低量的语音模型进行比较,以便确定音频数据中存在的背景噪声的程度。也可以将音频数据的特征与反映语音停顿或用不会对音频数据的内容造成影响的措辞填补的停顿的语音模型进行比较,以便确定音频数据的一部分是否可在回放过程中加速或剪去或删去。应明白,还可检测其它状况。根据本发明的一个实施例,生成一个或多个播放速度控制值。
在505,根据所生成的播放速度控制值来确定播放速度调整。根据本发明的一个实施例,对播放速度控制值求平均值以便确定要对音频数据的回放速率做出调整的程度。根据本发明的一个备选实施例,取播放速度控制值的加权平均值以便确定要对音频数据的回放速率做出调整的程度。
在506,调整音频数据的回放速率。该调整可以基于所生成的播放速度控制值的平均值或加权平均值。根据本发明的一个实施例,可以通过执行选择性采样、同步重叠相加、谐波定标、或通过执行其它过程来调整音频的回放速率。
图6是说明根据本发明的一个实施例用于生成播放速度控制值的方法的流程图。如图6所示的方法可用于实现如图4和5所示的403和503。在601,确定多个特征类型的绝对差值。根据本发明的一个实施例,取在第一时间和第二时间测量的每个特征类型的差的绝对值。
在602,对特征类型的绝对差值加权。根据本发明的一个实施例,基于特征的性质对特征类型的绝对差值加权。
在603,对加权后的绝对差值一起求和。
在604,根据加权后的绝对差值的和生成播放速度控制值。根据本发明的一个实施例,取加权后的绝对差值的和的平均值。根据一个备选实施例,在一定时间周期内对加权后的绝对差值的和求积分。
根据本发明的一个实施例,用于管理音频数据的方法包括:识别音频数据的状况;以及响应识别状况,自动调整音频数据的回放速率。状况可以包括产生语音的速率的变化、背景噪声的存在、语音中停顿或填补式停顿的存在。通过自动调整回放速率,本发明的实施例允许收听者专心于正在播放的音频数据,而不必因必须手动调整回放速度而分神。
图4-6是说明根据本发明的实施例的方法的流程图。这些图中说明的一些技术可以连续、并行或按照与所描述的顺序不同的顺序执行。应明白,不需要执行所描述的所有技术,可以增加额外的技术,并且可以用其它技术来代替所说明的一些技术。
本发明的实施例可以作为计算机程序产品或软件提供,它可以包括具有指令的机器可访问或机器可读介质上的制造品。机器可访问或机器可读介质上的指令可用于对计算机系统或其它电子设备编程。机器可读介质可包括但不限于软盘、光盘、CD-ROM和磁-光盘或其它类型的适于存储或传送电子指令的介质/机器可读介质。本文描述的技术不限于任何特定的软件配置。它们可以应用于任何计算或处理环境。本文所用的术语“机器可访问介质”或“机器可读介质”应包括能够存储、编码或传送可供机器执行并使机器执行本文描述的任何一种方法的指令序列的任何介质。此外,本领域中常说一种或另一种形式的软件(例如,程序、过程、进程、应用程序、模块、单元、逻辑等)采取动作或导致结果。这些表述只是用来陈述通过处理系统执行软件而使处理器执行动作或产生结果的一种简略的方式。
在以上说明书中,参照其具体示例性实施例描述了本发明的实施例。但是,很明显,在不偏离本发明的实施例的广泛精神和范围的情况下,可以对此作出各种修改和改变。因此,应将说明书和附图视为是具说明性而不是限制性意义的。
Claims (19)
1.一种用于管理音频数据的方法,包括:
识别所述音频数据中的第一状况;
识别所述音频数据中的第二状况;以及
响应所述音频数据中的所述第一状况和所述第二状况,自动调整所述音频数据的回放速率。
2.如权利要求1所述的方法,其中所述第一状况是语速。
3.如权利要求2所述的方法,其中所述第二状况是噪声。
4.如权利要求2所述的方法,其中所述第二状况是填补式停顿。
5.如权利要求1所述的方法,其中识别所述第一状况包括:
将所述音频数据从时域转换到频域;
在所述频域中提取所述音频数据的特征;以及
分析所述音频数据的特征。
6.如权利要求1所述的方法,其中识别所述第一状况包括:
将所述音频数据从时域转换到频域;
在所述频域中提取所述音频数据的特征;以及
将所述音频数据的特征与模型进行比较。
7.如权利要求5所述的方法,其中所述特征包括子带能量。
8.如权利要求5所述的方法,其中所述特征包括音位特性。
9.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行选择性采样。
10.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行同步重叠相加。
11.如权利要求1所述的方法,其中调整所述音频数据的回放速率包括执行谐波定标。
12.一种用于管理音频数据的方法,包括:
通过将所述音频数据从时域转换到频域而识别音频数据中的状况;在所述频域中提取所述音频数据的特征;以及测量所述频域中提取的特征的改变速率;及
响应所述音频数据的所述特征的改变速率,自动调整所述音频数据的回放速率。
13.如权利要求12所述的方法,其中所述状况是语速。
14.如权利要求12所述的方法,其中所述状况是噪声。
15.如权利要求12所述的方法,其中所述状况是填补式停顿。
16.一种播放速度调整单元,包括:
用于识别音频数据的语速变化的变化速率积分器单元;
用于识别所述音频数据中与语速变化不同的状况的比较器单元;以及
用于响应所述语速变化和所述状况而调整所述音频数据的回放速率的音频数据处理单元。
17.如权利要求16所述的播放速度调整单元,其中所述状况是背景噪声。
18.如权利要求16所述的播放速度调整单元,还包括用于识别所述音频数据中的特征的特征提取器单元。
19.如权利要求16所述的播放速度调整单元,所述状况是填补式停顿。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/411,074 | 2006-04-25 | ||
US11/411,074 US20070250311A1 (en) | 2006-04-25 | 2006-04-25 | Method and apparatus for automatic adjustment of play speed of audio data |
PCT/US2007/067013 WO2007127671A1 (en) | 2006-04-25 | 2007-04-19 | Method and apparatus for automatic adjustment of play speed of audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101427314A CN101427314A (zh) | 2009-05-06 |
CN101427314B true CN101427314B (zh) | 2013-09-25 |
Family
ID=38620546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200780014500.9A Expired - Fee Related CN101427314B (zh) | 2006-04-25 | 2007-04-19 | 用于自动调整音频数据的播放速度的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20070250311A1 (zh) |
EP (1) | EP2011118B1 (zh) |
CN (1) | CN101427314B (zh) |
AT (1) | ATE543180T1 (zh) |
ES (1) | ES2377017T3 (zh) |
WO (1) | WO2007127671A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060209210A1 (en) * | 2005-03-18 | 2006-09-21 | Ati Technologies Inc. | Automatic audio and video synchronization |
CN101548294B (zh) * | 2006-11-30 | 2012-06-27 | 杜比实验室特许公司 | 提取视频和音频信号内容的特征以提供信号的可靠识别 |
JP2010283605A (ja) * | 2009-06-04 | 2010-12-16 | Canon Inc | 映像処理装置及び方法 |
GB2493413B (en) * | 2011-07-25 | 2013-12-25 | Ibm | Maintaining and supplying speech models |
US10158825B2 (en) * | 2015-09-02 | 2018-12-18 | International Business Machines Corporation | Adapting a playback of a recording to optimize comprehension |
CN105869626B (zh) * | 2016-05-31 | 2019-02-05 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
US11282534B2 (en) * | 2018-08-03 | 2022-03-22 | Sling Media Pvt Ltd | Systems and methods for intelligent playback |
CN111356010A (zh) * | 2020-04-01 | 2020-06-30 | 上海依图信息技术有限公司 | 一种获取音频最适播放速度的方法与系统 |
CN113542874A (zh) * | 2020-12-31 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 信息播放控制方法、装置、设备及计算机可读存储介质 |
CN113395545B (zh) * | 2021-06-10 | 2023-02-28 | 北京字节跳动网络技术有限公司 | 视频处理、视频播放方法、装置、计算机设备及存储介质 |
US11922824B2 (en) | 2022-03-23 | 2024-03-05 | International Business Machines Corporation | Individualized media playback pacing to improve the listener's desired outcomes |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490553B2 (en) * | 2000-05-22 | 2002-12-03 | Compaq Information Technologies Group, L.P. | Apparatus and method for controlling rate of playback of audio data |
CN1541359A (zh) * | 2001-06-11 | 2004-10-27 | �ֹ��� | 用于提供内容给多种类型的客户装置的堆积流 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
WO1996018184A1 (en) * | 1994-12-08 | 1996-06-13 | The Regents Of The University Of California | Method and device for enhancing the recognition of speech among speech-impaired individuals |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
KR970023192A (ko) * | 1995-10-31 | 1997-05-30 | 김광호 | 음성신호 자동변속재생방법 |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6009386A (en) * | 1997-11-28 | 1999-12-28 | Nortel Networks Corporation | Speech playback speed change using wavelet coding, preferably sub-band coding |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
US6278387B1 (en) * | 1999-09-28 | 2001-08-21 | Conexant Systems, Inc. | Audio encoder and decoder utilizing time scaling for variable playback |
KR100403238B1 (ko) * | 2000-09-30 | 2003-10-30 | 엘지전자 주식회사 | 비디오의 지능형 빨리 보기 시스템 |
CA2425844A1 (en) * | 2000-10-16 | 2002-04-25 | Eliza Corporation | Method of and system for providing adaptive respondent training in a speech recognition application |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
KR20030048303A (ko) * | 2001-12-12 | 2003-06-19 | 주식회사 하빈 | 주위환경 자동적응형 디지털 오디오 재생장치 |
US7149412B2 (en) * | 2002-03-01 | 2006-12-12 | Thomson Licensing | Trick mode audio playback |
GB0228245D0 (en) * | 2002-12-04 | 2003-01-08 | Mitel Knowledge Corp | Apparatus and method for changing the playback rate of recorded speech |
EP1469457A1 (en) * | 2003-03-28 | 2004-10-20 | Sony International (Europe) GmbH | Method and system for pre-processing speech |
US6999922B2 (en) * | 2003-06-27 | 2006-02-14 | Motorola, Inc. | Synchronization and overlap method and system for single buffer speech compression and expansion |
US7464028B2 (en) * | 2004-03-18 | 2008-12-09 | Broadcom Corporation | System and method for frequency domain audio speed up or slow down, while maintaining pitch |
US8032360B2 (en) * | 2004-05-13 | 2011-10-04 | Broadcom Corporation | System and method for high-quality variable speed playback of audio-visual media |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US7664558B2 (en) * | 2005-04-01 | 2010-02-16 | Apple Inc. | Efficient techniques for modifying audio playback rates |
US8050541B2 (en) * | 2006-03-23 | 2011-11-01 | Motorola Mobility, Inc. | System and method for altering playback speed of recorded content |
-
2006
- 2006-04-25 US US11/411,074 patent/US20070250311A1/en not_active Abandoned
-
2007
- 2007-04-19 CN CN200780014500.9A patent/CN101427314B/zh not_active Expired - Fee Related
- 2007-04-19 WO PCT/US2007/067013 patent/WO2007127671A1/en active Application Filing
- 2007-04-19 ES ES07760954T patent/ES2377017T3/es active Active
- 2007-04-19 AT AT07760954T patent/ATE543180T1/de active
- 2007-04-19 EP EP07760954A patent/EP2011118B1/en not_active Not-in-force
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490553B2 (en) * | 2000-05-22 | 2002-12-03 | Compaq Information Technologies Group, L.P. | Apparatus and method for controlling rate of playback of audio data |
CN1541359A (zh) * | 2001-06-11 | 2004-10-27 | �ֹ��� | 用于提供内容给多种类型的客户装置的堆积流 |
Non-Patent Citations (1)
Title |
---|
JP特开2001-242888A 2001.09.07 |
Also Published As
Publication number | Publication date |
---|---|
EP2011118B1 (en) | 2012-01-25 |
ES2377017T3 (es) | 2012-03-21 |
US20070250311A1 (en) | 2007-10-25 |
CN101427314A (zh) | 2009-05-06 |
EP2011118A4 (en) | 2010-09-22 |
EP2011118A1 (en) | 2009-01-07 |
WO2007127671A1 (en) | 2007-11-08 |
ATE543180T1 (de) | 2012-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101427314B (zh) | 用于自动调整音频数据的播放速度的方法和装置 | |
US11502859B2 (en) | Method and apparatus for waking up via speech | |
CN110265064B (zh) | 音频爆音检测方法、装置和存储介质 | |
CN109817219A (zh) | 语音唤醒测试方法及系统 | |
CN107068147A (zh) | 语音端点确定 | |
US6990446B1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN110581915B (zh) | 稳定性测试方法、装置、存储介质及电子设备 | |
US11089405B2 (en) | Spatial audio signaling filtering | |
US8682678B2 (en) | Automatic realtime speech impairment correction | |
CN111031329B (zh) | 一种用于管理音频数据的方法、设备和计算机存储介质 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
US20150340048A1 (en) | Voice processing device and voice processsing method | |
EP4033483A3 (en) | Method and apparatus for testing vehicle-mounted voice device, electronic device and storage medium | |
US20150098587A1 (en) | Processing apparatus, processing method, program, computer readable information recording medium and processing system | |
CN108829370B (zh) | 有声资源播放方法、装置、计算机设备及存储介质 | |
US20180082703A1 (en) | Suitability score based on attribute scores | |
CN115731943A (zh) | 一种爆音检测方法、爆音检测系统、存储介质和电子设备 | |
CN112837688B (zh) | 语音转写方法、装置、相关系统及设备 | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
CN112382296A (zh) | 一种声纹遥控无线音频设备的方法和装置 | |
CN111951786A (zh) | 声音识别模型的训练方法、装置、终端设备及介质 | |
Saukh et al. | Quantle: fair and honest presentation coach in your pocket | |
TWI817177B (zh) | 聲音播放系統及可適性音場調整方法 | |
WO2023245700A1 (zh) | 一种音频能量分析方法和相关装置 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130925 Termination date: 20170419 |