CN1463419A - 同步文本/可视信息与音频重放 - Google Patents

同步文本/可视信息与音频重放 Download PDF

Info

Publication number
CN1463419A
CN1463419A CN02801677A CN02801677A CN1463419A CN 1463419 A CN1463419 A CN 1463419A CN 02801677 A CN02801677 A CN 02801677A CN 02801677 A CN02801677 A CN 02801677A CN 1463419 A CN1463419 A CN 1463419A
Authority
CN
China
Prior art keywords
audio
audio file
data
text
visual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN02801677A
Other languages
English (en)
Inventor
D·李
K·特罗瓦托
M·拉马斯瓦米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1463419A publication Critical patent/CN1463419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/163Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43079Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Abstract

一种将可视信息与音频重放同步的方法包括以下步骤:从与显示装置有关的存储器中存储的列表选择所要求音频文件;从显示装置发送信号到远程装置,使远程装置开始播放所要求音频文件;以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息,从而使可视信息的显示与所要求音频文件的播放同步;其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。

Description

同步文本/可视信息与音频重放
相关申请交叉参考
本申请要求2001年3月23日提出的序号为60/278319(US010110)的美国临时专利申请的优先权,该专利的公开内容通过引用结合到本文中。
发明领域
本发明一般涉及提供歌曲文本的适时显示,用于卡拉OK系统等中;更具体地说,本发明涉及将文本和可视信息与音频重放同步的设备和方法。
发明背景
许多系统在音乐重放时具有在显示装置上显示歌曲文本的能力。例如,与卡拉OK系统相关的常规显示设备一般提供显示装置,显示装置根据录制的歌词数据表示歌词。歌词数据以预定短语单元的形式录制,其分段位置用于将所示歌词行改为另一行。
卡拉OK系统的问题是它们需要昂贵的手动编辑。因此,如果歌曲的流行程度不能在商业上保证创建歌词的文本文件的费用,则用户可能得不到所需歌曲的文本文件。此外,卡拉OK系统一般不便于携带并需要大屏幕。而且,歌词的显示一般适于特定的显示装置。因此,如果将为用于特定显示装置而制作的歌词数据用于另一显示装置(例如,具有更小屏幕的另一显示装置),则一个短语的字可能不会显示在一行上。
美国专利No.6062867公开了一种歌词显示设备,其中显示装置上歌词的显示状况逐渐随着一段音乐的进展而改变。歌词显示状况根据每首歌词存储的制作时间安排数据,以预定的时间间隔按预定量更改。
美国专利No.6053740提供了一种歌词显示设备,该设备存储包括第一行更改代码和第二行更改代码的歌词数据,其中,所述第一行更改代码用于定义在一行上要显示的预定字数,而所述第二行更改代码用于定义在该行上显示的字的分段位置。
尽管技术上取得了进步,但仍存在着对将文本或其它可视信息与其关联音频同步的精确有效设备和方法的需求。另一个存在的需求是可将歌词与词的音频形式同步的显示装置,从而使用户可跟随歌词。
发明概述
本发明利用音频处理技术将相关文本或其它可视信息与音频(特别是指音乐)重放同步。本发明可利用用户开始的字或歌词、对歌曲进行分段以定义字应用的位置,提取各段的开始和结束时间,为各段分配时标值,以及同步地显示歌词以使用户能够跟随。
本发明发现对卡拉OK类型的应用具有特别的适用性,在该类应用中,音频文件是歌曲,而可视信息是歌曲文本。分配时标数据,从而将可视信息与对应的话音或非话音段相关。显示装置被配置为在能够播放音频文件的远程装置中启动开始序列,并与音频文件的播放同步地显示可视信息。此外,通过在手持装置上提供可视信息输出,每个人可具有不同的视图,从而也使转换可方便地进行。
在本发明的一个方面中,同步可视信息与音频重放的方法包括以下步骤:从与显示装置相关的存储器中存储的列表选择所要求音频文件;从显示装置发送信号到远程装置,从而使远程装置开始播放所要求音频文件;以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息,从而使可视信息的显示与所要求音频文件的播放同步,其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。
附图概述
参考下述例示实施例说明和附图来更好地理解本发明,其中:
图1是显示一般音频数据分类的方框图;
图2显示多个不同类型音频信号的波形段;
图3是显示用于音频特征提取的工具组织的框图;
图4A是显示二维分区空间图;
图4B是显示与图4A对应的决策树的框图;
图5显示暂停检测过程不同阶段上的音频信号;
图6显示根据本发明的分段过程;
图7是歌曲的语音和非语音部分的图示;
图8显示了样本歌曲的文本;
图9A和9B显示样本歌曲文本以及相应时标文件的对应形式;
图10是显示根据本发明的时标生成过程概述的流程图;
图11是显示不同输入要素的流程图,这些输入要素可被用作根据本发明执行时标生成过程的基础;
图12是显示时标值调整的图示;
图13显示根据本发明使用的手持式显示装置;以及
图14是显示根据本发明将文本和/或可视信息与音频重放同步的方法的流程图。
发明详述
本发明提供了一种利用音频处理技术将相关文本或其它可视信息与音频重放同步的有效方法。根据本发明的一个方面,将音频文件分段成话音和非话音段,以改善相关可视信息与音频文件之间的同步。
以下说明按如下方式进行组织。首先,提供在音频信号分类中使用的各种时间域和谱域特征的背景论述。之后,对图1的音频类系统40执行的各种处理步骤中的每个步骤提供单独说明。
更具体地说,例示音频类系统40由下面结合图2和图3论述的特征提取步骤42、下面结合图4A、图4B和图5论述的暂停检测步骤44、下面结合图6论述的音频分段步骤46及下面也结合图6论述的音频段分类步骤48构成。
最后,用将文本和可视信息与音频重放同步的论述来结束说明。
时间域和谱域特征术语
首先参照图2和图3,计算短时平均能量的工具称为AvgEnergy。用于AvgEnergy的等式表示为: E W ‾ = 1 W Σ i s ( i ) s ( i ) w ( n - i ) , 其中
W是处理窗口的大小,而s(i)是离散时间音频话音。
就像下面的几种频谱特征,频谱形心是根据短时傅立叶变换计算得出,傅立叶变换是沿时间轴逐帧执行的。令 F i = { f i ( u ) } u = 0 M 表示第i帧的短时傅立叶变换,其中M是最高频带的指数。帧i的频谱形心计算方式如下: C i = Σ u = 0 M u · | f i ( u ) | 2 Σ u = 0 M | f i ( u ) | 2 . 帧i的FFT带宽计算方式如下: b i 2 = Σ u = 0 M ( u - c i ) 2 · | f i ( u ) | 2 Σ u = 0 M | f i ( u ) | 2 .
频谱衰减频率(SRF)对于低能量的无话音语音段通常很高,而对于具有相对更高能量的语音段则低得多。然而,音乐和噪音并非具有类似属性,这使得此特征对区分语音和其它类型的音频话音可能有用。SRF的定义如下: SRF i = max ( h | &Sigma; U = 0 h f i ( u ) < TH &CenterDot; &Sigma; u = 0 M f i ( u ) ) ,
其中,TH是介于0与1之间的阈值。
虽然频带能量比(BER)可以不同方式定义,但在各种定义之间基本上没有太大的差别。BER的计算如下: BER i = &Sigma; u = 0 h f i ( u ) &Sigma; u = 0 M f i ( u ) ,
其中,h=M/4。
Δ频谱幅度是很适合于语音/音乐鉴别器的特征。它的公式如下: &Delta;F i = &Sigma; u = 0 M | | | f i ( u ) | - | f i + 1 ( u ) | | |
过零率(ZCR)是频谱形心的相关。它被定义为处理窗口内时域过零的数量。
在诸如扬声器识别、语音分析和音频信息检索等许多应用中使用了音调轮廓线的知识。在许多适用的音调检测算法中,传统的基于自相关的音调跟踪器由于其坚固性而将得以利用。为避免大多数不必要的耗时的自相关计算并优化检测精确度,在音调检测方法中采用了一系列的修改策略。
已经对利用几种分类策略的十三种时间与频谱特征的不同组合进行了评估。这些评估显示对双向语音/音乐鉴别器具有超过90%的分类精确度,但对使用相同特征组区分语音、音乐和同时的语音与音乐的三向分类器只具有大约65%的精确度。还对广泛使用于语音识别领域的基于倒谱(cepstral)的特征进行了研究。提议将Mel(梅尔)倒谱(AC-Mel)参数用作语音中应力状况分类的适合特征。使用十四种Mel频率倒谱系统(MFCC),音频数据可分成七类,这齐类分别为:播音室语音、现场语音、带背景音乐的语音、噪音语音、音乐、无声及包括其它音频模式的无用信息。
音频分类系统40对音频信号进行处理,以将音频信号分成不同类别的段。结合本发明系统使用的连续GAD的七种音频类别由无声、单扬声器语音、音乐、环境噪音、多扬声器语音、同时的语音和音乐、以及语音与噪音组成。环境噪音类别指不具有前景声音的噪音。同时的语音与音乐类别包括具有背景音乐的歌唱与语音。图2显示了本发明考虑的GAD的七种类别的例示波形(除无声外)。
为便利可再用的和可扩展的设计,并使特征评估任务更易于执行,开发了图3所示的听觉工具箱20。听觉工具箱20可具有超过二十四个的工具。每个工具负责一个在音频数据分析期间经常需要的单项基本操作。通过利用工具箱20,与处理流式音频数据相关的许多烦琐任务对用户变得清楚起来,如缓冲器管理和优化、不同处理程序之间的同步、以及异常情况处理等。当前在工具箱20中实现的运算包括频率域运算、时间域运算和基本数学运算,如短时平均、对数运算、开窗和削波。由于在所有工具中定义了公共通信协议,因此一个工具的结果可与其它类型的工具进行共享而无任何限制。工具箱内的工具因此可以用很灵活的方式组织,以适合各种应用和要求。
特征提取42
图3显示了在特征提取步骤42(图1)期间用于提取六组声学特征的工具的例示配置。此工具配置包括MFCC 22、线性预测系数(LPC)24、ΔMFCC 26、ΔLPC 28、自相关MFCC 30及几种时间和频谱特征。注意,在随后的三个步骤44、46、48中使用的声学特征是沿时间轴从输入音频原始数据逐帧提取的。
利用滤波器组快速傅立叶变换(FFT)频谱的离散余弦变换(DCT)提取MFCC 22。计算是沿时间轴对窗口中的输入数据逐帧执行的。几种类型的窗口均适用,其中包括正方形窗口和汉明窗口。
利用自相关方法实现LPC 24的提取。每个处理步骤提取十二个系数。
ΔMFCC 26、ΔLPC 28和自相关MFCC 30特征为MFCC 22或LPC 24的移动提供定量测量。它们在语音领域的一些应用中已被采用。这些特征的定义如下:
ΔMFCCi(v)=MFCCi+1(v)-MFCCi(v),
ΔLPCi(v)=LPCi+1(v)-LPCi(v), ACMFCC i ( 1 ) ( v ) = 1 L &Sigma; j = i i + L ( MFCC j ( v ) &CenterDot; MFCC j + 1 ( v ) ) ,
其中,MFCCi(v)和LPCi(v)分别表示帧i的第v个MFCC和LPC。L是相关窗口长度。上标l是相关滞后值。根据上述声学特征,通过分析相邻帧的声学特征,可进一步提取在音频段分类中使用的更多其它特征。
根据实验结果,这些对应于如600ms的更长时间上的音频数据特性的特征更适用于音频段的分类。用于音频段分类的特征包括:(i)以所关心帧为中心的一定数量的连续帧的声学特征的平均值和方差;(ii)暂停率(能量低于阈值的帧数与所考虑的总帧数之间的比率);(iii)调和性(具有有效音调值的帧数与所考虑的总帧数之间比率);以及(iv)MFCC、ΔMFCC、自相关MFCC、LPC及ΔLPC的总能量。
暂停检测44
暂停检测44负责将输入音频剪辑分成非话音段和话音段。此处,暂停指的是听众判定一段没有声音的时段,而不是辅音停止或稍微停顿所引起的。因此,对于暂停检测器而言,产生与人的感觉一致的结果是很重要的。
可在从GAD检测暂停期的步骤44期间实现三步骤过程。具体地说,例示暂停检测过程44包括(i)将音频数据的每个帧区分为话音或暂停;其次是(ii)填充过程;以及(iii)丢弃过程。根据在步骤42期间工具箱提取的特征,首先将输入音频数据逐帧标记为话音或暂停帧以获得原始边界。可以使用图4B所示的决策树算法进行逐帧分类。决策树是根据分层特征空间分区方法获得的。在图4A和图4B中,显示了二维特征空间的区分结果及其相应的暂停检测决策树。由于在第一步骤中获得的结果通常对于无声和轻微停顿敏感,因此,在随后的两个步骤中应用填充过程和丢弃过程,从而生成与人们对暂停的感觉更一致的结果。
在填充过程中,长度小于填充阈值的暂停段、即暂停帧的继续序列被重新标记为话音段,并与相邻的话音段相合并。在丢弃过程中,强度值小于强度阈值且标记为话音的段被重新标记为非话音段。话音段的强度定义如下:
其中,L是话音段强度,而T1对应于图4A中显示的最低话音水平。定义段强度的基本思想是考虑话音能量,而不是直接使用段长度,这样,瞬间声音突发段将不会在丢弃过程中被标记为非话音。
图5显示了暂停检测算法的三个步骤。图5中显示了四个不同的线图。曲线62显示了从源接收时的原始音频输入信号。曲线64显示了原始数据的归一化形式,其中强音频信号的各部分用方波表示。在曲线66中,通过组合最小的间距,将方波评估为整体且相邻方块。接着,从曲线66继续到68,评估每个特定音频信号的强度,并且去掉曲线66中心的一个峰,因为音频信号很弱。
如上所述,暂停检测阶段44产生两种段:话音和非话音。非话音段由于已分类而无需任何其它处理。但话音段需要在分类前进行其它处理以标记过渡点,即下层信号类别变化的位置。
分段46
为找出过渡点,分段方案46使用了具有两个连续步骤的过程:中断检测和中断合并。在中断检测步骤期间,移动话音段上的大检测窗口,并比较各个滑动位置上不同半个窗口的平均能量。这允许检测两种类型的中断:
其中, E1和 E2分别是第一半和第二半检测窗口的平均能量。开动中断表示由信号能量增加导致音频类别可能改变。类似地,下降(offset)中断暗指由能量降低导致下层信号类别的改变。由于中断检测窗口沿信号滑动,因此下层信号的音频类别中的单一过渡可生成几个连续中断。这种中断系列的合并在分段过程的第二步骤期间完成。在此步骤期间,将同一类型的相邻中断合并成单个中断。如果下降中断与开动中断彼此靠近,则将下降中断与紧随其后的开动中断合并。这是为了连接一个信号的末端与另一信号的开始之间的任何小间隙。
图6通过信号中断的检测与合并提供分段过程46的说明。分类器将音频数据的连续比特流分析为不同的非重叠段,从而使各段在其类方面是同质的。分段合并方案是一种有效方法,可减少边界效应,并生成与人的感觉相一致的分类结果。由于从一个类别到另一类别的音频过渡可造成分类错误,因此,分段合并方案提供了减少此类错误的有效方式。分段合并方案的分段部分被用于定位话音段中发生从一种音频类型到另一种类型过渡的边界。此部分使用开动和下降测量,这些测量表示话音改变得有多快,以定位输入话音段中的边界。分段处理46的结果是产生更小的同质话音段。在分类48时使用分段合并方案的合并部件。它涉及到合并逐帧分类结果,以便对分段话音段进行分类。
音频段分类48
为了对音频段进行分类,首先要对段中的每个帧进行分类。帧由滑动窗口70定义,而滑动窗口70逐渐地沿着由信号生成的能量波形72移动,如图6所示。随后,集成帧分类结果以形成整个段的分类标记。集成由合并过程执行,该过程对分配给每个音频类别的帧数进行统计。统计中表现最突出的类别被作为段的音频分类标记。如上所述,用于对帧进行分类的特征不仅来自于该帧,而且也来自于其它帧。分类是在假设每个类别具有多维高斯分布的情况下,使用贝叶斯分类器执行的。帧分类的分类规则可表示如下:
c*=arg minc=1,2,...,C{D2(x,mc,Sc)+ln(det Sc)-2ln(pc)}
其中,C是候选类别的总数(在此示例中,C为6)。然而,在优选实施例中,候选类别的总数为2。第一类别表示“话音”(词或歌唱)。第二类别表示“非话音”(话音外的其它信号,如器乐、噪音、无声等)。c*是分类结果,x是分析的帧的特征矢量。参量mc、Sc和pc分别表示平均矢量、协方差矩阵和类c的概率,而D2(x,mc,Sc)表示x与mc之间的马哈朗诺比斯(Mahalanobis)距离。由于mc、Sc和pc未知,因此,这些参量使用最大后验(MAP)估计量确定。
分类算法利用最低时间增量(如秒)定义最可能的分类。这减少了较短增量下可能出现的瞬间分类数量。分类算法实质上是一种平滑功能。
语音映射是在识别的语音段上映射输入文本的过程。理想的是,得到的文本在出现大多数暂停处、例如每节结束时带有额外的空行。在图7的示例中,具有两个语音段S1和S2。如图8所示,用户输入了文本100,该文本带有显示每节结束的空行102。随后,将如图9A或图9B所示给歌词加上时标,这将在下面进一步详细描述。
在最简单的情况下,如图7所示,“段落”数量将与歌曲“具有语音”的部分相匹配。这样,查看节内每行的“时标”将以线性方式提供。表示分类变化的时标将定义一个类别的结束和另一类别的开始。在歌曲结束时,最好提供具有空白文本或诸如“~结束~”之类的文本指示符的时标来清显示屏。如果输入的文本没有空行,则文本会以线性方式分布在可得到的语音段上。
例示时标文件如图9A和9B所示。图9A和图9B的时标110(通常以秒为单位测量)显示于歌曲文本112的左侧。
图9A中的时标110显示为经过时间。即由于第一个时标值为十五(15),因此,在Mysong开始十五秒后将显示第一行文本。第一行将显示五秒钟,即从十五秒经过时间到二十秒的经过时间。当经过时间等于二十(20)秒时,将显示第二行文本。歌曲的其它行将根据其它时标值按顺序显示。
在备选实施例中,图9B中的时标110显示为延迟(停留)时间。虽然结果相同,但在这种情况下,有一个空行显示十秒钟,然后显示第一行文本五秒钟。对于以“显示然后延迟”循环操作的系统,较好的是将时间计算为延迟,这样,它们可立即使用。
文本显示时间安排将是不同的,这取决于显示单元的性能。即,如果一节太长,或屏幕长度太小,则无法显示全屏,并且如果以整页方式一次显示字词,则“累积延迟”(即延迟总和)现在等于继续下页前的延迟时间量。
根据本发明,可以采用几种技术确定时标信息。先参照图10,所示流程图显示了根据本发明的时标生成过程概述。
存在两个与生成时标文件相关的基本活动。第一个活动是检索音乐200并将其分段成相关类别。第二个活动是检索与音乐200相关的文本210并可选地设计文本模式。随后,音乐200通过时标生成器220与文本210相匹配,以形成时标文件230。时标文件230可生成一次,然后可选地与其它用户共享(如通过因特网)。时标文件230被载入具有显示器的装置,显示器在本文中被称为显示系统240。
选择歌曲后,显示系统240将文本210与音乐200同步显示。例如,显示系统240可以是Philips Electronic(菲利普电子)制造的ProntoTM显示器。ProntoTM发射红外线辐射(IR)命令,以同步地开始显示序列和音乐及文本。同步开始功能允许控制单独的预先存在的远程装置,例如,如光盘(CD)播放器,但会在ProntoTM上显示字词。它的有利之处在于可实现文本的同步显示而无需购买新的显示系统。
有许多方式可用于为时标生成过程提供音乐文本。最好是提供了字词的文本文件。传递文本的方式包括读取数据的传递机制、手动输入、网络传送、无线传输、可移动存储技术以及本领域技术人员熟知的其它方法。例如,歌词的传递可通过从CD-Rom上的数据纹迹读取并存储歌词、经数字电视传输中嵌入的RDS FM副载波、寻呼机传递的数据、从因特网检索的数据、听音乐的人手动键入的数据中,通过诸如SmartMedia、CompactFlash存储卡或记忆棒之类的可移动媒体进行的数据传送。
时标生成可以简单地根据句子或段落总的持续时间为每个字分配时标值。在得到更具特征的信息时,此过程也可提供更精确的时标信息。
根据本发明,诸如音乐歌词的分析等时标过程的复杂应用最好是在计算机上执行。简单的时标生成并不需要计算机。结果随后可经因特网服务提供商张贴并在服务器上共享。
分析和文本分段是两项技术,可用于根据诸如字词之间的不同符号或间隔等各种指示符将歌词分段成句子或段落。或者,诸如编辑器技术中使用的语法机制可用于将段映射到分类时标。这将允许使用标点符号进一步指导时间的安排。
在采用不昂贵的集成电路芯片支持时,同样可以预计到时标生成过程也可以直接由音乐播放器执行。
现在参照图11,描述各种方法的流程图可作为根据本发明执行时标生成过程154的基础。
仅使用文本段146和话音/非话音段时间安排信息140时,确定时标值的算法可表示如下: T i = S + ( S - E ) &CenterDot; i N
其中,Ti是要生成时标的段中第i个字的时标;S和E是通过音乐分析获得的段的开始和结束时间;而N是段中的总字数。
通过统计音节数量而不是字数,发音字典段150允许生成更精确的时标值。这种情况下,N是总音节数,而i是当前字之前的音节数。
通过统计从段开始已经过的全部音符数(由于音符通常不代表音乐段的引入和过渡,即那些没有话音的音乐段,因此只统计全部音符本身将不精确),利用音乐段148的音符标音可生成更精确的时标值,整音符数可因不同的版本而有很大的变化。因此,在这种情况下,N表示段中的全部音符数,i表示当前字之前的全部音符数量。
借助于自动语音识别软件(ASR),有可能检测到音乐中出现的关键字。
节拍技术142和关键字技术144可分别用于验证和修改上述利用其它方法获得的结果。例如,节拍和全部音符方法可检测话音段可持续的长度,并且其它段被假定为非话音段。
特定方法的使用是可选的并且取决于应用要求和资源适用性。例如,在小芯片上实现时标生成过程154时,最好利用简单算法并且不需要虚线框所示的方法142、144、148和150。然而,如果资源适用性并不是问题,并且目标是生成尽可能精确的信息(例如,用于因特网服务提供商或用于自动生成商业卡拉OK光盘的信息),则可能需要方法142、144、148和150。
图12显示了用于精炼时标数据以确保它与实际歌词相一致的方法。如图所示,根据图11所示方法144,检查从歌曲中提取的关键字位置,以确定它们是否与抄本中的实际关键字位置一致。如果时标数据中的关键字位置与抄本中的关键字实际位置并不完全匹配,则可相应地移动时标数据。
更具体地说,图12显示了三个表示歌曲的音乐/话音(本文中也被称为非语音/语音)段的框。框160只是表示分析的歌曲原始数据。框162显示了实际关键字与时标生成过程提取的关键字位置之间的不匹配。关键字K1和K2的实际位置分别由虚竖线166和168表示。竖线170和172显示根据时标数据的关键字K1和K2的位置。因此,要改进时标数据的精确度,必须参照框162按图12所示箭头方向调整关键字K1和K2的位置。框164显示调整过程的最终结果。因此,关键字K1和K2的时标数据分别对应于标识为174和176的实际K1和K2位置。
一旦形成与各部分文本相关的精确时标后,诸如ProntoTM的手持显示系统就可在适当的时间显示文本。
可以用多种方式将文本显示在屏幕上,以改善可读性、美感或娱乐性。例如,可以将句子自动换行以便其更易于显示,在新行出现时可以冲掉文本,或者根据屏幕大小,可每隔N行进行一次清屏。也有从屏幕底部到顶部将文本换行的方式。例如,屏幕可分成交替刷新的顶部和底部两半。这使观众在查看当前半页的同时可看到上半页的结尾。虽然可以滚动文本,但这常难以在显示屏上读取。
还设想,在具有男声和女声合唱歌词的歌曲中,可在男声唱的特定歌词与女声唱的特定歌词之间进行区别。这样,在显示歌词时,可以在显示装置上形成诸如字体或颜色变化的表示,以提示男性或女性何时由他或她演唱(例如,在卡拉OK情况中)。
或者,逻辑暂停(如在句号或逗号后)可自动追加“新行”(或回车)符。对于句号,可以输入两个新行以表示句子结束,这对于作曲通常也是表示节的结束。在分析器技术中,可检测到此类格式化,从而有利于正确的插入和格式化。
也可提供非字项(如图片)进行显示。非字项将根据剩下的文本的时间安排而适当显示。或者,如果可利用特殊检测(如鼓声检测),则可显示特殊非字标识符(例如鼓的图片或动画)或诸如“drumsolo(鼓乐独奏)”的专门短语。
另外,字可以具有点缀它们的特殊声音、图片、动画或视频。这些特殊“非字”项可作为格式化的一部分生成,这样,每次检测到“关键字”时,可插入特殊项。例如,只要使用“女孩”这两个字,则一个女孩的图片便会适时地与字一起显示。非字项可替代关键字,或者可以既显示关键字又显示非字项。
本领域的技术人员可预见许多其它显示方法。
如图13所示,Philips ProntoTM显示器180能够显示六行文本182。因此,对于ProntoTM,一次可显示整节。用空行填充屏幕结尾。
利用诸如ProntoTM显示器的手持显示装置,可以用同步方式在多个装置上显示歌曲文本,以允许两个或更多人跟随音频文本。在此实施例中,每个同步装置可从作为服务器操作的装置收到“go(进行)”消息。或者,服务器可动态地发送文本和时间安排到所有其它同步装置,这样,其它同步装置不必存储文本,从而节省了宝贵的存储空间。
现在参照图14,所示的流程图显示了根据本发明将文本和/或可视信息与音频重放同步的方法。在步骤1405中,用户从手持装置中的存储器内存储的歌曲列表中选择歌名。可以通过例如按按钮或触控式屏幕将选择从用户传送到手持装置。或者,还可以设想,用户可选择“随机”作为选择项,由此系统将在已知歌曲组中选择随机歌曲。随机选择可使用随机数生成器选择不同的歌曲,一次一首。这可以替代此步骤的用户输入,直至用户停止或复位系统。
手持装置内的处理器处理用户的请求并发送信号(例如,红外信号)到远程装置。信号指示远程装置调整到与用户选择的所要求歌曲对应的所要求音频曲目。或者,如果远程装置不具有自动调整到特定所要求音频曲目(例如,到第5首曲目)的能力,则手持装置将发送信号到远程装置以复位远程装置。即,远程装置将接到关机、重启、然后数到所要求曲目的指令。此步骤确保远程装置与手持装置同步。
还设想到,可将一个或多个文件载入并存储在单个手持装置中。手持装置将具有按名称、分类、主题、日期或其它标准将文件分类的功能。将文件载入手持装置可通过对接装置或者通过本领域技术人员所熟知的有线或无线技术完成。
一旦远程装置找到所要求曲目,手持装置就发出播放信号以便使远程装置真正开始播放选定歌曲。如步骤1415所示,在短暂延迟,以允许远程装置真正开始播放选定歌曲后,手持装置将开始同步显示文本与远程装置上正播放的音频型式。
步骤1420是初始化步骤,其中检查手持装置以确定是否有任何文本行要显示,显示行计数器被设为零,并且显示行数被设为N。随后,在步骤1425中,显示所要求歌曲的名称。
在步骤1430中,检查是否存在其它文本段。如果不存在要显示的其它文本段,则如步骤1435所示结束方法。如果存在要显示的其它文本段,则方法将继续到步骤1440,在该步骤中,读取文本段和相关延时(时标)。在步骤1445和1450中,如果延时大于零,则方法将在延时期间等待。在此延时期间,文本将显示在显示装置的屏幕上。
一旦延迟时间结束,分别如步骤1455和1460所示,所有显示行将从屏幕上清除,并且显示行计数器将复位到零。
如果在步骤1445中延时等于零,则方法将直接继续到步骤1465和步骤1470,在这两个步骤中,显示行计数器并加一。
最后,在步骤1475中,确定是否达到最后文本段。如果达到了最后文本段,则方法继续到步骤1480,该步骤表示没有其它适用文本。从步骤1480,方法会执行另一次检查,以确定在步骤1430中是否有适用文本。由于无其它文本适用,因此,在步骤1430中问题的答案为否,并且方法将在步骤1435结束。
但是,如果未达到最后文本段,并且因此步骤1475中所提出问题的答案是否,则方法将再次从步骤1430开始。
虽然本文参照附图描述了本发明的说明性实施例,但可以理解,本发明并不限于那些精确的实施例,并且在不背景本发明范围或精神的情况下,本领域的技术人员可实现其它各种改变和修改。例如,诸如标记的特征(例如,跳动的球或音乐音符)可添加到显示器上,以表示文本中的当前位置,或者可以用不同语言显示文本。另外,时标文本可提供给诸如因特网上的其它用户。所有此类改变和修改都应包括在所附权利要求书定义的本发明范围内。

Claims (12)

1.一种将可视信息与音频重放同步的方法,所述方法包括以下步骤:
接收用户选择的所要求音频文件(1410);
开始播放所述所要求音频文件(1415);以及
根据时标数据(230)在显示装置(240)上显示与所述所要求音频文件相关的可视信息(1465),从而使所述可视信息的显示与所述所要求音频文件的所述播放同步,其特征在于播放所述所要求音频文件的开始与所述显示步骤的开始随来自所述显示装置的信号而变。
2.如权利要求1所述的方法,其特征在于所述显示装置包括手持装置(180)。
3.如权利要求1所述的方法,其特征在于所述信号在远程装置播放所述所要求音频文件之前关断并接通所述远程装置。
4.如权利要求1所述的方法,其特征在于还包括以下步骤:分析所述音频文件并生成对应于与所述音频文件相关的所述可视信息的时标数据(220)。
5.如权利要求4所述的方法,其特征在于利用基于文本的过程(146)生成所述时标数据。
6.如权利要求4所述的方法,其特征在于利用发音字典过程(150)生成所述时标数据。
7.如权利要求4所述的方法,其特征在于利用音乐的音符标音过程(148)生成所述时标数据。
8.如权利要求4所述的方法,其特征在于利用从音乐中提取的节拍信息(142)生成所述时标数据。
9.如权利要求4所述的方法,其特征在于还包括以下步骤:将从所述所要求音频文件提取的关键字位置与所述时标数据内的关键字的实际位置相比较,并将所述提取的关键字的所述位置调整为与所述时标数据内的所述关键字的所述位置相匹配(160-176)。
10.如权利要求1所述的方法,其特征在于还包括以下步骤:从所述显示装置发送信号到远程装置,以使所述远程装置启动。
11.一种从音频源生成时标数据的方法,所述方法包括以下步骤:
从所述音频源提取话音和非话音数据(140);
分析所述话音和非话音数据,以标识在所述话音和非话音数据中的选定信息,所述选定信息提供生成时标的基础;以及
生成与各个所述选定信息相关的时标值(154)。
12.一种将相关可视信息与音频重放同步的设备,所述设备包括:
特征提取装置,用于从音频数据提取声学特征(42);
暂停检测器装置,用于检测所述音频数据中的暂停(44);
分类器装置,用于将音频数据的连续比特流分析为不同的非重叠段,从而使各段在其类方面是同质的(46);以及
时标装置,用于为每段分配时标值(220)。
CN02801677A 2001-03-23 2002-03-22 同步文本/可视信息与音频重放 Pending CN1463419A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US27831901P 2001-03-23 2001-03-23
US60/278,319 2001-03-23
US09/998,033 US7058889B2 (en) 2001-03-23 2001-11-29 Synchronizing text/visual information with audio playback
US09/998,033 2001-11-29

Publications (1)

Publication Number Publication Date
CN1463419A true CN1463419A (zh) 2003-12-24

Family

ID=26959037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02801677A Pending CN1463419A (zh) 2001-03-23 2002-03-22 同步文本/可视信息与音频重放

Country Status (7)

Country Link
US (1) US7058889B2 (zh)
EP (1) EP1374219A2 (zh)
JP (1) JP2004521385A (zh)
KR (1) KR20030017522A (zh)
CN (1) CN1463419A (zh)
TW (1) TW550539B (zh)
WO (1) WO2002077966A2 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1332365C (zh) * 2004-02-18 2007-08-15 陈德卫 一种实现音频和文本信息同步控制的方法和装置
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN101079301B (zh) * 2006-07-28 2010-06-09 埃里克·路易斯·汉森 一种计算机实现的创建从文本到音频记录的时序映射方法
CN101079992B (zh) * 2004-07-30 2010-10-06 联发科技股份有限公司 影音信号同步播放装置及其方法
CN103502969A (zh) * 2009-06-13 2014-01-08 罗莱斯塔尔有限公司 用于分别录制场景的顺序并置的系统
CN103703431A (zh) * 2011-06-03 2014-04-02 苹果公司 自动创建文本数据与音频数据之间的映射
CN103988193A (zh) * 2011-03-23 2014-08-13 奥德伯公司 管理同步内容的播放
CN110415723A (zh) * 2019-07-30 2019-11-05 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质
US11030992B2 (en) 2009-06-13 2021-06-08 Rolr, Inc. System for communication skills training using juxtaposition of recorded takes

Families Citing this family (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
GB2381688B (en) * 2001-11-03 2004-09-22 Dremedia Ltd Time ordered indexing of audio-visual data
GB2381638B (en) * 2001-11-03 2004-02-04 Dremedia Ltd Identifying audio characteristics
US20070022465A1 (en) * 2001-11-20 2007-01-25 Rothschild Trust Holdings, Llc System and method for marking digital media content
US8122466B2 (en) 2001-11-20 2012-02-21 Portulim Foundation Llc System and method for updating digital media content
US8504652B2 (en) 2006-04-10 2013-08-06 Portulim Foundation Llc Method and system for selectively supplying media content to a user and media storage device for use therein
US7503059B1 (en) 2001-12-28 2009-03-10 Rothschild Trust Holdings, Llc Method of enhancing media content and a media enhancement system
US8909729B2 (en) 2001-11-20 2014-12-09 Portulim Foundation Llc System and method for sharing digital media content
US7711774B1 (en) * 2001-11-20 2010-05-04 Reagan Inventions Llc Interactive, multi-user media delivery system
KR100563680B1 (ko) * 2001-11-27 2006-03-28 엘지전자 주식회사 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법
KR20030043299A (ko) * 2001-11-27 2003-06-02 주식회사 엘지이아이 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법
AU2003249663A1 (en) * 2002-05-28 2003-12-12 Yesvideo, Inc. Summarization of a visual recording
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP2004205605A (ja) * 2002-12-24 2004-07-22 Yamaha Corp 音声および楽曲再生装置およびシーケンスデータフォーマット
US11650784B2 (en) 2003-07-28 2023-05-16 Sonos, Inc. Adjusting volume levels
US11106424B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
US10613817B2 (en) 2003-07-28 2020-04-07 Sonos, Inc. Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group
US8086752B2 (en) * 2006-11-22 2011-12-27 Sonos, Inc. Systems and methods for synchronizing operations among a plurality of independently clocked digital data processing devices that independently source digital data
US11106425B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
US8234395B2 (en) 2003-07-28 2012-07-31 Sonos, Inc. System and method for synchronizing operations among a plurality of independently clocked digital data processing devices
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US11294618B2 (en) 2003-07-28 2022-04-05 Sonos, Inc. Media player system
KR20050015937A (ko) * 2003-08-05 2005-02-21 삼성전자주식회사 정보 저장 매체, 그 재생 장치 및 방법
EP1652181A1 (en) * 2003-08-05 2006-05-03 Samsung Electronics Co., Ltd. Information storage medium, and apparatus and method of reproducing information from the same
US20050039128A1 (en) * 2003-08-14 2005-02-17 Ying-Hao Hsu Audio player with lyrics display
JP2007504495A (ja) * 2003-08-26 2007-03-01 クリアプレイ,インク. 音響信号の演奏を制御する方法と装置
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
US20050123886A1 (en) * 2003-11-26 2005-06-09 Xian-Sheng Hua Systems and methods for personalized karaoke
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
EP1542206A1 (en) * 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
US9977561B2 (en) 2004-04-01 2018-05-22 Sonos, Inc. Systems, methods, apparatus, and articles of manufacture to provide guest access
US9374607B2 (en) 2012-06-26 2016-06-21 Sonos, Inc. Media playback system with guest access
US8868698B2 (en) 2004-06-05 2014-10-21 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
US8326951B1 (en) 2004-06-05 2012-12-04 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
TW200604922A (en) * 2004-07-23 2006-02-01 Hon Hai Prec Ind Co Ltd Apparatus and method for controlling sounds and images
CN100454296C (zh) * 2004-07-29 2009-01-21 鸿富锦精密工业(深圳)有限公司 声音影像控制装置及方法
KR100643451B1 (ko) 2004-09-10 2006-11-10 주식회사 팬택 화상 데이터와 텍스트 데이터의 동기화 출력 기능을가지는 화상 단말기 및 그 방법
EP1640989B1 (en) * 2004-09-22 2016-04-27 Yamaha Corporation Electronic music apparatus and music-related data display method
KR100496834B1 (ko) * 2004-10-20 2005-06-22 이기운 휴대용 동영상 멀티미디어 플레이어 및 마이크 타입 영상노래 반주 장치
US7735012B2 (en) * 2004-11-04 2010-06-08 Apple Inc. Audio user interface for computing devices
KR100677156B1 (ko) * 2004-12-08 2007-02-02 삼성전자주식회사 음원 관리 방법 및 그 장치
US7567899B2 (en) 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US20070061364A1 (en) * 2005-08-05 2007-03-15 Realnetworks, Inc., System and method for text-based searching of media content
JP4972645B2 (ja) 2005-08-26 2012-07-11 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
JP4994623B2 (ja) * 2005-08-31 2012-08-08 富士通株式会社 テキスト編集・再生装置、コンテンツ編集・再生装置及びテキスト編集・再生方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070061694A1 (en) * 2005-09-09 2007-03-15 Nortrup John H Communication interface for communication impaired individuals
US20070074116A1 (en) * 2005-09-29 2007-03-29 Teleios, Inc. Multi-pane navigation/synchronization in a multimedia presentation system
US20070162839A1 (en) * 2006-01-09 2007-07-12 John Danty Syndicated audio authoring
US9037466B2 (en) * 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
US8510277B2 (en) * 2006-03-09 2013-08-13 International Business Machines Corporation Informing a user of a content management directive associated with a rating
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
US8275243B2 (en) * 2006-08-31 2012-09-25 Georgia Tech Research Corporation Method and computer program product for synchronizing, displaying, and providing access to data collected from various media
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US8726154B2 (en) * 2006-11-27 2014-05-13 Sony Corporation Methods and apparatus for controlling transition behavior of graphical user interface elements based on a dynamic recording
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100860510B1 (ko) 2007-04-23 2008-09-26 엠엠비 주식회사 모바일 장치에서 시각 효과가 삽입된 슬라이드 쇼의 생성방법
US20080270913A1 (en) * 2007-04-26 2008-10-30 Howard Singer Methods, Media, and Devices for Providing a Package of Assets
KR100844071B1 (ko) * 2007-05-09 2008-07-07 엘지전자 주식회사 웹페이지 표시가 가능한 이동통신 단말기 및 그 제어방법
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090307207A1 (en) * 2008-06-09 2009-12-10 Murray Thomas J Creation of a multi-media presentation
US8478592B2 (en) * 2008-07-08 2013-07-02 Nuance Communications, Inc. Enhancing media playback with speech recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010055259A (ja) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc 画像処理装置、画像処理プログラム及び画像処理方法
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US20100141838A1 (en) * 2008-12-08 2010-06-10 Andrew Peter Steggles Presentation synchronization system and method
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
JP2010250023A (ja) 2009-04-14 2010-11-04 Fujitsu Ltd テキスト表示機能付情報処理装置、データ取得方法およびデータ取得プログラム
JP5434408B2 (ja) * 2009-05-15 2014-03-05 富士通株式会社 携帯型情報処理装置、コンテンツ再生方法およびコンテンツ再生プログラム
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8620967B2 (en) 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US20110085782A1 (en) * 2009-10-14 2011-04-14 Ozymandias Wong Method for synchronizing audio data with secondary data
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9159338B2 (en) * 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
CN102270489A (zh) * 2011-07-29 2011-12-07 深圳市有方科技有限公司 应用于语言学习中的字幕显示方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US20130295533A1 (en) * 2012-05-03 2013-11-07 Lyrics2Learn, Llc Method and System for Educational Linking of Lyrical Phrases and Musical Structure
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8961183B2 (en) * 2012-06-04 2015-02-24 Hallmark Cards, Incorporated Fill-in-the-blank audio-story engine
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
GB2506613A (en) * 2012-10-03 2014-04-09 Memeplex Ltd User input timing data to generate a video for accompanying an audio track
WO2014112206A1 (ja) * 2013-01-15 2014-07-24 ソニー株式会社 記憶制御装置、再生制御装置および記録媒体
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9224374B2 (en) * 2013-05-30 2015-12-29 Xiaomi Inc. Methods and devices for audio processing
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9378651B2 (en) 2013-12-17 2016-06-28 Google Inc. Audio book smart pause
US9549068B2 (en) 2014-01-28 2017-01-17 Simple Emotion, Inc. Methods for adaptive voice interaction
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR102207208B1 (ko) * 2014-07-31 2021-01-25 삼성전자주식회사 음악 정보 시각화 방법 및 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US20170060531A1 (en) * 2015-08-27 2017-03-02 Fred E. Abbo Devices and related methods for simplified proofreading of text entries from voice-to-text dictation
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106653037B (zh) * 2015-11-03 2020-02-14 广州酷狗计算机科技有限公司 音频数据处理方法和装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN107229629B (zh) * 2016-03-24 2021-03-19 腾讯科技(深圳)有限公司 音频识别方法及装置
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US11354510B2 (en) 2016-12-01 2022-06-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
US10360260B2 (en) * 2016-12-01 2019-07-23 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
CN106649644B (zh) * 2016-12-08 2020-02-07 腾讯音乐娱乐(深圳)有限公司 一种歌词文件生成方法及装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110718239A (zh) * 2019-10-15 2020-01-21 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
US11257480B2 (en) * 2020-03-03 2022-02-22 Tencent America LLC Unsupervised singing voice conversion with pitch adversarial network
CN114064964A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN113206853B (zh) * 2021-05-08 2022-07-29 杭州当虹科技股份有限公司 一种视频批改结果保存改进方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2925754B2 (ja) * 1991-01-01 1999-07-28 株式会社リコス カラオケ装置
USRE37131E1 (en) * 1991-02-19 2001-04-10 Roy J. Mankovitz Apparatus and methods for music and lyrics broadcasting
JP3516406B2 (ja) * 1992-12-25 2004-04-05 株式会社リコス カラオケオーサリング装置
US5608839A (en) 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP3144241B2 (ja) * 1994-10-14 2001-03-12 ヤマハ株式会社 カラオケ装置およびカラオケシステム
US5648628A (en) * 1995-09-29 1997-07-15 Ng; Tao Fei S. Cartridge supported karaoke device
JP3226011B2 (ja) * 1995-09-29 2001-11-05 ヤマハ株式会社 歌詞表示装置
JP3008834B2 (ja) * 1995-10-25 2000-02-14 ヤマハ株式会社 歌詞表示装置
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
CA2252490A1 (en) 1996-04-26 1997-11-06 Eloquent A method and system for synchronizing and navigating multiple streams of isochronous and non-isochronous data
US5953005A (en) * 1996-06-28 1999-09-14 Sun Microsystems, Inc. System and method for on-line multimedia access
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6600874B1 (en) * 1997-03-19 2003-07-29 Hitachi, Ltd. Method and device for detecting starting and ending points of sound segment in video
US6077084A (en) * 1997-04-01 2000-06-20 Daiichi Kosho, Co., Ltd. Karaoke system and contents storage medium therefor
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1332365C (zh) * 2004-02-18 2007-08-15 陈德卫 一种实现音频和文本信息同步控制的方法和装置
CN101079992B (zh) * 2004-07-30 2010-10-06 联发科技股份有限公司 影音信号同步播放装置及其方法
CN101079301B (zh) * 2006-07-28 2010-06-09 埃里克·路易斯·汉森 一种计算机实现的创建从文本到音频记录的时序映射方法
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN101567184B (zh) * 2009-03-24 2013-07-10 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
US11030992B2 (en) 2009-06-13 2021-06-08 Rolr, Inc. System for communication skills training using juxtaposition of recorded takes
CN103502969A (zh) * 2009-06-13 2014-01-08 罗莱斯塔尔有限公司 用于分别录制场景的顺序并置的系统
CN103502969B (zh) * 2009-06-13 2017-01-18 罗莱斯塔尔有限公司 用于分别录制场景的顺序并置的系统
US11848003B2 (en) 2009-06-13 2023-12-19 Rolr, Inc. System for communication skills training using juxtaposition of recorded takes
US10079993B2 (en) 2009-06-13 2018-09-18 Rolestar, Inc. System for juxtaposition of separately recorded videos
CN103988193A (zh) * 2011-03-23 2014-08-13 奥德伯公司 管理同步内容的播放
CN103703431A (zh) * 2011-06-03 2014-04-02 苹果公司 自动创建文本数据与音频数据之间的映射
CN103703431B (zh) * 2011-06-03 2018-02-09 苹果公司 自动创建文本数据与音频数据之间的映射
CN110415723A (zh) * 2019-07-30 2019-11-05 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质
CN110415723B (zh) * 2019-07-30 2021-12-03 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
JP2004521385A (ja) 2004-07-15
WO2002077966A2 (en) 2002-10-03
EP1374219A2 (en) 2004-01-02
WO2002077966A3 (en) 2003-02-27
US20020163533A1 (en) 2002-11-07
KR20030017522A (ko) 2003-03-03
TW550539B (en) 2003-09-01
US7058889B2 (en) 2006-06-06

Similar Documents

Publication Publication Date Title
CN1463419A (zh) 同步文本/可视信息与音频重放
CN101689225B (zh) 生成音乐小样和识别相关的歌曲结构
JP3941417B2 (ja) ソース音声信号内の新規点の識別方法
Casey et al. Content-based music information retrieval: Current directions and future challenges
EP2494544B1 (en) Complexity scalable perceptual tempo estimation
Prechelt et al. An interface for melody input
Herrera et al. Automatic labeling of unpitched percussion sounds
EP3843083A1 (en) Method, system, and computer-readable medium for creating song mashups
US20100198760A1 (en) Apparatus and methods for music signal analysis
Mion et al. Score-independent audio features for description of music expression
CN1703734A (zh) 从声音确定音符的方法和装置
Rocha et al. Segmentation and timbre-and rhythm-similarity in Electronic Dance Music
CN110010159B (zh) 声音相似度确定方法及装置
Ghosal et al. Music classification based on MFCC variants and amplitude variation pattern: a hierarchical approach
Goto et al. Recent studies on music information processing
CN105895079B (zh) 语音数据的处理方法和装置
CN105679296A (zh) 乐器演奏评判的方法和装置
Pardo Finding structure in audio for music information retrieval
Mehrabi et al. Vocal imitation for query by vocalisation
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Dixon Analysis of musical content in digital audio
Liu et al. Adaptive music resizing with stretching, cropping and insertion: A generic content-aware music resizing framework
Paiva et al. From pitches to notes: Creation and segmentation of pitch tracks for melody detection in polyphonic audio
JP2017062313A (ja) カラオケ装置,カラオケシステム,及びプログラム
Wang Automatic Classification of Playing Techniques in Guitar Pro Songs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication