CN1463419A - 同步文本/可视信息与音频重放 - Google Patents
同步文本/可视信息与音频重放 Download PDFInfo
- Publication number
- CN1463419A CN1463419A CN02801677A CN02801677A CN1463419A CN 1463419 A CN1463419 A CN 1463419A CN 02801677 A CN02801677 A CN 02801677A CN 02801677 A CN02801677 A CN 02801677A CN 1463419 A CN1463419 A CN 1463419A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio file
- data
- text
- visual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/162—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
- H04N7/163—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/4104—Peripherals receiving signals from specially adapted client devices
- H04N21/4126—The peripheral being portable, e.g. PDAs or mobile phones
- H04N21/41265—The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43079—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/041—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/325—Synchronizing two or more audio tracks or files according to musical features or musical timings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/135—Autocorrelation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
Abstract
一种将可视信息与音频重放同步的方法包括以下步骤:从与显示装置有关的存储器中存储的列表选择所要求音频文件;从显示装置发送信号到远程装置,使远程装置开始播放所要求音频文件;以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息,从而使可视信息的显示与所要求音频文件的播放同步;其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。
Description
相关申请交叉参考
本申请要求2001年3月23日提出的序号为60/278319(US010110)的美国临时专利申请的优先权,该专利的公开内容通过引用结合到本文中。
发明领域
本发明一般涉及提供歌曲文本的适时显示,用于卡拉OK系统等中;更具体地说,本发明涉及将文本和可视信息与音频重放同步的设备和方法。
发明背景
许多系统在音乐重放时具有在显示装置上显示歌曲文本的能力。例如,与卡拉OK系统相关的常规显示设备一般提供显示装置,显示装置根据录制的歌词数据表示歌词。歌词数据以预定短语单元的形式录制,其分段位置用于将所示歌词行改为另一行。
卡拉OK系统的问题是它们需要昂贵的手动编辑。因此,如果歌曲的流行程度不能在商业上保证创建歌词的文本文件的费用,则用户可能得不到所需歌曲的文本文件。此外,卡拉OK系统一般不便于携带并需要大屏幕。而且,歌词的显示一般适于特定的显示装置。因此,如果将为用于特定显示装置而制作的歌词数据用于另一显示装置(例如,具有更小屏幕的另一显示装置),则一个短语的字可能不会显示在一行上。
美国专利No.6062867公开了一种歌词显示设备,其中显示装置上歌词的显示状况逐渐随着一段音乐的进展而改变。歌词显示状况根据每首歌词存储的制作时间安排数据,以预定的时间间隔按预定量更改。
美国专利No.6053740提供了一种歌词显示设备,该设备存储包括第一行更改代码和第二行更改代码的歌词数据,其中,所述第一行更改代码用于定义在一行上要显示的预定字数,而所述第二行更改代码用于定义在该行上显示的字的分段位置。
尽管技术上取得了进步,但仍存在着对将文本或其它可视信息与其关联音频同步的精确有效设备和方法的需求。另一个存在的需求是可将歌词与词的音频形式同步的显示装置,从而使用户可跟随歌词。
发明概述
本发明利用音频处理技术将相关文本或其它可视信息与音频(特别是指音乐)重放同步。本发明可利用用户开始的字或歌词、对歌曲进行分段以定义字应用的位置,提取各段的开始和结束时间,为各段分配时标值,以及同步地显示歌词以使用户能够跟随。
本发明发现对卡拉OK类型的应用具有特别的适用性,在该类应用中,音频文件是歌曲,而可视信息是歌曲文本。分配时标数据,从而将可视信息与对应的话音或非话音段相关。显示装置被配置为在能够播放音频文件的远程装置中启动开始序列,并与音频文件的播放同步地显示可视信息。此外,通过在手持装置上提供可视信息输出,每个人可具有不同的视图,从而也使转换可方便地进行。
在本发明的一个方面中,同步可视信息与音频重放的方法包括以下步骤:从与显示装置相关的存储器中存储的列表选择所要求音频文件;从显示装置发送信号到远程装置,从而使远程装置开始播放所要求音频文件;以及根据时标数据在显示装置上显示与所要求音频文件相关的可视信息,从而使可视信息的显示与所要求音频文件的播放同步,其中播放所要求音频文件的开始与显示步骤的开始随来自显示装置的信号而变。
附图概述
参考下述例示实施例说明和附图来更好地理解本发明,其中:
图1是显示一般音频数据分类的方框图;
图2显示多个不同类型音频信号的波形段;
图3是显示用于音频特征提取的工具组织的框图;
图4A是显示二维分区空间图;
图4B是显示与图4A对应的决策树的框图;
图5显示暂停检测过程不同阶段上的音频信号;
图6显示根据本发明的分段过程;
图7是歌曲的语音和非语音部分的图示;
图8显示了样本歌曲的文本;
图9A和9B显示样本歌曲文本以及相应时标文件的对应形式;
图10是显示根据本发明的时标生成过程概述的流程图;
图11是显示不同输入要素的流程图,这些输入要素可被用作根据本发明执行时标生成过程的基础;
图12是显示时标值调整的图示;
图13显示根据本发明使用的手持式显示装置;以及
图14是显示根据本发明将文本和/或可视信息与音频重放同步的方法的流程图。
发明详述
本发明提供了一种利用音频处理技术将相关文本或其它可视信息与音频重放同步的有效方法。根据本发明的一个方面,将音频文件分段成话音和非话音段,以改善相关可视信息与音频文件之间的同步。
以下说明按如下方式进行组织。首先,提供在音频信号分类中使用的各种时间域和谱域特征的背景论述。之后,对图1的音频类系统40执行的各种处理步骤中的每个步骤提供单独说明。
更具体地说,例示音频类系统40由下面结合图2和图3论述的特征提取步骤42、下面结合图4A、图4B和图5论述的暂停检测步骤44、下面结合图6论述的音频分段步骤46及下面也结合图6论述的音频段分类步骤48构成。
最后,用将文本和可视信息与音频重放同步的论述来结束说明。
时间域和谱域特征术语
首先参照图2和图3,计算短时平均能量的工具称为AvgEnergy。用于AvgEnergy的等式表示为: 其中
W是处理窗口的大小,而s(i)是离散时间音频话音。
就像下面的几种频谱特征,频谱形心是根据短时傅立叶变换计算得出,傅立叶变换是沿时间轴逐帧执行的。令
表示第i帧的短时傅立叶变换,其中M是最高频带的指数。帧i的频谱形心计算方式如下: 帧i的FFT带宽计算方式如下:
频谱衰减频率(SRF)对于低能量的无话音语音段通常很高,而对于具有相对更高能量的语音段则低得多。然而,音乐和噪音并非具有类似属性,这使得此特征对区分语音和其它类型的音频话音可能有用。SRF的定义如下:
其中,TH是介于0与1之间的阈值。
虽然频带能量比(BER)可以不同方式定义,但在各种定义之间基本上没有太大的差别。BER的计算如下:
其中,h=M/4。
Δ频谱幅度是很适合于语音/音乐鉴别器的特征。它的公式如下:
过零率(ZCR)是频谱形心的相关。它被定义为处理窗口内时域过零的数量。
在诸如扬声器识别、语音分析和音频信息检索等许多应用中使用了音调轮廓线的知识。在许多适用的音调检测算法中,传统的基于自相关的音调跟踪器由于其坚固性而将得以利用。为避免大多数不必要的耗时的自相关计算并优化检测精确度,在音调检测方法中采用了一系列的修改策略。
已经对利用几种分类策略的十三种时间与频谱特征的不同组合进行了评估。这些评估显示对双向语音/音乐鉴别器具有超过90%的分类精确度,但对使用相同特征组区分语音、音乐和同时的语音与音乐的三向分类器只具有大约65%的精确度。还对广泛使用于语音识别领域的基于倒谱(cepstral)的特征进行了研究。提议将Mel(梅尔)倒谱(AC-Mel)参数用作语音中应力状况分类的适合特征。使用十四种Mel频率倒谱系统(MFCC),音频数据可分成七类,这齐类分别为:播音室语音、现场语音、带背景音乐的语音、噪音语音、音乐、无声及包括其它音频模式的无用信息。
音频分类系统40对音频信号进行处理,以将音频信号分成不同类别的段。结合本发明系统使用的连续GAD的七种音频类别由无声、单扬声器语音、音乐、环境噪音、多扬声器语音、同时的语音和音乐、以及语音与噪音组成。环境噪音类别指不具有前景声音的噪音。同时的语音与音乐类别包括具有背景音乐的歌唱与语音。图2显示了本发明考虑的GAD的七种类别的例示波形(除无声外)。
为便利可再用的和可扩展的设计,并使特征评估任务更易于执行,开发了图3所示的听觉工具箱20。听觉工具箱20可具有超过二十四个的工具。每个工具负责一个在音频数据分析期间经常需要的单项基本操作。通过利用工具箱20,与处理流式音频数据相关的许多烦琐任务对用户变得清楚起来,如缓冲器管理和优化、不同处理程序之间的同步、以及异常情况处理等。当前在工具箱20中实现的运算包括频率域运算、时间域运算和基本数学运算,如短时平均、对数运算、开窗和削波。由于在所有工具中定义了公共通信协议,因此一个工具的结果可与其它类型的工具进行共享而无任何限制。工具箱内的工具因此可以用很灵活的方式组织,以适合各种应用和要求。
特征提取42
图3显示了在特征提取步骤42(图1)期间用于提取六组声学特征的工具的例示配置。此工具配置包括MFCC 22、线性预测系数(LPC)24、ΔMFCC 26、ΔLPC 28、自相关MFCC 30及几种时间和频谱特征。注意,在随后的三个步骤44、46、48中使用的声学特征是沿时间轴从输入音频原始数据逐帧提取的。
利用滤波器组快速傅立叶变换(FFT)频谱的离散余弦变换(DCT)提取MFCC 22。计算是沿时间轴对窗口中的输入数据逐帧执行的。几种类型的窗口均适用,其中包括正方形窗口和汉明窗口。
利用自相关方法实现LPC 24的提取。每个处理步骤提取十二个系数。
ΔMFCC 26、ΔLPC 28和自相关MFCC 30特征为MFCC 22或LPC 24的移动提供定量测量。它们在语音领域的一些应用中已被采用。这些特征的定义如下:
ΔMFCCi(v)=MFCCi+1(v)-MFCCi(v),
ΔLPCi(v)=LPCi+1(v)-LPCi(v),
其中,MFCCi(v)和LPCi(v)分别表示帧i的第v个MFCC和LPC。L是相关窗口长度。上标l是相关滞后值。根据上述声学特征,通过分析相邻帧的声学特征,可进一步提取在音频段分类中使用的更多其它特征。
根据实验结果,这些对应于如600ms的更长时间上的音频数据特性的特征更适用于音频段的分类。用于音频段分类的特征包括:(i)以所关心帧为中心的一定数量的连续帧的声学特征的平均值和方差;(ii)暂停率(能量低于阈值的帧数与所考虑的总帧数之间的比率);(iii)调和性(具有有效音调值的帧数与所考虑的总帧数之间比率);以及(iv)MFCC、ΔMFCC、自相关MFCC、LPC及ΔLPC的总能量。
暂停检测44
暂停检测44负责将输入音频剪辑分成非话音段和话音段。此处,暂停指的是听众判定一段没有声音的时段,而不是辅音停止或稍微停顿所引起的。因此,对于暂停检测器而言,产生与人的感觉一致的结果是很重要的。
可在从GAD检测暂停期的步骤44期间实现三步骤过程。具体地说,例示暂停检测过程44包括(i)将音频数据的每个帧区分为话音或暂停;其次是(ii)填充过程;以及(iii)丢弃过程。根据在步骤42期间工具箱提取的特征,首先将输入音频数据逐帧标记为话音或暂停帧以获得原始边界。可以使用图4B所示的决策树算法进行逐帧分类。决策树是根据分层特征空间分区方法获得的。在图4A和图4B中,显示了二维特征空间的区分结果及其相应的暂停检测决策树。由于在第一步骤中获得的结果通常对于无声和轻微停顿敏感,因此,在随后的两个步骤中应用填充过程和丢弃过程,从而生成与人们对暂停的感觉更一致的结果。
在填充过程中,长度小于填充阈值的暂停段、即暂停帧的继续序列被重新标记为话音段,并与相邻的话音段相合并。在丢弃过程中,强度值小于强度阈值且标记为话音的段被重新标记为非话音段。话音段的强度定义如下:
其中,L是话音段强度,而T1对应于图4A中显示的最低话音水平。定义段强度的基本思想是考虑话音能量,而不是直接使用段长度,这样,瞬间声音突发段将不会在丢弃过程中被标记为非话音。
图5显示了暂停检测算法的三个步骤。图5中显示了四个不同的线图。曲线62显示了从源接收时的原始音频输入信号。曲线64显示了原始数据的归一化形式,其中强音频信号的各部分用方波表示。在曲线66中,通过组合最小的间距,将方波评估为整体且相邻方块。接着,从曲线66继续到68,评估每个特定音频信号的强度,并且去掉曲线66中心的一个峰,因为音频信号很弱。
如上所述,暂停检测阶段44产生两种段:话音和非话音。非话音段由于已分类而无需任何其它处理。但话音段需要在分类前进行其它处理以标记过渡点,即下层信号类别变化的位置。
分段46
为找出过渡点,分段方案46使用了具有两个连续步骤的过程:中断检测和中断合并。在中断检测步骤期间,移动话音段上的大检测窗口,并比较各个滑动位置上不同半个窗口的平均能量。这允许检测两种类型的中断:
其中,
E1和
E2分别是第一半和第二半检测窗口的平均能量。开动中断表示由信号能量增加导致音频类别可能改变。类似地,下降(offset)中断暗指由能量降低导致下层信号类别的改变。由于中断检测窗口沿信号滑动,因此下层信号的音频类别中的单一过渡可生成几个连续中断。这种中断系列的合并在分段过程的第二步骤期间完成。在此步骤期间,将同一类型的相邻中断合并成单个中断。如果下降中断与开动中断彼此靠近,则将下降中断与紧随其后的开动中断合并。这是为了连接一个信号的末端与另一信号的开始之间的任何小间隙。
图6通过信号中断的检测与合并提供分段过程46的说明。分类器将音频数据的连续比特流分析为不同的非重叠段,从而使各段在其类方面是同质的。分段合并方案是一种有效方法,可减少边界效应,并生成与人的感觉相一致的分类结果。由于从一个类别到另一类别的音频过渡可造成分类错误,因此,分段合并方案提供了减少此类错误的有效方式。分段合并方案的分段部分被用于定位话音段中发生从一种音频类型到另一种类型过渡的边界。此部分使用开动和下降测量,这些测量表示话音改变得有多快,以定位输入话音段中的边界。分段处理46的结果是产生更小的同质话音段。在分类48时使用分段合并方案的合并部件。它涉及到合并逐帧分类结果,以便对分段话音段进行分类。
音频段分类48
为了对音频段进行分类,首先要对段中的每个帧进行分类。帧由滑动窗口70定义,而滑动窗口70逐渐地沿着由信号生成的能量波形72移动,如图6所示。随后,集成帧分类结果以形成整个段的分类标记。集成由合并过程执行,该过程对分配给每个音频类别的帧数进行统计。统计中表现最突出的类别被作为段的音频分类标记。如上所述,用于对帧进行分类的特征不仅来自于该帧,而且也来自于其它帧。分类是在假设每个类别具有多维高斯分布的情况下,使用贝叶斯分类器执行的。帧分类的分类规则可表示如下:
c*=arg minc=1,2,...,C{D2(x,mc,Sc)+ln(det Sc)-2ln(pc)}
其中,C是候选类别的总数(在此示例中,C为6)。然而,在优选实施例中,候选类别的总数为2。第一类别表示“话音”(词或歌唱)。第二类别表示“非话音”(话音外的其它信号,如器乐、噪音、无声等)。c*是分类结果,x是分析的帧的特征矢量。参量mc、Sc和pc分别表示平均矢量、协方差矩阵和类c的概率,而D2(x,mc,Sc)表示x与mc之间的马哈朗诺比斯(Mahalanobis)距离。由于mc、Sc和pc未知,因此,这些参量使用最大后验(MAP)估计量确定。
分类算法利用最低时间增量(如秒)定义最可能的分类。这减少了较短增量下可能出现的瞬间分类数量。分类算法实质上是一种平滑功能。
语音映射是在识别的语音段上映射输入文本的过程。理想的是,得到的文本在出现大多数暂停处、例如每节结束时带有额外的空行。在图7的示例中,具有两个语音段S1和S2。如图8所示,用户输入了文本100,该文本带有显示每节结束的空行102。随后,将如图9A或图9B所示给歌词加上时标,这将在下面进一步详细描述。
在最简单的情况下,如图7所示,“段落”数量将与歌曲“具有语音”的部分相匹配。这样,查看节内每行的“时标”将以线性方式提供。表示分类变化的时标将定义一个类别的结束和另一类别的开始。在歌曲结束时,最好提供具有空白文本或诸如“~结束~”之类的文本指示符的时标来清显示屏。如果输入的文本没有空行,则文本会以线性方式分布在可得到的语音段上。
例示时标文件如图9A和9B所示。图9A和图9B的时标110(通常以秒为单位测量)显示于歌曲文本112的左侧。
图9A中的时标110显示为经过时间。即由于第一个时标值为十五(15),因此,在Mysong开始十五秒后将显示第一行文本。第一行将显示五秒钟,即从十五秒经过时间到二十秒的经过时间。当经过时间等于二十(20)秒时,将显示第二行文本。歌曲的其它行将根据其它时标值按顺序显示。
在备选实施例中,图9B中的时标110显示为延迟(停留)时间。虽然结果相同,但在这种情况下,有一个空行显示十秒钟,然后显示第一行文本五秒钟。对于以“显示然后延迟”循环操作的系统,较好的是将时间计算为延迟,这样,它们可立即使用。
文本显示时间安排将是不同的,这取决于显示单元的性能。即,如果一节太长,或屏幕长度太小,则无法显示全屏,并且如果以整页方式一次显示字词,则“累积延迟”(即延迟总和)现在等于继续下页前的延迟时间量。
根据本发明,可以采用几种技术确定时标信息。先参照图10,所示流程图显示了根据本发明的时标生成过程概述。
存在两个与生成时标文件相关的基本活动。第一个活动是检索音乐200并将其分段成相关类别。第二个活动是检索与音乐200相关的文本210并可选地设计文本模式。随后,音乐200通过时标生成器220与文本210相匹配,以形成时标文件230。时标文件230可生成一次,然后可选地与其它用户共享(如通过因特网)。时标文件230被载入具有显示器的装置,显示器在本文中被称为显示系统240。
选择歌曲后,显示系统240将文本210与音乐200同步显示。例如,显示系统240可以是Philips Electronic(菲利普电子)制造的ProntoTM显示器。ProntoTM发射红外线辐射(IR)命令,以同步地开始显示序列和音乐及文本。同步开始功能允许控制单独的预先存在的远程装置,例如,如光盘(CD)播放器,但会在ProntoTM上显示字词。它的有利之处在于可实现文本的同步显示而无需购买新的显示系统。
有许多方式可用于为时标生成过程提供音乐文本。最好是提供了字词的文本文件。传递文本的方式包括读取数据的传递机制、手动输入、网络传送、无线传输、可移动存储技术以及本领域技术人员熟知的其它方法。例如,歌词的传递可通过从CD-Rom上的数据纹迹读取并存储歌词、经数字电视传输中嵌入的RDS FM副载波、寻呼机传递的数据、从因特网检索的数据、听音乐的人手动键入的数据中,通过诸如SmartMedia、CompactFlash存储卡或记忆棒之类的可移动媒体进行的数据传送。
时标生成可以简单地根据句子或段落总的持续时间为每个字分配时标值。在得到更具特征的信息时,此过程也可提供更精确的时标信息。
根据本发明,诸如音乐歌词的分析等时标过程的复杂应用最好是在计算机上执行。简单的时标生成并不需要计算机。结果随后可经因特网服务提供商张贴并在服务器上共享。
分析和文本分段是两项技术,可用于根据诸如字词之间的不同符号或间隔等各种指示符将歌词分段成句子或段落。或者,诸如编辑器技术中使用的语法机制可用于将段映射到分类时标。这将允许使用标点符号进一步指导时间的安排。
在采用不昂贵的集成电路芯片支持时,同样可以预计到时标生成过程也可以直接由音乐播放器执行。
现在参照图11,描述各种方法的流程图可作为根据本发明执行时标生成过程154的基础。
仅使用文本段146和话音/非话音段时间安排信息140时,确定时标值的算法可表示如下:
其中,Ti是要生成时标的段中第i个字的时标;S和E是通过音乐分析获得的段的开始和结束时间;而N是段中的总字数。
通过统计音节数量而不是字数,发音字典段150允许生成更精确的时标值。这种情况下,N是总音节数,而i是当前字之前的音节数。
通过统计从段开始已经过的全部音符数(由于音符通常不代表音乐段的引入和过渡,即那些没有话音的音乐段,因此只统计全部音符本身将不精确),利用音乐段148的音符标音可生成更精确的时标值,整音符数可因不同的版本而有很大的变化。因此,在这种情况下,N表示段中的全部音符数,i表示当前字之前的全部音符数量。
借助于自动语音识别软件(ASR),有可能检测到音乐中出现的关键字。
节拍技术142和关键字技术144可分别用于验证和修改上述利用其它方法获得的结果。例如,节拍和全部音符方法可检测话音段可持续的长度,并且其它段被假定为非话音段。
特定方法的使用是可选的并且取决于应用要求和资源适用性。例如,在小芯片上实现时标生成过程154时,最好利用简单算法并且不需要虚线框所示的方法142、144、148和150。然而,如果资源适用性并不是问题,并且目标是生成尽可能精确的信息(例如,用于因特网服务提供商或用于自动生成商业卡拉OK光盘的信息),则可能需要方法142、144、148和150。
图12显示了用于精炼时标数据以确保它与实际歌词相一致的方法。如图所示,根据图11所示方法144,检查从歌曲中提取的关键字位置,以确定它们是否与抄本中的实际关键字位置一致。如果时标数据中的关键字位置与抄本中的关键字实际位置并不完全匹配,则可相应地移动时标数据。
更具体地说,图12显示了三个表示歌曲的音乐/话音(本文中也被称为非语音/语音)段的框。框160只是表示分析的歌曲原始数据。框162显示了实际关键字与时标生成过程提取的关键字位置之间的不匹配。关键字K1和K2的实际位置分别由虚竖线166和168表示。竖线170和172显示根据时标数据的关键字K1和K2的位置。因此,要改进时标数据的精确度,必须参照框162按图12所示箭头方向调整关键字K1和K2的位置。框164显示调整过程的最终结果。因此,关键字K1和K2的时标数据分别对应于标识为174和176的实际K1和K2位置。
一旦形成与各部分文本相关的精确时标后,诸如ProntoTM的手持显示系统就可在适当的时间显示文本。
可以用多种方式将文本显示在屏幕上,以改善可读性、美感或娱乐性。例如,可以将句子自动换行以便其更易于显示,在新行出现时可以冲掉文本,或者根据屏幕大小,可每隔N行进行一次清屏。也有从屏幕底部到顶部将文本换行的方式。例如,屏幕可分成交替刷新的顶部和底部两半。这使观众在查看当前半页的同时可看到上半页的结尾。虽然可以滚动文本,但这常难以在显示屏上读取。
还设想,在具有男声和女声合唱歌词的歌曲中,可在男声唱的特定歌词与女声唱的特定歌词之间进行区别。这样,在显示歌词时,可以在显示装置上形成诸如字体或颜色变化的表示,以提示男性或女性何时由他或她演唱(例如,在卡拉OK情况中)。
或者,逻辑暂停(如在句号或逗号后)可自动追加“新行”(或回车)符。对于句号,可以输入两个新行以表示句子结束,这对于作曲通常也是表示节的结束。在分析器技术中,可检测到此类格式化,从而有利于正确的插入和格式化。
也可提供非字项(如图片)进行显示。非字项将根据剩下的文本的时间安排而适当显示。或者,如果可利用特殊检测(如鼓声检测),则可显示特殊非字标识符(例如鼓的图片或动画)或诸如“drumsolo(鼓乐独奏)”的专门短语。
另外,字可以具有点缀它们的特殊声音、图片、动画或视频。这些特殊“非字”项可作为格式化的一部分生成,这样,每次检测到“关键字”时,可插入特殊项。例如,只要使用“女孩”这两个字,则一个女孩的图片便会适时地与字一起显示。非字项可替代关键字,或者可以既显示关键字又显示非字项。
本领域的技术人员可预见许多其它显示方法。
如图13所示,Philips ProntoTM显示器180能够显示六行文本182。因此,对于ProntoTM,一次可显示整节。用空行填充屏幕结尾。
利用诸如ProntoTM显示器的手持显示装置,可以用同步方式在多个装置上显示歌曲文本,以允许两个或更多人跟随音频文本。在此实施例中,每个同步装置可从作为服务器操作的装置收到“go(进行)”消息。或者,服务器可动态地发送文本和时间安排到所有其它同步装置,这样,其它同步装置不必存储文本,从而节省了宝贵的存储空间。
现在参照图14,所示的流程图显示了根据本发明将文本和/或可视信息与音频重放同步的方法。在步骤1405中,用户从手持装置中的存储器内存储的歌曲列表中选择歌名。可以通过例如按按钮或触控式屏幕将选择从用户传送到手持装置。或者,还可以设想,用户可选择“随机”作为选择项,由此系统将在已知歌曲组中选择随机歌曲。随机选择可使用随机数生成器选择不同的歌曲,一次一首。这可以替代此步骤的用户输入,直至用户停止或复位系统。
手持装置内的处理器处理用户的请求并发送信号(例如,红外信号)到远程装置。信号指示远程装置调整到与用户选择的所要求歌曲对应的所要求音频曲目。或者,如果远程装置不具有自动调整到特定所要求音频曲目(例如,到第5首曲目)的能力,则手持装置将发送信号到远程装置以复位远程装置。即,远程装置将接到关机、重启、然后数到所要求曲目的指令。此步骤确保远程装置与手持装置同步。
还设想到,可将一个或多个文件载入并存储在单个手持装置中。手持装置将具有按名称、分类、主题、日期或其它标准将文件分类的功能。将文件载入手持装置可通过对接装置或者通过本领域技术人员所熟知的有线或无线技术完成。
一旦远程装置找到所要求曲目,手持装置就发出播放信号以便使远程装置真正开始播放选定歌曲。如步骤1415所示,在短暂延迟,以允许远程装置真正开始播放选定歌曲后,手持装置将开始同步显示文本与远程装置上正播放的音频型式。
步骤1420是初始化步骤,其中检查手持装置以确定是否有任何文本行要显示,显示行计数器被设为零,并且显示行数被设为N。随后,在步骤1425中,显示所要求歌曲的名称。
在步骤1430中,检查是否存在其它文本段。如果不存在要显示的其它文本段,则如步骤1435所示结束方法。如果存在要显示的其它文本段,则方法将继续到步骤1440,在该步骤中,读取文本段和相关延时(时标)。在步骤1445和1450中,如果延时大于零,则方法将在延时期间等待。在此延时期间,文本将显示在显示装置的屏幕上。
一旦延迟时间结束,分别如步骤1455和1460所示,所有显示行将从屏幕上清除,并且显示行计数器将复位到零。
如果在步骤1445中延时等于零,则方法将直接继续到步骤1465和步骤1470,在这两个步骤中,显示行计数器并加一。
最后,在步骤1475中,确定是否达到最后文本段。如果达到了最后文本段,则方法继续到步骤1480,该步骤表示没有其它适用文本。从步骤1480,方法会执行另一次检查,以确定在步骤1430中是否有适用文本。由于无其它文本适用,因此,在步骤1430中问题的答案为否,并且方法将在步骤1435结束。
但是,如果未达到最后文本段,并且因此步骤1475中所提出问题的答案是否,则方法将再次从步骤1430开始。
虽然本文参照附图描述了本发明的说明性实施例,但可以理解,本发明并不限于那些精确的实施例,并且在不背景本发明范围或精神的情况下,本领域的技术人员可实现其它各种改变和修改。例如,诸如标记的特征(例如,跳动的球或音乐音符)可添加到显示器上,以表示文本中的当前位置,或者可以用不同语言显示文本。另外,时标文本可提供给诸如因特网上的其它用户。所有此类改变和修改都应包括在所附权利要求书定义的本发明范围内。
Claims (12)
1.一种将可视信息与音频重放同步的方法,所述方法包括以下步骤:
接收用户选择的所要求音频文件(1410);
开始播放所述所要求音频文件(1415);以及
根据时标数据(230)在显示装置(240)上显示与所述所要求音频文件相关的可视信息(1465),从而使所述可视信息的显示与所述所要求音频文件的所述播放同步,其特征在于播放所述所要求音频文件的开始与所述显示步骤的开始随来自所述显示装置的信号而变。
2.如权利要求1所述的方法,其特征在于所述显示装置包括手持装置(180)。
3.如权利要求1所述的方法,其特征在于所述信号在远程装置播放所述所要求音频文件之前关断并接通所述远程装置。
4.如权利要求1所述的方法,其特征在于还包括以下步骤:分析所述音频文件并生成对应于与所述音频文件相关的所述可视信息的时标数据(220)。
5.如权利要求4所述的方法,其特征在于利用基于文本的过程(146)生成所述时标数据。
6.如权利要求4所述的方法,其特征在于利用发音字典过程(150)生成所述时标数据。
7.如权利要求4所述的方法,其特征在于利用音乐的音符标音过程(148)生成所述时标数据。
8.如权利要求4所述的方法,其特征在于利用从音乐中提取的节拍信息(142)生成所述时标数据。
9.如权利要求4所述的方法,其特征在于还包括以下步骤:将从所述所要求音频文件提取的关键字位置与所述时标数据内的关键字的实际位置相比较,并将所述提取的关键字的所述位置调整为与所述时标数据内的所述关键字的所述位置相匹配(160-176)。
10.如权利要求1所述的方法,其特征在于还包括以下步骤:从所述显示装置发送信号到远程装置,以使所述远程装置启动。
11.一种从音频源生成时标数据的方法,所述方法包括以下步骤:
从所述音频源提取话音和非话音数据(140);
分析所述话音和非话音数据,以标识在所述话音和非话音数据中的选定信息,所述选定信息提供生成时标的基础;以及
生成与各个所述选定信息相关的时标值(154)。
12.一种将相关可视信息与音频重放同步的设备,所述设备包括:
特征提取装置,用于从音频数据提取声学特征(42);
暂停检测器装置,用于检测所述音频数据中的暂停(44);
分类器装置,用于将音频数据的连续比特流分析为不同的非重叠段,从而使各段在其类方面是同质的(46);以及
时标装置,用于为每段分配时标值(220)。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27831901P | 2001-03-23 | 2001-03-23 | |
US60/278,319 | 2001-03-23 | ||
US09/998,033 US7058889B2 (en) | 2001-03-23 | 2001-11-29 | Synchronizing text/visual information with audio playback |
US09/998,033 | 2001-11-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1463419A true CN1463419A (zh) | 2003-12-24 |
Family
ID=26959037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN02801677A Pending CN1463419A (zh) | 2001-03-23 | 2002-03-22 | 同步文本/可视信息与音频重放 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7058889B2 (zh) |
EP (1) | EP1374219A2 (zh) |
JP (1) | JP2004521385A (zh) |
KR (1) | KR20030017522A (zh) |
CN (1) | CN1463419A (zh) |
TW (1) | TW550539B (zh) |
WO (1) | WO2002077966A2 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332365C (zh) * | 2004-02-18 | 2007-08-15 | 陈德卫 | 一种实现音频和文本信息同步控制的方法和装置 |
CN101567184A (zh) * | 2009-03-24 | 2009-10-28 | 广州酷狗计算机科技有限公司 | 一种卡拉ok动感歌词的制作方法 |
CN101079301B (zh) * | 2006-07-28 | 2010-06-09 | 埃里克·路易斯·汉森 | 一种计算机实现的创建从文本到音频记录的时序映射方法 |
CN101079992B (zh) * | 2004-07-30 | 2010-10-06 | 联发科技股份有限公司 | 影音信号同步播放装置及其方法 |
CN103502969A (zh) * | 2009-06-13 | 2014-01-08 | 罗莱斯塔尔有限公司 | 用于分别录制场景的顺序并置的系统 |
CN103703431A (zh) * | 2011-06-03 | 2014-04-02 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
CN103988193A (zh) * | 2011-03-23 | 2014-08-13 | 奥德伯公司 | 管理同步内容的播放 |
CN110415723A (zh) * | 2019-07-30 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 音频分段的方法、装置、服务器及计算机可读存储介质 |
US11030992B2 (en) | 2009-06-13 | 2021-06-08 | Rolr, Inc. | System for communication skills training using juxtaposition of recorded takes |
Families Citing this family (231)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7277766B1 (en) | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
US7890374B1 (en) | 2000-10-24 | 2011-02-15 | Rovi Technologies Corporation | System and method for presenting music to consumers |
GB2381688B (en) * | 2001-11-03 | 2004-09-22 | Dremedia Ltd | Time ordered indexing of audio-visual data |
GB2381638B (en) * | 2001-11-03 | 2004-02-04 | Dremedia Ltd | Identifying audio characteristics |
US20070022465A1 (en) * | 2001-11-20 | 2007-01-25 | Rothschild Trust Holdings, Llc | System and method for marking digital media content |
US8122466B2 (en) | 2001-11-20 | 2012-02-21 | Portulim Foundation Llc | System and method for updating digital media content |
US8504652B2 (en) | 2006-04-10 | 2013-08-06 | Portulim Foundation Llc | Method and system for selectively supplying media content to a user and media storage device for use therein |
US7503059B1 (en) | 2001-12-28 | 2009-03-10 | Rothschild Trust Holdings, Llc | Method of enhancing media content and a media enhancement system |
US8909729B2 (en) | 2001-11-20 | 2014-12-09 | Portulim Foundation Llc | System and method for sharing digital media content |
US7711774B1 (en) * | 2001-11-20 | 2010-05-04 | Reagan Inventions Llc | Interactive, multi-user media delivery system |
KR100563680B1 (ko) * | 2001-11-27 | 2006-03-28 | 엘지전자 주식회사 | 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법 |
KR20030043299A (ko) * | 2001-11-27 | 2003-06-02 | 주식회사 엘지이아이 | 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법 |
AU2003249663A1 (en) * | 2002-05-28 | 2003-12-12 | Yesvideo, Inc. | Summarization of a visual recording |
FR2842014B1 (fr) * | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
JP2004205605A (ja) * | 2002-12-24 | 2004-07-22 | Yamaha Corp | 音声および楽曲再生装置およびシーケンスデータフォーマット |
US11650784B2 (en) | 2003-07-28 | 2023-05-16 | Sonos, Inc. | Adjusting volume levels |
US11106424B2 (en) | 2003-07-28 | 2021-08-31 | Sonos, Inc. | Synchronizing operations among a plurality of independently clocked digital data processing devices |
US10613817B2 (en) | 2003-07-28 | 2020-04-07 | Sonos, Inc. | Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group |
US8086752B2 (en) * | 2006-11-22 | 2011-12-27 | Sonos, Inc. | Systems and methods for synchronizing operations among a plurality of independently clocked digital data processing devices that independently source digital data |
US11106425B2 (en) | 2003-07-28 | 2021-08-31 | Sonos, Inc. | Synchronizing operations among a plurality of independently clocked digital data processing devices |
US8234395B2 (en) | 2003-07-28 | 2012-07-31 | Sonos, Inc. | System and method for synchronizing operations among a plurality of independently clocked digital data processing devices |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US11294618B2 (en) | 2003-07-28 | 2022-04-05 | Sonos, Inc. | Media player system |
KR20050015937A (ko) * | 2003-08-05 | 2005-02-21 | 삼성전자주식회사 | 정보 저장 매체, 그 재생 장치 및 방법 |
EP1652181A1 (en) * | 2003-08-05 | 2006-05-03 | Samsung Electronics Co., Ltd. | Information storage medium, and apparatus and method of reproducing information from the same |
US20050039128A1 (en) * | 2003-08-14 | 2005-02-17 | Ying-Hao Hsu | Audio player with lyrics display |
JP2007504495A (ja) * | 2003-08-26 | 2007-03-01 | クリアプレイ,インク. | 音響信号の演奏を制御する方法と装置 |
US20050091066A1 (en) * | 2003-10-28 | 2005-04-28 | Manoj Singhal | Classification of speech and music using zero crossing |
US20050123886A1 (en) * | 2003-11-26 | 2005-06-09 | Xian-Sheng Hua | Systems and methods for personalized karaoke |
US7483618B1 (en) | 2003-12-04 | 2009-01-27 | Yesvideo, Inc. | Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest |
EP1542206A1 (en) * | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Apparatus and method for automatic classification of audio signals |
US9977561B2 (en) | 2004-04-01 | 2018-05-22 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to provide guest access |
US9374607B2 (en) | 2012-06-26 | 2016-06-21 | Sonos, Inc. | Media playback system with guest access |
US8868698B2 (en) | 2004-06-05 | 2014-10-21 | Sonos, Inc. | Establishing a secure wireless network with minimum human intervention |
US8326951B1 (en) | 2004-06-05 | 2012-12-04 | Sonos, Inc. | Establishing a secure wireless network with minimum human intervention |
TW200604922A (en) * | 2004-07-23 | 2006-02-01 | Hon Hai Prec Ind Co Ltd | Apparatus and method for controlling sounds and images |
CN100454296C (zh) * | 2004-07-29 | 2009-01-21 | 鸿富锦精密工业(深圳)有限公司 | 声音影像控制装置及方法 |
KR100643451B1 (ko) | 2004-09-10 | 2006-11-10 | 주식회사 팬택 | 화상 데이터와 텍스트 데이터의 동기화 출력 기능을가지는 화상 단말기 및 그 방법 |
EP1640989B1 (en) * | 2004-09-22 | 2016-04-27 | Yamaha Corporation | Electronic music apparatus and music-related data display method |
KR100496834B1 (ko) * | 2004-10-20 | 2005-06-22 | 이기운 | 휴대용 동영상 멀티미디어 플레이어 및 마이크 타입 영상노래 반주 장치 |
US7735012B2 (en) * | 2004-11-04 | 2010-06-08 | Apple Inc. | Audio user interface for computing devices |
KR100677156B1 (ko) * | 2004-12-08 | 2007-02-02 | 삼성전자주식회사 | 음원 관리 방법 및 그 장치 |
US7567899B2 (en) | 2004-12-30 | 2009-07-28 | All Media Guide, Llc | Methods and apparatus for audio recognition |
US20070061364A1 (en) * | 2005-08-05 | 2007-03-15 | Realnetworks, Inc., | System and method for text-based searching of media content |
JP4972645B2 (ja) | 2005-08-26 | 2012-07-11 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 |
JP4994623B2 (ja) * | 2005-08-31 | 2012-08-08 | 富士通株式会社 | テキスト編集・再生装置、コンテンツ編集・再生装置及びテキスト編集・再生方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070061694A1 (en) * | 2005-09-09 | 2007-03-15 | Nortrup John H | Communication interface for communication impaired individuals |
US20070074116A1 (en) * | 2005-09-29 | 2007-03-29 | Teleios, Inc. | Multi-pane navigation/synchronization in a multimedia presentation system |
US20070162839A1 (en) * | 2006-01-09 | 2007-07-12 | John Danty | Syndicated audio authoring |
US9037466B2 (en) * | 2006-03-09 | 2015-05-19 | Nuance Communications, Inc. | Email administration for rendering email on a digital audio player |
US8510277B2 (en) * | 2006-03-09 | 2013-08-13 | International Business Machines Corporation | Informing a user of a content management directive associated with a rating |
KR100684457B1 (ko) * | 2006-05-04 | 2007-02-22 | 주식회사 모빌리언스 | 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말 |
US8275243B2 (en) * | 2006-08-31 | 2012-09-25 | Georgia Tech Research Corporation | Method and computer program product for synchronizing, displaying, and providing access to data collected from various media |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8788080B1 (en) | 2006-09-12 | 2014-07-22 | Sonos, Inc. | Multi-channel pairing in a media system |
US9202509B2 (en) | 2006-09-12 | 2015-12-01 | Sonos, Inc. | Controlling and grouping in a multi-zone media system |
US8483853B1 (en) | 2006-09-12 | 2013-07-09 | Sonos, Inc. | Controlling and manipulating groupings in a multi-zone media system |
US8726154B2 (en) * | 2006-11-27 | 2014-05-13 | Sony Corporation | Methods and apparatus for controlling transition behavior of graphical user interface elements based on a dynamic recording |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR100860510B1 (ko) | 2007-04-23 | 2008-09-26 | 엠엠비 주식회사 | 모바일 장치에서 시각 효과가 삽입된 슬라이드 쇼의 생성방법 |
US20080270913A1 (en) * | 2007-04-26 | 2008-10-30 | Howard Singer | Methods, Media, and Devices for Providing a Package of Assets |
KR100844071B1 (ko) * | 2007-05-09 | 2008-07-07 | 엘지전자 주식회사 | 웹페이지 표시가 가능한 이동통신 단말기 및 그 제어방법 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
EP2096626A1 (en) * | 2008-02-29 | 2009-09-02 | Sony Corporation | Method for visualizing audio data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20090307207A1 (en) * | 2008-06-09 | 2009-12-10 | Murray Thomas J | Creation of a multi-media presentation |
US8478592B2 (en) * | 2008-07-08 | 2013-07-02 | Nuance Communications, Inc. | Enhancing media playback with speech recognition |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
JP2010055259A (ja) * | 2008-08-27 | 2010-03-11 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理プログラム及び画像処理方法 |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US20100141838A1 (en) * | 2008-12-08 | 2010-06-10 | Andrew Peter Steggles | Presentation synchronization system and method |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
JP2010250023A (ja) | 2009-04-14 | 2010-11-04 | Fujitsu Ltd | テキスト表示機能付情報処理装置、データ取得方法およびデータ取得プログラム |
JP5434408B2 (ja) * | 2009-05-15 | 2014-03-05 | 富士通株式会社 | 携帯型情報処理装置、コンテンツ再生方法およびコンテンツ再生プログラム |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US8620967B2 (en) | 2009-06-11 | 2013-12-31 | Rovi Technologies Corporation | Managing metadata for occurrences of a recording |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US20110085782A1 (en) * | 2009-10-14 | 2011-04-14 | Ozymandias Wong | Method for synchronizing audio data with secondary data |
US8886531B2 (en) | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9159338B2 (en) * | 2010-05-04 | 2015-10-13 | Shazam Entertainment Ltd. | Systems and methods of rendering a textual animation |
US8595005B2 (en) * | 2010-05-31 | 2013-11-26 | Simple Emotion, Inc. | System and method for recognizing emotional state from a speech signal |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US11265652B2 (en) | 2011-01-25 | 2022-03-01 | Sonos, Inc. | Playback device pairing |
US11429343B2 (en) | 2011-01-25 | 2022-08-30 | Sonos, Inc. | Stereo playback configuration and control |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9774747B2 (en) * | 2011-04-29 | 2017-09-26 | Nexidia Inc. | Transcription system |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP5638479B2 (ja) * | 2011-07-26 | 2014-12-10 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
CN102270489A (zh) * | 2011-07-29 | 2011-12-07 | 深圳市有方科技有限公司 | 应用于语言学习中的字幕显示方法 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9729115B2 (en) | 2012-04-27 | 2017-08-08 | Sonos, Inc. | Intelligently increasing the sound level of player |
US20130295533A1 (en) * | 2012-05-03 | 2013-11-07 | Lyrics2Learn, Llc | Method and System for Educational Linking of Lyrical Phrases and Musical Structure |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8961183B2 (en) * | 2012-06-04 | 2015-02-24 | Hallmark Cards, Incorporated | Fill-in-the-blank audio-story engine |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9008330B2 (en) | 2012-09-28 | 2015-04-14 | Sonos, Inc. | Crossover frequency adjustments for audio speakers |
GB2506613A (en) * | 2012-10-03 | 2014-04-09 | Memeplex Ltd | User input timing data to generate a video for accompanying an audio track |
WO2014112206A1 (ja) * | 2013-01-15 | 2014-07-24 | ソニー株式会社 | 記憶制御装置、再生制御装置および記録媒体 |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9224374B2 (en) * | 2013-05-30 | 2015-12-29 | Xiaomi Inc. | Methods and devices for audio processing |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9378651B2 (en) | 2013-12-17 | 2016-06-28 | Google Inc. | Audio book smart pause |
US9549068B2 (en) | 2014-01-28 | 2017-01-17 | Simple Emotion, Inc. | Methods for adaptive voice interaction |
US9226087B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9226073B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
KR102207208B1 (ko) * | 2014-07-31 | 2021-01-25 | 삼성전자주식회사 | 음악 정보 시각화 방법 및 장치 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9305530B1 (en) * | 2014-09-30 | 2016-04-05 | Amazon Technologies, Inc. | Text synchronization with audio |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10248376B2 (en) | 2015-06-11 | 2019-04-02 | Sonos, Inc. | Multiple groupings in a playback system |
US20170060531A1 (en) * | 2015-08-27 | 2017-03-02 | Fred E. Abbo | Devices and related methods for simplified proofreading of text entries from voice-to-text dictation |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106653037B (zh) * | 2015-11-03 | 2020-02-14 | 广州酷狗计算机科技有限公司 | 音频数据处理方法和装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN107229629B (zh) * | 2016-03-24 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 音频识别方法及装置 |
CN105788589B (zh) * | 2016-05-04 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10311863B2 (en) * | 2016-09-02 | 2019-06-04 | Disney Enterprises, Inc. | Classifying segments of speech based on acoustic features and context |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10712997B2 (en) | 2016-10-17 | 2020-07-14 | Sonos, Inc. | Room association based on name |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US11354510B2 (en) | 2016-12-01 | 2022-06-07 | Spotify Ab | System and method for semantic analysis of song lyrics in a media content environment |
US10360260B2 (en) * | 2016-12-01 | 2019-07-23 | Spotify Ab | System and method for semantic analysis of song lyrics in a media content environment |
CN106649644B (zh) * | 2016-12-08 | 2020-02-07 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌词文件生成方法及装置 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110718239A (zh) * | 2019-10-15 | 2020-01-21 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
US10805665B1 (en) | 2019-12-13 | 2020-10-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
US11350185B2 (en) | 2019-12-13 | 2022-05-31 | Bank Of America Corporation | Text-to-audio for interactive videos using a markup language |
US11257480B2 (en) * | 2020-03-03 | 2022-02-22 | Tencent America LLC | Unsupervised singing voice conversion with pitch adversarial network |
CN114064964A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 文本的时间标注方法、装置、电子设备和可读存储介质 |
CN113206853B (zh) * | 2021-05-08 | 2022-07-29 | 杭州当虹科技股份有限公司 | 一种视频批改结果保存改进方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2925754B2 (ja) * | 1991-01-01 | 1999-07-28 | 株式会社リコス | カラオケ装置 |
USRE37131E1 (en) * | 1991-02-19 | 2001-04-10 | Roy J. Mankovitz | Apparatus and methods for music and lyrics broadcasting |
JP3516406B2 (ja) * | 1992-12-25 | 2004-04-05 | 株式会社リコス | カラオケオーサリング装置 |
US5608839A (en) | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
JP3144241B2 (ja) * | 1994-10-14 | 2001-03-12 | ヤマハ株式会社 | カラオケ装置およびカラオケシステム |
US5648628A (en) * | 1995-09-29 | 1997-07-15 | Ng; Tao Fei S. | Cartridge supported karaoke device |
JP3226011B2 (ja) * | 1995-09-29 | 2001-11-05 | ヤマハ株式会社 | 歌詞表示装置 |
JP3008834B2 (ja) * | 1995-10-25 | 2000-02-14 | ヤマハ株式会社 | 歌詞表示装置 |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
CA2252490A1 (en) | 1996-04-26 | 1997-11-06 | Eloquent | A method and system for synchronizing and navigating multiple streams of isochronous and non-isochronous data |
US5953005A (en) * | 1996-06-28 | 1999-09-14 | Sun Microsystems, Inc. | System and method for on-line multimedia access |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US6600874B1 (en) * | 1997-03-19 | 2003-07-29 | Hitachi, Ltd. | Method and device for detecting starting and ending points of sound segment in video |
US6077084A (en) * | 1997-04-01 | 2000-06-20 | Daiichi Kosho, Co., Ltd. | Karaoke system and contents storage medium therefor |
US6421645B1 (en) * | 1999-04-09 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification |
-
2001
- 2001-11-29 US US09/998,033 patent/US7058889B2/en not_active Expired - Fee Related
-
2002
- 2002-03-21 TW TW091105478A patent/TW550539B/zh active
- 2002-03-22 JP JP2002575925A patent/JP2004521385A/ja active Pending
- 2002-03-22 WO PCT/IB2002/000988 patent/WO2002077966A2/en not_active Application Discontinuation
- 2002-03-22 KR KR1020027015884A patent/KR20030017522A/ko not_active Application Discontinuation
- 2002-03-22 EP EP02708580A patent/EP1374219A2/en not_active Withdrawn
- 2002-03-22 CN CN02801677A patent/CN1463419A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332365C (zh) * | 2004-02-18 | 2007-08-15 | 陈德卫 | 一种实现音频和文本信息同步控制的方法和装置 |
CN101079992B (zh) * | 2004-07-30 | 2010-10-06 | 联发科技股份有限公司 | 影音信号同步播放装置及其方法 |
CN101079301B (zh) * | 2006-07-28 | 2010-06-09 | 埃里克·路易斯·汉森 | 一种计算机实现的创建从文本到音频记录的时序映射方法 |
CN101567184A (zh) * | 2009-03-24 | 2009-10-28 | 广州酷狗计算机科技有限公司 | 一种卡拉ok动感歌词的制作方法 |
CN101567184B (zh) * | 2009-03-24 | 2013-07-10 | 广州酷狗计算机科技有限公司 | 一种卡拉ok动感歌词的制作方法 |
US11030992B2 (en) | 2009-06-13 | 2021-06-08 | Rolr, Inc. | System for communication skills training using juxtaposition of recorded takes |
CN103502969A (zh) * | 2009-06-13 | 2014-01-08 | 罗莱斯塔尔有限公司 | 用于分别录制场景的顺序并置的系统 |
CN103502969B (zh) * | 2009-06-13 | 2017-01-18 | 罗莱斯塔尔有限公司 | 用于分别录制场景的顺序并置的系统 |
US11848003B2 (en) | 2009-06-13 | 2023-12-19 | Rolr, Inc. | System for communication skills training using juxtaposition of recorded takes |
US10079993B2 (en) | 2009-06-13 | 2018-09-18 | Rolestar, Inc. | System for juxtaposition of separately recorded videos |
CN103988193A (zh) * | 2011-03-23 | 2014-08-13 | 奥德伯公司 | 管理同步内容的播放 |
CN103703431A (zh) * | 2011-06-03 | 2014-04-02 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
CN103703431B (zh) * | 2011-06-03 | 2018-02-09 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
CN110415723A (zh) * | 2019-07-30 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 音频分段的方法、装置、服务器及计算机可读存储介质 |
CN110415723B (zh) * | 2019-07-30 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 音频分段的方法、装置、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2004521385A (ja) | 2004-07-15 |
WO2002077966A2 (en) | 2002-10-03 |
EP1374219A2 (en) | 2004-01-02 |
WO2002077966A3 (en) | 2003-02-27 |
US20020163533A1 (en) | 2002-11-07 |
KR20030017522A (ko) | 2003-03-03 |
TW550539B (en) | 2003-09-01 |
US7058889B2 (en) | 2006-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1463419A (zh) | 同步文本/可视信息与音频重放 | |
CN101689225B (zh) | 生成音乐小样和识别相关的歌曲结构 | |
JP3941417B2 (ja) | ソース音声信号内の新規点の識別方法 | |
Casey et al. | Content-based music information retrieval: Current directions and future challenges | |
EP2494544B1 (en) | Complexity scalable perceptual tempo estimation | |
Prechelt et al. | An interface for melody input | |
Herrera et al. | Automatic labeling of unpitched percussion sounds | |
EP3843083A1 (en) | Method, system, and computer-readable medium for creating song mashups | |
US20100198760A1 (en) | Apparatus and methods for music signal analysis | |
Mion et al. | Score-independent audio features for description of music expression | |
CN1703734A (zh) | 从声音确定音符的方法和装置 | |
Rocha et al. | Segmentation and timbre-and rhythm-similarity in Electronic Dance Music | |
CN110010159B (zh) | 声音相似度确定方法及装置 | |
Ghosal et al. | Music classification based on MFCC variants and amplitude variation pattern: a hierarchical approach | |
Goto et al. | Recent studies on music information processing | |
CN105895079B (zh) | 语音数据的处理方法和装置 | |
CN105679296A (zh) | 乐器演奏评判的方法和装置 | |
Pardo | Finding structure in audio for music information retrieval | |
Mehrabi et al. | Vocal imitation for query by vocalisation | |
JP2008040258A (ja) | 楽曲練習支援装置、動的時間整合モジュールおよびプログラム | |
Dixon | Analysis of musical content in digital audio | |
Liu et al. | Adaptive music resizing with stretching, cropping and insertion: A generic content-aware music resizing framework | |
Paiva et al. | From pitches to notes: Creation and segmentation of pitch tracks for melody detection in polyphonic audio | |
JP2017062313A (ja) | カラオケ装置,カラオケシステム,及びプログラム | |
Wang | Automatic Classification of Playing Techniques in Guitar Pro Songs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |