CN101079301B - 一种计算机实现的创建从文本到音频记录的时序映射方法 - Google Patents

一种计算机实现的创建从文本到音频记录的时序映射方法 Download PDF

Info

Publication number
CN101079301B
CN101079301B CN 200710086531 CN200710086531A CN101079301B CN 101079301 B CN101079301 B CN 101079301B CN 200710086531 CN200710086531 CN 200710086531 CN 200710086531 A CN200710086531 A CN 200710086531A CN 101079301 B CN101079301 B CN 101079301B
Authority
CN
China
Prior art keywords
text
audio
token
mark
marko
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200710086531
Other languages
English (en)
Other versions
CN101079301A (zh
Inventor
埃里克·路易斯·汉森
Original Assignee
埃里克·路易斯·汉森
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US11/495,836 priority Critical
Priority to US11/495,836 priority patent/US20080027726A1/en
Application filed by 埃里克·路易斯·汉森 filed Critical 埃里克·路易斯·汉森
Publication of CN101079301A publication Critical patent/CN101079301A/zh
Application granted granted Critical
Publication of CN101079301B publication Critical patent/CN101079301B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Abstract

本发明公开一种计算机实现的创建从文本到音频记录的时序映射方法,更具体地讲,涉及创建文本到音频映射的相应处理过程。包括馈送步骤和赋值步骤:采用标记记录音频记录开始时间和结束时间,对标记中音频记录对应的文本或者符号用令牌表示;将对应的标记与令牌组合成项,多个标记组成标记表,多个令牌组成令牌表,对应的标记表与令牌表组成项表。本发明可以用于在音频记录播放过程中给文本赋予生气;代替传统的重放控制器来控制音频播放;播放并显示语音记录的注释;在不用基础流协议的情况下实现流动音频的特征。

Description

一种计算机实现的创建从文本到音频记录的时序映射方法
技术领域
[0001] 本发明涉及音频分析领域,特别是诸如演讲等包含文本说明的音频。更具体地讲,
涉及创建文本到音频映射的相应处理过程。 背景技术
[0002] 在基于语言方面的第一次技术进步是简单发声法的开发,当时这些发声法只能在 时间上孤立地进行意思传达。后来,人们按时间相位和相继次序对这些最初的发声法进行 组合,形成了语音流(streams of speech)。再后来,人们发明了在洞壁或其他合适表面上 绘制简单符号或图像,但它们只是在空间上孤立进行意思传达。后人及时将这些符号或图 像与口语联系了起来。后来,人们把这些独立的与语言有关的图形在空间相位上按相继次 序组合形成了书面语言或"文本"。具体地说,我们具有创新精神的祖先,开始对象形、表意 或者有音素特征的字符进行顺序空间排序,这些字符对应并且部分表示实际言语中按时间 顺序排列、用来传达意思的发声序列。这些二维空间字符既传达意思又与发声有关,用这些 字符表示的相继次序是一项非常关键的创新,它使得我们能够将瞬时动态语音流的部分表 示"凝固"成静态可储存文本。
[0003] 模拟语音处理的发明,进一步提高了人们通过说话和文本进行交流的能力。这项 技术发明使得我们能够凝固并存储动态语音流的声音,而不在满足于把语音部分等效存储 为文本。近年来,通过以下方式,人们通过语言进行交流的能力得到了进一步延伸:一是通 过对语音和文字进行数字编码,存储,处理,然后对其进行解码处理;二是电脑化文本搜索 技术的开发;三是通过交互式文本包括交互式文本注释和超文本的开发。最后,因特网分布 语音录音和文本技术的开发,使得人们通过语言进行交流的能力大大提高。这项技术是通 过因特网,将语音录音和文本分布到越来越盛行的可编程或专用数字计算装置上。 [0004] 概括地说,两个相继次序的出现,使得口语和书面语言的交流成为可能:一是用来 传达意思的说话发声的时间相继次序,二是表示说话发声的象形、表意或者有音素特征的 字符的空间相继次序。虽然上述两个相继次序都分别是一种有力的语言沟通形式,但是,语 音和文本的局部等同,使得我们利用其中一个来表示或替代另一个成为可能。已经有多种 途径证明这个局部等同非常有用,这些途径包括人们对两种妨碍人际交流的残疾_耳聋和 失明的征服。具体地说,听不见口语但可以看见并学过阅读的人,通过读出抄写的口语单 词,至少可以理解讲话的部分意思。其次,那些看不见书面语言的人,可以通过倾听把书写 下来的文字转换成的发声,或者通过聆听原始讲话录音,理解书面上写的是什么。 [0005] 对于具有视力和听力者,在同时进行语音和文本表示时,语音和文本表示的配合 可以创造出一种有力的混合式语言交流形式。具体地说,语音和文本的同时传达,使得听/ 读者在同一时间内同时通过两条语言交流途径,即听和看,来得到信息。语音加文本表示中 的讲话部分,会支持并强化书面信息,而语音加文本表示中的文本部分,则支持并强化讲话 信息。简而言之,语言加文本表示的效果,好于其各部分表示的总和。
[0006] 例如,在熟悉的国歌响起时,看到同步显示"星条旗"歌词,可能会让人在一个全新
3角度上油然而生感激之情。同样,在聆听马丁路德金演讲录音的同时,阅读他著名的"我有 一个梦想"的原文,会让人沉浸在语言加文本的全新体验中,这种体验,性质上决不同于简 单的阅读原文或聆听讲演。
[0007] 语音加文本表示,在教育领域也有广阔的应用。例如,学习阅读某个人的本国语 言,涉及到书写字符与相应口语单词的联想。通过语音加文本的同步表示,可以使得这种联 想学习法变得更加容易。
[0008] 语音加文本表示在教育领域的另一项应用,是外语或"第二"语言的学习_也就是 学习至少在开始以口头或书写形式不能理解的语言。例如,一位学习德语的学生,可以玩语 音加文本版的卡夫卡的"变形",在阅读文本的同时,可以聆听口语版的故事。在这种第二语 言学习应用中,诸如书面译文等文本注释可以帮助学生以口语和书面语两种形式理解第二 语言,并帮助学生获得口语和书面表达能力。口语翻译形式的文本注释可以增强外语资料 的语音加文本表示效果,这些文本注释可以是清晰的发音,或是个别单词的读音,也可以是 弹出式测验题。
[0009] 这种语音加文本表示在工业教育领域的一项应用,是增加书面技术资料的音频版 本。音像版企业培训手册或者航空机师指南,可以这样制作:在文本显示的同时播放音频, 以便让人们更透彻地理解其中的术语。
[0010] 有多种原因导致难以理解一篇讲话,除了外语之外,还有例如,讲话录音中语音部 分因本底噪声影响而模糊不清,讲话带有陌生口音,因与音乐伴奏混杂或节奏变化而导致 的歌曲歌词难以听懂,或者在声乐中常见的因歌词或音节持续时间变化而导致的歌曲歌词 难以听懂。所有这些问题,都可以通过将语音成分用书面和发声两种方式结合表示来解决。 [0011] 对现存在的一些讲话以语音加文本形式进行记录,在保护濒危语言并存档保存这 些语言方面,也可以起到建设性的作用。
[0012] —般地说,语音加文本的混合表示方式,借助于基于机器的文本搜索技术,机器搜 索这些表示中的语音成分的再现成为了可能。
[0013] 我们首先提出从前的技术相对于本发明映射器10的不足之处,然后提出其相对 于播放器50的不足之处。
[0014] 现行的音频分析或者声音编辑程序,可以用来在用户选定位置录音时设置标记。 然后可以输出这些标记,创建一个时间编码表。成对的时间编码可以按时间间隔译码。然 而,用这样的方式创建的时间编码或时间编码间隔,并没有映射到文本信息中。该方法在录 音和诸如讲话等可以以录音形式存在的文本表示之间形成一个映射。这就是以前的技术达 不到本发明中映射器10的功能的原因。
[0015] 现在,我们看看涉及到本发明播放器50以前的旧技术。在播放录音讲话的同时呈 现该讲话的书面记录(或者在呈现文本的同时播放其发声转换版本)时,正在聆听的读者 (或者是正在阅读的听众)会遇到几个问题:第一个问题是,对应于正在讲述的内容,怎样 掌握文本中的文字进展到了何处?以前的技术有两种方法应对这个问题,在下文中我们会 分析其不足之处。第二个问题是,在语音加文本表示中,组成文本的书写单词个体可以做成 机器可搜索、可注释和交互式的,而音频部分的口语单词个体则不能。从前的技术尽管知道 文本和音频之间的对应关系,但是未能使包含语音的音频做到机器可搜索、可注释和交互 式。第三个问题是,音频成分的交互式传输需要制定一个流协议。从前的技术并没有涉及
4使用音频成分传送流协议的而引起的限制问题。
[0016] 从前的技术曾试图以两种方法解决上述第一个问题,S卩"如何掌握文本中的文字 进展"。
[0017] 第一个方法是使语音加文本的分段保持简短。如果一段讲话比较简短,其相应的 文本因此也会较短,因此播放的音频和显示的文本之间的关系可能会相对清晰_条件是正 在聆听的读者明白语音加文本表示的语音和书面成分。同时显示的文本越长,受众理解讲 话或书面文字(或二者)的难度越大,因此也越有可能不知道讲话在文本上进展到了何处。 可是,正常人一般是以一个"行进流"来讲话,并不局限于孤立的单词或者短语。此外,我们 习惯阅读的文本是正常的连续文本,并不是那些为了方便显示而被分割成像单词或者短语 那么长的一段段的文本。正常人的语音,包括声乐中的语音成分,如果其录音记录每次以单 个单词或短语显示,然后快速变化以便跟上语音流,会显得很不自然。现有的伴读系统使用 大块的文本或歌词,使得书面录音记录的表示更加自然,但同时也加大了受众在文本中搞 不清讲话或歌词进展的可能性。
[0018] 从前的技术曾试图用第二种方法,即与文本相关的动画法来解决跟上进展的问 题。使用这种方法的实例有伴唱辅助系统,如一些较老的动画片中的"弹球"(bouncing ball),或者卡拉0K系统中的弹球或者其它的位置指示动画。画面上的球随着音乐从一个 词移动到另一个词,随着音乐的继续提示歌词唱到了何处,或者是要唱的歌词。利用弹球或 者等效物的移动,与文本有关的动画也增加了人们对其他静态文本的直观兴趣。 [0019] 与语音同步的文本动画,显然有潜力以一种彻底、有效和令人喜爱的方法来将语 音与其文本相联系。现有的技术实现了以视频记录或者电影的方式制作文本动画。但是以 这种方式实现文本动画有很多弊病:
[0020] 1、这种影像的创作耗时较长,并且要求相关人员具有较高的技能。
[0021] 2、即使仅显示文本、播放音频,这种影像的创作也会形成大容量数据文件。这些大
容量文件相应地占用大量带宽和数据存储空间,并因此对那些可以将语音加文本表示下载
到可编程数字计算装置或者专用数字计算装置上的设备施加了很多限制。
[0022] 3、动画是固定式的。
[0023] 4、通常动画低于单词级粒度。
[0024] 5、除非作为视频的一部分,否则不能播放音频。
[0025] 6、与音频之间的交互仅限于控制放像机。
[0026] 7 、音频不是机器可搜索或可注释的。
[0027] 8、 一旦制成视频,文本便无法更新或者改进。
[0028] 9、文本不是机器可搜索或可注释的。
[0029] 10、与文本自身不能交互。
发明内容
[0030] 本发明在文本和音频之间建立连接,假定文本是录音语音的书面记录,或者语音 是文本经发声转换而成的口语或歌唱形式。本发明:(a)定义了该种连接或者映射的创建 过程;(b)提供了一套设备,以计算机程序的形式来帮助映射;(c)提供了另一个相关设备, 也以计算机程序的形式,充分有效地证明了音频播放时文本和音频之间的连接。与音频播放同步的文本动画,说明了该连接的存在。
[0031] 本发明采用的技术方案为:一种计算机实现的创建从文本到音频记录的时序映射 方法,包括如下步骤:
[0032] A、馈送步骤:利用计算机上的声文映射器接收输入数据,所述输入数据包括音频 记录和文本;
[0033] B、赋值步骤:将起始和终止时间赋值给对应此音频记录的文本单元;所述文本单 元为文本粒度,所述文本粒度包括固定时间段音频、字母、音素、音节、单词、短语、句子或段 落;其特征在于:
[0034] 所述A步骤中,所述文本为计算机可读取格式的文本,音频记录为计算机可读取 格式的音频,所述声文映射器用于创建文本与音频录音之间的时序映射,所述输入数据从 内存、存储器和/或通过网络适配器从网络接收, [0035] 所述B步骤赋值步骤方法如下:
[0036] 采用标记记录音频记录开始时间和结束时间,所述结束时间始终大于开始时间, 并且标记不重叠,对标记中音频记录对应的文本或者符号用令牌表示;
[0037] 将对应的标记与令牌组合成项,其中,所述声文映射器将接收的音频记录首先生 成一个初始标记表,所述初始标记表采用如下两种方式创建:
[0038] a、利用预先选定的时间长度的音频的音量阈值高低来创建,其中,将等于或长于 持续时间内小于音量阈值的音频记录的音频段为平静类,将等于或长于持续时间内开始和 结束音量大于阈值且不包含平静类的音频段为声音类,将未包括在上述两类中的音频段为 模棱两可类;
[0039] b、利用任意持续时间的固定间隔创建,所述持续时间由用户自行定义;
[0040] 所述声文映射器在标点、文字或者HTML标签中间数据的基础上,将文本分离成单
元,创建出初始令牌表;
[0041] 多个标记组成标记表,多个令牌组成令牌表,对应的标记表与令牌表组成项表,其 中项表对应方式可以是:对应的标记表与令牌表成对合并、对应的令牌表在标记表终点拼 接或为标记和令牌单元定义XML或者其他中间数据标签。 [0042] 本发明具有如下特性:
[0043] 1、语音加文本表示的动画,能够充分有效地证明口语单词及其文本表示之间的暂 时关系。
[0044] 2、创建语音加文本表示形式的效率较高,此技术无需具有专门技能,无需专门培 训。
[0045] 3、表示语音加文本的数据存储文件较小,所需数据传输带宽较小,因此适于快速
下载到便携式计算设备上。
[0046] 4、动画呈现形式易于修改。
[0047] 5、可全部或部分地播放音频而不依赖于动画或者文本的显示。 [0048] 6、与语音加文本表示形式的交互,不局限于传统上对音频与视频播放器的各种控 制(即"播放"、"倒带"、"快速进带"和"重放"),包括适于该技术的各种控制(如"随机存 取"、"重复上个短语"以及"翻译当前单词")。
[0049] 7、本发明使得语音加文本表示能够做到可机器搜索、可注释和交互式实施。[0050] 8、本发明允许播放音频注释,也允许显示文本注释。
[0051] 9、本发明允许在表示被创建后对文本中的成分进行纠正或改变。
[0052] 10、本发明允许交互式随机读取音频,而不使用基础流协议。
[0053] 11 、本发明提供了 一个灵活的文本动画和创作工具,该工具可用于创作栩栩如生 的语音加文本表示来满足各种特殊应用需要,如文化培训、第二语言学习、语言翻译以及教 育、培训、娱乐和营销等。
附图说明
[0054] 在下文说明书中,还会更详尽地描述这些说明以及本发明其他更详细具体的实物 和特征。请参看附图,图中以各种角度放大显示了本发明,以方便理解。 [0055] 图1是适于本发明的数字计算装置100的方框图;
[0056] 图2是本发明的声文映射器("M即per") 10的方框图以及相关装置和数据; [0057] 图3是本发明的声文播放器("Player")50的方框图以及相关装置和数据。
具体实施方式
[0058] 本发明可以各种不同的形式来具体化。因此,此处公布的细节与其说是限制,不如 说是作为样本教导擅长该技术的人员在任何适当的系统或者结构上,或者以任何方式去使 用本发明。
[0059] 图1显示了本发明的数字计算装置100。数字计算装置100的组成如下:1.输入 处理器,2.通用处理器,3.内存,4.非易失性数字存储器,5.音频处理器,6.视频处理器, 7.网络适配器,上述部件均通过总线结构8连接在一起。数字计算装置IOO可以装在标准 个人电脑、手机、灵巧电话、掌上电脑、笔记本电脑、个人数字助理等装备有适当的输入、视 频显示器以及音频硬件的设备内。也可用专用硬件和软件来实现。它们可以集成到消费电 器和装置中。
[0060] 在使用时,网络适配器7可以接到通信网络9上,如局域网、广域网、无线通信网、 因特网等等。外部计算机31可通过网络9与数字计算装置100通信。 [0061] 图2所示是声文映射器("M即per") IO,该装置用于创建文本与音频录音之间的 时序映射。图3所示是声文播放器("Player") 50,该装置用来使文本以栩栩如生的方式 显示,并且使这些文本动画与音频播放同步。
[0062] 在此描述的本发明的所有组件和模块可以用任何硬件、软件、和(或)固件的组合 来实现。用软件实现时,上述组件和模块可以嵌入在计算机可读取介质或者媒体上,如一个 或多个硬盘、软盘、CD、 DVD等。
[0063] 映射器10(在处理器2上执行)从内存3、非易失性数字存储器4和(或)通过网 络适配器7从网络9接收输入数据。输入数据有两个组成部分,音频记录11和文本12,它 们通常作为分立文件实现。
[0064] 音频记录11是任意长度声音的数字表示,该数字表示用MP3、00G或者WAV格式编 码。音频记录ll通常包括口语讲话。
[0065] 文本12是书面文本或者字形的数字表示,该数字表示用ASCII或者Unicode格式 进行编码。文本12还可以是乐器数字接口 MIDI (Music InstrumentDigital Interface)
7表示或者任何其他在数字计算装置或者电子装置之间发送音乐数字编码信息的格式。文本 12通常由自然语言的书面文字组成。
[0066] 音频记录11和文本12有一个内在的对应。示例之一是一段讲话的音频记录11 与该段讲话文字稿的文本12。另一个示例是一首歌曲的音频记录11与该首歌曲歌词的文 本12。还有一个示例是多个鸟语的音频记录ll以及这些鸟的种类的文本名称12。 一个按 时序对应的映射(项(jana)明细表16)反映了这种内在对应。
[0067] 标记(Marko)表14定义为开始和结束时间对(标记开(mark-on)、标记关 (mark-off)),其单位是秒或其他时间单位。举例来说,数字对2. 000:4. 500定义了音频记 录11中的音频数据,该音频记录开始于2. 000秒,结束于4. 500秒。
[0068] 对标记(Marko) 14的限制包括数字对中的第二个数始终大于第一个数,并且标记 (Marko) 14不重叠。
[0069] 令牌表15是对应标记(Marko) 14的文本或者符号表示表。
[0070] 成对出现的标记(Marko) 14和对应此标记(Marko) 14的文本或符号表示15称作 项(jana) 16(jana发音为yaw-na)。举例来说,单词"hello"的音频在音频记录11中开始于 2. 000秒,结束于4. 500秒,该单词的音频由Marko2. 000:4. 500来规定。Marko2. 000:4. 500 和令牌"hello"确定一个具体的项(jana)16。注意项(jana) 16只是成对出现的数字标记 14和令牌对15,项(jana) 16并未包含实际音频记录11。
[0071] 项(jana)表16是标记(Marko)表14和令牌表15的组合。项(jana)表16定义 音频记录11和文本12之间的时序映射。
[0072] Mishcode (mishmash code混杂编码)定义为令牌15是符号而不是文本的项 (jana) 16。可能表示为mishcode的音频段实例是寂静、欢呼、咳嗽、仅有乐器声的音乐或者 任何选定为不由文本表示的其他声音。例如,在音频记录11中的欢呼声开始于5. 200秒并 终止于6. 950秒音,该记录由marko5. 200:6. 950,与之成对的是令牌"〈mishcode〉",在此 "〈mishcode〉"指的是一个具体的mishcode。注意一个mishcode是一类项(jana)16。 [0073] 带有文本表示的mishcode不再是mishcode。例如,欢呼声可能通过文本"掌声"、 "欢呼"或者"观众突然欢呼"来表示。用该文本置换"〈mishcode〉"令牌后,它不再是一个 混杂编码,但仍是项(jana) 16。同理,用令牌"〈mishcode〉"来取代文本表示后,带有文本表 示的项(jana) 16转换成一个mishcode。
[0074] 各项(jana)表示的音频,可以另存为独立的音频记录17,通常计算机文件称为分 离文件(split files)。表14-16和文件17可以存储在非易失性数字存储器4上。 [0075] 显示器20连接在视频处理器6上,该显示器为用户提供数字计算装置100的视觉 反馈。与音频处理器5连接的扬声器30,为用户提供声频反馈。利用连接在输入处理器l 和映射器10的用户输入40,比如鼠标和(或)键盘,用户可以控制映射器10。 [0076] 在一套实施方案中,映射器10在显示器20上显示以下四个窗口 :标记(Marko)窗 格21、令牌窗格22、控制器窗格23和音量图窗格24。在其他实施方案中,映射器的功能可 以分散在不同数量的窗格中,该数量或多于、或少于4个。
[0077] 标记(Marko)窗格21显示标记(Marko) 14,每行显示一个。窗格21是可滚动的, 该项可选。窗格21还可有交互控制功能。
[0078] 令牌窗格22显示令牌15,每行显示一个。窗格22也是可滚动的,该项可选。窗格
822也可以有交互控制功能。
[0079] 控制器窗格23显示编辑、播放、保存、加载和程序控制的控制器。
[0080] 音量图窗格24显示音频记录11的某一段的音量图。窗格24也可以有交互控制功能。
[0081] 图2所示系统的操作描述如下:
[0082] 音频记录11通过映射器10接收,映射器生成一个初始标记(Marko)表14,并在标记(Marko)窗格21中显示标记(Marko)表14。初始标记(Marko)表14的创建方法有两种,一是利用音频记录11的声学分析由映射器10来创建;二是由映射器10把音频记录11划分为任意预选持续时间段的固定间隔。
[0083] 可以根据预先选定的时间长度的音频11的音量是高于还是低于预先选定的音量阈值来进行声学分析。
[0084] 在声学分析扫描中考虑三种情况:(1)等于或长于持续时间D1内小于音量阈值V1的音频记录的音频段为"平静"(lull)类;(2)等于或长于持续时间D2内开始和结束音量大于阈值V2且不包含平静(lull)的音频段ll,为"声音"(sound)类;(3)未包括在上述两类中的音频11为"模棱两可"(ambiguous)类。
[0085] 参数VI和V2规定音量,或者更准确地讲,规定声功率水平,比如以瓦或者分贝为单位测得的声功率水平值。参数Dl和D2规定时间间隔,其测定单位为秒或者其它时间单位。四个参数(V1、V2、D1和D2)都是用户可选参数。
[0086] 利用映射器10,把模棱两可类的音频分解成接近的声音类或者平静类。这一点可由映射器10在声学分析完成后利用逻辑法则自动进行,也可由用户在控制器窗格23中人工干预进行。该步结束后,会形成一个标记(Marko)14表,该表定义音频记录11中的各个声音;该表在标记(Marko)窗格21中显示。
[0087] 利用任意持续时间的固定间隔创建初始标记(Marko)表14,要求用户在控制器窗格23中选择一个时间间隔。标记(Marko) 14是选定的重复时间间隔,以覆盖音频记录11的整个持续时间。表中的最后一个标记(Marko)14,可以比选定的时间间隔短。[0088] 文本12由映射器10接收,初始令牌表15则由映射器10生成并在令牌窗格22内显示。在标点、文字或者诸如HTML标签等中间数据的基础上,通过将文本12分离成单元(令牌),可以创建出初始令牌表15。
[0089] 下一步是一个交互式过程,通过此过程,用户可以创建标记(Marko) 14和令牌15个体之间的对应。
[0090] 用户可以从标记(Marko)窗格21中选择一个标记(Marko) 14个体,并利用控制器窗格23从音频记录11播放对应的音频。从扬声器30中可以听到声音,并且声音的音量图显示在音量图窗格24内。标记(Marko)窗格21和令牌窗格22则显示标记(Marko) 14和令牌15之间的大致对应。通过下述操作,用户可以交互式地"提纯"这种对应。[0091] 标记(Marko)操作包括"拆分"、"结合"、"删除"、"裁剪"和"播放"。令牌操作包括"拆分"、"结合"、"删除"和"剪辑"。符号令牌的唯一规定操作是"删除"。根据具体的实施方案不同,可以通过标记(Marko)、控制器和音量图窗格(分别为窗格21、23和24)的组合来执行标记(Marko)操作,或者通过其他的用户输入40来执行标记(Marko)操作。根据具体的实施方案不同,可以通过令牌窗格22和控制器窗格23的组合来执行令牌操作,或者通过其他的用户输入40来执行令牌操作。
[0092] 标记(Marko)拆分是将标记(Marko)窗格21中的标记(Marko)转换成两个有顺序的marko X和marko Y,其中拆分点可以是原标记(Marko) 14开始和结束之间的任何一个点。Marko X始于原标记(Marko)的开始点,Marko Y终于原标记(Marko)的终点,且MarkoX的终点与marko Y的始点相同。该点就是拆分点。用户可以参考音量图窗格24来帮助确定出合适的拆分点。音量图窗格24显示与当前的项(jana)16对应的音频记录ll部分的音量图。
[0093] 标记(Marko)结合是将标记(Marko)窗格21中的两个有顺序的标记(Marko),即marko X和marko Y转换成一个单个标记(Marko) 14,其开始点是marko X的始点,终点是marko Y的终点。
[0094] 标记(Marko)删除是从显示在标记(Marko)窗格21中的标记(Marko)表14中去掉一个标记(Marko)。
[0095] 标记(Marko)裁剪是从标记(Marko) 14的始点或终点去除额外的信息。这相当于将标记(Marko)14拆分成两个标记(Marko) 14,并废弃表示额外信息的那个标记(Marko)14。
[0096] 标记(Marko)播放是播放与标记(Marko) 14对应的音频记录11部分。播放时,该部分音频记录11在扬声器30上产生,音量图在音量图窗格24上显示,而对应于播放标记(Marko) 14的令牌15则在令牌窗格22上突出显示。在这种情况下"突出显示"指的是任何一种直观强调方式。
[0097] 标记(Marko)操作还定义为标记(Marko)组操作:一个标记(Marko) 14可以拆分为多个标记(Marko),多个标记(Marko)14可以按相同的量来剪裁,而多个标记(Marko) 14可以被结合、删除或播放。
[0098]"令牌拆分"是将令牌窗格22内显示的令牌15转换成两个有顺序的令牌,即令牌X和令牌Y,在此拆分点是字母、字符或象形字对之间的一个点。
[0099]"令牌结合"是将令牌窗格22内显示的两个顺序排列的令牌,即令牌X和令牌Y,
转换成一个单一令牌15。转换的方式是将令牌Y以文本附加的方式附加到令牌X上。
[0100]"令牌编辑"指的是修改令牌15的文本,例如纠正拼写错误。
[0101]"令牌删除"是从令牌窗格22中显示的令牌表15中去除一个令牌。
[0102] 交互过程完成后,各个标记(Marko) 14都有一个与之对应的令牌15 ;这个标记
(Marko)、令牌对被称为项(jana)16,项(jana) 16的类集则被称为项(jana)表16。
[0103] 用户可以利用控制器自动生成在音频记录11中所有时间间隔的mishcode,这些
时间间隔未包括在音频记录11的项(jana)表16的任何一个标记(Marko) 14中。
[0104] 项(jana)表16可以由映射器10保存,保存格式是计算机可读取格式,通常是一
个或多个计算机文件。在一套实施方案中,项(jana)表16另存为两个分离文件,即标记
(Marko)表14和令牌表15。在另一个实施方案中,二者都保存在一个单一的项(jana)表
16内。
[0105] 标记(Marko)表14和令牌表15合并成一个单一项(jana)文件16包括如下方法:(1)表14、 15单元的成对拼接(concatenation) ; (2) —个表15在另一个表14终点的拼接;(3)为标记(Marko) 14和令牌15单元定义XML或者其他的中间数据标签。[0106] 映射器10的一个可选功能是创建各个项(jana) 16的分离音频记录17。这些记录通常存储为计算机文件集,这些文件集通称为拆分文件17。在不使用基础流协议的情况下,拆分文件实现了流的仿真。
[0107] 为了解释其工作原理,下面对流作一个简要论述。在音频内容较多的常见流中,服务器和客户之间必须有一个通用的流协议。客户从服务器请求具体的内容片断。服务器开始利用达成一致的协议传输内容。服务器传送完一定量的内容后,通常是传送的量足以填满客户端的缓存器时,客户端开始播放该内容。用户快进该内容,由客户端向服务器发送一个请求来启动,该请求包括一个时间编码。然后,服务器中断流的传输,重新开始某一位置传输,这一位置由从客户端接收的时间编码规定。在这个点是,客户端缓存器开始重新填充。
[0108] 流的本质是:(1)客户端向服务器发送一个请求;(2)服务器开始向客户端传输;(3)客户端缓存器充填;(4)客户端开始播放。
[0109] 下面论述本发明如何对流进行仿真。客户(在此是外部计算机31)请求从服务器(在此为处理器2)传输一个内容片断的项(jana)表16。服务器2利用任何一种文件传送协议按文本文件传输项(jana)表16。客户端31向服务器2发送连续请求,请求传输有序的拆分文件17个体。服务器2利用任何一种文件传送协议将请求的文件17传输到客户端31。请求的发送和对应拆分文件17的接收可以同时且非同步进行。通常,首个拆分文件17完成下载后,客户端31可以开始播放内容。
[0110] 本发明可以实现音频流的正常要求。该流仿真方法的本质是:(1)客户端31向服务器2发送一个请求;(2)服务器2开始向客户端31传输;(3)客户端31至少接收一个单一的拆分文件17 ; (4)客户端31开始播放拆分文件17。[0111] 该音频传输方法有利于流的传输,具体优点有以下四点:
[0112] (1)本发明使内容供应商不必再购买或者使用专门的流服务器软件,其原因是所
有的内容传输均由文件传送协议而不是流协议来处理。网络服务器通常包括文件传递手
段。因此,本发明适用于多数甚至全部网络服务器,不再需要任何流协议。
[0113] (2)本发明允许以项(jana) 16或者其中多个项(jana) 16的颗粒度来播放不同范
围的音频。注意项(jana)16通常较小,时间跨度仅有几秒。流协议不能分离播放一块或者
一个范围的音频,它们从某个给定点开始向前播放,所以,一旦客户端已经接收了用户期望
的内容范围,客户端必须单独请求服务器停止传送。
[0114] (3)在本发明中,快进和随机访问是设计的内在要素。服务器2不需要内容的内部结构知识来实现这些功能性单元,这一点与常见的流协议不同,那些协议要求服务器具有内部结构的详细知识。在本发明中,客户31通过发送有顺序的拆分文件17请求来实现快进和随机访问,其开始点是与音频中重放的开始点相对应的拆分文件17。通过参考项(jana)表16来确定该点,具体地讲,就是(先前传递到客户端31的)项(jana)表16中的标记(Marko) 14。执行文件传输的所有服务器2,都可以实现本发明。
[0115] (4)客户端31和服务器2之间的数据传输速度不足以跟上客户端31的音频重放时,讲话录音重放中会有跳动现象,本发明改进了讲话录音重放中的这种跳动现象。在流协议中,音频重放会在音频流中某个不可预知的点上暂停,以充填客户端缓存器。从统计学意义上看,在流型讲话(streaming speech)中,这类点可能发生在单词内。而在本发明中,这
11类点仅在项(jana)16边界上出现。至于讲话,项(jana) 16符合自然讲话界限,这些边界通常定义音节、单词或者短的单词序列的开始和结束点。
[0116] 播放器50(在处理器2上执行)从内存3、非易失性数字存储器4和(或)通过网络适配器7从网络9接收输入数据。输入数据至少有两个成分,通常作为文件,即项(jana)表16和一组拆分文件17实现。输入数据可以选择性地包括一组注释文件和索引56。[0117] 项(jana)表16是如上所述的时序映射。拆分文件17则是如上所述的音频记录。表16和文件17也许已经由图2所示装置产生,也许尚未由其产生。
[0118] 注释文件集和索引56是由注释加一个索引组成的中间数据。注释格式可以是任意一个媒体格式,包括文本、音频、图像、影像剪辑(video clip)和(或)URL;可以有任意内容,包括定义、翻译、脚注、示例、参考、清晰注明的发音、交替的发音和测验(其中用户接受内容测验)。令牌15、令牌组、文本单元或者各注释个体所属的时间标记表14等在索引中规定。在一套实施方案中,注释自身也可以有注释。
[0119] 显示器20连接在视频处理器6上,该显示器为用户提供视觉反馈。与音频处理器5连接的扬声器30,为用户提供声频反馈。用户输入40,比如鼠标和(或)小键盘,连接在输入处理器1上,提供用户控制器。
[0120] 播放器50在显示器20上显示窗口窗格。在一套实施方案中,窗口窗格有三个组成部分,即文本区61、控制器62和可选滚动条63。在其他实施方案中,播放器的功能可以扩展到多个数量不等的视觉组成部件中。
[0121] 文本区61显示令牌15,令牌15的格式符合用户选定的标准,包括文本单元的颗粒度,颗粒度可以为单词,短语,句子,或者段落。格式类型实例包括每行一个令牌15、每行一个单词、按歌曲或诗歌的诗句或者按书本的段落。方本区61也可以有交互式控制器。[0122] 控制器组件62显示各种控制器,比如音频播放、停止、回倒、快进、加载、动画类型、显示格式和注释弹出。
[0123] 如果认为有必要或者希望滚动文本区61,可以利用可选式滚动条63。[0124] 图3所示系统的操作描述如下:
[0125] 播放器50请求项(jana)表16的具体内容片断、相关注释文件以及索引56(如果有)。项(jana)表16由播放器50接收,并且显示文本区61和控制器62。对应的令牌表15显示在文本区61内。
[0126] 播放器50可以配置成在启动时自动开始重放,也可以配置成等待用户启动重放。两种情况下,播放器50都播放一个或一组项(jana)16。短语"项(jana)组"包括如下几种情况:整个项(jana)表16(从始到终);从某个特定的项(jana) 16到最后一个项(jana) 16(当前位置到终点);任意两个项(jana) 16之间。
[0127] 可用以下方式启动重放,播放对应的项(jana) 16或者一组项(jana) 16 : (1)由用户启动播放整个项(jana)表16的起始控制器;(2)启动播放当前项(jana) 16到终点的起始控制器;(3)利用鼠标、小键盘或者其他的输入设备40,在文本区61内选择任意一个令牌15或者一组令牌播放。
[0128] 项(jana) 16的播放,通过播放相对应的拆分文件17实现。播放器50从以下三个地方得到所需的拆分文件17 :正在运行的播放器50的处理器2 ;另一台计算机;内存3,条件是先前已经得到了拆分文件17并缓存在内存中。[0129] 如果需要多个拆分文件17,并且那些文件17未在超高速缓存器3,则播放器50开 始连续请求必需的拆分文件17。
[0130] 重放的启动,会同时启动一个(连接在播放器上的)实时时钟,该实时时钟已经根
据被播放的项(jana)16内的标记(Marko) 14的开始时间进行了初始化。
[0131] 实时时钟被设定到了与音频重放同步。例如,如果音频重放停止,实时时钟也同步
停止;如果音频重放速度放慢、加快或跳跃播放,实时时钟也随之调整。
[0132] 动画文本按实时时钟进行。具体地说,当时实时时钟在项(jana)的标记(Marko)
时间间隔内,播放此项(jana)16的令牌15的动画。另外,如果文本区61内正在播放项
(jana) 16的文本是不可视的,文本区61会自动滚动,以便使文本可见。
[0133] 文本动画包括各种情况,其中文本变化的直观表示与音频重放同步。动画和同步
可以在单词、短语、句子或段落水平上实现,也可以在构成文本的字母、语音或音节水平上
实现,以便与相应音频记录的重放达到平滑、精密的同步。
[0134] 文本动画包括文本或者背景的运动幻影和(或)颜色、字体、透明度和(或)可见 度的变化。运动幻影可以是逐字式(即一个字跟一个字),比如卡拉OK中的"弹球",弹出 式,或升离基准线式。运动幻影也可连续发生,比如显示条随文本移动,或"彩带"效应。可 单独或组合采用不同的动画方法。
[0135] 如果当前项(jana)表16已有注释文件和索引56,那么便可以显示、播放或者弹出 有关注释。包括文本、音频、图像、影像剪辑(video clip)、URL等的注释文件和索引56,是 根据需要进行请求的。
[0136] 注释的显示、播放或者弹出,要么由用户启动,要么自动操作。
[0137] 用户触发的注释显示通过用户与令牌15上的文本区61或文本单元基础的交互来 实现。举例来说,用户触发的注释,其调用方法包括采用鼠标、小键盘或者其它输入设备40 来选择单词、短语或者句子。
[0138] 如果激活了自动注释,则可以利用间隔定时器,由实时时钟从外部激励源或者随
机激活。自动注释实例包括幻灯、文本区背景或者音频、视频或文本注解。
[0139] 三个具体的注释实例是:(1)在文本区61中单词"埃佛勒斯峰"上单击鼠标右键,
弹出一个埃佛勒斯峰图像;(2)在文本区61中,当单词"你好"突出显示时,按下翻译按钮则
显示法语翻译"bonjour"; (3)在播放歌曲"老麦克唐纳"时,会适时自动出现农家院家畜的插图。
[0M0] 在一套实施方案中,播放器50、项(jana)表16、拆分文件17和(或)注释文件和 索引56等都综合在一个单一可执行数字文件内。上述文件可以通过网络适配器7传输到 装置100之外。
[0141] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽 管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然 可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何 修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

  1. 一种计算机实现的创建从文本到音频记录的时序映射方法,包括如下步骤:A、馈送步骤:利用计算机上的声文映射器接收输入数据,所述输入数据包括音频记录和文本;B、赋值步骤:将起始和终止时间赋值给对应此音频记录的文本单元;所述文本单元为文本粒度,所述文本粒度包括固定时间段音频、字母、音素、音节、单词、短语、句子或段落;其特征在于:所述A步骤中,所述文本为计算机可读取格式的文本,音频记录为计算机可读取格式的音频,所述声文映射器用于创建文本与音频录音之间的时序映射,所述输入数据从内存、存储器和/或通过网络适配器从网络接收,所述B步骤赋值步骤方法如下:采用标记记录音频记录开始时间和结束时间,所述结束时间始终大于开始时间,并且标记不重叠,对标记中音频记录对应的文本或者符号用令牌表示;将对应的标记与令牌组合成项,其中,所述声文映射器将接收的音频记录首先生成一个初始标记表,所述初始标记表采用如下两种方式创建:a、利用预先选定的时间长度的音频的音量阈值高低来创建,其中,将等于或长于持续时间内小于音量阈值的音频记录的音频段为平静类,将等于或长于持续时间内开始和结束音量大于阈值且不包含平静类的音频段为声音类,将未包括在上述两类中的音频段为模棱两可类;b、利用任意持续时间的固定间隔创建,所述持续时间由用户自行定义;所述声文映射器在标点、文字或者HTML标签中间数据的基础上,将文本分离成单元,创建出初始令牌表;多个标记组成标记表,多个令牌组成令牌表,对应的标记表与令牌表组成项表,其中项表对应方式可以是:对应的标记表与令牌表成对合并、对应的令牌表在标记表终点拼接或为标记和令牌单元定义XML或者其他中间数据标签。
CN 200710086531 2006-07-28 2007-03-13 一种计算机实现的创建从文本到音频记录的时序映射方法 Expired - Fee Related CN101079301B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/495,836 2006-07-28
US11/495,836 US20080027726A1 (en) 2006-07-28 2006-07-28 Text to audio mapping, and animation of the text

Publications (2)

Publication Number Publication Date
CN101079301A CN101079301A (zh) 2007-11-28
CN101079301B true CN101079301B (zh) 2010-06-09

Family

ID=38906709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710086531 Expired - Fee Related CN101079301B (zh) 2006-07-28 2007-03-13 一种计算机实现的创建从文本到音频记录的时序映射方法

Country Status (2)

Country Link
US (1) US20080027726A1 (zh)
CN (1) CN101079301B (zh)

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9953450B2 (en) * 2008-06-11 2018-04-24 Nawmal, Ltd Generation of animation using icons in text
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010081225A1 (en) * 2009-01-13 2010-07-22 Xtranormal Technology Inc. Digital content creation system
US8498866B2 (en) * 2009-01-15 2013-07-30 K-Nfb Reading Technology, Inc. Systems and methods for multiple language document narration
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8493344B2 (en) * 2009-06-07 2013-07-23 Apple Inc. Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2011133766A2 (en) * 2010-04-23 2011-10-27 Nvoq Incorporated Methods and systems for training dictation-based speech-to-text systems using recorded samples
US20110276327A1 (en) * 2010-05-06 2011-11-10 Sony Ericsson Mobile Communications Ab Voice-to-expressive text
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8707195B2 (en) 2010-06-07 2014-04-22 Apple Inc. Devices, methods, and graphical user interfaces for accessibility via a touch-sensitive surface
US8595012B2 (en) * 2010-06-29 2013-11-26 Lenovo (Singapore) Pte. Ltd. Systems and methods for input device audio feedback
CN102314874A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 文本到语音转换系统与方法
US8452600B2 (en) * 2010-08-18 2013-05-28 Apple Inc. Assisted reader
CN102487433B (zh) * 2010-12-06 2014-03-26 联咏科技股份有限公司 多媒体装置及其播放模式检测方法
US9645986B2 (en) 2011-02-24 2017-05-09 Google Inc. Method, medium, and system for creating an electronic book with an umbrella policy
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
JP5855223B2 (ja) * 2011-03-23 2016-02-09 オーディブル・インコーポレイテッドAudible, Inc. 同期されたコンテンツの再生管理
US10522133B2 (en) * 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US20120310642A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8751971B2 (en) 2011-06-05 2014-06-10 Apple Inc. Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
US9141404B2 (en) 2011-10-24 2015-09-22 Google Inc. Extensible framework for ereader tools
US9031493B2 (en) 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
KR101921203B1 (ko) * 2012-03-02 2018-11-22 삼성전자 주식회사 녹음 기능이 연동된 메모 기능 운용 방법 및 장치
US8881269B2 (en) 2012-03-31 2014-11-04 Apple Inc. Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader
US20130268826A1 (en) * 2012-04-06 2013-10-10 Google Inc. Synchronizing progress in audio and text versions of electronic books
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9047356B2 (en) 2012-09-05 2015-06-02 Google Inc. Synchronizing multiple reading positions in electronic books
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9836271B2 (en) * 2013-07-17 2017-12-05 Booktrack Holdings Limited Delivery of synchronised soundtracks for electronic media content
CN103400592A (zh) * 2013-07-30 2013-11-20 北京小米科技有限责任公司 录音方法、播放方法、装置、终端及系统
CN104424996A (zh) * 2013-09-01 2015-03-18 马旭 一种打点录音的装置和方法
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
CN104867511A (zh) * 2014-02-26 2015-08-26 苏州乐聚一堂电子科技有限公司 卡拉ok互动关键词特效系统
CN103986890A (zh) * 2014-05-04 2014-08-13 苏州乐聚一堂电子科技有限公司 文字特效卡拉ok手机点歌系统
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019A (zh) 2014-05-30 2020-02-14 苹果公司 多命令单一话语输入方法
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
CN104751870B (zh) * 2015-03-24 2018-07-06 联想(北京)有限公司 一种信息处理方法及电子设备
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10048936B2 (en) * 2015-08-31 2018-08-14 Roku, Inc. Audio command interface for a multimedia device
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105635784B (zh) * 2015-12-31 2018-08-24 新维畅想数字科技(北京)有限公司 一种音像同步显示方法及系统
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108564966B (zh) * 2018-02-02 2021-02-09 安克创新科技股份有限公司 语音测试的方法及其设备、具有存储功能的装置
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN109634700A (zh) * 2018-11-26 2019-04-16 维沃移动通信有限公司 一种音频的文本内容显示方法及终端设备
RU192148U1 (ru) * 2019-07-15 2019-09-05 Общество С Ограниченной Ответственностью "Бизнес Бюро" (Ооо "Бизнес Бюро") Устройство для аудиовизуальной навигации слепоглухих людей
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1463419A (zh) * 2001-03-23 2003-12-24 皇家菲利浦电子有限公司 同步文本/可视信息与音频重放
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
FR2856867A1 (fr) * 2003-06-25 2004-12-31 France Telecom Systeme pour generer un script temporel a partir d'une liste de documents
CN1560816A (zh) * 2004-02-18 2005-01-05 陈德卫 一种实现音频和文本信息同步控制的方法和装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4923428A (en) * 1988-05-05 1990-05-08 Cal R & D, Inc. Interactive talking toy
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
US5611693A (en) * 1993-06-22 1997-03-18 Brother Kogyo Kabushiki Kaisha Image karaoke device
US6594688B2 (en) * 1993-10-01 2003-07-15 Collaboration Properties, Inc. Dedicated echo canceler for a workstation
US6477239B1 (en) * 1995-08-30 2002-11-05 Hitachi, Ltd. Sign language telephone device
JPH09185385A (ja) * 1995-11-02 1997-07-15 Victor Co Of Japan Ltd 音楽情報の記録方法及び再生方法並びに音楽情報再生装置
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US6174170B1 (en) * 1997-10-21 2001-01-16 Sony Corporation Display of text symbols associated with audio data reproducible from a recording disc
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
US6456973B1 (en) * 1999-10-12 2002-09-24 International Business Machines Corp. Task automation user interface with text-to-speech output
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6933928B1 (en) * 2000-07-18 2005-08-23 Scott E. Lilienthal Electronic book player with audio synchronization
US6961895B1 (en) * 2000-08-10 2005-11-01 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for synchronization of text and audio data
US6554703B1 (en) * 2000-10-12 2003-04-29 Igt Gaming device having multiple audio, video or audio-video exhibitions associated with related symbols
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US6990452B1 (en) * 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
US7203648B1 (en) * 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US7091976B1 (en) * 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US6546229B1 (en) * 2000-11-22 2003-04-08 Roger Love Method of singing instruction
US7013154B2 (en) * 2002-06-27 2006-03-14 Motorola, Inc. Mapping text and audio information in text messaging devices and methods therefor
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7599838B2 (en) * 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios
US7508393B2 (en) * 2005-06-07 2009-03-24 Gordon Patricia L Three dimensional animated figures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1463419A (zh) * 2001-03-23 2003-12-24 皇家菲利浦电子有限公司 同步文本/可视信息与音频重放
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
FR2856867A1 (fr) * 2003-06-25 2004-12-31 France Telecom Systeme pour generer un script temporel a partir d'une liste de documents
CN1560816A (zh) * 2004-02-18 2005-01-05 陈德卫 一种实现音频和文本信息同步控制的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
同上.

Also Published As

Publication number Publication date
CN101079301A (zh) 2007-11-28
US20080027726A1 (en) 2008-01-31

Similar Documents

Publication Publication Date Title
CN101079301B (zh) 一种计算机实现的创建从文本到音频记录的时序映射方法
US20140039871A1 (en) Synchronous Texts
JP2001014306A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
Wagner Using unscripted spoken texts in the teaching of second language listening
CN101577059A (zh) 支持多语种的语言学习系统
Rebelo Notating the unpredictable
WO2003100621A1 (en) Multimedia re-editor
KR20100005177A (ko) 맞춤형 학습 시스템, 맞춤형 학습 방법, 및 학습기
CN103098124B (zh) 用于文本到语音转换的方法和系统
Newman SPOKEN CORPORA: RATIONALE AND APPLICATION.
CN1945692B (zh) 一种在语音合成系统中提升提示音匹配效果的智能方法
CN109389873B (zh) 计算机系统和由计算机实现的训练系统
US20080243510A1 (en) Overlapping screen reading of non-sequential text
CN102662497A (zh) 带屏多功能点读笔与实现古兰经的导读方法
Kehoe et al. Designing help topics for use with text-to-speech
Van Leeuwen Discourse and technology.
CN104572716A (zh) 影音文件播放的系统及其方法
CN111145719A (zh) 将中英混合及语气标签化的数据标注方法及装置
US20040162719A1 (en) Interactive electronic publishing
Lhawa Language revitalization, video, and mobile social media: A case study from the Khroskyabs language amongst Tibetans in China
CN110085227B (zh) 编辑语音技能文件的方法和装置、电子设备、可读介质
Folk Multimodal style and the evolution of digital writing pedagogy
KR20210107333A (ko) 온라인을 통한 한국어 학습 서비스 제공 시스템
Galve Ignacio Guillén Galve and Miguel A. Vela-Tafalla After the journal article and its orbiting part genres (see Pérez-Llantada 2013), the academic blog stands as the most widely studied digital research genre, with studies (Luzón 2013a, 2013b, Zou and Hyland 2019, 2020) focusing on the linguistic strategies deployed by academic blog writers to adapt scientific discourse to a hybrid, highly
Francis New poetics in China: A review of experimental Chinese literature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20110313