CN101079301B

CN101079301B - 一种计算机实现的创建从文本到音频记录的时序映射方法

Info

Publication number: CN101079301B
Application number: CN200710086531.7A
Authority: CN
Inventors: 埃里克·路易斯·汉森
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-07-28
Filing date: 2007-03-13
Publication date: 2010-06-09
Anticipated expiration: 2027-03-13
Also published as: US20080027726A1; CN101079301A

Abstract

本发明公开一种计算机实现的创建从文本到音频记录的时序映射方法，更具体地讲，涉及创建文本到音频映射的相应处理过程。包括馈送步骤和赋值步骤：采用标记记录音频记录开始时间和结束时间，对标记中音频记录对应的文本或者符号用令牌表示；将对应的标记与令牌组合成项，多个标记组成标记表，多个令牌组成令牌表，对应的标记表与令牌表组成项表。本发明可以用于在音频记录播放过程中给文本赋予生气；代替传统的重放控制器来控制音频播放；播放并显示语音记录的注释；在不用基础流协议的情况下实现流动音频的特征。

Description

一种计算机实现的创建从文本到音频记录的时序映射方法

技术领域

本发明涉及音频分析领域，特别是诸如演讲等包含文本说明的音频。更具体地讲，涉及创建文本到音频映射的相应处理过程。

背景技术

在基于语言方面的第一次技术进步是简单发声法的开发，当时这些发声法只能在时间上孤立地进行意思传达。后来，人们按时间相位和相继次序对这些最初的发声法进行组合，形成了语音流(streams of speech)。再后来，人们发明了在洞壁或其他合适表面上绘制简单符号或图像，但它们只是在空间上孤立进行意思传达。后人及时将这些符号或图像与口语联系了起来。后来，人们把这些独立的与语言有关的图形在空间相位上按相继次序组合形成了书面语言或“文本”。具体地说，我们具有创新精神的祖先，开始对象形、表意或者有音素特征的字符进行顺序空间排序，这些字符对应并且部分表示实际言语中按时间顺序排列、用来传达意思的发声序列。这些二维空间字符既传达意思又与发声有关，用这些字符表示的相继次序是一项非常关键的创新，它使得我们能够将瞬时动态语音流的部分表示“凝固”成静态可储存文本。

模拟语音处理的发明，进一步提高了人们通过说话和文本进行交流的能力。这项技术发明使得我们能够凝固并存储动态语音流的声音，而不在满足于把语音部分等效存储为文本。近年来，通过以下方式，人们通过语言进行交流的能力得到了进一步延伸：一是通过对语音和文字进行数字编码，存储，处理，然后对其进行解码处理；二是电脑化文本搜索技术的开发；三是通过交互式文本包括交互式文本注释和超文本的开发。最后，因特网分布语音录音和文本技术的开发，使得人们通过语言进行交流的能力大大提高。这项技术是通过因特网，将语音录音和文本分布到越来越盛行的可编程或专用数字计算装置上。

概括地说，两个相继次序的出现，使得口语和书面语言的交流成为可能：一是用来传达意思的说话发声的时间相继次序，二是表示说话发声的象形、表意或者有音素特征的字符的空间相继次序。虽然上述两个相继次序都分别是一种有力的语言沟通形式，但是，语音和文本的局部等同，使得我们利用其中一个来表示或替代另一个成为可能。已经有多种途径证明这个局部等同非常有用，这些途径包括人们对两种妨碍人际交流的残疾-耳聋和失明的征服。具体地说，听不见口语但可以看见并学过阅读的人，通过读出抄写的口语单词，至少可以理解讲话的部分意思。其次，那些看不见书面语言的人，可以通过倾听把书写下来的文字转换成的发声，或者通过聆听原始讲话录音，理解书面上写的是什么。

对于具有视力和听力者，在同时进行语音和文本表示时，语音和文本表示的配合可以创造出一种有力的混合式语言交流形式。具体地说，语音和文本的同时传达，使得听/读者在同一时间内同时通过两条语言交流途径，即听和看，来得到信息。语音加文本表示中的讲话部分，会支持并强化书面信息，而语音加文本表示中的文本部分，则支持并强化讲话信息。简而言之，语言加文本表示的效果，好于其各部分表示的总和。

例如，在熟悉的国歌响起时，看到同步显示“星条旗”歌词，可能会让人在一个全新角度上油然而生感激之情。同样，在聆听马丁路德金演讲录音的同时，阅读他著名的“我有一个梦想”的原文，会让人沉浸在语言加文本的全新体验中，这种体验，性质上决不同于简单的阅读原文或聆听讲演。

语音加文本表示，在教育领域也有广阔的应用。例如，学习阅读某个人的本国语言，涉及到书写字符与相应口语单词的联想。通过语音加文本的同步表示，可以使得这种联想学习法变得更加容易。

语音加文本表示在教育领域的另一项应用，是外语或“第二”语言的学习-也就是学习至少在开始以口头或书写形式不能理解的语言。例如，一位学习德语的学生，可以玩语音加文本版的卡夫卡的“变形”，在阅读文本的同时，可以聆听口语版的故事。在这种第二语言学习应用中，诸如书面译文等文本注释可以帮助学生以口语和书面语两种形式理解第二语言，并帮助学生获得口语和书面表达能力。口语翻译形式的文本注释可以增强外语资料的语音加文本表示效果，这些文本注释可以是清晰的发音，或是个别单词的读音，也可以是弹出式测验题。

这种语音加文本表示在工业教育领域的一项应用，是增加书面技术资料的音频版本。音像版企业培训手册或者航空机师指南，可以这样制作：在文本显示的同时播放音频，以便让人们更透彻地理解其中的术语。

有多种原因导致难以理解一篇讲话，除了外语之外，还有例如，讲话录音中语音部分因本底噪声影响而模糊不清，讲话带有陌生口音，因与音乐伴奏混杂或节奏变化而导致的歌曲歌词难以听懂，或者在声乐中常见的因歌词或音节持续时间变化而导致的歌曲歌词难以听懂。所有这些问题，都可以通过将语音成分用书面和发声两种方式结合表示来解决。

对现存在的一些讲话以语音加文本形式进行记录，在保护濒危语言并存档保存这些语言方面，也可以起到建设性的作用。

一般地说，语音加文本的混合表示方式，借助于基于机器的文本搜索技术，机器搜索这些表示中的语音成分的再现成为了可能。

我们首先提出从前的技术相对于本发明映射器10的不足之处，然后提出其相对于播放器50的不足之处。

现行的音频分析或者声音编辑程序，可以用来在用户选定位置录音时设置标记。然后可以输出这些标记，创建一个时间编码表。成对的时间编码可以按时间间隔译码。然而，用这样的方式创建的时间编码或时间编码间隔，并没有映射到文本信息中。该方法在录音和诸如讲话等可以以录音形式存在的文本表示之间形成一个映射。这就是以前的技术达不到本发明中映射器10的功能的原因。

现在，我们看看涉及到本发明播放器50以前的旧技术。在播放录音讲话的同时呈现该讲话的书面记录(或者在呈现文本的同时播放其发声转换版本)时，正在聆听的读者(或者是正在阅读的听众)会遇到几个问题：第一个问题是，对应于正在讲述的内容，怎样掌握文本中的文字进展到了何处？以前的技术有两种方法应对这个问题，在下文中我们会分析其不足之处。第二个问题是，在语音加文本表示中，组成文本的书写单词个体可以做成机器可搜索、可注释和交互式的，而音频部分的口语单词个体则不能。从前的技术尽管知道文本和音频之间的对应关系，但是未能使包含语音的音频做到机器可搜索、可注释和交互式。第三个问题是，音频成分的交互式传输需要制定一个流协议。从前的技术并没有涉及使用音频成分传送流协议的而引起的限制问题。

从前的技术曾试图以两种方法解决上述第一个问题，即“如何掌握文本中的文字进展”。

第一个方法是使语音加文本的分段保持简短。如果一段讲话比较简短，其相应的文本因此也会较短，因此播放的音频和显示的文本之间的关系可能会相对清晰-条件是正在聆听的读者明白语音加文本表示的语音和书面成分。同时显示的文本越长，受众理解讲话或书面文字(或二者)的难度越大，因此也越有可能不知道讲话在文本上进展到了何处。可是，正常人一般是以一个“行进流”来讲话，并不局限于孤立的单词或者短语。此外，我们习惯阅读的文本是正常的连续文本，并不是那些为了方便显示而被分割成像单词或者短语那么长的一段段的文本。正常人的语音，包括声乐中的语音成分，如果其录音记录每次以单个单词或短语显示，然后快速变化以便跟上语音流，会显得很不自然。现有的伴读系统使用大块的文本或歌词，使得书面录音记录的表示更加自然，但同时也加大了受众在文本中搞不清讲话或歌词进展的可能性。

从前的技术曾试图用第二种方法，即与文本相关的动画法来解决跟上进展的问题。使用这种方法的实例有伴唱辅助系统，如一些较老的动画片中的“弹球”(bouncing ball)，或者卡拉OK系统中的弹球或者其它的位置指示动画。画面上的球随着音乐从一个词移动到另一个词，随着音乐的继续提示歌词唱到了何处，或者是要唱的歌词。利用弹球或者等效物的移动，与文本有关的动画也增加了人们对其他静态文本的直观兴趣。

与语音同步的文本动画，显然有潜力以一种彻底、有效和令人喜爱的方法来将语音与其文本相联系。现有的技术实现了以视频记录或者电影的方式制作文本动画。但是以这种方式实现文本动画有很多弊病：

1、这种影像的创作耗时较长，并且要求相关人员具有较高的技能。

2、即使仅显示文本、播放音频，这种影像的创作也会形成大容量数据文件。这些大容量文件相应地占用大量带宽和数据存储空间，并因此对那些可以将语音加文本表示下载到可编程数字计算装置或者专用数字计算装置上的设备施加了很多限制。

3、动画是固定式的。

4、通常动画低于单词级粒度。

5、除非作为视频的一部分，否则不能播放音频。

6、与音频之间的交互仅限于控制放像机。

7、音频不是机器可搜索或可注释的。

8、一旦制成视频，文本便无法更新或者改进。

9、文本不是机器可搜索或可注释的。

10、与文本自身不能交互。

发明内容

本发明在文本和音频之间建立连接，假定文本是录音语音的书面记录，或者语音是文本经发声转换而成的口语或歌唱形式。本发明：(a)定义了该种连接或者映射的创建过程；(b)提供了一套设备，以计算机程序的形式来帮助映射；(c)提供了另一个相关设备，也以计算机程序的形式，充分有效地证明了音频播放时文本和音频之间的连接。与音频播放同步的文本动画，说明了该连接的存在。

本发明采用的技术方案为：一种计算机实现的创建从文本到音频记录的时序映射方法，包括如下步骤：

A、馈送步骤：利用计算机上的声文映射器接收输入数据，所述输入数据包括音频记录和文本；

B、赋值步骤：将起始和终止时间赋值给对应此音频记录的文本单元；所述文本单元为文本粒度，所述文本粒度包括固定时间段音频、字母、音素、音节、单词、短语、句子或段落；其特征在于：

所述A步骤中，所述文本为计算机可读取格式的文本，音频记录为计算机可读取格式的音频，所述声文映射器用于创建文本与音频录音之间的时序映射，所述输入数据从内存、存储器和/或通过网络适配器从网络接收，

所述B步骤赋值步骤方法如下：

采用标记记录音频记录开始时间和结束时间，所述结束时间始终大于开始时间，并且标记不重叠，对标记中音频记录对应的文本或者符号用令牌表示；

将对应的标记与令牌组合成项，其中，所述声文映射器将接收的音频记录首先生成一个初始标记表，所述初始标记表采用如下两种方式创建：

a、利用预先选定的时间长度的音频的音量阈值高低来创建，其中，将等于或长于持续时间内小于音量阈值的音频记录的音频段为平静类，将等于或长于持续时间内开始和结束音量大于阈值且不包含平静类的音频段为声音类，将未包括在上述两类中的音频段为模棱两可类；

b、利用任意持续时间的固定间隔创建，所述持续时间由用户自行定义；

所述声文映射器在标点、文字或者HTML标签中间数据的基础上，将文本分离成单元，创建出初始令牌表；

多个标记组成标记表，多个令牌组成令牌表，对应的标记表与令牌表组成项表，其中项表对应方式可以是：对应的标记表与令牌表成对合并、对应的令牌表在标记表终点拼接或为标记和令牌单元定义XML或者其他中间数据标签。

本发明具有如下特性：

1、语音加文本表示的动画，能够充分有效地证明口语单词及其文本表示之间的暂时关系。

2、创建语音加文本表示形式的效率较高，此技术无需具有专门技能，无需专门培训。

3、表示语音加文本的数据存储文件较小，所需数据传输带宽较小，因此适于快速下载到便携式计算设备上。

4、动画呈现形式易于修改。

5、可全部或部分地播放音频而不依赖于动画或者文本的显示。

6、与语音加文本表示形式的交互，不局限于传统上对音频与视频播放器的各种控制(即“播放”、“倒带”、“快速进带”和“重放”)，包括适于该技术的各种控制(如“随机存取”、“重复上个短语”以及“翻译当前单词”)。

7、本发明使得语音加文本表示能够做到可机器搜索、可注释和交互式实施。

8、本发明允许播放音频注释，也允许显示文本注释。

9、本发明允许在表示被创建后对文本中的成分进行纠正或改变。

10、本发明允许交互式随机读取音频，而不使用基础流协议。

11、本发明提供了一个灵活的文本动画和创作工具，该工具可用于创作栩栩如生的语音加文本表示来满足各种特殊应用需要，如文化培训、第二语言学习、语言翻译以及教育、培训、娱乐和营销等。

附图说明

在下文说明书中，还会更详尽地描述这些说明以及本发明其他更详细具体的实物和特征。请参看附图，图中以各种角度放大显示了本发明，以方便理解。

图1是适于本发明的数字计算装置100的方框图；

图2是本发明的声文映射器(“Mapper”)10的方框图以及相关装置和数据；

图3是本发明的声文播放器(“Player”)50的方框图以及相关装置和数据。

具体实施方式

本发明可以各种不同的形式来具体化。因此，此处公布的细节与其说是限制，不如说是作为样本教导擅长该技术的人员在任何适当的系统或者结构上，或者以任何方式去使用本发明。

图1显示了本发明的数字计算装置100。数字计算装置100的组成如下：1.输入处理器，2.通用处理器，3.内存，4.非易失性数字存储器，5.音频处理器，6.视频处理器，7.网络适配器，上述部件均通过总线结构8连接在一起。数字计算装置100可以装在标准个人电脑、手机、灵巧电话、掌上电脑、笔记本电脑、个人数字助理等装备有适当的输入、视频显示器以及音频硬件的设备内。也可用专用硬件和软件来实现。它们可以集成到消费电器和装置中。

在使用时，网络适配器7可以接到通信网络9上，如局域网、广域网、无线通信网、因特网等等。外部计算机31可通过网络9与数字计算装置100通信。

图2所示是声文映射器(“Mapper”)10，该装置用于创建文本与音频录音之间的时序映射。图3所示是声文播放器(“Player”)50，该装置用来使文本以栩栩如生的方式显示，并且使这些文本动画与音频播放同步。

在此描述的本发明的所有组件和模块可以用任何硬件、软件、和(或)固件的组合来实现。用软件实现时，上述组件和模块可以嵌入在计算机可读取介质或者媒体上，如一个或多个硬盘、软盘、CD、DVD等。

映射器10(在处理器2上执行)从内存3、非易失性数字存储器4和(或)通过网络适配器7从网络9接收输入数据。输入数据有两个组成部分，音频记录11和文本12，它们通常作为分立文件实现。

音频记录11是任意长度声音的数字表示，该数字表示用MP3、OOG或者WAV格式编码。音频记录11通常包括口语讲话。

文本12是书面文本或者字形的数字表示，该数字表示用ASCII或者Unicode格式进行编码。文本12还可以是乐器数字接口MIDI(Music InstrumentDigital Interface)表示或者任何其他在数字计算装置或者电子装置之间发送音乐数字编码信息的格式。文本12通常由自然语言的书面文字组成。

音频记录11和文本12有一个内在的对应。示例之一是一段讲话的音频记录11与该段讲话文字稿的文本12。另一个示例是一首歌曲的音频记录11与该首歌曲歌词的文本12。还有一个示例是多个鸟语的音频记录11以及这些鸟的种类的文本名称12。一个按时序对应的映射(项(jana)明细表16)反映了这种内在对应。

标记(Marko)表14定义为开始和结束时间对(标记开(mark-on)、标记关(mark-off))，其单位是秒或其他时间单位。举例来说，数字对2.000:4.500定义了音频记录11中的音频数据，该音频记录开始于2.000秒，结束于4.500秒。

对标记(Marko)14的限制包括数字对中的第二个数始终大于第一个数，并且标记(Marko)14不重叠。

令牌表15是对应标记(Marko)14的文本或者符号表示表。

成对出现的标记(Marko)14和对应此标记(Marko)14的文本或符号表示15称作项(jana)16(jana发音为yaw-na)。举例来说，单词“hello”的音频在音频记录11中开始于2.000秒，结束于4.500秒，该单词的音频由Marko2.000:4.500来规定。Marko2.000:4.500和令牌“hello”确定一个具体的项(jana)16。注意项(jana)16只是成对出现的数字标记14和令牌对15，项(jana)16并未包含实际音频记录11。

项(jana)表16是标记(Marko)表14和令牌表15的组合。项(jana)表16定义音频记录11和文本12之间的时序映射。

Mishcode(mishmash code混杂编码)定义为令牌15是符号而不是文本的项(jana)16。可能表示为mishcode的音频段实例是寂静、欢呼、咳嗽、仅有乐器声的音乐或者任何选定为不由文本表示的其他声音。例如，在音频记录11中的欢呼声开始于5.200秒并终止于6.950秒音，该记录由marko5.200:6.950，与之成对的是令牌“<mishcode>”，在此“<mishcode>”指的是一个具体的mishcode。注意一个mishcode是一类项(jana)16。

带有文本表示的mishcode不再是mishcode。例如，欢呼声可能通过文本“掌声”、“欢呼”或者“观众突然欢呼”来表示。用该文本置换“<mishcode>”令牌后，它不再是一个混杂编码，但仍是项(jana)16。同理，用令牌“<mishcode>”来取代文本表示后，带有文本表示的项(jana)16转换成一个mishcode。

各项(jana)表示的音频，可以另存为独立的音频记录17，通常计算机文件称为分离文件(split files)。表14-16和文件17可以存储在非易失性数字存储器4上。

显示器20连接在视频处理器6上，该显示器为用户提供数字计算装置100的视觉反馈。与音频处理器5连接的扬声器30，为用户提供声频反馈。利用连接在输入处理器1和映射器10的用户输入40，比如鼠标和(或)键盘，用户可以控制映射器10。

在一套实施方案中，映射器10在显示器20上显示以下四个窗口：标记(Marko)窗格21、令牌窗格22、控制器窗格23和音量图窗格24。在其他实施方案中，映射器的功能可以分散在不同数量的窗格中，该数量或多于、或少于4个。

标记(Marko)窗格21显示标记(Marko)14，每行显示一个。窗格21是可滚动的，该项可选。窗格21还可有交互控制功能。

令牌窗格22显示令牌15，每行显示一个。窗格22也是可滚动的，该项可选。窗格22也可以有交互控制功能。

控制器窗格23显示编辑、播放、保存、加载和程序控制的控制器。

音量图窗格24显示音频记录11的某一段的音量图。窗格24也可以有交互控制功能。

图2所示系统的操作描述如下：

音频记录11通过映射器10接收，映射器生成一个初始标记(Marko)表14，并在标记(Marko)窗格21中显示标记(Marko)表14。初始标记(Marko)表14的创建方法有两种，一是利用音频记录11的声学分析由映射器10来创建；二是由映射器10把音频记录11划分为任意预选持续时间段的固定间隔。

可以根据预先选定的时间长度的音频11的音量是高于还是低于预先选定的音量阈值来进行声学分析。

在声学分析扫描中考虑三种情况：(1)等于或长于持续时间D1内小于音量阈值V1的音频记录的音频段为“平静”(lull)类；(2)等于或长于持续时间D2内开始和结束音量大于阈值V2且不包含平静(lull)的音频段11，为“声音”(sound)类；(3)未包括在上述两类中的音频11为“模棱两可”(ambiguous)类。

参数V1和V2规定音量，或者更准确地讲，规定声功率水平，比如以瓦或者分贝为单位测得的声功率水平值。参数D1和D2规定时间间隔，其测定单位为秒或者其它时间单位。四个参数(V1、V2、D1和D2)都是用户可选参数。

利用映射器10，把模棱两可类的音频分解成接近的声音类或者平静类。这一点可由映射器10在声学分析完成后利用逻辑法则自动进行，也可由用户在控制器窗格23中人工干预进行。该步结束后，会形成一个标记(Marko)14表，该表定义音频记录11中的各个声音；该表在标记(Marko)窗格21中显示。

利用任意持续时间的固定间隔创建初始标记(Marko)表14，要求用户在控制器窗格23中选择一个时间间隔。标记(Marko)14是选定的重复时间间隔，以覆盖音频记录11的整个持续时间。表中的最后一个标记(Marko)14，可以比选定的时间间隔短。

文本12由映射器10接收，初始令牌表15则由映射器10生成并在令牌窗格22内显示。在标点、文字或者诸如HTML标签等中间数据的基础上，通过将文本12分离成单元(令牌)，可以创建出初始令牌表15。

下一步是一个交互式过程，通过此过程，用户可以创建标记(Marko)14和令牌15个体之间的对应。

用户可以从标记(Marko)窗格21中选择一个标记(Marko)14个体，并利用控制器窗格23从音频记录11播放对应的音频。从扬声器30中可以听到声音，并且声音的音量图显示在音量图窗格24内。标记(Marko)窗格21和令牌窗格22则显示标记(Marko)14和令牌15之间的大致对应。通过下述操作，用户可以交互式地“提纯”这种对应。

标记(Marko)操作包括“拆分”、“结合”、“删除”、“裁剪”和“播放”。令牌操作包括“拆分”、“结合”、“删除”和“剪辑”。符号令牌的唯一规定操作是“删除”。根据具体的实施方案不同，可以通过标记(Marko)、控制器和音量图窗格(分别为窗格21、23和24)的组合来执行标记(Marko)操作，或者通过其他的用户输入40来执行标记(Marko)操作。根据具体的实施方案不同，可以通过令牌窗格22和控制器窗格23的组合来执行令牌操作，或者通过其他的用户输入40来执行令牌操作。

标记(Marko)拆分是将标记(Marko)窗格21中的标记(Marko)转换成两个有顺序的marko X和marko Y，其中拆分点可以是原标记(Marko)14开始和结束之间的任何一个点。Marko X始于原标记(Marko)的开始点，Marko Y终于原标记(Marko)的终点，且Marko X的终点与marko Y的始点相同。该点就是拆分点。用户可以参考音量图窗格24来帮助确定出合适的拆分点。音量图窗格24显示与当前的项(jana)16对应的音频记录11部分的音量图。

标记(Marko)结合是将标记(Marko)窗格21中的两个有顺序的标记(Marko)，即marko X和marko Y转换成一个单个标记(Marko)14，其开始点是marko X的始点，终点是marko Y的终点。

标记(Marko)删除是从显示在标记(Marko)窗格21中的标记(Marko)表14中去掉一个标记(Marko)。

标记(Marko)裁剪是从标记(Marko)14的始点或终点去除额外的信息。这相当于将标记(Marko)14拆分成两个标记(Marko)14，并废弃表示额外信息的那个标记(Marko)14。

标记(Marko)播放是播放与标记(Marko)14对应的音频记录11部分。播放时，该部分音频记录11在扬声器30上产生，音量图在音量图窗格24上显示，而对应于播放标记(Marko)14的令牌15则在令牌窗格22上突出显示。在这种情况下“突出显示”指的是任何一种直观强调方式。

标记(Marko)操作还定义为标记(Marko)组操作：一个标记(Marko)14可以拆分为多个标记(Marko)，多个标记(Marko)14可以按相同的量来剪裁，而多个标记(Marko)14可以被结合、删除或播放。

“令牌拆分”是将令牌窗格22内显示的令牌15转换成两个有顺序的令牌，即令牌X和令牌Y，在此拆分点是字母、字符或象形字对之间的一个点。

“令牌结合”是将令牌窗格22内显示的两个顺序排列的令牌，即令牌X和令牌Y，转换成一个单一令牌15。转换的方式是将令牌Y以文本附加的方式附加到令牌X上。

“令牌编辑”指的是修改令牌15的文本，例如纠正拼写错误。

“令牌删除”是从令牌窗格22中显示的令牌表15中去除一个令牌。

交互过程完成后，各个标记(Marko)14都有一个与之对应的令牌15；这个标记(Marko)、令牌对被称为项(jana)16，项(jana)16的类集则被称为项(jana)表16。

用户可以利用控制器自动生成在音频记录11中所有时间间隔的mishcode，这些时间间隔未包括在音频记录11的项(jana)表16的任何一个标记(Marko)14中。

项(jana)表16可以由映射器10保存，保存格式是计算机可读取格式，通常是一个或多个计算机文件。在一套实施方案中，项(jana)表16另存为两个分离文件，即标记(Marko)表14和令牌表15。在另一个实施方案中，二者都保存在一个单一的项(jana)表16内。

标记(Marko)表14和令牌表15合并成一个单一项(jana)文件16包括如下方法：(1)表14、15单元的成对拼接(concatenation)；(2)一个表15在另一个表14终点的拼接；(3)为标记(Marko)14和令牌15单元定义XML或者其他的中间数据标签。

映射器10的一个可选功能是创建各个项(jana)16的分离音频记录17。这些记录通常存储为计算机文件集，这些文件集通称为拆分文件17。在不使用基础流协议的情况下，拆分文件实现了流的仿真。

为了解释其工作原理，下面对流作一个简要论述。在音频内容较多的常见流中，服务器和客户之间必须有一个通用的流协议。客户从服务器请求具体的内容片断。服务器开始利用达成一致的协议传输内容。服务器传送完一定量的内容后，通常是传送的量足以填满客户端的缓存器时，客户端开始播放该内容。用户快进该内容，由客户端向服务器发送一个请求来启动，该请求包括一个时间编码。然后，服务器中断流的传输，重新开始某一位置传输，这一位置由从客户端接收的时间编码规定。在这个点是，客户端缓存器开始重新填充。

流的本质是：(1)客户端向服务器发送一个请求；(2)服务器开始向客户端传输；(3)客户端缓存器充填；(4)客户端开始播放。

下面论述本发明如何对流进行仿真。客户(在此是外部计算机31)请求从服务器(在此为处理器2)传输一个内容片断的项(jana)表16。服务器2利用任何一种文件传送协议按文本文件传输项(jana)表16。客户端31向服务器2发送连续请求，请求传输有序的拆分文件17个体。服务器2利用任何一种文件传送协议将请求的文件17传输到客户端31。请求的发送和对应拆分文件17的接收可以同时且非同步进行。通常，首个拆分文件17完成下载后，客户端31可以开始播放内容。

本发明可以实现音频流的正常要求。该流仿真方法的本质是：(1)客户端31向服务器2发送一个请求；(2)服务器2开始向客户端31传输；(3)客户端31至少接收一个单一的拆分文件17；(4)客户端31开始播放拆分文件17。

该音频传输方法有利于流的传输，具体优点有以下四点：

(1)本发明使内容供应商不必再购买或者使用专门的流服务器软件，其原因是所有的内容传输均由文件传送协议而不是流协议来处理。网络服务器通常包括文件传递手段。因此，本发明适用于多数甚至全部网络服务器，不再需要任何流协议。

(2)本发明允许以项(jana)16或者其中多个项(jana)16的颗粒度来播放不同范围的音频。注意项(jana)16通常较小，时间跨度仅有几秒。流协议不能分离播放一块或者一个范围的音频，它们从某个给定点开始向前播放，所以，一旦客户端已经接收了用户期望的内容范围，客户端必须单独请求服务器停止传送。

(3)在本发明中，快进和随机访问是设计的内在要素。服务器2不需要内容的内部结构知识来实现这些功能性单元，这一点与常见的流协议不同，那些协议要求服务器具有内部结构的详细知识。在本发明中，客户31通过发送有顺序的拆分文件17请求来实现快进和随机访问，其开始点是与音频中重放的开始点相对应的拆分文件17。通过参考项(jana)表16来确定该点，具体地讲，就是(先前传递到客户端31的)项(jana)表16中的标记(Marko)14。执行文件传输的所有服务器2，都可以实现本发明。

(4)客户端31和服务器2之间的数据传输速度不足以跟上客户端31的音频重放时，讲话录音重放中会有跳动现象，本发明改进了讲话录音重放中的这种跳动现象。在流协议中，音频重放会在音频流中某个不可预知的点上暂停，以充填客户端缓存器。从统计学意义上看，在流型讲话(streaming speech)中，这类点可能发生在单词内。而在本发明中，这类点仅在项(jana)16边界上出现。至于讲话，项(jana)16符合自然讲话界限，这些边界通常定义音节、单词或者短的单词序列的开始和结束点。

播放器50(在处理器2上执行)从内存3、非易失性数字存储器4和(或)通过网络适配器7从网络9接收输入数据。输入数据至少有两个成分，通常作为文件，即项(jana)表16和一组拆分文件17实现。输入数据可以选择性地包括一组注释文件和索引56。

项(jana)表16是如上所述的时序映射。拆分文件17则是如上所述的音频记录。表16和文件17也许已经由图2所示装置产生，也许尚未由其产生。

注释文件集和索引56是由注释加一个索引组成的中间数据。注释格式可以是任意一个媒体格式，包括文本、音频、图像、影像剪辑(video clip)和(或)URL；可以有任意内容，包括定义、翻译、脚注、示例、参考、清晰注明的发音、交替的发音和测验(其中用户接受内容测验)。令牌15、令牌组、文本单元或者各注释个体所属的时间标记表14等在索引中规定。在一套实施方案中，注释自身也可以有注释。

显示器20连接在视频处理器6上，该显示器为用户提供视觉反馈。与音频处理器5连接的扬声器30，为用户提供声频反馈。用户输入40，比如鼠标和(或)小键盘，连接在输入处理器1上，提供用户控制器。

播放器50在显示器20上显示窗口窗格。在一套实施方案中，窗口窗格有三个组成部分，即文本区61、控制器62和可选滚动条63。在其他实施方案中，播放器的功能可以扩展到多个数量不等的视觉组成部件中。

文本区61显示令牌15，令牌15的格式符合用户选定的标准，包括文本单元的颗粒度，颗粒度可以为单词，短语，句子，或者段落。格式类型实例包括每行一个令牌15、每行一个单词、按歌曲或诗歌的诗句或者按书本的段落。方本区61也可以有交互式控制器。

控制器组件62显示各种控制器，比如音频播放、停止、回倒、快进、加载、动画类型、显示格式和注释弹出。

如果认为有必要或者希望滚动文本区61，可以利用可选式滚动条63。

图3所示系统的操作描述如下：

播放器50请求项(jana)表16的具体内容片断、相关注释文件以及索引56(如果有)。项(jana)表16由播放器50接收，并且显示文本区61和控制器62。对应的令牌表15显示在文本区61内。

播放器50可以配置成在启动时自动开始重放，也可以配置成等待用户启动重放。两种情况下，播放器50都播放一个或一组项(jana)16。短语“项(jana)组”包括如下几种情况：整个项(jana)表16(从始到终)；从某个特定的项(jana)16到最后一个项(jana)16(当前位置到终点)；任意两个项(jana)16之间。

可用以下方式启动重放，播放对应的项(jana)16或者一组项(jana)16：(1)由用户启动播放整个项(jana)表16的起始控制器；(2)启动播放当前项(jana)16到终点的起始控制器；(3)利用鼠标、小键盘或者其他的输入设备40，在文本区61内选择任意一个令牌15或者一组令牌播放。

项(jana)16的播放，通过播放相对应的拆分文件17实现。播放器50从以下三个地方得到所需的拆分文件17：正在运行的播放器50的处理器2；另一台计算机；内存3，条件是先前已经得到了拆分文件17并缓存在内存中。

如果需要多个拆分文件17，并且那些文件17未在超高速缓存器3，则播放器50开始连续请求必需的拆分文件17。

重放的启动，会同时启动一个(连接在播放器上的)实时时钟，该实时时钟已经根据被播放的项(jana)16内的标记(Marko)14的开始时间进行了初始化。

实时时钟被设定到了与音频重放同步。例如，如果音频重放停止，实时时钟也同步停止；如果音频重放速度放慢、加快或跳跃播放，实时时钟也随之调整。

动画文本按实时时钟进行。具体地说，当时实时时钟在项(jana)的标记(Marko)时间间隔内，播放此项(jana)16的令牌15的动画。另外，如果文本区61内正在播放项(jana)16的文本是不可视的，文本区61会自动滚动，以便使文本可见。

文本动画包括各种情况，其中文本变化的直观表示与音频重放同步。动画和同步可以在单词、短语、句子或段落水平上实现，也可以在构成文本的字母、语音或音节水平上实现，以便与相应音频记录的重放达到平滑、精密的同步。

文本动画包括文本或者背景的运动幻影和(或)颜色、字体、透明度和(或)可见度的变化。运动幻影可以是逐字式(即一个字跟一个字)，比如卡拉OK中的“弹球”，弹出式，或升离基准线式。运动幻影也可连续发生，比如显示条随文本移动，或“彩带”效应。可单独或组合采用不同的动画方法。

如果当前项(jana)表16已有注释文件和索引56，那么便可以显示、播放或者弹出有关注释。包括文本、音频、图像、影像剪辑(video clip)、URL等的注释文件和索引56，是根据需要进行请求的。

注释的显示、播放或者弹出，要么由用户启动，要么自动操作。

用户触发的注释显示通过用户与令牌15上的文本区61或文本单元基础的交互来实现。举例来说，用户触发的注释，其调用方法包括采用鼠标、小键盘或者其它输入设备40来选择单词、短语或者句子。

如果激活了自动注释，则可以利用间隔定时器，由实时时钟从外部激励源或者随机激活。自动注释实例包括幻灯、文本区背景或者音频、视频或文本注解。

三个具体的注释实例是：(1)在文本区61中单词“埃佛勒斯峰”上单击鼠标右键，弹出一个埃佛勒斯峰图像；(2)在文本区61中，当单词“你好”突出显示时，按下翻译按钮则显示法语翻译“bonjour”；(3)在播放歌曲“老麦克唐纳”时，会适时自动出现农家院家畜的插图。

在一套实施方案中，播放器50、项(jana)表16、拆分文件17和(或)注释文件和索引56等都综合在一个单一可执行数字文件内。上述文件可以通过网络适配器7传输到装置100之外。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种计算机实现的创建从文本到音频记录的时序映射方法，包括如下步骤：

所述B步骤赋值步骤方法如下：