CN1168508A

CN1168508A - 录音放音系统的显示组件

Info

Publication number: CN1168508A
Application number: CN97110084A
Authority: CN
Inventors: J·M·邓恩; E·H·施特恩
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-04-25
Filing date: 1997-04-14
Publication date: 1997-12-24
Anticipated expiration: 2017-04-14
Also published as: CN1106615C; JP3167955B2; JPH1063471A; KR970071756A; US6073103A

Abstract

一个录音放音系统包括一个显示器，它表明在回放操作期间某声音序列出现的符号，以及一个录放操作的流逝时间，符号被定位以便表明不同声音序列出现的时间。在一个优选的应用中，在系统中再现的录音是可听的声音邮件消息，特定的声音序列是在消息中连续讲的数字或数字串，而且代表这些数字的符号是相应于各数字的打印字符。

Description

录音放音系统的显示组件

发明领域

本发明涉及音频录放系统的附属设备，它有助于理解一次录音中的重要部分。在一个优选的的实施方案中，这种附件对多媒体计算机系统的语音邮件应用程序具有特殊的应用，而且它在这样的系统中是非常有用的，因为它可以提供用于显示一段声音消息播放所经历时间的时间标尺，表明在某个特定的词汇表中的单字所处的时刻的符号。

发明的背景

当前已知的语音邮件系统都提供显示播放一段或多段消息的流逝时间的时间标尺。这样的时标指示允许该系统的用户可以重新定位重放功能，和重放一段消息中的一部分而不必重放并监听该段消息的所有部分。

其它已知的语音邮件系统则使用语音识别技术来将可听的消息转换成可显示的或可打印出的文本。

而且，语音识别技术的当前状态允许用来以一种“非特定人”的方式(也即，不依赖于说话人的口音、音调变化等)检测小字表的单字或词汇。

然而，我们现有还不知道有既提供消息播放的流逝时间的时间标尺，又提供附加的符号指示的话音邮件(或其它录音)重放系统；后者还能即时通知系统用户，在一个有限的特定字/词汇(甚至更一般地声音序列)表中，某个消息的字(或别的词汇)说出(发出)的位置。这种附加的指示，正如当前所设想的那样，将允许用户明确地直接按照这些符号指示采取行动。

例如，当这些附加指示中的一个出现在时间标尺上时，用户可以立即停止播放，并在以后允许继续播放，以使得用户有时间领会一个由相应的附加指示所代表的所讲单字(或术语或词)的上下文意思。又如用户能够采用附加的指示重放一段消息的一小部分，其中包含由相应的指示所代表的术语，而不必非要播放比用户实际需要或想要听到的更多的内容。

我们相邻这种功能十分有用，并且已将本发明的目的在于达到这种功能。

发明的概述

在一个优选的实施方案中，我们的发明包括用于显示代表一段话音消息或录音播放的流逝时间的时间标尺的装置，用于检测在一段消息或录音中何时出现某个特定的声音序列的装置，以及用于响应这种声音序列的检测，以便在时间标尺的一侧显示代表各自声音序列的符号的装置。

时间标尺可以以任何图形方式显示(线，条，饼图或其它)。在消息或录音包含有话音邮件类型功能的应用装置中，这种特定的声音序列可能与一些单字相关，这些单字是从该消息所采用的语言的整个字表中选择出来的。例如，代表数字的单字。另外，这些单字的检测可以一种“非特定人”的方式进行(不依赖于不同说话人的声音强度、音调变化等等)。通过选择一个合适的要识别的字表，实际上用户用于决定一条话音邮件消息的含义以及在它需要回复时如何答复所需的所有信息能很快地被确定，而不需要用户多听或重放比他/她需要或想要听到的一条消息的更多内容。

例如，如果所选择的字表包括在语音邮件消息中所说的数字，那么在时间标尺上恰当位置显示的代表数字的符号会提醒用户，如果需要的话，可采取行动以便领会那些离开上下文时意思就会模糊的数字的上下文含义(例如，具有不确定或非决定性的意义)。在时间标尺上出现数字的符号时，用户可停止消息的播放，然后继续播放同时仔细地收听上下文；或者重新定位(倒片)到数字符号出现的时间位置，并重放包含有相应数字的消息的一小部分。

另外，当在重放过程中所选字表中的多个单字连续出现时(在它们之间无其它字出现)，本发明的这个实施方案会在时间标尺上一个公共位置并列地显示对应于所有单字的字母或符号，这样使得用户可以将每一个这样的所讲单字看成是一个与时间有关的集合，并且很快地(有选择地)重放包括该单字串的消息的一小部分。

考虑到该发明的声音识别元件的硬件实现会花费较大，我们打算在一个优选的实施方案中该发明的关键单元，比如那些语音识别、产生显示图像，控制录音放音(“回放”，“快进”，“暂停”，“播放”等)所需的单元将会以一种可按在用于多媒体应用的通用个人电脑上使用的软件形式进行配置；这种配置可以通过一种通讯网络比如从一台网络服务器，在计算机可读的媒质(硬盘，磁盘，CD-ROM等等)上实现。还可以设想当这种软件通过网络传输时将以压缩方式传送，并配有解压软件，以适合于以一种“准备运行”的状态将该软件装入用户系统中。

这种软件还被设想为能以各种形式发送，所选的形式是同上述网络话音邮件应用的用户所拥有的计算机中的不同操作系统环境相兼容的，甚至还可能同这种计算机的不同硬件或系统结构环境相兼容，因此，该发明能用于服务拥有不同操作系统和不同硬件或体系结构的计算机的用户。

还可以设想，本发明的一种简化的形式可以实施用于特定目的，比如用作一电话应答设备的一部分-其中所显示的用于已检测到声音的符号可以简单地是时间标尺上的某个合适位置的索引标记。虽然该索引标记不能确认某个特定的数字或别的声音序列，但是它仍然即时提醒用户注意声音序列中的某一个，属于这样一个小但是重要的字表，被讲出的时间位置，并允许用户适当地进行动作来领会上下文意思。

本发明这些和其它一些特点，特征，优点和好处如通过考虑下列附图，详细说明和权利要求就会得到更全面的理解。

附图的描述

图1是一个大略表示一种现有技术装置的框图，该装置用于显示代表在播放一条或多条语音邮件消息所流逝时间的一个变化标尺。

图2是另一个现有技术装置的框图，它使用语音识别技术，以便将代表可听的语音邮件消息的信号完整地转变成可打印的字母-如ASCII字符，并且以书面形式在预期的接受器上显示。

图3画出了根据本发明的一种装置，它能显示语音邮件消息播放的流逝时间的一个标尺和代表在播放期间所检测到的某些所说的字或短语的符号，其中符号化的字或短语都是字和/或短语的一个小的但是非常重要的词汇表中的元素(这里所说的“小”，意思是同说该消息所用的语言所包含的全部的词或短语的数量相比较而言，它是很小的。)。

图4大略地说明了一种网络环境，而在该环境下，本发明可以有效地使用。

图5是一个高级流程图，画出了在如图4的网络环境中，由一台网络服务器和远程个人电脑所执行的操作。

图6是根据本发明用于在图4的网络环境的服务器中心记录一条语音邮件消息所要执行的操作的流程图。

图7A和7B，如图7所示，它们构成了一张流程图，用以说明在图4的网络环境下消息是如何在个人计算机中获得和进行处理的。

图8大略地说明了一种简化的如图3中所示的复合的时间标尺和符号显示的替代方法。

详细说明

1.现有技术

图1和2说明了目前对我们来说已知的相关的现有技术的特征。

图1画出了一种语音邮件录音/重放系统1，它有一个显示器2，而在该显示器上，有如3中所给出的所流逝消息的播放时间的图表。信号发生装置4产生控制显示形式的信号。用3表示的时间图包含起始于开始点(“0％”)并随着一条语音消息流逝的播放时间逐渐变深的一个运动线条标识器线条。显然，其它图表形式也可以产生类似的效果；比如，包含一个逐渐变暗的扇区状的圆形饼图等。

图2画出了一个电子邮件系统5。它接收并贮存声音消息，但它使用在6所建议的声音识别装置来将每个消息完整地转换成能以一种可打印的/可书写的形式显示的符号(比如，代表ASCII字符的符号)并能如8的示例那样，在显示装置7上以那种形式显示消息。那些在相关专业的技术人员马上会意识到6中的装置是非常复杂和昂贵的，而且在“说话人无关”的方式下，操作起来非常困难的；即在一种不受该系统留口信的不同“呼叫者”的语调、方言、音量以及其它特性影响的方式下进行。

2.优选的实施方案

图3-7说明了本发明一种优选实施方案的组成和操作。在图3中，功能上与图1中所示部件相同的部件分别用与图1中相应部件的相同数字标识。这样，图3给出了用于以音频方式记录和选择地重放声音消息的一个声音邮件系统1，显示装置2，以及用于产生导致显示器2显示一个流逝的播放时间图表11的信号的装置4。

但是，该系统还包括用于识别一个有限字表的声音识别装置12，在所示系统中单字指的是数字。声音识别装置12优选地以说话人无关的方式工作；也就是不考虑不同说话者之间的差异(音调、重音、语调等等)对所期望的表达意思进行识别。但有一点必须明白，即，工作方式与说话人有关的声音识别装置的使用也是我们发明范围之内的事。

而且，装置12与(流逝时间)图表生成装置4配合工作，产生一些信号，以便将装置12检测到的所讲数字的相应打印字符沿(流逝播放时间)表在对应于代表相应数字的语音功能被检测到的时间瞬间的时间位置处显示出来。而且，当连续地说出一串数字时，装置12会显示相应的一组代表全部数字串的可打印的数。

因此，如图3所示，在离时间图11起始点(0％)最近的地方，所打印出的数字“4075551212”代表在一条消息中所连续说出的一串10个数字；并且在离起始点更远的位置上，所打印出的第二组数字“212”代表在同一条消息中所连续说出的一串3个数字。如此等等。

虽然从表面上看意思并不很明显，但第一组数字可能是包括地区码在内的电话号码，而第二组可能例如是街道地址的一部分，如此等等。然而通常来说，当不考虑上下文时，语音中的一些数字可能是毫无意义的。比如，考虑广泛使用的地区码和7-字母“名称”(例如“1-800CALLMOM”)，其中7-字母名字由一般手机上与各个音频键相关的字母所组成。

因此，应当理解，还有许多潜在的例子，如果各组数字只被看成是数字并且不考虑任何其它语音上下文内容的话，这时被考虑的这些数字将是毫无意义的。但是，既然本发明的用户能像后面所描述的那样能进行许多重放操作(参考随后的图7B的描述)，每组打印出的数字的意义能很容易地通过参考与每组数字2所属的消息的语音部分有关的语音上下文，加以领会。例如，可以通过当该组相应的打印数字出现在显示器上时暂停消息播放，或者在其后重放以该组相应的数字出现在显示器上的时刻为中心的周围的一部分消息，来领会其意义。

除了在刚描述过的方式下使用外，语音识别装置12能由可购买得到的基于软件的产品实现，其中这些产品是为了满足特定的语音识别功能的性质。那些该领域的技术人员和那些曾经接触过指示他们以一种音调说出某种信息(比如他们的姓名和地址)的录音声明的人士将会认识到这种产品在当今已是已知设备。

具有这种功能的一类产品的一个例子是一个被称为“BBN HarkTelephony Recognizer”的电话识别器。根据它的产品说明，它是“一种健全的、非特定人连续语音识别软件产品，该产品支持从2到20条以上词汇大小的活动字表”；并且被描述为具有能以可打印的形式显示检测到的语音的能力。显然，那类产品能被适用于识别所讲的数字/数目序列，并且生成可显示的打印的标识符，正如那些现在所设想的那样。3.在计算机网络中使用/实现优选的实施方案

图4-7描述了如图4中例示的计算机网络环境下的刚描述的实施方案的使用。在那样的环境中，一个数据处理系统14，术语为服务器，存贮了大量的信息，并为多台“客户”计算机(比如个人电脑)提供与那些信息有关的服务，其中一台如15所示。16所给出的一条通信链接则将客户机连接到服务器上。为了当前的目的，诸如15的客户计算机被设想为“多媒体”类型的系统，它具有同时显示打印的内容和播放音频消息的能力。

图5给出了根据本发明在处理语音邮件消息时，分别由服务器和客户机执行的通信功能的一般说明。

当一台客户计算机的所有者申请由服务器提供的服务时，该所有者/用户被分配给一个“信箱”，在该箱中，服务器贮存直接发给用户的音频消息。正如20所给出的，可为用户提供软件，比如通过链路16发送软件，这些软件用于实现消息的获取和重放操作。正如21所给出的，这些操作，比如，可以包括：选择现存于服务器中即将被下载至用户计算机的一条消息；让这种下载的消息以声音形式播放；并同时随着播放的进行显示一个包括流逝的播放时间和打印的数字的复合图表，如图3中的11所示例。

如在22所给出的，从服务器取出的软件被永久地存在客户机中，也就是说，对于每次的消息获取期间该软件不是被重复传送的。如23所示，在随后的客户机和服务器之间的通信对话期间，当前存在用户信箱中的消息在客户机上播放，而在消息播放的同时也会形成如前所述的复合显示。

该图(图5)没有表明，但参考图6，7A和7B则解释了所讲数字的语音识别功能是何地和怎么完成的。

图6画出了在服务器端所执行的操作，以便接收进入的呼叫，记录下音频消息以及记录下为显示目的当前所需要类型的信息。

如30所见，一个呼叫者首先被连接到与呼叫目的地(或是地址，或是数字，等等)相关的某个用户的信箱，并且如30a所示的那样，在服务器端的计算机系统能够记录下声音消息，并能执行所需类型的语音/识别操作，以产生带有相应于所讲数字的打印的数字的流逝时间的复合显示。

在31中，呼叫者被揭示要讲一段消息，而在32中，当给出让呼叫者开始说话的暗示(例如一个“音调”)时，计时器就开始计时。在33中呼叫者所讲的消息会被录下，同时，正如在34所说明的那样，记录信息，以便产生图3中11所示的那种复合显示(带有相应于所讲数字的打印出的数字的流逝的时间图)。应当理解的是，在34中的操作涉及几种功能：包括检测所讲的数字(利用语音识别软件)，和从自32启动的计时器中提取信号，以便至少定义流逝时间图的起点，和检测所讲数字的相对于该起点的检测时间。它们亦涉及存贮可显示的对应于检测到数字的打印的符号，与定义用于显示不同符号的时间图相关的时间位置的信息。

在35中，录音系统决定该消息是否结束(比如在最后所说的数字之后超过了一个定义好的无音时间段)。如果消息还未结束，操作33和34(录音和时间/数字提取)继续执行；否则，为呼叫者提供选项，以便可以重复和/或添加所录下的消息(例如，操作36，可以是一条为呼叫者记录下的通告)。判决37表明相应于呼叫者选择回放刚录的消息时所执行的操作，而判决38表明相应于呼叫者选择添加消息时所执行的操作。

在37中，如果呼叫者选择不重听，那么处理过程会转到判决38；否则，过程会转至39，在此根据用户的回放要求，重放该消息，然后重复自36开始的序列。如果在判决38中，呼叫者选择不添加录下的消息，那么该操作会结束，但如果呼叫者选择添加消息，则会重复操作33～39。

那些该专业的技术人员会认为操作35～39是示范性的，在这一阶段录音过程中还可以执行许多其它操作，而且该阶段中还可以为呼叫者提供许多其它选择。

图7A和7B按图7所示的方向排列。其中，图7A和7B构成了在客户计算机端执行操作的流程图。这些操作用于获得和重放当前存贮于服务器的不同客户/用户的信箱中的消息。图7A画出了用于获得和重放消息所执行的操作，同时也用于产生如图3所示的复合的时间/数字显示。图7B示例性的给出了可能供给用户/客户的选项和与此相关的可能会采取的操作。

当一台客户计算机同服务器建立了通信，并由此被允许访问不同用户的信箱(图7A的操作60A)时，应用软件(比如在登录的时间下载到计算机的软件，可参考图5的操作20)使客户机同服务器合作来向各自的用户显示当前存放在客户信箱中的未被获取过的消息的种类，而且一同显示的还有用于允许用户选择要获取的一条消息的图标或其它菜单项(图7A的操作61)。一旦选择了某条消息(图7A的操作62)，代表所讲数字的消息和数据(参考图6的操作34)就会被下载至客户计算机上，并至少暂时存在那里(图7A的操作63)。该消息在被下载时，可以在客户机上听到该消息的重放(图7A的操作64)。

当消息重放时，一个如图3所示类型的复合图(流逝的播放时间及其所附的表示该消息中所说数字的符号)就会显示在客户计算机上(图7A的操作65)。正如与操作块62相邻的括号内所说明的那样，在图上所显示的数字符号就是相应的所讲的数字，而且是根据相应数字所讲的瞬时时间定位在相应的位置上的。显示的符号当然是从服务器上同消息一同下载的数据中获得的。

正如图7B的70所给出的，当每组数字出现在显示器上时，用户有机会选择性地执行选项。例示选项-如图7B的71-75所给出的-是继续放音(选项71)，暂时停止放音(选项72)，重放与一组显示数字相关的消息的一部分(选项73)；完全中止消息处理(选项74)，或者中止当前消息的播放并返回到由图7A的61所给出的初始选择菜单(选项75和在图7A和7B中由带圈的“b”符号表示的连接)。

4.备选的网络机能

那些本专业的技术人员会明白前面的网络操作可以有所变化，而且这种变化不会显著地改变在客户计算机所表现出的显示效果。

例如，在不需要时间监视或语音识别操作情况下，服务器可记录下消息，而且这些操作可以在客户计算机上执行。但是，这样做会使客户计算机所需要的软件数量增加，而这在经济上或在网络带宽的使用上可能是不适宜的。因此，必须明白在服务器上执行时间监视和语音/数字识别操作可能是实现这些任务的最有效的方法。

而且还必须明白的是，软件可以被分配给在离线网络状态下的客户计算机；比如，可以作为一种存放在磁盘存贮介质上的程序产品。

另外，还要明白，通过网络传送的软件不必要求当一客户登记上网络服务时就发送。例如，它可以，在每次访问该服务时被发送，这取决于经济的考虑和可用的网络带宽。

5.备选的复合显示

由图8的111所给出的另一种可能是将复合显示改变成一个简单形成；比如，用垂直于该图的单个划线标志代替显示的数字串。这种划线标志会为客户/用户提示消息中数字的出现而不需详细给出数字本身。这类显示可以向没有电脑的家庭提供功能相似的但更便宜的服务；例如，在一个只用于电话应答的具有特殊的独立应用目的设备。

其它的备选方案对于那些基于电话通信专业的技术人员来说是很容易明白的。

Claims

1.用于声音记录和播放系统的附件包括：

可视的显示器；

接在所说系统和所说的显示器之间的装置，用于产生所说显示器上的时间图，该时间图表明一个当前正在该系统中进行的录放操作所流逝的播放时间；

耦合在于该系统上的装置，用来表明在所说的录放操作期间所发生的特定的声音序列；以及

接在所说的声音序列说明装置和显示器之间的装置，以便将符号叠加到所说的时间图上，所说的符号代表各自所说的声音序列，并且相对于所说的时间图上具有一定的位置，其中，所说时间图表明在一个重放的录音中不同声音序列的时间位置。

2.权利要求1中的附件，其特征在于包括：

能使该系统的用户用所说流逝时间图和所说叠加的符号来控制所说回放操作的装置，该操作是以一种允许用户能够重听由各个所说的叠加符号所表明的声音序列的方式进行。

3.权利要求2中的附件，其特征在于，该系统是一个声音邮件获取和回收系统，每个记录回放操作旨在可听得见地再产生在该系统中录下的一条声音消息，而且在复制消息期间每个特定的声音序列包含一个或多个所说的单字，所说的一个或多个单词构成了在一个选定字表内的单词，它比构成在讲述各消息中所用的语言的全部单词的集合要小得多。

4.权利要求3中的附件，其特征在于，每个所说特定的声音序列代表一个或多个数字，而且，使得用户能够控制回放操作的所说装置包括允许用户在回放操作中暂时插入一个暂停以使用户明白在其中有一个或多个不同的所说数字串正被讲出时上下文意思的装置。

5.权利要求3中的附件，其特征在于，每个所说特定的声音序列代表一个或多个数字，而且允许用户控制所说的操作的所说装置包括允许用户控制重放已播放消息的一段特定部分的装置，因此可以使用户明白在该特定部分所讲的一个或多个数字的上下文意思。

6.用于声音邮件应用程序的一个计算机程序产品，该产品可通过计算机可读介质传送到计算机，并且包括：

指令装置，用于使一台计算机能够接收和可听得见地重放一条声音邮件消息，以及

可与重放所说消息时间相关执行的指令装置，用于使所说的计算机系统可视地显示一个图，表示消息流逝的播放时间和表示在所说消息重放期间的某个预先确定的声音序列出现的符号。

7.根据权利要求6的一个计算机程序产品，其特征在于所说的预先确定的声音序列对应于预先确定的所讲的单词。

8.根据权利要求7的一个计算机程序产品，其特征在于所说的预先确定的单词是极易具有模糊含义的数字，但它们的意思可以通过重放各自消息的一小部分来清楚地确定。

9.用于计算机网络的一个声音邮件系统具有用于接收和记录可听声音邮件消息的一个服务器处理中心和连接于该服务器处理中心的客户计算机，该客户计算机具有接收和可听得见地重放在所说的服务器处理中心记录的消息中所选择的消息的功能；该声音邮件系统包括：

在所说服务器处理中心的时间监视装置，用于连续不停地监视在每条由该服务器处理中心接收的声音邮件消息的录音期间所流逝的时间；

在服务器处理中心的语音识别装置，它在时间上同所说的监视时间的装置一同操作，用于在录音每条所说消息期间，识别在预先确定字表中的单词何时被讲出；包含在所说预先确定字表中的单词的数量，与构成讲述消息所用的语言的词的数量相比而言，是很小的。

在所说录音中心的数据记录装置，用于记录表示对应于由语音识别装置所检测到的单词的可打印的符号的数据，同时还有时间信息，这些时间信息把该符号与在包括所说的单词的消息录音期间不同的单词被说出的时刻联系起来；

在每个客户计算机用于接收在服务器处理中心所录下的一条选中消息，可打印的符号数据和与选中的消息一起记录的时间相关信息的装置；

在每个客户计算机端用于可听得见地再现所选中的消息的装置；以及

在每个客户计算机端对所说的可打印的符号数据和与时间有关信息起反应的显示装置，它用于产生包含其上附有可打印符号的时间标识的一个复合的可见的显示；该复合显示包括一个随选中的消息被可听得见地重现而流逝的时间变化图，和对应于由所说的服务器语音识别装置检测的所选中消息中出现的单词的打印的符号；该打印符号是相对于所说的流逝时间图定位的，这使得不同客户计算机的用户可以容易地定位和可听得见地再现包含对应于不同符号的所讲单词的所选中消息的一部分。

10.根据权利要求9的声音邮件系统，其特征在于，所说的预定字表只包括代表数字的单词。

11.根据权利要求10的声音邮件系统，其特征在于所说的可打印的符号包括由服务器语音识别装置所检测到的相应于各个数字单词的打印出的数字。

12.根据权利要求10的声音邮件系统，其特征在于所说的可打印的符号包括叠加在时间图上的简单标记；该标记本质上没有数字意义，它只表明在一条消息可听得见地重放期间各数字被讲出的时刻。

13.一个声音邮件设备包括：

用于贮存声音邮件消息的装置；

用于可听见地重放由所说的存贮装置贮存的声音邮件消息的装置；

显示装置；

连接到显示装置和所说重放装置的装置，用于使显示装置显示一时变的图，来逐渐表明在可听得见地重放由存贮装置贮存的消息期间所流逝的时间；

对声音邮件消息敏感、应用在存贮装置上的用于检测所说消息何时包含其个预定的单词的语音识别装置；

连接到语音识别装置上，用于存贮代表由语音识别装置检测到的单字的数据的装置；以及

对所存贮的代表所说的检测到的单字的数据敏感的装置，它用于使所说显示装置显示在时间上与可听得见地重放由不同数据所表示的单字组成的一条消息的一部分相一致的各个数据的标识。

14.根据权利要求13的声音邮件设备，其特征在于由语音识别装置检测的词汇只包括数字。

15.根据权利要求14的声音邮件设备，其特征在于所说的不同数据的显示标识包括代表数字的符号。

16.根据权利要求14的声音邮件设备，其特征在于数据的所说的显示标识包括叠加在所说时间图显示上的标记；该标记没有其本身的数字意义，但是由它们所显示的出现时间表明了在可听的消息重放期间数字被说出的时间。