CN1961350A

CN1961350A - 用于修改消息的方法和系统

Info

Publication number: CN1961350A
Application number: CNA2005800172045A
Authority: CN
Inventors: P·宾格利; M·博德拉恩德; N·谢林杰豪特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-05-27
Filing date: 2005-05-17
Publication date: 2007-05-09
Also published as: KR20070020252A; EP1754221A1; WO2005116992A1; US20080275700A1; JP2008500573A

Abstract

本发明描述了一种用于修改包含音频内容的输入消息(IM)的方法和系统，该方法包括步骤：将输入消息(IM)的音频内容(A)转换为文本表示(TR)的元素；将输入消息(IM)的音频内容(A)分割成与文本表示(TR)关联的成分语音元素(As)；根据编辑输入将文本表示(TR)处理成适合编辑文本表示(TR)的形式；和根据所编辑的文本表示(TR’)改变音频内容(A)的关联语音元素(As)，从而给出输出消息(OM)的修改的音频内容(A’)。

Description

用于修改消息的方法和系统

技术领域

本发明涉及一种用于修改消息的方法和系统，其包括音频、并且可选地包括视频内容，并且涉及一种消息发送系统。

背景技术

由于最近几十年来在线用户组和聊天室的发展，特别是随着万维网和互联网的快速发展，消息发送系统在用户接受度方面已经取得了连续的增长，其使得用户能够通过交换消息而进行通信。其它消息发送系统能够让用户例如通过移动电话来发送消息。

早期的发消息情况包括：用户通过键盘敲入他的消息；和该消息随后以文字形式出现在目标用户的PC上，随着消息发送系统使用增加的有效带宽来发送视频以及音频消息内容，这种情况很快就变得过时了。敲入消息的一个优点在于：使用适当的编辑器，可以在数秒内容易地编辑或修改这种敲入的文本，直到用户对该消息满意为止，而用户没有办法简单地修改通常以某种数字形式编码的音频和视频。然而，在记录了音频或视频消息之后，该音频可能包含具有不理想声调或不是所想要意思的词语，或者该视频可能包含该用户最终并不希望发送的元素。由于编辑该音频和视频需要付出惊人高的努力，所以即使包含少量不希望元素的音频或视频消息或者只能就这样发送，或者将其整个都丢弃，迫使该用户重新记录该消息。音频和视频处理都比较复杂，并且对于部分普通用户即使要理解基本知识都需要专业的努力，而对于最大多数的用户而言，是不能获得专业的编辑和混合质量的。

发明内容

因此，本发明的目的是提供一种在将包含音频内容的消息最终发送到接收方之前，对其进行简单并且直观修改的方法。

为此，本发明提供一种方法，包括下列步骤：

将该消息的音频内容转换为文本表示的元素；

将该消息的音频内容分割成与该文本表示相关联的成分语音元素；

将该文本表示处理成适合编辑的形式；

根据编辑输入修改该文本表示；和

根据所编辑的该文本表示来改变该音频内容的关联语音元素，从而给出输出消息的修改音频内容。

一种用于修改输入消息的适当系统，包括：音频输入，用于记录该输入消息的音频内容；音频文本转换器，用于将该输入消息的音频内容转换为文本表示的元素；音频分割单元，用于将该输入消息的音频内容分割成与该文本表示相关联的成分语音元素；再现单元，用于将该文本表示处理成适合编辑的形式；编辑器，用于对该文本表示进行编辑；和音频改变单元，用于根据所编辑的该文本表示来改变该关联语音元素，从而给出输出消息的修改音频内容。

于是，本发明为用户提供一种产生音频消息，并且在将该音频消息发送到接收方之前对其进行任何所需改变的简易方法，而不需要该用户必须精通音频处理技术。该用户可以对该原始消息进行任何数目的改变，直到该消息是正确的并且适合于展现而令他满意为止。

从属权利要求以及随后的描述公开了本发明特别有利的实施例和特征。

可以通过使用适当的记录装置将音频输入消息记录或捕捉到例如该用户所使用的与转换器连接的麦克风中，该转换器中的自动语音识别单元标识该输入消息的音频内容并将其转换为数字文本表示。可以给出该文本表示的元素的值，其例如通过使用计数器或一种时钟按照时间顺序标记耗用时间，从而唯一地标识出该文本表示在该音频内容中的相对位置。

该音频内容的成分语音元素可以是完整的词语、词语组、和句子片断、音节、或者甚至是音素。音频分割单元例如通过应用适当的算法和/或滤波器将该音频内容缩减到其成分语音元素。

在该分割处理期间，通过也为各个语音元素分配值来按照时间顺序标记耗用时间，可以容易地在文本表示元素与该音频内容的语音元素之间建立关联或等效性。通过这种方式，语音元素及其对应的文本表示元素根据它们的匹配或对应的时间值可以被定位或标识。该时间值可以是直接插入到该文本表示中或插入到该音频内容中的某些类型的标记或标识，或者可以参照该文本表示或音频内容中适当的点将该时间值收集在列表中。

为了使用户能够检查对该音频内容是否满意，将其以一种适合编辑的形式提供给该用户。为此，可以通过语音合成器将该音频内容的文本表示再处理成为声音，并通过扬声器、耳机等播放给该用户。优选地，在将该音频内容处理成为文本形式之后，该用户可以在显示单元上查看该音频内容，从而可以在显示单元，诸如在个人计算机屏幕、移动电话显示器、TV屏幕等上显示该文本表示。该用户可以用语言对该文本表示进行改变，诸如通过将编辑命令语音输入到麦克风中。随后可以通过适当的语音解释单元将该口述编辑命令转换为对应的编辑命令。相应地，可以通过例如键盘或小键盘来敲入它们而对该文本表示进行改变。该语音解释单元和/或显示单元优选地通过某种方式与该编辑器连接，从而该用户在编辑的时候可以观察该文本表示的文本。随后根据该文本表示中的变化，在该音频改变单元中修改该音频内容的语音元素。

优选地在发出该消息之前，通过适当的音频输出，例如通过扬声器或耳机将所修改的该音频内容播放给该用户。该用户可以听到所修改的音频内容，并决定对其是否满意，如果不满意，则在最终发送该消息之前需要对该文本表示进行进一步的改变。

可以使用该装置的显示单元，在该个人计算机、移动电话、家庭娱乐装置等中包括用于编辑该文本表示的该编辑器。该用户可以通过重新设置、删除或拷贝该文本表示的元素来对该文本表示的文本进行改变。然后通过对应的方式在该音频内容的语音元素中做出这些改变。例如，如果已经从该文本表示中删除了文本元素，那么通过其时间标记来标识的该对应的语音元素也将被删除。如果已经将文本元素移动到该文本表示中的不同位置，那么也将该对应的语音元素从其初始位置移开并插入到对应于该文本表示中的变化的不同位置中。

该用户甚至可以在该文本表示中插入原来不存在的新词语或多个词语。在这种情况下，通过该编辑器以适当的方式标记该新词语。该音频改变单元可以检查在词语库或数据库中是否已经有该词语，或者检查该词语的成分音素是否已经在该音频内容中，该音频改变单元可以通过按照正确的顺序将该成分音素放在一起来组织词语。

除了在该文本表示中仅仅删除或重新设置文本元素之外，该用户可以将标记插入到该文本中，以标识在该对应的语音元素中所要做出的某种类型的改变。例如，可以在词语之前和之后插入特殊字符，诸如插入感叹号，指示该词语在该音频内容中需要更大声。可替换地，该用户可以改变词语的字体，从而例如该文本表示中改变为斜体的词语或多个词语在该音频内容中更小声。其它类型的改变可以包括改变说话者的声音质量，例如将说话者的声音从男声改变为女声，或者相反，或者对该声音应用不同的说话者特征。然后在该文本表示中以适合于通过该音频改变单元来解释的形式将这些标记编码为命令或注释。

该音频改变单元解释该文本表示中的这些改变，并在该相关语音元素中做出所需要的改变。可以改变该语音元素，例如使得词语更大声或更小声，或者改变该词语的重音。这可以通过对该语音元素应用适当的滤波器或功能，通过改变该语音元素的适当特征来完成，诸如音调。

所有这些改变都可以通过应用熟知的音频处理技术来完成，其可以包括在计算机程序中或存储在音频处理功能或算法的汇集或数据库中。所修改的该文本表示中的该标记可以用来自动地检索或激活适当的算法或功能。

在本发明的优选实施例中，该用户可以指定该分割的粒度，例如通过向该系统输入适当的命令。对于聊天组中需要交换的消息，该音频质量并不需要非常高级，粗粒度就足够了。在其它应用中，诸如准备报告、演讲或需要以高质量音频发送的通告，可以指定精细粒度，以能够在该音频内容中做出详细的改正。更高的粒度值可以得到更好的音频处理质量，并需要相关的更多的努力。

在本发明的特定优选实施例中，对所改变的音频内容应用音频平滑技术，以确保相邻语音元素之间的平滑过渡，因为通过重新设置该音频内容的语音元素或改变它们的特征对它们做出的改变可能导致听起来不平坦的或者尖刺的音频内容。

本发明也允许对包括视频内容的消息进行处理，在这种情况下，该修改输入消息的方法包括：将该消息的视频内容分割成与该文本表示关联的对应帧段、或帧序列，以及适当地根据该音频内容的所编辑的该文本表示或者所改变的语音元素改变该视频内容的相关帧段，从而给出输出消息的修改的视频内容。

帧段应该理解为与对应的文本元素相关的多个接续帧。通过与所述类似的方式，在该视频分割处理期间，也将按照时间顺序标记耗用时间的值分配给该帧序列，通过这种方式使得可以根据其时间值来定位或标识帧序列。可以将帧序列与其对应的文本表示元素匹配，或者等同地与对应的该音频段匹配。通过这种方式，可以容易地在该视频内容的帧序列与该文本表示元素和/或该音频段之间建立关联或等效性。也可以通过该分割处理的粒度来确定帧序列的长度。

通过执行适当的改变在该视频内容中反映该文本表示中所进行的编辑。如果该用户已经删除或重新设置了该文本表示的某些元素，那么借助于该时间值定位对应的该视频帧序列并按照要求删除或重新设置其。插入到该文本表示中的某些标记可能对该视频内容没有影响，例如该说话者声音的声音特征做出的改变并不必要求该视频内容的任何修改。然而，某些类型的标记可以解释用来改变该视频内容，从而引入特殊效应，诸如频闪(strobe)、闪动或反色。例如，如果已经通过某种方式标记了该文本表示中的词语或多个词语，诸如通过下划线或将其包括在感叹号之间，对应的该语音元素可以更大声，并且可以修改对应的该视频帧序列，以包括频闪或闪灯效应。

一种用于修改包含视频内容的消息的适当系统包括：视频输入，诸如网络摄影机、集成有相机的移动电话、摄像机等，用于记录该输入消息的视频内容。在视频分割单元中将该消息的视频内容分解或分割成与该文本表示的元素关联的帧段，并且在视频改变单元中根据该文本表示的修改来改变该视频内容，以给出输出消息的修改的视频内容。然后在音频/视频重组单元中重组该消息的音频和视频内容，以给出输出消息。

优选地可以使用诸如显示器或TV屏幕的视频输出来播放该输出消息的修改的该视频内容。

在本发明特别优选的实施例中，对所修改的该视频内容应用视频平滑技术，诸如滤波或渐变，以给出所修改的该视频内容中接续帧段之间的平滑过渡。

可以应用该方法来产生和编辑任何类型的消息，其中通常需要对该原版进行改进，诸如应答机上的消息、公共地址系统上用于播放的消息、音频视频通告等。所描述的该方法在用于发送消息的消息发送系统中特别有用，诸如用于如此前所提到的通过互联网或在通信网络上的可视音频聊天组。

一种用于组织和发送消息的适当方法，包括：捕获输入消息的音频以及可选的视频内容，通过使用上面所描述的方法改变该输入消息的音频和/或视频内容，以给出输出消息，将该输出消息播放给该用户，以对改正进行确认，以及在该用户已经确认其正确性之后发送该输出消息。

一种根据本方法的用于组织和发送消息的消息发送系统因此包括：音频输入，用于记录该输入消息的音频内容，并且可选地有视频输入，用于记录该输入消息的视频内容；改变单元，用于通过使用上面所描述的方法改变该输入消息的音频和可选的视频内容，以给出修改的输出消息；音频输出和可选的视频输出，用于将该输出消息的修改内容播放给该用户，以对改正进行确认；和发送单元，用于在该用户已经确认其正确性之后发送该输出消息。

本发明的优选特征包括计算机程序产品，用于执行改变输入消息中所包含的所有步骤，即用于修改消息的该系统(消息修改系统)的大多数或全部组件，诸如语音文本转换器，通过软件和/或硬件模块的形式实施音频分割、视频分割、音频改变、视频改变、重组等。任何所需要的软件可以都可以在该消息修改系统的处理器上被编码，或者在单独的处理器上被编码，使得现存的消息修改系统可以适合于从本发明的特征受益。该消息修改系统可以与用于组织或处理消息的任何系统或装置连接，或者是其一部分，例如消息发送系统、应答机等。

结合附图，从下面的详细描述可以清楚看到本发明的其它目的和特征。然而要理解的是，附图仅仅是为了说明而设计的，其并不作为本发明范围的限定。

附图说明

图1为根据本发明实施例的用于修改输入消息的系统的方框图。

图2a至2d为根据本发明实施例的消息的帧段以及所记录的声音波形的图形表示。

具体实施方式

在下面附图的描述中，其并不排除本发明的其它可能实施方式，用于修改输入消息的该系统示出为消息发送系统的一部分，其可以包括在任何适当的可视音频装置中，例如家庭娱乐系统、PC、TV、移动电话、多媒体装置等，其包括与任何合适的通信网络的适当接口。该系统包括用于解释由用户所发出的命令的用户接口14，包括键盘22或小键盘、鼠标23、屏幕8和扬声器20。该声音波形和帧段的图形表示并不是准确再现，而仅仅是用于说明。

在图1中示出的消息发送系统1中，用户(在该图中未示出)在将消息，例如“Hi，ehm，I am John”说送到麦克风2中的时候被摄像机3摄像。该摄像机3和麦克风2分别将该视频内容V和音频内容A传送到捕获单元4，其中执行任何所需要的处理，以记录该音频内容A和视频内容V，并将其以数字形式包括到输入消息IM中，诸如MPEG2和MPEG4。图2a中以简化形式图示了对应于该音频内容A的声音波形以及一系列对应于该视频内容V的帧序列。

将该数字化的输入消息IM传送到转换器单元5、音频分割单元6以及视频分割单元7，它们分别提取该相关的输入流A或V。所有这些方框5、6、7都包含以普通方式连接的同步块15、16、17，在图中未示出。每一同步块15、16、17能够通过例如数字时钟或计数器测量时间。在该实施例中，该捕获单元4通过适当的零标记或起始时间标记该消息IM的起点，该同步块15、16、17参照其来测量时间流失。而且，该转换器5的同步块15能够向其它同步块16、17发送适当的信号。

在该转换器5中，对该输入消息IM的音频内容应用语音识别算法以得到该文本表示TR。该块因此此后称作为语音处理单元。通过诸如ASCII的形式编码该文本表示TR，并将其分割成其成分文本元素。由该用户通过适当的输入通过该用户接口指定该元素的大小或复杂度，即词语组、单个词语、音节或音素。使用对照该起始时间所测量的时间值来标记每一文本元素，使得每一文本元素于是通过该文本表示TR中其时间顺序位置被唯一定义。标记文本元素的操作是一个事件，由该语音处理单元5的同步块15将该事件分别报告给该音频分割单元6和该视频分割单元7的同步块16、17。

该音频分割单元6通过在该音频内容A的适当位置放置标记M来响应所报告的该事件，从而给出由语音元素As组成的分割的音频内容，如图2b中所图示。通过这种方式，在该语音处理单元5中所标识的该输入消息IM的每一文本元素可以与该输入消息IM的分割的音频内容中的音素As和声音元素As匹配。类似地，该视频分割单元7响应于该语音处理单元5的同步块15所报告给其同步块17的事件，在该视频内容V中放置标记，从而给出由帧段Vs组成的分割的视频内容，也如图2b中所图示，能够将该音频内容As的段或该文本表示的文本元素与该分割的视频内容中对应的帧序列Vs匹配。

该消息发送系统1使得该用户在发送消息之前对其进行改变。为此，以适合于通过该编辑器9进行编辑的形式显示该文本表示TR。在该范例中，该用户可以在显示单元8，诸如在个人计算机的屏幕上查看该消息IM的文本“Hi ehm I am John”，并且其可以编辑该文本表示TR，从而得到所想要的改变。在该范例中，该用户删除“ehm”，重新设置词语，并通过将词语“John”包括在感叹号之间来改变其重音，于是就产生了“Hi！John！I am”。该编辑输入通过编辑器9在该文本表示中进行编码，可能是命令或注释的形式，使得在该文本表示TR的适当位置中插入诸如感叹号标记的特殊字符，并且根据该用户所做出的改变重新设置或改变该文本表示TR的元素。

将所修改的该文本表示TR’传送到音频改变块10，其中解释该改变并计算对该分割的音频内容的语音元素As需要做出的任何重新设置，如图2c中所图示。例如在已经从该文本表示中删除元素的情况下，例如该范例中的“ehm”，借助于在所修改的该文本表示TR’中所编码的时间值和任何命令或注释来定位对应的语音元素，并将其从该分割的音频内容As中删除。对应于已经从其初始位置移动到新位置的元素的该语音元素，诸如本范例中的“John”，可以从该分割的音频内容As中其初始位置移动并将其插入到该适当的位置中。环绕元素“John”的特殊字符在本例子中是感叹号，其被解释表示对应的语音元素的音量需要增加。例如可以通过对该音频段应用适当的滤波器或放大器来实现这一点。

图2d中所示为修改的音频内容的信号。该音频段当被重新设置以对应于所修改的文本表示TR’时，现在可能遇到由于该修改过程而出现的尖刺过渡或失真。为了确保所修改的音频内容A’听起来舒服，需要在音频平滑单元18中对重新设置的音频段应用音频平滑技术。

在视频改变块11中，将修改的该文本表示TR’中的改变通过类似于音频改变的方式传送到该分割的视频内容，其中已经从该文本表示中删除了元素，诸如该范例中的“ehm”，借助于在所修改的该文本表示TR’中所编码的时间值和任何命令或注释来定位对应的该视频帧序列Vs，并将其从该分割的视频内容Vs中删除。对应于已经从其初始位置移动到新位置的元素的该视频帧序列，诸如本范例中的“John”，可以从该分割的视频内容Vs中其初始位置移动，并再次将其插入到适当的位置中。重新设置该视频帧序列的结果也如图2d中所图示。可以通过具体视频效应，诸如闪灯效应或频闪来实现对该元素“John”的音量的改变。如果这是所想要的，该视频改变就在该分割的视频内容Vs中对应的帧序列期间引入特殊的效应。该视频帧序列当被重新设置或改变以对应于所修改的文本表示TR’时，现在可能遇到突然的和不自然的过渡。为了处理这种效应，可以按照要求在视频平滑块19中对该视频帧序列应用视频平滑技术，从而给出修改的视频内容V’。

该视频改变单元优选地也可以配备有适当的算法和处理技术，以根据该文本表示中的变化来改变该视频内容中的人的面部表情。通过这种方式，指示面部表情的标记，诸如“微笑”或“皱眉”可以使得将该说话者的面部改变到微笑或看起来烦恼的样子，这取决于该标记。

在重组块12中，将所修改的音频和视频内容A’、V’重组，以给出输出消息OM。为了使该用户能够查看所修改的消息，通过在该屏幕8上显示该视频内容对其进行可视化地显示，并且通过在该用户接口14的扬声器12上播放该音频内容对其进行可听地展示。同时，通过该编辑器9显示该对应的文本，从而使得如果需要，该用户可以进一步对该输出消息OM的文本进行任何改变。

例如，他可能希望在该文本中插入新词语，从而使得该消息为“HiJohn I am done”。在这种修改的情况下，其中向该文本表示中引入了没有被匹配语音元素伴随的新元素，该音频改变单元10可以从数据库21中检索适当的语音元素。可以使用从先前消息中拷贝的语音元素的采样按时间组织这种数据库21。可替换地，该语音处理单元的特征可以是具有语音合成器，用于从文本产生语音信号。在该视频内容的情况下，该视频改变单元11可以简单地复制该视频内容的适当帧，并且将它们变形成为该现存的视频帧序列Vs。在该重组单元12中将该音频改变单元10和该视频改变单元11的输出进行重组，并再次将其提供给该用户用于确认。

一旦该用户确认对该输出消息OM满意，那么就通过发送单元13将该消息0M发送到其目的地。该单元例如可以是视频聊天应用或电子邮件应用。

虽然通过优选实施例以及其变体的形式对本发明进行了描述，但是要理解的是，不脱离本发明的范围可以做出许多另外的修改和变化。例如可以按照需要，通过从互联网上下载新的信息或算法，来更新或替换音频/视频改变单元所使用的数据库或算法。通过这种方式，消息发送系统可以利用当前的大多数音频和视频处理技术。

该消息发送系统可以利用化身模拟技术中的发展来提供伴随有音频消息的视频，而不必实际地拍摄他讲话。该化身可以类似于该用户，或具有不同的外貌，并且可以出现在特定背景的前面，或者该用户可以通过相机所拍摄的图片或从外部资源下载的图像来提供特定的背景图片。为了清楚简明，需要理解的是，通篇该申请中所使用的不定冠词“一个”并不排除有多个步骤或元素，并且所使用的动词“包括”及其词性变化并不排除其它步骤或元素。所使用的词语“单元”或“模块”并不限制实现为单个单元或模块。

Claims

1.一种修改包含音频内容的输入消息(IM)的方法，该方法包括步骤：

将该输入消息(IM)的音频内容(A)转换为文本表示(TR)的元素；

将该输入消息(IM)的音频内容(A)分割成与该文本表示(TR)相关联的成分语音元素(As)；

将该文本表示(TR)处理成适合编辑的形式；

根据编辑输入修改该文本表示(TR)；和

根据所编辑的文本表示(TR’)来改变该音频内容(A)的关联语音元素(As)，从而给出输出消息(OM)的修改的音频内容(A’)。

2.根据权利要求1的方法，其中对文本表示(TR)进行编辑包括插入、复制、删除或重新设置该文本表示(TR)中的元素，从而给出修改的文本表示(TR’)。

3.根据权利要求2的方法，其中改变音频内容(A)的语音元素(As)包括复制、删除或重新设置该音频内容(A)的段和/或将语音元素插入到该音频内容中。

4.根据权利要求1或2的方法，其中编辑文本表示(TR)包括在该文本表示(TR)中的特定位置处插入标记，从而给出所修改的文本表示(TR’)。

5.根据前述任何一个权利要求的方法，其中改变音频内容(A)的语音元素(As)包括改变该语音元素(As)的特征。

6.根据前述任何一个权利要求的方法，其中对所修改的音频内容(A’)应用音频平滑技术，从而给出相邻语音元素之间的平滑过渡。

7.根据权利要求1至6的任何一个的方法，其中输入消息(IM)包含对应的视频内容(V)，并且该方法包括步骤：

将该输入消息(IM)的视频内容(V)分割成与文本表示(TR)关联的对应帧段(Vs)；和

根据音频内容(A)的所编辑的文本表示(TR’)或所改变的语音元素(A’)来改变该视频内容(V)的关联帧段(Vs)，从而给出输出消息(OM)的修改的视频内容(V’)。

8.根据权利要求7的方法，其中对所修改的视频内容(V’)应用视频平滑技术，从而给出所修改的视频内容(V’)中的接续帧段之间的平滑过渡。

9.一种组织和发送消息的方法，该方法包括步骤：

捕获输入消息(IM)的音频和可选的视频内容(A，V)，

通过使用权利要求1至8的任何一个中的方法来改变该输入消息(IM)的音频和可选的视频内容(A，V)，以给出输出消息(OM)，

将该输出消息(OM)播放给该用户，以对改正进行确认；和

在该用户已经确认其正确性之后发送输出消息(OM)。

10.一种用于修改输入消息(IM)的系统(1)，包括：

音频输入(2)，用于记录输入消息(IM)的音频内容(A)；

转换器(5)，用于将输入消息(IM)的音频内容(A)转换为文本表示(TR)的元素；

音频分割单元(6)，用于将输入消息(IM)的音频内容(A)分割成与文本表示(TR)关联的成分语音元素(As)；

再现单元(8)，用于将该文本表示(TR)处理成适合编辑的形式；

编辑器(9)，用于对文本表示(TR)进行编辑；和

音频改变单元(10)，用于根据所编辑的文本表示(TR’)来改变关联语音元素(As)，从而给出输出消息(OM)的修改的音频内容(A’)。

11.根据权利要求10的系统，包括：

视频输入(3)，用于记录输入消息(IM)的视频内容(V)；

视频分割单元(7)，用于将输入消息(IM)的视频内容(V)分割成与文本表示(TR)关联的对应帧段(Vs)；

视频改变单元(11)，用于根据音频内容(A)的所修改的文本表示(TR’)或所改变的语音元素(A’)来改变视频内容(V)的关联帧段(Vs)，从而给出输出消息(OM)的修改的视频内容(V’)；和

音频/视频重组单元(12)，用于重组音频和视频内容(A’，V’)，以给出输出消息(OM)。

12.一种用于组织和发送消息的消息发送系统(1)，包括：

音频输入(2)，用于记录输入消息(IM)的音频内容(A)，和

可选的视频输入(3)，用于记录输入消息(IM)的视频内容(V)；

改变单元(10，11)，用于通过使用权利要求1至8中的任何一个中的方法来改变输入消息(IM)的音频和可选的视频内容(A，V)，以给出修改的输出消息(OM’)；

音频输出(20)和可选的视频输出(8)，用于将输出消息(OM)的修改的内容(A’，V’)播放给用户，以对改正进行确认；和

发送单元(13)，用于在该用户已经确认其正确性之后发送输出消息(OM)。

13.一种可以直接装载到可编程的消息修改系统(1)的存储器中的计算机程序产品，包括软件代码部分，当在该消息修改系统(1)上运行所述产品时，其用于执行权利要求1至9中任何一个所要求的方法的步骤。