CN101178924A

CN101178924A - 用于把图像的说明插入到音频记录中的系统和方法

Info

Publication number: CN101178924A
Application number: CNA2007101692692A
Authority: CN
Inventors: 彼德·C.·伯伊勒; 张宇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-11-09
Filing date: 2007-11-08
Publication date: 2008-05-14
Anticipated expiration: 2027-11-08
Also published as: US20080114601A1; CN101178924B; CA2567505A1; US7996227B2

Abstract

公开了一种用于解释和描述图形图像的系统和方法。在实施例中，用于把图像的说明插入到音频记录中的方法包括解释图像和产生包括至少一个图像关键字的图像的文字说明；把音频记录解析成多个音频剪辑，和产生每个音频剪辑的转录本，每个音频剪辑转录本包括至少一个音频关键字；计算至少一个图像关键字与每个音频剪辑的至少一个音频关键字之间的相似性距离；以及选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置。然后图像的文字说明可被附加到选择的音频剪辑，以产生包括图像的解释性文字说明的增大的音频记录。

Description

用于把图像的说明插入到音频记录中的系统和方法

版权通告

本专利文件的公开内容的一部分包含受到版权保护的材料。版权拥有者不反对影印复制如出现在专利与商标局专利文件或记录中的那样的专利文件或专利公开内容，否则无论如何保留所有的版权权利。

技术领域

本发明涉及用于把图像的说明插入到音频记录中的系统和方法。

背景技术

以音频格式记录讲课或演讲可以是在直接出席以外传播信息的方便有效的方式。然而，如果演讲包含图像、图表和图形，缺乏视觉内容可能对于传送的有效性造成很大的影响。所需要的是用于把图像的说明插入到音频记录中的方法和系统。

发明内容

在实施例中，方法从通过解密非文本内容、汇编任何元标记信息、收集光学字符识别(OCR)数据等等而解释图像开始。然后该方法集合、过滤和优先顺序化(prioritize)信息，以创建图像的有用、简明的不可见(例如，音频、文本等等)说明。这个图像解释和说明的结果在图像不可得到时，诸如当收听音频记录或听文本到语音系统读文本时增大了不可见内容。例如，系统可以解释常用的呈现和图形程序，诸如Microsoft PowerPoint^TM和Visio^TM，并把图像的说明插入到呈现的音频记录中。

一方面，提供了一种把图像的说明插入到音频记录中的方法，包括：解释图像和产生包括至少一个图像关键字的图像的文字说明；把音频记录解析成多个音频剪辑，以及产生每个音频剪辑的转录本(transcription)，每个音频剪辑转录本包括至少一个音频关键字；计算至少一个图像关键字与每个音频剪辑的至少一个音频关键字的相似性距离；以及选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置。

在一个实施例中，该方法还包括把图像的文字说明附加到选择的音频剪辑，以产生包括图像的至少一个解释性文字说明的增大的音频记录。

在另一个实施例中，该方法还包括提供至少一个解释图像的模板，该至少一个模板包括至少一个图像解释部件，用于产生图像的文字说明。

在另一个实施例中，该方法还包括提供光学字符识别(OCR)技术、边缘寻找技术、彩色边缘寻找技术、曲线寻找技术、形状寻找技术、和对比度寻找技术中的至少一项技术作为在该至少一个模板中的图像解释部件。

在另一个实施例中，该方法还包括把音频记录解析为基本上相同长度的多个音频剪辑，以及调节每个音频剪辑的长度以在语音的自然停顿处结束。

在另一个实施例中，该方法还包括通过计算在图像的至少一个图像关键字与音频剪辑的至少一个音频关键字之间的相似性距离而计算在图像与音频剪辑之间的相似性距离。

在另一个实施例中，该方法还包括通过计算在分级结构语义电子字典中这些关键字之间的路径长度而得到在至少一个图像关键字与至少一个音频关键字之间的相似性距离。

另一方面，提供了一种用于把图像的说明插入到音频记录中的系统，包括：解释装置，用于解释图像和产生包括至少一个图像关键字的图像的文字说明；解析装置，用于把音频记录解析成多个音频剪辑，和产生每个音频剪辑的转录本，每个音频剪辑转录本包括至少一个音频关键字；计算装置，用于计算该至少一个图像关键字与每个音频剪辑的该至少一个音频关键字之间的相似性距离；选择装置，用于选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置。

在一个实施例中，该系统还包括附加装置，用于把图像的文字说明附加到选择的音频剪辑，以产生包括图像的至少一个解释性文字说明的增大的音频记录。

在另一个实施例中，该系统还包括至少一个解释图像的模板，该至少一个模板包括至少一个图像解释部件，用于产生图像的文字说明。

在另一个实施例中，该系统还包括光学字符识别(OCR)技术、边缘寻找技术、彩色边缘寻找技术、曲线寻找技术、形状寻找技术、和对比度寻找技术中的至少一项技术作为在该至少一个模板中的图像解释部件。

在另一个实施例中，该系统被配置成把音频记录解析为基本上相同长度的多个音频剪辑，以及调节每个音频剪辑的长度以在语音的自然停顿处结束。

在另一个实施例中，该系统被配置成通过计算在图像的至少一个图像关键字与音频剪辑的至少一个音频关键字之间的相似性距离而计算在图像与音频剪辑之间的相似性距离。

在另一个实施例中，该系统被配置成根据在分级结构语义电子字典中这些关键字之间的路径长度，计算在至少一个图像关键字与至少一个音频关键字之间的相似性距离。

另一方面，提供了一种用于存储数据处理器代码的数据处理器可读的媒体，当其被装载到数据处理设备中时，使得设备把图像的说明插入到音频记录中，该数据处理器可读的媒体包括：用于解释图像和产生包括至少一个图像关键字的图像的文字说明的代码；用于把音频记录解析成多个音频剪辑，以及产生每个音频剪辑的转录本的代码，每个音频剪辑转录本包括至少一个音频关键字；用于计算至少一个图像关键字与每个音频剪辑的至少一个音频关键字的相似性距离的代码；以及用于选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置的代码。

在一个实施例中，该数据处理器可读的媒体还包括用于把图像的文字说明附加到选择的音频剪辑，以产生包括图像的至少一个解释性文字说明的增大的音频记录的代码。

在一个实施例中，该数据处理器可读的媒体还包括用于提供至少一个解释图像的模板的代码，该至少一个模板包括至少一个图像解释部件，用于产生图像的文字说明。

在一个实施例中，该数据处理器可读的媒体还包括用于提供光学字符识别(OCR)技术、边缘寻找技术、彩色边缘寻找技术、曲线寻找技术、形状寻找技术、和对比度寻找技术中的至少一项技术作为在该至少一个模板中的图像解释部件的代码。

在一个实施例中，该数据处理器可读的媒体还包括用于把音频记录解析为基本上相同长度的多个音频剪辑，以及调节每个音频剪辑的长度以在语音的自然停顿处结束的代码。

在一个实施例中，该数据处理器可读的媒体还包括用于通过计算在图像的至少一个图像关键字与音频剪辑的至少一个音频关键字之间的相似性距离而计算在图像与音频剪辑之间的相似性距离的代码。

在一个实施例中，该数据处理器可读的媒体还包括用于通过计算在分级结构语义电子字典中这些关键字之间的路径长度而得到在至少一个图像关键字与至少一个音频关键字之间的相似性距离的代码。

从以下对示例性实施例的更具体的说明中将明白本发明的这些和其它方面。

附图说明

在显示本发明的示例性实施例的图中：

图1是可以提供工作环境的通用数据处理系统的示意图；

图2是按照实施例的图像解释方法的示意性流程图；

图3A和3B是按照实施例的源确定和预处理方法的示意性流程图；

图4显示按照实施例的图像文件处理方法；

图5A和5B是按照实施例的部件组装方法的示意性流程图；

图6显示按照实施例的声音记录预处理方法的示意性流程图；

图7显示按照实施例的图像插入位置搜索方法的示意性流程图；

图8显示按照实施例的图像插入方法的示意性流程图；以及

图9显示可以按照本发明的实施例识别和描述的图像的示意性例子。

具体实施方式

如上所述，本发明涉及用于解释和描述图形图像的系统和方法。

本发明可以在各种实施例中被实践。适当配置的数据处理系统和相关的通信网、设备、软件和固件可以提供用于使能这些系统和方法中的一个或多个的平台。作为例子，图1显示通用数据处理系统100，其可包括被连接到贮存单元104和随机存取存储器106的中央处理单元(“CPU”)102。CPU 102可以处理操作系统101、应用程序103和数据123。操作系统101、应用程序103和数据123可被存储在贮存单元104和被装载到存储器106，如果需要的话。运营商107可以通过使用由视频接口105连接的视频显示器108和由I/O接口109连接的、诸如键盘110、鼠标112和盘驱动器114那样的各种输入/输出设备，而与数据处理系统100互动。以已知的方式，鼠标112可被配置成控制在视频显示器108上的光标的移动，以及用鼠标按钮操作在视频显示器108上出现的各种图形用户界面(“GUI”)控制。盘驱动器114可被配置成接受数据处理系统可读的媒体116。数据处理系统100可以经由网络接口111形成网络的一部分，允许数据处理系统100与其它适当配置的数据处理系统(未示出)通信。在本说明书中作为例子显示的具体配置并不意味着限制。

更一般地，按照一个实施例的方法可以包括解释和描述图像，以及使得音频或文本说明与在音频或文本转录本中的逻辑插入点同步。

在解释图表或图形时，图像图案(pattern)识别技术可被使用来识别内容。图像处理技术可被使用来提取诸如标题和附注那样的文本。元标记技术可以被作家或被撰稿人使用，这些标记可被使用来增大和标准化翻译。元标记例子例如可包括识别X和Y轴、图表类型、图表的分段、和图例等等。

过滤技术也可以被使用来消除某些数据(诸如页数、标题与页脚)和突出其它信息，诸如图表标题。OCR技术也可以被使用来确定其它文本内容。这个OCR信息不单可以获取文本内容，还可以获取位置、取向、文本尺寸和字体等，以及这个信息可以在下面进一步描述的、随后的过滤和优先顺序化过程中被使用。

语音识别技术可被使用来访问原先的源上下文，和提取可以帮助描述图的内容和/或帮助把图像的说明对准到原先的源内容的信息。翻译技术可被利用来从一个上下文到另一个上下文重新措辞内容，这样，它更适用于最后的目的。

按照另一个实施例，该方法可以相对于解释的图像解析其它源内容，以便对准两种内容类型。自然的语言处理和语义电子字典可被使用来测量在图像与其它源内容之间的语义相似性距离。在其它源内容中具有最短的相似性距离的位置可被使用来放置图像。因为大多数呈现可遵循逻辑次序，一旦正确的参考点被建立，就更容易把解释的图像说明放回到呈现中。

对说明性附加部分的独立控制可以允许用户把这个方法从原先的源内容应用到以前的和将来的图像。这将帮助把译码系统对准到原先的音频或文本，然后它们被用作为参考点，以继续译码和对准。对准过程只需要进行一次，因为用户可以下载呈现的注解版本，而不是分开地下载源和增大信息。

现在参照图2描述说明性方法200。如图所示，方法200开始，并在方块202接收一系列图像(例如，如在呈现中使用的)作为输入。然后，方法200前进到方块204，对于每个图像，方法200确定图像类型。在方块206，方法200根据图像类型预处理图像(如下面参照图3A和3B更详细地描述的)，然后，前进到判决块208，以估计图像类型确定的成功。在判决块208，如果回答是否定的，则方法200前进到方块210，以可能使用元标记和图案映射，进一步进行预处理，然后前进到方块212，方法200可以学习新的图案。方法200将这个新信息返回到方块204以进一步进行预处理。

如果在判决块208的回答是肯定的，则方法200前进到方块214，方法200处理和生成与图像有关的一系列图像关键字。然后，方法200前进到方块216，方法200可以消除无关的字(例如，页数、版权声明)。然后方法200前进到方块218，方法200根据图像关键字生成图像的说明。然后方法200前进到方块220，方法200确定是否还有图像。如果是的话，则方法200返回到方块204和继续进行。如果没有的话，则方法200前进到方块D(图6)。

图3A和3B显示按照实施例的数据源确定和预处理方法300的示意性流程图。方法300从方块302开始，并且在方块304，接收源数据或图像。在判决块306，方法300确定该源是图像文件(例如，jpeg、pdf)还是数据文件(例如，ppt、vsd)。如果是数据文件，则方法300前进到方块308，在其中预期数据文件具有被数字存储的附加信息(例如，doc、ppt、vsd、xls、123等等)。然后方法300前进到方块310，在其中方法300确定数据文件是否包含附加元标记，以帮助图像解释。如果不包含，则方法300经由连接头C直接前进到方块502。如果是的话，则方法300前进到方块312，在其中方法300解析和解释元标记。这些元标记可以是工业标准，或专用于源文件类型的标记。然后方法300前进到方块314和方块C(图5A和5B)。

如果在判决块306，该源是图像文件，则方法300前进到方块316(图3B)。因为图像文件典型地具有较少的可检索源数据，所以方法300前进到方块318，在其中方法300准备用于其它类型的解析的图像文件。这个准备可包括例如去倾斜、噪声减小、信号对噪声平均等等。

然后方法300前进到方块320，在其中从准备得到的图案可以与被存储在图案文件夹中的图案或模板进行比较，以确定源图像的可能的类型。例如，图案或模板匹配可以表示源图像是条形图表、圆形图表、文本表格、线型图表等等。(可被使用于本方法的、用于图像分析的各种技术在http://en.wikipedia.org/wiki/Computer vision中概略地讨论。例如，用于噪声减小的各种方法在http://www.mathtool.net/Java/Image Processing/中描述。图形图像处理包括去倾斜、自动剪切、自动边界提取以及噪声失真消除在http://www.sharewareriver.com/products/6116.htm中描述。光学字符识别(OCR)技术在http://www.nuance.com/omnipage/professional/和http://www.csc.liv.ac.uk/～wda2003/Papers/Section IV/Paper 14.pdf中描述。使用对比度技术来分段来自图像的项目在http://www.ph.tn.tudelft.nl/Courses/FIP/noframes/fip-Segmenta.html中描述。圆和曲线确定技术在http://homepages.inf.ed.ac.uk/cgi/rbf/CVONLINE/entries.p17TAG382中描述。图到数据变换线技术在http://ichemed.chem.wisc.edu/iournal/issues/2003/Sep/abs1093 2.html中描述。用于条形图、圆形图表等等的彩色边缘检测技术在http://ai.stanford.edu/～ruzon/compass/color.html中描述。体积确定(用于venn图、圆形图表等等)在http://www.spl/harvard.edu:8000/pages/papers/guttmann/ms/guttmann_rev.html中描述。)

然后方法300前进到方块322，在其中方法300根据它的可能类型处理源图像文件。例如，如果源内容是条形图表，则可以检索用于条形图表的相应模板，以及可以通过使用用于解释和说明的模板分析其它条形图表内容。

现在参照图4，图上显示按照实施例的图像文件处理方法400。方法400从方块402开始，并且前进到判决块404，以确定在图案文件夹中的图案是否超过预定的阈值，假设已经匹配了源图像文件类型。如果是的话，则方法400前进到方块C(图5A和5B)。如果不是的话，方法400前进到方块406，在其中方法400预处理和比较图像文件与来自现有的图案文件夹的“最好适配”的图案。方法400然后前进到判决块408。

在判决块408，如果不能满足最小的阈值，则图像不能被解释和描述(例如，图像可能是抽象油画或草稿画的徒手画)，以及方法400经由连接头A返回到方块302。如果在方块408能满足最小的阈值，则方法400前进到方块410。在这个步骤410，系统可以记录图像作为潜在的新图案，而不用任何进一步处理，经由连接头A返回到方块302。在处理过程的末端，可以再查看一系列潜在的新图案图像(例如，通过系统分析)，以及可以生成用于基于图案的数据提取的新模板。这些新模板可被保存在图案文件夹中，这样，它们可被使用于下一轮的自动过程。

现在参照图5A和5B，图上显示按照实施例的部件组装方法500的示意性流程图。方法500从方块502开始，并且前进到判决块504，在其中方法500确定源文件是图像文件(例如，jpeg、pdf)还是数据文件(例如，ppt、vsd)。

如果是数据文件，则方法500前进到方块506，在其中方法500应用模板来从数据中提取内容，包括属性、上下文、数字值等等。例如，用于x-y曲线图的模板可以提取信息，诸如标题、x轴的名称、y轴的名称，在图表上画的线的细节和用于线的任何标签。将会看到，模板可以对于每个特定类型的数据文件画出草图，以便提取密钥信息。

然后方法500前进到方块508，在其中方法500可以构建逻辑文本结构，以及从使用模板提取的数据中复制(populate)它们。例如，为了描述x-y坐标图，文本结构可以包括标题、x轴的名称、y轴的名称和通过在x-y坐标图上它们的斜率和相对位置描述直线的文本结构。

然后方法500前进到方块510，在其中方法500可以存储分段处理的结果，作为在逻辑结构中可识别的部件。方法500然后经由连接头A前进到方块A(图3A)。

图5B显示方法500的步骤，如果在判决块504源文件是图像文件，方法500前进到方块514，在其中选择的图案或模板被使用来把图像文件分段为部件(例如，图例、轴、标题等等)。

然后，方法500前进到方块516、518、520、522、524、526的一个或多个，以解释图像文件。例如，在方块516，方法500可以使用OCR来确定文本内容。在方块518，方法500可以使用边缘寻找技术来找出线图形分量。在方块520，方法500可以使用彩色边缘技术来找出线图形分量。在方块522，方法500可以使用曲线寻找技术来找出曲线图形单元。在方块524，方法500可以使用圆形、椭圆和气泡寻找技术来找出2D图形分量。在方块526，方法500可以使用对比度寻找技术来找出条形分段、圆形分段等等。

然后方法500前进到方块528，在其中方法500可以解释每个找到的目标，得出数字、标签、或其它属性，诸如从左到右的条形的相对位置、圆形分段的相对百分数，等等。

然后方法500前进到方块530，在其中方法500可以评注(document)通过应用如上所述的一个或多个分析技术而发现的分段单元。然后方法500前进到方块532，在其中方法500可以协调和对准部件。方法500然后前进到如上所述的方块508(图5A)，并继续进行。

现在参照图6，图上显示音频预处理方法600的示意性流程图。方法600从方块602开始，并且前进到判决块604，以接收音频记录作为输入。然后方法600前进到方块606，在其中方法600把音频节目划分成音频剪辑的向量，每个音频剪辑在语音的自然停顿处结束，诸如句子的末端，且接近于固定的长度(例如，30秒)。

然后方法600前进到方块608，在其中方法600对于每个音频剪辑继续进行。然后方法600前进到方块610，在其中语音识别技术可被使用来把音频剪辑转换成文本。在方块612，方法600然后可以使用自然语言解析器，解析转换的文本。方法600然后可以产生名词词组向量，其包含从音频剪辑提取的0到n个名词词组。方法600然后前进到方块616，在其中方法600把在字典中没有找到的某些通用名称或名称变换成字典中的字。方法600然后前进到方块618，在其中方法600计算每个名词词组的重要性数值，以及去除不太有意义的词组。然后方法600前进到方块620，在其中方法600产生包含0到n个关键字的、音频剪辑的关键字向量。然后方法600前进到判决块622，以确定是否还有音频剪辑。如果是的话，方法600返回到方块608，并继续进行。如果不是的话，方法600经由连接头E前进到图7的方法700。

现在参照图7，图上显示按照实施例的图像插入位置搜索方法700的示意性流程图。方法700从方块702开始，并且前进到方块704，在其中方法700接收由包含0到n个关键字的图像关键字向量代表的预处理的图像和由音频剪辑关键字向量的一个向量代表的预处理的音频节目(在每个音频剪辑关键字向量代表音频剪辑的情况下)作为输入。

然后方法700前进到方块706，在其中方法700对于在音频节目中的每个音频剪辑继续进行。在方块708，方法700对于在图像关键字向量中的每个关键字继续进行。然后方法700前进到方块710，在其中方法700对于在代表音频剪辑的音频关键字向量中的每个关键字继续进行。然后方法700前进到方块712，在其中方法700计算在当前的图像关键字与音频关键字之间的相似性距离。在步骤714，方法700更新在这个图像关键字与音频关键字之间的最短距离，以及通过返回到方块710，前进到音频剪辑中的下一个关键字，如果存在的话。如果不存在，则方法700前进到方块716，在其中方法700指定这个最短的距离值作为在这个图像关键字与音频剪辑之间的相似性距离。然后方法700前进到方块718，在其中方法700更新在这个图像关键字与音频剪辑之间的最短距离，以及通过返回到方块708，前进到图像的下一个关键字，如果存在的话。如果不存在，则方法700前进到方块720，在其中方法700指定这个最短的距离值作为在这个图像与音频剪辑之间的相似性距离。

然后方法700前进到方块722，在其中方法700记录具有最短距离的音频剪辑，以及通过返回到方块706，前进到下一个音频剪辑，如果存在的话。如果不存在，则方法700前进到方块724，在其中方法700识别具有到图像的最短相似性距离的音频剪辑作为插入图像的地方。方法700然后经由连接头F前进到方块F(图8)。

现在参照图8，图上显示按照实施例的图像插入方法800。方法800从方块802开始，并且前进到方块804，以接收一系列图像的输入，每个图像由图像关键字向量和相应的插入点代表。然后方法800前进到方块806，在其中方法800对于在声音记录中的每个声音剪辑继续进行。然后方法800前进到方块808，把这个声音剪辑附加到最终得到的图像说明增大的声音记录。

然后方法800前进到方块810，以对于一系列图像中的每个图像继续进行。然后方法800前进到方块812，以确定图像是否应当插入在当前的声音剪辑后。如果不是的话，则方法800返回到方块812。如果是的话，则方法800前进到方块814，以通过使用语音生成工具从图像关键字生成图像说明音频剪辑。然后方法800前进到方块816，在其中方法800把新生成的图像说明音频剪辑附加到识别的插入点。然后方法800前进到判决块818，以确定是返回到方块810，还是前进到判决块812。在判决块812，方法800确定是返回到方块806，还是结束。

正如将会看到的，上述的方法识别和以文本与音频描述图像，通过使用根据关键字计算的相似性距离定位在原先的音频记录中适当的插入点，以及把图像说明插入到适当的识别位置。因此，音频记录的收听者看不见的图像将在被插入到和增大原先的声音记录的图像说明音频剪辑中被描述。

例子

图9显示由Clayton M.Christensen根据图表适配和简化的、可以通过使用上述方法识别和描述的图形图像900的说明性例子。

例如，在讲课的音频记录中，讲课人可以涉及多个图形或图表，诸如图9所示的图形图像900。在讲课的某些点，例如在10:25am的时间参考点，讲课人可以参考具有标题“disruptors”的图表。然后，在10:30am他可以说“图形”和“线”，这可以解释为他参考线型图表。他也可以在10:35am具体地说，“为了使图形简单，我仅仅描述使用改进方案的能力作为单条线...”。

按照实施例，系统可以隐藏在10:30am的图表900的解释说明，这可以如下阐述：标题“disruptors”，X轴：“时间”，Y轴：“性能”。行A具有约10°的斜率，标题为“使用改进方案的能力”。行B具有约25°的斜率，标题为“革新”。行B在时间D与行A交叉。行C具有约25°的斜率，标题为“disruption”。行C在时间E与行A交叉。

正如将会看到的，可以解释诸如图表900那样的图表和提供口头说明的系统和方法，比起在不提供这样的信息情况下的系统和方法，可以给收听者提供更多的上下文以了解讲课。

虽然上面描述了本发明的各种说明性实施例，但本领域技术人员将会看到，可以作出改变和修改。因此，本发明的范围由以下的权利要求规定。

Claims

1.一种把图像的说明插入到音频记录中的方法，包括：

解释图像和产生包括至少一个图像关键字的图像的文字说明；

把音频记录解析成多个音频剪辑，并且产生每个音频剪辑的转录本，每个音频剪辑转录本包括至少一个音频关键字；

计算至少一个图像关键字与每个音频剪辑的至少一个音频关键字之间的相似性距离；以及

选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置。

2.根据权利要求1的方法，还包括：把图像的文字说明附加到选择的音频剪辑，以产生包括图像的至少一个解释性文字说明的增大的音频记录。

3.根据权利要求1的方法，还包括：提供至少一个解释图像的模板，该至少一个模板包括至少一个图像解释部件，用于产生图像的文字说明。

4.根据权利要求3的方法，还包括：提供光学字符识别(OCR)技术、边缘寻找技术、彩色边缘寻找技术、曲线寻找技术、形状寻找技术、和对比度寻找技术中的至少一项技术作为在该至少一个模板中的图像解释部件。

5.根据权利要求1的方法，还包括：把音频记录解析为基本上相同长度的多个音频剪辑，以及调节每个音频剪辑的长度以在语音的自然停顿处结束。

6.根据权利要求1的方法，还包括：通过计算在图像的至少一个图像关键字与音频剪辑的至少一个音频关键字之间的相似性距离而计算在图像与音频剪辑之间的相似性距离。

7.根据权利要求6的方法，还包括：通过计算在分级结构语义电子字典中这些关键字之间的路径长度而得到在至少一个图像关键字与至少一个音频关键字之间的相似性距离。

8.一种用于把图像的说明插入到音频记录中的系统，包括：

解释装置，用于解释图像和产生包括至少一个图像关键字的图像的文字说明；

解析装置，用于把音频记录解析成多个音频剪辑，和产生每个音频剪辑的转录本，每个音频剪辑转录本包括至少一个音频关键字；

计算装置，用于计算该至少一个图像关键字与每个音频剪辑的至少一个音频关键字之间的相似性距离；以及

选择装置，用于选择具有到至少一个图像关键字的最短的相似性距离的音频剪辑转录本作为插入图像的文字说明的位置。

9.根据权利要求8的系统，还包括附加装置，用于把图像的文字说明附加到选择的音频剪辑，以产生包括图像的至少一个解释性文字说明的增大的音频记录。

10.根据权利要求8的系统，还包括至少一个解释图像的模板，该至少一个模板包括至少一个图像解释部件，用于产生图像的文字说明。

11.根据权利要求10的系统，还包括光学字符识别(OCR)技术、边缘寻找技术、彩色边缘寻找技术、曲线寻找技术、形状寻找技术、和对比度寻找技术中的至少一项技术作为在该至少一个模板中的图像解释部件。

12.根据权利要求8的系统，其中解析装置被配置成把音频记录解析为基本上相同长度的多个音频剪辑，以及调节每个音频剪辑的长度以在语音的自然停顿处结束。

13.根据权利要求8的系统，其中计算装置被配置成通过计算在图像的至少一个图像关键字与音频剪辑的至少一个音频关键字之间的相似性距离而计算在图像与音频剪辑之间的相似性距离。

14.根据权利要求13的系统，其中系统被配置成根据在分级结构语义电子字典中这些关键字之间的路径长度而计算在至少一个图像关键字与至少一个音频关键字之间的相似性距离。