CN107409061B

CN107409061B - 用于语音总结的方法和系统

Info

Publication number: CN107409061B
Application number: CN201680016678.6A
Authority: CN
Inventors: 陈叶青; 聂文娟; 吴婷; 杨昭
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-03-23
Filing date: 2016-02-03
Publication date: 2020-12-08
Anticipated expiration: 2036-02-03
Also published as: US9672829B2; JP2018513991A; JP6714607B2; US20160284354A1; WO2016150257A1; CN107409061A

Abstract

本发明的实施例公开了一种用于语音总结的方法，系统和计算机程序产品。计算机从视频会议接收音频和视频要素。计算机基于比较参与者的图像和在讲话和没在讲话的面部的模板图像来确定哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用于参与者的声音波形的简短记录来确定正在讲话的参与者的声纹，并将所述确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做的陈述的内容，确定关键点，并将关键点显示在视频会议中参与者的面部上方。

Description

用于语音总结的方法和系统

技术领域

本发明总体上涉及语音分析，尤其涉及确定在视频会议期间由讲话者所做的关键点。

背景技术

视频会议经常被用于商业或个人用途，作为有效和方便的通信方法，其避免了身体上旅行到一个地点以进行面对面的谈话的需要。因为单一的视频会议可以同时把数以百计的人从地球上的任何地方连接到实时的、面对面的谈话，视频会议正变得越来越受欢迎。然而，像在任何谈话中，视频会议可能被语言障碍、无法辨认的口音、快速讲话或者参加多人会议的与会者迟到而错过以前所讨论内容的偶然情况所阻碍。

发明内容

本发明各实施例公开了用于语音总结的方法、系统和计算机程序产品。计算机从视频会议接收音频和视频要素(components)。计算机基于比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹，并将确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做陈述的内容，确定关键点，并在视频会议中参与者的面部上方显示它们。

附图说明

图1示出了根据本发明实施例的语音总结系统。

图2是根据本发明实施例的说明用于确定和显示在视频会议电话中讲话者所做关键点的图1的语音总结程序的操作的流程图。

图3是根据本发明实施例的描述图1的语音总结系统的硬件组件的框图。

具体实施方式

现在将参考附图详细描述本发明各实施例。

图1示出了根据本发明实施例的语音总结系统100，在该示例实施例中，语音总结系统100包括计算装置110，视频摄影机114，麦克风112，计算装置120，视频摄影机124，麦克风122和网络108。

网络108可以是因特网，其表示世界范围的网络收集和支持连接到因特网的装置之间通信的网关。网络108可包括，比如，有线，无线或光纤连接。在其他实施例中，网络108可被实现为内联网，局域网，或广域网。通常，网络108可以是支持计算装置110和计算装置120之间通信的任何连接和协议的组合。

麦克风122可以是声电转换器，其将声音产生的气压变量转换为电信号。在示例实施例中，麦克风112与计算装置120集成。麦克风112将由计算装置110的用户所做的陈述转换成电信号，并将该电信号传送到计算装置120。

视频摄影机124可以是用于动作画面获取的摄影机。在示例实施例中，视频摄影机124与计算装置120集成，并且在视频会议期间视觉上记录计算装置120的用户。

计算装置120包括视频会议程序126和语音总结程序128。在示例实施例中，计算装置120可以是膝上型计算机，笔记本电脑，平板计算机，上网本计算机，个人计算机(PC)，台式计算机，个人数字助理(PDA)，智能手机，瘦客户机，或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中，虽然计算装置120被示为单个装置，计算装置120可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置120。

视频会议程序126是通过在计算装置间传送音频和视频信号的方式，能够提供允许用户到视频会议的能力的程序。在示例实施例中，视频会议程序126经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置110)。在其他实施例中，视频会议程序126可以经由有线连接传送音频和视频信号。

麦克风112可以是声电转换器，其将声音产生的气压变量转换为电信号。在示例性实施例中，麦克风112与计算装置110集成。麦克风112将由计算装置110的用户所作的陈述转换为电信号，并将所述电信号传送到计算装置110。

视频摄影机114可以是用于动作画面获取的摄影机。在示例实施例中，视频摄影机114与计算装置110集成，并且在视频会议期间视觉上记录计算装置110的用户。

计算装置110包括视频会议程序116和语音总结程序118。在示例性实施例中，计算装置110可以是膝上型计算机，笔记本电脑，平板计算机，上网本计算机，个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能手机、瘦客户机，或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中，虽然计算装置110被示为单个装置，计算装置110可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置110。

视频会议程序116是通过在计算装置间传送音频和视频信号的方式，能够提供允许用户到视频会议的能力的程序。在示例实施例中，视频会议程序116经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置120)。在其他实施例中，视频会议程序116可以经由有线连接传送音频和视频信号。

在示例实施例中，语音总结程序118与视频会议程序116部分集成并接收传送到视频会议程序116的音频和视频信号。然而在其他实施例中，语音总结程序118可以与视频会议程序116全部集成或不集成。语音总结程序118能够识别在音频信号中讲话者的声纹或独特的声音波形参数，比如，通过利用隐马尔可夫模型(HMM)来分析包括分贝范围，频谱，共振峰，基音和反射系数的通常的语音声学特征。语音总结程序116又能够通过分析使用基于模板的面部识别方法的参与者的面部表情识别视频信号中的讲话者。而且，语音总结程序116能够将音频信号中讲话者的声纹与视频信号中讲话者的面部匹配并将讲话者的声纹存储在用户数据库中。在示例实施例中，在计算装置110上本地存储声纹数据库，然而在另外的实施例中，可以远程存储并经由网络108访问声纹数据库。通过利用隐马尔可夫模型，语音总结程序116也能够确定和转录讲话者所做陈述的内容。并且，语音总结程序116能够确定讲话者所说的关键点并在视频信号中讲话者的上方显示列出最近所说的关键点的泡状显示层。在图2的讨论中更详细地描述语音总结程序的操作。

图2是描述根据本发明实施例的，在确定和显示在视频会议中讲话者所说的关键点时，语音总结程序118的操作的流程图。在示例实施例中语音总结程序118与视频会议程序116集成，语音总结程序118通过与视频会议程序116集成的方式检测视频会议的音频和视频信号(步骤202)。在另外的实施例中，语音总结程序118没有与视频会议程序116集成，语音总结程序118通过用户输入或与操作系统通信的方式检测视频会议的音频和视频信号。例如，如果参与者Alpha为了与计算装置120上的参与者Beta进行视频会议，正在利用计算装置110上的视频会议程序116，然后计算装置110的语音总结程序118从视频会议程序116检测来自计算装置120上的参与者Beta的音频和视频输入。

在语音总结程序118与视频会议程序116集成的示例实施例中，语音总结程序118从经由视频会议程序116接收的音频数据识别讲话者的声纹，然而在语音总结程序118不与视频会议程序116集成的其他实施例中，语音总结程序118从经由网络108接收的音频信号数据识别讲话者的声纹(步骤204)。在示例实施例中，语音总结程序118利用隐马尔可夫模型(HMM)识别讲话者的声纹。然而，在其他实施例中，语音总结程序116可以利用其他语音生物识别技术识别声纹，比如频率估计，高斯混合模型，模式匹配算法，神经网络，矩阵表示，矢量量化，决策树和队列模型。语音总结程序118利用隐马尔可夫模型(HMM)来分析诸如分贝范围，频谱，共振峰，基音和反射系数的通常的语音声学特征。当视频会议中的参与者做出陈述，语音总结程序118分析声音波形的简短记录以提取模型或声纹，定义前面提到的语音声学特征的参数。简短记录可对应于持续大约10毫秒的记录，然而其他的长度也可使用。语音总结程序118然后试图将该声纹与计算装置110上存储的声纹数据库中的已有声纹匹配。在示例实施例中，视频会议的参与者在视频会议的开始陈述他们的名字以便语音总结程序118在声纹数据库中识别和存储他们的声纹。陈述他们的名字的参与者为语音总结程序118提供了识别和存储参与者的声纹的机会，也为语音总结程序118提供了辨认和识别名字或识别符以将其与该声纹关联的的机会(在步骤210进一步详细讨论了识别口头讲的名字的语音识别技术)。例如，如果参与者Charlie加入在计算装置120上的参与者Beta，参与者Beta处于上文描述的与参与者Alpha的电话会议中，在计算装置110上的语音总结程序118必须在两个音频信号(Beta和Charlie)之间区分。语音总结程序118通过分析跨越短时间段的Beta和Charlie两者的声音波形并提取特征参数来确定Beta和Charlie的两个不同声纹。语音总结程序118然后试图将Beta和Charlie的声纹与声纹数据库中的已有声纹匹配。如果参与者Beta和Charlie是新的参与者，语言总结程序可能在声纹数据库中找不到匹配，如果名字Beta和Charlie在会议开始被陈述过，参与者Beta和Charlie的声纹可在名字Beta和Charlie的下面被加入到声纹数据库。如果参与者Beta和Charlie在声纹数据库中具有已存在的声纹，参与者Beta和Charlie所做的陈述可与对应于参与者Beta和Charlie的已存在的声纹信息相关联。

语音总结程序118从经由网络108接收的视频信号识别讲话者的面部(步骤206)。在示例实施例中，语音总结程序118利用模板匹配的方法从视频信号识别讲话者，然而在其他实施例中，语音总结程序118可以利用基于几何的方法，零碎的/整体的方法，或基于外观/基于模型的方法。模板匹配是用于找到匹配模板图像的小部分图像的数字图像处理中的技术。使用基于模板的方法，语音总结程序118将视频信号中讲话者的面部与一组储存的模板比较。所述模板包括预装到语音总结程序118的一些在讲话以及一些不在讲话的随机人脸的照片。当声纹被确定时，语音总结程序118通过首先取得视频信号中的参与者的面部图像利用模板匹配，然后语音总结程序118通过从每个图像采集大量像素，并确定像素是否在阴影，亮度，颜色，和其他因素方面匹配，将所述图像与所储存的模板比较来确定视频信号图像中的讲话者的面部是否与模板中正讲话的面部或没在讲话的面部相似。还是上面和用户Alpha，Beta，和Charlie正进行电话会议的例子，计算装置110上的语音总结程序118将存储的模板与视频信号中的用户Beta和Charlie的面部比较以确定在一特定时刻谁在讲话。如果Charlie在讲话，则在视频信号中他的面部将与在讲话的人的面部的模板相似，并且语音总结程序118确定参与者Charlie在讲话。

语音总结程序118将步骤204中所识别的参与者的声纹与步骤206中所识别的讲话者相关联(步骤208)。当语音总结程序118识别讲话者的声纹时，语音总结程序118确定视频信号中的哪个参与者的面部表明所述参与者正在讲话。语音总结程序118然后将该声纹与在视频信号中所识别的面部相关联，以及如果声纹与名字(或其他识别符)相关联，还将所述名字与面部相关联。继续上面的例子，用户Alpha在计算装置110上与用户Beta和Charlie(在计算装置120上参加)正进行视频会议，当声纹被识别时，如果语音总结程序118基于Charlie的面部表情的模板匹配确定他在讲话，语音总结程序118将所识别的声纹与参与者Charlie的面部相关联。此外，如果Charlie在会议一开始自我介绍为“Charlie”或否则他的声纹与名字“Charlie”相关联(在步骤204描述)，语音总结程序118不仅将Charlie的面部与声纹相关联，还将面部与名字“Charlie”相关联。

语音总结程序118确定讲话的内容并转录讲话者所做的讲话的内容(步骤210)。在示例实施例中，语音总结程序118利用隐马尔可夫模型识别讲话者所做陈述的讲话，然而，在其它实施例中语音总结程序106可以利用诸如音标转录，正字法转录，动态时间规整，神经网络，或深度神经网络的方法，转录讲话者所做陈述的内容。隐马尔可夫模型是输出符号或数量的序列的统计模型。因为语音信号可以被看作是分段平稳信号，以及在这些短的时间长度，语音可以被近似为平稳的过程，隐马尔可夫模型被用于语音识别。隐马尔可夫模型大约每十毫秒输出n维实向量的序列，每个向量代表一个音素(与其他音素结合形成词的语言语音体系的基本单元)。向量由称为倒谱系数的最重要的系数组成，所述系数被从频谱去相关，所述频谱通过将余弦变换应用到被分析语音的的短时窗的傅立叶变换而得到。所得到的统计分布是高斯对角协方差的混合，其给出对于每个观测到的向量的似然，或每个音素的似然。然后每个音素的输出分布或似然被用来将单个隐马尔可夫模型连接成单词和句子。

语音总结程序118在计算装置110上与视频会议相关联的文件中本地存储所转录的整个会议的内容。在前述提及的例子中，如果参与者Charlie陈述“I think we shouldsell”，语音总结程序118可将陈述分解成分段平稳信号并创建组成陈述的单词的音素的隐马尔可夫模型。语音总结程序118可进一步连接结果输出分布来确定Charlie所陈述的单词和句子。进一步地，如果名字Charlie与Charlie的声纹相关联，语音总结程序118在与会议关联的文件中转录“Charlie：I think we should sell”。然而，如果名字“Charlie”没有与Charlie的声纹关联，语音总结程序118在与会议关联的文件中转录“无法识别的参与者1:Ithink we should sell”。

语音总结程序118确定在步骤210中所转录的陈述中所做的关键点(步骤212)。在示例实施例中，语音总结程序118利用几种方法确定关键点，包括：监测会议参与者或主持人指定的预先选择的关键词，监测滤出常见的废话后会议期间被高频使用的词(即过滤出比如“and”和“the”这样的词)，并监测语调，音高，讲话者的讲话速度。语音总结程序118通过监测来自特定的讲话者的声纹在分贝范围，共振峰，和其他前述提及的语音声学特征方面的变化，检测讲话者语调和音高的变化。此外，语音总结程序118通过监测讲话者每秒平均词汇的变化，检测讲话者语速的变化。还是以前面描述的Alpha，Beta和Charlie之间的视频会议为例，语音总结程序118可转录Charlie所做的陈述并确定Charlie已经说了预选的关键词“investment”，“sale”和“profit”。另外，语音总结程序118可确定Charlie重复说单词“stock”三次，以及Charlie放慢讲话并改变声音的语调以强调单词“market crash”。语音总结程序118可确定Charlie做出了对于他关于投资的陈述的关键点：a sale,a profit,a stock和market crash。

语音总结程序118产生并显示一个显示层，该显示层列出在步骤212中被确定为关键点的讲话者的陈述(步骤214)。在示例实施例中，在显示在视频信号中讲话者上方的半透明泡状显示层中列出最近的关键点，因此视频会议的参与者能够看到它。此外，用户可以用他们的鼠标停留在所述泡状显示层上方来扩展最近的关键点的列表，以展示在视频会议的整个期间该特定的讲话者所说的所有关键点。还是前面的例子，Charlie做了陈述并且语音总结程序118确定包含单词“investment”，“sale”，“profit”，“stock”和“market crash”的句子是关键点。由于包含单词“market crash”，“stock”和“profit”的陈述是由Charlie所说的最近的关键点，包含这些关键点的陈述将被显示在视频信号中Charlie的面部的上方的半透明泡状显示层中，供其他参与者读取。此外，如果参与者将鼠标在Charlie上方的半透明泡状显示层上停留，列表将扩展以展示包含单词“sale”和“investment”的陈述。

图3描述了根据本发明实施例的图1的语音总结系统100的计算装置110的组件的框图。应该理解图3仅提供了一种实现的示例，并不意味着对于在其中可实现各实施例的环境的任何限制。可作出对所描绘的环境的许多修改。

计算装置110可以包括一个或多个处理器302，一个或多个计算机可读RAMs 304，一个或多个计算机可读ROMs 306，一个或多个计算机可读存储介质308，设备驱动器312，读/写驱动器或接口314，网络适配器或接口316，全部通过通信结构318互连。通信结构318可以用被设计用于在处理器(例如微处理器，通信和网络处理器等)，系统内存，外围设备和系统中的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。

一个或多个操作系统310以及一个或多个应用程序311(例如语音总结程序118)，被存储在一个或多个计算机可读存储介质308上，用于经由各自的RAMs 304(通常包括高速缓冲存储器)的一个或多个，由一个或多个处理器302执行。在所示实施例中，每个计算机可读存储介质308可以是内部硬盘驱动器的磁盘存储装置，CD-ROM，DVD，记忆棒，磁带，磁盘，光盘，半导体存储设备比如RAM，ROM，EPROM，闪存或可存储计算机程序和数字信息的任何其它计算机可读有形存储装置。

计算装置110还可以包括从一个或多个便携式计算机可读存储介质326读取和向其写入的R/W驱动器或接口314。计算装置110上的应用程序311可以被存储在便携式计算机可读存储介质326的一个或多个上，经由各自的R/W驱动器或接口314读取并加载到各自的计算机可读存储介质308中。

计算装置110还可以包括网络适配器或接口316，例如TCP/IP适配器卡或无线通信适配器(诸如使用OFDMA技术的4G无线通信适配器)。计算装置110上的应用程序311可以经由网络(例如，因特网，局域网或其他广域网或无线网络)和网络适配器或接口316从外部计算机或外部存储设备被下载到计算装置。从网络适配器或接口316，程序可以被加载到计算机可读存储介质308上。网络可以包括铜线，光纤，无线传输，路由器，防火墙，交换机，网关计算机和/或边缘服务器。

计算装置110还可以包括显示屏320，键盘或小键盘322以及计算机鼠标或触摸板324。设备驱动器312与用于成像的显示屏320，键盘或小键盘322，计算机鼠标或触摸板324和/或用于字母数字字符输入和用户选择的压力感测的显示屏320接口。设备驱动器312，R/W驱动器或接口314和网络适配器或接口316可以包括硬件和软件(存储在计算机可读存储介质308和/或ROM306上)。

在此处描述的程序基于在本发明的具体实施例中实现的应用来识别。然而，应当理解，在此处的任何特定程序命名仅仅是为了方便被使用，因此本发明不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。

基于前面所述，已经公开了计算机系统，方法和计算机程序产品。然而，可以在不脱离本发明的范围的情况下进行许多修改和替换。因此，通过示例而非限制的方式公开了本发明。

本发明的各种实施例可以是系统，方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

计算机可读存储介质可以是能保留和存储用于由指令执行装置使用的指令的有形装置。计算机可读存储介质可以是例如但不限于电子存储设备，磁存储设备，光学存储设备，电磁存储设备，半导体存储设备或上述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下：便携式计算机磁盘，硬盘，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编程读取存储器(EPROM或闪存)，静态随机存取存储器(SRAM)，便携式光盘只读存储器(CD-ROM)，数字通用盘(DVD)，记忆棒，软盘，机械编码设备(比如穿孔卡或在凹槽中具有记录于其上的指令的凸起结构)，以及上述的任何合适的组合。如这里所使用的，计算机可读存储介质不应被解释为暂时信号本身，例如无线电波或其它自由传播的电磁波，通过波导或其它传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)或通过电线传输的电信号。

在此描述的计算机可读程序指令可以下载到来自计算机可读存储介质的各自的计算/处理设备，或经由网络，例如互联网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。在每个计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令并转发用于在各自的计算/处理装置内的计算机可读存储介质中存储的计算机可读程序指令。

用于执行本发明的操作的计算机可读程序指令可以是汇编器指令，指令集架构(ISA)指令，机器指令，依赖于机器的指令，微代码，固件指令，状态设置数据或者要么是源代码要么是目标代码，源代码和目标代码以一种或多种编程语言的任意组合编写，包括面向对象的编程语言，诸如Java，Smalltalk，C++等，以及常规程序性编程语言，诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上，部分在用户的计算机上，作为独立的软件包，部分在用户的计算机上以及部分在远程计算机上，或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，包括例如可编程逻辑电路，现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息执行计算机可读程序指令来个性化电子电路，以便执行本发明的各方面。

在此参照根据本发明实施例的方法，装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中的方框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以提供给通用计算机，专用计算机或其他可编程数据处理装置的处理器，以生产出一种机器，使得所述指令在通过计算机或其它可编程数据处理装置的处理器执行时，创建用于实现流程图和/或框图或方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，计算机可读存储介质可以引导计算机，可编程数据处理设备和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括制造商品，其包括执行流程图和/或框图或方框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机，其他可编程数据处理设备或其他装置上，以使得在计算机，其他可编程设备或其他装置上执行一系列可操作步骤来产生计算机实现的过程，以便在计算机，其他可编程设备或其他设备上执行的所述指令实现流程图和/或框图或方框中指定的功能/动作。

附图中的流程图和框图显示了根据本发明的各实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于总结语音的方法，所述方法包括：

接收对应于视频会议的数据，包括音频要素和视频要素；

基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较，确定第一参与者正在讲话；

通过利用所接收的音频要素确定所述第一参与者的声纹，其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息；

将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像中的至少一个相关联；以及

基于所述确定的所述第一参与者的声纹确定所述第一参与者所讲内容内的一个或多个关键点；

与所述第一参与者相关联地显示一个可视的叠加显示层，其中所述叠加显示层列出所述一个或多个关键点中的一个或多个最近关键点；以及

响应于用户针对所述叠加显示层的输入，扩展叠加显示层，使得叠加显示层除了所述一个或多个最近关键点外还列出所述一个或多个关键点中的其它关键点，

其中上述方法的一个或多个步骤由一个或多个计算机执行。

2.权利要求1所述的方法，进一步包括一个或多个如下步骤：

将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上；

存储所述第一参与者所讲内容内的一个或多个关键点；

将所述第一参与者所讲内容内的一个或多个关键点与客户设备通信；以及

打印所述第一参与者所讲内容内的一个或多个关键点。

3.权利要求1所述的方法，其中所述确定所述第一参与者的声纹的步骤进一步包括：

将隐马尔可夫模型，频率估计，高斯混合模型，模式匹配算法，神经网络，矩阵表示，矢量量化，决策树，和队列模型的一个或多个应用到所接收的音频要素。

4.权利要求3所述的方法，其中通过分析第一参与者的声音波形来确定一个或多个分贝范围，频谱，共振峰，基音，和反射系数的一个或多个参数，隐马尔可夫模型被用于确定所述第一参与者的声纹。

5.权利要求1所述的方法，其中所述确定第一参与者正在讲话的步骤利用模板匹配，基于几何的匹配，零碎的匹配，以及基于模型的匹配中的一个或多个。

6.权利要求5所述的方法，其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素，以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。

7.一种用于语音总结系统的计算机可读存储介质，包含在其中存储的程序指令，所述程序指令包括：

接收对应于视频会议的数据的程序指令，包括音频要素和视频要素；

基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较，确定第一参与者正在讲话的程序指令；

通过利用所接收的音频要素确定所述第一参与者的声纹的程序指令，其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息；

将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令；

基于所述确定的所述第一参与者的声纹确定所述第一参与者所讲内容内的一个或多个关键点的程序指令；

与所述第一参与者相关联地显示一个可视的叠加显示层的程序指令，其中所述叠加显示层列出所述一个或多个关键点中的一个或多个最近关键点；以及

响应于用户针对所述叠加显示层的输入而扩展所述叠加显示层的程序指令，使得所述叠加显示层除了所述一个或多个最近关键点外还列出所述一个或多个关键点中的其它关键点。

8.权利要求7所述的计算机可读存储介质，进一步包括一个或多个如下程序指令：

将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上的程序指令；

存储所述第一参与者所讲内容内的一个或多个关键点的程序指令；

将所述第一参与者所讲内容内的一个或多个关键点与客户装置通信的程序指令；以及

打印所述第一参与者所讲内容内的一个或多个关键点的程序指令。

9.权利要求7所述的计算机可读存储介质，其中所述确定所述第一参与者的声纹的步骤进一步包括：

将隐马尔可夫模型，频率估计，高斯混合模型，模式匹配算法，神经网络，矩阵表示，矢量量化，决策树，和队列模型的一个或多个应用到所接收的音频要素的程序指令。

10.权利要求9所述的计算机可读存储介质，其中通过分析第一参与者的声音波形来确定一个或多个分贝范围，频谱，共振峰，基音，和反射系数的一个或多个参数，隐马尔可夫模型被用于确定所述第一参与者的声纹。

11.权利要求7所述的计算机可读存储介质，其中所述确定第一参与者正在讲话的步骤利用模板匹配，基于几何的匹配，零碎的匹配，以及基于模型的匹配中的一个或多个。

12.权利要求11所述的计算机可读存储介质，其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素，以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。

13.一种用于语音总结系统的计算机系统，所述计算机系统包括：

一个或多个计算机处理器，一个或多个计算机可读存储介质和存储在一个或多个所述计算机可读存储介质上用于由所述一个或多个处理器的至少一个执行的程序指令，所述程序指令包括：

将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令；以及

14.权利要求13所述的计算机系统，进一步包括一个或多个如下程序指令：

将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示装置上的程序指令；

15.权利要求13所述的计算机系统，其中所述确定所述第一参与者的声纹的步骤进一步包括：

16.权利要求15所述的计算机系统，其中通过分析第一参与者的声音波形来确定一个或多个分贝范围，频谱，共振峰，基音，和反射系数的一个或多个参数，隐马尔可夫模型被用于确定所述第一参与者的声纹。

17.权利要求13所述的计算机系统，其中所述确定第一参与者正在讲话的步骤利用模板匹配，基于几何的匹配，零碎的匹配，以及基于模型的匹配中的一个或多个。