CN107409061B - 用于语音总结的方法和系统 - Google Patents

用于语音总结的方法和系统 Download PDF

Info

Publication number
CN107409061B
CN107409061B CN201680016678.6A CN201680016678A CN107409061B CN 107409061 B CN107409061 B CN 107409061B CN 201680016678 A CN201680016678 A CN 201680016678A CN 107409061 B CN107409061 B CN 107409061B
Authority
CN
China
Prior art keywords
participant
program instructions
keypoints
voiceprint
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680016678.6A
Other languages
English (en)
Other versions
CN107409061A (zh
Inventor
陈叶青
聂文娟
吴婷
杨昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN107409061A publication Critical patent/CN107409061A/zh
Application granted granted Critical
Publication of CN107409061B publication Critical patent/CN107409061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation

Abstract

本发明的实施例公开了一种用于语音总结的方法,系统和计算机程序产品。计算机从视频会议接收音频和视频要素。计算机基于比较参与者的图像和在讲话和没在讲话的面部的模板图像来确定哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用于参与者的声音波形的简短记录来确定正在讲话的参与者的声纹,并将所述确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做的陈述的内容,确定关键点,并将关键点显示在视频会议中参与者的面部上方。

Description

用于语音总结的方法和系统
技术领域
本发明总体上涉及语音分析,尤其涉及确定在视频会议期间由讲话者所做的关键点。
背景技术
视频会议经常被用于商业或个人用途,作为有效和方便的通信方法,其避免了身体上旅行到一个地点以进行面对面的谈话的需要。因为单一的视频会议可以同时把数以百计的人从地球上的任何地方连接到实时的、面对面的谈话,视频会议正变得越来越受欢迎。然而,像在任何谈话中,视频会议可能被语言障碍、无法辨认的口音、快速讲话或者参加多人会议的与会者迟到而错过以前所讨论内容的偶然情况所阻碍。
发明内容
本发明各实施例公开了用于语音总结的方法、系统和计算机程序产品。计算机从视频会议接收音频和视频要素(components)。计算机基于比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹,并将确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做陈述的内容,确定关键点,并在视频会议中参与者的面部上方显示它们。
附图说明
图1示出了根据本发明实施例的语音总结系统。
图2是根据本发明实施例的说明用于确定和显示在视频会议电话中讲话者所做关键点的图1的语音总结程序的操作的流程图。
图3是根据本发明实施例的描述图1的语音总结系统的硬件组件的框图。
具体实施方式
现在将参考附图详细描述本发明各实施例。
图1示出了根据本发明实施例的语音总结系统100,在该示例实施例中,语音总结系统100包括计算装置110,视频摄影机114,麦克风112,计算装置120,视频摄影机124,麦克风122和网络108。
网络108可以是因特网,其表示世界范围的网络收集和支持连接到因特网的装置之间通信的网关。网络108可包括,比如,有线,无线或光纤连接。在其他实施例中,网络108可被实现为内联网,局域网,或广域网。通常,网络108可以是支持计算装置110和计算装置120之间通信的任何连接和协议的组合。
麦克风122可以是声电转换器,其将声音产生的气压变量转换为电信号。在示例实施例中,麦克风112与计算装置120集成。麦克风112将由计算装置110的用户所做的陈述转换成电信号,并将该电信号传送到计算装置120。
视频摄影机124可以是用于动作画面获取的摄影机。在示例实施例中,视频摄影机124与计算装置120集成,并且在视频会议期间视觉上记录计算装置120的用户。
计算装置120包括视频会议程序126和语音总结程序128。在示例实施例中,计算装置120可以是膝上型计算机,笔记本电脑,平板计算机,上网本计算机,个人计算机(PC),台式计算机,个人数字助理(PDA),智能手机,瘦客户机,或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中,虽然计算装置120被示为单个装置,计算装置120可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置120。
视频会议程序126是通过在计算装置间传送音频和视频信号的方式,能够提供允许用户到视频会议的能力的程序。在示例实施例中,视频会议程序126经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置110)。在其他实施例中,视频会议程序126可以经由有线连接传送音频和视频信号。
麦克风112可以是声电转换器,其将声音产生的气压变量转换为电信号。在示例性实施例中,麦克风112与计算装置110集成。麦克风112将由计算装置110的用户所作的陈述转换为电信号,并将所述电信号传送到计算装置110。
视频摄影机114可以是用于动作画面获取的摄影机。在示例实施例中,视频摄影机114与计算装置110集成,并且在视频会议期间视觉上记录计算装置110的用户。
计算装置110包括视频会议程序116和语音总结程序118。在示例性实施例中,计算装置110可以是膝上型计算机,笔记本电脑,平板计算机,上网本计算机,个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能手机、瘦客户机,或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中,虽然计算装置110被示为单个装置,计算装置110可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置110。
视频会议程序116是通过在计算装置间传送音频和视频信号的方式,能够提供允许用户到视频会议的能力的程序。在示例实施例中,视频会议程序116经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置120)。在其他实施例中,视频会议程序116可以经由有线连接传送音频和视频信号。
在示例实施例中,语音总结程序118与视频会议程序116部分集成并接收传送到视频会议程序116的音频和视频信号。然而在其他实施例中,语音总结程序118可以与视频会议程序116全部集成或不集成。语音总结程序118能够识别在音频信号中讲话者的声纹或独特的声音波形参数,比如,通过利用隐马尔可夫模型(HMM)来分析包括分贝范围,频谱,共振峰,基音和反射系数的通常的语音声学特征。语音总结程序116又能够通过分析使用基于模板的面部识别方法的参与者的面部表情识别视频信号中的讲话者。而且,语音总结程序116能够将音频信号中讲话者的声纹与视频信号中讲话者的面部匹配并将讲话者的声纹存储在用户数据库中。在示例实施例中,在计算装置110上本地存储声纹数据库,然而在另外的实施例中,可以远程存储并经由网络108访问声纹数据库。通过利用隐马尔可夫模型,语音总结程序116也能够确定和转录讲话者所做陈述的内容。并且,语音总结程序116能够确定讲话者所说的关键点并在视频信号中讲话者的上方显示列出最近所说的关键点的泡状显示层。在图2的讨论中更详细地描述语音总结程序的操作。
图2是描述根据本发明实施例的,在确定和显示在视频会议中讲话者所说的关键点时,语音总结程序118的操作的流程图。在示例实施例中语音总结程序118与视频会议程序116集成,语音总结程序118通过与视频会议程序116集成的方式检测视频会议的音频和视频信号(步骤202)。在另外的实施例中,语音总结程序118没有与视频会议程序116集成,语音总结程序118通过用户输入或与操作系统通信的方式检测视频会议的音频和视频信号。例如,如果参与者Alpha为了与计算装置120上的参与者Beta进行视频会议,正在利用计算装置110上的视频会议程序116,然后计算装置110的语音总结程序118从视频会议程序116检测来自计算装置120上的参与者Beta的音频和视频输入。
在语音总结程序118与视频会议程序116集成的示例实施例中,语音总结程序118从经由视频会议程序116接收的音频数据识别讲话者的声纹,然而在语音总结程序118不与视频会议程序116集成的其他实施例中,语音总结程序118从经由网络108接收的音频信号数据识别讲话者的声纹(步骤204)。在示例实施例中,语音总结程序118利用隐马尔可夫模型(HMM)识别讲话者的声纹。然而,在其他实施例中,语音总结程序116可以利用其他语音生物识别技术识别声纹,比如频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树和队列模型。语音总结程序118利用隐马尔可夫模型(HMM)来分析诸如分贝范围,频谱,共振峰,基音和反射系数的通常的语音声学特征。当视频会议中的参与者做出陈述,语音总结程序118分析声音波形的简短记录以提取模型或声纹,定义前面提到的语音声学特征的参数。简短记录可对应于持续大约10毫秒的记录,然而其他的长度也可使用。语音总结程序118然后试图将该声纹与计算装置110上存储的声纹数据库中的已有声纹匹配。在示例实施例中,视频会议的参与者在视频会议的开始陈述他们的名字以便语音总结程序118在声纹数据库中识别和存储他们的声纹。陈述他们的名字的参与者为语音总结程序118提供了识别和存储参与者的声纹的机会,也为语音总结程序118提供了辨认和识别名字或识别符以将其与该声纹关联的的机会(在步骤210进一步详细讨论了识别口头讲的名字的语音识别技术)。例如,如果参与者Charlie加入在计算装置120上的参与者Beta,参与者Beta处于上文描述的与参与者Alpha的电话会议中,在计算装置110上的语音总结程序118必须在两个音频信号(Beta和Charlie)之间区分。语音总结程序118通过分析跨越短时间段的Beta和Charlie两者的声音波形并提取特征参数来确定Beta和Charlie的两个不同声纹。语音总结程序118然后试图将Beta和Charlie的声纹与声纹数据库中的已有声纹匹配。如果参与者Beta和Charlie是新的参与者,语言总结程序可能在声纹数据库中找不到匹配,如果名字Beta和Charlie在会议开始被陈述过,参与者Beta和Charlie的声纹可在名字Beta和Charlie的下面被加入到声纹数据库。如果参与者Beta和Charlie在声纹数据库中具有已存在的声纹,参与者Beta和Charlie所做的陈述可与对应于参与者Beta和Charlie的已存在的声纹信息相关联。
语音总结程序118从经由网络108接收的视频信号识别讲话者的面部(步骤206)。在示例实施例中,语音总结程序118利用模板匹配的方法从视频信号识别讲话者,然而在其他实施例中,语音总结程序118可以利用基于几何的方法,零碎的/整体的方法,或基于外观/基于模型的方法。模板匹配是用于找到匹配模板图像的小部分图像的数字图像处理中的技术。使用基于模板的方法,语音总结程序118将视频信号中讲话者的面部与一组储存的模板比较。所述模板包括预装到语音总结程序118的一些在讲话以及一些不在讲话的随机人脸的照片。当声纹被确定时,语音总结程序118通过首先取得视频信号中的参与者的面部图像利用模板匹配,然后语音总结程序118通过从每个图像采集大量像素,并确定像素是否在阴影,亮度,颜色,和其他因素方面匹配,将所述图像与所储存的模板比较来确定视频信号图像中的讲话者的面部是否与模板中正讲话的面部或没在讲话的面部相似。还是上面和用户Alpha,Beta,和Charlie正进行电话会议的例子,计算装置110上的语音总结程序118将存储的模板与视频信号中的用户Beta和Charlie的面部比较以确定在一特定时刻谁在讲话。如果Charlie在讲话,则在视频信号中他的面部将与在讲话的人的面部的模板相似,并且语音总结程序118确定参与者Charlie在讲话。
语音总结程序118将步骤204中所识别的参与者的声纹与步骤206中所识别的讲话者相关联(步骤208)。当语音总结程序118识别讲话者的声纹时,语音总结程序118确定视频信号中的哪个参与者的面部表明所述参与者正在讲话。语音总结程序118然后将该声纹与在视频信号中所识别的面部相关联,以及如果声纹与名字(或其他识别符)相关联,还将所述名字与面部相关联。继续上面的例子,用户Alpha在计算装置110上与用户Beta和Charlie(在计算装置120上参加)正进行视频会议,当声纹被识别时,如果语音总结程序118基于Charlie的面部表情的模板匹配确定他在讲话,语音总结程序118将所识别的声纹与参与者Charlie的面部相关联。此外,如果Charlie在会议一开始自我介绍为“Charlie”或否则他的声纹与名字“Charlie”相关联(在步骤204描述),语音总结程序118不仅将Charlie的面部与声纹相关联,还将面部与名字“Charlie”相关联。
语音总结程序118确定讲话的内容并转录讲话者所做的讲话的内容(步骤210)。在示例实施例中,语音总结程序118利用隐马尔可夫模型识别讲话者所做陈述的讲话,然而,在其它实施例中语音总结程序106可以利用诸如音标转录,正字法转录,动态时间规整,神经网络,或深度神经网络的方法,转录讲话者所做陈述的内容。隐马尔可夫模型是输出符号或数量的序列的统计模型。因为语音信号可以被看作是分段平稳信号,以及在这些短的时间长度,语音可以被近似为平稳的过程,隐马尔可夫模型被用于语音识别。隐马尔可夫模型大约每十毫秒输出n维实向量的序列,每个向量代表一个音素(与其他音素结合形成词的语言语音体系的基本单元)。向量由称为倒谱系数的最重要的系数组成,所述系数被从频谱去相关,所述频谱通过将余弦变换应用到被分析语音的的短时窗的傅立叶变换而得到。所得到的统计分布是高斯对角协方差的混合,其给出对于每个观测到的向量的似然,或每个音素的似然。然后每个音素的输出分布或似然被用来将单个隐马尔可夫模型连接成单词和句子。
语音总结程序118在计算装置110上与视频会议相关联的文件中本地存储所转录的整个会议的内容。在前述提及的例子中,如果参与者Charlie陈述“I think we shouldsell”,语音总结程序118可将陈述分解成分段平稳信号并创建组成陈述的单词的音素的隐马尔可夫模型。语音总结程序118可进一步连接结果输出分布来确定Charlie所陈述的单词和句子。进一步地,如果名字Charlie与Charlie的声纹相关联,语音总结程序118在与会议关联的文件中转录“Charlie:I think we should sell”。然而,如果名字“Charlie”没有与Charlie的声纹关联,语音总结程序118在与会议关联的文件中转录“无法识别的参与者1:Ithink we should sell”。
语音总结程序118确定在步骤210中所转录的陈述中所做的关键点(步骤212)。在示例实施例中,语音总结程序118利用几种方法确定关键点,包括:监测会议参与者或主持人指定的预先选择的关键词,监测滤出常见的废话后会议期间被高频使用的词(即过滤出比如“and”和“the”这样的词),并监测语调,音高,讲话者的讲话速度。语音总结程序118通过监测来自特定的讲话者的声纹在分贝范围,共振峰,和其他前述提及的语音声学特征方面的变化,检测讲话者语调和音高的变化。此外,语音总结程序118通过监测讲话者每秒平均词汇的变化,检测讲话者语速的变化。还是以前面描述的Alpha,Beta和Charlie之间的视频会议为例,语音总结程序118可转录Charlie所做的陈述并确定Charlie已经说了预选的关键词“investment”,“sale”和“profit”。另外,语音总结程序118可确定Charlie重复说单词“stock”三次,以及Charlie放慢讲话并改变声音的语调以强调单词“market crash”。语音总结程序118可确定Charlie做出了对于他关于投资的陈述的关键点:a sale,a profit,a stock和market crash。
语音总结程序118产生并显示一个显示层,该显示层列出在步骤212中被确定为关键点的讲话者的陈述(步骤214)。在示例实施例中,在显示在视频信号中讲话者上方的半透明泡状显示层中列出最近的关键点,因此视频会议的参与者能够看到它。此外,用户可以用他们的鼠标停留在所述泡状显示层上方来扩展最近的关键点的列表,以展示在视频会议的整个期间该特定的讲话者所说的所有关键点。还是前面的例子,Charlie做了陈述并且语音总结程序118确定包含单词“investment”,“sale”,“profit”,“stock”和“market crash”的句子是关键点。由于包含单词“market crash”,“stock”和“profit”的陈述是由Charlie所说的最近的关键点,包含这些关键点的陈述将被显示在视频信号中Charlie的面部的上方的半透明泡状显示层中,供其他参与者读取。此外,如果参与者将鼠标在Charlie上方的半透明泡状显示层上停留,列表将扩展以展示包含单词“sale”和“investment”的陈述。
图3描述了根据本发明实施例的图1的语音总结系统100的计算装置110的组件的框图。应该理解图3仅提供了一种实现的示例,并不意味着对于在其中可实现各实施例的环境的任何限制。可作出对所描绘的环境的许多修改。
计算装置110可以包括一个或多个处理器302,一个或多个计算机可读RAMs 304,一个或多个计算机可读ROMs 306,一个或多个计算机可读存储介质308,设备驱动器312,读/写驱动器或接口314,网络适配器或接口316,全部通过通信结构318互连。通信结构318可以用被设计用于在处理器(例如微处理器,通信和网络处理器等),系统内存,外围设备和系统中的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统310以及一个或多个应用程序311(例如语音总结程序118),被存储在一个或多个计算机可读存储介质308上,用于经由各自的RAMs 304(通常包括高速缓冲存储器)的一个或多个,由一个或多个处理器302执行。在所示实施例中,每个计算机可读存储介质308可以是内部硬盘驱动器的磁盘存储装置,CD-ROM,DVD,记忆棒,磁带,磁盘,光盘,半导体存储设备比如RAM,ROM,EPROM,闪存或可存储计算机程序和数字信息的任何其它计算机可读有形存储装置。
计算装置110还可以包括从一个或多个便携式计算机可读存储介质326读取和向其写入的R/W驱动器或接口314。计算装置110上的应用程序311可以被存储在便携式计算机可读存储介质326的一个或多个上,经由各自的R/W驱动器或接口314读取并加载到各自的计算机可读存储介质308中。
计算装置110还可以包括网络适配器或接口316,例如TCP/IP适配器卡或无线通信适配器(诸如使用OFDMA技术的4G无线通信适配器)。计算装置110上的应用程序311可以经由网络(例如,因特网,局域网或其他广域网或无线网络)和网络适配器或接口316从外部计算机或外部存储设备被下载到计算装置。从网络适配器或接口316,程序可以被加载到计算机可读存储介质308上。网络可以包括铜线,光纤,无线传输,路由器,防火墙,交换机,网关计算机和/或边缘服务器。
计算装置110还可以包括显示屏320,键盘或小键盘322以及计算机鼠标或触摸板324。设备驱动器312与用于成像的显示屏320,键盘或小键盘322,计算机鼠标或触摸板324和/或用于字母数字字符输入和用户选择的压力感测的显示屏320接口。设备驱动器312,R/W驱动器或接口314和网络适配器或接口316可以包括硬件和软件(存储在计算机可读存储介质308和/或ROM306上)。
在此处描述的程序基于在本发明的具体实施例中实现的应用来识别。然而,应当理解,在此处的任何特定程序命名仅仅是为了方便被使用,因此本发明不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。
基于前面所述,已经公开了计算机系统,方法和计算机程序产品。然而,可以在不脱离本发明的范围的情况下进行许多修改和替换。因此,通过示例而非限制的方式公开了本发明。
本发明的各种实施例可以是系统,方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以是能保留和存储用于由指令执行装置使用的指令的有形装置。计算机可读存储介质可以是例如但不限于电子存储设备,磁存储设备,光学存储设备,电磁存储设备,半导体存储设备或上述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下:便携式计算机磁盘,硬盘,随机存取存储器(RAM),只读存储器(ROM),可擦除可编程读取存储器(EPROM或闪存),静态随机存取存储器(SRAM),便携式光盘只读存储器(CD-ROM),数字通用盘(DVD),记忆棒,软盘,机械编码设备(比如穿孔卡或在凹槽中具有记录于其上的指令的凸起结构),以及上述的任何合适的组合。如这里所使用的,计算机可读存储介质不应被解释为暂时信号本身,例如无线电波或其它自由传播的电磁波,通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)或通过电线传输的电信号。
在此描述的计算机可读程序指令可以下载到来自计算机可读存储介质的各自的计算/处理设备,或经由网络,例如互联网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。在每个计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令并转发用于在各自的计算/处理装置内的计算机可读存储介质中存储的计算机可读程序指令。
用于执行本发明的操作的计算机可读程序指令可以是汇编器指令,指令集架构(ISA)指令,机器指令,依赖于机器的指令,微代码,固件指令,状态设置数据或者要么是源代码要么是目标代码,源代码和目标代码以一种或多种编程语言的任意组合编写,包括面向对象的编程语言,诸如Java,Smalltalk,C++等,以及常规程序性编程语言,诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上,部分在用户的计算机上,作为独立的软件包,部分在用户的计算机上以及部分在远程计算机上,或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在一些实施例中,包括例如可编程逻辑电路,现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息执行计算机可读程序指令来个性化电子电路,以便执行本发明的各方面。
在此参照根据本发明实施例的方法,装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中的方框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以提供给通用计算机,专用计算机或其他可编程数据处理装置的处理器,以生产出一种机器,使得所述指令在通过计算机或其它可编程数据处理装置的处理器执行时,创建用于实现流程图和/或框图或方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,计算机可读存储介质可以引导计算机,可编程数据处理设备和/或其他设备以特定方式工作,使得具有存储在其中的指令的计算机可读存储介质包括制造商品,其包括执行流程图和/或框图或方框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机,其他可编程数据处理设备或其他装置上,以使得在计算机,其他可编程设备或其他装置上执行一系列可操作步骤来产生计算机实现的过程,以便在计算机,其他可编程设备或其他设备上执行的所述指令实现流程图和/或框图或方框中指定的功能/动作。
附图中的流程图和框图显示了根据本发明的各实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (17)

1.一种用于总结语音的方法,所述方法包括:
接收对应于视频会议的数据,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话;
通过利用所接收的音频要素确定所述第一参与者的声纹,其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像中的至少一个相关联;以及
基于所述确定的所述第一参与者的声纹确定所述第一参与者所讲内容内的一个或多个关键点;
与所述第一参与者相关联地显示一个可视的叠加显示层,其中所述叠加显示层列出所述一个或多个关键点中的一个或多个最近关键点;以及
响应于用户针对所述叠加显示层的输入,扩展叠加显示层,使得叠加显示层除了所述一个或多个最近关键点外还列出所述一个或多个关键点中的其它关键点,
其中上述方法的一个或多个步骤由一个或多个计算机执行。
2.权利要求1所述的方法,进一步包括一个或多个如下步骤:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上;
存储所述第一参与者所讲内容内的一个或多个关键点;
将所述第一参与者所讲内容内的一个或多个关键点与客户设备通信;以及
打印所述第一参与者所讲内容内的一个或多个关键点。
3.权利要求1所述的方法,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素。
4.权利要求3所述的方法,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
5.权利要求1所述的方法,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
6.权利要求5所述的方法,其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素,以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。
7.一种用于语音总结系统的计算机可读存储介质,包含在其中存储的程序指令,所述程序指令包括:
接收对应于视频会议的数据的程序指令,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话的程序指令;
通过利用所接收的音频要素确定所述第一参与者的声纹的程序指令,其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令;
基于所述确定的所述第一参与者的声纹确定所述第一参与者所讲内容内的一个或多个关键点的程序指令;
与所述第一参与者相关联地显示一个可视的叠加显示层的程序指令,其中所述叠加显示层列出所述一个或多个关键点中的一个或多个最近关键点;以及
响应于用户针对所述叠加显示层的输入而扩展所述叠加显示层的程序指令,使得所述叠加显示层除了所述一个或多个最近关键点外还列出所述一个或多个关键点中的其它关键点。
8.权利要求7所述的计算机可读存储介质,进一步包括一个或多个如下程序指令:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上的程序指令;
存储所述第一参与者所讲内容内的一个或多个关键点的程序指令;
将所述第一参与者所讲内容内的一个或多个关键点与客户装置通信的程序指令;以及
打印所述第一参与者所讲内容内的一个或多个关键点的程序指令。
9.权利要求7所述的计算机可读存储介质,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素的程序指令。
10.权利要求9所述的计算机可读存储介质,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
11.权利要求7所述的计算机可读存储介质,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
12.权利要求11所述的计算机可读存储介质,其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素,以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。
13.一种用于语音总结系统的计算机系统,所述计算机系统包括:
一个或多个计算机处理器,一个或多个计算机可读存储介质和存储在一个或多个所述计算机可读存储介质上用于由所述一个或多个处理器的至少一个执行的程序指令,所述程序指令包括:
接收对应于视频会议的数据的程序指令,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话的程序指令;
通过利用所接收的音频要素确定所述第一参与者的声纹的程序指令,其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令;以及
基于所述确定的所述第一参与者的声纹确定所述第一参与者所讲内容内的一个或多个关键点的程序指令;
与所述第一参与者相关联地显示一个可视的叠加显示层的程序指令,其中所述叠加显示层列出所述一个或多个关键点中的一个或多个最近关键点;以及
响应于用户针对所述叠加显示层的输入而扩展所述叠加显示层的程序指令,使得所述叠加显示层除了所述一个或多个最近关键点外还列出所述一个或多个关键点中的其它关键点。
14.权利要求13所述的计算机系统,进一步包括一个或多个如下程序指令:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示装置上的程序指令;
存储所述第一参与者所讲内容内的一个或多个关键点的程序指令;
将所述第一参与者所讲内容内的一个或多个关键点与客户装置通信的程序指令;以及
打印所述第一参与者所讲内容内的一个或多个关键点的程序指令。
15.权利要求13所述的计算机系统,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素的程序指令。
16.权利要求15所述的计算机系统,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
17.权利要求13所述的计算机系统,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
CN201680016678.6A 2015-03-23 2016-02-03 用于语音总结的方法和系统 Active CN107409061B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/665,592 2015-03-23
US14/665,592 US9672829B2 (en) 2015-03-23 2015-03-23 Extracting and displaying key points of a video conference
PCT/CN2016/073357 WO2016150257A1 (en) 2015-03-23 2016-02-03 Speech summarization program

Publications (2)

Publication Number Publication Date
CN107409061A CN107409061A (zh) 2017-11-28
CN107409061B true CN107409061B (zh) 2020-12-08

Family

ID=56976777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680016678.6A Active CN107409061B (zh) 2015-03-23 2016-02-03 用于语音总结的方法和系统

Country Status (4)

Country Link
US (1) US9672829B2 (zh)
JP (1) JP6714607B2 (zh)
CN (1) CN107409061B (zh)
WO (1) WO2016150257A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366487B2 (en) * 2014-03-14 2019-07-30 Samsung Electronics Co., Ltd. Electronic apparatus for providing health status information, method of controlling the same, and computer-readable storage medium
US10614418B2 (en) * 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
KR102444165B1 (ko) * 2017-01-20 2022-09-16 삼성전자주식회사 적응적으로 회의를 제공하기 위한 장치 및 방법
US10978073B1 (en) 2017-07-09 2021-04-13 Otter.ai, Inc. Systems and methods for processing and presenting conversations
US11024316B1 (en) 2017-07-09 2021-06-01 Otter.ai, Inc. Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
JP2019101754A (ja) * 2017-12-01 2019-06-24 キヤノン株式会社 要約装置及びその制御方法、要約システム、プログラム
EP3729799B1 (en) 2017-12-20 2022-08-10 Huddle Room Technology S.r.l. Mobile terminal and hub apparatus for use in a video communication system
CN108346034B (zh) * 2018-02-02 2021-10-15 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
US10673913B2 (en) 2018-03-14 2020-06-02 8eo, Inc. Content management across a multi-party conference system by parsing a first and second user engagement stream and transmitting the parsed first and second user engagement stream to a conference engine and a data engine from a first and second receiver
WO2019187397A1 (ja) * 2018-03-29 2019-10-03 京セラドキュメントソリューションズ株式会社 情報処理装置
US10958458B2 (en) * 2018-04-03 2021-03-23 International Business Machines Corporation Cognitive meeting proxy
CN108511001B (zh) * 2018-04-09 2020-05-12 上海智臻智能网络科技股份有限公司 语音监控方法及装置、存储介质、终端
US10762906B2 (en) * 2018-05-01 2020-09-01 International Business Machines Corporation Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11183195B2 (en) * 2018-09-27 2021-11-23 Snackable Inc. Audio content processing systems and methods
US11423911B1 (en) 2018-10-17 2022-08-23 Otter.ai, Inc. Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches
US20200272693A1 (en) * 2019-02-21 2020-08-27 Microsoft Technology Licensing, Llc Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering
US20200273453A1 (en) * 2019-02-21 2020-08-27 Microsoft Technology Licensing, Llc Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering
CN111667837A (zh) * 2019-02-21 2020-09-15 奇酷互联网络科技(深圳)有限公司 会议记录的获取方法、智能终端及具有存储功能的装置
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11322148B2 (en) * 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
US11170784B2 (en) 2020-03-03 2021-11-09 Capital One Services, Llc Systems and methods for party authentication and information control in a video call with a server controlling the authentication and flow of information between parties whose identities are not revealed to each other
CN111739527B (zh) * 2020-06-01 2023-06-27 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
US11516347B2 (en) * 2020-06-30 2022-11-29 ROVl GUIDES, INC. Systems and methods to automatically join conference
CN112231498A (zh) * 2020-09-29 2021-01-15 北京字跳网络技术有限公司 互动信息处理方法、装置、设备及介质
US11252205B1 (en) * 2020-10-15 2022-02-15 Fuze, Inc. Real time information analysis for a teleconference
CN112270918A (zh) * 2020-10-22 2021-01-26 北京百度网讯科技有限公司 信息处理方法、装置、系统、电子设备及存储介质
CN113010698B (zh) * 2020-11-18 2023-03-10 北京字跳网络技术有限公司 多媒体的交互方法、信息交互方法、装置、设备及介质
CN112601045A (zh) * 2020-12-10 2021-04-02 广州虎牙科技有限公司 视频会议的发言控制方法、装置、设备及存储介质
US11676623B1 (en) 2021-02-26 2023-06-13 Otter.ai, Inc. Systems and methods for automatic joining as a virtual meeting participant for transcription
CN113948090B (zh) * 2021-12-17 2022-05-17 阿里巴巴达摩院(杭州)科技有限公司 语音检测方法、会话记录产品及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572356A (zh) * 2012-01-16 2012-07-11 华为技术有限公司 记录会议的方法和会议系统
CN103338348A (zh) * 2013-07-17 2013-10-02 天脉聚源(北京)传媒科技有限公司 一种网络音视频会议的实现方法、系统和服务器
CN103581549A (zh) * 2012-07-24 2014-02-12 卡西欧计算机株式会社 信息处理装置以及信息处理方法
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
US6377995B2 (en) 1998-02-19 2002-04-23 At&T Corp. Indexing multimedia communications
US6298129B1 (en) * 1998-03-11 2001-10-02 Mci Communications Corporation Teleconference recording and playback system and associated method
US7137126B1 (en) * 1998-10-02 2006-11-14 International Business Machines Corporation Conversational computing via conversational virtual machine
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6826159B1 (en) * 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US7598975B2 (en) * 2002-06-21 2009-10-06 Microsoft Corporation Automatic face extraction for use in recorded meetings timelines
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US7466334B1 (en) * 2002-09-17 2008-12-16 Commfore Corporation Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム
US6931113B2 (en) * 2002-11-08 2005-08-16 Verizon Services Corp. Facilitation of a conference call
US7756923B2 (en) * 2002-12-11 2010-07-13 Siemens Enterprise Communications, Inc. System and method for intelligent multimedia conference collaboration summarization
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
JP4458888B2 (ja) * 2004-03-22 2010-04-28 富士通株式会社 会議支援システム、議事録生成方法、およびコンピュータプログラム
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US20090307188A1 (en) * 2005-11-15 2009-12-10 Google Inc. Displaying Compact and Expanded Data Items
US8120638B2 (en) 2006-01-24 2012-02-21 Lifesize Communications, Inc. Speech to text conversion in a videoconference
US8909740B1 (en) * 2006-03-28 2014-12-09 Amazon Technologies, Inc. Video session content selected by multiple users
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US7787697B2 (en) * 2006-06-09 2010-08-31 Sony Ericsson Mobile Communications Ab Identification of an object in media and of related media objects
US7920158B1 (en) 2006-07-21 2011-04-05 Avaya Inc. Individual participant identification in shared video resources
US20080077952A1 (en) 2006-09-25 2008-03-27 St Jean Randy Dynamic Association of Advertisements and Digital Video Content, and Overlay of Advertisements on Content
US7847815B2 (en) * 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
US20080276159A1 (en) * 2007-05-01 2008-11-06 International Business Machines Corporation Creating Annotated Recordings and Transcripts of Presentations Using a Mobile Device
CN101068271A (zh) 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成系统、通信终端、媒体服务器及方法
US9195754B2 (en) * 2008-06-13 2015-11-24 International Business Machines Corporation Expansion of search result information
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
JP2011119943A (ja) * 2009-12-02 2011-06-16 Canon Inc 情報処理装置およびその制御方法
US8797380B2 (en) 2010-04-30 2014-08-05 Microsoft Corporation Accelerated instant replay for co-present and distributed meetings
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US8630854B2 (en) * 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
US20120326993A1 (en) 2011-01-26 2012-12-27 Weisman Jordan K Method and apparatus for providing context sensitive interactive overlays for video
US8698872B2 (en) * 2011-03-02 2014-04-15 At&T Intellectual Property I, Lp System and method for notification of events of interest during a video conference
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US8185387B1 (en) * 2011-11-14 2012-05-22 Google Inc. Automatic gain control
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
CN102572372B (zh) 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
US20130311595A1 (en) 2012-05-21 2013-11-21 Google Inc. Real-time contextual overlays for live streams
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9262175B2 (en) * 2012-12-11 2016-02-16 Nuance Communications, Inc. Systems and methods for storing record of virtual agent interaction
JP2014165565A (ja) * 2013-02-22 2014-09-08 Hitachi Ltd テレビ会議装置およびシステムおよび方法
US9282284B2 (en) * 2013-05-20 2016-03-08 Cisco Technology, Inc. Method and system for facial recognition for a videoconference
KR20140144104A (ko) * 2013-06-10 2014-12-18 삼성전자주식회사 전자기기 및 이의 서비스 제공 방법
KR20150020740A (ko) * 2013-08-14 2015-02-27 삼성전자주식회사 메시지 기반의 대화 기능 실행 방법 및 이를 지원하는 전자장치
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
CN104427292A (zh) 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572356A (zh) * 2012-01-16 2012-07-11 华为技术有限公司 记录会议的方法和会议系统
CN103581549A (zh) * 2012-07-24 2014-02-12 卡西欧计算机株式会社 信息处理装置以及信息处理方法
CN103338348A (zh) * 2013-07-17 2013-10-02 天脉聚源(北京)传媒科技有限公司 一种网络音视频会议的实现方法、系统和服务器
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"3D tracking in unknown environments using on-line keypoint learning for mobile augmented reality";Gerhard Schall等;《2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops》;20080715;全文 *

Also Published As

Publication number Publication date
CN107409061A (zh) 2017-11-28
JP6714607B2 (ja) 2020-06-24
US20160284354A1 (en) 2016-09-29
JP2018513991A (ja) 2018-05-31
US9672829B2 (en) 2017-06-06
WO2016150257A1 (en) 2016-09-29

Similar Documents

Publication Publication Date Title
CN107409061B (zh) 用于语音总结的方法和系统
WO2021143326A1 (zh) 语音识别方法、装置、设备和存储介质
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
US20210209315A1 (en) Direct Speech-to-Speech Translation via Machine Learning
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
CN109313892B (zh) 稳健的语言识别方法和系统
CN111226274A (zh) 自动阻止音频流中包含的敏感数据
US10581625B1 (en) Automatically altering the audio of an object during video conferences
US11341986B2 (en) Emotion detection in audio interactions
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN109697978B (zh) 用于生成模型的方法和装置
US20220392485A1 (en) System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input
Trabelsi et al. Evaluation of the efficiency of state-of-the-art Speech Recognition engines
WO2021152566A1 (en) System and method for shielding speaker voice print in audio signals
US20230130777A1 (en) Method and system for generating voice in an ongoing call session based on artificial intelligent techniques
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN114067793A (zh) 音频处理方法和装置、电子设备及可读存储介质
JP4864783B2 (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
RU2790946C1 (ru) Способ и система анализа голосовых вызовов на предмет выявления и предотвращения социальной инженерии
RU2802533C1 (ru) Способ и система анализа голосовых вызовов на предмет выявления и предотвращения социальной инженерии с помощью активации голосового бота
CN118051582A (zh) 基于电话语音分析的潜客识别方法、装置、设备及介质
Kruthika et al. Forensic Voice Comparison Approaches for Low‐Resource Languages
WO2022250565A1 (ru) Способ и система для анализа голосовых вызовов
Bhandari INTERACTIVE VOICE RESPONSE SYSTEM WITH SPEECH RECOGNITION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant