CN107409061A - 语音总结程序 - Google Patents
语音总结程序 Download PDFInfo
- Publication number
- CN107409061A CN107409061A CN201680016678.6A CN201680016678A CN107409061A CN 107409061 A CN107409061 A CN 107409061A CN 201680016678 A CN201680016678 A CN 201680016678A CN 107409061 A CN107409061 A CN 107409061A
- Authority
- CN
- China
- Prior art keywords
- participant
- vocal print
- computer
- programmed instruction
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 7
- 241000208340 Araliaceae Species 0.000 claims description 5
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 5
- 235000008434 ginseng Nutrition 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 235000015170 shellfish Nutrition 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 abstract description 7
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 41
- 238000003860 storage Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1827—Network arrangements for conference optimisation or adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
Abstract
本发明的实施例公开了一种用于语音总结的方法,系统和计算机程序产品。计算机从视频会议接收音频和视频要素。计算机基于比较参与者的图像和在讲话和没在讲话的面部的模板图像来确定哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用于参与者的声音波形的简短记录来确定正在讲话的参与者的声纹,并将所述确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做的陈述的内容,确定关键点,并将关键点显示在视频会议中参与者的面部上方。
Description
技术领域
本发明总体上涉及语音分析,尤其涉及确定在视频会议期间由讲话者所做的关键点。
背景技术
视频会议经常被用于商业或个人用途,作为有效和方便的通信方法,其避免了身体上旅行到一个地点以进行面对面的谈话的需要。因为单一的视频会议可以同时把数以百计的人从地球上的任何地方连接到实时的、面对面的谈话,视频会议正变得越来越受欢迎。然而,像在任何谈话中,视频会议可能被语言障碍、无法辨认的口音、快速讲话或者参加多人会议的与会者迟到而错过以前所讨论内容的偶然情况所阻碍。
发明内容
本发明各实施例公开了用于语音总结的方法、系统和计算机程序产品。计算机从视频会议接收音频和视频要素(components)。计算机基于比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹,并将确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做陈述的内容,确定关键点,并在视频会议中参与者的面部上方显示它们。
附图说明
图1示出了根据本发明实施例的语音总结系统。
图2是根据本发明实施例的说明用于确定和显示在视频会议电话中讲话者所做关键点的图1的语音总结程序的操作的流程图。
图3是根据本发明实施例的描述图1的语音总结系统的硬件组件的框图。
具体实施方式
现在将参考附图详细描述本发明各实施例。
图1示出了根据本发明实施例的语音总结系统100,在该示例实施例中,语音总结系统100包括计算装置110,视频摄影机114,麦克风112,计算装置120,视频摄影机124,麦克风122和网络108。
网络108可以是因特网,其表示世界范围的网络收集和支持连接到因特网的装置之间通信的网关。网络108可包括,比如,有线,无线或光纤连接。在其他实施例中,网络108可被实现为内联网,局域网,或广域网。通常,网络108可以是支持计算装置110和计算装置120之间通信的任何连接和协议的组合。
麦克风122可以是声电转换器,其将声音产生的气压变量转换为电信号。在示例实施例中,麦克风112与计算装置120集成。麦克风112将由计算装置110的用户所做的陈述转换成电信号,并将该电信号传送到计算装置120。
视频摄影机124可以是用于动作画面获取的摄影机。在示例实施例中,视频摄影机124与计算装置120集成,并且在视频会议期间视觉上记录计算装置120的用户。
计算装置120包括视频会议程序126和语音总结程序128。在示例实施例中,计算装置120可以是膝上型计算机,笔记本电脑,平板计算机,上网本计算机,个人计算机(PC),台式计算机,个人数字助理(PDA),智能手机,瘦客户机,或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中,虽然计算装置120被示为单个装置,计算装置120可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置120。
视频会议程序126是通过在计算装置间传送音频和视频信号的方式,能够提供允许用户到视频会议的能力的程序。在示例实施例中,视频会议程序126经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置110)。在其他实施例中,视频会议程序126可以经由有线连接传送音频和视频信号。
麦克风112可以是声电转换器,其将声音产生的气压变量转换为电信号。在示例性实施例中,麦克风112与计算装置110集成。麦克风112将由计算装置110的用户所作的陈述转换为电信号,并将所述电信号传送到计算装置110。
视频摄影机114可以是用于动作画面获取的摄影机。在示例实施例中,视频摄影机114与计算装置110集成,并且在视频会议期间视觉上记录计算装置110的用户。
计算装置110包括视频会议程序116和语音总结程序118。在示例性实施例中,计算装置110可以是膝上型计算机,笔记本电脑,平板计算机,上网本计算机,个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能手机、瘦客户机,或能从其他计算装置接收和向其发送数据的任何其他电子装置或计算系统。在其他实施例中,虽然计算装置110被示为单个装置,计算装置110可以由一起工作或分别地工作的计算装置的集群或多个计算装置组成。参考图3更详细地描述了计算装置110。
视频会议程序116是通过在计算装置间传送音频和视频信号的方式,能够提供允许用户到视频会议的能力的程序。在示例实施例中,视频会议程序116经由网络(比如网络108)将音频和视频信号传送到其他计算装置(比如计算装置120)。在其他实施例中,视频会议程序116可以经由有线连接传送音频和视频信号。
在示例实施例中,语音总结程序118与视频会议程序116部分集成并接收传送到视频会议程序116的音频和视频信号。然而在其他实施例中,语音总结程序118可以与视频会议程序116全部集成或不集成。语音总结程序118能够识别在音频信号中讲话者的声纹或独特的声音波形参数,比如,通过利用隐马尔可夫模型(HMM)来分析包括分贝范围,频谱,共振峰,基音和反射系数的通常的语音声学特征。语音总结程序116又能够通过分析使用基于模板的面部识别方法的参与者的面部表情识别视频信号中的讲话者。而且,语音总结程序116能够将音频信号中讲话者的声纹与视频信号中讲话者的面部匹配并将讲话者的声纹存储在用户数据库中。在示例实施例中,在计算装置110上本地存储声纹数据库,然而在另外的实施例中,可以远程存储并经由网络108访问声纹数据库。通过利用隐马尔可夫模型,语音总结程序116也能够确定和转录讲话者所做陈述的内容。并且,语音总结程序116能够确定讲话者所说的关键点并在视频信号中讲话者的上方显示列出最近所说的关键点的泡状显示层。在图2的讨论中更详细地描述语音总结程序的操作。
图2是描述根据本发明实施例的,在确定和显示在视频会议中讲话者所说的关键点时,语音总结程序118的操作的流程图。在示例实施例中语音总结程序118与视频会议程序116集成,语音总结程序118通过与视频会议程序116集成的方式检测视频会议的音频和视频信号(步骤202)。在另外的实施例中,语音总结程序118没有与视频会议程序116集成,语音总结程序118通过用户输入或与操作系统通信的方式检测视频会议的音频和视频信号。例如,如果参与者Alpha为了与计算装置120上的参与者Beta进行视频会议,正在利用计算装置110上的视频会议程序116,然后计算装置110的语音总结程序118从视频会议程序116检测来自计算装置120上的参与者Beta的音频和视频输入。
在语音总结程序118与视频会议程序116集成的示例实施例中,语音总结程序118从经由视频会议程序116接收的音频数据识别讲话者的声纹,然而在语音总结程序118不与视频会议程序116集成的其他实施例中,语音总结程序118从经由网络108接收的音频信号数据识别讲话者的声纹(步骤204)。在示例实施例中,语音总结程序118利用隐马尔可夫模型(HMM)识别讲话者的声纹。然而,在其他实施例中,语音总结程序116可以利用其他语音生物识别技术识别声纹,比如频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树和队列模型。语音总结程序118利用隐马尔可夫模型(HMM)来分析诸如分贝范围,频谱,共振峰,基音和反射系数的通常的语音声学特征。当视频会议中的参与者做出陈述,语音总结程序118分析声音波形的简短记录以提取模型或声纹,定义前面提到的语音声学特征的参数。简短记录可对应于持续大约10毫秒的记录,然而其他的长度也可使用。语音总结程序118然后试图将该声纹与计算装置110上存储的声纹数据库中的已有声纹匹配。在示例实施例中,视频会议的参与者在视频会议的开始陈述他们的名字以便语音总结程序118在声纹数据库中识别和存储他们的声纹。陈述他们的名字的参与者为语音总结程序118提供了识别和存储参与者的声纹的机会,也为语音总结程序118提供了辨认和识别名字或识别符以将其与该声纹关联的的机会(在步骤210进一步详细讨论了识别口头讲的名字的语音识别技术)。例如,如果参与者Charlie加入在计算装置120上的参与者Beta,参与者Beta处于上文描述的与参与者Alpha的电话会议中,在计算装置110上的语音总结程序118必须在两个音频信号(Beta和Charlie)之间区分。语音总结程序118通过分析跨越短时间段的Beta和Charlie两者的声音波形并提取特征参数来确定Beta和Charlie的两个不同声纹。语音总结程序118然后试图将Beta和Charlie的声纹与声纹数据库中的已有声纹匹配。如果参与者Beta和Charlie是新的参与者,语言总结程序可能在声纹数据库中找不到匹配,如果名字Beta和Charlie在会议开始被陈述过,参与者Beta和Charlie的声纹可在名字Beta和Charlie的下面被加入到声纹数据库。如果参与者Beta和Charlie在声纹数据库中具有已存在的声纹,参与者Beta和Charlie所做的陈述可与对应于参与者Beta和Charlie的已存在的声纹信息相关联。
语音总结程序118从经由网络108接收的视频信号识别讲话者的面部(步骤206)。在示例实施例中,语音总结程序118利用模板匹配的方法从视频信号识别讲话者,然而在其他实施例中,语音总结程序118可以利用基于几何的方法,零碎的/整体的方法,或基于外观/基于模型的方法。模板匹配是用于找到匹配模板图像的小部分图像的数字图像处理中的技术。使用基于模板的方法,语音总结程序118将视频信号中讲话者的面部与一组储存的模板比较。所述模板包括预装到语音总结程序118的一些在讲话以及一些不在讲话的随机人脸的照片。当声纹被确定时,语音总结程序118通过首先取得视频信号中的参与者的面部图像利用模板匹配,然后语音总结程序118通过从每个图像采集大量像素,并确定像素是否在阴影,亮度,颜色,和其他因素方面匹配,将所述图像与所储存的模板比较来确定视频信号图像中的讲话者的面部是否与模板中正讲话的面部或没在讲话的面部相似。还是上面和用户Alpha,Beta,和Charlie正进行电话会议的例子,计算装置110上的语音总结程序118将存储的模板与视频信号中的用户Beta和Charlie的面部比较以确定在一特定时刻谁在讲话。如果Charlie在讲话,则在视频信号中他的面部将与在讲话的人的面部的模板相似,并且语音总结程序118确定参与者Charlie在讲话。
语音总结程序118将步骤204中所识别的参与者的声纹与步骤206中所识别的讲话者相关联(步骤208)。当语音总结程序118识别讲话者的声纹时,语音总结程序118确定视频信号中的哪个参与者的面部表明所述参与者正在讲话。语音总结程序118然后将该声纹与在视频信号中所识别的面部相关联,以及如果声纹与名字(或其他识别符)相关联,还将所述名字与面部相关联。继续上面的例子,用户Alpha在计算装置110上与用户Beta和Charlie(在计算装置120上参加)正进行视频会议,当声纹被识别时,如果语音总结程序118基于Charlie的面部表情的模板匹配确定他在讲话,语音总结程序118将所识别的声纹与参与者Charlie的面部相关联。此外,如果Charlie在会议一开始自我介绍为“Charlie”或否则他的声纹与名字“Charlie”相关联(在步骤204描述),语音总结程序118不仅将Charlie的面部与声纹相关联,还将面部与名字“Charlie”相关联。
语音总结程序118确定讲话的内容并转录讲话者所做的讲话的内容(步骤210)。在示例实施例中,语音总结程序118利用隐马尔可夫模型识别讲话者所做陈述的讲话,然而,在其它实施例中语音总结程序106可以利用诸如音标转录,正字法转录,动态时间规整,神经网络,或深度神经网络的方法,转录讲话者所做陈述的内容。隐马尔可夫模型是输出符号或数量的序列的统计模型。因为语音信号可以被看作是分段平稳信号,以及在这些短的时间长度,语音可以被近似为平稳的过程,隐马尔可夫模型被用于语音识别。隐马尔可夫模型大约每十毫秒输出n维实向量的序列,每个向量代表一个音素(与其他音素结合形成词的语言语音体系的基本单元)。向量由称为倒谱系数的最重要的系数组成,所述系数被从频谱去相关,所述频谱通过将余弦变换应用到被分析语音的的短时窗的傅立叶变换而得到。所得到的统计分布是高斯对角协方差的混合,其给出对于每个观测到的向量的似然,或每个音素的似然。然后每个音素的输出分布或似然被用来将单个隐马尔可夫模型连接成单词和句子。
语音总结程序118在计算装置110上与视频会议相关联的文件中本地存储所转录的整个会议的内容。在前述提及的例子中,如果参与者Charlie陈述“I think we shouldsell”,语音总结程序118可将陈述分解成分段平稳信号并创建组成陈述的单词的音素的隐马尔可夫模型。语音总结程序118可进一步连接结果输出分布来确定Charlie所陈述的单词和句子。进一步地,如果名字Charlie与Charlie的声纹相关联,语音总结程序118在与会议关联的文件中转录“Charlie:I think we should sell”。然而,如果名字“Charlie”没有与Charlie的声纹关联,语音总结程序118在与会议关联的文件中转录“无法识别的参与者1:Ithink we should sell”。
语音总结程序118确定在步骤210中所转录的陈述中所做的关键点(步骤212)。在示例实施例中,语音总结程序118利用几种方法确定关键点,包括:监测会议参与者或主持人指定的预先选择的关键词,监测滤出常见的废话后会议期间被高频使用的词(即过滤出比如“and”和“the”这样的词),并监测语调,音高,讲话者的讲话速度。语音总结程序118通过监测来自特定的讲话者的声纹在分贝范围,共振峰,和其他前述提及的语音声学特征方面的变化,检测讲话者语调和音高的变化。此外,语音总结程序118通过监测讲话者每秒平均词汇的变化,检测讲话者语速的变化。还是以前面描述的Alpha,Beta和Charlie之间的视频会议为例,语音总结程序118可转录Charlie所做的陈述并确定Charlie已经说了预选的关键词“investment”,“sale”和“profit”。另外,语音总结程序118可确定Charlie重复说单词“stock”三次,以及Charlie放慢讲话并改变声音的语调以强调单词“market crash”。语音总结程序118可确定Charlie做出了对于他关于投资的陈述的关键点:a sale,a profit,a stock和market crash。
语音总结程序118产生并显示一个显示层,该显示层列出在步骤212中被确定为关键点的讲话者的陈述(步骤214)。在示例实施例中,在显示在视频信号中讲话者上方的半透明泡状显示层中列出最近的关键点,因此视频会议的参与者能够看到它。此外,用户可以用他们的鼠标停留在所述泡状显示层上方来扩展最近的关键点的列表,以展示在视频会议的整个期间该特定的讲话者所说的所有关键点。还是前面的例子,Charlie做了陈述并且语音总结程序118确定包含单词“investment”,“sale”,“profit”,“stock”和“market crash”的句子是关键点。当包含单词“market crash”,“stock”and“profit”的陈述是由Charlie所说的最近的关键点,包含这些关键点的陈述将被显示在视频信号中Charlie的面部的上方的半透明泡状显示层中,供其他参与者读取。此外,如果参与者将鼠标在Charlie上方的半透明泡状显示层上停留,列表将扩展以展示包含单词“sale”和“investment”的陈述。
图3描述了根据本发明实施例的图1的语音总结系统100的计算装置110的组件的框图。应该理解图3仅提供了一种实现的示例,并不意味着对于在其中可实现各实施例的环境的任何限制。可作出对所描绘的环境的许多修改。
计算装置110可以包括一个或多个处理器302,一个或多个计算机可读RAMs 304,一个或多个计算机可读ROMs 306,一个或多个计算机可读存储介质308,设备驱动器312,读/写驱动器或接口314,网络适配器或接口316,全部通过通信结构318互连。通信结构318可以用被设计用于在处理器(例如微处理器,通信和网络处理器等),系统内存,外围设备和系统中的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统310以及一个或多个应用程序311(例如语音总结程序118),被存储在一个或多个计算机可读存储介质308上,用于经由各自的RAMs 304(通常包括高速缓冲存储器)的一个或多个,由一个或多个处理器302执行。在所示实施例中,每个计算机可读存储介质308可以是内部硬盘驱动器的磁盘存储装置,CD-ROM,DVD,记忆棒,磁带,磁盘,光盘,半导体存储设备比如RAM,ROM,EPROM,闪存或可存储计算机程序和数字信息的任何其它计算机可读有形存储装置。
计算装置110还可以包括从一个或多个便携式计算机可读存储介质326读取和向其写入的R/W驱动器或接口314。计算装置110上的应用程序311可以被存储在便携式计算机可读存储介质326的一个或多个上,经由各自的R/W驱动器或接口314读取并加载到各自的计算机可读存储介质308中。
计算装置110还可以包括网络适配器或接口316,例如TCP/IP适配器卡或无线通信适配器(诸如使用OFDMA技术的4G无线通信适配器)。计算装置110上的应用程序311可以经由网络(例如,因特网,局域网或其他广域网或无线网络)和网络适配器或接口316从外部计算机或外部存储设备被下载到计算装置。从网络适配器或接口316,程序可以被加载到计算机可读存储介质308上。网络可以包括铜线,光纤,无线传输,路由器,防火墙,交换机,网关计算机和/或边缘服务器。
计算装置110还可以包括显示屏320,键盘或小键盘322以及计算机鼠标或触摸板324。设备驱动器312与用于成像的显示屏320,键盘或小键盘322,计算机鼠标或触摸板324和/或用于字母数字字符输入和用户选择的压力感测的显示屏320接口。设备驱动器312,R/W驱动器或接口314和网络适配器或接口316可以包括硬件和软件(存储在计算机可读存储介质308和/或ROM306上)。
在此处描述的程序基于在本发明的具体实施例中实现的应用来识别。然而,应当理解,在此处的任何特定程序命名仅仅是为了方便被使用,因此本发明不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。
基于前面所述,已经公开了计算机系统,方法和计算机程序产品。然而,可以在不脱离本发明的范围的情况下进行许多修改和替换。因此,通过示例而非限制的方式公开了本发明。
本发明的各种实施例可以是系统,方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以是能保留和存储用于由指令执行装置使用的指令的有形装置。计算机可读存储介质可以是例如但不限于电子存储设备,磁存储设备,光学存储设备,电磁存储设备,半导体存储设备或上述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下:便携式计算机磁盘,硬盘,随机存取存储器(RAM),只读存储器(ROM),可擦除可编程读取存储器(EPROM或闪存),静态随机存取存储器(SRAM),便携式光盘只读存储器(CD-ROM),数字通用盘(DVD),记忆棒,软盘,机械编码设备(比如穿孔卡或在凹槽中具有记录于其上的指令的凸起结构),以及上述的任何合适的组合。如这里所使用的,计算机可读存储介质不应被解释为暂时信号本身,例如无线电波或其它自由传播的电磁波,通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)或通过电线传输的电信号。
在此描述的计算机可读程序指令可以下载到来自计算机可读存储介质的各自的计算/处理设备,或经由网络,例如互联网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。在每个计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令并转发用于在各自的计算/处理装置内的计算机可读存储介质中存储的计算机可读程序指令。
用于执行本发明的操作的计算机可读程序指令可以是汇编器指令,指令集架构(ISA)指令,机器指令,依赖于机器的指令,微代码,固件指令,状态设置数据或者要么是源代码要么是目标代码,源代码和目标代码以一种或多种编程语言的任意组合编写,包括面向对象的编程语言,诸如Java,Smalltalk,C++等,以及常规程序性编程语言,诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上,部分在用户的计算机上,作为独立的软件包,部分在用户的计算机上以及部分在远程计算机上,或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在一些实施例中,包括例如可编程逻辑电路,现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息执行计算机可读程序指令来个性化电子电路,以便执行本发明的各方面。
在此参照根据本发明实施例的方法,装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中的方框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以提供给通用计算机,专用计算机或其他可编程数据处理装置的处理器,以生产出一种机器,使得所述指令在通过计算机或其它可编程数据处理装置的处理器执行时,创建用于实现流程图和/或框图或方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,计算机可读存储介质可以引导计算机,可编程数据处理设备和/或其他设备以特定方式工作,使得具有存储在其中的指令的计算机可读存储介质包括制造商品,其包括执行流程图和/或框图或方框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机,其他可编程数据处理设备或其他装置上,以使得在计算机,其他可编程设备或其他装置上执行一系列可操作步骤来产生计算机实现的过程,以便在计算机,其他可编程设备或其他设备上执行的所述指令实现流程图和/或框图或方框中指定的功能/动作。
附图中的流程图和框图显示了根据本发明的各实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (18)
1.一种用于总结语音的方法,所述方法包括:
接收对应于视频会议的数据,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话;
通过利用所接收的音频要素确定所述第一参与者的声纹,
其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像中的至少一个相关联;以及
基于所述确定的所述第一参与者的声纹在第一参与者所讲内容内确定一个或多个关键点,
其中上述方法的一个或多个步骤由一个或多个计算机执行。
2.权利要求1所述的方法,进一步包括一个或多个如下步骤:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上;
存储所述第一参与者所讲内容内的一个或多个关键点;
将所述第一参与者所讲内容内的一个或多个关键点与客户设备通信;以及
打印所述第一参与者所讲内容内的一个或多个关键点。
3.权利要求1所述的方法,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素。
4.权利要求3所述的方法,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
5.权利要求1所述的方法,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
6.权利要求5所述的方法,其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素,以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。
7.一种用于语音总结系统的计算机程序产品,所述计算机程序产品包括:
一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:
接收对应于视频会议的数据的程序指令,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话的程序指令;
通过利用所接收的音频要素确定所述第一参与者的声纹的程序指令,其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令;以及
基于所述确定的所述第一参与者的声纹在第一参与者所讲内容内确定一个或多个关键点的程序指令。
8.权利要求7所述的计算机程序产品,进一步包括一个或多个如下程序指令:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示设备上的程序指令;
存储所述第一参与者所讲内容内的一个或多个关键点的程序指令;
将所述第一参与者所讲内容内的一个或多个关键点与客户装置通信的程序指令;以及
打印所述第一参与者所讲内容内的一个或多个关键点的程序指令。
9.权利要求7所述的计算机程序产品,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素的程序指令。
10.权利要求9所述的计算机程序产品,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
11.权利要求7所述的计算机程序产品,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
12.权利要求11所述的计算机程序产品,其中所述模板匹配从所述第一参与者的一个或多个图像和一个或多个模板图像中采样一个或多个像素,以确定所述一个或多个像素是否在阴影、亮度和颜色方面匹配。
13.一种用于语音总结系统的计算机系统,所述计算机系统包括:
一个或多个计算机处理器,一个或多个计算机可读存储介质和存储在一个或多个所述计算机可读存储介质上用于由所述一个或多个处理器的至少一个执行的程序指令,所述程序指令包括:
接收对应于视频会议的数据的程序指令,包括音频要素和视频要素;
基于将视频要素中包括的第一参与者的一个或多个图像与一个或多个模板图像比较,确定第一参与者正在讲话的程序指令;
通过利用所接收的音频要素确定所述第一参与者的声纹的程序指令,其中所述第一参与者的声纹包括所述第一参与者声音波形的一个或多个独特参数的详细信息;
将所述确定的所述第一参与者的声纹与所述第一参与者的一个或多个图像的至少一个相关联的程序指令;以及
基于所述确定的所述第一参与者的声纹在第一参与者所讲内容内确定一个或多个关键点的程序指令。
14.权利要求13所述的计算机系统,进一步包括一个或多个如下程序指令:
将所述第一参与者所讲内容内的一个或多个关键点显示在电子显示装置上的程序指令;
存储所述第一参与者所讲内容内的一个或多个关键点的程序指令;
将所述第一参与者所讲内容内的一个或多个关键点与客户装置通信的程序指令;以及
打印所述第一参与者所讲内容内的一个或多个关键点的程序指令。
15.权利要求13所述的计算机系统,其中所述确定所述第一参与者的声纹的步骤进一步包括:
将隐马尔可夫模型,频率估计,高斯混合模型,模式匹配算法,神经网络,矩阵表示,矢量量化,决策树,和队列模型的一个或多个应用到所接收的音频要素的程序指令。
16.权利要求15所述的计算机系统,其中通过分析第一参与者的声音波形来确定一个或多个分贝范围,频谱,共振峰,基音,和反射系数的一个或多个参数,隐马尔可夫模型被用于确定所述第一参与者的声纹。
17.权利要求13所述的计算机系统,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
18.权利要求17所述的计算机系统,其中所述确定第一参与者正在讲话的步骤利用模板匹配,基于几何的匹配,零碎的匹配,以及基于模型的匹配中的一个或多个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/665,592 | 2015-03-23 | ||
US14/665,592 US9672829B2 (en) | 2015-03-23 | 2015-03-23 | Extracting and displaying key points of a video conference |
PCT/CN2016/073357 WO2016150257A1 (en) | 2015-03-23 | 2016-02-03 | Speech summarization program |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107409061A true CN107409061A (zh) | 2017-11-28 |
CN107409061B CN107409061B (zh) | 2020-12-08 |
Family
ID=56976777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680016678.6A Active CN107409061B (zh) | 2015-03-23 | 2016-02-03 | 用于语音总结的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9672829B2 (zh) |
JP (1) | JP6714607B2 (zh) |
CN (1) | CN107409061B (zh) |
WO (1) | WO2016150257A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
CN112074901A (zh) * | 2018-05-07 | 2020-12-11 | 微软技术许可有限责任公司 | 语音识别登入 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015137788A1 (en) * | 2014-03-14 | 2015-09-17 | Samsung Electronics Co., Ltd. | Electronic apparatus for providing health status information, method of controlling the same, and computer-readable storage medium |
US10614418B2 (en) * | 2016-02-02 | 2020-04-07 | Ricoh Company, Ltd. | Conference support system, conference support method, and recording medium |
KR102444165B1 (ko) * | 2017-01-20 | 2022-09-16 | 삼성전자주식회사 | 적응적으로 회의를 제공하기 위한 장치 및 방법 |
US10978073B1 (en) | 2017-07-09 | 2021-04-13 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
US11024316B1 (en) | 2017-07-09 | 2021-06-01 | Otter.ai, Inc. | Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements |
US11100943B1 (en) | 2017-07-09 | 2021-08-24 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
JP2019101754A (ja) * | 2017-12-01 | 2019-06-24 | キヤノン株式会社 | 要約装置及びその制御方法、要約システム、プログラム |
WO2019121901A1 (en) * | 2017-12-20 | 2019-06-27 | Huddle Room Technology S.R.L. | Mobile terminal and hub apparatus for use in a video communication system |
CN108417204A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息安全处理方法 |
US10673913B2 (en) | 2018-03-14 | 2020-06-02 | 8eo, Inc. | Content management across a multi-party conference system by parsing a first and second user engagement stream and transmitting the parsed first and second user engagement stream to a conference engine and a data engine from a first and second receiver |
US11282518B2 (en) * | 2018-03-29 | 2022-03-22 | Kyocera Document Solutions Inc. | Information processing apparatus that determines whether utterance of person is simple response or statement |
US10958458B2 (en) * | 2018-04-03 | 2021-03-23 | International Business Machines Corporation | Cognitive meeting proxy |
CN108511001B (zh) * | 2018-04-09 | 2020-05-12 | 上海智臻智能网络科技股份有限公司 | 语音监控方法及装置、存储介质、终端 |
US10762906B2 (en) * | 2018-05-01 | 2020-09-01 | International Business Machines Corporation | Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques |
US10867610B2 (en) | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
US11183195B2 (en) * | 2018-09-27 | 2021-11-23 | Snackable Inc. | Audio content processing systems and methods |
US11423911B1 (en) | 2018-10-17 | 2022-08-23 | Otter.ai, Inc. | Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches |
US20200273453A1 (en) * | 2019-02-21 | 2020-08-27 | Microsoft Technology Licensing, Llc | Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering |
CN111667837A (zh) * | 2019-02-21 | 2020-09-15 | 奇酷互联网络科技(深圳)有限公司 | 会议记录的获取方法、智能终端及具有存储功能的装置 |
US20200272693A1 (en) * | 2019-02-21 | 2020-08-27 | Microsoft Technology Licensing, Llc | Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering |
US11398239B1 (en) | 2019-03-31 | 2022-07-26 | Medallia, Inc. | ASR-enhanced speech compression |
US11227606B1 (en) * | 2019-03-31 | 2022-01-18 | Medallia, Inc. | Compact, verifiable record of an audio communication and method for making same |
US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
KR102230667B1 (ko) * | 2019-05-10 | 2021-03-22 | 네이버 주식회사 | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 |
CN110309799B (zh) * | 2019-07-05 | 2022-02-08 | 四川长虹电器股份有限公司 | 基于摄像头的说话判断方法 |
US11170784B2 (en) | 2020-03-03 | 2021-11-09 | Capital One Services, Llc | Systems and methods for party authentication and information control in a video call with a server controlling the authentication and flow of information between parties whose identities are not revealed to each other |
CN111739527B (zh) * | 2020-06-01 | 2023-06-27 | 广东小天才科技有限公司 | 语音识别方法及电子设备、计算机可读存储介质 |
US11516347B2 (en) * | 2020-06-30 | 2022-11-29 | ROVl GUIDES, INC. | Systems and methods to automatically join conference |
CN112231498A (zh) * | 2020-09-29 | 2021-01-15 | 北京字跳网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
US11252205B1 (en) * | 2020-10-15 | 2022-02-15 | Fuze, Inc. | Real time information analysis for a teleconference |
CN112270918A (zh) * | 2020-10-22 | 2021-01-26 | 北京百度网讯科技有限公司 | 信息处理方法、装置、系统、电子设备及存储介质 |
CN113010698B (zh) * | 2020-11-18 | 2023-03-10 | 北京字跳网络技术有限公司 | 多媒体的交互方法、信息交互方法、装置、设备及介质 |
CN112601045A (zh) * | 2020-12-10 | 2021-04-02 | 广州虎牙科技有限公司 | 视频会议的发言控制方法、装置、设备及存储介质 |
US11676623B1 (en) | 2021-02-26 | 2023-06-13 | Otter.ai, Inc. | Systems and methods for automatic joining as a virtual meeting participant for transcription |
CN113948090B (zh) * | 2021-12-17 | 2022-05-17 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音检测方法、会话记录产品及计算机存储介质 |
US12057956B2 (en) | 2023-01-05 | 2024-08-06 | Rovi Guides, Inc. | Systems and methods for decentralized generation of a summary of a vitrual meeting |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110069140A1 (en) * | 2002-11-08 | 2011-03-24 | Verizon Services Corp. | Facilitation of a conference call |
US20110288866A1 (en) * | 2010-05-24 | 2011-11-24 | Microsoft Corporation | Voice print identification |
US20120053936A1 (en) * | 2010-08-31 | 2012-03-01 | Fujitsu Limited | System and Method for Generating Videoconference Transcriptions |
CN102572372A (zh) * | 2011-12-28 | 2012-07-11 | 中兴通讯股份有限公司 | 会议纪要的提取方法和装置 |
CN102572356A (zh) * | 2012-01-16 | 2012-07-11 | 华为技术有限公司 | 记录会议的方法和会议系统 |
US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
CN103338348A (zh) * | 2013-07-17 | 2013-10-02 | 天脉聚源(北京)传媒科技有限公司 | 一种网络音视频会议的实现方法、系统和服务器 |
CN103581549A (zh) * | 2012-07-24 | 2014-02-12 | 卡西欧计算机株式会社 | 信息处理装置以及信息处理方法 |
US20140365922A1 (en) * | 2013-06-10 | 2014-12-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing services thereof |
CN104301557A (zh) * | 2014-09-30 | 2015-01-21 | 成都英博联宇科技有限公司 | 一种带即时显示功能的智能会议系统 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2285895A (en) * | 1994-01-19 | 1995-07-26 | Ibm | Audio conferencing system which generates a set of minutes |
US6377995B2 (en) | 1998-02-19 | 2002-04-23 | At&T Corp. | Indexing multimedia communications |
US6298129B1 (en) * | 1998-03-11 | 2001-10-02 | Mci Communications Corporation | Teleconference recording and playback system and associated method |
WO2000021232A2 (en) * | 1998-10-02 | 2000-04-13 | International Business Machines Corporation | Conversational browser and conversational systems |
US6754631B1 (en) * | 1998-11-04 | 2004-06-22 | Gateway, Inc. | Recording meeting minutes based upon speech recognition |
US6826159B1 (en) * | 2000-05-24 | 2004-11-30 | Cisco Technology, Inc. | System and method for providing speaker identification in a conference call |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US20030187632A1 (en) * | 2002-04-02 | 2003-10-02 | Menich Barry J. | Multimedia conferencing system |
US7598975B2 (en) * | 2002-06-21 | 2009-10-06 | Microsoft Corporation | Automatic face extraction for use in recorded meetings timelines |
US20040021765A1 (en) * | 2002-07-03 | 2004-02-05 | Francis Kubala | Speech recognition system for managing telemeetings |
US7466334B1 (en) * | 2002-09-17 | 2008-12-16 | Commfore Corporation | Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings |
JP2004118314A (ja) * | 2002-09-24 | 2004-04-15 | Advanced Telecommunication Research Institute International | 発話者検出システムおよびそれを用いたテレビ会議システム |
US7756923B2 (en) * | 2002-12-11 | 2010-07-13 | Siemens Enterprise Communications, Inc. | System and method for intelligent multimedia conference collaboration summarization |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
JP4458888B2 (ja) * | 2004-03-22 | 2010-04-28 | 富士通株式会社 | 会議支援システム、議事録生成方法、およびコンピュータプログラム |
US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
CA2630002C (en) * | 2005-11-15 | 2014-03-18 | Google Inc. | Displaying compact and expanded data items |
US8120638B2 (en) | 2006-01-24 | 2012-02-21 | Lifesize Communications, Inc. | Speech to text conversion in a videoconference |
US8909740B1 (en) * | 2006-03-28 | 2014-12-09 | Amazon Technologies, Inc. | Video session content selected by multiple users |
US20080059177A1 (en) * | 2006-05-19 | 2008-03-06 | Jamey Poirier | Enhancement of simultaneous multi-user real-time speech recognition system |
US7787697B2 (en) * | 2006-06-09 | 2010-08-31 | Sony Ericsson Mobile Communications Ab | Identification of an object in media and of related media objects |
US7920158B1 (en) | 2006-07-21 | 2011-04-05 | Avaya Inc. | Individual participant identification in shared video resources |
US20080077952A1 (en) | 2006-09-25 | 2008-03-27 | St Jean Randy | Dynamic Association of Advertisements and Digital Video Content, and Overlay of Advertisements on Content |
US7847815B2 (en) * | 2006-10-11 | 2010-12-07 | Cisco Technology, Inc. | Interaction based on facial recognition of conference participants |
US20080276159A1 (en) * | 2007-05-01 | 2008-11-06 | International Business Machines Corporation | Creating Annotated Recordings and Transcripts of Presentations Using a Mobile Device |
CN101068271A (zh) | 2007-06-26 | 2007-11-07 | 华为技术有限公司 | 电话纪要生成系统、通信终端、媒体服务器及方法 |
US9195754B2 (en) * | 2008-06-13 | 2015-11-24 | International Business Machines Corporation | Expansion of search result information |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
JP5257330B2 (ja) * | 2009-11-06 | 2013-08-07 | 株式会社リコー | 発言記録装置、発言記録方法、プログラム及び記録媒体 |
JP2011119943A (ja) * | 2009-12-02 | 2011-06-16 | Canon Inc | 情報処理装置およびその制御方法 |
US8797380B2 (en) | 2010-04-30 | 2014-08-05 | Microsoft Corporation | Accelerated instant replay for co-present and distributed meetings |
US20120326993A1 (en) | 2011-01-26 | 2012-12-27 | Weisman Jordan K | Method and apparatus for providing context sensitive interactive overlays for video |
US8698872B2 (en) * | 2011-03-02 | 2014-04-15 | At&T Intellectual Property I, Lp | System and method for notification of events of interest during a video conference |
US8849628B2 (en) * | 2011-04-15 | 2014-09-30 | Andrew Nelthropp Lauder | Software application for ranking language translations and methods of use thereof |
US8185387B1 (en) * | 2011-11-14 | 2012-05-22 | Google Inc. | Automatic gain control |
US20130311595A1 (en) | 2012-05-21 | 2013-11-21 | Google Inc. | Real-time contextual overlays for live streams |
US9966075B2 (en) * | 2012-09-18 | 2018-05-08 | Qualcomm Incorporated | Leveraging head mounted displays to enable person-to-person interactions |
US9262175B2 (en) * | 2012-12-11 | 2016-02-16 | Nuance Communications, Inc. | Systems and methods for storing record of virtual agent interaction |
JP2014165565A (ja) * | 2013-02-22 | 2014-09-08 | Hitachi Ltd | テレビ会議装置およびシステムおよび方法 |
US9282284B2 (en) * | 2013-05-20 | 2016-03-08 | Cisco Technology, Inc. | Method and system for facial recognition for a videoconference |
KR20150020740A (ko) * | 2013-08-14 | 2015-02-27 | 삼성전자주식회사 | 메시지 기반의 대화 기능 실행 방법 및 이를 지원하는 전자장치 |
US9165182B2 (en) * | 2013-08-19 | 2015-10-20 | Cisco Technology, Inc. | Method and apparatus for using face detection information to improve speaker segmentation |
CN104427292A (zh) | 2013-08-22 | 2015-03-18 | 中兴通讯股份有限公司 | 会议纪要的提取方法及装置 |
US20150287403A1 (en) * | 2014-04-07 | 2015-10-08 | Neta Holzer Zaslansky | Device, system, and method of automatically generating an animated content-item |
-
2015
- 2015-03-23 US US14/665,592 patent/US9672829B2/en active Active
-
2016
- 2016-02-03 JP JP2017547110A patent/JP6714607B2/ja active Active
- 2016-02-03 CN CN201680016678.6A patent/CN107409061B/zh active Active
- 2016-02-03 WO PCT/CN2016/073357 patent/WO2016150257A1/en active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110069140A1 (en) * | 2002-11-08 | 2011-03-24 | Verizon Services Corp. | Facilitation of a conference call |
US20110288866A1 (en) * | 2010-05-24 | 2011-11-24 | Microsoft Corporation | Voice print identification |
US20120053936A1 (en) * | 2010-08-31 | 2012-03-01 | Fujitsu Limited | System and Method for Generating Videoconference Transcriptions |
US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
CN102572372A (zh) * | 2011-12-28 | 2012-07-11 | 中兴通讯股份有限公司 | 会议纪要的提取方法和装置 |
CN102572356A (zh) * | 2012-01-16 | 2012-07-11 | 华为技术有限公司 | 记录会议的方法和会议系统 |
CN103581549A (zh) * | 2012-07-24 | 2014-02-12 | 卡西欧计算机株式会社 | 信息处理装置以及信息处理方法 |
US20140365922A1 (en) * | 2013-06-10 | 2014-12-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing services thereof |
CN103338348A (zh) * | 2013-07-17 | 2013-10-02 | 天脉聚源(北京)传媒科技有限公司 | 一种网络音视频会议的实现方法、系统和服务器 |
CN104301557A (zh) * | 2014-09-30 | 2015-01-21 | 成都英博联宇科技有限公司 | 一种带即时显示功能的智能会议系统 |
Non-Patent Citations (1)
Title |
---|
GERHARD SCHALL等: ""3D tracking in unknown environments using on-line keypoint learning for mobile augmented reality"", 《2008 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
CN112074901A (zh) * | 2018-05-07 | 2020-12-11 | 微软技术许可有限责任公司 | 语音识别登入 |
CN112074901B (zh) * | 2018-05-07 | 2024-06-04 | 微软技术许可有限责任公司 | 语音识别登入 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN109446876B (zh) * | 2018-08-31 | 2020-11-06 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
US11580983B2 (en) | 2018-08-31 | 2023-02-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Sign language information processing method and apparatus, electronic device and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2018513991A (ja) | 2018-05-31 |
JP6714607B2 (ja) | 2020-06-24 |
WO2016150257A1 (en) | 2016-09-29 |
US9672829B2 (en) | 2017-06-06 |
CN107409061B (zh) | 2020-12-08 |
US20160284354A1 (en) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107409061A (zh) | 语音总结程序 | |
CN111415677B (zh) | 用于生成视频的方法、装置、设备和介质 | |
CN111009237B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US9412371B2 (en) | Visualization interface of continuous waveform multi-speaker identification | |
US11790896B2 (en) | Detecting non-verbal, audible communication conveying meaning | |
Ashar et al. | Speaker identification using a hybrid cnn-mfcc approach | |
CN109313892B (zh) | 稳健的语言识别方法和系统 | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US20210118425A1 (en) | System and method using parameterized speech synthesis to train acoustic models | |
Novotný et al. | Analysis of Speaker Recognition Systems in Realistic Scenarios of the SITW 2016 Challenge. | |
CN114127849A (zh) | 语音情感识别方法和装置 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
Chakraborty et al. | Literature Survey | |
CN108665901B (zh) | 一种音素/音节提取方法及装置 | |
WO2011007497A1 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
Drgas et al. | Speaker recognition based on multilevel speech signal analysis on Polish corpus | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
US11398239B1 (en) | ASR-enhanced speech compression | |
Avikal et al. | Estimation of age from speech using excitation source features | |
KR102378885B1 (ko) | 발화자의 얼굴을 이용한 메타데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
RU2790946C1 (ru) | Способ и система анализа голосовых вызовов на предмет выявления и предотвращения социальной инженерии | |
KR102378895B1 (ko) | 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
RU2802533C1 (ru) | Способ и система анализа голосовых вызовов на предмет выявления и предотвращения социальной инженерии с помощью активации голосового бота | |
Gunawan et al. | Development of Language Identification using Line Spectral Frequencies and Learning Vector Quantization Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |