CN116312552B - 一种视频说话人日志方法及系统 - Google Patents

一种视频说话人日志方法及系统 Download PDF

Info

Publication number
CN116312552B
CN116312552B CN202310569405.6A CN202310569405A CN116312552B CN 116312552 B CN116312552 B CN 116312552B CN 202310569405 A CN202310569405 A CN 202310569405A CN 116312552 B CN116312552 B CN 116312552B
Authority
CN
China
Prior art keywords
speaker
video
attribute information
target
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310569405.6A
Other languages
English (en)
Other versions
CN116312552A (zh
Inventor
申意萍
陈友斌
张志坚
徐一波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Micropattern Technology Development Co ltd
Original Assignee
Hubei Micropattern Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Micropattern Technology Development Co ltd filed Critical Hubei Micropattern Technology Development Co ltd
Priority to CN202310569405.6A priority Critical patent/CN116312552B/zh
Publication of CN116312552A publication Critical patent/CN116312552A/zh
Application granted granted Critical
Publication of CN116312552B publication Critical patent/CN116312552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种视频说话人日志方法及系统,所提出的方法将一段录音录像视频分离为音频部分和视频部分,一方面利用语音识别技术,对整个音频部分进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;另一方面对视频部分中的人物目标进行目标检测和跟踪,得到目标人属性信息;最后结合发声者属性信息和目标人属性信息的匹配结构以及声纹特征比对来确定说话人。用于实现上述方法的视频说话人日志系统包括录音录像装备、存储器、处理器、显示设备、扬声器和输入设备。使用该方法及系统最终生成的说话人日志不仅包含说话人时间起止信息,还包含说话人图像信息和说话文字信息。

Description

一种视频说话人日志方法及系统
技术领域
本申请涉及音视频识别及分析技术领域,特别是涉及一种视频说话人日志方法及系统。
背景技术
随着摄像头和麦克风设备的广泛普及,越来越多的领域使用这些设备进行录音和录像,获取现场音视频数据,作为存档证据或者自动稽核的数据。如医疗问诊、理财销售、保险销售、智能会议记录、智慧司法认罪认罚等。为了更好的理解这些音视频数据,需要生成说话人日志。一种通用的方法是对语音信号进行声纹聚类分割,具体流程为通过VAD技术提取语音信号,再利用信号分割(或者说话人转换检测)分成仅包含单个说话人的片段,然后对片段提取声纹特征,最后对声纹特征进行聚类得到说话人的日志。这种方法存在五个问题,第一,聚类分割的结果依赖于信号分割技术(或者说话人转换技术),分割得过细会得到过短的语音片段,而在过短的语音片段上提取声纹特征会导致声纹信息不足,从而影响最终的聚类结果;如果分割的过粗有可能出现单个片段出现多个说话人。第二,过短的片段(如单字或双字回答)也会导致声纹信息不足。第三,当无法得知说话人数量时,聚类的结果往往不如人意。第四,在已知说话人数量的条件下,若说话长度极度不平衡,如某个人占据大量的长片段的发言,而剩下的人只有极少量的短句发言,也会导致聚类结果不理想甚至失败。第五,无法将声音的日志信息与视频的说话人对应起来。
发明内容
针对现有技术存在的上述问题,本发明提出一种视频说话人日志方法及系统,所提出的方法一方面利用语音识别技术对整个语音进行分割,得到仅包含单个说话人的语音片段,提取语音片段的声纹特征和进行发声者属性检测;另一方面对视频中的目标进行检测和跟踪,对目标人进行属性检测;结合发声者属性和视频目标人属性匹配以及声纹特征比对来判定说话人。生成的说话人日志不仅包含说话人时间起止信息,还包含说话人图像信息和说话文字信息。所提出的系统可以实现上述功能,这个系统包括录音录像装备、存储器、处理器、显示设备、扬声器和输入设备。本发明的具体技术方案如下:
一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息;
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;
S42、对于后续每个语音片段,选取之前出现过的说话人,进行声纹特征比对和发声者属性信息比对,根据比对结果判断是否为之前出现过的说话人,如果是之前出现过的说话人,则可确定为该语音片段的说话人;
S43、如果不是之前出现过的说话人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,进行发声者属性信息和目标人属性信息匹配,根据匹配结果确定该片段的说话人,同时保存该片段的声纹特征、语音长度、发声者属性信息和目标ID。
具体地,在步骤S2中,所述利用语音识别技术进行分割是先将语音信息转化为无标点的文本信息,然后恢复文本信息的标点符号,根据标点符号将音频部分分割为包含单个说话人的语音片段;所述发声者属性信息包括发声者的年龄、性别、情绪等。
具体地,在步骤S3中,所述目标检测可以是人脸目标、人头目标、半身目标或全身目标,所述每个人在画面中的时间是指每个人在画面中的出现时间和持续时间,所述目标人属性信息包括目标人的年龄、性别、情绪等。
同时,本发明还提供了一种使用上述方法的视频说话人日志系统,该系统包括录音录像设备、存储器、处理器、显示设备、扬声器和输入设备,所述录音录像设备分别与所述存储器、所述处理器、所述扬声器、所述显示设备连接,所述处理器还要与所述输入设备、所述存储器、所述扬声器和所述显示设备连接。
具体地,所述录音录像设备用于录制对话中的音频和视频。
具体地,所述存储器用于存储录制的音视频数据以及视频说话人日志可执行程序。
具体地,所述处理器用于执行所述视频说话人日志可执行程序,并把程序执行结果返回给所述存储器或者所述显示设备。
具体地,所述显示设备负责显示录制的视频和(或)程序执行结果。
具体地,所述扬声器负责播放录制的音频。
具体地,所述输入设备用于输入一些指令,以控制程序的运行、停止和显示结果。
基于本发明的以上技术方案,本发明的有益效果如下:
1.依赖于自动语音识别技术和标点符号恢复技术得到的语音片段,可以更好的挖掘上下文信息,准确度更高。
2. 发声者属性信息的获取,对语音片段的长度要求较低,例如:人耳可以通过听单字或者双字就能判断说话人的性别。
3. 根据发声者属性信息和目标人属性信息的匹配结果确定说话人,既可以获得说话人的语音信息,也可以获得说话人的图像信息,生成的日志信息更加丰富完整。
4. 融合声纹特征比对和发声者属性信息比对来判定说话人,避免声纹不可靠时的误匹配问题,同时使用比对来代替聚类,既解决了无法预知说话人数量导致的聚类不准确问题,也解决了不同说话人说话长度极度不均衡导致的聚类失败问题。
附图说明
图1本发明一种视频说话人日志方法流程图;
图2本发明一种视频说话人日志系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
如图1所示,本实施例公开了一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发生者属性检测获取发声者属性信息并提取声纹特征;
通过自动语音识别技术,将语音信息转化为无标点的文本信息,将文本信息输入到利用词汇特征和韵律特征并结合监督学习技术和深度学习技术对大规模数据进行训练得到的模型中,为文本信息恢复其标点符号,根据标点符号对音频部分进行分割,得到包含单个说话人的语音片段;
对每个语音片段进行发声者属性检测,根据语音信号可以预测说话人的年龄(老年、中年、小孩)及相应的置信度、性别及置信度、情绪(开心、难过、生气、恶心、害怕、惊讶)及置信度,获取发声者属性信息;同时提取每个语音片段的声纹特征,声纹特征可以是传统的i-vector,也可以是基于深度学习的d-vector,x-vector或者其他方法。
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息;
利用目标(人脸目标、人头目标、半身或全身人)检测和跟踪技术,获取每个人在画面中的出现时间和持续时间,并标记每一个目标ID;对每一个目标,通过人脸图像、人头图像、半身图像或者全身图像预测,也可以是融合多种类型图像预测的获取目标人属性信息,获取的目标人属性信息包括年龄(老年、中年、小孩)及置信度、性别及置信度、情绪(开心,难过,生气,恶心,害怕,惊讶)及置信度。
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;属性匹配分数的计算方式为:
上式中,w i 为第i发声者属性信息和第i目标人属性信息匹配的权重,表示当前语音片段的第i发声者属性信息,/>表示ID为j的说话人的第i目标人属性信息,为第i发声者属性信息和第i目标人属性信息的匹配相似度,当第i发声者属性信息类别和第i目标人属性信息类别相同时(如性别属性结果都是男性),匹配相似度为两者置信度之积;当第i发声者属性信息类别和第i目标人属性信息类别不相同时(如语音的性别属性为男性,而图像的性别属性为女性),则匹配相似度为0。假设目标J为最高相似度的匹配,且匹配分数高于阈值T1,判定该语音片段的说话人为目标J,记录其ID为J,语音长度为L,声纹特征为f J 和发声者属性信息特征为/>iє{所有属性};若匹配分数均低于阈值T1,则丢弃该语音片段。该步骤根据发声者属性信息和目标人属性信息的匹配来指定语音片段的说话人,得到第一个说话人;
S42、对于后续语音片段k,先根据声纹特征比对和发声者属性信息比对的结果判断是否为之前出现过的说话人。假设之前出现过的说话人为N人,任取一个说话人,其ID、声纹特征和发声者属性特征分别为jf j ,则该说话人与当前语音片段k的比对分数的计算方式为:
上式中,α是属性分数的权重,β是声纹相似度的权重,表示第i发声者属性的权重,/>表示语音片段k与说话人j在表示第i发声者属性上的相似度,其计算方式可类似于第i发声者属性信息和第i目标人属性信息的相似度计算方式,/>表示根据声纹特征f j f k 的声纹相似度。β的取值可以是固定值,也可以是由语音片段k长度和语音片段j长度共同决定的值,当长度较长,说明声纹特征较可靠,那么β就越大,反之则越小。对N个目标,计算得到N个比对分数,取最高比对分数,其ID为M,若最高比对分数高于阈值T2,则认为该语音片段来自目标M,更新目标M的发声者属性值、声纹特征为当前该说话人最长语音片段的发声者属性值和声纹特征。若比对分数均低于阈值T2,则认为不是之前出现过的说话人;
S43、如果不是之前出现过的说话人,对于当前语音片段持续时间内出现在视频画面中的人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,计算其目标人属性信息与该语音片段的发声者属性信息的匹配分数Attri_score,取匹配分数最高者,且其匹配分数高于阈值T1,确定为该语音片段的说话人,同样记录目标ID、语音长度、声纹特征和发声者属性信息;若匹配分数均低于阈值T1,,则丢弃该语音片段。
实施例2
如图2所示,本实施例公开了一种视频说话人日志系统,该系统包括录音录像设备、存储器、处理器、扬声器、输入设备、显示设备,录音录像设备分别与存储器、处理器、扬声器、显示设备连接,另外处理器还要与输入设备、存储器、扬声器和显示设备连接。
其中,录音录像设备负责录制对话中的音频和视频,录制结束后,录制的音频和视频数据存储于存储器,同时也可通过显示设备和扬声器播放;
存储器除了存储录制的音频和视频数据,同时也存储了视频说话人日志可执行程序;
处理器负责执行视频说话人日志可执行程序,并把程序执行结果返回给存储器,也可以返回给显示设备和扬声器;
输入设备用于输入一些指令,以控制程序的运行、停止和显示结果;
显示设备除了负责播放录制的视频,也可以播放处理器返回的程序执行结果,也可以同时播放相对应的录制视频和处理器返回的程序执行结果。
本文中所描述的具体实施仅仅是对本发明精神作具体说明,本发明所属技术领域的技术人员可以对所描述的具体实施例进行各种微调修改或补充或采用类似的方法替代,均包含在本发明的保护范围之内。

Claims (10)

1.一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征,所述发声者属性信息包括发声者的年龄、性别、情绪;
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息,所述目标人属性信息包括目标人的年龄、性别、情绪;
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;
S42、对于后续每个语音片段,选取之前出现过的说话人,进行声纹特征比对和发声者属性信息比对,根据比对结果判断是否为之前出现过的说话人,如果是之前出现过的说话人,则可确定为该语音片段的说话人;
S43、如果不是之前出现过的说话人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,进行发声者属性信息和目标人属性信息匹配,根据匹配结果确定该片段的说话人,同时保存该片段的声纹特征、语音长度、发声者属性信息和目标ID。
2.根据权利要求1所述的一种视频说话人日志方法,其特征在于:在步骤S2中,所述利用语音识别技术进行分割是先将语音信息转化为无标点的文本信息,然后恢复文本信息的标点符号,根据标点符号将音频部分分割为包含单个说话人的语音片段。
3.根据权利要求1所述的一种视频说话人日志方法,其特征在于:在步骤S3中,所述目标检测是人脸目标、人头目标、半身目标或全身目标,所述每个人在画面中的时间是指每个人在画面中的出现时间和持续时间。
4.一种基于上述权利要求1-3任一项方法的视频说话人日志系统,其特征在于:该系统包括录音录像设备、存储器、处理器、显示设备、扬声器和输入设备,所述录音录像设备分别与所述存储器、所述处理器、所述扬声器、所述显示设备连接,所述处理器还要与所述输入设备、所述存储器、所述扬声器和所述显示设备连接。
5.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述录音录像设备用于录制对话中的音频和视频。
6.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述存储器用于存储录制的音频和视频数据以及视频说话人日志可执行程序。
7.根据权利要求6所述的一种视频说话人日志系统,其特征在于:所述处理器用于执行所述视频说话人日志可执行程序,并把程序执行结果返回给所述存储器或者所述显示设备。
8.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述显示设备负责显示录制的视频和/或程序执行结果。
9.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述扬声器负责播放录制的音频。
10.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述输入设备用于输入一些指令,以控制程序的运行、停止和显示结果。
CN202310569405.6A 2023-05-19 2023-05-19 一种视频说话人日志方法及系统 Active CN116312552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310569405.6A CN116312552B (zh) 2023-05-19 2023-05-19 一种视频说话人日志方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310569405.6A CN116312552B (zh) 2023-05-19 2023-05-19 一种视频说话人日志方法及系统

Publications (2)

Publication Number Publication Date
CN116312552A CN116312552A (zh) 2023-06-23
CN116312552B true CN116312552B (zh) 2023-08-15

Family

ID=86836329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310569405.6A Active CN116312552B (zh) 2023-05-19 2023-05-19 一种视频说话人日志方法及系统

Country Status (1)

Country Link
CN (1) CN116312552B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823598B (zh) * 2023-08-29 2023-11-17 湖北微模式科技发展有限公司 基于图片隐写及模糊比对的操作记录可回溯方法
CN117523683B (zh) * 2024-01-05 2024-03-29 湖北微模式科技发展有限公司 一种基于生物特征识别的欺诈视频检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129934A (ko) * 2019-05-10 2020-11-18 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN112906544A (zh) * 2021-02-07 2021-06-04 广东电网有限责任公司广州供电局 一种适用于多目标的基于声纹和人脸的匹配方法
CN114125365A (zh) * 2021-11-25 2022-03-01 京东方科技集团股份有限公司 视频会议方法、装置及可读存储介质
CN114282621A (zh) * 2021-12-29 2022-04-05 湖北微模式科技发展有限公司 一种多模态融合的话者角色区分方法与系统
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN115050375A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 一种设备的语音操作方法、装置和电子设备
CN115937726A (zh) * 2021-05-31 2023-04-07 华为云计算技术有限公司 说话人检测方法、装置、设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201513095A (zh) * 2013-09-23 2015-04-01 Hon Hai Prec Ind Co Ltd 語音處理系統、裝置及方法
US11475899B2 (en) * 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
CN112148922A (zh) * 2019-06-28 2020-12-29 鸿富锦精密工业(武汉)有限公司 会议记录方法、装置、数据处理设备及可读存储介质
KR20220138924A (ko) * 2021-04-06 2022-10-14 주식회사 솔루게이트 음성인식 및 성문인식을 통한 음성인증 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129934A (ko) * 2019-05-10 2020-11-18 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN112906544A (zh) * 2021-02-07 2021-06-04 广东电网有限责任公司广州供电局 一种适用于多目标的基于声纹和人脸的匹配方法
CN115050375A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 一种设备的语音操作方法、装置和电子设备
CN115937726A (zh) * 2021-05-31 2023-04-07 华为云计算技术有限公司 说话人检测方法、装置、设备及计算机可读存储介质
CN114125365A (zh) * 2021-11-25 2022-03-01 京东方科技集团股份有限公司 视频会议方法、装置及可读存储介质
CN114282621A (zh) * 2021-12-29 2022-04-05 湖北微模式科技发展有限公司 一种多模态融合的话者角色区分方法与系统
CN114299953A (zh) * 2021-12-29 2022-04-08 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Voice Recognition and Voice Comparison using Machine Learning Techniques: A Survey;Nishtha H. Tandel;2020 6th International Conference on Advanced Computing and Communication Systems;第459-461页 *

Also Published As

Publication number Publication date
CN116312552A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN116312552B (zh) 一种视频说话人日志方法及系统
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN109493850B (zh) 成长型对话装置
JP6463825B2 (ja) 多重話者音声認識修正システム
US20190043500A1 (en) Voice based realtime event logging
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
US10068588B2 (en) Real-time emotion recognition from audio signals
CN108735200B (zh) 一种说话人自动标注方法
US11355099B2 (en) Word extraction device, related conference extraction system, and word extraction method
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
CN107305541A (zh) 语音识别文本分段方法及装置
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
US11501546B2 (en) Media management system for video data processing and adaptation data generation
Ding et al. Audio-visual keyword spotting based on multidimensional convolutional neural network
CN111402892A (zh) 一种基于语音识别的会议记录模板生成方法
US10847154B2 (en) Information processing device, information processing method, and program
US10930283B2 (en) Sound recognition device and sound recognition method applied therein
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
CN113129895B (zh) 一种语音检测处理系统
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及系统
CN113923521A (zh) 一种视频的脚本化方法
JP4775961B2 (ja) 映像を用いた発音の推定方法
Chiţu¹ et al. Automatic visual speech recognition
CN113539234B (zh) 语音合成方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Video Speaker Logging

Effective date of registration: 20230926

Granted publication date: 20230815

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: HUBEI MICROPATTERN TECHNOLOGY DEVELOPMENT CO.,LTD.

Registration number: Y2023980058723

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20230815

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: HUBEI MICROPATTERN TECHNOLOGY DEVELOPMENT CO.,LTD.

Registration number: Y2023980058723