CN116312552A - 一种视频说话人日志方法及系统 - Google Patents
一种视频说话人日志方法及系统 Download PDFInfo
- Publication number
- CN116312552A CN116312552A CN202310569405.6A CN202310569405A CN116312552A CN 116312552 A CN116312552 A CN 116312552A CN 202310569405 A CN202310569405 A CN 202310569405A CN 116312552 A CN116312552 A CN 116312552A
- Authority
- CN
- China
- Prior art keywords
- speaker
- video
- attribute information
- target
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008451 emotion Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 3
- 206010028813 Nausea Diseases 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008693 nausea Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种视频说话人日志方法及系统,所提出的方法将一段录音录像视频分离为音频部分和视频部分,一方面利用语音识别技术,对整个音频部分进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;另一方面对视频部分中的人物目标进行目标检测和跟踪,得到目标人属性信息;最后结合发声者属性信息和目标人属性信息的匹配结构以及声纹特征比对来确定说话人。用于实现上述方法的视频说话人日志系统包括录音录像装备、存储器、处理器、显示设备、扬声器和输入设备。使用该方法及系统最终生成的说话人日志不仅包含说话人时间起止信息,还包含说话人图像信息和说话文字信息。
Description
技术领域
本申请涉及音视频识别及分析技术领域,特别是涉及一种视频说话人日志方法及系统。
背景技术
随着摄像头和麦克风设备的广泛普及,越来越多的领域使用这些设备进行录音和录像,获取现场音视频数据,作为存档证据或者自动稽核的数据。如医疗问诊、理财销售、保险销售、智能会议记录、智慧司法认罪认罚等。为了更好的理解这些音视频数据,需要生成说话人日志。一种通用的方法是对语音信号进行声纹聚类分割,具体流程为通过VAD技术提取语音信号,再利用信号分割(或者说话人转换检测)分成仅包含单个说话人的片段,然后对片段提取声纹特征,最后对声纹特征进行聚类得到说话人的日志。这种方法存在五个问题,第一,聚类分割的结果依赖于信号分割技术(或者说话人转换技术),分割得过细会得到过短的语音片段,而在过短的语音片段上提取声纹特征会导致声纹信息不足,从而影响最终的聚类结果;如果分割的过粗有可能出现单个片段出现多个说话人。第二,过短的片段(如单字或双字回答)也会导致声纹信息不足。第三,当无法得知说话人数量时,聚类的结果往往不如人意。第四,在已知说话人数量的条件下,若说话长度极度不平衡,如某个人占据大量的长片段的发言,而剩下的人只有极少量的短句发言,也会导致聚类结果不理想甚至失败。第五,无法将声音的日志信息与视频的说话人对应起来。
发明内容
针对现有技术存在的上述问题,本发明提出一种视频说话人日志方法及系统,所提出的方法一方面利用语音识别技术对整个语音进行分割,得到仅包含单个说话人的语音片段,提取语音片段的声纹特征和进行发声者属性检测;另一方面对视频中的目标进行检测和跟踪,对目标人进行属性检测;结合发声者属性和视频目标人属性匹配以及声纹特征比对来判定说话人。生成的说话人日志不仅包含说话人时间起止信息,还包含说话人图像信息和说话文字信息。所提出的系统可以实现上述功能,这个系统包括录音录像装备、存储器、处理器、显示设备、扬声器和输入设备。本发明的具体技术方案如下:
一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息;
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;
S42、对于后续每个语音片段,选取之前出现过的说话人,进行声纹特征比对和发声者属性信息比对,根据比对结果判断是否为之前出现过的说话人,如果是之前出现过的说话人,则可确定为该语音片段的说话人;
S43、如果不是之前出现过的说话人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,进行发声者属性信息和目标人属性信息匹配,根据匹配结果确定该片段的说话人,同时保存该片段的声纹特征、语音长度、发声者属性信息和目标ID。
具体地,在步骤S2中,所述利用语音识别技术进行分割是先将语音信息转化为无标点的文本信息,然后恢复文本信息的标点符号,根据标点符号将音频部分分割为包含单个说话人的语音片段;所述发声者属性信息包括发声者的年龄、性别、情绪等。
具体地,在步骤S3中,所述目标检测可以是人脸目标、人头目标、半身目标或全身目标,所述每个人在画面中的时间是指每个人在画面中的出现时间和持续时间,所述目标人属性信息包括目标人的年龄、性别、情绪等。
同时,本发明还提供了一种使用上述方法的视频说话人日志系统,该系统包括录音录像设备、存储器、处理器、显示设备、扬声器和输入设备,所述录音录像设备分别与所述存储器、所述处理器、所述扬声器、所述显示设备连接,所述处理器还要与所述输入设备、所述存储器、所述扬声器和所述显示设备连接。
具体地,所述录音录像设备用于录制对话中的音频和视频。
具体地,所述存储器用于存储录制的音视频数据以及视频说话人日志可执行程序。
具体地,所述处理器用于执行所述视频说话人日志可执行程序,并把程序执行结果返回给所述存储器或者所述显示设备。
具体地,所述显示设备负责显示录制的视频和(或)程序执行结果。
具体地,所述扬声器负责播放录制的音频。
具体地,所述输入设备用于输入一些指令,以控制程序的运行、停止和显示结果。
基于本发明的以上技术方案,本发明的有益效果如下:
1.依赖于自动语音识别技术和标点符号恢复技术得到的语音片段,可以更好的挖掘上下文信息,准确度更高。
2. 发声者属性信息的获取,对语音片段的长度要求较低,例如:人耳可以通过听单字或者双字就能判断说话人的性别。
3. 根据发声者属性信息和目标人属性信息的匹配结果确定说话人,既可以获得说话人的语音信息,也可以获得说话人的图像信息,生成的日志信息更加丰富完整。
4. 融合声纹特征比对和发声者属性信息比对来判定说话人,避免声纹不可靠时的误匹配问题,同时使用比对来代替聚类,既解决了无法预知说话人数量导致的聚类不准确问题,也解决了不同说话人说话长度极度不均衡导致的聚类失败问题。
附图说明
图1本发明一种视频说话人日志方法流程图;
图2本发明一种视频说话人日志系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1:
如图1所示,本实施例公开了一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发生者属性检测获取发声者属性信息并提取声纹特征;
通过自动语音识别技术,将语音信息转化为无标点的文本信息,将文本信息输入到利用词汇特征和韵律特征并结合监督学习技术和深度学习技术对大规模数据进行训练得到的模型中,为文本信息恢复其标点符号,根据标点符号对音频部分进行分割,得到包含单个说话人的语音片段;
对每个语音片段进行发声者属性检测,根据语音信号可以预测说话人的年龄(老年、中年、小孩)及相应的置信度、性别及置信度、情绪(开心、难过、生气、恶心、害怕、惊讶)及置信度,获取发声者属性信息;同时提取每个语音片段的声纹特征,声纹特征可以是传统的i-vector,也可以是基于深度学习的d-vector,x-vector或者其他方法。
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息;
利用目标(人脸目标、人头目标、半身或全身人)检测和跟踪技术,获取每个人在画面中的出现时间和持续时间,并标记每一个目标ID;对每一个目标,通过人脸图像、人头图像、半身图像或者全身图像预测,也可以是融合多种类型图像预测的获取目标人属性信息,获取的目标人属性信息包括年龄(老年、中年、小孩)及置信度、性别及置信度、情绪(开心,难过,生气,恶心,害怕,惊讶)及置信度。
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;属性匹配分数的计算方式为:
上式中,w i 为第i发声者属性信息和第i目标人属性信息匹配的权重,表示当前语音片段的第i发声者属性信息,/>表示ID为j的说话人的第i目标人属性信息,/>为第i发声者属性信息和第i目标人属性信息的匹配相似度,当第i发声者属性信息类别和第i目标人属性信息类别相同时(如性别属性结果都是男性),匹配相似度为两者置信度之积;当第i发声者属性信息类别和第i目标人属性信息类别不相同时(如语音的性别属性为男性,而图像的性别属性为女性),则匹配相似度为0。假设目标J为最高相似度的匹配,且匹配分数高于阈值T1,判定该语音片段的说话人为目标J,记录其ID为J,语音长度为L,声纹特征为f J 和发声者属性信息特征为/>,iє{所有属性};若匹配分数均低于阈值T1,则丢弃该语音片段。该步骤根据发声者属性信息和目标人属性信息的匹配来指定语音片段的说话人,得到第一个说话人;
S42、对于后续语音片段k,先根据声纹特征比对和发声者属性信息比对的结果判断是否为之前出现过的说话人。假设之前出现过的说话人为N人,任取一个说话人,其ID、声纹特征和发声者属性特征分别为j、f j 和,则该说话人与当前语音片段k的比对分数的计算方式为:
上式中,α是属性分数的权重,β是声纹相似度的权重,表示第i发声者属性的权重,/>表示语音片段k与说话人j在表示第i发声者属性上的相似度,其计算方式可类似于第i发声者属性信息和第i目标人属性信息的相似度计算方式,/>表示根据声纹特征f j 和f k 的声纹相似度。β的取值可以是固定值,也可以是由语音片段k长度和语音片段j长度共同决定的值,当长度较长,说明声纹特征较可靠,那么β就越大,反之则越小。对N个目标,计算得到N个比对分数,取最高比对分数,其ID为M,若最高比对分数高于阈值T2,则认为该语音片段来自目标M,更新目标M的发声者属性值、声纹特征为当前该说话人最长语音片段的发声者属性值和声纹特征。若比对分数均低于阈值T2,则认为不是之前出现过的说话人;
S43、如果不是之前出现过的说话人,对于当前语音片段持续时间内出现在视频画面中的人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,计算其目标人属性信息与该语音片段的发声者属性信息的匹配分数Attri_score,取匹配分数最高者,且其匹配分数高于阈值T1,确定为该语音片段的说话人,同样记录目标ID、语音长度、声纹特征和发声者属性信息;若匹配分数均低于阈值T1,,则丢弃该语音片段。
实施例2:
如图2所示,本实施例公开了一种视频说话人日志系统,该系统包括录音录像设备、存储器、处理器、扬声器、输入设备、显示设备,录音录像设备分别与存储器、处理器、扬声器、显示设备连接,另外处理器还要与输入设备、存储器、扬声器和显示设备连接。
其中,录音录像设备负责录制对话中的音频和视频,录制结束后,录制的音频和视频数据存储于存储器,同时也可通过显示设备和扬声器播放;
存储器除了存储录制的音频和视频数据,同时也存储了视频说话人日志可执行程序;
处理器负责执行视频说话人日志可执行程序,并把程序执行结果返回给存储器,也可以返回给显示设备和扬声器;
输入设备用于输入一些指令,以控制程序的运行、停止和显示结果;
显示设备除了负责播放录制的视频,也可以播放处理器返回的程序执行结果,也可以同时播放相对应的录制视频和处理器返回的程序执行结果。
本文中所描述的具体实施仅仅是对本发明精神作具体说明,本发明所属技术领域的技术人员可以对所描述的具体实施例进行各种微调修改或补充或采用类似的方法替代,均包含在本发明的保护范围之内。
Claims (10)
1.一种视频说话人日志方法,该方法包括以下步骤:
S1、将录音录像视频分离为音频部分和视频部分;
S2、对音频部分,利用语音识别技术进行分割,得到仅包含单个说话人的语音片段,对每个语音片段进行发声者属性检测获取发声者属性信息并提取声纹特征;
S3、对视频部分,利用目标检测和跟踪技术得到每个人在画面中的时间,并记录目标ID,对每一个目标获取目标人属性信息;
S4、从第一语音片段开始,融合发声者属性信息与目标人属性信息的匹配结果以及声纹特征比对和发声者属性信息比对的结果,确定相应语音片段的说话人,得到最终的视频说话人日志;
S41、对第一个语音片段,对该片段持续期间所有在视频中出现的目标,取目标人属性信息与该片段的发声者属性信息进行匹配,根据匹配结果确定该语音片段说话人,同时保存该语音片段的声纹特征、语音长度、发声者属性信息和目标ID;
S42、对于后续每个语音片段,选取之前出现过的说话人,进行声纹特征比对和发声者属性信息比对,根据比对结果判断是否为之前出现过的说话人,如果是之前出现过的说话人,则可确定为该语音片段的说话人;
S43、如果不是之前出现过的说话人,先根据目标ID去掉之前出现过的说话人,对剩下的目标,进行发声者属性信息和目标人属性信息匹配,根据匹配结果确定该片段的说话人,同时保存该片段的声纹特征、语音长度、发声者属性信息和目标ID。
2.根据权利要求1所述的一种视频说话人日志方法,其特征在于:在步骤S2中,所述利用语音识别技术进行分割是先将语音信息转化为无标点的文本信息,然后恢复文本信息的标点符号,根据标点符号将音频部分分割为包含单个说话人的语音片段;所述发声者属性信息包括发声者的年龄、性别、情绪。
3.根据权利要求1所述的一种视频说话人日志方法,其特征在于:在步骤S3中,所述目标检测可以是人脸目标、人头目标、半身目标或全身目标,所述每个人在画面中的时间是指每个人在画面中的出现时间和持续时间,所述目标人属性信息包括目标人的年龄、性别、情绪。
4.一种基于上述权利要求1-3任一项方法的视频说话人日志系统,其特征在于:该系统包括录音录像设备、存储器、处理器、显示设备、扬声器和输入设备,所述录音录像设备分别与所述存储器、所述处理器、所述扬声器、所述显示设备连接,所述处理器还要与所述输入设备、所述存储器、所述扬声器和所述显示设备连接。
5.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述录音录像设备用于录制对话中的音频和视频。
6.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述存储器用于存储录制的音频和视频数据以及视频说话人日志可执行程序。
7.根据权利要求6所述的一种视频说话人日志系统,其特征在于:所述处理器用于执行所述视频说话人日志可执行程序,并把程序执行结果返回给所述存储器或者所述显示设备。
8.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述显示设备负责显示录制的视频和/或程序执行结果。
9.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述扬声器负责播放录制的音频。
10.根据权利要求4所述的一种视频说话人日志系统,其特征在于:所述输入设备用于输入一些指令,以控制程序的运行、停止和显示结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310569405.6A CN116312552B (zh) | 2023-05-19 | 2023-05-19 | 一种视频说话人日志方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310569405.6A CN116312552B (zh) | 2023-05-19 | 2023-05-19 | 一种视频说话人日志方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312552A true CN116312552A (zh) | 2023-06-23 |
CN116312552B CN116312552B (zh) | 2023-08-15 |
Family
ID=86836329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310569405.6A Active CN116312552B (zh) | 2023-05-19 | 2023-05-19 | 一种视频说话人日志方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312552B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823598A (zh) * | 2023-08-29 | 2023-09-29 | 湖北微模式科技发展有限公司 | 基于图片隐写及模糊比对的操作记录可回溯方法 |
CN117523683A (zh) * | 2024-01-05 | 2024-02-06 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150088513A1 (en) * | 2013-09-23 | 2015-03-26 | Hon Hai Precision Industry Co., Ltd. | Sound processing system and related method |
US20190333522A1 (en) * | 2018-01-23 | 2019-10-31 | Cirrus Logic International Semiconductor Ltd. | Speaker identification |
KR20200129934A (ko) * | 2019-05-10 | 2020-11-18 | 네이버 주식회사 | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 |
US20200410265A1 (en) * | 2019-06-28 | 2020-12-31 | Hong Fu Jin Precision Industry (Wuhan) Co., Ltd. | Conference recording method and data processing device employing the same |
CN112906544A (zh) * | 2021-02-07 | 2021-06-04 | 广东电网有限责任公司广州供电局 | 一种适用于多目标的基于声纹和人脸的匹配方法 |
CN114125365A (zh) * | 2021-11-25 | 2022-03-01 | 京东方科技集团股份有限公司 | 视频会议方法、装置及可读存储介质 |
CN114282621A (zh) * | 2021-12-29 | 2022-04-05 | 湖北微模式科技发展有限公司 | 一种多模态融合的话者角色区分方法与系统 |
CN114299953A (zh) * | 2021-12-29 | 2022-04-08 | 湖北微模式科技发展有限公司 | 一种结合嘴部运动分析的话者角色区分方法与系统 |
CN115050375A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
US20220321350A1 (en) * | 2021-04-06 | 2022-10-06 | Solugate Inc. | System for voice authentication through voice recognition and voiceprint recognition |
CN115937726A (zh) * | 2021-05-31 | 2023-04-07 | 华为云计算技术有限公司 | 说话人检测方法、装置、设备及计算机可读存储介质 |
-
2023
- 2023-05-19 CN CN202310569405.6A patent/CN116312552B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150088513A1 (en) * | 2013-09-23 | 2015-03-26 | Hon Hai Precision Industry Co., Ltd. | Sound processing system and related method |
US20190333522A1 (en) * | 2018-01-23 | 2019-10-31 | Cirrus Logic International Semiconductor Ltd. | Speaker identification |
KR20200129934A (ko) * | 2019-05-10 | 2020-11-18 | 네이버 주식회사 | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 |
US20200410265A1 (en) * | 2019-06-28 | 2020-12-31 | Hong Fu Jin Precision Industry (Wuhan) Co., Ltd. | Conference recording method and data processing device employing the same |
CN112906544A (zh) * | 2021-02-07 | 2021-06-04 | 广东电网有限责任公司广州供电局 | 一种适用于多目标的基于声纹和人脸的匹配方法 |
CN115050375A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
US20220321350A1 (en) * | 2021-04-06 | 2022-10-06 | Solugate Inc. | System for voice authentication through voice recognition and voiceprint recognition |
CN115937726A (zh) * | 2021-05-31 | 2023-04-07 | 华为云计算技术有限公司 | 说话人检测方法、装置、设备及计算机可读存储介质 |
CN114125365A (zh) * | 2021-11-25 | 2022-03-01 | 京东方科技集团股份有限公司 | 视频会议方法、装置及可读存储介质 |
CN114282621A (zh) * | 2021-12-29 | 2022-04-05 | 湖北微模式科技发展有限公司 | 一种多模态融合的话者角色区分方法与系统 |
CN114299953A (zh) * | 2021-12-29 | 2022-04-08 | 湖北微模式科技发展有限公司 | 一种结合嘴部运动分析的话者角色区分方法与系统 |
Non-Patent Citations (2)
Title |
---|
NISHTHA H. TANDEL: "Voice Recognition and Voice Comparison using Machine Learning Techniques: A Survey", 2020 6TH INTERNATIONAL CONFERENCE ON ADVANCED COMPUTING AND COMMUNICATION SYSTEMS, pages 459 - 461 * |
马勇: "说话人分割聚类研究进展", 信号处理, pages 1190 - 1196 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823598A (zh) * | 2023-08-29 | 2023-09-29 | 湖北微模式科技发展有限公司 | 基于图片隐写及模糊比对的操作记录可回溯方法 |
CN116823598B (zh) * | 2023-08-29 | 2023-11-17 | 湖北微模式科技发展有限公司 | 基于图片隐写及模糊比对的操作记录可回溯方法 |
CN117523683A (zh) * | 2024-01-05 | 2024-02-06 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
CN117523683B (zh) * | 2024-01-05 | 2024-03-29 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116312552B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Makino et al. | Recurrent neural network transducer for audio-visual speech recognition | |
CN116312552B (zh) | 一种视频说话人日志方法及系统 | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN109493850B (zh) | 成长型对话装置 | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
US20190043500A1 (en) | Voice based realtime event logging | |
US10068588B2 (en) | Real-time emotion recognition from audio signals | |
US9542604B2 (en) | Method and apparatus for providing combined-summary in imaging apparatus | |
US20160163318A1 (en) | Metadata extraction of non-transcribed video and audio streams | |
CN112997186A (zh) | “存活性”检测系统 | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
US11355099B2 (en) | Word extraction device, related conference extraction system, and word extraction method | |
US11501546B2 (en) | Media management system for video data processing and adaptation data generation | |
Ding et al. | Audio-visual keyword spotting based on multidimensional convolutional neural network | |
US11823685B2 (en) | Speech recognition | |
Potamianos et al. | Joint audio-visual speech processing for recognition and enhancement | |
US10847154B2 (en) | Information processing device, information processing method, and program | |
CN113923521B (zh) | 一种视频的脚本化方法 | |
CN113129895B (zh) | 一种语音检测处理系统 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
JP2006279111A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
US10930283B2 (en) | Sound recognition device and sound recognition method applied therein | |
Chiţu¹ et al. | Automatic visual speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method and System for Video Speaker Logging Effective date of registration: 20230926 Granted publication date: 20230815 Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd. Pledgor: HUBEI MICROPATTERN TECHNOLOGY DEVELOPMENT CO.,LTD. Registration number: Y2023980058723 |