CN111768760B - 一种多模态语音端点检测方法及装置 - Google Patents

一种多模态语音端点检测方法及装置 Download PDF

Info

Publication number
CN111768760B
CN111768760B CN202010454932.9A CN202010454932A CN111768760B CN 111768760 B CN111768760 B CN 111768760B CN 202010454932 A CN202010454932 A CN 202010454932A CN 111768760 B CN111768760 B CN 111768760B
Authority
CN
China
Prior art keywords
information
picture
target
feature codes
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010454932.9A
Other languages
English (en)
Other versions
CN111768760A (zh
Inventor
刘高成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010454932.9A priority Critical patent/CN111768760B/zh
Publication of CN111768760A publication Critical patent/CN111768760A/zh
Application granted granted Critical
Publication of CN111768760B publication Critical patent/CN111768760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多模态语音端点检测方法及装置,方法包括:获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;对所述图像信息中的每一帧图片进行人物对象的检测,并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列;从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;从所述目标音频信息中提取语音信息的特征编码;将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。

Description

一种多模态语音端点检测方法及装置
技术领域
本发明涉及语音处理技术领域,更具体地,涉及一种多模态语音端点检测方法及装置。
背景技术
随着人机交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测技术是非常重要的一项技术,通常也称为语音活动性检测技术(VoiceActivity Detection,VAD)。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。
现有的语音端点检测方案,主要通过对语音信号进行提取和分类来确定语音起始点和终止点,但是,此方案在信噪比降低、噪声环境复杂的情况下,检测效果急剧下降。
发明内容
鉴于上述问题,本发明提出了一种多模态语音端点检测方法和相应的装置,其可以有效提高VAD在噪声环境下的性能。
根据本发明实施例的第一方面,提供一种多模态语音端点检测方法,包括:
获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
从所述目标音频信息中提取语音信息的特征编码;
将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。
在一个实施例中,优选地,对所述图像信息中的每一帧图片进行人物对象的检测,并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列,包括:
检测所述每一帧图片是否包含人物对象;
当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;
当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。
在一个实施例中,优选地,从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息,包括:
按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。
在一个实施例中,优选地,从所述目标音频信息中提取语音信息的特征编码,包括:
从所述音频信息片段中提取语音信息的特征编码。
在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。
根据本发明实施例的第二方面,提供一种多模态语音端点检测装置,包括:
处理模块,用于获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
存储模块,用于对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
第一提取模块,用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
第二提取模块,用于从所述目标音频信息中提取语音信息的特征编码;
融合模块,用于将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
分类模块,用于将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。
在一个实施例中,优选地,所述存储模块包括:
检测单元,用于检测所述每一帧图片是否包含人物对象;
判定单元,用于当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;
分类单元,用于当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
获取单元,用于对于每个人物对象,获取包含该人物对象的所有目标帧图片,并按照时间顺序存储成目标图片序列。
在一个实施例中,优选地,所述第一提取模块包括:
分割单元,用于按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
提取单元,用于分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。
在一个实施例中,优选地,所述第二提取模块用于:
从所述音频信息片段中提取语音信息的特征编码。
在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。、
根据本发明实施例的第三方面,提供一种多模态语音端点检测装置,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,所述设备执行如第一方面实施例中任一项所述的方法。
本发明实施例中,由于在用户说话时,面部动作以及身体动作这些视觉信息不会受复杂噪声环境的干扰,因此,本发明将视觉信息和语音信息结合来进行语音端点的检测,从而可以有效的提高VAD在噪声环境下的性能,并且通过对不同人物对象的判断,在语音端点检测的同时,还可以有效的判别出说话人,从而为其他相关任务提高辅助信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种多模态语音端点检测方法的流程图。
图2是本发明一个实施例的一种多模态语音端点检测方法中步骤S102的流程图。
图3是本发明一个实施例的一种多模态语音端点检测方法中步骤S103的流程图。
图4是本发明一个实施例的一种多模态语音端点检测装置的框图。
图5是本发明一个实施例的一种多模态语音端点检测装置中存储模块的框图。
图6是本发明一个实施例的一种多模态语音端点检测装置中第一提取模块的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一个实施例的一种多模态语音端点检测方法的流程图,如图1所示,多模态语音端点检测方法包括:
步骤S101,获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息。
步骤S102,对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列。
步骤S103,从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息。
在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。视频信息可以以嘴部特征信息为主,还可以加入其他区域特征信息作为辅助。
步骤S104,从所述目标音频信息中提取语音信息的特征编码。
步骤S105,将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码。
步骤S106,将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。
在该实施例中,由于在用户说话时,面部动作以及身体动作这些视觉信息不会受复杂噪声环境的干扰,因此,本发明将视觉信息和语音信息结合来进行语音端点的检测,从而可以有效的提高VAD在噪声环境下的性能,并且通过对不同人物对象的判断,在语音端点检测的同时,还可以有效的判别出说话人,从而为其他相关任务提高辅助信息。
图2是本发明一个实施例的一种多模态语音端点检测方法中步骤S102的流程图。
在一个实施例中,优选地,上述步骤S102包括:
步骤S201,检测所述每一帧图片是否包含人物对象。
步骤S202,当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片。
步骤S203,当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片。
步骤S204,对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。
在该实施例中,对于每一帧图片,在检测到图片中包含人物对象后,分别获取该图片中的每个人物对象对应的目标图片,继而针对每个人物对象,将其对应的所有目标图片存储成目标图片序列,这样,如果图片中有多个人物对象,就会得到多个人物对象的图片序列,每个人物对象对应一个目标图片序列,这样,就能够在视频中含有多个人物对象时,区分出具体是谁在说话。
图3是本发明一个实施例的一种多模态语音端点检测方法中步骤S103的流程图。
如图3所示,在一个实施例中,优选地,上述步骤S103包括:
步骤S301,按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
步骤S302,分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。
在一个实施例中,优选地,上述步骤S104包括:
步骤S303,从所述音频信息片段中提取语音信息的特征编码。
在该实施例中,可以将目标图片序列等间隔分割成多个片段,再分片段分别进行视觉信息和音频信息的提取,这样,可以加快处理速度。
图4是本发明一个实施例的一种多模态语音端点检测装置的框图。
如图4所示,根据本发明实施例的第二方面,提供一种多模态语音端点检测装置,包括:
处理模块41,用于获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
存储模块42,用于对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
第一提取模块43,用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
第二提取模块44,用于从所述目标音频信息中提取语音信息的特征编码;
融合模块45,用于将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
分类模块46,用于将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果。
图5是本发明一个实施例的一种多模态语音端点检测装置中存储模块的框图。
如图5所示,在一个实施例中,优选地,所述存储模块42包括:
检测单元51,用于检测所述每一帧图片是否包含人物对象;
判定单元52,用于当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;
分类单元53,用于当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
获取单元54,用于对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。
图6是本发明一个实施例的一种多模态语音端点检测装置中第一提取模块的框图。
如图6所示,在一个实施例中,优选地,所述第一提取模块43包括:
分割单元61,用于按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
提取单元62,用于分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段。
在一个实施例中,优选地,所述第二提取模块用于:
从所述音频信息片段中提取语音信息的特征编码。
在一个实施例中,优选地,所述视觉信息至少包括嘴部特征信息。、
根据本发明实施例的第三方面,提供一种多模态语音端点检测装置,包括:
存储器和处理器;
所述存储器用于保存所述处理器执行计算机程序时所使用的数据;
所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,所述设备执行如第一方面实施例中任一项所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种便捷式多功能设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种多模态语音端点检测方法,其特征在于,包括:
获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
从所述目标音频信息中提取语音信息的特征编码;
将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果;
从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息,包括:
按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段;
从所述目标音频信息中提取语音信息的特征编码,包括:
从所述音频信息片段中提取语音信息的特征编码。
2.根据权利要求1所述的多模态语音端点检测方法,其特征在于,对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列,包括:
检测所述每一帧图片是否包含人物对象;
当所述图片中不包含人物对象时,将所述图片判定为非语音活动图片;
当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。
3.根据权利要求1至2中任一项所述的多模态语音端点检测方法,其特征在于,所述视觉信息至少包括嘴部特征信息。
4.一种多模态语音端点检测装置,其特征在于,包括:
处理模块,用于获取待检测的视频信息,并对所述视频信息进行处理,以得到带有时间戳的音频信息和图像信息;
存储模块,用于对所述图像信息中的每一帧图片进行人物对象的检测,当从所述图片中检测到人物对象时,按照人物对象从所述图片中获取每个人物对象对应的目标图片,并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列;
第一提取模块,用于从每个人物对象的所述目标图片序列中提取视觉信息的特征编码,并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息;
第二提取模块,用于从所述目标音频信息中提取语音信息的特征编码;
融合模块,用于将所述视觉信息的特征编码和语音信息的特征编码进行融合,得到融合的多模态特征编码;
分类模块,用于将所述融合的多模态特征编码输入至分类器中,以得到每个人物对象的语音活动分类结果;
所述第一提取模块包括:
分割单元,用于按照预设时间间隔,将每个人物对象的所述目标图片序列等间隔的分割成多个片段;
提取单元,用于分别从每个片段中提取视觉信息的特征编码,并获取每个片段对应的时间间隔内的音频信息片段;
所述第二提取模块用于:
从所述音频信息片段中提取语音信息的特征编码。
5.根据权利要求4所述的多模态语音端点检测装置,其特征在于,所述存储模块包括:
检测单元,用于检测所述每一帧图片是否包含人物对象;
判定单元,用于当所述帧图片中不包含人物对象时,将所述帧图片判定为非语音活动图片;
分类单元,用于当所述图片中包含人物对象时,从所述图片中获取每个人物对象对应的目标图片;
获取单元,用于对于每个人物对象,获取包含该人物对象的所有目标图片,并按照时间顺序存储成目标图片序列。
6.根据权利要求4至5中任一项所述的多模态语音端点检测装置,其特征在于,所述视觉信息至少包括嘴部特征信息。
CN202010454932.9A 2020-05-26 2020-05-26 一种多模态语音端点检测方法及装置 Active CN111768760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010454932.9A CN111768760B (zh) 2020-05-26 2020-05-26 一种多模态语音端点检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010454932.9A CN111768760B (zh) 2020-05-26 2020-05-26 一种多模态语音端点检测方法及装置

Publications (2)

Publication Number Publication Date
CN111768760A CN111768760A (zh) 2020-10-13
CN111768760B true CN111768760B (zh) 2023-04-18

Family

ID=72719283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010454932.9A Active CN111768760B (zh) 2020-05-26 2020-05-26 一种多模态语音端点检测方法及装置

Country Status (1)

Country Link
CN (1) CN111768760B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634940A (zh) * 2020-12-11 2021-04-09 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN112633110B (zh) * 2020-12-16 2024-02-13 中国联合网络通信集团有限公司 数据处理方法和装置
CN113255556A (zh) * 2021-06-07 2021-08-13 斑马网络技术有限公司 多模态语音端点检测方法及装置、车载终端、存储介质
CN113380236A (zh) * 2021-06-07 2021-09-10 斑马网络技术有限公司 基于唇部的语音端点检测方法及装置、车载终端、存储介质
CN113593587B (zh) * 2021-08-06 2022-07-29 宿迁硅基智能科技有限公司 语音分离方法及装置、存储介质、电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623182A (zh) * 2002-01-30 2005-06-01 皇家飞利浦电子股份有限公司 用于语音识别系统的话音活动的视听检测
CN1742322A (zh) * 2003-01-24 2006-03-01 索尼爱立信移动通讯股份有限公司 噪声减小和视听语音活动检测
CN101473207A (zh) * 2006-06-22 2009-07-01 微软公司 使用多种类型的输入对人进行标识
JP2011059186A (ja) * 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
CN104092957A (zh) * 2014-07-16 2014-10-08 浙江航天长峰科技发展有限公司 一种融合人像和语音的屏幕视频生成方法
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
KR102433393B1 (ko) * 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623182A (zh) * 2002-01-30 2005-06-01 皇家飞利浦电子股份有限公司 用于语音识别系统的话音活动的视听检测
CN1742322A (zh) * 2003-01-24 2006-03-01 索尼爱立信移动通讯股份有限公司 噪声减小和视听语音活动检测
CN101473207A (zh) * 2006-06-22 2009-07-01 微软公司 使用多种类型的输入对人进行标识
JP2011059186A (ja) * 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
CN104092957A (zh) * 2014-07-16 2014-10-08 浙江航天长峰科技发展有限公司 一种融合人像和语音的屏幕视频生成方法
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置

Also Published As

Publication number Publication date
CN111768760A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111768760B (zh) 一种多模态语音端点检测方法及装置
CN110889379B (zh) 表情包生成方法、装置及终端设备
CN104267922A (zh) 一种信息处理方法及电子设备
CN110875059A (zh) 收音结束的判断方法、装置以及储存装置
KR20210124313A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
CN108256071B (zh) 录屏文件的生成方法、装置、终端及存储介质
CN114945110B (zh) 说话头视频合成方法、装置、终端设备及可读存储介质
CN107291238B (zh) 一种数据处理方法与装置
CN110858291A (zh) 字符切分方法及装置
CN111161710A (zh) 同声传译方法、装置、电子设备及存储介质
CN114391260A (zh) 文字识别方法、装置、存储介质及电子设备
CN105791087A (zh) 一种媒体分割方法及终端
CN115019788A (zh) 语音交互方法、系统、终端设备及存储介质
CN114049898A (zh) 一种音频提取方法、装置、设备和存储介质
CN110969161B (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
CN113099283A (zh) 监控画面和声音同步的方法及相关设备
CN111986657A (zh) 音频识别方法和装置、录音终端及服务器、存储介质
CN116127366B (zh) 一种基于tws耳机的情绪识别方法、系统及介质
CN111785259A (zh) 信息处理方法、装置及电子设备
CN117289804B (zh) 虚拟数字人面部表情管理方法、装置、电子设备及介质
CN114241471B (zh) 视频文本识别方法、装置、电子设备及可读存储介质
CN114938476B (zh) 说话头视频合成方法、装置、终端设备及可读存储介质
EP4246438A1 (en) Information processing device, generation method, and generation program
CN113660537A (zh) 一种字幕生成方法和装置
WO2021171417A1 (ja) 発話終端検出装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant