CN107040746B - 基于语音控制的多人视频聊天方法及装置 - Google Patents

基于语音控制的多人视频聊天方法及装置 Download PDF

Info

Publication number
CN107040746B
CN107040746B CN201710210062.9A CN201710210062A CN107040746B CN 107040746 B CN107040746 B CN 107040746B CN 201710210062 A CN201710210062 A CN 201710210062A CN 107040746 B CN107040746 B CN 107040746B
Authority
CN
China
Prior art keywords
target
input information
image
primary
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710210062.9A
Other languages
English (en)
Other versions
CN107040746A (zh
Inventor
龙翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710210062.9A priority Critical patent/CN107040746B/zh
Publication of CN107040746A publication Critical patent/CN107040746A/zh
Application granted granted Critical
Publication of CN107040746B publication Critical patent/CN107040746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了基于语音控制的多人视频聊天方法及装置,涉及语音视频技术领域,该方法包括:获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;利用图像特征及音频特征,确定出每个时段内的主发声目标;分别在每个时段内删除除主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;将过滤后的音频输入信息与图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。通过本发明的基于语音控制的多人视频聊天方法,输出的混合后的音频输入信息仅包含主讲人的发言,去除了非主讲人麦克风的杂音,可以实现自动多人视频聊天的语音自停启控制,用户体验佳。

Description

基于语音控制的多人视频聊天方法及装置
技术领域
本发明涉及语音视频技术领域,特别是涉及基于语音控制的多人视频聊天方法及装置。
背景技术
随着互联网技术的发展及移动网络的广泛应用,语音视频技术越来越多的应用到生活的各个方面。在多人视频聊天的过程中,非主讲人的音频输入容易影响正常的通信。
现有技术中,为防止非主讲人的麦克风的杂音,当用户不发言时需要主动关闭麦克风,在发言时在主动手动启动麦克风。但是人工手动切换麦克风的工作状态,在多人语音视频中,会存在频繁切换的情况,而且容易发生用户忘记切换的情况,当用户忘记切换麦克风的工作状态时,非主讲人麦克风的杂音会影响主讲人的正常发言,并且用户频繁切换麦克风的工作状态,用户体验差。
发明内容
本发明实施例的目的在于提供一种基于语音控制的多人视频聊天方法及装置,以实现自动多人视频聊天的语音自停启控制,提高用户体验。具体技术方案如下:
一种基于语音控制的多人视频聊天方法,包括:
获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;
利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;
分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;
将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
可选的,所述音频特征包括:音频的波形;所述图像特征包括:图像的纹理。
可选的,所述利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标,包括:
分别在每个所述时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;
在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征达到预设声音清晰度时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
可选的,所述利用所述图像特征及所述音频特征,确定出每个预设时域中的主发声目标,包括:
分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。
在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征能够进行文字转换时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
可选的,所述分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标,包括:
分别在每个所述时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
可选的,所述将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息,包括:
分别获取每个所述过滤后的音频输入信息的音频输入时间及每个所述图像输入信息的图像输入时间;
根据所述图像输入时间,将所述图像输入信息进行混合,得到并输出混合后的图像输入信息;
根据所述音频输入时间,将所述过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
一种基于语音控制的多人视频聊天装置,包括:
信息获取模块,用于获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;
目标确定模块,用于利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;
音频过滤模块,用于分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;
信息混合模块,用于将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
可选的,所述信息获取模块获取的所述音频特征包括:音频的波形;所述信息获取模块获取的所述图像特征包括:图像的纹理。
可选的,所述目标确定模块,包括:
第一初级目标判定子模块,用于分别在每个所述时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;
第一主发声目标确定子模块,用于在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征达到预设声音清晰度时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
可选的,所述目标确定模块,包括:
第二初级目标判定子模块,用于分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。
第二主发声目标确定子模块,用于在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征能够进行文字转换时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
可选的,所述第二初级目标判定子模块,具体用于:
分别在每个所述时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
可选的,所述信息混合模块,包括:
输入时间获取子模块,用于分别获取每个所述过滤后的音频输入信息的音频输入时间及每个所述图像输入信息的图像输入时间;
图像混合子模块,用于根据所述图像输入时间,将所述图像输入信息进行混合,得到并输出混合后的图像输入信息;
音频混合子模块,用于根据所述音频输入时间,将所述过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
本发明实施例提供的基于语音控制的多人视频聊天方法及装置,根据图像特征及音频特征,分别确定每个时段内的主发声目标,分别在每个时段内删除除主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;将过滤后的音频输入信息与图像输入信息进行混合,得到并输出混合后的音频输入信息及图像输入信息。输出的混合后的音频输入信息仅包含主讲人的发言,去除了非主讲人麦克风的杂音,可以实现自动多人视频聊天的语音自停启控制,用户体验佳。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于语音控制的多人视频聊天方法的流程示意图;
图2为本发明实施例的基于语音控制的多人视频聊天方法的具体应用场景的示意图;
图3为本发明实施例的基于语音控制的多人视频聊天装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
多人视频聊天的过程中,用户需要手动控制麦克风的开关状态,用户体验差。因此本发明实施例提供了一种基于语音控制的多人视频聊天方法,包括:
S101,获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征。
多人视频聊天装置分别获取多人视频聊天中,每个用户的音频输入信息及图片输入信息,并相应的获取每个音频输入信息的音频特征及每个图像输入信息的图像特征。其中,音频特征可以为音频的波形,图像特征可以为图像的纹理,当然,音频特征还可以包括声音的音色、响度及音调,图像特征还可以包括图像的色彩。此处不再赘述。
多人视频聊天装置可以为一种设备,包括:处理器、存储器、通信接口和总线;处理器、存储器和通信接口通过总线连接并完成相互间的通信;存储器存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行基于语音控制的多人视频聊天方法。
多人视频聊天装置还可以为一种应用程序,用于在运行时执行基于语音控制的多人视频聊天方法。
多人视频聊天装置还可以为一种存储介质,用于存储可执行代码,可执行代码用于执行基于语音控制的多人视频聊天方法。
S102,利用图像特征及音频特征,确定出每个时段内的主发声目标。
多人视频聊天装置通过预先经过主发声目标识别学习的机器学习算法,根据图像特征及音频特征,分别确定出每个时段内的主发声目标。时段根据多人视频聊天的语音需求及多人视频聊天装置的实际处理能力预先设定,例如每1秒设定为一个时段。时段也可以为根据预先经过主发声目标识别学习的机器学习算法确定的。
预先经过主发声目标识别学习的机器学习算法可以为在监督式学习下进行建立的。建立以图像识别及音频识别为目标的神经网络,输入多组主发声目标的图像特征及音频特征进行监督式学习,以确定主发声目标的图像特征及音频特征的识别特征。例如,使用SVM(Support Vector Machine,支持向量机)算法,将包含人脸、人眼及嘴型变化的图像特征作为特征值,根据上述特征值及特征值的变化率确定输入向量,并分别采用Linearkernel(线性核函数)和RBF(Radial Basis Function,径向基函数)训练算法进行训练,并选取测试集效果更好的函数以完成经过主发声目标识别学习的机器学习算法。在识别主发声目标时,通过该机器学习算法分析每个用户的图像特征及音频特征,确定符合识别特征的图像特征及音频特征的用户及其符合的时段,并按照该符合的时段相应的将每个用户的音频输入信息及图片输入信息分割为不同的时段,同时确定各个时段中的主发声目标。
S103,分别在每个时段内删除除主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息。
将每个用户的音频输入信息分割为多个时段,若一个时段中某个用户不为主发声目标,则在该时段内删除该用户的音频输入信息。在每个时段中分别删除除主发声目标以外的其他用户的音频输入信息,得到过滤后的音频输入信息。
S104,将过滤后的音频输入信息与图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
将过滤后的音频输入信息进行混合,得到混合后的音频输入信息。将过滤后的图像输入信息进行混合,得到混合后图像输入信息。输出混合后的音频输入信息及混合后图像输入信息,可以为按照输入时间,将同一输入时间的混合后的音频输入信息及混合后图像输入信息同时进行输出。因为音频输入信息的过滤需要一定的计算时间,因此采用此种输出方法,需要将混合后的图像输入信息延时输出,但是采用此种输出方法,多人视频聊天中图像与音频间的延时小,用户不会产生声音的延时感。输出混合后的音频输入信息及混合后图像输入信息,还可以为根据处理时间进行混合,因为音频输入信息的过滤需要一定的计算时间,为了保证多人视频聊天的即时性,不将混合后的图像输入信息延时输出,而是直接输出,然后在输出处理后的音频输入信息。采用此种输出方法,输出的数据流(包括音频和图像)中,音频会有滞后感,但是保证了图像的即时性。
在本发明实施例中,通过音频特征和图像特征,确定每个时段中的主发声目标,分别在每个时段中删除除主发声目标外的其他用户的音频输入信息,将过滤后的音频输入信息与图像输入信息进行混合并输出。输出的混合后的音频输入信息仅包含主讲人的发言,去除了非主讲人麦克风的杂音,可以实现自动多人视频聊天的语音自停启控制,用户体验佳。
可选的,利用图像特征及音频特征,确定出每个时段内的主发声目标,包括:
步骤一,分别在每个时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标。
在不同的应用场景中,确定主发声目标的具体判定方法可能会不同,多数情况下主发声目标会处于静止状态或小幅度运动的状态。例如,在多人视频聊天的过程中,当用户演奏乐器时,通常会端坐在镜头前,仅仅通过手指的变化来实现乐器的演奏,判定图像特征变化较小的用户为初级判定目标(在摄像头前演奏乐器的用户的图像特征变化相对较小)。选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标,例如,以1s为时段,根据图像特征计算每个时段内图像输入信息中相邻两帧图像之间的欧式距离,并计算出每个时段内的欧式距离的和,当欧式距离的和小于预设变化阈值时(例如为0.1),判定欧式距离的和小于预设变化阈值的用户为初级判定目标。
步骤二,在初级判定目标所对应的时段内,当初级判定目标所对应的音频特征达到预设声音清晰度时,确定初级判定目标为初级判定目标所对应的时段内的主发声目标。
在根据图像特征确定每个时段内的初级判定目标后,还需要根据音频特征判定出主发声目标。通常情况下,主发声目标会距离麦克风较近,同时其声音也会较为清晰。在初级判定目标所对应的时段内,判断初级判定目标的音频特征的清晰度是否达到了预设声音清晰度,若初级判定目标的音频特征的清晰度达到了预设声音清晰度,则判定该初级判定目标为该时段内的主发声目标。
在本发明实施例中,给出了判定主发声目标的具体判定方法,主发声目标的判定适用范围广。
可选的,利用图像特征及音频特征,确定出每个预设时域中的主发声目标,包括:
步骤一,分别在每个时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。
在多人视频聊天中,当用户以语言进行交流时,通常主发声目标的人脸会对准摄像头,因此可以在每个时段内,检查图像特征中是否包含人脸特征及人眼特征,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。进一步的,可以选取图像输入信息的主区域的图像特征,进行人脸特征及人眼特征识别,以减少初级判定目标的个数,提升后续主发声目标判定的准确性。其中,主区域可以根据实际应用场景进行设定,一般情况下设定为图像输入信息的中心区域。例如,选择图像输入信息的图像区域:(x,y,roi_width,roi_height)为有主区域。(x,y)代表主区域的起始点,roi_width代表主区域的宽,roi_height代表主区域的高。
步骤二,在初级判定目标所对应的时段内,当初级判定目标所对应的音频特征能够进行文字转换时,确定初级判定目标为初级判定目标所对应的时段内的主发声目标。
检测语言清晰度的方法,可以为检验语言是否能够进行文字转换,例如,利用语音识别库做是否有语言输出的判定,若有语言输出则认为能够进行文字转换。若在初级判定目标对应的时段内,该初级判定目标的音频特征能够进行文字转换,则判定该初级判定目标为该时段的主发声目标。
在本发明实施例中,给出了在多人视频聊天中,当用户以语言进行交流时的主发声目标的判定方法,主发声目标的判定更加准确。
可选的,分别在每个时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标,包括:
分别在每个时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
在本发明实施例中,根据人脸特征、人眼特征及人嘴型变化特征确定初级判定目标,初级判定目标的选取更加准确。加入人嘴型变化特征能够提升后续音频特征进行文字转换的判定速度,从而降低了多人语音聊天中输出的音频信息的时延。
可选的,将过滤后的音频输入信息与图像输入信息进行混合,得到并输出混合后的音频输入信息及图像输入信息,包括:
步骤一,分别获取每个过滤后的音频输入信息的音频输入时间及每个图像输入信息的图像输入时间。
步骤二,根据图像输入时间,将图像输入信息进行混合,得到并输出混合后的图像输入信息。
根据图像输入时间,将所有图像输入信息进行混合,其中,图像输入信息根据图像输入时间相互对应,即相同输入时间的图像输入信息相互对应。
步骤三,根据音频输入时间,将过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
根据音频输入时间,将所有过滤后的音频输入信息进行混合,其中,过滤后的音频输入信息根据音频输入时间相互对应,即相同输入时间的音频输入信息相互对应。
在多人视频聊天的过程中,音频输入时间与图像输入时间也应该是相互对应的。但是因为音频输入信息需要进行过滤处理,会花费一定的处理时间。因此,可以为先输出混合后的图像输入信息,再输出混合后的音频输入信息;也可以为将相同输入时间的音频输入信息与图像输入信息同时进行输出。因为对除主发言目标外的其他音频信息进行了删除,因此在混合过滤后的音频输入信息与图像输入信息时,会存在部分输入时间的图像输入信息没有对应的相同时间的音频输入信息的情况。
在本发明实施例中,根据音频输入时间将过滤后的音频输入信息进行混合,根据图像输入时间将图像输入信息进行混合,多人视频聊天的过程中图像与音频各自同步,用户体验高。
参见图2,图2为本发明实施例的基于语音控制的多人视频聊天方法的具体应用场景的示意图。客户端1、客户端2及客户端3三个客户端正在进行多人视频聊天。多人视频聊天装置中的发言状态判断服务分别确定每个时段中的主发言目标,并在相应的时段内删除除主发言目标外的其他用户的音频输入信息。多人视频聊天装置中的流合成服务将过滤后的音频输入信息与图像输入信息进行混合,并分别输出给客户端1、客户端2及客户端3。
发言状态判断服务分别获取客户端1、客户端2及客户端3的音频输入信息及图像输入信息,并相应的提取音频特征及图像特征。根据音频特征及图像特征,在每个时段内进行主发言目标的判定,确定主发言目标,并分别在各个时段内删除除主发言目标外的其他用户的音频输入信息。其中,上述的时段为提前设定的,当时段设定为0.5s时,发言状态判断服务以0.5s为分割的周期,将音频输入信息分割为多个时段。
在多人视频聊天中,当用户以语言进行交流时,通常主发声目标的人脸会对准摄像头,因此在每个时段内,发言状态判断服务检查图像特征中是否包含人脸特征及人眼特征,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。然后,发言状态判断服务对音频特征进行检验,判断是否能够进行文字转换。若在初级判定目标对应的时段内,该初级判定目标的音频特征能够进行文字转换,则判定该初级判定目标为该时段的主发声目标。在每个时段中,删除除主发声目标外的其他用户的音频输入信息,然后流合成服务将输入时间相同的音频输入信息与图像输入信息进行混合,得到混合后的音频输入信息及图像输入信息。并分别向客户端1、客户端2及客户端3发送混合后的音频输入信息及图像输入信息。
在本发明实施例中,通过音频特征和图像特征,确定每个时段中的主发声目标,分别在每个时段中删除除主发声目标外的其他用户的音频输入信息,将过滤后的音频输入信息与图像输入信息进行混合并输出。输出的混合后的音频输入信息仅包含主讲人的发言,去除了非主讲人麦克风的杂音,可以实现自动多人视频聊天的语音自停启控制,用户体验佳。
一种基于语音控制的多人视频聊天装置,包括:
信息获取模块301,用于获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;
目标确定模块302,用于利用图像特征及音频特征,确定出每个时段内的主发声目标;
音频过滤模块303,用于分别在每个时段内删除除主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;
信息混合模块304,用于将过滤后的音频输入信息与图像输入信息进行混合,得到并输出混合后的音频输入信息及图像输入信息。
在本发明实施例中,通过音频特征和图像特征,确定每个时段中的主发声目标,分别在每个时段中删除除主发声目标外的其他用户的音频输入信息,将过滤后的音频输入信息与图像输入信息进行混合并输出。输出的混合后的音频输入信息仅包含主讲人的发言,去除了非主讲人麦克风的杂音,可以实现自动多人视频聊天的语音自停启控制,用户体验佳。
需要说明的是,上述装置是应用本发明实施例的基于语音控制的多人视频聊天方法的装置,则本发明实施例的基于语音控制的多人视频聊天方法的实施例均适用于该装置,且均能达到相同或相似的有益效果。
可选的,信息获取模块获取的音频特征包括:音频的波形;信息获取模块获取的图像特征包括:图像的纹理。
在本发明实施例中,信息获取模块获取的音频特征包括:音频的波形,信息获取模块获取的图像特征包括:图像的纹理。音频的波形与图像的纹理获取方便,并且音频的波形与图像的纹理的特征容易辨识,适宜后续作为判断主发声目标的依据。
可选的,目标确定模块,包括:
第一初级目标判定子模块,用于分别在每个时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;
第一主发声目标确定子模块,用于在初级判定目标所对应的时段内,当初级判定目标所对应的音频特征达到预设声音清晰度时,确定初级判定目标为初级判定目标所对应的时段内的主发声目标。
在本发明实施例中,给出了判定主发声目标的具体判定方法,主发声目标的判定适用范围广。
可选的,目标确定模块,包括:
第二初级目标判定子模块,用于分别在每个时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。
第二主发声目标确定子模块,用于在初级判定目标所对应的时段内,当初级判定目标所对应的音频特征能够进行文字转换时,确定初级判定目标为初级判定目标所对应的时段内的主发声目标。
在本发明实施例中,给出了在多人视频聊天中,当用户以语言进行交流时的主发声目标的判定方法,主发声目标的判定更加准确。
可选的,第二初级目标判定子模块,具体用于:
分别在每个时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
在本发明实施例中,根据人脸特征、人眼特征及人嘴型变化特征确定初级判定目标,初级判定目标的选取更加准确。加入人嘴型变化特征能够提升后续音频特征进行文字转换的判定速度,从而降低了多人语音聊天中输出的音频信息的时延。
可选的,信息混合模块,包括:
输入时间获取子模块,用于分别获取每个过滤后的音频输入信息的音频输入时间及每个图像输入信息的图像输入时间;
图像混合子模块,用于根据图像输入时间,将图像输入信息进行混合,得到并输出混合后的图像输入信息;
音频混合子模块,用于根据音频输入时间,将过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
在本发明实施例中,根据音频输入时间将过滤后的音频输入信息进行混合,根据图像输入时间将图像输入信息进行混合,多人视频聊天的过程中图像与音频各自同步,用户体验高。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种基于语音控制的多人视频聊天方法,其特征在于,包括:
获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;
利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;
分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;
将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
2.根据权利要求1所述的方法,其特征在于,所述音频特征包括:音频的波形;所述图像特征包括:图像的纹理。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标,包括:
分别在每个所述时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;
在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征达到预设声音清晰度时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
4.根据权利要求1或2所述的方法,其特征在于,所述利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标,包括:
分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标;
在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征能够进行文字转换时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
5.根据权利要求4所述的方法,其特征在于,所述分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标,包括:
分别在每个所述时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
6.根据权利要求1或2所述的方法,其特征在于,所述将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息,包括:
分别获取每个所述过滤后的音频输入信息的音频输入时间及每个所述图像输入信息的图像输入时间;
根据所述图像输入时间,将所述图像输入信息进行混合,得到并输出混合后的图像输入信息;
根据所述音频输入时间,将所述过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
7.一种基于语音控制的多人视频聊天装置,其特征在于,包括:
信息获取模块,用于获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;
目标确定模块,用于利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;
音频过滤模块,用于分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;
信息混合模块,用于将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
8.根据权利要求7所述的装置,其特征在于,所述信息获取模块获取的所述音频特征包括:音频的波形;所述信息获取模块获取的所述图像特征包括:图像的纹理。
9.根据权利要求7或8所述的装置,其特征在于,所述目标确定模块,包括:
第一初级目标判定子模块,用于分别在每个所述时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;
第一主发声目标确定子模块,用于在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征达到预设声音清晰度时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
10.根据权利要求7或8所述的装置,其特征在于,所述目标确定模块,包括:
第二初级目标判定子模块,用于分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标;
第二主发声目标确定子模块,用于在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征能够进行文字转换时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。
11.根据权利要求10所述的装置,其特征在于,所述第二初级目标判定子模块,具体用于:
分别在每个所述时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。
12.根据权利要求7或8所述的装置,其特征在于,所述信息混合模块,包括:
输入时间获取子模块,用于分别获取每个所述过滤后的音频输入信息的音频输入时间及每个所述图像输入信息的图像输入时间;
图像混合子模块,用于根据所述图像输入时间,将所述图像输入信息进行混合,得到并输出混合后的图像输入信息;
音频混合子模块,用于根据所述音频输入时间,将所述过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。
CN201710210062.9A 2017-03-31 2017-03-31 基于语音控制的多人视频聊天方法及装置 Active CN107040746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710210062.9A CN107040746B (zh) 2017-03-31 2017-03-31 基于语音控制的多人视频聊天方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710210062.9A CN107040746B (zh) 2017-03-31 2017-03-31 基于语音控制的多人视频聊天方法及装置

Publications (2)

Publication Number Publication Date
CN107040746A CN107040746A (zh) 2017-08-11
CN107040746B true CN107040746B (zh) 2019-11-15

Family

ID=59534759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710210062.9A Active CN107040746B (zh) 2017-03-31 2017-03-31 基于语音控制的多人视频聊天方法及装置

Country Status (1)

Country Link
CN (1) CN107040746B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108718402B (zh) * 2018-08-14 2021-04-13 四川易为智行科技有限公司 视频会议管理方法及装置
CN109040641B (zh) * 2018-08-30 2020-10-16 维沃移动通信有限公司 一种视频数据合成方法及装置
CN110324157A (zh) * 2019-08-08 2019-10-11 北京佑仁天下网络科技有限公司 一种多人语音聊天系统
CN111240540B (zh) * 2019-12-27 2023-11-10 咪咕视讯科技有限公司 视频调整方法、具有柔性屏的终端及存储介质
CN111754990A (zh) * 2020-06-24 2020-10-09 杨文龙 语音聊天协同处理方法及装置
CN112383720B (zh) * 2020-11-11 2023-03-07 杭州海康威视数字技术股份有限公司 一种图像数据处理设备及图像数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1443006A (zh) * 2003-01-16 2003-09-17 浙江南望图像信息产业有限公司 一种智能控制视频会议的混音系统及控制会议进程的方法
CN103733602A (zh) * 2011-08-16 2014-04-16 思科技术公司 用于静音与源相关联的音频的系统和方法
CN106027589A (zh) * 2015-01-12 2016-10-12 仁宝电脑工业股份有限公司 视频与音频处理装置及其视频会议系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200743385A (en) * 2006-05-05 2007-11-16 Amtran Technology Co Ltd Method of audio-visual communication using television and television using the same
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1443006A (zh) * 2003-01-16 2003-09-17 浙江南望图像信息产业有限公司 一种智能控制视频会议的混音系统及控制会议进程的方法
CN103733602A (zh) * 2011-08-16 2014-04-16 思科技术公司 用于静音与源相关联的音频的系统和方法
CN106027589A (zh) * 2015-01-12 2016-10-12 仁宝电脑工业股份有限公司 视频与音频处理装置及其视频会议系统

Also Published As

Publication number Publication date
CN107040746A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN107040746B (zh) 基于语音控制的多人视频聊天方法及装置
US20200016745A1 (en) Data Processing Method for Care-Giving Robot and Apparatus
CN109176535B (zh) 基于智能机器人的交互方法及系统
US8581953B2 (en) Method and apparatus for providing animation effect on video telephony call
CN107340865A (zh) 多模态虚拟机器人交互方法和系统
CN108833941A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
CN110505491A (zh) 一种直播的处理方法、装置、电子设备及存储介质
CN107480766B (zh) 多模态虚拟机器人的内容生成的方法和系统
CN109857311A (zh) 生成人脸三维模型的方法、装置、终端及存储介质
CN104700860A (zh) 律动图像化方法及系统
CN107845062A (zh) 图像生成方法及装置
CN105934936A (zh) 控制会议中的语音组成
WO2021223724A1 (zh) 信息处理方法、装置和电子设备
CN109286848B (zh) 一种终端视频信息的交互方法、装置及存储介质
CN109739354A (zh) 一种基于声音的多媒体交互方法及装置
CN107623830B (zh) 一种视频通话方法及电子设备
CN112911192A (zh) 视频处理方法、装置和电子设备
CN109877834A (zh) 多屏显示机器人、方法和装置、显示机器人和显示方法
CN108986804A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
CN113783709B (zh) 基于会议系统的参会人员监测处理方法、装置、智能终端
CN112860213B (zh) 音频的处理方法和装置、存储介质及电子设备
JP6796762B1 (ja) 仮想人物対話システム、映像生成方法、映像生成プログラム
WO2019080900A1 (zh) 神经网络训练方法和装置、存储介质及电子装置
CN105797375A (zh) 一种跟随用户脸部表情改变角色模型表情的方法和终端
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant