CN112423000B - 数据处理方法、装置、设备以及介质 - Google Patents

数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN112423000B
CN112423000B CN202011163668.XA CN202011163668A CN112423000B CN 112423000 B CN112423000 B CN 112423000B CN 202011163668 A CN202011163668 A CN 202011163668A CN 112423000 B CN112423000 B CN 112423000B
Authority
CN
China
Prior art keywords
user
target
anchor
voice data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011163668.XA
Other languages
English (en)
Other versions
CN112423000A (zh
Inventor
张艳军
宋晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011163668.XA priority Critical patent/CN112423000B/zh
Publication of CN112423000A publication Critical patent/CN112423000A/zh
Application granted granted Critical
Publication of CN112423000B publication Critical patent/CN112423000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法包括:响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据;获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。采用本申请实施例,可以丰富虚拟房间的进入方式,并提高用户与虚拟房间之间的匹配度。

Description

数据处理方法、装置、设备以及介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备以及介质。
背景技术
随着互联网技术的发展和娱乐应用的不断涌现,用户使用娱乐应用进行娱乐交互的方式愈发丰富,如用户可以在直播应用中通过直播的方式与其余用户进行交互。
现有技术中,主播用户可以在直播应用中开启直播,主播用户开启直播后,可以等待其余用户加入该主播用户的直播间。作为普通用户,可以在直播应用中输入主播用户的名称、直播间号等信息来搜索相应的直播间并加入该直播间,用户在加入直播间后,可以在直播间的弹幕区域中发送消息与主播用户进行互动。然而,仅基于主播用户名称、直播号等信息加入直播间的方式过于单一,且用户所加入的直播间可能并不是该用户感兴趣的直播间,造成用户与直播间之间的匹配程度过低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以丰富虚拟房间的进入方式,并提高用户与虚拟房间之间的匹配度。
本申请实施例一方面提供了一种数据处理方法,包括:
响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据;
获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。
其中,上述响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据,包括:
响应针对直播应用的启动操作,显示直播应用对应的应用展示主页;应用展示主页包括声音匹配模式;
响应针对应用展示主页中的声音匹配模式的选取操作,显示声音匹配模式对应的语音控件;
响应针对语音控件的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据。
其中,上述获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度,包括:
获取目标语音数据对应的用户语音特征,获取直播应用中至少两个虚拟房间分别对应的主播语音数据;
获取至少两个主播语音数据分别对应的主播语音特征,根据用户语音特征和主播语音特征,确定目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,上述获取目标语音数据对应的用户语音特征,包括:
对目标语音数据进行频域变换,生成目标语音数据对应的频谱特征,获取与频谱特征相对应的倒谱系数,将倒谱系数确定为目标语音数据对应的用户声纹特征;
将用户声纹特征输入至声学模型,在声学模型中获取与用户声纹特征相匹配的目标音素信息;
获取与直播应用相关联的字典,在字典中获取目标音素信息对应的候选字符;字典包括直播应用中的样本文本数据与音素信息之间的对应关系;
根据候选字符确定目标音素信息对应的用户语音内容,将用户声纹特征和用户语音内容确定为用户语音特征。
其中,上述对目标语音数据进行频域变换,生成目标语音数据对应的频谱特征,获取与频谱特征相对应的倒谱系数,包括:
对目标语音数据进行预加重处理,得到目标语音数据对应的补偿语音数据;
将补偿语音数据进行分帧处理,获取补偿语音数据对应的至少两个语音帧片段;
将至少两个语音帧片段进行频域变换,获取补偿语音数据对应的频谱特征;
将频谱特征转换至倒谱特征,对倒谱特征进行离散余弦变换,得到倒谱特征对应的倒谱系数。
其中,声学模型包括深度神经网络和隐马尔科夫模型;
上述将用户声纹特征输入至声学模型,在声学模型中获取与用户声纹特征相匹配的目标音素信息,包括:
将用户声纹特征输入至声学模型,根据深度神经网络获取用户声纹特征对应的音素状态概率;
根据隐马尔科夫模型,对音素状态概率进行解码,生成与用户声纹特征相匹配的目标音素信息。
其中,上述获取与直播应用相关联的字典,包括:
获取直播应用中的样本文本数据,将样本文本数据划分为至少两个单位字符,将每个单位字符均转换为字符向量;
将至少两个字符向量输入至语言模型,在语言模型中获取至少两个字符向量之间的语义特征,根据语义特征在样本文本数据中获取目标字符;
获取常用字符,根据常用字符和目标字符生成与直播应用相关联的字典。
其中,上述根据用户语音特征和主播语音特征,确定目标语音数据和至少两个主播语音数据之间的数据匹配度,包括:
获取用户语音特征和主播语音特征之间的点乘值,获取用户语音特征的范数与主播语音特征的范数之间的乘积值;
将点乘值和乘积值之间的比值,确定为目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,上述根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,包括:
根据数据匹配度,对至少两个主播语音数据进行排序,得到排序后的至少两个主播语音数据;
在排序后的至少两个主播语音数据中,按照排序顺序获取M个主播语音数据;M为正整数;
在M个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据。
其中,上述在M个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,包括:
获取M个主播语音数据对应的M个虚拟房间中的互动用户数量,将互动用户数量小于数量阈值的虚拟房间确定为候选虚拟房间;
将候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据。
其中,该方法还包括:
在目标主播用户所在的虚拟房间中,统计至少两个互动用户分别向目标主播用户所提供的虚拟资产数量;至少两个互动用户包括目标互动用户;
将最大的虚拟资产数量所对应的互动用户确定为第一互动用户;
响应与第一互动用户相关联的语音互动操作,在目标主播用户所在的虚拟房间中播放第一互动用户对应的互动语音数据。
其中,该方法还包括:
将至少两个互动用户中除第一互动用户之外的互动用户确定为第二互动用户;
响应与第二互动用户相关联的语音互动操作,在目标主播用户所属虚拟房间的弹幕区域中输出第二互动用户对应的互动语音数据;
响应弹幕区域中的播放操作,在目标主播用户所属虚拟房间的弹幕区域中播放第二互动用户对应的互动语音数据。
本申请实施例一方面提供了一种数据处理装置,包括:
操作响应模块,用于响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据;
匹配度获取模块,用于获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
虚拟房间加入模块,用于根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。
其中,操作响应模块包括:
主页显示单元,用于响应针对直播应用的启动操作,显示直播应用对应的应用展示主页;应用展示主页包括声音匹配模式;
模式选取单元,用于响应针对应用展示主页中的声音匹配模式的选取操作,显示声音匹配模式对应的语音控件;
语音数据获取单元,用于响应针对语音控件的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据。
其中,匹配度获取模块包括:
语音特征获取单元,用于获取目标语音数据对应的用户语音特征,获取直播应用中至少两个虚拟房间分别对应的主播语音数据;
匹配度确定单元,用于获取至少两个主播语音数据分别对应的主播语音特征,根据用户语音特征和主播语音特征,确定目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,语音特征获取单元包括:
声纹特征获取子单元,用于对目标语音数据进行频域变换,生成目标语音数据对应的频谱特征,获取与频谱特征相对应的倒谱系数,将倒谱系数确定为目标语音数据对应的用户声纹特征;
音素信息获取子单元,用于将用户声纹特征输入至声学模型,在声学模型中获取与用户声纹特征相匹配的目标音素信息;
候选字符获取子单元,用于获取与直播应用相关联的字典,在字典中获取目标音素信息对应的候选字符;字典包括直播应用中的样本文本数据与音素信息之间的对应关系;
语音内容确定子单元,用于根据候选字符确定目标音素信息对应的用户语音内容,将用户声纹特征和用户语音内容确定为用户语音特征。
其中,声纹特征获取子单元包括:
预加重处理子单元,用于对目标语音数据进行预加重处理,得到目标语音数据对应的补偿语音数据;
语音分割子单元,用于将补偿语音数据进行分帧处理,获取补偿语音数据对应的至少两个语音帧片段;
频域变换子单元,用于将至少两个语音帧片段进行频域变换,获取补偿语音数据对应的频谱特征;
倒谱系数获取子单元,用于将频谱特征转换至倒谱特征,对倒谱特征进行离散余弦变换,得到倒谱特征对应的倒谱系数。
其中,声学模型包括深度神经网络和隐马尔科夫模型;
音素信息获取子单元包括:
概率获取子单元,用于将用户声纹特征输入至声学模型,根据深度神经网络获取用户声纹特征对应的音素状态概率;
解码子单元,用于根据隐马尔科夫模型,对音素状态概率进行解码,生成与用户声纹特征相匹配的目标音素信息。
其中,候选字符获取子单元包括:
字符转换子单元,用于获取直播应用中的样本文本数据,将样本文本数据划分为至少两个单位字符,将每个单位字符均转换为字符向量;
语义特征获取子单元,用于将至少两个字符向量输入至语言模型,在语言模型中获取至少两个字符向量之间的语义特征,根据语义特征在样本文本数据中获取目标字符;
字典生成子单元,用于获取常用字符,根据常用字符和目标字符生成与直播应用相关联的字典。
其中,匹配度确定单元包括:
乘积运算子单元,用于获取用户语音特征和主播语音特征之间的点乘值,获取用户语音特征的范数与主播语音特征的范数之间的乘积值;
匹配度计算子单元,用于将点乘值和乘积值之间的比值,确定为目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,虚拟房间加入模块包括:
排序单元,用于根据数据匹配度,对至少两个主播语音数据进行排序,得到排序后的至少两个主播语音数据;
主播语音选取单元,用于在排序后的至少两个主播语音数据中,按照排序顺序获取M个主播语音数据;M为正整数;
目标主播数据确定单元,用于在M个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据。
其中,目标主播数据确定单元包括:
用户数量获取子单元,用于获取M个主播语音数据对应的M个虚拟房间中的互动用户数量,将互动用户数量小于数量阈值的虚拟房间确定为候选虚拟房间;
目标主播确定子单元,用于将候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据。
其中,该装置还包括:
资产数量统计模块,用于在目标主播用户所在的虚拟房间中,统计至少两个互动用户分别向目标主播用户所提供的虚拟资产数量;至少两个互动用户包括目标互动用户;
第一确定模块,用于将最大的虚拟资产数量所对应的互动用户确定为第一互动用户;
第一语音播放模块,用于响应与第一互动用户相关联的语音互动操作,在目标主播用户所在的虚拟房间中播放第一互动用户对应的互动语音数据。
其中,该装置还包括:
第二确定模块,用于将至少两个互动用户中除第一互动用户之外的互动用户确定为第二互动用户;
互动语音输出模块,用于响应与第二互动用户相关联的语音互动操作,在目标主播用户所属虚拟房间的弹幕区域中输出第二互动用户对应的互动语音数据;
第二语音播放模块,用于响应弹幕区域中的播放操作,在目标主播用户所属虚拟房间的弹幕区域中播放第二互动用户对应的互动语音数据。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中一方面中方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行如本申请实施例中一方面中方法的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
本申请实施例可以响应直播应用中的语音输入操作,在直播应用中获取该语音输入操作所输入的目标语音数据,获取该直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度,此处的至少两个主播语音数据分别为至少两个主播用户所提供的语音数据,进而可以根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间。可见,目标互动用户可以在直播应用中输入目标语音数据,通过目标语音数据与至少两个直播用户的主播语音数据之间的数据匹配度,为目标互动用户匹配一个目标直播用户,并将目标主动用户加入目标直播用户的虚拟房间,可以丰富直播应用中虚拟房间的进入方式,并根据目标互动用户的语音数据与直播用户的语音数据之间的匹配度确定虚拟房间,可以提高用户与虚拟房间之间的匹配度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据处理场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种获取用户声纹特征的流程示意图;
图5是本申请实施例提供的一种语音识别系统的框架示意图;
图6是本申请实施例提供的一种在虚拟房间中抢牌子的游戏流程示意图;
图7是本申请实施例提供的一种在虚拟房间中抢牌子的游戏界面示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器10d和用户终端集群,用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,多个用户终端具体可以包括用户终端10a、用户终端10b以及用户终端10c等;如图1所示,用户终端10a、用户终端10b以及用户终端10c可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,用户终端10a、用户终端10b以及用户终端10c均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等携带数据处理功能(例如,多媒体数据播放功能)的智能终端。例如,以图1所示的用户终端10a、用户终端10b以及服务器10d为例,用户终端10a和用户终端10b中均可以安装有直播应用,用户终端10a和用户终端10b可以表示为主播用户或者互动用户所使用的终端设备,服务器10d可以为直播应用的后台服务器,其中,主播用户可以理解为直播应用中创建直播间(也可以称为虚拟房间)并开启直播的用户,互动用户可以理解为直播应用中即将加入或者已经加入直播间与主播用户进行互动的用户。当用户终端10a的使用者为主播用户时,主播用户可以打开用户终端10a中所安装的直播应用,触发直播应用中的语音模式,在直播应用中创建直播间并开启直播,在主播用户成功开始直播后,可以等待互动用户的加入。可以理解的是,主播应用可以包括语音模式,主播用户可以触发直播应用中的语音模式,在主播用户成功开始直播后,可以等待直播应用通过语音数据为该主播用户匹配的互动用户;或者主播用户也可以在直播应用的展示主页中上传一段自己的语音数据,以邀请互动用户加入自己的直播间。其中,直播可以是指通过设备采集开播方数据,经过一系列处理(例如,视频编码压缩)成可观看、可传输的音视频流,输出至观看用户端(也可以称为互动用户端)的技术。
当用户终端10b的使用者为互动用户时,该互动用户可以打开用户终端10b中所安装的直播应用,同样可以触发直播应用中的语音匹配模式,进入直播应用对应的展示主页;该互动用户可以在展示主页中输入一段用户语音数据,此时的用户终端10b可以获取该互动用户所输入的目标语音数据,并将该用户语音数据传输至服务器10d。服务器10d可以获取直播应用中所有主播用户的主播语音数据,获取目标语音数据和所有主播语音数据分别对应的语音内容、声音音色以及声音情绪等信息,确定目标语音数据与直播应用中所有主播语音数据之间的数据匹配度(也可以称为数据相似度),进而可以根据数据匹配度在直播应用中确定与目标语音数据相匹配的主播语音数据,即确定与互动用相匹配的直播间(例如,用户终端10a所对应主播用户开启的直播间),服务器10d可以将互动用户所匹配的直播间传输至用户终端10b。用户终端10b在接收到服务器10b传输的匹配直播间后,可以将互动用户添加至所匹配的直播间。在互动用户加入直播间后,可以以语音的形式在直播间中进行互动交流。本申请实施例中,通过互动用户的目标语音数据与主播用户的主播语音数据之间的数据匹配度,为互动用户在直播应用中匹配相应的直播间,可以丰富直播间的进入方式,并提高直播间和互动用户之间的匹配度。
进一步地,请一并参见图2,图2是本申请实施例提供的一种数据处理场景示意图。下面以互动用户侧为例,对互动用户匹配直播间的过程进行说明。如图2所示的用户终端20a可以为直播应用中想要参与直播互动的用户所使用的终端设备,用户终端20a中可以安装有直播应用,应用服务器20e可以是指直播应用对应的后台服务器,如上述图1所对应实施例的用户终端集群中的任意一个用户终端。
本申请实施例中,可以将用户终端20a的使用者称为直播应用中的目标互动用户。目标互动用户可以对用户终端20a中所安装的直播应用执行启动操作,用户终端20a可以响应针对直播应用的启动操作,在用户终端20a中显示该直播应用对应的首页,该首页可以包括声音星球入口(也可以称为声音匹配模式),此处的声音星球是一种以声音来匹配主播直播间的互动形式,目标互动用户可以在直播应用中发一段语音数据,由该直播应用按照语音数据的相似度来匹配到主播开启的主播直播间,帮助目标互动用户快速找到想要观看的直播内容和主题。
目标互动用户可以对首页中的声音星球入口执行触发操作(例如,点击操作、滑动操作、双击操作等),用户终端20a可以响应针对声音星球入口的触发操作,显示声音星球对应的展示页面20b,此时目标互动用户的头像可以在展示页面20b进行显示;当前,对于进入声音星球且还没匹配到主播直播间的其余用户的头像,同样可以在展示页面20b中进行显示。展示页面20b中还可以包括语音控件20c、星球广场控件、消息控件、“我的”控件以及声音星球的在线人数(如在线人数为267656)等。其中,星球广场控件用于在展示页面20b中显示语音控件20c,该语音控件20c可以用于输入语音数据;消息控件可以用于在展示页面20b中显示目标互动用户接收到的消息数据;“我的”控件可以用于在展示页面20b中显示目标互动用户的个人信息。
进一步地,目标互动用户可以对展示主页20c中的语音控件20c执行触发操作,在展示主页20c中输入该目标互动用户自己的语音数据(当前目标互动用户所输入的语音数据可以称为目标语音数据);用户终端20a可以响应针对语音控件20c的语音输入操作,获取该目标互动用户所输入的目标语音数据。例如,目标互动用户可以长按(可以理解为用户终端20a中的压力传感器检测到目标互动用户按压屏幕的时长超过时长阈值,如2秒)语音控件20c录入语音,在目标互动用户松开语音控件20c后,表示目标互动用户完成了语音数据的输入,此时的用户终端20a可以在展示页面20b中显示目标语音数据的输入时长(例如,目标语音数据的时长为6秒)。用户终端20a可以将获取到的目标语音数据传输至应用服务器20e,并向应用服务器20e发送语音数据匹配请求,在应用服务器20e对目标语音数据进行直播间匹配处理时,用户终端可以将语音控件20c切换显示为“取消匹配”控件20d,即表示应用服务器20e正在为目标互动用户所输入的目标语音数据进行直播间匹配处理。可选的,目标互动用户还可以对“取消匹配”控件20d执行触发操作,用户终端20a可以响应针对“取消匹配”控件20d的触发操作,取消对目标语音数据的匹配处理,即放弃目标语音数据的此次匹配过程。
应用服务器20e在接收到用户终端20a发送的语音数据匹配请求以及目标互动用户所输入的目标语音数据后,应用服务器20e可以从直播应用的语音数据库20f中获取正在直播的所有主播用户的主播语音数据。其中,语音数据库20f可以包括直播应用中所存储的所有语音数据,如主播用户每次直播时,直播间中主播用户与互动用户之间的互动语音数据,本申请中的主播语音数据可以是指直播应用中正在进行直播的主播用户所提供的语音数据,该主播语音数据可以为主播用户为邀请互动用户而主动上传到声音星球展示页面20b的语音数据,或者是指主播用户在开始直播后所采集的语音数据等。若直播应用中当前正在直播的主播用户包括主播用户1,主播用户2,主播用户3,……,主播用户n(n为正整数),则应用服务器20e可以获取n个主播用户分别对应的主播语音数据,并获取n个主播语音数据分别对应的主播语音特征(此处的主播语音特征可以包括使用梅尔频率倒谱系数表示的声纹特征和主播语音数据对应的文本内容),以及目标语音数据的用户语音特征(此处的用户语音特征同样可以包括使用梅尔频率倒谱系数表示的声纹特征和目标语音特征对应的文本内容)。
应用服务器20e可以根据用户语音特征和主播语音特征,计算目标语音数据分别与n个主播语音数据之间的数据匹配度,即计算目标语音数据与主播用户1对应的主播语音数据之间的数据匹配度1,目标语音数据与主播用户2对应的主播语音数据之间的数据匹配度2,……,目标语音数据与主播用户N对应的主播语音数据之间的数据匹配度n。应用服务器20e可以对n个数据匹配度进行排序,将n个数据匹配度中最大的数据匹配度所对应的主播语音数据确定为目标主播语音数据,提供该目标主播语音数据的主播用户可以称为目标主播用户,该目标主播用户的直播间即为目标语音数据对应的匹配结果。例如,当目标语音数据与主播用户4对应的主播语音数据之间的数据匹配度4,为n个数据匹配度中的最大值时,可以将主播用户4确定为目标主播用户,此时主播用户4正在进行直播的直播间可以作为目标语音数据的匹配结果。应用服务器20e可以将目标语音数据的匹配结果返回至用户终端20a。
用户终端20a在接收到目标语音数据的匹配结果(包括目标主播用户的直播间)后,可以将目标互动用户添加至目标主播用户的直播间,在直播应用中将展示页面20b切换显示为目标主播用户的直播间。目标主播用户的直播间可以显示加入该直播间的所有互动用户的头像、直播间的名称、房间号、弹幕消息等信息,如图2所示,目标互动用户所加入的直播间的名称为“名字XXXX”,房间号为“116889”,用户小A为该直播间的主播用户,即用户小A为目标主播用户,用户小B、用户小C、用户小D、用户小E、用户小F、用户小G(此时的小G为上述目标互动用户)以及用户小F均为加入该直播间的互动用户。可以理解的是,在该直播间中,主播用户小A与互动用户之间可以通过语音来进行交互,因此可以不显示主播用户小A和互动用户对应的视频画面,仅在直播间中输出主播用户与互动用户的语音数据,直播间中主播用户小A的语音为全局语音,其余互动用户的语音可能为全局语音,也可以能为非全局语音;其中,全局语音是指在直播间发送语音数据时,可以在该直播间中直接外放该语音数据,凡是加入该直播间的所有用户均可以听到;非全局语音是指在直播间发送语音数据时,仅在直播间的弹幕区域以语音消息的形式展示该语音数据,用户若想要知道该语音数据的具体内容,还需要各自在弹幕区域中点击播放该语音数据。当然,目标互动用户(即用户小G)也可以触发直播间中的语音发送控件,在该直播间中发送语音数据。
需要说明的是,在直播过程中,若目标互动用户对主播用户小A的此次直播感兴趣,则目标互动用户可以对直播间中的控件20q执行触发操作,用户终端20a可以响应针对控件20q的触发操作,将主播用户小A的声音收藏至声音星球的个人中心,可以方便目标互动用户下一次可以根据收藏的主播声音,快速进入主播用户小A的直播间。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。可以理解地,本申请提出的数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端(如上述图1所对应实施例中的用户终端10a),或者为服务器(如上述图1所对应实施例中的服务器10d),或者为用户终端和服务器组成的系统,或者为计算机设备中的一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该数据处理方法可以包括以下步骤S101-步骤S103:
步骤S101,响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据。
具体的,计算机设备(如上述图1所对应实施例中的用户终端10a)中可以安装有具有直播功能的应用(下面简称为“直播应用”)。当使用该计算机设备的用户启动该直播应用之后(为方便描述,下面将计算机设备的使用者简称为直播应用中的目标互动用户),计算机设备可以响应针对直播应用的启动操作,在该计算机设备中显示直播应用对应的应用展示主页,该应用展示主页可以包括声音匹配模式(如上述图2所对应实施例中的声音星球入口);目标互动用户可以对应用展示主页中的声音匹配模式执行选取操作,计算机设备可以响应针对应用展示主页中的声音匹配模式的选取操作,在直播应用中显示声音匹配模式对应的语音控件(如上述图2所对应实施例中的语音控件20c),互动用户可以触发该语音控件在直播应用中录入一段语音数据,计算机设备可以响应针对语音控件的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据,该目标语音数据可以为目标互动用户通过触发语音控件输入的语音数据。
可以理解的是,直播应用中的声音匹配模式可以理解为互动用户通过上传一段目标语音数据,根据目标语音数据与各主播用户的主播语音数据之间的相似度,匹配相应的虚拟房间,即目标互动用户是主动上传目标语音数据来匹配虚拟房间,而不是被动地等待直播应用为目标互动用户推荐虚拟房间。可选的,声音匹配模式中的虚拟房间可以使用语音进行交流互动,即通过语音交互作为交友的一种手段,在虚拟房间中可以不展示个人画面。
可选的,直播应用中除声音匹配模式之外,还包括普通模式,该普通模式可以是指互动用户可以从直播应用中搜索特定的主播用户或者虚拟房间(也可以称为直播间)进行指定匹配,即互动用户在加入虚拟房间之前无需在直播应用中上传语音数据,就可以进入指定的虚拟房间。此处的普通模式与传统的虚拟房间进入方式相似,本申请实施例对普通模式下的虚拟房间匹配模式不作具体描述。
步骤S102,获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;至少两个主播语音数据分别为至少两个主播用户所提供的语音数据。
具体的,计算机设备在获取到目标互动用户输入的目标语音数据后,可以获取直播应用中当前时刻正在进行直播的至少两个虚拟房间分别对应的主播语音数据,如目标互动用户输入目标语音数据的时间为T1时刻,则计算机设备可以获取直播应用中T1时刻正在进行直播的虚拟房间中的主播语音数据,每个虚拟房间可以对应一个主播用户,也可以对应多个主播用户,主播语音数据是指对应的主播用户所提供的语音数据。需要说明的是,直播应用中的每个主播用户在开始直播之前,均可以选择在声音匹配模式下开启虚拟房间;主播用户成功开始直播后,主播用户可以等待直播应用根据语音数据为虚拟房间匹配互动用户,或者主播用户还可以自己主动上传一段主播语音数据至直播应用的应用展示主页,以邀请互动用户加入自己的虚拟房间,即主播用户对应的主播语音数据可以直接在应用展示页面中进行获取,还可以从虚拟房间中实时采集主播用户的主播语音数据等。可选的,对于已经主动上传主播语音数据至应用展示主页的主播用户的虚拟房间,目标互动用户可以在进入直播间后直接播放主播用户的主播语音数据,选择想要进入的虚拟房间,即目标用户可以自己为自己匹配相对应的虚拟房间。
进一步地,计算机设备在获取到直播应用中正在进行直播的至少两个主播用户所对应的主播语音数据后,可以获取目标语音数据分别与每个主播语音数据之间的数据匹配度(也可以称为数据相似度),随后可以根据数据匹配度为目标互动用户匹配虚拟房间。需要说明的是,若在目标用户输入目标语音数据时,直播应用中不存在正在进行直播的主播用户,即直播应用中在当前时刻没有开启的虚拟房间,则目标互动用户无法在直播应用中匹配到虚拟房间,即目标互动用户对应的语音数据匹配结果为匹配失败,此时的目标互动用户可以选择退出直播应用,或者在直播应用中等待任一主播用户开启虚拟房间,或者目标互动用户可以作为主播用户在直播应用中开启一个新的虚拟房间等。
其中,目标语音数据与至少两个组播语音数据之间的数据匹配度的确定过程可以包括:计算机设备可以获取目标语音数据对应的用户语音特征,以及每个主播语音数据分别对应的主播语音特征,根据用户语音特征与主播语音特征之间的相似度,确定目标语音数据和至少两个主播语音数据之间的数据匹配度。换言之,无论是目标互动用户所提供的目标语音数据,还是主播用户所提供的的主播语音数据,均需要对其执行语音特征提取过程,且目标语音数据和每个主播语音数据的语音特征提取过程是相同的,因此本申请实施例以目标语音数据的语音特征提取过程为例,对用户语音特征的提取过程进行具体描述。
计算机设备可以对目标语音数据进行频域变换,生成目标语音数据对应的频谱特征,进而可以获取与频谱特征相对应的倒谱系数,将倒谱系数可以确定为目标语音数据对应的用户声纹特征。其中,用户声纹特征可以是指使用电声学仪器显示的携带语音信息的声波频谱,用户声纹特征可以包括但不限于:频谱、倒频谱、共振峰、基音、反射系数、谱熵、短时功率谱密度、语谱图、过零率、梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCCs)。每个用户的声音都具备独特的特征,这些特征可以跟舌头、喉咙、声带等器官息息相关,与身体状态的健康情况也有关系,由于每个用户的发声器官都是具有特异性的,因此可以根据用户声纹特征来区分语音数据。
可选的,本申请实施例以梅尔频率倒谱系数为例,对用户声纹特征的具体提取过程进行具体描述。梅尔频率倒谱系数可以是在梅尔标度频率域提取出来的倒谱参数,梅尔标度描述了人耳频率的非线性特性。由于目标语音数据为连续语音,此时的计算机设备可以对目标语音数据进行预加重处理,得到目标语音数据对应的补偿语音数据;进而可以将补偿语音数据进行分帧处理,获取补偿语音数据对应的至少两个语音帧片段;计算机设备可以将至少两个语音帧片段进行频域变换,获取补偿语音数据对应的频谱特征,进而可以将频谱特征转换至倒谱特征,对倒谱特征进行离散余弦变换后,可以得到倒谱特征对应的倒谱系数,此时的倒谱系数可以称为梅尔频率倒谱系数,即目标语音数据对应的用户声纹特征。
请一并参见图4,图4是本申请实施例提供的一种获取用户声纹特征的流程示意图。如图4所示的连续语音30a可以理解为目标语音数据,计算机设备首先可以对目标语音数据进行预加重30b处理,该预加重30b处理可以用于提升目标语音数据中的高频部分,使得目标语音数据的频谱变得平坦,保持在低频到高频的整个频带中,可以采用相同的信噪比来获取频谱;与此同时,预加重30b处理还可以用于消除发声过程中声带和嘴唇的效应,以补偿目标语音数据受到发音系统所抑制的高频部分,即可以用于突出目标语音数据在高频中的共振峰。预加重30b处理可以理解为目标语音数据通过一个高通滤波器所得到的结果,此时高通滤波器的结果可以称为补偿语音数据。该预加重30b处理可以表示为:H(z)=1-μz-1,其中,z可以表示为目标语音数据,H(z)可以表示为补偿语音数据,μ为参数,μ的值可以介于0.9-1.0之间,如μ可以取值为0.97。
计算机设备进而可以对补偿语音数据进行分帧30c处理,即可以对补偿语音数据进行采样,将N个采样点集合成一个语音帧片段,此处的N为正整数,如N的值可以为256或者512,每个语音帧片段所包含的语音时长范围可以为20~30ms。为了避免相邻两个语音帧片段的变化过大,计算机设备可以让相邻两个语音帧片段之间有一段重叠区域,此重叠区域可以包括M个取样点,M为小于上述N的正整数,如M的值可以为N的1/2或1/3。
计算机设备可以获取补偿语音数据对应的至少两个语音帧片段,并对每个语音帧片段均乘以汉明窗,以增加帧片段左端和帧片段右端的连续性。假设S(n)为至少两个语音帧片段中的任意一个语音帧片段,其中,n=0,1,…,N-1,N为每个语音帧片段的大小,那么语音帧片段S(n)乘上汉明窗后的结果可以表示为:S(n)*W(n),其中,W(n)用于表示汉明窗,其形式可以表示为:
W(n,a)=(1-a)-a*cos[2πn/(N-1)],0≤n≤N-1(1)
其中,不同的a值可以产生不同的汉明窗,例如,a的值可以取0.46。
计算机设备可以对加窗30d处理后的结果进行离散傅里叶变换30e,由于目标语音数据在时域上的变换通常很难看出语音数据的特性,所以通常将语音数据转换为频域上的能量分布来观察,不同的能量分布可以代表不同语音数据的特性。因此在将每个语音帧片段均乘上汉明窗后,每个语音帧片段还可以通过离散傅里叶变换30e,以得到每个语音帧片段在频谱上的能量分布。计算机设备可以对加窗处理后的每个语音帧片段进行离散傅里叶变换30e,得到每个语音帧片段分别对应的频谱,并对每个语音帧片段分别对应的频谱取模平方得到目标语音数据的功率谱(也可以称为频谱特征)。
计算机设备可以将功率谱通过梅尔滤波器组30f,对功率谱进行平滑化,并消除谐波的作用,突出目标语音数据的共振峰。该梅尔滤波器组30f可以是指一组梅尔尺度的三角形滤波器组,该三角形滤波器组可以包括K(K为正整数)个滤波器。随后,计算机设备可以对每个三角形滤波器的输出结果进行对数运算30g,获取目标语音数据的对数能量,即将功率谱转换到梅尔频率中;进而可以对对数能量进行离散余弦变换30h,得到目标语音数据对应的梅尔频率倒谱系数。其中,倒谱(cepstrum)可以是指一种语音数据的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。
进一步地,计算机设备可以将用户声纹特征输入至声学模型,并在声学模型中获取与用户声纹特征相匹配的目标音素信息。其中,声学模型可以是指通过语音数据库中所包含的样本语音数据完成训练后的网络模型,该声学模型的输入可以为语音数据对应的声纹特征,该声学模型的输出可以为语音数据对应的音素信息。该声学模型可以为基于深度神经网络-隐马尔科夫模型(DNN-HMM)的声学模型,也可以为基于高斯混合模型-隐马尔科夫模型(GMM-HMM)的声学模型,本申请对声学模型的具体类型不作具体限定。音素可以是指语音数据中最小的基本单位,音素是人类可以区别一个单词和另一个单词的基础,音素可以构成音节,音节又可以构成不同的词或短语。另外,音素可以分为元音(也可以称为母音)和辅音(也可以称为子音),元音可以是指人类在发音过程中由气流通过口腔而不受阻碍而发出的音,不同的元音可以是由口腔不同的形状造成的,辅音可以是指气流在口腔或咽头受到阻碍而形成的音,不同的辅音可以是由发音部位和发音方法的不同造成的。声学模型可以用于将语音数据的波形图映射为对应的音素信息。
可选的,下面以DNN-HMM声学模型为例,对用户声纹特征的处理过程进行具体描述。计算机设备可以将用户声纹特征输入至声学模型,即首先输入至声学模型中的深度神经网络(DNN),在该深度神经网络中可以获取用户声纹特征对应的音素状态概率,进而可以将音素状态概率作为隐马尔科夫模型(HMM)的输入,根据隐马尔科夫模型对音素状态概率进行解码,生成与用户声纹特征相匹配的目标音素信息。换言之,声学模型的作用在于将目标语音数据的用户声纹特征转换为目标音素信息,其中,深度神经网络可以用于计算用户声纹特征在各状态上的概率,即可以将用户声纹特征识别为状态,隐马尔科夫模型可以用于编码,将深度神经网络识别得到的状态映射为目标音素信息。
可以理解的是,用户声纹特征可以是指上述至少两个语音帧片段分别对应的梅尔频率倒谱系数所拼接而成的多维向量,目标语音数据中的每个语音帧片段分别对应的梅尔频率倒谱系数均可以表示为一个向量,对每个语音帧片段分别对应的向量进行拼接,可以得到用户声纹特征对应的特征矩阵,将该特征矩阵输入至声学模型中的深度神经网络,可以通过该深度神经网络中所包含的多个隐含层对该特征矩阵进行进一步,并输出每个语音帧片段分别对应的音素状态概率。将深度神经网络的输出结果作为隐马尔科夫模型的输入,通过该隐马尔科夫模型对深度神经网络输出的音素状态概率进行解码,将音素状态概率转换成目标音素信息。其中,隐马尔科夫模型可以包括多个状态,这多个状态可以对应一个音素,当隐马尔科夫模型包括3个状态时,深度神经网络可以计算出每个语音帧片段在3个状态下的概率,而隐马尔科夫模型可以将3个状态转换为一个音素,如隐马尔科夫模型可以用于判定一个语音帧片段中所包含的音素是否为a。
可以理解地,计算机设备在采用DNN-HMM声学模型将用户声纹特征转换为目标音素信息之前,还需要对DNN-HMM声学模型进行模型训练。计算机设备可以采集与直播场景相关联的语音数据库,该语音数据库包括用于训练声学模型的样本语音数据;在DNN-HMM声学模型的训练过程中,可以对每个样本语音数据进行分帧处理,即将每个样本语音数据划分为多个样本语音帧,并根据样本数据集中的样本语音帧,可以首先训练一个GMM-HMM模型,使用训练好的GMM-HMM声学模型为样本语音数据中的每个样本语音帧打上一个HMM标签;根据语音数据库中所包含的样本语音帧,以及每个语音帧所携带的HMM标签,对DNN-HMM声学模型中的深度神经网络进行训练,修正深度神经网络的网络参数。训练完成的DNN-HMM声学模型可以用于将用户声纹特征映射为对应的目标音素信息。
进一步地,计算机设备可以获取与直播应用相关联的字典,在字典中获取目标音素信息对应的候选字符,进而可以根据候选字符确定目标音素信息对应的用户语音内容,将用户声纹特征和用户语音内容确定为用户语音特征。其中,字典可以包括直播应用中的样本文本数据与音素信息之间的对应关系,即字词与音素之间的对应关系,该字典与直播应用中所使用的常用文本或常用语音内容相关联,当直播应用中所使用的常用文本或常用语音内容为汉语时,该字典可以为包含汉语通用字词和直播常用字词的特定领域字典;当直播应用中所使用的常用文本或常用语音内容包括汉语和英语时,该字典可以为包含汉英语通用字词和直播常用字词的特定领域字典;当直播应用中所使用的常用文本或常用语音内容为英语时,该字典可以为包含英语通用字词和直播常用字词的特定领域字典等。
换言之,计算机设备根据声学模型获取到目标语音数据对应的目标音素信息之后,可以在字典中搜索与目标音素信息相匹配的候选字符,即在字典中获取与目标音素信息相关联的所有词;由于字典中存在一个音素对应不同的词,因此目标音素对应的候选字符中可能存在相同音素对应的不同的字符,根据上述候选字符可以组成不同的词序列,通过获取每个词序列分别对应的置信度,确定目标音素信息对应的最佳词序列,此时的最佳词序列可以称为目标语音数据对应的用户语音内容,进而可以将用户声纹特征和用户语音内容确定为目标语音数据的用户语音特征。例如,计算机设备可以将候选字符输入之语言模型中,根据该语言模型获取每个词序列分别对应的置信度(概率),将置信度最大的词序列作为目标语音数据对应的用户语音内容。其中,语言模型可以用于确定哪个词序列是一个完整句子的可能性最大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容,进而输出目标语音数据对应的用户语音内容,即将目标语音数据转换为文本内容。
可以理解的是,用户语音内容的获取过程可以理解为语音识别(AutomaticSpeech Recognition,ASR)处理过程,即可以将人的语音转换为文本的过程。对于直播应用中的目标语音数据,计算机设备在获得目标语音数据对应的用户声纹特征后,可以通过训练好的DNN-HMM声学模型、字典以及语言模型建立一个语音识别系统,根据搜索算法在该语音识别系统中寻找一条最佳的路径,该路径就是能够以最大概率输出该目标语音数据对应的用户语音内容。
请一并参见图5,图5是本申请实施例提供的一种语音识别系统的框架示意图。如图5所示,语音识别系统包括声学模型40d、字典40h以及语言模型40g。计算机设备在使用语音识别系统对目标语音数据进行语音识别之前,可以对声学模型40d和语言模型40g进行训练,并建立与直播应用相关联的字典。
如图5所示,计算机设备可以获取语音数据库40a,该语音数据库40a中所包含的样本语音数据均是在直播场景中所采集的语音数据,如直播应用中互动用户的互动语音和主播用户的语音数据等。计算机设备可以对语音数据库40a中所包含的每个样本语音数据均进行预处理,过滤掉样本语音数据中不重要的信息以及背景噪声,如对样本语音数据进行VAD(Voice Activity Detection)语音活动性检测,检测出样本语音数据中的语音段和非语音段,可以将样本语音数据中的非语音段删除,仅保留样本语音数据中的语音段。当然,在预处理过程中,计算机设备还可以对样本语音数据中所保留的语音段进行预加重处理和分帧处理,预加重处理过程和分帧处理过程可以参见上述图4所对应实施例中的描述,这里不再进行赘述。
计算机设备可以对预处理后的样本语音数据进行特征提取40b,该特征提取40b的过程可以是指使用梅尔频率倒谱系数将语音波形转换为多维向量(可以称为样本声纹特征)。特征提取40b的过程可以去除样本语音数据中对于语音识别无用的冗余信息,保留用于表征语音本质特征的信息,即从样本语音数据中提取出反映语音数据特性的梅尔频率倒谱系数形成特征矢量序列,以便于后续处理。其中,梅尔频率倒谱系数的提取过程可以参见上述图4所对应实施例中的描述,这里不再赘述。
计算机设备可以根据样本声纹特征和样本语音帧所对应的标签音素之间的映射关系,进行声学模型训练40c,即计算机设备可以将样本声纹特征输入初始化声学模型中,在初始化声学模型中进行一次前向计算,可以得到初始化声学模型针对样本声纹特征的实际输出音素,根据标签音素与实际输出音素之间的误差,对初始化声学模型进行参数修正,继而可以根据语音数据库40a中所包含的所有样本语音数据对应的样本声纹特征,以及对应的标签音素,对声学模型的网络参数不断进行修正,直至训练次数达到预先设置的阈值,保存网络参数,以获得用于输出音素信息的声学模型40d。
与此同时,计算机设备可以获取样本文本数据库40e,该样本文本数据库40e中所包含的样本文本数据均是在直播场景中所采集的常用样本文本数据,如直播应用中互动用户和主播用户在虚拟房间的弹幕区域中所使用的常用互动文本,以及主播用户为吸引用户加入虚拟房间而常用的邀请文本等。通过样本文本数据库40e中所包含的样本文本数据进行语言模型训练40f,计算机设备可以将文本数据库40e中的每个样本文本数据划分为至少两个单位字符,将每个单位字符均转换为字符向量,进而可以将至少两个字符向量拼接为字符向量矩阵并输入初始化语言模型中,在初始化语言模型中获取至少两个单位字符之间的语义特征,根据语义特征获取至少两个字符构成一个句子的样本概率。由于文本数据库40e中所包含的每个样本文本数据均为一个句子或短语,因此作为属于同一个样本文本数据的至少两个单位字符,其期望概率为1;根据期望概率与样本概率之间的误差,修正初始化语言模型,继而得到训练完成的语言模型40g,即语言模型40g是用来计算一个句子出现概率的概率模型。另外,在语言模型40g的训练过程中,可以从样本文本数据中获取目标字符(此处的目标字符可以为词语,或者短语,或者短句等);计算机设备可以获取常用字符(可以称为通用字典),根据常用字符和目标字符可以生成与直播应用相关联的字典40h。
在训练好声学模型40d和语言模型40g,并构建了与直播应用相匹配的字典40h后,表明计算机设备获得了训练好的语音处理系统。对于直播应用中目标互动用户输入的目标语音数据,计算机设备可以将目标语音数据输入至语音处理系统中,对目标语音数据进行特征提取40i,在目标语音数据中提取梅尔频率倒谱系数形成的用户声纹特征;根据已经训练好的声学模型40d、语言模型40g以及字典40h,并使用搜索算法找到用户声纹特征最有可能的用户语音内容。
举例来说,若目标语音数据为“我是机器人”的语音信号,通过特征提取得到目标语音数据的用户声纹特征为:[1,2,3,4,5,6…],将用户声纹特征[1,2,3,4,5,6…]输入声学模型中,通过声学模型可以输出与上述用户声纹特征相匹配的目标音素信息,如:wosijiqirn,在字典中可以获得与目标音素信息相匹配的候选字符,如:窝-wo,我-wo,是-si,机-ji,器-qi,人-rn,级-ji,忍-rn;进而可以将上述候选字符输入语言模型中,可以输出候选字符对应的概率分别为:“我”对应的概率:0.0786,“是”对应的概率:0.0546,“我是”对应的概率:0.0898,“机器”对应的概率:0.0967,“机器人”对应的概率:0.6785;因此,可以得到目标语音数据“我是机器人”对应的用户语音内容为:我是机器人。
需要说明的是,对于直播应用中至少两个主播用户分别对应的主播语音数据,均可以使用语音识别系统获取每个主播语音数据分别对应的主播声纹特征和主播语音内容,将主播声纹特征和主播语音内容确定为主播语音数据对应的主播语音特征。计算机设备可以获取用户语音特征分别与至少两个主播语音特征之间的点乘值,并获取用户语音特征的范数分别与至少两个主播语音特征的范数之间的乘积值,将点乘值和乘积值之间的比值确定为目标语音数据与至少两个主播语音数据之间的数据匹配度。其中,数据匹配度的计算公式如下所示:
Figure BDA0002745123720000221
其中,u可以表示为目标互动用户,v可以表示为至少两个主播用户中的任意一个主播用户,N(u)为目标互动用户u的用户语音特征,N(v)为主播用户v的主播语音特征,wuv可以表示为目标互动用户u的用户语音特征和主播用户v的主播语音特征之间的余弦相似度(即数据匹配度)。根据上述公式(2)可以计算得到目标语音数据分别与至少两个主播语音数据之间的数据匹配度。
步骤S103,根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。
具体的,计算机设备可以将至少两个主播语音数据中数据匹配度最大的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据,提供该目标主播语音数据的主播用户可以称为目标主播用户,计算机设备可以将目标互动用户加入目标主播用户所在的虚拟房间。在目标互动用户加入目标主播用户所在的虚拟房间后,可以在虚拟房间中显示目标互动用户对应的提示信息(如“恭喜XX在声音星球成功匹配到直播间”)和欢迎特效,在虚拟房间的展示页面中还可以显示加入该虚拟房间的所有用户的头像信息等。
可选的,在直播应用中的每个虚拟房间,可以有人数的限制,当根据最大的数据匹配度确定目标主播用户,且目标主播用户所在的虚拟房间中的人数已经达到数量阈值时(可以理解为每个虚拟房间除主播用户之外的互动用户的上限人数,例如,数量阈值为8人),此时的目标互动用户无法加入该目标主播用户所在的虚拟房间,还需要进行排队,在当前虚拟房间中存在互动用户离开时,计算机设备才可以将目标互动用户加入目标主播用户所在的虚拟房间。同理,当目标互动用户直接在直播应用中通过搜索虚拟房间,或者直接选择想要进入的虚拟房间(目标互动用户进行指定匹配)时,计算机设备同样需要获取该目标互动用户指定加入的虚拟房间中的人数,当人数达到数量阈值时,目标用户只能进入排队列表,等待该虚拟房间中有互动用户退出,才能进入该虚拟房间。通过对直播应用中虚拟房间的参与人数进行限制,打破了常规的一个主播用户对应大量互动用户(成百上千,甚至上万)的直播模式,并通过少数人形成聊天室式的虚拟房间,使得主播用户可以更关注到每一位加入虚拟房间的互动用户,可以增强虚拟房间中互动用户的参与度,以及主播用户与互动用户之间的互动性。
举例来说,直播应用中规定每个虚拟房间中的互动用户的人数上限为8,若目标互动用户指定加入的虚拟房间1中的互动用户的数量已经为8人,则目标互动用户可以进入排队列表,该排队列表可以根据互动用户的指定匹配时间来进行排序,如目标互动用户进入排队列表之前的排队状态为:互动用户1-互动用户2,在目标互动用户进入排队列表后,该排队列表更新为:互动用户1-互动用户2-目标互动用户。若有一个互动用户退出了该虚拟房间1,则可以按照排队列表中的先后顺序,将互动用户1加入该虚拟房间1,以此类推,当虚拟房间1中有人离开,且刚好轮到目标互动用户时,可以将目标互动用户加入虚拟房间1中。
可选的,计算机设备还可以根据数据匹配度,对至少两个主播语音数据进行排序,得到排序后的至少两个主播语音数据,在排序后的至少两个主播语音数据中,按照排列顺序获取M(M为正整数)个主播语音数据,在M个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据。进一步地,计算机设备可以获取M个主播语音数据对应的M个虚拟房间中的互动用户数量,将互动用户数量小于数量阈值的虚拟房间确定为候选虚拟房间;将候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据。换言之,计算机设备可以从至少两个主播语音数据分别对应的主播用户中选择M个数据匹配度最高的候选主播用户,M个候选主播用户对应M个虚拟房间,进而可以分别获取M个虚拟房间中的互动用户数据,筛选出互动用户数量小于数量阈值的候选虚拟房间,将候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据,将目标互动用户加入目标主播用户所在的虚拟房间。
举例来说,若M为5,根据数据匹配度的大小,可以从至少两个主播语音数据中选择数据匹配度最高的5个主播语音数据,分别为主播语音数据1、主播语音数据2、主播语音数据3、主播语音数据4以及主播语音数据5;其中,主播语音数据1是主播用户1所提供的语音数据,主播用户1所在的虚拟房间为虚拟房间1;主播语音数据2是主播用户2所提供的语音数据,主播用户2所在的虚拟房间为虚拟房间2;主播语音数据3是主播用户3所提供的语音数据,主播用户3所在的虚拟房间为虚拟房间3;主播语音数据4是主播用户4所提供的语音数据,主播用户4所在的虚拟房间为虚拟房间4;主播语音数据5是主播用户5所提供的语音数据,主播用户5所在的虚拟房间为虚拟房间5。计算机设备分别获取虚拟房间1至虚拟房间5分别对应的互动用户数量,当虚拟房间1和虚拟房间3中的互动用户数量均达到数量阈值时,可以将虚拟房间2、虚拟房间4以及虚拟房间5确定为候选虚拟房间;由于虚拟房间2、虚拟房间4以及虚拟房间5中,主播语音数据2与目标语音数据之间的数据匹配度最大,则可以将目标互动用户加入虚拟房间2中。
可选的,在目标互动用户进入目标主播用户所在的虚拟房间后,可以在虚拟房间的弹幕区域中发送语音数据与主播用户进行互动;当然,目标互动用户也可以在虚拟房间的弹幕区域中发送文字消息与主播用户进行互动。
可选的,直播应用中的虚拟房间还可以包括抢牌子的游戏,对于抢到牌子的互动用户,可以在目标主播用户所在的虚拟房间发送全局语音,即抢到牌子的互动用户可以直接在虚拟房间中发送语音数据并自动进行全局播放,虚拟房间中的每个互动用户无需触发即可收听;对于未抢到牌子的互动用户,无法在虚拟房间中发送全局语音,只能在弹幕区域发送语音数据至虚拟房间。若目标主播用户所在的虚拟房间中存在至少两个互动用户,则可以触发虚拟房间中所包含的抢牌子的游戏,此时的计算机设备可以在目标主播用户所在的虚拟房间中,统计至少两个互动用户分别向目标主播用户所提供的虚拟资产数量(这里的至少两个互动用户可以包括目标互动用户),进而可以将虚拟房间中最大的虚拟资产数量所对应的互动用户确定为第一互动用户,此时的第一互动用户即为目标主播用户所在的虚拟房间中抢到牌子的互动用户。计算机设备可以为第一互动用户开启发语音的功能,如计算机设备可以为第一互动用户开启麦克风,第一互动用户可以随时发送互动语音数据至虚拟房间,当第一互动用户发送互动语音数据至虚拟房间时,计算机设备可以响应与第一互动用户相关联的语音互动操作,在目标主播用户所在的虚拟房间中自动播放第一互动用户对应的互动语音数据。其中,虚拟资产数量可以是指虚拟房间中的互动用户向目标主播用户所提供的礼物的数量和价值,虚拟房间中的礼物可以是指用于指代实际资产的虚拟物件,如游艇、飞机等。
可选的,目标主播用户所在的虚拟房间所包含的至少两个互动用户中,除了第一互动用户之外的其余互动用户均可以确定为第二互动用户,此处的第二用户可以是指未抢到牌子的互动用户;第二互动用户若想发送互动语音数据至虚拟房间,仅能触发弹幕区域发送语音互动数据,当第二互动用户对虚拟房间中的弹幕区域执行触发操作时,计算机设备可以响应与第二互动用户相关联的语音互动操作,在目标主播用户所属虚拟房间的弹幕区域中输出第二互动用户对应的互动语音数据;对于弹幕区域中所输出的互动语音数据,虚拟房间中的每个互动用户均可以对弹幕区域中的互动语音数据执行播放操作,在第二互动用户对弹幕区域中的互动语音数据执行播放操作时,计算机设备可以响应弹幕区域中的播放操作,在目标主播用户所属虚拟房间的弹幕区域中播放第二互动用户对应的互动语音数据,此时播放的互动语音数据只有触发播放操作的互动操作才能收听到。
可选的,当目标主播用户所在的虚拟房间中仅包含目标互动用户和目标主播用户时,目标互动用户只要向目标主播用户发送礼物,计算机设备就可以为该目标互动用户开启发语音功能,即目标互动用户可以发送全局语音至虚拟房间。
请一并参见图6,图6是本申请实施例提供的一种在虚拟房间中抢牌子的游戏流程示意图。如图6所示,虚拟房间中抢牌子的游戏流程可以包括下述步骤S1-步骤S6。
S1,主播用户可以在直播应用中开始直播之前,选择语音直播下的声音星球玩法(一种抢牌子的游戏),计算机设备可以响应主播用户的直播方式选择操作,在直播应用中开启语音虚拟房间,正式开启直播。可以理解的是,本申请实施例中的语音直播是指在整个直播过程中,可以不显示主播用户的个人视频画面,仅以语音数据与加入虚拟房间的互动用户进行互动交流。本申请实施例仅以语音数据进行互动交流,使得虚拟房间中的主播用户与互动用户更关注互动本身。
S2,主播用户在成功开启直播后,可以等待互动用户匹配到自己的虚拟房间,即等待直播应用为该虚拟房间匹配相应的虚拟房间。在直播应用中,每个想要加入虚拟房间的互动用户均可以通过发送语音数据来匹配虚拟房间(直播间),计算机设备可以获取用户发送到直播应用中的目标语音数据,通过计算目标语音数据分别与所有主播语音数据之间的数据匹配度,以确定与用户相匹配的虚拟房间。换言之,可以获取与当前主播用户所在虚拟房间相匹配的互动用户。
可选的,计算机设备还可以执行S3,主播用户在成功开启直播后,可以发送一段语音数据至直播应用对应的应用展示主页,以招募互动用户加入自己的虚拟房间。当用户在直播应用中直接选择当前主播用户所在虚拟房间作为指定匹配的虚拟房间时,计算机设备可以响应该选择操作,将该用户加入当前主播用户所在的虚拟房间中。当然,当前主播用户所在虚拟房间中的人数达到数量阈值时,用户需要进入排队列表,等待有人退出该虚拟房间才能进入。
S4,对于加入虚拟房间中的所有互动用户,均可以向主播用户送礼物,当虚拟房间中所包含的互动用户的数量为至少两个时,可以开启抢星球牌子玩法。
S5,计算机设备可以统计当前主播用户所在虚拟房间中每个互动用户分别对应的虚拟资产数值,即礼物的价值,送礼价值最高的互动用户可以得到星球牌子(即抢到牌子的互动用户),并在该互动用户的头像上显示星球牌子标识。
S6,在直播过程中,互动用户还可以“收藏主播声音”,方便下一次找到该主播用户的虚拟房间,收藏的主播声音会在自己的个人中心展示,下一次进入星球可以点击收藏的主播声音,计算机设备响应针对收藏的主播声音的点击操作,将用户加入主播用户的虚拟房间。
本申请实施例中,通过在直播应用中开启抢星球牌子玩法,可以拉近互动用户与主播用户之间的距离,增强主播用户语互动用户之间的互动性,可以丰富虚拟房间的直播内容。
请一并参见图7,图7是本申请实施例提供的一种在虚拟房间中抢牌子的游戏界面示意图。如图7所示的用户终端50a为用户小G所使用的终端设备,在根据用户小G的目标语音数据与各主播用户对应的主播语音数据之间的数据匹配度,确定与用户小G相匹配的虚拟房间为主播用户小A所在的虚拟房间后,可以将用户小G加入主播用户小A所在的虚拟房间中,在主播用户小A所在的虚拟房间中可以显示提示信息50b(如“恭喜小G在声音星球成功匹配到直播间”),此时用户小A所在的虚拟房间中包括7个互动用户,分别为用户小B、用户小C、用户小D、用户小E、用户小F、用户小G以及用户小H,可以在虚拟房间中显示7个互动用户和主播用户小A的头像。在用户小G加入虚拟房间时,抢到星球牌子的互动用户为用户小D,用户小D的头像上可以显示星球牌子标识50c。换言之,此时用户小D发送至虚拟房间的互动语音数据可以进行自动播放,虚拟房间中除用户小D之外的用户均只能通过弹幕区域50d发送互动语音数据至虚拟房间,需要点击弹幕区域50d中的语音消息,才能播放所点击的语音数据。
用户小G在加入主播用户小A所在的虚拟房间中后,可以向主播用户小A送礼物,当用户小G向主播用户小A送的礼物价值(即虚拟资产数量)在上述7个互动用户中排名第一时,此时的用户小G抢到了星球牌子,并在虚拟房间中显示抢牌子提示信息50e(如“恭喜你获得了星球牌子”等信息),该抢牌子提示信息50e可以独立显示与虚拟房间的展示页面之上,也可以显示在虚拟房间的展示页面中的某区域等。该抢牌子提示信息50e在虚拟房间中的显示时长可以预先设置,如显示时长为2秒,即抢牌子提示信息50e在虚拟房间中显示2秒后,可以自动退出,并在用户小G的头像上添加星球牌子标识。用户小G若想要继续占有星球牌子标识,则需要继续向主播用户小A送礼物。
本申请实施例中,可以响应直播应用中的语音输入操作,在直播应用中获取该语音输入操作所输入的目标语音数据,获取该直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度,此处的至少两个主播语音数据分别为至少两个主播用户所提供的语音数据,进而可以根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间。可见,目标互动用户可以在直播应用中输入目标语音数据,通过目标语音数据与至少两个直播用户的主播语音数据之间的数据匹配度,为目标互动用户匹配一个目标直播用户,并将目标主动用户加入目标直播用户的虚拟房间,可以丰富直播应用中虚拟房间的进入方式,并根据目标互动用户的语音数据与直播用户的语音数据之间的匹配度确定虚拟房间,可以提高用户与虚拟房间之间的匹配度;通过在虚拟房间中增加抢牌子游戏,可以增加主播用户语互动用户之间的互动性和趣味性,丰富直播应用中的直播内容。
请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示,该数据处理装置1可以包括:操作响应模块11,匹配度获取模块12,虚拟房间加入模块13;
操作响应模块11,用于响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据;
匹配度获取模块12,用于获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
虚拟房间加入模块13,用于根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。
其中,操作响应模块11,匹配度获取模块12,虚拟房间加入模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请一并参见图3,操作响应模块11可以包括:主页显示单元111,模式选取单元112,语音数据获取单元113;
主页显示单元111,用于响应针对直播应用的启动操作,显示直播应用对应的应用展示主页;应用展示主页包括声音匹配模式;
模式选取单元112,用于响应针对应用展示主页中的声音匹配模式的选取操作,显示声音匹配模式对应的语音控件;
语音数据获取单元113,用于响应针对语音控件的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据。
其中,主页显示单元111,模式选取单元112,语音数据获取单元113的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图8,匹配度获取模块12可以包括:语音特征获取单元121,匹配度确定单元122;
语音特征获取单元121,用于获取目标语音数据对应的用户语音特征,获取直播应用中至少两个虚拟房间分别对应的主播语音数据;
匹配度确定单元122,用于获取至少两个主播语音数据分别对应的主播语音特征,根据用户语音特征和主播语音特征,确定目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,语音特征获取单元121,匹配度确定单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,语音特征获取单元121可以包括:声纹特征获取子单元1211,音素信息获取子单元1212,候选字符获取子单元1213,语音内容确定子单元1214;
声纹特征获取子单元1211,用于对目标语音数据进行频域变换,生成目标语音数据对应的频谱特征,获取与频谱特征相对应的倒谱系数,将倒谱系数确定为目标语音数据对应的用户声纹特征;
音素信息获取子单元1212,用于将用户声纹特征输入至声学模型,在声学模型中获取与用户声纹特征相匹配的目标音素信息;
候选字符获取子单元1213,用于获取与直播应用相关联的字典,在字典中获取目标音素信息对应的候选字符;字典包括直播应用中的样本文本数据与音素信息之间的对应关系;
语音内容确定子单元1214,用于根据候选字符确定目标音素信息对应的用户语音内容,将用户声纹特征和用户语音内容确定为用户语音特征。
其中,声纹特征获取子单元1211,音素信息获取子单元1212,候选字符获取子单元1213,语音内容确定子单元1214的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,声纹特征获取子单元1211可以包括:预加重处理子单元12111,语音分割子单元12112,频域变换子单元12113,倒谱系数获取子单元12114;
预加重处理子单元12111,用于对目标语音数据进行预加重处理,得到目标语音数据对应的补偿语音数据;
语音分割子单元12112,用于将补偿语音数据进行分帧处理,获取补偿语音数据对应的至少两个语音帧片段;
频域变换子单元12113,用于将至少两个语音帧片段进行频域变换,获取补偿语音数据对应的频谱特征;
倒谱系数获取子单元12114,用于将频谱特征转换至倒谱特征,对倒谱特征进行离散余弦变换,得到倒谱特征对应的倒谱系数。
其中,预加重处理子单元12111,语音分割子单元12112,频域变换子单元12113,倒谱系数获取子单元12114的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,声学模型可以包括深度神经网络和隐马尔科夫模型;
音素信息获取子单元1212可以包括:概率获取子单元12121,解码子单元12122;
概率获取子单元12121,用于将用户声纹特征输入至声学模型,根据深度神经网络获取用户声纹特征对应的音素状态概率;
解码子单元12122,用于根据隐马尔科夫模型,对音素状态概率进行解码,生成与用户声纹特征相匹配的目标音素信息。
其中,概率获取子单元12121,解码子单元12122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,候选字符获取子单元1213可以包括:字符转换子单元12131,语义特征获取子单元12132,字典生成子单元12133;
字符转换子单元12131,用于获取直播应用中的样本文本数据,将样本文本数据划分为至少两个单位字符,将每个单位字符均转换为字符向量;
语义特征获取子单元12132,用于将至少两个字符向量输入至语言模型,在语言模型中获取至少两个字符向量之间的语义特征,根据语义特征在样本文本数据中获取目标字符;
字典生成子单元12133,用于获取常用字符,根据常用字符和目标字符生成与直播应用相关联的字典。
其中,字符转换子单元12131,语义特征获取子单元12132,字典生成子单元12133的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,匹配度确定单元122可以包括:乘积运算子单元1221,匹配度计算子单元1222;
乘积运算子单元1221,用于获取用户语音特征和主播语音特征之间的点乘值,获取用户语音特征的范数与主播语音特征的范数之间的乘积值;
匹配度计算子单元1222,用于将点乘值和乘积值之间的比值,确定为目标语音数据和至少两个主播语音数据之间的数据匹配度。
其中,乘积运算子单元1221,匹配度计算子单元1222的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图8,虚拟房间加入模块13可以包括:排序单元131,主播语音选取单元132,目标主播数据确定单元133;
排序单元131,用于根据数据匹配度,对至少两个主播语音数据进行排序,得到排序后的至少两个主播语音数据;
主播语音选取单元132,用于在排序后的至少两个主播语音数据中,按照排序顺序获取M个主播语音数据;
目标主播数据确定单元133,用于在M个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据。
其中,排序单元131,主播语音选取单元132,目标主播数据确定单元133的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图8,目标主播数据确定单元133可以包括:用户数量获取子单元1331,目标主播确定子单元1332;
用户数量获取子单元1331,用于获取M个主播语音数据对应的M个虚拟房间中的互动用户数量,将互动用户数量小于数量阈值的虚拟房间确定为候选虚拟房间;
目标主播确定子单元1332,用于将候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与目标语音数据相匹配的目标主播语音数据。
其中,用户数量获取子单元1331,目标主播确定子单元1332的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图8,该数据处理装置1还可以包括:资产数量统计模块14,第一确定模块15,第一语音播放模块16,第二确定模块17,互动语音输出模块18,第二语音播放模块19;
资产数量统计模块14,用于在目标主播用户所在的虚拟房间中,统计至少两个互动用户分别向目标主播用户所提供的虚拟资产数量;至少两个互动用户包括目标互动用户;
第一确定模块15,用于将最大的虚拟资产数量所对应的互动用户确定为第一互动用户;
第一语音播放模块16,用于响应与第一互动用户相关联的语音互动操作,在目标主播用户所在的虚拟房间中播放第一互动用户对应的互动语音数据。
第二确定模块17,用于将至少两个互动用户中除第一互动用户之外的互动用户确定为第二互动用户;
互动语音输出模块18,用于响应与第二互动用户相关联的语音互动操作,在目标主播用户所属虚拟房间的弹幕区域中输出第二互动用户对应的互动语音数据;
第二语音播放模块19,用于响应弹幕区域中的播放操作,在目标主播用户所属虚拟房间的弹幕区域中播放第二互动用户对应的互动语音数据。
其中,资产数量统计模块14,第一确定模块15,第一语音播放模块16,第二确定模块17,互动语音输出模块18,第二语音播放模块19的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
本申请实施例中,可以响应直播应用中的语音输入操作,在直播应用中获取该语音输入操作所输入的目标语音数据,获取该直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度,此处的至少两个主播语音数据分别为至少两个主播用户所提供的语音数据,进而可以根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间。可见,目标互动用户可以在直播应用中输入目标语音数据,通过目标语音数据与至少两个直播用户的主播语音数据之间的数据匹配度,为目标互动用户匹配一个目标直播用户,并将目标主动用户加入目标直播用户的虚拟房间,可以丰富直播应用中虚拟房间的进入方式,并根据目标互动用户的语音数据与直播用户的语音数据之间的匹配度确定虚拟房间,可以提高用户与虚拟房间之间的匹配度;通过在虚拟房间中增加抢牌子游戏,可以增加主播用户语互动用户之间的互动性和趣味性,丰富直播应用中的直播内容。
请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
响应直播应用中的语音输入操作,在直播应用中获取语音输入操作所输入的目标语音数据;
获取直播应用中至少两个虚拟房间分别对应的主播语音数据,获取目标语音数据与至少两个主播语音数据之间的数据匹配度;至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
根据数据匹配度,在至少两个主播语音数据中确定与目标语音数据相匹配的目标主播语音数据,将目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;目标主播用户为提供目标主播语音数据的主播用户。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对数据处理方法的描述,也可执行前文图8所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
响应直播应用中的语音输入操作,在所述直播应用中获取所述语音输入操作所输入的目标语音数据;
获取所述直播应用中至少两个虚拟房间分别对应的主播语音数据,获取所述目标语音数据与至少两个主播语音数据之间的数据匹配度;所述至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
根据所述数据匹配度,在所述至少两个主播语音数据中确定与所述目标语音数据相匹配的目标主播语音数据,将所述目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;所述目标主播用户为提供所述目标主播语音数据的主播用户。
2.根据权利要求1所述的方法,其特征在于,所述响应直播应用中的语音输入操作,在所述直播应用中获取所述语音输入操作所输入的目标语音数据,包括:
响应针对所述直播应用的启动操作,显示所述直播应用对应的应用展示主页;所述应用展示主页包括声音匹配模式;
响应针对所述应用展示主页中的所述声音匹配模式的选取操作,显示所述声音匹配模式对应的语音控件;
响应针对所述语音控件的语音输入操作,在所述直播应用中获取所述语音输入操作所输入的目标语音数据。
3.根据权利要求1所述的方法,其特征在于,所述获取所述直播应用中至少两个虚拟房间分别对应的主播语音数据,获取所述目标语音数据与至少两个主播语音数据之间的数据匹配度,包括:
获取所述目标语音数据对应的用户语音特征,获取所述直播应用中至少两个虚拟房间分别对应的主播语音数据;
获取至少两个主播语音数据分别对应的主播语音特征,根据所述用户语音特征和所述主播语音特征,确定所述目标语音数据和所述至少两个主播语音数据之间的数据匹配度。
4.根据权利要求3所述的方法,其特征在于,所述获取所述目标语音数据对应的用户语音特征,包括:
对所述目标语音数据进行频域变换,生成所述目标语音数据对应的频谱特征,获取与所述频谱特征相对应的倒谱系数,将所述倒谱系数确定为所述目标语音数据对应的用户声纹特征;
将所述用户声纹特征输入至声学模型,在所述声学模型中获取与所述用户声纹特征相匹配的目标音素信息;
获取与所述直播应用相关联的字典,在所述字典中获取所述目标音素信息对应的候选字符;所述字典包括所述直播应用中的样本文本数据与音素信息之间的对应关系;
根据所述候选字符确定所述目标音素信息对应的用户语音内容,将所述用户声纹特征和所述用户语音内容确定为所述用户语音特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标语音数据进行频域变换,生成所述目标语音数据对应的频谱特征,获取与所述频谱特征相对应的倒谱系数,包括:
对所述目标语音数据进行预加重处理,得到所述目标语音数据对应的补偿语音数据;
将所述补偿语音数据进行分帧处理,获取所述补偿语音数据对应的至少两个语音帧片段;
将所述至少两个语音帧片段进行频域变换,获取所述补偿语音数据对应的频谱特征;
将所述频谱特征转换至倒谱特征,对所述倒谱特征进行离散余弦变换,得到所述倒谱特征对应的倒谱系数。
6.根据权利要求4所述的方法,其特征在于,所述声学模型包括深度神经网络和隐马尔科夫模型;
所述将所述用户声纹特征输入至声学模型,在所述声学模型中获取与所述用户声纹特征相匹配的目标音素信息,包括:
将所述用户声纹特征输入至所述声学模型,根据所述深度神经网络获取所述用户声纹特征对应的音素状态概率;
根据所述隐马尔科夫模型,对所述音素状态概率进行解码,生成与所述用户声纹特征相匹配的目标音素信息。
7.根据权利要求4所述的方法,其特征在于,所述获取与所述直播应用相关联的字典,包括:
获取所述直播应用中的样本文本数据,将所述样本文本数据划分为至少两个单位字符,将每个单位字符均转换为字符向量;
将至少两个字符向量输入至语言模型,在所述语言模型中获取所述至少两个字符向量之间的语义特征,根据所述语义特征在所述样本文本数据中获取目标字符;
获取常用字符,根据所述常用字符和所述目标字符生成与所述直播应用相关联的字典。
8.根据权利要求3所述的方法,其特征在于,所述根据所述用户语音特征和所述主播语音特征,确定所述目标语音数据和所述至少两个主播语音数据之间的数据匹配度,包括:
获取所述用户语音特征和所述主播语音特征之间的点乘值,获取所述用户语音特征的范数与所述主播语音特征的范数之间的乘积值;
将所述点乘值和所述乘积值之间的比值,确定为所述目标语音数据和所述至少两个主播语音数据之间的数据匹配度。
9.根据权利要求1所述的方法,其特征在于,所述根据所述数据匹配度,在所述至少两个主播语音数据中确定与所述目标语音数据相匹配的目标主播语音数据,包括:
根据所述数据匹配度,对至少两个主播语音数据进行排序,得到排序后的至少两个主播语音数据;
在所述排序后的至少两个主播语音数据中,按照排序顺序获取M个主播语音数据;M为正整数;
在所述M个主播语音数据中确定与所述目标语音数据相匹配的目标主播语音数据。
10.根据权利要求9所述的方法,其特征在于,所述在所述M个主播语音数据中确定与所述目标语音数据相匹配的目标主播语音数据,包括:
获取所述M个主播语音数据对应的M个虚拟房间中的互动用户数量,将所述互动用户数量小于数量阈值的虚拟房间确定为候选虚拟房间;
将所述候选虚拟房间中最大的数据匹配度所对应的主播语音数据,确定为与所述目标语音数据相匹配的目标主播语音数据。
11.根据权利要求1所述的方法,其特征在于,还包括:
在所述目标主播用户所在的虚拟房间中,统计至少两个互动用户分别向所述目标主播用户所提供的虚拟资产数量;所述至少两个互动用户包括所述目标互动用户;
将最大的虚拟资产数量所对应的互动用户确定为第一互动用户;
响应与所述第一互动用户相关联的语音互动操作,在所述目标主播用户所在的虚拟房间中播放所述第一互动用户对应的互动语音数据。
12.根据权利要求11所述的方法,其特征在于,还包括:
将所述至少两个互动用户中除所述第一互动用户之外的互动用户确定为第二互动用户;
响应与所述第二互动用户相关联的语音互动操作,在所述目标主播用户所属虚拟房间的弹幕区域中输出所述第二互动用户对应的互动语音数据;
响应所述弹幕区域中的播放操作,在所述目标主播用户所属虚拟房间的弹幕区域中播放所述第二互动用户对应的互动语音数据。
13.一种数据处理装置,其特征在于,包括:
操作响应模块,用于响应直播应用中的语音输入操作,在所述直播应用中获取所述语音输入操作所输入的目标语音数据;
匹配度获取模块,用于获取所述直播应用中至少两个虚拟房间分别对应的主播语音数据,获取所述目标语音数据与至少两个主播语音数据之间的数据匹配度;所述至少两个主播语音数据分别为至少两个主播用户所提供的语音数据;
虚拟房间加入模块,用于根据所述数据匹配度,在所述至少两个主播语音数据中确定与所述目标语音数据相匹配的目标主播语音数据,将所述目标语音数据对应的目标互动用户加入目标主播用户所在的虚拟房间;所述目标主播用户为提供所述目标主播语音数据的主播用户。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,所述处理器执行权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至12中任一项所述方法的步骤。
CN202011163668.XA 2020-10-27 2020-10-27 数据处理方法、装置、设备以及介质 Active CN112423000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011163668.XA CN112423000B (zh) 2020-10-27 2020-10-27 数据处理方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011163668.XA CN112423000B (zh) 2020-10-27 2020-10-27 数据处理方法、装置、设备以及介质

Publications (2)

Publication Number Publication Date
CN112423000A CN112423000A (zh) 2021-02-26
CN112423000B true CN112423000B (zh) 2021-09-28

Family

ID=74841133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011163668.XA Active CN112423000B (zh) 2020-10-27 2020-10-27 数据处理方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN112423000B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697759B (zh) * 2022-04-25 2024-04-09 中国平安人寿保险股份有限公司 虚拟形象视频生成方法及其系统、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848226A (zh) * 2010-06-17 2010-09-29 深圳市珍爱网信息技术有限公司 多对多的网络交友系统及方法
EP2840800A1 (en) * 2013-08-21 2015-02-25 Harman International Industries, Inc. Content-based audio/video adjustment
CN106878761A (zh) * 2017-04-14 2017-06-20 武汉斗鱼网络科技有限公司 直播互动方法、装置及服务器
CN109582700A (zh) * 2018-11-28 2019-04-05 广州华多网络科技有限公司 一种语音房间用户匹配方法、装置及设备
CN111586430A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 在线互动方法、客户端、服务器和存储介质
CN111711829A (zh) * 2020-06-12 2020-09-25 广州酷狗计算机科技有限公司 直播间推荐方法、装置、计算机可读存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893554A (zh) * 2016-03-31 2016-08-24 广东小天才科技有限公司 可穿戴设备交友方法及系统
US20190182176A1 (en) * 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
CN108076354A (zh) * 2017-12-20 2018-05-25 北京潘达互娱科技有限公司 直播间推荐方法及设备
CN108519991A (zh) * 2018-02-28 2018-09-11 北京奇艺世纪科技有限公司 一种主播账户推荐的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848226A (zh) * 2010-06-17 2010-09-29 深圳市珍爱网信息技术有限公司 多对多的网络交友系统及方法
EP2840800A1 (en) * 2013-08-21 2015-02-25 Harman International Industries, Inc. Content-based audio/video adjustment
CN106878761A (zh) * 2017-04-14 2017-06-20 武汉斗鱼网络科技有限公司 直播互动方法、装置及服务器
CN109582700A (zh) * 2018-11-28 2019-04-05 广州华多网络科技有限公司 一种语音房间用户匹配方法、装置及设备
CN111586430A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 在线互动方法、客户端、服务器和存储介质
CN111711829A (zh) * 2020-06-12 2020-09-25 广州酷狗计算机科技有限公司 直播间推荐方法、装置、计算机可读存储介质及设备

Also Published As

Publication number Publication date
CN112423000A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
JP6876752B2 (ja) 応答方法及び装置
US20200126566A1 (en) Method and apparatus for voice interaction
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
WO2022078146A1 (zh) 语音识别方法、装置、设备以及存储介质
Schuller Voice and speech analysis in search of states and traits
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
JP2003517158A (ja) 分散型リアルタイム音声認識システム
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
US20200013389A1 (en) Word extraction device, related conference extraction system, and word extraction method
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111192659A (zh) 用于抑郁检测的预训练方法和抑郁检测方法及装置
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
Wang et al. Generating images from spoken descriptions
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN117313785A (zh) 一种基于弱势人群的智能数字人交互方法、设备和介质
CN112423000B (zh) 数据处理方法、装置、设备以及介质
CN114125506B (zh) 语音审核方法及装置
CN114283820A (zh) 多角色语音的交互方法、电子设备和存储介质
US20230343321A1 (en) Method and apparatus for processing virtual concert, device, storage medium, and program product
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN111415662A (zh) 用于生成视频的方法、装置、设备和介质
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN111971670B (zh) 在对话中生成响应
CN115167733A (zh) 一种直播资源的展示方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037985

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant