CN115168643B - 音频处理方法、装置、设备及计算机可读存储介质 - Google Patents

音频处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115168643B
CN115168643B CN202211088204.6A CN202211088204A CN115168643B CN 115168643 B CN115168643 B CN 115168643B CN 202211088204 A CN202211088204 A CN 202211088204A CN 115168643 B CN115168643 B CN 115168643B
Authority
CN
China
Prior art keywords
similarity
similarity matrix
audio
matrix
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211088204.6A
Other languages
English (en)
Other versions
CN115168643A (zh
Inventor
朱鸿宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211088204.6A priority Critical patent/CN115168643B/zh
Publication of CN115168643A publication Critical patent/CN115168643A/zh
Application granted granted Critical
Publication of CN115168643B publication Critical patent/CN115168643B/zh
Priority to PCT/CN2023/114040 priority patent/WO2024051481A1/zh
Priority to US18/583,688 priority patent/US20240242722A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音频处理方法、装置、设备及计算机可读存储介质,属于计算机技术领域。方法包括:确定待处理的多个音频片段分别对应的声纹向量,声纹向量用于指示音频片段对应的声纹特征;根据各个音频片段对应的声纹向量,确定初始相似度矩阵,初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,得到参考相似度矩阵;根据参考相似度矩阵确定多个音频片段中存在的音频对象的数目;根据音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。该方法确定的音频对象的数目的准确性较高,音频对象聚类的准确率较高,音频处理效果较好。

Description

音频处理方法、装置、设备及计算机可读存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种音频处理方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的不断发展,音频处理方式也越来越多。例如,音频对象聚类是一种音频处理方式。音频对象聚类是确定多个音频片段中包括的音频对象的数目,以及各个音频对象对应的音频片段。
相关技术中,获取多个音频片段,确定各个音频片段对应的声纹向量,根据各个声纹向量之间的相似度,确定多个音频片段中存在的音频对象的数目,根据音频对象的数目对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
然而,由于音频片段是通过录音设备获取到的,当录音设备、音频对象的语气、情绪不同时,会使得一个音频对象的音色产生偏差,且音频对象所处的环境也会对声纹向量的确定造成干扰,使得确定的声纹向量不够准确,进而使得确定的音频对象的数目不够准确,导致音频对象聚类的准确率较低、音频处理效果较差。
发明内容
本申请实施例提供了一种音频处理方法、装置、设备及计算机可读存储介质,可用于解决相关技术中确定的音频对象的数目不够准确,音频对象聚类的准确率较低、音频处理效果较差的问题。
一方面,本申请实施例提供了一种音频处理方法,所述方法包括:
确定待处理的多个音频片段分别对应的声纹向量,所述声纹向量用于指示所述音频片段对应的声纹特征;
根据各个音频片段对应的声纹向量,确定初始相似度矩阵,所述初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;
根据所述初始相似度矩阵中各行对应的动态阈值,对所述初始相似度矩阵进行调整,得到参考相似度矩阵;
根据所述参考相似度矩阵确定所述多个音频片段中存在的音频对象的数目;
根据所述音频对象的数目,对所述多个音频片段进行聚类,得到各个音频对象对应的音频片段。
另一方面,本申请实施例提供了一种音频处理装置,所述装置包括:
确定模块,用于确定待处理的多个音频片段分别对应的声纹向量,所述声纹向量用于指示所述音频片段对应的声纹特征;
所述确定模块,还用于根据各个音频片段对应的声纹向量,确定初始相似度矩阵,所述初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;
调整模块,用于根据所述初始相似度矩阵中各行对应的动态阈值,对所述初始相似度矩阵进行调整,得到参考相似度矩阵;
所述确定模块,还用于根据所述参考相似度矩阵确定所述多个音频片段中存在的音频对象的数目;
聚类模块,用于根据所述音频对象的数目,对所述多个音频片段进行聚类,得到各个音频对象对应的音频片段。
在一种可能的实现方式中,所述确定模块,还用于对于所述初始相似度矩阵中的任一行,按照第一顺序对所述任一行包括的多个相似度中位于目标范围的相似度进行排序,得到第一排序结果;根据所述第一排序结果,确定位于所述目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值;在所述多个相似度差值中确定满足第一要求的相似度差值;根据所述满足第一要求的相似度差值,确定所述任一行对应的动态阈值。
在一种可能的实现方式中,所述调整模块,用于将所述初始相似度矩阵各行包括的相似度中,小于所述各行对应的动态阈值的相似度调整为第一数值,得到所述参考相似度矩阵;或者,将所述初始相似度矩阵各行包括的相似度中,小于所述各行对应的动态阈值的相似度与第二数值相乘,得到所述参考相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于根据多个参考参数,对所述参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵;根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,所述确定模块,用于对于所述多个参考参数中的任一参考参数,根据所述任一参考参数,对所述参考相似度矩阵进行数值调整,得到第一相似度矩阵,所述数值调整用于简化所述参考相似度矩阵;对所述第一相似度矩阵进行对称化处理,得到第二相似度矩阵,所述第二相似度矩阵中位于第i行第j列的相似度与位于第j行第i列的相似度相同,所述i和所述j为不大于所述多个音频片段的个数的正整数;对所述第二相似度矩阵进行行列扩散,得到第三相似度矩阵,所述第三相似度矩阵用于生成多个音频对象之间的边界;对所述第三相似度矩阵进行比例调整,得到第四相似度矩阵,所述比例调整用于将所述第三相似度矩阵中各行包括的相似度调整在同一个范围内;对所述第四相似度矩阵进行对称化处理,得到所述任一参考参数对应的目标相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于对于所述参考相似度矩阵各行包括的多个相似度,将满足第三要求的任一参考参数个相似度之外的相似度调整为第三数值,得到所述第一相似度矩阵;或者,将所述参考相似度矩阵包括的多个相似度中,除满足第三要求的任一参考参数个相似度之外的相似度与第四数值相乘,得到所述第一相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于确定所述第一相似度矩阵对应的转置矩阵;将所述第一相似度矩阵和所述第一相似度矩阵对应的转置矩阵中位于相同位置的相似度相加,得到候选相似度矩阵;对所述候选相似度矩阵包括的多个相似度进行取半操作,得到所述第二相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于确定所述第一相似度矩阵中位于所述第i行第j列的相似度,与所述第一相似度矩阵中位于所述第j行第i列的相似度中最大的相似度,将所述最大的相似度作为所述第二相似度矩阵中位于所述第i行第j列和所述第j行第i列的相似度,得到所述第二相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于确定所述第二相似度矩阵对应的转置矩阵;根据所述第二相似度矩阵和所述第二相似度矩阵对应的转置矩阵,确定所述第三相似度矩阵,所述第三相似度矩阵中位于第m行第n列的相似度基于所述第二相似度矩阵中位于所述第m行的相似度和所述第二相似度矩阵对应的转置矩阵中位于所述第n列的相似度确定,所述m、所述n为不大于所述多个音频片段的个数的正整数。
在一种可能的实现方式中,所述确定模块,用于根据所述第三相似度矩阵中各行包括的多个相似度,确定各行对应的最大相似度;将所述第三相似度矩阵中各行包括的多个相似度分别与所述各行对应的最大相似度相除,得到所述第四相似度矩阵。
在一种可能的实现方式中,所述确定模块,用于根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述各个参考参数对应的比例值,所述比例值用于指示所述参考参数对应的目标相似度矩阵中保留的相似度的数量;根据所述各个参考参数对应的比例值,确定所述多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,所述确定模块,用于对于所述多个参考参数中的任一参考参数,对所述任一参考参数对应的目标相似度矩阵进行拉普拉斯变换,得到所述任一参考参数对应的拉普拉斯矩阵;对所述拉普拉斯矩阵进行奇异值分解,得到多个参考特征值;在所述多个参考特征值中确定第二特征值和目标数量个第一特征值,所述第二特征值为所述多个参考特征值中的最大值,所述第一特征值为按照第二顺序对所述多个参考特征值进行排序后满足第二要求的目标数量个参考特征值;确定所述目标数量个第一特征值中相邻的两个第一特征值之间的差值,得到多个特征值差值;根据所述第二特征值,对目标特征值差值进行归一化处理,得到归一化之后的特征值差值,所述目标特征值差值为所述多个特征值差值中最大的特征值差值;根据所述归一化之后的特征值差值和所述任一参考参数,确定所述任一参考参数对应的比例值。
在一种可能的实现方式中,所述确定模块,用于根据所述各个参考参数对应的比例值,在所述多个参考参数中确定目标参数,所述目标参数为所述多个参考参数中对应的比例值最小的参考参数;确定所述目标参数对应的多个特征值差值;调用目标函数对所述目标参数对应的多个特征值差值进行处理,得到所述多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,所述聚类模块,用于对所述目标参数对应的目标相似度矩阵进行奇异值分解,得到多个目标特征值;在所述多个目标特征值中确定所述音频对象的数目个目标特征值;确定所述音频对象的数目个目标特征值分别对应的特征向量;根据所述音频对象的数目个目标特征值分别对应的特征向量,生成目标矩阵,所述目标矩阵的行数为所述音频对象的数目,列数为所述音频片段的个数;根据所述目标矩阵,确定所述多个音频片段分别对应的特征向量,所述特征向量用于指示对应的音频片段;根据所述音频对象的数目和所述多个音频片段分别对应的特征向量,对所述多个音频片段进行聚类,得到所述各个音频对象对应的音频片段。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使计算机设备实现上述任一所述的音频处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述任一所述的音频处理方法。
另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种音频处理方法。
本申请实施例提供的技术方案至少带来如下有益效果。
本申请实施例提供的技术方案根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,进而得到参考相似度矩阵,通过动态阈值调整过程,能够拉近同一音频对象的音频片段的声纹向量的相似度,拉远不同音频对象的音频片段的声纹向量的相似度,使得根据参考相似度矩阵,确定的音频对象的数目更加准确;再根据准确率较高的音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段,使得确定的各个音频对象对应的音频片段的准确性较高,音频对象聚类的准确率较高,进而能够提高音频片段的音频处理效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频处理方法的实施环境示意图;
图2是本申请实施例提供的一种音频处理方法的流程图;
图3是本申请实施例提供的一种目标相似度矩阵的确定过程的示意图;
图4是本申请实施例提供的另一种音频处理方法的流程图;
图5是本申请实施例提供的一种音频处理装置的结构示意图;
图6是本申请实施例提供的一种终端设备的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是本申请的一些方面相一致的装置和方法的例子。
在示例性实施例中,本申请实施例提供的音频处理方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、游戏等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的方案涉及人工智能技术中的机器学习技术,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图1是本申请实施例提供的一种音频处理方法的实施环境示意图,如图1所示,该实施环境包括:终端设备101和服务器102。
本申请实施例提供的音频处理方法可以由终端设备101执行,也可以由服务器102执行,还可以由终端设备101和服务器102共同执行,本申请实施例对此不进行限定。对于本申请实施例提供的音频处理方法由终端设备101和服务器102共同执行的情况,服务器102承担主要计算工作,终端设备101承担次要计算工作;或者,服务器102承担次要计算工作,终端设备101承担主要计算工作;或者,服务器102和终端设备101二者之间采用分布式计算架构进行协同计算。
可选地,终端设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品。终端设备101包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器102为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器102与终端设备101通过有线网络或无线网络进行通信连接。服务器102具有数据接收功能、数据处理功能和数据发送功能。当然,服务器102还可以具有其他功能,本申请实施例对此不加以限定。
本领域技术人员应能理解上述终端设备101和服务器102仅为举例说明,其他现有的或者今后可能出现的终端设备或服务器,如可适用于本申请,也应包含在本申请的保护范围之内,并在此以引用方式包含于此。
本申请实施例提供了一种音频处理方法,该方法由计算机设备执行,该方法可应用于上述图1所示的实施环境,计算机设备可以是图1中的终端设备101,也可以是图1中的服务器102,本申请实施例对此不进行限定。以图2所示的本申请实施例提供的一种音频处理方法的流程图为例,如图2所示,该方法包括下述步骤201至步骤205。
在步骤201中,确定待处理的多个音频片段分别对应的声纹向量,声纹向量用于指示音频片段对应的声纹特征。
在本申请实施例中,在确定待处理的多个音频片段分别对应的声纹向量之前,需要先获取多个音频片段,多个音频片段为至少两个音频片段,一个音频片段对应于一个音频对象。本申请实施例对多个音频片段的获取过程不进行限定。示例性地,计算机设备的存储空间中存储有多个候选片段,从多个候选片段中获取多个候选片段作为待处理的多个音频片段。
可选地,还可以获取一个语音数据,语音数据中包括多个音频对象的音频片段,对语音数据进行分割处理,得到多个语音片段,在多个语音片段中确定待处理的多个音频片段。例如,将多个语音片段作为待处理的音频片段,或者在多个语音片段中选取一部分语音片段作为待处理的音频片段。
需要说明的是,多个音频片段分别对应的时长可以相同,也可以不同,本申请实施例对此不进行限定。例如,多个音频片段分别对应的时长均为2秒,又例如,多个音频片段中有的音频片段对应的时长为2秒,有的音频片段对应的时长为5秒。
可选地,确定出待处理的多个音频片段之后,对各个音频片段进行特征提取,得到各个音频片段对应的特征。根据各个音频片段对应的特征,确定各个音频片段对应的声纹向量。示例性地,各个音频片段对应的特征可以是各个音频片段对应的MFCC(Mel-scaleFrequency Cepstral Coefficients,梅尔倒谱系数),也可以是各个音频片段对应的梅尔频谱特征,还可以是其他特征,本申请实施例对此不进行限定。
在一种可能的实现方式中,根据各个音频片段对应的特征,确定各个音频片段对应的声纹向量的过程包括:将音频片段对应的特征输入声纹提取模型,将声纹提取模型输出的结果作为音频片段对应的声纹向量。可选地,声纹提取模型可以是任意一种模型,本申请实施例对此不进行限定。示例性地,声纹提取模型可以为CLDNN(Convolution-Longshort-Term Mermony-Fully-Connected Deep Neural Networks,卷积-长短期记忆力-全连接神经网络)模型,也可以为基于TDNN(Time Delay Neural Network,时延神经网络)的X-vector(声纹识别领域主流的baseline模型框架),还可以是ecapa-tdnn(一种提取语音全局特征的模型)。
在步骤202中,根据各个音频片段对应的声纹向量,确定初始相似度矩阵,初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度。
在一种可能的实现方式中,在上述步骤201中确定出各个音频片段对应的声纹向量,根据各个音频片段对应的声纹向量,确定任意两个音频片段对应的声纹向量之间的相似度,得到初始相似度矩阵。
可选地,根据各个音频片段对应的声纹向量,按照下述公式(1)确定任意两个音频片段对应的声纹向量之间的相似度。
公式(1)
在上述公式(1)中,为第i个音频片段对应的声纹向量和第j个音频片段对应的声纹向量之间的相似度,为距离公式,为第i个音频片段对应的声纹向量,为第j个音频片段对应的声纹向量,N为多个音频片段的总数量。
可选地,可以将任意两个音频片段对应的声纹向量之间的余弦相似度距离作为任意两个音频片段对应的声纹向量之间的相似度。当然,还可以通过其他方式确定任意两个音频片段对应的声纹向量之间的相似度,本申请实施例对此不进行限定。
需要说明的是,初始相似度矩阵的行数为多个音频片段的个数,列数为多个音频片段的个数。初始相似度矩阵为对称化矩阵,也即是初始相似度矩阵中位于第i行第j列的相似度与位于第j行第i列的相似度是相同的。其中,i,j均为不大于多个音频片段的个数的正整数。
还需要说明的是,任意两个音频片段对应的声纹向量之间的相似度越高,说明任意两个音频片段对应的音频对象是同一个音频对象的可能性较高。反之,任意两个音频片段对应的声纹向量之间的相似度越低,说明任意两个音频片段对应的音频对象是同一个音频对象的可能性较低。
示例性地,多个音频片段的个数为5个,则根据各个音频片段对应的声纹向量,按照上述公式(1)确定任意两个音频片段的声纹向量之间的相似度。进而根据任意两个音频片段的声纹向量之间的相似度,确定的初始相似度矩阵为5*5的矩阵。初始相似度矩阵如下所示:
在上述初始相似度矩阵中,用于表示第1个音频片段对应的声纹向量和第1个音频片段对应的声纹向量之间的相似度,用于表示第1个音频片段对应的声纹向量和第2个音频片段对应的声纹向量之间的相似度,初始相似度矩阵中的其他元素所代表的含义与所代表的含义类似,在此不再进行一一赘述。
在步骤203中,根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,得到参考相似度矩阵。
其中,动态阈值用于拉近同一音频对象的音频片段的声纹向量的相似度之间的差值,和/或,拉远不同音频对象的音频片段的声纹向量的相似度之间的差值。可选地,拉近同一音频对象的音频片段的声纹向量的相似度之间的差值是指拉近第一相似度和第二相似度之间的差值,其中,第一相似度为第一音频片段的声纹向量和第二音频片段的声纹向量之间的相似度,第二相似度为第一音频片段的声纹向量和第三音频片段的声纹向量之间的相似度,第一音频片段、第二音频片段、第三音频片段对应于同一个音频对象。拉远不同音频对象的音频片段的声纹向量的相似度之间的差值是指拉远第一相似度和第三相似度之间的差值,第三相似度为第一音频片段的声纹向量和第四音频片段的声纹向量之间的相似度,第一音频片段、第四音频片段对应于不同的音频对象。
在一种可能的实现方式中,根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,得到参考相似度矩阵之前,还需确定初始相似度矩阵中各行对应的动态阈值。该过程包括:对于初始相似度矩阵中的任一行,按照第一顺序对任一行包括的多个相似度中位于目标范围的相似度进行排序,得到第一排序结果;根据第一排序结果,确定位于目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值,相似度差值的个数小于任一行包括的相似度的个数;在多个相似度差值中确定满足第一要求的相似度差值;根据满足第一要求的相似度差值,确定任一行对应的动态阈值。可选地,将满足第一要求的相似度差值对应的被减数作为任一行对应的动态阈值。
其中,第一顺序可以是从小到大的顺序,也可以是从大到小的顺序,本申请实施例对此不进行限定。目标范围基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此也不进行限定。示例性地,目标范围为[-1,1]。多个相似度差值中满足第一要求的相似度差值是指多个相似度差值中最大的相似度差值。
示例性地,第一顺序为从小到大的顺序,目标范围为[-1,1],初始相似度矩阵中任一行包括的相似度分别为:1、-0.3、0.7、0.5、0.9。将位于目标范围的相似度按照从小到大的顺序进行排序,得到的第一排序结果为:-0.3、0.5、0.7、0.9、1。根据第一排序结果,确定相邻的两个相似度之间的相似度差值,得到多个相似度差值,分别为:0.5-(-0.3)=0.8、0.7-0.5=0.2、0.9-0.7=0.2、1-0.9=0.1。其中,多个相似度差值中最大的相似度差值为0.8,因此,将0.8对应的被减数0.5作为任一行对应的动态阈值。
可选地,根据第一排序结果,确定位于目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值之后,还可以根据多个相似度差值确定相似度差值向量,相似度差值向量中包括多个相似度差值。示例性地,下述公式(2)为相似度差值向量。
公式(2)
在上述公式(2)中,为任一行对应的相似度差值向量,为按照从小到大的顺序排序后的第一排序结果中位于第一位的相似度,为按照从小到大的顺序排序后的第一排序结果中位于第二位的相似度,为按照从小到大的顺序排序后的第一排序结果中位于第三位的相似度,为按照从小到大的顺序排序后的第一排序结果中位于最后一位的相似度,为按照从小到大的顺序排序后的第一排序结果中位于倒数第二位的相似度。
在一种可能的实现方式中,确定出初始相似度矩阵中各行对应的动态阈值之后,根据初始相似度矩阵中各行对应的动态阈值,有下述两种实现方式对初始相似度矩阵进行调整,得到参考相似度矩阵。
实现方式一、将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度调整为第一数值,得到参考相似度矩阵。
其中,第一数值基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。可选地,第一数值为0。
示例性地,初始相似度矩阵为。其中,第一行对应的动态阈值为0.5,第二行对应的动态阈值为0.6,第三行对应的动态阈值为0.7,第四行对应的动态阈值为0.2,第五行对应的动态阈值为0.9,则将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度调整为0,得到的参考相似度矩阵为
实现方式二、将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度与第二数值相乘,得到参考相似度矩阵。
其中,第二数值基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。可选地,第二数值为0.01。
示例性地,初始相似度矩阵为。其中,第一行对应的动态阈值为0.5,第二行对应的动态阈值为0.6,第三行对应的动态阈值为0.7,第四行对应的动态阈值为0.2,第五行对应的动态阈值为0.9,则将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度与0.01相乘,得到的参考相似度矩阵为
需要说明的是,参考相似度矩阵中第一相似度和第二相似度之间的距离小于初始相似度矩阵中第一相似度和第二相似度之间的距离,参考相似度矩阵中第一相似度和第三相似度之间的距离大于初始相似度矩阵中第一相似度和第三相似度之间的距离,以达到拉近同一音频对象的音频片段的声纹向量的相似度之间的差值,拉远不同音频对象的音频片段的声纹向量之间的差值。
在步骤204中,根据参考相似度矩阵确定多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,根据参考相似度矩阵确定多个音频片段中存在的音频对象的数目的过程包括:根据多个参考参数,对参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵;根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定多个音频片段中存在的音频对象的数目。其中,参考参数基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。参考参数的个数本申请也不进行限定。
可选地,根据多个参考参数,对参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵的过程是类似的,本申请实施例仅以多个参考参数中的任一个参考参数对应的目标相似度矩阵的确定过程为例进行说明,该过程包括下述步骤1至步骤5。
步骤1、根据任一参考参数,对参考相似度矩阵进行数值调整,得到第一相似度矩阵,数值调整用于简化参考相似度矩阵。
在一种可能的实现方式中,根据任一参考参数,有下述两种方式对参考相似度矩阵进行数值调整,得到第一相似度矩阵。
方式一、对于参考相似度矩阵各行包括的多个相似度,将满足第三要求的任一参考参数个相似度之外的相似度调整为第三数值,得到第一相似度矩阵。
其中,第三数值基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。示例性地,第三数值为0。满足第三要求的任一参考参数个相似度是指最大的任一参考参数个相似度。
可选地,将参考相似度矩阵各行包括的多个相似度分别按照从大到小的顺序进行排序,得到各行对应的排序结果,将各行对应的排序结果中,除前任一参考参数个相似度之外的相似度调整为第三数值,得到第一相似度矩阵。
示例性地,任一参考参数为3,第三数值为0,参考相似度矩阵为。根据任一参考参数,确定第一行中满足第三要求的3个相似度为1、0.9、0.7,第二行中满足第三要求的3个相似度为1、0.6、-0.003,第三行中满足第三要求的3个相似度为1、0.8、0.7,第四行中满足第三要求的3个相似度为1、0.8、0.5,第五行中满足第三要求的3个相似度为1、0.9、0.006。对参考相似度矩阵进行调整,得到第一相似度矩阵为
方式二、将参考相似度矩阵包括的多个相似度中,除满足第三要求的任一参考参数个相似度之外的相似度与第四数值相乘,得到第一相似度矩阵。
其中,第四数值基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。示例性地,第四数值为0.01。
可选地,将参考相似度矩阵各行包括的多个相似度分别按照从大到小的顺序进行排序,得到各行对应的排序结果,将各行对应的排序结果中除前任一参考参数个相似度之外的相似度与第四数值相乘,得到第一相似度矩阵。
示例性地,任一参考参数为3,第四数值为0.01,参考相似度矩阵为。根据任一参考参数,确定第一行中满足第三要求的3个相似度为1、0.9、0.7,第二行中满足第三要求的3个相似度为1、0.6、-0.003,第三行中满足第三要求的3个相似度为1、0.8、0.7,第四行中满足第三要求的3个相似度为1、0.8、0.5,第五行中满足第三要求的3个相似度为1、0.9、0.006。对参考相似度矩阵进行调整,得到第一相似度矩阵为参考相似度矩阵为
需要说明的是,可以选择上述任一种方式对参考相似度矩阵进行数值调整,得到第一相似度矩阵,本申请实施例对此不进行限定。
可选地,按照下述公式(3)对参考相似度矩阵进行数值调整,得到第一相似度矩阵。
公式(3)
在上述公式(3)中,B为第一相似度矩阵,A为参考相似度矩阵,p为任一参考参数,Threshold为数值调整函数。
步骤2、对第一相似度矩阵进行对称化处理,得到第二相似度矩阵,所述第二相似度矩阵中位于第i行第j列的相似度与位于第j行第i列的相似度相同,i和j为不大于多个音频片段的个数的正整数。
在一种可能的实现方式中,之所以要对第一相似度矩阵进行对称化处理,是因为初始相似度矩阵是对称化矩阵,经过动态阈值处理和数值调整后的第一相似度矩阵已经是非对称化矩阵了。由于第i个音频片段的声纹向量与第j个音频片段的声纹向量之间的相似度、第j个音频片段的声纹向量与第i个音频片段的声纹向量之间的相似度是相同的,也即是位于第i行第j列的相似度与位于第j行第i列的相似度是相同的,因此,需要对第一相似度矩阵进行对称化处理,以使位于第i行第j列的相似度与位于第j行第i列的相似度是相同的。可选地,有下述两种方式对第一相似度矩阵进行对称化处理,得到第二相似度矩阵。
方式1、确定第一相似度矩阵对应的转置矩阵;将第一相似度矩阵和第一相似度矩阵对应的转置矩阵中位于相同位置的相似度相加,得到候选相似度矩阵;对候选相似度矩阵包括的多个相似度进行取半操作,得到第二相似度矩阵。
可选地,按照下述公式(4)对第一相似度矩阵进行对称化处理,得到第二相似度矩阵。
公式(4)
在上述公式(4)中,C为第二相似度矩阵,B为第一相似度矩阵,为第一相似度矩阵对应的转置矩阵。
示例性地,第一相似度矩阵为,第一相似度矩阵对应的转置矩阵为。将第一相似度矩阵和第一相似度矩阵对应的转置矩阵中位于相同位置的相似度相加,得到的候选相似度矩阵为,对候选相似度矩阵中包括的多个相似度进行取半操作,得到的第二相似度矩阵为
方式1为根据第一相似度矩阵和第一相似度矩阵对应的转置矩阵,通过取平均值的方式,来确定第二相似度矩阵的过程。
方式2、确定第一相似度矩阵中位于第i行第j列的相似度、与第一相似度矩阵中位于第j行第i列的相似度中最大的相似度,将最大的相似度作为第二相似度矩阵中位于第i行第j列和第j行第i列的相似度,得到第二相似度矩阵。
可选地,按照下述公式(5)对第一相似度矩阵进行对称化处理,得到第二相似度矩阵。
公式(5)
在上述公式(5)中,为第二相似度矩阵中位于第i行、第j列的相似度,为第一相似度矩阵中位于第i行、第j列的相似度,为第一相似度矩阵中位于第j行、第i列的相似度。
示例性地,第一相似度矩阵为,则第二相似度矩阵为
方式2为根据第一相似度矩阵,通过取最大值的方式,确定第二相似度矩阵的过程。
需要说明的是,可以选择上述任一种方式对第一相似度矩阵进行对称化处理,得到第二相似度矩阵,本申请实施例对此不进行限定。
步骤3、对第二相似度矩阵进行行列扩散,得到第三相似度矩阵,第三相似度矩阵用于生成多个音频对象之间的边界。
在一种可能的实现方式中,对第二相似度矩阵进行行列扩散,得到第三相似度矩阵的过程包括:确定第二相似度矩阵对应的转置矩阵,根据第二相似度矩阵和第二相似度矩阵对应的转置矩阵,确定第三相似度矩阵,第三相似度矩阵中位于第m行第n列的相似度基于第二相似度矩阵中位于第m行的相似度和第二相似度矩阵对应的转置矩阵中位于第n列的相似度确定,m、n为不大于多个音频片段的个数的正整数。
可选地,对于第三相似度矩阵中位于第m行第n列的相似度,将第二相似度矩阵中位于第m行的相似度和第二相似度矩阵对应的转置矩阵中位于第n列的相似度对应相乘再相加的结果作为第三相似度矩阵中位于第m行第n列的相似度。
示例性地,第二相似度矩阵中位于第m行的相似度分别为1、0、0.7、0.5、0.9,第二相似度矩阵对应的转置矩阵中位于第n列的相似度分别为1、0、0.7、0.5、0.9,则第三相似度矩阵中位于第m行第n列的相似度为1*1+0*0+0.7*0.7+0.5*0.5+0.9*0.9=2.55。
需要说明的是,第三相似度矩阵中其他位置的相似度的确定过程与上述第m行第n列的相似度的确定过程类似,在此不再进行赘述。
可选地,按照下述公式(6)对第二相似度矩阵进行行列扩散,得到第三相似度矩阵。
公式(6)
在上述公式(6)中,D为第三相似度矩阵,C为第二相似度矩阵,为第二相似度矩阵对应的转置矩阵。
示例性地,第二相似度矩阵为,第二相似度矩阵对应的转置矩阵为,则第三相似度矩阵为
步骤4、对第三相似度矩阵进行比例调整,得到第四相似度矩阵,比例调整用于将第三相似度矩阵中各行包括的相似度调整在同一范围内。
在一种可能的实现方式中,对第三相似度矩阵进行比例调整,得到第四相似度矩阵的过程包括:根据第三相似度矩阵中各行包括的多个相似度,确定各行对应的最大相似度;将第三相似度矩阵中各行包括的多个相似度分别与各行对应的最大相似度相除,得到第四相似度矩阵。
可选地,按照下述公式(7)对第三相似度矩阵进行比例调整,得到第四相似度矩阵。
公式(7)
在上述公式(7)中,为第四相似度矩阵中位于第i行第j列的相似度,为第三相似度矩阵中位于第i行第j列的相似度,为第三相似度矩阵中第i行对应的最大相似度,k为第三相似度矩阵中第i行对应的最大相似度所在的列。
示例性地,第三相似度矩阵为,其中,第一行对应的最大相似度为2.55,第二行对应的最大值为1.36,第三行对应的最大值为2.13,第四行对应的最大值为1.95,第五行对应的最大值为2.17。根据各行对应的最大相似度,对第三相似度矩阵进行比例调整,得到的第四相似度矩阵为
步骤5、对第四相似度矩阵进行对称化处理,得到任一参考参数对应的目标相似度矩阵。
在一种可能的实现方式中,对第四相似度矩阵进行对称化处理,得到任一参考参数对应的目标相似度矩阵的过程与上述对第一相似度矩阵进行对称化处理,得到第二相似度矩阵的过程是类似的,在此不再进行赘述。
需要说明的是,根据上述步骤1至步骤5的过程,分别确定出各个参考参数对应的目标相似度矩阵。
图3是本申请实施例提供的一种目标相似度矩阵的确定过程的示意图。图3中的(1)为初始相似度矩阵,图3中的(2)为参考相似度矩阵,图3中的(3)为第一相似度矩阵,图3中的(4)为第三相似度矩阵,图3中的(5)为第四相似度矩阵,图3中的(6)为目标相似度矩阵。图3中的(1)中的横轴为音频片段的个数,纵轴为音频片段的个数,图3中颜色越亮表示两个音频片段的声纹向量之间的相似度越高。
在一种可能的实现方式中,根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定多个音频片段中存在的音频对象的数目的过程包括:根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定各个参考参数对应的比例值,比例值用于指示参考参数对应的目标相似度矩阵中保留的相似度的数量;根据各个参考参数对应的比例值,确定多个音频片段中存在的音频对象的数目。比例值越小,说明参考参数对应的目标相似度矩阵中保留的相似度的数量越少,后续确定的音频对象的数目的准确性越高;反之,比例值越大,说明参考参数对应的目标相似度矩阵中保留的相似度的数量越多,后续确定的音频对象的数目的准确性越低。
可选地,根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定各个参考参数对应的比例值的过程包括:对于多个参考参数中的任一参考参数,对任一参考参数对应的目标相似度矩阵进行拉普拉斯变换,得到任一参考参数对应的拉普拉斯矩阵;对拉普拉斯矩阵进行奇异值分解,得到多个参考特征值;在多个参考特征值中确定第二特征值和目标数量个第一特征值,第二特征值为多个参考特征值中的最大值,第一特征值为按照第二顺序对多个参考特征值进行排序后满足第二要求的目标数量个参考特征值。确定目标数量个第一特征值中相邻的两个第一特征值之间的差值,得到多个特征值差值;根据第二特征值,对目标特征值差值进行归一化处理,得到归一化之后的特征值差值,目标特征值差值为多个特征值差值中最大的特征值差值;根据归一化之后的特征值差值和任一参考参数,确定任一参考参数对应的比例值。其中,目标数量基于经验进行设置,或者根据实施环境进行调整,本申请实施例对此不进行限定。例如,目标数量为3。第二顺序可以是从小到大的顺序,也可以是从大到小的顺序,本申请实施例对此不进行限定。当第二顺序为从小到大的顺序时,则第一特征值为按照从小到大的顺序对多个参考特征值进行排序后前目标数量个参考特征值。当第二顺序为从大到小的顺序时,则第一特征值为按照从大到小的顺序对多个参考特征值进行排序后后目标数量个参考特征值。
可选地,确定目标数量个第一特征值中相邻的两个第一特征值之间的差值,得到多个特征值差值之后,还可以根据多个特征值差值确定任一参考参数对应的特征值差值向量,特征值差值向量中包括多个特征值差值。示例性地,下述公式(8)为任一参考参数对应的特征值差值向量。
公式(8)
在上述公式(8)中,为任一参考参数对应的特征值差值向量,为按照从小到大的顺序对多个参考特征值进行排序后位于第一位的参考特征值,为按照从小到大的顺序对多个参考特征值进行排序后位于第二位的参考特征值,为按照从小到大的顺序对多个参考特征值进行排序后位于第三位的参考特征值,为按照从小到大的顺序对多个参考特征值进行排序后位于第Y位的参考特征值,为按照从小到大的顺序对多个参考特征值进行排序后位于第Y-1位的相似度。Y为目标数量。
可选地,根据第二特征值,按照下述公式(9)对目标特征值差值进行归一化处理,得到归一化之后的特征值差值。
公式(9)
在上述公式(9)中,为归一化之后的特征值差值,为目标特征值差值,为第二特征值,为归一化参数,的取值为
根据归一化之后的特征值差值和任一参考参数,按照下述公式(10)确定任一参考参数对应的比例值。
公式(10)
在上述公式(10)中,为任一参考参数对应的比例值,为任一参考参数,为归一化之后的特征值差值。
在一种可能的实现方式中,根据各个参考参数对应的比例值,确定多个音频片段中存在的音频对象的数目的过程包括:根据各个参考参数对应的比例值,在多个参考参数中确定目标参数,目标参数为多个参考参数中对应的比例值最小的参考参数;确定目标参数对应的多个特征值差值,调用目标函数对目标参数对应的多个特征值差值进行处理,得到多个音频片段中存在的音频对象的数目。可选地,将各个参考参数对应的比例值中,最小的比例值对应的参考参数作为目标参数。
需要说明的是,确定目标参数对应的多个特征值差值的过程为:确定目标参数对应的目标相似度矩阵,对目标参数对应的目标相似度矩阵进行拉普拉斯变换,得到目标参数对应的拉普拉斯矩阵,对目标参数对应的拉普拉斯矩阵进行奇异值分解,得到多个参考特征值,将多个参考特征值中最小的目标数量个参考特征值进行排序,将排序中相邻的两个参考特征值之间的差值作为目标参数对应的多个特征值差值。
调用目标函数对目标参数对应的多个特征值差值进行处理,得到多个音频片段中存在的音频对象的数目的过程包括:将目标参数对应的多个特征值差值组成目标参数对应的特征值差值向量,调用目标函数对目标参数对应的特征值差值向量进行处理,得到多个音频片段中存在的音频对象的数目。
可选地,按照下述公式(11)对目标参数对应的多个特征值差值进行处理,得到多个音频片段中存在的音频对象的数目。
公式(11)
在上述公式(11)中,M为多个音频片段中存在的音频对象的数目,为目标函数,为目标参数对应的特征值差值向量,目标参数对应的特征值差值向量是由目标参数对应的多个特征值差值组成的向量。
示例性地,目标参数对应的目标相似度矩阵为矩阵Q,对矩阵Q进行拉普拉斯变换,得到目标参数对应的拉普拉斯矩阵P,对矩阵P进行奇异值分解,得到多个参考特征值(分别为a、b、c、d、e、f),将多个参考特征值按照从小到大的顺序进行排序,得到排序结果(b、c、a、e、f、d),目标数量为3,将排序结果中最小的3个参考值中相邻的两个参考特征值之间的差值作为目标参数对应的多个特征值差值,多个特征值差值分别为c-b、a-c,因此,将c-b、a-c组成的向量作为特征值差值向量,也即是特征值差值向量为[c-b,a-c]。
在步骤205中,根据音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
在一种可能的实现方式中,基于上述步骤204确定出多个音频片段中存在的音频对象的数目之后,根据音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段的过程包括:对目标参数对应的目标相似度矩阵进行奇异值分解,得到多个目标特征值;在多个目标特征值中确定音频对象的数目个目标特征值;确定音频对象的数目个目标特征值分别对应的特征向量;根据音频对象的数目个目标特征值分别对应的特征向量,生成目标矩阵,目标矩阵的行数为音频对象的数目,列数为音频片段的个数;根据目标矩阵,确定多个音频片段分别对应的特征向量,特征向量用于指示对应的音频片段;根据音频对象的数目和多个音频片段分别对应的特征向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
可选地,在多个目标特征值中确定音频对象的数目个目标特征值时,确定的目标特征值是最小的音频对象的数目个目标特征值。
示例性地,音频对象的数目为3,则在多个目标特征值中确定最小的3个目标特征值。确定这三个目标特征值分别对应的特征向量,目标特征值对应的特征向量为1*5的特征向量,将3个1*5的特征向量组成3*5的目标矩阵。将目标矩阵中第一列作为第一个音频片段对应的特征向量,第二列作为第二个音频片段对应的特征向量,第三列作为第三个音频片段对应的特征向量,第四列作为第四个音频片段对应的特征向量的,第五列作为第五个音频片段对应的特征向量。
示例性地,三个目标特征值分别对应的特征向量为,则根据三个目标特征值分别对应的特征向量,组成的目标矩阵为。因此,将作为第一个音频片段对应的特征向量,将作为第二个音频片段对应的特征向量,将作为第三个音频片段对应的特征向量,将作为第四个音频片段对应的特征向量,将作为第五个音频片段对应的特征向量。
可选地,根据音频对象的数目和多个音频片段分别对应的特征向量,通过K-means(K-均值)聚类算法对多个音频片段进行聚类,得到各个音频对象对应的音频片段,其中,K的取值为音频对象的数目。当然,还可以使用其他的聚类算法对多个音频片段进行聚类,本申请实施例对此不进行限定。
示例性地,待处理的音频片段有5个,分别为音频片段1、音频片段2、音频片段3、音频片段4和音频片段5。根据上述步骤201至步骤204,确定出待处理的音频片段中存在的音频对象的数目为3。根据上述步骤205,确定出音频对象1对应的音频片段为音频片段1、音频片段3,音频对象2对应的音频片段为音频片段5,音频对象3对应的音频片段为音频片段2和音频片段4。
在一种可能的实现方式中,在上述步骤204中确定出多个音频片段中存在的音频对象的数目之后,还可以根据音频对象的数目和多个音频片段分别对应的声纹向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
其中,根据音频对象的数目和多个音频片段分别对应的声纹向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段的过程与上述根据音频对象的数目和多个音频片段分别对应的特征向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段的过程类似,在此不再进行赘述。
本申请实施例提供的音频处理方法可应用于游戏领域中,确定同一个游戏账号(或同一个智能设备)由几个用户使用。可选地,采集用户在使用该游戏账号(或该智能设备)时的音频片段,调用本申请实施例提供的音频处理方法,确定各个音频片段对应的声纹向量,根据各个音频片段对应的声纹向量,确定音频片段中存在的音频对象的数目,以及各个音频对象对应的音频片段,以获知该游戏账号(或该智能设备)供几个用户使用。
上述方法根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,进而得到参考相似度矩阵,通过动态阈值调整过程,能够拉近同一音频对象的音频片段的声纹向量的相似度,拉远不同音频对象的音频片段的声纹向量的相似度,使得根据参考相似度矩阵,确定的音频对象的数目更加准确;再根据准确率较高的音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段,使得确定的各个音频对象对应的音频片段的准确性较高,音频对象聚类的准确率较高,进而能够提高音频片段的音频处理效果。
图4是本申请实施例提供的另一种音频处理方法的流程图,如图4所示,该方法包括下述步骤401至步骤415。
401、获取多个音频片段。
在一种可能的实现方式中,该过程已在上述步骤201中进行描述,在此不再进行赘述。
402、对各个音频片段进行信号预处理,得到各个音频片段的特征。
在一种可能的实现方式中,该过程已在上述步骤201中进行描述,在此不再进行赘述。
403、调用声纹提取模型对各个音频片段的特征进行处理,得到各个音频片段对应的声纹向量。
在一种可能的实现方式中,该过程已在上述步骤201中进行描述,在此不再进行赘述。
404、根据各个音频片段对应的声纹向量,确定初始相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤202中进行描述,在此不再进行赘述。
405、根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,得到参考相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤203中进行描述,在此不再进行赘述。
406、根据多个参考参数,对参考相似度矩阵进行数值调整,得到各个参考参数对应的第一相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
407、对各个参考参数对应的第一相似度矩阵进行对称化处理,得到各个参考参数对应的第二相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
408、对各个参考参数对应的第二相似度矩阵进行行列扩散,得到各个参考参数对应的第三相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
409、对各个参考参数对应的第三相似度矩阵进行比例调整,得到各个参考参数对应的第四相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
410、对各个参考参数对应的第四相似度矩阵进行对称化处理,得到各个参考参数对应的目标相似度矩阵。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
411、根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定各个参考参数对应的比例值。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
412、根据各个参考参数对应的比例值,在多个参考参数中确定目标参数。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
413、根据目标参数,确定多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,该过程已在上述步骤204中进行描述,在此不再进行赘述。
414、根据目标参数,确定各个音频片段对应的特征向量。
在一种可能的实现方式中,该过程已在上述步骤205中进行描述,在此不再进行赘述。
415、根据音频对象的数目和各个音频片段对应的特征向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
在一种可能的实现方式中,该过程已在上述步骤205中进行描述,在此不再进行赘述。
图5所示为本申请实施例提供的一种音频处理装置的结构示意图,如图5所示,该装置包括:
确定模块501,用于确定待处理的多个音频片段分别对应的声纹向量,声纹向量用于指示音频片段对应的声纹特征;
确定模块501,还用于根据各个音频片段对应的声纹向量,确定初始相似度矩阵,初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;
调整模块502,用于根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,得到参考相似度矩阵;
确定模块501,还用于根据参考相似度矩阵确定多个音频片段中存在的音频对象的数目;
聚类模块503,用于根据音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
在一种可能的实现方式中,确定模块501,还用于对于初始相似度矩阵中的任一行,按照第一顺序对任一行包括的多个相似度中位于目标范围的相似度进行排序,得到第一排序结果;根据第一排序结果,确定位于目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值;在多个相似度差值中确定满足第一要求的相似度差值;根据满足第一要求的相似度差值,确定任一行对应的动态阈值。
在一种可能的实现方式中,调整模块502,用于将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度调整为第一数值,得到参考相似度矩阵;或者,将初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度与第二数值相乘,得到参考相似度矩阵。
在一种可能的实现方式中,确定模块501,用于根据多个参考参数,对参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵;根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,确定模块501,用于对于多个参考参数中的任一参考参数,根据任一参考参数,对参考相似度矩阵进行数值调整,得到第一相似度矩阵,数值调整用于简化参考相似度矩阵;对第一相似度矩阵进行对称化处理,得到第二相似度矩阵,第二相似度矩阵中位于第i行第j列的相似度与位于第j行第i列的相似度相同,i和j为不大于多个音频片段的个数的正整数;对第二相似度矩阵进行行列扩散,得到第三相似度矩阵,第三相似度矩阵用于生成多个音频对象之间的边界;对第三相似度矩阵进行比例调整,得到第四相似度矩阵,比例调整用于将第三相似度矩阵中各行包括的相似度调整在同一个范围内;对第四相似度矩阵进行对称化处理,得到任一参考参数对应的目标相似度矩阵。
在一种可能的实现方式中,确定模块501,用于对于参考相似度矩阵各行包括的多个相似度,将满足第三要求的任一参考参数个相似度之外的相似度调整为第三数值,得到第一相似度矩阵;或者,将参考相似度矩阵包括的多个相似度中,除满足第三要求的任一参考参数个相似度之外的相似度与第四数值相乘,得到第一相似度矩阵。
在一种可能的实现方式中,确定模块501,用于确定第一相似度矩阵对应的转置矩阵;将第一相似度矩阵和第一相似度矩阵对应的转置矩阵中位于相同位置的相似度相加,得到候选相似度矩阵;对候选相似度矩阵包括的多个相似度进行取半操作,得到第二相似度矩阵。
在一种可能的实现方式中,确定模块501,用于确定第一相似度矩阵中位于第i行第j列的相似度,与第一相似度矩阵中位于第j行第i列的相似度中最大的相似度,将最大的相似度作为第二相似度矩阵中位于第i行第j列和第j行第i列的相似度,得到第二相似度矩阵。
在一种可能的实现方式中,确定模块501,用于确定第二相似度矩阵对应的转置矩阵;根据第二相似度矩阵和第二相似度矩阵对应的转置矩阵,确定第三相似度矩阵,第三相似度矩阵中位于第m行第n列的相似度基于第二相似度矩阵中位于第m行的相似度和第二相似度矩阵对应的转置矩阵中位于第n列的相似度确定,m、n为不大于多个音频片段的个数的正整数。
在一种可能的实现方式中,确定模块501,用于根据第三相似度矩阵中各行包括的多个相似度,确定各行对应的最大相似度;将第三相似度矩阵中各行包括的多个相似度分别与各行对应的最大相似度相除,得到第四相似度矩阵。
在一种可能的实现方式中,确定模块501,用于根据多个参考参数和各个参考参数对应的目标相似度矩阵,确定各个参考参数对应的比例值,比例值用于指示参考参数对应的目标相似度矩阵中保留的相似度的数量;根据各个参考参数对应的比例值,确定多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,确定模块501,用于对于多个参考参数中的任一参考参数,对任一参考参数对应的目标相似度矩阵进行拉普拉斯变换,得到任一参考参数对应的拉普拉斯矩阵;对拉普拉斯矩阵进行奇异值分解,得到多个参考特征值;在多个参考特征值中确定第二特征值和目标数量个第一特征值,第二特征值为多个参考特征值中的最大值,第一特征值为按照第二顺序对多个参考特征值进行排序后满足第二要求的目标数量个参考特征值;确定目标数量个第一特征值中相邻的两个第一特征值之间的差值,得到多个特征值差值;根据第二特征值,对目标特征值差值进行归一化处理,得到归一化之后的特征值差值,目标特征值差值为多个特征值差值中最大的特征值差值;根据归一化之后的特征值差值和任一参考参数,确定任一参考参数对应的比例值。
在一种可能的实现方式中,确定模块501,用于根据各个参考参数对应的比例值,在多个参考参数中确定目标参数,目标参数为多个参考参数中对应的比例值最小的参考参数;确定目标参数对应的多个特征值差值;调用目标函数对目标参数对应的多个特征值差值进行处理,得到多个音频片段中存在的音频对象的数目。
在一种可能的实现方式中,聚类模块503,用于对目标参数对应的目标相似度矩阵进行奇异值分解,得到多个目标特征值;在多个目标特征值中确定音频对象的数目个目标特征值;确定音频对象的数目个目标特征值分别对应的特征向量;根据音频对象的数目个目标特征值分别对应的特征向量,生成目标矩阵,目标矩阵的行数为音频对象的数目,列数为音频片段的个数;根据目标矩阵,确定多个音频片段分别对应的特征向量,特征向量用于指示对应的音频片段;根据音频对象的数目和多个音频片段分别对应的特征向量,对多个音频片段进行聚类,得到各个音频对象对应的音频片段。
上述装置根据初始相似度矩阵中各行对应的动态阈值,对初始相似度矩阵进行调整,进而得到参考相似度矩阵,通过动态阈值调整过程,能够拉近同一音频对象的音频片段的声纹向量的相似度,拉远不同音频对象的音频片段的声纹向量的相似度,使得根据参考相似度矩阵,确定的音频对象的数目更加准确;再根据准确率较高的音频对象的数目,对多个音频片段进行聚类,得到各个音频对象对应的音频片段,使得确定的各个音频对象对应的音频片段的准确性较高,音频对象聚类的准确率较高,进而能够提高音频片段的音频处理效果。
应理解的是,上述提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的终端设备600的结构框图。该终端设备600可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请实施例提供的音频处理方法。
在一些实施例中,终端设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607和电源608中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端设备600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端设备600的前面板,后置摄像头设置在终端设备600的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
电源608用于为终端设备600中的各个组件进行供电。电源608可以是交流电、直流电、一次性电池或可充电电池。当电源608包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端设备600还包括有一个或多个传感器609。该一个或多个传感器609包括但不限于:加速度传感器610、陀螺仪传感器611、压力传感器612、光学传感器613以及接近传感器614。
加速度传感器610可以检测以终端设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器610可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器610采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器610还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器611可以检测终端设备600的机体方向及转动角度,陀螺仪传感器611可以与加速度传感器610协同采集用户对终端设备600的3D动作。处理器601根据陀螺仪传感器611采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器612可以设置在终端设备600的侧边框和/或显示屏605的下层。当压力传感器612设置在终端设备600的侧边框时,可以检测用户对终端设备600的握持信号,由处理器601根据压力传感器612采集的握持信号进行左右手识别或快捷操作。当压力传感器612设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器613用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器613采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器613采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器614,也称距离传感器,通常设置在终端设备600的前面板。接近传感器614用于采集用户与终端设备600的正面之间的距离。在一个实施例中,当接近传感器614检测到用户与终端设备600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器614检测到用户与终端设备600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7为本申请实施例提供的服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个中央处理器(Central Processing Units,CPU)701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的音频处理方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使计算机实现上述任一种音频处理方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种音频处理方法。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的音频片段都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种音频处理方法,其特征在于,所述方法包括:
确定待处理的多个音频片段分别对应的声纹向量,所述声纹向量用于指示所述音频片段对应的声纹特征;
根据各个音频片段对应的声纹向量,确定初始相似度矩阵,所述初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;
对于所述初始相似度矩阵中的任一行,按照第一顺序对所述任一行包括的多个相似度中位于目标范围的相似度进行排序,得到第一排序结果;根据所述第一排序结果,确定位于所述目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值;在所述多个相似度差值中确定最大的相似度差值;将所述最大的相似度差值对应的被减数作为所述任一行对应的动态阈值;
将所述初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度调整为第一数值,得到参考相似度矩阵;或者,将所述初始相似度矩阵各行包括的相似度中,小于所述各行对应的动态阈值的相似度与第二数值相乘,得到所述参考相似度矩阵;
根据所述参考相似度矩阵确定所述多个音频片段中存在的音频对象的数目;
根据所述音频对象的数目,对所述多个音频片段进行聚类,得到各个音频对象对应的音频片段。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参考相似度矩阵确定所述多个音频片段中存在的音频对象的数目,包括:
根据多个参考参数,对所述参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵;
根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述多个音频片段中存在的音频对象的数目。
3.根据权利要求2所述的方法,其特征在于,所述根据多个参考参数,对所述参考相似度矩阵进行处理,得到各个参考参数对应的目标相似度矩阵,包括:
对于所述多个参考参数中的任一参考参数,根据所述任一参考参数,对所述参考相似度矩阵进行数值调整,得到第一相似度矩阵,所述数值调整用于简化所述参考相似度矩阵;
对所述第一相似度矩阵进行对称化处理,得到第二相似度矩阵,所述第二相似度矩阵中位于第i行第j列的相似度与位于第j行第i列的相似度相同,所述i和所述j为不大于所述多个音频片段的个数的正整数;
对所述第二相似度矩阵进行行列扩散,得到第三相似度矩阵,所述第三相似度矩阵用于生成多个音频对象之间的边界;
对所述第三相似度矩阵进行比例调整,得到第四相似度矩阵,所述比例调整用于将所述第三相似度矩阵中各行包括的相似度调整在同一个范围内;
对所述第四相似度矩阵进行对称化处理,得到所述任一参考参数对应的目标相似度矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述任一参考参数,对所述参考相似度矩阵进行数值调整,得到第一相似度矩阵,包括:
对于所述参考相似度矩阵各行包括的多个相似度,将满足第三要求的任一参考参数个相似度之外的相似度调整为第三数值,得到所述第一相似度矩阵;
或者,将所述参考相似度矩阵包括的多个相似度中,除满足第三要求的任一参考参数个相似度之外的相似度与第四数值相乘,得到所述第一相似度矩阵。
5.根据权利要求3所述的方法,其特征在于,所述对所述第一相似度矩阵进行对称化处理,得到第二相似度矩阵,包括:
确定所述第一相似度矩阵对应的转置矩阵;
将所述第一相似度矩阵和所述第一相似度矩阵对应的转置矩阵中位于相同位置的相似度相加,得到候选相似度矩阵;
对所述候选相似度矩阵包括的多个相似度进行取半操作,得到所述第二相似度矩阵。
6.根据权利要求3所述的方法,其特征在于,所述对所述第一相似度矩阵进行对称化处理,得到第二相似度矩阵,包括:
确定所述第一相似度矩阵中位于所述第i行第j列的相似度,与所述第一相似度矩阵中位于所述第j行第i列的相似度中最大的相似度,将所述最大的相似度作为所述第二相似度矩阵中位于所述第i行第j列和所述第j行第i列的相似度,得到所述第二相似度矩阵。
7.根据权利要求3所述的方法,其特征在于,所述对所述第二相似度矩阵进行行列扩散,得到第三相似度矩阵,包括:
确定所述第二相似度矩阵对应的转置矩阵;
根据所述第二相似度矩阵和所述第二相似度矩阵对应的转置矩阵,确定所述第三相似度矩阵,所述第三相似度矩阵中位于第m行第n列的相似度基于所述第二相似度矩阵中位于所述第m行的相似度和所述第二相似度矩阵对应的转置矩阵中位于所述第n列的相似度确定,所述m、所述n为不大于所述多个音频片段的个数的正整数。
8.根据权利要求3所述的方法,其特征在于,所述对所述第三相似度矩阵进行比例调整,得到第四相似度矩阵,包括:
根据所述第三相似度矩阵中各行包括的多个相似度,确定各行对应的最大相似度;
将所述第三相似度矩阵中各行包括的多个相似度分别与所述各行对应的最大相似度相除,得到所述第四相似度矩阵。
9.根据权利要求2所述的方法,其特征在于,所述根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述多个音频片段中存在的音频对象的数目,包括:
根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述各个参考参数对应的比例值,所述比例值用于指示所述参考参数对应的目标相似度矩阵中保留的相似度的数量;
根据所述各个参考参数对应的比例值,确定所述多个音频片段中存在的音频对象的数目。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个参考参数和所述各个参考参数对应的目标相似度矩阵,确定所述各个参考参数对应的比例值,包括:
对于所述多个参考参数中的任一参考参数,对所述任一参考参数对应的目标相似度矩阵进行拉普拉斯变换,得到所述任一参考参数对应的拉普拉斯矩阵;
对所述拉普拉斯矩阵进行奇异值分解,得到多个参考特征值;
在所述多个参考特征值中确定第二特征值和目标数量个第一特征值,所述第二特征值为所述多个参考特征值中的最大值,所述第一特征值为按照第二顺序对所述多个参考特征值进行排序后满足第二要求的目标数量个参考特征值;
确定所述目标数量个第一特征值中相邻的两个第一特征值之间的差值,得到多个特征值差值;
根据所述第二特征值,对目标特征值差值进行归一化处理,得到归一化之后的特征值差值,所述目标特征值差值为所述多个特征值差值中最大的特征值差值;
根据所述归一化之后的特征值差值和所述任一参考参数,确定所述任一参考参数对应的比例值。
11.根据权利要求9所述的方法,其特征在于,所述根据所述各个参考参数对应的比例值,确定所述多个音频片段中存在的音频对象的数目,包括:
根据所述各个参考参数对应的比例值,在所述多个参考参数中确定目标参数,所述目标参数为所述多个参考参数中对应的比例值最小的参考参数;
确定所述目标参数对应的多个特征值差值;
调用目标函数对所述目标参数对应的多个特征值差值进行处理,得到所述多个音频片段中存在的音频对象的数目。
12.根据权利要求11所述的方法,其特征在于,所述根据所述音频对象的数目,对所述多个音频片段进行聚类,得到各个音频对象对应的音频片段,包括:
对所述目标参数对应的目标相似度矩阵进行奇异值分解,得到多个目标特征值;
在所述多个目标特征值中确定所述音频对象的数目个目标特征值;
确定所述音频对象的数目个目标特征值分别对应的特征向量;
根据所述音频对象的数目个目标特征值分别对应的特征向量,生成目标矩阵,所述目标矩阵的行数为所述音频对象的数目,列数为所述音频片段的个数;
根据所述目标矩阵,确定所述多个音频片段分别对应的特征向量,所述特征向量用于指示对应的音频片段;
根据所述音频对象的数目和所述多个音频片段分别对应的特征向量,对所述多个音频片段进行聚类,得到所述各个音频对象对应的音频片段。
13.一种音频处理装置,其特征在于,所述装置包括:
确定模块,用于确定待处理的多个音频片段分别对应的声纹向量,所述声纹向量用于指示所述音频片段对应的声纹特征;
所述确定模块,还用于根据各个音频片段对应的声纹向量,确定初始相似度矩阵,所述初始相似度矩阵中包括任意两个音频片段对应的声纹向量之间的相似度;
所述确定模块,还用于对于所述初始相似度矩阵中的任一行,按照第一顺序对所述任一行包括的多个相似度中位于目标范围的相似度进行排序,得到第一排序结果;根据所述第一排序结果,确定位于所述目标范围的相似度中相邻的两个相似度之间的相似度差值,得到多个相似度差值;在所述多个相似度差值中确定最大的相似度差值;将所述最大的相似度差值对应的被减数作为所述任一行对应的动态阈值;
调整模块,用于将所述初始相似度矩阵各行包括的相似度中,小于各行对应的动态阈值的相似度调整为第一数值,得到参考相似度矩阵;或者,将所述初始相似度矩阵各行包括的相似度中,小于所述各行对应的动态阈值的相似度与第二数值相乘,得到所述参考相似度矩阵;
所述确定模块,还用于根据所述参考相似度矩阵确定所述多个音频片段中存在的音频对象的数目;
聚类模块,用于根据所述音频对象的数目,对所述多个音频片段进行聚类,得到各个音频对象对应的音频片段。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至12任一所述的音频处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现如权利要求1至12任一所述的音频处理方法。
CN202211088204.6A 2022-09-07 2022-09-07 音频处理方法、装置、设备及计算机可读存储介质 Active CN115168643B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211088204.6A CN115168643B (zh) 2022-09-07 2022-09-07 音频处理方法、装置、设备及计算机可读存储介质
PCT/CN2023/114040 WO2024051481A1 (zh) 2022-09-07 2023-08-21 音频处理方法、装置、设备、可读存储介质及程序产品
US18/583,688 US20240242722A1 (en) 2022-09-07 2024-02-21 Audio processing method and apparatus, device, readable storage medium, and program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211088204.6A CN115168643B (zh) 2022-09-07 2022-09-07 音频处理方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115168643A CN115168643A (zh) 2022-10-11
CN115168643B true CN115168643B (zh) 2023-04-07

Family

ID=83480765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211088204.6A Active CN115168643B (zh) 2022-09-07 2022-09-07 音频处理方法、装置、设备及计算机可读存储介质

Country Status (3)

Country Link
US (1) US20240242722A1 (zh)
CN (1) CN115168643B (zh)
WO (1) WO2024051481A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168643B (zh) * 2022-09-07 2023-04-07 腾讯科技(深圳)有限公司 音频处理方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327628A (zh) * 2021-05-27 2021-08-31 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质和电子设备
WO2022078146A1 (zh) * 2020-10-12 2022-04-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040032A (zh) * 2017-11-02 2018-05-15 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
CN108908377B (zh) * 2018-07-06 2020-06-23 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN109360572B (zh) * 2018-11-13 2022-03-11 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
CN110889009B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN111866607B (zh) * 2020-07-30 2022-03-11 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN112133319B (zh) * 2020-08-31 2024-09-06 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN114792522A (zh) * 2021-01-26 2022-07-26 阿里巴巴集团控股有限公司 音频信号处理、会议记录与呈现方法、设备、系统及介质
CN113724739B (zh) * 2021-09-01 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 检索音频和训练声学模型的方法、终端及存储介质
CN114512135A (zh) * 2022-01-17 2022-05-17 马上消费金融股份有限公司 声纹聚类方法、声纹识别方法、装置及电子设备
CN114446284A (zh) * 2022-02-10 2022-05-06 上海喜马拉雅科技有限公司 说话人日志生成方法、装置、计算机设备及可读存储介质
CN114822558A (zh) * 2022-04-15 2022-07-29 马上消费金融股份有限公司 声纹识别方法、装置、电子设备及存储介质
CN114937462A (zh) * 2022-05-17 2022-08-23 国网黑龙江省电力有限公司佳木斯供电公司 基于声纹智能诊断高压断路器故障检测方法
CN115168643B (zh) * 2022-09-07 2023-04-07 腾讯科技(深圳)有限公司 音频处理方法、装置、设备及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022078146A1 (zh) * 2020-10-12 2022-04-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN113327628A (zh) * 2021-05-27 2021-08-31 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质和电子设备

Also Published As

Publication number Publication date
CN115168643A (zh) 2022-10-11
US20240242722A1 (en) 2024-07-18
WO2024051481A1 (zh) 2024-03-14

Similar Documents

Publication Publication Date Title
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN109189950B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN110544272B (zh) 脸部跟踪方法、装置、计算机设备及存储介质
CN111489378B (zh) 视频帧特征提取方法、装置、计算机设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
CN110047468B (zh) 语音识别方法、装置及存储介质
CN113763933B (zh) 语音识别方法、语音识别模型的训练方法、装置和设备
CN112733970B (zh) 图像分类模型处理方法、图像分类方法及装置
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN111753498A (zh) 文本处理方法、装置、设备及存储介质
CN110503160A (zh) 图像识别方法、装置、电子设备及存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
US20240242722A1 (en) Audio processing method and apparatus, device, readable storage medium, and program product
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN115206305A (zh) 语义文本的生成方法、装置、电子设备及存储介质
CN114996515A (zh) 视频特征提取模型的训练方法、文本生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40076008

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant