CN114255764B - 音频信息处理方法、装置、电子设备及存储介质 - Google Patents
音频信息处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114255764B CN114255764B CN202210186177.XA CN202210186177A CN114255764B CN 114255764 B CN114255764 B CN 114255764B CN 202210186177 A CN202210186177 A CN 202210186177A CN 114255764 B CN114255764 B CN 114255764B
- Authority
- CN
- China
- Prior art keywords
- segment
- audio
- sound
- sample
- sound segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title abstract description 22
- 239000000463 material Substances 0.000 claims abstract description 297
- 238000001514 detection method Methods 0.000 claims abstract description 247
- 238000004364 calculation method Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 239000000523 sample Substances 0.000 description 250
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004154 testing of material Methods 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种音频信息处理方法:获取样本音频和检材音频;对样本音频和检材音频进行语音分段处理,得到样本音段信息和检材音段信息;根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将每组匹配音段作为匹配音段组;根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算得到音段频次;根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算得到每个匹配音段组的相似度评分;根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。本方法通过对样本音频和检材音频中的匹配音段组进行音段频次统计和相似度评分计算,提高了获取特征音频的效率。
Description
技术领域
本申请涉及语音处理技术领域,更具体地,涉及一种音频信息处理方法、装置、电子设备及存储介质。
背景技术
声纹鉴定(Voice Identification)作为生物识别技术的一种,又称为语音同一性鉴定,在鉴定过程中需要从比对的两个音频中选取特征相符的语音片段进行声纹图谱的比对与分析,以便确定符合比对条件的语音片段,也即特征音段。
实际工作中,特征音段的提取大多是基于鉴定专家的人工听辨分析,由于在听辨过程中必须对待分析的音频进行反复听辨和筛选,因此这种传统的经人工挑选特征音段来进行声纹鉴定的方法效率低下,并且准确性容易受不同鉴定人的经验能力的制约,从而为声纹鉴定的相关应用带来不便。
发明内容
本申请实施例提供一种音频信息处理方法、装置、电子设备及存储介质,旨在提升特征音段的提取的效率和准确性。
第一方面,本申请实施例提供一种音频信息处理方法,该方法包括:获取样本音频和检材音频;对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,样本音段信息和检材音段信息都包括音素信息,音素信息关联有对应的时间戳;根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将至少一组匹配音段作为匹配音段组,匹配音段组分别由检材音频和样本音频中符合匹配规则的音段组成;根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次;根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分;根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。
第二方面,本申请实施例还提供一种音频信息处理装置,该装置包括:音频获取模块,用于获取样本音频和检材音频;语音处理模块,用于对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,样本音段信息和检材音段信息都包括音素信息,音素信息关联有对应的时间戳;音段匹配模块,用于根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将至少一组匹配音段作为匹配音段组,匹配音段组分别由检材音频和样本音频中符合匹配规则的音段组成;频次计算模块,用于根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次;评分计算模块,用于根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分;确定模块,用于根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。
第三方面,本申请实施例还提供一种电子设备,该电子设备包括处理器及存储器,存储器存储有计算机程序指令,计算机程序指令被处理器调用时执行上述的音频信息处理方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,其中,在程序代码被处理器运行时执行上述的音频信息处理方法。
第五方面,本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机执行上述音频信息处理中的步骤。
本申请提供的一种音频信息处理方法,可以获取样本音频和检材音频,并对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,进一步地,根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将至少一组匹配音段作为匹配音段组,并根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次,进一步地,根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分,并根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。由此,在对每个匹配音段组进行相同音段信息的频次统计的同时,可以利用样本音段信息和检材音段信息进行每个匹配音段组的相似度评分的计算,从而根据音段频次和相似度评分综合确定特征音段,大大提高特征音频获取的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种音频信息处理系统架构示意图。
图2示出了本申请实施例提供的一种音频信息处理方法的流程示意图。
图3示出了本申请实施例提供的另一种音频信息处理方法的流程示意图。
图4示出了本申请实施例提供的一种音频信息处理方法的流程框图。
图5示出了本申请实施例提供的一种音频信息处理装置的模块框图。
图6是本申请实施例提供的一种电子设备的模块框图。
图7是本申请实施例提供的一种计算机可读存储介质的模块框图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
语音同一性鉴定又称声纹鉴定、话者识别鉴定、说话人鉴定和嗓音鉴定,指通过比较、分析,对声像资料记载的语音的同一性问题所进行的科学判断。语音同一性鉴定已经在证券交易、银行交易、身份认证以及司法鉴定等领域均有应用。例如,在司法实践的过程中,鉴定人员常常需要对涉案语音(如绑架案中勒索赎金电话的录音,经济纠纷中当事双方的谈话录音等)进行检验。
鉴定人员要先对捡材和样本分别反复审听和记录,从中选择正常而清晰的语声段落,再进一步选取相同的字、词、句,作为供比较的部分。然后使用语图仪分别将选好的检材与样本中的字、词、句做出声纹图。在被比较的两种声纹图谱中,分别选取明显、稳定的特征音段作为比较特征。然而,特征音段的人工挑选需要耗费大量的时间,导致声纹鉴定的效率低下,同时,由于人工挑选特征音段容易受到环境以及鉴定人员的技术水平的影响,也会导致挑选结果的质量不够准确。
为了解决上述问题,发明人提出了本申请实施例提供的音频信息处理方法,该方法可以获取样本音频和检材音频,并对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,进一步地,根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将至少一组匹配音段作为匹配音段组,并根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次,进而根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分,并根据音段频次和相似度评分,确定检材音频和样本音频的特征音段,从而提高特征音段提取的效率。
请参阅图1,图1为本发明实施例所提供的一种音频信息处理系统的架构示意图。在一些实施例中,该音频信息处理系统400可以包括:语音获取模块401、语音检索模块402、音段匹配模块403、频次统计模块404、相似性评分模块405以及音段输出模块406。其中,相似性评分模块405可以包括语音相似性评分单元407和语境相似性评分单元409。
作为一种实施方式,在语音获取模块401获取样本音频和检材音频之后,语音检索模块402可以对样本音频和检材音频进行语音分段处理,得到样本音段信息和检材音段信息,进而,音段匹配模块403可以获取样本音频和检材音频中具有相同或相近音段信息的至少一个匹配音段组,进而频次统计模块404可以根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算得到样本音频和检材音频中的音素信息相同音段出现的频次,相似性评分模块405对每个匹配音段组进行相似性评分的计算,音段输出模块406根据频次和相似度评分在至少一个匹配音段组中确定并输出样本音频和检材音频的特征音段。示例性地,司法鉴定的应用场景中,鉴定人员可以利用该音频信息处理系统400在获取样本音频和检材音频之后,对样本音频和检材音频进行音段频次计算和相似度计算以获取最终用于声纹鉴定的特征音频。
需要说明的是,图1所示的音频信息处理系统的架构示意图仅仅是一个示例,本发明实施例描述的音频信息处理系统的架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着音频信息处理系统的架构的演变和新的应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
在本实施例中,将从音频信息处理装置的角度进行描述,该音频信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的电子设备中,电子设备可以是服务器或者终端。下面将结合附图具体描述本申请中的各实施例。
请参阅图2,图2示出了本申请实施例提供的一种音频信息处理方法,该音频信息处理方法可以包括以下步骤S110至步骤S160。
步骤S110:获取样本音频和检材音频。
在本申请实施例中,样本音频是已知人的语音音频,该已知人的身份信息已明确,检材音频是未知人的语音音频,该未知人的身份信息待明确。作为一种实施方式,样本音频和检材音频的获取可以根据不同的应用场景按照对应的采集程序进行样本采集。
例如,声纹鉴定采集样本音频(录音)除了遵照采取检材时要求的器材和注意事项外,应尽量保持同采集检材时相同、相近的语声环境、距离、设备及速度,并建议在样本中有与检材相同的词句,以供特征比对,并且要保证样本音频采集的真实性及合法性。
步骤S120:对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息。
在本申请实施例中,语音分段处理指的是分别获取样本音频和检材音频中各个音段所包含的语音的音素信息和文本信息等音段信息。其中,音段为语音的片段,指音素、字等有特定内容信息的语音片段,音段可以很短。音素(phone)是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素信息可以是英语中的辅音和元音,也可以是汉语中的声母和韵母,文本信息指的是样本音频和检材音频对应的文本,音素信息和文本信息关联有对应的时间戳,以便利用样本音频和检材音频对应的音段信息进行特征音段的提取。
作为一种实施方式,在获取样本音频和检材音频之后,可以利用自动语音识别(Automatic Speech Recognition,ASR)算法分别对样本音频和检材音频进行计算,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息。
例如,利用基于动态时间规整(Dynamic Time Warping,DTW)的语音识别算法或者基于前馈神经网络(Feed Forward Deep Neural Network,FFDNN)的声学模型对样本音频和检材音频进行计算,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息。
步骤S130:根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将每组匹配音段作为匹配音段组。
在本申请实施例中,匹配音段组分别由检材音频和样本音频中符合匹配规则的音段组成。音段匹配规则用于从样本音频和检材音频中匹配相同或相近的匹配音段。其中,音段匹配规则可以包括相同音段匹配规则和相近音段匹配规则。相同音段匹配规则需要两个匹配音段的音素信息相同,相近音段匹配规则是基于已有的大量自动语音识别结果与真人听辨分析得到的结果。
在正常的语音交流中,大部分人所说的普通话并不严格标准,受口音和方言的影响,导致标准普通话发音不同的文字可能被发音成相同或相近的音,而这样的音段是可以作为特征音段进行声纹比对的。例如,某些地区的口音对一些常用字的前后鼻音的发音不做区分,统一都发成前鼻音,如“谈(tán)情(qíng)”和“弹(tán)琴(qín)”中的韵母“íng”和“ín”都被发成“ín”。此外还有一些地区的口音对一些字的声母不加区别或者习惯性的错误发音,如边音“l”和鼻音“n”不做区分,统一发成边音“l”,再如“湖(hú)南”和“福(fú)州”中的“湖”和“福”被统一发成“fú”或“hú”。
针对以上发音现象,若严格按照音素或文字内容信息相同的规则进行匹配,则会漏掉这些实际发音相同的音段。因此,这些标准普通话中存在区别的音段在实际说话中就有必要作为相近音段进行匹配,以防止实际发音相同的音段被遗漏。
在一些实施例中,根据相同音段匹配规则,对样本音频和检材音频进行音段信息的匹配,判断样本音频和检材音频是否存在相同的音段信息的音段,若样本音频和检材音频存在相同音段信息的音段,则将样本音频和检材音频中具有相同音段信息的音段作为多个相同匹配音段组。
在另一些实施例中,根据相近音段匹配规则,对样本音频和检材音频进行音段信息的匹配,判断样本音频和检材音频是否存在相近的音段信息,若样本音频和检材音频存在相近音段信息的音段,则将样本音频和检材音频中具有相近音段信息的音段作为多个相近匹配音段组。需要说明的是,相近音段信息的判断可以是基于已有的大量自动语音识别结果与真人听辨分析得到。
示例性地,若判定出检材音频中的音段 和样本音频中的音段的音素信息完全一致,则检材音频中的音段 和样本音频中的音段可以组成相同匹配音段组。若判定出检材音频中的音段 和样本音频中的音段的音素信息相近,则检材音频中的音段 和样本音频中的音段可以组成相近匹配音段组。
在又一些实施例中,根据音段匹配规则对样本音频和检材音频进行音段匹配时,若样本音频和检材音频之间仅存在一个匹配音段组,则可以接将该匹配音段组中的匹配音段作为特征音段。若样本音频和检材音频之间不存在匹配音段组,则可以直接输出没有特征音段的提示信息。
步骤S140:根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次。
考虑到样本音频和检材音频是由不同的音段组成,在获取多个匹配音段组后,可以确定每个匹配音段中包含相同音段信息的音段频次。在本申请实施例中,音段频次用于计算出相同音段信息在匹配音段组中出现的频次。
作为一种实施方式,根据样本音段信息和检材音段信息,可以找出每个匹配音段中包含相同音素信息和相同文本信息的音段,进一步地,统计该音段在对应匹配音段中出现的频次。
例如,获取到匹配音段组的样本音段信息中文本信息包含“大家好”“我”、“是”、“张三”“我”、“来自于”、“祖国”、“的”、“北方”、“我”、“的”、“家乡”、“在”“长春”;获取到匹配音段组检材音段信息中文本信息包含“大家好”、“我”、“叫”、“王五”“我”、“来自于”、“中国”、“的”、“南方”、“我”、“的”、“家乡”、“在”“广州”。
根据样本音段信息中的文本信息和检材音段信息中的文本信息进行音段频次计算,可以得出匹配音段组之间具有相同文本信息的音段为:“大家好”、“我”、“来自于”、“的”、“家乡”、“在”,同时也可以确定出上述各个音段的音素信息也全部相同。进一步地,可以统计出具有相同音段信息的音段的频次,如:该匹配音段组的频次为6次。
步骤S150:根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分。
其中,相似度计算指的是对各匹配音段组中检材音频和样本音频的匹配音段进行相似度计算,该相似度评估可以包括语音相似度计算和语境相似度计算。其中,语音相似度指的是各匹配音段组中两个匹配音段在语音数据上的具有的相似程度,例如,两个匹配音段的基频、共振峰的相似度。语境相似度指的是两个匹配音段在各自上下文中的衔接程度的相似度。
在一些实施例中,可以从每个匹配音段组中检材音频和样本音频的匹配音段上,获取在同一时间戳对应的待测样本音段和待测检材音段,进一步地,对待测样本音段和待测检材音段进行相似度计算。具体地,可以对待测样本音段和待测检材音段进行语音相似度计算,也可以对待测样本音段和待测检材音段进行语境相似度计算。
步骤S160:根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。
其中,特征音段指的是检材音频和样本音频中语音音质相同的音段,该语音音质通常体现在音频的强度和幅度(也即,音量)、音频的频率(也即,音高)以及音频的泛音(也即,音色)。特征音段的语音音质可以根据匹配音段组中两个匹配音段之间包含相同音段信息的频次以及两个匹配音段的相似度评分进行综合判断。
在一些实施例中,可将两个匹配音段之间的音段频次、两个匹配音段的语音相似度评分和语境相似度评分进行加权求和,并根据加权求和的结果对多个匹配音段组进行评分排序,从而得到筛选出特征音段。
作为一种实施方式,可以对每个匹配音段组的检材音频和样本音频的匹配音段进行音段相似度评分,进一步地,在根据音段频次和音段相似度评分进行匹配音段组的综合评分,从而根据综合评分的排序筛选出排名最高的匹配音段作为特征音段。
具体地,在进行音段相似度评分时,可以对语音相似度和语境相似度进行加权以确定两个匹配音段的相似度得分。例如,语音相似度占比0.7,语境相似度占比0.3,语音相似度和语境相似度的权重可根据实际场景进行灵活调整。
可选地,特征音段的质量也可以根据音段的长度进行判断。考虑到越长的音段,其包含的音素越稳定,同时在声纹鉴定比对时的说服力越强,因此,可以优先挑选音段长度较长的音段作为特征音段。
本申请实施例中,可以获取样本音频和检材音频,并对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,进一步地,根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将每组匹配音段作为匹配音段组,并根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次,进一步地,根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分,并根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。由此,在对多个匹配音段组进行相同音段信息的频次统计的同时,可以利用样本音段信息和检材音段信息进行多个匹配音段组的相似度评分的计算,从而根据频次和相似度评分综合确定特征音段,大大提高特征音频获取的准确性和效率。
如图3所示,图3示意性地示出本申请实施例提供的另一种音频信息处理方法,该音频信息处理方法可以包括以下步骤S210至步骤S290。
步骤S210:获取样本音频和检材音频。
在本实施例中,步骤S210的具体实施,可以参考上文实施例所提供的步骤S110的阐述,此处不再赘述。
步骤S220:根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将每组匹配音段作为匹配音段组。
考虑到匹配音段组中的匹配音段存在相同和相近的两种情况,为此,可以根据不同的音段匹配规则来获取匹配音段组。其中,匹配规则包括相同音段匹配规则和相近音段匹配规则,匹配音段组包括相同匹配音段组和相近匹配音段组。
在一些实施例中,可以根据相同音段匹配规则,对样本音频和检材音频进行音段信息匹配,若样本音频和检材音频之间存在至少一组相同的匹配音段,则将每组相同的匹配音段作为相同匹配音段组。
具体地,可以根据相同音段匹配规则,对样本音频和检材音频进行音素信息的匹配,进而判断样本音频和检材音频是否存在相同音素信息的音段,若样本音频和检材音频存在至少一组相同音素信息的音段,则将样本音频和检材音频中具有相同音素信息的每组匹配音段作为相同匹配音段组。
在另一些实施例中,可以根据相近音段匹配规则,对样本音频和检材音频进行音段信息匹配,若样本音频和检材音频之间存在至少一组相近的匹配音段,则将每组相近的匹配音段作为相近匹配音段组。
具体地,可以根据相近音段匹配规则,对样本音频和检材音频进行音素信息匹配,进而判断样本音频和检材音频是否存在相近音素信息的音段,若样本音频和检材音频存在至少一组相近音素信息的音段,则将样本音频和检材音频中具有相近音素信息的每组匹配音段作为相近匹配音段组。
步骤S230:根据样本音段信息和检材音段信息,检索每个匹配音段组中的相同音素信息和相同文本信息。
步骤S240:计算样本音频和检材音频中包含相同音素信息和相同文本信息的音段,并确定音段同时出现在每个匹配音段组中的音段频次。
作为一种实施方式,可以分别检索出样本音频和检材音频中每个匹配音段组的所有相同音素和相同文字,进一步地,统计样本音频和检材音频中出现的相同音素和相同文字的音段出现的频次,也即同一匹配音段组中音频内音素和文字内容相同的音段的数量。
步骤S250:基于同一时间戳,在每个匹配音段组中分别确定对应的待测样本音段和待测检材音段。
在本申请实施例中,每个音段的音素信息和文本信息都关联有对应的时间戳,该时间戳用于表征音段的时间信息,也即音段在音频中的时刻,可以在匹配音段组的检材音频及样本音频的匹配音段中分别获取该时间戳对应的两个音段,也即待测样本音段和待测检材音段,并对该两个音段进行相似度评分。
作为一种实施方式,可以在匹配音段组的匹配音段所在时段中确定某一时间戳,可选地,该时间戳可以为某一时刻或者某一时间段,再根据该时间戳分别将匹配音段组中检材音频和样本音频的匹配音段在该时间戳对应的音段作为待测样本音段和待测检材音段。
例如,在匹配音段组的检材音频的匹配音段中确定时间戳为0.43秒至0.67秒的音段为待测样本音段,在匹配音段组的样本音频的匹配音段中确定时间戳为0.43秒至0.67秒的音段为待测检材音段。由此,可以对相同时间戳下的待测样本音段和待测检材音段进行相似度计算,提高计算结果的可靠性。
步骤S260:根据样本音段信息和检材音段信息,对待测样本音段和待测检材音段进行相似度计算,得到每个匹配音段组的相似度评分。
为了能够更加准确地从匹配音段组中获取高质量的特征音段,可以对匹配音段组进行语音相似度计算和语境相似度计算,从而确定出相似度较高的匹配音段作为特征音段。
在一些实施例中,可以根据样本音段信息和检材音段信息,对待测样本音段和待测检材音段进行语音相似度计算,得到每个匹配音段组的语音相似度评分。
作为一种实施方式,对待测样本音段对应的样本音段信息和待测检材音段对应的检材音段信息进行语音相似度计算,得到每个匹配音段组的语音相似度评分。具体地,可以获取待测样本音段对应的音素信息和文本信息,以及获取待测检材音段对应的音素信息和文本信息。
进一步地,将待测样本音段的音素信息和待测检材音段的音素信息进行相似度计算得到音素信息的相似度,进一步地,将待测样本音段的文本信息和待测检材音段的文本信息进行相似度计算得到文本信息的相似度,并将音素信息的相似度和文本信息的相似度作为语音相似度。
作为另一种实施方式,对待测样本音段和待测检材音段进行声学特征分析,得到样本音段特征和检材音段特征,并基于样本音段特征和检材音段特征计算出每个匹配音段组的语音相似度评分。例如,分别对待测样本音段和待测检材音段进行快速傅立叶变换(Fast Fourier Transform,FFT)频谱分析、自适应滤波器:线性预测系数(LinearPrediction Coefficient,LPC)频谱分析、采样点分布统计等,根据声学特征分析结果,如基频、共振峰、语音语谱图进行语音相似度计算(直方图匹配、感知哈希、图像特征匹配)得出语音相似度评分,可选地,语音相似度的评分可以采用满分为1的积分规则。
在另一些实施例中,可以根据样本音段信息和检材音段信息,对待测样本音段和待测检材音段进行语境相似度计算,得到每个匹配音段组的语境相似度评分。
作为一种实施方式,可以获取待测样本音段对应的样本衔接音段,并获取待测检材音段对应的检材衔接音段,进一步地,对样本衔接音段和检材衔接音段进行语境相似度计算,得到每个匹配音段组的语境相似度评分。
具体地,可以对样本衔接音段对应的前衔接音段和检材衔接音段对应的前衔接音段进行语境相似度计算,得到上文语境相似度评分,并对样本衔接音段对应的后衔接音段和检材衔接音段对应的后衔接音段进行语境相似度计算,得到下文语境相似度评分,进一步地,根据音段权重、上文语境相似度评分和下文语境相似度评分,计算出每个匹配音段组的语境相似度评分。
其中,音段权重指的是前后衔接音段的相似度,也即上文语境相似度评分和下文语境相似度评分各自占语境相似度的权重,音段权重可根据实际场景进行调整。衔接音段指的是某一音段其两端相邻的音段,包括前衔接音段和后衔接音段。根据音段间的衔接程度,可以确定语境相似度评分。连续的音频中,相邻音段之间会相互影响,同一音段的声纹特征会因其相邻音段的不同而发生改变。连续音频中某个音段前后衔接的音段被称为上下文语境,简称语境。
在进行声纹鉴定时,需要尽可能保证两个匹配音段的上下文语境相同,也即前后衔接的发音相同,其中上文语境对应前衔接音段,下文语境对应后衔接音段。因此,当两个匹配音段的上下文语境可能不同时,就有必要对语境的相似度进行评价。对普通话而言,音段的上下文语境主要是指该音段前衔接韵母和后衔接声母(单韵母音节则为韵母)。特殊情况,音段位于句首则前衔接音段为空,音段位于句尾则后衔接音段为空,孤立音段的前后衔接音段均为空。
示例性地,可以确定某一时间戳,再根据该时间戳分别确定待测样本音段和待测检材音段在该待测检材音段对应的音段的样本衔接音段和检材衔接音段。例如,在待测样本音段中确定时间戳为0.4秒的前0.1秒,也即0.3秒对应的音段秒为前衔接音段,和0.4秒的后0.1秒,也即0.5秒对应的音段为后衔接音段,在待测检材音段中确定时间戳为0.4秒的前0.1秒0.3秒为前衔接音段和后0.1秒0.5秒的音段为后衔接音段。
进一步地,可以对样本衔接音段和检材衔接音段进行语境相似度计算。例如,可以通过表征学习(Representation Learning)算法将获取的样本衔接音段(前衔接音段、后衔接音段)和检材衔接音段(前衔接音段、后衔接音段)进行向量化,得到各自音段对应的词向量(Word Embedding)。可以通过Word2Vec算法分别计算出样本衔接音段和检材衔接音段的词向量,进一步地,可以利用余弦相似度(Cosine Similarity)或者欧氏距离计算样本衔接音段在待测样本音段中的上下文的衔接度,以及计算检材衔接音段在待测检材音段中的上下文的衔接度,进一步地,在前后衔接音段的相似度各占0.5的音段权重条件下,可以将样本材衔音段的上下文的衔接度乘以0.5与检材材衔音段中的上下文的衔接度乘以0.5之和作为语境相似度评分。
考虑到匹配音段的上文或下文语境的相似度可分为相同、相近以及不同的3个类别,上下文语境整体则可分为9个类别:上下文均相同,上文相同下文相近,上文相同下文不同,上文相近下文相同,上下文均相近,上文相近下文不同,上文不同下文相同,上文不同下文相近,上下文均不同。其中上文或下文语境相同包含衔接音段为相同音段和衔接音段均为空两种情形,上文或下文语境相近则是指衔接音段为相近音段,上文或下文语境不同则包含衔接音段为不同音段和一个有衔接音段另一个没有衔接音段(衔接音段为空)的情形。
在一些实施例中,当匹配音段出现在句首时,其前衔接音段可以标记为空白音段,当匹配音段出现在句尾时,其后衔接音段可以标记为空白音段,孤立音段的前后衔接音段均可标记为空白音段,空白音段与非空白音段之间的语音相似度为0。句首和句尾以及孤立音段(既是句首又是句尾)的判断有多种方法,可单独使用也可联合使用,在此不做限定。可选地,可以根据语音识别的标点符号的位置判断句首和句尾。也可以根据语音识别返回的时间戳发生间断的位置确定句首和句尾。还可以采用语音活动检测(Voice ActivityDetection,VAD)算法确定各个连续语音片段的起止时间以确定句首和句尾。
步骤S270:根据每个匹配音段组的音段频次、语音相似度评分和语境相似度评分,确定每个匹配音段组的综合评分。
步骤S280:根据每个匹配音段组的综合评分,计算出所有匹配音段组的评分排序。
步骤S290:根据评分排序和预设筛选条件,确定检材音频和样本音频的特征音段。
在本申请实施例中,根据每个匹配音段组的音段频次、语音相似度评分和语境相似度评分进行综合评分的计算,并筛选出综合评分符合预设筛选条件的高质量的特征音段。其中,预设筛选条件可以指的是有专业人员根据实际情况设定的可以作为特征音段的最低的综合评分。
作为一种实施方式,各个匹配音段组中检材音频和样本音频的匹配音段的语音相似度评分和语境相似度评分进行音段相似度评分,例如,将语音相似度评分的权重占比设为0.7,语境相似度评分的权重占比设为0.3,语音相似度和语境相似度的权重可根据实际场景进行灵活调整,进而对语音相似度评分和语境相似度评分进行加权求和得到音段相似度评分。
进一步地,将各匹配音段组的音段频次以及音段相似度评分相加得到综合评分,并将所有匹配音段组的综合评分进行评分排序,进而将评分排序中综合评分满足预设筛选条件的匹配音段组中的匹配音段作为特征音段,从而可以将该特征音段用于下游任务,也即声纹鉴定。
可选地,预设筛选条件还可以包括基于用户的选择操作,而确定的音段筛选条件,该音段筛选条件可以包括筛选相同音段。具体地,若预设筛选条件为筛选相同音段,则基于多个相同匹配音段组计算出评分排序,从而确定检材音频和样本音频的特征音段。否则,可以基于多个相同匹配音段组和多个相近匹配音段组来计算出评分排序,从而确定检材音频和样本音频的特征音段。
示例性地,请参阅图4,图4示出本申请实施例提供的一种音频信息处理方法的流程框图,在一些实施例中,可以首先获取样本音频和检材音频,并对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息。
进一步地,根据音段匹配规则对样本音频和检材音频进行音段匹配,得到多个匹配音段组。并根据样本音段信息和检材音段信息,检索匹配音段组中匹配音段之间的相同音素信息和相同文本信息,并计算出样匹配音段组中包含相同音素信息和相同文本信息的音段的音段频次。
进一步地,基于同一时间戳,在每个匹配音段组中分别确定对应的待测样本音段和待测检材音段。对待测样本音段对应的样本音段信息和待测检材音段对应的检材音段信息进行语音相似度计算,得到每个匹配音段组的语音相似度评分,或者对待测样本音段和待测检材音段进行声学特征分析,得到样本音段特征和检材音段特征,并基于样本音段特征和检材音段特征计算出每个匹配音段组的语音相似度评分。对待测样本音段和待测检材音段进行语境相似度计算,得到每个匹配音段组的语境相似度评分。进一步地,根据音段频次、语音相似度评分和语境相似度评分,确定特征音段,具体地,可以根据频次、语音相似度评分和语境相似度评分对匹配音段组进行综合评分的排序,进而输出并显示出排序列表中最高综合评分对应的匹配音段组中的匹配音段(特征音段)。
本申请实施例中,通过对样获取的本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,并根据音段匹配规则对样本音频和检材音频进行音段匹配,得到多个匹配音段组。根据样本音段信息和检材音段信息对多个匹配音段组进行音段频次计算,确定相同音段出现的音段频次。进而,根据样本音段信息和检材音段信息对多个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分,并根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。由此,可以在对多个匹配音段组进行相同音段信息的频次统计的同时,可以利用样本音段信息和检材音段信息进行多个匹配音段组的相似度评分的计算,从而根据音段频次和相似度评分综合确定特征音段,大大提高特征音频获取的准确性和效率。
为便于更好的实施本申请实施例提供的音频信息处理方法,本申请实施例还提供一种基于上述音频信息处理方法的装置。其中名词的含义与上述信息处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5,图5示出了本申请实施例提供的音频信息处理装置500的结构框图,其中,该音频信息处理装置500包括:音频获取模块510,用于获取样本音频和检材音频;语音处理模块520,用于对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,样本音段信息和检材音段信息都包括音素信息,音素信息关联有对应的时间戳;音段匹配模块530,用于根据音段匹配规则对样本音频和检材音频进行音段匹配,若样本音频和检材音频之间存在至少一组匹配音段,则将每组匹配音段作为匹配音段组,匹配音段组分别由检材音频和样本音频中符合匹配规则的音段组成;频次计算模块540,用于根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算,得到音段频次;评分计算模块550,用于根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分;确定模块560,用于根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。
在一些实施例中,匹配规则包括相同音段匹配规则和相近音段匹配规则,匹配音段组包括相同匹配音段组和相近匹配音段组,音段匹配模块530可以包括:相同匹配单元,用于根据相同音段匹配规则,对样本音频和检材音频进行音段信息匹配,若样本音频和检材音频之间存在至少一组相同的匹配音段,则将相同的匹配音段作为相同匹配音段组;相近匹配单元,用于根据相近音段匹配规则,对样本音频和检材音频进行音段信息匹配,若样本音频和检材音频之间存在至少一组相近的匹配音段,则将相近的匹配音段作为相近匹配音段组。
在一些实施例中,相同匹配单元可以具体用于:根据相同音段匹配规则,对样本音频和检材音频进行音素信息的匹配,判断样本音频和检材音频是否存在相同音素信息的音段;若样本音频和检材音频存在至少一组相同音素信息的音段,则将样本音频和检材音频中具有相同音素信息的每组匹配音段作为相同匹配音段组。
在一些实施例中,相近匹配单元可以具体用于:根据相近音段匹配规则,对样本音频和检材音频进行音素信息匹配,判断样本音频和检材音频是否存在相近音素信息的音段;若样本音频和检材音频存在至少一组相近音素信息的音段,则将样本音频和检材音频中具有相近音素信息的每组匹配音段作为相近匹配音段组。
在一些实施例中,频次计算模块540可以具体用于: 根据样本音段信息和检材音段信息,检索每个匹配音段组中的相同音素信息和相同文本信息;计算样本音频和检材音频中包含相同音素信息和相同文本信息的音段,并确定音段同时出现在每个匹配音段组中的音段频次。
在一些实施例中,评分计算模块550可以包括:待测音段确定单元,用于基于同一时间戳,在每个匹配音段组中分别确定对应的待测样本音段和待测检材音段;相似度计算单元,用于根据样本音段信息和检材音段信息,对待测样本音段和待测检材音段进行相似度计算,得到每个匹配音段组的相似度评分。
在一些实施例中,相似度计算包括语音相似度计算,相似度计算单元可以具体用于:对待测样本音段对应的样本音段信息和待测检材音段对应的检材音段信息进行语音相似度计算,得到每个匹配音段组的语音相似度评分;或者对待测样本音段和待测检材音段进行声学特征分析,得到样本音段特征和检材音段特征,并基于样本音段特征和检材音段特征计算出每个匹配音段组的语音相似度评分。
在一些实施例中,相似度计算包括语境相似度计算,相似度计算单元可以包括:样本衔接音段获取子单元,用于获取待测样本音段对应的样本衔接音段;检材衔接音段获取子单元,用于获取待测检材音段对应的检材衔接音段;语境相似度计算子单元,用于对样本衔接音段和检材衔接音段进行语境相似度计算,得到每个匹配音段组的语境相似度评分。
在一些实施例中,样本衔接音段和检材衔接音段都包括上文衔接音段和下文衔接音段, 语境相似度计算子单元可以具体用于:对样本衔接音段对应的上文衔接音段和检材衔接音段对应的上文衔接音段进行语境相似度计算,得到上文语境相似度评分;对样本衔接音段对应的下文衔接音段和检材衔接音段对应的下文衔接音段进行语境相似度计算,得到下文语境相似度评分;根据音段权重、上文语境相似度评分和下文语境相似度评分,计算出每个匹配音段组的语境相似度评分。
在一些实施例中,确定模块560可以具体用于:根据每个匹配音段组的音段频次、语音相似度评分和语境相似度评分,确定每个匹配音段组的综合评分;根据每个匹配音段组的综合评分,计算出所有匹配音段组的评分排序;根据评分排序和预设筛选条件,确定检材音频和样本音频的特征音段。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请提供的音频信息处理装置,可以获取样本音频和检材音频,并对样本音频和检材音频进行语音分段处理,得到样本音频对应的样本音段信息和检材音频对应的检材音段信息,进一步地,根据音段匹配规则对样本音频和检材音频进行音段匹配,得到至少一组匹配音段组,并根据样本音段信息和检材音段信息对每个匹配音段组进行音段频次计算得到音段频次,进而根据样本音段信息和检材音段信息对每个匹配音段组进行相似度计算,得到每个匹配音段组的相似度评分,并根据音段频次和相似度评分,确定检材音频和样本音频的特征音段。由此,在对至少一组匹配音段组进行相同音段信息的频次统计的同时,可以利用样本音段信息和检材音段信息进行每个匹配音段组的相似度评分的计算,从而根据频次和相似度评分综合确定特征音段,大大提高特征音频获取的准确性和效率。
如图6所示,本申请实施例还提供一种电子设备600,该电子设备600包括处理器610、存储器620,存储器620存储有计算机程序指令,计算机程序指令被处理器610调用时实执行上述的音频信息处理方法。
处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器620内的指令、程序、代码集或指令集,以及调用存储在存储器620内的数据,执行电池管理系统的各种功能和处理数据。可选地,处理器610可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(Central Processing Unit,CPU)、图像处理器610(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器610中,单独通过一块通信芯片进行实现。
存储器620可以包括随机存储器620(Random Access Memory,RAM),也可以包括只读存储器620(Read-Only Memory)。存储器620图可用于存储指令、程序、代码、代码集或指令集。存储器620图可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
如图7所示,本申请实施例还提供一种计算机可读存储介质700,该计算机可读存储介质700中存储有计算机程序指令710,计算机程序指令710可被处理器调用以执行上述实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (12)
1.一种音频信息处理方法,其特征在于,所述方法包括:
获取样本音频和检材音频;
对所述样本音频和所述检材音频进行语音分段处理,得到所述样本音频对应的样本音段信息和所述检材音频对应的检材音段信息,所述样本音段信息和所述检材音段信息都包括音素信息,所述音素信息关联有对应的时间戳;
根据音段匹配规则对所述样本音频和所述检材音频进行音段匹配,若所述样本音频和所述检材音频之间存在至少一组匹配音段,则将每组所述匹配音段作为匹配音段组,所述匹配音段组分别由所述检材音频和所述样本音频中符合匹配规则的音段组成,所述匹配音段组包括相同匹配音段组和相近匹配音段组;
根据所述样本音段信息和所述检材音段信息,检索每个所述匹配音段组中的相同音素信息和相同文本信息;
计算所述样本音频和所述检材音频中包含所述相同音素信息和所述相同文本信息的音段,并确定所述音段同时出现在每个所述匹配音段组中的音段频次;
根据所述样本音段信息和所述检材音段信息对每个所述匹配音段组进行相似度计算,得到每个所述匹配音段组的相似度评分,所述相似度评分包括语音相似度评分以及语境相似度评分;
根据所述音段频次、语音相似度评分以及语境相似度评分,确定所述检材音频和所述样本音频的特征音段。
2.根据权利要求1所述的方法,其特征在于,所述匹配规则包括相同音段匹配规则和相近音段匹配规则,所述匹配音段组包括相同匹配音段组和相近匹配音段组,所述根据音段匹配规则对所述样本音频和所述检材音频进行音段匹配,若所述样本音频和所述检材音频之间存在至少一组匹配音段,则将每组所述匹配音段作为匹配音段组,包括:
根据相同音段匹配规则,对所述样本音频和所述检材音频进行音段信息匹配,若所述样本音频和所述检材音频之间存在至少一组相同的匹配音段,则将所述相同的匹配音段作为相同匹配音段组;
根据相近音段匹配规则,对所述样本音频和所述检材音频进行音段信息匹配,若所述样本音频和所述检材音频之间存在至少一组相近的匹配音段,则将所述相近的匹配音段作为相近匹配音段组。
3.根据权利要求2所述的方法,其特征在于,所述根据相同音段匹配规则,对所述样本音频和所述检材音频进行音段信息匹配,若所述样本音频和所述检材音频之间存在至少一组相同的匹配音段,则将所述相同的匹配音段作为相同匹配音段组,包括:
根据相同音段匹配规则,对所述样本音频和所述检材音频进行音素信息的匹配,判断所述样本音频和所述检材音频是否存在相同音素信息的音段;
若所述样本音频和所述检材音频存在至少一组相同音素信息的音段,则将所述样本音频和所述检材音频中具有相同音素信息的每组匹配音段作为所述相同匹配音段组。
4.根据权利要求2所述的方法,其特征在于,所述根据相近音段匹配规则,对所述样本音频和所述检材音频进行音段信息匹配,若所述样本音频和所述检材音频之间存在至少一组相近的匹配音段,则将所述相近的匹配音段作为相近匹配音段组,包括:
根据相近音段匹配规则,对所述样本音频和所述检材音频进行音素信息匹配,判断所述样本音频和所述检材音频是否存在相近音素信息的音段;
若所述样本音频和所述检材音频存在至少一组相近音素信息的音段,则将所述样本音频和所述检材音频中具有相近音素信息的每组匹配音段作为所述相近匹配音段组。
5.根据权利要求1所述的方法,其特征在于,所述根据所述样本音段信息和所述检材音段信息对每个所述匹配音段组进行相似度计算,得到每个所述匹配音段组的相似度评分,包括:
基于同一时间戳,在每个所述匹配音段组中分别确定对应的待测样本音段和待测检材音段;
根据所述样本音段信息和所述检材音段信息,对所述待测样本音段和所述待测检材音段进行相似度计算,得到每个所述匹配音段组的相似度评分。
6.根据权利要求5所述的方法,其特征在于,所述相似度计算包括语音相似度计算,所述根据所述样本音段信息和所述检材音段信息,对所述待测样本音段和所述待测检材音段进行相似度计算,得到每个所述匹配音段组的相似度评分,包括:
对所述待测样本音段对应的样本音段信息和所述待测检材音段对应的检材音段信息进行语音相似度计算,得到每个所述匹配音段组的语音相似度评分;或者
对所述待测样本音段和所述待测检材音段进行声学特征分析,得到样本音段特征和检材音段特征,并基于所述样本音段特征和所述检材音段特征计算出每个所述匹配音段组的语音相似度评分。
7.根据权利要求5所述的方法,其特征在于,所述相似度计算包括语境相似度计算,所述根据所述样本音段信息和所述检材音段信息,对所述待测样本音段和所述待测检材音段进行相似度计算,得到每个所述匹配音段组的相似度评分,包括:
获取所述待测样本音段对应的样本衔接音段;
获取所述待测检材音段对应的检材衔接音段;
对所述样本衔接音段和所述检材衔接音段进行语境相似度计算,得到每个所述匹配音段组的语境相似度评分。
8.根据权利要求7所述的方法,其特征在于,所述样本衔接音段和所述检材衔接音段都包括前衔接音段和后衔接音段,所述对所述样本衔接音段和所述检材衔接音段进行语境相似度计算,得到每个所述匹配音段组的语境相似度评分,包括:
对所述样本衔接音段对应的前衔接音段和所述检材衔接音段对应的前衔接音段进行语境相似度计算,得到上文语境相似度评分;
对所述样本衔接音段对应的后衔接音段和所述检材衔接音段对应的后衔接音段进行语境相似度计算,得到下文语境相似度评分;
根据音段权重、所述上文语境相似度评分和所述下文语境相似度评分,计算出每个所述匹配音段组的语境相似度评分。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述根据所述音段频次和所述相似度评分,确定所述检材音频和所述样本音频的特征音段,包括:
根据每个所述匹配音段组的音段频次、语音相似度评分和语境相似度评分,确定每个所述匹配音段组的综合评分;
根据每个所述匹配音段组的综合评分,计算出所有所述匹配音段组的评分排序;
根据所述评分排序和预设筛选条件,确定并显示所述检材音频和所述样本音频的特征音段。
10.一种音频信息处理装置,其特征在于,所述装置包括:
音频获取模块,用于获取样本音频和检材音频;
语音处理模块,用于对所述样本音频和所述检材音频进行语音分段处理,得到所述样本音频对应的样本音段信息和所述检材音频对应的检材音段信息,所述样本音段信息和所述检材音段信息都包括音素信息,所述音素信息关联有对应的时间戳;
音段匹配模块,用于根据音段匹配规则对所述样本音频和所述检材音频进行音段匹配,若所述样本音频和所述检材音频之间存在至少一组匹配音段,则将每组所述匹配音段作为匹配音段组,所述匹配音段组分别由所述检材音频和所述样本音频中符合匹配规则的音段组成,所述匹配音段组包括相同匹配音段组和相近匹配音段组;
频次计算模块,用于根据所述样本音段信息和所述检材音段信息,检索每个所述匹配音段组中的相同音素信息和相同文本信息;计算所述样本音频和所述检材音频中包含所述相同音素信息和所述相同文本信息的音段,并确定所述音段同时出现在每个所述匹配音段组中的音段频次;
评分计算模块,用于根据所述样本音段信息和所述检材音段信息对每个所述匹配音段组进行相似度计算,得到每个所述匹配音段组的相似度评分,所述相似度评分包括语音相似度评分以及语境相似度评分;
确定模块,用于根据所述音段频次、语音相似度评分以及语境相似度评分,确定所述检材音频和所述样本音频的特征音段。
11.一种电子设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1~9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210186177.XA CN114255764B (zh) | 2022-02-28 | 2022-02-28 | 音频信息处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210186177.XA CN114255764B (zh) | 2022-02-28 | 2022-02-28 | 音频信息处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114255764A CN114255764A (zh) | 2022-03-29 |
CN114255764B true CN114255764B (zh) | 2022-06-28 |
Family
ID=80797112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210186177.XA Active CN114255764B (zh) | 2022-02-28 | 2022-02-28 | 音频信息处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255764B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714826B (zh) * | 2013-12-18 | 2016-08-17 | 讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN107680601B (zh) * | 2017-10-18 | 2019-02-01 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN109378004B (zh) * | 2018-12-17 | 2022-05-27 | 广州势必可赢网络科技有限公司 | 一种音素比对的方法、装置、设备及计算机可读存储介质 |
CN111341300B (zh) * | 2020-02-28 | 2023-08-15 | 广州国音智能科技有限公司 | 一种获取语音比对音素的方法、装置和设备 |
CN113851110A (zh) * | 2021-09-02 | 2021-12-28 | 深圳市声扬科技有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-28 CN CN202210186177.XA patent/CN114255764B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114255764A (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136727B (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
US8249870B2 (en) | Semi-automatic speech transcription | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN101261832A (zh) | 汉语语音情感信息的提取及建模方法 | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN111552777A (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
Fatima et al. | Short utterance speaker recognition a research agenda | |
CN114927122A (zh) | 一种情感语音的合成方法及合成装置 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN114220419A (zh) | 一种语音评价方法、装置、介质及设备 | |
CN111785299B (zh) | 一种语音测评方法、装置、设备及计算机存储介质 | |
CN114255764B (zh) | 音频信息处理方法、装置、电子设备及存储介质 | |
US20140074478A1 (en) | System and method for digitally replicating speech | |
Brown | Y-ACCDIST: An automatic accent recognition system for forensic applications | |
Lindh | Forensic comparison of voices, speech and speakers–Tools and Methods in Forensic Phonetics | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
CN112116181A (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN109635151A (zh) | 建立音频检索索引的方法、装置及计算机设备 | |
Brown | Exploring forensic accent recognition using the Y-ACCDIST system | |
Cenceschi et al. | The Variability of Vowels' Formants in Forensic Speech | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
US11355140B2 (en) | Emotion estimation system and non-transitory computer readable medium | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
Prapcoyo et al. | Implementation of Mel Frequency Cepstral Coefficient and Dynamic Time Warping For Bird Sound Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |