CN115050367B - 一种说话目标定位方法、装置、设备及存储介质 - Google Patents

一种说话目标定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115050367B
CN115050367B CN202210964641.3A CN202210964641A CN115050367B CN 115050367 B CN115050367 B CN 115050367B CN 202210964641 A CN202210964641 A CN 202210964641A CN 115050367 B CN115050367 B CN 115050367B
Authority
CN
China
Prior art keywords
feature
target
determining
characteristic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210964641.3A
Other languages
English (en)
Other versions
CN115050367A (zh
Inventor
姜彦吉
张潇
郭佳鑫
唐晓亮
郑四发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Automotive Research Institute of Tsinghua University
Original Assignee
Suzhou Automotive Research Institute of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Automotive Research Institute of Tsinghua University filed Critical Suzhou Automotive Research Institute of Tsinghua University
Priority to CN202210964641.3A priority Critical patent/CN115050367B/zh
Publication of CN115050367A publication Critical patent/CN115050367A/zh
Application granted granted Critical
Publication of CN115050367B publication Critical patent/CN115050367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种说话目标定位方法、装置、设备及存储介质。该方法包括:若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;对所述目标语音特征进行特征提取,得到特征序列集合;根据所述特征序列集合,确定最大特征集合和平均特征集合;根据最大特征集合和平均特征集合,确定说话目标位置。本技术方案解决了基于信号处理的定位算法对传声器部署位置要求高、噪声干扰对定位精度影响大等问题,可以在提高定位准确性的同时,减少对传声器等硬件设备部署的位置约束,进而达到良好的抗干扰性。

Description

一种说话目标定位方法、装置、设备及存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种说话目标定位方法、装置、设备及存储介质。
背景技术
随着汽车智能化程度和人们对汽车驾乘舒适度要求的提高,智能语音系统和路噪主动控制系统逐渐成为车载标配。传声器在拾取说话目标语音时,需要对说话目标进行位置锁定,以便提供更个性化和更精准的车载服务。
目前,说话目标定位方案普遍采用的是基于信号处理的算法,为保证良好的定位性能,基于信号处理的定位方式对传声器的布放位置要求较高。例如,采用集中式阵列拾取说话目标语音时,与声源同向的噪声会极大的干扰定位精度,同时对说话目标的前后晃动较为敏感。因此,现有的说话目标定位方案的抗干扰能力差,难以满足车辆智能化需求。
发明内容
本发明提供了一种说话目标定位方法、装置、设备及存储介质,以解决基于信号处理的定位算法对传声器部署位置要求高、噪声干扰对定位精度影响大等问题,可以在提高定位准确性的同时,减少对传声器等硬件设备部署的位置约束,进而达到良好的抗干扰性。
根据本发明的一方面,提供了一种说话目标定位方法,所述方法包括:
若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;
对所述目标语音特征进行特征提取,得到特征序列集合;
根据所述特征序列集合,确定最大特征集合和平均特征集合;
根据最大特征集合和平均特征集合,确定说话目标位置。
根据本发明的另一方面,提供了一种说话目标定位装置,该装置包括:
目标语音特征确定模块,用于若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;
特征序列集合确定模块,用于对所述目标语音特征进行特征提取,得到特征序列集合;
特征集合确定模块,用于根据所述特征序列集合,确定最大特征集合和平均特征集合;
说话目标位置确定模块,用于根据最大特征集合和平均特征集合,确定说话目标位置。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的说话目标定位方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的说话目标定位方法。
本发明实施例的技术方案,通过在检测到定位触发事件时,根据目标语音数据,确定目标语音特征,并对目标语音特征进行特征提取,得到特征序列集合;再根据特征序列集合,确定最大特征集合和平均特征集合;最后根据最大特征集合和平均特征集合,确定说话目标位置。本方案解决了基于信号处理的定位算法对传声器部署位置要求高、噪声干扰对定位精度影响大等问题,可以在提高定位准确性的同时,减少对传声器等硬件设备部署的位置约束,进而达到良好的抗干扰性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种说话目标定位方法的流程图;
图2A是根据本发明实施例二提供的一种说话目标定位方法的流程图;
图2B是根据本发明实施例二提供的一种梅尔滤波器组的结构示意图;
图3是根据本发明实施例三提供的一种说话目标定位装置的结构示意图;
图4是实现本发明实施例的说话目标定位方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
实施例一
图1为本发明实施例一提供了一种说话目标定位方法的流程图,本实施例可适用于智能语音系统确定车内说话目标位置的场景,该方法可以由说话目标定位装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可配置于电子设备中。如图1所示,该方法包括:
S110、若检测到定位触发事件,则根据目标语音数据,确定目标语音特征。
本方案可以由车载语音系统执行,所述车载语音系统可以包括传声器、扬声器、处理器以及存储器等设备。其中,车载语音系统可以包括一个或多个传声器。为了实现良好的定位效果,多个传声器可以在车内分布式部署。
车载语音系统可以通过传声器采集车内声音,生成语音数据。车载语音系统可以配置有说话目标定位开关,例如控制说话目标定位的物理和/或虚拟按键。所述定位触发事件可以是车载语音系统检测到说话目标定位开关打开,如果说话目标定位开关打开,车载语音系统可以将开关打开后采集到的语音数据作为目标语音数据,提取目标语音特征,以进行说话目标定位。
在一个优选的方案中,所述若检测到定位触发事件,根据目标语音数据,确定目标语音特征,包括:
若检测到语音数据中存在唤醒词,则将所述语音数据作为目标语音数据,通过特征工程模型,确定唤醒词特征。
所述定位触发事件还可以是车载语音系统识别到语音数据中存在唤醒词。其中,所述唤醒词可以是预先设置的,例如“你好,××”。所述唤醒词可以包括一个也可以包括多个。车载语音系统可以允许用户根据个性化需求进行增添或删改。
车载语音系统可以将存在唤醒词的语音数据作为目标语音数据,通过特征工程模型,提取唤醒词特征。其中,所述特征工程模型可以是基于数字信号处理方法对目标语音数据进行处理,从而提取唤醒词特征的。唤醒词特征的提取可以表示为如下公式:
Figure 648655DEST_PATH_IMAGE001
其中,
Figure 61051DEST_PATH_IMAGE002
表示传声器编号,
Figure 181453DEST_PATH_IMAGE003
表示第
Figure 695611DEST_PATH_IMAGE002
个传声器采集的语音数据,
Figure 559662DEST_PATH_IMAGE004
表示特征工程模型的语音数据处理操作,
Figure 328029DEST_PATH_IMAGE005
表示根据第
Figure 884912DEST_PATH_IMAGE002
个传声器采集的语音数据确定的唤醒词特征。
本方案通过检测语音数据中的唤醒词来触发说话目标定位,进而实现用户与车载语音系统的智能交互,可以在保证驾驶安全性的同时,为用户带来良好的使用体验。
S120、对所述目标语音特征进行特征提取,得到特征序列集合。
车载语音系统可以通过特征提取模型对目标语音特征进行特征提取,其中,所述特征提取模型可以是基于深度学习算法构建的语音处理模型。通过特征提取,车载语音系统可以得到目标语音特征的多个特征序列,组成特征序列集合。
具体的,所述对所述目标语音特征进行特征提取,得到特征序列集合,包括:
根据预先构建的预设数量的随机内核,对所述目标语音特征进行特征提取,得到特征序列集合;其中,所述随机内核的构建参数包括长度参数、权重参数、偏置参数、膨胀率参数以及填充参数。
车载语音系统可以采用大数量的不同参数类型的随机内核,对目标语音特征进行特征提取,以充分提取目标语音特征不同维度的特征,从而构成特征序列集合。例如随机内核数量可以选取1000个,车载语音系统可以将1000个随机内核的全部构建参数均设置为随机,也可以将部分构建参数设置为随机。车载语音系统也可以将1000个随机内核分为多类,每一类构建参数采取不同的随机方式。
假设目标语音特征为唤醒词特征,目标语音特征的特征提取过程可以表示为如下公式:
Figure 620787DEST_PATH_IMAGE006
其中,
Figure 288529DEST_PATH_IMAGE007
表示特征序列集合,
Figure 409938DEST_PATH_IMAGE008
表示预设数量的随机内核,
Figure 137722DEST_PATH_IMAGE009
表示唤醒词特征。
S130、根据所述特征序列集合,确定最大特征集合和平均特征集合。
具体的,所述根据所述特征序列集合,确定最大特征集合和平均特征集合,包括:
确定特征序列集合中各特征序列的最大特征,得到最大特征集合,和,确定特征序列集合中各特征序列的目标特征平均值,得到平均特征集合。
其中,最大特征集合可以表示为:
Figure 360893DEST_PATH_IMAGE010
Figure 832326DEST_PATH_IMAGE011
表示特征序列集合
Figure 309706DEST_PATH_IMAGE007
中第
Figure 208392DEST_PATH_IMAGE012
个特征序列。
车载语音系统可以将特征序列集合中各特征序列中正数特征筛选出来,计算特征平均值,也可以计算特征序列集合中各特征序列中负数特征的特征平均值。需要说明的是,在特征序列集合的各特征序列中选取正数特征或负数特征等目标特征计算平均值,而不计算各特征序列的全部特征平均值,是为了避免正数和负数相加抵消,造成特征丢失。在一个具体的例子中,平均特征集合的计算公式可以表示为:
Figure 653279DEST_PATH_IMAGE013
其中,
Figure 928403DEST_PATH_IMAGE014
表示各特征序列中属于正数特征的个数。
S140、根据最大特征集合和平均特征集合,确定说话目标位置。
可以理解的,说话目标可以是车内各位置发出声音的目标,例如可以包括人、动物以及发出声音的手机等等。任何最大特征集合中的最大特征与平均特征集合中的平均特征是一一对应的。每个特征序列对应得到一个最大特征和一个平均特征。将每个特征序列对应的最大特征和平均特征结合使用,车载语音系统可以根据更加多样化的特征来确定说话目标位置,有利于实现准确定位。车载语音系统可以根据最大特征和平均特征的定位贡献率,分别为最大特征和平均特征设置权重,计算加权平均特征,进而得到加权特征集合。车载语音系统可以根据加权特征集合,通过线性回归分类模型,确定说话目标位置。其中,所述线性回归分类模型可以基于标准线性回归、岭回归或lasso回归等线性回归分类算法构建的。
在一个可行的方案中,所述根据最大特征集合和平均特征集合,确定说话目标位置,包括:
根据最大特征集合和平均特征集合,确定联合特征集合;
根据所述联合特征集合,通过岭回归线性分类模型,确定说话目标位置。
在本方案中,车载语音系统可以直接将每个特征序列对应的最大特征和平均特征进行联合,得到联合特征,进而得到联合特征集合。将最大特征和平均特征直接进行联合有利于保留每个特征序列的原始特征,进而实现准确的定位。具体的,联合特征集合可以表示为:
Figure 40715DEST_PATH_IMAGE015
;
在得到联合特征集合之后,车载语音系统可以通过岭回归线性分类模型,确定说话目标位置。所述岭回归是一种用于共线性数据分析的有偏估计回归方法,是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价从而获得更符合实际、更可靠的回归系数。岭回归线性分类得到的结果可以表示为:
Figure 93991DEST_PATH_IMAGE016
;
其中,
Figure 26175DEST_PATH_IMAGE017
可以是一维向量,包括的元素数量可以与传声器数量相等,每个元素 代表对应的传声器位置为说话目标位置的概率。
Figure 839410DEST_PATH_IMAGE018
表示岭回归线 性分类器。
车载语音系统可以选取概率最大的传声器位置,作为说话目标位置。具体的,车载 语音系统可以输出
Figure 806229DEST_PATH_IMAGE019
中的最大值作为说话目标位置的确定结果:
Figure 531871DEST_PATH_IMAGE020
本技术方案通过在检测到定位触发事件时,根据目标语音数据,确定目标语音特征,并对目标语音特征进行特征提取,得到特征序列集合;再根据特征序列集合,确定最大特征集合和平均特征集合;最后根据最大特征集合和平均特征集合,确定说话目标位置。本方案解决了基于信号处理的定位算法对传声器部署位置要求高、噪声干扰对定位精度影响大等问题,可以在提高定位准确性的同时,减少对传声器等硬件设备部署的位置约束,进而达到良好的抗干扰性。
实施例二
图2A为本发明实施例二提供的一种说话目标定位方法的流程图,本实施例以上述实施例为基础进行细化。如图2A所示,该方法包括:
S210、若检测到语音数据中存在唤醒词,则将所述语音数据作为目标语音数据。
车载语音系统的传声器接收的预设采样率的目标语音数据可以通过高通滤波器,进行预加重处理。其中,预设采样率通常设置为48KHz,48KHz采样率下的语音数据具有更高的精度和还原度。预加重处理可以是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。而预加重对噪声并没有影响,因此可以有效地提高了输出信噪比。
预加重处理过程可以如下公式所示:
Figure 216930DEST_PATH_IMAGE021
其中,
Figure 568277DEST_PATH_IMAGE022
表示时间,
Figure 389602DEST_PATH_IMAGE023
表示说话目标位置索引,
Figure 50260DEST_PATH_IMAGE024
表示传声器位置索引,
Figure 957036DEST_PATH_IMAGE025
表示预加 重处理后的目标语音数据,
Figure 846494DEST_PATH_IMAGE026
表示当前时刻的目标语音数据,
Figure 787906DEST_PATH_IMAGE027
表示上一时刻的目标语 音数据,
Figure 855350DEST_PATH_IMAGE028
表示预加重系数。
S220、对所述目标语音数据按照预设帧长和帧移进行分帧处理,得到分帧数据。
车载语音系统可以在预加重之后,对目标语音数据进行分帧处理。具体的,车载语音系统可以设置帧长N为1200个采样点,帧移M为480个采样点,分帧数据可以表示为:
Figure 249422DEST_PATH_IMAGE029
其中,
Figure 942572DEST_PATH_IMAGE030
表示帧索引值,
Figure 738489DEST_PATH_IMAGE031
表示帧数,
Figure 740949DEST_PATH_IMAGE032
表示传声器
Figure 622318DEST_PATH_IMAGE033
采集到的
Figure 853579DEST_PATH_IMAGE023
位 置说话目标在帧
Figure 504003DEST_PATH_IMAGE034
处的语音向量。
S230、利用预设窗函数,对所述分帧数据进行逐帧加窗,并对加窗后的分帧数据进行快速傅里叶变换,得到变换数据。
可以理解的,窗函数可以根据分帧数据进行选择,窗函数可以包括矩形窗、汉宁窗、海明窗以及三角窗等。在本方案中,窗函数可以选择汉宁窗,汉宁窗窗函数的表达式为:
Figure 178829DEST_PATH_IMAGE035
其中,
Figure 813073DEST_PATH_IMAGE036
为系数,
Figure 582446DEST_PATH_IMAGE037
为窗长。
对分帧数据进行逐帧加窗后得到的加窗后数据可以表示为:
Figure 87376DEST_PATH_IMAGE038
其中,
Figure 431639DEST_PATH_IMAGE039
表示加窗后的第
Figure 553179DEST_PATH_IMAGE040
帧分帧数据在时域上的第
Figure 126242DEST_PATH_IMAGE040
帧数据。
通过快速傅里叶变换,车载语音系统可以将加窗后的分帧数据从时域转换到频域上。具体的,快速傅里叶变换的表达式为:
Figure 751259DEST_PATH_IMAGE041
其中,
Figure 502308DEST_PATH_IMAGE042
为复数,表示快速傅里叶变换得到的变换数据,其 实部表示第
Figure 845565DEST_PATH_IMAGE043
帧第
Figure 487899DEST_PATH_IMAGE044
个频带上的第
Figure 967422DEST_PATH_IMAGE045
个频率成分的幅度,虚部表示第
Figure 653487DEST_PATH_IMAGE046
Figure 218460DEST_PATH_IMAGE047
个频带上的第
Figure 867748DEST_PATH_IMAGE048
个频率成分的相位,
Figure 732935DEST_PATH_IMAGE049
为快速傅里叶变换的长度。
S240、对所述变换数据进行模方平均运算,得到功率谱估计数据。
对变换数据取模方平均,可以保留频谱上的幅度信息,具体的,模方平均运算表达式可以表示为:
Figure 825787DEST_PATH_IMAGE050
其中,
Figure 143636DEST_PATH_IMAGE051
表示第
Figure 862194DEST_PATH_IMAGE052
帧语音信号基于周期图的功率谱估计。
S250、根据预先构建的梅尔滤波器组对所述功率谱估计数据进行梅尔滤波,得到能量数据。
在本方案中,可选的,所述梅尔滤波器组的构建过程包括:
根据说话目标的听力识别范围,确定最小频率,并,根据所述语音数据的采样率,确定最大频率;
根据所述最小频率和所述最大频率,确定梅尔标度频率域的最大频率和最小频率;
根据所述梅尔标度频率域的最大频率和最小频率,确定预设数据量的梅尔标度频率;
将各梅尔标度频率变换为赫兹标度频率,并确定与各赫兹标度频率匹配的频带;
根据各频带,构建预设数量的三角滤波器,以构成梅尔滤波器组。
其中,所述听力识别范围可以是说话目标可识别的声音频率范围,例如人耳可识别的声音频率范围为20Hz-20KHz,车载语音系统可以将听力识别范围的最小值作为最小频率,例如20Hz。根据奈奎斯特采样定理,最大频率可以是语音数据的采样率的一半,假设语音数据的采样率为48KHz,最大频率可以是24KHz。
车载语音系统可以将最小频率和最大频率转化到梅尔标度频率域,具体的,转化公式可以表示为:
Figure 316309DEST_PATH_IMAGE053
;
其中,
Figure 344176DEST_PATH_IMAGE054
表示频率索引,
Figure 883742DEST_PATH_IMAGE055
表示梅尔标度频率域上的最小频率或最大频 率,
Figure 405990DEST_PATH_IMAGE056
表示赫兹标度频率域上的最小频率或最大频率。
图2B是根据本发明实施例二提供的一种梅尔滤波器组的结构示意图。为了构造组成梅尔滤波器组的预设数量的三角滤波器,需要根据最小频率和最大频率,将梅尔标度频率域上的频率区间进行平均分配,得到除了最小频率和最大频率两个频率以外的频率。如图2B,三角滤波器的数量例如可以是26个。26个梅尔标度频率域的频率可以如下公式进行划分:
Figure 714612DEST_PATH_IMAGE057
其中,
Figure 426565DEST_PATH_IMAGE058
表示26个三角滤波器索引,
Figure 187847DEST_PATH_IMAGE059
表示26个点在梅尔标度频率域 上的数值(包括最大频率和最小频率),
Figure 513786DEST_PATH_IMAGE060
表示梅尔标度频率域上的最小频率,
Figure 676914DEST_PATH_IMAGE061
表示梅尔标度频率域上的最大频率。
将预设数量的梅尔标度频率从梅尔标度转化为赫兹标度,转化为过程为:
Figure 62896DEST_PATH_IMAGE062
其中,
Figure 826322DEST_PATH_IMAGE063
表示第
Figure 690373DEST_PATH_IMAGE064
个频率点在赫兹标度频率域上的频率。
将预设数量的赫兹标度频率,例如26个,在快速傅里叶变换中对应到最相近的频带,具体的频带确定方式可以如下公式:
Figure 708007DEST_PATH_IMAGE065
其中,
Figure 264891DEST_PATH_IMAGE066
表示赫兹标度频率匹配的频带,
Figure 751498DEST_PATH_IMAGE067
表示向下取整,
Figure 153660DEST_PATH_IMAGE068
表示采样率。
根据频带匹配结果,车载语音系统可以包含预设数量的三角滤波器的梅尔滤波器组,梅尔滤波器组可以表示为如下公式:
Figure 291381DEST_PATH_IMAGE069
;
其中,
Figure 19165DEST_PATH_IMAGE070
表示
Figure 226024DEST_PATH_IMAGE071
中的频率,
Figure 697457DEST_PATH_IMAGE064
表示滤波器索引值,
Figure 689684DEST_PATH_IMAGE072
表示第
Figure 322791DEST_PATH_IMAGE064
个滤波器的频 率,
Figure 783990DEST_PATH_IMAGE073
表示第
Figure 793534DEST_PATH_IMAGE074
个滤波器的频率,
Figure 640268DEST_PATH_IMAGE075
表示第
Figure 709855DEST_PATH_IMAGE076
个滤波器的频率。
在得到梅尔滤波器组之后,车载语音系统可以利用梅尔滤波器组对功率谱估计数据进行梅尔滤波,得到能量数据。
在一个具体的例子中,包含26个三角滤波器的梅尔滤波器组进行梅尔滤波可以表示为如下公式:
Figure 891306DEST_PATH_IMAGE077
其中,
Figure 704541DEST_PATH_IMAGE078
表示功率谱估计数据经过梅尔滤波器组滤波后得到 的能量,
Figure 671360DEST_PATH_IMAGE079
表示点乘。
S260、对所述能量数据进行对数运算,并对对数运算结果进行一阶差分运算,得到差分运算结果。
其中,对数运算的计算过程可以表示为:
Figure 646270DEST_PATH_IMAGE080
,其中,
Figure 82061DEST_PATH_IMAGE081
表示取完对数后的能量。
一阶差分运算可以表示为如下公式:
Figure 433408DEST_PATH_IMAGE082
其中,
Figure 520313DEST_PATH_IMAGE083
表示差分运算结果,
Figure 666124DEST_PATH_IMAGE084
表示时间,
Figure 822167DEST_PATH_IMAGE085
表示进行差分操作所间隔 的点数,
Figure 977205DEST_PATH_IMAGE086
表示
Figure 653037DEST_PATH_IMAGE087
时间点的能量,
Figure 235328DEST_PATH_IMAGE088
表示
Figure 380133DEST_PATH_IMAGE089
时间点的能 量。
S270、将所述对数运算结果和差分运算结果进行联合,得到唤醒词特征。
将对数运算结果和差分运算结果联合得到
Figure 73282DEST_PATH_IMAGE090
,其中,
Figure 869200DEST_PATH_IMAGE091
表示特征工 程模型处理后的唤醒词特征。
S280、根据预先构建的预设数量的随机内核,对所述目标语音特征进行特征提取,得到特征序列集合。
S290、确定特征序列集合中各特征序列的最大特征,得到最大特征集合,和,确定特征序列集合中各特征序列的目标特征平均值,得到平均特征集合。
S2100、根据最大特征集合和平均特征集合,确定联合特征集合。
S2110、根据所述联合特征集合,通过岭回归线性分类模型,确定说话目标位置。
本技术方案通过在检测到定位触发事件时,根据目标语音数据,确定目标语音特征,并对目标语音特征进行特征提取,得到特征序列集合;再根据特征序列集合,确定最大特征集合和平均特征集合;最后根据最大特征集合和平均特征集合,确定说话目标位置。本方案解决了基于信号处理的定位算法对传声器部署位置要求高、噪声干扰对定位精度影响大等问题,可以在提高定位准确性的同时,减少对传声器等硬件设备部署的位置约束,进而达到良好的抗干扰性。
实施例三
图3为本发明实施例三提供的一种说话目标定位装置的结构示意图。如图3所示,该装置包括:
目标语音特征确定模块310,用于若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;
特征序列集合确定模块320,用于对所述目标语音特征进行特征提取,得到特征序列集合;
特征集合确定模块330,用于根据所述特征序列集合,确定最大特征集合和平均特征集合;
说话目标位置确定模块340,用于根据最大特征集合和平均特征集合,确定说话目标位置。
在本方案中,可选的,所述目标语音特征确定模块310,具体用于:
若检测到语音数据中存在唤醒词,则将所述语音数据作为目标语音数据,通过特征工程模型,确定唤醒词特征。
在一个可行的方案中,所述特征序列集合确定模块320,具体用于:
根据预先构建的预设数量的随机内核,对所述目标语音特征进行特征提取,得到特征序列集合;其中,所述随机内核的构建参数包括长度参数、权重参数、偏置参数、膨胀率参数以及填充参数。
在另一个可行的方案中,所述特征集合确定模块330,具体用于:
确定特征序列集合中各特征序列的最大特征,得到最大特征集合,和,确定特征序列集合中各特征序列的目标特征平均值,得到平均特征集合。
在一个优选的方案中,所述说话目标位置确定模块340,具体用于:
根据最大特征集合和平均特征集合,确定联合特征集合;
根据所述联合特征集合,通过岭回归线性分类模型,确定说话目标位置。
在上述方案的基础上,可选的,所述目标语音特征确定模块310,具体用于:
对所述目标语音数据按照预设帧长和帧移进行分帧处理,得到分帧数据;
利用预设窗函数,对所述分帧数据进行逐帧加窗,并对加窗后的分帧数据进行快速傅里叶变换,得到变换数据;
对所述变换数据进行模方平均运算,得到功率谱估计数据;
根据预先构建的梅尔滤波器组对所述功率谱估计数据进行梅尔滤波,得到能量数据;
对所述能量数据进行对数运算,并对对数运算结果进行一阶差分运算,得到差分运算结果;
将所述对数运算结果和差分运算结果进行联合,得到唤醒词特征。
在一个优选的方案中,所述装置还包括梅尔滤波器组构建模块,用于:
根据说话目标的听力识别范围,确定最小频率,并,根据所述语音数据的采样率,确定最大频率;
根据所述最小频率和所述最大频率,确定梅尔标度频率域的最大频率和最小频率;
根据所述梅尔标度频率域的最大频率和最小频率,确定预设数据量的梅尔标度频率;
将各梅尔标度频率变换为赫兹标度频率,并确定与各赫兹标度频率匹配的频带;
根据各频带,构建预设数量的三角滤波器,以构成梅尔滤波器组。
本发明实施例所提供的说话目标定位装置可执行本发明任意实施例所提供的说话目标定位方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备410的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备410包括至少一个处理器411,以及与至少一个处理器411通信连接的存储器,如只读存储器(ROM)412、随机访问存储器(RAM)413等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器411可以根据存储在只读存储器(ROM)412中的计算机程序或者从存储单元418加载到随机访问存储器(RAM)413中的计算机程序,来执行各种适当的动作和处理。在RAM 413中,还可存储电子设备410操作所需的各种程序和数据。处理器411、ROM 412以及RAM 413通过总线414彼此相连。输入/输出(I/O)接口415也连接至总线414。
电子设备410中的多个部件连接至I/O接口415,包括:输入单元416,例如键盘、鼠标等;输出单元417,例如各种类型的显示器、扬声器等;存储单元418,例如磁盘、光盘等;以及通信单元419,例如网卡、调制解调器、无线通信收发机等。通信单元419允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器411可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器411的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器411执行上文所描述的各个方法和处理,例如说话目标定位方法。
在一些实施例中,说话目标定位方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元418。在一些实施例中,计算机程序的部分或者全部可以经由ROM 412和/或通信单元419而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 413并由处理器411执行时,可以执行上文描述的说话目标定位方法的一个或多个步骤。备选地,在其他实施例中,处理器411可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行说话目标定位方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种说话目标定位方法,其特征在于,所述方法包括:
若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;
根据预先构建的预设数量的随机内核,对所述目标语音特征进行特征提取,得到特征序列集合;其中,所述随机内核的构建参数包括长度参数、权重参数、偏置参数、膨胀率参数以及填充参数;
确定特征序列集合中各特征序列的最大特征,得到最大特征集合,和,确定特征序列集合中各特征序列的目标特征平均值,得到平均特征集合;其中,所述目标特征平均值包括各特征序列中正数特征的特征平均值或各特征序列中负数特征的特征平均值;
根据最大特征集合和平均特征集合,确定说话目标位置。
2.根据权利要求1所述的方法,其特征在于,所述若检测到定位触发事件,根据目标语音数据,确定目标语音特征,包括:
若检测到语音数据中存在唤醒词,则将所述语音数据作为目标语音数据,通过特征工程模型,确定唤醒词特征。
3.根据权利要求1所述的方法,其特征在于,所述根据最大特征集合和平均特征集合,确定说话目标位置,包括:
根据最大特征集合和平均特征集合,确定联合特征集合;
根据所述联合特征集合,通过岭回归线性分类模型,确定说话目标位置。
4.根据权利要求2所述的方法,其特征在于,所述通过特征工程模型,确定唤醒词特征,包括:
对所述目标语音数据按照预设帧长和帧移进行分帧处理,得到分帧数据;
利用预设窗函数,对所述分帧数据进行逐帧加窗,并对加窗后的分帧数据进行快速傅里叶变换,得到变换数据;
对所述变换数据进行模方平均运算,得到功率谱估计数据;
根据预先构建的梅尔滤波器组对所述功率谱估计数据进行梅尔滤波,得到能量数据;
对所述能量数据进行对数运算,并对对数运算结果进行一阶差分运算,得到差分运算结果;
将所述对数运算结果和差分运算结果进行联合,得到唤醒词特征。
5.根据权利要求4所述的方法,其特征在于,所述梅尔滤波器组的构建过程包括:
根据说话目标的听力识别范围,确定最小频率,并根据所述语音数据的采样率,确定最大频率;
根据所述最小频率和所述最大频率,确定梅尔标度频率域的最大频率和最小频率;
根据所述梅尔标度频率域的最大频率和最小频率,确定预设数据量的梅尔标度频率;
将各梅尔标度频率变换为赫兹标度频率,并确定与各赫兹标度频率匹配的频带;
根据各频带,构建预设数量的三角滤波器,以构成梅尔滤波器组。
6.一种说话目标定位装置,其特征在于,包括:
目标语音特征确定模块,用于若检测到定位触发事件,则根据目标语音数据,确定目标语音特征;
特征序列集合确定模块,用于根据预先构建的预设数量的随机内核,对所述目标语音特征进行特征提取,得到特征序列集合;其中,所述随机内核的构建参数包括长度参数、权重参数、偏置参数、膨胀率参数以及填充参数;
特征集合确定模块,用于确定特征序列集合中各特征序列的最大特征,得到最大特征集合,和,确定特征序列集合中各特征序列的目标特征平均值,得到平均特征集合;其中,所述目标特征平均值包括各特征序列中正数特征的特征平均值或各特征序列中负数特征的特征平均值;
说话目标位置确定模块,用于根据最大特征集合和平均特征集合,确定说话目标位置。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的说话目标定位方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的说话目标定位方法。
CN202210964641.3A 2022-08-12 2022-08-12 一种说话目标定位方法、装置、设备及存储介质 Active CN115050367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964641.3A CN115050367B (zh) 2022-08-12 2022-08-12 一种说话目标定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964641.3A CN115050367B (zh) 2022-08-12 2022-08-12 一种说话目标定位方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115050367A CN115050367A (zh) 2022-09-13
CN115050367B true CN115050367B (zh) 2022-11-04

Family

ID=83168219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964641.3A Active CN115050367B (zh) 2022-08-12 2022-08-12 一种说话目标定位方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115050367B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104730495A (zh) * 2015-04-16 2015-06-24 清华大学苏州汽车研究院(相城) 便携式声源定位装置及其采用的定位方法
CN110146909A (zh) * 2018-09-06 2019-08-20 腾讯科技(深圳)有限公司 一种定位数据处理方法
CN110673096A (zh) * 2019-09-30 2020-01-10 北京地平线机器人技术研发有限公司 语音定位方法和装置、计算机可读存储介质、电子设备
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN113589230A (zh) * 2021-09-29 2021-11-02 广东省科学院智能制造研究所 一种基于联合优化网络的目标声源定位方法及系统
CN114267343A (zh) * 2021-12-27 2022-04-01 科大讯飞股份有限公司 一种车载声源定位方法、装置、设备、介质及产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104730495A (zh) * 2015-04-16 2015-06-24 清华大学苏州汽车研究院(相城) 便携式声源定位装置及其采用的定位方法
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110146909A (zh) * 2018-09-06 2019-08-20 腾讯科技(深圳)有限公司 一种定位数据处理方法
CN110673096A (zh) * 2019-09-30 2020-01-10 北京地平线机器人技术研发有限公司 语音定位方法和装置、计算机可读存储介质、电子设备
CN113589230A (zh) * 2021-09-29 2021-11-02 广东省科学院智能制造研究所 一种基于联合优化网络的目标声源定位方法及系统
CN114267343A (zh) * 2021-12-27 2022-04-01 科大讯飞股份有限公司 一种车载声源定位方法、装置、设备、介质及产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于声源预估的波叠加组合全息声源识别方法;李兵 等;《声学学报》;20101130;第35卷(第6期);正文646-652页 *

Also Published As

Publication number Publication date
CN115050367A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN113113039B (zh) 一种噪声抑制方法、装置和移动终端
CN110288978B (zh) 一种语音识别模型训练方法及装置
CN108899044B (zh) 语音信号处理方法及装置
EP3703052A1 (en) Echo cancellation method and apparatus based on time delay estimation
CN103065631B (zh) 一种语音识别的方法、装置
CN103971680A (zh) 一种语音识别的方法、装置
CN112201273B (zh) 一种噪声功率谱密度计算方法、系统、设备及介质
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN111477243A (zh) 音频信号处理方法及电子设备
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN110931035A (zh) 音频处理方法、装置、设备及存储介质
CN111722696A (zh) 用于低功耗设备的语音数据处理方法和装置
CN109766798A (zh) 基于经验小波的手势数据处理方法、服务器及感知设备
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN110493459A (zh) 屏幕状态控制方法、装置、移动终端以及存储介质
CN115050367B (zh) 一种说话目标定位方法、装置、设备及存储介质
CN116403594B (zh) 基于噪声更新因子的语音增强方法和装置
CN110895930A (zh) 语音识别方法及装置
CN115662409B (zh) 一种语音识别方法、装置、设备及存储介质
CN103337245B (zh) 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
CN115995234A (zh) 音频降噪方法、装置、电子设备及可读存储介质
CN114420153A (zh) 音质调整方法、装置、设备及存储介质
CN113327589A (zh) 一种基于姿态传感器的语音活动检测方法
CN113539300A (zh) 基于噪声抑制的语音检测方法、装置、存储介质以及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant