CN118053446A - 语音处理方法、装置、电子设备及存储介质 - Google Patents
语音处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118053446A CN118053446A CN202211438428.5A CN202211438428A CN118053446A CN 118053446 A CN118053446 A CN 118053446A CN 202211438428 A CN202211438428 A CN 202211438428A CN 118053446 A CN118053446 A CN 118053446A
- Authority
- CN
- China
- Prior art keywords
- voice information
- source
- information
- voice
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000003062 neural network model Methods 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000004807 localization Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 79
- 230000006870 function Effects 0.000 claims description 38
- 238000001514 detection method Methods 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 11
- 230000004069 differentiation Effects 0.000 claims 2
- 238000012546 transfer Methods 0.000 description 73
- 230000005540 biological transmission Effects 0.000 description 35
- 238000012360 testing method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及一种语音处理方法、装置、电子设备及存储介质,方法包括:获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。本公开实施例借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。
Description
技术领域
本公开涉及语音控制技术领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
在智能语音控制场景中,为了使得智能设备能够准确执行用户指令,需要基于下达语音指令的用户的位置,以及语音指令的内容,确定用户控制意图,进而执行与该语音指令对应的控制操作。
现有技术中,通过波束形成方法,对待处理语音信息进行处理,进行声源定位。在实际中,对于分布式麦克风阵列,中高频段波束形成难以实现,同时,由于受到背向拾音的影响,声音的衰减规律不同于自由场,会导致声源定位算法出现偏差,最终得到的声源定位结果不准确。
发明内容
为了解决上述技术问题,本公开提供了一种语音处理方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种语音处理方法,包括:
获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
第二方面,本公开还提供了一种语音处理装置,包括:
获取模块,用于获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
处理模块,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的技术方案通过将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,实质是借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中的一种语音处理方法的流程图;
图2为本公开实施例提供的另一种语音处理方法的流程图;
图3为本公开实施例中的一种训练数据生成方法的流程图;
图4为本公开实施例提供的一种声音传递特性信息集的示意图;
图5为本公开实施例提供的另一种训练数据生成方法的流程图;
图6为本公开实施例提供的一种获取目标空间的声音传递特性信息集的方法的流程图;
图7为本公开实施例中的一种语音处理装置的结构示意图;
图8为本公开实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例中的一种语音处理方法的流程图,本实施例可适用于需要进行声源定位的情况,该方法可以由语音处理装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如终端或服务器中。若该装置配置于终端中,终端具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。
如图1所示,该方法具体可以包括:
S110、获取待处理语音信息;待处理语音信息为由一个或多个源语音信息形成的语音数据信息。
一个源语音信息由一个对象发声形成。
对象是指能够发出声音的事物,包括但不限于人。
本步骤的实现方法有多种,本申请对此不作限制。示例性地,在一些实施例中,可以将采集设备采集的目标空间中的多路语音信息作为待处理语音信息。可选地,采集设备具体可以为麦克风阵列。
在一个示例中,空间中存在一个对象,该对象发出声音,形成源语音信息。源语音信息在其所处空间中传递,当其被传递到空间中的麦克风阵列的各麦克风位置处时,其部分属性(如能量、振幅)发生改变,源语言信息转化为单路语音信息。对于一个麦克风而言,其将接收到该单路语音信息,此时单路语音信息转化为待处理语音信息。即此种情况下,待处理语音信息由一个源语音信息形成。
在另一个示例中,空间中存在多个对象。在某一时段内,多个对象同时发出声音,形成多个源语音信息。各源语音信息沿不同的路径传递,到达麦克风阵列的各个麦克风处,并分别转化为单路语音信息。对于一个麦克风而言,其将接收到多个单路语音信息。麦克风直接采集的声音是多个单路语音信息叠合后的声音,为待处理语音信息。即此种情况下,待处理语音信息由多个源语音信息形成。
在另一些实施例中,可以通过采集设备采集目标空间中的目标语音信息;对目标语音信息进行时频变换,得到待处理语音信息。即待处理语音信息是对目标语音信息进行时频变换后的结果。
需要说明的是,如果在S120中所使用的神经网络模型在训练时,使用的是经过时频变换后的训练数据,则在执行本步骤时,需要进行时频变换。若在S120中所使用的神经网络模型在训练时,使用的是未经过时频变换后的训练数据,则在执行本步骤时,不需要进行时频变换。在神经网络模型大小受限的情况下,训练阶段使用经过时频变换步骤的数据,可以提高所训练出的神经网络模型的稳定性以及声源定位精度。
S120、将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息以及各源语音信息对应的发音位置。
其中,神经网络模型是训练完毕的神经网络模型,其具有声源定位及语音区分的功能。
在对神经网络模型进行训练时,所选用的神经网络模型可以为DNN(深度神经网络,Deep Neural Networks)、CNN(卷积神经网络,Convolutional Neural Networks)、LSTM(长短期记忆网络,Long Short-Term Memory)或ResNet(残差收缩网络,ResidualShrinkage Network)等神经网络模型。
在一个实施例中,若目标空间包括多个检测位置;S120包括:将待处理语音信息输入到神经网络模型中,得到一个或多个源语音信息以及各源语音信息在各检测位置的第一形成概率;对于任一源语音信息,确定第一形成概率最大的检测位置为源语音信息对应的发音位置。
目标空间是指训练完毕的神经网络模型所适用的空间。示例性地,若希望训练完毕的神经网络模型为车辆中的语音助手所用,使得车辆中的语音助手能够将车辆中不同位置的驾乘人员的源语音信息进行区别并定位声源位置,目标空间为车辆的内部空间。若希望训练完毕的神经网络模型为房间中的智能设备所用,使得房间中的智能设备能够将房间中不同位置的用户的源语音信息进行区别并定位声源位置,目标空间为房间。
需要强调的是,在实际中,由于不同空间的形状、尺寸、麦克风阵列在空间中的分布位置不同,针对不同的空间,需要分别训练与之对应的神经网络模型。
由于目前将神经网络应用于分类问题的技术较为成熟,而分类问题通常以概率的形式展示分类的结果,通过设置将待处理语音信息输入到训练完毕的神经网络模型中,得到一个或多个源语音信息以及各源语音信息在各检测位置的第一形成概率,实质是设置将源语音信息在各检测位置的第一形成概率作为该神经网络模型的输出量,将声源定位问题转化为分类问题,使得该声源定位的目标能够且易于实现。
示例性地,目标空间为房间,房间中包括5个检测位置,分别为C1、C2、C3、C4、C5。房间中有两个用户,分别为用户A和用户B。两个用户分别位于房间的不同位置。该房间中,布设有麦克风阵列,用于对两个用户说话形成的语音信息进行采集。在某段时间,两个用户同时说话。用户A说话,形成的语音信息为语音信息a;用户B说话,形成的语音信息为语音信息b。语音信息a由用户A所在位置传递到麦克风阵列中的各个麦克风处,各个麦克风均可采集语音信息a。语音信息b由用户B所在位置传递到麦克风阵列中的各个麦克风处,各个麦克风均可采集语音信息b。由于两个用户同时说话,对于麦克风阵列中的任一麦克风,麦克风将同时接收到传递至其处的,由语音信息a和语音信息b混合而成的语音信息,即待处理语音信息。将该待处理语音信息输入到训练完毕的神经网络模型中,得到语音信息a和语音信息b,以及语音信息a在C1、C2、C3、C4以及C5各处的第一形成概率和语音信息b在C1、C2、C3、C4以及C5各处的第一形成概率。若语音信息a在C1处的第一形成概率大于语音信息a在C2、C3、C4以及C5各处任意一个的第一形成概率,将C1作为语音信息a对应的发音位置。
可选地,将第一形成概率最大的检测位置,作为源语音信息对应的发音位置之前,还包括:对各源语音信息在各检测位置的第一形成概率进行平滑处理。后续将经过平滑处理的第一形成概率最大的检测位置,作为源语音信息对应的发音位置。平滑处理是一种滤波处理,其作用是去除随机误差。
上述技术方案通过将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息以及各源语音信息对应的发音位置,实质是借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。
在上述技术方案的基础上,可选地,S120可替换为:将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息、各源语音信息对应的发音位置、以及各源语音信息对应的发音朝向。即神经网络模型还具有确定发音朝向的功能。
图2为本公开实施例提供的另一种语音处理方法的流程图。图2为图1中的一个具体示例。与图1相比,图2中的区别在于,神经网络模型还用于确定发音朝向。
待处理语音信息由多个源语音信息形成,多个源语音信息在目标空间中采集得到,目标空间包括多个检测位置。参见图2,该语音处理方法包括:
S210、采集目标空间中的待处理语音信息,所述待处理语音信息为由多个源语音信息形成的语音数据信息,所述目标空间包括多个检测位置。
S220、将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到多个源语音信息、各源语音信息在各检测位置的第一形成概率、以及在各朝向的第二形成概率。
S230、对于任一源语音信息,确定第一形成概率最大的检测位置为源语音信息对应的发音位置,确定第二形成概率最大的朝向作为源语音信息对应的发音朝向。
其中,“确定第二形成概率最大的朝向为源语音信息对应的发音朝向”的方法有多种,本申请对此不作限制。“确定第二形成概率最大的朝向为源语音信息对应的发音朝向”的方法包括:将发音位置对应的各朝向中第二形成概率最大的朝向作为源语音信息对应的发音朝向。
示例性地,预先设置目标空间为房间,房间中包括5个检测位置,分别为C1、C2、C3、C4、C5。每个检测位置包括8个朝向。房间中有两个用户,分别为用户A和用户B。两个用户分别位于房间的不同位置。该房间中,布设有麦克风阵列,用于对两个用户说话形成的语音信息进行采集。在某段时间,两个用户同时说话。用户A说话,形成的语音信息为语音信息a;用户B说话,形成的语音信息为语音信息b。语音信息a由用户A所在位置传递到麦克风阵列中的各个麦克风处,各个麦克风均可采集语音信息a。语音信息b由用户B所在位置传递到麦克风阵列中的各个麦克风处,各个麦克风均可采集语音信息b。由于两个用户同时说话,对于麦克风阵列中的任一麦克风,麦克风将同时接收到传递至其处的由语音信息a和语音信息b混合而成的语音信息,即待处理语音信息。将该待处理语音信息输入到训练完毕的神经网络模型中,得到语音信息a、语音信息a在C1、C2、C3、C4以及C5各处的第一形成概率、语音信息a在C1处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息a在C2处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息a在C3处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息a在C4处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息a在C5处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息b、语音信息b在C1、C2、C3、C4以及C5各处的第一形成概率、语音信息b在C1处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息b在C2处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息b在C3处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息b在C4处在各个朝向上的第二形成概率(共8个第二形成概率)、语音信息b在C5处在各个朝向上的第二形成概率(共8个第二形成概率)。若语音信息a在C1处的第一形成概率大于语音信息a在C2、C3、C4以及C5各处任意一个的第一形成概率,将C1作为语音信息a对应的发音位置。将C1处8个第二形成概率最大值对应的朝向作为语音信息a对应的发音朝向。
可选地,对于任一源语音信息,确定第一形成概率最大的检测位置为源语音信息对应的发音位置,确定第二形成概率最大的朝向为源语音信息对应的发音朝向之前,还包括:对各源语音信息的第一形成概率和第二形成概率均进行平滑处理。相应地,对于任一源语音信息,将经平滑处理后的第一形成概率最大的检测位置作为源语音信息对应的发音位置,将经平滑处理后的第二形成概率最大的朝向作为源语音信息对应的发音朝向。通过平滑处理可以去除随机误差,使所得到的源语音信息对应的发音位置和发音朝向更加精准。
上述技术方案通过将待处理语音信息输入到神经网络模型中,得到多个源语音信息、各源语音信息在各检测位置的第一形成概率、以及在各朝向的第二形成概率;对于任一源语音信息,确定第一形成概率最大的检测位置为源语音信息对应的发音位置,确定第二形成概率最大的朝向为源语音信息对应的发音朝向。采用上述技术方案可以实现语音区分、声源定位以及朝向确定,便于后续有效利用输出的源语音信息。
在上述各技术方案的基础上,可选地,神经网络模型还用于去除环境噪声。示例性地,将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息以及各源语音信息对应的发音位置,包括:将待处理语音信息输入到神经网络模型中进行声源定位、语音区分以及去噪处理,得到一个或多个源语音信息以及各源语音信息对应的发音位置。这样设置可以借助神经网络模型在进行语音区分的同时,过滤掉环境噪声,使得所得到的源语音信息更加清晰,确保后续基于源语音信息得到的用户意图准确。
在上述各技术方案的基础上,可选地,该方法还包括:对各源语音信息以及各源语音信息对应的发音位置进行处理,确定一个或多个待执行指令以及与各待执行指令对应的执行对象;控制各执行对象执行与其对应待执行指令。
待执行指令是指用户通过源语音信息所传达出的需要执行对象执行的指令。示例性地,房间内设置有2个电视分别为电视1和电视2,假设用户希望打开电视1,用户朝向电视1,并说出“打开电视”的语音信息。房间中的智能音响采集该语音信息,并将其输入到训练完毕的神经网络模型,得到该语音信息的发音位置(即用户在房间中的位置)以及朝向(即用户在说出该语音信息时的发音朝向)。由于用户朝向电视1,确定执行对象为电视1,待执行指令为打开。后续,控制电视1自动启动,即电视1执行打开的指令,如此可以实现智能语音控制。
进一步地,若共确定多个待执行指令;该方法还包括:确定各待执行指令的优先级;控制各执行对象执行与其对应待执行指令,包括:按照各待执行指令的优先级顺序,控制各执行对象执行与其对应待执行指令。可选地,优先级高的待执行指令相较于优先级低的待执行指令优先被执行。这样设置能够确保重要的待执行指令被优先执行,由于未采用指令并行执行,可以降低对电子设备硬件性能的要求。
进一步地,确定各待执行指令的优先级,包括:根据下述中至少一项,确定各待执行指令的优先级:执行对象的所处状态、源语音信息对应的发音位置,各源语音信息的语义以及形成各源语音信息的用户身份。
示例性地,对车辆内的麦克风阵列采集到的语音信息进行处理,得到在E位置形成的语音信息e和在F位置形成的语音信息f。通过对在E位置形成的语音信息e进行处理,得到该语音信息对应的控制指令是控制车辆中控台处的车机系统展示去X地的导航路线,并且E位置为驾驶员所在位置,因此确认语音信息e由驾驶员说出。通过对在F位置形成的语音信息f进行处理,得到该语音信息对应的控制指令是控制车辆中控台处的车机系统播放视频,并且F位置为后排乘客所在位置,因此确认语音信息f由乘客说出。假设设置驾驶员所在位置的优先级高于其他位置的优先级,则先执行控制车辆中控台处的车机系统展示去X地的导航路线的控制指令。
在上述技术方案的基础上,可选地,在将待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理之前,还包括:获取具有声源定位功能及语音区分功能的神经网络模型。
进一步地,获取具有声源定位功能及语音区分功能的神经网络模型的方法有多种,本申请对此不作限制。示例性地,获取具有声源定位功能及语音区分功能的神经网络模型的方法包括:获取训练数据,训练数据包括输入量和输出量,输入量包括多路样本语音信息,输出量包括形成多路样本语音信息的源样本语音信息,以及各源样本语音信息的发音位置信息;将训练数据输入到神经网络模型中,对神经网络模型进行训练,以使神经网络模型具有声源定位及语音区分的功能。
进一步地,用于获取训练数据的方法有多种,本申请对此不作限制。在一个实施例中,获取训练数据包括:获取在目标位置播放的源样本语音信息,以及采集多路样本语音信息,将采集到的多路样本语音信息作为输入量;将该目标位置作为源样本语音信息的发音位置,将源样本语音信息和其发音位置作为输出量。
或者,可以设置用于自动化生成训练数据的方法,将该方法生成的训练数据作为训练神经网络模型时,需获取的训练数据。
图3为本公开实施例中的一种训练数据生成方法的流程图。该训练数据生成方法可以单独执行,也可以与本申请中提供的语音处理方法配合执行。该训练数据生成方法与本申请中提供的语音处理方法配合执行,是指利用上述训练数据生成方法生成训练数据,然后将该训练数据输入到神经网络模型中进行训练。利用训练完毕的神经网络模型,执行本申请提供的语音处理方法。
参见图3,该训练数据生成方法具体可以包括:
S310、获取N个源样本语音信息和N个目标声音传递特性信息,N个目标声音传递特性信息分别对应不同的声源位置信息;N为大于或等于1的正整数。
源样本语音信息为音频信息。在一些实施例中,源样本语音信息为由单个对象形成的样本语音信息。
对象,可以是形成样本语音信息的主体。示例性地,用户A说了一段话,用户A可以作为对象。对用户A说话的过程进行录音,得到的音频信息,该音频信息可作为一个源样本语音信息。本申请对源样本语音信息的持续时长不作限制。
当N为1时,采用本申请提供的训练数据生成方法所得到的训练数据为第一类训练数据。当N为大于1的正整数时,采用本申请提供的训练数据生成方法所得到的训练数据为第二类训练数据。如果用于训练神经网络模型的训练数据均为第一类训练数据,所训练出的神经网络模型具有声源定位功能。如果用于训练神经网络模型的训练数据均为第二类训练数据,或者,用于训练神经网络模型的训练数据部分为第一类训练数据,部分为第二类训练数据,所训练出的神经网络模型除具有声源定位功能外,还具有语音区分功能。语音区分功能是指将不同人说话形成的混杂在一起的语音信息,区分为单个人说话的语音信息。
获取源样本语音信息的方法有多种,本申请对此不作限制。示例性地,可以从互联网中下载包含单个人声的音频信息,将该音频信息作为源样本语音信息;或者,在单个用户说话的过程中,对用户形成的语音进行录制,将形成的音频信息作为源样本语音信息;或将视频信息中的音频信息进行分离,将分离后的单个角色说话的音频信息作为源样本语音信息。
当N取大于1的正整数时,若所获取的源样本语音信息的个数小于N,可以利用静音信息作为源样本语音信息,进行补全,使得最终得到N个源样本语音信息。静音信息可以是完全无声的音频信息,或是仅包括环境音的音频信息。
声音在空间传递的过程中,其某些属性(如能量、振幅等)会发生改变。声音传递特性信息,是描述声音由声源位置传到麦克风位置(即接收位置)处,声音属性改变情况的信息。
声音传递特性信息受到声源位置、播放设备(或对象)在声源处朝向以及接收位置的影响较为突出。具体地,在一空间中,接收位置(即音频采集位置,如麦克风)固定,当声源位置改变,朝向不变时,声音传递特性信息改变;当声源位置不变,朝向改变时,声音传递特性信息同样会改变。因此,一个固定的空间对应多个声音传递特性信息,不同声音传递特性信息对应的声源位置信息和/或朝向信息不同。
目标声音传递特性信息是指从同一空间对应的多个声音传递特性信息中选择出的部分声音传递特性信息。所选择出的声音传递特性信息需满足,任意两个声音传递特性信息对应不同的声源位置信息。这是因为,以用户说话为例,通常同一位置不可能有两个人同时说话。
获取N个目标声音传递特性信息的方法有多种,本申请对此不作限制。示例性地,获取N个目标声音传递特性信息的方法包括:获取目标空间的声音传递特性信息集,目标空间的声音传递特性信息集包括多个声音传递特性信息,不同声音传递特性信息对应的声源位置信息和/或朝向信息不同;从目标空间的声音传递特性信息集中,确定N个目标声音传递特性信息。
目标空间是指所需要训练的神经网络模型所适用的空间。示例性地,若希望训练的神经网络模型为车辆中的语音助手所用,使得车辆中的语音助手能够进行声源定位,目标空间为车辆的内部空间。若希望训练的神经网络模型为房间中的智能设备所用,使得房间中的智能设备能够进行声源定位,目标空间为房间。
图4为本公开实施例提供的一种声音传递特性信息集的示意图。参见图4,该声音传递特性信息集包括多个声音传递特性信息,分别为声音传递特性信息11-声音传递特性信息1m,声音传递特性信息21-声音传递特性信息2m,声音传递特性信息31-声音传递特性信息3m,……。其中,声音传递特性信息11-声音传递特性信息1m均对应同一个声源位置,为位置1,但声音传递特性信息11-声音传递特性信息1m对应的朝向不同。声音传递特性信息21-声音传递特性信息2m均对应同一个声源位置,为位置2,但声音传递特性信息21-声音传递特性信息2m对应的朝向不同。声音传递特性信息31-声音传递特性信息3m均对应同一个声源位置,为位置3,但声音传递特性信息31-声音传递特性信息3m对应的朝向不同。……
从目标空间的声音传递特性信息集中,确定N个目标声音传递特性信息时,可以先选择希望训练的声源位置,然后从希望训练的声源位置对应的所有朝向中选择一个朝向,进而将所选择的声源位置和朝向对应的声音传递特性信息作为目标声音传递特性信息。
需要说明的是,对于空间中布设麦克风阵列(麦克风阵列中,麦克风的数量往往大于2)的场景,在声源位置和朝向确定的情况下,声音传递特性信息为向量,其包括多个元素,每个元素对应一个麦克风。每一个元素用于描述声音由声源位置传到其对应的麦克风位置处,声音属性的改变情况。
S320、将N个源样本语音信息中的每一个分别和N个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的目标声音传递特性信息和源样本语音信息。
可选地,在执行本步骤后,一个目标声音传递特性信息和一个源样本语音信息对应。
S330、将目标声音传递特性信息对应的声源位置信息作为与其对应的源样本语音信息的发音位置信息。
将N个源样本语音信息中的每一个分别和N个目标声音传递特性信息中的每一个进行对应,实质是,假设各源样本语音信息从某个具体的声源位置处形成,以仿真用户在该声源位置处说话,形成源样本语音信息的场景。
示例性地,在S310中获取了2个源样本语音信息和2个目标声音传递特性信息。2个源样本语音信息分别为源样本语音信息e和源样本语音信息f。2个目标声音传递特性信息分别为目标声音传递特性信息11和目标声音传递特性信息22。目标声音传递特性信息11对应的声源位置为位置1,目标声音传递特性信息22对应的声源位置为位置2。在执行S320和S330时,设置源样本语音信息e与目标声音传递特性信息11对应,即仿真一个用户在位置1处说话,形成源样本语音信息e。因此,源样本语音信息e的发音位置为位置1。设置源样本语音信息f与目标声音传递特性信息22对应,即仿真另一个用户在位置2处说话,形成源样本语音信息f。因此,源样本语音信息f的发音位置为位置2。
S340、将具有对应关系的声音传递特性信息与源样本语音信息进行耦合,得到单路样本语音信息。
单路样本语音信息是源样本语音信息传递到麦克风阵列处的语音信息。
如前,在源样本语音信息在空间传递的过程中,能量等属性会发生改变,使得在传递过程中,于不同位置对同一语音信息进行采集,所采集到的语音信息的部分属性不同。单路样本语音信息与源样本语音信息本质相同,仅部分属性不同。
将具有对应关系的声音传递特性信息与源样本语音信息进行耦合,是指将声音传递特性信息作用于与其对应的源样本语音信息,以通过仿真的方式得到源样本语音信息从发音位置传递到麦克风阵列中各麦克风处的语音信息。
本步骤的实现方法有多种,本申请对此不作限制。示例性地,本步骤的实现方法包括:将具有对应关系的目标声音传递特性信息与源样本语音信息代入下式,得到单路样本语音信息
其中,S0为源样本语音信息,为目标声音传递特性信息。
其中,目标声音传递特性信息为向量,包括多个元素,每个元素对应一个麦克风。每一个元素用于描述声音由声源位置传到其对应的麦克风位置处,声音属性的改变情况。单路样本语音信息同样为向量,包括多个元素,每个元素对应一个麦克风。每一个元素用于表示与其对应的麦克风采集到的语音信息。目标声音传递特性信息中各元素对应的麦克风的排列顺序与单路样本语音信息中各元素对应的麦克风的排列顺序一致。
S350、将所有单路样本语音信息进行叠加,得到多路样本语音信息。
由于在真实场景中,麦克风阵列中,各麦克风采集的样本语音信息为其所处环境中所有声音叠加后的音频信息,此处将所有单路样本语音信息进行叠加,以仿真真实环境中麦克风采集的声音。
当S310中,N取1时,由于只有一个单路样本语音信息,不需要执行本步骤。
S360、将多路样本语音信息进行处理,确定训练数据的输入量,将各源样本语音信息以及各源样本语音信息的发音位置信息进行处理,确定训练数据的输出量。
上述技术方案中,通过设置获取N个源样本语音信息和N个目标声音传递特性信息,N个目标声音传递特性信息分别对应不同的声源位置信息;N为大于或等于1的正整数;将N个源样本语音信息中的每一个分别和N个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的目标声音传递特性信息和源样本语音信息;将目标声音传递特性信息对应的声源位置信息作为与其对应的源样本语音信息的发音位置信息;将具有对应关系的声音传递特性信息与源样本语音信息进行耦合,得到单路样本语音信息;将所有单路样本语音信息进行叠加,得到多路样本语音信息;将多路样本语音信息进行处理,确定训练数据的输入量;将各源样本语音信息以及各源样本语音信息的发音位置信息进行处理,确定训练数据的输出量。其实质是完全通过计算机仿真的方式,生成训练数据,整个训练数据生成过程不需要工作人员参与,尤其不需要工作人员在实地播放源样本语音信息,也不需要实地采集多路样本语音信息,其可以实现在短时间内生成大量训练数据的目的,有利于提高所训练出的神经网络模型的泛化能力,有利于提高神经网络模型对单路样本语音信息的声源定位精度。
可选地,当N为大于1的正整数时,N个源样本语音信息中任意两个由不同的对象发声形成。由于不同的对象所形成的源样本语音信息会携带有不同的声纹信息,这样设置可以使得最终形成的训练数据携带有声纹信息,进而使得最终利用该训练数据训练出的神经网络模型具有较高的语音区分精度。
图5为本公开实施例提供的另一种训练数据生成方法的流程图。图5为图3中的一个具体示例,参见图5,该方法包括:
S410、获取N个源样本语音信息和N个目标声音传递特性信息,N个目标声音传递特性信息分别对应不同的声源位置信息;N为大于或等于1的正整数。
S420、将N个源样本语音信息中的每一个分别和N个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的目标声音传递特性信息和源样本语音信息。
S430、将目标声音传递特性信息对应的声源位置信息作为与其对应的源样本语音信息的发音位置信息,将目标声音传递特性信息对应的朝向信息作为与其对应的源样本语音信息的发音朝向信息。
S440、将具有对应关系的声音传递特性信息与源样本语音信息进行耦合,得到单路样本语音信息。
S450、将所有单路样本语音信息进行叠加,得到多路样本语音信息。
S460、将多路样本语音信息进行处理,确定训练数据的输入量,将各源样本语音信息、各源样本语音信息的发音位置信息、以及各源样本语音信息的发音朝向信息进行处理,确定训练数据的输出量。
上述技术方案通过将源样本语音信息的发音朝向信息进行处理,确定训练数据的输出量,可以使得利用该训练数据训练出的神经网络模型除了具有声源定位的能力外,还可以确定各单路样本语音信息对应的朝向,有利于在使用该神经网络模型时,基于其输出的数据,精准确定用户意图,执行用户指令,提高用户对智能设备的使用体验。
图6为本公开实施例提供的一种获取目标空间的声音传递特性信息集的方法的流程图。在执行图3中S310和/或图5中S410中的“获取N个目标声音传递特性信息”的步骤时,可以通过图6中方法得到的目标空间的声音传递特性信息集中,然后从目标空间的声音传递特性信息集,确定N个目标声音传递特性信息。
假设目标空间包括多个单元空间,任意两个单元空间互不重合,目标空间布设有麦克风阵列。示例性地,可以将目标空间划分为多个网格,每个网格为一个单元空间。参见图4,该获取目标空间的声音传递特性信息集的方法包括:
S510、获取第一测试信息和第二测试信息,第二测试信息为第一测试信息由目标空间的第一位置传递到第二位置形成的信息;目标空间包括多个互不重合的单元空间。
可选地,第一测试信息是需要在真实环境的单元空间中播放的音频信息,第一位置为用于播放第一测试信息的设备在真实环境(即目标空间)所处的位置,第二测试信息可以为利用真实环境(即目标空间)中的麦克风阵列采集的音频信息。第二位置为采集第二测试信息的麦克风在真实环境所处的位置。
此处需要强调的是,在执行本步骤时,任一时刻,仅允许在一个单元空间以一个朝向播放第一测试信息,并对因第一测试信息的存在而形成的第二测试信息进行采集,以充分避免多个单元空间同时发声,互相干扰,导致所得到的声音传递特性信息不准确的情况出现。这样设置可以使得最终所得到的声音传递特性信息较为准确。
S520、对比第一测试信息和第二测试信息,得到声音传递特性信息,将第一位置确定为声音传递特性信息对应的声源位置信息,将在第一位置播放第一测试信息的播放设备的朝向信息确定为声音传递特性信息对应的朝向信息。
“对比第一测试信息和第二测试信息,得到声音传递特性信息”的具体实现方法有多种,本申请对此不作限制。示例性地,“对比第一测试信息和第二测试信息,得到声音传递特性信息”包括:将第一测试信息和第二测试信息代入下式,得到声音传递特性信息
其中,s为第一测试信息;为第二测试信息,声音传递特性信息/>和第二测试信息/>均为向量。
其中,声音传递特性信息为向量,包括多个元素,每个元素对应一个麦克风。每一个元素用于描述声音由声源位置传到其对应的麦克风位置处,声音属性的改变情况。第二测试信息同样为向量,包括多个元素,每个元素对应一个麦克风。每一个元素用于表示与其对应的麦克风采集到的声音信息。声音传递特性信息中各元素对应的麦克风的排列顺序与第二测试信息中各元素对应的麦克风的排列顺序一致。
S530、将声音传递特性信息,以及声音传递特性信息对应的声源位置信息和朝向信息,添加到目标空间的声音传递特性信息集。
上述技术方案给出了一种得到目标空间的声音传递特性信息集的方法,采用该方法可以确保所得到声音传递特性信息集与目标空间匹配,进而确保所得到的训练数据与真实情况一致。
需要强调的是,在实际中,由于不同空间的形状、尺寸、麦克风阵列在空间中的分布位置不同,针对不同的空间,需要分别形成与之对应的声音传递特性信息集。
从上面内容可知,单元空间最终将转化为声源位置,因此,对目标空间划分,得到的单元空间的个数越多,最终通过训练得到的神经网络模型的声源定位精度越高。
在一个实施例中,N个目标声音传递特性信息中,任意两个目标声音传递特性信息对应的声源位置之间的距离均应大于设定距离阈值。这样设置的原因是,在实际中,由于人具有一定体型或需要一定安全距离的缘故,两个人之间的距离往往大于一定距离,该距离即为设定距离阈值。
在上述各技术方案的基础上,可选地,S360或S460中的“将各源样本语音信息的发音位置信息进行处理,确定训练数据的输出量”,包括:将各源样本语音信息的发音位置信息转化为各源样本语音信息在各单元空间的产生概率;将各源样本语音信息在各单元空间的产生概率,作为训练数据的输出量。
示例性地,若目标空间包括三个单元空间,分别为单元空间1、单元空间2和单元空间3,某一源样本语音信息的发音位置在单元空间1中,可以将该源样本语音信息在各单元空间的产生概率表示为(1,0,0)。其中,括号中第一个数字表示该源样本语音信息的发音位置在单元空间1的概率,第二个数字表示该源样本语音信息的发音位置在单元空间2的概率,第三个数字表示该源样本语音信息的发音位置在单元空间3的概率。(1,0,0)表示该源样本语音信息的发音位置在单元空间1的概率为1,在单元空间2和单元空间3的概率均为0。
如果某个源样本语音信息是静音信息,确定该源样本语音信息在各单元空间的产生概率表示为(0,0,0)。即该源样本语音信息的发音位置在单元空间1、单元空间2和单元空间3的概率均为0。
由于目前将神经网络模型应用于分类问题的技术较为成熟,而分类问题通常以概率的形式展示分类的结果,通过将各源样本语音信息的发音位置信息转化为各源样本语音信息在各单元空间的产生概率,有利于实现将训练数据与神经网络模型衔接,以使训练神经网络模型时可以直接使用训练数据。
在上述各技术方案的基础上,可选地,将多路样本语音信息进行处理,确定训练数据的输入量,将各源样本语音信息以及与各源样本语音信息的发音位置信息进行处理,确定训练数据的输出量,包括:对多路样本语音信息进行时频变换,将时频变换后的多路样本语音信息作为训练数据的输入量;对各源样本语音信息进行时频变换,将时频变换后的源样本语音信息,以及各源样本语音信息的发音位置信息作为训练数据的输出量。这样设置的原因是,在神经网络模型大小受限的情况下,通过增加时频变换步骤,提高神经网络模型的稳定性以及声源定位精度。
在上述各技术方案的基础上,可选地,将多路样本语音信息进行处理,确定训练数据的输入量,包括:将多路样本语音信息与噪声信息进行叠加;将叠加有噪声信息的多路样本语音信息作为训练数据的输入量。这样可以使得所训练出的神经网络模型具有去噪的功能。
在对神经网络模型进行训练的过程中,每一次将训练数据的输入量输入到神经网络模型后,将得到神经网络模型的实际输出量;将该实际输出量与训练数据中的输出量带入损失函数,计算损失函数的值;以损失函数的值为基准,对神经网络模型中的参数进行调整。如此反复,通过不断调整的方式,使神经网络模型逐渐具有精准进行声源定位的能力。
进一步地,在将该实际输出量与训练数据中的输出量带入损失函数,计算损失函数的值时,结合排列不变准则进行计算,以避免因排列问题导致神经网络模型不收敛,或收敛较慢的问题。
示例性地,与同一单元空间对应的神经网络模型实际输出量和训练数据中的输出量作为一个数据组,将得到多个数据组。在计算损失函数时,调整数据组的排列顺序,将得到多个损失函数的值;以最小的损失函数的值为基准,对神经网络模型中的参数进行调整,以使神经网络模型逐渐具有精准进行声源定位的能力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
图7为本公开实施例中的一种语音处理装置的结构示意图。本公开实施例所提供的语音处理装置可以配置于终端或服务起中,该语音处理装置具体包括:
获取模块610,用于获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
处理模块620,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
进一步地,获取模块610,用于:
通过采集设备采集目标空间中的目标语音信息;
对所述目标语音信息进行时频变换,得到待处理语音信息。
进一步地,所述目标空间包括多个检测位置;
处理模块620,用于将所述待处理语音信息输入到所述神经网络模型中,得到一个或多个源语音信息以及各源语音信息在各所述检测位置的第一形成概率;
对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置。
进一步地,处理模块620,还用于对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置之前,对各所述源语音信息在各所述检测位置的第一形成概率进行平滑处理。
进一步地,所述目标空间包括多个检测位置;
处理模块620,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息、各所述源语音信息在各所述检测位置的第一形成概率、以及在各朝向的第二形成概率;
对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的朝向。
进一步地,处理模块620,还用于对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的朝向之前,对各所述源语音信息的第一形成概率和第二形成概率均进行平滑处理。
进一步地,处理模块620,还用于将所述待处理语音信息输入到神经网络模型中进行声源定位、语音区分以及去噪处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
进一步地,该装置包括解析模块和执行模块:
解析模块,用于对各所述源语音信息以及各所述源语音信息对应的发音位置进行处理,确定一个或多个待执行指令以及与各所述待执行指令对应的执行对象;
执行模块,用于控制各所述执行对象执行与其对应所述待执行指令。
进一步地,若共确定多个待执行指令;
执行模块,用于确定各所述待执行指令的优先级;
按照各所述待执行指令的优先级顺序,控制各所述执行对象执行与其对应所述待执行指令。
进一步地,执行模块,用于根据下述中至少一项,确定各所述待执行指令的优先级:
所述执行对象的工作状态、所述源语音信息对应的发音位置,各所述源语音信息的语义以及形成各所述源语音信息的用户身份。
进一步地,获取模块,还用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理之前,获取具有声源定位功能及语音区分功能的神经网络模型。
进一步地,获取模块,还用于
获取训练数据,所述训练数据包括输入量和输出量,所述输入量包括多路样本语音信息,所述输出量包括形成所述多路样本语音信息的源样本语音信息,以及各所述源样本语音信息的发音位置信息;
将所述训练数据输入到神经网络模型中,对神经网络模型进行训练,以使神经网络模型具有声源定位及语音区分的功能。
本公开实施例提供的语音处理装置,可执行本公开方法实施例所提供的语音处理方法中终端或服务器所执行的步骤,具备执行步骤和有益效果此处不再赘述。
图8为本公开实施例中的一种电子设备的结构示意图。下面具体参考图8,其示出了适于用来实现本公开实施例中的电子设备500的结构示意图。本公开实施例中的电子设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理以实现如本公开所述的实施例的语音处理方法。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码,从而实现如上所述的语音处理方法。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
可选的,当上述一个或者多个程序被该电子设备执行时,该电子设备还可以执行上述实施例所述的其他步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,本公开提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开提供的任一所述的语音处理方法。
根据本公开的一个或多个实施例,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开提供的任一所述的语音处理方法。
由于本公开实施例所提供的车辆包括本公开所提供的语音处理装置或电子设备,其具有其所包括的语音处理装置或电子设备相同或相应的有益效果,此处不再赘述。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (14)
1.一种语音处理方法,其特征在于,包括:
获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理语音信息,包括:
通过采集设备采集目标空间中的目标语音信息;
对所述目标语音信息进行时频变换,得到待处理语音信息。
3.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:
将所述待处理语音信息输入到所述神经网络模型中,得到一个或多个源语音信息以及各源语音信息在各所述检测位置的第一形成概率;
对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置。
4.根据权利要求3所述的方法,其特征在于,所述对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置之前,还包括:
对各所述源语音信息在各所述检测位置的第一形成概率进行平滑处理。
5.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:
将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个源语音信息、各所述源语音信息在各所述检测位置的第一形成概率、以及在各朝向的第二形成概率;
对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的发音朝向。
6.根据权利要求5所述的方法,其特征在于,所述对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的发音朝向之前,还包括:
对各所述源语音信息的第一形成概率和第二形成概率均进行平滑处理。
7.根据权利要求1所述的方法,其特征在于,还包括:
对各所述源语音信息以及各所述源语音信息对应的发音位置进行处理,确定一个或多个待执行指令以及与各所述待执行指令对应的执行对象;
控制各所述执行对象执行与其对应所述待执行指令。
8.根据权利要求7所述的方法,其特征在于,若确定多个待执行指令;所述方法还包括:
确定各所述待执行指令的优先级;
所述控制各所述执行对象执行与其对应所述待执行指令,包括:
按照各所述待执行指令的优先级顺序,控制各所述执行对象执行与其对应所述待执行指令。
9.根据权利要求8所述的方法,其特征在于,所述确定各所述待执行指令的优先级,包括:
根据下述中至少一项,确定各所述待执行指令的优先级:
所述执行对象的工作状态、所述源语音信息对应的发音位置,各所述源语音信息的语义以及形成各所述源语音信息的用户身份。
10.根据权利要求1所述的方法,其特征在于,所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理之前,还包括:
获取具有声源定位功能及语音区分功能的神经网络模型。
11.根据权利要求10所述的方法,其特征在于,所述获取具有声源定位功能及语音区分功能的神经网络模型,包括:
获取训练数据,所述训练数据包括输入量和输出量,所述输入量包括多路样本语音信息,所述输出量包括形成所述多路样本语音信息的源样本语音信息,以及各所述源样本语音信息的发音位置信息;
将所述训练数据输入到神经网络模型中,对神经网络模型进行训练,以使神经网络模型具有声源定位及语音区分的功能。
12.一种语音处理装置,其特征在于,包括:
获取模块,用于获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
处理模块,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至11任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至11任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211438428.5A CN118053446A (zh) | 2022-11-17 | 2022-11-17 | 语音处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211438428.5A CN118053446A (zh) | 2022-11-17 | 2022-11-17 | 语音处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118053446A true CN118053446A (zh) | 2024-05-17 |
Family
ID=91045346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211438428.5A Pending CN118053446A (zh) | 2022-11-17 | 2022-11-17 | 语音处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118053446A (zh) |
-
2022
- 2022-11-17 CN CN202211438428.5A patent/CN118053446A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN111179961B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN110753238B (zh) | 视频处理方法、装置、终端及存储介质 | |
CN111050271B (zh) | 用于处理音频信号的方法和装置 | |
CN112153460B (zh) | 一种视频的配乐方法、装置、电子设备和存储介质 | |
CN112786069B (zh) | 语音提取方法、装置和电子设备 | |
CN111343410A (zh) | 一种静音提示方法、装置、电子设备及存储介质 | |
WO2022042634A1 (zh) | 音频数据的处理方法、装置、设备及存储介质 | |
CN112634872A (zh) | 语音设备唤醒方法及装置 | |
CN112364144B (zh) | 交互方法、装置、设备和计算机可读介质 | |
US20240205634A1 (en) | Audio signal playing method and apparatus, and electronic device | |
JP2022088528A (ja) | 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN110956128A (zh) | 生成车道线图像的方法、装置、电子设备和介质 | |
CN112382266A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
WO2022121800A1 (zh) | 声源定位方法、装置和电子设备 | |
CN114550728B (zh) | 用于标记说话人的方法、装置和电子设备 | |
CN115756258A (zh) | 音频特效的编辑方法、装置、设备及存储介质 | |
CN118053446A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN118053442A (zh) | 训练数据生成方法、装置、电子设备及存储介质 | |
CN114302278A (zh) | 耳机佩戴校准方法、电子设备及计算机可读存储介质 | |
CN113223496A (zh) | 一种语音技能测试方法、装置及设备 | |
CN111833883A (zh) | 一种语音控制方法、装置、电子设备及存储介质 | |
CN118053433A (zh) | 用于多音区的语音处理方法、装置、电子设备及存储介质 | |
CN114449341B (zh) | 音频处理方法、装置、可读介质及电子设备 | |
CN113903354A (zh) | 语音混合信号分离方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |