CN115910027B

CN115910027B - 一种辅助发声方法及装置

Info

Publication number: CN115910027B
Application number: CN202310214939.7A
Authority: CN
Inventors: 赵希敏; 郑宏钊; 杨晓风
Original assignee: Shenzhen Jiutian Ruixin Technology Co ltd
Current assignee: Shanghai Beihu Ice Silicon Technology Co ltd
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-05-09
Anticipated expiration: 2043-03-08
Also published as: CN115910027A

Abstract

本发明公开了一种辅助发声方法及装置，涉及辅助发声技术领域，解决了现有的辅助发声技术及设备发出的声音与真声差别大、成本高的技术问题。本发明的方法包括：获取用户的声带振动信号；对获取的所述声带振动信号进行处理，得到声带振动特征信号；通过训练的对抗网络将所述声带振动特征信号生成音频采样信号；将生成的所述音频采样信号转化为声音且输出所述声音。本方法能够使辅助发生非常真实，提升了现有发声装置的用户体验。

Description

一种辅助发声方法及装置

技术领域

本发明涉及辅助发声技术领域，尤其涉及一种辅助发声方法及装置。

背景技术

聋哑人发声方法主要为手语发声或借助辅助发声设备。大多数人认为手语是聋哑人与社会沟通的最好方式，有 90%的聋哑学生以及 80%的聋哑成年人不同程度的对《中国手语》进行了学习。但由于手语推广力度不够，手语翻译标准无法满足聋哑人群体需求，手语翻译质量无法满足聋哑人群体需求。由此，手语并不能完全满足聋哑人的发声需求，尤其在健全人与聋哑人之间不能有效的解决沟通障碍问题。各国学者在健全人与聋哑人之间的沟通问题上，大多选择了使用辅助发声设备解决这一问题。

目前辅助发声设备的技术路线主要有以下几种：

基于计算机视觉与图像处理算法的语音发声装置：该装置从单一方向或多方向使用摄像机采集用户手语手势图像，获取用户肢体信息。将聋哑人手势图像与手势库匹配后判断用户表达语义，获得的语音信息发送至发声设备。

基于数据手套技术的语音发声装置：数据手套中装有多种运动传感器，分布手指及手腕关节处，通过测量关节弯曲度、压力变化等信息，判断用户手语手势动作，将动作信息转换为文字信息，发送至语音发声装置发声。

基于加速度传感器的语音发声装置：通过测量运动加速度，直观反映手部在三维空间上的运动状态，根据运动状态可获得物体运动轨迹信息。通过测量重力加速度分量信息，搭建聋哑人语音发声装置。加速度传感器体积较小，可有效的节省设备空间。

基于表面肌电（Surface Electromyography，SEMG）信号的语音发声装置：采集用户手部 SEMG 信号，采用分类算法识别 SEMG 信号。该技术是由 SEMG 控制发展演变为SEMG 发声，用户在进行手语表达的同时，手部表面会产生相应的 SEMG 信号变化，只要肌肉健全则可进行发声。不同的手势动作需要使用的肌肉群不同，产生不同的 SEMG 信号组合，从而识别用户表达语句，将识别到的信息发送至发声装置从而实现发声。

电子喉和人工喉：利用电子震荡或电磁振动发出基音的装置，产生基音后再通过构音器官唇、舌、腭等的运动及共鸣器官的参与使声音成为可以识别的语言。

通过调查发现，现有的辅助发声技术发出的声音与真声差别较大，容易快速识别出假声，影响了用户体验；另外，基于现有辅助发声技术开发的产品特别是获取手势动作或声音源的采集结构，其结构复杂导致产品价格较高。

发明内容

本发明的目的在于提供一种辅助发声方法及装置，以解决现有的辅助发声技术及设备发出的声音与真声差别较大、成本高的技术问题。本发明提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的一种辅助发声方法，包括如下步骤：

S100、获取用户的声带振动信号；S200、对获取的所述声带振动信号进行处理，得到声带振动特征信号；S300、通过训练的对抗网络将所述声带振动特征信号生成音频采样信号；S400、将生成的所述音频采样信号转化为声音且输出所述声音。

进一步地，所述对抗网络包括第一对抗网络，用于将输入的所述声带振动特征信号生成所述音频采样信号，包括如下步骤：

给定时长和采样率，对输入的所述声带振动特征信号进行线性采样；对采样的所述声带振动特征信号依次按照上采样、填充、卷积的顺序重复处理第一预设次数，得到所述音频采样信号。

进一步地，所述对抗网络还包括第二对抗网络，用于将输入的真实声音信号与生成的所述音频采样信号进行对抗识别，包括如下步骤：

将输入的所述真实声音信号与生成的所述音频采样信号分别进行卷积处理；将卷积处理的所述真实声音信号与所述音频采样信号分别按照相位延迟、卷积的顺序重复处理第二预设次数；将重复处理后的所述真实声音信号与所述音频采样信号分别进行线性组合；将线性组合的所述真实声音信号与所述音频采样信号进行比对，输出比对结果。

进一步地，步骤S300中，对所述对抗网络的训练包括如下步骤：

S310、从真实声音信号样本中采集m个真实样本；从音频采样信号样本中采集m个样本，将其输入所述第一对抗网络，生成m个生成样本；初始化所述第一对抗网络、第二对抗网络，固定初始化后的第一对抗网络；训练k次所述第二对抗网络，直到所述第二对抗网络能够判别出所述真实样本和所述生成样本；S320、更新所述第一对抗网络的参数，使得所述第一对抗网络的生成样本逐步接近真实样本；S330、重复步骤S320，直到满足设定条件。

进一步地，步骤S320中，通过减小学习率来更新所述第一对抗网络的参数。

进一步地，步骤S330中，满足设定条件为：所述第二对抗网络对所述真实样本和所述生成样本的判别错误率均等于或者小于设定的阈值。

作为本发明的另一方面，还提供了一种辅助发声装置，应用于上文所述的一种辅助发声方法，包括依次连接的声带振动信号采集模块、声带振动特征提取模块、音频生成模块以及声音输出模块；所述音频生成模块包括所述对抗网络。

优选的，所述声带振动信号采集模块为惯性测量单元，用于获取用户颈部的加速度振动信号。

优选的，所述惯性测量单元为微机电系统器件。

优选的，所述音频生成模块部署在ARM中。

实施本发明上述技术方案中的一个技术方案，具有如下优点或有益效果：

本发明通过获取用户的声带振动信号将其转化为声带振动特征信号，采用对抗网络将声带振动特征信号转化成仿真的音频采样信号，并实时播放至扬声器，以此实现辅助发声。本发明提供的辅助发声方法及装置能够使仿真的声音非常真实，提升了现有发声产品的用户体验，而且大幅降低了成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，附图中：

图1是本发明实施例的一种辅助发声方法的流程图；

图2是本发明实施例的一种辅助发声对抗网络的训练流程图；

图3是本发明实施例的一种辅助发声对抗网络训练的输出结果示意图；

图4是本发明实施例的一种辅助发声装置的结构示意图。

图中：1、声带振动信号采集模块；2、声带振动特征提取模块；3、音频生成模块；4、声音输出模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下文将要描述的各种示例性实施例将要参考相应的附图，这些附图构成了示例性实施例的一部分，其中描述了实现本发明可能采用的各种示例性实施例。除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白，它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的流程、方法和装置等的例子，还可使用其他的实施例，或者对本文列举的实施例进行结构和功能上的修改，而不会脱离本发明的范围和实质。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”等指示的是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的元件必须具有的特定的方位、以特定的方位构造和操作。术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。术语“多个”的含义是两个或两个以上。术语“相连”、“连接”应做广义理解，例如，可以是固定连接、可拆卸连接、一体连接、机械连接、电连接、通信连接、直接相连、通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明，仅示出了与本发明实施例相关的部分。

实施例一：如图1所示，本发明提供了一种辅助发声方法，包括如下步骤：

S100、获取用户的声带振动信号；

S200、对获取的声带振动信号进行处理，得到声带振动特征信号；

S300、通过训练的对抗网络将声带振动特征信号生成音频采样信号；

S400、将生成的音频采样信号转化为声音且输出声音。

本方法采用颈部软组织的加速度振动信号作为辅助发声的生成信号，而不通过传感器来采集声带基音或手势动作。一方面能够获得更多基于声带振动的多维度信号，如实施例二中通过MEMS IMU获取的三轴加速度，并对采集的加速度振动信号（如三轴加速度）进行模拟预处理后生成声带振动特征信号（如20通道的0-255的特征值），再通过训练的对抗网络生成声带振动对应的音频的采样信号，最后将音频采样信号转化为声音实时播放至扬声器，可实现模拟的声音更加逼真；另一方面，现有通过传感器来采集声带基音或手势动作，体积较大、成本较高，而本实施例的声带振动信号获取可以选择小体积、低成本的采集装置，如MEMS IMU，以此降低成本，并携带方便。因此，本发明提供的辅助发声方法能够使仿真的声音非常真实，而且大幅降低了成本。

需说明的是，本实施例中，对抗网络将声带振动特征信号生成音频采样信号，该信号的数字在0-32768之间变化，这个信号通过DAC之后，才会变成声音的电信号。

作为可选的实施方式，对抗网络包括第一对抗网络，用于将输入的声带振动特征信号生成音频采样信号，包括如下步骤：

给定时长和采样率，对输入的声带振动特征信号进行线性采样；对采样的声带振动特征信号依次按照上采样、填充、卷积的顺序重复处理第一预设次数，得到音频采样信号。需说明的是，此处的第一预设次数可根据实际情况设定。

具体的，如表1所示，基于上述生成音频采样信号的步骤，一种构建的第一对抗网络如下：

第一对抗网络包括六层网络，第一层为线性层（Linear），其输入为（1,400）的声带振动特征信号，其中，1 是单通道，400 表示400 个0—255的特征值；输出为（1,16384），即给定时长为1s，采样率为16k的单通道声带振动特征信号。第二层为转置一维卷积层（Transpose1dLayer），该层将上一层输出的（1,16384）变换成形状为（1024,16）的信号，其中，1024是神经网络中间层通道数，16是信号长度，以下信号形状均表示为（通道数，长度）；并经过上采样（unsample）、一维填充（ConstantPad1d）后，一维卷积（Conv1d），变换为（512,64）的信号。第三层类似第二层，将第二层生成的形状为（512,64）信号经过上采样（unsample）、一维填充（ConstantPad1d），一维卷积（Conv1d）后，变换为形状为（256,256）的信号。第四层类似第三层，将第三层生成的形状为（256,256）信号经过上采样（unsample）、一维填充（ConstantPad1d），一维卷积（Conv1d）后，变换为形状为（128,1024）的信号。第五层类似第四层，将第四层生成的形状为（128,1024）信号经过上采样（unsample）、一维填充（ConstantPad1d），一维卷积（Conv1d）后，变换为形状为（64,4096）的信号。第六层类似第五层，将第五层生成的形状为（64,4096）的信号经过上采样（unsample）、一维填充（ConstantPad1d），一维卷积（Conv1d）后，变换为形状为（1,16384）的信号。

需说明的是，第一对抗网络采用多次上采样操作，用于扩充音频。一般采样率16K的音频采样点数有16个，因此，本实施例需要通过上采样，把一个64个采样点变换到每个为16K，进而增加采样点数。

作为可选的实施方式，对抗网络还包括第二对抗网络，用于将输入的真实声音信号与生成的音频采样信号进行对抗识别，包括如下步骤：

将输入的真实声音信号与生成的音频采样信号分别进行卷积处理；将卷积处理的真实声音信号与音频采样信号分别按照相位延迟、卷积的顺序重复处理第二预设次数；将重复处理后的真实声音信号与音频采样信号分别进行线性组合；将线性组合的真实声音信号与音频采样信号进行比对，输出比对结果。其中，比对结果包括但不限于判别错误率及其对应的分布图、真实声音信号及其对应的分布图、生成的音频采样信号其对应的分布图。需说明的是，此步骤的第二预设次数可根据实际情况设定。

具体的，如表2所示，基于上述对真实声音信号与生成的音频采样信号对抗识别的步骤，一种构建的第二对抗网络如下：

第二对抗网络包含十层网络，第一层为一维卷积（Conv1d），其输入形状为上文所述的第一对抗网络生成的（1,16384）信号，输出为（64,4096）的信号。第二层为相位重排层（PhaseShuffle），将上一层输入的信号延迟一定的相位（可根据实际情况设定）。第三层同样为一维卷积（Conv1d），其输入信号形状为（64,4096），输出信号形状为（128,1024）。第四层和第二层类似，也同样是将第四层的输出信号，延迟一定的相位。第五层同样为一维卷积（Conv1d），其输入信号形状为（128,1024），输出信号形状为（256,256）。第六层和第二层类似，也同样是将第六层的输出信号，延迟一定的相位。第七层同样为一维卷积（Conv1d），其输入信号形状为（256,256），输出信号形状为（512,64）。第八层和第二层类似，也同样是将第八层的输出信号，延迟一定的相位。第九层同样为一维卷积（Conv1d），其输入信号形状为（512,64），输出信号形状为（1024,16）。第十层为线性层，其输入信号形状为（512,64），输出信号形状为（1,1）。

需说明的是，为了使得多个通道数据被压缩进1个通道信号，同时保持语意相关性，本实施对第二对抗网络采用多次延迟操作。进一步地，在对第一对抗网络和第二对抗网络进行对抗训练的时候，还需要向第二对抗网络输入真实音频信号，并通过第二对抗网络的十层网络得到与第一对抗网络生成的配对比较信号，其信号状态可以为形状为（1,1）信号。第二对抗网络最后通过对网络处理的真实音频信号与第一对抗网络生成的仿真信号进行对比，输出判别错误率分布（参见图3所示）。

作为可选的实施方式，如图2所示，步骤S300中，对对抗网络的训练包括如下步骤：

S310、从真实声音信号样本中采集m个真实样本{ x1,x2,...,xm }；从音频采样信号样本中采集m个样本{ z1,z2,...,zm }，将其输入第一对抗网络，生成m个生成样本{ x’1,x’2,...,x’m }；初始化第一对抗网络、第二对抗网络（如上述神经网络各层的权重和偏置参数的初始值），固定初始化后的第一对抗网络（固定第一对抗网络的参数。如，反向传播梯度不会更新，每一层的权重和参数不会更新）；训练k次第二对抗网络（动态调整第二对抗网络的参数。即，每一次训练学习权重和偏执都会自动更新），直到第二对抗网络能够判别出真实样本和生成样本。即，第二对抗网络尽可能好地准确判别真实样本和生成样本，尽可能大地（如百分之百的判别准确率）区分正确样本和生成的样本。

需说明的是，真实声音信号可以通过正常人说话来获取其多个真实声音信号数据，并形成真实声音信号样本或真实声音信号数据库；同时，通过实施例二中的MEMS IMU采集上述正常人说话时颈部软组织对应的加速度振动信号，利用实施例二中的ADA100模拟预处理电路将生成声带振动特征信号，形成声带振动特征信号样本或声带振动特征信号数据库。

S320、更新第一对抗网络的参数，使得第一对抗网络的生成样本逐步接近真实样本。即，训练第一对抗网络使其尽可能能够减小每次对生成样本的判别错误率的差距（对生成样本的判别错误率逐步趋于稳定），也相当于尽量使得生成样本逐步接近真实样本。优选的，本实施例通过减小学习率来更新第一对抗网络的参数。

S330、重复步骤S320，直到满足设定条件。即，最终理想情况是使得第二对抗网络判别不出样本是来自于第一对抗网络的输出还是真实的输出。

作为可选的实施方式，上述满足设定条件为：第二对抗网络对真实样本和生成样本的判别错误率均等于或者小于设定的阈值，本实施例中设定的阈值等于0.5。

进一步地，如图3所示（图中实心圆点表示真实样本的分布，虚线表示生成样本的判别错误率分布，实线表示生成样本的分布），在（a）状态处于最初始的状态的时候，第一对抗网络生成的分布和真实分布区别较大，并且第二对抗网络判别出生成样本的判错误率不是很稳定，因此会先训练第二对抗网络来更好地分辨样本。通过多次训练第二对抗网络来达到（b）样本状态，此时判别样本区分得非常显著和良好。然后再对第一对抗网络进行训练。训练第一对抗网络之后达到（c）样本状态，此时第一对抗网络分布相比之前，逼近了真实样本分布。经过多次反复训练迭代之后，最终希望能够达到（d）状态，生成样本分布拟合于真实样本分布，并且第二对抗网络分辨不出样本是生成的还是真实的（对生成样本和真实样本的判别错误率均为0.5）。也就是说这个时候第一对抗网络可以生成出非常真实的样本。

需说明的是，步骤S100中，通过实施例二中的MEMS IMU采集诸如聋哑人说话时颈部软组织对应的加速度振动信号（声带振动信号）。步骤S200中，利用实施例二中的ADA100模拟预处理电路将生成声带振动特征信号。需说明的是，现有技术提取基频信号，对基频信号通过数字信号处理相关算法（如插值算法），去做信号增强。而本实施例此处的处理是将三轴加速度利用模拟接口，输入至ADA100 ，并对声带振动特征信号的信号频段进行能量积分。

综上所述，本实施例构建基于辅助发声的对抗网络并进行对抗训练，并通过训练的对抗网络中生成音频采样信号，最后实时播放至扬声器。在对对抗网络的对抗训练过程中，实现了将获取的声带振动特征信号转化成仿真的音频采样信号，仿真的音频采样信号通过与真实的语音信号对抗识别后，最终使得训练的对抗网络能够对输入的颈部软组织的加速度振动信号生成与真实发音高度一致的仿真声音。因此，本实施例提供的辅助发声方法能够使生成的声音非常真实，提升了现有发声装置的用户体验。

实施例二：如图4所示，本发明还提供一种辅助发声装置，应用于实施例一中所述的一种辅助发声方法，包括依次连接的声带振动信号采集模块1、声带振动特征提取模块2、音频生成模块3以及声音输出模块4。其中，音频生成模块3包括训练的对抗网络，该对抗网络经过实施一中所述的对抗训练。进一步地，声带振动信号采集模块1用于获取用户的声带振动信号，声带振动特征提取模块2用于将声带振动信号进行处理得到声带振动特征信号，音频生成模块3用于将声带振动特征信号生成音频采样信号，声音输出模块4用于将音频采样信号转化为声音输出。需说明的是，声音输出模块4包括但不限于扬声器。本发声装置融入了实施例一的辅助发声方法，输出的声音非常真实。

优选的，声带振动信号采集模块1为IMU，用于获取用户颈部的加速度振动信号；且，声带振动信号采集模块1为MEMS器件。IMU（Inertial measurement unit，惯性测量单元）可获得载体的姿态、速度和位移等信号，而基于MEMS（Micro ElectromechanicalSystem，微机电系统）技术的IMU，即MEMS惯性传感器，是测量物体三轴姿态角（或角速率）及加速度的装置。陀螺仪和加速度计，是惯性导航系统的核心装置。借助内置的加速度传感器和陀螺仪，IMU可测量来自三个方向的线性加速度和旋转角速率，通过解算可获得载体的姿态、速度和位移等信号。本实施例的声带振动信号采集模块1其特点是尺寸很小，制造方式特殊，长度从1毫米到1微米，能够实现小体积和低成本的辅助发声装置。

优选的，声带振动特征提取模块2为智能语音芯片，如ADA100，该芯片具备ASP模拟预处理，NPU神经网络处理器。

优选的，音频生成模块3部署在ARM中，如采用嵌入方式部署在ARM中。进一步地，音频生成模块3部署在ARM中可以实现随身佩戴，方便使用。

综上所述，本实施例的辅助发声装置采用的MEMS IMU 、ADA100、ARM SoC 整个技术方案成本不超过100元，因此，能够实现低成本，而且体积能够大幅度减少，便于随身佩戴，使用更为方便，因而具备广泛的市场前景。

以上所述仅为本发明的较佳实施例而已，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等同替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种辅助发声方法，其特征在于，包括如下步骤：

S100、获取用户的声带振动信号；

S200、对获取的所述声带振动信号进行处理，得到声带振动特征信号；

S300、通过训练的对抗网络将所述声带振动特征信号生成音频采样信号；

S400、将生成的所述音频采样信号转化为声音且输出所述声音；所述对抗网络包括第一对抗网络，用于将输入的所述声带振动特征信号生成所述音频采样信号，包括如下步骤：

2.根据权利要求1所述的一种辅助发声方法，其特征在于，所述对抗网络还包括第二对抗网络，用于将输入的真实声音信号与生成的所述音频采样信号进行对抗识别，包括如下步骤：

3.根据权利要求2所述的一种辅助发声方法，其特征在于，步骤S300中，对所述对抗网络的训练包括如下步骤：

S310、从真实声音信号样本中采集m个真实样本；从音频采样信号样本中采集m个样本，将其输入所述第一对抗网络，生成m个生成样本；初始化所述第一对抗网络、第二对抗网络，固定初始化后的第一对抗网络；训练k次所述第二对抗网络，直到所述第二对抗网络能够判别出所述真实样本和所述生成样本；

S320、更新所述第一对抗网络的参数；

S330、重复步骤S320，直到满足设定条件。

4.根据权利要求3所述的一种辅助发声方法，其特征在于，步骤S320中，通过减小学习率来更新所述第一对抗网络的参数。

5.根据权利要求4所述的一种辅助发声方法，其特征在于，步骤S330中，满足设定条件为：所述第二对抗网络对所述真实样本和所述生成样本的判别错误率均等于或者小于设定的阈值。

6.一种辅助发声装置，其特征在于，应用于权利要求1-5任一项所述的一种辅助发声方法，包括依次连接的声带振动信号采集模块、声带振动特征提取模块、音频生成模块以及声音输出模块；

所述音频生成模块包括所述对抗网络。

7.根据权利要求6所述的一种辅助发声装置，其特征在于，所述声带振动信号采集模块为惯性测量单元，用于获取用户颈部的加速度振动信号。

8.根据权利要求7所述的一种辅助发声装置，其特征在于，所述惯性测量单元为微机电系统器件。

9.根据权利要求6所述的一种辅助发声装置，其特征在于，所述音频生成模块部署在ARM中。