CN109767750A

CN109767750A - 一种基于语音雷达与视频的语音合成方法

Info

Publication number: CN109767750A
Application number: CN201711100477.7A
Authority: CN
Inventors: 洪弘; 李慧; 顾陈; 赵恒�; 顾旭; 高茜; 奚梦婷; 李彧晟; 孙理; 朱晓华
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-05-17
Anticipated expiration: 2037-11-09
Also published as: CN109767750B

Abstract

本发明公开了一种基于语音雷达的新型语音合成方法，处理步骤如下：由雷达回波信号获得声带振动频率作为语音基频；由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合，获得嘴唇的运动特征和共振峰映射关系的经验公式；将测试者发音时的嘴唇视频作为输入，获得时变共振峰；最后由获得的基频和时变共振峰进行语音合成。利用本发明的方法，可以不接触发音者体，将语音雷达与图像信息相结合，实现语音合成。

Description

一种基于语音雷达与视频的语音合成方法

技术领域

本发明属于雷达技术领域，特别是一种基于语音雷达的新型语音合成方法。

背景技术

语音是人类交流与沟通的最有效地方式之一。语音重构与恢复一直为科学家所研究。生物医学雷达技术已扩展语音信号，并且获得的语音信号质量可与麦克风信号相媲美；近年来，国际上很多计算机技术研究者利用数字图像处理技术与数字语音处理技术相结合，将图像信息的特征与语音信息特征进行融合，提高了背景噪声下的语音识别效果，然而现有技术中尚无将雷达信号与图像信息结合进行语音合成的方法。

发明内容

本发明的目的在于提供一种基于语音雷达的新型语音合成方法。

实现本发明目的的技术解决方案为：一种基于语音雷达的新型语音合成方法，包括以下步骤：

步骤1、语音的基频信息由雷达回波信号获取，非接触式语音雷达向发音者发送连续正弦波，通过接收天线接收，对回波进行预处理、基频与高次谐波模式分解、时频信号处理，从而获得时变声带振动的频率即语音信号的基频；

步骤2、由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合，获得嘴唇的运动特征和共振峰映射关系的经验公式；

步骤3、由步骤2的经验公式，以发音者嘴唇的视频信息为输入进行测试，输出为发音者发字符的音的N组时变共振峰，其中发音者发音的字符可包括英文，中文等其他语言的字符。

步骤4、由雷达回波获取的语音基频和视频获取的N组时变共振峰进行语音合成。

本发明与现有技术相比，其显著优点在于：本发明的方法能脱离麦克风，不接触发音者体，将语音雷达与图像信息相结合，实现语音合成。本发明将生物雷达，视频图像技术于一体，是将现代雷达技术应用于语音恢复的重要尝试。针对语言残疾人群，相比于手术重建语音的过程，此发明不需要介入病人体内，不造成二次伤害。相比与电子喉装置，此发明抗噪强，发音自然，合成语音有音调的变化。另外，本发明的应用场景较为广泛，除了用于语言残疾者语音恢复，还可用于刑事侦查，军事探秘等。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1为本发明的基于语音雷达的新型语音合成技术系统流程图。

图2为本发明的嘴唇特征与共振峰经验公式拟合流程图。

图3为本发明的经验公式测试流程图。

图4为本发明所合成的语音“A”拟合结果与麦克风获取的共振峰的对比图。

图5分别为本发明所合成的语音“A”的麦克风录取的原始波形和合成语音的波形，其中图(a)为麦克风录取的原始波形图，(b)为合成语音的波形。

具体实施方式

结合附图，本发明的一种基于语音雷达与视频的语音合成方法，包括以下步骤：

步骤1、利用雷达回波信号获取语音的基频信息，具体为：非接触式语音雷达向发音者发送连续正弦波，接收天线接收回波信号，之后对接收到的回波信号进行预处理、基频与高次谐波模式分解、时频信号处理，从而获得时变声带振动的频率即语音信号的基频；

所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号；发音者的发音为某个字符的音。

步骤2、将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合，获得嘴唇的时变运动特征和时变共振峰映射关系的经验公式；

所述时变运动特征为发音者发某个字符的音时归一化嘴唇的宽和归一化嘴唇的高。

将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合，具体步骤为:

步骤2-1、录取发音者发某个字符的音时的嘴唇视频信息，提取嘴唇轮廓从而获得嘴唇的时变运动特征；

步骤2-2、由麦克风同步录取发音者发某个字符的音时的语音信号，提取N组时变共振峰；

步骤2-3、利用多元线性回归法进行公式拟合，具体为，设输入为：归一化嘴唇的宽X₁，归一化嘴唇的高X₂，X₁一阶导数X₃，X₂一阶导数X₄，输出为时变共振峰F，β＝(β₁，β₂，β₃，β₄，β₅)为拟合公式的回归系数，则第n组时变共振峰F_n拟合公式为：

F_n＝β_n1+β_n2×X₁+β_n3×X₂+β_n4×X₃+β_n5×X₄ (1)

其中β_n＝(β_n1，β_n2，β_n3，β_n4，β_n5)为第n组时变共振峰对应第n组回归系数。

步骤3、将待合成语音的发音者嘴唇视频信息为输入，利用步骤2中的得到嘴唇的时变运动特征和时变共振峰映射关系的经验公式进行计算，得到发音者语音的N组时变共振峰，其中N为不小于三的整数；

步骤4、由雷达回波获取的语音信号的基频和步骤3获得的N组时变共振峰进行语音合成，得到最终合成的语音信号。

利用本发明的方法，可以不接触发音者体，将语音雷达与图像信息相结合，实现语音合成。

下面进行更详细的描述。

本发明是依托语音雷达和视频传感器而实现新型语音合成系统。该系统采用射频与视频传感器相结合的方式，运用无线测量的方式实时获得时变声带振动信号，运用视频获得的图像信息获得时变共振峰。共振峰提取部分包括图像信息处理，经验公式拟合振峰。

由语音雷达获得的回波信号得到时变声带振动信号，经时频分析获取时变声带振动频率即语音基频。共振峰提取部分，由视频信息获取嘴唇宽与高发音时的特征，与麦克风获取的语音的共振峰进行经验公式拟合，从而能直接从视频信息获得时变共振峰。

本发明的基于语音雷达的新型语音合成方法，具体为：

步骤2、由其他发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合，获得嘴唇的运动特征和共振峰映射关系的经验公式；

步骤3、由步骤2的经验公式，以发音者嘴唇的视频信息为输入进行计算，输出为发音者语音的N组时变共振峰。

下面结合实施例对本发明做进一步描述。

实施例

本实施例是一成年男子发英文字符“A”，该发音者在发“A”时由雷达回波信号获取语音的基频信息，非接触式语音雷达向发音者发送连续正弦波，通过接收天线接收，对回波进行预处理、基频与高次谐波模式分解、时频信号处理，从而获得时变声带振动的频率即语音信号的基频。

由其他发音者发“A”时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合，获得嘴唇的运动特征和3组共振峰映射关系的经验公式；由经验公式，以待合成的发音者嘴唇的视频信息为输入进行计算，输出为发音者语音的3组时变共振峰。最后由雷达回波获取的语音基频和视频获取的3组时变共振峰进行语音合成，获得“A”的合成音。

结合图1，得到系统流程图。

结合图2，经过步骤2拟合嘴唇特征与共振峰映射关系的经验公式。

结合图3与图4，经过步骤3，得到发音者发音的四组时变共振峰。图3为经验公式测试流程图，图4为语音“A”拟合结果与麦克风获取的共振峰的对比图

结合图5，经过步骤4，将雷达回波获取的语音基频和视频获取的共振峰进行语音合成得到合成语音的波形图。

由上可知，利用本发明的方法，可以不接触发音者体，将语音雷达与图像信息相结合，实现语音合成。

Claims

1.一种基于语音雷达与视频的语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语音雷达与视频的语音合成方法，其特征在于，步骤1中所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号；发音者的发音为某个字符的音。

3.根据权利要求1所述基于语音雷达与视频的语音合成方法，其特征在于，步骤2中时变运动特征为发音者发某个字符的音时归一化嘴唇的宽和归一化嘴唇的高。

4.根据权利要求1所述的基于语音雷达与视频的语音合成方法，其特征在于，步骤2将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合，具体步骤为:

F_n＝β_n1+β_n2×X₁+β_n3×X₂+β_n4×X₃+β_n5×X₄ (1)