CN109767750A - 一种基于语音雷达与视频的语音合成方法 - Google Patents
一种基于语音雷达与视频的语音合成方法 Download PDFInfo
- Publication number
- CN109767750A CN109767750A CN201711100477.7A CN201711100477A CN109767750A CN 109767750 A CN109767750 A CN 109767750A CN 201711100477 A CN201711100477 A CN 201711100477A CN 109767750 A CN109767750 A CN 109767750A
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- varying
- lip
- radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Toys (AREA)
Abstract
本发明公开了一种基于语音雷达的新型语音合成方法,处理步骤如下:由雷达回波信号获得声带振动频率作为语音基频;由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和共振峰映射关系的经验公式;将测试者发音时的嘴唇视频作为输入,获得时变共振峰;最后由获得的基频和时变共振峰进行语音合成。利用本发明的方法,可以不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。
Description
技术领域
本发明属于雷达技术领域,特别是一种基于语音雷达的新型语音合成方法。
背景技术
语音是人类交流与沟通的最有效地方式之一。语音重构与恢复一直为科学家所研究。生物医学雷达技术已扩展语音信号,并且获得的语音信号质量可与麦克风信号相媲美;近年来,国际上很多计算机技术研究者利用数字图像处理技术与数字语音处理技术相结合,将图像信息的特征与语音信息特征进行融合,提高了背景噪声下的语音识别效果,然而现有技术中尚无将雷达信号与图像信息结合进行语音合成的方法。
发明内容
本发明的目的在于提供一种基于语音雷达的新型语音合成方法。
实现本发明目的的技术解决方案为:一种基于语音雷达的新型语音合成方法,包括以下步骤:
步骤1、语音的基频信息由雷达回波信号获取,非接触式语音雷达向发音者发送连续正弦波,通过接收天线接收,对回波进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
步骤2、由发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和共振峰映射关系的经验公式;
步骤3、由步骤2的经验公式,以发音者嘴唇的视频信息为输入进行测试,输出为发音者发字符的音的N组时变共振峰,其中发音者发音的字符可包括英文,中文等其他语言的字符。
步骤4、由雷达回波获取的语音基频和视频获取的N组时变共振峰进行语音合成。
本发明与现有技术相比,其显著优点在于:本发明的方法能脱离麦克风,不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。本发明将生物雷达,视频图像技术于一体,是将现代雷达技术应用于语音恢复的重要尝试。针对语言残疾人群,相比于手术重建语音的过程,此发明不需要介入病人体内,不造成二次伤害。相比与电子喉装置,此发明抗噪强,发音自然,合成语音有音调的变化。另外,本发明的应用场景较为广泛,除了用于语言残疾者语音恢复,还可用于刑事侦查,军事探秘等。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明的基于语音雷达的新型语音合成技术系统流程图。
图2为本发明的嘴唇特征与共振峰经验公式拟合流程图。
图3为本发明的经验公式测试流程图。
图4为本发明所合成的语音“A”拟合结果与麦克风获取的共振峰的对比图。
图5分别为本发明所合成的语音“A”的麦克风录取的原始波形和合成语音的波形,其中图(a)为麦克风录取的原始波形图,(b)为合成语音的波形。
具体实施方式
结合附图,本发明的一种基于语音雷达与视频的语音合成方法,包括以下步骤:
步骤1、利用雷达回波信号获取语音的基频信息,具体为:非接触式语音雷达向发音者发送连续正弦波,接收天线接收回波信号,之后对接收到的回波信号进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号;发音者的发音为某个字符的音。
步骤2、将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合,获得嘴唇的时变运动特征和时变共振峰映射关系的经验公式;
所述时变运动特征为发音者发某个字符的音时归一化嘴唇的宽和归一化嘴唇的高。
将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合,具体步骤为:
步骤2-1、录取发音者发某个字符的音时的嘴唇视频信息,提取嘴唇轮廓从而获得嘴唇的时变运动特征;
步骤2-2、由麦克风同步录取发音者发某个字符的音时的语音信号,提取N组时变共振峰;
步骤2-3、利用多元线性回归法进行公式拟合,具体为,设输入为:归一化嘴唇的宽X1,归一化嘴唇的高X2,X1一阶导数X3,X2一阶导数X4,输出为时变共振峰F,β=(β1,β2,β3,β4,β5)为拟合公式的回归系数,则第n组时变共振峰Fn拟合公式为:
Fn=βn1+βn2×X1+βn3×X2+βn4×X3+βn5×X4 (1)
其中βn=(βn1,βn2,βn3,βn4,βn5)为第n组时变共振峰对应第n组回归系数。
步骤3、将待合成语音的发音者嘴唇视频信息为输入,利用步骤2中的得到嘴唇的时变运动特征和时变共振峰映射关系的经验公式进行计算,得到发音者语音的N组时变共振峰,其中N为不小于三的整数;
步骤4、由雷达回波获取的语音信号的基频和步骤3获得的N组时变共振峰进行语音合成,得到最终合成的语音信号。
利用本发明的方法,可以不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。
下面进行更详细的描述。
本发明是依托语音雷达和视频传感器而实现新型语音合成系统。该系统采用射频与视频传感器相结合的方式,运用无线测量的方式实时获得时变声带振动信号,运用视频获得的图像信息获得时变共振峰。共振峰提取部分包括图像信息处理,经验公式拟合振峰。
由语音雷达获得的回波信号得到时变声带振动信号,经时频分析获取时变声带振动频率即语音基频。共振峰提取部分,由视频信息获取嘴唇宽与高发音时的特征,与麦克风获取的语音的共振峰进行经验公式拟合,从而能直接从视频信息获得时变共振峰。
本发明的基于语音雷达的新型语音合成方法,具体为:
步骤1、语音的基频信息由雷达回波信号获取,非接触式语音雷达向发音者发送连续正弦波,通过接收天线接收,对回波进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
步骤2、由其他发音者发音时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和共振峰映射关系的经验公式;
步骤3、由步骤2的经验公式,以发音者嘴唇的视频信息为输入进行计算,输出为发音者语音的N组时变共振峰。
步骤4、由雷达回波获取的语音基频和视频获取的N组时变共振峰进行语音合成。
下面结合实施例对本发明做进一步描述。
实施例
本实施例是一成年男子发英文字符“A”,该发音者在发“A”时由雷达回波信号获取语音的基频信息,非接触式语音雷达向发音者发送连续正弦波,通过接收天线接收,对回波进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频。
由其他发音者发“A”时嘴唇视频信息提取的运动特征和麦克风同步获取语音信号提取的共振峰进行拟合,获得嘴唇的运动特征和3组共振峰映射关系的经验公式;由经验公式,以待合成的发音者嘴唇的视频信息为输入进行计算,输出为发音者语音的3组时变共振峰。最后由雷达回波获取的语音基频和视频获取的3组时变共振峰进行语音合成,获得“A”的合成音。
结合图1,得到系统流程图。
结合图2,经过步骤2拟合嘴唇特征与共振峰映射关系的经验公式。
结合图3与图4,经过步骤3,得到发音者发音的四组时变共振峰。图3为经验公式测试流程图,图4为语音“A”拟合结果与麦克风获取的共振峰的对比图
结合图5,经过步骤4,将雷达回波获取的语音基频和视频获取的共振峰进行语音合成得到合成语音的波形图。
由上可知,利用本发明的方法,可以不接触发音者体,将语音雷达与图像信息相结合,实现语音合成。
Claims (4)
1.一种基于语音雷达与视频的语音合成方法,其特征在于,包括以下步骤:
步骤1、利用雷达回波信号获取语音的基频信息,具体为:非接触式语音雷达向发音者发送连续正弦波,接收天线接收回波信号,之后对接收到的回波信号进行预处理、基频与高次谐波模式分解、时频信号处理,从而获得时变声带振动的频率即语音信号的基频;
步骤2、将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合,获得嘴唇的时变运动特征和时变共振峰映射关系的经验公式;
步骤3、将待合成语音的发音者嘴唇视频信息为输入,利用步骤2中的得到嘴唇的时变运动特征和时变共振峰映射关系的经验公式进行计算,得到发音者语音的N组时变共振峰,其中N为不小于三的整数;
步骤4、由雷达回波获取的语音信号的基频和步骤3获得的N组时变共振峰进行语音合成,得到最终合成的语音信号。
2.根据权利要求1所述的基于语音雷达与视频的语音合成方法,其特征在于,步骤1中所述的雷达回波信号为雷达回波所采集的发音者的声带振动信号;发音者的发音为某个字符的音。
3.根据权利要求1所述基于语音雷达与视频的语音合成方法,其特征在于,步骤2中时变运动特征为发音者发某个字符的音时归一化嘴唇的宽和归一化嘴唇的高。
4.根据权利要求1所述的基于语音雷达与视频的语音合成方法,其特征在于,步骤2将发音者发音时嘴唇视频信息提取的时变运动特征和麦克风同步获取语音信号提取的时变共振峰进行拟合,具体步骤为:
步骤2-1、录取发音者发某个字符的音时的嘴唇视频信息,提取嘴唇轮廓从而获得嘴唇的时变运动特征;
步骤2-2、由麦克风同步录取发音者发某个字符的音时的语音信号,提取N组时变共振峰;
步骤2-3、利用多元线性回归法进行公式拟合,具体为,设输入为:归一化嘴唇的宽X1,归一化嘴唇的高X2,X1一阶导数X3,X2一阶导数X4,输出为时变共振峰F,β=(β1,β2,β3,β4,β5)为拟合公式的回归系数,则第n组时变共振峰Fn拟合公式为:
Fn=βn1+βn2×X1+βn3×X2+βn4×X3+βn5×X4 (1)
其中βn=(βn1,βn2,βn3,βn4,βn5)为第n组时变共振峰对应第n组回归系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711100477.7A CN109767750B (zh) | 2017-11-09 | 2017-11-09 | 一种基于语音雷达与视频的语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711100477.7A CN109767750B (zh) | 2017-11-09 | 2017-11-09 | 一种基于语音雷达与视频的语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767750A true CN109767750A (zh) | 2019-05-17 |
CN109767750B CN109767750B (zh) | 2021-02-12 |
Family
ID=66448994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711100477.7A Active CN109767750B (zh) | 2017-11-09 | 2017-11-09 | 一种基于语音雷达与视频的语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767750B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112254802A (zh) * | 2020-10-13 | 2021-01-22 | 中国人民解放军国防科技大学 | 基于毫米波雷达相位测距的语音重构方法 |
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
CN114581812A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201741384U (zh) * | 2010-07-30 | 2011-02-09 | 四川微迪数字技术有限公司 | 一种可将汉语语音转换成口型图像的口吃矫正装置 |
CN105679331A (zh) * | 2015-12-30 | 2016-06-15 | 广东工业大学 | 一种声气信号分离与合成的方法及系统 |
-
2017
- 2017-11-09 CN CN201711100477.7A patent/CN109767750B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201741384U (zh) * | 2010-07-30 | 2011-02-09 | 四川微迪数字技术有限公司 | 一种可将汉语语音转换成口型图像的口吃矫正装置 |
CN105679331A (zh) * | 2015-12-30 | 2016-06-15 | 广东工业大学 | 一种声气信号分离与合成的方法及系统 |
Non-Patent Citations (2)
Title |
---|
HONG HONG,HENG ZHAO,ZHENGYU PENG,HUI LI,CHEN GU,CHANGZHI LI: "Time-Varying Vocal Folds Vibration Detection Using a 24 GHz Portable", 《SENSORS》 * |
KEVIN EL HADDAD,ST´EPHANE DUPONT, NICOLAS D’ALESSANDRO: "An HMM-based Speech-smile Synthesis System: An Approach for", 《2015 11TH IEEE INTERNATIONAL CONFERENCE AND WORKSHOPS ON AUTOMATIC FACE AND GESTURE RECOGNITION》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
US11842722B2 (en) | 2020-07-21 | 2023-12-12 | Ai Speech Co., Ltd. | Speech synthesis method and system |
CN112254802A (zh) * | 2020-10-13 | 2021-01-22 | 中国人民解放军国防科技大学 | 基于毫米波雷达相位测距的语音重构方法 |
CN112254802B (zh) * | 2020-10-13 | 2022-05-17 | 中国人民解放军国防科技大学 | 基于毫米波雷达相位测距的语音重构方法 |
CN114581812A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109767750B (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10056073B2 (en) | Method and apparatus to synthesize voice based on facial structures | |
CN103021406B (zh) | 基于压缩感知的鲁棒性语音情感识别方法 | |
Bach et al. | Blind one-microphone speech separation: A spectral learning approach | |
CN105919591A (zh) | 一种基于表面肌电信号的手语识别发声系统及方法 | |
Birkholz et al. | Non-invasive silent phoneme recognition using microwave signals | |
Patil et al. | The physiological microphone (PMIC): A competitive alternative for speaker assessment in stress detection and speaker verification | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
CN109767750A (zh) | 一种基于语音雷达与视频的语音合成方法 | |
CN104887263B (zh) | 一种基于心音多维特征提取的身份识别算法及其系统 | |
CN102999154B (zh) | 一种基于肌电信号的辅助发声方法及装置 | |
US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
CN111973178B (zh) | 一种脑电信号识别系统及方法 | |
CN1737906A (zh) | 利用中枢网络分离语音信号 | |
CN110415728A (zh) | 一种识别情感语音的方法和装置 | |
Murugappan et al. | DWT and MFCC based human emotional speech classification using LDA | |
CN113436606B (zh) | 一种原声语音翻译方法 | |
CN110349565B (zh) | 一种面向听障人士的辅助发音学习方法及其系统 | |
CN114203165A (zh) | 一种老年人不完整语音快速识别方法及系统 | |
CN117542373A (zh) | 一种非空气传导语音的恢复系统及方法 | |
JP2007018006A (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN105931651B (zh) | 助听设备中的语音信号处理方法、装置及助听设备 | |
Cao et al. | Investigating Speech Reconstruction for Laryngectomees for Silent Speech Interfaces. | |
Schultz | ICCHP keynote: Recognizing silent and weak speech based on electromyography | |
Freitas et al. | Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results | |
CN115588434A (zh) | 一种由舌部超声图像直接合成语音的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |