CN112750426B - 移动终端语音分析系统 - Google Patents

移动终端语音分析系统 Download PDF

Info

Publication number
CN112750426B
CN112750426B CN202110133543.0A CN202110133543A CN112750426B CN 112750426 B CN112750426 B CN 112750426B CN 202110133543 A CN202110133543 A CN 202110133543A CN 112750426 B CN112750426 B CN 112750426B
Authority
CN
China
Prior art keywords
voice
neural network
voice signal
spectrogram
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110133543.0A
Other languages
English (en)
Other versions
CN112750426A (zh
Inventor
郭昆
陈文举
吉鹏云
陈羽中
张鹏
李钒效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110133543.0A priority Critical patent/CN112750426B/zh
Publication of CN112750426A publication Critical patent/CN112750426A/zh
Application granted granted Critical
Publication of CN112750426B publication Critical patent/CN112750426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种移动终端语音分析系统。包括:数据预处理模块,对输入的语音信号进行预处理,转换成RGB图像;语音识别模块,对RGB图像大小进行调整,输入神经网络进行训练,得到神经网络模型;待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型,输出预测结果;语音重构模块,实现从加速度信号重构出语音信号的功能;对于输入的加速度信号频谱图,重构模块内部基于自动编码器设计的神经网络会先对其进行处理,经过训练的神经网络模型,输出加速度信号对应的语音信号的频谱图,再使用Griffin‑Lim算法从语音信号频谱图还原出语音信号,达到从加速度信号重构出语音信号的目标。本发明能够实现完整的从加速度信号重构出语音信号的功能。

Description

移动终端语音分析系统
技术领域
本发明涉及一种移动终端语音分析系统。
背景技术
基于运动传感器的语音识别吸引了许多安全领域研究人员的关注。Hwang等率先提出利用加速度计来进行智能设备之间无线通信的思想,在固定表面上放置两部智能终端,发送端发送消息时产生的振动通过固体表面传播,接收端分析自身的加速度计数据以解码传入的信息。虽然通信能够进行,但持续时间太短且需要为不同场景设置对应的加速计阈值。Michalevsky等利用智能手机中的陀螺仪拾取放置在同一张桌子上的独立扬声器引起表面的震动,通过分析捕获的震动识别扬声器发出的声音。由于陀螺仪对表面震动的灵敏度较低,并且采样率有限,因此识别成功率很低,区分单个数字发音的准确性仅为26%。Zhang等为了解决语音控制中的能量效率问题,设计了可在智能手机上运行的AccelWord,利用加速度计作为“麦克风”来检测用户所说的热门词汇,在移动场景下可以得到比陀螺仪更高的准确率,但仅限于交谈和行走两种模式下的热门词汇的识别,无法做到原始语音的还原。Anand等研究了通过固体表面或空气检测语音信号的问题,指出当扬声器达到足够的功率且沿固体传播语音时,引起的传感器震动最强烈,最有利于语音识别。Anand等进一步提出利用加速计采集由手机内置听筒发出的语音造成的振荡来进行语音识别与语音重构,不但具有更强的隐蔽性,准确率也更高,但其识别方法只能判断出说话者的性别及身份,而其重构方法只能判断出是否包含关键词,还不能还原出原始语音。Ba等提出基于智能手机的加速计实现手机语音监听的方法,指出现有手机加速计的采样频率已经能够采集到成人语音的完整频率,在此基础上采用基于深度神经网络的算法能够较好识别出语音中的数字和字母,并一定程度上还原出原始语音。但其top 1的识别和还原准确率还不高,且只能还原简单的单个字符的语音。以上研究提出了很多利用移动终端的传感器进行语音分析的方法,但由于语音震荡引起传感器数据的变化存在许多噪声,并且在正常语速下对数据进行正确的分割十分困难,目前存在的方法只能识别数字和单个字母,难以完成中文句子甚至关键字词的识别和重构任务。
发明内容
本发明的目的在于提供一种移动终端语音分析系统,能够实现完整的从加速度信号重构出语音信号的功能。
为实现上述目的,本发明的技术方案是:一种移动终端语音分析系统,包括:
数据预处理模块,对输入的语音信号进行预处理,转换成RGB图像;
语音识别模块,对预处理得到的RGB图像大小进行调整,然后输入神经网络进行训练,得到神经网络模型;待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型,输出预测结果;
语音重构模块,实现从加速度信号重构出语音信号的功能;对于输入的加速度信号频谱图,重构模块内部基于自动编码器设计的神经网络会先对其进行处理,经过训练的神经网络模型,输出加速度信号对应的语音信号的频谱图,再使用Griffin-Lim算法从语音信号频谱图还原出语音信号,达到从加速度信号重构出语音信号的目标。
在本发明一实施例中,所述语音信号是通过手机加速度计获取。
在本发明一实施例中,所述数据预处理模块的功能具体实现如下:
步骤S1、利用插值法处理加速度计测量数据的不稳定区间;
步骤S2、使用带通滤波消除重力、硬件和人类活动造成的失真;
步骤S3、将加速度计数据分割为短信号,每段对应一个单词;
步骤S4、将信号转换为频谱图;
步骤S5、将频谱图转换为RGB图像。
在本发明一实施例中,所述语音识别模块使用DenseNet作为基础网络模型,在进行句子是否含有敏感词的预测时,预处理部分通过滑动窗口的方式对数据进行切割,以保证能够更准确的找出敏感词。
在本发明一实施例中,所述语音重构模块包括两个部分,第一个部分是基于自动编码器设计的神经网络,第二是Griffin-Lim算法;神经网络的输入是加速度信号频谱图,输出是语音信号频谱图;经过训练的神经网络模型,对于输入的加速度信号频谱图可直接输出对应的语音信号频谱图;神经网络属于自动编码器架构,编码使用图卷积,解码使用图反卷积,另外,还在神经网络中加入残差映射,这样可以有更深层的神经网络结构,从而使重构出的语音信号频谱图有更高的质量;得到语音信号频谱图之后,再使用Griffin-Lim算法来还原出对应的语音信号,实现完整的从加速度信号重构出语音信号的功能。
相较于现有技术,本发明具有以下有益效果:本发明使用DenseNet模型作为加速度计语音识别模块的基础网络模型,使用自动编码器结合Griffin-Lim算法实现了加速度计语音重构功能,在对于单个数字、汉字以及中文词语的识别和重构上有较高的准确率。对于句子中是否含有敏感词的识别任务,预处理部分使用滑动窗口的方式对句子数据进行分割,能够较为准确地识别出句子中的敏感词。
附图说明
图1为本发明中预处理模块流程图。
图2(a)为本发明神经网络训练流程图;图2(b)为本发明语音识别流程图。
图3为本发明语音重构流程图。
图4为本发明移动终端语音分析系统的软件架构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种移动终端语音分析系统,包括:
数据预处理模块,对输入的语音信号进行预处理,转换成RGB图像;
语音识别模块,对预处理得到的RGB图像大小进行调整,然后输入神经网络进行训练,得到神经网络模型;待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型,输出预测结果;
语音重构模块,实现从加速度信号重构出语音信号的功能;对于输入的加速度信号频谱图,重构模块内部基于自动编码器设计的神经网络会先对其进行处理,经过训练的神经网络模型,输出加速度信号对应的语音信号的频谱图,再使用Griffin-Lim算法从语音信号频谱图还原出语音信号,达到从加速度信号重构出语音信号的目标。
以下为本发明的具体实现过程。
本发明一种移动终端语音分析系统。该系统采用DenseNet模型作为语音识别模块的基础网络,结合基于滑动窗口的方法对句子数据进行切割以实现敏感词识别。语音重构模块采用基于自动编码器的框架对频谱图进行重构,结合Griffin-Lim算法还原出对应的语音信号。如图4所示,该系统包括以下3个模块:
(1)数据预处理模块:将语音信号输入后进行预处理,转换成RGB图像。预处理模块主要由插值、带通滤波、切割、信号转换频谱图、频谱图转RGB图等五个预处理功能组成:利用插值法处理加速计测量数据的不稳定区间;使用带通滤波消除重力、硬件和人类活动造成的失真;将加速计信号分割为短信号,每段对应一个单词;将信号转换为频谱图;将频谱图转换为RGB图像。
(2)语音识别模块:识别模块包括模型训练和语音识别,对预处理得到的RGB图像大小进行调整,然后输入神经网络进行训练,得到网络模型。待识别的加速度计数据经过预处理和图像大小调整后输入模型,输出预测结果。
(3)语音重构模块:语音重构模块的输入是加速度信号频谱图,通过基于自动编码器设计的神经网络,可以先重构出对应的语音信号频谱图。对于神经网络输出的语音信号频谱图,再使用Griffin-Lim算法来还原出语音信号,以此实现从加速度信号重构出语音信号的功能。
进一步的,预处理模块具体流程如图1所示:
从图中可以看出识别算法的流程:
(1)插值固定采样率;使用线性插值来处理加速度计测量的不稳定区间。使用时间戳来定位所有没有加速度计测量的时间点,并使用线性插值来填充缺失的数据。产生的信号的固定采样率为1000hz。这个插值(上采样)过程并没有增加加速度信号的语音信息。其主要目的是产生具有固定采样率的加速度信号。
(2)使用带通滤波减小噪声;使用一个带通滤波器来消除由重力、硬件失真(偏移误差)和人类活动造成的严重失真。特别地,首先使用短时傅里叶变换(STFT)将沿每个轴的加速度信号转换成频域。它将长信号分成等长段(有重叠),并分别计算每个段的傅里叶变换。然后,将截止频率以外的所有频率分量的系数设置为零,并使用反STFT将信号转换回时域。
(3)分割加速计信号;a.选择优势轴:由于三个轴上的加速度信号是完全同步的,利用信号较强的优势轴(z轴)来定位切割点,然后利用得到的切割点对三轴上滤波后的加速度信号进行分割。b. 切割点的位置确定:给定主轴上的加速度信号,我们首先对信号进行另一轮带通滤波,截止频率为160hz。然后计算消噪信号的幅值(绝对值),用两轮移动平均对得到的幅值序列进行平滑处理。第一轮和第二轮的滑动窗口分别为200和30。然后,求出平滑幅度序列的最大值Mmax和最小值Mmin。在这个过程中,第一个和最后一个100个级值被丢弃,因为它们没有足够的相邻样本进行平均。得到的最小值近似于噪声信号的大小。c.遍历平滑星等序列,找出所有大于0.8Mmin + 0.2Mmax阈值的星等区域。每个定位区域表示一个语音信号的存在。为了保证分割后的信号能够覆盖整个语音信号,每个定位区域的起点和终点分别向前和向后移动100和200个样本。最后利用得到的切点将滤波后的加速度信号分割成多个短信号,每个短信号对应一个单词。
(4)将短信号转换为二维频谱图;为了生成单字信号的频谱图,首先需要将信号分割成多个具有固定重叠的短段。对于语音识别任务,段的长度和重叠部分分别设置为256和252,使得最后生成的RGB图像水平分辨率为210左右,垂直分辨率为129。对于语音重构任务,段的长度和重叠部分分别设置为256和248,使得最后生成的RGB图像水平分辨率为105左右,垂直分辨率为129。参数如此设定是为了在后续任务中将RGB图像输入神经网络模型前需要先进行统一大小调整,此参数能够使调整大小后信息损失较少。然后我们用一个Hamming window对每个片段进行窗口化,并通过STFT计算其频谱,STFT为每个片段生成一系列的复杂系数。沿着每个轴的信号现在被转换成STFT矩阵,记录信号的每个时间和频率的幅度和相位。最后,计算出二维谱图:
其中,x(n)和|STFT {x(n)}(m, w)|分别表示单轴加速度信号及其对应的STFT矩阵的大小。因为我们有沿三个轴的加速度信号,每个单字信号可以得到三个频谱图。
(5)将二维频谱图转换为RGB图像。为了直接将频谱图输入神经网络,进一步将一个信号的三个二维频谱图转换成一个PNG格式的RGB图像。为了做到这一点,首先把三个m×n频谱图放入一个m×n×3 的张量中。然后取张量中所有元素的平方根,把得到的值映射到0到255之间的整数。最后,将m×n×3 张量导出为PNG格式的图像。在获得的RGB图像中,红色、绿色和蓝色的通道分别对应于加速度计信号的x轴、y轴和z轴。为了减少噪声的影响并尽量保留信息,对于识别任务,我们截取80hz-300hz的频率范围,对于重构任务,则截取20hz-500hz的频率范围。
进一步的,语音识别模块根据识别任务的不同需要训练不同的模型,模块整体流程如图2(a)和图2(b)所示。如果要识别中文词语,则需先使用词语数据训练集将模型训练好,然后再使用模型来预测待识别的数据。神经网络模型使用DenseNet模型作为基础模型,该模型的每一层都能够接收和重用来自前一层的特性,参数较少,更容易训练。针对句子数据中是否出现敏感词的识别任务,采用滑动窗口的方式对句子数据集进行切割。
进一步的,语音重构模块包括两个部分,第一个部分是基于自动编码器设计的神经网络,第二是Griffin-Lim算法部分,具体流程如图3所示。神经网络的输入是加速度信号频谱图,输出是语音信号频谱图。经过训练的模型,对于输入的加速度频谱图可以直接输出对应的语音信号频谱图。重构神经网络属于自动编码器架构,编码使用了图卷积,解码使用了图反卷积。另外,还在网络中加入了残差映射,这样可以有更深层的网络结构,从而使重构出的语音信号频谱图有更高的质量。得到语音信号频谱图之后,再使用Griffin-Lim算法来还原出对应的语音信号,实现完整的从加速度信号重构出语音信号的功能。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种移动终端语音分析系统,其特征在于,包括:
数据预处理模块,对输入的语音信号进行预处理,转换成RGB图像;
语音识别模块,对预处理得到的RGB图像大小进行调整,然后输入神经网络进行训练,得到神经网络模型;待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型,输出预测结果;
语音重构模块,实现从加速度信号重构出语音信号的功能;对于输入的加速度信号频谱图,重构模块内部基于自动编码器设计的神经网络会先对其进行处理,经过训练的神经网络模型,输出加速度信号对应的语音信号的频谱图,再使用Griffin-Lim算法从语音信号频谱图还原出语音信号,达到从加速度信号重构出语音信号的目标;
所述数据预处理模块的功能具体实现如下:
步骤S1、利用插值法处理加速度计测量数据的不稳定区间;
步骤S2、使用带通滤波消除重力、硬件和人类活动造成的失真;
步骤S3、将加速度计数据分割为短信号,每段对应一个单词;
步骤S4、将信号转换为频谱图;
步骤S5、将频谱图转换为RGB图像;
所述语音识别模块使用DenseNet作为基础网络模型,在进行句子是否含有敏感词的预测时,预处理部分通过滑动窗口的方式对数据进行切割,以保证能够更准确的找出敏感词;
所述语音重构模块包括两个部分,第一个部分是基于自动编码器设计的神经网络,第二是Griffin-Lim算法;神经网络的输入是加速度信号频谱图,输出是语音信号频谱图;经过训练的神经网络模型,对于输入的加速度信号频谱图可直接输出对应的语音信号频谱图;神经网络属于自动编码器架构,编码使用图卷积,解码使用图反卷积,另外,还在神经网络中加入残差映射,这样可以有更深层的神经网络结构,从而使重构出的语音信号频谱图有更高的质量;得到语音信号频谱图之后,再使用Griffin-Lim算法来还原出对应的语音信号,实现完整的从加速度信号重构出语音信号的功能。
2.根据权利要求1所述的移动终端语音分析系统,其特征在于,所述语音信号是通过手机加速度计获取。
CN202110133543.0A 2021-02-01 2021-02-01 移动终端语音分析系统 Active CN112750426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110133543.0A CN112750426B (zh) 2021-02-01 2021-02-01 移动终端语音分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110133543.0A CN112750426B (zh) 2021-02-01 2021-02-01 移动终端语音分析系统

Publications (2)

Publication Number Publication Date
CN112750426A CN112750426A (zh) 2021-05-04
CN112750426B true CN112750426B (zh) 2023-10-20

Family

ID=75653459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110133543.0A Active CN112750426B (zh) 2021-02-01 2021-02-01 移动终端语音分析系统

Country Status (1)

Country Link
CN (1) CN112750426B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591561A (zh) * 2021-06-18 2021-11-02 新绎健康科技有限公司 一种基于声谱图进行身份识别的方法及系统
CN114598767B (zh) * 2022-01-11 2023-04-07 浙江大学 基于惯性测量单元的跨设备手机语音信息恢复方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN108710910A (zh) * 2018-05-18 2018-10-26 中国科学院光电研究院 一种基于卷积神经网络的目标识别方法及系统
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
KR20200111609A (ko) * 2019-12-16 2020-09-29 휴멜로 주식회사 음성 합성 장치 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN108710910A (zh) * 2018-05-18 2018-10-26 中国科学院光电研究院 一种基于卷积神经网络的目标识别方法及系统
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
KR20200111609A (ko) * 2019-12-16 2020-09-29 휴멜로 주식회사 음성 합성 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《谱跟踪和噪声模型语音信号分析/合成方法》;李天伟;《通信技术》;第48卷(第1期);803-807 *

Also Published As

Publication number Publication date
CN112750426A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
US9595259B2 (en) Sound source-separating device and sound source-separating method
CN112750426B (zh) 移动终端语音分析系统
CN107071647B (zh) 一种声音采集方法、系统和装置
CN103229238B (zh) 用于产生音频信号的系统和方法
CN103229517B (zh) 包括多个音频传感器的设备及其操作方法
CN103457903B (zh) 一种数字式水下语音通信装置及水下语音通信方法
JP4177755B2 (ja) 発話特徴抽出システム
CN105448303A (zh) 语音信号的处理方法和装置
CN103871419B (zh) 一种信息处理方法及电子设备
KR20090076683A (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
US20140288938A1 (en) Systems and methods for enhancing place-of-articulation features in frequency-lowered speech
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
CN111107284B (zh) 一种视频字幕实时生成系统及生成方法
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
US20220180886A1 (en) Methods for clear call under noisy conditions
CN107592600B (zh) 一种基于分布式麦克风的拾音筛选方法及拾音装置
US9295423B2 (en) System and method for audio kymographic diagnostics
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
CN116386589A (zh) 一种基于智能手机加速度传感器的深度学习语音重建方法
CN111108553A (zh) 一种声音采集对象声纹检测方法、装置和设备
CN116320878A (zh) 一种基于骨声纹传感器的耳机降噪方法及系统
CN109712639A (zh) 一种基于小波阈值滤波的音频采集系统及方法
CN113707160A (zh) 一种回声延迟确定方法、装置、设备及存储介质
KR101610708B1 (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant