CN106233379A - 声音合成设备和用于合成声音的方法 - Google Patents
声音合成设备和用于合成声音的方法 Download PDFInfo
- Publication number
- CN106233379A CN106233379A CN201480078437.5A CN201480078437A CN106233379A CN 106233379 A CN106233379 A CN 106233379A CN 201480078437 A CN201480078437 A CN 201480078437A CN 106233379 A CN106233379 A CN 106233379A
- Authority
- CN
- China
- Prior art keywords
- signal
- user
- emg
- voice
- emg signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims description 46
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 230000000694 effects Effects 0.000 claims abstract description 16
- 230000004044 response Effects 0.000 claims abstract description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 21
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 210000003205 muscle Anatomy 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000000611 regression analysis Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000011293 voice disease Diseases 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 208000035269 cancer or benign tumor Diseases 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000004070 electrodeposition Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004717 laryngeal muscle Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
提供了一种声音合成设备。该声音合成设备包括:电极阵列,配置为响应于用户的无声语音,从用户的皮肤检测肌电图(EMG)信号;语音活动检测模块,配置为检测用户的无声语音时段;特征提取器,配置为提取指示无声语音时段的EMG信号的特征的信号描述符;和声音合成器,配置为通过使用所提取的信号描述符合成语音。
Description
技术领域
本一般发明概念总的来说涉及提供声音合成技术,以及更加具体地,涉及提供用于从用户的皮肤检测肌电图(EMG)信号以通过使用检测到的EMG信号合成声音的声音合成设备和方法。
背景技术
需要用户静静地说或者低语以在特定的状况下揭示秘密信息。替代地,用户可以避免干扰的环境。基于生物信号的通信可能对由于疾病等而失去说话能力的人是有用的。
根据关于肌电图学的最近研究,分析通过发声肌肉的收缩而生成的电活动以有效地应对上述问题。但是,现有的技术具有一些限制。
根据现有的技术,使用少数电极而且手动地直接将其附于用户的皮肤上。
此外,在现有的系统中使用一组单个电极或者各个电极。这在获取信号时导致许多问题。这也使得电极难以在使用时间之间重排和增加全部处理时间。
在声音合成之前,收集的EMG信号被按比例增大和适当地分段以分类为文本。这相对地增加了词汇大小且因此导致许多计算。为了解决该问题,需要自动地选择有关的信号特征以优化扬声器并将有关的信号特征改变为可直接听到的语音的系统。
发明内容
技术问题
示例性实施例至少解决上述问题和/或缺点及上面未描述的其他缺点。此外,示例性实施例不需要克服上面描述的缺点,且示例性实施例可以不克服上面描述的任何问题。
技术方案
示例性实施例提供了用于提供紧凑电极矩阵的声音合成设备,该紧凑电极矩阵具有向从其感测到肌电图(EMG)活动的皮肤提供宽的覆盖区域的预设的固定内部电极距离。
该示例性实施例还提供用于在没有发声的会话信息的情况下基于面部肌肉的EMG活动的分析自动地检测会话时段的声音合成设备。
该示例性实施例还提供用于提供自动地选择收集最区分信息的多通道EMG信号的特征的方法的声音合成设备。这包括用于改进系统的区分能力的电极特征信号之间的相关性,且与电极排列的实际位置无关。
该示例性实施例还提供用于将从输入EMG信号提取的所选的特征改变为由直接可合成和可听到的语言构成的参数集的频谱映射。
根据示例性实施例的一方面,提供了一种声音合成设备,包括:n电极阵列,配置为响应于用户的无声语音,从用户的皮肤检测肌电图(EMG)信号;语音活动检测模块,配置为检测用户的无声语音时段;特征提取器,配置为提取指示无声语音时段的EMG信号的特征的信号描述符;和声音合成器,配置为通过使用所提取的信号描述符合成语音。
电极阵列可以包括包含具有预设间隔的多个电极的电极阵列。
语音活动检测模块可以基于从用户的皮肤检测到的EMG信号的最大和最小值来检测用户的无声语音时段。
特征提取器可以提取指示无声语音时段的每个预设帧中EMG信号的特征的信号描述符。
声音合成设备可以进一步包括配置为补偿从用户的皮肤检测到的EMG信号的校准器。
该校准器可以基于预先存储的基准EMG信号补偿检测到的EMG信号。声音合成器可以基于预先存储的基准音频信号合成语音。
根据示例性实施例的另一方面,提供了一种声音合成方法,包括:响应于用户的无声语音,从用户的皮肤检测EMG信号;检测用户的无声语音时段;提取指示无声语音时段的EMG信号的特征的信号描述符;和通过使用所提取的信号描述符合成语音。
EMG信号可以通过使用电极阵列从用户的皮肤检测到,该电极阵列包括包含具有预设间隔的多个电极的电极阵列。
可以通过使用从用户的皮肤检测到的EMG信号的最大和最小值检测该无声语音时段。
指示EMG信号的特征的信号描述符可以在无声语音时段的预设的每个帧中提取。
该声音合成方法可以进一步包括:补偿从用户的皮肤检测到的EMG信号。
技术效果
可以基于预先存储的基准EMG信号补偿检测到的EMG信号,且可以基于预先存储的基准音频信号合成语音。
附图说明
上述和/或其他方面将通过参考附图描述某些示例性实施例而更明显,在附图中:
图1是图示电极附于其上以测量肌电图(EMG)的面部的图;
图2是根据本一般发明概念的示例性实施例的声音合成设备的框图;
图3是根据本一般发明概念的另一示例性实施例的声音合成设备的框图;
图4是图示根据本一般发明概念的示例性实施例的分别从个帧提取信号特征的处理的图;
图5是图示根据本一般发明概念的示例性实施例的将各单个帧向量映射在各可听到的参数上的处理的图;
图6是图示根据本一般发明概念的示例性实施例的校准处理的框图;和
图7是根据本一般发明概念的示例性实施例的声音合成方法的流程图。
具体实施方式
参考附图更详细地描述示例性实施例。
在下面描述中,相同的附图标记甚至在不同附图中用于相同的要素。提供描述中定义的问题,比如详细结构和要素以帮助示例性实施例的全面的理解。由此,明显的是能够执行示例性实施例而没有那些特别地定义的主题。此外,不详细描述公知的功能或者结构,因为它们将以不必要的细节模糊本示例性实施例。
图1是图示电极附于其上以测量肌电图(EMG)的面部的图;
存在基于EMG在没有发声的情况下处理和识别声音的许多技术,比如通用的生物信号分析。
本一般发明概念提供无发声类型声音识别技术,其识别当执行生成文本的出声时面部肌肉的收缩活动的EMG结果以执行声音识别。替代地,声音的文本表示可以稍微更多地处理以生成可听到的声音。当前现有的设备使用至少一个或多个电极,可以实现为单极类型或者双极类型,并通过电极收集EMG信号。
通常使用的电极不以固定状态布置而是在用户的皮肤上单独地布置和使用,如图1所示。因此,通常使用的电极之间的距离当执行出声时可以改变。特定的凝胶和显露(peeking)霜用于最小化噪声。一些声音识别系统,比如音频和图像和/或视频之类的附加格式用于提供用于检测语音时段和改进声音识别系统的精度的可见信息。
可以作为背景任务提供用于分析微分的生物信号的各种类型的算法。这些算法包括比如高斯混合模型、神经网络等方法。主要从输入信号的每个电极特征通道的局部区域独立地提取时域或者频谱特征。建立某个形式的描述符作为到模型训练模块的输入。学习的模型可以映射在最类似于新生物信号的特征表达的文本表达上。
用于由一个或多个词形成的最终出声的语音时段的检测是基于能量的信号表达。在词停止之间有关的语音的时间相关性的假定首先由Johnson和Lamel提出。这方法论是可听到的语音信号的设计。但是,本质上,生物信号的相似性可以应用于语音处理的生物信号表达。该方法和修改的版本通常用于语音终点检测。
现有的基于生物信号的声音处理方法的重要限制在于实现现有的基于生物信号的声音处理方法为具有生物信号到文本模块(其将生物信号转换为文本)和文本到语音模块(其将文本转换为语音)。这些方法可能不增加规模。这是由于当执行连续声音处理时用于识别单个词的时间与词汇大小一起增加,且因此超过实际的连续语言处理接受极限。
除了现有的保留途径方法,对会话和/或用户适配问题没有最权威的解决方案。电极之间的距离在现有的电极设置中是多样的。因此,非常难以再现几个用户之间的识别设置的特征和性能,且需要复杂的技术。此外,现有的系统需要在使用之前的会话适配,但是这导致用户的压力和不便。最终,现有的技术取决于需要时间的到面部上的电极的处理,且该处理严重地降低可用性且完全使得用户体验差。
当前的现有途径方法的一般缺点是获取在用户的身体的不同点同时收集的信号之间的相关性。如果不同点空间上彼此接近,则不同点可能在功能上彼此有关,或者肌肉组织可能彼此重叠,即,所获取的信号之间可能有强相关性。但是,仅到某个程度可能在基于EMG的声音识别中处置相关性。就声音识别和/或合成精度而言留下用于开发的空间。
根据现有的途径方法,与EMG信号并行地记录声学和/或语音信号。例如,信号彼此同步。在该情况下,音频信号通常用于检测,且EMG信号被分段以区分语音时段。当基于所提取的感兴趣时段建立从分类和/或回归分析提取的模型时,在训练处理中需要该处理。需要可听到的语音,且因此该方法可能不能应用于具有声音障碍的人,比如经历喉切除术的人。
图2是根据本一般发明概念的示例性实施例的声音合成设备100-1的框图。
参考图2,声音合成设备100-1包括电极阵列110、语音活动检测模块120、特征提取器130和声音合成器140。
如果存在用户的无发声,则电极阵列110是从用户的皮肤检测肌电图(EMG)信号的元件。详细地,包括一个或多个电极的电极阵列用于从用户的皮肤收集EMG信号。规则地排列电极以形成阵列和固定。例如,电极之间的距离可能是均匀或者可能是几乎均匀的。这里,阵列指的是2维(2D)阵列但是可以是1维阵列。
语音活动检测模块120是检测用户的无声出声时段的元件。语音活动检测模块120执行收集的EMG信号的多通道分析,以检测人无声或者发出可听到的语音的时段。
特征提取器130是提取指示对于无声出声时段收集的EMG信号的特征的信号描述符的元件。特征提取器130从对于出声时段分类的各条EMG信号计算最有用的特征。该特征包括一个或多个特征,每个特征指示输入信号的独立通道或者通道的任意组合。
声音合成器140通过使用所提取的信号描述符合成声音。
图3图示扩展的示例性实施例。换句话说,图3是根据本一般发明概念的另一示例性实施例的声音合成设备100-2的框图。
参考图3,声音合成设备100-2包括电极阵列110、语音活动检测模块120、特征提取器130、声音合成器140、转换器150和校准器160。
转换器150将可以由特征集合指示的EMG信号映射到特性化可听到的语音的特定参数集合上。该映射基于预设的统计模型执行。
声音合成器140将具有所获取的频谱的参数发送到系统外部或者将参数转换为可听到的输出。
校准器160用于自动地选择后续两个种类。换句话说,校准器160从电极阵列自动地选择电极,并自动地选择获取在用户的皮肤上的电极阵列的当前位置中给定的EMG信号的最有用部分的信号的电极特征元件。校准器160还自动地确定由转换器150在系统运行时间需要的统计模型参数。
以两个模式,即,在线和离线模式执行系统操作。在线模式的所有处理操作如在图3的框图的信号流中那样执行。在线模式设计用于将标准、连续和不可听到的EMG信号实时转换为可听到的语音。离线模式设计用于基于通过使用校准器160立即记录和可听到的出声集的统计模型训练。用于实时映射无声到可听到的语音的的系统的转换器150中使用的统计模型可以预先用作校准的结果。
此外,在所有可用的描述符当中,可以对于当前会话确定充分地小的较低集。会话指的是电极阵列附于并维持在用户的皮肤的固定位置的会话。
当用户进行出声时,生成略微地收缩发声肌肉的离子电流,并由位于电极阵列中的表面电极感测到以被转换为电流。地电极提供对放大器的差分输入的公共参考电流。在后一情况下,从两个检测器提取信号以放大两个输入端之间的差分电压。产生的模拟信号被转换为数字表示。电极、放大器和模数转换器(ADC)包括类似于现有的解决方案中使用的方法的信号获取模块。输出的多通道数字信号被发送到语音活动检测模块120。
在语音活动检测模块120中,分析输入信号以确定用户交谈的会话的限制。基于以下三个参数执行分析。
第一参数是信号的能量。能量可以等于从多个单独的通道最大地、平均地或者独立地计算且然后求和的统计值。该能量也可以用另一类似的自然统计替换。
第二参数是参数的梯度(即,具有至少一个信号帧的局部时间间隔)。参数的梯度可以对于各个单独的通道计算。
第三参数是可以保持高于或者低于阈值的参数值的时间。
在感兴趣的统计的阈值之前,感兴趣的统计成为平滑信号的低通滤波的对象并减小语音活动检测模块120对振动和噪声的敏感性。阈值的概念是检测当输入信号的能量充分地增加以估计用户将开始语音时的时间。类似地,阈值的概念是检测当(能量高且然后)能量对于普通语音非常低时的时间。由信号的阈值和连续交点限制的持续时间从最低点和最高点确定语言活动的极限。引入持续时间阈值划定(thresholding)以偶然地从信号过滤短的峰值点。在其他情况下,可以作为语音时段检测持续时间阈值划定。可以对于特定的应用情景精密地调整阈值。
图4是图示根据本一般发明概念的示例性实施例的分别从帧提取的信号特征的图。
如果从输入信号检测到可能的语音时段的开始,则特征提取器130计算信号描述符。这如图4所示基于帧地执行。换句话说,信号被划分为彼此部分地重叠的恒定长度和时间的窗口(帧)。此时,可以检测到各种描述符。这包括比如平均、扩展、过零、频谱类型特征、Mel-cepstral系数、线性估计编码系数等的能量简单时域统计。近来的研究暗示从不同发声肌肉记录的EMG信号彼此连接。这些关联在功能上特性化肌肉之间的相关性且可能对于预测目的是重要的。因此,除了描述输入信号的单独通道的特征之外,可以计算彼此连接的几个通道(例如,不同时间延迟的内部通道关联)。如图4所示,每帧输出上述特征的至少一个向量。
图5是图示根据本一般发明概念的示例性实施例的将各单个帧向量映射在各可听到的参数上的处理的图。
转换器150可以将各单个帧特征向量映射在特性化可听到的语音的频谱参数向量上。频谱参数向量用于声音合成。
所提取的特征的向量成为降维的对象。例如,可以通过基本的要素分析实现降维。在该情况下,估计在此时可以使用适当的转换矩阵。低维向量用作预测函数的输入,该预测函数将低维向量映射在不同频带中特性化信号电平的可听到语言的一个或多个频谱参数向量上,且被统计地学习。该预测函数具有连续输入和输出空间。最终,参数声音编码器用于生成可听到的语言。结果,波形被放大并朝向所请求的输出设备。
图6是图示根据本一般发明概念的示例性实施例的校准处理的框图。
校准器160是系统的基本元件,通过其用户可以教导系统以从用户的身体检测到的生物信号来合成用户的声音或者另一人的声音。
在过去的无声语言处理的途径方法中,识别组件基于统计模型的分类,通过从大量训练数据的需要时间的处理学习统计模型。此外,难以统计地解决用户和时段依赖性的问题。一个例外是具有校准功能的可穿戴EMG。该策略是原始概念的扩展。提出的系统尝试学习基于由用户提供的训练数据将生物信号特征映射在可听到的语言的频谱参数上的功能。(这被称为语音转换模块)。自动在线几何移位补偿和信号特征选择算法包括在校准处理中,以实现合成的语言的最高清晰度以去除确定和重新调整当前电极阵列位置的必要性。(这被称为几何移位补偿模型)。图6中图示了校准模型怎样操作的概况。
校准处理需要可以用于训练语音转换模型的基准EMG信号特征的数据库(DB)。为了收集DB,用户接收在最佳环境条件中发生的一次性记录的问题,在最佳环境条件下在最舒服的时间不发生背景噪声,且在最佳环境条件时电极阵列准确地位于皮肤上且用户充分地缓解压力。多次提到可以覆盖所有特性发声肌肉激活模式的预设语音的重复。语音的次序可以以参考次序固定,且上述次序可以完全基于比如真菌学家(mycologist)或者机器学习背景工程师之类的语音临床医学家的专业建议而设计。
也需要以EMG记录合成的音频信号来建立模型,从而在系统的在线操作模式下合成可听到的语音。音频信号可以与基准EMG信号一起同时记录,或者如果用户不使用语音可以从别人获取。在后一情况下,人的声音或者韵律的特定属性可以反映在从系统的输出生成的合成语音上。与EMG对应的音频样本在简单情况下彼此匹配,因为语音的次序在基准序列中固定。合成n+1通道信号,其中,n表示阵列中电极的数目。信号被装在帧内(enframe)以提取用于如上所述的特征抽取模块130的特征的过完全(over-complete)集合。这里,过完全指的是集合包括除了具有重要的可区分差别的特定特征的期望之外的各种信号特征。
通过允许用户立刻说出预设语音的短序列来执行实际的校准。因为语音的次序固定,所以序列可以匹配DB中存储的最类似的基准信号,且可以根据基准信号调整。最终,用于特征抽取的所记录的信号和基准信号特征向量可以被处理为多个回归分析任务的输入(独立参数)和目标(附属参数)。回归分析是为了找到实际的无声语音特征和基准无声语音特征之间的最优映射。在转换为可听到的语音参数之前,该映射,即移位补偿模型,应用于当使用在线系统时获取的EMG特征向量。如果设置了移位补偿模型,则可以评估预测误差。可以由同一用户说出实际信号和基准信号,且因此可以原则上彼此高度类似。主要差别由皮肤表面上电极阵列的相对移动和旋转引起,这是时段依赖性的公知问题。大部分上述改变的几何特性可以建模为相对简单的函数类,比如线性的或者2维(2D)函数。但是,自主地做出特定的回归分析的实现的选择。
生成的即时输入数据和回归分析的有限的总量是非常快的,且因此自动特征选择另外集成到校准处理中。这通过调查特征的可用子集的数目执行,而无视维持的特征向量维度。相对于每一子集再评估移位补偿模型的精度。存储产生高精度的特征集合。特征集合在单独的特征级别而不是单独的通道级别操作。因此,根据该算法,分析多个通道,且多个通道可以分别会聚到由信号特征的不同子集表示的设置中。
结果,以取决于预记录的用户和立即学习的移位补偿模型的训练信号DB设置语音交谈模型。在以在自动特征选择处理中检测到其关系的信号特征覆盖的特征空间中设置发音转换模型。用于学习将无声语音转换为可听到的语音的函数的特定的统计框架的选择可以是任意的。例如,可以使用基于语音转换技术的高斯混合模型。类似地,公知的算法可以用于选择上述特征。例如,存在贪婪顺序浮动搜索或者前向或者后向技术,AdaBoost技术等。
全部校准处理意在不需要k二阶(second)或更多,从而增加用户使用该系统的愿望(可听到的参数k)。无论何时电极阵列重新附于皮肤上或者被有意和/或无意地替换,都可以重复校准处理。替代地,当请求时可以重复校准处理。例如,如果合成的可听到的语音的质量严重地变坏,则可以执行反馈。提出的解决方案是通过自然方法解决时段和用户依赖性的问题。
根据示例性实施例的系统可以包括插在比如便携式音乐播放器等的标准音频输入设备的输出中的元件。可用的应用不限于控制设备和EMG驱动的应用,且可以包括在向公众揭示敏感信息的所有状况或干扰环境下有用的蜂窝电话。无论实际应用如何,系统可以由健康的人和具有说话障碍(发音困难或者喉切除术)的人使用。
图7是根据本一般发明概念的示例性实施例的声音合成方法的流程图。
参考图7,在操作S710中,做出关于用户是否进行无声语音的确定。在操作S720中,从用户的皮肤检测EMG信号。在操作S730中,检测到用户的无声语音时段。在操作S740中,提取指示无声语音时段的EMG信号的特征的信号描述符。在操作S750中,通过使用所提取的信号描述符合成语音。
这里,在操作S720中,可以通过使用包括具有预设间隔的多个电极的电极阵列来检测EMG信号。
在操作S730中,可以基于从用户的皮肤检测到的EMG信号的最大和最小值检测用户的无声语音时段。
在操作S740中,可以提取指示无声语音时段的预设帧单元中EMG信号的特征的信号描述符。
该声音合成方法可以进一步包括:补偿从用户的皮肤检测到的EMG信号。
在补偿EMG信号的操作中,可以基于预先存储的基准EMG信号补偿检测到的EMG信号。在操作S750中,可以基于预先存储的基准音频信号合成语音。
根据如上所述本一般发明概念的各种示例性的实施例,本一般发明概念具有以下特性。
EMG传感器可以进一步容易地和快速地附于皮肤上。这是由于用户选择可穿戴电极阵列或者电极阵列完全地临时附于皮肤上。相反地,大部分其他系统取决于附加配件,比如面具等,这对用户是不方便的或者需要小心地将电极附于皮肤上。这频繁地需要完成的时间和技巧。
基于立即提供的无声语音序列和具有固定的电极间距离的电极矩阵执行的校准算法用于解决用户和时段依赖性。这使上述算法能够充分地有效操作。
任何在前的知识可能不假定皮肤上的电极位置,且信号特征发送最有区别的信息。从所有EMG通道生成过完全的特征集合。因此,在校准处理中,自动地找到最有用的特征(间接的通道)。另外,信号表达包括在通道之间获取依赖性的特征。
可能不需要或者可以通过全部处理路径预先记录(在在线和离线运算模式中)语音的音频表达。这可以是适于具有几种语音障碍的人的发明。
提供的电极阵列可以固定在容易地设置在有限表面上的柔性表面上,以与比如面部形状、蜂窝电话等的各种类型的便携式设备容易地组合。
提供的解决方案的目的是应对仅以用户的发声肌肉的电活动重构可听到的声音的问题,其中,输入语音可以任意地不发声。不同于现有的任务,从输入的数字化生物信号直接估计可听到的语音的连续参数且因此不同于典型的语音识别系统。因此,完全地省略检测语音片段和将语音片段分类为句子的一般操作。本一般发明概念的思想是在三点的最新解决方案。
具有至少两个电极的电极阵列用于获取信号。电极阵列在语音时段临时地附于皮肤上。电极阵列通过总线、线缆或者无线电连接到无声麦克风系统。电极可以设置为单极或者双极的。如果电极阵列位于弹性表面上,则电极之间的距离可以固定或者可以略微地改变。电极阵列具有平坦和紧凑的大小(例如,不超过10×10cm),且容易与许多便携式装置组合。例如,电极阵列可以安装在智能电话的后盖上。
一组单个电极或者各单独的电极用于现有的系统。这导致获取信号的许多问题。这导致在使用时段之间重新排列电极的困难和增加全部处理时间。这对于设备中嵌入的分离的电极是不恰当的。此外,如果电极的导电性要被改进为足以补偿适当的信号配准(registration),则电极的导电性可以通过一个电极阵列容易地改进。
做出对信令的两个新贡献。一个不假定任何特定的表达对精确地映射无声语音和可听到的语音是特别有用的。因此,生成许多特征池,且在校准处理中自动地选择最有用的特征。描述EMG信号的多个通道之间的关联的统计可以与其他特征一起包括在特征池中。
根据如上所述的本一般发明概念的各种示例性的实施例,提供声音合成设备以提供具有预设的固定内部电极距离的紧凑的电极矩阵,该电极距离提供到从其感测到肌电活动的皮肤上的宽覆盖区域。
此外,声音合成设备可以在没有发声的交谈信息的情况下基于面部肌肉的肌电活动的分析自动地检测语音时段。
另外,声音合成设备可以提供自动地选择收集最有区别的信息的多通道EMG信号的特征的方法。
前述示例性实施例和优点仅是示例性的,且不被看做限制。本教导可以容易地应用于其他类型的装置。此外,示例性实施例的描述意在为说明性的,而不是限制权利要求的范围,且许多替换、修改和变更是对本领域技术人员显然的。
Claims (12)
1.一种声音合成设备,包括:
电极阵列,配置为响应于用户的无声语音,从用户的皮肤检测肌电图(EMG)信号;
语音活动检测模块,配置为检测用户的无声语音时段;
特征提取器,配置为提取指示无声语音时段的EMG信号的特征的信号描述符;和
声音合成器,配置为通过使用所提取的信号描述符合成语音。
2.如权利要求1所述的声音合成设备,其中,所述电极阵列包括包含具有预设间隔的多个电极的电极阵列。
3.如权利要求1所述的声音合成设备,其中,所述语音活动检测模块基于从用户的皮肤检测到的EMG信号的最大和最小值来检测用户的无声语音时段。
4.如权利要求1所述的声音合成设备,其中,所述特征提取器提取指示在无声语音时段的每个预设帧中EMG信号的特征的信号描述符。
5.如权利要求1所述的声音合成设备,进一步包括:
校准器,配置为补偿从用户的皮肤检测到的EMG信号。
6.如权利要求5所述的声音合成设备,其中,所述校准器基于预先存储的基准EMG信号补偿检测到的EMG信号,且所述声音合成器基于预先存储的基准音频信号合成语音。
7.一种声音合成方法,包括:
响应于用户的无声语音,从用户的皮肤检测EMG信号;
检测用户的无声语音时段;
提取指示无声语音时段的EMG信号的特征的信号描述符;和
通过使用所提取的信号描述符合成语音。
8.如权利要求7所述的声音合成方法,其中,通过使用电极阵列从用户的皮肤检测所述EMG信号,所述电极阵列包括包含具有预设间隔的多个电极的电极阵列。
9.如权利要求7所述的声音合成方法,其中,通过使用从用户的皮肤检测到的EMG信号的最大和最小值来检测所述无声语音时段。
10.如权利要求7所述的声音合成方法,其中,在无声语音时段的预设的每个帧中提取指示EMG信号的特征的信号描述符。
11.如权利要求7所述的声音合成方法,进一步包括:
补偿从用户的皮肤检测到的EMG信号。
12.如权利要求11所述的声音合成方法,其中,基于预先存储的基准EMG信号补偿检测到的EMG信号,且基于预先存储的基准音频信号合成语音。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140025968A KR20150104345A (ko) | 2014-03-05 | 2014-03-05 | 음성 합성 장치 및 음성 합성 방법 |
KR10-2014-0025968 | 2014-03-05 | ||
PCT/KR2014/012506 WO2015133713A1 (en) | 2014-03-05 | 2014-12-18 | Voice synthesis apparaatus and method for synthesizing voice |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106233379A true CN106233379A (zh) | 2016-12-14 |
Family
ID=54055480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480078437.5A Pending CN106233379A (zh) | 2014-03-05 | 2014-12-18 | 声音合成设备和用于合成声音的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170084266A1 (zh) |
KR (1) | KR20150104345A (zh) |
CN (1) | CN106233379A (zh) |
WO (1) | WO2015133713A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460144A (zh) * | 2018-09-18 | 2019-03-12 | 逻腾(杭州)科技有限公司 | 一种基于发声神经电位的脑机接口控制系统及方法 |
CN109745045A (zh) * | 2019-01-31 | 2019-05-14 | 苏州大学 | 一种肌电电极贴片及无声语音识别设备 |
CN110059575A (zh) * | 2019-03-25 | 2019-07-26 | 中国科学院深圳先进技术研究院 | 一种基于表面肌电唇语识别的辅助沟通系统 |
CN111329477A (zh) * | 2020-04-07 | 2020-06-26 | 苏州大学 | 一种辅助无声发音贴片和设备 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3618061B1 (en) * | 2018-08-30 | 2022-04-27 | Tata Consultancy Services Limited | Method and system for improving recognition of disordered speech |
WO2020243299A1 (en) * | 2019-05-29 | 2020-12-03 | Cornell University | Devices, systems, and methods for personal speech recognition and replacement |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2024018400A2 (en) * | 2022-07-20 | 2024-01-25 | Q (Cue) Ltd. | Detecting and utilizing facial micromovements |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030163306A1 (en) * | 2002-02-28 | 2003-08-28 | Ntt Docomo, Inc. | Information recognition device and information recognition method |
US20030171921A1 (en) * | 2002-03-04 | 2003-09-11 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product |
JP2004329750A (ja) * | 2003-05-12 | 2004-11-25 | National Institute Of Advanced Industrial & Technology | 生体信号を利用した人工発声装置及び方法 |
CN1601604A (zh) * | 2003-09-19 | 2005-03-30 | 株式会社Ntt都科摩 | 说话时段检测设备及方法、语音识别处理设备 |
CN102257561A (zh) * | 2008-12-16 | 2011-11-23 | 皇家飞利浦电子股份有限公司 | 语音信号处理 |
CN102999154A (zh) * | 2011-09-09 | 2013-03-27 | 中国科学院声学研究所 | 一种基于肌电信号的辅助发声方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE471039T1 (de) * | 1999-02-16 | 2010-06-15 | Yugen Kaisha Gm & M | Sprache umwandlung gerät und verfahren |
ITTO20020933A1 (it) * | 2002-10-25 | 2004-04-26 | Fiat Ricerche | Sistema di connessione vocale tra uomo e animali. |
KR100725540B1 (ko) * | 2005-10-28 | 2007-06-08 | 한국전자통신연구원 | 이물기를 이용한 이동기기 제어 장치 및 방법 |
WO2010048261A1 (en) * | 2008-10-21 | 2010-04-29 | Med-El Elektromedizinische Geraete Gmbh | System and method for facial nerve stimulation |
EP2887351A1 (en) * | 2013-12-18 | 2015-06-24 | Karlsruher Institut für Technologie | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech |
-
2014
- 2014-03-05 KR KR1020140025968A patent/KR20150104345A/ko not_active Application Discontinuation
- 2014-12-18 CN CN201480078437.5A patent/CN106233379A/zh active Pending
- 2014-12-18 WO PCT/KR2014/012506 patent/WO2015133713A1/en active Application Filing
- 2014-12-18 US US15/122,869 patent/US20170084266A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030163306A1 (en) * | 2002-02-28 | 2003-08-28 | Ntt Docomo, Inc. | Information recognition device and information recognition method |
US20030171921A1 (en) * | 2002-03-04 | 2003-09-11 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product |
CN1442845A (zh) * | 2002-03-04 | 2003-09-17 | 株式会社Ntt都科摩 | 语音识别系统及方法、语音合成系统及方法及程序产品 |
JP2004329750A (ja) * | 2003-05-12 | 2004-11-25 | National Institute Of Advanced Industrial & Technology | 生体信号を利用した人工発声装置及び方法 |
CN1601604A (zh) * | 2003-09-19 | 2005-03-30 | 株式会社Ntt都科摩 | 说话时段检测设备及方法、语音识别处理设备 |
CN102257561A (zh) * | 2008-12-16 | 2011-11-23 | 皇家飞利浦电子股份有限公司 | 语音信号处理 |
CN102999154A (zh) * | 2011-09-09 | 2013-03-27 | 中国科学院声学研究所 | 一种基于肌电信号的辅助发声方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460144A (zh) * | 2018-09-18 | 2019-03-12 | 逻腾(杭州)科技有限公司 | 一种基于发声神经电位的脑机接口控制系统及方法 |
CN109745045A (zh) * | 2019-01-31 | 2019-05-14 | 苏州大学 | 一种肌电电极贴片及无声语音识别设备 |
CN110059575A (zh) * | 2019-03-25 | 2019-07-26 | 中国科学院深圳先进技术研究院 | 一种基于表面肌电唇语识别的辅助沟通系统 |
CN111329477A (zh) * | 2020-04-07 | 2020-06-26 | 苏州大学 | 一种辅助无声发音贴片和设备 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
KR20150104345A (ko) | 2015-09-15 |
US20170084266A1 (en) | 2017-03-23 |
WO2015133713A1 (en) | 2015-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106233379A (zh) | 声音合成设备和用于合成声音的方法 | |
Vaiciukynas et al. | Detecting Parkinson’s disease from sustained phonation and speech signals | |
CN101023469B (zh) | 数字滤波方法和装置 | |
EP2887351A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
EP3469584A1 (en) | Neural decoding of attentional selection in multi-speaker environments | |
JP2014112856A (ja) | 脳波検出に適する補聴器およびそのような補聴器を適応する方法 | |
CN108257605B (zh) | 多通道录音方法、装置及电子设备 | |
Dahmani et al. | Vocal folds pathologies classification using Naïve Bayes Networks | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
Diener et al. | Session-independent array-based EMG-to-speech conversion using convolutional neural networks | |
CN111158490B (zh) | 基于手势识别的辅助语义识别系统 | |
Krishna et al. | Improving eeg based continuous speech recognition | |
KR102062454B1 (ko) | 음악 장르 분류 장치 및 방법 | |
CN108919962B (zh) | 基于脑机数据集中处理的辅助钢琴训练方法 | |
Zhang et al. | BASEN: Time-domain brain-assisted speech enhancement network with convolutional cross attention in multi-talker conditions | |
Marcinek et al. | N-MTTL SI Model: Non-Intrusive Multi-Task Transfer Learning-Based Speech Intelligibility Prediction Model with Scenery Classification. | |
JP5030150B2 (ja) | 筋電位信号による音声認識装置 | |
Pan et al. | NeuroHeed: Neuro-steered speaker extraction using eeg signals | |
Koct et al. | Speech Activity Detection from EEG using a feed-forward neural network | |
Freitas et al. | Velum movement detection based on surface electromyography for speech interface | |
Ghasemzadeh et al. | Modeling dynamics of connected speech in time and frequency domains with application to ALS | |
Narayanam | An efficient Peak valley detection based VAD algorithm for Robust Detection of speech auditory brainstem responses | |
Gondaliya et al. | Voiceless Speech Recognition System | |
US20230129442A1 (en) | System and method for real-time detection of user's attention sound based on neural signals, and audio output device using the same | |
JP2011250049A (ja) | 臨場感推定装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161214 |