CN106030707A - 用于音频分析和感知增强的系统 - Google Patents

用于音频分析和感知增强的系统 Download PDF

Info

Publication number
CN106030707A
CN106030707A CN201580008708.4A CN201580008708A CN106030707A CN 106030707 A CN106030707 A CN 106030707A CN 201580008708 A CN201580008708 A CN 201580008708A CN 106030707 A CN106030707 A CN 106030707A
Authority
CN
China
Prior art keywords
signal
module
actuator
air
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580008708.4A
Other languages
English (en)
Inventor
唐纳德·詹姆士·德里克
汤姆·热拉尔·德莱贝尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN106030707A publication Critical patent/CN106030707A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Electrostatic, Electromagnetic, Magneto- Strictive, And Variable-Resistance Transducers (AREA)

Abstract

本申请描述了一种音频感知系统,该系统包括:捕获模块,配置成捕获声学语音信号信息;特征提取模块,配置成提取识别声学信号中的候选无声部分的特征;分类模块,配置成基于所提取的特征识别声学信号是否为无声部分或是否包含无声部分;以及控制模块,配置成为感官刺激致动器生成控制信号,其中感官刺激致动器用于生成待被传送给收听者的空气触觉刺激,控制信号至少部分地基于表示所识别的无声部分的信号。还描述了相关方法。

Description

用于音频分析和感知增强的系统
技术领域
本发明涉及用于音频分析与感知的系统。
具体地,本发明设计用于将听觉语音信息转化成类似于自然语音产生的气流的空气触觉刺激的系统。本发明还涉及用于当收听者接收或听到语音信息时将空气触觉刺激传送给收听者以提高对语音信息的感知的系统。
背景技术
当人们说话时,他们产生可潜在地帮助收听者理解他/她所听到的内容的听觉、视觉和体感(振动和气流)信息。虽然听觉信息对语音感知来说可能已足够,但其他信息流能够增强语音感知。例如,来自发声者面部的视觉信息可增强对语音的感知。触摸发声者的面部也可有助于语音感知。例如,使用诸如Tadoma方法的各种技术来帮助耳背的人理解语音,其中Tadoma方法为人们通过将拇指放在说话者的唇部并且通常使手指沿着说话者的下颚线来提高交流的一种方法。
现有空气触觉系统可通过将与清音停顿(为可能的无声表达的子集并包括诸如“p”、“t”和“k”的辅音)产生的空气喷出匹配的空气喷出施加至手部、颈部或末梢皮肤位置(诸如踝)来提高语音感知。可通过发送用于打开电磁阀的50ms长的信号从管释放加压空气(约5-8psi)来产生空气喷出,从而模仿为了发“pa”中的“p”和“ta”中的“t”而由说话者产生的自然空气喷出。
人类操作者手动识别语音信号中的清音停顿并确定在语音中出现清音停顿时传送空气喷出的时序。一旦识别到信号中的清音停顿,则音频信号可结合空气喷出一起被传送给收听者。
因此,现有空气触觉系统不适于实时应用。为了使空气喷出与音频信号适当地对准,这些系统需要对音频信号进行仔细的手动/人工辅助的预处理。
用于增强语音感知的其他现有系统包括振动触觉设备。空气触觉刺激是基于语音中的非周期分量,以将他们用于施加适当气流的体感刺激。还可以包括气流本身,但还可以是模仿气流的直接触觉刺激或电触觉刺激,或者允许收听者使用信号的任意其他技术。相反,振动触觉系统主要基于语音中的周期(振动)分量。
振动触觉设备附接至身体的各个部分并提供了与语音信号相关的振动或振动触觉刺激。与该技术有关的工作主要适于呈现语音中的基频和语调模式的二级源,且一些适于呈现元音(共振峰)信息。当几乎没有或没有气流有机会接触皮肤时,在从唇部产生低气压的时间段期间从语音中产生这种信息。因此,当前的振动触觉设备精确地使用来自语音信号的、空气触觉设备没有准确使用的信息,反之亦然。另外,振动触觉设备需要训练或预先被告知任务来工作。
本发明的目标是提供用来提高音频分析和/或感知的系统,和/或至少为公众提供有用的选择。
发明内容
概括来说本发明包括用于通过确定来自声学语音信号的湍流气流信息来增强音频感知的系统和方法,其中,配置成待被传送给收听者的空气触觉刺激至少部分地基于所确定的湍流气流信息。
一方面,本发明包括音频感知系统,该系统包括:捕获模块,配置成捕获声学语音信号信息;特征提取模块,配置成提取识别声学信号中的候选无声部分的特征;分类模块,配置成基于所提取的特征识别声学信号是否为无声部分或是否包含无声部分;以及控制模块,配置成生成用于感官刺激致动器的控制信号,其中感官刺激致动器用于生成待被传送给收听者的空气触觉刺激,控制信号至少部分地基于表示所识别的无声部分的信号。
本说明书中使用的术语“包括”意味着“至少部分地由...构成”。在解释本说明书中的包括术语“包括(comprising)”的每个语句时,还可存在除由该以术语为引语的特征之外的特征。诸如“包括(comprise)”和“包括(comprises)”的相关术语将以相同的方式进行解释。
优选地,捕获模块连接至感应器,感应器被配置为生成声学语音信号信息。
优选地感应器包括声学麦克风。
优选地,捕获模块连接至通信介质,通信介质适合于生成声学语音信号信息。
优选地,捕获模块连接至计算机可读介质,其中,声学语音信号信息存储在该计算机可读介质上。
优选地,捕获模块包括压力传感器。
优选地,捕获模块包括力感知设备,该力感知设备位于来自人类说话者唇部的气流中或附近。
优选地,捕获模块包括光学流计量器。
优选地,捕获模块包括热流计量器。
优选地,捕获模块包括力学流计量器。
优选地,捕获模块被配置成捕获包括来自湍流和/或生成湍流的语音压力波的信息的声学语音信号信息。
优选地,特征提取模块被配置为识别信号的显著方面,当通过分类模块解译时,信号的显著方面用于基于声学信号的所提取的特征中的一个或多个来识别无声部分。
优选地,特征提取模块被配置成基于以下所列项中的一个或多个提取与无声部分有关的特征:过零率、周期性、自相关、瞬时频率、频率能量、统计测量、变化率、强度均方根值、时间谱信息、滤波器组、解调方案或声学信号本身。
优选地,特征提取模块被配置成计算声学信号的过零率,如果声学信号的一部分的每单位时间中的过零点中的至少一个大于阈值,则分类模块使用该过零率来指示声学信号的该部分为无声部分。
优选地,特征提取模块被配置成计算声学信号的频率能量,如果声学信号的一部分的频率能量大于阈值,则分类模块指示声学信号的该部分为无声部分。
优选地,特征提取模块被配置成基于Teager能量计算频率能量。
优选地,特征提取模块被配置成计算声学信号的过零点和频率能量,当将过零点与频率能量结合时,由分类模块使用过零点与频率能量来以识别声学信号是否为无声部分或是否包含无声部分。
优选地,特征提取模块被配置成使用来自感应器的低频声学信号以识别声学信号中的候选无声部分。
优选地,分类模块被配置成基于对候选无声部分进行以下所列的一个或多个来识别无声部分:探试法、逻辑系统、数学分析、统计学分析、学习系统、选通操作、范围限制以及归一化。
优选地,控制模块被配置成基于表示声学信号中的候选无声部分的信号生成控制信号。
优选地,控制模块被配置成基于无声部分的湍流气流信息中的能量将表示无声部分的信号转换成表示湍流气流的信号,且基于该能量与来自语音的可能气流之间的关系进行转换。
优选地,表示湍流气流的信号是表示湍流气流信息的声学信号的包络。
优选地,该信号为表示无声部分的信号的差分。
优选地,信号是具有至少一个信号特性的任意信号,其中至少一个信号特性指示在声学信号中出现湍流信息。
优选地,信号包括脉冲序列,在脉冲序列中每个脉冲的计时均指示出现湍流信息。
优选地,信号特性包括峰值、过零点和波谷中的一个或多个。
优选地,系统还包括至少一个后处理模块。
优选地,至少一个后处理模块被配置为滤波、使用线性或非线性映射、使用选通操作、使用范围限制和/或归一化,以增强发送到所述至少一个后处理模块的信号。
优选地,至少一个后处理模块被配置为使用高通滤波器、低通滤波器、带通滤波器、带阻滤波器、移动平均值和中值滤波器中的一个或多个对信号进行滤波。
优选地,至少一个后处理模块包括后特征提取处理模块,后特征提取处理模块用于处理表示用于候选无声部分的所提取特征的信号以供分类模块使用,分类模块被配置成基于来自后特征提取处理模块的输出识别无声部分。
优选地,至少一个后处理模块包括后分类模块,该后分类模块用于处理表示来自分类模块的无声部分的信号,控制模块被配置成基于来自后分类处理模块的输出生成控制信号。
优选地,至少一个后处理模块包括用于处理来自控制单元的控制信号的后控制处理模块,感官刺激致动器被配置成基于来自后控制处理模块的输出而输出空气触觉刺激。
优选地,至少一个后处理模块包括用于处理来自控制单元的控制信号的后控制处理模块。
优选地,感官刺激致动器包括光学致动器,该光学致动器被配置成基于来自后控制处理模块的输出而输出光学刺激。
优选地,光学致动器包括位于收听者的电子设备中的光源。
优选地,光学刺激包括电子设备的背光显示器中的亮度变化。
优选地,感官刺激致动器包括体感致动器,该体感致动器被配置成基于来自后控制处理模块的输出而输出刺激。
优选地,感官刺激致动器包括声音致动器,该声音致动器被配置成基于来自后控制处理模块的输出而输出可听刺激。
优选地,声音致动器包括主设备的声学子系统和/或扩音器。
优选地,声学信号包括语音信号。
优选地,声学信号包括由湍流声道气流产生的任意信息。
优选地,声学信号包括由人工湍流声道气流产生的任意信息。
优选地,声学信号包括由语音合成系统生成的音频和/或语音、声学信息。
优选地,该系统还包括用于接收声学信号的接收器。
优选地,接收器被配置成接收来自感知设备的声学信号。
优选地,感应器包括声学麦克风设备。
优选地,麦克风设备包括用于将来自麦克风的声学信号变换成数字信号的麦克风数字转换器。
优选地,接收器被配置为接收来自外部声源的声学信号。
优选地,接收器被配置为实时接收声学信号或接收预先录制的声学信号。
优选地,系统还包括后接收器处理模块,该后接收器处理模块用于从声学信号中去除不期望的背景噪声和不期望的非语音声音。
优选地,捕获模块被配置成从预滤波的语音声学信号中捕获声学语音信号信息。
优选地,捕获模块被配置成从净化的声学信号中捕获声学语音信号信息而无需滤波。
优选地,系统还包括用于生成空气触觉刺激的感官刺激致动器。
优选地,感官刺激致动器被配置成至少部分基于控制信号生成空气触觉刺激,其中控制信号直接来自控制模块和/或经由后控制处理模块间接来自控制模块。
优选地,感官刺激致动器被配置成至少部分基无声部分生成空气触觉刺激,其中无声部分直接来自分类模块和/或经由后分类处理模块间接来自分类模块。
优选地,感官刺激致动器包括空气触觉致动器。
优选地,空气触觉刺激包括一股或多股空气喷出和/或气流。
优选地,感官刺激致动器包括振动触觉致动器。
优选地,振动接触致动器被配置为基于声学信号中的有声部分生成振动接触刺激。
优选地,空气触觉刺激包括用于刺激收听者的体感感觉的直接触觉刺激。
优选地,感官刺激致动器包括电触觉致动器,空气触觉刺激包括用于刺激收听者的体感感觉的电刺激。
优选地,感官刺激致动器包括光学致动器,空气触觉刺激包括光学刺激。
优选地,感官刺激致动器包括声学致动器,空气触觉刺激包括听觉刺激。
优选地,感官刺激致动器被配置为将两个或更多个不同的空气触觉刺激传送给收听者。
优选地,两个或更多个不同的空气触觉刺激包括物理轻拍、振动、静电脉冲、光学刺激、听觉刺激以及其他感官刺激中的两种或更多种。
优选地,使用声学信号、由特征提取模块从声学信号中所提取的特征、来自分类模块的所识别的无声部分、或表示包含湍流气流能量的候选无声部分和/或所识别的无声部分来生成空气触觉刺激(多个空气触觉刺激)。
优选地,所识别的无声部分包括湍流气流信号的逆信号。
优选地,感官刺激致动器被配置为将空气触觉刺激传送至收听者的皮肤上。
优选地,感官刺激致动器被配置为将刺激传送至收听者的任意触觉细胞。
另一方面,本发明包括用于听觉感知的方法,该方法包括:通过捕获模块捕获声学语音信号信息;通过特征提取模块确定识别声学信号中的候选无声部分的特征;通过分类模块基于所提取的特征来确定声学信号是否为无声部分或是否包括无声部分;以及通过控制模块生成发送至致动器的控制信号,致动器用于生成待被传送给收听者的空气触觉刺激,所述控制信号至少部分地基于表示无声部分的信号。
优选地,该方法还包括通过感官刺激致动器将空气触觉刺激传送给收听者,其中,空气触觉刺激是基于来自致动器的刺激生成的。
优选地,感官刺激致动器包括一个或多个致动器,一个或多个致动器被配置成以触觉刺激、光学/视觉刺激、听觉刺激和/或任意其他类型的刺激的形式将空气触觉刺激信息传送给收听者。
如本说明书中所使用的,“空气触觉刺激”指的是基于气流(诸如语音中的湍流气流部分)的感官刺激。感官刺激被传送至收听者身体的体感部分。该刺激通常基于语音的非周期分量。提供空气触觉刺激的致动器可被配置为基于气流信息提供体感刺激。刺激可包括气流本身。另外或可替代地,刺激可包括模仿气流、听觉刺激或允许收听者接收/感知湍流气流信息的任意其他技术的直接触觉或电触觉刺激。
方法实施方式与以上参照系统的第一方面所描述的实施方式类似。
相应地,本发明包括多个步骤及这些步骤中的一个或多个关于其他每个步骤的关系、以及具体化结构特征的装置、适于对这些步骤起作用的各部分的布置和元件的组合,所有这些内容均在以下详细的公开中举例说明。
概括来说,本发明还在于本申请的说明书中单独地或共同地提到或指示的部分、元件和特征以及任意两个或更多个这些部分、元件或特征的任意或全部组合,其中,在本文中提及了在本发明所涉及的技术领域中具有已知的等同物的特定整体,这些已知的等同物被视为就像单独说明一样并入本文。
另外,当按照Markush群组来描述本发明的各个特征或方面时,本领域技术人员应理解因此还可按照Markush群组中的任意单个构件或构件的子群来描述本发明。
如在本文中所使用的,跟随在名词后的“(多个...)”意味着名词的复数形式和/或名词的单数形式。
如在本文中所使用的,术语“和/或”意味着“和”或者“或”,或者两者均有。
应理解,参考本文中公开的数字范围(例如,1至10)还包括参考该范围内的所有有理数(例如,1、1.1、2、3、3.9、4、5、6、6.5、7、8、9和10)和该范围内的任意有理数范围(例如,2至8、1.5至5.5和3.1至4.7),因此,以此方式明确公开了本文中明确公开的所有范围中的所有子区间。这些仅是具体解释的一些示例,并且所列举的最低值与最高值之间的数值的所有可能组合被认为是以类似方式在本申请中明确地说明。
在本说明书中,当对专利说明书、其他外部文献或其他信息源进行参考时,通常是为了提供上下文来讨论本发明的各个特征。除非另外明确地说明,否则对这些外部文献或这些信息源的参考在任何管辖权中都不应被解释为承认这些文献或这些信息源为本领域公知常识或构成本领域公知常识的一部分。
虽然如上文概括性地限定了本发明,本领域技术人员应理解本发明不限于此,且本发明还包括各实施方式,其中在下文描述中给出了实施方式的一些示例。
附图说明
为了更完整地理解本发明,通过非限制性示例的方式参考以下描述和附图,在附图中:
图1示出根据本发明的第一实施方式的系统的框图;
图2示出具有湍动气流强度的听觉语音波形;
图3示出根据本发明的第二方面的系统的框图;
图4示出根据本发明的实施方式的零相交法的软件构件的流程图;
图5示出根据本发明的实施方式的与零相交法结合的Teager能量/DESA方法的软件构件的流程图;
图6示出信号在图5所示的系统的不同阶段处的示例性波形;
图7示出根据本发明的实施方式的系统在耳后助听器中的实施例;
图8A和图8B示出根据本发明的实施方式的系统在智能手机或智能设备中的实施例;
图9示出根据本发明的实施方式的系统在头戴式耳机中的实施例;
图10示出气体触觉致动器的实施例。
具体实施方式
图1示出了用于提高对声学信号的感知的系统100。具体地,系统100被配置为提高对声学信号中的语音信息的感知。在其他实施方式中,系统100被配置为提高对声学信号中的空气触觉信息的感知。系统100是自动化操作的并且能够从声学信号实时恢复讲话过程中产生的湍动气流。
系统100包括信号处理模块130,该信号处理模块130包括特征提取模块和分类模块,其中特征提取模块用于指示和/或计算/提取来自声源120的声学信号中的一个或多个显著特征,分类模块用于基于特征提取模块识别的特征识别无声部分,其中,无声部分是无声声学部分。系统100还包括气流控制模块140,该气流控制模块140用于至少基于表示无声声学部分的信号来生成感官刺激致动器160的控制信号。感官刺激致动器160被配置为生成空气触觉刺激(例如可以是气流),该空气触觉刺激然后经由引导部或系统输出170(例如,诸如空气管)输出至收听者的皮肤或收听者的任意其他体感部分。
系统的构件和模块120、130、140和160可以彼此不同且彼此分离。在一些替代实施方式中,构件和/或模块中的任意两个或全部可以是单个集成构件/模块的一部分。
如在说明书中所使用的,“模块”指的是计算设备或机器的集合,该计算设备或机器的集合单独或共同执行一个或多个指令集合以完成任意一个或多个任务。模块还包括处理设备或处理设备的集合,该处理设备或处理设备的集合配置为单执行模拟处理技术或者执行模拟处理技术与数字处理技术的结合。示例性模块包括至少一个处理器,诸如中央处理器。模块还可包括主系统存储器和静态存储器。处理器、主存储器和静态存储器可经由数据总线与彼此通信。
软件可存在于模块的存储器中和/或至少一个处理器内。存储器和处理器构成机器可读介质或多个机器可读介质。术语“机器可读介质”包括能够存储、编码或装载用于由模块执行并使模块完成任务的指令集合的任意介质。术语机器可读介质包括固态存储器、光学介质、磁介质、非瞬时性介质和载波信号。
举例来说,模块可以是模拟电路、数字信号处理单元、专用集成电路(ASIC)、现场可编程门阵列、微处理器或者能够执行存储在机器可读介质中以完成任务的计算机可读指令的任意处理单元中的一个或其组合。
系统100还包括用于接收声学信号的系统输入部分120。系统输入部分120可连接至用于接收声学信号的麦克风。在其他实施方式中,系统输入部分120可从声学记录或声学流中接收声学信号。在其他实施方式中,系统输入部分120源自于能够直接或间接产生声学信号表示的任意感应器类型。
系统100包括诸如空气管的系统输出部分170,该系统输出部分170联接至感官刺激设备(未示出)或与感官刺激设备通信。感官刺激设备包括空气触觉致动器,该空气触觉致动器用于生成传送至收听者的空气触觉刺激。空气触觉刺激包括传送至收听者的空气喷或气流。在语音的相应听觉部分到达收听者耳朵之后的约200ms或小于约200ms内将空气触觉刺激传送给收听者。在一些实施方式中,系统100被配置为在语音的相应听觉部分到达收听者耳朵之后的约100ms内将空气触觉刺激传送给收听者。在一些实施方式中,系统100被配置为在语音的相应听觉部分到达收听者耳朵之后的约50ms内将空气触觉刺激传送给收听者。
使用空气触觉刺激以用于语音感知相对于语音中的信息的任意其他感官源来说是有益的。例如,语音中由湍动气流产生的噪声通常包括从4kHz到6kHz(有时为8kHz或高于8kHz)的高频处的大部分感官信息。反之,直接气流信息通过与语音生成部分关联的声压波以低于l Hz到100Hz的极低频率承载其信息。该低频信息与湍流产生的高频信息有关。这些高频语音声音和低频压力信息由用于电话会话的窄带音频编码滤除,这使得仅提供300Hz-3400Hz的音频信息。此外,由于在传输中为了保存带宽而省略这些能量,且通常不认为包含许多对语音可懂度来说有用的信息,因而许多通信设备中的信号处理部分以及麦克风本身将去除这些能量。空气触觉刺激代替了该高频声音中的信息,且其本身甚至可通过计算在更低的声频中被检测到。可替代地,当在应用音频编码之前使用本方法时,可获得能够随编码的音频传输的窄带宽信号,因而可人工再引入滤除的部分,同时仍保留有损压缩的优点。
空气触觉刺激对大多数听觉不灵的人来说也是有用的。由于年龄增长或老年性耳聋,高频音频感知是最先减弱的。因为提高了感知,语音信息的这种恢复还可使得音频设备的噪声更小,并且收听者可自由地平衡语音信息的这种恢复与会话音量,且调低音频设备有助于保护听力。在诸如路边、酒吧和餐馆的任意和所有受噪声危害的环境中,这是特别重要的。
在实施方式中,感官刺激设备被配置为以与共同呈现的感官刺激一致的方式将感官刺激传送给收听者,这些共同呈现的感觉刺激为诸如物理轻拍、振动、静电脉冲、光学刺激、听觉提示或任意其他的感官刺激。在实施方式中,使用声学信号、特征提取模块产生的提取特征、来自分类模块的被识别的无声部分、或代表候选和/或被识别的无声部分的信号的导数(诸如包含层状气流能量的湍动气流信号的倒数),来生成辅助的感官刺激。
空气触觉刺激可包括对传送至收听者的声学信号中的无声部分进行听觉增强,以提高语音信号中的湍流信息,该湍流信息因处理、存储或传输声音的方式而会被低水平表达,或者由于受噪声损害的环境而降低了可懂度。
图2示出了包括语音信息的声学信号A的波形。声学信号包括由实线B表示的湍动气流(turbulent air-flow)信息。因为背景噪声、非湍动(层状)语音气流和湍动语音气流都一起混合在声学信号中,所以识别和提取湍动信息并不是一项简单的任务。
根据本发明的实施方式,通过系统输入部分120接收的声学信号使用具有低至中等背景噪声的与听觉语音和非听觉语音相关的输入,或者可替代地使用已从其中滤除背景噪声的输入。背景噪声来自许多源,包括稳态湍流(例如来自路面噪声或飞机噪声)、背景串音和背景瞬态事件。存在可以用来处理该背景噪声的许多方法、技术和系统。从二十世纪早期开始,为了降噪和消除噪声的目的而从语音中分离湍流非语音声学信息已经是音频设备技术的一个重要的部分。
一旦去除或减少了信号中的背景噪声,仍然难以将剩余的声学信号转换成相关的气流信息。声学信号与在语音产生期间离开口部的湍动气流之间的关系非常复杂。讲话期间从口部释放的气流和气压随时间快速变化,且具有在瞬变现象、吸气和摩擦过程中产生的能够通过触觉检测到的湍动气流所需要的最高气流/气压组合。
将有声语音和无声语音分离以使语音分段的现有方法和系统对自动语音识别任务来说是不够的。因此,研究者设法通过分离出有功分量来改善该系统。其他研究人员致力于推导公式以简单地解决同样的问题来改进数字信号处理的域或者改进追踪语音基频(感知为音高)的过程。然而,这些公式从不旨在用于从语音中复制气流。
另外,从声学信号中识别气流不仅需要提取声学信号的湍流信息部分,而且需要根据对语音中的瞬变现象、吸气和摩擦的了解对其进行适当操作。说话期间与充足层状气流结合的口部张大意味着即使口内存在大量的湍动气流也不会转化成可以在口部之外检测到的气流。相反,口部张小意味着较小量的湍动气流在口部之外仍可被检测到。
存在许多可能的方式来实现图1中所示的信号处理组件,该信号处理组件是检测语音的无声部分且以适当的方式操作感官刺激设备所需要的。图3示出根据本发明的第二实施方式的系统200,该系统200是图1中所示的系统100的延伸。参照图3所描述的特征与参照图1所描述的由参考标号加上100指示的相应特征具有相同或相似的功能。
还应注意,处理系统的一些实施方式使用捕获声学信号的不同方面的一个或多个感应器设备,其中的一些并不是传统上与音频捕获有关。这些设备的使用改变了特征提取模块或对特征提取模块进行了补充。除基于热、光、力、涡旋脱落等的传统麦克风、压力感应器、测力计、流量计之外,还设想了基于成像的方法和能够捕获声学信息的任意其他方法。
具体地,使用能够在极低频处(低于100Hz)起作用的感应器有利于直接捕获湍流的各方面,特别是爆破音。纯粹通过计算方式很难从音频信号中获取这些。将直接测量估计和计算估计结合使用还可提高系统性能。
系统200包括用于从声源210接收声学信号的特征提取模块220。特征提取模块220被配置为处理声学信息以提取单独的或组合的一个或多个识别特征,其中当通过一些方法解释时,这些单独的或组合的一个或多个识别特征指示信号的候选无声部分或可能的无声部分。这些特征的示例为(但不限于):周期性、自相关、过零率、瞬时频率、频率能量(诸如Teager能量)、变化率、强度、RMS值、时间谱信息(诸如小波、短时快速傅立叶变换)、滤波器组、各种解调方案(幅度调制、频率调制、相位调制等)、统计测量值(中值、方差、直方图、均值等)、输入信号本身,以及它们的组合。
因为这些提取的特征通常是有噪声的或者在以一些方式增强的情况下呈现可产生更好性能的响应,所以系统200包括用于对特征提取模块220的输出进行后处理的后提取处理模块230。在一些实施方式中,系统不包括后提取处理模块。在这些实施方式中,分类模块和/或控制模块260直接使用来自特征提取模块220的输出。后提取处理模块230执行的操作包括以下中的一个或多个:例如滤波(高通滤波、低通滤波、带通滤波、移动平均滤波、中值滤波等)、线性和非线性映射(信号比、缩放、对数、指数、乘方、根、查找表等)、选通操作、范围限制、归一化,以及它们的组合。
系统包括分类模块240,以用于处理来自后提取处理模块230的特征。该模块240解译各个特征和/或信号本身,以执行对无声通路的实际识别。分类模块240可配置为实现技术领域所知的各种方法,诸如(但不限于):探试法(状态机)、统计方法(贝叶斯定理、马尔可夫模型和马尔可夫链等)、模糊逻辑、学习系统(神经网络、模拟退火、线性基函数等)、模式匹配(数据库、查找表、卷积等)等。
系统200的各实施方式可包括用于处理来自分类模块240的输出信号的后分类处理模块(未示出)。后分类模块可配置为执行与用于后提取处理模块230的上述操作类似的操作。
最后,系统200包括用于接收来自分类模块240的分类器输出信号的控制模块260,该控制模块260识别无声通路。控制模块260直接或间接使用该信号,以获取用于连接至输出端口270的空气触觉致动器的控制信号。在控制模块间接使用信号的情况下,通过分类器输出以线性或非线性方式选通/控制分类器输出信号或信号的适当特征/特性。
系统200的各实施方式可包括用于在信号传送至空气触觉致动器之前对控制信号输出进行处理的后控制处理模块(未示出)。后控制模块可配置为执行与用于后提取处理模块的上述操作类似的操作。
另外,可需要一些波和/或频谱形状以与致动器响应相匹配,可能必须去除异常值,且本领域技术人员将会应用其他典型处理,以使致动器响应与期望的响应进行最优匹配。
下面将通过非限制性示例描述系统200的实施例。
示例1:过零率技术
嘘声型表达(无声的)呈现出宽频谱。另一方面,具有较强基本和联合谐波的表达呈现出更具周期性,且因此呈现出具有可更清晰地识别的峰值的频谱。尽管周期性计算可用于从无声表达中识别有声表达,但是该计算的计算量非常大且对所涉计算成本来说呈现出有限的性能。
图4示出用于为空气触觉设备生成控制信号的系统300。除非另有描述,否则参照图4所描述的特征具有与参照图3所描述的参考标号加100所指示的相应特征相同或相似的功能。
通过测量每单位时间输入声学信号的过零点数量,系统300实现了在受控条件下具有可用性能的简单方法。该过零率可以以较低的计算复杂度进行计算且可易于授权给硬件。
由于有声表达和无声表达的性质,因而基于过零率的系统起作用。对过零率使用适当的调谐阈值以防该方法触发噪声,基于对所包含的波形的检查清楚的是:有声表达远离信号的平均值“提升”了信号的高频方面。因而,在有声基频的大部分周期期间,这些高频方面均不产生过零点,产生相对较低的过零率。该阈值通过实验或通过自适应算法确定,且在不存在语音(低信号幅值、高过零率)但存在环境噪声和其他因素的通路中被设置成测量的低于过零率。该阈值还必须比用于无声片段(信号幅值高于本底噪声、高过零率)的比率高,因此忽略有声段(高信号幅值、相对低的过零率)。
系统300包括特征提取模块320,该特征提取模块320用于指示来自从声源310接收的声学信号的候选无声表达。特征提取模块包括用于确定一段时间中声学信号的过零点数量的过零检测器322。来自过零检测器322的过零率数字是特征提取模块320的输出。
特征提取模块还包括有窗均值平均值324,该有窗均值平均值324用于计算声学信号的与通过过零检测器处理的部分相同的部分的强度,其中强度信号被传送到控制模块362。
来自特征提取模块320的过零率用于分类模块340的比较器342。比较器342可以是用于区分噪声、无声表达和有声表达的3态窗口比较器。与在有声表达期间遇到的比率相比,无声表达的特征在于每单位时间具有高过零率(因为检查时很像噪声),导致与有声表达相比的更高的过零率。通过使用所确定的适当设置的阈值344,因此比较器342将信号成功地分类,且对该比率信号进行后处理,可识别出三个频带:噪声、无声表达和有声表达。在本发明的优选实施例中,因为其他两个频带均表示不感兴趣的信号部分,所以仅实现无声阈值,以产生代表声学信号中的无声部分346的信号。
系统300包括控制模块360。分类模块具有门362,该门362从分类模块340接收表示无声部分346的信号以及由特征提取模块320的有窗均值平均值324计算的强度信号。门362为输出端口370生成输出控制信号,该输出端口370被配置为连接至空气触觉致动器或与空气触觉致动器通信。在该具体实施例中,来自特征提取模块320的输入信号的窗口均值平均值通过使用来自分类块的信号346的门362选通以生成输出控制信号。
过零点技术的缺点是以可靠地辨别背景噪声并可靠地适应于扬声器和环境条件的方式设置(动态)阈值(具有滞后动作或不具有滞后动作)。
过零点技术的优点是非常简单且甚至能够实现为具有低复杂度的模拟系统。可利用不必实时处理声学信号的系统计算(适应性)阈值,这样进一步降低了实现成本。
示例2:Teager能量/离散能量分离技术
由于过零率方法显示出了很多改进空间,因而在考虑到需要在有限的硬件上操作的同时寻找到了一个更好的方法。
正如过零方法是基于信号的物理方面,利用Teager能量和离散能量分离的方法进一步采取该推论步骤且设法使用语音生成过程的知识。
生成两个幅值相等的信号时,生成高频信号比生成低频信号需要的能量更多,这是一个物理事实。无声表达从根本上是宽带噪声(尽管比噪声更相关),意味着生成时加入许多能量。在有声表达中,大部分能量被捆绑在相对低的基频处。因而,以生成频率的物理过程为基础向每个频带分配不同能量的方法将给出将有声表达与无声表达区分开的有用的指示。这样一种可能方法为Teager能量。该方法识别给定幅值相同但频率不同的两个信号,其中产生频率较低的信号将消耗较少能量,因而为该较低频率的信号分配比相同幅度的高频信号更低的能量读数。当有声表达主要包含低频分量,且大部分能量捆绑在基波和多个谐波周围时,则这样的信号将产生比相同幅值的无声信号更低的Teager能量读数,在相同幅值的无声信号中大部分能量散布在较高频分量中。虽然对噪声敏感,但该算法具有非常大的优点,即能够在每个基础采样上进行操作,并且实现该算法仅需要很小的计算量。
该方法的扩展为离散能量分离算法(DESA)族。根据传统解调制理论会更好地理解这些算法。DESA提供了瞬时频率(关于频率调制)和幅值(关于振幅调制)。这里所感兴趣的正是将该瞬时频率作为主要特征,且与还产生许多信息的过零率结合。
示例3:过零率、Teager能量和离散能量分离技术的组合
图5示出将上文所述的过零率和Teager能量技术组合以提高整体性能的系统400。除非另有描述,否则参照图5描述的特征与参照图3描述的参考标号加200所指示的相应特征具有相同或相似的功能。
系统400的各功能块彼此间具有许多相互作用。系统400主要采用探试法,且来自分类模块440的信号被用作对特征提取后处理模块430的反馈信号以提高算法性能,其中该特征提取后处理模块430将被用作噪声选通功能。
系统400包括特征提取模块420、分类模块440和控制模块460,其中特征提取模块420用于获取与指示从声源410接收的声学信号中的候选无声部分有关的信号特征,分类模块440用于确定候选无声部分是否为来自所获取的信号特征的无声部分,控制模块460用于生成用于空气触觉致动器的控制信号。
系统400还包括后提取处理模块430,该后提取处理模块430用来处理来自特征提取模块420的信号并用于将处理过的信号通信至分类模块440。系统400还包括用于分类模块440中包括的后分类处理模块的组件。探试分类直接与各特征的后处理进行相互作用。
在特征提取模块420中,系统400包括Teager能量计算块421,以用于计算声学信号样本的频率能量。特征提取模块420还包括差分Teager能量计算块424,以用于计算当前样本与前一样本之间的能量差。利用相应的滤波器425、422对通过Teager能量和差分Teager能量计算块421、424计算的能量值进行滤波。滤波器425、422可以是移动平均滤波器。通过滤波的值通过DESA块423处理,该DESA块423提供了瞬时频率。DESA块423也是特征提取模块420的一部分。特征提取模块420还包括用于确定声学信号的过零点的过零点检测器块426。
因为Teager能量计算使用差分算子,使得该方法对噪声敏感,所以DESA算法块423之前的移动平均滤波器422、425是很重要的。滤波有助于降低这种敏感度。
后提取处理模块430包括缩放组件433,以使来自滤波器422的信号在Teager能量中的贡献更小。这些贡献包括以其他方式易于丢失的有用信息,但在没有很大损失的情况下可减少非常强的信号。缩放组件433例如可使用自然对数算法来相应地对Teager能量进行缩放。后提取处理模块430还包括用于对DESA 423的输出进行滤波的瞬时频率滤波器434。后提取处理模块430还包括过零点门431和过零点滤波器432,以用于处理来自过零点检测器块426的过零点信号。在过零点滤波器432之前应用过零点门431,以去除识别为噪声的过零点,免于在输出中出现噪声。过零点滤波器432可以是移动平均滤波器。
在分类模块440中,计算块441和第一决策块442计算噪声阈值控制信号。通过使用来自缩放组件433的Teager能量的压缩版本的动态范围,可配置的阈值(无声阈值)实现了噪声选通。计算块441被配置为计算信号的平均值,其中信号的平均值用于第一决策块442以产生阈值选通信号447,阈值选通信号447用于过零点门431中的过零点信号和瞬时频率控制门444中来自瞬时频率滤波器434的经滤波的瞬时频率。
分类模块440包括用于使来自瞬时频率控制门444的信号449与来自过零点滤波器432的信号436相乘的乘法器445。通过实验发现,与使用信号本身相比,通过使经滤波的瞬时频率和经滤波的过零率相乘获取的控制信号产生了表现更好的输出选通信号。相乘增强了特征的均认定存在无声贡献的那些部分,但也防止了当两个输入信号中的一个为零时的伪贡献。分类模块440包括用于确定是否信号为无声信号的第二决策块446。当该控制信号超过阈值(频率阈值)时,认为特征足以强到为输入信号中的无声部分。分类模块440还包括减法块443,该减法块443用于确定不具有在计算块441中计算的噪声分量的Teager能量。来自减法块443的信号产生的信号是来自缩放块433的经压缩的Teager能量减去计算块441计算的平均值(DC电平与背景噪声有关)而得到的。
此时,该输出门信号448用于为输出选通适当处理过的特征或各特征的组合,以致动感官刺激致动器。
控制模块460包括门461,门461被配置为根据来自第二决策块446的控制信号输出不具有来自减法块443的噪声分量的Teager能量。控制模块460还包括滤波器462,以去除来自门461的结果输出的短暂的伪响应。分类块的输出被通信至输出端口470,其中输出端口470被配置为连接至感官刺激致动器或者与感官刺激致动器通信。
感官刺激致动器被配置为将感官刺激传送至收听者的皮肤。在实施方式中,感官刺激致动器被配置为向收听者的任意触觉细胞传送刺激。在实施方式中,感官刺激致动器被配置为向收听者的踝、耳朵、脸部、毛发、眼睛、鼻孔或收听者身体的任意其他部分传送刺激。在实施方式中,系统是手持音频设备的一部分或者与手持音频设备通信,且感官刺激设备被配置为向手部提供刺激。在实施方式中,系统是头戴式或安装在头部的音频设备的一部分或与头戴式或安装在头部的音频设备通信,且感官刺激设备被配置为向头部提供刺激。
图6示出了在图5中所示且在示例3中描述的系统400的不同操作阶段处的示例性处理信号的波形500。第一波形510为从声源410接收的输入波形。第二波形520与来自缩放组件433的Teager能量对应。第三波形530与来自第一决策块442的噪声门控制447对应。第四波形540与来自过零点滤波器432的选通的平均过零点436对应。第五波形550与来自频率控制门444的选通的DESA瞬时频率信号449对应。第六波形560与来自第二决策块446的输出门控制信号448对应。第七波形570与系统400的输出470对应。
图10示出了基于由压电式泵940生成的空气喷出的感官致动器900。致动器900接收控制信号910,该控制信号910代表将传送至用户的皮肤960或用户的任意其他体感部分的空气触觉刺激。系统900包括用于使用控制信号910的驱动器电子器件920。驱动器电子器件920将该控制信号910放大,并将该信号转换成用于驱动压电式泵940的适当的电信号930。该泵940产生空气喷出950,空气烟团950被直接引导至或通过诸如管的引导件或空气导管间接引导至用户的体感身体部分,例如用户的皮肤960。
图7示出了空气触觉语音感知增强系统604可如何集成到耳后助听器600中。助听器包括用于助听放大的耳件602和用于将助听器安装在收听者耳后的臂603。当空气触觉刺激包括可听刺激时,可以通过耳件602传送可听刺激。所示的系统可获取来自麦克风601和数字转换器607或者外部源的听觉输入。用来去除噪声和极端瞬变的预处理将焦点集中在一个扬声器上,或者可由作为助听器600的一部分的系统外部的多个系统来进行任意其他信号后处理。如上文所述,随后将对该净化的信号进行将声学信号转化成空气触觉刺激信号所需的信号处理。之后,将空气触觉刺激信号传送给气流源605的控制器,其中气流源605的控制器被配置为在助听器将放大的音频传至耳朵的同时通过位于耳后的空气管606向收听者的皮肤输出空气喷出。
图8A和图8B示出了如何将空气触觉语音感知增强系统集成到智能设备700中。图8A从正面示出了智能设备700,而图8B从背面示出了智能设备700。所示的系统被配置为从诸如GSM信号的数字源接收听觉输入702。与助听器类似,用来去除噪声和极端瞬变的预处理、或任意其他信号后处理可来自智能系统。如上所述,将通过本发明的系统703对该净化的信号进行将声学信号转化成气流信号所需的信号处理。随后气流信号通过气流控制器和气流源704,在智能手机通过扬声器706将放大的音频传至耳朵的同时,空气通过空气管705被传至皮肤(通常在手上或在耳后)。
在智能设备的一些实施方式中,智能设备包括光学致动器,该光学致动器被配置为基于空气触觉刺激信号输出光学刺激。在实施方式中,光学致动器包括智能设备700中的光源707。在实施方式中,光学刺激包括智能设备或任意其他电子设备的背光显示器708中的亮度变化。在智能设备的一些实施方式中,空气触觉刺激包括可听感知刺激。
图9示出可如何将空气触觉语音感知增强系统集成到一副头戴式耳机800中。图示的系统将从诸如头戴式耳机插孔或无线传输的数字源获取听觉输入802。与助听器类似,去除噪声和极端瞬变的预处理、或者任意其他信号后处理可来自头戴式耳机系统。如上文所述,随后将通过的本发明的系统804对该净化的信号进行将声学信号转化成气流信号的信号处理。之后将气流信号传至气流控制器和气流源806,并在头戴式耳机将放大的音频传至耳朵的同时通过空气管808将空气传至耳后的皮肤。
在头戴式耳机的一些实施方式中,空气触觉刺激包括可听感知刺激。
因而将看出有效获得了上文所阐述的目标(这些目标通过前述说明书而显而易见),且因为在不背离本发明的精神和范围的情况下,可以在执行上述方法的过程中做出改变且可以对所说明的结构做出改变,因而其旨在应将以上说明书包含的和附图中所示的所有内容理解为说明性的并且不是限制意义的。

Claims (72)

1.音频感知系统,所述系统包括:
捕获模块,配置成捕获声学语音信号信息;
特征提取模块,配置成提取识别声学信号中的候选无声部分的特征;
分类模块,配置成基于所提取的特征识别所述声学信号是否为无声部分或是否包含无声部分;以及
控制模块,配置成生成用于感官刺激致动器的控制信号,其中所述感官刺激致动器用于生成待传送给收听者的空气触觉刺激,所述控制信号至少部分基于表示所识别的无声部分的信号。
2.根据权利要求1所述的系统,其中,所述捕获模块连接至感应器,所述感应器配置成生成所述声学语音信号信息。
3.根据权利要求2所述的系统,其中,所述感应器包括声学麦克风。
4.根据权利要求1所述的系统,其中,所述捕获模块连接至通信介质,所述通信介质适于生成所述声学语音信号信息。
5.根据权利要求1所述的系统,其中,所述捕获模块连接至计算机可读介质,其中,所述声学语言信号信息存储在所述计算机可读介质上。
6.根据权利要求1所述的系统,其中,所述捕获模块包括压力传感器。
7.根据权利要求1所述的系统,其中,所述捕获模块包括力感知设备,所述力感知设备位于来自人类说话者的唇部的气流中或附近。
8.根据权利要求1所述的系统,其中,所述捕获模块包括光学流计量器。
9.根据权利要求1所述的系统,其中,所述捕获模块包括热流计量器。
10.根据权利要求1所述的系统,其中,所述捕获模块包括力学流计量器。
11.根据前述权利要求中的任一项所述的系统,其中,所述捕获模块配置成捕获包括来自湍流和/或生成湍流的语音压力波的信息的声学语音信号信息。
12.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成识别所述信号的显著方面,当通过所述分类模块解译时,所述信号的显著方面用于基于所述声学信号的所提取特征中的一个或多个来识别无声部分。
13.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成基于以下所列项中的一个或多个来提取与无声部分有关的特征:过零率、周期性、自相关、瞬时频率、频率能量、统计测量、变化率、强度均方根值、时间谱信息、滤波器组、解调方案或声学信号本身。
14.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成计算所述声学信号的所述过零率,如果所述声学信号的一部分的每单位时间的过零点中的至少一个大于阈值,则所述分类模块使用所述过零率来指示所述声学信号的所述部分为无声部分。
15.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成计算所述声学信号的频率能量,如果所述声学信号的一部分的频率能量大于阈值,则所述分类模块指示所述声学信号的所述部分为无声部分。
16.根据权利要求15所述的系统,其中,所述特征提取模块配置成基于Teager能量计算所述频率能量。
17.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成计算所述声学信号的过零点和频率能量,当将所述过零点与所述频率能量结合时,由所述分类模块使用所述过零点与所述频率能量来识别所述声学信号是否为所述无声部分或是否包含所述无声部分。
18.根据前述权利要求中的任一项所述的系统,其中,所述特征提取模块配置成使用来自感应器的低频声学信号来识别声学信号中的所述候选无声部分。
19.根据前述权利要求中的任一项所述的系统,其中,所述分类模块配置成基于所述候选无声部分的以下所列中的一个或多个来识别所述无声部分:探试法、逻辑系统、数学分析、统计学分析、学习系统、选通操作、范围限制以及归一化。
20.根据前述权利要求中的任一项所述的系统,其中,所述控制模块配置成基于表示所述声学信号中的所述候选无声部分的信号生成所述控制信号。
21.根据权利要求20所述的系统,其中,所述控制模块配置成基于所述无声部分的湍流气流信息中的能量将表示所述无声部分的所述信号转换成表示湍流气流的信号,且基于所述能量与来自语音的可能气流之间的关系进行转换。
22.根据权利要求20或21所述的系统,其中,所述表示湍流气流的信号为表示湍流气流信息的所述声学信号的包络。
23.根据权利要求20或21所述的系统,其中,所述信号为表示所述无声部分的信号的差分。
24.根据权利要求20或21所述的系统,其中,所述信号是具有至少一个信号特性的任意信号,其中所述至少一个信号特性指示在所述声学信号中出现湍流信息。
25.根据权利要求24所述的系统,其中,所述信号包括脉冲序列,在所述脉冲序列中每个脉冲的计时均指示出现所述湍流信息。
26.根据权利要求24或25所述的系统,其中,所述信号特性包括峰值、过零点和波谷中的一个或多个。
27.根据前述权利要求中的任一项所述的系统,所述系统还包括至少一个后处理模块。
28.根据权利要求27所述的系统,其中,所述至少一个后处理模块配置为滤波、使用线性或非线性映射、使用选通操作、使用范围限制和/或归一化,以增强发送至所述至少一个后处理模块的信号。
29.根据权利要求27或28所述的系统,其中,所述至少一个后处理模块配置为使用高通滤波器、低通滤波器、带通滤波器、带阻滤波器、移动平均值和中值滤波中的一个或多个对所述信号进行滤波。
30.根据权利要求27至29中的任一项所述的系统,其中,所述至少一个后处理模块包括后特征提取处理模块,所述后特征提取处理模块用于处理表示用于所述候选无声部分的所提取特征的信号,以用于所述分类模块,所述分类模块被配置成基于来自所述后特征提取处理模块的输出来识别所述无声部分。
31.根据权利要求27至30中的任一项所述的系统,其中,所述至少一个后处理模块包括后分类模块,所述后分类模块用于处理表示来自所述分类模块的无声部分的信号,所述控制模块配置成基于来自所述后分类处理模块的输出生成所述控制信号。
32.根据权利要求27至31中的任一项所述的系统,其中,所述至少一个后处理模块包括用于处理来自所述控制单元的所述控制信号的后控制处理模块,所述感官刺激致动器配置成基于来自所述后控制处理模块的输出而输出空气触觉刺激。
33.根据权利要求27至32中的任一项所述的系统,其中,所述至少一个后处理模块包括用于处理来自所述控制单元的所述控制信号的后控制处理模块。
34.根据前述权利要中的任一项所述的系统,其中,所述感官刺激致动器包括光学致动器,所述光学致动器配置成基于来自所述后控制处理模块的输出而输出光学刺激。
35.根据权利要求34所述的系统,其中,所述光学致动器包括位于所述收听者的电子设备中的光源。
36.根据权利要求34或35所述的系统,其中,所述光学刺激包括所述电子设备的背光显示器中的亮度变化。
37.根据权利要求1至33中的任一项所述的系统,其中,所述感官刺激致动器包括体感致动器,所述体感致动器配置成基于来自所述后控制处理模块的输出而输出刺激。
38.根据权利要求1至33中的任一项所述的系统,其中,所述感官刺激致动器包括声音致动器,所述声音致动器配置成基于来自所述后控制处理模块的输出而输出听觉刺激。
39.根据权利要求38所述的系统,其中,所述声音致动器包括主设备的声学子系统和/或扩音器。
40.根据前述权利要求中的任一项所述的系统,其中,所述声学信号包括语音信号。
41.根据权利要求1至39中的任一项所述的系统,其中,所述声学信号包括由湍流声道气流产生的任意信息。
42.根据权利要求1至39中的任一项所述的系统,其中,所述声学信号包括由人工湍流声道气流产生的任意信息。
43.根据权利要求42所述的系统,其中,所述声学信号包括由语音合成系统产生的音频和/或语音、声学信息。
44.根据前述权利要求中的任一项所述的系统,还包括用于接收所述声学信号的接收器。
45.根据权利要求44所述的系统,其中,所述接收器配置为接收来自感应设备的所述声学信号。
46.根据权利要求45所述的系统,其中,所述感应设备包括声学麦克风设备。
47.根据权利要求46所述的系统,其中所述声学麦克风设备包括用于将来自麦克风的所述声学信号变换成数字信号的麦克风数字转换器。
48.根据权利要求44所述的系统,其中,所述接收器配置成接收来自外部声源的所述声学信号。
49.根据权利要求48所述的系统,其中,所述接收器配置成实时接收所述声学信号或接收预先录制的所述声学信号。
50.根据前述权利要求中的任一项所述的系统,还包括后接收器处理模块,所述后接收器处理模块用于从所述声学信号中去除不期望的背景噪声和不期望的非语音声音。
51.根据权利要求1至49中的任一项所述的系统,其中,所述捕获模块配置为从预滤波的语音声学信号中捕获声学语音信号信息。
52.根据权利要求1至49中的任一项所述的系统,其中,所述捕获模块配置为从净化的声学信号中捕获声学语音信号信息而无需滤波。
53.根据前述权利要求中的任一项所述的系统,还包括用于生成所述空气触觉刺激的感官刺激致动器。
54.根据权利要求53所述的系统,其中,所述感官刺激致动器配置为至少部分基于所述控制信号生成所述空气触觉刺激,其中所述控制信号直接来自所述控制模块和/或经由后控制处理模块间接来自所述控制模块。
55.根据权利要求53或54所述的系统,其中,所述感官刺激致动器配置成至少部分基于所述无声部分生成所述空气触觉刺激,所述无声部分直接来自所述分类模块和/或经由后分类处理模块间接来自所述分类模块。
56.根据权利要求53至55中的任一项所述的系统,其中所述感官刺激致动器包括空气触觉致动器。
57.根据权利要求56所述的系统,其中,所述空气触觉刺激包括一股或多股空气喷出和/或气流。
58.根据权利要求53至55中的任一项所述的系统,其中所述感官刺激致动器包括振动触觉致动器。
59.根据权利要求58所述的系统,其中,所述振动触觉致动器配置成基于所述声学信号中的有声部分生成振动触觉刺激。
60.根据权利要求53至55中的任一项所述的系统,其中,所述空气触觉刺激包括用于刺激所述收听者的体感感觉的直接触觉刺激。
61.根据权利要求53至55中的任一项所述的系统,其中,所述感官刺激致动器包括电触觉致动器,所述空气触觉刺激包括用于刺激收听者的体感感觉的电刺激。
62.根据权利要求53至55中的任一项所述的系统,其中所述感官刺激致动器包括光学致动器,所述空气触觉刺激包括光学刺激。
63.根据权利要求53至55中的任一项所述的系统,其中所述感官刺激致动器包括声学致动器,所述空气触觉刺激包括听觉刺激。
64.根据权利要求53至63中的任一项所述的系统,其中,所述感官刺激致动器被配置成将两个或更多不同的所述空气触觉刺激传送给所述听者。
65.根据权利要求64所述的系统,其中,两个或更多个不同的所述空气触觉刺激包括物理轻拍、振动、静电脉冲、光学刺激、听觉刺激以及其他感官刺激中的两种或更多种。
66.根据权利要求64或65所述的系统,其中,使用所述声学信号、由所述特征提取模块从所述声学信号中所提取的特征、来自所述分类模块的所识别的无声部分、或所述信号的表示包含所述湍流气流能量的所述候选无声部分和/或所识别的无声部分的派生物来生成一个或多个所述空气触觉刺激。
67.根据权利要求66所述的系统,其中,所述识别的无声部分包括所述湍流气流信号的逆信号。
68.根据前述权利要求中的任一项所述的系统,其中,所述感官刺激致动器配置成将所述空气触觉刺激传送至所述收听者的皮肤上。
69.根据权利要求1至67中的任一项所述的系统,其中,所述感官刺激致动器配置成将所述刺激传送给所述收听者的任意触觉细胞。
70.一种用于听觉感知的方法,所述方法包括:
通过捕获模块捕获声学语音信号信息;
通过特征提取模块确定识别声学信号中的候选无声部分的特征;
通过分类模块基于所提取的特征来确定所述声学信号是否为无声部分或是否包括无声部分;以及
通过控制模块生成发送至致动器的控制信号,所述致动器用于生成待传送至收听者的空气触觉刺激,所述控制信号至少部分地基于表示所述无声部分的信号。
71.根据权利要求70所述的方法,还包括通过感官刺激致动器将所述空气触觉刺激传送至收听者,其中,所述空气触觉刺激基于来自所述致动器的刺激生成。
72.根据权利要求70或71所述的方法,其中,所述感官刺激致动器包括一个或多个致动器,所述一个或多个致动器配置成以触觉刺激、光学/视觉刺激、听觉刺激和/或任意其他类型的刺激的形式将所述空气触觉刺激信息传送至所述收听者。
CN201580008708.4A 2014-02-14 2015-02-13 用于音频分析和感知增强的系统 Pending CN106030707A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461939974P 2014-02-14 2014-02-14
US61/939,974 2014-02-14
PCT/NZ2015/050014 WO2015122785A1 (en) 2014-02-14 2015-02-13 System for audio analysis and perception enhancement

Publications (1)

Publication Number Publication Date
CN106030707A true CN106030707A (zh) 2016-10-12

Family

ID=53800426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580008708.4A Pending CN106030707A (zh) 2014-02-14 2015-02-13 用于音频分析和感知增强的系统

Country Status (10)

Country Link
US (1) US20170194019A1 (zh)
EP (1) EP3105756A1 (zh)
JP (1) JP2017509014A (zh)
KR (1) KR20160120730A (zh)
CN (1) CN106030707A (zh)
AU (1) AU2015217610A1 (zh)
CA (1) CA2936331A1 (zh)
CL (1) CL2016002050A1 (zh)
SG (1) SG11201605362PA (zh)
WO (1) WO2015122785A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107891448A (zh) * 2017-12-25 2018-04-10 胡明建 一种机械视觉听觉触觉以时间相互映射的设计方法
CN108231084A (zh) * 2017-12-04 2018-06-29 重庆邮电大学 一种基于Teager能量算子的改进小波阈值函数去噪方法
CN108989952A (zh) * 2017-05-31 2018-12-11 恩智浦有限公司 声处理器
CN113272767A (zh) * 2019-06-12 2021-08-17 Ck高新材料有限公司 立体触觉提供装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10451537B2 (en) * 2016-02-04 2019-10-22 Canon U.S.A., Inc. Diffusing wave spectroscopy with heterodyne detection
KR101790892B1 (ko) * 2016-05-17 2017-10-26 주식회사 씨케이머티리얼즈랩 음향 신호를 촉각 신호로 변환하기 방법 및 이를 이용하는 햅틱 장치
KR102077642B1 (ko) * 2017-07-03 2020-02-14 (주)주스 시창평가 시스템 및 그것을 이용한 시창평가방법
KR102648122B1 (ko) * 2017-10-25 2024-03-19 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US7050968B1 (en) * 1999-07-28 2006-05-23 Nec Corporation Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
US20080040104A1 (en) * 2006-08-07 2008-02-14 Casio Computer Co., Ltd. Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and computer readable recording medium
US20080044048A1 (en) * 2007-09-06 2008-02-21 Massachusetts Institute Of Technology Modification of voice waveforms to change social signaling
US20090076814A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Apparatus and method for determining speech signal
CN101507290A (zh) * 2006-08-24 2009-08-12 皇家飞利浦电子股份有限公司 处理音频信号和/或视频信号以便产生触觉激励的设备和方法
CN101606195A (zh) * 2007-02-12 2009-12-16 杜比实验室特许公司 用于年长或听力受损的收听者的改进的语音与非语音音频比值
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
CN103262577A (zh) * 2010-12-08 2013-08-21 唯听助听器公司 助听器和增强语音重现的方法
CN103392349A (zh) * 2011-02-23 2013-11-13 高通股份有限公司 用于空间选择性音频增强的系统、方法、设备和计算机可读媒体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US7050968B1 (en) * 1999-07-28 2006-05-23 Nec Corporation Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
US20080040104A1 (en) * 2006-08-07 2008-02-14 Casio Computer Co., Ltd. Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and computer readable recording medium
CN101507290A (zh) * 2006-08-24 2009-08-12 皇家飞利浦电子股份有限公司 处理音频信号和/或视频信号以便产生触觉激励的设备和方法
CN101606195A (zh) * 2007-02-12 2009-12-16 杜比实验室特许公司 用于年长或听力受损的收听者的改进的语音与非语音音频比值
US20080044048A1 (en) * 2007-09-06 2008-02-21 Massachusetts Institute Of Technology Modification of voice waveforms to change social signaling
US20090076814A1 (en) * 2007-09-19 2009-03-19 Electronics And Telecommunications Research Institute Apparatus and method for determining speech signal
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
CN103262577A (zh) * 2010-12-08 2013-08-21 唯听助听器公司 助听器和增强语音重现的方法
CN103392349A (zh) * 2011-02-23 2013-11-13 高通股份有限公司 用于空间选择性音频增强的系统、方法、设备和计算机可读媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108989952A (zh) * 2017-05-31 2018-12-11 恩智浦有限公司 声处理器
CN108989952B (zh) * 2017-05-31 2022-03-11 汇顶科技(香港)有限公司 声处理器、移动装置以及声处理方法
CN108231084A (zh) * 2017-12-04 2018-06-29 重庆邮电大学 一种基于Teager能量算子的改进小波阈值函数去噪方法
CN108231084B (zh) * 2017-12-04 2021-09-10 重庆邮电大学 一种基于Teager能量算子的改进小波阈值函数去噪方法
CN107891448A (zh) * 2017-12-25 2018-04-10 胡明建 一种机械视觉听觉触觉以时间相互映射的设计方法
CN113272767A (zh) * 2019-06-12 2021-08-17 Ck高新材料有限公司 立体触觉提供装置

Also Published As

Publication number Publication date
US20170194019A1 (en) 2017-07-06
KR20160120730A (ko) 2016-10-18
CA2936331A1 (en) 2015-08-20
SG11201605362PA (en) 2016-07-28
WO2015122785A1 (en) 2015-08-20
CL2016002050A1 (es) 2017-06-09
JP2017509014A (ja) 2017-03-30
AU2015217610A1 (en) 2016-08-11
EP3105756A1 (en) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106030707A (zh) 用于音频分析和感知增强的系统
US11043210B2 (en) Sound processing apparatus utilizing an electroencephalography (EEG) signal
EP3469584B1 (en) Neural decoding of attentional selection in multi-speaker environments
CN105489221B (zh) 一种语音识别方法及装置
CN104700843A (zh) 一种年龄识别的方法及装置
CN103310788A (zh) 一种语音信息识别方法及系统
Huang et al. Speech emotion recognition under white noise
CN109394258A (zh) 一种肺部呼吸音的分类方法、装置及终端设备
CN107547983A (zh) 用于提高目标声音的可分离性的方法和听力装置
Cooke et al. Computational auditory scene analysis: Listening to several things at once
CN204375414U (zh) 一种中医声音信息检测装置
Rawat et al. Emotion recognition through speech using neural network
TWI749663B (zh) 發聲監控之方法及系統
Jhawar et al. Speech disorder recognition using MFCC
Zhu et al. Contribution of modulation spectral features on the perception of vocal-emotion using noise-vocoded speech
CN103892939B (zh) 提高汉语声调识别率的人工耳蜗言语处理器和方法
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
CN109300486A (zh) 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
Cheyne et al. Talker-to-listener distance effects on speech production and perception
CN111150934B (zh) 人工耳蜗汉语声调编码策略的评估系统
Derrick et al. System for audio analysis and perception enhancement
Sedigh Application of polyscale methods for speaker verification
Ying et al. A study of zero-crossings with peak-amplitudes in speech emotion classification
Chen et al. Investigating the relationship between glottal area waveform shape and harmonic magnitudes through computational modeling and laryngeal high-speed videoendoscopy.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161012

WD01 Invention patent application deemed withdrawn after publication