CN1679371B - 传声器和通信接口系统 - Google Patents

传声器和通信接口系统 Download PDF

Info

Publication number
CN1679371B
CN1679371B CN038201674A CN03820167A CN1679371B CN 1679371 B CN1679371 B CN 1679371B CN 038201674 A CN038201674 A CN 038201674A CN 03820167 A CN03820167 A CN 03820167A CN 1679371 B CN1679371 B CN 1679371B
Authority
CN
China
Prior art keywords
microphone
sound
noise
communication interface
interface system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN038201674A
Other languages
English (en)
Other versions
CN1679371A (zh
Inventor
中岛淑贵
庄境诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nat University Corp. Nara I. Of
Original Assignee
NAT UNIVERSITY CORP NARA I OF
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NAT UNIVERSITY CORP NARA I OF filed Critical NAT UNIVERSITY CORP NARA I OF
Publication of CN1679371A publication Critical patent/CN1679371A/zh
Application granted granted Critical
Publication of CN1679371B publication Critical patent/CN1679371B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/46Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Abstract

本发明消除了蜂窝电话和语音识别的分析目标本身的缺陷,其中所述目标是通过传声器从外部采样得到的经由空气传送的正常语音。本发明还实现了一种在个人移动信息终端中基于人类文化行为而不需要进行训练的新的移动终端通信。听诊器式传声器安装在人体皮肤表面以获取由交谈活动(口腔运动)但却没有使用规则声带振动来表达的不可听杂音的经人体传播的振动音。在通过人体传送的经过放大的不可听杂音的振动音与一个耳语相类似并且耳语本身可以被人们听到并得到理解。相应地,振动音可以用于经由蜂窝电话的通信。此外,通过将由人体传送的不可听杂音的振动音作为分析和参数化的目标,可以实现一种作为个人移动信息终端的新的输入方法的无声识别。

Description

传声器和通信接口系统
技术领域
本发明涉及一种传声器和通信接口系统,特别地,本发明涉及一种对包含了经由内部软组织(在下文中将其称为“人体传导”)传送的不可听(non-audible)呼吸音的振动音(在下文中将其简称为“不可听杂音(non-audible murmur)”)进行采样的传声器,以及一种使用该传声器的通信接口系统,其中呼吸音是由关联于发声器官运动的共振滤波器特征变化表示的,并且呼吸音中不包含规则声带振动,此外,呼吸音指的并不是周围的人听到的声音,而是包含一个很小的呼吸流速(呼气流速和吸气流速)。
背景技术
蜂窝电话的迅速普及为在火车或公共汽车之类的公共交通设施中交谈的方式带来了问题。蜂窝电话与先前模拟电话结构使用的是基本相同的接口;并且蜂窝电话获取的是通过空气传送的声音。因此,非常不利的是,当某个被他人围绕的用户使用蜂窝电话交谈的时候,在他周围的人可能会受到打扰。很多人应该都曾经有过在火车上听到某些人用蜂窝电话交谈时的不愉快感受。
此外,作为空气传导的本质缺陷,交谈内容会被周围的人听到,因此信息有可能会被泄漏,并且很难对这种公开进行控制。
另外,如果与使用蜂窝电话的用户交谈的人在一个背景噪声嘈杂的地方说话,那么用户可能无法很好地接听这个人说出的话语,其中在所述话语中混杂了背景噪声。
另一方面,语音识别是一种具有大约三十年历史的技术。现在,借助于大词汇表连续语音识别等技术,在听写方面,语音识别展示出了至少90%的字识别率。语音识别是一种将数据输入诸如可穿戴计算机之类的个人便携信息终端或是机器人的方法,这种方法不需要任何特殊的学习技术,因此任何人都可以使用这种方法。此外,当前还期待语音识别成为一种使用音标语言的方法,这种方法长期作为一种直接传送信息的人类文化而被人们所熟悉。
然而,从模拟电话时代以来或者从开始开发语音识别技术以来,语音输入技术长期并且始终处理的是由远离口腔的外部传声器所采样的声音。尽管使用了方向性很强的传声器并且为了减少噪声而对硬件和软件进行了改进,但是分析目标始终是一个从口腔发出并经由空气传送到外部传声器的声音。
那些对经由空气传送的常规声音进行分析的语音识别具有非常久远的发展历史。此外,目前还开发了易于操纵的语音识别产品。事实上,通过与命令识别以及听写相联系,这些产品足以精确到能在实践中恰当地应用于无声环境。但是,实际上很少会使用这些产品来将数据输入计算机或机器人;并且这些产品仅仅用在某些车辆导航系统中。
这是因为空气传导存在一个本质缺陷,那就是不可避免地混杂了外部背景噪声。即使在寂静的办公室中,也还是会在意料不到的场合中出现各种噪声,由此将会导致出现错误识别。如果在机器人体表提供声音采样设备,那么作为声音提供的信息有可能会因为背景噪声而被错误识别。这种声音可能会转变成一个非常危险的命令。
与此相反,在无声环境中使用语音识别技术所存在的问题是:对周围的人来说,所发出的声音与噪声是一样的。除非将房间分割成很多个部分,否则多数人是很难在办公室使用语音识别技术的。在实践中,使用语音识别技术同样是非常困难的。
与此相关的是,“以说话谨慎为美”和“怯于说话”这种日本人的举止是日本文化的特征,这同样是抑制语音识别普及的因素。
这个缺陷是非常严重的,这是因为在将来,在户外或交通工具中使用个人便携信息终端的机会将会显著增加。
目前尚未开始在假定全球网络环境或个人便携终端可用的情况下研究和开发语音识别技术。由于无线和可穿戴产品将会逐渐普及,因此在通过有线或无线方式发送信息之前,使用个人便携信息终端而从视觉上检查并校正语音识别结果,这样做将会更为安全。
如上所述,对蜂窝电话和语音识别而言,由于分析目标可能混杂或出现噪声,因此目标本身就存在缺陷,并且还可能会泄漏信息,另外,校正也是非常困难的;对蜂窝电话和语音识别而言,通过空气传送并用外部传声器采样的正常语音信号都转换成了用于分析的参数。
目前较为理想的是从根本上消除这些缺陷,以便提供一种能向那些在当前或不远的将来使用的个人便携信息终端中输入数据的新的方法。这种方法非常简单,它不需要训练,并且是以长久的人类文化实践为基础的。此外,较为理想的是提供一种使用该方法的设备。
目前已知的是,基于骨传导的方法使用了与空气传导不同的装置来采样正常的语音信号。骨传导的原理在于:当振动声带而发出声音时,声带振动将会传送到颅骨中,并且进一步传送到螺旋形蜗形轮(内耳),在这里将会振动淋巴,以便产生一个电信号,该信号被发送到听觉神经,以使大脑识别声音。
骨传导扬声器使用的是声音经由颅骨传送这个骨传导原理。骨传导扬声器将声音转换成振动器振动,并且将振动器与耳朵、耳周围的骨骼、太阳穴或乳突骨相接触,以便将声音传送到颅骨。相应地,在这里还使用了骨传导扬声器,以使那些耳膜或听小骨不适而在听觉上存在障碍的人或是高龄的人易于在背景噪声嘈杂的环境中听到声音。
例如,JP59-191996A公开了一种使用了骨传导和空气传导而将振动器与颅骨的乳突骨相接触的接听仪器技术。然而,在这份出版物中公开的技术并未描述一种用于对人的语音进行采样的方法。
JP50-113217A公开了一种允许用户使用耳机和装在颅骨的乳突骨上的振动器来接听通过传声器采样的声音以及通过喉结上安装的传声器采样的声音的声音再现设备技术,这两种声音都是从口腔发出并且通过空气传送的。然而,在这份出版物所公开的技术并未描述一种在乳突骨紧下方安装传声器来对人的语音进行采样的方法。
JP4-316300A公开了一种耳机式传声器和一种使用该传声器的语音识别技术。在这份出版物所公开的技术中,其中对规则振动声带所发出的声音或是咬牙音之类的内部声音进行采样;所述振动则从口腔通过鼻子并经由耳咽管以及耳膜传送到外耳,外耳包含了外耳道和外耳空腔。该出版物坚持认为,即使对低语这种很小的声音而言,该技术也能够避免出现或混杂噪声、并且能够避免出现信息泄漏以及校正与采样方面的困难。然而,这份出版物所公开的技术并未清楚显示可以对在没有规则振动声带时发出的不可听杂音进行采样。
JP5-333894A公开了一种耳机式传声器以及使用该传声器的语音识别技术,其中包含了一个振动传感器,它对规则振动声带发出的声音以及咬牙音之类的身体信号进行检测。在这份出版物所公开的技术中,其中清楚显示:将耳孔、耳外围、头部表面或是脸部表面作为振动传感器所在位置。振动传感器所采样的身体振动仅仅用于以可分类方式而从传声器采样的全部信号中提取那些在说话者说话的时间间隔得到的信息,并且将那些以可分类的方式提取的信号输入到语音识别设备中。然而,这份出版物所公开的技术并未清楚显示可以将身体振动用作语音识别设备的输入,或是将其用于经由蜂窝电话的交谈。此外,这种技术也没有清楚显示可以将那些在没有规则振动声带的情况下发出的不可听杂音用作语音识别设备的输入,或是将其用于经由蜂窝电话的交谈。
JP60-22193A公开了一种只对经过采样并通过空气传送的传声器信号中的某个与时间间隔相对应的信息进行分类和提取的技术,其中该时间间隔是喉结上安装的喉式传声器或耳机式骨传导传声器检测身体振动以及将所分类和提取的信号输入语音识别设备的时间间隔。然而,这份出版物公开的技术并未清楚显示可以将身体振动用作语音识别设备输入,或者将其用于经由蜂窝电话的交谈。另外这种技术也没有清楚显示可以将那些在没有规则振动声带的情况下发出的不可听杂音用作语音识别设备输入,或者将其用于经由蜂窝电话的交谈。
JP2-5099A公开了一种通过结合一个对正常空气传导进行采样的传声器信号来判定咽喉上安装的喉式传声器或振动传感器检测规则的声带振动的发声时间间隔、并且还判定不检测声带常规振动而能量却处于预定电平或更高电平时的不发声时间间隔,以及能量处于预定电平或更低电平时的无声时间间隔。然而,这份出版物公开的技术并未清楚显示可以将身体振动用作语音识别设备输入或者将其用于经由蜂窝电话的交谈。此外,这种技术也没有清楚显示可以使用在没有规则振动声带的情况下发出的无法听到的杂音作为语音识别设备输入,或者将其用于经由蜂窝电话的交谈。
本发明的一个目的是提供一种传声器和通信接口系统,所述传声器和系统能够避免混杂声学背景噪声,并且使用了不可听声音来防止周围的人听到说话内容,由此可以控制信息泄漏,此外,所述传声器和通信接口系统能够避免影响到办公室或类似环境中的无声环境,并且传声器和通信接口系统能够传送和输入声音信息,以便为计算机、蜂窝电话或可穿戴计算机之类的个人便携信息终端提供一个新的输入接口。
发明内容
本发明涉及的是经由蜂窝电话之类的远程对话介质来进行交谈的领域,并且还涉及了基于语音识别的命令控制的领域以及字符和数据之类的信息输入的领域。与通过使用远离口腔的传声器来采样通过空气传导传送的声音的处理(这其中包括通过规则振动声带发出的并为周围的人所听到的包含了较高呼气流速的正常声音,通过规则振动声带发出并且没有被周围的人听到的包含了较低呼气流速的杂音,以及通过规则振动声带时发出并为周围的人所听到的包含了较低呼气流速的耳语)所不同,本发明改为使用一个安装在颅骨乳突骨(耳后凸骨)紧下方的胸锁乳突肌(sternocleidomastoid)皮肤上的传声器,也就是说,传声器安装在外耳之后的皮肤底部上(在下文中将这个安装位置称为“乳突骨紧下方”的位置),其中传声器对包含了经由内部软组织传送的不可听呼吸音在内的振动音(在下文中将其称为“不可听杂音”)进行采样,并且呼吸音是由关联于发声器官运动的共振滤波器特性变化表示的,所述呼吸音并不包含规则声带振动,并且在这里不希望呼吸音被周围的人听到,此外,所述呼吸音包括一个很小的呼吸流速(呼气的流速和吸气流速)。这样可以避免混杂背景噪声,并且可以使用一个不可听音来防止周围的人听到谈话内容,由此可以控制信息泄漏。此外,在这里还可以避免破坏到办公室等等的无声环境,并且可以传送和输入语音信息,以便为诸如计算机、蜂窝电话或可穿戴计算机之类的个人便携信息终端提供新的输入接口。
因此,对依照本发明第一方面的传声器而言,对由关联于发声器官运动的共振滤波器特性变化表达的不可听杂音之一进行采样,所述不可听杂音不包含规则声带振动,并且所述不可听杂音是在通过内部软组织传送外部无法听到的呼吸音时产生的振动音、在没有规则振动声带时发出的可听耳语、通过规则振动声带发出并且包含了低音或杂音的声音、以及诸如咬牙声和用舌头发出的啧啧声之类的不同声音,此外,所述传声器的特征还在于:该传声器安装在颅骨乳突骨紧下方的胸锁乳突肌的皮肤表面上,也就是安装在外耳后的皮肤下部。由此可以对用于经由蜂窝电话之类设备传送的语音等等的不可听杂音或是用于语音识别处理的不可听杂音进行采样。此外,在这里还可以用单个设备来对不可听杂音之外的可听音进行采样。
本发明第二方面是依照第一方面的传声器,包含了一个安装在皮肤表面的膜片以及粘在膜片上的吸盘。这种结构允许膜片固定吸盘并且在一个微小的封闭空间中引发回声。此外,通过将单独的膜片粘在体表,可以在任何时候安装和取下吸盘。
本发明第三方面是依照第一或第二方面的传声器,它与一个装在头部的物体整合,例如眼镜、头戴式耳机、耳挂式耳机、帽子或戴在人的头部的头盔。在这里可以通过整合传声器与戴在头上的物体来安装传声器,以免看上去过于奇怪。
依照本发明第四方面的通信接口系统,它包含了依照第一至第三方面中任何一个的传声器,以及一个信号处理设备,其中所述信号处理设备对传声器采样的信号进行处理,并且信号处理设备所处理的结果将被用于通信。此外它还可以为那些与传声器所采样的不可听杂音相对应的信号执行诸如放大或调制之类的处理,然后由便携终端照现在的样子而将这些经过处理的振动音用于通信,或者在将振动音转换成参数之后而将其用于通信。如果将处理结果用于蜂窝电话,那么,被他人围绕的用户可以进行交谈,而不使周围的人听到交谈内容。
本发明第五方面是依照第四方面的通信接口系统,信号处理设备包含了一个对经由传声器采样的信号进行量化的模数转换部分,一个对模数转换部分的量化结果进行处理的处理器部分,以及一个将处理器部分的处理结果传送到外部设备的发射部分。举例来说,对这种结构而言,移动电话网络中的设备可以按照原样而对经过处理的振动音进行处理,也可以在将声音转换成参数化信号之后再对其进行处理。并且这种处理可以简化信号处理设备的结构。
本发明第六方面是依照第四方面的通信接口系统,信号处理设备包括一个对传声器所采样的信号进行量化的模数转换部分,以及一个将模数转换部分的量化结果传送到外部设备的发射部分,并且其特征还在于:由外部设备来对量化结果进行处理。举例来说,对这种结构而言,移动电话网络中的设备可以对量化结果进行处理。并且这种处理可用于简化信号处理设备的结构。
本发明第七方面是依照第五方面的通信接口系统,信号处理设备包括一个对传声器所采样的信号进行量化的模数转换部分,一个对模数转换部分的量化结果进行处理的处理器部分,以及一个对处理器部分的处理结果执行语音识别处理的语音识别部分。对不可听杂音而言,借助于以这种方式配置的信号处理设备,可以照原样对相应于已处理振动音的信号进行语音识别处理,也可以在将其转换成参数之后对其进行语音识别处理。
本发明第八方面是依照第七方面的通信接口系统,它还包括一个将语音识别部分的语音识别结果传送到外部设备的发射部分。其中通过将语音识别结果传送到例如移动电话网络,可以将语音识别结果用于不同的处理。
本发明第九方面是依照第五方面的通信接口系统,移动电话网络中的设备对处理器部分的处理结果执行语音识别处理,其中该结果由发射部分传送。在移动电话网络中的设备由此执行语音识别处理时,可以对信号处理设备的结构进行简化。
本发明第十方面是依照第五方面的通信接口系统,信号处理设备所执行的信号处理是一个调制处理,其中处理部分将信号调制成一个可听音。这种调制处理允许进行借助于蜂窝电话或是类似设备的交谈。
本发明第十一方面是依照第十方面的通信接口系统,调制处理将声带基频应用于不可听杂音,以便将不可听杂音转换成包含了声带规则振动的可听音。变形处理或类似处理允许进行经由蜂窝电话的交谈。并且可以使用共振峰频率与基频之间的公知关系来计算声带基频。也就是说,可以根据不可听杂音的共振峰频率来设想声带基频。
本发明第十二方面是依照第十方面的通信接口系统,调制处理将不包含规则声带振动的不可听杂音频谱转换成使用规则声带振动发出的可听音频谱。这种转换为可听音频谱的处理允许使用信号来进行经由蜂窝电话的交谈。
本发明第十三方面是依照第十二方面的通信接口系统,调制处理使用不可听杂音频谱和一个语音识别设备来识别诸如音节、半音节、音素、双连接音素(two juncturte phoneme)以及三连接音素之类的语音单元,此外还使用了语音合成技术而将所识别的音标单元转换成使用规则声带振动发出的可听音。由此可以使用合成语音来进行交谈。
本发明第十四方面是依照第四至第十三方面中任何一个的通信接口系统,输入增益是依照通过传声器采样的动态声音范围的大小而被控制的。由此可以依照动态范围大小来对信号进行恰当处理。输入增益可以用基于公知的自动增益控制的模拟电路或软件来加以控制。
本发明第十五方面是依照第七或第八方面的通信接口系统,语音识别部分使用了以下声音中的至少一种声音的声学模型来恰当执行语音识别,其中所述声音包括不可听杂音、可以听到但却是在没有规则振动声带时说出的耳语、规则振动声带并且包含了低音或杂音的声音,以及诸如咬牙声和用舌头发出的啧啧声之类的不同声音。由此可以为不可听杂音之外的可听音执行恰当的语音识别。本领域技术人员很容易依照隐式马尔可夫模型来构造这些不同声音中的任何一种声音的声学模型。
总而言之,本发明使用了不可听杂音(NAM)来进行通信。与使用舌头,嘴唇、下巴以及软腭之类的发音器官以及规则振动声带所发出的正常的声音几乎相同的是,不可听杂音是由其共振滤波器的特性变化表示的,并且是经由人体传送的。
依照本发明,使用微小封闭空间中的回声的听诊器式传声器安装在乳突骨紧下方并与之紧密接触。当放大和接听那些在通过人体传送传声器所采样的不可听杂音时得到的振动音的时候,可以将所述振动音判定成类似耳语的人的声音。此外,在正常环境中,1米半径以内的人是不会听到这个声音的。此外,在这里还对那些经由人体而不是空气传送并由传声器采样的不可听杂音的时候获取的振动音进行分析,并且将其转换成参数。
在经过放大之后,从人体传送中产生的振动音可以为人们所接听和理解。因此,振动音可以按照原样用于经由蜂窝电话的交谈。此外也为该声音执行变形处理,以便将其转换成可听音,从而将其用于经由蜂窝电话的交谈。
另外,语音识别可以通过使用常用于语音识别的隐式马尔可夫模型(在下文中有时候将其简称为“HMM”)来加以执行,以便用那些在经由人体传送不可听杂音时获取的振动音的声学模型来替换正常声音的声学模型。由此可以识别无声状态。并且这样一来,本发明可被用作一种将数据输入个人便携信息终端的全新方法。
如上所述,本发明建议将不可听杂音用作人与人或人与计算机之间的通信接口。
附图说明
图1是显示将依照本发明的通信接口系统应用于蜂窝电话系统的结构的框图;
图2是显示将依照本发明的通信接口系统应用于语音识别系统的结构的框图;
图3A和3B是显示依照本发明的传声器实例的外形的视图;
图4是显示依照本发明的传声器实例的外形的垂直截面图;
图5是显示安装了依照本发明的传声器的位置的视图;
图6是显示在甲状软骨(喉结)上安装传声器时采样得到的振动音波形的视图;
图7是显示在甲状软骨(喉结)上安装传声器时采样得到的振动音频谱的视图;
图8是显示在颚底面安装传声器时采样得到的振动音波形的视图;
图9是显示在颚底面安装传声器时采样得到的振动音频谱的视图;
图10是显示在耳旁部分(或下颌骨拐角)安装传声器时采样得到的振动音波形的视图;
图11是显示在耳旁部分(或下颌骨拐角)安装传声器时采样得到的振动音频谱的视图;
图12是显示在脖颈部分侧面安装传声器时采样得到的振动音波形的视图;
图13是显示在脖颈部分侧面安装传声器时采样得到的振动音频谱的视图;
图14是显示在乳突骨紧下方安装传声器时采样得到的振动音波形的视图;
图15是显示在乳突骨紧下方安装传声器时采样得到的振动音频谱的视图;
图16是显示在乳突骨上安装传声器时采样得到的振动音波形的视图;
图17是显示在乳突骨上安装传声器时采样得到的振动音频谱的视图;
图18是显示在颧骨(耳前侧面头部)上安装传声器时采样得到的振动音波形的视图;
图19是显示在颧骨(耳前侧面头部)上安装传声器时采样得到的振动音频谱的视图;
图20是显示在面颊部分(口腔侧)安装传声器时采样得到的振动音波形的视图;
图21是显示在面颊部分(口腔侧)安装传声器时采样得到的振动音频谱的视图;
图22是显示标准的外部传声器所采样的正常声音、标准的外部扬声器所采样的耳语以及依照本发明并安装在耳旁位置的体表安装类型的听诊器式传声器所采样的不可听杂音的声音波形和频谱的比较关系的视图,其中所述耳旁位置并不是依照本发明的位置;
图23是显示在依照本发明的安装位置使用体表安装的听诊器式传声器所采样的不可听杂音的声音波形、频谱和FO(从声带常规振动中产生的基频)的视图;
图24是显示在依照本发明的安装位置使用体表安装的听诊器式传声器所采样的不可听杂音频谱的自动标记结果以及使用了不可听杂音模型的HMM语音识别结果的视图;
图25是显示用于根据不可听杂音所创建的HMM声学模型的送受话器(混和正态分布中的混和数目为16)定义文件初始部分的视图;
图26是显示使用了引入到大词汇表连续语音识别系统中的声学模型的不可听杂音识别结果的视图;
图27是显示自动分配音段结果的图示;
图28是显示字识别性能的表格;
图29是显示整合到眼镜中的传声器的视图;
图30是显示整合到头戴式耳机中的传声器的视图;
图31是显示整合到耳挂式耳机中的传声器的视图;
图32是显示整合到帽子中的耳机的视图;
图33是显示整合到头盔中的耳机的视图;
图34是显示通信接口系统变体的框图;
图35是显示另一种通信接口系统变体的框图;
图36是显示具有语音识别处理功能的通信接口系统的变体的框图;
图37是显示图36中的通信接口系统的变体的框图。
具体实施方式
现在将参考附图来对本发明实施例进行描述。在以下描述所引用的各个图中,与其他图中的部件相类似的部件是用相同附图标记表示的。
日语发音大部分是使用呼吸作用的呼气来完成的。以下将对使用呼气发出的不可听杂音进行描述。然而,本发明也可以结合使用吸气发出的不可听杂音而被加以实施。
此外,不可听杂音不必被周围的人听到。关于这一点,不可听杂音与意图被周围的人听到的耳语存在差别。本发明的特征在于:不可听杂音是用一个使用人体传导而不是空气传导的传声器来采样的。
(蜂窝电话系统)
图1是显示将依照本发明的通信接口系统应用于蜂窝电话系统的结构的示意图。
听诊器式传声器1-1是通过将其粘在乳突骨1-2紧下方而被安装的。耳机或扬声器1-3安装在耳孔处。
听诊器式传声器1-1和耳机1-3使用了有线或无线通信装置与蜂窝电话1-4相连。并且在这里也可以使用扬声器而不是耳机1-3。
举例来说,无线网络1-5包括无线基站51a和51b、基站控制设备52a和52b、交换局53a和53b以及通信网络50。在本实例中,蜂窝电话1-4与无线基站51a进行通信。蜂窝电话1-6与无线基站51b进行通信。由此可以在蜂窝电话1-4与1-6之间进行通信。
与通过使用舌头、嘴唇、颚和软腭的发音器官的说话运动来规则振动声带而发出的正常声音几乎相同的是,用户在没有规则振动声带的情况下发出的不可听杂音是由它的共振滤波器特性变化来表示的。然后,不可听杂音经由人体传送并且到达乳突骨1-2紧下方的位置。
听诊器式传声器1-1安装在乳突骨1-2紧下方,它对到达乳突骨1-2紧下方位置的不可听杂音1-7的振动音进行采样。电容式传声器则将振动音转换成电信号。而有线或无线通信装置则将该信号传送到蜂窝电话1-4。
传送到蜂窝电话1-4的不可听杂音的振动音经由无线网络1-5传送到与蜂窝电话1-4的用户交谈的某个人所携带的蜂窝电话1-6。
另一方面,与蜂窝电话1-4的用户交谈的人的声音是使用有线或无线通信装置并且经由蜂窝电话1-6、无线网络1-5以及蜂窝电话1-4传送到耳机或扬声器1-3的。如果用户直接通过蜂窝电话1-4接听该人的声音,则不需要耳机1-3。
这样一来,用户可以与携带蜂窝电话1-6的人进行交谈。在这种情况下,由于发出的是不可听杂音1-7,因此举例来说,这种杂音不会被站在半径1米以内的人听到。此外,这种对话也不会干扰到那些站在半径1米以内的人。
简言之,在本实例中,通信接口系统包括充当信号处理设备的传声器与蜂窝电话的组合。
(语音识别系统)
图2是显示将依照本发明的通信接口系统应用于语音识别系统的结构的示意图。
与图1的情况一样,听诊器式传声器1-1是通过粘在乳突骨1-2紧下方而被安装的,也就是说,该传声器安装在颅骨后面的体表部分的下部。
与通过使用舌头、嘴唇、颚以及软腭的发音器官的说话运动来规则振动声带所发出的正常声音几乎相同的是,用户在发出“konnichiwa”时获取的不可听杂音1-7是由它的共振滤波器特性变化表示的。然后,不可听杂音1-7经由人体传送并且到达乳突骨1-2紧下方的位置。
听诊器式传声器1-1对到达乳突骨1-2紧下方位置的不可听杂音“konnichiwa”1-7的振动音进行采样。然后,有线或无线通信装置将信号传送到个人便携信息终端2-3。
引入个人便携信息终端2-3的语音识别功能对传送到个人便携信息终端2-3的不可听杂音“konnichiwa”的振动音进行识别,以此作为语音“konnichiwa”。
作为语音识别结果的字串“konnichiwa”则经由有线或无线网络2-4传送到计算机2-5或机器人2-6。
计算机2-5或机器人2-6产生一个与字串对应并由声音或图像构成的响应。并且计算机2-5或机器人2-6经由有线或无线网络2-4而将响应返回给个人便携信息终端2-3。
个人便携信息终端2-3使用语音合成或图像显示功能而向用户输出该信息。
在这种情况下,由于发出的是不可听杂音,因此它不会被站在半径1米以内的人所听到。
简言之,在本实例中,通信接口系统包括充当信号处理设备的传声器和蜂窝电话的组合。
(传声器的结构)
图3A和3B是听诊器式传声器1-1的截面图,这也是本发明的重点所在。为了根据人体传导来感测体表传播的微弱振动,首先绝对有必要改进作为声音收集器的传声器。使用医学膜片式听诊器的实验结果表明,通过将听诊器应用于头部某个位置,可以听到呼吸音。该结果还显示,与规则振动声带发出声音的情况一样,说话运动的增加将会允许用声域共振滤波器特性来表示不可听杂音的呼吸音;由此可以听到与耳语相类似的声音。因此,发明人认为在这种膜片式听诊器的微小封闭空间中应用回声的方法是非常有效的。
为了实现将听诊器与体表紧密接触的方法以及终日将其安装在体表的结构,发明人使用了图3A和3B所示的结构。也就是说,由聚酯构成并具有粘合面的环形膜片3-3(与听诊器薄膜相对应的膜片)与吸盘部分3-9相结合,其中所述吸盘部分3-9粘在膜片3-3上。合成树脂吸盘(合成橡胶树脂)3-2是在吸盘部分3-9中提供的。并且在这里使用了粘在膜片3-3表面的合成树脂吸盘3-2作为传声器。
膜片3-3既起到了固定吸盘部分3-9和传送振动的作用,又起到了固定吸盘和在微小封闭空间中产生回声的作用。由此始终能够通过将单个可处理膜片粘在体表来安装或取下吸盘部分3-9。此外,电容式传声器3-1内嵌在吸盘部分3-9的把手部分中。并且周围的合成树脂还提供了隔音功能。把手部分则是用特殊合成橡胶所构成的隔音绝缘胶部分3-6覆盖的,由此可以防止AV(视听)设备振动。间隙部分3-8是用环氧树脂胶填充的,由此提高了隔音效果和密封性。
以这种方式配置的传声器对从外部直接噪声中脱离的身体中的微弱振动进行检测。相应地,传声器始终与体表紧密接触。此外,传声器还在医学膜片式听诊器中的微小封闭空间中利用回声原理。由此,在这里可以使用膜片和吸盘来构成一个微小的封闭空间。
听诊器式传声器很轻并且非常廉价。发明人进行了终日佩戴传声器的实验。传声器并未离开过体表。而且,与便携式音乐设备的头戴式耳机相比,传声器只覆盖了一个很小的区域,因此所述传声器并没有使发明人觉得不愉快。
(传声器放大器)
驱动电容式传声器3-1所需要的传声器放大器是使用一个可以买到的单耳传声器放大器工具生产的。发明人生产了作为分离设备的传声器放大器,其大小与香烟盒一样。数据经由传声器放大器输入到计算机的数字采样音源卡中。这些组件可以缩小尺寸并且可以由芯片构成,此外在这里也可以用无线方式来进行操作。并且可以将这些组件嵌入到间隙部分3-8以及声音绝缘胶部分3-6中。
通过将传声器放大器的输出端直接连接到音频设备主放大器的外部输入端,可以接听到不可听杂音。在这里可以将谈话内容判定并理解成与耳语相类似的声音。发明人还发现,通过在胸部安装传声器,可以用传声器来代替听诊器;此外还可以听到呼吸音、心跳以及心脏噪声。而不可听杂音的声音信号则包含了声域共振滤波器的特性。相应地,即使在用当前蜂窝电话所使用的声音混合编码技术PSI-CELP(基音同步更新-码激励线性预测编码)压缩之后,也可以通过为信号提供一个处于基频的声源波形来使用该信号。此外,该信号还可以转换成一个与正常声音相类似的声音。
(传声器的安装位置)
听诊器式传声器安装在图4和5所示的位置。以下将会相对于传声器在其他位置的安装而对此进行描述。
在很多位置都可以听到不可听杂音,这些位置包括下颌、耳旁部分以及颈部侧面。图6~21显示的是用安装在甲状软骨(喉结)、颚底面、耳旁部分(下颌骨拐角)、颈部侧面、乳突骨紧下方或乳突骨上、颧骨(耳前头部)或面颊部分(口腔侧)的听诊器式传声器而以不可听杂音形式发出的声音“kakikukekotachitsutetopapipupepobabibubebo”。
(安装在甲状软骨上)
图6和图7分别显示的是在甲状软骨(喉结)上安装听诊器式传声器时获取的不可听杂音的波形和频谱。
如图6所示,在这里可以用更高的功率来对不可听杂音的振动音进行采样。然而,与元音相比,辅音具有过高的功率并且在大多数情况下都会溢出(图7中垂线)。溢出的辅音听起来就像是爆炸并且无法得到接听。而减小传声器放大器增益则可以避免溢出。然而如图7所示,这将会阻止在元音频谱中观察到只有在五元音情形(quintphthong)中固有的共振峰中的差别,并且在集中于这种声音的时候是不能清楚识别音素的。
(安装在颚、耳旁部分或侧面颈部的下面)
图8和9分别显示的是在颚底面安装听诊器式传声器时获取的不可听杂音的波形和频谱。图10和11分别显示的是在耳旁部分(下颌骨拐角)安装听诊器式传声器时获取的不可听杂音的波形和频谱。图12和13分别显示的是在颈部侧面安装听诊器式传声器时获取的不可听杂音的波形和频谱。
如图8、10和12所示,当在颚、耳旁部分或侧面颈部底面安装听诊器式传声器时,声音波形往往会溢出。这样则很难通过调整传声器放大器增益来阻止溢出。并且辅音的幅度有可能会溢出。相应地,传声器放大器增益必须急剧减少,以免溢出所有辅音幅度。如图9、11和13所示,增益下降将会减弱元音的共振峰能量,由此很难对元音进行区分。在用户仔细接听语音时,幅度溢出的辅音听起来就像是爆炸。用户可以听到已知的语句,但却无法听到未知的语句。
(安装在乳突骨紧下方)
图14和15分别显示的是在乳突骨紧下方安装听诊器式传声器时获取的声音波形和频谱。
如图14所示,与其他位置相比,显著增加增益不会导致辅音溢出。相应地,用户在调整传声器放大器增益方面是没有困难的。此外,与其他位置相比,在这里,元音和辅音都是发音清晰的。
(安装在乳突骨上)
图16和17分别显示的是在乳突骨上安装听诊器式传声器时获取的不可听杂音的波形和频谱。
如图16所示,与图14相比,辅音清晰度与元音几乎是相同的,但是功率则明显很低。偶尔观察到的噪声是从头发中产生的。由于听诊器式传声器的膜片与头发相接触,因此很可能会获取到来自头发的噪声。
(安装在颧骨上)
图18和19分别显示的是在颧骨部分(耳前侧头部)安装听诊器式传声器时获取的不可听杂音的波形和频谱。
如图18和19所示,与处于乳突骨紧下方的情况一样,元音与辅音的清晰度以及功率比都是非常好的。然而,信号中包含了从颚的运动中产生的噪声。如果可以降低噪声效应,那么颧骨部分(耳前侧头部)将会是次于乳突骨紧下方位置的最佳安装位置。
(安装在面颊部分)
图20和21分别显示的是在面颊部分(口腔侧)安装听诊器式传声器时获取的不可听杂音的波形和频谱。
如图20所示,由口腔运动产生的噪声很容易包含在信号中。因此,很多辅音幅度都是溢出的。然而,在这个位置有可能会出现第三个(很少会出现第四个)共振峰。
(关于安装位置的结果论述)
如上所述,在将听诊器式传声器安装在甲状软骨(喉结)、颚底面、耳旁部分(下颌骨拐角)、颈部侧面或面颊部分(口腔侧)的时候,与人体传导相关联的是,诸如摩擦音和爆破音之类的辅音具有很高的功率并且听起来就像是爆炸一样。与此相反,元音和半元音是根据声域中的空气共振结构差值来对彼此进行区分的。因此,元音和半元音具有很低的功率。但实际上,当使用通过在这些位置之一安装听诊器式传声器采样的声音而创建声学模型时,所得到的系统相对容易识别元音,但却无法对辅音进行区分。
另一方面,在将听诊器式传声器安装在乳突骨或颧骨部分(耳前侧头部的一部分)时,辅音幅度并未溢出,但是与人体传导相比,骨传导通常不易于传送振动。此外,所获取的声音很小,并且信噪比也很低。
在这里为在乳突骨紧下方安装听诊器式传声器所采样的图14的波形以及在乳突骨上安装听诊器式传声器所采样的图26的波形测量了信噪比。对前一种波形来说,测量结果是19分贝,对后一种波形来说,测量结果则是11分贝。因此,在这些波形之间存在一个8分贝的很大差别。在语音识别引擎Julius(二万字等级)中,这个差值对应于在性能方面提升30%(60到90%),其中所述引擎是一个用于日语听写的免费基本软件。
因此,作为不同位置获取的语音识别速率的比较结果,在这里确定乳突骨紧下方位置的元音峰值功率与辅音峰值功率之比最接近值“1”。
(乳突骨紧下方的位置)
以下参考图4来对所述位置的所在之处进行详细描述。
在听诊器式传声器1-1的膜片中心处于颅骨乳突骨4-12紧下方位置4-13时,可以得到元音-辅音功率比的最佳位置。
同样,图5显示的是双圆周中的乳突骨紧下方位置,并且该位置是安装听诊器式传声器的最佳位置。
这个最佳安装位置没有头发、髭或胡须。如果用户头发很长,那么传声器完全隐藏在外耳和头发之间。此外,与其他位置相比,最佳安装位置具有很厚的软组织(肌肉等等)。在这个位置,信号不会与通过舌头、嘴唇、颚、软腭之类的发音器官的说话运动所产生的噪声混杂。此外,该位置处于躯体内部的一个没有骨骼的间隙中。由此可以以很高的增益来获取不可听杂音的振动音。
在将听诊器应用于体表来侦听内部声音时,由于骨骼会将内部声音反射到身体内部这一事实,医生通常会努力避免将听诊器放在骨骼上。因此,发明人得出一个结论,那就是对安装听诊器式传声器而言,图4和5所示的位置是最优的。
(正常声音、耳语以及不可听杂音的波形和频谱)
图22显示的(使用外部传声器采样的)正常声音、耳语以及在不同于依照本发明的安装位置上得到的(通过使用与体表紧密接触的原始传声器而被采样的)常规不可听杂音的声音信号和频谱。在这种情况下,不可听杂音是通过将传声器安装在耳旁位置而被采样的。当音量增加直至将共振峰拉至达元音时,用于辅音的声音信号功率往往会溢出。
图23和24显示的是在图4所示的最佳位置安装的传声器所采样的不可听杂音的声音信号和频谱。图23显示的是从规则声带振动中产生的基频F0,但所述基频实际并未出现在不可听杂音中。该图还显示,在这里相对恰当地保持了包含音素特性的低频区域共振峰结构。
在这里使用了如上采样并无法被人们听到的低语,并且在这里将保持了音素平衡的说明性语句全都朗读了四次。所获取的声音是用数字方式而在16kHz频率上进行16位采样的。作为说明性语句,在这里使用的是那些能够从ATR Sound Translation CommunicationResearch Center获取的503 ATR(高级电信研究)音素平衡语句以及附加的22个语句。
在本实例中使用了总共具有2100个采样的原始文件数据,并且还使用了一个作为隐式马尔可夫模型工具的HTK(HMM工具包)。然后,与正常语音识别的情况一样,在大小为10ms的帧周期中提取了包含12维梅尔-倒频谱(Mel-cepstrum)及其12个主要微分的25个参数,此外还提取了一个主功率微分,以便为单声语音识别创建一个声学模型。图25显示了由此创建的单声语音识别声学模型的一个实例。
虽然这是一个单声模型,但是通过将混和正态分布中的混和数增至16,则可以极大提高识别率。当用它替换作为日文听写方面的免费基础软件的语音识别引擎Julius的声学模型(http://julius.sourceforge.jp/)的时候,通过使用所记录的不可听杂音,所获取的字识别率可以与使用与性别无关的正常声音单声模型所获取的字识别率相比。
(语音识别结果的实例)
图26显示的是所记录的声音的识别结果。此外,图27显示的是一个自动音素校准实例。在图24中,频谱底部的音素标签是基于自动校准音段结果显示的。
非常相似的是,发明人具有一个大约有4600个语句的男性读音,其中包含了采用不可听杂音形式的音素平衡语句、来自报纸文章的语句以及所获取的采样声音。然后,在这里可以使用一个未指定男性说话者的声音单声模型(具有5种状态和混和数目为16的正态分布)来执行连接学习(juncture learning),并且以此作为一个初始模型。图28显示的是在将未指定的男性说话者的正常声音送受话器并入Julius的时候展现的字识别性能,然后,所述Julius是在除声学模型之外未曾改变任何条件的情况下使用的。在图中,第一行的“CLEAN”显示的是在无声房间中的识别结果。第二行中的“MUSIC”显示的是在房间中以正常音量播放古典音乐并以此作为BGM的情况下的识别结果。第三行中的“TV-NEW”显示的是房间中以正常收听音量提供电视新闻的情况下的识别结果。
在无声房间中,字识别性能是94%,这可以与正常语音的字识别性能相比。此外,即使在具有音乐或电视伴音的情况下,字识别性能也是非常好的,并且分别是91或90%。这表明与基于空气传导的正常声音相比,通过人体传导的不可听杂音能够更好地抵抗背景噪声。
在上述安装位置,通过密封听诊器式传声器1-1的吸盘上的洞或是精确调整音量等等操作,可以获取正常的声音。在这种情况下,如果第三个人给出了紧接着说话者的复述或类似,那么只记录说话者的声音,因为说话者的声音经历的是人体传导而不是空气传导。
非常有利的是,借助听诊器式传声器获取的不可听杂音或正常声音都仅仅需要对传声器的个人的声学模型进行学习。因此,听诊器式传声器可被用作一个无噪传声器,以便进行正常的语音识别。
在这里已经对将听诊器式传声器安装在乳突骨紧下方来采样不可听杂音,以及使用传声器放大器放大声音并且随后使用放大的声音来进行经由蜂窝电话的交谈的方法进行了描述,此外,在这里还描述了一种使用经过放大的声音来实施语音识别设备的语音识别的方法。
(声音调制)
现在将对声音调制进行描述。声音调制指的是改变声音的听觉音调,即改变音质。在最新的语音研究中,术语“变形(morphing)”常被用于指调制。例如,术语“变形”被用作增加和减少声音的基频、增加和减少共振峰频率、连续将男声改为女声或将女声改为男声的技术、以及连续地将某个人的声音改为另一个人的声音的技术的通用术语。
目前建议将不同的方法用作变形技术。Kawahara(Kawahara等人,ShingakuGiho、EA96-28,1996)提出的STRAIGHT被认为是一种典型的方法。这种方法的特征在于:通过精确分离声源信息与声域信息,可以独立改变诸如基频(F0)、频谱包络和说话速度之类的参数。
依照本发明,如图22到24所示,在这里可以对不可听杂音的频谱进行计算,以便从所获取的频谱中确定频谱包络。
如图22所示,使用规则声带振动的正常可听音以及不可听杂音都是为同一个语句记录的。然后,用于转换成正常声音频谱的功能是从不可听杂音中预先确定的。这可以由本领域技术人员执行。
此外,通过恰当使用基频并且使用例如前述的STRAIGHT方法,可以将不可听杂音调制成更易于听到的声音。
另外,依照本发明,不可听杂音可以经历图28所示的语音识别。因此,根据不可听杂音的语音识别结果,可以对音节、半音节、音素、双连接音素以及三连接音素之类的音标单元进行识别。此外,根据语音识别结果以及使用公知文本中描述的语音合成技术,可以将不可听杂音调制成一种更容易听到的声音。
(适用实例)
在这里对只在乳突骨紧下方安装传声器的情况进行了描述。在这种情况下,传声器是暴露的并且是临时的。因此,传声器可以与戴在头部的物体整合,例如眼镜、头戴式耳机、耳挂式耳机、帽子或戴在用户头上的头盔。
举例来说,如图29所示,可以在眼镜31的弓架部分31a端部上提供传声器1-1,其中所述弓架围绕在耳朵周围。
作为选择,如图30所示,可以在头戴式耳机32的耳套部分32a提供传声器1-1。同样,如图31所示,也可以在耳挂式耳机33的弓架部分33a的端部提供传声器1-1,该位置同样处于耳朵周围。
此外,如图32所示,帽子34和传声器1-1可以整合在一起。同样,如图33所示,头盔35和传声器1-1也可以整合在一起。通过将这些设备与传声器相整合,可以在工作现场或工地上使用传声器,由此传声器不会显得多余。即使在说话者周围存在很大噪声,也还是可以进行令人满意的交谈。
如上所述,通过将传声器与任何不同的头戴物体相整合,可以安装传声器,而不会使之看上去显得多余。另外,通过改进传声器位置,可以将传声器安装在乳突骨紧下方。
(变体)
以下将对依照本发明的通信接口系统的变体进行描述。
图34是显示在传声器与便携式终端之间提供信号处理设备的变体的框图。在该图中,信号处理设备19-2由整合在一起的模数转换器19-3、处理器19-4以及发射机19-5组成。
对这种结构而言,其中模数转换器19-3获取并量化传声器1-1所采样的不可听杂音的振动音,以便将声音转换成数字信号。作为量化结果的数字信号被发送到处理器19-4。处理器19-4为模数转换器19-3所发送的数字信号执行放大或转换之类的处理。而处理结果则发送到发射机19-5。发射机19-5以有线或无线方式将经过处理器19-4处理的数字信号传送到蜂窝电话19-6。并且本领域技术人员很容易生产信号处理设备19-2。因此,举例来说,移动电话网络中的设备可以按原样处理这种经过处理的振动音,也可以对转换成参数的信号进行处理。这样可以简化信号处理设备的结构。
图35也是显示在传声器与便携终端之间提供信号处理设备的变体的框图。在该图中,信号处理设备19-2是由整合在一起的模数转换器19-3和发射机19-5组成的。
对这种结构而言,模数转换器19-3获取并量化传声器1-1所采样的不可听杂音的振动音,以便将声音转换成数字信号。作为量化结果的数字信号则被发送到发射机19-5。发射机19-5以有线或无线方式将经由模数转换器19-3转换所获取的数字信号传送到蜂窝电话1-4。这种结构使得蜂窝电话或用于蜂窝电话的基站能对经过采样的振动音进行处理。由此可以简化信号处理设备19-2的结构。并且本领域技术人员很容易生产信号处理设备19-2。因此,举例来说,移动电话网络中的设备可以对量化结果进行处理。这样可以简化信号处理设备的结构。
如图36所示,在这里还可以使用由整合在一起的模数转换器19-3、处理器19-4以及语音识别部分19-6所组成的信号处理设备19-2。
对这种结构而言,模数转换器19-3获取并量化传声器1-1所采样的不可听杂音的振动音,以便将声音转换成数字信号。作为量化结果的数字信号被发送到处理器19-4。处理器19-4对模数转换器19-3发送的数字信号执行放大或转换之类的处理。语音识别部分19-6则对处理结果执行语音识别处理。并且本领域技术人员很容易生产信号处理设备19-2。通过使用如上配置的信号处理设备并与不可听杂音相结合,可以按原样对相应于已处理振动音的信号执行语音识别处理,或是对转换成参数的信号执行语音识别处理。
作为选择,如图37所示,在图36所示的结构中可以添加发射机19-5。对这种结构而言,发射机19-5将语音识别部分19-6的语音识别结果传送到外部设备。并且本领域技术人员很容易生产信号处理设备19-2。其中举例来说,通过将语音识别结果传送到移动电话网络,可以使用语音识别结果来进行不同的处理。
依照本发明的传声器可以内嵌在蜂窝电话或类似设备内部。在这种情况下,通过按下乳突骨紧下方胸锁乳突肌皮肤表面的传声器部分,可以使用不可听杂音来进行交谈。
工业实用性
本发明可以借助于蜂窝电话以及无声语音识别设备来实现无声交谈应用。
也就是说,只要使用发音器官的说话运动,就可以通过蜂窝电话进行交谈,或可以将信息输入到计算机或个人便携信息终端中,其中所述发音器官运动本质上是通过音标语言文化获取和培养的,这其中并不需要学习新技术。
此外,本发明可以避免混杂背景噪声和防止破坏无声环境。特别地,这其中可以对音标语言的公开加以控制。用户不必担心将信息泄漏给周围的人。
另外,对正常的语音识别而言,这种声音采样方法能够极大地减少噪声混杂。
本发明消除了在眼睛前方或嘴唇周围安装传声器的需要、以免传声器干扰到用户。本发明还消除了用一只手将蜂窝电话放在耳朵上的需要。在这里只需要将传声器安装在外耳后部皮肤的下方。非常有利的是,传声器也可以隐藏在头发下面。
本发明可以创建一种新的语言通信文化,这种文化不需要任何正常的声音。本发明明显促进了将全部语音识别技术扩展至实际寿命。此外,对没有声带或者在使用规则声带振动交谈方面存在困难的人来说,本发明是最优的。

Claims (14)

1.一种传声器,包括:
环形膜片(3-3);以及
粘在膜片(3-3)上的吸盘部分(3-9),所述吸盘部分(3-9)包括电容式传声器(3-1)和合成树脂吸盘(3-2),
其中,所述传声器对关联于发声器官运动的共振滤波器特性变化所表达的不可听杂音进行采样,其中所述不可听杂音是不规则声带振动,并且所述不可听杂音是在通过内部软组织传送外部不可听到的呼吸音时产生的人体传导的振动音,以及
其中所述膜片(3-3)安装在颅骨的乳突骨紧下方的胸锁乳突肌的皮肤表面上,也就是安装在外耳后面的皮肤下方。
2.根据权利要求1的传声器,该传声器与戴在头部的物体相整合,所述戴在头部的物体包括:眼镜、头戴式耳机、耳挂式耳机、帽子或戴在人的头部的头盔。
3.一种通信接口系统,包括依照权利要求1的传声器,以及一个对通过传声器采样的信号进行处理的信号处理设备,
其中信号处理设备所处理的结果被用于通信。
4.根据权利要求3的通信接口系统,其中信号处理设备包括一个对通过传声器采样的信号进行量化的模数转换部分,一个对模数转换部分的量化结果进行处理的处理器部分,以及一个将处理器部分的处理结果传送到外部设备的发射部分。
5.根据权利要求3的通信接口系统,其中信号处理设备包括一个对通过传声器采样的信号进行量化的模数转换部分,以及一个将模数转换部分的量化结果传送到外部设备的发射部分,其中由外部设备来对量化结果进行处理。
6.根据权利要求4的通信接口系统,其中信号处理设备包括一个对通过传声器采样的信号进行量化的模数转换部分,一个对模数转换部分的量化结果进行处理的处理器部分,以及一个对处理器部分的处理结果执行语音识别处理的语音识别部分。
7.根据权利要求6的通信接口系统,还包括一个将语音识别部分的语音识别结果传送到外部设备的发射部分。
8.根据权利要求4的通信接口系统,其中移动电话网络中的设备对处理器部分的处理结果执行语音识别处理,该结果由发射部分传送。
9.根据权利要求4的通信接口系统,其中信号处理设备所执行的信号处理是一个调制处理,在该调制处理中,所述处理器部分将信号调制成一个可听音。
10.根据权利要求9的通信接口系统,其中调制处理将声带基频应用于不可听杂音,以便将不可听杂音转换成包含了声带规则振动的可听音。
11.根据权利要求9的通信接口系统,其中调制处理将不包含规则声带振动的不可听杂音频谱转换成使用规则声带振动发出的可听音频谱。
12.根据权利要求11的通信接口系统,其中调制处理使用不可听杂音频谱和一个语音识别设备来识别音节、半音节、音素、双连接音素以及三连接音素之类的语音单元,此外还使用了语音合成技术将所识别的语音单元转换成使用规则声带振动发出的可听音。
13.根据权利要求3的通信接口系统,其中输入增益是依照通过传声器采样的动态声音范围的大小而被控制的。
14.根据权利要求6的通信接口系统,其中语音识别部分使用了以下声音中的至少一种声音的声学模型来恰当执行语音识别,其中所述声音包括不可听杂音、可以听到但却是在没有规则振动声带时说出的耳语、规则振动声带并且包含了低音或杂音的声音,以及咬牙声和用舌头发出的啧啧声之类的不同声音。
CN038201674A 2002-08-30 2003-09-01 传声器和通信接口系统 Expired - Fee Related CN1679371B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP252421/2002 2002-08-30
JP2002252421 2002-08-30
PCT/JP2003/011157 WO2004021738A1 (ja) 2002-08-30 2003-09-01 マイクロフォン、コミュニケーションインタフェースシステム

Publications (2)

Publication Number Publication Date
CN1679371A CN1679371A (zh) 2005-10-05
CN1679371B true CN1679371B (zh) 2010-12-29

Family

ID=31972742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN038201674A Expired - Fee Related CN1679371B (zh) 2002-08-30 2003-09-01 传声器和通信接口系统

Country Status (8)

Country Link
US (1) US20050244020A1 (zh)
EP (1) EP1538865B1 (zh)
JP (1) JP3760173B2 (zh)
KR (1) KR100619215B1 (zh)
CN (1) CN1679371B (zh)
AU (1) AU2003261871A1 (zh)
DE (1) DE60333200D1 (zh)
WO (1) WO2004021738A1 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005245580A (ja) * 2004-03-02 2005-09-15 Azden Corp Mri装置における音声通信装置
JP2006126558A (ja) * 2004-10-29 2006-05-18 Asahi Kasei Corp 音声話者認証システム
WO2006134586A2 (en) * 2005-06-13 2006-12-21 Technion Research And Development Ltd. Shielded communication transducer
KR100692201B1 (ko) * 2005-06-21 2007-03-09 계명대학교 산학협력단 히든 마르코프 모델을 이용한 심음 분류 방법
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JP2008042740A (ja) * 2006-08-09 2008-02-21 Nara Institute Of Science & Technology 非可聴つぶやき音声採取用マイクロホン
JP4671290B2 (ja) * 2006-08-09 2011-04-13 国立大学法人 奈良先端科学技術大学院大学 肉伝導音採取用マイクロホン
JP4940956B2 (ja) * 2007-01-10 2012-05-30 ヤマハ株式会社 音声伝送システム
JP5160878B2 (ja) * 2007-12-21 2013-03-13 浜松ホトニクス株式会社 試料同定装置および試料同定方法
US7983437B2 (en) * 2008-01-04 2011-07-19 Hammond Wong Earphone set with detachable speakers or subwoofers
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
JP5256119B2 (ja) 2008-05-27 2013-08-07 パナソニック株式会社 補聴器並びに補聴器に用いられる補聴処理方法及び集積回路
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
US10115392B2 (en) * 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
CN103053147B (zh) 2010-12-27 2017-03-22 罗姆股份有限公司 呼入/呼出通话单元以及呼入通话单元
US9313306B2 (en) 2010-12-27 2016-04-12 Rohm Co., Ltd. Mobile telephone cartilage conduction unit for making contact with the ear cartilage
JP5594152B2 (ja) * 2011-01-11 2014-09-24 富士通株式会社 Nam会話支援システムおよびnam会話支援方法
JP5783352B2 (ja) 2011-02-25 2015-09-24 株式会社ファインウェル 会話システム、会話システム用指輪、携帯電話用指輪、指輪型携帯電話、及び、音声聴取方法
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US8666738B2 (en) 2011-05-24 2014-03-04 Alcatel Lucent Biometric-sensor assembly, such as for acoustic reflectometry of the vocal tract
DK2592848T3 (da) * 2011-11-08 2019-10-07 Oticon Medical As Akustisk transmissionsfremgangsmåde og lytteanordning
CN104247453B (zh) 2012-01-20 2018-06-05 罗姆股份有限公司 移动电话
US20130297301A1 (en) * 2012-05-03 2013-11-07 Motorola Mobility, Inc. Coupling an electronic skin tattoo to a mobile communication device
US20130294617A1 (en) * 2012-05-03 2013-11-07 Motorola Mobility Llc Coupling an Electronic Skin Tattoo to a Mobile Communication Device
DK2663095T3 (da) * 2012-05-07 2016-02-01 Starkey Lab Inc Høreapparat med fordelt bearbejdning i øreprop
KR101644261B1 (ko) 2012-06-29 2016-07-29 로무 가부시키가이샤 스테레오 이어폰
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140074480A1 (en) * 2012-09-11 2014-03-13 GM Global Technology Operations LLC Voice stamp-driven in-vehicle functions
US9943712B2 (en) * 2012-09-24 2018-04-17 Dolores Speech Products Llc Communication and speech enhancement system
JP2014143582A (ja) * 2013-01-24 2014-08-07 Nippon Hoso Kyokai <Nhk> 通話装置
CN104575500B (zh) * 2013-10-24 2018-09-11 中国科学院苏州纳米技术与纳米仿生研究所 电子皮肤在语音识别上的应用、语音识别系统和方法
CN104123930A (zh) * 2013-04-27 2014-10-29 华为技术有限公司 喉音识别方法及装置
KR101877652B1 (ko) 2013-08-23 2018-07-12 로무 가부시키가이샤 휴대 전화
JP6391053B2 (ja) 2013-10-15 2018-09-19 パナソニックIpマネジメント株式会社 マイクロホン
US9705548B2 (en) 2013-10-24 2017-07-11 Rohm Co., Ltd. Wristband-type handset and wristband-type alerting device
JP6551919B2 (ja) 2014-08-20 2019-07-31 株式会社ファインウェル 見守りシステム、見守り検知装置および見守り通報装置
CN104317388B (zh) * 2014-09-15 2018-12-14 联想(北京)有限公司 一种交互方法及穿戴式电子设备
EP3236669A4 (en) 2014-12-18 2018-10-03 Rohm Co., Ltd. Cartilage conduction hearing device using electromagnetic-type vibration unit, and electromagnetic-type vibration unit
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
EP3323567B1 (en) * 2015-07-15 2020-02-12 FINEWELL Co., Ltd. Robot and robot system
JP6551929B2 (ja) 2015-09-16 2019-07-31 株式会社ファインウェル 受話機能を有する腕時計
US10778824B2 (en) 2016-01-19 2020-09-15 Finewell Co., Ltd. Pen-type handset
CN106419954B (zh) * 2016-09-26 2019-05-21 珠海爱珂索移动医疗科技有限公司 一种适用于听诊器的振动还原方法
SG11201909878XA (en) 2017-04-23 2019-11-28 Audio Zoom Pte Ltd Transducer apparatus for high speech intelligibility in noisy environments
US10462578B2 (en) * 2017-05-08 2019-10-29 Intel Corporation Piezoelectric contact microphone with mechanical interface
WO2018216339A1 (ja) * 2017-05-23 2018-11-29 ソニー株式会社 情報処理装置及びその制御方法、並びに記録媒体
US11647330B2 (en) 2018-08-13 2023-05-09 Audio Zoom Pte Ltd Transducer apparatus embodying non-audio sensors for noise-immunity
JP2020053948A (ja) 2018-09-28 2020-04-02 株式会社ファインウェル 聴取装置
JP6894081B2 (ja) * 2018-11-05 2021-06-23 幸男 中川 語学学習装置
CN112738687B (zh) * 2021-02-08 2023-04-07 江西联创电声有限公司 一种耳机
CN113810819B (zh) * 2021-09-23 2022-06-28 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4654883A (en) * 1983-10-18 1987-03-31 Iwata Electric Co., Ltd. Radio transmitter and receiver device having a headset with speaker and microphone
EP0519621A1 (en) * 1991-06-03 1992-12-23 Pioneer Electronic Corporation Speech transmitter
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0515290Y2 (zh) * 1985-05-31 1993-04-22
JPS61288596A (ja) * 1985-06-14 1986-12-18 Purimo:Kk マイクロホン
US4777961A (en) * 1985-10-15 1988-10-18 Bruce Saltzman High sensitivity stethoscopic system and method
US4972468A (en) * 1987-10-14 1990-11-20 Sanshin Kogyo Kabushiki Kaisha Transceiver for hanging on an ear
JPH0256121A (ja) * 1987-10-14 1990-02-26 Sanshin Ind Co Ltd 耳掛式送受信装置
JPH04316300A (ja) * 1991-04-16 1992-11-06 Nec Ic Microcomput Syst Ltd 音声入力装置
JP3647499B2 (ja) * 1995-03-31 2005-05-11 フオスター電機株式会社 音声ピックアップシステム
US5853005A (en) * 1996-05-02 1998-12-29 The United States Of America As Represented By The Secretary Of The Army Acoustic monitoring system
JP3041176U (ja) * 1997-01-23 1997-09-09 照雄 松岡 皮膚接触式密閉ケースの間接振動伝導型エレクトレットコン デンサーマイクやダイナミックスマイクユニットの高音域と 音圧を上げる圧電セラミックスエレメントやカートリッジユ ニット追加使用の2−ウェイマイクロホン
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000341778A (ja) * 1999-05-25 2000-12-08 Temuko Japan:Kk 骨伝導スピーカーを用いた送受話装置
JP2000338986A (ja) * 1999-05-28 2000-12-08 Canon Inc 音声入力装置及びその制御方法及び記憶媒体
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6631197B1 (en) * 2000-07-24 2003-10-07 Gn Resound North America Corporation Wide audio bandwidth transduction method and device
US6519345B1 (en) * 2000-08-14 2003-02-11 Chin-Hui Yang Double-functioned hand-free device for cellular telephone
JP2002135390A (ja) * 2000-10-23 2002-05-10 Zojirushi Corp 携帯電話機用音声入力装置
US6898448B2 (en) * 2002-01-16 2005-05-24 Sheng Hsin Liao Miniature vocal transmitter device
WO2005067340A1 (ja) * 2004-01-09 2005-07-21 Asahi Kasei Kabushiki Kaisha 体内伝導音マイクロフォン、信号処理装置、コミュニケーションインタフェースシステム、採音方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4654883A (en) * 1983-10-18 1987-03-31 Iwata Electric Co., Ltd. Radio transmitter and receiver device having a headset with speaker and microphone
EP0519621A1 (en) * 1991-06-03 1992-12-23 Pioneer Electronic Corporation Speech transmitter
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2000-338986A 2000.12.08
JP特开2002-135390A 2002.05.10
JP特开平8-275279A 1996.10.18

Also Published As

Publication number Publication date
KR20050057004A (ko) 2005-06-16
KR100619215B1 (ko) 2006-09-06
US20050244020A1 (en) 2005-11-03
DE60333200D1 (de) 2010-08-12
AU2003261871A1 (en) 2004-03-19
WO2004021738A1 (ja) 2004-03-11
EP1538865A1 (en) 2005-06-08
JP3760173B2 (ja) 2006-03-29
EP1538865A4 (en) 2007-07-04
EP1538865B1 (en) 2010-06-30
JPWO2004021738A1 (ja) 2005-12-22
CN1679371A (zh) 2005-10-05

Similar Documents

Publication Publication Date Title
CN1679371B (zh) 传声器和通信接口系统
US7778430B2 (en) Flesh conducted sound microphone, signal processing device, communication interface system and sound sampling method
JP4439740B2 (ja) 音声変換装置及び方法
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
Nakajima et al. Non-audible murmur (NAM) recognition
Nakamura et al. Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech
US20100131268A1 (en) Voice-estimation interface and communication system
JP3670180B2 (ja) 補聴器
JP2005523759A (ja) 遅延聴覚フィードバックを使用して非吃音性の発話言語障害を治療するための方法及び装置
JP2002358089A (ja) 音声処理装置及び音声処理方法
JPWO2008015800A1 (ja) 音声処理方法、音声処理プログラム、音声処理装置
JP4130443B2 (ja) マイクロフォン、信号処理装置、コミュニケーションインタフェースシステム、音声話者認証システム、nam音対応玩具装置
KR100778143B1 (ko) 후두 임피던스 신호를 이용하는 넥마이크를 구비한 골도헤드셋
JP4418867B2 (ja) 無発声音声入力装置、電話機及び情報処理装置
Nakamura et al. Evaluation of extremely small sound source signals used in speaking-aid system with statistical voice conversion
JP2000276190A (ja) 発声を必要としない音声通話装置
JP5052107B2 (ja) 音声再現装置及び音声再現方法
KR20020035065A (ko) 귀를 통해서 소리를 녹음하는 방식

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NATIONAL UNIVERSITY CORPORATION NARA INSTITUTE OF

Free format text: FORMER OWNER: NAKAJIMA YOSHITAKA

Effective date: 20091204

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20091204

Address after: Nara Japan

Applicant after: Nat University Corp. Nara I. Of

Address before: Nara Japan

Applicant before: Nakajima Yoshiki

Co-applicant before: Asahi Kasei Kogyo K. K.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101229

Termination date: 20160901