CN113923573A - 一种光学麦克风系统及其收音方法 - Google Patents

一种光学麦克风系统及其收音方法 Download PDF

Info

Publication number
CN113923573A
CN113923573A CN202111111240.5A CN202111111240A CN113923573A CN 113923573 A CN113923573 A CN 113923573A CN 202111111240 A CN202111111240 A CN 202111111240A CN 113923573 A CN113923573 A CN 113923573A
Authority
CN
China
Prior art keywords
signal
laser
microphone system
optical microphone
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111111240.5A
Other languages
English (en)
Inventor
洪小平
郭虓
丁四益
李克难
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN202111111240.5A priority Critical patent/CN113923573A/zh
Publication of CN113923573A publication Critical patent/CN113923573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • H04R23/008Transducers other than those covered by groups H04R9/00 - H04R21/00 using optical signals for detecting or generating sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrostatic, Electromagnetic, Magneto- Strictive, And Variable-Resistance Transducers (AREA)

Abstract

本发明公开了一种光学麦克风系统及其收音方法。所述光学麦克风系统包括用于向音源的振动表面发射激光信号的激光发射装置;用于接收经所述振动表面散射的所述激光信号的激光接收装置,所述激光接收装置将所述激光信号转换为电信号,且所述激光接收装置与所述激光发射装置的相对位置设置为保证所述激光信号的光斑出现在所述激光接收装置的视场角中;从所述激光接收装置接收所述电信号的信号处理装置,所述信号处理装置将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。所述光学麦克风系统结构简单,且对于音源周围的振动表面的形状或粗糙度没有要求,适用性更强,可以实现嘈杂环境下或远距离情况下声音的采集。

Description

一种光学麦克风系统及其收音方法
技术领域
本发明涉及激光传感技术领域,尤其涉及的是一种光学麦克风系统及其收音方法。
背景技术
对于机器听觉领域的语音信号的采集,一般是利用电话或麦克风在靠近音源的情况下直接采集语音信号。这个一方面要求标准的声学传感器必需靠近发声的振动表面;另一方面对环境要求较高,如果背景噪声(如风声、发动机声以及其他人交谈的声音等)较大,采集到的语音信号的质量会受到污染。
针对嘈杂环境何远距离语音采集的需求,现有技术中一般是使用激光麦克风,通过无接触的振动感知形式来采集语音信号。目前利用激光麦克风进行语音采集的手段包括:激光多普勒测振仪LDV,麦克风阵列,以及通过相机视觉采集。但是现有技术中的这些手段都存在不足,其中LDV受激光散斑噪声影响严重,并且光路复杂,成本高,同时对被测表面的平面度和粗糙度要求很高;而麦克风阵列通过波束成形定向获取声音来提高信噪比(SNR),但由于语音压力在空气中传播时快速下降,因此麦克风阵列的采集范围非常有限,在嘈杂环境下效果一般;视觉采集的方法往往帧率不够,因此采集的声音频率受限。上述激光麦克风在真实场景中的应用受到的限制较大。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种光学麦克风系统及其收音方法,旨在解决现有技术中激光麦克风结构复杂,适用性差的问题。
本发明解决技术问题所采用的技术方案如下:
一种光学麦克风系统,其中,包括:
激光发射装置,用于向音源的振动表面发射激光信号;
激光接收装置,用于接收经所述振动表面散射的所述激光信号,并将所述激光信号转换为电信号,所述激光接收装置与所述激光发射装置的相对位置设置为保证所述激光信号的光斑出现在所述激光接收装置的视场角中;
信号处理装置,与所述激光接收装置连接并接收所述电信号,所述信号处理装置将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。
所述的光学麦克风系统,其中,所述激光接收装置包括:
光电转换单元,所述光电转换单元正对所述振动表面设置,用于收集经所述振动表面散射的激光信号;
集束单元,所述集束单元设置在所述光电转换单元和所述振动表面之间,将所述激光信号聚焦到所述光电转换单元。
所述的光学麦克风系统,其中,所述光电转换单元为雪崩光电探测器,所述集束单元为透镜或透镜组。
所述的光学麦克风系统,其中,所述视场角由以下公式计算:
Figure BDA0003270453680000021
其中FOV为视场角,dapd为所述雪崩光电探测器的感光直径,fapd为所述雪崩光电探测器的焦距。
所述的光学麦克风系统,其中,所述信号处理装置包括:
模数转换器,与所述激光接收装置相连并接收所述电信号,所述模数转换器将所述电信号转换为数字信号;
存储单元,与所述模数转换器相连,接收并储存所述数字信号;
输出单元,向机器输出所述数字信号,以供所述机器识别所述声音的内容。
所述的光学麦克风系统,其中,还包括:
语音生成装置,与所述信号处理装置相连,所述语音生成装置接收所述数字信号并将所述数字信号转换为音频信号,以供用户识别所述声音的内容;
判断装置,与所述语音生成装置连接,所述判断装置从所述语音生成装置接收所述音频信号并将所述音频信号转换为文本信息,将所述文本信息与所述声音的内容比对以判断所述音频信号的准确度。
所述的光学麦克风系统,其中,所述语音生成装置包括:
趋势去除单元,所述趋势去除单元对所述电信号进行趋势的去除形成第一信号;
滤波单元,所述滤波单元接收所述第一信号并对所述第一信号中人声的频率进行滤波形成第二信号;
归一化单元,所述归一化单元接收所述第二信号并对所述第二信号进行归一化处理得到所述音频信号。
所述的光学麦克风系统,其中,所述语音生成装置还包括:
语音优化单元,与所述归一化单元相连,所述语音优化单元接收所述音频信号并利用机器学习优化所述音频信号,以得到优化后的音频信号。
所述的光学麦克风系统,其中,所述激光发射装置包括:
激光发射器,用于向所述振动表面发射所述激光信号;
云台,固定在所述激光发射器下方,调整所述激光发射器的角度。
一种光学麦克风系统的收音方法,其中,利用以上任意所述光学麦克风系统以实现步骤:
向音源的振动表面发射激光信号;
接收经所述振动表面散射的所述激光信号,并将所述激光信号转换为电信号;
将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。
有益效果:本发明公开了一种光学麦克风系统及其收音方法。所述光学麦克风系统包括用于向音源的振动表面发射激光信号的激光发射装置;用于接收经所述振动表面散射的所述激光信号的激光接收装置,所述激光接收装置将所述激光信号转换为电信号,且所述激光接收装置与所述激光发射装置的相对位置设置为保证所述激光信号的光斑出现在所述激光接收装置的视场角中;与所述激光接收装置连接并从所述激光接收装置接收所述电信号的信号处理装置,所述信号处理装置将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。所述光学麦克风系统结构简单,且对于音源周围的振动表面的形状或粗糙度没有要求,适用性更强,可以实现嘈杂环境下或远距离情况下声音的采集。
附图说明
图1是本发明一实施例中光学麦克风系统的结构示意图。
图2是本发明另一实施例中光学麦克风系统的结构示意图。
图3是本发明一实施例中语音生成装置与判断装置的连接关系示意图。
图4是本发明另一实施例中语音生成装置与判断装置的连接关系示意图。
图5是本发明信号处理装置的结构示意图。
图6是本发明所述光学麦克风系统与常规麦克风在安静环境下的收音效果示意图。
图7是所述光学麦克风系统与常规麦克风在嘈杂环境下的收音效果示意图。
图8是本发明语音优化单元所用机器学习的优化处理过程框架图。
图9是本发明一实施例所述光学麦克风系统的收音方法的流程图。
图10是本发明另一实施例所述光学麦克风系统的收音方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“内”、“外”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的结构必须具有特定的方位或必须以特定的方位来构造,不能理解为对本发明的限制。
另外,除非文中对于冠词有特别限定,否则“一”与“所述”可泛指单一个或复数个。本发明实施例中有涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
“鸡尾酒会问题”是机器听觉中的圣杯问题,即对于机器听觉的识别场景,当说话的人数为两人或多人时如何保证语音识别的正确率。本发明提供了一种光学麦克风系统及其收音方法,通过将激光信号入射到音源的振动表面,然后接收由所述振动表面散射的激光信号,将所述激光信号转换为电信号后收集所述电信号,最后对所述电信号的交流信号进行滤波归一化生成对应的语音。这样本发明所述光学麦克风系统可以追踪并采集特定人员的语音信号,分离出鸡尾酒会中同时说话的每个人的独立信号,从而有效降低背景中其他人对采集指定人员的语音信号的干扰。结构简单,对振动表面的粗糙度和形状不敏感,可以应用在多种场景下,在真实场景中的适用性高。
具体地,如图1和图2所示,所述光学麦克风系统包括激光发射装置100、激光接收装置200以及信号处理装置600,其中所述激光发射装置100与所述激光接收装置200的相对位置保证由所述激光发射装置100发射的激光信号的光斑出现在所述激光接收装置200的视场角内,信号处理装置600与所述激光接收装置200相连。本发明所述的光学麦克风系统通过所述激光发射装置100向音源的振动表面500发射激光信号,再由所述激光接收装置200接收由所述振动表面500散射后的所述激光信号,并将所述激光信号转换为电信号。所述激光接收装置200将所述电信号传输给信号处理装置600,由信号处理装置600将所述电信号转换为数字信号并存储,从而实现对所述音源发出的声音的采集。所述光学麦克风系统提供的所述数字信号可以由机器识别并理解说话的含义,满足机器听觉的需求,进一步还可以将所述数字信号转换为用户能听到的音频信号,满足人类听觉的需求。本发明所述光学麦克风系统基于所述激光信号的强度变化实现远程语音的采集,结构简单,对音源的振动表面的粗糙度和形状不敏感,可以有效避免背景中噪声的干扰,从而实现在多种场景下的应用,适用性高。
进一步地,如图1和图2所示,所述激光发射装置100包括激光发射器110和与所述激光发射器110固定连接的云台120。所述云台120固定在所述激光发射器110的下方,实现对所述激光发射器110的支持与固定,同时通过所述云台120可以调节所述激光发射器110的角度,以在不同情况下选择音源的不同振动表面,提高应用场景的多样性。同时,在选定振动表面500后,通过继续控制所述云台120微调所述激光发射器110的入射角度,从而保证由所述激光发射器110发射的激光信号经过所述振动表面500的散射后始终出现在所述激光接收装置200的视场角(Field of View,FOV)中,以保证所述光学麦克风系统的正常使用。
可选地,如图2所示,所述激光发射装置100还包括摄像头130,所述摄像头130的镜头方向与所述激光发射器110的激光信号出射方向保持一致,以监测所述激光信号是否入射在所述振动表面500上,以及检测散射后的所述激光信号的光斑是否保留在所述激光接收装置200的视场角中。当所述摄像头130检测到所述激光信号未能正确入射所述振动表面500,或所述激光信号的光斑位于所述激光接收装置200的视场角之外,通过所述云台120调整所述激光发射器110的发射角度,从而保证所述激光信号正确入射所述振动表面500,以及所述激光信号的光斑位于所述激光接收装置200的视场角之内。
进一步地,如图1和图2所示,所述激光接收装置200包括光电转换单元210以及设置在所述光电转换单元210与所述振动表面500之间的集束单元220。所述光电转换单元210正对所述振动表面500设置,即所述光电转换单元210接收光的一面朝向所述振动表面500,以接收所述振动表面500散射后的激光信号。可选地,所述光电转换单元210为雪崩光电探测器(Avalanche Photon Diode,APD),所述雪崩光电探测器的P+一面朝向所述振动表面500,以接收所述振动表面500散射后的激光信号。所述集束单元220设置在所述光电转换单元210与所述振动表面500之间,并且所述激光信号的光路与所述集束单元220的光路平行,所述激光信号经过所述集束单元220聚焦后聚焦到所述光电转换单元210接收光的一面,并由所述光电转换单元210将所述激光信号转换为电信号。可选地,所述集束单元220为透镜或透镜组,当所述集束单元220为透镜组时,各透镜的光路保持平行。由于所述激光信号经过所述振动表面500的散射后,光斑依然保留在所述光电转换单元210的视场角中,因此所述光电转换单元210可以持续接收由所述振动表面500散射的激光信号,通过所述激光信号的强度变化可以检测到所述振动表面500的振动形式,从而实现对所述音源发出声音的采集。所述激光信号由所述激光发射器110发出后经过所述振动表面500的散射,再由所述集束单元220聚焦到所述光电转换单元210,光路明确、清晰,结构简单,只要保证所述激光信号的光斑位于所述光电转换单元210的视场角中,对所述振动表面500不同形状或粗糙度都可以有效进行检测,可以避免背景中噪声的干扰,从而实现在多种场景下的应用,适用性高。
具体地,所述视场角由以下方式计算:
Figure BDA0003270453680000081
其中FOV为视场角,dapd为所述光电转换单元210的感光直径,fapd为所述光电转换单元210的焦距。更具体地,dapd为所述雪崩光电探测器的感光直径,fapd为所述雪崩光电探测器的焦距。
可选地,在所述集束单元220与所述光电转换单元210之间还设有滤色器230,以排除场景的光线对所述激光信号的干扰。可选地,所述激光信号的波长对应所述光电转换单元210的感光范围设置。优选地,所述激光信号为红外激光信号,以避免对人眼造成伤害。
进一步地,如图5所示,所述信号处理装置600包括模数转换器610,存储单元620和输出单元630。其中所述模数转换器610与所述光电转换单元210相连,所述模数转换器610从所述光电转换单元210接收所述电信号,并将所述电信号转换为数字信号传输给所述存储单元620存储。进一步地,所述输出单元630从所述存储单元620读取所述数字信号,并将所述数字信号输出给机器,以供机器识别所述声音的内容。基于机器听觉,机器可以理解所述数字信号所对应的声音信息,即可实现对所述音源的声音的采集。
可选地,所述存储单元620为非临时性和/或临时性存储器。非临时性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。临时性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
进一步地,如图1和图2所示,所述光学麦克风系统还包括语音生成装置300。通过所述语音生成装置300,所述光学麦克风系统可以将机器能够理解的数字信号转换为人可以理解的音频信号,以实现机器与人之间的交互。如图3所示,所述语音生成装置300包括依次相连的趋势去除单元310,滤波单元320和归一化单元330。所述趋势去除单元310接收从所述信号转换装置传输的所述数字信号,并对所述数字信号进行趋势的去除以形成第一信号;所述滤波单元320接收所述第一信号并对所述第一信号中人声的频率进行滤波以形成第二信号;所述归一化单元330接收所述第二信号并对所述第二信号进行归一化处理,以得到音频信号。通过所述音频信号,用户也可以听到采集到的声音。
进一步地,当所述音频信号质量较差,即生成的所述音频信号不能完全反映对象说话的全部信息时,所述语音生成装置300中还设有语音优化单元340。如图4所示,所述语音优化单元340与所述归一化单元330连接,所述语音优化单元340从所述归一化单元330处接收所述音频信号并利用机器学习优化所述音频信号,以得到优化后的音频信号,从而得到能够完整反映对象说话的全部信息的音频信号。
进一步地,如图1和图2所示,所述光学麦克风系统还包括判断装置400。如图3和图4所示,所述判断装置400与所述语音生成装置300相连,所述判断装置400从所述语音生成装置300接收所述音频信号并将所述音频信号转换为文本信息,以判断所述音频信号的准确度。可选地,所述判断装置400利用谷歌开源的语音到文本的转换系统实现将所述音频信号转换为文本信息,从而判断所述音频信号能否准确反映对象说话的内容。
本发明所述光学麦克风系统可以针对不同的振动表面进行工作,尤其是针对人声的采集可以分为两类振动表面。第一类振动表面为音源周围的振动物体,即人嘴周围的振动表面,例如口罩、塑料袋、被子以及纸等薄膜类物品;第二类振动表面为声带处的振动表面,即人体喉咙的位置。本发明所述光学麦克风系统在针对不同种类的振动表面都可以采集得到清楚的音频信号。
在本发明的一实施例中,所选振动表面500为口罩。此时,如图1所示,所述激光发射装置100包括激光发射器110和与所述激光发射器110固定连接的云台120。所述云台120固定在所述激光发射器110的下方,实现对所述激光发射器110的支持与固定,同时通过所述云台120可以调节所述激光发射器110的角度,以在不同情况下选择音源的不同振动表面,提高应用场景的多样性。同时,在选定振动表面500后,通过继续控制所述云台120微调所述激光发射器110的入射角度,从而保证由所述激光发射器110发射的激光信号经过所述振动表面500的散射后始终出现在所述激光接收装置200的视场角(Field of View,FOV)中,以保证所述光学麦克风系统的正常使用。
可选地,如图1所示,所述激光发射装置100还包括摄像头130,所述摄像头130的镜头方向与所述激光发射器110的激光信号出射方向保持一致,以监测所述激光信号是否入射在所述振动表面500上,以及检测散射后的所述激光信号的光斑是否保留在所述激光接收装置200的视场角中。当所述摄像头130检测到所述激光信号未能正确入射所述振动表面500,或所述激光信号的光斑位于所述激光接收装置200的视场角之外,通过所述云台120调整所述激光发射器110的发射角度,从而保证所述激光信号正确入射所述振动表面500,以及所述激光信号的光斑位于所述激光接收装置200的视场角之内。
进一步地,如图1所示,所述激光接收装置200包括光电转换单元210(AvalanchePhoton Diode,APD)以及设置在所述光电转换单元210与所述振动表面500之间的集束单元220。所述光电转换单元210正对所述振动表面500设置,即所述光电转换单元210接收光的一面(P+一面)朝向所述振动表面500,以接收所述振动表面500散射后的激光信号。所述集束单元220设置在所述光电转换单元210与所述振动表面500之间,并且所述激光信号的光路与所述集束单元220的光路平行,所述激光信号经过所述集束单元220聚焦后聚焦到所述光电转换单元210接收光的一面,并由所述光电转换单元210将所述激光信号转换为电信号。由于所述激光信号经过所述振动表面500的散射后,光斑依然保留在所述光电转换单元210的视场角中,因此所述光电转换单元210可以持续接收由所述振动表面500散射的激光信号,通过所述激光信号的强度变化可以检测到所述振动表面500的振动形式,从而实现对所述音源发出声音的采集。所述激光信号由所述激光发射器110发出后经过所述振动表面500的散射,再由所述集束单元220聚焦到所述光电转换单元210,光路明确、清晰,结构简单,只要保证所述激光信号的光斑位于所述光电转换单元210的视场角中,对所述振动表面500不同形状或粗糙度都可以有效进行检测,可以避免背景中噪声的干扰,从而实现在多种场景下的应用,适用性高。
具体地,所述视场角由以下方式计算:
Figure BDA0003270453680000111
其中FOV为视场角,dapd为所述光电转换单元210的感光直径,fapd为所述光电转换单元210的焦距。
可选地,在所述集束单元220与所述光电转换单元210之间还设有滤色器230,以排除场景的光线对所述激光信号的干扰。可选地,所述激光信号的波长对应所述光电转换单元210的感光范围设置。优选地,所述激光信号为红外激光信号,以避免对人眼造成伤害。
进一步地,如图5所示,所述信号处理装置600包括模数转换器610,存储单元620和输出单元630。其中所述模数转换器610与所述光电转换单元210相连,所述模数转换器610从所述光电转换单元210接收所述电信号,并将所述电信号转换为数字信号传输给所述存储单元620存储。进一步地,所述输出单元630从所述存储单元620读取所述数字信号,并将所述数字信号输出给机器,以供机器识别所述声音的内容。基于机器听觉,机器可以理解所述数字信号所对应的声音信息,即可实现对所述音源的声音的采集。
可选地,所述存储单元620为非临时性和/或临时性存储器。非临时性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。临时性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
进一步地,如图3所示,所述光学麦克风系统还包括语音生成装置300。通过所述语音生成装置300,所述光学麦克风系统可以将机器能够理解的数字信号转换为人可以理解的音频信号,以实现机器与人之间的交互。所述语音生成装置300包括依次相连的趋势去除单元310,滤波单元320和归一化单元330。所述趋势去除单元310接收从所述信号处理装置600传输的所述数字信号,并对所述数字信号进行趋势的去除以形成第一信号;所述滤波单元320接收所述第一信号并对所述第一信号中人声的频率进行滤波以形成第二信号;所述归一化单元330接收所述第二信号并对所述第二信号进行归一化处理,以得到音频信号。通过所述音频信号,用户也可以听到采集到的声音。
进一步地,如图1和图3所示,所述光学麦克风系统还包括判断装置400。所述判断装置400与所述语音生成装置300相连,所述判断装置400从所述语音生成装置300接收所述音频信号并将所述音频信号转换为文本信息,以判断所述音频信号的准确度。可选地,所述判断装置400利用谷歌开源的语音到文本的转换系统实现将所述音频信号转换为文本信息,从而判断所述音频信号能否准确反映对象说话的内容。针对第一类振动表面,即针对口罩等覆盖人嘴的薄膜类振动表面,本发明所述光学麦克风系统可以准确识别并生成对应的音频信号,且所述音频信号质量很高。
在本发明另一实施例中,所述振动表面500为人的喉咙,此时所述激光信号应设置为红外激光信号,以避免对人眼造成伤害。对于喉咙振动的测量在真实场景中的应用更加普遍,但是喉咙的振动不能完全反映人说话的全部信息,并且人喉咙表面的不同位置振动强度不同和人本体的移动都会对信号引入噪声。因此相比于针对第一类振动表面的实施例,本实施例中的所述语音生成装置300中还设有语音优化单元340。如图4所示,所述语音优化单元340与所述归一化单元330连接,所述语音优化单元340接收所述音频信号并利用机器学习优化所述音频信号,以得到优化后的音频信号,从而得到能够完整反映对象说话的全部信息的音频信号。
因此当得到的音频信号质量较差,无法完全反应说话者想表达的内容时,例如当所述判断装置400转换的文本信息与实际说话内容不符时,将所述音频信号传输到所述语音优化单元340,所述语音优化单元340利用机器学习优化所述音频信号,从而得到优化后的音频信号。这样本发明所述光学麦克风系统在针对喉咙振动的测量时,可以避免喉咙表面的不同位置振动强度不同和人本体的移动都会对信号引入噪声,从而以简单的结构实现对音源发出声音的采集,适用性好,可以应用于多种真实场景中。
如图8所示为所述语音优化单元340中机器学习优化处理过程的框架图,其中首先将参考音频作为训练数据集输入卷积神经网络(CNN)和长短期记忆神经网络(LSTM)进行训练生成权重图(Soft mask prediction),然后在所述光学麦克风系统的使用过程中,对生成的音频信号进行傅里叶变换(STFT),得到音频信号的时频图,将所述权重图与所述音频信号的时频图相乘得到优化后的时频图,最后将所述优化后的时频图通过傅里叶逆变换(Inverse STFT,逆STFT)得到优化后的音频信息。
本实施例针对第二类振动表面(喉咙表面)的语音采集效果如图6和图7所示。
图6为在安静环境下本发明所述光学麦克风系统采集到的音频信号以及利用常规麦克风采集到的音频信号。其中左侧图为两者分别采集到的音频信号的振幅相对于时间变化的示意图,右侧图为两者分别采集到的音频信号的频率相对于时间变化的示意图。可以看出本发明所述光学麦克风系统可以将声音对应的频率都采集到,只是对用频率的强度包络和干净语音的不同。由此可见在安静环境下本发明所述光学麦克风系统可以达到与常规麦克风相近的效果,而且无需要求振动表面的粗糙程度或形状,针对不同场景本发明所述光学麦克风系统均可以实现对声音的准确采集。
图7为在有背景干扰情况下本发明所述光学麦克风系统采集到的音频信号以及利用常规麦克风采集到的音频信号。其中左侧图为两者分别采集到的音频信号的振幅相对于时间变化的示意图,右侧图为两者分别采集到的音频信号的频率相对于时间变化的示意图。可以看出常规麦克风将杂音全部录入,而本发明所述光学麦克风系统由于只采集针对特定振动表面(喉咙表面)的激光信号强度变化,因此摈除了杂音信号,保留的是对象说话对应的音频信号,比常规麦克风采集的音频信号更加干净、简洁,更方便复原对象说话的内容。
如图9所示,本发明还提供一种光学麦克风系统的收音方法,包括利用以上各实施例所述的光学麦克风系统实现以下步骤:
步骤S100、向音源的振动表面发射激光信号。
步骤S200、接收经所述振动表面散射的所述激光信号,并将所述激光信号转换为电信号。
步骤S300、将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。
进一步地,如图10所示,步骤S300之后还包括步骤:
步骤S400、将所述数字信号转换为音频信号;
步骤S500、利用机器学习优化所述音频信号,得到优化后的音频信号。
步骤S600、将所述优化后的音频信号转换为文本信息,以判断所述音频信号的准确度。
具体地,所述步骤S500包括:
步骤S510、将所述音频信号通过傅里叶变换转换为音频信号的时频图。
步骤S520、根据输入和训练好的模型生成权重图。
步骤S530、将所述权重图与所述音频信号的时频图相乘得到优化后的时频图。
步骤S540、将所述优化后的时频图通过傅里叶逆变换转换为所述优化后的音频信号。
综上所述,本发明公开了一种光学麦克风系统及其收音方法。所述光学麦克风系统包括用于向音源的振动表面发射激光信号的激光发射装置;用于接收经所述振动表面散射的所述激光信号的激光接收装置,所述激光接收装置将所述激光信号转换为电信号,且所述激光接收装置与所述激光发射装置的相对位置设置为保证所述激光信号的光斑出现在所述激光接收装置的视场角中;与所述激光接收装置连接并从所述激光接收装置接收所述电信号的信号转换装置,所述信号转换装置将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。所述光学麦克风系统结构简单,且对于音源周围的振动表面的形状或粗糙度没有要求,适用性更强,可以实现嘈杂环境下或远距离情况下声音的采集。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种光学麦克风系统,其特征在于,包括:
激光发射装置,用于向音源的振动表面发射激光信号;
激光接收装置,用于接收经所述振动表面散射的所述激光信号,并将所述激光信号转换为电信号,所述激光接收装置与所述激光发射装置的相对位置设置为保证所述激光信号的光斑出现在所述激光接收装置的视场角中;
信号处理装置,与所述激光接收装置连接并接收所述电信号,所述信号处理装置将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。
2.根据权利要求1所述的光学麦克风系统,其特征在于,所述激光接收装置包括:
光电转换单元,所述光电转换单元正对所述振动表面设置,用于收集经所述振动表面散射的激光信号并将所述激光信号转换为电信号;
集束单元,所述集束单元设置在所述光电转换单元和所述振动表面之间,将所述激光信号聚焦到所述光电转换单元。
3.根据权利要求2所述的光学麦克风系统,其特征在于,所述光电转换单元为雪崩光电探测器,所述集束单元为透镜或透镜组。
4.根据权利要求2所述的光学麦克风系统,其特征在于,所述视场角由以下公式计算:
Figure FDA0003270453670000011
其中FOV为视场角,dapd为所述光电转换单元的感光直径,fapd为所述光电转换单元的焦距。
5.根据权利要求1所述的光学麦克风系统,其特征在于,所述信号处理装置包括:
模数转换器,与所述激光接收装置相连并接收所述电信号,所述模数转换器将所述电信号转换为数字信号;
存储单元,与所述模数转换器相连,接收并储存所述数字信号;
输出单元,向机器输出所述数字信号,以供所述机器识别所述声音的内容。
6.根据权利要求1所述的光学麦克风系统,其特征在于,还包括:
语音生成装置,与所述信号处理装置相连,所述语音生成装置接收所述数字信号并将所述数字信号转换为音频信号,以供用户识别所述声音的内容;
判断装置,与所述语音生成装置连接,所述判断装置从所述语音生成装置接收所述音频信号并将所述音频信号转换为文本信息,将所述文本信息与所述声音的内容比对以判断所述音频信号的准确度。
7.根据权利要求6所述的光学麦克风系统,其特征在于,所述语音生成装置包括:
趋势去除单元,所述趋势去除单元对所述数字信号进行趋势的去除形成第一信号;
滤波单元,所述滤波单元接收所述第一信号并对所述第一信号中人声的频率进行滤波形成第二信号;
归一化单元,所述归一化单元接收所述第二信号并对所述第二信号进行归一化处理得到所述音频信号。
8.根据权利要求7所述的光学麦克风系统,其特征在于,所述语音生成装置还包括:
语音优化单元,与所述归一化单元相连,所述语音优化单元接收所述音频信号并利用机器学习优化所述音频信号,以得到优化后的音频信号。
9.根据权利要求1所述的光学麦克风系统,其特征在于,所述激光发射装置包括:
激光发射器,用于向所述振动表面发射所述激光信号;
云台,固定在所述激光发射器下方,调整所述激光发射器的角度。
10.一种光学麦克风系统的收音方法,其特征在于,利用权利要求1至9中任一项所述光学麦克风系统以实现步骤:
向音源的振动表面发射激光信号;
接收经所述振动表面散射的所述激光信号,并将所述激光信号转换为电信号;
将所述电信号转换为数字信号并存储,以采集所述音源发出的声音。
CN202111111240.5A 2021-09-18 2021-09-18 一种光学麦克风系统及其收音方法 Pending CN113923573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111111240.5A CN113923573A (zh) 2021-09-18 2021-09-18 一种光学麦克风系统及其收音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111111240.5A CN113923573A (zh) 2021-09-18 2021-09-18 一种光学麦克风系统及其收音方法

Publications (1)

Publication Number Publication Date
CN113923573A true CN113923573A (zh) 2022-01-11

Family

ID=79235667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111111240.5A Pending CN113923573A (zh) 2021-09-18 2021-09-18 一种光学麦克风系统及其收音方法

Country Status (1)

Country Link
CN (1) CN113923573A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679662A (zh) * 2022-05-27 2022-06-28 安徽至博光电科技股份有限公司 一种信号处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2161341A (en) * 1984-05-31 1986-01-08 Christopher Buckingham Laser microphone
US6147787A (en) * 1997-12-12 2000-11-14 Brookhaven Science Associates Laser microphone
CN104871562A (zh) * 2012-10-31 2015-08-26 沃寇族姆系统有限公司 通过使用激光麦克风来检测语音相关的声信号的系统和方法
US20170150254A1 (en) * 2015-11-19 2017-05-25 Vocalzoom Systems Ltd. System, device, and method of sound isolation and signal enhancement
US10362409B1 (en) * 2018-03-06 2019-07-23 Qualcomm Incorporated Adjustable laser microphone
CN212695997U (zh) * 2020-06-23 2021-03-12 樊同亮 一种激光监听设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2161341A (en) * 1984-05-31 1986-01-08 Christopher Buckingham Laser microphone
US6147787A (en) * 1997-12-12 2000-11-14 Brookhaven Science Associates Laser microphone
CN104871562A (zh) * 2012-10-31 2015-08-26 沃寇族姆系统有限公司 通过使用激光麦克风来检测语音相关的声信号的系统和方法
US20170150254A1 (en) * 2015-11-19 2017-05-25 Vocalzoom Systems Ltd. System, device, and method of sound isolation and signal enhancement
US10362409B1 (en) * 2018-03-06 2019-07-23 Qualcomm Incorporated Adjustable laser microphone
CN212695997U (zh) * 2020-06-23 2021-03-12 樊同亮 一种激光监听设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679662A (zh) * 2022-05-27 2022-06-28 安徽至博光电科技股份有限公司 一种信号处理方法及系统

Similar Documents

Publication Publication Date Title
US11473898B2 (en) Wearable voice-induced vibration or silent gesture sensor
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
US9491553B2 (en) Method of audio signal processing and hearing aid system for implementing the same
US9638672B2 (en) System and method for acquiring acoustic information from a resonating body
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
CN106653041A (zh) 音频信号处理设备、方法和电子设备
US10154363B2 (en) Electronic apparatus and sound output control method
US20080071532A1 (en) Ultrasonic doppler sensor for speech-based user interface
JP6596049B2 (ja) ハンズフリー通話機器の通話品質を向上させる方法、装置及びハンズフリー通話機器
CN206349145U (zh) 音频信号处理设备
CN111179927A (zh) 一种金融设备语音交互方法以及系统
CN113923573A (zh) 一种光学麦克风系统及其收音方法
US10148801B2 (en) Method and apparatus for controlling multi-microphone noise-canceling sound pickup range of terminal
CN114339569B (zh) 一种获取振动传递函数的方法和系统
US20200251120A1 (en) Method and system for individualized signal processing of an audio signal of a hearing device
CN107734416B (zh) 一种激光面纹识别降噪装置、耳机及方法
CN113702910A (zh) 一种基于双麦克风的声音定位方法及其装置
JP4248458B2 (ja) 音圧測定方法
Li et al. LDV remote voice acquisition and enhancement
CN110456366B (zh) 位置检测设备和终端
US11659347B2 (en) Information processing apparatus, information processing method, and acoustic system
JP2023527803A (ja) 振動伝達関数を取得する方法及びシステム
JP2019054385A (ja) 集音機器、補聴器、及び集音機器セット
US20240153518A1 (en) Method and apparatus for improved speaker identification and speech enhancement
JP2009200569A (ja) 音源方向推定方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination