CN113810819B - 一种基于耳腔振动的静默语音采集处理方法及设备 - Google Patents

一种基于耳腔振动的静默语音采集处理方法及设备 Download PDF

Info

Publication number
CN113810819B
CN113810819B CN202111118423.XA CN202111118423A CN113810819B CN 113810819 B CN113810819 B CN 113810819B CN 202111118423 A CN202111118423 A CN 202111118423A CN 113810819 B CN113810819 B CN 113810819B
Authority
CN
China
Prior art keywords
vibration
voice
signal
silent
vibration sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111118423.XA
Other languages
English (en)
Other versions
CN113810819A (zh
Inventor
刘杰
盖鑫
戴国忠
田丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202111118423.XA priority Critical patent/CN113810819B/zh
Publication of CN113810819A publication Critical patent/CN113810819A/zh
Application granted granted Critical
Publication of CN113810819B publication Critical patent/CN113810819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Abstract

本发明公开了一种基于耳腔振动的静默语音采集处理方法及设备。本方法为:1)静默语音采集单元持续监测佩戴者耳腔的震动信号,当震动信号的震动幅度或频率变化高于设定阈值时,该静默语音采集单元中的空气振动传感器、骨振动传感器同时开始进行信号采集,并将采集的信号发送到数据处理端;2)数据处理端接收到信号后,以设定时间长度为基本单位,将采集的连续语音信号、震动信号分别划分为若干帧,并计算每一帧的平均能量及平均频率,然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入;3)对于传统语音输入,调用端到端语音识别模型进行语音内容识别;对于静默语音输入,则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。

Description

一种基于耳腔振动的静默语音采集处理方法及设备
技术领域
本发明属于人机交互领域,涉及一种适用于多种不同的噪音环境中的静默语音输入,具体为一种基于耳腔振动的静默语音采集处理方法及设备。
背景技术
一直以来,语音输入是人机交互领域研究的关键问题之一。传统的语音输入因为对环境有较高的要求,因此它有显而易见的缺点,比如在公众场合因为隐私问题而不方便使用正常音量的语音进行文本输入以及在嘈杂的环境中使用传统的语音进行输入时文本识别效果不佳等。所以传统的语音输入只适合在相对安静(无杂音)且私密的环境下使用,这完全不能满足用户在多种不同的噪音环境中进行语音输入的需求。目前,为了避免采集到用户语音输入时周围的各种环境杂音,已经出现了基于骨传导的语音采集方法,这些方法尽管在一定程度上不会采集环境噪音,但因为采集信号源头仍然为高分贝的传统语音输入,所以这些方法采集的语音准确性受到用户发音准确性的影响较大。而基于耳腔的低分贝的静默语音采集及识别目前仍未有相关技术及研究。
发明内容
为了克服现有技术的不足,本发明提供一种基于耳腔振动的静默语音采集处理方法及设备。可采集人在轻声默读、默念时语音输入采集的信号源头为静默语音,基于耳机中的振动传感器来匹配用户因发出目标静默语音而带来的肌肉运动,从而识别目标静默语音。
本发明将语音输入采集的信号源为低分贝的静默语音,克服了传统的语音输入对环境有较高要求的不足,同时也避免了语音输入时因环境及他人产生的干扰问题。基于耳机中的振动传感器来匹配用户因发出低分贝静默语音时而带来的耳腔内的空气振动及耳腔内的骨传导振动,从而实现静默语音的耳腔空气振动及耳腔内的骨振动的采集。由于振动传感器对周围空气介质中的振动不敏感,而只对人体组织的振动敏感,所以本发明具有较为优良的抗环境噪声的能力。
本发明解决其技术问题所采用的技术方案是:系统将静默语音作为文本输入通道,用户发出低分贝的静默语音时,会产生具体的肌肉运动形态(即针对每个词产生对应的肌肉振动频率),所以静默语音以振动的形式产生信号源,信号源由口腔、脑腔传递至耳腔,再通过耳膜振动所导致的耳腔空气振动、耳腔内的骨振动传导到到内耳中的耳机,耳机中的振动传感器识别产生的肌肉振动频率,从而得到用户输入的目标静默语音。
本发明的技术方案为:
一种基于耳腔振动的静默语音采集处理方法,其步骤包括:
1)静默语音采集单元持续监测佩戴者耳腔的震动信号,当震动信号的震动幅度或频率变化高于设定阈值时,该静默语音采集单元中的空气振动传感器、骨振动传感器同时开始进行信号采集,并将采集的信号发送到数据处理端;其中,该静默语音采集单元佩戴于用户耳腔中;
2)数据处理端接收到信号后,以设定时间长度为基本单位,将采集的连续语音信号、震动信号分别划分为若干帧,并计算每一帧的平均能量及平均频率,然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入;
3)对于传统语音输入,调用端到端语音识别模型进行语音内容识别;对于静默语音输入,
则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。
进一步的,通过信号的幅值及频率计算每一帧的平均能量及平均频率。
进一步的,所述静默语音采集单元以低功耗模式持续监测震动信号。
进一步的,通过蓝牙通信将采集到的信息发送到所述数据处理端。
进一步的,当震动信号的震动幅度或频率变化高于设定阈值时,该静默语音采集单元发送激活信号给空气振动传感器、骨振动传感器,对其进行激活;然后空气振动传感器、骨振动传感器采集同时开始进行信号采集。
一种静默语音采集处理设备,其特征在于,包括静默语音采集单元和数据处理端;其中,静默语音采集单元包括骨振动传感器、空气振动传感器;
该静默语音采集单元佩戴于用户耳腔中,用于持续监测佩戴者耳腔的震动信号,当震动信号的震动幅度或频率变化高于设定阈值时,激活空气振动传感器、骨振动传感器同时开始进行信号采集,并将采集的信号发送到数据处理端;
数据处理端,用于以设定时间长度为基本单位,将采集的连续语音信号、震动信号分别划分为若干帧,并计算每一帧的平均能量及平均频率,然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入;对于传统语音输入,调用端到端语音识别模型进行语音内容识别;对于静默语音输入,则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。
本发明的优点和有益效果如下:
1)基于耳腔振动的静默语音采集方法可以支持低分贝的静默语音及高分贝的传统语音输入,在保持语音输入自然性的同时提高输入的效率。
2)基于耳腔振动的静默语音采集方法适用于多种不同的噪音环境,具有更优良的抗环境噪声的能力。本输入方法克服了传统的语音输入对环境有较高要求的不足,避免了因为环境噪音干扰所导致的识别结果不准确的问题。
3)低分贝的静默语音输入方法适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合,具有非常好的隐秘性。
附图说明
图1是本发明用户发声后的采集原理图。
图2是本发明对采集到的语音信号的处理过程。
具体实施方式
为了使本技术领域的人员更好的理解本发明,下面结合附图和实施方式对本发明作进一步的详细说明。
一种基于耳腔振动的静默语音采集方法(如图1和图2所示),其步骤为:
1)用户由喉部产生语音输入振动,产生的肌肉振动作为信号源,振动通口腔、脑腔传递到耳腔。
2)一般情况下,静默语音采集设备处于休眠状态,采集设备以低功耗模式持续监测震动信号,当震动信号的震动幅度、频率变化高于一定的阈值时,静默语音采集设备中集成的空气振动传感器、骨振动传感器同时激活达到被唤醒的状态,分别进行耳腔内空气中语音信号、肌肉震动及骨震动的信号采集,并通过蓝牙通信将采集到的信息发送到数据处理端,如手机。其中,空气振动传感器采集了耳腔内空气中语音信号,骨振动传感器采集了肌肉振动及骨振动的信号。
3)数据处理端接收到语音信号后,以一定时间长度为基本单位,将连续语音、震动信号分别划分为若干帧,通过信号的幅值及频率逐帧计算其单帧的平均能量及平均频率,根据能量阈值判断用户嘴部发生振动是传统语音输入或静默语音输入。
4)调用不同的处理方法,对传统语音输入或静默语音输入进行信号处理及识别。对于传统语音输入,调用基于神经网络训练的端到端语音识别模型进行识别。对于静默语音输入,则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变换和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于耳腔振动的静默语音采集处理方法,其步骤包括:
1)静默语音采集单元持续监测佩戴者耳腔的震动信号,当震动信号的震动幅度或频率变化高于设定阈值时,该静默语音采集单元中的空气振动传感器、骨振动传感器同时开始进行信号采集,并将采集的信号发送到数据处理端;其中,该静默语音采集单元佩戴于用户耳腔中;
2)数据处理端接收到信号后,以设定时间长度为基本单位,将采集的连续语音信号、震动信号分别划分为若干帧,并计算每一帧的平均能量及平均频率,然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入;
3)对于传统语音输入,调用端到端语音识别模型进行语音内容识别;对于静默语音输入,则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。
2.如权利要求1所述的方法,其特征在于,通过信号的幅值及频率计算每一帧的平均能量及平均频率。
3.如权利要求1或2所述的方法,其特征在于,所述静默语音采集单元以低功耗模式持续监测震动信号。
4.如权利要求1或2所述的方法,其特征在于,通过蓝牙通信将采集到的信息发送到所述数据处理端。
5.如权利要求1或2所述的方法,其特征在于,当震动信号的震动幅度或频率变化高于设定阈值时,该静默语音采集单元发送激活信号给空气振动传感器、骨振动传感器,对其进行激活;然后空气振动传感器、骨振动传感器采集同时开始进行信号采集。
6.一种静默语音采集处理设备,其特征在于,包括静默语音采集单元和数据处理端;其中,静默语音采集单元包括骨振动传感器、空气振动传感器;
该静默语音采集单元佩戴于用户耳腔中,用于持续监测佩戴者耳腔的震动信号,当震动信号的震动幅度或频率变化高于设定阈值时,激活空气振动传感器、骨振动传感器同时开始进行信号采集,并将采集的信号发送到数据处理端;
数据处理端,用于以设定时间长度为基本单位,将采集的连续语音信号、震动信号分别划分为若干帧,并计算每一帧的平均能量及平均频率,然后根据计算结果与设定能量阈值进行比较判断用户是传统语音输入或静默语音输入;对于传统语音输入,调用端到端语音识别模型进行语音内容识别;对于静默语音输入,则采用卷积神经网络模型对采集到的震动信号进行特征提取、融合与内容识别。
7.如权利要求6所述的静默语音采集处理设备,其特征在于,所述数据处理端通过信号的幅值及频率计算每一帧的平均能量及平均频率。
8.如权利要求6所述的静默语音采集处理设备,其特征在于,所述静默语音采集单元以低功耗模式持续监测震动信号。
9.如权利要求6所述的静默语音采集处理设备,其特征在于,所述骨振动传感器、空气振动传感器分别通过蓝牙通信将采集到的信息发送到所述数据处理端。
CN202111118423.XA 2021-09-23 2021-09-23 一种基于耳腔振动的静默语音采集处理方法及设备 Active CN113810819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111118423.XA CN113810819B (zh) 2021-09-23 2021-09-23 一种基于耳腔振动的静默语音采集处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111118423.XA CN113810819B (zh) 2021-09-23 2021-09-23 一种基于耳腔振动的静默语音采集处理方法及设备

Publications (2)

Publication Number Publication Date
CN113810819A CN113810819A (zh) 2021-12-17
CN113810819B true CN113810819B (zh) 2022-06-28

Family

ID=78896499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111118423.XA Active CN113810819B (zh) 2021-09-23 2021-09-23 一种基于耳腔振动的静默语音采集处理方法及设备

Country Status (1)

Country Link
CN (1) CN113810819B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591568A (zh) * 2003-07-29 2005-03-09 微软公司 头部安装的多-感觉音频输入系统
JP2005140860A (ja) * 2003-11-04 2005-06-02 Canon Inc 音声認識装置およびその制御方法
KR20050057004A (ko) * 2002-08-30 2005-06-16 아사히 가세이 가부시키가이샤 마이크로폰, 커뮤니케이션 인터페이스 시스템
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN111723717A (zh) * 2020-06-11 2020-09-29 天津大学 一种无声语音识别方法及系统
CN112034977A (zh) * 2019-06-04 2020-12-04 陈涛 Mr智能眼镜内容交互、信息输入、应用推荐技术的方法
CN112399297A (zh) * 2019-08-19 2021-02-23 Oppo广东移动通信有限公司 一种耳机及其语音唤醒方法、计算机存储介质
WO2021149441A1 (ja) * 2020-01-20 2021-07-29 ソニーグループ株式会社 情報処理装置および情報処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671379B2 (en) * 2001-03-30 2003-12-30 Think-A-Move, Ltd. Ear microphone apparatus and method
US6647368B2 (en) * 2001-03-30 2003-11-11 Think-A-Move, Ltd. Sensor pair for detecting changes within a human ear and producing a signal corresponding to thought, movement, biological function and/or speech
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
CA3079917A1 (en) * 2017-10-27 2019-05-02 Ecole De Technologie Superieure In-ear nonverbal audio events classification system and method
KR102565882B1 (ko) * 2019-02-12 2023-08-10 삼성전자주식회사 복수의 마이크들을 포함하는 음향 출력 장치 및 복수의 마이크들을 이용한 음향 신호의 처리 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050057004A (ko) * 2002-08-30 2005-06-16 아사히 가세이 가부시키가이샤 마이크로폰, 커뮤니케이션 인터페이스 시스템
CN1591568A (zh) * 2003-07-29 2005-03-09 微软公司 头部安装的多-感觉音频输入系统
JP2005140860A (ja) * 2003-11-04 2005-06-02 Canon Inc 音声認識装置およびその制御方法
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN112034977A (zh) * 2019-06-04 2020-12-04 陈涛 Mr智能眼镜内容交互、信息输入、应用推荐技术的方法
CN112399297A (zh) * 2019-08-19 2021-02-23 Oppo广东移动通信有限公司 一种耳机及其语音唤醒方法、计算机存储介质
WO2021149441A1 (ja) * 2020-01-20 2021-07-29 ソニーグループ株式会社 情報処理装置および情報処理方法
CN111723717A (zh) * 2020-06-11 2020-09-29 天津大学 一种无声语音识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Silent-speech enhancement using body-conducted vocal-tract resonance signals;Tatsuya Hirahara;《Speech Communication》;20100430;全文 *

Also Published As

Publication number Publication date
CN113810819A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CA3075738C (en) Low latency audio enhancement
US6647368B2 (en) Sensor pair for detecting changes within a human ear and producing a signal corresponding to thought, movement, biological function and/or speech
Lu et al. Speakersense: Energy efficient unobtrusive speaker identification on mobile phones
CN108735219B (zh) 一种声音识别控制方法及装置
CN107591162B (zh) 基于模式匹配的哭声识别方法及智能看护系统
AU2002307038B2 (en) Ear microphone apparatus and method
CN1761265A (zh) 移动设备上的多传感语音增强方法和装置
WO2004021738A1 (ja) マイクロフォン、コミュニケーションインタフェースシステム
AU2002307038A1 (en) Ear microphone apparatus and method
KR20050013969A (ko) 머리에 탑재되는 다중 감각 오디오 입력 시스템
US10573335B2 (en) Methods, systems and apparatuses for inner voice recovery from neural activation relating to sub-vocalization
US20220084529A1 (en) Method and apparatus for awakening wearable device
JP2017140198A (ja) 筋電信号を用いて顔表情を高い精度で識別する装置、デバイス、プログラム及び方法
Meltzner et al. Signal acquisition and processing techniques for sEMG based silent speech recognition
TWI749663B (zh) 發聲監控之方法及系統
Dupont et al. Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise
CN106774915A (zh) 一种可穿戴设备通信消息的收发控制方法及可穿戴设备
US20230239800A1 (en) Voice Wake-Up Method, Electronic Device, Wearable Device, and System
CN113810819B (zh) 一种基于耳腔振动的静默语音采集处理方法及设备
CN108831472B (zh) 一种基于唇语识别的人工智能发声系统及发声方法
US20220230657A1 (en) Voice control method and apparatus, chip, earphones, and system
CN109511036A (zh) 一种耳机自动静音方法及可自动静音的耳机
CN113409809B (zh) 语音降噪方法、装置及设备
CN110956949B (zh) 一种口含式缄默通信方法与系统
CN215187277U (zh) 一种骨传导拾音器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant