KR102578147B1 - Method for detecting user voice activity in a communication assembly, its communication assembly - Google Patents

Method for detecting user voice activity in a communication assembly, its communication assembly Download PDF

Info

Publication number
KR102578147B1
KR102578147B1 KR1020197026035A KR20197026035A KR102578147B1 KR 102578147 B1 KR102578147 B1 KR 102578147B1 KR 1020197026035 A KR1020197026035 A KR 1020197026035A KR 20197026035 A KR20197026035 A KR 20197026035A KR 102578147 B1 KR102578147 B1 KR 102578147B1
Authority
KR
South Korea
Prior art keywords
signal
speech
user
audio
audio signal
Prior art date
Application number
KR1020197026035A
Other languages
Korean (ko)
Other versions
KR20190118171A (en
Inventor
자진 안
마이클 존 뷔르츠
데이비드 뷔르츠
만프리트 카이라
아미트 쿠마르
숀 오코너
샨카르 라사우드
제임스 스칸란
에릭 소렌슨
Original Assignee
아브네라 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/711,793 external-priority patent/US10564925B2/en
Application filed by 아브네라 코포레이션 filed Critical 아브네라 코포레이션
Publication of KR20190118171A publication Critical patent/KR20190118171A/en
Application granted granted Critical
Publication of KR102578147B1 publication Critical patent/KR102578147B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Headphones And Earphones (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

많은 헤드셋들은 지각된 배경 잡음을 극적으로 감소시키고 사용자 청취 경험을 개선하는 자동 잡음 소거(ANC)를 포함한다. 안타깝게도, 이러한 디바이스들 내의 음성 마이크로폰들은 헤드셋들이 전화 호출들 또는 다른 통신 세션들 동안 다른 사용자들에게 출력하는 주변 잡음을 종종 캡처한다. 이에 응답하여, 많은 헤드셋들 및 통신 디바이스들은 수동 음소거 회로를 제공하지만, 사용자들은 음소거를 턴 온 및/또는 오프하는 것을 자주 잊어서, 그들이 통신함에 따라 추가 문제들을 생성한다. 이것을 해결하기 위해, 본 발명자들은 다른 것들 중에서, 전달 함수들의 행렬을 사용하여 마이크로폰들로부터 유도되는 2개의 신호에 기초하여 사용자 스피치의 부재 또는 존재를 검출하여, 사용자 개입 없이 음성 마이크로폰을 자동으로 음소거하고 음소거 해제하는 예시적 헤드셋을 고안했다. 일부 실시예들은 사용자 스피치를 검출하기 위해 ANC 회로에서 피드백 및 피드포워드 신호들 사이의 관계들을 강화하여, 헤드셋에 여분의 하드웨어의 추가를 회피한다. 다른 실시예들은 또한 키워드 검출기들, 및/또는 측음 회로들을 활성화하고 비활성화하기 위해 스피치 검출 기능을 강화하며, 따라서 배터리를 연장한다.Many headsets include automatic noise cancellation (ANC), which dramatically reduces perceived background noise and improves the user listening experience. Unfortunately, voice microphones in these devices often capture the ambient noise that the headsets output to other users during phone calls or other communication sessions. In response to this, many headsets and communication devices provide passive mute circuitry, but users often forget to turn the mute on and/or off, creating additional problems as they communicate. To solve this, the present inventors have, among other things, used a matrix of transfer functions to detect the absence or presence of user speech based on two signals derived from the microphones, automatically muting the voice microphone without user intervention, and An exemplary headset was designed to unmute. Some embodiments strengthen the relationships between feedback and feedforward signals in the ANC circuit to detect user speech, avoiding adding extra hardware to the headset. Other embodiments also enhance the speech detection function to activate and deactivate keyword detectors, and/or sidetone circuits, thus extending battery life.

Figure R1020197026035
Figure R1020197026035

Description

통신 어셈블리에서의 사용자 음성 액티비티 검출을 위한 방법, 그것의 통신 어셈블리Method for detecting user voice activity in a communication assembly, its communication assembly

저작권 공고 및 허가Copyright Notice and Permission

이 특허 문헌의 일부는 저작권 보호를 받는 자료를 포함한다. 저작권자는 미국 특허청 특허 파일들 또는 기록들에 등장하는 바와 같은, 특허 문헌 또는 특허 개시물의 누군가에 의한 팩시밀리 복제에는 이의가 없지만, 그 외엔 무엇이든 모든 저작권들을 보유한다. 다음의 공고는 이러한 문헌에 적용된다: Copyrightⓒ 2017, AVNERA CORPORATION.Portions of this patent document contain material that is subject to copyright protection. The copyright holder has no objection to facsimile reproduction by anyone of the patent document or patent disclosure as it appears in the U.S. Patent and Trademark Office patent files or records, but otherwise reserves all copyright rights whatsoever. The following notice applies to this document: Copyrightⓒ 2017, AVNERA CORPORATION.

관련 출원들Related Applications

본 출원은 2017년 9월 21일에 출원된 미국 특허 출원 제15/711,793호; 및 2017년 2월 7일에 출원된 미국 가특허 출원 제62/456,100호; 2017년 2월 14일에 출원된 미국 가특허 출원 제62/459,055호; 및 2017년 7월 14일에 출원된 미국 가특허 출원 제62/532,964호에 대한 우선권을 주장한다. 모든 4개의 출원은 본원에 전체적으로 참조로 포함된다.This application relates to U.S. Patent Application No. 15/711,793, filed September 21, 2017; and U.S. Provisional Patent Application No. 62/456,100, filed February 7, 2017; U.S. Provisional Patent Application No. 62/459,055, filed February 14, 2017; and U.S. Provisional Patent Application No. 62/532,964, filed July 14, 2017. All four applications are hereby incorporated by reference in their entirety.

기술분야Technology field

본 발명의 다양한 실시예들은 일반적으로 자동 잡음 감소를 가진 것들과 같은, 다양한 타입들의 헤드셋들에서의 사용자 음성 액티비티의 자동 검출에 관한 것이다.Various embodiments of the present invention generally relate to automatic detection of user voice activity in various types of headsets, such as those with automatic noise reduction.

헤드셋들은 전형적으로 전자 통신들을 용이하게 하기 위해 사용자들의 귀들에 걸쳐, 귀들 상에, 또는 귀들 내에 착용되는 1개의 또는 2개의 이어 디바이스 또는 귀마개와 함께 마이크로폰을 포함한다. 많은 현대의 헤드셋들은 또한 주변 잡음의 상당한 부분들을 자동으로 감지하고 소거하기 위한 자동 잡음 감소(automatic noise reduction)(ANR) 또는 자동 잡음 소거(automatic noise cancellation)(ANC) 회로를 포함하며, 그것에 의해 사용자 청취 경험을 개선한다. ANC 회로는 원리가 간단하지만, 구현이 복잡하며, 많은 헤드셋들은 같은 6개의 마이크로폰(mic)을 포함한다: 피드백(fb) ANC에 대해 2개, 피드포워드(ff) ANC에 대해 2개, 및 사용자 음성 신호들을 픽업하기 위해 1개 또는 2개.Headsets typically include a microphone along with one or two ear devices or earplugs that are worn over, on, or within the user's ears to facilitate electronic communications. Many modern headsets also include automatic noise reduction (ANR) or automatic noise cancellation (ANC) circuitry to automatically detect and cancel significant portions of ambient noise, thereby allowing the user to Improve your listening experience. The ANC circuit is simple in principle but complex in implementation, and many headsets contain the same six microphones: two for feedback (fb) ANC, two for feedforward (ff) ANC, and a user microphone. 1 or 2 to pick up voice signals.

본 발명자들이 인식했던 하나의 문제는 ANC 헤드셋들이 그들을 착용하는 사용자들의 청취 경험들을 개선하지만, 헤드셋으로부터 다른 디바이스들로 송신되는 신호들의 품질을 거의 개선하지 못한다는 것이다. 예를 들어, 많은 잡음 환경들에서, 이동 전화들을 가진 헤드셋들을 착용하는 사용자들은 전형적으로 배경 잡음이 전화에 의해 다른 전화들 및 디바이스들에 송신되는 것을 방지하기 위해 그들의 전화들을 음소거 모드로 수동으로 스위칭하도록 요구받는다. 이것이 원치 않는 잡음 송신을 방지할 시에 효과적이지만, 그것은 사용자들이 다시 말하기 시작할 때 전화들을 음소거한 사용자들이 음소거 해제하는 것을 잊음에 따라 통신들의 갭들을 종종 초래한다. 더욱이, 많은 사용자들이 수동으로 음소거하고 음소거 해제하는 회의 호출들에서, 통신 갭들에 대한 잠재력이 훨씬 더 크다.One problem the inventors recognized is that while ANC headsets improve the listening experiences of users who wear them, they do little to improve the quality of signals transmitted from the headset to other devices. For example, in high noisy environments, users wearing headsets with mobile phones typically manually switch their phones to mute mode to prevent background noise from being transmitted by the phone to other phones and devices. are asked to do so. Although this is effective in preventing unwanted noise transmission, it often results in gaps in communications as users who mute their phones forget to unmute them when they start speaking again. Moreover, in conference calls where many users manually mute and unmute, the potential for communication gaps is even greater.

문제를 해결하려고 시도할 시에, 일부 디자이너들은 음성 mic 출력을 감시하고 하나 이상의 임계치와 mic 출력 레벨의 비교에 기초하여 자동으로 음소거하거나 음소거 해제하는 회로를 제공했다. 그러나, 감시 회로는 이동 전화들에서 그것의 사용을 금지했던 적어도 2개의 문제를 겪는다. 첫째로, 그것은 상당한 전력을 소비하고 따라서 배터리 수명을 단축한다. 둘째로, 회로는 말하기가 정지하고 시작하는 것에 대한 그것의 느린 반응 때문 뿐만 아니라, 그것이 외부 잡음들, 예를 들어, 인근의 사람의 음성들을 사용자 음성과 혼동하기 때문에 그 자체의 통신 갭들을 생성한다.In attempting to solve the problem, some designers have provided circuitry to monitor voice mic output and automatically mute or unmute based on a comparison of the mic output level to one or more thresholds. However, the monitoring circuit suffers from at least two problems that have prohibited its use in mobile phones. Firstly, it consumes significant power and thus shortens battery life. Second, the circuit creates its own communication gaps not only because of its slow response to stopping and starting speech, but also because it confuses external noises, for example the voices of nearby people, with the user's voice. .

따라서, 본 발명자들은 ANC 및 다른 타입들의 헤드셋들을 통해 주변 잡음의 송신을 감소시키는 더 양호한 방식들에 대한 요구를 인식했다.Accordingly, the present inventors have recognized the need for better ways to reduce transmission of ambient noise through ANC and other types of headsets.

이러한 및/또는 다른 요구들 또는 문제들 중에서 하나 이상을 처리하기 위해, 본 발명자들은 다른 것들 중에서, 사용자 스피치의 존재 또는 부재를 자동으로 검출하고 연관된 음소거 또는 다른 음성 또는 스피치 의존 기능성을 동작시키기 위한 하나 이상의 예시적 시스템, 키트, 방법, 디바이스, 어셈블리, 및/또는 구성요소를 고안했다. 일부 실시예들은 음성 mic, 적어도 2개의 제어 mic, 및 처리 회로를 포함하며, 처리 회로는 제어 mic 출력 신호들의 관계에 기초하여 음성 mic를 음소거하도록 구성된다.To address one or more of these and/or other needs or problems, the present inventors have proposed, among other things, one method for automatically detecting the presence or absence of user speech and activating associated muting or other voice- or speech-dependent functionality. The above exemplary systems, kits, methods, devices, assemblies, and/or components have been designed. Some embodiments include a voice mic, at least two control mics, and processing circuitry, where the processing circuitry is configured to mute the voice mic based on a relationship between the control mic output signals.

제1 실시예에서, 2개의 제어 mic, 예를 들어 좌측 이어피스 장착된 mic 및 우측 이어피스 장착된 mic는 사용자 음성 영역에 거의 대칭 음향 결합을 위해 구성된다. 처리 회로는 2개의 mic로부터의 출력 신호들의 측정된 일시적 대칭 -- 예를 들어 위상 관계 --에 기초하여 사용자가 말하고 있는지를 결정하며, 높은 대칭은 사용자 스피치(거의 동시에 양 mic들에 도달함)를 나타내고 낮은 대칭은 주변 잡음 또는 비사용자 스피치를 나타낸다. 2개의 제어 mic는 제1 실시예의 일부 변형들에서 ANC 헤드셋 내이 좌측 및 우측 피드백 mic들이다. 일부 다른 변형들은 샘플링된 mic 출력들의 복소 코히어런스를 사용하여 위상 관계를 측정하거나 추정하여, 복소 코히어런스의 실수 부분이 임계 값을 하회할 때마다 음소거 회로를 활성화시킨다.In a first embodiment, two control mics, for example a left earpiece mounted mic and a right earpiece mounted mic, are configured for substantially symmetrical acoustic coupling to the user's voice area. The processing circuitry determines whether the user is speaking based on the measured temporal symmetry -- e.g., phase relationship -- of the output signals from the two mics, with high symmetry indicating that the user's speech (arriving at both mics at approximately the same time) and low symmetry indicates ambient noise or non-user speech. The two control mics are ANC headset inner ear left and right feedback mics in some variations of the first embodiment. Some other variations use the complex coherence of sampled mic outputs to measure or estimate the phase relationship, activating a mute circuit whenever the real part of the complex coherence falls below a threshold.

제2 실시예에서, 2개의 제어 mic는 사용자 음성 영역에 비대칭 음향 결합을 위해 구성되며, 즉, 하나의 mic는 다른 것보다 사용자 음성 영역에 우수한 음향 결합을 갖는다. 처리 회로는 2개의 mic 출력 신호의 상대 크기 또는 에너지 레벨에 기초하여 음소거를 턴 온 또는 오프하도록 구성된다. 예를 들어, 일부 ANC 실시예들에서, 우수한 음향 결합을 가진 mic는 ANC 이어피스 내의 피드백 에러 mic이고 다른 것은 피드포워드 mic이다. 처리 회로는 음소거 기능을 턴 온 또는 오프하는지를 결정할 시에 피드백 에러 mic 출력 대 피드포워드 mic 출력의 비를 임계치와 비교한다. 일부 변형들은 ANC 제어 mic들보다는 오히려 붐 또는 코드 상에 배치되는 2개의 mic를 사용할 수 있다.In a second embodiment, the two control mics are configured for asymmetric acoustic coupling to the user's voice region, ie one mic has better acoustic coupling to the user's voice region than the other. The processing circuitry is configured to turn muting on or off based on the relative magnitude or energy level of the two mic output signals. For example, in some ANC embodiments, the mic with good acoustic coupling is a feedback error mic in the ANC earpiece and another is a feedforward mic. The processing circuitry compares the ratio of the feedback error mic output to the feedforward mic output to a threshold when determining whether to turn the mute function on or off. Some variations may use two mics placed on the boom or cord rather than ANC controlled mics.

처리 회로는 음소거 기능을 턴 온 또는 오프하는지를 결정할 시에 피드백 에러 mic 출력 대 피드포워드 mic 출력의 비를 임계치와 비교한다. 일부 변형들은 ANC 제어 mic들보다는 오히려, 붐 또는 코드 상에 배치되는 2개의 mic를 사용할 수 있다. 더 일반화된 실시예들은 2개의 신호를 생성하기 위해 2개 이상의 마이크로폰을 사용하며, 제1 신호는 제2 신호보다 사용자 스피치에 더 가깝게 결합되고, 제2 신호는 제1 신호보다 주변 잡음 또는 사운드에 더 가깝게 결합된다.The processing circuitry compares the ratio of the feedback error mic output to the feedforward mic output to a threshold when determining whether to turn the mute function on or off. Some variations may use two mics placed on a boom or cord, rather than ANC controlled mics. More general embodiments use two or more microphones to generate two signals, the first signal being more closely coupled to the user's speech than the second signal, and the second signal being more sensitive to ambient noise or sound than the first signal. more closely coupled.

제3 실시예는 피드백 에러 mic 및 피드포워드 주변 mic와 같은, 2개의 mic로부터의 신호들 사이의 위상 및 크기 차이들 둘 다를 설명하는 전달 함수를 추정한다. 이러한 실시예의 일부 변형들은 ANC mic가 없고 음성 mic 및 또 다른 mic와 같은, 다른 쌍들의 mic들을 사용할 수 있다. 전달 함수는 칼만 필터링 또는 다른 형태의 최적 추정기와 같은, 다양한 방법들을 사용하여 추정될 수 있다.A third embodiment estimates a transfer function that accounts for both phase and magnitude differences between signals from two mics, such as a feedback error mic and a feedforward ambient mic. Some variations of this embodiment may have no ANC mic and use other pairs of mics, such as a voice mic and another mic. The transfer function can be estimated using a variety of methods, such as Kalman filtering or other types of optimal estimators.

하나 이상의 실시예는 또한 다른 특징들을 포함한다. 예를 들어, 일부 실시예들은 마이크로폰들 중 하나 이상과 연관되는 이어피스 내의 확성기를 통해 출력되는 뮤직 또는 다른 오디오 신호들을 소거하기 위해 소거기를 포함한다. 일부 실시예들은 구어들 사이에서 또는 짧은 중단들 동안 음소거의 위험을 감소시키기 위해 음소거 지연 및 유지 기능들을 포함한다. 또 다른 실시예들은 음성 mic의 적시 음소거 해제를 보장하고 따라서 사용자 스피치의 부분 손실을 회피하기 위해 버퍼 메모리 및 룩 어헤드 기능성을 포함한다.One or more embodiments also include other features. For example, some embodiments include an attenuator to mute music or other audio signals output through a loudspeaker within an earpiece associated with one or more of the microphones. Some embodiments include mute delay and hold features to reduce the risk of muting between spoken words or during brief pauses. Still other embodiments include buffer memory and look ahead functionality to ensure timely unmute of the voice mic and thus avoid partial loss of user speech.

다양한 실시예들은 이하의 첨부된 도면들(Figs)을 참조하여 본원에 설명된다. 이러한 도면들은 다양한 특징들 및 구성요소들에 대한 참조 번호들로 주석이 달려지고, 이러한 번호들은 이하의 설명에 교시 보조로서 사용되며, 비슷한 번호들은 동일한 또는 유사한 특징들 및 구성요소들을 언급한다.
도 1은 본 발명의 하나 이상의 실시예에 대응하는 예시적 헤드셋 시스템 또는 어셈블리(100)의 블록도이다.
도 2는 본 발명의 하나 이상의 실시예에 대응하는, 어셈블리(100)의 사용자 음성 액티비티 검출기 부분을 동작시키는 예시적 방법의 블록도이다.
도 3은 본 발명의 하나 이상의 실시예에 대응하는 헤드셋 시스템(300)의 절반의 개념 시스템 도해이다.
도 4는 본 발명의 하나 이상의 실시예에 대응하는, 다수의 오디오 변환기 및 오디오 입력 신호들을 갖는 일반적 전기음향 시스템의 블록도이다.
도 5는 본 발명의 하나 이상의 실시예에 대응하는 사용자 음성 액티비티 검출기의 블록도이다.
Various embodiments are described herein with reference to the accompanying drawings (Figs) below. These drawings are annotated with reference numbers for various features and components, and such numbers are used as teaching aids in the following description, with like numbers referring to the same or similar features and components.
1 is a block diagram of an example headset system or assembly 100 corresponding to one or more embodiments of the present invention.
2 is a block diagram of an example method of operating the user voice activity detector portion of assembly 100, corresponding to one or more embodiments of the present invention.
3 is a half-conceptual system diagram of a headset system 300 corresponding to one or more embodiments of the present invention.
Figure 4 is a block diagram of a general electroacoustic system with multiple audio transducers and audio input signals, corresponding to one or more embodiments of the present invention.
Figure 5 is a block diagram of a user voice activity detector corresponding to one or more embodiments of the present invention.

도면들 및 청구항들을 포함하는 이러한 문헌은 하나 이상의 발명의 하나 이상의 특정 실시예를 설명한다. 발명을 제한하는 것이 아니라 발명을 예시하고 교시하기 위해서만 제공되는 이러한 실시예들은 본 기술분야의 통상의 기술자들이 발명(들)을 구현하거나 실시할 수 있게 하기 위해 충분히 상세하게 도시되고 설명된다. 더욱이, 발명(들)을 모호하게 하는 것을 회피하기에 적절한 곳에서, 설명은 본 기술분야의 통상의 기술자들에게 공지된 특정 정보를 생략할 수 있다.This document, including the drawings and claims, describes one or more specific embodiments of one or more inventions. These embodiments, which are provided only to illustrate and teach the invention and not to limit it, are shown and described in sufficient detail to enable any person skilled in the art to implement or practice the invention(s). Moreover, where appropriate to avoid obscuring the invention(s), the description may omit certain information known to those skilled in the art.

도 1은 사용자의 머리(101)의 귀들(102A 및 102B)에 장착되는 예시적 ANR 헤드셋 어셈블리 또는 시스템(100)을 도시한다(상면도). 사용자 머리(101)는 각각의 좌측 및 우측 귀들(102A 및 102B), 입(103), 및 사용자 음성 영역(104)을 포함한다. 사용자 음성 영역(104)은 사용자 입 및 음성 박스(도시되지 않음)를 포함한다. 어셈블리(100)는 좌측 및 우측 이어피스들(110A 및 110B), 임의적 헤드밴드(110C), 인라인 또는 붐 음성 마이크로폰(120), 처리 회로(130), 및 호스트 또는 외부 디바이스(140)를 포함한다.1 shows an example ANR headset assembly or system 100 mounted on ears 102A and 102B of a user's head 101 (top view). The user head 101 includes left and right ears 102A and 102B, respectively, a mouth 103, and a user voice area 104. User voice area 104 includes a user mouth and voice box (not shown). Assembly 100 includes left and right earpieces 110A and 110B, optional headband 110C, in-line or boom voice microphone 120, processing circuitry 130, and host or external device 140. .

인-디-이어(in-the-ear), 오버-디-이어(over-the-ear), 또는 온-디-이어(on-the-ear) 구성들을 취하고 수직 축(110D)을 정의할 수 있는 이어피스들(110A 및 110B)은 각각의 ANR 드라이버들(DA 및 DB), 피드포워드 mic들(FFA 및 FFB), 및 각각의 피드백 mic들(FBA 및 FBB)을 포함한다. ANR 드라이버들(DA 및 DB)은 각각의 이어피스들(110A 및 110B)의 내부 체적들을 전면 캐비티 및 후면 캐비티 부분들(개별적으로 라벨링되지 않음)로 분할한다. 피드포워드 주변 mic들(FFA 및 FFB)은 후면 캐비티들 내에 또는 이 캐비티들에 인접하여 위치되며, 피드백 mic들(FBA 및 FBB)보다 각각의 귀들(102A 및 102B)로부터 더 멀리 떨어져서 위치되어, 그들이 피드백 에러 mic들(FBA 및 FBB)보다 주변 잡음에 더 큰 음향 결합을 제공하고 사용자 머리(101), 사용자 이어 커널들, 및 음성 영역(104)에 더 작은 음향 결합을 제공하는 것을 보장한다. 피드백 에러 mic들(FBA 및 FBB)은 그들의 각각의 이어피스들 내에 또는 상에 유사하게 위치되어, 머리 또는 뼈(신체) 전도 경로들(104A 및 104B)을 통해 축(110D) 상에 있는 사용자 음성 영역(104)에 일반적으로 동일 또는 대칭 음향 결합을 보장한다. 부가적으로, 피드백 mic들은 공기 전도 경로들(P1 및 P2)을 통해 주변 잡음 소스(N)와 같은 오프-축 외부 잡음 소스들에 일반적으로 대칭 음향 결합을 갖는다. (동일한 이어피스 내의 피드백 및 피드포워드 mic들은 사용자 스피치 및 주변에 매우 비대칭 응답을 갖는다.) 마이크로폰들 및 드라이버들은 각각의 유선 또는 무선 통신 링크들(131 및 132)을 통해 처리 회로(130)에 결합된다.Take in-the-ear, over-the-ear, or on-the-ear configurations and define the vertical axis 110D. Capable earpieces 110A and 110B include respective ANR drivers (DA and DB), feedforward mics (FFA and FFB), and respective feedback mics (FBA and FBB). ANR drivers (DA and DB) divide the internal volumes of each earpiece 110A and 110B into front cavity and back cavity portions (not individually labeled). The feedforward peripheral mics (FFA and FFB) are located within or adjacent to the rear cavities and are positioned further away from the respective ears 102A and 102B than the feedback mics (FBA and FBB), so that they Ensures greater acoustic coupling to ambient noise than the feedback error mics (FBA and FBB) and less acoustic coupling to the user's head 101, user ear canals, and speech area 104. Feedback error mics (FBA and FBB) are similarly positioned within or on their respective earpieces to transmit the user's voice on axis 110D via head or bone (body) conduction paths 104A and 104B. Ensures generally equal or symmetrical acoustic coupling across regions 104. Additionally, feedback mics have generally symmetrical acoustic coupling to off-axis external noise sources, such as an ambient noise source (N), via air conduction paths (P1 and P2). (Feedback and feedforward mics within the same earpiece have highly asymmetric responses to user speech and ambient.) Microphones and drivers are coupled to processing circuitry 130 via respective wired or wireless communication links 131 and 132. do.

일부 실시예들에서 디바이스(140) 내에 전적으로 분리되거나 부분적으로 또는 전적으로 통합되는 연관된 메모리 및 다른 통합된 부품을 가진 디지털 신호 프로세서의 형태를 취하는 처리 회로(130)는 한 세트의 입력/출력 노드들(133), ANR 처리 모듈(134), 사용자 음성 검출 모듈(135), 음소거 모듈(136), 스피치 의존 모듈들(137), 및 온-디-이어 검출 모듈(137)을 포함한다.Processing circuitry 130, which in some embodiments takes the form of a digital signal processor with associated memory and other integrated components completely separate, partially or fully integrated within device 140, includes a set of input/output nodes ( 133), ANR processing module 134, user voice detection module 135, mute module 136, speech dependent modules 137, and on-the-ear detection module 137.

입력/출력 노드들(133)은 음성 mic 출력 신호 노드(Vm), a 피드백 mic 좌측 신호 노드(FBA(fbl)), 피드백 mic 우측 신호 노드(FBB(fbR)), 피드포워드 mic 좌측 신호 노드(FFA(ffl)), 피드포워드 mic 우측 신호 노드(FFB(ffl)), 착신 디바이스 오디오/뮤직 신호 노드들(RxA RxB)을 포함한다. (본원에 사용되는 바와 같은 Rx는 RxA 또는 RxB를 개별적으로 또는 집합적으로 언급할 수 있고 전화 오디오 신호를 포함할 수 있다.)The input/output nodes 133 include a voice mic output signal node (Vm), a feedback mic left signal node (FBA(fbl)), a feedback mic right signal node (FBB(fbR)), and a feedforward mic left signal node ( FFA(ffl)), feedforward mic right signal node (FFB(ffl)), and destination device audio/music signal nodes (RxA RxB). (Rx, as used herein, may refer individually or collectively to RxA or RxB and may include a telephone audio signal.)

ANR 처리 모듈(134)은 사용자들의 이어 캐비티들 내에 포함되는, 이어피스 전면 체적들 내에서 주변 잡음을 소거하기 위한 회로 및 머신 실행가능 명령어들을 제공한다. 특히, 모듈(134)은 각각의 이어 커널들 또는 캐비티 내에 전체 음향 에너지의 합계를 표현하는, 출력 신호들을 피드백 mic들(FFA 및 FFB)로부터 수신한다. 모듈(134)은 또한 스마트폰, 뮤직 플레이어, 양방향 라디오, 또는 다른 전자 오디오 소스와 같은, 디바이스(140)로부터 이어폰 오디오 신호를 수신한다. 피드포워드 마이크로폰들(FFA 및 FFB)로부터의 주변 잡음 신호에 응답하여, ANR 처리 회로는 잡음 소거 신호들을 발생시키고 소거 신호들 및 이어폰 오디오 신호(Rx)의 혼합 또는 합을 ANR 드라이버들(DA 및 DB)에 송신하며, 그것은 지각된 주변 잡음의 실질적 부분들을 소거하고 이어폰 오디오 신호의 음향 표현을 제공하는 음향 에너지를 생성한다. 일부 실시예들에서, ANR 처리 모듈(134)은 2016년 3월 4일에 출원된 미국 특허 출원 제15/069,271호에 설명되는 타입과 같은 적응 ANR 처리를 포함하며, 그것은 본원에 참조로 포함된다.ANR processing module 134 provides circuitry and machine-executable instructions for canceling ambient noise within earpiece front volumes, contained within users' ear cavities. In particular, module 134 receives output signals from feedback mics (FFA and FFB), representing the sum of the total acoustic energy within each ear kernel or cavity. Module 134 also receives earphone audio signals from device 140, such as a smartphone, music player, two-way radio, or other electronic audio source. In response to the ambient noise signal from the feedforward microphones (FFA and FFB), the ANR processing circuit generates noise cancellation signals and mixes or sums the cancellation signals and the earphone audio signal (Rx) to the ANR drivers (DA and DB). ), which generates acoustic energy that cancels a substantial portion of the perceived ambient noise and provides an acoustic representation of the earphone audio signal. In some embodiments, ANR processing module 134 includes adaptive ANR processing, such as the type described in U.S. patent application Ser. No. 15/069,271, filed March 4, 2016, which is incorporated herein by reference. .

사용자 음성 액티비티 검출(User voice activity detection)(UVAD) 모듈(135)은 음성 마이크로폰(120)의 출력 신호 내에서 사용자 스피치의 존재 또는 부재를 검출하거나 예측하기 위해 피드포워드 mic들(FFA 및 FFB) 및 피드백 mic들(FBA 및 FBB) 중 2개 이상으로부터 유도되는 입력 신호들을 처리하기 위한 로직 회로 및/또는 저장된 머신 실행가능 명령어들을 포함한다. 구체적으로, 예시적 실시예는 사용자 음성 액티비티를 검출하는 2개의 방법을 제공한다. (일부 실시예들은 피드백 mic와 조합하는 임의의 주변 결합된 mic를 사용하여 UVAD를 제공한다. 따라서, 예를 들어, 음성 mic 및 피드백 mic가 사용될 수 있다.)User voice activity detection (UVAD) module 135 uses feedforward mics (FFA and FFB) and It includes logic circuitry and/or stored machine-executable instructions for processing input signals derived from two or more of the feedback mics (FBA and FBB). Specifically, the example embodiment provides two methods for detecting user voice activity. (Some embodiments provide UVAD using any peripheral coupled mic in combination with a feedback mic. Thus, for example, a voice mic and a feedback mic could be used.)

제1 방법은 사용자 머리가 충분히 대칭이기 때문에 사용자 머리를 통한 음향 경로들(104A 및 104B)이 일반적으로 같은 길이이고 재료 조성에 있어서 실질적으로 유사한 통찰력을 강화한다. 이것은 피드백 mic 출력들의 스피치 구성요소가 사용자가 말하고 있을 때 크기 및 위상에 있어서 실질적으로 동일하고 사용자가 말하고 있지 않을 때 적어도 위상에 있어서 실질적으로 상이한 것을 의미한다. 다시 말해, 피드백 mic들로부터의 출력 신호들은 거의 동일한 스피치 데이터 구성요소들을 갖고, 따라서 사용자가 말하고 있을 때 높은 코히어런스를 (위상 관계에서) 나타낸다. 더욱이, 주변 잡음에서 2개의 mic까지의 거리는 도 1에서의 경로들(P1 및 P2)에 의해 표시된 바와 같이, 통상 같지 않거나 비대칭이어서, 코히어런스가 동위상에서 회전되는 것을 의미한다. (그것은 여전히 가간섭성일 수 있어, 크기가 여전이 1에 매우 가까울 수 있지만, 각도가 0이 아닐 것을 의미하며, 이는 '동위상' 상황을 표시한다.The first method enhances insight because the user's head is sufficiently symmetrical that the acoustic paths 104A and 104B through the user's head are generally of the same length and substantially similar in material composition. This means that the speech components of the feedback mic outputs are substantially the same in magnitude and phase when the user is speaking and are substantially different, at least in phase, when the user is not speaking. In other words, the output signals from the feedback mics have nearly identical speech data components and thus exhibit high coherence (in phase relationship) when the user is speaking. Moreover, the distance of the two mics from the ambient noise is usually unequal or asymmetric, as indicated by paths P1 and P2 in Figure 1, meaning that the coherence is rotated in phase. (It may still be coherent, meaning that the magnitude may still be very close to 1, but the angle will not be zero, indicating an 'in-phase' situation.

따라서, 예시적 실시예는 사용자 음성 액티비티가 존재하거나 존재하지 않을 가능성이 있는지를 결정하기 위해 임계 테스트 내에서 좌측 및 우측 피드백 에러 mic 신호들(fbL 및 fbR)의 복소 코히어런스를 사용한다. 임계 기준이 만족되면, 이때 음소거 커맨드 신호가 음소거 모듈(136)에 제공되고, 그렇지 않으면, 음소거 해제 커맨드 사인들이 제공된다. 더 구체적으로, 임계 테스트는 이하의 형태를 취하고Accordingly, the example embodiment uses the complex coherence of the left and right feedback error mic signals (fbL and fbR) within a threshold test to determine whether user voice activity is likely present or absent. If the threshold criterion is met, then a mute command signal is provided to mute module 136, otherwise unmute command signs are provided. More specifically, the criticality test takes the form of

여기서, mean()는 평균 함수(주파수에 걸쳐)를 나타내고; real()는 복소 인수의 실수 부분을 나타내고; Cxy(freq_range)는 freq_range로 표시된 주파수 범위에 걸친 신호들(x 및 y)의 복소 코히어런스를 나타내고; 아래첨자 x는 fbL 에러 mic 신호(좌측 fb mic 신호, FBA)를 나타내고 아래첨자 y는 fbR 에러 mic 신호(우측 fb mic 신호, FBB)를 나타내고; CT는 코히어런스 임계치를 나타낸다. 복소 코히어런스(Cxy)의 실수 부분은 이것이 2개의 신호가 어떻게 "동위상"에 있는지의 측정치이므로 사용된다. 주목: abs(Cxy)는 하나의 평균만이 취해지면 1이지만, 이것은 중요한 정보가 여전히 위상에 있으므로 여전히 유용할 수 있다. 평균이 계산되는 freq_range는 변화될 수 있다. 그러나, 인간 음성 박스의 신체 전도 음향들이 주로 낮은 주파수이기 때문에, 일부 실시예들은 70 내지 700Hz 또는 100 내지 500Hz의 범위를 사용한다. 사용자가 대화하고 있지 않는(즉 사용자 스피치가 없는) Cxy 검출기 회로 또는 로직으로부터의 표시에 응답하여, 예시적 실시예는 음소거 모듈(136)을 사용하여, 하나 이상의 마이크로폰, 예컨대 음성 mic, 및/또는 피드포워드 마이크로폰들의 출력을 음소거하거나 감쇠한다.Here, mean() represents the average function (over frequencies); real() represents the real part of the complex argument; Cxy(freq_range) represents the complex coherence of signals (x and y) over the frequency range indicated by freq_range; The subscript x represents the fbL error mic signal (left fb mic signal, FBA) and the subscript y represents the fbR error mic signal (right fb mic signal, FBB); CT represents the coherence threshold. The real part of complex coherence (Cxy) is used because it is a measure of how "in phase" two signals are. Note: abs(Cxy) is 1 if only one average is taken, but this can still be useful as important information is still in phase. The freq_range for which the average is calculated can be changed. However, because body-conducted sounds in the human voice box are primarily low frequencies, some embodiments use a range of 70 to 700 Hz or 100 to 500 Hz. In response to an indication from the Cxy detector circuitry or logic that the user is not speaking (i.e., no user speech), example embodiments use mute module 136 to silence one or more microphones, such as a voice mic, and/or Mutes or attenuates the output of feedforward microphones.

또한, 일부 실시예들에서, 코히어런스 임계치(CT)는 성능의 약간의 변화들이 포함된 0.7 내지 0.9의 범위에 있다. 그것을 1에 매우 가깝게 설정하는 것은 상당한 배경 잡음이 있으면 검출기가 잘못된 부정들(false negatives)(스피치가 존재할 때 스피치가 검출되지 않음)을 더 쉽게 하고, 그것을 매우 낮게 설정하는 것은 더 잘못된 긍정들(즉, 어떠한 스피치도 없을 때 음소거 해제)을 초래한다. 일부 실시예들에서, 코히어런스 임계치는 신호(스피치) 대 잡음 비와 같은 시스템 또는 환경 파라미터들에 기초하여 동적으로 조정될 수 있다. 즉, 스피치가 잡음보다 훨씬 더 강하면, 이때 일부 실시예들은 1에 더 가까운 임계치, 예를 들어 0.9를 시프트시키고, 그것이 매우 시끄러우면, 이러한 실시예들은 사용자 스피치를 음소거하는 것을 회피하기 위해 임계 레벨을 감소시킨다. 0.75와 같은, 0.7과 0.8 사이의 예시적 임계치는 양호한 절충이다.Additionally, in some embodiments, the coherence threshold (CT) ranges from 0.7 to 0.9 with slight variations in performance. Setting it very close to 1 makes it easier for the detector to produce false negatives (speech not detected when it is present) if there is significant background noise, and setting it very low makes it more prone to false positives (i.e. , which results in unmuting when there is no speech. In some embodiments, the coherence threshold may be dynamically adjusted based on system or environmental parameters, such as signal (speech) to noise ratio. That is, if the speech is much louder than the noise, then some embodiments shift the threshold closer to 1, for example 0.9, and if it is very loud, these embodiments shift the threshold level to avoid muting the user's speech. reduce. An exemplary threshold between 0.7 and 0.8, such as 0.75, is a good compromise.

이러한 좌측-우측 대칭 기반 접근법은 효과적이지만, 예를 들어, 제2 스피커가 사용자와 축 상에 있으면(또는 좌측 및 우측 이어피스들로부터 일반적으로 등거리이면), 발생할 수 있는 온-축 주변 잡음에 취약할 수 있다. 그것은 또한 나쁜 신호 대 잡음 비(SNR)를 겪는다. 온-축 잡음은 피드백 에러 마이크로폰들에서 높은 코히어런스를 나타내고 따라서 스피치로서 잘못 인식될 것이다. 흥미롭게도, 이러한 취약성을 확인하는 하나의 방식은 덴마크 사운드 & 진동 측정 A/S에 의해 제조되는 B&K 타입 4128-C 시뮬레이터와 같은, 종래의 헤드 앤 토르소 시뮬레이터(Head and Torso Simulator)(HATS) 상에 이러한 UVAD 접근법(예를 들어 좌측 및 우측 피드포워드 또는 좌측 및 우측 피드백 mic들, 또는 더 일반적으로 음성 영역으로부터 거의 등거리이도록 구성되는 2개의 mic에 의해) 헤드셋을 배치하는 것이다. 그 다음, 헤드셋들은 mic들로부터 거의 등거리에 있는, 예를 들어, HATS 바로 앞에, 뒤에, 및 위에 있는 잡음 소스들에 응답하여 자동으로 음소거하는 것이 인지될 수 있다.This left-right symmetry based approach is effective, but vulnerable to on-axis ambient noise that may arise, for example, if the second speaker is on-axis to the user (or generally equidistant from the left and right earpieces). can do. It also suffers from poor signal-to-noise ratio (SNR). On-axis noise exhibits high coherence in feedback error microphones and will therefore be misperceived as speech. Interestingly, one way to identify these vulnerabilities is in Denmark. of This UVAD approach (e.g. left and right feedforward or positioning the headset (with left and right feedback mics, or more commonly, two mics configured to be approximately equidistant from the audio area). The headsets can then be noticed to automatically mute in response to noise sources that are approximately equidistant from the mics, eg, directly in front of, behind, and above the HATS.

비사용자 스피치와 같은 온-축 주변 잡음 소스들을 거부하고, 잡음 환경들에서 더 양호한 성능을 가능하게 하기 위해, 일부 실시예들은 사용자 음성 액티비티 검출의 제2 방법을 사용하며, 이 방법은 또한 단일 이어피스 시스템들에 유용하거나, 더 일반적으로 2개의 mic가 사용자 및 주변 사운드에 비대칭 결합을 갖는 임의의 상황에 유용한 추가된 장점을 갖는다. 이러한 방법은 피드백 mic들(더 일반적으로, 사용자 음성 영역에 더 양호한 음향 결합을 가진 mic)에서 발생하는 에너지의 크기가 피드백 및 피드포워드 mic들까지의 음성 신호들의 음향 경로들의 비대칭으로 인해, 사용자가 말하지 않을 때보다 말하고 있을 때 피드포워드 mic들에서 발생하는 것보다 실질적으로 더 큰 통찰력을 강화한다. 피드백 mic들은 사용자 이어 커널 내의 또는 근방의 이어피스들의 전면 캐비티에 위치된다. 이러한 위치 결정의 경우, 피드백 mic들은 매우 낮은 감쇠를 가진 뼈 전도 경로들(104A 및 104B)을 통해 사용자 음성 에너지를 수신하고 ANR 시스템들에 전형적으로 존재하는 밀봉으로 인해 강한 감쇠를 가진 공기 전도를 통해 주변 잡음을 수신한다. 따라서, 피드백 mic 대 피드포워드 mic 출력 비들(fb/ff 에너지 비)은 사용자 음성이 존재할 때 잡음 방향에 관계없이, 스피치를 갖지 않는 주변 잡음의 것보다 훨씬 더 높다. 이 때문에, 일부 실시예들은 이하의 로직을 사용하여 사용자 음성 액티비티를 결정한다:To reject on-axis ambient noise sources, such as non-user speech, and enable better performance in noisy environments, some embodiments use a second method of user voice activity detection, which also uses a single ear This has the added advantage of being useful in one-piece systems, or more generally in any situation where two mics have asymmetric coupling to user and ambient sounds. This method ensures that the amount of energy generated by feedback mics (more generally, mics with better acoustic coupling to the user's speech region) is greater than the amount of energy generated by the user speaking due to the asymmetry of the acoustic paths of the speech signals to the feedback and feedforward mics. Enables substantially greater insight than occurs with feedforward mics when speaking rather than when not. Feedback mics are located in the front cavity of the earpieces within or near the user's ear canal. For this positioning, the feedback mics receive the user's voice energy via bone conduction paths 104A and 104B with very low attenuation and via air conduction with strong attenuation due to the seal typically present in ANR systems. Receives ambient noise. Therefore, the feedback mic to feedforward mic output ratios (fb/ff energy ratio) are much higher when a user's voice is present than that of ambient noise without speech, regardless of the noise direction. Because of this, some embodiments use the following logic to determine user voice activity:

여기서, fb_left/ff_left는 좌측 피드백 mic(FBA)의 출력 신호의 에너지 대 좌측 피드포워드 mic(FFA)의 출력 신호의 에너지의 비를 나타내고, DT는 사용자 스피치에 대한 선택된 검출 임계치를 나타낸다. 이러한 실시예에서, DT는 플랫폼 의존적이지만; 일반적으로, 사용자가 말하고 있을 때, 비는 비스피치를 통해 인지가능하게 증가할 것이다. (비는 전달 비이고, 이러한 경우에 실수이다.)Here, fb_left/ff_left represents the ratio of the energy of the output signal of the left feedback mic (FBA) to the energy of the output signal of the left feedforward mic (FFA), and DT represents the selected detection threshold for user speech. In this embodiment, DT is platform dependent; Typically, when the user is speaking, the ratio will increase perceptibly through non-speech. (The ratio is the transfer ratio, which in this case is a real number.)

현저하게, 일부 실시예들은 복소 전달 비를 사용할 수 있으며, 그것은 크기 및 위상 둘 다를 포함하고, 따라서 개선된 성능을 제공한다. 이러한 복소 경우에 임계치를 처리할 시에, 임계치는 더 이상 스케일러가 아니라, 라인이다(아마도 만곡되거나 잘라 맞추어지며, 그것은 복소 평면을 분할한다. 예를 들어, 허수 부분 >0에 대한 라인은 하나의 임계치일 수 있다. 또는 임계치는 양의 실수 및 허수 부분들이 스피치를 표시하는 것일 수 있어, 복소 평면의 사분면을 정의한다.) 일부 실시예들은 좌측보다는 오히려, 우측 피드백 및 피드포워드 마이크로폰들을 사용할 수 있다는 점을 주목한다. 또 다른 실시예들은 우측 또는 좌측 이어피스를 사용하는지를 자동으로 결정할 수 있다. 예를 들어, 좌측 이어피스가 제거되면, 온-이어 검출 회로는 우측 이어피스만이 제자리에 있는 것을 결정하고, 우측 피드백 및 피드포워드 마이크로폰들에 기초하여 음성 검출 모듈을 동작시킨다.Notably, some embodiments may use a complex transfer ratio, which includes both magnitude and phase, thus providing improved performance. When dealing with thresholds in these complex cases, the threshold is no longer a scaler, but a line (perhaps curved or trimmed, which splits the complex plane. For example, the line for the imaginary part >0 is a line). (or the threshold may be such that the positive real and imaginary parts represent speech, defining a quadrant of the complex plane.) Some embodiments may use right-hand, rather than left-hand, feedback and feedforward microphones. Pay attention to the point. Still other embodiments can automatically determine whether to use a right or left earpiece. For example, if the left earpiece is removed, the on-ear detection circuitry determines that only the right earpiece is in place and operates the voice detection module based on the right feedback and feedforward microphones.

피드백 및 피드포워드 마이크로폰들의 출력에서 에너지 레벨들을 결정할 시에, 복소 전달 함수(TF) Txy를 이하로서 계산할 수 있다In determining the energy levels at the output of feedback and feedforward microphones, the complex transfer function (TF) Txy can be calculated as

여기서, Sxy는 x와 y 사이의 상호 스펙트럼 밀도이고, Sxx는 x의 전력 스펙트럼 밀도이다. 따라서, Sxy는 이하의 방식으로 FFT들을 통해 추정될 수 있다:Here, Sxy is the cross spectral density between x and y, and Sxx is the power spectral density of x. Therefore, Sxy can be estimated through FFTs in the following way:

또는 하나의 fft만이 사용되면(그리고 어떠한 평균화도 없으면) Txy는 이하로서 정의된다Or, if only one fft is used (and no averaging) Txy is defined as

fb(피드백 mic) 에너지 대 ff(피드 포워드 mic) 에너지의 비에 대해, x는 좌측 피드포워드 mic 신호 ffL(FFA)이고 y는 좌측 피드백 mic 신호 fbL(FBA)이다. fb 에너지 데 ff 에너지의 비는 실제로 |Tff2fb|^2이다.For the ratio of fb (feedback mic) energy to ff (feed forward mic) energy, x is the left feedforward mic signal ffL(FFA) and y is the left feedback mic signal fbL(FBA). The ratio of fb energy to ff energy is actually |Tff2fb|^2.

따라서, fft를 코어 기초로서 사용하는 실시예들에서, fft 결과의 제곱 절대 값의 비를 경계화할 수 있다. 또는 fft 없이 구현하고 있었으면, 대역통과 필터를 통해 그것을 통과시키고 유사한 결과들을 달성한 후에, 샘플링된 시간 신호들의 이동 평균을 간단히 계산할 수 있다. 복소 전달 함수 추정치(Txy..)를 사용하면, 중요한 위상 정보를 이용할 수 있다.Accordingly, in embodiments that use fft as a core basis, the ratio of the squared absolute values of the fft results can be bounded. Alternatively, if you were implementing without fft, you could simply calculate the moving average of the sampled temporal signals, after passing it through a bandpass filter and achieving similar results. Using complex transfer function estimates (Txy..), important phase information is available.

검출 임계치(DT)는 일반적으로 이어피스들의 물리적 구현 및 그들이 전면 캐비티 체적을 위해 제공하는 밀봉의 품질에 기초하여 설정된다. 양호한 ANC 헤드폰에 대해, 사용자가 말하고 있지 않을 때 20dB의 감쇠를 예상할 수 있다. 이것은 뼈 전도 메커니즘 때문에 사용자가 대화하는 상태에서 대략 0dB로 상승한다.The detection threshold (DT) is generally set based on the physical implementation of the earpieces and the quality of seal they provide for the front cavity volume. For good ANC headphones, you can expect 20dB of attenuation when the user is not speaking. This rises to approximately 0 dB when the user is talking due to the bone conduction mechanism.

그러나, 변화의 정도는 헤드폰들의 인-디-이어 타입에서 더 현저하고, 온-디-이어 타입에서 덜 현저하고, 어라운드-디-이어 타입에서 최소로 현저하여, 헤드셋의 각각의 타입에 대해 상이한 임계치들의 사용을 의미한다. 예를 들어, ITE 헤드폰들에 있어서, 100 Hz와 같은 특정 주파수들에서, 사용자 스피치로 인해 그것(ff mic) 외부보다 차단된 이어(fb mic)에서 거의 20 내지 30dB 더 많은 사운드 압력이 있는 것으로 예상된다. 이러한 효과는 또한 귀덮개형(circumaurals)에서 강화될 수 있지만, 피드포워드 mic에서의 외부 사운드 압력에 대해 100 Hz에서의 스피치에 대한 인-디-이어 사운드 압력의 차이는 아마도 몇 데시벨만이다.However, the degree of variation is different for each type of headset, being more significant for the in-the-ear type of headphones, less significant for the on-the-ear type, and least significant for the around-the-ear type. This refers to the use of thresholds. For example, for ITE headphones, at certain frequencies, such as 100 Hz, it is expected that there will be almost 20 to 30 dB more sound pressure in the blocked ear (fb mic) than outside it (ff mic) due to user speech. do. This effect can also be enhanced in circumaurals, but the difference in in-the-ear sound pressure for speech at 100 Hz relative to external sound pressure in a feedforward mic is probably only a few decibels.

일부 실시예들은 또한 예를 들어, 주변 잡음 또는 평균 신호 대 잡음 비들과 같은 측정된 파라미터들에 기초하여 임계치를 동적으로 변화시킬 수 있거나, 대안적으로 디바이스(140)에 의해 호스팅되는 앱을 통해 사용자 조정 메커니즘을 제공할 수 있다. 일부 실시예들은 fb/ff 비가 ANC 헤드셋 내의 전체 감쇠의 함수이고 따라서 상당히 넓은 범위에 걸쳐 변화될 수 있기 때문에 동적 검출 임계치를 이용한다. 일 실시예에서, 검출 임계치는 투-이어 스마트 음소거 기간 동안, 구체적으로 음소거에 대한 에너지의 이동 평균 및 음소거 해제에 대한 에너지의 이동 평균의 함수로서 추정된다. 일부 실시예들은 시스템의 감쇠를, 능동 플러스 수동으로 측정하며, 임계치는 궁극적으로 능동 감쇠의 함수이다.Some embodiments may also dynamically change the threshold based on measured parameters, such as, for example, ambient noise or average signal-to-noise ratios, or alternatively, the user may use an app hosted on device 140. A coordination mechanism can be provided. Some embodiments use a dynamic detection threshold because the fb/ff ratio is a function of the overall attenuation within the ANC headset and can therefore vary over a fairly wide range. In one embodiment, the detection threshold is estimated during the two-ear smart mute period, specifically as a function of the moving average of the energy to mute and the moving average of the energy to unmute. Some embodiments measure the attenuation of the system both actively and passively, with the threshold ultimately being a function of the active attenuation.

TF 추정치들에 대해, 일부 실시예들은 평균을 조건적으로 갱신한다. 또한 일부 실시예들은 피드백 mic 신호가 다수의 구성요소, 즉 오디오 입력 신호(Rx)(디바이스(140)로부터의), 주변 잡음, 사용자 스피치, 및 측정 잡음을 포함하는 것을 인식한다. 이것은 주변 잡음과 상관되지 않는 양호한 신호 레벨들을 보장한다. 대안적으로, 잡음 전달 함수를 추정하기 위해, 일부 실시예들은 fb/ff의 에너지 비가 낮거나, 높게 상관될 때 평균을 갱신하여, TF가 달리 추정하는 것보다 더 빠른 수렴을 추정하는 것을 보장한다.For TF estimates, some embodiments conditionally update the mean. Some embodiments also recognize that the feedback mic signal includes multiple components: audio input signal (Rx) (from device 140), ambient noise, user speech, and measurement noise. This ensures good signal levels that are not correlated with ambient noise. Alternatively, to estimate the noise transfer function, some embodiments update the average when the energy ratio of fb/ff is low or highly correlated, ensuring that TF estimates convergence faster than it would otherwise. .

특정 주파수 범위 내의 2개의 제어 mic의 복소 전달 특성에 기초한 사용자 음성 액티비티 검출(UVAD)에 대한 이러한 제2 접근법은 이하의 제약들을 만족하는 전달 특성을 갖는 임의의 2개의 mic에서 사용될 때 특히 강건한 것으로 생각된다. 제1 제약은 전달 특성이 간섭과 비교하여 스피치를 위한 중요한 방식으로 변경된다는 것이다. 제2 제약은 전달 특성이 간섭의 상대 방향의 변경들에 의해 상대적으로 분명하고(즉, 상대적으로 명료하게) 남아 있다는 것이다. 이러한 조건들은 인-디-이어 헤드셋 내의 피드포워드 및 피드백 mic들에 의해(그리고 하나의 mic가 다른 것보다 사용자 음성 영역에 더 강하게 음향적으로 결합되는 다른 상황들에서) 충족된다.This second approach to user voice activity detection (UVAD), which is based on the complex transfer characteristics of two control mics within a specific frequency range, is believed to be particularly robust when used on any two mics with transfer characteristics that satisfy the following constraints: do. The first constraint is that the transmission characteristics change in a significant way for speech compared to interference. The second constraint is that the transfer characteristic remains relatively clear (i.e., relatively clear) by changes in the relative direction of interference. These conditions are met by feedforward and feedback mics in in-the-ear headsets (and in other situations where one mic is more strongly acoustically coupled to the user's voice field than another).

주변 잡음에 대해, 주변 mic에서의 주변 압력의 출력은 2개의 이유로, 우선 응답하여, 귀 결합된 피드백 mic에 대해 선두 위상을 갖는다. 첫번째 이유는 그것이 주변에 직접 결합되고 통상 잡음 소스까지의 음향 경로 길이에 더 가깝다는 것이다. 두번째 이유는 전형적 헤드셋 이어피스가 수동 감쇠의 일부 양을 갖고, 이것이 거의 일종의 저역 통과 필터이며, 즉 매우 낮은 주파수들에서 어떠한 차이도 갖지 않지만, 주파수들이 상승함에 따라 귀 결합된 mic(fb mic)를 더 상당히 감쇠시킨다는 것이다. 모든 인과 저역 통과 필터들은 위상 지연을 유도하고 모든 물리 필터들은 인과적이다.For ambient noise, the output of ambient pressure at the ambient mic responds first and has a leading phase relative to the ear-coupled feedback mic for two reasons. The first reason is that it is directly coupled to the surroundings and is usually closer to the acoustic path length to the noise source. The second reason is that typical headset earpieces have some amount of passive attenuation, which is almost a kind of low-pass filter, i.e. it doesn't make any difference at very low frequencies, but as the frequencies rise, the ear-coupled mic (fb mic) It attenuates it more significantly. All causal low-pass filters induce phase delay and all physical filters are causal.

사용자 스피치에 대해, 사용자의 입으로부터 귀로, 그 다음 귀 결합된 mic로의 음향 경로 외에, 성대들로부터 신체를 통한 다른 경로가 있다. 신체를 통한 사운드의 속도는 상당히 더 빠르거나, 거의 4 내지 5 배 더 빠르거나 1ms 아래 대 3 내지 4.5 밀리초이다. (공기에서의 사운드의 속도는 거의 340 미터/초이고; 피부에서 그것은 대략 1500 미터/초이고; 두개골 및 뼈에서 4000 미터/초이다.) 그 결과, 사용자들의 신체를 통해 전도되는 사용자 스피치로부터의 사운드는 입을 통한 공기 전파 음향 신호보다 훨씬 더 빠르게 도달한다.For user speech, in addition to the acoustic path from the user's mouth to the ear and then to the ear-coupled microphone, there is another path from the vocal cords through the body. The speed of sound through the body is significantly faster, almost 4 to 5 times faster, or 3 to 4.5 milliseconds versus below 1 millisecond. (The speed of sound in air is approximately 340 meters/sec; in the skin it is approximately 1500 meters/sec; in the skull and bones it is 4000 meters/sec.) As a result, the Sound travels much faster than airborne acoustic signals through the mouth.

주변 결합된 및 귀 결합된 mic들 사이의 전달 특성들을 아주 근접하여 볼 때, 주변 마이크로폰은 방향 도달과 독립적으로 귀 결합된 mic들을 안내할 것이다. 사용자 스피치에 대해, 귀 결합된 mic는 주변 마이크로폰을 안내할 것이다. 따라서, 복소 전달 함수(또는 임의의 다른 기초)에서의 비대칭 및 간섭의 방향에 의해 야기되는 큰 모호성의 결핍은 동일한 귀로부터의 주변 및 귀 결합된 마이크로폰들에 비해 훨씬 우수하다는 점이 분명히 인지될 수 있다.Looking very closely at the transfer characteristics between peripheral coupled and ear coupled mics, the peripheral microphone will guide the ear coupled mics independently of the directional arrival. For user speech, the ear-coupled mic will guide the peripheral microphone. Thus, it can be clearly appreciated that the lack of large ambiguity caused by the direction of interference and asymmetry in the complex transfer function (or any other basis) is far superior to ambient and ear-coupled microphones from the same ear. .

여기서 피드백 mic(fb)로 언급되는 귀 결합된 mic의 뼈 전도 경로를 충분히 이용하기 위해, 일부 실시예들은 디바이스(140)와 같은 외부 디바이스로부터의 착신 오디오 "Rx"를 설명한다. (일부 실시예들에서, Rx는 시스템 이벤트들, 프롬프트들 등을 나타내는 비프들 또는 톤들과 같은, 하나 이상의 내부적으로 발생된 오디오 통지 신호와 혼합될 수 있다.) 이러한 착신 오디오는 전형적으로 뼈 전도된 스피치와 강하게 유사한 특성들을 가져서, 그것이 주변 mic(피드 포워드 mic(ff))의 진폭보다 훨씬 더 강한 fb_mic 진폭을 갖는 것을 의미하고, 따라서 잘못된 사용자-스피치 검출들을 야기할 수 있다.To fully utilize the bone conduction path of the ear-coupled mic, referred to herein as the feedback mic (fb), some embodiments describe incoming audio “Rx” from an external device, such as device 140. (In some embodiments, Rx may be mixed with one or more internally generated audio notification signals, such as beeps or tones indicating system events, prompts, etc.) This incoming audio is typically transmitted through bone conduction. It has properties that are strongly similar to speech, meaning that it has an fb_mic amplitude that is much stronger than that of the surrounding mic (feed forward mic(ff)), and can therefore lead to erroneous user-speech detections.

이러한 쟁점을 완화시키는 하나의 접근법은 Rx 소거기를 사용하는 것이며, 이 소거기는 UVAD 계산들로부터 Rx 신호의 효과를 수학적으로 소거하거나 제거한다. 예시적 실시예는 이하와 같이 fb 신호를 분해하는 것에 기초하여 Rx 소거기를 사용한다:One approach to alleviate this issue is to use an Rx canceller, which mathematically cancels or removes the effect of the Rx signal from UVAD calculations. An exemplary embodiment uses an Rx canceller based on decomposing the fb signal as follows:

여기서,here,

fbRx Rx는 귀 결합된 스피커 외부에서 플레이되는, Rx 신호로 인한 fb mic 신호이고;fb Rx Rx is the fb mic signal due to the Rx signal played outside the ear-coupled speaker;

fbambient는 주변 잡음으로 인한 fb mic 신호이고;fb ambient is the fb mic signal due to ambient noise;

fbspeech_BC는 뼈 전도로 인한 fb mic 신호이다.fb speech_BC is the fb mic signal due to bone conduction.

또한 이하와 같이 fb_Rx 및 fb_ambient를 추가로 정의할 수 있다:Additionally, fb_Rx and fb_ambient can be additionally defined as follows:

여기서, Trx2tb는 모든 다른 입력들이 제로를 가진 상태에서 Rx로부터 fb mic로의 전달 함수이고 Tff2fb는 어떠한 스피치 또는 Rx를 갖지 않고, 잡음 자극만을 가진 상태에서 피드포워드 mic로부터 피드백 mic로의 전달 함수이다. Trx2fb 및 Tff2fb는 수개의 방법들을 사용하여 추정될 수 있다. 예를 들어, 일부 실시예들은 예를 들어, Rx가 존재할 때 Tff2fb에 대한 평균들을 갱신하지 않도록 주의되는 오토 및 크로스 스펙트럼들에 기초하여 칼만 필터, 또는 전통적인 추정치를 사용한다. 또한 사용자 스피치가 존재할 때 추정치들을 갱신하지 않도록 주의될 필요가 있지만, 이것은 이러한 단계에 대한 UVAD가 모든 스피치를 캐치할 필요가 있는 것이 아니라, 스피치가 존재하지 않는다는 높은 신뢰를 가지므로 많이 완화된 문제이다.Here, T rx2tb is the transfer function from Rx to fb mic with all other inputs being zero and T ff2fb is the transfer function from feedforward mic to feedback mic with only noise stimulus and no speech or Rx. T rx2fb and T ff2fb can be estimated using several methods. For example, some embodiments use a Kalman filter, or a traditional estimate based on auto and cross spectra, for example being careful not to update the means for Tff2fb when Rx is present. Care also needs to be taken not to update estimates when user speech is present, but this is a problem that is greatly alleviated as UVAD for this step does not need to catch all speech, but rather has high confidence that speech is not present. .

추정치들이 이러한 주로 정적 전달 함수들에 이용가능하면, 이때 fbspeech_BC 신호를 근실시간으로 추정하기 위해 그들을 사용할 수 있다. Trx2fb 및 Tff2fb의 추정치들은 시간에 따라 평균화될 것이다. 예시적 실시예는 추정치들을 계산하기 위해 고속 푸리에 변환들(fast fourier transforms)(FFTs)을 사용하지만; 일부 실시예들은 뼈 전도 정보를 포함하는 부분 공간에 충분히 걸치는 임의의 기초를 사용한다.If estimates are available for these mainly static transfer functions, then we can use them to estimate the fb speech_BC signal in near real time. Estimates of Trx2fb and Tff2fb will be averaged over time. The example embodiment uses fast fourier transforms (FFTs) to calculate the estimates; Some embodiments use an arbitrary basis that sufficiently spans the subspace containing bone conduction information.

Trx2fb 및 Tff2fb를 인식하면, 이하와 같이 fbspeech_BC를 표현할 수 있다Recognizing Trx2fb and Tff2fb, fb speech_BC can be expressed as follows:

또는or

여기서, fb^speech_BC는 fbspeech_BC의 추정치이다.Here, fb^ speech_BC is an estimate of fb speech_BC .

따라서, 사용자 스피치 검출은 주변 잡음 및 착신 오디오로부터의 간섭이 주로 없는 추정된 신호에 기초한다.Therefore, user speech detection is based on an estimated signal that is primarily free of interference from ambient noise and incoming audio.

현저하게, 이러한 버전의 비대칭 접근법(동일 측 피드백 및 피드포워드 mic들을 사용함)은 사용자 음성 영역과 피드백 mic 사이의 뼈 전도 경로에 의존한다. 따라서, 종래의 HATS(예컨대 상기 언급된 B&K 4128-C 시뮬레이터) 상에 이러한 비대칭 접근법을 이용하는 헤드셋의 배치는 종래의 HATS가 뼈 전도 경로가 없기 때문에, UVAD의 적절한 동작을 일반적으로 방해할 것이다. 다시 말해, HATS에 장착되는 헤드셋은 HATS에 입력되는 적절한 주파수 범위의 사용자 음성 신호에 응답하여 적절하게 음소거 및 음소거 해제를 못할 것이다(또는 그렇지 않으면 사용자 음성 액티비티를 정확히 검출하지 못할 것임)(음성 영역으로부터 피드백 mic로의 경로는 진동으로 인해 존재하지만, 이것은 실제 뼈 전도와 비교하여 매우 약한 결합일 것이다.)Notably, this version of the asymmetric approach (using same-side feedback and feedforward mics) relies on a bone conduction path between the user's voice area and the feedback mic. Therefore, placement of a headset using this asymmetric approach on a conventional HATS (e.g. the B&K 4128-C simulator mentioned above) will generally prevent proper operation of the UVAD since conventional HATS have no bone conduction pathways. In other words, a headset mounted on a HATS will not be able to properly mute and unmute (or otherwise accurately detect user voice activity) in response to user voice signals in the appropriate frequency range input to the HATS (from the voice domain). There is a path to the feedback mic due to vibration, but this will be a very weak coupling compared to actual bone conduction.)

일부 실시예들은 이하와 같이, 대칭 및 비대칭 기반 임계 테스트들을 함께 조합한다:Some embodiments combine symmetric and asymmetric based threshold tests together, as follows:

현저하게, 이러한 검출 로직을 구현하는 것은 3개의 제어 mic, 좌측 및 우측 피드백 에러 mic들 및 피드포워드 mic들 중 하나의 사용을 수반한다. 또한, 이러한 로직은 비대칭 임계 테스트(피드백 mic 에너지 대 피드포워드 mic 에너지의 비)가 음소거 해제를 제어하는 것만을 허용한다. 다른 실시예들은 둘 다가 음소거 해제를 촉발시키는 것을 허용할 수 있다.Notably, implementing this detection logic involves the use of one of three control mics, left and right feedback error mics and feedforward mics. Additionally, this logic only allows the asymmetric threshold test (ratio of feedback mic energy to feedforward mic energy) to control unmute. Other embodiments may allow both to trigger unmute.

부가적으로, 일부 실시예들은 관련 신호 데이터의 지연된 버전에 음성 검출을 수행하기 위해 처리 회로(130) 내에 버퍼들을 제공한다. 더 구체적으로, 일부 실시예들은 검출기가 헤드셋에서 사용자 스피치의 존재를 검출하고 임의의 스피치 콘텐츠의 손실 없이 시스템을 음소거 해제하기에 충분한 시간을 허용하기 위해 X-밀리초 룩 어헤드 버퍼를 이용한다. 예를 들어, 일 실시예는 시스템 mic들로부터의 샘플링된 데이터의 20 밀리초 세트를 저장하여, 검출기가 샘플(n)에서 사용자 스피치를 검출하고 그 다음 이전 20 밀리초 기간에 취해지는 모든 이전 샘플들을 음소거 해제하는 것을 허용하고, 따라서 사용자 구절의 제1 부분을 스킵하거나 음소거하는 것을 회피한다. 일부 실시예들에서, 룩 어헤드 기간의 길이는 사용자에 의해 조정되거나 교정될 수 있고, 다른 것들에서 그것은 사용자의 검출된 스피치 억양, 예를 들어 스피치 신호 내의 피크들 사이의 거리의 롤링 평균에 기초하여 동적으로 결정될 수 있다.Additionally, some embodiments provide buffers within processing circuitry 130 to perform voice detection on a delayed version of the relevant signal data. More specifically, some embodiments utilize an For example, one embodiment may store a set of 20 milliseconds of sampled data from system mics such that the detector detects user speech at sample n and then all previous samples taken in the previous 20 millisecond period. allows to unmute the user's phrases, thus avoiding skipping or muting the first part of the user's phrase. In some embodiments, the length of the look ahead period can be adjusted or calibrated by the user, in others it is based on the user's detected speech intonation, for example a rolling average of the distances between peaks in the speech signal. So it can be determined dynamically.

음소거 모듈(136)은 사용자 음성 검출 모듈(135)로부터의 커맨드 신호들에 응답하여 음소거 기능을 제공한다. 일부 실시예에서, 이것은 어셈블리 내에서 음성 mic 및/또는 하나 이상의 다른 mic와 연관되는 신호 경로들을 턴 오프하는 것을 수반한다. 그러나, 사용자 경험을 개선하기 위해, 일부 실시예들은 3, 5, 10, 15, 또는 20 밀리초 동안 음소거의 활성화 또는 시작을 지연시켜, 구절들의 끝들을 단축하거나 단어들 간을 음소거하는 것을 회피하기 위해 안전의 여유를 추가한다. 일부 실시예들에서, 이러한 지연의 기간은 사용자에 의해 설정되거나 사용자의 측정된 스피치 억양에 기초하여 동적으로 결정될 수 있다. 또한, 일부 실시예들에서, 시각, 가청, 또는 햅틱 표시는 음소거 상태의 변경을 사용자에게 경보하기 위해 음소거 기능의 활성화 및 비활성화에 응답하여 제공된다. 일부 실시예들에서, 이러한 표시기들 중 하나 이상은 헤드셋 자체 상에 및/또는 디바이스(140) 상에 제공된다. 일부 사례들에서, 시각 표시기는 헤드셋 상에 조명된 및/또는 섬광 발광 다이오드(light emitting diode)(LED)의 형태를 취하고 그리고/또는 디바이스 디스플레이 상에 마이크로폰 아이콘의 조명된 또는 섬광 또는 변경된 채색 또는 형상을 취한다. 일부 실시예들에서, 사용자는 헤드셋 및/또는 디바이스 상의 수동 제어 요소를 통해 음소거 기능을 무시할 수 있으며, 무시는 미리 결정된 시간 기간, 예를 들어, 1, 2, 또는 3 분 동안, 또는 전화 호출과 같은 현재 통신 세션의 종결까지 효과를 갖는다. 무시 기간의 끝에, 자동 음소거 및 음소거 해제가 재개될 것이다.The mute module 136 provides a mute function in response to command signals from the user voice detection module 135. In some embodiments, this involves turning off signal paths associated with the voice mic and/or one or more other mics within the assembly. However, to improve the user experience, some embodiments delay the activation or onset of mute for 3, 5, 10, 15, or 20 milliseconds to avoid shortening the ends of phrases or silencing between words. Add a margin of safety for In some embodiments, the duration of this delay may be set by the user or determined dynamically based on the user's measured speech intonation. Additionally, in some embodiments, a visual, audible, or haptic indication is provided in response to activating and deactivating the mute function to alert the user of the change in mute state. In some embodiments, one or more of these indicators are provided on the headset itself and/or on device 140. In some instances, the visual indicator takes the form of an illuminated and/or flashing light emitting diode (LED) on the headset and/or an illuminated or flashing or altered coloration or shape of the microphone icon on the device display. Take . In some embodiments, the user can override the mute function through manual control elements on the headset and/or device, where overriding is for a predetermined period of time, e.g., 1, 2, or 3 minutes, or between a phone call and The same has an effect until termination of the current communication session. At the end of the ignore period, automatic muting and unmuting will resume.

더 일반적으로, 일부 실시예들은 성가시게 하고 열등 품질 오디오 구성요소들을 나타내는 가청 팝들 또는 클릭들을 다른 방법으로 생성할 수 있는 매우 빠른 마이크로폰 이득 변경들을 회피하기 위해 음소거 온과 음소거 오프 사이의 상태 변경들을 상승시키거나 고의로 늦추거나 감속시킨다(역도 또한 같음). 이것은 일반적으로 이득을 즉시보다는 오히려 점차 변경하게 함으로써 처리된다. 예를 들어, 일 실시예에서, "어택" 오프 대 온은 거의 100 msec 이상 발생하며, 그것은 팝을 회피하기에 충분히 느리고 룩 어헤드 메모리 요건들을 최소화하기에 충분히 길다. 일 실시예는 이하의 형태를 가진 감쇄 함수를 사용한다:More generally, some embodiments elevate state changes between mute on and mute off to avoid very fast microphone gain changes that can otherwise produce audible pops or clicks that are annoying and indicative of poor quality audio components. to slow down or intentionally slow down (the same goes for the reverse). This is usually handled by having the gain change gradually rather than immediately. For example, in one embodiment, the “attack” off-to-on occurs over approximately 100 msec, which is slow enough to avoid pops and long enough to minimize look ahead memory requirements. One embodiment uses a decay function of the form:

일부 실시예들은 2개의 이어피스 시스템이 적절하게 장착된 하나의 이어피스만을 가질 때를 검출함으로써 더 효과적인 자동 음소거를 용이하게 한다. 이러한 실시예들의 일부는 성능을 최적화하기 위해 온 이어 검출기(On Ear Detector)(OED)에 의존한다. OED의 상세들은 2015년 9월 10일에 출원된 공동-소유의 미국 특허 출원 제14/850,859호에 추가로 설명되며, 그것의 개시는 본원에 전체적으로 참조로 포함된다.Some embodiments facilitate more effective automatic muting by detecting when a two earpiece system has only one earpiece properly mounted. Some of these embodiments rely on an On Ear Detector (OED) to optimize performance. Details of the OED are further described in commonly-owned U.S. patent application Ser. No. 14/850,859, filed September 10, 2015, the disclosure of which is incorporated herein by reference in its entirety.

스피치 의존 모듈(136)은 음성 액티비티 검출 모듈(135)로부터 이진 스피치-존재 또는 스피치-비존재 신호를 수신하는 하나 이상의 다른 기능(프로세서 회로(130) 및/또는 디바이스(140)의)을 표현한다. 이러한 모듈들의 일부는 모듈의 기능을 활성화하거나 비활성화하기 위해 신호를 사용하여, 처리 전력, 메모리, 및/또는 배터리 수명을 보존한다. 예를 들어, 일부 실시예들에서, 스피치 의존 모듈(137)은 특정 키워드 커맨드들을 청취하거나 더 일반화된 스피치 인식 기능들을 수행하도록 구성되는 스피치 또는 키워드 인식 모듈을 포함한다.Speech dependence module 136 represents one or more other functions (of processor circuitry 130 and/or device 140) that receive a binary speech-present or speech-absent signal from speech activity detection module 135. . Some of these modules use signals to activate or deactivate module functions, thereby conserving processing power, memory, and/or battery life. For example, in some embodiments, speech dependency module 137 includes a speech or keyword recognition module configured to listen for specific keyword commands or perform more generalized speech recognition functions.

일부 다른 실시예들에서, 모듈(137)은 음성 mic 신호에서 잡음을 감소시키기 위해 추가 처리를 제공하는 잡음 감소 모듈을 추가로 포함한다. 이러한 잡음 감소 모듈은 일부 실시예들에서, 사용자의 특정 환경으로 조절될 수 있다. 그리고, 또 다른 실시예들에서, 스피치 의존 모듈(136)은 음성 mic 출력을 수신하고 하나의 또는 양 이어피스들에 대한 3 내지 10% 사용자 측음 신호를 생성하는 측음 모듈 또는 회로를 포함한다. 측음을 발생시키는 것은 전력을 소비하며, 따라서 이러한 기능을 스위칭 오프하는 것은 사용자가 말하고 있지 않을 때 배터리 수명을 보존한다. 2017년 7월 7일에 출원된 미국 가특허 출원 제62/530,049호를 참조하며, 그것은 본원에 참조로 포함된다.In some other embodiments, module 137 further includes a noise reduction module that provides additional processing to reduce noise in the voice mic signal. This noise reduction module may, in some embodiments, be tailored to the user's specific environment. And, in yet other embodiments, speech dependent module 136 includes a sidetone module or circuit that receives voice mic output and generates a 3-10% user sidetone signal for one or both earpieces. Generating sidetones consumes power, so switching this feature off conserves battery life when the user is not speaking. See U.S. Provisional Patent Application No. 62/530,049, filed July 7, 2017, which is incorporated herein by reference.

도 2는 2개의 이어피스를 가진 ANR 헤드셋에 대한 향상된 자동 음소거 시스템의 흐름도(200)를 도시하며, 흐름도(200)는 처리 블록들(210 내지 280)을 포함한다.2 shows a flow diagram 200 of an improved auto-mute system for an ANR headset with two earpieces, where the flow diagram 200 includes processing blocks 210-280.

블록(210)은 이어피스들의 상태를 결정하기 위해 OED(온-이어 검출)를 수행하는 단계를 수반한다. (2015년 9월 10일에 출원된 동시 계류중인 미국 특허 출원 제14/850,859호를 참조하며), 그것은 본원에 참조로 포함된다.) 그 다음, 실행은 주변 잡음 레벨이 낮은지의 여부를 결정하는 단계를 수반하는 블록(220)에서 계속된다. 주변 잡음이 낮으면, 모듈(134)의 스마트 음소거 능력은 블록(230)에서 디스에이블되고 실행은 블록(220)으로 복귀되며; 그렇지 않으면 실행은 블록(240)에서 계속된다.Block 210 involves performing OED (On-Ear Detection) to determine the status of the earpieces. (See co-pending U.S. patent application Ser. No. 14/850,859, filed September 10, 2015, which is incorporated herein by reference.) The implementation then proceeds to determine whether the ambient noise level is low. Continues at block 220 with following steps: If ambient noise is low, the smart mute capability of module 134 is disabled at block 230 and execution returns to block 220; Otherwise, execution continues at block 240.

블록(240)은 양 이어피스들이 사용자에게 장착되는지를 결정하는 단계를 수반한다. 예시적 실시예에서, 이것은 OED 모듈에 대한 다른 호출을 수반한다. 양 이어버드들이 설치되면, 실행은 상기 설명된 대칭 기반 또는 조합 대칭-비대칭 음소거 기능들을 사용하여, 음소거되는지의 여부를 결정하는 블록(250)으로 분기되며, 그것의 둘 다는 양 이어피스들로부터의 신호들을 필요로 한다. 여기로부터의 실행은 양 이어피스들이 여전히 장착되는지를 결정하기 위해 다시 블록(240)으로 순환된다. 양 이어버드들이 장착되지 않은 것으로 결정되면, 실행은 블록(260)으로 진행되며, 그것은 하나의 이어피스가 장착되는지를 결정한다. (그것은 또한 어느 하나가 장착되는지를 결정한다.) 하나가 장착되면, 실행은 상기 설명된 바와 같이 비대칭 임계화에 기초하여 스마트 음소거 기능을 수행하기 위해, 블록(270)으로 분기된다. 그 다음, 실행은 하나의 이어피스가 여전히 장착된지를 결정하기 위해 블록(260)으로 다시 순환된다. (일부 실시예들에서, 이어피스는 여전히 장착될 수 있지만, 불충분한 배터리 전력을 갖는다.) 하나의 이어피스가 장착되지 않으면, 어떠한 스마트 음소거도 수행되지 않고 실행은 블록(220)으로 다시 분기된다.Block 240 involves determining whether both earpieces are mounted on the user. In the example embodiment, this involves another call to the OED module. Once both earbuds are installed, execution branches to block 250, which determines whether to mute using the symmetry-based or combined symmetric-asymmetric mute functions described above, both of which are muted from both earpieces. Signals are needed. Execution from here loops back to block 240 to determine if both earpieces are still mounted. If it is determined that both earbuds are not equipped, then execution proceeds to block 260, which determines whether one earpiece is equipped. (It also determines which one is equipped.) If one is equipped, execution branches to block 270 to perform the smart mute function based on asymmetric thresholding as described above. Execution then cycles back to block 260 to determine if one earpiece is still attached. (In some embodiments, an earpiece can still be mounted, but has insufficient battery power.) If one earpiece is not mounted, no smart mute is performed and execution branches back to block 220. .

도 3은 이하의 블록들을 포함하는, 시스템(100)의 모노럴 시스템 모델(300)을 도시한다: Tp는 수동 감쇠 전달 함수이고; Tdm은 드라이버-대-피드백-mic 전달 함수이고; Hff는 피드포워드 필터이고; Hfb는 피드백 필터이고; V는 사용자-스피치-대-피드포워드-mic 음향 경로(전달 함수)이고; W는 사용자-스피치-대-피드백-mic 뼈-전도 경로(전달 함수)이다. 모델은 또한 이하의 신호들을 포함한다: s는 사용자 스피치 신호이고; a는 주변 잡음 신호이고; n은 피드포워드 mic 측정이고(또는 더 일반적으로, mic는 음성 영역으로부터 가장 멀거나 이 영역에 덜 음향적으로 결합됨); m은 피드백 mic 측정이고(또는 더 일반적으로 mic는 음성 영역으로부터 가장 멀거나 이 영역에 더 음향적으로 결합됨); u는 RX 신호 및/또는 임의의 시스템 오디오 통지 신호들이고; d는 DAC(드라이버) 출력이다.3 shows a monaural system model 300 of system 100, including the following blocks: T p is the passively attenuated transfer function; T dm is the driver-to-feedback-mic transfer function; H ff is a feedforward filter; H fb is a feedback filter; V is the user-speech-to-feedforward-mic acoustic path (transfer function); W is the user-speech-to-feedback-mic bone-conduction path (transfer function). The model also includes the following signals: s is the user speech signal; a is the ambient noise signal; n is the feedforward mic measurement (or more generally, the mic furthest from or less acoustically coupled to the speech region); m is the feedback mic measurement (or more generally, the mic furthest from or more acoustically coupled to the speech area); u is the RX signal and/or any system audio notification signals; d is the DAC (driver) output.

더 특히, 도 3 시스템은 존재하는 양 피드포워드 및 피드백 필터들(Hff 및 Hfb)을 갖는다. 그러나, 일부 실시예들은 이러한 필터들을 생략하여, (Hff = Hfb = O) 및 헤드셋이 수동인 것을 의미한다. 예시적 실시예는 이하의 선형 통계 모델을 사용한다:More particularly, the Figure 3 system has both feedforward and feedback filters (Hff and Hfb) present. However, some embodiments omit these filters, meaning (H ff = H fb = O) and the headset is passive. The exemplary embodiment uses the following linear statistical model:

D를 M에 치환하는 것은 이하를 제공한다Substituting D for M gives:

항들을 정리하는 것은 이하를 산출한다Sorting out the terms yields:

N을 치환하는 것은 이하를 제공한다Substituting N gives:

항들을 정리하는 것은 이하를 산출한다Sorting out the terms yields:

여기서,here,

선형 모델링에서의 목적은 피드백 마이크로폰 측정(M)을 독립 구성요소들(주변 잡음, Rx, 및 사용자 스피치)의 선형 조합으로 분해하는 것이다. 이러한 모델은 협대역 신호들, 즉 특정 주파수 빈에 적용가능하다. 광대역 시스템을 모델링하기 위해, 주파수 지수들을 각각의 항에 추가할 것이다.The goal in linear modeling is to decompose the feedback microphone measurement (M) into a linear combination of independent components (ambient noise, Rx, and user speech). This model is applicable to narrowband signals, i.e. specific frequency bins. To model a broadband system, we will add frequency exponents to each term.

분산들은 이하와 같이 표현될 수 있다:The variances can be expressed as follows:

또한, 이것은 협대역 경우에 대한 것이다. 모든 주파수에서 분산들을 계산하는 것은 A, S, 및 N의 전력 스펙트럼들을 산출할 것이다. 이러한 분산들은 주변 잡음 및 스피치가 비정지이므로, 순시 값들(, )이다. 시간 지수들은 기호법 편의를 위해 떨어진다. 공분산(E[MN*])은 이하로서 정의된다Also, this is for the narrowband case. Calculating the variances at all frequencies will yield power spectra of A, S, and N. These variances are instantaneous values (since ambient noise and speech are non-stationary). , )am. Time exponents are dropped for notation convenience. The covariance (E[MN * ]) is defined as

그것은 이하로서 재기입될 수 있다It can be rewritten as below

모든 주파수에서 공분산을 계산하는 것은 크로스 전력 스펙트럼을 산출한다는 점을 주목한다.Note that calculating the covariance at all frequencies yields a cross power spectrum.

회귀 계수(G)는 이하로서 정의된다The regression coefficient (G) is defined as

여기서, 는 사용자-스피치-대-주변-잡음 SNR이다. F1 및 Fs를 G에 치환하는 것은 이하를 산출한다here, is the user-speech-to-ambient-noise SNR. Substituting F 1 and F s into G yields

사용자 스피치가 존재할 때, 비는 (사용자-스피치-대-주변-잡음 SNR이 커짐에 따라) 1에 접근한다. 사용자 스피치가 부재일 때, 는 0이다. 이것은 순시 회귀 계수(G(t))가 종점들(F1 및 F1 + FsV-1)을 가진 라인 세그먼트에 남아 있는 것을 의미한다. 모든 주파수에서 회귀 계수를 계산하는 것은 전달 함수를 산출한다는 점을 주목한다.When user speech is present, non approaches 1 (as the user-speech-to-ambient-noise SNR increases). When user speech is absent, is 0. This means that the instantaneous regression coefficient G(t) remains in the line segment with the end points F 1 and F 1 + F s V -1 . Note that calculating the regression coefficients at all frequencies yields a transfer function.

추정: 회귀 계수(G(t))를 추적하는 것은 시간에 따라 변경되므로 도전적 문제일 수 있다. Rx가 존재할 때, M과 N 사이의 코히어런스가 감소된다는 사실은 아직 나쁘며, 그것은 추정치의 분산을 증가시킨다. U에 대한 참조를 이용하는 것은 그것이 요구되지 않지만, 추정 문제를 단순화한다. 일부 실시예들은 이하로서 정의되는 측정 모델(M(t))을 사용하여 상태 공간 프레임워크에서 추정 문제를 공식화한다Estimation: Tracking the regression coefficient (G(t)) can be a challenging problem as it changes over time. It's bad yet that when Rx is present, the coherence between M and N is reduced, it increases the variance of the estimates. Using a reference to U simplifies the estimation problem, although it is not required. Some embodiments formulate the estimation problem in a state space framework using a measurement model (M(t)), defined below:

여기서, r(t)는 제로 평균 및 단위 분산을 가진 가우스 랜덤 변수이고, σr은 모델링되지 않은 거동(즉, 측정들에서의 약간의 비선형성들)을 설명하는 조정가능 파라미터이다. H(t)는 피드백 mic 측정에 rx/뮤직 신호의 기여를 설명하는 회귀 계수이다.Here, r(t) is a Gaussian random variable with zero mean and unit variance, and σ r is an adjustable parameter that accounts for unmodeled behavior (i.e., slight nonlinearities in the measurements). H(t) is the regression coefficient that accounts for the contribution of the rx/music signal to the feedback mic measurement.

일부 실시예들은 이하의 프로세스 모델을 사용한다:Some embodiments use the following process model:

여기서, q1(t) 및 q2(t)는 제로 평균들 및 단위 분산들을 가진 독립 가우스 랜덤 변수들이다. α1 및 α2는 G(t) 및 H(t)가 시간에 따라 어떻게 빨리 변경될 수 있는지를 지배하는 조정가능 파라미터들이다.Here, q 1 (t) and q 2 (t) are independent Gaussian random variables with zero means and unit variances. α 1 and α 2 are adjustable parameters that govern how quickly G(t) and H(t) can change over time.

상태 공간 프레임워크는 예를 들어, 상태 추정 순환 최소 제곱(Recursive Least Square)(RLS), 최소 제곱 평균(Least Mean Square)(LMS), 및 칼만 필터에 대한 효율적 알고리즘들이 있기 때문에 유용하다. 일부 실시예들은 각각의 빈에서 칼만 필터를 사용함으로써 수개의 주파수 빈들에서 상태들(G(t) 및 H(t))을 추정한다.The state space framework is useful because there are efficient algorithms for state estimation Recursive Least Square (RLS), Least Mean Square (LMS), and Kalman filter, for example. Some embodiments estimate the states G(t) and H(t) in several frequency bins by using a Kalman filter in each bin.

일부 실시예들은 시스템의 전기음향 파라미터들을 분명히 특징짓기 위한 요구를 회피하는 사용자 음성 액티비티 검출에 대한 더 일반화된 접근법을 포함한다. 일반화된 접근법은 전달 함수들(T)의 행렬에 따라, 각각 사용자 스피치(s), 주변 잡음(a), 및/또는 착신 오디오(u) 중 적어도 2개에 대한 함수인 2개의 신호((θ)(theta) 및 φ(phi))를 사용한다. (착신 오디오(u)는 외부적으로 발생된 오디오 신호들 예컨대 통신 디바이스로부터의 Rx/뮤직 및 내부적으로 발생된 오디오 신호들, 예컨대 시스템 이벤트 프롬프트들, 통지들, 또는 알람들의 혼합일 수 있다.) 전달 함수들의 행렬(T)는 스피치, 주변 및 착신 오디오(u)가 2개 이상의 변환기 상에 어떻게 나타나는지, 및 변환기들이 파이 및 세타를 발생시키기 위해 Rx/뮤직에 대한 참조와 어떻게 조합되는지에 의해 결정된다. 수학적으로, 이것은 이하와 같이 표현될 수 있다Some embodiments include a more generalized approach to user voice activity detection that avoids the need to explicitly characterize the electroacoustic parameters of the system. A generalized approach is to generate two signals ((θ), each of which is a function of at least two of user speech (s), ambient noise (a), and/or incoming audio (u), according to a matrix of transfer functions (T). )(theta) and ϕ(phi)) are used. (Incoming audio u may be a mixture of externally generated audio signals, such as Rx/Music from a communication device, and internally generated audio signals, such as system event prompts, notifications, or alarms.) The matrix of transfer functions (T) is determined by how the speech, ambient and incoming audio (u) appears on two or more transducers and how the transducers are combined with a reference to Rx/Music to generate phi and theta. do. Mathematically, this can be expressed as

여기서, T는 전달 함수들의 행렬을 나타내고, 이하로서 정의된다Here, T represents the matrix of transfer functions and is defined as

여기서, T는 사용자 스피치(s)로부터 신호(θ)로의 전달 함수를 표현하고; T는 주변 잡음(a)으로부터 신호(θ)로의 전달 함수를 표현하고; T는 사용자 스피치(s)로부터 신호(Φ)로의 전달 함수를 표현하고; T는 주변 잡음(a)으로부터 신호(Φ)로의 전달 함수를 표현한다. 이러한 모델의 경우, 사용자 음성 액티비티의 신뢰 검출은 이하의 비대칭 제약에의 고수를 필요로 한다:Here, T represents the transfer function from user speech (s) to signal (θ); T represents the transfer function from ambient noise (a) to signal (θ); T represents the transfer function from user speech (s) to signal (Φ); T represents the transfer function from ambient noise (a) to signal (Φ). For these models, trust detection of user voice activity requires adherence to the following asymmetry constraints:

여기서, z는 비대칭 임계치(z)를 나타낸다. 그것은 스피치-대-주변 감도 비들이 크기 및/또는 위상에서 상이해야 하는 것을 표시한다. 일부 실시예들에서, z는 제로와 같고 다른 실시예들에서 z는 0.01, 0.1, 0.5, 0.75, 1.0, 2.0과 같다. 또 다른 실시예들에서, z는 2보다 더 크다.Here, z represents the asymmetric threshold (z). It indicates that the speech-to-ambient sensitivity ratios should differ in magnitude and/or phase. In some embodiments, z is equal to zero and in other embodiments z is equal to 0.01, 0.1, 0.5, 0.75, 1.0, 2.0. In still other embodiments, z is greater than 2.

이러한 더 일반화된 모델의 항들을 도 3의 특정 전기음향 구현에 매핑하는 것은 이하로서 대응하는 T 행렬을 나타낸다Mapping the terms of this more generalized model to the specific electroacoustic implementation of Figure 3 gives the corresponding T matrix as

여기서, here,

일부 실시예들은 이하의 형태의 대안적 비대칭 제약을 사용할 수 있다Some embodiments may use alternative asymmetry constraints in the form of

그것은 신호(θ)에서의 스피치 대 주변 신호 전력의 비가 신호(Φ)에서의 스피치 대 주변 신호 전력의 비보다 더 큰 것을 필요로 한다.It requires that the ratio of speech to ambient signal power in signal θ is greater than the ratio of speech to ambient signal power in signal Φ.

도 4는 mic 입력들 및 Rx/뮤직(착신 오디오) 입력들의 선형 조합으로부터 신호(θ)의 발생을 예시하는 일반적 전기음향 시스템(400)의 블록도를 도시한다. 시스템(400)은 각각의 전달 함수들(H1 내지 HN)을 갖는 H를 필터링하기 위해 각각의 이득 모듈들 또는 블록들(K1 내지 KN)을 통해 제공되는 한 세트의 마이크로폰 또는 변환기 측정들 또는 입력들(M1...MN) 및 Rx/뮤직 신호 참조(U1 및 U2)를 포함한다. 필터는 피드(feed)를 합산기로 출력하며, 그것을 세타를 생성한다. 따라서, 신호(θ)는 변환기 및 참조 입력들의 필터링된 조합이다.Figure 4 shows a block diagram of a general electroacoustic system 400 illustrating the generation of signal θ from a linear combination of mic inputs and Rx/music (incoming audio) inputs. System 400 measures a set of microphones or transducers provided through respective gain modules or blocks (K 1 to K N ) to filter H with respective transfer functions (H 1 to H N ). s or inputs (M 1 ...M N) and Rx/music signal references (U1 and U2). The filter outputs a feed to a summer, which generates theta. Therefore, signal θ is a filtered combination of the converter and reference inputs.

도 5는 UVAD 모듈(135)의 일부로서 그리고 도 2 프로세스 내에 사용될 수 있는 일반화된 UVAD 모듈(500)의 블록도를 도시한다. 입력 신호 사용자 스피치(s), 주변 잡음(a), 및 착신 디바이스 오디오(u)에 더하여, 모듈(500)은 전기음향 시스템 모델 블록(510), 추정기 블록(520), 합산기(530), 분산 비 추정기 블록(540), 및 결정 블록(550)을 포함한다. 전기음향 시스템 모델 블록(510)은 일반적으로 T, 전달 함수들의 행렬(T) 및 임의의 전기음향 시스템, 예컨대 시스템(100 또는 500)을 나타낸다.FIG. 5 shows a block diagram of a generalized UVAD module 500 that can be used as part of UVAD module 135 and within the FIG. 2 process. In addition to the input signals user speech (s), ambient noise (a), and incoming device audio (u), module 500 includes an electroacoustic system model block 510, an estimator block 520, a summer 530, Includes a variance ratio estimator block 540, and a decision block 550. Electroacoustic system model block 510 generally represents T, a matrix of transfer functions (T), and any electroacoustic system, such as system 100 or 500.

추정기 블록(520)은 파이 및 u로부터 (세타)를 반복적으로 예측하거나 추정하며, 합산기 블록(530)으로부터의 예측 에러 신호(e)는 각각의 새로운 예측을 갱신하기 위해 피드백된다. 예시적 실시예에서, 추정기 블록(520)은 칼만 필터의 형태를 취한다(상기 설명된 바와 같음). 그러나, 다른 실시예들은 선형 추정기들, 예컨대 RLS 및 LMS 추정기들의 형태들을 사용한다. θΦ.Estimator block 520 iteratively predicts or estimates (theta) from pi and u, and the prediction error signal (e) from summer block 530 is fed back to update each new prediction. In an exemplary embodiment, estimator block 520 takes the form of a Kalman filter (as described above). However, other embodiments use forms of linear estimators, such as RLS and LMS estimators. θΦ.

분산 비 추정기 블록(540)은 예측 에러(Se)에 대한 분산 및 신호(Φ, SΦ)의 분산을 추정하고, 비 Se/SΦ를 계산한다. 비는 결정 블록(550)에 제공되며, 이 블록은 비를 검출 임계치(DT)와 비교한다. 비가 임계치를 초과하면, 사용자 음성 액티비티 검출 신호는 사용자 스피치의 존재를 표시하는 1에 설정된다. 그렇지 않으면, 검출 신호는 0에 설정된다.The variance ratio estimator block 540 estimates the variance of the signal (Φ, S Φ ) and the variance of the prediction error (S e ) and calculates the ratio S e /S Φ . The ratio is provided to decision block 550, which compares the ratio to a detection threshold (DT). If the ratio exceeds the threshold, the user voice activity detection signal is set to 1, indicating the presence of user speech. Otherwise, the detection signal is set to 0.

결론conclusion

상술한 명세서에서, 특정 예시적 실시예들이 설명되었다. 그러나, 본 기술분야의 통상의 기술자는 다양한 수정들 및 변경들이 아래의 청구항들에 제시된 바와 같이 발명의 범위로부터 벗어나는 것 없이 이루어질 수 있는 것을 이해한다. 따라서, 명세서 및 도면들은 제한적 의미보다는 오히려 예시적인 것으로 간주되어야 하고, 모든 그러한 수정들은 본 교시들의 범위 내에 포함되도록 의도된다.In the foregoing specification, certain example embodiments have been described. However, one skilled in the art understands that various modifications and changes may be made without departing from the scope of the invention as set forth in the claims below. Accordingly, the specification and drawings are to be regarded in an illustrative rather than a restrictive sense, and all such modifications are intended to be included within the scope of the present teachings.

혜택들, 장점들, 문제들에 대한 해결법들, 및 임의의 혜택, 장점, 또는 해결법을 발생시키거나 더 현저하게 할 수 있는 임의의 요소(들)는 청구항들의 임의의 것 또는 전부의 중요하거나, 요구되거나 필수적인 특징들 또는 요소들로서 해석되지 않아야 한다. 본 발명은 본 출원의 계류 중에 이루어지는 임의의 보정들 및 발행된 그러한 청구항들의 모든 균등물들을 포함하는 첨부된 청구항들에 의해서만 정의된다.The benefits, advantages, solutions to problems, and any element(s) that may give rise to or make more significant any benefit, advantage, or solution are material to any or all of the claims; They should not be construed as required or essential features or elements. The invention is defined solely by the appended claims, including any amendments made during the pendency of this application and all equivalents of those claims as issued.

더욱이, 이러한 문헌에서, 제2, 상단 및 하단 등과 같은, 상관 용어들은 엔티티들 또는 액션들 간의 임의의 실제적 그러한 관계 또는 순서를 반드시 필요로 하거나 암시하지 않고 다른 엔티티 또는 액션으로부터 하나의 엔티티 또는 액션을 구별하기 위해서만 사용될 수 있다. 용어들 "포함하다(comprises)", "포함하는(comprising)", "갖는다(has)", "갖는(having)", "포함하다(includes)", "포함하는(including)", "함유하다(contains)", "함유하는(containing)" 또는 그것의 임의의 다른 변형은 비배타적 포함을 커버하도록 의도되어, 요소들의 리스트를 구비하거나, 갖거나, 포함하거나, 함유하는 프로세스, 방법, 물품, 또는 장치는 그러한 요소들만을 포함하는 것이 아니라 그러한 프로세스, 방법, 물품, 또는 장치에 명확히 열거되지 않거나 내재되지 않은 다른 요소들을 포함할 수 있다. "~을 포함하다(comprises a)", "~을 갖는다(has ... a)", "~을 포함하다(includes ... a)", "~을 함유하다(contains ... a)"에 의해 진행되는 요소는 더 많은 제약들 없이, 요소를 구비하거나, 갖거나, 포함하거나, 함유하는 프로세스, 방법, 물품, 또는 장치 내의 부가적 동일 요소들의 존재를 배제하지 않는다. 용어들(하나의("a" 및 "an"))은 본원에 달리 명확히 진술되지 않는 한 하나 이상으로서 정의된다. 용어들 "실질적으로", "본질적으로", "거의", "약" 또는 그것의 임의의 다른 버전은 본 기술분야의 통상의 기술자에 의해 이해되는 바와 같이 근접한 것으로서 정의되고, 비제한적 실시예에서, 용어는 10% 내, 다른 실시예에서 5% 내에, 다른 실시예에서 1% 내 및 다른 실시예에서 0.5% 내인 것으로 정의된다. 본원에 사용되는 바와 같은 용어 "결합된"은 반드시 직접적이지 않고 반드시 기계적이지 않지만, 연결된 것으로서 정의된다. 특정 방식으로 "구성되는" 디바이스 또는 구조는 적어도 그러한 방식으로 구성되지만, 또한 열거되지 않은 방식들로 구성될 수 있다. 또한, 용어 "예시적"은 실시예, 시스템, 방법, 디바이스와 같은, 하나 이상의 명사를 수정하기 위해 본원에 형용사로서 사용되고, 명사가 비제한적 예로서 제공되는 것을 구체적으로 표시하는 것으로 의미된다.Moreover, in this literature, correlational terms, such as second, top, bottom, etc., refer to one entity or action from another without necessarily requiring or implying any actual such relationship or ordering between the entities or actions. Can only be used to differentiate. Terms “comprises”, “comprising”, “has”, “having”, “includes”, “including”, “contains” “Contains,” “containing,” or any other variation thereof is intended to cover the non-exclusive inclusion of a process, method, or article that has, has, includes, or contains a list of elements. , or a device may not only include those elements, but may also include other elements not explicitly listed or inherent in such process, method, article, or device. "comprises a", "has ... a)", "includes ... a)", "contains ... a) "An element referred to by" does not, without further limitations, exclude the presence of additional identical elements in a process, method, article, or apparatus that has, has, includes, or contains the element. Terms (“a” and “an”) are defined herein as more than one unless clearly stated otherwise. The terms “substantially,” “essentially,” “approximately,” “about” or any other version thereof are defined as proximate as understood by a person of ordinary skill in the art, and in non-limiting embodiments , the term is defined as within 10%, in other embodiments within 5%, in other embodiments within 1%, and in other embodiments within 0.5%. As used herein, the term “coupled” is defined as connected, although not necessarily directly and not necessarily mechanically. A device or structure that is “configured” in a particular way is configured in at least that way, but may also be configured in ways not listed. Additionally, the term “exemplary” is used herein as an adjective to modify one or more nouns, such as an embodiment, system, method, or device, and is meant to specifically indicate that the nouns are provided as non-limiting examples.

Claims (38)

오디오 처리 시스템으로서,
복수의 오디오 신호를 수신하는 복수의 입력 - 상기 복수의 입력은 사용자의 제1 귀에 근접하게 배치된 제1 변환기로부터 제1 오디오 신호를 수신하는 제1 입력, 상기 사용자의 제2 귀에 근접하게 배치된 제2 변환기로부터 수신된 제2 오디오 신호를 수신하는 제2 입력, 상기 사용자의 음성 영역에 근접하게 배치된 제3 변환기로부터 제3 오디오 신호를 수신하는 제3 입력, 및 상기 사용자의 상기 제1 귀에 근접하지만 상기 제1 변환기보다 상기 사용자의 상기 제1 귀로부터 더 멀리 배치되는 제4 변환기로부터 제4 오디오 신호를 수신하는 제4 입력을 포함함 -; 및
상기 복수의 입력에 결합되고, 상기 제1, 제2, 제3, 및 제4 오디오 신호들을 수신하고, 상기 제1 오디오 신호, 상기 제2 오디오 신호, 및 상기 제4 오디오 신호의 스피치 성분들의 크기 및 위상을 비교하고, 상기 제1 오디오 신호 및 상기 제2 오디오 신호의 상기 스피치 성분들의 상기 크기 및 상기 위상이 실질적으로 동일하고 상기 제1 오디오 신호 및 상기 제4 오디오 신호의 상기 스피치 성분들의 상기 크기가 실질적으로 상이하다고 결정하는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공된다고 결정하고, 상기 스피치 성분들이 상기 사용자에 의해 제공되는지를 나타내는 음성 액티비티 검출 신호를 제공하도록 구성된 처리 회로
를 포함하는 오디오 처리 시스템.
An audio processing system, comprising:
A plurality of inputs receiving a plurality of audio signals - the plurality of inputs comprising: a first input receiving a first audio signal from a first transducer disposed proximate to the user's first ear; a second input for receiving a second audio signal received from a second transducer, a third input for receiving a third audio signal from a third transducer disposed proximate to the user's speech area, and to the first ear of the user. a fourth input receiving a fourth audio signal from a fourth transducer disposed proximate but farther from the first ear of the user than the first transducer; and
Coupled to the plurality of inputs and receiving the first, second, third, and fourth audio signals, the amplitude of speech components of the first audio signal, the second audio signal, and the fourth audio signal and comparing phase, wherein the magnitude and phase of the speech components of the first audio signal and the second audio signal are substantially equal and the magnitude of the speech components of the first audio signal and the fourth audio signal. processing circuitry configured to determine that the speech components are provided by the user in response to determining that the speech components are substantially different, and to provide a speech activity detection signal indicating whether the speech components are provided by the user.
An audio processing system comprising:
삭제delete 삭제delete 제1항에 있어서,
상기 처리 회로는, 상기 스피치 성분들이 상기 사용자에 의해 제공되지 않는다고 결정하는 것에 응답하여 상기 제3 오디오 신호를 음소거 또는 감쇠시키는 것 중 적어도 하나를 행하도록 추가로 구성되는, 오디오 처리 시스템.
According to paragraph 1,
wherein the processing circuitry is further configured to at least one of mute or attenuate the third audio signal in response to determining that the speech components are not provided by the user.
제1항에 있어서,
상기 제1, 제2, 제3, 및 제4 변환기들은 마이크로폰들인, 오디오 처리 시스템.
According to paragraph 1,
The first, second, third, and fourth transducers are microphones.
제1항에 있어서,
상기 오디오 처리 시스템은 인-디-이어 헤드셋(in-the-ear-headset), 오버-디-이어 헤드셋(over-the-ear-headset), 또는 온-디-이어 헤드셋(on-the-ear-headset) 중 하나인, 오디오 처리 시스템.
According to paragraph 1,
The audio processing system may be used in an in-the-ear headset, over-the-ear-headset, or on-the-ear headset. -headset), an audio processing system.
제1항에 있어서,
상기 처리 회로는, 상기 비교가 적어도 상기 제1 오디오 신호 및 상기 제2 오디오 신호의 상기 스피치 성분들의 위상이 실질적으로 동일하지 않다는 것을 나타내는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공되지 않는다고 결정하는, 오디오 처리 시스템.
According to paragraph 1,
wherein the processing circuit determines that the speech components are not provided by the user in response to the comparison indicating that the phases of the speech components of at least the first audio signal and the second audio signal are not substantially the same. , audio processing system.
삭제delete 삭제delete 제1항에 있어서,
상기 처리 회로는, 상기 비교가 상기 제1 오디오 신호 및 상기 제2 오디오 신호의 상기 스피치 성분들의 크기 및 위상이 실질적으로 동일하고 적어도 상기 제1 오디오 신호의 크기가 상기 제4 오디오 신호의 크기보다 실질적으로 크다는 것을 나타내는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공된다고 결정하는, 오디오 처리 시스템.
According to paragraph 1,
The processing circuit is configured to determine if the comparison determines that the magnitude and phase of the speech components of the first audio signal and the second audio signal are substantially equal and that the magnitude of the first audio signal is at least substantially greater than the magnitude of the fourth audio signal. and determining that the speech components are provided by the user in response to indicating that the audio processing system is loud.
오디오 처리 시스템으로서,
복수의 오디오 신호를 수신하는 복수의 입력 - 상기 복수의 입력은 사용자의 제1 귀에 근접하게 배치된 제1 변환기로부터 제1 오디오 신호를 수신하는 제1 입력, 상기 사용자의 제1 귀에 근접하지만 상기 제1 변환기보다 상기 제1 귀로부터 더 멀리 배치된 제2 변환기로부터 제2 오디오 신호를 수신하는 제2 입력, 상기 사용자의 음성 영역에 근접하게 배치된 제3 변환기로부터 제3 오디오 신호를 수신하는 제3 입력, 및 상기 사용자의 제2 귀에 근접하게 배치된 제4 변환기로부터 제4 오디오 신호를 수신하는 제4 입력을 포함함 -; 및
상기 복수의 입력에 결합되고, 상기 제1, 제2, 제3, 및 제4 오디오 신호들을 수신하고, 상기 제1 오디오 신호, 상기 제2 오디오 신호, 및 상기 제4 오디오 신호의 스피치 성분들의 크기 및 위상을 비교하고, 상기 제1 오디오 신호 및 상기 제4 오디오 신호의 상기 스피치 성분들의 상기 크기 및 상기 위상이 실질적으로 동일하고 상기 제1 오디오 신호 및 상기 제2 오디오 신호의 상기 스피치 성분들의 상기 크기가 실질적으로 상이하다고 결정하는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공되는 것을 검출하고, 상기 스피치 성분들이 상기 사용자에 의해 제공되는지를 나타내는 음성 액티비티 검출 신호를 제공하도록 구성되는 처리 회로
를 포함하는 오디오 처리 시스템.
An audio processing system, comprising:
a plurality of inputs receiving a plurality of audio signals, the plurality of inputs comprising: a first input receiving a first audio signal from a first transducer disposed proximate to the user's first ear; a second input receiving a second audio signal from a second transducer disposed farther from the first ear than the first transducer, and a third input receiving a third audio signal from a third transducer disposed proximate to the user's speech area. an input, and a fourth input receiving a fourth audio signal from a fourth transducer disposed proximate the user's second ear; and
Coupled to the plurality of inputs and receiving the first, second, third, and fourth audio signals, the amplitude of speech components of the first audio signal, the second audio signal, and the fourth audio signal and comparing phase, wherein the magnitude and phase of the speech components of the first audio signal and the fourth audio signal are substantially equal and the magnitude of the speech components of the first audio signal and the second audio signal. processing circuitry configured to detect that the speech components are provided by the user in response to determining that the speech components are substantially different, and provide a speech activity detection signal indicating whether the speech components are provided by the user.
An audio processing system comprising:
삭제delete 삭제delete 제11항에 있어서,
상기 처리 회로는 상기 스피치 성분들이 상기 사용자에 의해 제공되지 않는다고 결정하는 것에 응답하여 상기 제3 오디오 신호를 음소거 또는 감쇠시키는 것 중 적어도 하나를 행하도록 추가로 구성되는, 오디오 처리 시스템.
According to clause 11,
wherein the processing circuitry is further configured to at least one of mute or attenuate the third audio signal in response to determining that the speech components are not provided by the user.
제11항에 있어서,
상기 제1, 제2, 제3, 및 제4 변환기들은 마이크로폰들이고, 상기 오디오 처리 시스템은 인-디-이어 헤드셋, 오버-디-이어 헤드셋, 또는 온-디-이어 헤드셋 중 하나인, 오디오 처리 시스템.
According to clause 11,
The first, second, third, and fourth transducers are microphones, and the audio processing system is one of an in-the-ear headset, an over-the-ear headset, or an on-the-ear headset. system.
제11항에 있어서,
상기 처리 회로는, 상기 비교가 적어도 상기 제1 오디오 신호의 상기 스피치 성분들의 크기가 상기 제2 오디오 신호의 상기 스피치 성분들의 크기보다 실질적으로 크지 않다는 것을 나타내는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공되지 않는다고 결정하는, 오디오 처리 시스템.
According to clause 11,
The processing circuit is configured to cause the speech components to be generated by the user in response to the comparison indicating that the magnitude of the speech components of the first audio signal is at least not substantially greater than the magnitude of the speech components of the second audio signal. The audio processing system determines that it is not provided.
제11항에 있어서,
상기 처리 회로는, 상기 비교가 상기 제1 오디오 신호의 상기 스피치 성분들이 상기 제2 오디오 신호의 상기 스피치 성분들보다 시간상으로 실질적으로 더 빨리 도달한다는 것을 나타내는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공된다고 결정하는, 오디오 처리 시스템.
According to clause 11,
The processing circuit is configured to cause the speech components to be transmitted by the user in response to the comparison indicating that the speech components of the first audio signal arrive substantially faster in time than the speech components of the second audio signal. An audio processing system, which determines that it is provided.
오디오 신호들을 처리하는 방법으로서,
사용자의 제1 귀에 근접하게 배치된 제1 변환기로부터 제1 오디오 신호를 수신하는 단계;
상기 사용자의 제2 귀에 근접하게 배치되는 제2 변환기로부터 제2 오디오 신호를 수신하는 단계;
상기 사용자의 음성 영역에 근접하게 배치된 제3 변환기로부터 제3 오디오 신호를 수신하는 단계;
상기 사용자의 상기 제1 귀에 근접하지만 상기 제1 변환기보다 상기 사용자의 상기 제1 귀로부터 더 멀리 배치되는 제4 변환기로부터 제4 오디오 신호를 수신하는 단계;
상기 제1 오디오 신호, 상기 제2 오디오 신호, 및 상기 제4 오디오 신호의 스피치 성분들의 크기 및 위상을 비교하는 단계;
상기 비교에 기초하여, 상기 제1 오디오 신호 및 상기 제2 오디오 신호의 상기 스피치 성분들의 상기 크기 및 위상이 실질적으로 동일하고 상기 제1 오디오 신호 및 상기 제4 오디오 신호의 상기 스피치 성분들의 상기 크기가 실질적으로 상이하다고 결정하는 것에 응답하여 상기 스피치 성분들이 상기 사용자에 의해 제공된다고 결정하는 단계; 및
상기 스피치 성분들이 상기 사용자에 의해 제공되는지를 나타내는 음성 액티비티 검출 신호를 제공하는 단계
를 포함하는 방법.
A method of processing audio signals, comprising:
Receiving a first audio signal from a first transducer disposed proximate to the user's first ear;
Receiving a second audio signal from a second transducer disposed proximate to the user's second ear;
Receiving a third audio signal from a third transducer disposed close to the user's voice area;
receiving a fourth audio signal from a fourth transducer disposed close to the first ear of the user but further away from the first ear of the user than the first transducer;
comparing the magnitude and phase of speech components of the first audio signal, the second audio signal, and the fourth audio signal;
Based on the comparison, it is determined that the magnitude and phase of the speech components of the first audio signal and the second audio signal are substantially the same and the magnitude of the speech components of the first audio signal and the fourth audio signal are determining that the speech components are provided by the user in response to determining that they are substantially different; and
providing a speech activity detection signal indicating whether the speech components are provided by the user.
How to include .
삭제delete 삭제delete 통신 어셈블리로서,
착신 오디오 신호를 제공하는 통신 디바이스에 연결을 위해 구성되는 착신 오디오 신호 노드; 및
사용자 스피치의 부재 또는 존재를 나타내는 음성 액티비티 검출 신호를 출력하도록 구성되는 신호 처리 회로를 포함하며, 상기 신호 처리 회로는 제1 신호(Φ), 제2 신호(θ), 및 제3 신호에 기초하여 사용자 스피치의 부재 또는 존재를 결정하도록 구성되고, 상기 Φ 및 θ 신호들은 적어도 주변 잡음(a), 사용자 스피치(s), 및 상기 제3 신호에 응답하여 2개 이상의 변환기로부터 유도되고, 상기 Φ 및 θ 신호들은 제약

을 만족시키고,
T는 사용자 스피치(s)로부터 신호(θ)로의 전달 함수를 표현하고,
T는 주변 잡음(a)으로부터 신호(θ)로의 전달 함수를 표현하고,
T는 사용자 스피치(s)로부터 신호(Φ)로의 전달 함수를 표현하고,
Ta 는 주변 잡음(a)으로부터 신호(Φ)로의 전달 함수를 표현하고,
상기 제3 신호는 상기 착신 오디오 신호 또는 적어도 하나의 오디오 통지 신호에 적어도 부분적으로 기초하고, 상기 통신 어셈블리는 음성 마이크로폰 출력 신호로부터 유도되는 사용자 스피치 신호들 내에서 하나 이상의 키워드를 인식하고 사용자 스피치의 부재를 표시하는 상기 음성 액티비티 검출 신호에 응답하여 전력 또는 메모리를 보존하기 위해 셧다운 또는 슬립 상태에 진입하도록 구성되는 키워드 인식 모듈을 추가로 포함하는, 통신 어셈블리.
As a communication assembly,
an incoming audio signal node configured for connection to a communication device providing an incoming audio signal; and
A signal processing circuit configured to output a voice activity detection signal indicating the absence or presence of user speech, the signal processing circuit based on the first signal (Φ), the second signal (θ), and the third signal. configured to determine the absence or presence of user speech, wherein the Φ and θ signals are derived from two or more transducers in response to at least ambient noise (a), user speech (s), and the third signal, wherein the Φ and θ signals are constrained

satisfy,
T represents the transfer function from user speech (s) to signal (θ),
T expresses the transfer function from ambient noise (a) to signal (θ),
T represents the transfer function from user speech (s) to signal (Φ),
T a Expresses the transfer function from the ambient noise (a) to the signal (Φ),
The third signal is based at least in part on the incoming audio signal or at least one audio notification signal, and the communication assembly recognizes one or more keywords in user speech signals derived from the voice microphone output signal and detects the absence of user speech. The communication assembly further comprising a keyword recognition module configured to enter a shutdown or sleep state to conserve power or memory in response to the voice activity detection signal indicating.
제21항에 있어서,
상기 2개 이상의 변환기는 제1 및 제2 마이크로폰들을 포함하며, 상기 제1 마이크로폰은 상기 제2 마이크로폰보다 사용자 음성 영역에 실질적으로 더 큰 음향 결합으로 위치되는, 통신 어셈블리.
According to clause 21,
wherein the two or more transducers include first and second microphones, the first microphone being positioned with substantially greater acoustic coupling to the user's voice area than the second microphone.
제22항에 있어서,
상기 제1 마이크로폰은 상기 제2 마이크로폰보다 상기 사용자 음성 영역으로부터 뼈 전도 경로를 통해 더 많은 음향 에너지를 수용하도록 위치되는, 통신 어셈블리.
According to clause 22,
and wherein the first microphone is positioned to receive more acoustic energy from the user's speech area via a bone conduction path than the second microphone.
제21항에 있어서,
사용자 스피치의 부재를 표시하는 음성 액티비티 검출 신호에 응답하여 음성 마이크로폰 출력 신호를 감쇠시키고 사용자 스피치의 존재를 표시하는 음성 액티비티 검출 신호에 응답하여 상기 음성 마이크로폰 출력 신호를 비감쇠시키도록 구성되는 자동 음소거 모듈을 추가로 포함하는, 통신 어셈블리.
According to clause 21,
an auto-mute module configured to attenuate a voice microphone output signal in response to a voice activity detection signal indicating the absence of user speech and to unattenuate the voice microphone output signal in response to a voice activity detection signal indicative of the presence of user speech. A communication assembly further comprising:
제24항에 있어서,
상기 자동 음소거 모듈이 상기 음성 액티비티 검출 신호의 수신 후에 상기 음성 마이크로폰 출력 신호를 미리 결정된 시간량 동안 음소거하거나 감쇠시키도록 구성되는, 통신 어셈블리.
According to clause 24,
and wherein the automatic mute module is configured to mute or attenuate the voice microphone output signal for a predetermined amount of time following receipt of the voice activity detection signal.
삭제delete 제21항에 있어서,
사용자 스피치에 응답하여 측음 신호를 헤드셋 이어피스 내의 라우드 스피커에 제공하고 사용자 스피치의 부재를 표시하는 음성 액티비티 검출 신호에 응답하여 전력 또는 메모리를 보존하기 위해 셧다운 또는 슬립 상태에 진입하는 측음 모듈을 추가로 포함하는, 통신 어셈블리.
According to clause 21,
Additionally, a sidetone module that provides a sidetone signal to the loudspeaker within the headset earpiece in response to user speech and enters a shutdown or sleep state to conserve power or memory in response to a voice activity detection signal indicating the absence of user speech. Including, communication assemblies.
제21항에 있어서,
사용자 스피치의 존재를 표시하는 음성 액티비티 검출 신호에 응답하여 제1 방식으로 잡음을 감소시키고 사용자 스피치의 부재를 표시하는 음성 액티비티 검출 신호에 응답하여 제2 방식으로 잡음을 감소시키는 잡음 감소 모듈을 추가로 포함하는, 통신 어셈블리.
According to clause 21,
further comprising a noise reduction module configured to reduce noise in a first manner responsive to a speech activity detection signal indicating the presence of user speech and to reduce noise in a second manner responsive to a speech activity detection signal indicating the absence of user speech. Including, communication assemblies.
제21항에 있어서,
음성 마이크로폰 출력 신호의 스피치 콘텐츠에 의존하는 방식으로 동작을 위해 구성되고 사용자 스피치의 부재를 표시하는 음성 액티비티 검출 신호에 응답하여 전력 및/또는 메모리 보존 모드에 진입하는 적어도 하나의 스피치 의존 모듈을 추가로 포함하는, 통신 어셈블리.
According to clause 21,
further comprising at least one speech dependent module configured for operation in a manner dependent on the speech content of the speech microphone output signal and entering a power and/or memory conservation mode in response to a speech activity detection signal indicating the absence of user speech. Including, communication assemblies.
제21항에 있어서,
헤드셋 이어피스와 연관되는 라우드 스피커에 연결을 위해 구성되는 제1 노드, 상기 헤드셋 이어피스와 연관되는 피드포워드 주변 마이크로폰에 연결을 위해 구성되는 제2 노드, 및 상기 헤드셋 이어피스와 연관되는 피드백 에러 마이크로폰에 연결을 위해 구성되는 제3 노드를 더 포함하고,
상기 신호 처리 회로는 상기 제1, 제2 및 제3 노드들에 결합되고, 상기 피드포워드 주변 마이크로폰 및 상기 피드백 에러 마이크로폰에서 비롯되는 신호들에 응답하여 잡음 방지 신호를 상기 라우드 스피커에 제공하도록 구성되고,
상기 Φ 및 θ 신호들은 상기 피드포워드 주변 마이크로폰 및 상기 피드백 에러 마이크로폰에서 비롯되는 신호들로부터 유도되는, 통신 어셈블리.
According to clause 21,
a first node configured for connection to a loudspeaker associated with the headset earpiece, a second node configured for connection to a feedforward peripheral microphone associated with the headset earpiece, and a feedback error microphone associated with the headset earpiece. Further comprising a third node configured for connection to,
wherein the signal processing circuit is coupled to the first, second and third nodes and configured to provide an anti-noise signal to the loudspeaker in response to signals originating from the feedforward peripheral microphone and the feedback error microphone; ,
and the Φ and θ signals are derived from signals originating from the feedforward peripheral microphone and the feedback error microphone.
제30항에 있어서,
상기 신호 처리 회로는 상기 제1 및 제2 변환기들이 범위 내의 스피치 신호를 출력하고 있는 표준 헤드 앤 토르소 시뮬레이터(HATS) 상에 배치될 때 상기 사용자 스피치의 부재를 표시하도록 추가로 구성되는, 통신 어셈블리.
According to clause 30,
wherein the signal processing circuit is further configured to indicate the absence of the user's speech when the first and second transducers are placed on a standard head and torso simulator (HATS) that is outputting a speech signal in range.
제30항에 있어서,
인-디-이어 이어피스에서의 헤드셋 이어피스는 상기 피드백 에러 마이크로폰을 포함하는 이어 커널 부분을 갖는, 통신 어셈블리.
According to clause 30,
A headset earpiece in an in-the-ear earpiece having an ear canal portion containing the feedback error microphone.
음성 마이크로폰 출력 신호 및 2개 이상의 변환기의 세트를 갖는 통신 어셈블리를 동작시키는 방법으로서,
제1 신호(Φ) 및 제2 신호(θ)를 유도함으로써, 상기 2개 이상의 변환기의 출력에 기초하여 상기 통신 어셈블리의 사용자가 말하고 있는지를 결정하는 단계 - 상기 Φ 및 θ 신호들은 주변 잡음 신호(a), 사용자 스피치 신호(s), 및 제3 신호를 변환하는 상기 2개 이상의 변환기로부터 유도되고, 상기 Φ 및 θ 신호들은 제약

을 만족시키고,
T는 사용자 스피치(s)로부터 신호(θ)로의 전달 함수를 표현하고,
T는 주변 잡음(a)으로부터 신호(θ)로의 전달 함수를 표현하고,
T는 사용자 스피치(s)로부터 신호(Φ)로의 전달 함수를 표현하고,
T는 주변 잡음(a)으로부터 신호(Φ)로의 전달 함수를 표현하고,
상기 제3 신호는 적어도 외부 디바이스로부터의 착신 오디오 입력 신호 또는 적어도 하나의 오디오 통지 신호의 함수임 -; 및
상기 사용자가 말하고 있지 않다는 결정에 응답하여, 상기 통신 어셈블리와 연관되는 하나 이상의 스피치 의존 모듈의 동작 상태를 자원 보존 상태로 변경하는 단계를 포함하고, 상기 하나 이상의 스피치 의존 모듈은 하나 이상의 구어 또는 구절을 인식하도록 구성되는 키워드 인식 모듈을 포함하는, 방법.
1. A method of operating a communications assembly having a voice microphone output signal and a set of two or more transducers, comprising:
determining whether a user of the communication assembly is speaking based on the output of the two or more transducers by deriving a first signal (Φ) and a second signal (θ), wherein the Φ and θ signals are an ambient noise signal ( a), a user speech signal (s), and a third signal, wherein the Φ and θ signals are constrained

satisfy,
T represents the transfer function from user speech (s) to signal (θ),
T expresses the transfer function from ambient noise (a) to signal (θ),
T represents the transfer function from user speech (s) to signal (Φ),
T expresses the transfer function from ambient noise (a) to signal (Φ),
the third signal is a function of at least an incoming audio input signal from an external device or at least one audio notification signal; and
In response to determining that the user is not speaking, changing the operating state of one or more speech dependent modules associated with the communication assembly to a resource conservation state, wherein the one or more speech dependent modules are configured to produce one or more spoken words or phrases. A method comprising a keyword recognition module configured to recognize.
제33항에 있어서,
상기 하나 이상의 스피치 의존 모듈은,
상기 사용자가 말하고 있지 않다는 결정에 응답하여 상기 음성 마이크로폰 출력 신호를 음소거하도록 구성되는 음소거 모듈; 및
상기 음성 마이크로폰 출력 신호에 기초하여 측음 신호를 발생시키도록 구성되는 측음 모듈
중 적어도 하나를 추가로 포함하는, 방법.
According to clause 33,
The one or more speech dependent modules include:
a mute module configured to mute the voice microphone output signal in response to determining that the user is not speaking; and
A sidetone module configured to generate a sidetone signal based on the voice microphone output signal.
A method further comprising at least one of:
통신 어셈블리로서,
사용자 머리 상에 착용되도록 구성되는 제1 및 제2 변환기들 - 상기 제1 변환기는 상기 제2 변환기보다 사용자 음성 영역에 실질적으로 더 큰 음향 결합을 위해 구성됨 -; 및
상기 제1 및 제2 변환기들이 사용자 머리에 장착될 때 미리 결정된 주파수 범위에서 사용자 스피치의 부재 또는 존재를 나타내는 음성 액티비티 검출 신호를 출력하도록 구성되는 신호 처리 회로를 포함하고, 상기 어셈블리는 라우드 스피커를 갖는 이어피스, 피드포워드 주변 마이크로폰, 피드백 에러 마이크로폰, 음성 마이크로폰, 및 착신 오디오 신호를 제공하는 통신 디바이스에 연결을 위해 구성되는 착신 오디오 신호 노드를 포함하고, 상기 신호 처리 회로는 제1 신호(Φ), 제2 신호(θ), 및 제3 신호에 기초하여 사용자 스피치의 부재 또는 존재를 결정하도록 구성되며, 상기 Φ 및 θ 신호들은 주변 잡음(a), 사용자 스피치(s), 및 상기 제3 신호에 응답하여 상기 피드포워드 주변 마이크로폰, 상기 피드백 에러 마이크로폰, 및 상기 음성 마이크로폰 중 적어도 2개의 적어도 출력 신호들로부터 유도되고, 상기 Φ 및 θ 신호들은 제약

을 만족시키고,
T는 사용자 스피치(s)로부터 신호(θ)로의 전달 함수를 표현하고,
T는 주변 잡음(a)으로부터 신호(θ)로의 전달 함수를 표현하고,
T는 사용자 스피치(s)로부터 신호(Φ)로의 전달 함수를 표현하고,
T는 주변 잡음(a)으로부터 신호(Φ)로의 전달 함수를 표현하고,
상기 제3 신호는 착신 오디오 신호 또는 적어도 하나의 오디오 통지 신호에 적어도 부분적으로 기초하고, 상기 어셈블리는 하나 이상의 스피치 의존 모듈의 세트를 추가로 포함하고, 상기 하나 이상의 스피치 의존 모듈의 세트는 하나 이상의 구어 또는 구절을 인식하도록 구성되는 키워드 인식 모듈을 포함하는, 통신 어셈블리.
As a communication assembly,
first and second transducers configured to be worn on the user's head, the first transducer configured for substantially greater acoustic coupling to the user's speech area than the second transducer; and
a signal processing circuit configured to output a speech activity detection signal indicative of the absence or presence of user speech in a predetermined frequency range when the first and second transducers are mounted on a user's head, the assembly having a loudspeaker; an incoming audio signal node configured for connection to an earpiece, a feedforward peripheral microphone, a feedback error microphone, a voice microphone, and a communication device providing an incoming audio signal, the signal processing circuit comprising: a first signal (Φ); configured to determine the absence or presence of user speech based on a second signal (θ) and a third signal, wherein the Φ and θ signals are dependent on ambient noise (a), user speech (s), and the third signal. In response, at least output signals are derived from at least two of the feedforward peripheral microphone, the feedback error microphone, and the voice microphone, wherein the Φ and θ signals are constrained

satisfy,
T represents the transfer function from user speech (s) to signal (θ),
T expresses the transfer function from ambient noise (a) to signal (θ),
T represents the transfer function from user speech (s) to signal (Φ),
T expresses the transfer function from ambient noise (a) to signal (Φ),
The third signal is based at least in part on an incoming audio signal or at least one audio notification signal, and the assembly further comprises a set of one or more speech dependent modules, wherein the set of one or more speech dependent modules comprises one or more spoken words. or a keyword recognition module configured to recognize phrases.
제35항에 있어서,
상기 신호 처리 회로는 상기 제1 및 제2 변환기들이 상기 미리 결정된 주파수 범위에서 스피치 신호를 출력하고 있는 표준 헤드 앤 토르소 시뮬레이터(HATS) 상에 위치될 때 사용자 스피치의 부재를 표시하도록 추가로 구성되는, 통신 어셈블리.
According to clause 35,
wherein the signal processing circuit is further configured to indicate the absence of user speech when the first and second transducers are positioned on a standard head and torso simulator (HATS) outputting a speech signal in the predetermined frequency range, Communication assembly.
제35항에 있어서,
상기 처리 회로는 상기 피드포워드 주변 마이크로폰 및 상기 피드백 에러 마이크로폰에서 비롯되는 신호들에 응답하여 잡음 방지 신호를 상기 라우드 스피커에 제공하도록 추가로 구성되고, 각각의 스피치 의존 모듈은 사용자 스피치의 부재를 표시하는 음성 액티비티 검출 신호에 응답하여 전력 또는 메모리 보존 상태에 진입하고 사용자 스피치의 존재를 표시하는 음성 액티비티 검출 신호에 응답하여 상기 전력 또는 메모리 보존 상태를 나가는, 통신 어셈블리.
According to clause 35,
wherein the processing circuitry is further configured to provide an anti-noise signal to the loudspeaker in response to signals originating from the feedforward peripheral microphone and the feedback error microphone, each speech dependent module being configured to indicate the absence of user speech. A communications assembly, wherein the communication assembly enters a power or memory conservation state in response to a voice activity detection signal and exits the power or memory conservation state in response to a voice activity detection signal indicating the presence of user speech.
제37항에 있어서,
상기 스피치 의존 모듈들 중 하나 이상의 스피치 의존 모듈의 세트는 음성 마이크로폰 신호를 상기 통신 디바이스에 출력하도록 구성되는 음성 마이크로폰 출력 모듈, 및 상기 음성 마이크로폰 출력 신호에 기초하여 측음 신호를 발생시키도록 구성되는 측음 모듈을 추가로 포함하는, 통신 어셈블리.
According to clause 37,
A set of one or more of the speech dependent modules includes a voice microphone output module configured to output a voice microphone signal to the communication device, and a sidetone module configured to generate a sidetone signal based on the voice microphone output signal. A communication assembly further comprising:
KR1020197026035A 2017-02-14 2018-02-13 Method for detecting user voice activity in a communication assembly, its communication assembly KR102578147B1 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762459055P 2017-02-14 2017-02-14
US62/459,055 2017-02-14
US201762532964P 2017-07-14 2017-07-14
US62/532,964 2017-07-14
US15/711,793 US10564925B2 (en) 2017-02-07 2017-09-21 User voice activity detection methods, devices, assemblies, and components
US15/711,793 2017-09-21
PCT/US2018/018075 WO2018148762A2 (en) 2017-02-07 2018-02-13 User voice activity detection methods, devices, assemblies, and components

Publications (2)

Publication Number Publication Date
KR20190118171A KR20190118171A (en) 2019-10-17
KR102578147B1 true KR102578147B1 (en) 2023-09-13

Family

ID=68424443

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197026035A KR102578147B1 (en) 2017-02-14 2018-02-13 Method for detecting user voice activity in a communication assembly, its communication assembly

Country Status (4)

Country Link
JP (1) JP7123951B2 (en)
KR (1) KR102578147B1 (en)
CN (1) CN110603588A (en)
DE (1) DE112018000717T5 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809151B1 (en) 2020-03-27 2023-11-07 Amazon Technologies, Inc. Activity-based device recommendations
CN111785300B (en) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 Crying detection method and system based on deep neural network
US11822367B2 (en) * 2020-06-22 2023-11-21 Apple Inc. Method and system for adjusting sound playback to account for speech detection
CN112887871B (en) * 2021-01-04 2023-06-23 深圳千岸科技股份有限公司 Headset voice playing method based on permission, headset and storage medium
CN113450753B (en) * 2021-01-22 2022-10-14 深圳市三诺数字科技有限公司 Voice bone conduction equipment and communication method and storage medium thereof
CN113099338A (en) * 2021-03-08 2021-07-09 头领科技(昆山)有限公司 Intelligent control's audio chip and wireless earphone of making an uproar that falls
US11483655B1 (en) 2021-03-31 2022-10-25 Bose Corporation Gain-adaptive active noise reduction (ANR) device
KR20230069707A (en) * 2021-11-12 2023-05-19 삼성전자주식회사 Method and electronic device for controlling operation
CN115348049A (en) * 2022-06-22 2022-11-15 北京理工大学 User identity authentication method using earphone inward microphone
CN117198287A (en) * 2023-08-30 2023-12-08 南京汇智互娱网络科技有限公司 A voice recognition system for human-computer interaction of agent

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262944A1 (en) * 2003-02-25 2006-11-23 Oticon A/S Method for detection of own voice activity in a communication device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
KR20120080409A (en) * 2011-01-07 2012-07-17 삼성전자주식회사 Apparatus and method for estimating noise level by noise section discrimination
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
KR102060949B1 (en) * 2013-08-09 2020-01-02 삼성전자주식회사 Method and apparatus of low power operation of hearing assistance
US9190043B2 (en) * 2013-08-27 2015-11-17 Bose Corporation Assisting conversation in noisy environments
JP6204312B2 (en) * 2014-08-28 2017-09-27 日本電信電話株式会社 Sound collector
WO2016130459A1 (en) * 2015-02-09 2016-08-18 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060262944A1 (en) * 2003-02-25 2006-11-23 Oticon A/S Method for detection of own voice activity in a communication device

Also Published As

Publication number Publication date
KR20190118171A (en) 2019-10-17
JP7123951B2 (en) 2022-08-23
CN110603588A (en) 2019-12-20
JP2020506634A (en) 2020-02-27
DE112018000717T5 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
KR102578147B1 (en) Method for detecting user voice activity in a communication assembly, its communication assembly
US11614916B2 (en) User voice activity detection
CN109196877B (en) On/off-head detection of personal audio devices
CN111149369B (en) On-ear state detection for a headset
US20200066247A1 (en) Method and device for acute sound detection and reproduction
US9486823B2 (en) Off-ear detector for personal listening device with active noise control
US10951972B2 (en) Dynamic on ear headset detection
US11373665B2 (en) Voice isolation system
KR102409536B1 (en) Event detection for playback management on audio devices
EP3987511B1 (en) Real-time detection of conditions in acoustic devices
CN111294719B (en) Method and device for detecting in-ear state of ear-wearing type device and mobile terminal
KR20160010592A (en) Squeal suppression method and device for active noise removal (anr) earphone
US10249323B2 (en) Voice activity detection for communication headset
US11496832B2 (en) Dynamic control of multiple feedforward microphones in active noise reduction devices
JPH10294989A (en) Noise control head set
CN113994423A (en) Audio system and signal processing method for voice activity detection of ear-worn playing device
EP3332558B1 (en) Event detection for playback management in an audio device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant