DE112019006400T5 - Vorrichtung, verfahren und programm zur erkennung bestimmter sounds - Google Patents

Vorrichtung, verfahren und programm zur erkennung bestimmter sounds Download PDF

Info

Publication number
DE112019006400T5
DE112019006400T5 DE112019006400.2T DE112019006400T DE112019006400T5 DE 112019006400 T5 DE112019006400 T5 DE 112019006400T5 DE 112019006400 T DE112019006400 T DE 112019006400T DE 112019006400 T5 DE112019006400 T5 DE 112019006400T5
Authority
DE
Germany
Prior art keywords
microphone
microphones
sound
sounds
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112019006400.2T
Other languages
English (en)
Inventor
Yuki Yamamoto
Yuji TOKOZUME
Toru Chinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of DE112019006400T5 publication Critical patent/DE112019006400T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17833Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by using a self-diagnostic function or a malfunction prevention function, e.g. detecting abnormal output levels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17857Geometric disposition, e.g. placement of microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17875General system configurations using an error signal without a reference signal, e.g. pure feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3026Feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Headphones And Earphones (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Die vorliegende Technologie bezieht sich auf eine Vorrichtung und ein Verfahren zur Erkennung bestimmter Sounds sowie auf ein Programm, die es ermöglichen, die Leistung zur Erkennung bestimmter Sounds zu verbessern. Diese Vorrichtung zur Erkennung bestimmter Sounds ist mit einer Einheit zur Erkennung bestimmter Sounds versehen, die einen bestimmten Sound auf der Basis einer Vielzahl von Audiosignalen erkennt, die von einer Vielzahl von Mikrofonen aufgenommen und erhalten werden, die an einer tragbaren Vorrichtung angeordnet sind. Außerdem umfasst die Vielzahl von Mikrofonen mindestens zwei Mikrofone, die von der Schallquelle des spezifischen Sounds äquidistant sind, und ein Mikrofon, das an einer vorgegebenen Position angeordnet ist. Die vorliegende Technologie ist auf Kopfhörer anwendbar.

Description

  • [Technisches Gebiet]
  • Die vorliegende Technologie bezieht sich auf einen Detektor und ein Verfahren für bestimmte Sounds sowie ein Programm, und insbesondere auf einen Detektor und ein Verfahren für bestimmte Sounds sowie ein Programm, die so konfiguriert sind, dass sie eine Verbesserung der Leistung beim Erkennen bestimmter Sounds ermöglichen.
  • [Stand der Technik]
  • Es gibt herkömmlich bekannte Technologien zur Erkennung bestimmter Sounds, wobei auf der Basis des Audiosignals erkannt wird, ob ein Sound basierend auf einem von einem Mikrofon erfassten Audiosignal einen bestimmten Sound (im Folgenden als bestimmter Sound bezeichnet), wie z. B. die Stimme eines Menschen oder ein Fahrgeräusch eines Fahrzeugs, aufweist.
  • Als eine dieser Technologien wird beispielsweise eine Technologie vorgeschlagen, bei der an einem Kopfhörer angebrachte Mikrofone verwendet werden, um ein Gespräch eines Trägers des Kopfhörers zu erkennen, und der Kopfhörer in einen Gesprächsmodus umschaltet, falls ein Gespräch erkannt wird (siehe beispielsweise PTL 1).
  • [Liste der Quellenangaben]
  • [Patentliteratur]
  • [PTL 1]
    JP 2011-97268A
  • [Zusammenfassung]
  • [Technisches Problem]
  • Unterdessen kann bei einem Versuch, einen bestimmten Sound zu erkennen, in einigen Fällen je nach Anordnung der Mikrofone oder dergleichen keine ausreichende Erkennungsleistung erzielt werden.
  • Die vorliegende Technologie wurde im Hinblick auf diesen Umstand entwickelt und zielt darauf ab, die Leistung beim Erkennen bestimmter Sounds zu verbessern.
  • [Lösung des Problems]
  • Ein Detektor für bestimmte Sounds gemäß einem Aspekt der vorliegenden Technologie weist einen Abschnitt zum Erkennen bestimmter Sounds auf, der einen bestimmten Sound auf der Basis einer Vielzahl von Audiosignalen erkennt, die durch das Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind. Die Vielzahl der Mikrofone weist zwei Mikrofone auf, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  • Ein Verfahren oder Programm zur Erkennung bestimmter Sounds gemäß einem Aspekt der vorliegenden Technologie weist einen Schritt zum Erkennen eines bestimmten Sounds auf der Basis einer Vielzahl von Audiosignalen auf, die durch das Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind. Die Vielzahl der Mikrofone weist zwei Mikrofone auf, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  • In einem Aspekt der vorliegenden Technologie wird ein bestimmter Sound auf der Basis einer Vielzahl von Audiosignalen erkannt, die durch das Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind. Außerdem weist die Vielzahl der Mikrofone zwei Mikrofone auf, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  • Figurenliste
    • [1] 1 ist eine Figur zur Erläuterung der Erkennung bestimmter Sounds unter Verwendung eines Mikrofons.
    • [2] 2 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [3] 3 ist eine Figur zur Erläuterung der Erkennung bestimmter Sounds unter Verwendung der Mikrofone.
    • [4] 4 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [5] 5 ist eine Figur zur Erläuterung der Erkennung bestimmter Klänge unter Verwendung der Mikrofone.
    • [6] 6 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [7] 7 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [8] 8 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [9] 9 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [10] 10 ist eine Figur, die ein Beispiel für die Anordnung der Mikrofone im Kopfhörer zeigt.
    • [11] 11 ist eine Figur, die ein Beispiel für eine funktionale Konfiguration des Kopfhörers zeigt.
    • [12] 12 ist ein Flussdiagramm zur Erläuterung eines Prozesses zur Erkennung bestimmter Sounds.
    • [13] 13 ist eine Figur, die ein Konfigurationsbeispiel für einen Computer zeigt.
  • [Beschreibung von Ausführungsformen]
  • Im Folgenden werden Ausführungsformen, auf die die vorliegende Technologie angewendet wird, unter Bezugnahme auf die Zeichnungen erläutert.
  • <Erste Ausführungsform>
  • <Über falsche Erkennung zum Zeitpunkt der Erkennung eines bestimmten Sounds>
  • Die vorliegende Technologie zielt darauf ab, die Leistung beim Erkennen bestimmter Sounds zu verbessern, indem die bestimmten Sounds auf der Basis jedes von mehreren Audiosignalen, die von mehreren Mikrofonen erfasst werden, erkannt werden.
  • Beachten Sie, dass die bestimmten Sounds, die Erkennungsziele sein sollen, die bestimmte Sounds sind, beliebige Sounds sein können. Außerdem können die Mikrofone, die für die Erkennung bestimmter Sounds verwendet werden, solche sein, die beispielsweise an einer tragbaren Vorrichtung, die von einem Benutzer getragen wird, vorhanden sind.
  • Die tragbare Vorrichtung kann eine beliebige tragbare Vorrichtung sein, solange sie von einem Benutzer getragen werden kann, wie beispielsweise ein Bügelkopfhörer, ein True-Wireless-Kopfhörer, dessen am linken und rechten Ohr zu tragende Teile nicht physisch verbunden sind, oder ein Head-Mounted Display.
  • In einem nachstehend erläuterten Beispiel wird als bestimmter Sound die Stimme eines Kopfhörerträgers, die Stimme eines anderen Menschen als des Kopfhörerträgers, ein Durchsageton, ein Fahrgeräusch eines Fahrzeugs und ein Hupenton, der von einem Fahrzeug oder dergleichen abgegeben wird, von einer Vielzahl von Mikrofonen, die an den Kopfhörern angebracht sind, erkannt.
  • In einem Fall, in dem eine Erkennung bestimmter Sounds durchgeführt werden soll, ist es schwierig, eine ausreichende Erkennungsleistung zu erzielen, wenn nur ein Mikrofon verwendet wird.
  • Wie in 1 dargestellt, wird beispielsweise angenommen, dass es einen Benutzer U11 gibt, der ein Kopfhörerträger ist, der einen Bügelkopfhörer HD11 mit einem angebrachten Mikrofon MK11 trägt, und dass es einen weiteren Benutzer U12 in der Nähe des Benutzers U11 gibt.
  • In einem solchen Fall, wenn die Stimme des Benutzers U11, der ein Kopfhörerträger ist, auf der Basis von Audiosignalen, die durch das Mikrofon MK11, das Sounds sammelt, erhalten werden, als ein bestimmter Sound erkannt werden soll, wird die Stimme des Benutzers U12, der kein Kopfhörerträger ist, in einigen Fällen durch einen Fehler unerwünschterweise als ein bestimmter Sound erkannt. Das heißt, in einigen Fällen kommt es zu einer falschen Erkennung.
  • Beim Erkennen der Stimme des Benutzers U11 als bestimmter Sound unterscheiden sich Verfahren zum Erkennen eines bestimmten Sounds in einem Fall, in dem
    der Benutzer U11 ein beliebiger Mensch sein kann, von Verfahren zum Erkennen eines bestimmten Sounds in einem Fall, in dem der Benutzer U11 ein vorbestimmter bestimmter Mensch ist, aber in beiden Fällen kommt es unerwünscht zu einer falschen Erkennung.
  • Hier wird der Fall, in dem der Benutzer U11 ein beliebiger Mensch sein kann, und der Fall, in dem der Benutzer U11 ein vorbestimmter bestimmter Mensch ist, weiter erläutert.
  • Zunächst gibt es ein Verfahren für den Fall, in dem der Benutzer U11 ein beliebiger Mensch sein kann, wobei ein Detektor, der ein Neuronalnetzwerk aufweist, das die Stimme eines beliebigen Menschen oder dergleichen erkennt, durch maschinelles Lernen erzeugt wird, und der erhaltene Detektor verwendet wird, um die Stimme des Benutzers U11, der ein Kopfhörerträger ist, als einen bestimmten Sound zu erkennen.
  • In einem Fall, in dem ein solches Verfahren übernommen wird, kommt es in dem in 1 dargestellten Beispiel zu einer falschen Erkennung.
  • Das heißt, in dem in 1 dargestellten Beispiel sind der Abstand vom Mund des Benutzers U11, der ein beliebiger Kopfhörerträger sein kann, zum Mikrofon MK11 und der Abstand vom Mund des Benutzers U12, der kein Kopfhörerträger ist, zum Mikrofon MK11 etwa gleich groß (äquidistant).
  • Dementsprechend sind die Schalldrücke der Audiosignale der Stimme des Benutzers U11 und der Stimme des Benutzers U12, die mit dem Mikrofon MK11 erfasst werden, annähernd gleich und sind die gleichen „menschlichen Stimmen“.
  • Dementsprechend ist es in diesem Beispiel schwierig, die Stimme des Benutzers U11, der ein beliebiger Kopfhörerträger sein kann, und die Stimme des Benutzers U12, der kein Kopfhörerträger ist, durch einen Detektor zu identifizieren. Dadurch kommt es zu einem unerwünschten Erkennen, wobei die Stimme eines anderen Benutzers (Mensch) als des Benutzers U11, der Kopfhörerträger ist, hier also die Stimme des Benutzers U12, als bestimmter Sound erkannt wird.
  • Außerdem gibt es ein Verfahren, bei dem ein Detektor, der die Stimme eines vorbestimmten bestimmten Menschen, d. h. hier die Stimme des bestimmten Benutzers U11, der ein Kopfhörerträger ist, erkennt, durch maschinelles Lernen erzeugt wird, und der Detektor verwendet wird, um die Stimme des Benutzers U11, der der Kopfhörerträger ist, als bestimmten Sound zu erkennen.
  • Es wird angenommen, dass ein solches Verfahren übernommen wird, um die Stimme des vorbestimmten bestimmten Benutzers U11 als einen bestimmten Sound in dem in 1 dargestellten Beispiel zu erkennen.
  • In dem in 1 dargestellten Beispiel sind der Abstand vom Mund des Benutzers U11, der ein bestimmter Kopfhörerträger ist, zum Mikrofon MK11 und der Abstand vom Mund des Benutzers U12, der kein Kopfhörerträger ist, zum Mikrofon MK11 etwa gleich groß.
  • Dementsprechend, ähnlich wie in dem Fall, in dem der Benutzer U11 ein beliebiger Mensch sein kann, sind die Schalldrücke der Audiosignale der Stimme des Benutzers U11 und der Stimme des Benutzers U12, die durch das Mikrofon MK11 erfasst werden, ungefähr gleich, aber da die Stimme des Benutzers U11 und die Stimme des Benutzers U12 unterschiedlich sind, wird es weniger wahrscheinlich, dass eine falsche Erkennung bestimmter Sounds auftritt, als in dem oben erwähnten Fall, dass der Benutzer U11 ein beliebiger Mensch sein kann.
  • Aber selbst in einem solchen Fall, falls die Stimme des Benutzers U11 wie die Stimme des Benutzers U12 klingt, kommt es in einigen Fällen zu unerwünschten Fehlerkennungen, bei denen die Stimme des Benutzers U12, der ein anderer Benutzer als der Benutzer U11 ist, als ein bestimmter Sound erkannt wird.
  • In dieser Hinsicht ermöglicht es die vorliegende Technologie, das Auftreten von Fehlerkennungen zu unterdrücken, indem ein bestimmter Sound auf der Basis jedes der von einer Vielzahl von Mikrofonen erfassten Audiosignale erkannt wird.
  • Insbesondere ermöglicht es die vorliegende Technologie, die Erkennungsleistung bestimmter Sounds nicht nur durch die Verwendung einer Vielzahl von Mikrofonen, sondern auch durch eine geniale Anordnung der Mikrofone, insbesondere durch Auslegung der Abstände von der Schallquelle eines bestimmten Sounds zu den Mikrofonen auf geniale Weise zu verbessern.
  • Dies liegt daran, dass in einem Fall, in dem die Erkennung bestimmter Sounds unter Verwendung einer Vielzahl von Mikrofonen durchgeführt wird, das Ausmaß der Fehlerkorrektur von der Anzahl der Mikrofone abhängt, die für die Erkennung bestimmter Sounds verwendet werden, sowie von der Anordnung der Mikrofone. Insbesondere werden nachstehend mehrere Beispiele erläutert.
  • <Beispiel, bei dem zwei Mikrofone an L und R angeordnet sind>
  • In dem zunächst erläuterten Beispiel werden zwei Mikrofone zur Erkennung bestimmter Sounds verwendet, und die beiden Mikrofone sind an einer L-Position und einer R-Position angeordnet, d. h. an Positionen links und rechts von einem Kopfhörerträger aus gesehen, um dadurch die Wahrscheinlichkeit einer falschen Erkennung zu verringern.
  • In diesem Fall ist, wie in 2 dargestellt, beispielsweise ein Bügelkopfhörer HD21 mit einem Mikrofon MK21-1 und einem Mikrofon MK21-2 ausgestattet. Beachten Sie, dass Abschnitte in 2, die in 1 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • In diesem Beispiel hat der Benutzer U11, der ein Kopfhörerträger ist, den Kopfhörer HD21 auf, und der Benutzer U12, der kein Kopfhörerträger ist, befindet sich in der Nähe des Benutzers U11.
  • Außerdem ist das Mikrofon MK21-1 an einem linken Gehäuseteil HW21-1 des Kopfhörers HD21 vorgesehen, der am linken Ohr des Benutzers U11 getragen wird. Ferner ist das Mikrofon MK21-2 an einem rechten Gehäuseteil HW21-2 des Kopfhörers HD21 vorgesehen, der am rechten Ohr des Benutzers U11 getragen wird.
  • Anders ausgedrückt, das Mikrofon MK21-1 ist, vom Benutzer U11 aus gesehen, auf der linken Seite angeordnet, und das Mikrofon MK21-2 ist, vom Benutzer U11 aus gesehen, auf der rechten Seite angeordnet.
  • Beachten Sie, dass in einem nachstehenden Fall, in dem es nicht unbedingt notwendig ist, zwischen dem Mikrofon MK21-1 und dem Mikrofon MK21-2 zu unterscheiden, diese auch einfach als Mikrofone MK21 bezeichnet werden. Außerdem werden in einem nachstehenden Fall, in dem es nicht unbedingt notwendig ist, zwischen dem Gehäuseteil HW21-1 und dem Gehäuseteil HW21-2 zu unterscheiden, diese auch einfach als Gehäuseteile HW21 bezeichnet.
  • Dabei sind die Mikrofone MK21 außerhalb des äußeren Umfangs der Gehäuseteile HW21 des Kopfhörers HD21 vorgesehen. Das heißt, die Mikrofone MK21 haben Sensorabschnitte, die zum Sammeln von Sounds dienen und nicht durch Gehäuse abgedeckt sind, und die Mikrofone MK21 sind dazu vorgesehen, nach außen hin sichtbar zu sein.
  • Außerdem handelt es sich bei den Mikrofonen MK21 um Feed-Forward-Mikrofone, mit denen beispielsweise eine Geräuschunterdrückungsfunktion oder dergleichen realisiert werden kann.
  • Bei den Feed-Forward-Mikrofonen handelt es sich um Mikrofone für Feed-Forward-Steuerung bei der Geräuschunterdrückung, und die Feed-Forward-Mikrofone werden nicht nur zur Geräuschunterdrückung, sondern auch zum Erkennen bestimmter Sounds verwendet.
  • Ferner sind die beiden Mikrofone MK21 so angeordnet, dass ihre Abstände zum Mund des Benutzers U11 als Position der Schallquelle eines bestimmten Sounds in einem Zustand, bei dem der Benutzer U11 den Kopfhörer HD21 aufgesetzt hat, etwa gleich groß sind.
  • In dem in 2 dargestellten Beispiel sind der Abstand vom Mund des Benutzers U11, der ein Kopfhörerträger ist, zum Mikrofon MK21-2 und der Abstand vom Mund des Benutzers U12, der kein Kopfhörerträger ist, zum Mikrofon MK21-2 etwa gleich große Abstände. Der Abstand vom Mund des Benutzers U11 zum Mikrofon MK21-1 und der Abstand vom Mund des Benutzers U12 zum Mikrofon MK21-1 sind jedoch unterschiedliche Abstände.
  • Anders ausgedrückt, während das Mikrofon MK21-1 und das Mikrofon MK21-2 an Positionen angeordnet sind, die in etwa gleich weit vom Mund des Benutzers U11 entfernt sind, der die Schallquelle eines bestimmten Sounds ist, sind die Positionen der Mikrofone MK21 keine Positionen, die gleich weit vom Mund des Benutzers U12 entfernt sind.
  • Dementsprechend sind in einem Fall, in dem die Stimme des Benutzers U11, der ein Kopfhörerträger ist, von dem Mikrofon MK21-1 und dem Mikrofon MK21-2 erfasst (gesammelt) wird, die Schalldrücke der von den Mikrofonen MK21 erhaltenen Audiosignale annähernd gleich.
  • Dagegen sind in einem Fall, in dem die Stimme des Benutzers U12, der kein Kopfhörerträger ist, von dem Mikrofon MK21-1 und dem Mikrofon MK21-2 erfasst (gesammelt) wird, die Schalldrücke der von den Mikrofonen MK21 erhaltenen Audiosignale unterschiedliche Schalldrücke.
  • Auf diese Weise kann in einem Fall, in dem die beiden Mikrofone MK21 an der linken und rechten L-Position und R-Position angeordnet sind, das Auftreten der oben erwähnten falschen Erkennung unterdrückt werden, indem das maschinelle Lernen eines Detektors unter Verwendung von Audiosignalen durchgeführt wird, die von diesen beiden Mikrofonen MK21 erfasst wurden.
  • Das heißt, durch Verwendung des durch maschinelles Lernen erhaltenen Detektors ist es möglich, die Erkennung bestimmter Sounds durchzuführen, indem die Differenz zwischen den Schalldrücken von Audiosignalen verwendet wird, die von den Mikrofonen MK21 erfasst werden, die an Positionen angeordnet sind, die voneinander unterschiedliche Positionen sind und sich in ungefähr gleichen Abständen von der Schallquelle eines bestimmten Sounds befinden. Dadurch kann die Erkennungsleistung verbessert werden.
  • Wie in 3 dargestellt, kann es jedoch beispielsweise in einem Fall, in dem sich der Benutzer U12, der kein Kopfhörerträger ist, auf der Mittellinie des Benutzers U11, der ein Kopfhörerträger ist, befindet, zu einer falschen Erkennung kommen. Beachten Sie, dass Abschnitte in 3, die in 2 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • Da sich der Benutzer U12 in dem in 3 dargestellten Beispiel auf der Mittellinie des Benutzers U11 befindet, sind in diesem Zustand der Abstand vom Mund des Benutzers U12 zum Mikrofon MK21-1 und der Abstand vom Mund des Benutzers U12 zum Mikrofon MK21-2 ungefähr gleich.
  • Beispielsweise kann ein solcher Fall in einem Fall auftreten, in dem sich der Benutzer U12 hinter dem Benutzer U11 in einem Zug, in der Nähe eines Bahnübergangs usw. befindet, oder in anderen Fällen. Außerdem werden in einem Zug usw. in einigen Fällen menschliche Stimmen, wie z. B. Durchsagetöne, oberhalb des Benutzers U11 wiedergegeben, und in diesem Fall kann auch ein Fall auftreten, in dem die Schallquelle eines Durchsagetons oder dergleichen auf der Mittellinie des Benutzers U11 positioniert ist.
  • In einem solchen Fall, wenn die Stimme des Benutzers U12 durch das Mikrofon MK21-1 und das Mikrofon MK21-2 erfasst wird, werden die Schalldrücke der durch die Mikrofone MK21 erhaltenen Audiosignale annähernd gleich, so dass zu befürchten ist, dass die oben erwähnte falsche Erkennung unerwünscht auftritt.
  • <Über das Beispiel, bei dem drei Mikrofone an L, R und BTM angeordnet sind>
  • In dieser Hinsicht kann beispielsweise, wie in 4 dargestellt, der Bügelkopfhörer HD31 mit drei Mikrofonen, den Mikrofonen MK21-1 und MK21-2 sowie einem Mikrofon MK31 versehen sein. Beachten Sie, dass Abschnitte in 4, die in 2 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • Bei dem in 4 dargestellten Beispiel ist das Mikrofon MK21-1 am linken Gehäuseteil HW21-1 des Kopfhörers HD31 und das Mikrofon MK21-2 am rechten Gehäuseteil HW21-2 des Kopfhörers HD31 vorgesehen.
  • Insbesondere sind in diesem Beispiel das Mikrofon MK21-1 und das Mikrofon MK21-2 auf der gleichen Position in der Höhe angeordnet, vom Benutzer U11 aus gesehen, in einem Zustand, bei dem der Benutzer U11 den Kopfhörer HD31 auf dem Kopf hat.
  • Außerdem ist das Mikrofon MK31 in der Figur des linken Gehäuseteils HW21-1 an einer niedrigeren Position als das Mikrofon MK21-1 angeordnet, also an einer BTM-Position (unteren Position).
  • Beispielsweise wird das Mikrofon MK31 als Mikrofon für Anrufe verwendet, das außerhalb des Außenumfangs des Gehäuseteils HW21-1 vorgesehen ist, und zwar für Anrufe durch Verwenden eines Telefons oder dergleichen, oder dergleichen.
  • Außerdem ist das Mikrofon MK31 in einem Zustand, bei dem der Benutzer U11 den Kopfhörer HD31 auf dem Kopf hat, an einer Position angeordnet, die näher am Mund des Benutzers U11 ist als die Mikrofone MK21. Das heißt, das Mikrofon MK31 ist an einer Position angeordnet, die einen geringeren Abstand zum Mund des Benutzers U11 hat als die Abstände der Mikrofone MK21 zum Mund des Benutzers U11.
  • Dementsprechend sind in einem Fall, in dem die Stimme des Benutzers U11, der ein Kopfhörerträger ist, von den beiden Mikrofonen MK21 und dem Mikrofon MK31 erfasst wird, die Schalldrücke der von den beiden Mikrofonen MK21 erhaltenen Audiosignale annähernd gleich.
  • In diesem Fall ist jedoch der Schalldruck eines Audiosignals, das vom Mikrofon MK31 erhalten wird, höher als die Schalldrücke der Audiosignale, die von den beiden Mikrofonen MK21 erhalten werden.
  • Das heißt, während die Stimme des Benutzers U11, der Kopfhörerträger ist, mit annähernd gleichen Schalldrücken in die beiden Mikrofone MK21 eingespeist wird, wird der Schalldruck der Stimme des Benutzers U11 mit einem Schalldruck, der höher als der für die Mikrofone MK21 ist, in das Mikrofon MK31 eingespeist.
  • Das liegt daran, dass, wie oben erwähnt, das Mikrofon MK31 in einem Zustand, in dem der Benutzer U11 den Kopfhörer HD31 auf dem Kopf hat, an einer Position näher am Mund des Benutzers U11 angeordnet ist als die Mikrofone MK21.
  • Dementsprechend wird, wie in dem in 3 dargestellten Beispiel, selbst in einem Fall, in dem sich der Benutzer U12, der kein Kopfhörerträger ist, auf der Mittellinie des Benutzers U11, der ein Kopfhörerträger ist, befindet, die Wahrscheinlichkeit der oben erwähnten falschen Erkennung im Kopfhörer HD31 geringer. Das heißt, der mit den drei Mikrofonen versehene Kopfhörer HD31 kann eine höhere Erkennungsleistung erreichen als der mit den zwei Mikrofonen versehene Kopfhörer HD21.
  • Unterdessen kann, wie in 5 dargestellt, beispielsweise eine falsche Erkennung in einem Fall auftreten, in dem sich der Benutzer U12, der kein Kopfhörerträger ist, unterhalb des Benutzers U11 und auf der Mittellinie des Benutzers U11, der ein Kopfhörerträger ist, befindet. Beachten Sie, dass Abschnitte in 5, die in 3 oder 4 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • In dem in 5 dargestellten Beispiel ist der Benutzer U12 auf der Mittellinie des Benutzers U11 positioniert und niedriger als der Benutzer U11. Eine solche Positionsbeziehung zwischen dem Benutzer U12 und dem Benutzer U11 kann in einem Fall auftreten, in dem der Benutzer U11 vor dem Benutzer U12 steht, der auf einem Sitz in einem Zug oder dergleichen sitzt, oder in anderen Fällen.
  • In diesem Beispiel befindet sich das Mikrofon MK31 an einer Position, die näher am Mund des Benutzers U12 liegt als die Mikrofone MK21, und die beiden Mikrofone MK21 sind an Positionen angeordnet, die etwa gleich weit vom Mund des Benutzers U12 entfernt sind.
  • Dementsprechend sind in einem solchen Fall, in dem die Stimme des Benutzers U12 von den Mikrofonen MK21 und dem Mikrofon MK31 erfasst wird, die Schalldrücke der Audiosignale, die von den beiden Mikrofonen MK21 erhalten werden, annähernd gleich.
  • Außerdem ist der Schalldruck eines Audiosignals, das vom Mikrofon MK31 erhalten wird, höher als die Schalldrücke der Audiosignale, die von den Mikrofonen MK21 erhalten werden. Infolgedessen ist ähnlich wie bei dem in 3 dargestellten Beispiel zu befürchten, dass es zu unerwünschten Fehlerkennungen kommt.
  • <Über das Beispiel, bei dem vier Mikrofone an L, R, BTM und TOP angeordnet sind>
  • Angesichts dessen kann, wie in den 6 dargestellt, beispielsweise der Bügelkopfhörer HD41 mit vier Mikrofonen, den Mikrofonen MK21-1, dem Mikrofon MK21-2, dem Mikrofon MK31 und einem Mikrofon MK41, versehen werden.
  • Beachten Sie, dass Abschnitte in 6, die in 4 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • Bei dem in 6 dargestellten Beispiel sind das Mikrofon MK21-1 und das Mikrofon MK31 am linken Gehäuseteil HW21-1 des Kopfhörers HD41 vorgesehen, und das Mikrofon MK21-2 ist am rechten Gehäuseteil HW21-2 des Kopfhörers HD41 vorgesehen. Die Anordnung dieser Mikrofone MK21 und des Mikrofons MK31 ist ähnlich wie in dem Fall von 4.
  • Außerdem ist im Kopfhörer HD41 das Mikrofon MK41 so angeordnet, dass es in einem Zustand, in dem der Benutzer U11 den Kopfhörer HD41 aufgesetzt hat, vom Benutzer U11 aus gesehen höher positioniert ist als das Mikrofon MK21 und das Mikrofon MK31.
  • Insbesondere ist in diesem Beispiel das Mikrofon MK41 so angeordnet, dass es sich in einem Zustand, in dem der Benutzer U11 den Kopfhörer HD41 aufgesetzt hat, in der Nähe der Oberseite des Kopfes des Benutzers U11 befindet, also in einer TOP-Position (oberen Position).
  • Insbesondere ist beim Kopfhörer HD41 das Mikrofon MK41 an einer Position vorgesehen, die sich auf einem die beiden Gehäuseteile HW21 koppelnden (verbindenden) Bandabschnitt BD41 befindet und etwa gleich weit von den beiden Mikrofonen MK21 entfernt ist. Dieses Mikrofon MK41 wird zum Beispiel als Mikrofon zur Erkennung bestimmter Sounds verwendet, die außerhalb des Bandabschnitts BD41 vorgesehen sind.
  • Außerdem wird in einem Zustand, in dem der Benutzer U11, der ein Kopfhörerträger ist, den Kopfhörer HD41 auf dem Kopf hat, der Abstand vom Mund des Benutzers U11 zum Mikrofon MK21 annähernd gleich groß wie der Abstand vom Mund des Benutzers U11 zum Mikrofon MK41 gemacht. Anders ausgedrückt, jedes der beiden Mikrofone MK21 und das Mikrofon MK41 sind an Positionen angeordnet, die etwa gleich weit vom Mund des Benutzers U11 entfernt sind, der die Schallquelle eines bestimmten Sounds ist.
  • Bei einer solchen Mikrofonanordnung werden in einem Fall, in dem die Stimme des Benutzers U11, der ein Kopfhörerträger ist, von jedem Mikrofon erfasst wird, die Schalldrücke der Audiosignale, die von den insgesamt drei Mikrofonen, den beiden Mikrofonen MK21 und dem Mikrofon MK41, erhalten werden, annähernd gleich.
  • Außerdem ist der Schalldruck eines Audiosignals, das vom Mikrofon MK31 erhalten wird, höher als die Schalldrücke der Audiosignale, die von den Mikrofonen MK21 und dem Mikrofon MK41 erhalten werden.
  • Andererseits, wenn man versucht, über die Stimme des Benutzers U12, der kein Kopfhörerträger ist, eine ähnliche Beziehung zu erhalten wie im Fall der Stimme des Benutzers U11 als relative Beziehung zwischen den Schalldrücken der von den Mikrofonen erhaltenen Audiosignale, muss der Benutzer U12 einen Ton in einem Zustand äußern, bei dem die Position des Mundes des Benutzers U12 extrem nahe an der Position des Mundes des Benutzers U11 liegt.
  • Die Wahrscheinlichkeit (Wahrscheinlichkeit des Auftretens), dass der Benutzer U12, der kein Kopfhörerträger ist, in einem solchen Zustand im normalen realen Leben einen Ton äußert, ist jedoch gering, so dass eine falsche Erkennung im Kopfhörer HD41 selten auftritt. Das heißt, der mit den vier Mikrofonen versehene Kopfhörer HD41 kann eine noch höhere Erkennungsleistung erreichen als der mit den drei Mikrofonen versehene Kopfhörer HD31.
  • <Über das Beispiel, bei dem vier Mikrofone an L, R, FBL und FBR angeordnet sind>
  • Unterdessen gibt es einige Kopfhörer, bei denen Feedback-Mikrofone zur Geräuschunterdrückung in den Gehäusen der Kopfhörer angeordnet sind.
  • Angesichts dessen kann beispielsweise, wie in 7 dargestellt, der Bügelkopfhörer HD51 mit den beiden Mikrofonen MK21 sowie einem Mikrofon MK51-1 und einem Mikrofon MK51-2 versehen werden, die Feedback-Mikrofone für Geräuschunterdrückung sind. Beachten Sie, dass Abschnitte in 7, die in 4 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • Bei dem in 7 dargestellten Beispiel ist das Mikrofon MK21-1 am linken Gehäuseteil HW21-1 des Kopfhörers HD51 und das Mikrofon MK21-2 am rechten Gehäuseteil HW21-2 des Kopfhörers HD51 vorgesehen. Diese Anordnung der Mikrofone MK21 ist ähnlich wie in dem Fall in 4.
  • Ferner ist beim Kopfhörer HD51 das Mikrofon MK51-1, das ein Feedback-Mikrofon ist, an einer Position innerhalb des linken Gehäuseteils HW21-1 angeordnet, d. h. an einer Position (FBL-Position) innerhalb eines Gehäuses, das den Gehäuseteil HW21-1 bildet. Anders ausgedrückt, das Mikrofon MK51-1 wird durch das Gehäuse abgedeckt, das den Gehäuseteil HW21-1 bildet.
  • Genauer gesagt, ist beispielsweise das Mikrofon MK51-1 an einer Position zwischen einer nicht dargestellten, aber innerhalb des Gehäuseteils HW21-1 vorgesehenen Membran eines Lautsprechers und einem die Membran schützenden Schutzgitter angeordnet, indem es die Membran abdeckt, oder an einer anderen Position. Hier fungiert das Schutzelement auch als Gehäuse.
  • Bei den Feedback-Mikrofonen handelt es sich um Mikrofone zur Feedback-Steuerung bei der Geräuschunterdrückung, wobei die Feedback-Mikrofone in diesem Beispiel nicht nur zur Geräuschunterdrückung, sondern auch zur Erkennung bestimmter Sounds verwendet werden.
  • Ähnlich ist das Mikrofon MK51-2, das ein Feedback-Mikrofon ist, an einer Position (FBR-Position) innerhalb eines Gehäuses angeordnet, das den rechten Gehäuseteil HW21-2 bildet.
  • Beachten Sie, dass in einem nachstehenden Fall, in dem es nicht unbedingt notwendig ist, zwischen dem Mikrofon MK51-1 und dem Mikrofon MK51-2 zu unterscheiden, diese auch einfach als Mikrofone MK51 bezeichnet werden.
  • Da die Mikrofone MK51 von den Gehäusen der Kopfhörer HD51 verdeckt werden, empfangen (sammeln) die Mikrofone MK51 nur selten externe Sounds, einschließlich menschlicher Stimmen außer der Stimme des Benutzers U11, der ein Kopfhörerträger ist. Das heißt, die Mikrofone MK51 sammeln nur selten Sounds, die sich in der Luft von der Außenseite der Gehäuseteile HW21 ausbreiten.
  • Falls andererseits der Benutzer U11, der ein Kopfhörerträger ist, einen Ton äußert, empfangen (sammeln) die Mikrofone MK51 Eingaben eines individuellen Vibrationssounds des Benutzers U11, das aus der Äußerung des Benutzers U11, der ein Kopfhörerträger ist, resultiert. Das heißt, die Mikrofone MK51 erfassen einen Vibrationsschall, der durch die Äußerung des Benutzers U11 erzeugt wird.
  • Dementsprechend wird es möglich, auf der Basis der Audiosignale, die von den Mikrofonen MK21 und MK51 erhalten werden, zwischen der Stimme des Benutzers U11, insbesondere dem durch die Benutzeräußerung U11 erzeugten Vibrationssound, und anderen menschlichen Stimmen, wie z. B. der Stimme des Benutzers U12, zu unterscheiden.
  • Dadurch tritt zum Beispiel, auch in einem Fall, in dem der Benutzer U12 einen Ton in einem Zustand äußert, in dem sich die Position des Mundes des Benutzers U12 an einer Position befindet, die extrem nahe am Mund des Benutzers U11 liegt, und in anderen Fällen, eine falsche Erkennung von bestimmten Sounds selten auf, und es kann eine hohe Erkennungsleistung erreicht werden.
  • Beachten Sie, dass, während Feedback-Mikrofone in dem hier erläuterten Beispiel hauptsächlich als Mikrofone zur Erfassung eines individuellen Vibrationssounds des Benutzers U11 verwendet werden, ein individueller Vibrationssound des Benutzers U11 auch durch Verwendung anderer Mikrofone, wie z. B. Knochenleitungsmikrofone, erfasst werden kann. Das heißt, dass beispielsweise Knochenleitungsmikrofone oder dergleichen als die Mikrofone MK51 verwendet werden können.
  • <Beispiel, bei dem zwei Mikrofone an L und FBL oder R und FBR angeordnet sind>
  • Falls außerdem insgesamt vier Mikrofone, die beiden Mikrofone MK21 und die beiden Mikrofone MK51, wie unter Bezugnahme auf 7 erläutert, verwendet werden, ist es möglich, die Wahrscheinlichkeit des Auftretens falscher Erkennungen bestimmter Sounds zu verringern und eine hohe Leistung beim Erkennen bestimmter Sounds zu erreichen.
  • Mit zunehmender Anzahl der an den Kopfhörern vorgesehenen Mikrofone nehmen jedoch der Stromverbrauch und der für die Erkennung bestimmter Sounds benötigte Speicherplatz in unerwünschtem Maße zu, da die Anzahl der Mikrofone zunimmt.
  • Angesichts dessen können der Stromverbrauch und die Speichergröße niedrig gehalten und das Auftreten von Fehlerkennungen unterdrückt werden, indem beispielsweise die Erkennung bestimmter Sounds unter Verwendung von insgesamt zwei Mikrofonen, einem Feed-Forward-Mikrofon und einem Feedback-Mikrofon, durchgeführt wird.
  • Insbesondere das Mikrofon MK21-1, das als Feed-Forward-Mikrofon für den linken Gehäuseteil HW21-1 vorgesehen ist, und das Mikrofon MK51-1, das als Feedback-Mikrofon für den linken Gehäuseteil HW21-1 vorgesehen ist, können zur Erkennung bestimmter Sounds verwendet werden.
  • In diesem Fall ist es nicht unbedingt erforderlich, andere Mikrofone wie das Mikrofon MK21-2 oder das Mikrofon MK51-2 am Kopfhörer vorzusehen.
  • Umgekehrt können das Mikrofon MK21-2, das als Feed-Forward-Mikrofon für den rechten Gehäuseteil HW21-2 vorgesehen ist, und das Mikrofon MK51-2, das als Feedback-Mikrofon für den rechten Gehäuseteil HW21-2 vorgesehen ist, zur Erkennung bestimmter Sounds verwendet werden. Auch in diesem Fall ist es nicht notwendig, andere Mikrofone am Kopfhörer vorzusehen.
  • Falls auf diese Weise ein Feed-Forward-Mikrofon und ein Feedback-Mikrofon für die Erkennung bestimmter Sounds verwendet werden, kann das Gleichgewicht zwischen der Leistung beim Erkennen bestimmter Sounds und der Unterdrückung des Zunehmens des Stromverbrauchs und des Speicherbedarfs (Kosteneffizienz) verbessert werden. Das heißt, es ist möglich, den Stromverbrauch und die Speichergröße in etwa so zu gestalten, wie in dem mit Bezug auf 2 erläuterten Beispiel, und eine ausreichend hohe Erkennungsleistung zu erreichen.
  • <Beispiel für die Anwendung auf True-Wireless-Kopfhörer>
  • Abgesehen davon, wie in 8 dargestellt, ist es beispielsweise auch in einem Fall, in dem als tragbare Vorrichtung True-Wireless-Kopfhörer HD61 zur Erkennung bestimmter Sounds verwendet werden, möglich, eine ausreichend hohe Erkennungsleistung zu erreichen, während der Stromverbrauch und die Speichermenge niedrig gehalten werden. Beachten Sie, dass Abschnitte in 8, die in 7 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • In dem in 8 dargestellten Beispiel weist der True-Wireless-Kopfhörer HD61 ein linkes Headset HS61-1 auf, das am linken Ohr eines Benutzers, also des oben genannten Benutzers U11, getragen wird, und ein rechtes Headset HS61-2, das am rechten Ohr des Benutzers getragen wird.
  • Beachten Sie, dass in einem nachstehenden Fall, in dem es nicht unbedingt notwendig ist, zwischen dem Headset HS61-1 und dem Headset HS61-2 zu unterscheiden, diese auch einfach als Headsets HS61 bezeichnet werden.
  • Hier ist das linke Headset HS61-1 mit dem Mikrofon MK21-1, das ein Feed-Forward-Mikrofon zur Geräuschunterdrückung ist, und dem Mikrofon MK51-1, das ein Feedback-Mikrofon zur Geräuschunterdrückung ist, versehen.
  • In ähnlicher Weise ist das rechte Headset HS61-2 mit dem Mikrofon MK21-2, einem Feed-Forward-Mikrofon zur Geräuschunterdrückung, und dem Mikrofon MK51-2, einem Feedback-Mikrofon zur Geräuschunterdrückung, versehen.
  • Die Anordnungspositionen dieser Mikrofone MK21 und MK51 sind in etwa vergleichbar mit denen in dem Fall von 7. Das heißt, die Mikrofone MK21 sind außerhalb des Headsets HS61 vorgesehen, die Mikrofone MK51 sind innerhalb des Headsets HS61 vorgesehen.
  • In dem zu betrachtenden Beispiel werden beispielsweise ein Mikrofon MK21 und ein Mikrofon MK51 zur Erkennung bestimmter Sounds verwendet.
  • In einem solchen Fall können beispielsweise das Mikrofon MK21-1 und das Mikrofon MK51-1, die an demselben linken Headset HS61-1 vorgesehen sind, zur Erkennung bestimmter Sounds verwendet werden. Beachten Sie, dass das Mikrofon MK21-2 und das Mikrofon MK51-2 dabei nicht für das rechte Headset HS61-2 vorgesehen sein dürfen.
  • In ähnlicher Weise können das Mikrofon MK21-2 und das Mikrofon MK51-2, die am rechten Headset HS61-2 vorgesehen sind, beispielsweise zur Erkennung bestimmter Sounds verwendet werden.
  • Durch eine derartige Anordnung von zwei Mikrofonen zur Erkennung bestimmter Sounds an einem Headset HS61 ist es möglich, das Auftreten falscher Erkennungen von bestimmten Sounds zu unterdrücken und eine hohe Erkennungsleistung selbst bei Kopfhörern, wie z. B. den True-Wireless-Kopfhörern HD61, die ein linkes und ein rechtes Mikrofon aufweisen, d. h. bei unabhängigen linken und rechten Headsets, zu erreichen.
  • Insbesondere sind beim True-Wireless-Kopfhörer HD61 das linke und das rechte Mikrofon, beispielsweise das Mikrofon MK21-1 und das Mikrofon MK21-2, unabhängig voneinander. Anders ausgedrückt, das linke Headset HS61-1 und das rechte Headset HS61-2 sind drahtlos verbunden, aber nicht mit einem Kabel.
  • Dementsprechend muss beispielsweise in einem Fall, in dem das Mikrofon MK21-1 und das Mikrofon MK21-2 für die Erkennung bestimmter Sounds verwendet werden, ein Audiosignal, das von einem Mikrofon MK21 erhalten wurde, durch drahtlose Kommunikation an ein Headset HS61 übertragen werden, das mit dem anderen Mikrofon MK21 ausgestattet ist, und die Übertragung durch drahtlose Kommunikation erfordert einen hohen Stromverbrauch.
  • Falls dagegen an einem Headset HS61 des Kopfhörers HD61 ein Mikrofon MK21 und ein Mikrofon MK51 angeordnet sind und diese Mikrofone zur Erkennung bestimmter Sounds verwendet werden, erübrigt sich die oben erwähnte drahtlose Übertragung, so dass eine hohe Erkennungsleistung erreicht werden kann, während der Stromverbrauch niedrig gehalten wird.
  • Beachten Sie, dass, während oben hauptsächlich die fünf Beispiele für die Anzahl und Anordnung von Mikrofonen unter Bezugnahme auf 2, 4, 6, 7 und 8 erläutert werden, die vorliegende Technologie nicht auf diese Beispiele beschränkt ist.
  • Das heißt, solange Merkmale wie der Schalldruck von Audiosignalen, die von einer Vielzahl von Mikrofonen erhalten werden, zwischen der Stimme eines Kopfhörerträgers und den Stimmen anderer Menschen als dem Kopfhörerträger unterschieden werden können, kann die Anzahl der Mikrofone, die für die Erkennung bestimmter Sounds verwendet werden, beliebig sein, und die Anordnung der Mikrofone kann ebenfalls beliebig sein.
  • Dementsprechend können beispielsweise Mikrofonanordnungen übernommen werden, wie sie in 9 und 10 dargestellt sind.
  • Beispielsweise ist in dem in 9 dargestellten Beispiel der Bügelkopfhörer HD71 mit acht Mikrofonen ausgestattet, und zwei oder mehr der acht Mikrofone können für die Erkennung bestimmter Sounds verwendet werden. Beachten Sie, dass Abschnitte in 9, die in 6 oder 7 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • In diesem Beispiel ist der Kopfhörer HD71 mit den beiden Mikrofonen MK21, dem Mikrofon MK31 und dem Mikrofon MK41 in der gleichen Anordnung wie in dem Fall in 6 und mit den beiden Mikrofonen MK51 in der gleichen Anordnung wie in dem Fall in 7 versehen.
  • Ferner sind in diesem Beispiel ein Mikrofon MK71-1 und ein Mikrofon MK71-2 für Anrufe in Höhenpositionen zwischen dem Mikrofon MK21-1 und dem Mikrofon MK31 im linken Gehäuseteil HW21-1 vorgesehen.
  • Insbesondere ist das Mikrofon MK71-1 an der FRT-Position außerhalb des Außenumfangs des Gehäuseteils HW21-1 vorgesehen, also an einer Position auf der Seite des Gesichts (Mundes) des Benutzers U11, der Kopfhörerträger ist.
  • Dagegen ist das Mikrofon MK71-2 an der REA-Position außerhalb des Außenumfangs des Gehäuseteils HW21-1 vorgesehen, also an einer Position auf der Rückseite des Kopfes des Benutzers U11, der Kopfhörerträger ist.
  • Beachten Sie, dass in einem nachstehenden Fall, in dem es nicht unbedingt notwendig ist, zwischen dem Mikrofon MK71-1 und dem Mikrofon MK71-2 zu unterscheiden, diese auch einfach als Mikrofone MK71 bezeichnet werden.
  • Außerdem ist in dem in 10 dargestellten Beispiel der True-Wireless-Kopfhörer HD81 mit sechs Mikrofonen ausgestattet, und beliebige zwei oder mehr der sechs Mikrofone können für die Erkennung bestimmter Sounds verwendet werden. Beachten Sie, dass Abschnitte in 10, die in 8 oder 9 Entsprechungen haben, mit den gleichen Bezugszeichen versehen sind und Erläuterungen dazu gegebenenfalls weggelassen werden.
  • In diesem Beispiel ist das linke Headset HS61-1 des Kopfhörers HD81 mit dem Mikrofon MK21-1, dem Mikrofon MK51-1, dem Mikrofon MK31 und dem Mikrofon MK71-1 versehen. Außerdem ist das rechte Headset HS61-2 des Kopfhörers HD81 mit dem Mikrofon MK21-2 und dem Mikrofon MK51-2 versehen.
  • Ferner, während die Stimme eines Kopfhörerträgers in den oben erläuterten Beispielen als bestimmter Sound von Kopfhörern erkannt wird, sind beliebige andere Sounds als Erkennungsziele möglich, die nicht auf die Stimmen von Kopfhörerträgern beschränkt sind.
  • Beispielsweise kann die Stimme eines Menschen, der kein Kopfhörerträger ist, oder ein Durchsageton als bestimmter Sound erkannt werden, oder Bewegungsgeräusche wie Fahrgeräusche von Fahrzeugen, die um einen Kopfhörerträger herumfahren, Hupentöne, die von Fahrzeugen (Autos oder Fahrrädern) abgegeben werden, und dergleichen mehr können als bestimmte Sounds erkannt werden.
  • Die Mikrofonanordnung, die geeignet ist, andere als bestimmte Sounds nicht fehlerhaft zu erkennen, unterscheidet sich je nachdem, um welche Art von Sound es sich bei einem bestimmten Sound handelt, der ein Erkennungsziel sein soll. Im Folgenden werden konkrete Beispiele der Mikrofonanordnung für jeden bestimmten Sound erläutert.
  • (Fall, in dem die Stimme eines anderen Menschen als des Kopfhörerträgers erkannt wird)
  • Zunächst wird ein Beispiel erläutert, bei dem die Stimme eines anderen Menschen als eines Kopfhörerträgers als bestimmter Sound erkannt wird.
  • In einem solchen Fall ist es effektiv, zur Erkennung bestimmter Sounds die oben genannten Mikrofone zu verwenden, nämlich das Mikrofon MK21-1, das als Feed-Forward-Mikrofon an der L-Position angeordnet ist, das Mikrofon MK51-1, das als Feedback-Mikrofon an der FBL-Position angeordnet ist, das Mikrofon MK31 für Anrufe, das an der BTM-Position angeordnet ist, und das Mikrofon MK41 zur Erkennung bestimmter Sounds, das beispielsweise an der TOP-Position angeordnet ist.
  • In einem Fall, in dem die Stimme eines anderen Menschen als eines Kopfhörerträgers als bestimmter Sound erkannt werden soll, sind Sounds, die häufig durch einen Fehler mit der unter Bezugnahme auf 2 erläuterten Mikrofonanordnung als bestimmter Sound erkannt werden, beispielsweise hauptsächlich die Stimme des Kopfhörerträgers und Durchsagetöne in einem Zug, an einem Bahnsteig eines Bahnhofs, auf der Straße und so weiter.
  • Die Schalldrücke (im Folgenden auch Eingangsschalldrücke genannt) der Stimme des Kopfhörerträgers und der Durchsagetöne als Eingaben an den Mikrofonen haben Merkmale wie die nachstehend erwähnten.
  • Das heißt, in Bezug auf die Stimme des Kopfhörerträgers sind die Eingangsschalldrücke des Mikrofons MK31 an der BTM-Position und des Mikrofons MK51-1 an der FBL-Position hoch, und der Eingangsschalldruck des Mikrofons MK21-1 an der L-Position und der Eingangsschalldruck des Mikrofons MK41 an der TOP-Position sind ungefähr gleich und beide niedriger als der Eingangsschalldruck des Mikrofons MK31 an der BTM-Position.
  • Andererseits sind bei den Stimmen anderer Menschen als dem Kopfhörerträger, die einen bestimmten Sound darstellen, die Eingangsschalldrücke des Mikrofons MK31 an der BTM-Position, des Mikrofons MK21-1 an der L-Position und des Mikrofons MK41 an der TOP-Position annähernd gleich, und der Eingangsschalldruck des Mikrofons MK51-1 an der FBL-Position ist extrem niedrig.
  • Außerdem ist bei Durchsagetönen der Eingangsschalldruck des Mikrofons MK41 an der TOP-Position hoch, die Eingangsschalldrücke des Mikrofons MK21-1 an der L-Position und des Mikrofons MK31 an der BTM-Position sind niedriger als der Eingangsschalldruck des Mikrofons MK41 an der TOP-Position, und der Eingangsschalldruck des Mikrofons MK51-1 an der FBL-Position ist extrem niedrig.
  • Auf diese Weise haben die Stimmen anderer Menschen als des Kopfhörerträgers, die einen bestimmten Sound darstellen, und die Stimme des Kopfhörerträgers sowie Durchsagetöne, die keine bestimmten Sounds sind, unterschiedliche Größenverhältnisse der Eingangsschalldrücke an verschiedenen Mikrofonen. Dementsprechend kann, falls die Stimmen anderer Menschen als des Kopfhörerträgers als ein bestimmter Sound mit einer Mikrofonanordnung wie der oberen erkannt werden, der bestimmte Sound fehlerfrei und mit hoher Erkennungsleistung erkannt werden.
  • (Fall, in dem Durchsagetöne erkannt werden)
  • Als Nächstes wird ein Beispiel erläutert, bei dem Durchsagetöne, die in der Nähe eines Kopfhörerträgers wiedergegeben werden, als ein bestimmter Sound erkannt werden.
  • Auch in einem solchen Fall, ähnlich dem oben erwähnten Fall, bei dem die Stimmen anderer Menschen als eines Kopfhörerträgers erkannt werden, ist es zum Beispiel sinnvoll, das Mikrofon MK21-1, das ein Feed-Forward-Mikrofon ist und an der L-Position angeordnet ist, das Mikrofon MK51-1, das ein Feedback-Mikrofon ist und an der FBL-Position angeordnet ist, das Mikrofon MK31 für Anrufe, das an der BTM-Position angeordnet ist, und das Mikrofon MK41 für die Erkennung bestimmter Sounds, das an der TOP-Position angeordnet ist, zu verwenden.
  • Das liegt daran, dass, wie oben erwähnt, die Durchsagetöne und die Stimmen anderer Menschen als des Kopfhörerträgers und die Stimme des Kopfhörerträgers an verschiedenen Mikrofonen unterschiedliche Größenverhältnisse der Eingangsschalldrücke aufweisen.
  • (Fall, in dem bewegte Sounds erkannt werden)
  • Ferner wird ein Beispiel erläutert, bei dem bewegte Sounds als ein bestimmter Sound erkannt werden.
  • In einem solchen Fall ist es zweckmäßig, das an der L-Position angeordnete Feed-Forward-Mikrofon MK21-1, das an der R-Position angeordnete Feed-Forward-Mikrofon MK21-2, das an der FRT-Position angeordnete Anrufmikrofon MK71-1 und das an der REA-Position angeordnete Anrufmikrofon MK71-2 zu verwenden.
  • Durch die Verwendung der vorne, hinten, links und rechts am Kopfhörer angeordneten Mikrofone kann auf diese Weise identifiziert werden, ob sich die Schallquelle eines bewegten Sounds, bei dem es sich um einen bestimmten Sound handelt, in der Nähe oder in der Ferne befindet, sowie die Bewegungsrichtung der Schallquelle des bewegten Sounds, ob sich die Schallquelle wegbewegt, oder ob sich die Schallquelle nähert.
  • Beispielsweise haben die Eingangsschalldrücke an den Mikrofonen eines bewegten Sounds, dessen Schallquelle sich weit entfernt vom Kopfhörer befindet, und eines bewegten Sounds, dessen Schallquelle sich in der Nähe des Kopfhörers befindet, Merkmale wie die nachstehend erwähnten.
  • Das heißt, bezüglich des bewegten Schalls, dessen Schallquelle weit vom Kopfhörer entfernt ist, sind die Eingangsschalldrücke des Mikrofons MK21-1 an der L-Position, des Mikrofons MK21-2 an der R-Position, des Mikrofons MK71-1 an der FRT-Position und des Mikrofons MK71-2 an der REA-Position umso ähnlicher, je weiter die Position der Schallquelle vom Kopfhörer entfernt ist, und auch die zeitlichen Änderungen der Eingangsschalldrücke der Mikrofone sind umso ähnlicher.
  • Bezüglich des bewegten Sounds, dessen Schallquelle sich in der Nähe des Kopfhörers befindet, sind dagegen die Differenzen der Eingangsschalldrücke (Schalldruckdifferenzen) zwischen mehreren Mikrofonen im Mikrofon MK21-1 an der L-Position, dem Mikrofon MK21-2 an der R-Position, dem Mikrofon MK71-1 an der FRT-Position und dem Mikrofon MK71-2 an der REA-Position umso größer und die zeitlichen Änderungen der Eingangsschalldrücke aller Mikrofone umso ähnlicher, je näher die Position der Schallquelle am Kopfhörer ist.
  • Außerdem kommt es in dem Fall, in dem sich die Schallquelle des bewegten Sounds von den Kopfhörern wegbewegt, zu zeitlichen Änderungen der Eingangsschalldrücke an den Mikrofonen, die die Eingangsschalldrücke mit der Zeit kleiner werden lassen. Umgekehrt sind in dem Fall, in dem sich die Schallquelle des bewegten Sounds dem Kopfhörer nähert, zeitliche Änderungen der Eingangsschalldrücke an den Mikrofonen Änderungen, die die Eingangsschalldrücke mit der Zeit größer werden lassen.
  • Differenzen der Eingangsschalldrücke wie oben, also Merkmale der Eingangsschalldrücke, ermöglichen es zu identifizieren, ob sich die Schallquelle eines bewegten Sounds weit vom Kopfhörer entfernt oder in der Nähe befindet, ob sich die Schallquelle wegbewegt, ob sich die Schallquelle nähert, und so weiter.
  • Beachten Sie, dass die Stimme eines Kopfhörerträgers, die Stimmen anderer Menschen als des Kopfhörerträgers, Durchsagetöne und bewegte Sounds als bestimmte Sounds in den oben erläuterten Beispielen erkannt werden. Ein Detektor zum Erkennen jedes dieser Sounds kann jedoch parallel betrieben werden. In einem solchen Fall ist es möglich, Mikrofone zu kombinieren, um Audiosignale zu erhalten, die auf unterschiedliche Weise für verschiedene Detektoren, d. h. für verschiedene bestimmte Sounds als Erkennungsziele, in die Detektoren eingegeben werden.
  • Ferner, während ein bestimmter Sound durch den Gebrauch eines Detektors, wie z. B. eines durch maschinelles Lernen erhaltenen Neuronalnetzwerks in den oben erläuterten Beispielen, erkannt wird, kann das Verfahren zur Erkennung eines bestimmten Sounds ein beliebiges Verfahren sein, solange es eine Vielzahl von Mikrofonen verwendet.
  • <Funktionales Konfigurationsbeispiel eines Kopfhörers>
  • Als nächstes wird eine spezielle Ausführungsform in einem Fall erläutert, in dem die vorliegende Technologie, die oben erläutert wurde, auf Kopfhörer mit Geräuschunterdrückung und Telefonfunktionalität angewendet wird.
  • Der Kopfhörer mit Geräuschunterdrückung und Telefonanruf-Funktionalität, auf den die vorliegende Technologie angewendet wird (im Folgenden auch einfach Kopfhörer genannt), ist beispielsweise so konfiguriert, wie in 11 dargestellt.
  • Der in 11 dargestellte Kopfhörer 11 ist ein Bügelkopfhörer mit Geräuschunterdrückung und Telefonanruf-Funktionalität.
  • Der Kopfhörer 11 verfügt über ein L-Mikrofon 21, ein R-Mikrofon 22, ein FBL-Mikrofon 23, ein FBR-Mikrofon 24, ein BTM-Mikrofon 25, ein FRT-Mikrofon 26, ein REA-Mikrofon 27, ein TOP-Mikrofon 28, einen Abschnitt zur Erkennung bestimmter Sounds 29, einen Abschnitt zur Erkennung externer Sounds 30, einen Aufnahmeabschnitt 31, einen Geräuschunterdrückungsabschnitt 32, einen Telefonanrufabschnitt 33, einen Empfangsabschnitt 34, einen Modusumschaltabschnitt 35, einen Steuerabschnitt 36 und einen Lautsprecher 37.
  • Insbesondere im Kopfhörer 11 fungiert ein Blockabschnitt, der mindestens den Abschnitt 29 zur Erkennung bestimmter Sounds aufweist, als Detektor für bestimmte Sounds. Dementsprechend kann der Detektor für bestimmte Sounds beispielsweise den Steuerabschnitt 36 und dergleichen aufweisen. Beachten Sie, dass der Detektor für bestimmte Sounds außerhalb des Kopfhörers 11 vorgesehen sein kann und Audiosignale vom Kopfhörer 11, die durch Geräuschsammlung erhalten wurden, erfassen und eine Erkennung von bestimmten Sounds durchführen kann.
  • Das L-Mikrofon 21, das R-Mikrofon 22, das FBL-Mikrofon 23 und das FBR-Mikrofon 24 entsprechen jeweils dem in 9 dargestellten Mikrofon MK21-1, dem Mikrofon MK21-2, dem Mikrofon MK51-1 bzw. dem Mikrofon MK51-2.
  • Das heißt, das L-Mikrofon 21 und das R-Mikrofon 22 sind Feed-Forward-Mikrofone, die an der L-Position bzw. an der R-Position vorgesehen sind. Das L-Mikrofon 21 und das R-Mikrofon 22 nehmen Umgebungsgeräusche auf und liefern die dadurch erhaltenen Audiosignale an den Außengeräuschabschnitt 30, den Geräuschunterdrückungsabschnitt 32 und den Abschnitt zur Erkennung bestimmter Sounds 29.
  • Außerdem sind das FBL-Mikrofon 23 und das FBR-Mikrofon 24 Feedback-Mikrofone, die an der FBL-Position bzw. an der FBR-Position angeordnet sind. Das FBL-Mikrofon 23 und das FBR-Mikrofon 24 nehmen Umgebungsgeräusche auf und liefern die dadurch erhaltenen Audiosignale an den Geräuschunterdrückungsabschnitt 32 und den Abschnitt zur Erkennung bestimmter Sounds 29.
  • Das BTM-Mikrofon 25, das FRT-Mikrofon 26 und das REA-Mikrofon 27 sind Mikrofone für Anrufe, die jeweils an der BTM-Position, der FRT-Position und der REA-Position angeordnet sind und dem in 9 dargestellten Mikrofon MK31, dem Mikrofon MK71-1 und dem Mikrofon MK71-2 entsprechen. Das BTM-Mikrofon 25 und das REA-Mikrofon 27 nehmen Umgebungsgeräusche auf und liefern die dadurch erhaltenen Audiosignale an den Telefonanrufabschnitt 33 und den Abschnitt zur Erkennung bestimmter Sounds 29.
  • Das TOP-Mikrofon 28 ist ein Mikrofon zur Erkennung bestimmter Sounds, das an der TOP-Position angeordnet ist, und entspricht dem in 9 dargestellten Mikrofon MK41. Das TOP-Mikrofon 28 sammelt Umgebungsgeräusche und liefert die dadurch erhaltenen Audiosignale an den Abschnitt zur Erkennung bestimmter Sounds 29.
  • Auf der Basis von Audiosignalen, die vom L-Mikrofon 21 dem TOP-Mikrofon 28 zugeführt werden, erkennt der Abschnitt 29 zur Erkennung bestimmter Sounds einen bestimmten Sound und liefert ein Ergebnis der Erkennung an den Steuerabschnitt 36.
  • Der Abschnitt zur Erkennung bestimmter Sounds 29 hat einen Verteilerabschnitt 51, einen Abschnitt zur Erkennung von Trägergeräuschen 52, einen Abschnitt zur Erkennung von Nicht-Benutzer-Sounds 53 und einen Abschnitt zur Erkennung von bewegten Sounds 54.
  • Der Verteilerabschnitt 51 verteilt Audiosignale, die vom L-Mikrofon 21 an das TOP-Mikrofon 28 geliefert werden, an den Abschnitt zur Erkennung von Trägergeräuschen 52, den Abschnitt zur Erkennung von Nicht-Benutzer-Sounds 53 und den Abschnitt zur Erkennung von bewegten Sounds 54. Das heißt, die von den Mikrofonen erhaltenen Audiosignale werden dem Abschnitt zur Erkennung von Trägerklängen 52, dem Abschnitt zur Erkennung von Nicht-Benutzer-Sounds 53 und dem Abschnitt zur Erkennung von bewegten Sounds 54 zugewiesen.
  • Beispielsweise versorgt der Verteilerabschnitt 51 den Trägersound-Erkennungsabschnitt 52 mit Audiosignalen, die vom L-Mikrofon 21, dem R-Mikrofon 22 und dem BTM-Mikrofon 25 geliefert werden.
  • Außerdem versorgt beispielsweise der Verteilerabschnitt 51 den Nicht-Benutzer-Sound-Erkennungsabschnitt 53 mit Audiosignalen, die vom L-Mikrofon 21, dem FBL-Mikrofon 23, dem BTM-Mikrofon 25 und dem TOP-Mikrofon 28 geliefert werden.
  • Ferner versorgt beispielsweise der Verteilerabschnitt 51 den Abschnitt zur Erkennung bewegter Sounds 54 mit Audiosignalen, die vom L-Mikrofon 21, dem R-Mikrofon 22, dem FRT-Mikrofon 26 und dem REA-Mikrofon 27 geliefert werden.
  • Der Trägersound-Erkennungsabschnitt 52 weist einen Detektor auf, der beispielsweise ein Neuronalnetzwerk aufweist, das durch maschinelles Lernen oder Ähnliches erhalten wurde, oder dergleichen.
  • Auf der Basis des vom Verteilerabschnitt 51 gelieferten Audiosignals erkennt der Trägersound-Erkennungsabschnitt 52 als bestimmten Sound die Stimme des Trägers des Kopfhörers 11 und liefert ein Ergebnis der Erkennung an den Steuerabschnitt 36.
  • Beispielsweise wird der in dem Trägersound-Erkennungsabschnitt 52 enthaltene Detektor im Voraus durch maschinelles Lernen oder dergleichen erhalten, so dass er als Eingaben Audiosignale verwendet, die durch das Sammeln von Sounds durch die Mikrofone, die an der L-Position, der R-Position und der BTM-Position angeordnet sind, aufweisen, um basierend auf diesen Audiosignalen die Wahrscheinlichkeit zu berechnen, dass die Stimme des Trägers des Kopfhörers 11, die ein bestimmter Sound ist, in den Sounds enthalten ist, und die Wahrscheinlichkeit als ein Ergebnis der Erkennung eines bestimmten Sounds auszugeben.
  • Beispielsweise weist der Abschnitt 53 zur Erkennung von Nicht-Benutzer-Sounds einen Detektor mit einer durch maschinelles Lernen oder dergleichen erhaltenen Neuronalnetzwerkstruktur auf, der auf der Basis von Audiosignalen, die vom Verteilerabschnitt 51 zugeführt werden, die Stimmen von anderen Menschen als dem Träger des Kopfhörers 11 als einen bestimmten Sound erkennt und ein Ergebnis der Erkennung an den Steuerabschnitt 36 liefert.
  • Beispielsweise wird der Detektor, der in dem Nicht-Benutzer-Sound-Erkennungsabschnitt 53 enthalten ist, im Voraus durch maschinelles Lernen oder dergleichen erhalten, so dass er als Eingaben Audiosignale verwendet, die durch das Sammeln von Sounds durch die Mikrofone, die an der L-Position, der FBL-Position, der BTM-Position und der TOP-Position angeordnet sind, erhalten werden, um basierend auf diesen Audiosignalen die Wahrscheinlichkeit zu berechnen, dass die Stimmen von anderen Menschen als dem Träger des Kopfhörers 11, die ein bestimmter Sound sind, in den Sounds enthalten sind, und die Wahrscheinlichkeit als Ergebnis der Erkennung eines bestimmten Sounds auszugeben.
  • Ferner weist beispielsweise der Abschnitt 54 zur Erkennung bewegter Sounds einen Detektor mit einer durch maschinelles Lernen oder dergleichen gewonnenen Neuronalnetzwerkstruktur auf, der auf der Basis der vom Verteilerabschnitt 51 gelieferten Audiosignale bestimmte bewegte Sounds wie Fahrgeräusche oder Hupentöne von Fahrzeugen als bestimmte Sounds erkennt und ein Ergebnis der Erkennung an den Steuerabschnitt 36 liefert.
  • Beispielsweise wird der Detektor, der in dem Abschnitt 54 zur Erkennung bewegter Sounds enthalten ist, im Voraus durch maschinelles Lernen oder dergleichen erhalten, so dass er als Eingaben Audiosignale verwendet, die durch das Sammeln von Sounds durch die Mikrofone erhalten werden, die an der L-Position, der R-Position, der FRT-Position und der REA-Position angeordnet sind, um basierend auf diesen Audiosignalen die Wahrscheinlichkeit zu berechnen, dass ein bewegter Sound, bei dem es sich um einen bestimmten Sound handelt, in den Sounds enthalten ist, und die Wahrscheinlichkeit als Ergebnis der Erkennung eines bestimmten Sounds auszugeben.
  • Beachten Sie, dass angenommen wird, dass die Informationen, die die Ergebnisse der Erkennung bestimmter Sounds repräsentieren, die von dem Trägersound-Erkennungsabschnitt 52 an den Abschnitt 54 zur Erkennung bewegter Sounds ausgegeben werden, Informationen sind, die die Werte von Wahrscheinlichkeiten im Bereich von beispielsweise 0 % bis 100 % repräsentieren. Dies ist jedoch nicht das einzige Beispiel, und die Informationen, die die Ergebnisse der Erkennung bestimmter Sounds darstellen, können Flag-Informationen oder dergleichen sein, die angeben, ob ein bestimmter Sound in den gesammelten Sounds erkannt wurde oder nicht.
  • Außerdem, während in dem hier erläuterten Beispiel drei gegenseitig unterschiedliche bestimmte Sounds erkannt werden, kann die Anzahl der bestimmten Sounds, die Erkennungsziele des Abschnitts 29 zur Erkennung bestimmter Sounds sind, eins oder mehr als eins sein.
  • Der Abschnitt für externe Sounds 30 wandelt Audiosignale, die vom L-Mikrofon 21 und vom R-Mikrofon 22 geliefert werden, in externe Soundsignale um, die externe Sounds (Sounds von außerhalb) außerhalb des Kopfhörers 11 repräsentieren, und liefert die externen Soundsignale an den Steuerabschnitt 36.
  • Der Aufnahmeabschnitt 31 speichert (hat darin aufgezeichnet) Musiksignale zur Musikwiedergabe und liefert die gespeicherten Musiksignale bei Bedarf an den Geräuschunterdrückungsabschnitt 32 und den Steuerabschnitt 36.
  • Auf der Basis von Audiosignalen, die vom L-Mikrofon 21, dem R-Mikrofon 22, dem FBL-Mikrofon 23 und dem FBR-Mikrofon 24 zugeführt werden, und von Musiksignalen, die vom Aufnahmeabschnitt 31 zugeführt werden, erzeugt der Geräuschunterdrückungsabschnitt 32 Geräuschunterdrückungssignale zur Unterdrückung von Sounds (externen Sounds) im Bereich des Kopfhörers 11 und liefert die Geräuschunterdrückungssignale an den Steuerabschnitt 36.
  • Um genau zu sein, erzeugt beispielsweise der Geräuschunterdrückungsabschnitt 32 als invertierte Signale solche Signale, die auf Audiosignalen basieren, die vom L-Mikrofon 21 und vom R-Mikrofon 22 geliefert werden, aber eine invertierte Phase haben. Außerdem erzeugt der Geräuschunterdrückungsabschnitt 32 invertierte Differenzsignale, indem er Musiksignale von Audiosignalen subtrahiert, die vom FBL-Mikrofon 23 und vom FBR-Mikrofon 24 geliefert werden, und die Phase der so erhaltenen Signale invertiert. Anschließend addiert der Geräuschunterdrückungsabschnitt 32 die so erhaltenen invertierten Signale und die invertierten Differenzsignale, um Geräuschunterdrückungssignale zu erzeugen.
  • Der Telefonanrufabschnitt 33 erzeugt Anrufsignale durch Addieren von Audiosignalen des BTM-Mikrofons 25, des FRT-Mikrofons 26 und des REA-Mikrofons 27 sowie von Soundsignalen der Person, mit der der Träger des Kopfhörers 11 telefoniert, die vom Empfangsabschnitt 34 empfangen werden, und liefert die Anrufsignale an den Steuerabschnitt 36.
  • Der Empfangsabschnitt 34 empfängt Soundsignale eines Sounds der Person, mit der der Träger des Kopfhörers 11 am Telefon kommuniziert, die durch drahtlose Kommunikation von einem Gerät wie einem Mobiltelefon übertragen werden, das von der Person betrieben wird, mit der der Träger des Kopfhörers 11 am Telefon kommuniziert, und liefert die Soundsignale an den Telefonanrufabschnitt 33.
  • Der Modusumschaltabschnitt 35 schaltet den Betriebsmodus des Kopfhörers 11 entweder auf einen Musikwiedergabemodus oder einen Anrufmodus um und versorgt den Steuerabschnitt 36 mit Identifikationsinformationen, die den ausgewählten Betriebsmodus repräsentieren.
  • Beispielsweise ist der Musikwiedergabemodus ein Betriebsmodus, bei dem Musik auf der Basis von Musiksignalen wiedergegeben wird, die im Aufnahmeabschnitt 31 im Kopfhörer 11 gespeichert sind. Im Gegensatz dazu ist der Anrufmodus ein Betriebsmodus, der Sprachanrufe zwischen dem Träger des Kopfhörers 11 und der Person, mit der der Träger am Telefon spricht, realisiert.
  • Der Steuerabschnitt 36 steuert den gesamten Betrieb des Kopfhörers 11.
  • Beispielsweise führt der Steuerabschnitt 36 auf der Basis von Erkennungsergebnissen vom Trägersound-Erkennungsabschnitt 52 zum Abschnitt 54 zur Erkennung bewegter Sounds und von Identifikationsinformationen vom Modusumschaltabschnitt 35 eine gewichtete Addition eines externen Soundsignals vom Abschnitt für externe Sounds 30, eines Musiksignals vom Aufnahmeabschnitt 31, eines Geräuschunterdrückungssignals vom Geräuschunterdrückungsabschnitt 32 und eines Anrufsignals vom Telefonanrufabschnitt 33 durch, um dadurch ein gewichtetes Summensignal zu erzeugen. Außerdem liefert der Steuerabschnitt 36 das erhaltene gewichtete Summensignal an den Lautsprecher 37.
  • Der Lautsprecher 37 gibt einen Sound auf der Basis eines gewichteten Summensignals aus, das vom Steuerabschnitt 36 zugeführt wird. Dabei werden beispielsweise Musik, Anrufstimmen eines Gesprächs zwischen dem Träger und der Person, mit der der Träger gerade telefoniert, und dergleichen wiedergegeben.
  • Beispielsweise wird bei der im Steuerabschnitt 36 durchgeführten gewichteten Addition eines externen Soundsignals, eines Musiksignals, eines Geräuschunterdrückungssignals und eines Anrufsignals die Berechnung der folgenden Formel (1) durchgeführt, um ein gewichtetes Summensignal sig_w[i] zu berechnen (zu erzeugen).
    [Math. 1] sig_w [ i ] = A × sig_ambient [ i ] + M × sig_music [ i ] + N × sig_noise [ i ] + T × sig_tel [ i ]
    Figure DE112019006400T5_0001
  • Beachten Sie, dass i in Formel (1) einen Zeitabtastungsindex jedes Signals darstellt. Außerdem stehen sig_ambient[i], sig_music[i], sig_noise[i] und sig_tel[i] in Formel (1) jeweils für ein externes Soundsignal, ein Musiksignal, ein Geräuschunterdrückungssignal und ein Anrufsignal.
  • Ferner repräsentieren A, M, N und T in Formel (1) Gewichtungsfaktoren. Beispielsweise werden die Gewichtungsfaktoren A, M, N und T auf der Basis von Identifikationsinformationen, die den Betriebsmodus repräsentieren, und von Ergebnissen der Erkennung bestimmter Sounds vom Trägersound-Erkennungsabschnitt 52 zum Erkennungsabschnitt 54 für bewegte Sounds festgelegt.
  • Insbesondere wird beispielsweise angenommen, dass der durch die Identifizierungsinformationen dargestellte Betriebsmodus der Musikwiedergabemodus ist und alle Wahrscheinlichkeiten, die die Ergebnisse der Erkennung bestimmter Sounds darstellen, die vom Trägersound-Erkennungsabschnitt 52 an den Abschnitt 54 zur Erkennung von bewegten Sounds geliefert werden, niedriger als 90 % sind. Es wird hier angenommen, dass der Steuerabschnitt 36 bestimmt, dass ein bestimmter Sound erkannt wurde, wenn die Wahrscheinlichkeiten, die die Ergebnisse der Erkennung eines bestimmten Sounds darstellen, gleich oder höher als „90 %“ sind, was ein vorbestimmter Schwellenwert ist.
  • In einem solchen Fall führt der Steuerabschnitt 36 die Berechnung der Formel (1) unter Verwendung der Gewichtungsfaktoren A=0,0, M=1,0, N=1,0 und T=0,0 durch.
  • In diesem Beispiel ist der Betriebsmodus der Musikwiedergabemodus, und keine der Stimmen des Trägers des Kopfhörers 11, die Stimmen anderer Menschen als des Trägers des Kopfhörers 11 und bewegte Sounds werden aus der Umgebung des Kopfhörers 11 erkannt. Angesichts dessen berechnet der Steuerabschnitt 36 das gewichtete Summensignal sig_w[i], indem er nur ein Musiksignal sig music[i] und ein Geräuschunterdrückungssignal sig_noise[i] mit demselben Gewicht addiert.
  • Falls der Lautsprecher 37 auf der Basis des gewichteten Summensignals sig_w[i] einen Sound wiedergibt, wird dadurch eine Geräuschunterdrückung realisiert, der Träger (Benutzer) des Kopfhörers 11 hört nur noch Musik und kann sich auf die Musikwiedergabe konzentrieren. Das heißt, in diesem Fall wird ein externer Sound, der ein Geräusch ist, durch einen Sound basierend auf dem Geräuschunterdrückungssignal sig_noise[i] unterdrückt, und die Musik wird durch das Musiksignal sig_music[i] wiedergegeben.
  • Außerdem wird beispielsweise angenommen, dass die Wahrscheinlichkeit, die durch ein Erkennungsergebnis des Trägersound-Erkennungsabschnitts 52 oder ein Erkennungsergebnis des Nicht-Benutzer-Sound-Erkennungsabschnitts 53 repräsentiert wird, gleich oder höher als 90 % ist, und dass der durch die Identifizierungsinformationen repräsentierte Betriebsmodus der Musikwiedergabemodus ist.
  • Das heißt, es wird angenommen, dass im Musikwiedergabemodus die Stimme des Trägers des Kopfhörers 11 oder die Stimme eines anderen Menschen als des Trägers des Kopfhörers 11 als bestimmter Sound erkannt wurde.
  • In einem solchen Fall führt der Steuerabschnitt 36 die Berechnung der Formel (1) unter Verwendung der Gewichtungsfaktoren A=0,5, M=0,5, N=0,0 und T=0,0 durch. Dementsprechend wird in diesem Fall das gewichtete Summensignal sig_w[i] berechnet, indem nur ein externes Soundsignal sig_ambient[i] und das Musiksignal sig_music[i] mit dem gleichen Gewicht addiert werden.
  • Falls der Lautsprecher 37 auf der Basis des gewichteten Summensignals sig_w[i] einen Sound wiedergibt, wird die Geräuschunterdrückungsfunktion vorübergehend gestoppt, und es wird neben Musik auch ein externer Sound, d. h. die Stimmen des Trägers des Kopfhörers 11 und eines anderen Menschen, wiedergegeben. Dadurch ist es möglich, nicht nur die Musik, sondern auch die externen Sounds für den Träger des Kopfhörers 11 deutlich hörbar zu machen, und es wird dem Träger erleichtert, ein Gespräch mit einem Nicht-Benutzer zu führen.
  • Ferner wird beispielsweise angenommen, dass der durch die Identifikationsinformation dargestellte Betriebsmodus der Musikwiedergabemodus ist und die Wahrscheinlichkeit, die ein Ergebnis der Erkennung eines bestimmten Sounds (bewegter Sound) darstellt, der von dem Abschnitt 54 zum Erkennen von bewegten Sounds geliefert wird, gleich oder höher als 90 % ist. Das heißt, es wird angenommen, dass ein bewegter Sound in der Umgebung des Kopfhörers 11 erkannt wird.
  • In einem solchen Fall führt der Steuerabschnitt 36 die Berechnung der Formel (1) durch, indem er die Gewichtungsfaktoren A=1,0, M=0,0, N=0,0 und T=0,0 verwendet. Dementsprechend wird in diesem Fall das externe Soundsignal sig_ambient[i] direkt als das gewichtete Summensignal sig_w[i] berechnet.
  • Falls der Lautsprecher 37 auf der Basis des gewichteten Summensignals sig_w[i] einen Sound wiedergibt, wird dadurch für den Träger des Kopfhörers 11 nur ein externer Sound, also ein bewegter Sound, hörbar. Dadurch wird es für den Träger des Kopfhörers 11 möglich, bewegte Sounds, wie z. B. Fahrgeräusche oder Hupentöne von Fahrzeugen, die externe Sounds sind, deutlich zu hören und eine Gefahr leicht zu erkennen.
  • Außerdem wird beispielsweise angenommen, dass der durch die Identifizierungsinformationen dargestellte Betriebsmodus der Anrufmodus ist und die Wahrscheinlichkeit, die ein Ergebnis der Erkennung eines bestimmten Sounds (bewegter Sound) darstellt, der von dem Abschnitt 54 zum Erkennen bewegter Sounds geliefert wird, niedriger als 90 % ist. Das heißt, es soll bestimmt werden, dass bewegte Sounds in der Umgebung des Kopfhörers 11 nicht erkannt werden und die Umgebung um den Träger des Kopfhörers 11 sicher ist.
  • In einem solchen Fall führt der Steuerabschnitt 36 die Berechnung der Formel (1) unter Verwendung der Gewichtungsfaktoren A=0,0, M=0,0, N=1,0 und T=1,0 durch. Dementsprechend wird in diesem Fall das gewichtete Summensignal sig_w[i] berechnet, indem nur das Geräuschunterdrückungssignal sig_noise[i] und ein Anrufsignal sig_tel[i] mit dem gleichen Gewicht addiert werden.
  • Falls der Lautsprecher 37 auf der Basis des gewichteten Summensignals sig_w[i] einen Sound wiedergibt, wird dadurch eine Geräuschunterdrückung realisiert, und der Träger des Kopfhörers 11 hört nur noch die Anrufstimme der Person, mit der er gerade telefoniert. Dadurch kann sich der Träger des Kopfhörers 11 auf das Telefongespräch der Person konzentrieren, mit der der Träger gerade telefoniert.
  • Außer ihnen wird beispielsweise angenommen, dass der durch die Identifikationsinformation dargestellte Betriebsmodus der Anrufmodus ist und die Wahrscheinlichkeit, die ein Ergebnis der Erkennung eines bestimmten Sounds (bewegter Sound) darstellt, der von dem Abschnitt 54 zur Erkennung bewegter Sounds geliefert wird, gleich oder höher als 90 % ist. Das heißt, es wird angenommen, dass ein bewegter Sound in der Umgebung des Kopfhörers 11 erkannt wird.
  • In einem solchen Fall führt der Steuerabschnitt 36 die Berechnung der Formel (1) durch, indem er die Gewichtungsfaktoren A=1,0, M=0,0, N=0,0 und T=0,0 verwendet. Dementsprechend wird in diesem Fall das externe Soundsignal sig_ambient[i] direkt als das gewichtete Summensignal sig_w[i] berechnet.
  • Falls der Lautsprecher 37 auf der Basis des gewichteten Summensignals sig_w[i] einen Sound wiedergibt, wird dadurch das Telefongespräch mit dem Gesprächspartner unterbrochen, und der Träger des Kopfhörers 11 hört nur noch einen externen Sound, also einen bewegten Sound. Dadurch wird es für den Träger des Kopfhörers 11 möglich, bewegte Sounds, wie z. B. Fahrgeräusche oder Hupentöne von Fahrzeugen, die externe Sounds sind, deutlich zu hören und eine Gefahr leicht zu erkennen.
  • Wie oben erwähnt, schaltet der Steuerabschnitt 36 während des Betriebs in einer der beiden Betriebsarten die auszuführenden Prozesse gemäß den Ergebnissen der Erkennung eines oder mehrerer bestimmter Sounds um. Dadurch ist es möglich, die Sicherheit zu gewährleisten bzw. das Führen eines Gesprächs gemäß der Umgebungssituation dementsprechend zu erleichtern und somit die Bedienbarkeit des Kopfhörers 11 zu verbessern.
  • <Erläuterung des Erkennungsprozesses eines bestimmten Sounds>
  • Als Nächstes wird ein Prozess zur Erkennung bestimmter Sounds erläutert, bei dem ein bestimmter Sound durch den Kopfhörer 11 erkannt wird. Das heißt, der Prozess des Erkennens bestimmter Sounds durch den Kopfhörer 11 wird nachstehend unter Bezugnahme auf das Flussdiagramm in 12 erläutert.
  • In Schritt S11 sammeln das L-Mikrofon 21 und das TOP-Mikrofon 28 Sounds aus der Umgebung und geben die dadurch erhaltenen Audiosignale aus.
  • Dabei werden die vom L-Mikrofon 21 bis zum TOP-Mikrofon 28 erhaltenen Audiosignale dem Verteilerabschnitt 51 und dergleichen zugeführt. Dann verteilt der Verteilerabschnitt 51 die Audiosignale, die vom L-Mikrofon 21 an das TOP-Mikrofon 28 geliefert werden, an den Trägersound-Erkennungsabschnitt 52, den Nicht-Benutzer-Sound-Erkennungsabschnitt 53 und den Abschnitt zur Erkennung von bewegten Sounds 54.
  • In Schritt S12 erkennt der Trägersound-Erkennungsabschnitt 52 bis zum Erkennungsabschnitt 54 für bewegte Sounds bestimmte Sounds auf der Basis der Audiosignale, die vom Verteilerabschnitt 51 zugeführt werden, und liefert die Erkennungsergebnisse an den Steuerabschnitt 36.
  • Beispielsweise gibt der Trägersound-Erkennungsabschnitt 52 die vom Verteilerabschnitt 51 gelieferten Audiosignale, d. h. die vom L-Mikrofon 21, vom R-Mikrofon 22 und vom BTM-Mikrofon 25 erhaltenen Audiosignale, in einen Detektor ein und führt eine Berechnung durch, um dadurch die Wahrscheinlichkeit zu berechnen, die ein Erkennungsergebnis der Stimme des Trägers des Kopfhörers 11 als einen bestimmten Sound darstellt.
  • Ähnlich geben auch der Nicht-Benutzer-Sound-Erkennungsabschnitt 53 und der Trägersound-Erkennungsabschnitt 54 die vom Verteilerabschnitt 51 gelieferten Audiosignale in die Detektoren ein, führen Berechnungen durch und erhalten die Wahrscheinlichkeiten, die die Erkennungsergebnisse für die Stimmen von anderen Personen als dem Träger des Kopfhörers 11 und für bewegte Sounds als bestimmte Sounds darstellen.
  • In Schritt S13 führt der Steuerabschnitt 36 auf der Basis der vom Modusumschaltabschnitt 35 gelieferten Identifikationsinformationen und der vom Erkennungsabschnitt 52 an den Erkennungsabschnitt 54 für bewegte Sounds gelieferten Erkennungsergebnisse einen Prozess gemäß den Ergebnissen der Erkennung bestimmter Sounds durch und beendet den Prozess der Erkennung bestimmter Sounds. Anders ausgedrückt, der Steuerabschnitt 36 schaltet einen auszuführenden Prozess gemäß den Erkennungsergebnissen eines bestimmten Sounds um.
  • Beispielsweise führt der Steuerabschnitt 36 die Berechnung der Formel (1) auf der Basis der Gewichtungsfaktoren durch, die auf der Basis der Identifikationsinformationen und des Erkennungsergebnisses wie oben erwähnt festgelegt wurden, liefert das dadurch erhaltene gewichtete Summensignal an den Lautsprecher 37 und veranlasst den Lautsprecher 37, einen Sound auszugeben.
  • In der oben beschriebenen Weise sammelt der Kopfhörer 11 Umgebungssounds durch die Vielzahl der entsprechend angeordneten Mikrofone und erkennt bestimmte Sounds auf der Basis der dadurch erhaltenen Audiosignale. Auf diese Weise ist es möglich, durch Verwendung der Vielzahl von Mikrofonen, die sich an entsprechenden Positionen befinden, das Auftreten falscher Erkennungen zu unterdrücken und die Leistung beim Erkennen bestimmter Sounds zu verbessern.
  • <Konfigurationsbeispiel des Computers>
  • Unterdessen kann die Reihe der oben genannten Prozesse sowohl hardwaremäßig als auch softwaremäßig ausgeführt werden. In einem Fall, in dem die Reihe der Prozesse durch Software ausgeführt wird, wird ein in der Software enthaltenes Programm auf einem Computer installiert. Beispiele für einen Computer weisen beispielsweise einen Computer auf, der in eine spezielle Hardware integriert ist, einen Allzweck-Personalcomputer, der verschiedene Arten von Funktionalität ausführen kann, indem verschiedene Arten von Programmen darauf installiert sind, und dergleichen.
  • 13 ist ein Blockdiagramm, das ein Konfigurationsbeispiel für die Hardware eines Computers darstellt, der die Abfolge des oben genannten Prozesses durch ein Programm ausführt.
  • Im Computer sind eine CPU (Central Processing Unit) 501, ein ROM (Read Only Memory) 502 und ein RAM (Random Access Memory) 503 über einen Bus 504 miteinander verbunden.
  • Der Bus 504 ist ferner mit einer Ein-/Ausgabeschnittstelle 505 verbunden. Die Ein-/Ausgabeschnittstelle 505 ist mit einem Eingabeabschnitt 506, einem Ausgabeabschnitt 507, einem Aufnahmeabschnitt 508, einem Kommunikationsabschnitt 509 und einem Laufwerk 510 verbunden.
  • Der Eingabeabschnitt 506 weist eine Tastatur, eine Maus, ein Mikrofon, ein Bildaufnahmeelement und dergleichen auf. Der Ausgabeabschnitt 507 weist ein Display, einen Lautsprecher und dergleichen auf. Der Aufnahmeabschnitt 508 weist eine Festplatte, einen nichtflüchtigen Speicher und dergleichen auf. Der Kommunikationsabschnitt 509 weist eine Netzwerk-Schnittstelle und dergleichen auf. Das Laufwerk 510 treibt einen Wechseldatenträger 511, wie z. B. eine magnetische Platte, eine optische Platte, eine magnetooptische Platte oder einen Halbleiterspeicher an.
  • In dem so konfigurierten Computer lädt beispielsweise die CPU 501 ein im Aufnahmeabschnitt 508 aufgezeichnetes Programm über die Ein-/Ausgabeschnittstelle 505 und den Bus 504 in das RAM 503 und führt das Programm aus, um damit die Abfolge des oben genannten Prozesses auszuführen.
  • Das vom Computer (CPU 501) ausgeführte Programm kann beispielsweise auf dem Wechseldatenträger 511 als Paketmedium oder dergleichen bereitgestellt werden. Außerdem kann das Programm über ein kabelgebundenes oder drahtloses Übertragungsmedium wie ein lokales Netzwerk, das Internet oder digitalen Satellitenrundfunk bereitgestellt werden.
  • Am Computer kann das Programm über die Ein-/Ausgabeschnittstelle 505 auf dem Aufnahmeabschnitt 508 installiert werden, indem der Wechseldatenträger 511 am Laufwerk 510 angebracht wird. Außerdem kann das Programm über ein Kabel oder ein drahtloses Übertragungsmedium am Kommunikationsabschnitt 509 empfangen und auf dem Aufnahmeabschnitt 508 installiert werden. Anderenfalls kann das Programm vorab auf dem ROM 502 oder dem Aufnahmeabschnitt 508 installiert werden.
  • Beachten Sie, dass es sich bei dem vom Computer auszuführenden Programm um ein Programm handeln kann, dessen Prozesse in einer zeitlichen Abfolge in einer in der vorliegenden Spezifikation erläuterten Reihenfolge durchgeführt werden, oder um ein Programm, dessen Prozesse parallel oder zu notwendigen Zeitpunkten, z. B. beim Aufruf der Prozesse, durchgeführt werden.
  • Außerdem sind die Ausführungsformen gemäß der vorliegenden Technologie nicht auf die oben erwähnten Ausführungsformen beschränkt und können auf verschiedene Weise innerhalb des Geltungsbereichs geändert werden, ohne vom Kern der vorliegenden Technologie abzuweichen.
  • Beispielsweise kann die vorliegende Technologie eine Cloud-Computing-Konfiguration haben, bei der eine Funktionalität von einer Vielzahl von Vorrichtungen über ein Netzwerk in einer gemeinsamen Weise in Kooperation miteinander verarbeitet wird.
  • Außerdem kann jeder Schritt, der unter Bezugnahme auf das oben erwähnte Flussdiagramm erläutert wird, von einer einzigen Vorrichtung ausgeführt werden, oder aber von einer Vielzahl von Vorrichtungen auf eine gemeinsame Weise.
  • Ferner kann in einem Fall, in dem ein Schritt eine Vielzahl von Prozessen aufweist, die Vielzahl von Prozessen, die in dem einen Schritt enthalten sind, von einer Vorrichtung ausgeführt werden oder anderenfalls von einer Vielzahl von Vorrichtungen auf eine gemeinsame Weise ausgeführt werden.
  • Ferner kann die vorliegende Technologie auch die folgenden Konfigurationen aufweisen.
    • (1) Detektor für bestimmte Sounds, der Folgendes umfasst:
      • einen Abschnitt zum Erkennen bestimmter Sounds, der einen bestimmten Sound auf der Basis einer Vielzahl von Audiosignalen erkennt, die durch das Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind, wobei
      • die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
    • (2) Detektor für bestimmte Sounds gemäß (1), wobei der Abschnitt zum Erkennen bestimmter Sounds einen Detektor mit einer Neuronalnetzwerkstruktur aufweist.
    • (3) Detektor für bestimmte Sounds gemäß (1) oder (2), wobei der bestimmte Sound eine Stimme eines Trägers der tragbaren Vorrichtung ist.
    • (4) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (3), wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Feedback-Mikrofon zur Geräuschunterdrückung ist.
    • (5) Detektor für bestimmte Sounds gemäß (4), wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Feedback-Mikrofon ist.
    • (6) Detektor für bestimmte Sounds gemäß (4) oder (5), wobei das Feedback-Mikrofon innerhalb eines Gehäuses der tragbaren Vorrichtung angeordnet ist.
    • (7) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (3), wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Knochenleitungsmikrofon ist.
    • (8) Detektor für bestimmte Sounds gemäß (7), wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Knochenleitungsmikrofon ist.
    • (9) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (3), wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Mikrofon für Anrufe ist.
    • (10) Detektor für bestimmte Sounds gemäß (9), wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Mikrofon für Anrufe ist.
    • (11) Detektor für bestimmte Sounds gemäß (10), wobei die vorbestimmte Position eine Position in einem Abstand von einem Mund eines Trägers der tragbaren Vorrichtung ist, wobei der Abstand kürzer als die Abstände von den beiden Mikrofonen zum Mund des Trägers ist.
    • (12) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (11), wobei die beiden Mikrofone Feed-Forward-Mikrofone zur Geräuschunterdrückung sind.
    • (13) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (12), wobei zusätzlich zu den zwei Mikrofonen und dem einen Mikrofon, das an der vorbestimmten Position angeordnet ist, die Vielzahl der Mikrofone ein Mikrofon aufweist, das in der Nähe einer Oberseite eines Kopfes eines Trägers in einem Zustand angeordnet ist, in dem der Träger die tragbare Vorrichtung aufgesetzt hat.
    • (14) Detektor für bestimmte Sounds gemäß einem der Punkte (1) bis (13), der ferner Folgendes umfasst:
      • einen Steuerabschnitt, der einen auszuführenden Prozess gemäß einem Erkennungsergebnis des bestimmten Sounds umschaltet.
    • (15) Verfahren zur Erkennung bestimmter Sounds, das Folgendes umfasst:
      • Erkennen, durch einen Detektor für bestimmte Sounds, eines bestimmten Sounds auf der Basis einer Vielzahl von Audiosignalen, die durch Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung bereitgestellt sind, wobei
      • die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
    • (16) Programm, das einen Computer veranlasst, einen Prozess auszuführen, der einen Schritt des Erkennens eines bestimmten Sounds auf der Basis einer Vielzahl von Audiosignalen aufweist, die durch Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind, wobei die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  • Bezugszeichenliste
  • 11
    Kopfhörer
    21
    L-Mikrofon
    22
    R-Mikrofon
    23
    FBL-Mikrofon
    24
    FBR-Mikrofon
    25
    BTM-Mikrofon
    26
    FRT-Mikrofon
    27
    REA-Mikrofon
    28
    TOP-Mikrofon
    29
    Abschnitt zur Erkennung bestimmter Sounds
    36
    Steuerabschnitt
    52
    Trägersound-Erkennungsabschnitt
    53
    Nicht-Benutzer-Sound-Erkennungsabschnitt
    54
    Abschnitt zur Erkennung bewegter Sounds
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2011097268 A [0004]

Claims (16)

  1. Detektor für bestimmte Sounds, der Folgendes umfasst: einen Abschnitt zum Erkennen bestimmter Sounds, der einen bestimmten Sound auf der Basis einer Vielzahl von Audiosignalen erkennt, die durch das Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind, wobei die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  2. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei der Abschnitt zum Erkennen bestimmter Sounds einen Detektor mit einer Neuronalnetzwerkstruktur aufweist.
  3. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei der bestimmte Sound eine Stimme eines Trägers der tragbaren Vorrichtung ist.
  4. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Feedback-Mikrofon zur Geräuschunterdrückung ist.
  5. Detektor für bestimmte Sounds gemäß Anspruch 4, wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Feedback-Mikrofon ist.
  6. Detektor für bestimmte Sounds gemäß Anspruch 4, wobei das Feedback-Mikrofon innerhalb eines Gehäuses der tragbaren Vorrichtung angeordnet ist.
  7. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Knochenleitungsmikrofon ist.
  8. Detektor für bestimmte Sounds gemäß Anspruch 7, wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Knochenleitungsmikrofon ist.
  9. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei mindestens ein Mikrofon der Vielzahl der Mikrofone ein Mikrofon für Anrufe ist.
  10. Detektor für bestimmte Sounds gemäß Anspruch 9, wobei das eine an der vorbestimmten Position angeordnete Mikrofon das Mikrofon für Anrufe ist.
  11. Detektor für bestimmte Sounds gemäß Anspruch 10, wobei die vorbestimmte Position eine Position in einem Abstand von einem Mund eines Trägers der tragbaren Vorrichtung ist, wobei der Abstand kürzer als die Abstände von den beiden Mikrofonen zum Mund des Trägers ist.
  12. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei die beiden Mikrofone Feed-Forward-Mikrofone zur Geräuschunterdrückung sind.
  13. Detektor für bestimmte Sounds gemäß Anspruch 1, wobei zusätzlich zu den zwei Mikrofonen und dem einen Mikrofon, das an der vorbestimmten Position angeordnet ist, die Vielzahl der Mikrofone ein Mikrofon aufweist, das in der Nähe einer Oberseite eines Kopfes eines Trägers in einem Zustand angeordnet ist, in dem der Träger die tragbare Vorrichtung aufgesetzt hat.
  14. Detektor für bestimmte Sounds gemäß Anspruch 1, der ferner Folgendes umfasst: einen Steuerabschnitt, der einen auszuführenden Prozess gemäß einem Erkennungsergebnis des bestimmten Sounds umschaltet.
  15. Verfahren zur Erkennung bestimmter Sounds, das Folgendes umfasst: Erkennen, durch einen Detektor für bestimmte Sounds, eines bestimmten Sounds auf der Basis einer Vielzahl von Audiosignalen, die durch Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind, wobei die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
  16. Programm, das einen Computer veranlasst, einen Prozess auszuführen, der einen Schritt des Erkennens eines bestimmten Sounds auf der Basis einer Vielzahl von Audiosignalen aufweist, die durch Sammeln von Sounds durch eine Vielzahl von Mikrofonen erhalten werden, die an einer tragbaren Vorrichtung vorgesehen sind, wobei die Vielzahl der Mikrofone zwei Mikrofone aufweist, die mindestens gleich weit von einer Schallquelle des bestimmten Sounds entfernt sind, sowie ein Mikrofon, das an einer vorbestimmten Position angeordnet ist.
DE112019006400.2T 2018-12-25 2019-12-12 Vorrichtung, verfahren und programm zur erkennung bestimmter sounds Pending DE112019006400T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-240642 2018-12-25
JP2018240642 2018-12-25
PCT/JP2019/048706 WO2020137585A1 (ja) 2018-12-25 2019-12-12 特定音検出器および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
DE112019006400T5 true DE112019006400T5 (de) 2021-09-09

Family

ID=71127205

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019006400.2T Pending DE112019006400T5 (de) 2018-12-25 2019-12-12 Vorrichtung, verfahren und programm zur erkennung bestimmter sounds

Country Status (6)

Country Link
US (1) US11990151B2 (de)
JP (1) JPWO2020137585A1 (de)
KR (1) KR20210109526A (de)
CN (1) CN113196792A (de)
DE (1) DE112019006400T5 (de)
WO (1) WO2020137585A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3102252B1 (fr) * 2019-10-17 2021-10-15 Sagemcom Broadband Sas Procédé de regroupement d’équipements par espaces sonores
CN112992178A (zh) * 2021-02-05 2021-06-18 安徽绿舟科技有限公司 一种通过混沌声纹分析管道泄露的方法
EP4376437A1 (de) * 2021-07-20 2024-05-29 Panasonic Intellectual Property Management Co., Ltd. Kopfhörer und verfahren zur richtcharakteristiksteuerung für ein anrufmikrofon

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097268A (ja) 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
US8527280B2 (en) * 2001-12-13 2013-09-03 Peter V. Boesen Voice communication device with foreign language translation
US9099094B2 (en) * 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
GB2434708B (en) * 2006-01-26 2008-02-27 Sonaptic Ltd Ambient noise reduction arrangements
JP5269618B2 (ja) * 2009-01-05 2013-08-21 株式会社オーディオテクニカ 骨伝導マイクロホン内蔵ヘッドセット
US8532310B2 (en) * 2010-03-30 2013-09-10 Bose Corporation Frequency-dependent ANR reference sound compression
US9208773B2 (en) * 2011-12-23 2015-12-08 Bose Corporation Headset noise-based pulsed attenuation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097268A (ja) 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法

Also Published As

Publication number Publication date
US20220059120A1 (en) 2022-02-24
JPWO2020137585A1 (ja) 2021-11-04
WO2020137585A1 (ja) 2020-07-02
KR20210109526A (ko) 2021-09-06
CN113196792A (zh) 2021-07-30
US11990151B2 (en) 2024-05-21

Similar Documents

Publication Publication Date Title
DE112019006400T5 (de) Vorrichtung, verfahren und programm zur erkennung bestimmter sounds
EP4011099A1 (de) System und verfahren zur unterstützung von selektivem hören
EP1912474B1 (de) Verfahren zum Betreiben einer Hörhilfe, sowie Hörhilfe
EP2603018B1 (de) Hörvorrichtung mit Sprecheraktivitätserkennung und Verfahren zum Betreiben einer Hörvorrichtung
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
US11689869B2 (en) Hearing device configured to utilize non-audio information to process audio signals
CN109218882A (zh) 耳机的环境声音监听方法及耳机
DE102014214052A1 (de) Virtuelle Verdeckungsmethoden
DE102017205652B3 (de) Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung
CN107481733A (zh) 声信号的选择性放大
DE102018107326A1 (de) Adaptives Insassengespräch-Frühwarnsystem
DE102014226026A1 (de) Fahrassistenzsystem zur Erfassung eines Ereignisses im Umfeld außerhalb eines Fahrzeugs
EP1247373A1 (de) Kommunikationssystem und dafür geeignete steuereinheit
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE60223945T2 (de) Spracherkennungs- und diskriminationsvorrichtung und verfahren
DE102017100628A1 (de) System und Verfahren zum Bereitstellen einer personenbezogenen Audiowiedergabe
EP4189974A2 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
DE102015015130A1 (de) Verfahren zum Betreiben eines Kraftfahrzeugs und Kraftfahrzeug
EP1538874B1 (de) Hörervorrichtung mit richtungsabhängiger Signalverarbeitung und entsprechendes Verfahren
DE112019007580B4 (de) Schallfeld-Steuerungsvorrichtung und Schallfeld-Steuerungsverfahren
DE112021000974T5 (de) Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren, Informationsverarbeitungsprogramm und Informationsverarbeitungssystem
DE19926820C2 (de) Gehörschutz
DE102005036867A1 (de) Sicherstellung der Privatsphäre bei Lautsprecherausgaben
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
DE102022104516A1 (de) Automatischer akustischer handoff