JP7312037B2 - 咳検出装置、咳検出装置の作動方法及びプログラム - Google Patents

咳検出装置、咳検出装置の作動方法及びプログラム Download PDF

Info

Publication number
JP7312037B2
JP7312037B2 JP2019117220A JP2019117220A JP7312037B2 JP 7312037 B2 JP7312037 B2 JP 7312037B2 JP 2019117220 A JP2019117220 A JP 2019117220A JP 2019117220 A JP2019117220 A JP 2019117220A JP 7312037 B2 JP7312037 B2 JP 7312037B2
Authority
JP
Japan
Prior art keywords
sound
image
image data
discriminator
cough
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019117220A
Other languages
English (en)
Other versions
JP2021003181A (ja
Inventor
勝統 大毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2019117220A priority Critical patent/JP7312037B2/ja
Priority to CN202010572001.9A priority patent/CN112120700A/zh
Priority to US16/909,189 priority patent/US11094337B2/en
Publication of JP2021003181A publication Critical patent/JP2021003181A/ja
Application granted granted Critical
Publication of JP7312037B2 publication Critical patent/JP7312037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/0823Detecting or evaluating cough events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • A61B5/0015Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network characterised by features of the telemetry system
    • A61B5/002Monitoring the patient using a local or closed circuit, e.g. in a room or building
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1113Local tracking of patients, e.g. in a hospital or private home
    • A61B5/1114Tracking parts of the body
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1116Determining posture transitions
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6889Rooms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7203Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
    • A61B5/7207Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal of noise induced by motion artifacts
    • A61B5/721Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal of noise induced by motion artifacts using a separate sensor to detect motion or using motion information derived from signals other than the physiological signal to be measured
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7282Event detection, e.g. detecting unique waveforms indicative of a medical condition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0204Acoustic sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/04Arrangements of multiple sensors of the same type
    • A61B2562/043Arrangements of multiple sensors of the same type in a linear array
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/06Arrangements of multiple sensors of different types
    • A61B2562/063Arrangements of multiple sensors of different types in a linear array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Otolaryngology (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Pulmonology (AREA)
  • Databases & Information Systems (AREA)
  • Dentistry (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)

Description

本開示は、咳の発生の有無について判定する咳の検出技術に関する。
身体に装着しないセンサを用いて咳を検出する装置が提案されている(例えば特許文献1参照)。この装置は、人が座る座席に対応して設けられた動き検出部及び音検出部から送信される動きの情報及び音声の情報に基づいて咳の検出を行う。
特開2018-117708号公報
しかしながら上記の装置による咳の検出では、無声音成分が多いという咳音の性質上、物どうしの衝突音又は摩擦音といった、装置の使用場所で発生するノイズも咳音と誤検知されることがある。
本開示は、より高い精度での咳検出が可能な咳検出装置、咳検出装置の作動方法、及び咳検出のためのプログラムを提供することを目的とする。
本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第二識別器の判定結果に基づく出力をする出力部とを備える。
また、本開示の一態様に係る咳検出装置の作動方法は、音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップを行う
また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる。
それぞれ本開示の一態様に係る咳検出装置、咳検出装置の作動方法、及びプログラムは、より高い精度での咳検出を可能にする。
図1は、実施の形態に係る咳検出装置の構成例を示すブロック図である。 図2は、上記の咳検出装置と用いられるマイクアレイ及び画像センサの位置関係の例を示す平面図である。 図3は、上記の咳検出装置に画像センサから入力される画像データが示す画像の概要を示す模式図である。 図4Aは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。 図4Bは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。 図4Cは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。 図5は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。 図6は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。 図7は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。 図8は、実施の形態の変形例に係る咳検出装置を説明するための模式図である。 図9は、実施の形態に係る咳検出装置が実行する処理の手順例のフロー図である。
(本開示の基礎となった知見)
咳音を検出する従来の手法としては、マイクロフォン(以下、マイクと表記)で取得された音響データから音響特徴量を抽出し、識別器でこの音響特徴量に基づいて咳音であるか否かの判定が行われている。音響特徴量としては、例えばメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)が用いられる。識別器では、例えばこの音響特徴量とGMM(Gaussian Mixture Model)の音響モデルとの類似度に基づく識別、又はこの音響特徴量を入力として用いるDNN(Deep Neural Network)の推論モデルによる識別が実行される。
しかしながら、咳音は無声音であるため、周期的なスペクトル構造を持たない。。したがって、上述のようにモデル化した咳音データを用いての識別では、装置の周辺で発生するノイズも誤って咳音であると識別されやすいという問題がある。
このような問題に対する解決手法の一例として、音響データ以外のセンサデータを用いるマルチモーダルな咳検出手法が挙げられる。音響データ以外のセンサデータとは、例えば赤外線センサ等の感知領域の人の動きを示し得るデータである。そして咳らしい音の発生と、人の所定の動きの発生とが同期した場合に、咳が発生したと判定する。
しかしながら、この手法では、例えば感知領域において、咳らしい音の発生とは無関係に発生した人の動きが判定に用いられる可能性がある。つまり音センサ及び赤外線センサの感知領域内で、咳らしい音と、咳とは無関係の動きとが同時に発生した場合に誤検出が発生し得る。
本発明者は、鋭意検討を重ねてこのような誤検出の発生の可能性を抑えることが可能な下記の咳検出装置、咳検出方法、及び咳検出のためのプログラムに想到した。
本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第一識別器の判定結果及び前記第二識別器の判定結果の少なくとも一方に基づく出力をする出力部とを備える。
これにより、音響特徴量から識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に人が咳をする動作が写っていると判定される可能性が抑えられる。
なお、前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定してもよい。また、前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定してもよい。
このように、音が咳音であるか否か識別と、音の到来方向に対応する画像に咳動作が写っているか否かの識別とは、いずれが先に実行されてもよい。
また、前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定してもよい。
したがって、画像センサによって撮影される範囲のうち、音の到来方向に対応する領域で咳動作に類似した動作が発生した場合に、咳の発生ありと判定される可能性が抑えられる。
また、前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力してもよい。
これにより、音響特徴量に基づく音識別の正確さの向上が図られる。
また、前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力してもよい。
これにより、画像識別の正確さの向上が図られる。
また、前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させてもよい。
このように、画像データは複数の画像センサから出力されるデータからなるものであってもよく、その一部の画像センサが出力する画像データに基づいて咳動作の識別を行ってもよい。
また、前記マイクアレイは複数のマイクアレイを含み、前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応してもよい。
このように、音の発生位置を推定することで、制菌効果のある機器を動作させる等の咳への対応を、より高い局所性で効率のよく実行することができる。
また、本開示の一態様に係る咳検出方法は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定し、前記音響データから前記音の到来方向を推定し、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択し、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定し、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定する。
また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定させる。
このような方法又はプログラムによっても、音響特徴量に基づいて識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に咳動作が写っていると判定される可能性が抑えられる。
なお、本開示において、検出の対象を咳と表現しているが、本開示における咳検出装置、咳検出方法及びプログラムは、くしゃみの検出にも用いることができる。咳とくしゃみとは、発生メカニズムに違いはあるが、いずれも気道系の異物を体外へ排除しようと空気を強制的に排出する運動である。そしていずれも通常の呼吸と比べて、速く大きな動作と大きな音を伴い、その音は発話時に比べて非周期的な周波数成分を高い割合で含み得る。咳又はくしゃみによって体外に排出された空気には、気道系にあった異物、及びおもに飛沫状の唾液等の分泌物が含まれる。本開示における咳検出装置等で咳及びくしゃみの発生を精度よく行われた検出の結果は、例えば体調の観察、又は空気質の維持管理(例えば空気清浄機による空気の浄化又は換気装置による換気)に利用することができる。このような点に鑑み、本開示における咳検出装置等による検出の対象として記載される咳の語は、くしゃみも指し得るものとして用いられる。また、咳音の語はくしゃみの音も指し得るものとして、咳動作の語はくしゃみによる動作も指し得るものとして用いられる。そして検出過程及び検出結果において咳とくしゃみとは区別されてもよいが、この区別は必須ではない。
なお、本開示の包括的又は具体的な態様は、システム、集積回路、又はCD-ROM等のコンピュータ読み取り可能な記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、本開示の一態様に係る情報処理装置、プログラム及び情報処理方法の具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ(工程)及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、本開示の一形態に係る実現形態を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。本開示の実現形態は、現行の独立請求項に限定されるものではなく、他の独立請求項によっても表現され得る。また、各図は本開示に係る概念を説明するための模式図であり、各図に表されるものの形状、個数、配置、縮尺及び大小関係等は必ずしも厳密なものではない。
(実施の形態)
[1.咳検出装置の構成]
実施の形態に係る咳検出装置10は、人が出入り又は利用する室内の空間にいる人による咳の発生の有無を判定する(咳の検出)。また、咳検出装置10は、この判定の結果に応じたデータ等を出力する。
図1は、咳検出装置10の構成例を示すブロック図である。上記のように機能する咳検出装置10は、音響特徴量抽出部11、画像データ選択部12、第一識別器13、第二識別器14、方向推定部15及び出力部16を備える。咳検出装置10は、例えばプロセッサ及びメモリを含む情報処理装置を用いて実現され、これらの構成要素は、メモリに記憶される1個又は複数個のプログラムをプロセッサが実行することで実現される機能的な構成要素である。
咳検出装置10には、マイクロフォンアレイ(本開示ではマイクアレイと表記)20及びカメラ30が接続される。咳検出装置10において、マイクアレイ20が入力を受けた音に応じて出力する音響データの入力を受けるのが、音響特徴量抽出部11及び方向推定部15である。音響特徴量抽出部11は、入力を受けた音響データの音響特徴量を抽出する。この音響特徴量とは、例えばMFCCである。方向推定部15は、マイクアレイ20が入力を受けた音の到来方向を推定する。音の到来方向は、マイクアレイ20が備える複数のマイク素子へのこの音の入力の時間差に基づいて推定される。カメラ30が出力する画像データは、画像データ選択部12に入力される。なお、カメラ30が備える、この画像データを生成する撮像素子は、例えば感知した可視光又は赤外光を画像データとして出力する画像センサである。
第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。この識別は、例えば大量の咳音を記録した音響データから抽出された音の特徴データに基づいてあらかじめ用意した、咳音の統計的な音響モデルを用いて行われる。この場合、第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量の、この音響モデルとの類似度が所定の閾値を超える場合に、マイクアレイ20が入力を受けた音は咳音であるとの判定結果を出力する。また別の例として、第一識別器13は、機械学習によって得られる推論モデルである。この推論モデルは、例えば、咳音の音響特徴量及び咳音でない音の音響特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルである第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量が入力されると、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音が咳音であるか否かの判定結果を出力する。第一識別器13の識別結果は、方向推定部15に入力される。
方向推定部15は、マイクアレイ20が入力を受けた音は咳音であるとの判定結果の入力を受けた場合に、上述の音、つまり咳音の到来方向の推定処理を実行する。方向推定部15の推定した到来方向の情報は、画像データ選択部12に入力される。
画像データ選択部12には上述のとおり、カメラ30が出力する画像データと、咳音の推定された到来方向とが入力される。画像データ選択部12は、入力を受けた画像データ(第一画像データ)から、方向推定部15が推定した到来方向に対応する部分である画像データ(第二画像データ)を選択する。この選択の詳細については後述する。画像データ選択部12は、本実施の形態における画像選択部の例である。
第二識別器14は、カメラ30で撮影された画像を、第二画像データに基づいて識別し、当該画像に咳動作が写っているか否かを判定する。この識別は、例えば大量の咳動作を記録した画像データから抽出された咳動作が写っている画像の特徴データに基づいてあらかじめ用意した、咳動作の統計的な画像モデルを用いて行われる。この場合、第二識別器14は、第二画像データの特徴量を抽出し、この特徴量と画像モデルとの類似度が所定の閾値を超える場合に、第二画像データが示す画像には咳動作が写っているとの判定結果を出力する。また別の例として、第二識別器14は、機械学習によって得られる推論モデルを含む。この推論モデルは、例えば、咳動作が写っている画像の特徴量及び咳動作でない動作が写っている画像の特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルを含む第二識別器14は、第二画像データが入力されると、第二画像データが示す画像に対する識別を実行して、当該画像に咳動作が写っているか否かの判定結果を出力する。
出力部16は、第二識別器14の判定結果に基づく出力をする。出力部16による第二識別器14の判定結果に基づく出力とは、例えば表示装置又はスピーカを介して咳検出装置10のユーザに対して、咳の検出の有無を提示するための文字、画像又は音を示すデータであってもよい(図1における「結果提示データ」)。また例えば、記憶装置に保持される判定結果のログに記録されるデータであってもよい(図1における「結果記録データ」)。また例えば、空気清浄機又は換気扇等の他の機器に所定の動作を実行させる命令であってもよい(図1における「制御コマンド」)。なお、上述の表示装置、スピーカ、記憶装置、空気清浄機等に例示される咳検出装置10の出力の受け手は、咳検出装置10とは別体であって共にひとつのシステムを構成してもよい。または、咳検出装置10を含んで、又は咳検出装置10に含まれて一体であってもよい。
[2.咳音の到来方向及び第二画像データの選択]
次に、咳検出装置10で実行される、咳音の到来方向及び第二画像データの選択について説明する。
咳検出装置10では上述のように、マイクアレイ20から入力を受けた音響データは、方向推定部15によって音の到来方向の推定に用いられる。また、カメラ30から入力を受けた第一画像データから、画像データ選択部12によって、方向推定部15が推定した音の到来方向に対応する部分である第二画像データが選択される。
第一画像データから選択される音の到来方向に対応する部分とは、例えば、第一画像データが示す画像において、当該音の発生源が写っている領域を示す部分、又は当該領域と重なり、かつ画像全体よりも小さい領域を示す部分である。音の到来方向と第一画像データにおける第二画像データの範囲との対応関係は、例えばマイクアレイ20及びカメラ30の配置に応じて定まる。この対応関係について、例を用いて以下に説明する。
図2は、咳検出装置10を用いて咳検出が行われる部屋等の空間におけるマイクアレイ20とカメラ30との位置関係の例を示す平面図である。図中の角度は、この例においてマイクアレイ20から入力された音響データを用いて方向推定部15が推定する音の到来方向を表す。さらにこの例では、マイクアレイ20の真正面から来る音の到来方向は90°と表され、真正面よりも右寄りの到来方向は0°以上90°未満の角度、真正面よりも左寄りの到来方向は90°より大きく180°以下の角度で表される。マイクアレイ20及びカメラ30は、マイクアレイ20の真正面の方向とカメラ30の光軸(図2中、点線)とが平面視で一致するように配置されている。このような位置関係にあるマイクアレイ20及びカメラ30は、咳検出が行われる部屋の、例えば壁に設置される。そしてマイクアレイ20は、この部屋の中で発生した音を拾い、カメラ30は、この部屋の中の全体又は咳検出の対象である所定の部分を撮影範囲に収めて撮影する。
図3は、この例においてカメラ30から咳検出装置10に入力される第一画像データが示す画像の概要を示す模式図である。なお、図3はマイクアレイ20で拾われる音の到来方向とカメラ30で撮影される画像の領域との対応を説明するために単純化されたものであり、カメラ30で実際に撮影される画像に表れる遠近感、歪曲収差等の、この対応の概念の理解に必須でない表現は省略されている。以下で参照する図4Aから図4Cについても同様である。図3に示される画像は、咳検出装置10を用いて咳検出が行われる空間では、複数の人が異なる位置にいることを表す。なお、図3において破線の格子は、カメラ30で撮影された画像を複数の画素ブロックに区切って便宜的に示すものである。
このように複数の人がいる空間の画像を撮影するカメラ30とマイクアレイ20とが図2に示される位置関係にあると想定する。そして、例えばマイクアレイ20から咳検出装置10に入力された音響データから音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音は咳音であると第一識別器13が判定し、かつ方向推定部15が推定した咳音の到来方向が、30°である例を想定する。この到来方向の入力を受けた画像データ選択部12は、到来方向30°に対応する部分を第一画像データから選択する。図4Aは、画像データ選択部12によって第一画像データから選択される部分を説明するための模式図である。
図4Aに示す画像は、カメラ30が図3と同じ空間を撮影したものである。この画像において、到来方向30°に対応するのは、画像の右寄りに位置する網掛けのない領域である。画像データ選択部12は、第一画像データから、この領域を示す部分を第二画像データとして選択する。同様に、方向推定部15が推定した咳音の到来方向が例えば90°であれば、画像データ選択部12は、第一画像データから、図4Bに示す画像の中央付近に位置する網掛けのない領域を示す部分を第二画像データとして選択する。方向推定部15が推定した咳音の到来方向が例えば150°であれば、画像データ選択部12は、第一画像データから、図4Cに示す画像の左寄りに位置する網掛けのない領域を示す部分を第二画像データとして選択する。
なお、画像データ選択部12による第一画像データからの第二画像データの選択とは、第二識別器14が実行する識別による判定が、第二画像データを第一画像データのその他の部分よりも優位に扱って実行されるようにするものであればよい。
第二識別器14が実行する識別によるこのような判定の具体例として、第二画像データのみに基づいて実行されてもよい。このために画像データ選択部12では、第一画像データが示す画像に、第二画像データが示す画像を残すようにクロッピング又はマスキングが施されてもよい。また例えば、第一画像データにおける第二画像データの範囲を特定する処理、例えば第一画像データが示す画像における第二画像データが示す画像の範囲を座標等を用いて特定してもよい。この例の場合、第二識別器14は、画像データ選択部12から座標などの第二画像データの範囲を示す情報を取得し、この範囲に限定して識別による判定を実行する。第二画像データが示す画像の範囲を特定する情報の別の例として、音の到来方向と対応する第二画像データの範囲を指す識別子であってもよい。この識別子はあらかじめ定められ、画像データ選択部12は、方向推定部15から入力された咳音の到来方向に対応する第二画像データの範囲を指す識別子を選択して第二識別器14に通知する。具体例としては、0°以上60°未満の咳音の到来方向に対して、第一画像データのうち図4Aに示す網掛けのない領域を示す範囲が第二画像データの範囲であり、この範囲を指す識別子が「A1」とあらかじめ定められている場合を想定する。また、60°以上の到来方向については、別の範囲を指す識別子が定められている。この場合に、方向推定部15から、推定した咳音の到来方向として例えば30°が通知された画像データ選択部12は、識別子「A1」を選択して第二識別器14に通知する。そして第二識別器14は、第一画像データから識別子「A1」が示す範囲を第二画像データとして識別による判定を実行する。
第二画像データを第一画像データのその他の部分よりも優位に扱う識別による判定の別の具体例として、第一画像データのうちの第二画像データとして選択されなかった部分にも基づくものの、第二画像データの重要度をそれ以外の部分よりも高くして実行されてもよい。第二画像データとして選択されなかった部分とは、図4Aから図4Cの例を用いてより視覚的にいえば、網掛けのある領域である。つまり画像データ選択部12は、第一画像データから、含む画素データの重み付けをより重くする部分を第二画像データとして選択する。なお、重み付けは、識別による判定における第二画像データの画素データの重要度が第一画像データ全体で最も高くなるよう設定されればよい。また、第一画像全体で三段階以上の重みが設定されてもよく、例えば、第二画像データが示す部分からより遠い画素の重要度はより低くなるように設定されてもよい。このような重み付けの処理は、画像データ選択部12で実行されてもよいし、画像データ選択部12は第二画像データの選択まで実行し、選択された第二画像データへの重み付けの処理は第二識別器14で実行されてもよい。
なお、図4Aから図4Cの例では、音の到来方向に応じて選択される第二画像データが示す画像は、第一画像データが示す画像全体を等分したひとつであるが、これに限定されない。音の到来方向に応じて選択される第二画像データが示す部分の第一画像データが示す画像に占める大きさ、又は形状は異なってもよい。例えば音の到来方向が、その取り得る範囲(図2の例では0°以上180°以下)の中央(90°)付近の場合と当該範囲の端(0°又は180°)により近い場合とで、第二画像データが示す部分の大きさが異なっていてもよい。また例えば、音の到来方向に応じて、その方向に居る人の像の形状(見え方)の傾向に合わせて第二画像データが示す部分の形状が異なっていてもよい。例えば、カメラ30が天井又は天井付近にある場合、カメラ30の真下に居る人とカメラ30から離れた位置に居る人とでは、見え方の傾向が異なり得る。また、ある到来方向に応じて選択される第二画像データが示す部分と、他の到来方向に応じて選択される第二画像データが示す部分との間に重複があってもよい。
[3.効果]
上記のような構成を有する咳検出装置10では、カメラ30によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内の複数の人、家具、備品又は電気製品等を被写体に含む画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。
(実施の形態の変形例)
本開示の一又は複数の態様に係る咳検出装置は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記の実施の形態に施したものであっても上述の効果を奏し得るものであれば、本開示の態様に含まれる。下記にそのような変形の例を挙げる。
[変形例1]
上記実施の形態の一変形例における咳検出装置は、音の識別に先んじて画像の識別を実行する点が上記実施の形態における咳検出装置10と異なる。図5は、このような咳検出装置10Aの構成例を示すブロック図である。図5において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
咳検出装置10Aは、咳検出装置10と構成要素間のデータ(情報)の流れが異なる。実施の形態に係る咳検出装置10では、マイクアレイ20から出力された音響データに対して音響特徴量の抽出及び音の識別と、音の到来方向の推定とが実行されてから、画像の識別による咳動作の判定が実行される。咳検出装置10Aでは、マイクアレイ20から出力された音響データに対して、一旦は方向推定部15による音の到来方向の推定のみが実行され、音の識別は画像の識別による咳動作の判定後に実行される点が咳検出装置10と異なる。
図5に示すように、方向推定部15によって推定された音の到来方向の情報は、画像データ選択部12に入力される。画像データ選択部12は、この音の到来方向の情報を用いて、カメラ30から入力される第一画像データにおいてこの到来方向に対応する部分である第二画像データを選択する。第二識別器14は、第二画像データに基づく識別を実行して当該画像に咳動作が写っているか否かを判定する。なお、第二識別器14が実行するこの識別による判定は、上記実施の形態の場合と同じく第二画像データのみに基づいてもよいし、第二画像データ以外の部分にも基づくものの、第二画像データを優位に扱って実行されてもよい。第二識別器14での判定結果は、音響特徴量抽出部11に入力される。
音響特徴量抽出部11は、画像に咳動作が写っているとの判定結果の入力を受けた場合に、音響データの音響特徴量を抽出する。なお、この音響特徴量の抽出は、第二識別器14によって咳動作が写っていると判定された画像に時間的に対応する音響データに対して実行される。そして第一識別器13が、音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。
出力部16は、第一識別器13の判定結果に基づく出力をする。出力部16による第一識別器13の判定結果に基づく出力とは、上記実施の形態の場合と同じく、例えば結果提示データ、結果記録データ、又は制御コマンドである。
このような構成を有する咳検出装置10Aにおいても、カメラ30によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内に様々な被写体に含み得る画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。
[変形例2]
上記実施の形態においては、第一識別器13及び第二識別器14のそれぞれについて、機械学習によって得られる推論モデルであってもよいと述べた。本変形例における咳検出装置は、これらの推論モデルの再学習のためのデータを生成してもよく、また、さらにこのデータを用いて再学習を実行してもよい。図6は、このような咳検出装置10Bの構成例を示すブロック図である。図6において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
咳検出装置10Bは、咳検出装置10の構成に加えて学習用データ蓄積部17を備える。学習用データ蓄積部17は、第一識別器13の再学習に用いられる再学習用データが保存される場所である。学習用データ蓄積部17は、例えば咳検出装置10Bを実現する情報処理装置が備える記憶装置、又は外部にあって当該情報処理装置と通信可能に接続される記憶装置上に設けられる。
再学習用データは、本変形例に係る咳検出装置10Bから出力されるもののひとつである。出力部16は、第一識別器13の判定結果及び第二識別器14の判定結果を取得し、これらに基づいて生成した再学習用データを出力する。学習用データ蓄積部17に保存された再学習用データは、その後の第一識別器13の再学習に用いられる。
例えば、出力部16は、第一識別器13からの判定結果と第二識別器14からの判定結果とが、咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。具体的には、第一識別器13からは音が咳音であるという判定結果を取得し、且つ、第二識別器14からは画像に咳動作は写らないという判定結果を取得した出力部16は、音響特徴量のデータと、咳音であるという正解ラベルとを組み合わせて再学習用データとして出力してもよい。
または出力部16は、第一識別器13及び第二識別器14から、それぞれが実行した判定の尤度をさらに取得し、第一識別器13がした判定の尤度よりも第二識別器14がした判定の尤度が高い場合に、上記のような再学習用データを生成して出力してもよい。つまり、第二識別器14が識別した画像に写っている動作が咳ではないという判定の尤度が、第一識別器13が識別した音が咳音であるという判定の尤度を上回る場合に、第一識別器13の再学習用データを用意されて第一識別器13による識別の正確さの向上が図られる。
なお、本変形例に係る技術は、変形例1にも適用可能である。変形例1に適用した場合、例えば第二識別器14から画像に咳動作が写っているという判定結果を取得し、且つ、第一識別器13から音が咳音ではないという判定結果を取得した出力部16が、画像データと、咳動作でないという正解ラベルとを組み合わせて再学習用データとして出力してもよい。また、さらに第一識別器13が識別した音が咳音ではないという判定の尤度が、第二識別器14が識別した画像に咳音が写っているという判定の尤度を上回る場合に、第二識別器14の再学習用データが用意されて第二識別器14による識別の正確さの向上が図られる。
また、本変形例では、再学習用データを生成する目的で、図6に示す構成例の場合に、第一識別器13で音が咳音ではないと判定された場合にも、方向推定部15による到来方向の推定と第二識別器14による画像の識別による判定とが実行されてもよい。そして、出力部16は、第一識別器13からの判定結果と第二識別器14からの判定結果とが、上記の組み合わせに限らず咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。変形例1に本変形例に係る技術を適用した場合についても同様であり、第二識別器14で画像に咳動作は写らないと判定された場合にも、音響特徴量抽出部11による音響データの特徴量の抽出と第一識別器13による音の識別による判定とが実行されてもよい。
このような構成を有する咳検出装置10Bにおいては、咳検出装置10及び咳検出装置10Aが奏する効果に加えて、使用開始後にも咳検出の正確さの向上が図られるという効果が得られる。
[変形例3]
上記実施の形態及び各変形例では、画像データ選択部12に入力される画像データは、1台のカメラ30が備える画像センサが撮影した画像を示すものである。しかしながら、本変形例のように、複数台のカメラ(以下、まとめてカメラ群ともいう)の画像センサによって撮影される画像を示す画像データが第一画像データとして咳検出装置に入力されてもよい。図7は、複数台のカメラからなるカメラ群30Aが接続される咳検出装置10Cの構成例を示すブロック図である。図7において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
咳検出装置10Cは、咳検出装置10の構成における画像データ選択部12に代えて、画像センサ選択部18を備える。
カメラ群30Aは、カメラ31、32及び33によって構成される。カメラ31、32及び33のそれぞれが備える画像センサからは、撮影した画像を示す画像データが第一画像データとして出力される。カメラ31、32及び33のそれぞれの画像センサが撮影する画像は、マイクアレイ20が入力を受ける音の場所の、少なくとも一部が異なる領域を撮影して取得される。例えば図3の模式図で示される画像がカメラ群30A全体で撮影されたものであるとして、図4Aの模式図で示される画像の網掛けのない部分に表される領域は、カメラ31が撮影して取得した画像に表れるものである。また、図4Bの模式図で示される画像の網掛けのない部分に表される領域は、カメラ32が撮影して取得した画像に表れ、図4Cの模式図で示される画像の網掛けのない部分に表される領域は、カメラ33が撮影して取得した画像に表れるものである。
画像センサ選択部18には、方向推定部15が推定した咳音の到来方向が入力される。画像センサ選択部18は、方向推定部15が推定した到来方向に対応するカメラ(の画像センサ)を選択する。選択された画像センサから出力された第一画像データは、推定された到来方向に対応し、識別処理の対象の画像を示す第二画像データとして第二識別器14に入力される。このような画像センサ選択部18は、本変形例における画像選択部の例である。
その他の構成要素の機能は、上記実施の形態における咳検出装置10の構成要素の機能と共通である。例えば、本変形例において、第二識別機は第二画像データのみに基づいて画像の識別による判定を実行してもよいし、又は第二画像データとしては選択されなかった第一画像データの入力をさらに受けながら、第二画像データを優位に扱って画像の識別による判定を実行する。また、本変形例に係る技術は、上記実施の形態又は各変形例と組み合わせて用いられてもよい。例えば、咳検出装置は、画像データ選択部と画像センサ選択部とを両方備えてもよい。この場合、画像センサ選択部によって選択された画像センサから出力された画像データは画像データ選択部に入力され、画像データ選択部では、当該画像データから、推定された音の到来方向により近い部分が選択される。そして第二識別器では、画像データ選択部が選択した部分をそれ以外の部分より優位に扱って咳動作が写っているか否か判定する。
[変形例4]
上記実施の形態及び各変形例では、咳検出装置に入力される音響データはひとつのマイクアレイから出力されたものである、しかしながら、本変形例のように、複数のマイクアレイを用いて、各マイクアレイから出力される音響データを用いることで、音の到来方向ではなく、当該音の発生した位置が推定されてもよい。図8は、本変形例に係る咳検出装置を説明するための模式図である。
図8に示されるように、本変形例に係る咳検出装置10Dには、咳検出が行われる部屋に設置されるマイクアレイ20a及び20b、並びにカメラ30a及び30bが接続されている。この部屋の中で、マイクアレイ20aとカメラ30aとは、図2に示されるマイクアレイ20とカメラ30との位置関係と同じ位置関係にある。また、マイクアレイ20bとカメラ30bとは、図2に示されるマイクアレイ20とカメラ30との位置関係と同じ位置関係にある。また、マイクアレイ20aと20bとの位置関係は既知であり、利用可能な情報として咳検出装置10Dに入力される。また、カメラ30aと30bとは、変形例3で説明したカメラ群を構成する。なお、本変形例に係る技術に用いられるカメラは1台であってもよい。
本変形例に係る咳検出装置の構成は、上記実施の形態及び各変形例に係る咳検出装置のいずれの構成と共通であってもよい。ただし、本変形例では上述のとおり複数台のカメラが用いられているため、咳検出装置10Dの構成は、変形例3に係る咳検出装置10Cの構成(図7参照)と共通であると想定して説明する。
本変形例では、マイクアレイ20a及び20bから入力された音響データに対する音響特徴量抽出部11及び第一識別器13による処理によって、マイクアレイ20a及び20bが入力を受けた音は咳音か否かが判定される。
また、方向推定部15は、音は咳音であるとの判定結果の入力を第一識別器13から受けると、マイクアレイ20aから入力を受ける音響データからは、マイクアレイ20aを基準とする咳音の到来方向を、マイクアレイ20bから入力を受ける音響データからは、マイクアレイ20bを基準とする咳音の到来方向を推定する。そして方向推定部15は、推定したこれらの到来方向と、マイクアレイ20aと20bとの位置関係の情報に基づいて、咳音と推定された音の発生位置をさらに推定する。図8に示す例では、方向推定部15は、マイクアレイ20aを基準とする咳音の到来方向を90°、マイクアレイ20bを基準とする咳音の到来方向を150°と推定している(図8の点線参照)。さらに、方向推定部15は、マイクアレイ20aと20bとの位置関係の情報を用いて当該咳音の発生位置を推定する。図8に示す例では、この情報としてマイクアレイ20aと20bとの距離dが用いられ三角測量の手法を用いて咳音の発生位置(図8の星印参照)が推定されている。
咳検出装置10Dではさらに、推定された咳音の発生位置に対応する画像センサが画像センサ選択部18によって選択される。図8に示す例では、カメラ30aの画像センサが選択され、当該画像センサが出力する画像データが第二画像データとして第二識別器14に入力される。第二画像データが示す画像には咳動作が写っていると第二識別器14が判定すると、出力部16がこの判定結果に応じた出力を行う。図8に示す例では、咳検出装置10Dはさらに空気清浄機50a及び50bに通信可能に接続されている。この場合、出力部16は空気清浄機50a及び50bのうち、咳音の発生位置により近い空気清浄機50aに、運転開始の制御コマンド、又は空間の制菌効果のあるモードへの切換等の制御コマンドを送信してもよい。これにより、咳によって病原となり得る菌又はウイルスが空間中に飛散しても、その咳の発生源により近い位置で空気清浄機を動作させることで、菌等をより高い速効性で抑制することができる。このように咳音の発生位置に応じた制御の対象となる機器の例としては、空気清浄機の他に、エアコンディショナー、エアカーテン、エアサーキュレータ、換気扇、次亜塩素酸等を用いる空間除菌装置、殺菌灯が挙げられる。機器の機能又は配置によっては、咳音の発生位置により近いものではなく、発生位置に応じた所定の位置にある機器が制御の対象であってもよい。
なお、上記実施の形態及び変形例1から3においても推定された咳音の到来方向に応じて空気清浄機等の機器の制御をすることでも同様の効果は得られる。ただし、本変形例のように咳音の発生位置に応じて制御することで、より高い局所性で効率のよい菌抑制等の効果が期待できる。
上記の様な各種の機器と本開示における咳検出装置とを組み合わせての利用は、例えば病院、高齢者施設、保育所、幼稚園、託児所、学校等での、飛沫感染し得る病気の集団感染の抑制効果を高める。また、一般家庭において利用されて、このような病気の家庭内感染の予防につながる。
(その他の補足事項)
上記実施の形態及び各変形例の説明へのその他の補足事項を以下に挙げる。
(1)図3又は図9に示したマイクアレイ及びカメラとの位置関係は例であり、これらに限定されない。マイクアレイとカメラとの位置関係にかかわらず、マイクアレイから出力される音響データから推定される音の到来方向と、カメラから出力される画像データのうち、当該音の発生源のある位置を含む部分とが対応付けられていればよい。また、上記の例ではマイクアレイ及びカメラの設置場所としては咳検出が行われる部屋の壁を例示したがこれに限定されない。例えば、部屋の壁付近の床、又は天井の任意の位置に設置されてもよい。また、部屋の中にある家具又は電気機器上に設置されたり、これらに組み込まれたりしてもよい。マイクアレイの設置場所によっては、音響データから推定される音の到来方向は図3又は図9の例よりも広い範囲に渡り得る。また、上記の例では説明を簡便にするために音の到来方向を平面上の角度で表現されたがこの表現方式に限定されない。例えばマイクアレイが部屋の中央で天井に設置されている場合、音の到来方向は、マイクアレイの真下から全方向における当該部屋の隅までの範囲を表現し得る任意の表現方式、例えば座標を用いて表現されてもよい。
なお、上記実施の形態又は各変形例に係る咳検出装置の設置場所は、図9のような咳検出の対象となる人が出入りする空間内に限定されず、咳検出装置がマイクアレイ及びカメラ、又はさらに出力部からの出力先と通信可能に接続されていればよい。
(2)上記実施の形態又は変形例2から4に係る咳検出装置において、第一識別器から方向推定部に入力されるのは、判定結果に変えて、音が咳音であると判定した場合における方向推定の実行指示でもよい。同様に変形例1では、第二識別器から、画像に咳動作が写っていると判定した場合において、音響特徴量抽出部への音響特徴抽出の実行指示が入力されてもよい。
(3)上記実施の形態及び各変形例において示される第二識別器はひとつであるがこれに限定されない。推定された咳音の到来方向によって異なる第二識別器が使われてもよい。上述のように、カメラと咳をした人の位置関係によっては、カメラが撮影する画像に写っている人の形状(見え方)の違いが比較的大きい場合がある。人の特定の見え方に特化させた識別のためのモデルによる第二識別器を用いることで、咳動作の識別の精度の向上が図られる。
(4)出力部は、再学習用データを除いて、上記実施の形態又は変形例2から4に係る咳検出装置においては、第二識別器が出力した判定結果、変形例1では、第一識別器が出力した判定結果に基づくデータ等を出力するが、これに限定されない。上記実施の形態及び各変形例において、ある音が発生した場合に、第一識別器が出力した判定の尤度及び第二識別器が出力した判定の尤度を各判定結果と共に取得し、例えば、より高い尤度の判定結果に基づくデータを出力してもよい。また、結果表示データ又は結果記録データとしては、その両方の判定結果をそのまま出力してもよい。
(5)上述の咳検出装置を実現する情報処理装置が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)で構成されてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read-Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサがこのコンピュータプログラムに従って動作することにより、システムLSIはその機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
(6)また、上記実施の形態及び各変形例に係る咳検出装置の構成要素は、例えば、それぞれがプロセッサ及びメモリを備え、互いに通信可能な複数台のコンピュータが協調して動作し、上述の各情報処理装置と同様の機能を提供する情報処理システムの構成要素として実現されてもよい。この場合、これらの構成要素は、例えば、各コンピュータが備えるプロセッサの一部又は全部が、これらのコンピュータが備えるメモリの一部又は全部に記憶される1個又は複数個のプログラムを実行することで実現される。
(7)本開示の一態様は、上記実施の形態及び各変形例に係る咳検出装置には限定されず、咳検出装置が備える特徴的な構成要素によって実行される咳検出の一連の処理手順からなる咳検出方法であってもよい。例えば図9は、実施の形態に係る咳検出装置10が実行する咳検出方法を示すフロー図である。本開示の一態様である咳検出方法の一例をこのフロー図に沿って以下に説明する。
咳検出装置10では、まず、音響データの入力を受けた音響特徴量抽出部11が、音響特徴量を抽出する(S90)。
次に第一識別器13が、この音響特徴量に基づいて、マイクアレイ20が入力を受けた音が咳音か否かを判定する(S91)。この音が咳音でない場合(S92でNo)、咳検出方法の手順は最初に戻って次に入力される音響データに対してステップS91から再開される。この音が咳音である場合(S92でYes)、方向推定部15が同じ音響データからこの音の到来方向を推定する(S93)。
次に画像データ選択部12が、この音が発生した場面を撮影したカメラ30による画像を示す第一画像データから、推定されたこの到来方向に対応する第二画像データを選択する(S94)。
次に第二識別器14が、第二画像データに基づいて、当該画像に咳動作が写っているか否か判定する(S95)。
最後に出力部16が、第二識別器14による判定結果に応じたデータ(情報)又は成語コマンド(指示)を出力する(S96)。
なお、変形例1の場合は、上記のステップS93からS95の実行後にステップS90からS92が実行される。また、変形例2の場合には、出力部16によるステップS96の中で、第一識別器13による判定結果と第二識別器14による判定結果との照合、又はさらに尤度の比較が行われてから、判定結果に応じたデータとして再学習データが生成および出力される。また、変形例3の場合には、ステップS94の内容は、画像センサ選択部18による画像センサの選択となる。
また、本開示の一態様は、このような咳検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
本開示に係る技術は、画像データ及び音響データを用いた咳検出に利用可能であり、例えば、空気清浄機などの空気質又は空気衛生の維持又は改善のための技術と組み合わせて利用可能である。
10、10A、10B、10C、10D 咳検出装置
11 音響特徴量抽出部
12 画像データ選択部
13 第一識別器
14 第二識別器
15 方向推定部
16 出力部
17 学習用データ蓄積部
18 画像センサ選択部
20、20a、20b マイクアレイ
30、30a、30b、31、32、33 カメラ
30A カメラ群
50a、50b 空気清浄機

Claims (15)

  1. マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、
    前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
    前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、
    前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
    前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
    前記第二識別器の判定結果に基づく出力をする出力部とを備える
    咳検出装置。
  2. 前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定する、
    請求項1に記載の咳検出装置。
  3. 前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定する、
    請求項1又は2に記載の咳検出装置。
  4. 前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力する、
    請求項1からのいずれか一項に記載の咳検出装置。
  5. 前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力する、
    請求項に記載の咳検出装置。
  6. 前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、
    前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させる、
    請求項1からのいずれか一項に記載の咳検出装置。
  7. 前記マイクアレイは複数のマイクアレイを含み、
    前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、
    前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応する、
    請求項1からのいずれか一項に記載の咳検出装置。
  8. 咳検出装置の作動方法であって、
    音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ、
    第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ、
    方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ、
    画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
    第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
    出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップ
    を行う咳検出装置の作動方法。
  9. プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
    マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、
    前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、
    前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、
    前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
    前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
    前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる
    プログラム。
  10. マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定する方向推定部と、
    前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
    前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
    前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出する音響特徴量抽出部と、
    前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
    前記第一識別器の判定結果に基づく出力をする出力部とを備える
    咳検出装置。
  11. 前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定する、
    請求項10に記載の咳検出装置。
  12. 前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力する、
    請求項10又は11に記載の咳検出装置。
  13. 前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力する、
    請求項12に記載の咳検出装置。
  14. 咳検出装置の作動方法であって、
    方向推定部が、マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定するステップ、
    画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
    第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
    音響特徴量抽出部が、前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出するステップ、
    第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定するステップ、
    出力部が、前記第一識別器の判定結果に基づく出力をするステップ
    を行う咳検出装置の作動方法。
  15. プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
    マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定させ、
    前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
    前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
    前記画像に咳動作が写っているか否かの判定により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出させ、
    前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定させ、
    前記音が咳音か否かの判定結果に基づく出力をさせる
    プログラム。
JP2019117220A 2019-06-25 2019-06-25 咳検出装置、咳検出装置の作動方法及びプログラム Active JP7312037B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019117220A JP7312037B2 (ja) 2019-06-25 2019-06-25 咳検出装置、咳検出装置の作動方法及びプログラム
CN202010572001.9A CN112120700A (zh) 2019-06-25 2020-06-22 咳嗽检测装置、咳嗽检测方法以及记录介质
US16/909,189 US11094337B2 (en) 2019-06-25 2020-06-23 Cough detection device, cough detection method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019117220A JP7312037B2 (ja) 2019-06-25 2019-06-25 咳検出装置、咳検出装置の作動方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021003181A JP2021003181A (ja) 2021-01-14
JP7312037B2 true JP7312037B2 (ja) 2023-07-20

Family

ID=73851349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019117220A Active JP7312037B2 (ja) 2019-06-25 2019-06-25 咳検出装置、咳検出装置の作動方法及びプログラム

Country Status (3)

Country Link
US (1) US11094337B2 (ja)
JP (1) JP7312037B2 (ja)
CN (1) CN112120700A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
US11862188B2 (en) * 2020-10-22 2024-01-02 Google Llc Method for detecting and classifying coughs or other non-semantic sounds using audio feature set learned from speech
JP6991621B1 (ja) 2021-02-24 2022-01-12 歩 長川 飛沫感染予防教育システム
CN117337466A (zh) * 2021-05-21 2024-01-02 松下电器(美国)知识产权公司 气溶胶量推定方法、气溶胶量推定装置以及程序
CN113534726B (zh) * 2021-07-21 2022-06-24 浙江财经大学 一种用于建筑物中内环境的控制系统
US11973639B2 (en) * 2021-12-27 2024-04-30 Ricoh Company, Ltd. Information processing system, information processing method, and recording medium
CN116509371A (zh) * 2022-01-21 2023-08-01 华为技术有限公司 一种音频检测的方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199078A (ja) 2005-02-07 2005-07-28 Toshiba Corp 状態監視装置
US20090312660A1 (en) 2008-06-17 2009-12-17 Biorics Nv Recognition and localisation of pathologic animal and human sounds
JP2012062163A (ja) 2010-09-16 2012-03-29 Hitachi Building Systems Co Ltd エレベータの制御装置
JP2012173862A (ja) 2011-02-18 2012-09-10 Denso Corp 車両異常通知装置
JP2018117708A (ja) 2017-01-23 2018-08-02 富士ゼロックス株式会社 咳検知装置及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011174624A (ja) 2010-02-23 2011-09-08 Panasonic Corp 空気清浄機
WO2019023879A1 (zh) * 2017-07-31 2019-02-07 深圳和而泰智能家居科技有限公司 咳嗽声音识别方法、设备和存储介质
CN109009129B (zh) * 2018-08-20 2019-06-04 南京农业大学 基于声学分析的母猪呼吸系统疾病预警系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199078A (ja) 2005-02-07 2005-07-28 Toshiba Corp 状態監視装置
US20090312660A1 (en) 2008-06-17 2009-12-17 Biorics Nv Recognition and localisation of pathologic animal and human sounds
JP2012062163A (ja) 2010-09-16 2012-03-29 Hitachi Building Systems Co Ltd エレベータの制御装置
JP2012173862A (ja) 2011-02-18 2012-09-10 Denso Corp 車両異常通知装置
JP2018117708A (ja) 2017-01-23 2018-08-02 富士ゼロックス株式会社 咳検知装置及びプログラム

Also Published As

Publication number Publication date
US11094337B2 (en) 2021-08-17
JP2021003181A (ja) 2021-01-14
US20200411036A1 (en) 2020-12-31
CN112120700A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
JP7312037B2 (ja) 咳検出装置、咳検出装置の作動方法及びプログラム
US11421905B2 (en) Information processing method, recording medium, and information processing system
US11808484B2 (en) Droplet infection suppression system and droplet infection suppression method
CN110291489B (zh) 计算上高效的人类标识智能助理计算机
US20220040356A1 (en) Space cleaning system and space cleaning method
AU2012253292B2 (en) Presence sensing
US8140458B2 (en) Information processing apparatus, information processing method, and computer program
WO2020039818A1 (ja) 空間浄化システム、及び、空間浄化方法
US9530407B2 (en) Spatial audio database based noise discrimination
JP4462339B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN112088315A (zh) 多模式语音定位
JP2016171526A (ja) 画像センサ、人検出方法、制御システム、制御方法及びコンピュータプログラム
KR20120116446A (ko) 음성-신체 식별 상관
JP6713057B2 (ja) 移動体制御装置および移動体制御プログラム
KR20180049471A (ko) 공기청정기 및 그 제어방법
WO2017219450A1 (zh) 一种信息处理方法、装置及移动终端
CN109974225A (zh) 一种空调控制方法、装置、存储介质及空调
TW201943263A (zh) 多層次狀態偵測系統與方法
CN109986553B (zh) 一种主动交互的机器人、系统、方法及存储装置
JP2009042910A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2014060491A (ja) 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム
CN113028597B (zh) 语音的控制方法及装置
JP6853163B2 (ja) 話者方向推定装置、話者方向推定方法、およびプログラム
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones
JP2017138922A (ja) 画像センサ及び学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230707

R150 Certificate of patent or registration of utility model

Ref document number: 7312037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150