JP7312037B2

JP7312037B2 - 咳検出装置、咳検出装置の作動方法及びプログラム

Info

Publication number: JP7312037B2
Application number: JP2019117220A
Authority: JP
Inventors: 勝統大毛
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2023-07-20
Anticipated expiration: 2039-06-25
Also published as: US11094337B2; JP2021003181A; US20200411036A1; CN112120700A

Description

本開示は、咳の発生の有無について判定する咳の検出技術に関する。

身体に装着しないセンサを用いて咳を検出する装置が提案されている（例えば特許文献１参照）。この装置は、人が座る座席に対応して設けられた動き検出部及び音検出部から送信される動きの情報及び音声の情報に基づいて咳の検出を行う。

特開２０１８－１１７７０８号公報

しかしながら上記の装置による咳の検出では、無声音成分が多いという咳音の性質上、物どうしの衝突音又は摩擦音といった、装置の使用場所で発生するノイズも咳音と誤検知されることがある。

本開示は、より高い精度での咳検出が可能な咳検出装置、咳検出装置の作動方法、及び咳検出のためのプログラムを提供することを目的とする。

本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第二識別器の判定結果に基づく出力をする出力部とを備える。

また、本開示の一態様に係る咳検出装置の作動方法は、音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ、第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ、方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ、画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップを行う。

また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる。

それぞれ本開示の一態様に係る咳検出装置、咳検出装置の作動方法、及びプログラムは、より高い精度での咳検出を可能にする。

図１は、実施の形態に係る咳検出装置の構成例を示すブロック図である。図２は、上記の咳検出装置と用いられるマイクアレイ及び画像センサの位置関係の例を示す平面図である。図３は、上記の咳検出装置に画像センサから入力される画像データが示す画像の概要を示す模式図である。図４Ａは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。図４Ｂは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。図４Ｃは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。図５は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。図６は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。図７は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。図８は、実施の形態の変形例に係る咳検出装置を説明するための模式図である。図９は、実施の形態に係る咳検出装置が実行する処理の手順例のフロー図である。

（本開示の基礎となった知見）
咳音を検出する従来の手法としては、マイクロフォン（以下、マイクと表記）で取得された音響データから音響特徴量を抽出し、識別器でこの音響特徴量に基づいて咳音であるか否かの判定が行われている。音響特徴量としては、例えばメル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficients）が用いられる。識別器では、例えばこの音響特徴量とＧＭＭ（Gaussian Mixture Model）の音響モデルとの類似度に基づく識別、又はこの音響特徴量を入力として用いるＤＮＮ（Deep Neural Network）の推論モデルによる識別が実行される。

しかしながら、咳音は無声音であるため、周期的なスペクトル構造を持たない。。したがって、上述のようにモデル化した咳音データを用いての識別では、装置の周辺で発生するノイズも誤って咳音であると識別されやすいという問題がある。

このような問題に対する解決手法の一例として、音響データ以外のセンサデータを用いるマルチモーダルな咳検出手法が挙げられる。音響データ以外のセンサデータとは、例えば赤外線センサ等の感知領域の人の動きを示し得るデータである。そして咳らしい音の発生と、人の所定の動きの発生とが同期した場合に、咳が発生したと判定する。

しかしながら、この手法では、例えば感知領域において、咳らしい音の発生とは無関係に発生した人の動きが判定に用いられる可能性がある。つまり音センサ及び赤外線センサの感知領域内で、咳らしい音と、咳とは無関係の動きとが同時に発生した場合に誤検出が発生し得る。

本発明者は、鋭意検討を重ねてこのような誤検出の発生の可能性を抑えることが可能な下記の咳検出装置、咳検出方法、及び咳検出のためのプログラムに想到した。

本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第一識別器の判定結果及び前記第二識別器の判定結果の少なくとも一方に基づく出力をする出力部とを備える。

これにより、音響特徴量から識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に人が咳をする動作が写っていると判定される可能性が抑えられる。

なお、前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定してもよい。また、前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定してもよい。

このように、音が咳音であるか否か識別と、音の到来方向に対応する画像に咳動作が写っているか否かの識別とは、いずれが先に実行されてもよい。

また、前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定してもよい。

したがって、画像センサによって撮影される範囲のうち、音の到来方向に対応する領域で咳動作に類似した動作が発生した場合に、咳の発生ありと判定される可能性が抑えられる。

また、前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力してもよい。

これにより、音響特徴量に基づく音識別の正確さの向上が図られる。

また、前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力してもよい。

これにより、画像識別の正確さの向上が図られる。

また、前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させてもよい。

このように、画像データは複数の画像センサから出力されるデータからなるものであってもよく、その一部の画像センサが出力する画像データに基づいて咳動作の識別を行ってもよい。

また、前記マイクアレイは複数のマイクアレイを含み、前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応してもよい。

このように、音の発生位置を推定することで、制菌効果のある機器を動作させる等の咳への対応を、より高い局所性で効率のよく実行することができる。

また、本開示の一態様に係る咳検出方法は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定し、前記音響データから前記音の到来方向を推定し、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択し、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定し、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定する。

また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定させる。

このような方法又はプログラムによっても、音響特徴量に基づいて識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に咳動作が写っていると判定される可能性が抑えられる。

なお、本開示において、検出の対象を咳と表現しているが、本開示における咳検出装置、咳検出方法及びプログラムは、くしゃみの検出にも用いることができる。咳とくしゃみとは、発生メカニズムに違いはあるが、いずれも気道系の異物を体外へ排除しようと空気を強制的に排出する運動である。そしていずれも通常の呼吸と比べて、速く大きな動作と大きな音を伴い、その音は発話時に比べて非周期的な周波数成分を高い割合で含み得る。咳又はくしゃみによって体外に排出された空気には、気道系にあった異物、及びおもに飛沫状の唾液等の分泌物が含まれる。本開示における咳検出装置等で咳及びくしゃみの発生を精度よく行われた検出の結果は、例えば体調の観察、又は空気質の維持管理（例えば空気清浄機による空気の浄化又は換気装置による換気）に利用することができる。このような点に鑑み、本開示における咳検出装置等による検出の対象として記載される咳の語は、くしゃみも指し得るものとして用いられる。また、咳音の語はくしゃみの音も指し得るものとして、咳動作の語はくしゃみによる動作も指し得るものとして用いられる。そして検出過程及び検出結果において咳とくしゃみとは区別されてもよいが、この区別は必須ではない。

なお、本開示の包括的又は具体的な態様は、システム、集積回路、又はＣＤ－ＲＯＭ等のコンピュータ読み取り可能な記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、本開示の一態様に係る情報処理装置、プログラム及び情報処理方法の具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ（工程）及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、本開示の一形態に係る実現形態を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。本開示の実現形態は、現行の独立請求項に限定されるものではなく、他の独立請求項によっても表現され得る。また、各図は本開示に係る概念を説明するための模式図であり、各図に表されるものの形状、個数、配置、縮尺及び大小関係等は必ずしも厳密なものではない。

（実施の形態）
［１．咳検出装置の構成］
実施の形態に係る咳検出装置１０は、人が出入り又は利用する室内の空間にいる人による咳の発生の有無を判定する（咳の検出）。また、咳検出装置１０は、この判定の結果に応じたデータ等を出力する。

図１は、咳検出装置１０の構成例を示すブロック図である。上記のように機能する咳検出装置１０は、音響特徴量抽出部１１、画像データ選択部１２、第一識別器１３、第二識別器１４、方向推定部１５及び出力部１６を備える。咳検出装置１０は、例えばプロセッサ及びメモリを含む情報処理装置を用いて実現され、これらの構成要素は、メモリに記憶される１個又は複数個のプログラムをプロセッサが実行することで実現される機能的な構成要素である。

咳検出装置１０には、マイクロフォンアレイ（本開示ではマイクアレイと表記）２０及びカメラ３０が接続される。咳検出装置１０において、マイクアレイ２０が入力を受けた音に応じて出力する音響データの入力を受けるのが、音響特徴量抽出部１１及び方向推定部１５である。音響特徴量抽出部１１は、入力を受けた音響データの音響特徴量を抽出する。この音響特徴量とは、例えばＭＦＣＣである。方向推定部１５は、マイクアレイ２０が入力を受けた音の到来方向を推定する。音の到来方向は、マイクアレイ２０が備える複数のマイク素子へのこの音の入力の時間差に基づいて推定される。カメラ３０が出力する画像データは、画像データ選択部１２に入力される。なお、カメラ３０が備える、この画像データを生成する撮像素子は、例えば感知した可視光又は赤外光を画像データとして出力する画像センサである。

第一識別器１３は、音響特徴量抽出部１１が抽出した音響特徴量に基づいて、マイクアレイ２０が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。この識別は、例えば大量の咳音を記録した音響データから抽出された音の特徴データに基づいてあらかじめ用意した、咳音の統計的な音響モデルを用いて行われる。この場合、第一識別器１３は、音響特徴量抽出部１１が抽出した音響特徴量の、この音響モデルとの類似度が所定の閾値を超える場合に、マイクアレイ２０が入力を受けた音は咳音であるとの判定結果を出力する。また別の例として、第一識別器１３は、機械学習によって得られる推論モデルである。この推論モデルは、例えば、咳音の音響特徴量及び咳音でない音の音響特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルである第一識別器１３は、音響特徴量抽出部１１が抽出した音響特徴量が入力されると、マイクアレイ２０が入力を受けた音に対する識別を実行して、当該音が咳音であるか否かの判定結果を出力する。第一識別器１３の識別結果は、方向推定部１５に入力される。

方向推定部１５は、マイクアレイ２０が入力を受けた音は咳音であるとの判定結果の入力を受けた場合に、上述の音、つまり咳音の到来方向の推定処理を実行する。方向推定部１５の推定した到来方向の情報は、画像データ選択部１２に入力される。

画像データ選択部１２には上述のとおり、カメラ３０が出力する画像データと、咳音の推定された到来方向とが入力される。画像データ選択部１２は、入力を受けた画像データ（第一画像データ）から、方向推定部１５が推定した到来方向に対応する部分である画像データ（第二画像データ）を選択する。この選択の詳細については後述する。画像データ選択部１２は、本実施の形態における画像選択部の例である。

第二識別器１４は、カメラ３０で撮影された画像を、第二画像データに基づいて識別し、当該画像に咳動作が写っているか否かを判定する。この識別は、例えば大量の咳動作を記録した画像データから抽出された咳動作が写っている画像の特徴データに基づいてあらかじめ用意した、咳動作の統計的な画像モデルを用いて行われる。この場合、第二識別器１４は、第二画像データの特徴量を抽出し、この特徴量と画像モデルとの類似度が所定の閾値を超える場合に、第二画像データが示す画像には咳動作が写っているとの判定結果を出力する。また別の例として、第二識別器１４は、機械学習によって得られる推論モデルを含む。この推論モデルは、例えば、咳動作が写っている画像の特徴量及び咳動作でない動作が写っている画像の特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルを含む第二識別器１４は、第二画像データが入力されると、第二画像データが示す画像に対する識別を実行して、当該画像に咳動作が写っているか否かの判定結果を出力する。

出力部１６は、第二識別器１４の判定結果に基づく出力をする。出力部１６による第二識別器１４の判定結果に基づく出力とは、例えば表示装置又はスピーカを介して咳検出装置１０のユーザに対して、咳の検出の有無を提示するための文字、画像又は音を示すデータであってもよい（図１における「結果提示データ」）。また例えば、記憶装置に保持される判定結果のログに記録されるデータであってもよい（図１における「結果記録データ」）。また例えば、空気清浄機又は換気扇等の他の機器に所定の動作を実行させる命令であってもよい（図１における「制御コマンド」）。なお、上述の表示装置、スピーカ、記憶装置、空気清浄機等に例示される咳検出装置１０の出力の受け手は、咳検出装置１０とは別体であって共にひとつのシステムを構成してもよい。または、咳検出装置１０を含んで、又は咳検出装置１０に含まれて一体であってもよい。

［２．咳音の到来方向及び第二画像データの選択］
次に、咳検出装置１０で実行される、咳音の到来方向及び第二画像データの選択について説明する。

咳検出装置１０では上述のように、マイクアレイ２０から入力を受けた音響データは、方向推定部１５によって音の到来方向の推定に用いられる。また、カメラ３０から入力を受けた第一画像データから、画像データ選択部１２によって、方向推定部１５が推定した音の到来方向に対応する部分である第二画像データが選択される。

第一画像データから選択される音の到来方向に対応する部分とは、例えば、第一画像データが示す画像において、当該音の発生源が写っている領域を示す部分、又は当該領域と重なり、かつ画像全体よりも小さい領域を示す部分である。音の到来方向と第一画像データにおける第二画像データの範囲との対応関係は、例えばマイクアレイ２０及びカメラ３０の配置に応じて定まる。この対応関係について、例を用いて以下に説明する。

図２は、咳検出装置１０を用いて咳検出が行われる部屋等の空間におけるマイクアレイ２０とカメラ３０との位置関係の例を示す平面図である。図中の角度は、この例においてマイクアレイ２０から入力された音響データを用いて方向推定部１５が推定する音の到来方向を表す。さらにこの例では、マイクアレイ２０の真正面から来る音の到来方向は９０°と表され、真正面よりも右寄りの到来方向は０°以上９０°未満の角度、真正面よりも左寄りの到来方向は９０°より大きく１８０°以下の角度で表される。マイクアレイ２０及びカメラ３０は、マイクアレイ２０の真正面の方向とカメラ３０の光軸（図２中、点線）とが平面視で一致するように配置されている。このような位置関係にあるマイクアレイ２０及びカメラ３０は、咳検出が行われる部屋の、例えば壁に設置される。そしてマイクアレイ２０は、この部屋の中で発生した音を拾い、カメラ３０は、この部屋の中の全体又は咳検出の対象である所定の部分を撮影範囲に収めて撮影する。

図３は、この例においてカメラ３０から咳検出装置１０に入力される第一画像データが示す画像の概要を示す模式図である。なお、図３はマイクアレイ２０で拾われる音の到来方向とカメラ３０で撮影される画像の領域との対応を説明するために単純化されたものであり、カメラ３０で実際に撮影される画像に表れる遠近感、歪曲収差等の、この対応の概念の理解に必須でない表現は省略されている。以下で参照する図４Ａから図４Ｃについても同様である。図３に示される画像は、咳検出装置１０を用いて咳検出が行われる空間では、複数の人が異なる位置にいることを表す。なお、図３において破線の格子は、カメラ３０で撮影された画像を複数の画素ブロックに区切って便宜的に示すものである。

このように複数の人がいる空間の画像を撮影するカメラ３０とマイクアレイ２０とが図２に示される位置関係にあると想定する。そして、例えばマイクアレイ２０から咳検出装置１０に入力された音響データから音響特徴量抽出部１１が抽出した音響特徴量に基づいて、マイクアレイ２０が入力を受けた音は咳音であると第一識別器１３が判定し、かつ方向推定部１５が推定した咳音の到来方向が、３０°である例を想定する。この到来方向の入力を受けた画像データ選択部１２は、到来方向３０°に対応する部分を第一画像データから選択する。図４Ａは、画像データ選択部１２によって第一画像データから選択される部分を説明するための模式図である。

図４Ａに示す画像は、カメラ３０が図３と同じ空間を撮影したものである。この画像において、到来方向３０°に対応するのは、画像の右寄りに位置する網掛けのない領域である。画像データ選択部１２は、第一画像データから、この領域を示す部分を第二画像データとして選択する。同様に、方向推定部１５が推定した咳音の到来方向が例えば９０°であれば、画像データ選択部１２は、第一画像データから、図４Ｂに示す画像の中央付近に位置する網掛けのない領域を示す部分を第二画像データとして選択する。方向推定部１５が推定した咳音の到来方向が例えば１５０°であれば、画像データ選択部１２は、第一画像データから、図４Ｃに示す画像の左寄りに位置する網掛けのない領域を示す部分を第二画像データとして選択する。

なお、画像データ選択部１２による第一画像データからの第二画像データの選択とは、第二識別器１４が実行する識別による判定が、第二画像データを第一画像データのその他の部分よりも優位に扱って実行されるようにするものであればよい。

第二識別器１４が実行する識別によるこのような判定の具体例として、第二画像データのみに基づいて実行されてもよい。このために画像データ選択部１２では、第一画像データが示す画像に、第二画像データが示す画像を残すようにクロッピング又はマスキングが施されてもよい。また例えば、第一画像データにおける第二画像データの範囲を特定する処理、例えば第一画像データが示す画像における第二画像データが示す画像の範囲を座標等を用いて特定してもよい。この例の場合、第二識別器１４は、画像データ選択部１２から座標などの第二画像データの範囲を示す情報を取得し、この範囲に限定して識別による判定を実行する。第二画像データが示す画像の範囲を特定する情報の別の例として、音の到来方向と対応する第二画像データの範囲を指す識別子であってもよい。この識別子はあらかじめ定められ、画像データ選択部１２は、方向推定部１５から入力された咳音の到来方向に対応する第二画像データの範囲を指す識別子を選択して第二識別器１４に通知する。具体例としては、０°以上６０°未満の咳音の到来方向に対して、第一画像データのうち図４Ａに示す網掛けのない領域を示す範囲が第二画像データの範囲であり、この範囲を指す識別子が「Ａ１」とあらかじめ定められている場合を想定する。また、６０°以上の到来方向については、別の範囲を指す識別子が定められている。この場合に、方向推定部１５から、推定した咳音の到来方向として例えば３０°が通知された画像データ選択部１２は、識別子「Ａ１」を選択して第二識別器１４に通知する。そして第二識別器１４は、第一画像データから識別子「Ａ１」が示す範囲を第二画像データとして識別による判定を実行する。

第二画像データを第一画像データのその他の部分よりも優位に扱う識別による判定の別の具体例として、第一画像データのうちの第二画像データとして選択されなかった部分にも基づくものの、第二画像データの重要度をそれ以外の部分よりも高くして実行されてもよい。第二画像データとして選択されなかった部分とは、図４Ａから図４Ｃの例を用いてより視覚的にいえば、網掛けのある領域である。つまり画像データ選択部１２は、第一画像データから、含む画素データの重み付けをより重くする部分を第二画像データとして選択する。なお、重み付けは、識別による判定における第二画像データの画素データの重要度が第一画像データ全体で最も高くなるよう設定されればよい。また、第一画像全体で三段階以上の重みが設定されてもよく、例えば、第二画像データが示す部分からより遠い画素の重要度はより低くなるように設定されてもよい。このような重み付けの処理は、画像データ選択部１２で実行されてもよいし、画像データ選択部１２は第二画像データの選択まで実行し、選択された第二画像データへの重み付けの処理は第二識別器１４で実行されてもよい。

なお、図４Ａから図４Ｃの例では、音の到来方向に応じて選択される第二画像データが示す画像は、第一画像データが示す画像全体を等分したひとつであるが、これに限定されない。音の到来方向に応じて選択される第二画像データが示す部分の第一画像データが示す画像に占める大きさ、又は形状は異なってもよい。例えば音の到来方向が、その取り得る範囲（図２の例では０°以上１８０°以下）の中央（９０°）付近の場合と当該範囲の端（０°又は１８０°）により近い場合とで、第二画像データが示す部分の大きさが異なっていてもよい。また例えば、音の到来方向に応じて、その方向に居る人の像の形状（見え方）の傾向に合わせて第二画像データが示す部分の形状が異なっていてもよい。例えば、カメラ３０が天井又は天井付近にある場合、カメラ３０の真下に居る人とカメラ３０から離れた位置に居る人とでは、見え方の傾向が異なり得る。また、ある到来方向に応じて選択される第二画像データが示す部分と、他の到来方向に応じて選択される第二画像データが示す部分との間に重複があってもよい。

［３．効果］
上記のような構成を有する咳検出装置１０では、カメラ３０によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内の複数の人、家具、備品又は電気製品等を被写体に含む画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。

（実施の形態の変形例）
本開示の一又は複数の態様に係る咳検出装置は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記の実施の形態に施したものであっても上述の効果を奏し得るものであれば、本開示の態様に含まれる。下記にそのような変形の例を挙げる。

［変形例１］
上記実施の形態の一変形例における咳検出装置は、音の識別に先んじて画像の識別を実行する点が上記実施の形態における咳検出装置１０と異なる。図５は、このような咳検出装置１０Ａの構成例を示すブロック図である。図５において咳検出装置１０と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。

咳検出装置１０Ａは、咳検出装置１０と構成要素間のデータ（情報）の流れが異なる。実施の形態に係る咳検出装置１０では、マイクアレイ２０から出力された音響データに対して音響特徴量の抽出及び音の識別と、音の到来方向の推定とが実行されてから、画像の識別による咳動作の判定が実行される。咳検出装置１０Ａでは、マイクアレイ２０から出力された音響データに対して、一旦は方向推定部１５による音の到来方向の推定のみが実行され、音の識別は画像の識別による咳動作の判定後に実行される点が咳検出装置１０と異なる。

図５に示すように、方向推定部１５によって推定された音の到来方向の情報は、画像データ選択部１２に入力される。画像データ選択部１２は、この音の到来方向の情報を用いて、カメラ３０から入力される第一画像データにおいてこの到来方向に対応する部分である第二画像データを選択する。第二識別器１４は、第二画像データに基づく識別を実行して当該画像に咳動作が写っているか否かを判定する。なお、第二識別器１４が実行するこの識別による判定は、上記実施の形態の場合と同じく第二画像データのみに基づいてもよいし、第二画像データ以外の部分にも基づくものの、第二画像データを優位に扱って実行されてもよい。第二識別器１４での判定結果は、音響特徴量抽出部１１に入力される。

音響特徴量抽出部１１は、画像に咳動作が写っているとの判定結果の入力を受けた場合に、音響データの音響特徴量を抽出する。なお、この音響特徴量の抽出は、第二識別器１４によって咳動作が写っていると判定された画像に時間的に対応する音響データに対して実行される。そして第一識別器１３が、音響特徴量抽出部１１が抽出した音響特徴量に基づいて、マイクアレイ２０が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。

出力部１６は、第一識別器１３の判定結果に基づく出力をする。出力部１６による第一識別器１３の判定結果に基づく出力とは、上記実施の形態の場合と同じく、例えば結果提示データ、結果記録データ、又は制御コマンドである。

このような構成を有する咳検出装置１０Ａにおいても、カメラ３０によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内に様々な被写体に含み得る画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。

［変形例２］
上記実施の形態においては、第一識別器１３及び第二識別器１４のそれぞれについて、機械学習によって得られる推論モデルであってもよいと述べた。本変形例における咳検出装置は、これらの推論モデルの再学習のためのデータを生成してもよく、また、さらにこのデータを用いて再学習を実行してもよい。図６は、このような咳検出装置１０Ｂの構成例を示すブロック図である。図６において咳検出装置１０と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。

咳検出装置１０Ｂは、咳検出装置１０の構成に加えて学習用データ蓄積部１７を備える。学習用データ蓄積部１７は、第一識別器１３の再学習に用いられる再学習用データが保存される場所である。学習用データ蓄積部１７は、例えば咳検出装置１０Ｂを実現する情報処理装置が備える記憶装置、又は外部にあって当該情報処理装置と通信可能に接続される記憶装置上に設けられる。

再学習用データは、本変形例に係る咳検出装置１０Ｂから出力されるもののひとつである。出力部１６は、第一識別器１３の判定結果及び第二識別器１４の判定結果を取得し、これらに基づいて生成した再学習用データを出力する。学習用データ蓄積部１７に保存された再学習用データは、その後の第一識別器１３の再学習に用いられる。

例えば、出力部１６は、第一識別器１３からの判定結果と第二識別器１４からの判定結果とが、咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。具体的には、第一識別器１３からは音が咳音であるという判定結果を取得し、且つ、第二識別器１４からは画像に咳動作は写らないという判定結果を取得した出力部１６は、音響特徴量のデータと、咳音であるという正解ラベルとを組み合わせて再学習用データとして出力してもよい。

または出力部１６は、第一識別器１３及び第二識別器１４から、それぞれが実行した判定の尤度をさらに取得し、第一識別器１３がした判定の尤度よりも第二識別器１４がした判定の尤度が高い場合に、上記のような再学習用データを生成して出力してもよい。つまり、第二識別器１４が識別した画像に写っている動作が咳ではないという判定の尤度が、第一識別器１３が識別した音が咳音であるという判定の尤度を上回る場合に、第一識別器１３の再学習用データを用意されて第一識別器１３による識別の正確さの向上が図られる。

なお、本変形例に係る技術は、変形例１にも適用可能である。変形例１に適用した場合、例えば第二識別器１４から画像に咳動作が写っているという判定結果を取得し、且つ、第一識別器１３から音が咳音ではないという判定結果を取得した出力部１６が、画像データと、咳動作でないという正解ラベルとを組み合わせて再学習用データとして出力してもよい。また、さらに第一識別器１３が識別した音が咳音ではないという判定の尤度が、第二識別器１４が識別した画像に咳音が写っているという判定の尤度を上回る場合に、第二識別器１４の再学習用データが用意されて第二識別器１４による識別の正確さの向上が図られる。

また、本変形例では、再学習用データを生成する目的で、図６に示す構成例の場合に、第一識別器１３で音が咳音ではないと判定された場合にも、方向推定部１５による到来方向の推定と第二識別器１４による画像の識別による判定とが実行されてもよい。そして、出力部１６は、第一識別器１３からの判定結果と第二識別器１４からの判定結果とが、上記の組み合わせに限らず咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。変形例１に本変形例に係る技術を適用した場合についても同様であり、第二識別器１４で画像に咳動作は写らないと判定された場合にも、音響特徴量抽出部１１による音響データの特徴量の抽出と第一識別器１３による音の識別による判定とが実行されてもよい。

このような構成を有する咳検出装置１０Ｂにおいては、咳検出装置１０及び咳検出装置１０Ａが奏する効果に加えて、使用開始後にも咳検出の正確さの向上が図られるという効果が得られる。

［変形例３］
上記実施の形態及び各変形例では、画像データ選択部１２に入力される画像データは、１台のカメラ３０が備える画像センサが撮影した画像を示すものである。しかしながら、本変形例のように、複数台のカメラ（以下、まとめてカメラ群ともいう）の画像センサによって撮影される画像を示す画像データが第一画像データとして咳検出装置に入力されてもよい。図７は、複数台のカメラからなるカメラ群３０Ａが接続される咳検出装置１０Ｃの構成例を示すブロック図である。図７において咳検出装置１０と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。

咳検出装置１０Ｃは、咳検出装置１０の構成における画像データ選択部１２に代えて、画像センサ選択部１８を備える。

カメラ群３０Ａは、カメラ３１、３２及び３３によって構成される。カメラ３１、３２及び３３のそれぞれが備える画像センサからは、撮影した画像を示す画像データが第一画像データとして出力される。カメラ３１、３２及び３３のそれぞれの画像センサが撮影する画像は、マイクアレイ２０が入力を受ける音の場所の、少なくとも一部が異なる領域を撮影して取得される。例えば図３の模式図で示される画像がカメラ群３０Ａ全体で撮影されたものであるとして、図４Ａの模式図で示される画像の網掛けのない部分に表される領域は、カメラ３１が撮影して取得した画像に表れるものである。また、図４Ｂの模式図で示される画像の網掛けのない部分に表される領域は、カメラ３２が撮影して取得した画像に表れ、図４Ｃの模式図で示される画像の網掛けのない部分に表される領域は、カメラ３３が撮影して取得した画像に表れるものである。

画像センサ選択部１８には、方向推定部１５が推定した咳音の到来方向が入力される。画像センサ選択部１８は、方向推定部１５が推定した到来方向に対応するカメラ（の画像センサ）を選択する。選択された画像センサから出力された第一画像データは、推定された到来方向に対応し、識別処理の対象の画像を示す第二画像データとして第二識別器１４に入力される。このような画像センサ選択部１８は、本変形例における画像選択部の例である。

その他の構成要素の機能は、上記実施の形態における咳検出装置１０の構成要素の機能と共通である。例えば、本変形例において、第二識別機は第二画像データのみに基づいて画像の識別による判定を実行してもよいし、又は第二画像データとしては選択されなかった第一画像データの入力をさらに受けながら、第二画像データを優位に扱って画像の識別による判定を実行する。また、本変形例に係る技術は、上記実施の形態又は各変形例と組み合わせて用いられてもよい。例えば、咳検出装置は、画像データ選択部と画像センサ選択部とを両方備えてもよい。この場合、画像センサ選択部によって選択された画像センサから出力された画像データは画像データ選択部に入力され、画像データ選択部では、当該画像データから、推定された音の到来方向により近い部分が選択される。そして第二識別器では、画像データ選択部が選択した部分をそれ以外の部分より優位に扱って咳動作が写っているか否か判定する。

［変形例４］
上記実施の形態及び各変形例では、咳検出装置に入力される音響データはひとつのマイクアレイから出力されたものである、しかしながら、本変形例のように、複数のマイクアレイを用いて、各マイクアレイから出力される音響データを用いることで、音の到来方向ではなく、当該音の発生した位置が推定されてもよい。図８は、本変形例に係る咳検出装置を説明するための模式図である。

図８に示されるように、本変形例に係る咳検出装置１０Ｄには、咳検出が行われる部屋に設置されるマイクアレイ２０ａ及び２０ｂ、並びにカメラ３０ａ及び３０ｂが接続されている。この部屋の中で、マイクアレイ２０ａとカメラ３０ａとは、図２に示されるマイクアレイ２０とカメラ３０との位置関係と同じ位置関係にある。また、マイクアレイ２０ｂとカメラ３０ｂとは、図２に示されるマイクアレイ２０とカメラ３０との位置関係と同じ位置関係にある。また、マイクアレイ２０ａと２０ｂとの位置関係は既知であり、利用可能な情報として咳検出装置１０Ｄに入力される。また、カメラ３０ａと３０ｂとは、変形例３で説明したカメラ群を構成する。なお、本変形例に係る技術に用いられるカメラは１台であってもよい。

本変形例に係る咳検出装置の構成は、上記実施の形態及び各変形例に係る咳検出装置のいずれの構成と共通であってもよい。ただし、本変形例では上述のとおり複数台のカメラが用いられているため、咳検出装置１０Ｄの構成は、変形例３に係る咳検出装置１０Ｃの構成（図７参照）と共通であると想定して説明する。

本変形例では、マイクアレイ２０ａ及び２０ｂから入力された音響データに対する音響特徴量抽出部１１及び第一識別器１３による処理によって、マイクアレイ２０ａ及び２０ｂが入力を受けた音は咳音か否かが判定される。

また、方向推定部１５は、音は咳音であるとの判定結果の入力を第一識別器１３から受けると、マイクアレイ２０ａから入力を受ける音響データからは、マイクアレイ２０ａを基準とする咳音の到来方向を、マイクアレイ２０ｂから入力を受ける音響データからは、マイクアレイ２０ｂを基準とする咳音の到来方向を推定する。そして方向推定部１５は、推定したこれらの到来方向と、マイクアレイ２０ａと２０ｂとの位置関係の情報に基づいて、咳音と推定された音の発生位置をさらに推定する。図８に示す例では、方向推定部１５は、マイクアレイ２０ａを基準とする咳音の到来方向を９０°、マイクアレイ２０ｂを基準とする咳音の到来方向を１５０°と推定している（図８の点線参照）。さらに、方向推定部１５は、マイクアレイ２０ａと２０ｂとの位置関係の情報を用いて当該咳音の発生位置を推定する。図８に示す例では、この情報としてマイクアレイ２０ａと２０ｂとの距離ｄが用いられ三角測量の手法を用いて咳音の発生位置（図８の星印参照）が推定されている。

咳検出装置１０Ｄではさらに、推定された咳音の発生位置に対応する画像センサが画像センサ選択部１８によって選択される。図８に示す例では、カメラ３０ａの画像センサが選択され、当該画像センサが出力する画像データが第二画像データとして第二識別器１４に入力される。第二画像データが示す画像には咳動作が写っていると第二識別器１４が判定すると、出力部１６がこの判定結果に応じた出力を行う。図８に示す例では、咳検出装置１０Ｄはさらに空気清浄機５０ａ及び５０ｂに通信可能に接続されている。この場合、出力部１６は空気清浄機５０ａ及び５０ｂのうち、咳音の発生位置により近い空気清浄機５０ａに、運転開始の制御コマンド、又は空間の制菌効果のあるモードへの切換等の制御コマンドを送信してもよい。これにより、咳によって病原となり得る菌又はウイルスが空間中に飛散しても、その咳の発生源により近い位置で空気清浄機を動作させることで、菌等をより高い速効性で抑制することができる。このように咳音の発生位置に応じた制御の対象となる機器の例としては、空気清浄機の他に、エアコンディショナー、エアカーテン、エアサーキュレータ、換気扇、次亜塩素酸等を用いる空間除菌装置、殺菌灯が挙げられる。機器の機能又は配置によっては、咳音の発生位置により近いものではなく、発生位置に応じた所定の位置にある機器が制御の対象であってもよい。

なお、上記実施の形態及び変形例１から３においても推定された咳音の到来方向に応じて空気清浄機等の機器の制御をすることでも同様の効果は得られる。ただし、本変形例のように咳音の発生位置に応じて制御することで、より高い局所性で効率のよい菌抑制等の効果が期待できる。

上記の様な各種の機器と本開示における咳検出装置とを組み合わせての利用は、例えば病院、高齢者施設、保育所、幼稚園、託児所、学校等での、飛沫感染し得る病気の集団感染の抑制効果を高める。また、一般家庭において利用されて、このような病気の家庭内感染の予防につながる。

（その他の補足事項）
上記実施の形態及び各変形例の説明へのその他の補足事項を以下に挙げる。

（１）図３又は図９に示したマイクアレイ及びカメラとの位置関係は例であり、これらに限定されない。マイクアレイとカメラとの位置関係にかかわらず、マイクアレイから出力される音響データから推定される音の到来方向と、カメラから出力される画像データのうち、当該音の発生源のある位置を含む部分とが対応付けられていればよい。また、上記の例ではマイクアレイ及びカメラの設置場所としては咳検出が行われる部屋の壁を例示したがこれに限定されない。例えば、部屋の壁付近の床、又は天井の任意の位置に設置されてもよい。また、部屋の中にある家具又は電気機器上に設置されたり、これらに組み込まれたりしてもよい。マイクアレイの設置場所によっては、音響データから推定される音の到来方向は図３又は図９の例よりも広い範囲に渡り得る。また、上記の例では説明を簡便にするために音の到来方向を平面上の角度で表現されたがこの表現方式に限定されない。例えばマイクアレイが部屋の中央で天井に設置されている場合、音の到来方向は、マイクアレイの真下から全方向における当該部屋の隅までの範囲を表現し得る任意の表現方式、例えば座標を用いて表現されてもよい。

なお、上記実施の形態又は各変形例に係る咳検出装置の設置場所は、図９のような咳検出の対象となる人が出入りする空間内に限定されず、咳検出装置がマイクアレイ及びカメラ、又はさらに出力部からの出力先と通信可能に接続されていればよい。

（２）上記実施の形態又は変形例２から４に係る咳検出装置において、第一識別器から方向推定部に入力されるのは、判定結果に変えて、音が咳音であると判定した場合における方向推定の実行指示でもよい。同様に変形例１では、第二識別器から、画像に咳動作が写っていると判定した場合において、音響特徴量抽出部への音響特徴抽出の実行指示が入力されてもよい。

（３）上記実施の形態及び各変形例において示される第二識別器はひとつであるがこれに限定されない。推定された咳音の到来方向によって異なる第二識別器が使われてもよい。上述のように、カメラと咳をした人の位置関係によっては、カメラが撮影する画像に写っている人の形状（見え方）の違いが比較的大きい場合がある。人の特定の見え方に特化させた識別のためのモデルによる第二識別器を用いることで、咳動作の識別の精度の向上が図られる。

（４）出力部は、再学習用データを除いて、上記実施の形態又は変形例２から４に係る咳検出装置においては、第二識別器が出力した判定結果、変形例１では、第一識別器が出力した判定結果に基づくデータ等を出力するが、これに限定されない。上記実施の形態及び各変形例において、ある音が発生した場合に、第一識別器が出力した判定の尤度及び第二識別器が出力した判定の尤度を各判定結果と共に取得し、例えば、より高い尤度の判定結果に基づくデータを出力してもよい。また、結果表示データ又は結果記録データとしては、その両方の判定結果をそのまま出力してもよい。

（５）上述の咳検出装置を実現する情報処理装置が備える構成要素の一部又は全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）で構成されてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（Read-Only Memory）、ＲＡＭ（Random Access Memory）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサがこのコンピュータプログラムに従って動作することにより、システムＬＳＩはその機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。

（６）また、上記実施の形態及び各変形例に係る咳検出装置の構成要素は、例えば、それぞれがプロセッサ及びメモリを備え、互いに通信可能な複数台のコンピュータが協調して動作し、上述の各情報処理装置と同様の機能を提供する情報処理システムの構成要素として実現されてもよい。この場合、これらの構成要素は、例えば、各コンピュータが備えるプロセッサの一部又は全部が、これらのコンピュータが備えるメモリの一部又は全部に記憶される１個又は複数個のプログラムを実行することで実現される。

（７）本開示の一態様は、上記実施の形態及び各変形例に係る咳検出装置には限定されず、咳検出装置が備える特徴的な構成要素によって実行される咳検出の一連の処理手順からなる咳検出方法であってもよい。例えば図９は、実施の形態に係る咳検出装置１０が実行する咳検出方法を示すフロー図である。本開示の一態様である咳検出方法の一例をこのフロー図に沿って以下に説明する。

咳検出装置１０では、まず、音響データの入力を受けた音響特徴量抽出部１１が、音響特徴量を抽出する（Ｓ９０）。

次に第一識別器１３が、この音響特徴量に基づいて、マイクアレイ２０が入力を受けた音が咳音か否かを判定する（Ｓ９１）。この音が咳音でない場合（Ｓ９２でＮｏ）、咳検出方法の手順は最初に戻って次に入力される音響データに対してステップＳ９１から再開される。この音が咳音である場合（Ｓ９２でＹｅｓ）、方向推定部１５が同じ音響データからこの音の到来方向を推定する（Ｓ９３）。

次に画像データ選択部１２が、この音が発生した場面を撮影したカメラ３０による画像を示す第一画像データから、推定されたこの到来方向に対応する第二画像データを選択する（Ｓ９４）。

次に第二識別器１４が、第二画像データに基づいて、当該画像に咳動作が写っているか否か判定する（Ｓ９５）。

最後に出力部１６が、第二識別器１４による判定結果に応じたデータ（情報）又は成語コマンド（指示）を出力する（Ｓ９６）。

なお、変形例１の場合は、上記のステップＳ９３からＳ９５の実行後にステップＳ９０からＳ９２が実行される。また、変形例２の場合には、出力部１６によるステップＳ９６の中で、第一識別器１３による判定結果と第二識別器１４による判定結果との照合、又はさらに尤度の比較が行われてから、判定結果に応じたデータとして再学習データが生成および出力される。また、変形例３の場合には、ステップＳ９４の内容は、画像センサ選択部１８による画像センサの選択となる。

また、本開示の一態様は、このような咳検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

本開示に係る技術は、画像データ及び音響データを用いた咳検出に利用可能であり、例えば、空気清浄機などの空気質又は空気衛生の維持又は改善のための技術と組み合わせて利用可能である。

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ咳検出装置
１１音響特徴量抽出部
１２画像データ選択部
１３第一識別器
１４第二識別器
１５方向推定部
１６出力部
１７学習用データ蓄積部
１８画像センサ選択部
２０、２０ａ、２０ｂマイクアレイ
３０、３０ａ、３０ｂ、３１、３２、３３カメラ
３０Ａカメラ群
５０ａ、５０ｂ空気清浄機

Claims

マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
前記第二識別器の判定結果に基づく出力をする出力部とを備える
咳検出装置。
前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定する、
請求項１に記載の咳検出装置。
前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定する、
請求項１又は２に記載の咳検出装置。
前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力する、
請求項１から３のいずれか一項に記載の咳検出装置。
前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力する、
請求項４に記載の咳検出装置。
前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、
前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させる、
請求項１から５のいずれか一項に記載の咳検出装置。
前記マイクアレイは複数のマイクアレイを含み、
前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、
前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応する、
請求項１から６のいずれか一項に記載の咳検出装置。
咳検出装置の作動方法であって、
音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ、
第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ、
方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ、
画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップ
を行う咳検出装置の作動方法。
プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、
前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる
プログラム。
マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定する方向推定部と、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
前記第一識別器の判定結果に基づく出力をする出力部とを備える
咳検出装置。
前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定する、
請求項１０に記載の咳検出装置。
前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力する、
請求項１０又は１１に記載の咳検出装置。
前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力する、
請求項１２に記載の咳検出装置。
咳検出装置の作動方法であって、
方向推定部が、マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定するステップ、
画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
音響特徴量抽出部が、前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出するステップ、
第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定するステップ、
出力部が、前記第一識別器の判定結果に基づく出力をするステップ
を行う咳検出装置の作動方法。
プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定させ、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
前記画像に咳動作が写っているか否かの判定により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出させ、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定させ、
前記音が咳音か否かの判定結果に基づく出力をさせる
プログラム。