JP6920361B2 - 判定装置、判定方法、及びプログラム - Google Patents

判定装置、判定方法、及びプログラム Download PDF

Info

Publication number
JP6920361B2
JP6920361B2 JP2019034701A JP2019034701A JP6920361B2 JP 6920361 B2 JP6920361 B2 JP 6920361B2 JP 2019034701 A JP2019034701 A JP 2019034701A JP 2019034701 A JP2019034701 A JP 2019034701A JP 6920361 B2 JP6920361 B2 JP 6920361B2
Authority
JP
Japan
Prior art keywords
feature
feature amount
data
sensor
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019034701A
Other languages
English (en)
Other versions
JP2020141221A (ja
Inventor
良介 丹野
良介 丹野
伊藤 浩二
浩二 伊藤
暖 小澤
暖 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2019034701A priority Critical patent/JP6920361B2/ja
Publication of JP2020141221A publication Critical patent/JP2020141221A/ja
Application granted granted Critical
Publication of JP6920361B2 publication Critical patent/JP6920361B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Time Recorders, Dirve Recorders, Access Control (AREA)
  • Studio Devices (AREA)

Description

本発明は、複数のモダリティ情報を用いて、所定の事象を検出する技術に関連するものである。
近年、ドライブレコーダーが普及している。ドライブレコーダーの映像は、例えば交通事故時における捜査や過失割合の判断に利用される。また、運転ドライバーの安全運転意識の改善や危険運転への気付きを促進するといった安全運転指導のためにドライブレコーダー映像を活用する事例も増加している。
安全運転指導等のためにドライブレコーダー映像を活用するためには、記録された大量のドライブレコーダーの映像の中から危険運転シーンを抽出し判別をする必要がある。しかし、判別作業には多くの時間と人員、労力や注意力を要するといった問題がある。そのため、危険運転シーンを自動的に判別する技術の実現が求められている。
特開2018−126374号公報
映像と正解ラベルにより、深層ニューラルネットワークの学習を行うことで、深層ニューラルネットワークにより危険運転シーンの自動判別を行うことが考えられる。
しかし、危険運転シーンの自動判別を行うには、複雑で且つ層が深い深層ニューラルネットワークの構造を採用せざるを得ず、計算量が非常に大きくなるとともに、必要なメモリ量も非常に大きくなる。また、学習に要する時間も莫大となり得る。よって、映像等の単独のモダリティ情報を用いて深層ニューラルネットワークの学習を行って、危険運転シーンの自動判別を行う手法は現実的ではない。また、映像データとセンサデータを用いて危険運転シーンの自動判別を行う従来手法が存在するが、精度が十分ではない。
なお、上記のような課題は、危険運転シーンの検出に限らずに、様々な分野での所定事象の検出において生じ得る課題である。
本発明は上記の点に鑑みてなされたものであり、複数のモダリティ情報に基づいて、精度良く所定の事象を検出する技術を提供することを目的とする。
開示の技術によれば、 音声データから音声特徴量を抽出する音声特徴抽出部と、
映像データから映像特徴量を抽出する映像特徴抽出部と、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部とを備える判定装置であって
前記判定部は、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合部と、
前記第1特徴結合部により結合された特徴量から、ある時刻のデータがそれ以前の時刻のデータの影響を受けているような時系列データの特徴量である時系列特徴量を抽出する時系列特徴抽出部と、
前記時系列特徴抽出部から出力された時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合部と、
前記第2特徴結合部により結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出部と
を備える判定装置が提供される。

開示の技術によれば、複数のモダリティ情報に基づいて、精度良く所定の事象を検出する技術を提供することが可能となる。
本発明の実施の形態における判定装置の機能構成図である。 判定装置のハードウェア構成例を示す図である。 本発明の実施の形態における判定装置の機能構成図である。 本発明の実施の形態における判定装置の機能構成図である。 本発明の実施の形態における判定装置の機能構成図である。 評価結果を説明するための図である。 従来技術における混合行列を示す図である。 本発明に係る技術における混合行列を示す図である。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
本実施の形態では、自動車から取得される映像データ、音声データ、センサデータに基づいて、危険運転の有無を判定する例を説明するが、本発明の適用先は、危険運転の有無の判定に限られるわけではなく、本発明は他の様々な分野に適用可能である。例えば、日本酒製造過程におけるもろみを造る段階に本発明を適用することが可能である。
(装置構成)
図1に、本発明の実施の形態における判定装置100の機能構成例を示す。図1に示すように、判定装置100は、音声前処理部101、映像前処理部102、センサ前処理部103、音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106、音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109、映像/センサ特徴結合部110、時系列特徴モデリング部111、映像/センサ/音声特徴結合部112、非時系列特徴モデリング部113、及び出力部114を有する。各部の機能の概要は下記のとおりである。
音声前処理部101は、入力された音声データから、例えば、メル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)を抽出する前処理を実行する。
映像前処理部102は、入力された映像(動画)データを、所定枚数の画像毎に分割する処理を行う。なお、所定枚数の画像毎に分割する処理を行わずに、映像データをそのまま入力に用いてもよい。
センサ前処理部103は、加速度及び速度等のセンサデータに対して、例えば、その値が平均0、標準偏差1になるように正規化を行う。
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106は、それぞれ深層ニューラルネットワーク(DNN)である。例えば、これらの特徴量抽出ネットワーク部104〜106として、CNN(Convolutional Neural Network)を使用することができる。CNNは、出力層、畳み込み層、プーリング層、全結合層、出力層を有するニューラルネットワークである。
音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109はそれぞれ、例えば、入力の次元数よりも出力の次元数が小さいニューラルネットワークである。また、音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109としてそれぞれ、主成分分析(PCA)の機能、あるいは非負値行列因子分解(NMF)の機能を用いてもよい。
映像/センサ特徴結合部110は、映像特徴圧縮部108から出力された特徴量とセンサ特徴圧縮部109から出力された特徴量とを結合する。
時系列特徴モデリング部111は、ある時刻のデータがそれ以前の時刻のデータの影響を受けているような時系列データの特徴を抽出する。時系列特徴モデリング部111は、例えば、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)などからなるニューラルネットワークである。時系列特徴モデリング部111から出力される特徴量を、時系列特徴量と呼ぶことにする。
映像/センサ/音声特徴結合部112は、音声特徴圧縮部107から出力された特徴量と、時系列特徴モデリング部111から出力された時系列特徴量とを結合する。
非時系列特徴モデリング部113は、時系列特徴を抽出する性質を持たない深層ニューラルネットワーク等である。だだし、時系列特徴を抽出する性質を持つ深層ニューラルネットワークをここで用いることとしてもよい。
出力部114は、目的とする判定結果を出力する。本実施の形態の場合、例えば、危険運転であるかどうかを示すラベルを出力する。
なお、「音声前処理部101+音声特徴量抽出ネットワーク部104+音声特徴圧縮部107」を音声特徴抽出部と呼び、「映像前処理部102+映像特徴量抽出ネットワーク部105+映像特徴圧縮部108」を映像特徴抽出部と呼び、「センサ前処理部103+センサ特徴量抽出ネットワーク部106+センサ特徴圧縮部109」をセンサ特徴抽出部と呼んでもよい。
また、「映像/センサ特徴結合部110+時系列特徴モデリング部111+映像/センサ/音声特徴結合部112+非時系列特徴モデリング部113」を判定部と呼んでもよい。
(ハードウェア構成例)
判定装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、コンピュータとプログラムで実現できる点は、後述する図3〜図5で説明する判定装置についても同様である。
すなわち、判定装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該判定装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD−ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該判定装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(判定装置100の動作)
ここでは、図1に示す判定装置100の動作の一例として、自動車に搭載されたマイク、カメラ、センサにより収集された音声データ、映像データ、センサデータに基づいて、危険運転かどうかを判定する動作について説明する。ここでのセンサデータは、例えば、その自動車の速度、及び加速度である。なお、「マイク、カメラ、センサにより収集された音声データ、映像データ、センサデータ」は、例えば、ドライブレコーダーで収集されたデータである。
<学習フェーズ>
多数の自動車から集められた多数の(「音声データ、映像データ、センサデータ」と正解ラベル)を用意する。ここでは、1個の「音声データ、映像データ、センサデータ」が、所定時間長分のデータを格納したファイルであってもよい。正解ラベルは、当該ファイル毎に付されていてもよいし、ファイル中の、より細かい時間単位のデータに付されていてもよい。
当該「音声データ、映像データ、センサデータ」を順次判定装置100に入力し、出力部114からの出力値と、正解ラベルとを比較し、誤差を小さくするように判定装置100における各部のパラメータ(重み)を修正することで、最適なパラメータを求める。
最適なパラメータがセットされた判定装置100により、判定フェーズでの危険運転の判定が行われる。なお、パラメータの修正については、既存技術を用いることができる。
また、本実施の形態では、正解ラベルは、「事故(Accident)」、「ヒヤリハット(Near Miss)」、「正常(No−Near−Miss)」の3種類である。ただし、これは一例である。
<判定フェーズ>
次に、判定フェーズにおける判定装置100の動作を説明する。なお、入力から出力までの判定装置100の動作は、学習フェーズと判定フェーズとで同じである。ただし、判定フェーズでは、最適なパラメータがセットされているので、出力部114が正解を出す可能性が高くなっている。
判定フェーズにおいて、判定対象のデータが用意される。当該データは、学習フェーズで与えるデータと同様の形式のデータであって、正解ラベルを持たないデータである。また、判定フェーズにおいては、判定対象の自動車からリアルタイムに取得された「音声データ、映像データ、センサデータ」を入力データとして用いることとしてもよい。
図1に示すように、音声前処理部101、映像前処理部102、センサ前処理部103にそれぞれ、順次、音声データ、映像データ、センサデータが入力される。
音声前処理部101は、入力された音声データからメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)を抽出し、それを音声特徴量抽出ネットワーク部104に入力する。
映像前処理部102は、入力された映像データ(画像(フレーム)が連続的に並んだデータ)を、所定枚数の画像毎に分割する処理を行い、分割された各データ(複数枚の画像データ)を映像特徴量抽出ネットワーク部105に入力する。センサ前処理部103は、センサデータに対して正規化を行い、正規化したデータをセンサ特徴量抽出ネットワーク部106に入力する。
各特徴量抽出ネットワーク部に入力されるデータに関して、映像データとセンサデータについては、例えば、時刻1、時刻2、時刻3のように時刻が進行するとして、まず、時刻1の映像データ1とセンサデータ1が入力され、次に、時刻2の映像データ2とセンサデータ2が入力され、次に、時刻3の映像データ3とセンサデータ3が入力され、……のように、同期したデータが入力される。なお、ここでの1時刻での映像データは、所定枚数の画像の集合である。また、センサデータは、その時刻で得られた速度及び加速度である。
音声データに関しては、ここでは、映像データとセンサデータに対応する時刻単位ではなく、より大きな時刻の単位で入力される。例えば、時刻1〜10の時間の音声データ1、時刻11〜20の時間の音声データ2、…のように入力される。よって、ここでは、音声データに関しては、映像データとセンサデータのような時系列の特徴を抽出できないことを想定している。
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106はそれぞれ、入力されたデータについての特徴量を出力する。
音声特徴量抽出ネットワーク部104、映像特徴量抽出ネットワーク部105、センサ特徴量抽出ネットワーク部106はそれぞれ、入力データとして、ある次元数のベクトルXを入力し、出力データとして、ある次元数のベクトルYを出力する。このベクトルYが上記の特徴量である。
音声特徴圧縮部107、映像特徴圧縮部108、センサ特徴圧縮部109はそれぞれ、その前段にある特徴量抽出ネットワーク部から出力された特徴量(ベクトル)を入力し、当該特徴量を圧縮して、入力されたベクトルの次元数よりも小さな次元数のベクトルを出力する。
映像/センサ特徴結合部110は、映像特徴圧縮部108から出力された特徴量とセンサ特徴圧縮部109から出力された特徴量とを結合する。例えば、映像特徴圧縮部108から出力された特徴量が、べクトル(a1,a2,a3)であり、センサ特徴圧縮部109から出力された特徴量がべクトル(b1,b2,b3)であるとすると、映像/センサ特徴結合部110は、べクトル(a1,a2,a3,b1,b2,b3)を出力する。
映像/センサ特徴結合部110から出力された結合特徴量は時系列特徴モデリング部111に入力され、時系列特徴モデリング部111は、時系列特徴量を出力する。なお、時系列特徴モデリング部111も基本的には、ある次元数のベクトルXを入力とし、出力データとして、ある次元数のベクトルYを出力する動作を行う。
映像/センサ/音声特徴結合部112は、音声特徴圧縮部107から出力された特徴量と、時系列特徴モデリング部111から出力された特徴量とを結合する。例えば、音声特徴圧縮部107から出力された特徴量が、べクトル(c1,c2,c3)であり、時系列特徴モデリング部111から出力された特徴量がべクトル(d1,d2,d3)であるとすると、映像/センサ/音声特徴結合部110は、べクトル(c1,c2,c3,d1,d2,d3)を出力する。
非時系列特徴モデリング部113は、映像/センサ/音声特徴結合部110から入力された特徴量から、判定結果となる特徴量を抽出し、これを出力部114に与える。出力部は、判定結果を出力する。なお、非時系列特徴モデリング部113も基本的には、ある次元数のベクトルXを入力とし、出力データとして、ある次元数のベクトルYを出力する動作を行う。
なお、非時系列特徴モデリング部113(及び出力部114)は、判定結果(判定されたラベル)を、所定時間長のデータ入力毎(例えば、前述した、入力のファイル単位)に出力するように構成されていてもよいし、時刻毎(前述した時刻1、時刻2、…の単位)で出力するように構成されていてもよい。
(他の例)
上記の例では、映像データとセンサデータについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、音声データについては、映像データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができないため、図1に示すように、音声の特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、映像・センサデータの時系列特徴量と結合することとしている。
ここで、音声データについても、映像データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができる場合には、判定装置を図3に示す判定装置200のようにしてもよい。
図3に示す構成では、音声/映像/センサ特徴結合部210において、音声データの特徴量、映像データの特徴量、センサデータの特徴量が結合され、結合された特徴量が時系列特徴モデリング部211に出力され、時系列特徴モデリング部211が、結合された特徴量についての時系列特徴量を抽出して、出力部212に出力する。
また、音声データとセンサデータについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、映像データについては、音声データ及びセンサデータと同期したデータを特徴量抽出ネットワーク部に与えることができない場合には、図4に示す構成としてもよい。この場合、映像の特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、音声・センサデータの時系列特徴量と結合することとしている。
また、音声データと映像データについては、同期したデータを特徴量抽出ネットワーク部に与えることができ、センサデータについては、音声データ及び映像データと同期したデータを特徴量抽出ネットワーク部に与えることができない場合には、図5に示す構成としてもよい。この場合、センサデータの特徴量については、時系列特徴モデリング部111を通さずに、映像/センサ/音声特徴結合部112において、音声・映像データの時系列特徴量と結合することとしている。
(評価結果)
図1に示すように音声の非時系列性を考慮した構成における本発明に係る技術の評価結果について説明する。
図6は、映像データとセンサデータを用いた従来手法(図6の上側)と、本発明に係る技術(図6の下側)とについて、各評価指標(Precision、Recall、F1−Score)の結果を示している。全指標において、本発明に係る技術は従来手法よりも良い結果が得られていることがわかる。
図7は、従来手法で算出した値に関しての混合行列を示す。例えば、Accidentの行に着目すると、これは、正解ラベル(Accident)のデータ個数が36個であり、そのうち、Accidentであるとの判定結果が得られた個数が15、Near Missであるとの判定結果が得られた個数が13、No Near Missとの判定結果が得られた個数が8であることを示す。他の行も同様である。
図8は、本発明に係る技術を用いた場合の混合行列を示す。図の見方は図7と同様である。
図7、図8に示すように、「事故(Accident)」と「ヒヤリハット(Near−Miss)」の誤認識(図中の太枠部分)が多い従来手法(図7)と比較して、本発明に係る技術(図8)ではこれが改善されていることがわかる。例えば,低速度での衝突による事故の場合、映像とセンサのみでは判別しずらい事象について、音声も用いることで事故時に発生する衝突音などの環境音、また、人の声などが、判定精度向上に寄与していると考えられる。
(実施の形態のまとめ、効果)
以上説明したように、本実施の形態では、映像・音声・センサ全てのモダリティ情報を統合的に用いることにより、精度良く危険運転シーンの判別を行うことができる。
また、本実施の形態では、単独のモダリティ情報を利用して複雑で計算量的に重量なニューラルネットワークの構造を取る代わりに、複数のモダリティ情報を統合的に利用することで、コンパクトで計算量的に軽量なニューラルネットワークの構造で判別精度を担保することができる。
なお、重量なニューラルネットワークは、例えば、ニューラルネットワークの各層(例えば、畳み込み層や全結合層など)を数十層積み重ねたネットワークであり、代表的なネットワークアーキテクチャとして、VGG16,VGG19,ResNet−50などがある。また、軽量なニューラルネットワークは、例えば、ニューラルネットワークの各層(例えば、畳み込み層や全結合層など)を単純に数層積み重ねたネットワークである。
すなわち、複数のモーダル情報を用いることで、軽量なニューラルネットワーク構成の組合せのみで、1つのモダリティ情報のみを利用する重量なニューラルネットワーク構成と同程度もしくはそれ以上の分類精度を実現している。また、複数のモーダル情報を用いることで、軽量なニューラルネットワーク構成の組合せのみで、1つのモダリティ情報のみを利用する重量なニューラルネットワーク構成と比較して、高速・省メモリ・学習容易性を実現している。
本明細書には、少なくとも、下記の各項における判定装置、判定方法、及びプログラムが開示されている。
(第1項)
音声データから音声特徴量を抽出する音声特徴抽出部と、
映像データから映像特徴量を抽出する映像特徴抽出部と、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部と
を備える判定装置。
(第2項)
前記判定部は、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合部と、
前記第1特徴結合部により結合された特徴量から時系列特徴量を抽出する時系列特徴抽出部と、
前記時系列特徴抽出部から出力された時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合部と、
前記第2特徴結合部により結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出部と
を備える第1項に記載の判定装置。
(第3項)
前記判定部は、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量を結合する結合部と、
前記結合部により結合された特徴量から、判定結果となる時系列特徴量を抽出する時系列特徴抽出部と
を備える第1項に記載の判定装置。
(第4項)
判定装置が実行する判定方法であって、
音声データから音声特徴量を抽出する音声特徴抽出ステップと、
映像データから映像特徴量を抽出する映像特徴抽出ステップと、
センサデータからセンサ特徴量を抽出するセンサ特徴抽出ステップと、
前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定ステップと
を備える判定方法。
(第5項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の判定装置における各部として機能させるためのプログラム。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100、200 判定装置
101、201 音声前処理部
102、202 映像前処理部
103、203 センサ前処理部
104、204 音声特徴量抽出ネットワーク部
105、205 像特徴量抽出ネットワーク部
106、206 センサ特徴量抽出ネットワーク部
107、207 音声特徴圧縮部
108、208 映像特徴圧縮部
109、209 センサ特徴圧縮部
111、211 時系列特徴モデリング部
112、210 映像/センサ/音声特徴結合部
114、212 出力部
1000 ドライブ装置
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置

Claims (3)

  1. 音声データから音声特徴量を抽出する音声特徴抽出部と、
    映像データから映像特徴量を抽出する映像特徴抽出部と、
    センサデータからセンサ特徴量を抽出するセンサ特徴抽出部と、
    前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定部とを備える判定装置であって
    前記判定部は、
    前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合部と、
    前記第1特徴結合部により結合された特徴量から、ある時刻のデータがそれ以前の時刻のデータの影響を受けているような時系列データの特徴量である時系列特徴量を抽出する時系列特徴抽出部と、
    前記時系列特徴抽出部から出力された時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合部と、
    前記第2特徴結合部により結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出部と
    を備える判定装置
  2. 判定装置が実行する判定方法であって、
    音声データから音声特徴量を抽出する音声特徴抽出ステップと、
    映像データから映像特徴量を抽出する映像特徴抽出ステップと、
    センサデータからセンサ特徴量を抽出するセンサ特徴抽出ステップと、
    前記音声特徴量、前記映像特徴量、及び前記センサ特徴量に基づいて、所定の事象の有無を判定する判定ステップとを備え
    前記判定ステップは、
    前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの2つの特徴量を結合する第1特徴結合ステップと、
    前記第1特徴結合ステップにより結合された特徴量から、ある時刻のデータがそれ以前の時刻のデータの影響を受けているような時系列データの特徴量である時系列特徴量を抽出する時系列特徴抽出ステップと、
    前記時系列特徴抽出ステップにより得られた時系列特徴量と、前記音声特徴量、前記映像特徴量、及び前記センサ特徴量のうちの前記2つの特徴量以外の特徴量とを結合する第2特徴結合ステップと、
    前記第2特徴結合ステップにより結合された特徴量から、判定結果となる特徴量を抽出する特徴抽出ステップと
    を備える判定方法。
  3. コンピュータを、請求項1に記載の判定装置における各部として機能させるためのプログラム。
JP2019034701A 2019-02-27 2019-02-27 判定装置、判定方法、及びプログラム Active JP6920361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019034701A JP6920361B2 (ja) 2019-02-27 2019-02-27 判定装置、判定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019034701A JP6920361B2 (ja) 2019-02-27 2019-02-27 判定装置、判定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020141221A JP2020141221A (ja) 2020-09-03
JP6920361B2 true JP6920361B2 (ja) 2021-08-18

Family

ID=72265234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019034701A Active JP6920361B2 (ja) 2019-02-27 2019-02-27 判定装置、判定方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6920361B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2016157893A (ja) * 2015-02-26 2016-09-01 東京エレクトロン株式会社 カーボン膜の成膜方法および成膜装置
JP2017138694A (ja) * 2016-02-02 2017-08-10 ソニー株式会社 映像処理装置及び映像処理方法

Also Published As

Publication number Publication date
JP2020141221A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
CN110647893B (zh) 目标对象识别方法、装置、存储介质和设备
CN107690657B (zh) 根据影像发现商户
Takeda et al. International large-scale vehicle corpora for research on driver behavior on the road
KR20190069457A (ko) 이미지 기반 차량 손실 평가 방법, 장치 및 시스템, 및 전자 디바이스
Kuchibhotla et al. A comparative analysis of classifiers in emotion recognition through acoustic features
Sajid et al. An efficient deep learning framework for distracted driver detection
CN111931929A (zh) 一种多任务模型的训练方法、装置及存储介质
Sathyanarayana et al. Information fusion for robust ‘context and driver aware’active vehicle safety systems
CN115457395A (zh) 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法
CN110765807A (zh) 驾驶行为分析、处理方法、装置、设备和存储介质
CN106650660A (zh) 一种车型识别方法及终端
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
JP6511982B2 (ja) 運転操作判別装置
CN111091044B (zh) 一种面向网约车的车内危险场景识别方法
JP2018529298A (ja) 環境コンテキストにおいて人間のような制御行動をシミュレーションするためのシステム及びコンピュータに基づく方法。
CN112307816A (zh) 车内图像获取方法、装置以及电子设备、存储介质
CN111723809B (zh) 评估目标检测模型的方法和系统
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN111128178A (zh) 一种基于面部表情分析的语音识别方法
CN109784140A (zh) 驾驶员属性识别方法及相关产品
CN110363193A (zh) 车辆重识别方法、装置、设备和计算机存储介质
JP6920361B2 (ja) 判定装置、判定方法、及びプログラム
CN114299953A (zh) 一种结合嘴部运动分析的话者角色区分方法与系统
CN111914841B (zh) 一种ct图像处理方法和装置
CN115641570A (zh) 驾驶行为确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6920361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250