JP2022026016A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2022026016A JP2022026016A JP2020129279A JP2020129279A JP2022026016A JP 2022026016 A JP2022026016 A JP 2022026016A JP 2020129279 A JP2020129279 A JP 2020129279A JP 2020129279 A JP2020129279 A JP 2020129279A JP 2022026016 A JP2022026016 A JP 2022026016A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- candidate
- abnormal
- abnormal scene
- abnormality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、映像を解析して異常を検知するための技術に関する。 The present invention relates to an information processing apparatus, an information processing method and a program, and more particularly to a technique for analyzing an image and detecting an abnormality.
近年の映像配信サービスは、コンテンツプロバイダが作成した映像コンテンツのみならず、一般ユーザが作成した映像コンテンツのリアルタイム配信を可能にしている。
このような映像配信サービスにおいては、配信される映像コンテンツ中に、視聴するのに不適切ないわゆる異常シーンが含まれないよう、配信される映像を監視し、検出された異常シーンが誤って視聴されないよう、異常シーンの削除、配信停止や配信アカウント削除等の処理をする必要がある。このような異常シーンは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含む。
Recent video distribution services enable real-time distribution of not only video content created by content providers but also video content created by general users.
In such a video distribution service, the distributed video is monitored so that the distributed video content does not include so-called abnormal scenes that are inappropriate for viewing, and the detected abnormal scene is erroneously viewed. It is necessary to delete abnormal scenes, stop distribution, delete distribution accounts, etc. so that they will not be deleted. Such anomalous scenes include non-family-safe (NFS) scenes that are unsuitable for family viewing, such as violent scenes and non-children's scenes.
特許文献1は、エレベータの乗りかご内に設けられた防犯カメラにより撮影された撮影データから乗員の異常行動を検知するエレベータ監視装置を開示する。
具体的には、特許文献1の監視装置においては、乗りかご内に設置されたインターホンで集音された乗員の音声データを周波数分析した結果から抽出された所定の周波数帯域に応じて暴れ判定閾値を設定するとともに、防犯カメラにより撮影された撮影データから乗員の動きのばらつき量を統計的に算出する。特許文献1の監視装置はさらに、算出された乗員の動きのばらつき量と暴れ判定閾値とを比較し、乗員の動きのばらつき量が暴れ判定閾値以上のときに乗員の動きを異常行動とみなして暴れを判定する。これにより、乗員が僅かにしか動けない場合でも撮影データから異常行動を判定している。
Patent Document 1 discloses an elevator monitoring device that detects abnormal behavior of an occupant from shooting data taken by a security camera provided in an elevator car.
Specifically, in the monitoring device of Patent Document 1, the rampage determination threshold value is obtained according to a predetermined frequency band extracted from the result of frequency analysis of the voice data of the occupant collected by the intercom installed in the car. And statistically calculate the amount of variation in the movement of the occupants from the shooting data taken by the security camera. The monitoring device of Patent Document 1 further compares the calculated amount of variation in the movement of the occupant with the rampage determination threshold value, and considers the movement of the occupant as abnormal behavior when the amount of variation in the movement of the occupant is equal to or greater than the rampage determination threshold value. Judge the rampage. As a result, even if the occupant can move only slightly, the abnormal behavior is determined from the shooting data.
しかしながら、特許文献1の技術では、検知可能な異常がエレベータ内における乗員の暴れに限定されているため、多様な映像コンテンツ中に含まれ得る多様な異常シーンを適切に検出することは困難である。 However, in the technique of Patent Document 1, since the detectable abnormality is limited to the rampage of the occupant in the elevator, it is difficult to appropriately detect various abnormal scenes that can be included in various video contents. ..
特に、映像配信サービスは、メインターゲットとするユーザの年齢層や嗜好等によりそれぞれ多岐にセグメント化されており、映像配信サービスごとに、視聴するのに不適切な異常シーンの範囲が区々である。さらに、映像コンテンツ中に異常シーンが出現する頻度は通常僅かであるため、教師あり機械学習のために必要となる学習データの汎用データベース化には適さない。他方、教師なしの機械学習で映像コンテンツから異常シーンを検出しようとすると、検出精度が低下してしまう。 In particular, video distribution services are broadly segmented according to the age group and preferences of the main target users, and the range of abnormal scenes that are inappropriate for viewing varies depending on the video distribution service. .. Furthermore, since the frequency of abnormal scenes appearing in video content is usually small, it is not suitable for creating a general-purpose database of learning data required for supervised machine learning. On the other hand, if an attempt is made to detect an abnormal scene from video content by unsupervised machine learning, the detection accuracy will decrease.
ところで、コンテンツプロバイダにより作成された映像には、コンテンツプロバイダにより、配信される映像コンテンツに、暴力シーンを含むか否か、子供向けコンテンツであるか否か、あるいは年齢制限の有無等のタグ情報が付加されていることが多く、コンテンツ作成時にコンテンツプロバイダに異常シーンの存在にタグ付けさせることも可能である。
一方、近年増加している一般ユーザが作成した映像コンテンツには、このような異常シーンのタグ情報が付加されていないことが多く、あるいは、付加されていたとしてもタグ付けが必ずしも当該映像配信サービスにおいて適切でないおそれがある。
By the way, in the video created by the content provider, tag information such as whether or not the video content distributed by the content provider includes a violent scene, whether or not the content is for children, or whether or not there is an age limit is included. It is often added, and it is also possible to have the content provider tag the existence of an abnormal scene when creating content.
On the other hand, video content created by general users, which has been increasing in recent years, often does not have tag information of such abnormal scenes added, or even if it is added, tagging is not always the video distribution service. May not be appropriate.
このため、従来は、映像配信サービスによっては、オペレータが、配信される映像コンテンツを常時監視し、映像コンテンツ中から異常シーンを発見した場合に、当該映像コンテンツに年齢制限を設定したり、当該映像コンテンツの配信を停止したりしており、これにより、映像を監視するオペレータの時間的および作業的負荷や、さらに心理的負担をも増加させていた。同時に、マニュアルで映像コンテンツを監視することによる異常シーンの見逃しも発生するおそれがあった。 For this reason, conventionally, depending on the video distribution service, the operator constantly monitors the video content to be distributed, and when an abnormal scene is found in the video content, an age limit is set for the video content or the video is concerned. The distribution of content has been stopped, which has increased the time and work load of the operator who monitors the video, and also the psychological burden. At the same time, there was a risk that an abnormal scene might be overlooked by manually monitoring the video content.
本発明は上記課題を解決するためになされたものであり、その目的は、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することが可能な情報処理装置、情報処理方法およびプログラムを提供することにある。 The present invention has been made to solve the above problems, and an object thereof is an information processing device and an information processing method capable of detecting various abnormalities from an image with high accuracy while reducing the load on an operator. And to provide the program.
上記課題を解決するために、本発明に係る情報処理装置の一態様は、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部とを備える。 In order to solve the above problems, one aspect of the information processing apparatus according to the present invention is a video acquisition unit for acquiring video data and an audio feature extracted from the video data acquired by the video acquisition unit. A feature extraction unit that extracts image features from, an abnormal scene candidate detection unit that detects abnormal scene candidates from the video data based on the audio features extracted by the feature extraction unit, and the abnormal scene candidate detection unit. An abnormality determination device that determines whether the abnormality scene candidate detected by the above-mentioned is abnormal, normal, or other based on the voice feature and the image feature, and the abnormality determination device, the candidate of the abnormality scene. If is determined to belong to something else, the candidate for the abnormal scene is presented via the user interface, and the input of information to be added to the presented candidate for the abnormal scene is accepted via the user interface. It is equipped with a scene presentation unit.
前記異常シーン候補検出部は、教師なし学習を用いて、前記映像データから前記異常シーンの候補を検出してよい。 The abnormal scene candidate detection unit may detect the abnormal scene candidate from the video data by using unsupervised learning.
前記異常シーン候補検出部は、正常な音声特徴群のモデルを生成することなく、異常な音声特徴を直接分離することにより、前記映像データから前記異常シーンの候補を検出してよい。 The abnormal scene candidate detection unit may detect the candidate of the abnormal scene from the video data by directly separating the abnormal audio feature without generating a model of the normal audio feature group.
前記異常シーン候補検出部は、それぞれの音声特徴のアイソレーションフォレスト(Isolation Forest)におけるパス長を算出することにより、前記異常な音声特徴を分離してよい。 The abnormal scene candidate detection unit may separate the abnormal voice feature by calculating the path length in the isolation forest of each voice feature.
前記特徴抽出部は、前記映像データ中の音声データのメル周波数(Mel Frequency)スペクトログラムで表現される音声特徴を抽出してよい。 The feature extraction unit may extract audio features represented by the Mel Frequency spectrogram of the audio data in the video data.
前記特徴抽出部は、前記音声データから、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを前記メル周波数に連結して、前記音声特徴を抽出してよい。 The feature extraction unit may calculate the Mel Frequency Cepstrum Coefficients (MFCC) from the voice data, connect the calculated MFCC to the Mel frequency, and extract the voice feature.
前記シーン提示部は、前記ユーザインタフェースを介して入力される情報を、前記音声特徴および前記画像特徴に付加して、前記異常判定器のための学習データとして記憶装置に格納してよい。 The scene presenting unit may add information input via the user interface to the voice feature and the image feature and store the information in the storage device as learning data for the abnormality determining device.
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値を上回る場合に、前記異常シーンの候補を前記異常判定器に判定させてよい。 When the number of the learning data stored in the storage device exceeds a predetermined threshold value, the abnormality scene candidate detection unit may cause the abnormality determination device to determine the candidate for the abnormality scene.
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値以内である場合に、前記異常器による判定をバイパスして、前記シーン提示部に、前記異常シーンの候補を提示させてよい。 When the number of the learning data stored in the storage device is within a predetermined threshold value, the abnormal scene candidate detection unit bypasses the determination by the abnormal device and causes the scene presentation unit to display the abnormal scene. You may be asked to present a candidate.
前記異常判定器は、前記音声特徴と前記画像特徴が統合された特徴空間において、前記異常シーンの候補の近傍に位置する異常サンプルの数と正常サンプルの数との差が所定の閾値以内である場合に、前記異常シーンの候補をその他に判定してよい。
前記異常判定器は、k近傍法により、前記異常シーンの候補を判定してよい。
In the abnormality determination device, the difference between the number of abnormal samples located in the vicinity of the candidate for the abnormal scene and the number of normal samples in the feature space in which the audio feature and the image feature are integrated is within a predetermined threshold value. In this case, the candidate for the abnormal scene may be determined elsewhere.
The abnormality determination device may determine a candidate for the abnormality scene by the k-nearest neighbor method.
前記特徴抽出部により抽出される前記画像特徴から、教師あり学習を用いて、前記映像データに含まれる顔の感情を解析し、解析された前記顔の感情の特徴を前記異常判定器に供給する感情解析部をさらに備えてよい。 From the image features extracted by the feature extraction unit, supervised learning is used to analyze facial emotions contained in the video data, and the analyzed facial emotion features are supplied to the abnormality determination device. An emotion analysis unit may be further provided.
前記感情解析部は、解析された前記顔の感情に基づいて、前記映像データから前記異常シーンの候補を検出した場合に、前記異常シーン候補検出部に、前記音声特徴に基づく異常シーンの検出を実行させてよい。 When the emotion analysis unit detects a candidate for the abnormal scene from the video data based on the analyzed emotion of the face, the abnormal scene candidate detection unit detects the abnormal scene based on the audio feature. You may let it run.
本発明に係る情報処理システムの一態様は、サーバと、該サーバとネットワークを介して接続される少なくとも1つのクライアント装置とを備える情報処理システムであって、前記サーバは、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、前記クライアント装置は、前記サーバから送信される前記異常シーンの候補を受信する受信部と、前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、 前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する。 One aspect of the information processing system according to the present invention is an information processing system including a server and at least one client device connected to the server via a network, wherein the server acquires video data. Based on the acquisition unit, the feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit and extracts the image features from the video data, and the audio features extracted by the feature extraction unit. Anomalous scene candidate detection unit that detects anomalous scene candidates from the video data and anomalous scene candidates detected by the anomalous scene candidate detection unit are abnormal, normal, based on the audio features and the image features. When the abnormality determination device for determining any of the above and the other and the abnormality determination device determine that the candidate for the abnormality scene belongs to the other, the candidate for the abnormality scene is presented and presented via the user interface. It has a scene presentation unit that accepts input of information to be added to a candidate for an abnormal scene through the user interface, and a transmission unit that transmits the candidate for the abnormal scene to the client device. The client device presents a receiving unit that receives the candidate for the abnormal scene transmitted from the server, a candidate for the abnormal scene received by the receiving unit, and adds the candidate for the presented abnormal scene. It has the user interface that accepts input of information to be input, and a transmission unit that transmits information to be added to the candidate of the abnormal scene that the user interface has received input to the server.
本発明に係る情報処理方法の一態様は、情報処理装置が実行する情報処理方法であって、映像データを取得するステップと、取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、教師なし学習により、抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出するステップと、異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップと、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるステップとを含む。 One aspect of the information processing method according to the present invention is an information processing method executed by an information processing apparatus, in which a step of acquiring video data and audio features are extracted from the acquired video data and an image is obtained from the video data. A step of extracting a feature, a step of detecting a candidate for an abnormal scene from the video data based on the audio feature extracted by unsupervised learning, and a step of detecting the candidate for the abnormal scene by the abnormality determiner. , The step of determining any of anomalies, normals, and others based on the audio features and the image features, and when the anomaly determination device determines that the candidate for the anomalous scene belongs to the other, the anomaly. It includes a step of presenting a scene candidate via a user interface and accepting input of information to be added to the presented abnormal scene candidate via the user interface.
本発明に係る情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、映像データを取得する映像取得処理と、前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、前記特徴抽出処理により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付ける入出力処理とを含む処理を実行させるためのものである。 One aspect of the information processing program according to the present invention is an information processing program for causing a computer to execute information processing, and the program includes a video acquisition process for acquiring video data and the video acquisition process. A feature extraction process that extracts audio features from the video data acquired by the above and extracts image features from the video data, and a candidate for an abnormal scene from the video data based on the audio features extracted by the feature extraction process. Abnormal scene candidate detection processing for detecting abnormal scenes, and abnormal, normal, and other abnormal scene candidates detected by the abnormal scene candidate detection processing by the abnormality determining device based on the audio features and the image features. When the abnormality determination process for determining any of the above and the abnormality determination device determine that the candidate for the abnormality scene belongs to the other, the candidate for the abnormality scene is presented via the user interface, and the presented abnormality is presented. This is for executing a process including an input / output process for receiving input of information to be added to a scene candidate via the user interface.
本発明によれば、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
According to the present invention, it is possible to detect various abnormalities from an image with high accuracy while reducing the load on the operator.
The above-mentioned object, aspect and effect of the present invention and the above-mentioned object, aspect and effect of the present invention not described above are to be used by those skilled in the art to carry out the following invention by referring to the accompanying drawings and the description of the scope of claims. It can be understood from the form of.
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the accompanying drawings. Among the components disclosed below, those having the same function are designated by the same reference numerals, and the description thereof will be omitted. The embodiments disclosed below are examples as means for realizing the present invention, and should be appropriately modified or modified depending on the configuration of the apparatus to which the present invention is applied and various conditions, and the present invention is described below. Is not limited to the embodiment of the above. Moreover, not all combinations of features described in the present embodiment are essential for the means of solving the present invention.
(実施形態1)
本実施形態に係る異常検出装置は、映像データから、音声データおよび画像データそれぞれの特徴を抽出し、これら音声データおよび画像データのマルチモーダルな特徴を用いて、映像データから異常シーンを複数段階で半自動的に検出する。
以下では、異常検出装置が、リアルタイムでストリーミング配信される映像データから抽出される音声データの特徴に基づいて教師なし学習により異常シーンの候補をまず検出し、次に、検出された異常シーンの候補を異常判定器により異常シーン、正常シーン、およびオペレータの判断を要するシーン、のいずれかに判定し、オペレータの判断を要すると判定された異常シーンの候補の映像データを提示し、オペレータによる異常シーンか否かの確認入力を映像データの特徴に付加して、異常判定器に対する学習データとして蓄積する一例を説明する。
(Embodiment 1)
The abnormality detection device according to the present embodiment extracts the characteristics of the audio data and the image data from the video data, and uses the multimodal characteristics of the audio data and the image data to generate an abnormality scene from the video data in a plurality of stages. Detects semi-automatically.
In the following, the anomaly detection device first detects anomaly scene candidates by unsupervised learning based on the characteristics of audio data extracted from video data streamed in real time, and then the detected anomaly scene candidates. Is determined by the anomaly judge as one of an abnormal scene, a normal scene, and a scene that requires the operator's judgment, and the video data of the candidate of the abnormal scene that is determined to require the operator's judgment is presented, and the abnormal scene by the operator is presented. An example of adding the confirmation input of whether or not to the feature of the video data and accumulating it as learning data for the abnormality determining device will be described.
しかしながら、本実施形態はこれに限定されない。例えば、異常検出装置は、録画された映像データから事後的に異常シーンを検出してもよい。また、例えば、蓄積される学習データの数に応じて、異常シーン検出を可変に制御し、検出された異常シーンの候補の映像データのすべてを、異常判定器をバイパスしてオペレータに提示してもよく、あるいは、異常判定器が、検出された異常シーンの候補の映像データの音声および画像の特徴に基づいて、異常シーンを自動検出してもよい。後者の場合、異常判定の閾値を比較的低く設定して、閾値近傍の異常シーンのみを適宜確認的にオペレータに提示してもよい。 However, this embodiment is not limited to this. For example, the anomaly detection device may detect an abnormal scene ex post facto from the recorded video data. Further, for example, the abnormal scene detection is variably controlled according to the number of accumulated learning data, and all of the detected abnormal scene candidate video data is presented to the operator by bypassing the abnormality judge. Alternatively, the abnormality determination device may automatically detect the abnormality scene based on the audio and image characteristics of the video data of the detected abnormality scene candidate. In the latter case, the threshold value for determining an abnormality may be set relatively low, and only the abnormal scene near the threshold value may be appropriately confirmed and presented to the operator.
<異常検出装置の機能構成>
図1は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図1に示す異常検出装置1は、データ取得部11、特徴抽出部12、異常シーン候補検出部13、異常判定器14、およびシーン提示部15を備える。
異常検出装置1は、PC(Personal Computer)等で構成されるクライアント装置3とネットワークを介して通信可能に接続してよい。この場合、異常検出装置1はサーバに実装され、クライアント装置3は、異常検出装置1が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、異常検出装置1のシーン提示部15を含む各コンポーネント11~15の一部または全部を備えてもよい。
<Functional configuration of anomaly detection device>
FIG. 1 is a block diagram showing an example of the functional configuration of the abnormality detection device 1 according to the present embodiment.
The abnormality detection device 1 shown in FIG. 1 includes a
The abnormality detection device 1 may be communicably connected to a
データ取得部11は、リアルタイムでストリーミング配信される映像データを取得して、取得された映像データを特徴抽出部12へ供給する。映像データは、音声(Audio)データと画像(Visual)データとを含む動画像データであるが、データ取得部11は、動画像データに替えて、音声データを含む静止画データを取得して、特徴抽出部12へ供給してもよい。
データ取得部11は、ストリーミング配信される映像データに替えて、異常検出装置1のHDD等の不揮発性記憶装置に予め録画された映像データを取得してもよく、録画された映像データを対向装置から通信I/Fを介して受信してもよい。
データ取得部11はまた、異常検出装置1において異常シーン検出処理を実行するために必要な各種パラメータの入力を受け付ける。データ取得部11は、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、各種パラメータの入力を受け付けてよい。
The
The
The
特徴抽出部12は、データ取得部11から供給される映像データから音声データを分離し、分離された音声データから音声特徴を抽出する。
特徴抽出部12はまた、データ取得部11から供給される映像データから画像データを分離し、分離された画像データから画像特徴を抽出する。
特徴抽出部12は、抽出された音声特徴および画像特徴を、映像データとともに、異常シーン候補検出部13へ供給する。
The
The
The
異常シーン候補検出部13は、特徴抽出部12から供給される音声特徴に基づいて、映像データから異常シーンの候補を検出し、検出された異常シーンの候補を、異常判定器14へ供給する。異常シーン候補検出部13はまた、検出された異常シーンの候補を、異常判定器14をバイパスして、シーン提示部15へ供給してもよい。
The abnormal scene
なお、異常シーンとは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含むがこれに限定されない。異常シーンは、映像配信サービスごとの規約ないしルール上当該映像配信サービスを介して配信すべきでない旨規定されているシーンまたはコンテンツ、その他オペレータが映像データの音声および画像から最終的に配信すべきでないとマニュアルで判定したシーンまたはコンテンツを広く含むものとする。
特徴抽出部12が実行する特徴抽出処理および異常シーン候補検出部13が実行する異常シーン候補検出処理の詳細は、図3~図8を参照して後述する。
The abnormal scene includes, but is not limited to, a scene unsuitable for family viewing (Non-Family-Safe: NFS), such as a violent scene or a scene not intended for children. Abnormal scenes should not be finally distributed from the audio and images of the video data by the scene or content that is stipulated in the rules or regulations of each video distribution service that it should not be distributed via the video distribution service. It shall include a wide range of scenes or contents determined manually.
Details of the feature extraction process executed by the
本実施形態において、異常シーン候補検出部13は、教師なし学習により音声特徴を分類することで、異常シーンの候補を検出する。ストリーミング配信される映像データ中で、異常シーンの出願頻度は僅かであり、また異常シーンとすべきか否かの基準も映像配信サービスごとに多様であるため、新たなサービスが開始される際や基準が変更された際に、適切な教師データを予め用意することは難しく、教師あり学習により高精度の分類を実現することが困難である。本実施形態では、映像データのうち、音声データのみから教師なし学習により音声特徴を分類することで、少ないサンプル数であっても高精度かつ低負荷で、異常シーンの候補を検出することができる。
In the present embodiment, the abnormal scene
異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を入力とし、入力された異常シーンの候補の映像データを、異常シーン、正常シーン、オペレータの判断を要するシーンのいずれかに分類する。異常判定器14は、異常シーンの候補の分類結果のうち、異常シーンおよび正常シーンのいずれかに分類された異常シーンの候補を、分類結果を付加して学習データDB(データベース)2に格納していく。また、異常判定器14は、異常シーンの候補のうち、オペレータの判断を要するシーンと分類された異常シーンの候補を、シーン提示部15へ供給する。
The
本実施形態において、異常判定器14は、特徴抽出部12により抽出された映像データの音声特徴および画像特徴が統合された特徴空間を用いて、教師あり学習により、入力される異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに3分類する。異常判定器14は、学習データDB2に蓄積された異常シーンの候補の分類結果を教師データとした学習を実行してよい。
異常判定器14が実行する異常シーン判定処理の詳細は、図9を参照して後述する。
In the present embodiment, the
Details of the abnormality scene determination process executed by the
シーン提示部15は、異常判定器14から供給される、オペレータの判断を要するシーンと分類された異常シーンの候補を、表示装置等を介して外部に提示して、オペレータの確認入力を受け付ける。異常検出装置1はまた、異常シーン候補検出部13から供給される異常シーンの候補を、外部に提示して、オペレータの確認入力を受け付けてよい。
異常検出装置1は、自装置の表示装置等をユーザインタフェースとしてもよいが、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、異常シーンの候補を外部に提示し、またはオペレータの確認入力を受け付けてよい。
この場合、異常検出装置1はさらに、異常シーン候補検出部13から供給される異常シーンの候補を、クライアント装置3へ送信し、クライアント装置3から送信されるオペレータの確認入力を受信する送受信部を備えてよい。クライアント装置3は、異常検出装置1から送信される異常シーンの候補を受信し、ユーザインタフェースを介して提示された異常シーンの候補に対するオペレータの確認入力を異常検出装置1へ送信する送受信部を備えてよい。
The
The abnormality detection device 1 may use the display device or the like of its own device as a user interface, but presents an abnormality scene candidate to the outside via the user interface of the
In this case, the abnormality detection device 1 further transmits a transmission / reception unit for transmitting the abnormality scene candidate supplied from the abnormality scene
オペレータは、シーン提示部15により提示される異常シーンの候補の映像データの画像を音声と照らし合わせることで、提示された異常シーンの候補を、異常シーンまたは正常シーンのいずれかであると確認し、確認結果をシーン提示部15に入力する。オペレータは、異常シーンであると確認された異常シーンの候補に対して、所定の措置を講じることができる。例えば、確認された異常シーンを、配信される映像データから削除してもよく、あるいは当該映像データの配信を停止してもよく、当該映像データの配信元ユーザのアカウントを停止してもよい。
シーン提示部15は、提示された異常シーンの候補の音声特徴および画像特徴に対して、オペレータが確認入力した確認結果(異常シーンまたは正常シーンのアノテーション)を付加し、学習データとして学習データDB2に格納する。
The operator confirms that the presented abnormal scene candidate is either an abnormal scene or a normal scene by comparing the image of the video data of the abnormal scene candidate presented by the
The
具体例として、異常シーン候補検出部13が、映像データから抽出された音声特徴から、銃を発砲したような音声を検出し、当該音声を含むシーンを異常シーンの候補として検出したものとする。この場合、オペレータは、異常シーンの候補の画像をチェックして、異常シーンおよび正常シーンのいずれかであるかを確認すればよい。
例えば、異常シーンの候補の画像が、銃やその他暴力的または残酷なオブジェクトを含んでいれば、異常シーンと確認することができ、一方、屋外の花火等のオブジェクトを含んでいれば、正常シーンと確認することができる。
As a specific example, it is assumed that the abnormal scene
For example, if the image of a candidate for an abnormal scene contains a gun or other violent or cruel object, it can be confirmed as an abnormal scene, while if it contains an object such as outdoor fireworks, it is a normal scene. Can be confirmed.
このように、本実施形態では、映像データの音声および画像のマルチモーダルな情報を用いて、複数段階で半自動的に異常シーンを検出している。具体的には、映像データの音声から異常シーンの候補を自動的に検出し、オペレータに検出された異常シーンの候補を提示して、異常シーンの候補の画像から異常シーンか正常シーンかを確認させている。これにより、配信される映像の監視におけるオペレータの負荷が格段に軽減される。 As described above, in the present embodiment, the abnormal scene is semi-automatically detected in a plurality of stages by using the multimodal information of the audio and the image of the video data. Specifically, the candidate of the abnormal scene is automatically detected from the sound of the video data, the candidate of the detected abnormal scene is presented to the operator, and it is confirmed whether the abnormal scene or the normal scene is from the image of the candidate of the abnormal scene. I'm letting you. As a result, the load on the operator in monitoring the delivered video is significantly reduced.
<異常シーン検出処理の処理手順>
図2は、本実施形態に係る異常検出装置1が実行する、異常シーン検出処理の処理手順の一例を示すフローチャートである。
なお、図2の各ステップは、異常検出装置1のHDD等の記憶装置に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、図2に示すフローチャートの少なくとも一部をハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
<Processing procedure for abnormal scene detection processing>
FIG. 2 is a flowchart showing an example of a processing procedure of an abnormality scene detection process executed by the abnormality detection device 1 according to the present embodiment.
Each step in FIG. 2 is realized by the CPU reading and executing a program stored in a storage device such as an HDD of the abnormality detection device 1. Further, at least a part of the flowchart shown in FIG. 2 may be realized by hardware. When it is realized by hardware, for example, by using a predetermined compiler, a dedicated circuit may be automatically generated on FPGA (Field Programmable Gate Array) from a program for realizing each step. Further, a Gate Array circuit may be formed in the same manner as the FPGA and realized as hardware. Further, it may be realized by ASIC (Application Specific Integrated Circuit).
S1で、異常検出装置1の特徴抽出部12は、データ取得部11から供給される映像データを音声データおよび画像データに分離し、音声特徴および画像特徴をそれぞれ抽出する。
図3は、特徴抽出部12が、特徴抽出の前処理として、データ取得部11から供給される映像データ(例えば、mp4またはm3u8等のマルチメディアフォーマット)から分離した、例えば1秒単位にセグメント化した音声データ(例えば、wavフォーマット)の音声信号波形の一例を示す。図3において、縦軸が音声の振幅を示し、横軸が時間を示す。
特徴抽出部12は、分離された音声データを、配信される映像データで想定され得る音源等に合わせて、適宜アップサンプリング等により正規化してよい。
In S1, the
In FIG. 3, the
The
本実施形態において、特徴抽出部12は、図3に示す音声データから、音声特徴を、例えば、メルスペクトログラム(メル周波数スペクトログラム)(Mel Frequency Spectrogram)で表現される音声特徴として抽出してよい。
スペクトログラムとは、音声信号を窓関数に通して周波数スペクトルを計算した結果を指し、時間、周波数、および信号成分の強さ(振幅)をそれぞれX軸、Y軸、およびZ軸とする3次元のグラフで表される。スペクトログラムは、音声信号の周波数成分と振幅成分を例えばフーリエ変換により取り出した各音声データセグメント(フレーム)のスペクトルを時間軸に沿って並べた、いわゆる声紋に相当する。メルスペクトログラムとは、人間の音高知覚(周波数知覚特性)が考慮された重み付けを行うためのメル尺度で変換されたスペクトログラムである。
In the present embodiment, the
Spectrogram refers to the result of calculating the frequency spectrum by passing an audio signal through a window function, and has three dimensions with the time, frequency, and strength (amplitude) of the signal components as the X-axis, Y-axis, and Z-axis, respectively. It is represented by a graph. The spectrogram corresponds to a so-called voiceprint in which the spectra of each voice data segment (frame) obtained by extracting the frequency component and the amplitude component of the voice signal by, for example, Fourier transform are arranged along the time axis. A mel spectrogram is a spectrogram converted by a mel scale for weighting in consideration of human pitch perception (frequency perception characteristic).
図4は、特徴抽出部12が映像データから分離した音声データから抽出したメルスペクトログラムで表現される音声特徴であって、異常シーン候補検出部13により異常シーンの候補として検出される音声特徴の一例を示す。図4および図5において、X軸が時間を示し、Y軸が周波数を示し、Z軸が振幅、すなわち音声信号の強度を示す。また、図4および図5において、信号強度が大きいセルほど薄いパターンで、信号強度が小さいほど濃いパターンで示されている。
図4に示すスペクトログラムは、音量が大きく、信号強度の分布にピーク性があり、短時間で音声信号が減衰しているパターンを示す。図4は、銃の発砲のスペクトログラムの一例を示すが、例えば、人の叫び声や何かを殴る音等も同様または同種のパターンを示すものと考えられる。
FIG. 4 is an example of an audio feature represented by a mel spectrogram extracted from audio data separated from video data by the
The spectrogram shown in FIG. 4 shows a pattern in which the volume is loud, the signal intensity distribution has a peak, and the audio signal is attenuated in a short time. FIG. 4 shows an example of a spectrogram of shooting a gun, and for example, a person's cry or the sound of hitting something is considered to show the same or similar pattern.
一方、図5は、特徴抽出部12が映像データから分離した音声データセグメントから抽出したメルスペクトグラムで表現される音声特徴であって、異常シーン候補検出部13により正常シーンと判定される(異常シーンの候補として検出されない)音声特徴の一例を示す。図5に示すスペクトログラムは、低音量または中音量であり、信号強度の分布が時間軸上均一であるパターンを示す。
特徴抽出部12は、音声データから、前景音声(例えば、人の発話音声や叫び声等)と背景音声(音楽や雑踏音等)とを分離して、いずれか一方の音声のスペクトログラムを音声特徴として異常シーン候補検出部13へ供給してもよい。この場合、例えば、時間軸上一時的に出現して繰り返されない音声を前景音声として分離することができる。
On the other hand, FIG. 5 shows an audio feature expressed by a melspectogram extracted from an audio data segment separated from the video data by the
The
本実施形態において、特徴抽出部12はさらに、音声データからメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを図4ないし図5に示すメルスペクトログラムに連結して、音声特徴を抽出してもよい。
ケプストラムとは、音声信号をフーリエ変換した振幅スペクトルに対数を掛けて対数スペクトルを求め、対数スペクトルに再度フーリエ変換を適用してスペクトル化したものをいう。対数スペクトルのケプストラム(対数ケプストラム)を求めることで、高周期で変動する音源成分と畳み込まれていた声道特性の成分とを分離することができる。
In the present embodiment, the
The cepstrum is a spectrum obtained by multiplying an amplitude spectrum obtained by Fourier transforming an audio signal by a logarithm to obtain a logarithmic spectrum, and then applying the Fourier transform again to the logarithmic spectrum. By obtaining the cepstrum of the logarithmic spectrum (logarithmic cepstrum), it is possible to separate the sound source component that fluctuates with a high period from the convoluted vocal tract characteristic component.
対数ケプストラムの低次成分は、音声のスペクトル包絡(声道成分に由来する周波数特性)を表現している。個人差の大きいピッチ成分を除去し、音韻の特定に重要である声道の音響特性のみを抽出することができる。この対数ケプストラムの低次成分に対して、人の周波数知覚特性を考慮した重み付けを、メル尺度を適用することにより付与した特徴量が、MFCCである。 The low-order components of the log cepstrum represent the spectral envelope of speech (frequency characteristics derived from the vocal tract components). It is possible to remove pitch components with large individual differences and extract only the acoustic characteristics of the vocal tract, which are important for phonological identification. The feature amount given by applying the Mel scale to the low-order component of the logarithmic cepstrum in consideration of the human frequency perception characteristic is MFCC.
具体的には、振幅スペクトルを、メル尺度上で等間隔である複数のフィルタバンクにかけて、各帯域のスペクトル成分を取り出し、各帯域の振幅スペクトルの和を取って、複数次元の振幅スペクトルに圧縮し、この圧縮された振幅スペクトルの対数を取って、対数振幅スペクトルを求める。
こうして求めたメル周波数スペクトル(メル尺度で圧縮された対数振幅スペクトル)に対して、フーリエ変換(例えば、離散フーリエ変換(Discrete Fourier Transform:DFT)を行うことにより、メル周波数ケプストラムに変換する。メル周波数ケプストラムの低次成分(スペクトルの声道成分)を取り出して、必要に応じて正規化処理を行うことにより、MFCCを求めることができる。
Specifically, the amplitude spectrum is applied to a plurality of filter banks at equal intervals on the Mel scale, the spectral components of each band are extracted, the sum of the amplitude spectra of each band is summed, and the amplitude spectrum is compressed into a multidimensional amplitude spectrum. , The log of this compressed amplitude spectrum is taken to obtain the log amplitude spectrum.
The Mel frequency spectrum obtained in this way (a logarithmic amplitude spectrum compressed by the Mel scale) is converted into a Mel frequency cepstrum by performing a Fourier transform (for example, Discrete Fourier Transform (DFT)). The MFCC can be obtained by taking out the low-order component (voiceway component of the spectrum) of cepstrum and performing normalization processing as necessary.
図6は、単位時間(例えば、1秒)でスライスして例えば平均値を取ったMFCC61と、メルスペクトラムを時間軸上で平均振幅を取ったメルスペクトグラム62とを連結した音声特徴の一例を示す。
図6に示すような音声特徴を異常シーン候補検出部13に供給して異常シーンの候補を検出させることで、音声データの周波数成分の情報、特に人の聴覚上重要な周波数成分を失うことなく、音声特徴を適切に圧縮することができる。
FIG. 6 shows an example of a voice feature in which an
By supplying the voice feature as shown in FIG. 6 to the abnormal scene
なお、特徴抽出部12により映像データの音声データから抽出される音声特徴は、図6に示す表現に限定されず、特徴抽出部12は、上記以外の任意の手法および表現により、音声特徴を抽出してよい。
特徴抽出部12はまた、映像データから分離された画像データの全部または一部から、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)等を使用して、画像特徴を抽出してよい。しかしながら、特徴抽出部12により画像データから画像特徴を抽出する手法はCNNに限定されず、任意の手法を用いることができる。
The audio features extracted from the audio data of the video data by the
The
図2に戻り、S2で、異常検出装置1の異常シーン検出部13は、特徴抽出部12から供給される映像データから分離された音声データの音声特徴に基づいて、教師なし学習により分類することにより、異常シーンの候補を検出する。
異常シーン検出部13は、例えば、アイソレーションフォレスト(Isolation Forest:IF)により、音声特徴の特徴空間上で、異常値を持つ音声特徴を分離し、分離された異常な音声特徴に対応する映像シーンを、異常シーンの候補として検出する。
Returning to FIG. 2, in S2, the abnormality
The abnormal
アイソレーションフォレストは、正常値を持つ特徴群をモデル化(プロファイル化)して正常モデルを生成することなく、異常値を持つ特徴を直接分離する教師なし学習の1つである。高速アルゴリズムでありかつメモリ消費も少ないためリアルタイム配信される映像の監視に適しており、また、正常モデルのモデル化が不要であるため、少ないサンプリング数でも精度の低下を招き難い。 Isolation forest is one of unsupervised learning that directly separates features with outliers without modeling (profiling) features with normal values to generate a normal model. Since it is a high-speed algorithm and consumes less memory, it is suitable for monitoring video delivered in real time, and since it is not necessary to model a normal model, it is unlikely that the accuracy will decrease even with a small number of samplings.
図7は、アイソレーションフォレストが、特徴空間上、異常値を持つ特徴を分離するアルゴリズムを説明する概略図である。アイソレーションフォレストは、特徴空間上に配置される各特徴点が、他のすべての特徴点と分離できるまで、図7の破線で示されるように、繰り返しパーティション(仕切り)を生成していく。図7を参照して、左端の特徴点および右端の特徴点は、それぞれ、中央近傍に位置する特徴点より必要なパーティションの数が少ない。図7では、左端および右端の特徴点は、1つのパーティションで他のすべての特徴点から分離することができるため、それぞれ異常値を持つ特徴点として検出することができる。 FIG. 7 is a schematic diagram illustrating an algorithm in which the isolation forest separates features having outliers in the feature space. The isolation forest creates repeating partitions (partitions) as shown by the dashed line in FIG. 7 until each feature point placed on the feature space can be separated from all other feature points. With reference to FIG. 7, the leftmost feature point and the rightmost feature point each require fewer partitions than the feature points located near the center. In FIG. 7, since the leftmost and rightmost feature points can be separated from all other feature points in one partition, they can be detected as feature points having abnormal values.
図8は、図7におけるパーティション生成の繰り返し処理を二分木の木構造(アイソレーションツリー:Isolation Tree)で表現した概念図である。図7におけるパーティションの数は、図8において木構造のルートノードから終端ノードまでのパス長で表現することができる。
異常シーン候補検出部13は、各音声特徴の特徴点のパス長に基づいて、各特徴点の異常(anomaly)スコアを、下記の式1により算出する。
FIG. 8 is a conceptual diagram in which the iterative process of partition generation in FIG. 7 is represented by a binary tree structure (isolation tree: Isolation Tree). The number of partitions in FIG. 7 can be expressed by the path length from the root node to the terminal node of the tree structure in FIG.
The abnormality scene
ここで、右辺指数部のE(h(x))は平均パス長であり、c(n)はデータセットのインスタンス数nに依存する正規化因子である。各特徴点の異常スコアS(x、n)は、平均パス長が短い程1に近づき、平均パス長が長い程0に近づく。 Here, E (h (x)) of the right-hand side exponent part is the average path length, and c (n) is a normalization factor depending on the number of instances n of the data set. The abnormal score S (x, n) of each feature point approaches 1 as the average path length is shorter, and approaches 0 as the average path length is longer.
図8を参照して、左側のバーは、下端から上端に向かって、0から1までの異常スコアの値に対応する。異常シーン検出部13は、0から1までの間の異常スコアの閾値θと、各特徴点の異常スコアS(x、n)とを比較し、異常スコアS(x、n)が閾値θを上回る特徴点の音声特徴を、異常値(外れ値)として判定し、他方、異常スコアS(x、n)が閾値θ以内の特徴点の音声特徴を正常値として判定する。
With reference to FIG. 8, the bar on the left corresponds to the value of the anomaly score from 0 to 1 from the bottom to the top. The abnormal
異常シーン検出部13は、閾値θを上回る異常スコアが算出された音声特徴および対応する画像特徴を含む映像シーンを、異常シーンの候補として検出する。
なお、異常シーン候補検出部13が異常シーンの候補を検出するために使用する教師なし学習アルゴリズムは、アイソレーションフォレストに限定されない。異常シーン候補検出部13は、アイソレーションフォレストに替えて、変分オートエンコーダ(Variational AutoEncoder:VAE)を使用して、音声特徴の再構成スコアを算出することにより、異常シーンの候補を検出してもよく、他のあらゆる教師なし学習を使用してもよい。
The abnormal
The unsupervised learning algorithm used by the abnormal scene
図2に戻り、S3で、異常検出装置1の異常シーン候補検出部13は、学習データDB2に格納された学習データの数を、所定の閾値と比較する。学習データDB2に格納された学習データの数が所定の閾値を上回る場合(S3:Y)、S4に進み、異常シーン候補検出部13は、検出された異常シーンの候補を、異常判定器14へ供給する。一方、学習データDB2に格納された学習データの数が所定の閾値以内である場合(S3:N)、異常判定器での処理(S4~S6)をバイパスして、S7に進む。
Returning to FIG. 2, in S3, the abnormality scene
本実施形態では、異常判定器14が学習データDB2へ異常シーン判定の学習データを十分蓄積していない場合は、異常判定器14による異常シーン判定の精度(信頼度)が十分でないと判断して、異常判定器14での処理をバイパスする。そして、シーン提示部15は、異常シーン候補検出部13により検出された異常シーンの候補を、オペレータに直接提示し、オペレータの確認入力を受け付ける。これにより、学習データのサンプル数が少ない間は、異常シーンの候補に対して常にオペレータの確認判断を要求することで、異常判定器14での機械学習実行の処理負荷を削減することができる。
In the present embodiment, when the
このように、本実施形態では、検出された異常シーンの候補からどのように異常シーンを判定するかの制御を、自律的に最適化する。具体的には、異常判定器14への学習データのサンプル数が少ないうちは、専らオペレータによる異常シーンの判定を優先して異常シーンの判定の精度低下を防止する。一方、異常判定器14への学習データのサンプル数が所定の閾値を超えた場合には、異常判定器14が異常シーンまたは正常シーンのいずれかに分類できなかった異常シーンの候補のみをオペレータに提示して確認入力を要求することで、オペレータの負荷をさらに軽減することができる。
As described above, in the present embodiment, the control of how to determine the abnormal scene from the detected abnormal scene candidates is autonomously optimized. Specifically, while the number of samples of learning data in the
S4で、異常検出装置1の異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を、正常シーン、異常シーン、およびオペレータの判断を要するシーンのいずれかに分類することにより、異常シーンの候補の異常を判定し、判定結果を学習データDB2に格納する。
具体的には、異常判定器14は、例えば、教師あり学習として、k近傍法(k-nearest neighbor algorithm:k-NN)を使用して、音声特徴および画像特徴が統合された特徴空間上で最近傍解を探索することにより、異常シーン候補検出部13から供給される異常シーンの候補を分類する。
In S4, the
Specifically, the
図9は、k近傍法による分類アルゴリズムの例を説明する概念図である。
図9を参照して、特徴空間には、丸マークで示されるオブジェクト群が配置されている。各オブジェクトは多次元の特徴空間における位置ベクトルで表現され、正しい分類クラスが既知である。同心円の中央の星マークは、分類クラスが未知である分類対象の位置ベクトルであり、本実施形態では、判定対象の異常シーン候補の位置ベクトルである。k近傍法では、星マークで示される新たな位置ベクトルと、丸マークで示される既存の位置ベクトル群との距離を算出し、k個の最近傍のサンプルが選択される。位置ベクトル間の距離は、ユークリッド距離として算出されてよいが、マンハッタン距離等の他の距離として算出されてもよい。
FIG. 9 is a conceptual diagram illustrating an example of a classification algorithm based on the k-nearest neighbor method.
With reference to FIG. 9, a group of objects indicated by circle marks is arranged in the feature space. Each object is represented by a position vector in a multidimensional feature space, and the correct classification class is known. The star mark in the center of the concentric circle is the position vector of the classification target whose classification class is unknown, and in the present embodiment, it is the position vector of the abnormal scene candidate to be determined. In the k-nearest neighbor method, the distance between the new position vector indicated by the star mark and the existing position vector group indicated by the circle mark is calculated, and k nearest neighbor samples are selected. The distance between the position vectors may be calculated as the Euclidean distance, but may also be calculated as another distance such as the Manhattan distance.
図9を参照して、k=3の場合、内側同心円内には、最近傍の3つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが1個配置されているから、判定対象の位置ベクトルは、濃い丸マークのクラスに分類される。一方、k=6の場合、外側同心円内には、最近傍の6つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが4個配置されているから、判定対象の位置ベクトルは、薄い丸マークのクラスに分類される。なお、k個の最近傍のオブジェクトの間で、新たな位置ベクトルとの距離を重み付けしてクラスを決定してもよい。 With reference to FIG. 9, when k = 3, since two dark circle marks and one light circle mark are arranged as the three nearest neighbors in the inner concentric circle, the determination target is obtained. The position vector of is classified into the class of dark circle marks. On the other hand, when k = 6, in the outer concentric circle, four light circle marks are arranged for two dark circle marks as six objects in the nearest neighbor, so that the position vector to be determined is the position vector to be determined. Classified as a light circle mark class. The class may be determined by weighting the distance from the new position vector among the k nearest neighbor objects.
異常判定器14は、映像データの音声特徴と画像特徴とが統合された特徴空間上に、正しいクラスが未知である異常シーンの候補を位置ベクトルとしてマッピングし、k個の最近傍のオブジェクト(サンプル)のうち、異常シーンに分類されるサンプルの数を、正常シーンに分類されるサンプルの数と比較することにより、判定対象の異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに分類する。
The
具体的には、異常判定器14は、音声特徴と画像特徴とが統合された特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数が、正常シーンに分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を異常シーンであると判定する。異常判定部14はまた、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、正常シーンに分類されるサンプルの数が、異常シーンの分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を正常シーンであると判定する。
Specifically, the
一方、異常判定器14は、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数と正常シーンに分類されるサンプルの数との差が小さく、所定の閾値内である場合、判定対象の異常シーンの候補を、オペレータの判断を要するシーンであると判定する。
代替的に、異常判定器14は、k個の最近傍の異常シーンのサンプル数と正常シーンのサンプル数との大小により、判定対象の異常シーンの候補を、異常シーンまたは正常シーンのいずれかに自動的に分類してもよい。特に、学習データDB2に十分なサンプル数の学習データが蓄積されている場合には、異常シーン検出においてオペレータの介入を不要ともできる。
なお、異常判定器14が異常シーンの候補の異常を判定するためのアルゴリズムは、上記のk近傍法に限定されない。異常判定器14は、例えば、CNN等のニューラルネットワークや、サポートベクタマシン(Support Vector Machine:SVM)等を含む、他の教師あり学習の機械学習アルゴリズムを使用して異常シーンを判定してよい。
On the other hand, in the
Alternatively, the
The algorithm for the
図2に戻り、S4で、異常判定器14は、異常シーンの候補が異常シーンであると判定した場合、S5に進み、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行して処理を終了する。
異常判定器14は、異常シーンの候補が正常シーンであると判定した場合、S6に進み、異常シーンの候補を含む映像コンテンツの配信を続行して処理を終了する。一方、異常判定器14は、異常シーンの候補が、オペレータの判断を要するシーンであると判定した場合、S7に進む。
Returning to FIG. 2, when the
When the
S7で、異常検出装置1のシーン提示部15は、異常シーン候補検出部13から供給された異常シーンの候補、あるいは異常判定器14によりオペレータの判断を要するシーンと判定された異常シーンの候補の映像(音声データおよび画像データ)を、オペレータに提示する。
S8で、異常検出装置1のシーン提示部15は、S7で提示された異常シーンの候補の映像に対するオペレータの確認入力として、異常シーンまたは正常シーンのいずれかのタグ付けの入力を受け付ける。
S9で、オペレータは、異常シーンとタグ付けした異常シーンの候補について、異常シーンに対する処理、すなわち、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行する。一方、オペレータは、正常シーンとタグ付けした異常シーンの候補については、異常シーンに対する処理を実行することなく、映像の配信を続行させる。
In S7, the
In S8, the
In S9, the operator determines that the candidate for the abnormal scene tagged as the abnormal scene is processed for the abnormal scene, that is, the distribution of the video content including the abnormal scene is stopped, the account of the distribution source of the video content is deleted, or the determination is made. Execute processing such as deleting abnormal scenes. On the other hand, the operator causes the video distribution to continue for the candidate of the abnormal scene tagged as the normal scene without executing the processing for the abnormal scene.
S10で、異常検出装置1のシーン提示部15は、S8でシーン提示部15に入力されたオペレータの異常シーンまたは正常シーンのタグ(ラベル)を、提示された異常シーンの候補の音声特徴および画像特徴と対応付けて、オペレータによる異常シーンの判定結果である学習データとして、学習データDB2に格納する。これにより、新たな学習データで、学習データDB2が更新される。
In S10, the
S11で、異常検出装置1の異常判定器14は、S10で更新された学習データDB2を基づいて、再学習を実行する。なお、異常判定器14の再学習が必要か否かは、異常判定器14の異常判定アルゴリズムに依存する。例えば、上記で説明したように、異常判定器14がk近傍法を使用する場合は、異常シーンの判定の度に、学習データDB2を参照してk個の最近傍の標本を選ぶため、S11で再学習を実行する必要がなく、S10で学習データDB2を更新すれば足り、S11の処理を省略してよい。
In S11, the
一方、異常判定器14が、ニューラルネットワークやSVM等を使用する場合は、いずれかのタイミングで異常判定器14を再学習させて、異常判定器14のパラメータを更新する必要がある。
再学習のタイミングは、学習データDB2を更新する度に、異常判定器14を毎回再学習させてもよく、学習データDB2が所定回数更新される度に、異常判定器14を再学習させてもよい。あるいは、S4で異常判定器14を使用する直前に、異常判定器14を再学習させることもできるが、リアルタイム配信される映像からリアルタイムで異常シーンを検出しようとする場合には、再学習実行によりリアルタイム性が低下しかねないことを考慮すべきである。
On the other hand, when the
As for the timing of re-learning, the
<変形例>
図10は、本実施形態に係る異常検出装置1が実行する異常シーン検出処理の変形例を示す図である。
異常シーン候補検出部13は、変形例として、図10に示すように、S3の処理を省略して、学習データDB2に蓄積される学習データの数にかかわりなく、一律に、検出された異常シーンの候補を、異常判定器14に供給してもよい。これにより、映像監視におけるオペレータの異常シーンの候補の確認処理の負荷をさらに軽減することができる。
<Modification example>
FIG. 10 is a diagram showing a modified example of the abnormality scene detection process executed by the abnormality detection device 1 according to the present embodiment.
As a modified example, the abnormal scene
以上説明したように、本実施形態によれば、異常検出装置は、取得された映像データ中の音声特徴および画像特徴を抽出し、抽出された音声特徴を教師なし学習により分類することにより、映像データから異常シーンの候補を検出する。異常検出装置はまた、検出された異常シーンの候補を、映像データの音声特徴および画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器を備え、異常判定器により、異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、ユーザインタフェースを介して受け付ける。 As described above, according to the present embodiment, the anomaly detection device extracts audio features and image features in the acquired video data, and classifies the extracted audio features by unsupervised learning. Detects abnormal scene candidates from the data. The anomaly detector also comprises an anomaly determiner that determines any of the detected anomalous scene candidates as anomalous, normal, or otherwise based on the audio and image features of the video data. When it is determined that the candidate for the abnormal scene belongs to others, the candidate for the abnormal scene is presented via the user interface, and the user interface is used to input information to be added to the presented candidate for the abnormal scene. Accept through.
これにより、第1段階で、映像データ中の音声特徴に基づいて教師なし学習により高速かつ低負荷で異常シーンの候補を第1段階として検出し、第2段階で、映像データ中の音声特徴および画像特徴に基づく異常判定器による異常シーンの判定と、映像提示に基づくオペレータの目視による異常シーンの判定とを補完的に併用する。
したがって、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
これにより、リアルタイムで配信され、多様な異常シーンを含み得る映像データに十分に追従した、高速かつ高精度な異常シーンのマルチモーダルな検出が実現できる。
As a result, in the first stage, candidates for abnormal scenes are detected as the first stage at high speed and low load by unsupervised learning based on the audio characteristics in the video data, and in the second stage, the audio characteristics and the audio characteristics in the video data are detected. The judgment of the abnormal scene by the abnormality judgment device based on the image feature and the judgment of the abnormal scene by the operator's visual observation based on the video presentation are used in a complementary manner.
Therefore, it is possible to detect various abnormalities from the video with high accuracy while reducing the load on the operator.
As a result, it is possible to realize high-speed and high-precision multimodal detection of abnormal scenes that are delivered in real time and sufficiently follow the video data that may include various abnormal scenes.
(実施形態2)
以下、図11~図14を参照して、実施形態2を、実施形態1と異なる点についてのみ詳細に説明する。
本実施形態では、上記で説明した実施形態1に加え、さらに、映像データの画像特徴から映像中のオブジェクトである人の感情を解析し、感情解析結果を異常シーンの候補の検出や異常シーンの判定に用いる。
(Embodiment 2)
Hereinafter, the second embodiment will be described in detail only with reference to FIGS. 11 to 14 and different from the first embodiment.
In this embodiment, in addition to the first embodiment described above, the emotions of a person who is an object in the video are analyzed from the image features of the video data, and the emotion analysis results are used to detect candidates for abnormal scenes and to detect abnormal scenes. Used for judgment.
図11は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図11のブロック図では、図1に示す実施形態1の異常検出装置1の機能構成に加えて、感情解析部16を備える。
図11において、データ取得部11、特徴抽出部12、異常シーン候補13、異常判定器14、およびシーン提示部15の機能構成は、図1に示す対応する各部と同様である。
図11を参照して、特徴抽出部12は、映像データ中の画像データから抽出した画像特徴を、感情解析部16へ供給する。
FIG. 11 is a block diagram showing an example of the functional configuration of the abnormality detection device 1 according to the present embodiment.
In the block diagram of FIG. 11, in addition to the functional configuration of the abnormality detection device 1 of the first embodiment shown in FIG. 1, an
In FIG. 11, the functional configurations of the
With reference to FIG. 11, the
感情解析部16は、特徴抽出部12から供給される映像データの画像特徴に基づいて、画像中のオブジェクトである人の顔の感情を解析する。
感情解析部16は、例えば、CNN等の教師あり学習を用いて、画像中の人の顔を解析することで、画像中の人の顔の感情を推定してよい。人の顔の画像から推定される人の顔の感情は、例えば、怒り、嫌悪、恐怖、幸福、悲しみ、驚き、その他(ニュートラル)の感情を含んでよい。
感情解析部16はまた、時間的に隣接する複数の画像フレームの間で算出される、推定された感情の平均信頼度に基づいて、対象画像中の人の顔の感情を決定してもよい。
The
The
The
感情解析部16はさらに、画像中の人の身体や四肢の動き、人が把持等するオブジェクト(例えば、マイクロフォン、楽器等)、または背景(例えば、屋内か屋外か等)を解析してよい。特徴抽出部12は、感情解析部16が解析すべき対象オブジェクトの特徴を抽出して、感情解析部16へ供給してよい。
The
本実施形態において、感情解析部16が人の顔の画像の画像特徴から推定する人の顔の感情は、異常シーン候補検出部13が実行する異常シーンの候補の検出処理、および異常判定器14が実行する異常シーンの候補の異常判定処理を補完する。
具体的には、感情解析部16は、人の顔の画像特徴から推定された人の顔の感情から、映像の文脈を推定して、異常シーン候補検出部13に対して、異常シーン候補検出処理のキュー(トリガ)を与えてもよい。例えば、感情解析部16が、人の顔の画像を解析して人の顔の感情として、例えば、怒り、恐怖、驚き等を検出した場合、当該画像を含む映像は、異常シーンである可能性が高いため、感情解析部16は、異常シーン解析部13にキューを与えて、当該映像の音声特徴から異常シーンの候補を検出する処理を実行させてもよい。
In the present embodiment, the emotions of the human face estimated by the
Specifically, the
感情解析部16はまた、人の顔の画像特徴から推定される人の顔の感情の特徴を異常判定器14に供給し、異常判定器14が、感情解析部16から供給される人の顔の感情の特徴を特徴空間に統合して、k近傍法により、異常シーンの候補を異常判定してもよい。例えば、異常判定器14は、人の顔の感情として、例えば、怒り、恐怖、驚き等の特徴を、異常シーンと判定するための正因子として使用してよい。
感情解析部16はさらに、人の顔の画像特徴から推定される人の顔の感情の解析結果を、シーン提示部15に供給し、シーン提示部15が、感情解析部16から供給される人の顔の感情の解析結果を、例えば、提示される映像中に重畳表示や別ウインドウ表示等で併せて表示してもよい。
The
The
図12は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
図12のフローチャートでは、図2に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S1とS2の間に、S12の処理が追加されている。
S1の処理は、図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出する。
FIG. 12 is a flowchart showing an example of a processing procedure of an abnormality scene detection process executed by the abnormality detection device 1 according to the second embodiment.
In the flowchart of FIG. 12, the process of S12 is added between S1 and S2 with respect to the abnormal scene detection process executed by the abnormality detection device 1 of the first embodiment shown in FIG.
The processing of S1 is the same as that of the first embodiment shown in FIG. That is, as in the first embodiment, the
S1で、異常検出装置1の特徴抽出部12が、映像データから音声特徴および画像特徴がそれぞれ抽出すると、S12に進む。
S12で、異常検出装置1の感情解析部16は、特徴抽出部12により抽出された画像特徴から、異常シーンの候補を検出する。具体的には、感情解析部16は、画像中の人の顔の画像特徴から、人の感情を推定し、例えば、怒り、恐怖、驚き等の感情が推定された場合には、当該画像を含む映像シーンを異常シーンの候補として検出してよい。
感情解析部16は、画像特徴から異常シーンの候補を検出した場合、後続するS2で実行される異常シーン候補検出部13により実行される映像の音声特徴に基づく異常シーン候補の検出処理にキュー(トリガ)を与える。
In S1, when the
In S12, the
When the
S12に続き、S2で、異常検出装置1の異常シーン候補検出部13は、感情解析部16が画像特徴から異常シーンの候補を検出してトリガを与えた場合、感情解析部16から供給される異常シーンの候補に対応する音声特徴を教師なし学習を用いて分類することにより、異常シーンの候補を検出する。
Following S12, in S2, the abnormal scene
代替的に、異常シーン候補検出部13は、感情解析部16からトリガを与えられるか否かにかかわりなく、常時、映像データの音声特徴から異常シーンの候補を検出し、感情解析部16から画像特徴に基づく異常シーン候補検出のトリガを与えられた際に、検出された異常シーン候補の音声特徴から、異常シーンの候補として異常検出器14に供給すべきかを確認してもよい。
S2~S11までの処理は、図2に示す第1の実施形態と同様である。
なお、本実施形態に係る異常検出装置1は、図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
Alternatively, the abnormal scene
The processing from S2 to S11 is the same as that of the first embodiment shown in FIG.
As in FIG. 10, the abnormality detection device 1 according to the present embodiment omits the determination and branch processing of S3, and uses the
図13は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の変形例の処理手順の一例を示すフローチャートである。
図13のフローチャートでは、図1に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S2とS3の間に、S13の処理が追加されている。
S1およびS2の処理は、図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出し、異常シーン候補検出部13は、特徴抽出部12から供給される映像データの音声特徴に基づいて、異常シーンの候補を検出する。
FIG. 13 is a flowchart showing an example of a processing procedure of a modified example of the abnormality scene detection processing executed by the abnormality detection device 1 according to the second embodiment.
In the flowchart of FIG. 13, the process of S13 is added between S2 and S3 with respect to the abnormal scene detection process executed by the abnormality detection device 1 of the first embodiment shown in FIG.
The processing of S1 and S2 is the same as that of the first embodiment shown in FIG. That is, as in the first embodiment, the
次に、S13で、異常検出装置1の感情解析部16は、特徴抽出部12から供給される画像データの画像特徴のうち、特に画像中に含まれる人の顔の画像特徴から、人の顔の感情を推定する。
S3~S11までの処理は、図2に示す実施形態1と同様であるが、S4で、異常判定器14は、感情解析部16から供給される画像中の人の顔の感情の特徴を音声および画像の特徴空間に統合してよい。また、S7で、シーン提示部15は、感情解析部16の解析結果を、異常シーンの候補の画像と併せて提示してよい。
なお、図13において、S2およびS13は、同時並行的に実行されてもよく、S13は、時系列的にS2より前に実行されてもよい。
また、本実施形態に係る異常検出装置1は、図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
Next, in S13, the
The processing from S3 to S11 is the same as that of the first embodiment shown in FIG. 2, but in S4, the
In addition, in FIG. 13, S2 and S13 may be executed in parallel, and S13 may be executed before S2 in chronological order.
Further, the abnormality detection device 1 according to the present embodiment omits the determination and branching processing of S3 as in FIG. 10, and uses the
図14は、異常検出装置1の感情解析部16が映像データの画像を解析し、シーン提示部15が提示する感情解析結果の出力例を示す図である。
図14を参照して、画像中で、人の顔の周囲にバウンディングボックス131が表示され、人の顔のオブジェクトとして検出されたことを示している。このバウンディングボックス13内の人の顔から推定された感情の信頼度が、出力ウインドウの左上に表示されている。
図14の例では、怒りの信頼度が37.45%と最も高く算出されているが、バウンディングボックス131で包囲された人の顔の表情は、怒りを示しておらずニュートラルであるものとする。この場合、図14の画像を提示されたオペレータは、提示された画像中の人の顔の表情を目視で確認し、異常シーンではない(すなわち、正常シーンである)との確認結果をシーン提示部15に入力することができる。あるいは、感情解析部16は、信頼度のスコアに所定の閾値を設け、怒りの信頼度のスコアが閾値以下である場合には、異常シーンの候補として検出しなくてもよい。
FIG. 14 is a diagram showing an output example of an emotion analysis result presented by the
With reference to FIG. 14, a
In the example of FIG. 14, the reliability of anger is calculated to be the highest at 37.45%, but the facial expression of the person surrounded by the
以上説明したように、本実施形態によれば、異常検出装置の異常判定器は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、異常シーンの判定を実行すれば足りる。したがって、学習データのサンプル数が少ない場合であっても、高精度かつ低負荷で異常判定処理を実行することができる。
同様に、本実施形態によれば、異常検出装置のシーン提示部は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、オペレータに提示すれば足りる。したがって、異常シーンの確認におけるオペレータの負荷がさらに軽減される。
As described above, according to the present embodiment, the abnormality determination device of the abnormality detection device is based on multimodal information of both audio characteristics and image characteristics of video data, particularly emotional characteristics of a human face. , It suffices to execute the determination of the abnormal scene for the candidate of the abnormal scene determined to have a high probability of being an abnormal scene. Therefore, even when the number of samples of the training data is small, the abnormality determination process can be executed with high accuracy and low load.
Similarly, according to the present embodiment, the scene presentation unit of the abnormality detection device is based on multimodal information of both audio characteristics of video data and image characteristics, particularly emotional characteristics of a human face, to obtain an abnormal scene. It suffices to present to the operator a candidate for an abnormal scene that is determined to be highly probable. Therefore, the load on the operator in confirming the abnormal scene is further reduced.
<異常検出装置のハードウエア構成>
図15は、本実施形態に係る異常検出装置1のハードウエア構成の非限定的一例を示す図である。
本実施形態に係る異常検出装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図15を参照して、異常検出装置1は、単一のコンピュータに実装される例が示されているが、本実施形態に係る異常検出装置1は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
<Hardware configuration of anomaly detection device>
FIG. 15 is a diagram showing a non-limiting example of the hardware configuration of the abnormality detection device 1 according to the present embodiment.
The anomaly detection device 1 according to the present embodiment can be implemented on a single or a plurality of any computer, mobile device, or any other processing platform.
Although an example in which the abnormality detection device 1 is mounted on a single computer is shown with reference to FIG. 15, the abnormality detection device 1 according to the present embodiment is mounted on a computer system including a plurality of computers. You can do it. A plurality of computers may be connected to each other so as to be able to communicate with each other by a wired or wireless network.
図15に示すように、異常検出装置1は、CPU21と、ROM22と、RAM23と、HDD24と、入力部25と、表示部26と、通信I/F27と、システムバス28とを備えてよい。異常検出装置1はまた、外部メモリを備えてよい。PC3もまた、図15と同様の構成を備えてよい。
CPU(Central Processing Unit)21は、異常検出装置1における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
異常検出装置1はまた、GPU(Graphics Processing Unit)を備えてよい。GPUは、CPU21より高い計算機能を有し、複数または多数のGPUを並列して動作させることにより、特に、本実施形態のような機械学習を使用する映像処理アプリケーションに、より高い処理パフォーマンスを提供する。GPUは、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
As shown in FIG. 15, the abnormality detection device 1 may include a
The CPU (Central Processing Unit) 21 comprehensively controls the operation of the abnormality detection device 1, and controls each component (22 to 27) via the
The abnormality detection device 1 may also include a GPU (Graphics Processing Unit). The GPU has a higher calculation function than the
ROM(Read Only Memory)22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)14、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)23は、揮発性メモリであり、CPU11の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
The ROM (Read Only Memory) 22 is a non-volatile memory for storing a control program or the like necessary for the
The RAM (Random Access Memory) 23 is a volatile memory, and functions as a main memory, a work area, or the like of the
HDD24は、例えば、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD24には、例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、異常シーン検出処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をパラメータ調整装置1へ指示入力するためのユーザインタフェースであるGUI(Graphical User Interface)を提供してよい。
The
The
The
通信I/F27は、異常検出装置1と外部装置との通信を制御するインタフェースである。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で映像、異常シーン判定結果、異常シーン確認入力、各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
The communication I /
The communication I /
図1に示す異常検出装置1の各要素のうち少なくとも一部の機能は、CPU21がプログラムを実行することで実現することができる。ただし、図1に示す異常検出装置1の各要素のうち少なくとも一部の機能が専用のハードウエアとして動作するようにしてもよい。この場合、専用のハードウエアは、CPU21の制御に基づいて動作する。
At least a part of the functions of each element of the abnormality detection device 1 shown in FIG. 1 can be realized by the
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。 Although specific embodiments have been described above, the embodiments are merely examples and are not intended to limit the scope of the present invention. The devices and methods described herein can be embodied in forms other than those described above. Further, without departing from the scope of the present invention, omissions, substitutions and modifications can be made to the above-described embodiments as appropriate. Such abbreviations, substitutions and modifications are included in the claims and equivalents thereof and fall within the technical scope of the invention.
1…異常検出装置、2…学習データDB、3…PC、11…データ取得部、12…特徴抽出部、13…異常シーン候補検出部、14…異常判定器、15…シーン提示部、16…感情解析部、21…CPU、22…ROM、23…RAM、24…HDD、25…入力部、26…表示部、27…通信I/F、28…バス 1 ... Abnormality detection device, 2 ... Learning data DB, 3 ... PC, 11 ... Data acquisition unit, 12 ... Feature extraction unit, 13 ... Abnormal scene candidate detection unit, 14 ... Abnormality determination device, 15 ... Scene presentation unit, 16 ... Emotion analysis unit, 21 ... CPU, 22 ... ROM, 23 ... RAM, 24 ... HDD, 25 ... input unit, 26 ... display unit, 27 ... communication I / F, 28 ... bus
Claims (16)
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と
を備えることを特徴とする情報処理装置。 The video acquisition unit that acquires video data and
A feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit and extracts image features from the video data, and a feature extraction unit.
An abnormal scene candidate detection unit that detects an abnormal scene candidate from the video data based on the audio feature extracted by the feature extraction unit.
An abnormality determining device that determines the abnormal scene candidate detected by the abnormal scene candidate detection unit as abnormal, normal, or other based on the audio feature and the image feature.
When the abnormality determination device determines that the candidate for the abnormal scene belongs to another, the candidate for the abnormal scene is presented via the user interface, and information to be added to the presented candidate for the abnormal scene. An information processing apparatus including a scene presentation unit that receives input from the user interface via the user interface.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the abnormal scene candidate detection unit detects a candidate for the abnormal scene from the video data by using unsupervised learning.
ことを特徴とする請求項1または2に記載の情報処理装置。 The claim is characterized in that the abnormal scene candidate detection unit detects a candidate for the abnormal scene from the video data by directly separating the abnormal audio feature without generating a model of the normal audio feature group. Item 2. The information processing apparatus according to Item 1 or 2.
ことを特徴とする請求項3に記載の情報処理装置。 The information processing according to claim 3, wherein the abnormal scene candidate detection unit separates the abnormal voice feature by calculating the path length in the isolation forest of each voice feature. Device.
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。 The information processing according to any one of claims 1 to 4, wherein the feature extraction unit extracts audio features represented by a Mel Frequency spectrogram of audio data in the video data. Device.
ことを特徴とする請求項5に記載の情報処理装置。 The feature extraction unit is characterized in that the Mel Frequency cepstrum coefficient (MFCC) is calculated from the voice data, the calculated MFCC is connected to the Mel frequency, and the voice feature is extracted. The information processing apparatus according to claim 5.
ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。 The scene presenting unit is characterized in that information input via the user interface is added to the voice feature and the image feature and stored in a storage device as learning data for the abnormality determining device. The information processing apparatus according to any one of claims 1 to 6.
ことを特徴とする請求項7に記載の情報処理装置。 7. The abnormality scene candidate detection unit is characterized in that, when the number of the learning data stored in the storage device exceeds a predetermined threshold value, the abnormality determination device determines the candidate of the abnormality scene. The information processing device described in.
ことを特徴とする請求項7または8に記載の情報処理装置。 When the number of the learning data stored in the storage device is within a predetermined threshold value, the abnormal scene candidate detection unit bypasses the determination by the abnormal device and causes the scene presentation unit to display the abnormal scene. The information processing apparatus according to claim 7, wherein the candidate is presented.
ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。 In the anomaly determination device, the difference between the number of abnormal samples located in the vicinity of the candidate for the abnormal scene and the number of normal samples in the feature space in which the audio feature and the image feature are integrated is within a predetermined threshold value. The information processing apparatus according to any one of claims 1 to 9, wherein the candidate for the abnormal scene is determined elsewhere.
ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 10, wherein the abnormality determining device determines a candidate for the abnormal scene by the k-nearest neighbor method.
ことを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。 From the image features extracted by the feature extraction unit, supervised learning is used to analyze facial emotions contained in the video data, and the analyzed facial emotion features are supplied to the abnormality determination device. Further equipped with an emotion analysis department
The information processing apparatus according to any one of claims 1 to 11.
ことを特徴とする請求項12に記載の情報処理装置。 When the emotion analysis unit detects a candidate for the abnormal scene from the video data based on the analyzed emotion of the face, the abnormal scene candidate detection unit detects the abnormal scene based on the audio feature. The information processing apparatus according to claim 12, wherein the information processing apparatus is to be executed.
前記サーバは、
映像データを取得する映像取得部と、
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、
当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、
前記クライアント装置は、
前記サーバから送信される前記異常シーンの候補を受信する受信部と、
前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、
前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する
ことを特徴とする情報処理システム。 An information processing system including a server and at least one client device connected to the server via a network.
The server
The video acquisition unit that acquires video data and
A feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit and extracts image features from the video data, and a feature extraction unit.
An abnormal scene candidate detection unit that detects an abnormal scene candidate from the video data based on the audio feature extracted by the feature extraction unit.
An abnormality determining device that determines the abnormal scene candidate detected by the abnormal scene candidate detection unit as abnormal, normal, or other based on the audio feature and the image feature.
When the abnormality determination device determines that the abnormality scene candidate belongs to another, the abnormality scene candidate is presented via the user interface, and information to be added to the presented abnormality scene candidate. The scene presentation unit that accepts the input of
It has a transmission unit that transmits a candidate for the abnormal scene to the client device, and has.
The client device is
A receiving unit that receives the candidate of the abnormal scene transmitted from the server, and a receiving unit.
The user interface that presents the candidate of the abnormal scene received by the receiving unit and accepts the input of the information to be added to the presented candidate of the abnormal scene, and the user interface.
An information processing system comprising: a transmission unit for transmitting information to be added to the candidate of the abnormal scene for which the user interface has received input to the server.
映像データを取得するステップと、
取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、
教師なし学習により、抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出するステップと、
異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップと、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるステップと
を含むことを特徴とする情報処理方法。 It is an information processing method executed by an information processing device.
Steps to acquire video data and
A step of extracting audio features from the acquired video data and extracting image features from the video data,
A step of detecting a candidate for an abnormal scene from the video data based on the audio features extracted by unsupervised learning.
A step of determining the candidate of the abnormal scene detected by the abnormality determining device as abnormal, normal, or other based on the audio feature and the image feature.
When the abnormality determination device determines that the candidate for the abnormal scene belongs to another, the candidate for the abnormal scene is presented via the user interface, and information to be added to the presented candidate for the abnormal scene. An information processing method comprising a step of accepting an input of the above through the user interface.
映像データを取得する映像取得処理と、
前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、
前記特徴抽出処理により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、
異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示処理と
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。
It is an information processing program for causing a computer to execute information processing, and the program causes the computer to execute information processing.
Video acquisition processing to acquire video data and
A feature extraction process that extracts audio features from the video data acquired by the video acquisition process and extracts image features from the video data.
Anomalous scene candidate detection processing that detects anomalous scene candidates from the video data based on the audio features extracted by the feature extraction processing, and
Abnormality determination processing for determining the abnormal scene candidate detected by the abnormal scene candidate detection process by the abnormality determination device as abnormal, normal, or other based on the audio feature and the image feature.
When the abnormality determination device determines that the candidate for the abnormal scene belongs to another, the candidate for the abnormal scene is presented via the user interface, and information to be added to the presented candidate for the abnormal scene. An information processing program for executing a process including a scene presentation process for receiving an input of the above via the user interface.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020129279A JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
JP2022099393A JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020129279A JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022099393A Division JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022026016A true JP2022026016A (en) | 2022-02-10 |
JP7096296B2 JP7096296B2 (en) | 2022-07-05 |
Family
ID=80264888
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020129279A Active JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
JP2022099393A Active JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022099393A Active JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7096296B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009049949A (en) * | 2007-08-23 | 2009-03-05 | Yahoo Japan Corp | Method for controlling reproduction of streaming information |
JP2012142645A (en) * | 2009-04-28 | 2012-07-26 | Mitsubishi Electric Corp | Audio/video reproducing apparatus, audio/video recording and reproducing apparatus, audio/video editing apparatus, audio/video reproducing method, audio/video recording and reproducing method, and audio/video editing apparatus |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5627962B2 (en) * | 2010-09-08 | 2014-11-19 | セコム株式会社 | Anomaly detection device |
JP5560397B2 (en) * | 2011-12-22 | 2014-07-23 | 株式会社ウェルソック | Autonomous crime prevention alert system and autonomous crime prevention alert method |
JP6809250B2 (en) * | 2017-01-23 | 2021-01-06 | 株式会社リコー | Information processing equipment, information processing methods and programs |
JP6844563B2 (en) * | 2018-03-13 | 2021-03-17 | オムロン株式会社 | Inspection equipment, image identification equipment, identification equipment, inspection method, and inspection program |
JP2019200671A (en) * | 2018-05-17 | 2019-11-21 | 大日本印刷株式会社 | Learning device, learning method, program, data generation method, and identification device |
JP2020003846A (en) * | 2018-06-25 | 2020-01-09 | アズビル株式会社 | Discrimination label assignment support apparatus and discrimination label assignment support method |
-
2020
- 2020-07-30 JP JP2020129279A patent/JP7096296B2/en active Active
-
2022
- 2022-06-21 JP JP2022099393A patent/JP7361163B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009049949A (en) * | 2007-08-23 | 2009-03-05 | Yahoo Japan Corp | Method for controlling reproduction of streaming information |
JP2012142645A (en) * | 2009-04-28 | 2012-07-26 | Mitsubishi Electric Corp | Audio/video reproducing apparatus, audio/video recording and reproducing apparatus, audio/video editing apparatus, audio/video reproducing method, audio/video recording and reproducing method, and audio/video editing apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP7096296B2 (en) | 2022-07-05 |
JP2022153360A (en) | 2022-10-12 |
JP7361163B2 (en) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538472B2 (en) | Processing speech signals in voice-based profiling | |
JP4546767B2 (en) | Emotion estimation apparatus and emotion estimation program | |
Ringeval et al. | Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion | |
Leonid et al. | Retracted article: statistical–model based voice activity identification for human-elephant conflict mitigation | |
Boishakhi et al. | Multi-modal hate speech detection using machine learning | |
Parthasarathy et al. | Predicting speaker recognition reliability by considering emotional content | |
CN117115581A (en) | Intelligent misoperation early warning method and system based on multi-mode deep learning | |
Al-Dhief et al. | Dysphonia detection based on voice signals using naive bayes classifier | |
JP7096296B2 (en) | Information processing equipment, information processing methods and programs | |
Fonnegra et al. | Speech emotion recognition integrating paralinguistic features and auto-encoders in a deep learning model | |
JP6784255B2 (en) | Speech processor, audio processor, audio processing method, and program | |
Bancroft et al. | Exploring the intersection between speaker verification and emotion recognition | |
US11404064B2 (en) | Information processing apparatus and speech analysis method | |
Valsaraj et al. | Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT | |
Liang et al. | Semi-supervised multimodal emotion recognition with improved wasserstein gans | |
US20230015028A1 (en) | Diagnosing respiratory maladies from subject sounds | |
Sharma et al. | Speech Emotion Recognition System using SVD algorithm with HMM Model | |
Gupta et al. | Speech emotion recognition using MFCC and wide residual network | |
CN116935889B (en) | Audio category determining method and device, electronic equipment and storage medium | |
Wang et al. | MFCC-based deep convolutional neural network for audio depression recognition | |
CN115658933B (en) | Psychological state knowledge base construction method and device, computer equipment and storage medium | |
Weninger et al. | Speaker trait characterization in web videos: Uniting speech, language, and facial features | |
KR102334580B1 (en) | Apparatus and method for recognizing emotion based on user voice and graph neural network | |
KR102564570B1 (en) | System and method for analyzing multimodal emotion | |
Junior et al. | A Method for Opinion Classification in Video Combining Facial Expressions and Gestures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096296 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |