JP2022153360A - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP2022153360A JP2022153360A JP2022099393A JP2022099393A JP2022153360A JP 2022153360 A JP2022153360 A JP 2022153360A JP 2022099393 A JP2022099393 A JP 2022099393A JP 2022099393 A JP2022099393 A JP 2022099393A JP 2022153360 A JP2022153360 A JP 2022153360A
- Authority
- JP
- Japan
- Prior art keywords
- abnormal
- candidate
- scene
- abnormal scene
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 38
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims abstract description 325
- 230000005856 abnormality Effects 0.000 claims abstract description 148
- 239000000284 extract Substances 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims description 156
- 230000008451 emotion Effects 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 32
- 238000002955 isolation Methods 0.000 claims description 12
- 230000001815 facial effect Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 description 23
- 230000002547 anomalous effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 238000001228 spectrum Methods 0.000 description 17
- 238000012790 confirmation Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000012806 monitoring device Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 235000005282 vitamin D3 Nutrition 0.000 description 1
- 239000011647 vitamin D3 Substances 0.000 description 1
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、映像を解析して異常を検知するための技術に関する。 The present invention relates to an information processing device, an information processing method, and a program, and more particularly to technology for analyzing video and detecting anomalies.
近年の映像配信サービスは、コンテンツプロバイダが作成した映像コンテンツのみならず、一般ユーザが作成した映像コンテンツのリアルタイム配信を可能にしている。
このような映像配信サービスにおいては、配信される映像コンテンツ中に、視聴するのに不適切ないわゆる異常シーンが含まれないよう、配信される映像を監視し、検出された異常シーンが誤って視聴されないよう、異常シーンの削除、配信停止や配信アカウント削除等の処理をする必要がある。このような異常シーンは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含む。
Recent video distribution services enable real-time distribution of not only video content created by content providers but also video content created by general users.
In such a video distribution service, the distributed video is monitored so that the video content to be distributed does not include so-called abnormal scenes that are inappropriate for viewing. In order to prevent this, it is necessary to delete abnormal scenes, stop distribution, delete distribution accounts, etc. Such abnormal scenes include, for example, Non-Family-Safe (NFS) scenes such as violent scenes and scenes not intended for children.
特許文献1は、エレベータの乗りかご内に設けられた防犯カメラにより撮影された撮影データから乗員の異常行動を検知するエレベータ監視装置を開示する。
具体的には、特許文献1の監視装置においては、乗りかご内に設置されたインターホンで集音された乗員の音声データを周波数分析した結果から抽出された所定の周波数帯域に応じて暴れ判定閾値を設定するとともに、防犯カメラにより撮影された撮影データから乗員の動きのばらつき量を統計的に算出する。特許文献1の監視装置はさらに、算出された乗員の動きのばらつき量と暴れ判定閾値とを比較し、乗員の動きのばらつき量が暴れ判定閾値以上のときに乗員の動きを異常行動とみなして暴れを判定する。これにより、乗員が僅かにしか動けない場合でも撮影データから異常行動を判定している。
Patent Literature 1 discloses an elevator monitoring device that detects abnormal behavior of passengers from photographed data photographed by a security camera provided inside an elevator car.
Specifically, in the monitoring device of Patent Literature 1, the threshold value for judging agitation is determined according to a predetermined frequency band extracted from the result of frequency analysis of voice data of passengers collected by an intercom installed in the car. is set, and the amount of variation in the movement of the occupant is statistically calculated from the photographed data photographed by the security camera. The monitoring device of Patent Literature 1 further compares the calculated variation amount of the occupant's movement with a violent judgment threshold, and regards the movement of the passenger as an abnormal behavior when the fluctuation amount of the passenger's movement is greater than or equal to the violent judgment threshold. determine outrage. As a result, even if the occupant can only move slightly, abnormal behavior can be determined from the photographed data.
しかしながら、特許文献1の技術では、検知可能な異常がエレベータ内における乗員の暴れに限定されているため、多様な映像コンテンツ中に含まれ得る多様な異常シーンを適切に検出することは困難である。 However, with the technique of Patent Document 1, the detectable abnormalities are limited to the rampage of the passengers in the elevator, so it is difficult to appropriately detect various abnormal scenes that can be included in various video contents. .
特に、映像配信サービスは、メインターゲットとするユーザの年齢層や嗜好等によりそれぞれ多岐にセグメント化されており、映像配信サービスごとに、視聴するのに不適切な異常シーンの範囲が区々である。さらに、映像コンテンツ中に異常シーンが出現する頻度は通常僅かであるため、教師あり機械学習のために必要となる学習データの汎用データベース化には適さない。他方、教師なしの機械学習で映像コンテンツから異常シーンを検出しようとすると、検出精度が低下してしまう。 In particular, video distribution services are segmented into a wide range of segments depending on the age group and preferences of the main target users, and the range of abnormal scenes that are inappropriate for viewing varies for each video distribution service. . Furthermore, since the frequency of appearance of abnormal scenes in video content is usually very low, it is not suitable for creating a general-purpose database of learning data required for supervised machine learning. On the other hand, if an attempt is made to detect abnormal scenes from video content by unsupervised machine learning, the detection accuracy will drop.
ところで、コンテンツプロバイダにより作成された映像には、コンテンツプロバイダにより、配信される映像コンテンツに、暴力シーンを含むか否か、子供向けコンテンツであるか否か、あるいは年齢制限の有無等のタグ情報が付加されていることが多く、コンテンツ作成時にコンテンツプロバイダに異常シーンの存在にタグ付けさせることも可能である。
一方、近年増加している一般ユーザが作成した映像コンテンツには、このような異常シーンのタグ情報が付加されていないことが多く、あるいは、付加されていたとしてもタグ付けが必ずしも当該映像配信サービスにおいて適切でないおそれがある。
By the way, in the video created by the content provider, tag information such as whether or not the video content distributed by the content provider includes a violent scene, whether or not the content is for children, or whether or not there is an age limit is included. It is often added, and it is possible to have content providers tag the presence of anomalous scenes when content is created.
On the other hand, the video content created by general users, which has been increasing in recent years, often does not have such tag information of abnormal scenes added, or even if it does, the tag information is not necessarily attached to the video distribution service. may not be appropriate for
このため、従来は、映像配信サービスによっては、オペレータが、配信される映像コンテンツを常時監視し、映像コンテンツ中から異常シーンを発見した場合に、当該映像コンテンツに年齢制限を設定したり、当該映像コンテンツの配信を停止したりしており、これにより、映像を監視するオペレータの時間的および作業的負荷や、さらに心理的負担をも増加させていた。同時に、マニュアルで映像コンテンツを監視することによる異常シーンの見逃しも発生するおそれがあった。 For this reason, conventionally, depending on the video distribution service, the operator constantly monitors the video content to be distributed, and if an abnormal scene is found in the video content, the operator sets an age limit for the video content, or In some cases, distribution of content is stopped, which increases the time and work load of the operator who monitors the video, as well as the psychological load. At the same time, there is a risk that abnormal scenes may be overlooked due to manual monitoring of video content.
本発明は上記課題を解決するためになされたものであり、その目的は、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することが可能な情報処理装置、情報処理方法およびプログラムを提供することにある。 SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide an information processing apparatus and an information processing method capable of detecting various abnormalities from images with high accuracy while reducing the burden on the operator. and to provide programs.
上記課題を解決するために、本発明に係る情報処理装置の一態様は、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部とを備える。 In order to solve the above problems, one aspect of an information processing apparatus according to the present invention is a video acquisition unit that acquires video data; an abnormal scene candidate detection unit for detecting abnormal scene candidates from the video data based on the audio features extracted by the feature extraction unit; and the abnormal scene candidate detection unit an anomaly determiner for determining, based on the audio feature and the image feature, the candidate for the abnormal scene detected by is determined to belong to others, the candidate for the abnormal scene is presented via a user interface, and input of information to be added to the candidate for the presented abnormal scene is accepted via the user interface. and a scene presenter.
前記異常シーン候補検出部は、教師なし学習を用いて、前記映像データから前記異常シーンの候補を検出してよい。 The abnormal scene candidate detection unit may detect the abnormal scene candidates from the video data using unsupervised learning.
前記異常シーン候補検出部は、正常な音声特徴群のモデルを生成することなく、異常な音声特徴を直接分離することにより、前記映像データから前記異常シーンの候補を検出してよい。 The abnormal scene candidate detection unit may detect the abnormal scene candidates from the video data by directly separating abnormal audio features without generating a model of normal audio features.
前記異常シーン候補検出部は、それぞれの音声特徴のアイソレーションフォレスト(Isolation Forest)におけるパス長を算出することにより、前記異常な音声特徴を分離してよい。 The abnormal scene candidate detector may isolate the abnormal audio features by calculating a path length in an isolation forest of each audio feature.
前記特徴抽出部は、前記映像データ中の音声データのメル周波数(Mel Frequency)スペクトログラムで表現される音声特徴を抽出してよい。 The feature extraction unit may extract an audio feature represented by a Mel frequency spectrogram of audio data in the video data.
前記特徴抽出部は、前記音声データから、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを前記メル周波数に連結して、前記音声特徴を抽出してよい。 The feature extracting unit may calculate Mel Frequency Cepstrum Coefficients (MFCC) from the audio data, connect the calculated MFCC to the Mel frequency, and extract the audio feature.
前記シーン提示部は、前記ユーザインタフェースを介して入力される情報を、前記音声特徴および前記画像特徴に付加して、前記異常判定器のための学習データとして記憶装置に格納してよい。 The scene presenting unit may add information input via the user interface to the audio feature and the image feature, and store the information in a storage device as learning data for the abnormality determiner.
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値を上回る場合に、前記異常シーンの候補を前記異常判定器に判定させてよい。 The abnormal scene candidate detection unit may cause the abnormality determiner to determine the candidate of the abnormal scene when the number of the learning data stored in the storage device exceeds a predetermined threshold.
前記異常シーン候補検出部は、前記記憶装置に格納される前記学習データの数が所定の閾値以内である場合に、前記異常器による判定をバイパスして、前記シーン提示部に、前記異常シーンの候補を提示させてよい。 When the number of pieces of learning data stored in the storage device is within a predetermined threshold, the abnormal scene candidate detection unit bypasses the determination by the abnormal device and instructs the scene presentation unit to display the abnormal scene. Candidates can be presented.
前記異常判定器は、前記音声特徴と前記画像特徴が統合された特徴空間において、前記異常シーンの候補の近傍に位置する異常サンプルの数と正常サンプルの数との差が所定の閾値以内である場合に、前記異常シーンの候補をその他に判定してよい。
前記異常判定器は、k近傍法により、前記異常シーンの候補を判定してよい。
The abnormality determiner determines that a difference between the number of abnormal samples and the number of normal samples located near the candidate for the abnormal scene is within a predetermined threshold in a feature space in which the audio features and the image features are integrated. In this case, other abnormal scene candidates may be determined.
The abnormality determiner may determine the candidate for the abnormal scene by a k-nearest neighbor method.
前記特徴抽出部により抽出される前記画像特徴から、教師あり学習を用いて、前記映像データに含まれる顔の感情を解析し、解析された前記顔の感情の特徴を前記異常判定器に供給する感情解析部をさらに備えてよい。 From the image features extracted by the feature extraction unit, using supervised learning, analyze facial emotion included in the video data, and supply the analyzed facial emotion features to the abnormality determiner. An emotion analysis unit may be further provided.
前記感情解析部は、解析された前記顔の感情に基づいて、前記映像データから前記異常シーンの候補を検出した場合に、前記異常シーン候補検出部に、前記音声特徴に基づく異常シーンの検出を実行させてよい。 The emotion analysis unit causes the abnormal scene candidate detection unit to detect an abnormal scene based on the audio feature when the candidate for the abnormal scene is detected from the video data based on the analyzed emotion of the face. You can let it run.
本発明に係る情報処理システムの一態様は、サーバと、該サーバとネットワークを介して接続される少なくとも1つのクライアント装置とを備える情報処理システムであって、前記サーバは、映像データを取得する映像取得部と、前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、前記クライアント装置は、前記サーバから送信される前記異常シーンの候補を受信する受信部と、前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、 前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する。 One aspect of an information processing system according to the present invention is an information processing system comprising a server and at least one client device connected to the server via a network, wherein the server acquires video data. an acquisition unit, a feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit, extracts image features from the video data, and based on the audio features extracted by the feature extraction unit, an abnormal scene candidate detection unit that detects abnormal scene candidates from the video data; and the abnormal scene candidates detected by the abnormal scene candidate detection unit are determined as abnormal, normal, and an anomaly determiner that determines one of the other, and when the anomaly determiner determines that the candidate for the abnormal scene belongs to the other, the candidate for the abnormal scene is presented via a user interface, and presented a scene presenting unit that receives input of information to be added to the abnormal scene candidate received via the user interface; and a transmission unit that transmits the abnormal scene candidate to the client device, The client device presents a receiving unit for receiving the abnormal scene candidates transmitted from the server, presents the abnormal scene candidates received by the receiving unit, and adds to the presented abnormal scene candidates. and a transmitting unit configured to transmit to the server information to be added to the abnormal scene candidate whose input is received by the user interface.
本発明に係る情報処理方法の一態様は、情報処理装置が実行する情報処理方法であって、映像データを取得するステップと、取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、教師なし学習により、抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出するステップと、異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップと、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるステップとを含む。 One aspect of an information processing method according to the present invention is an information processing method executed by an information processing apparatus, comprising: acquiring video data; extracting audio features from the acquired video data; a step of extracting features; a step of detecting abnormal scene candidates from the video data based on the extracted audio features by unsupervised learning; , a step of determining one of abnormal, normal, and others based on the audio features and the image features; presenting scene candidates via a user interface, and accepting input of information to be added to the presented abnormal scene candidates via the user interface.
本発明に係る情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、映像データを取得する映像取得処理と、前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、前記特徴抽出処理により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理と、前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付ける入出力処理とを含む処理を実行させるためのものである。 One aspect of the information processing program according to the present invention is an information processing program for causing a computer to execute information processing, wherein the program causes the computer to perform image acquisition processing for acquiring image data, and the image acquisition processing. a feature extraction process for extracting an audio feature from the video data acquired by and extracting an image feature from the video data; and an abnormal scene candidate from the video data based on the audio feature extracted by the feature extraction process. an abnormal scene candidate detection process for detecting an abnormal scene candidate detection process for detecting an abnormal scene candidate detection process for detecting an abnormal scene candidate detection process for detecting an abnormal scene candidate detected by the abnormal scene candidate detection process for detecting an abnormal scene candidate based on the audio feature and the image feature by an abnormality determiner; an abnormality determination process for determining one of them; Input/output processing for accepting input of information to be added to scene candidates via the user interface.
本発明によれば、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
ADVANTAGE OF THE INVENTION According to this invention, various abnormalities can be detected from an image|video with high precision, reducing an operator's load.
The objects, aspects and effects of the present invention described above and the objects, aspects and effects of the present invention not described above can be understood by a person skilled in the art to carry out the following invention by referring to the accompanying drawings and the description of the claims. can be understood from the form of
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。 Embodiments for carrying out the present invention will be described in detail below with reference to the accompanying drawings. Among the constituent elements disclosed below, those having the same functions are denoted by the same reference numerals, and descriptions thereof are omitted. The embodiments disclosed below are examples of means for realizing the present invention, and should be appropriately modified or changed according to the configuration of the device to which the present invention is applied and various conditions. is not limited to the embodiment of Also, not all combinations of features described in the present embodiment are essential for the solution means of the present invention.
(実施形態1)
本実施形態に係る異常検出装置は、映像データから、音声データおよび画像データそれぞれの特徴を抽出し、これら音声データおよび画像データのマルチモーダルな特徴を用いて、映像データから異常シーンを複数段階で半自動的に検出する。
以下では、異常検出装置が、リアルタイムでストリーミング配信される映像データから抽出される音声データの特徴に基づいて教師なし学習により異常シーンの候補をまず検出し、次に、検出された異常シーンの候補を異常判定器により異常シーン、正常シーン、およびオペレータの判断を要するシーン、のいずれかに判定し、オペレータの判断を要すると判定された異常シーンの候補の映像データを提示し、オペレータによる異常シーンか否かの確認入力を映像データの特徴に付加して、異常判定器に対する学習データとして蓄積する一例を説明する。
(Embodiment 1)
The anomaly detection apparatus according to the present embodiment extracts features of audio data and image data from video data, and uses multimodal features of these audio data and image data to detect anomalous scenes from video data in multiple stages. Detect semi-automatically.
In the following, the anomaly detection device first detects anomalous scene candidates by unsupervised learning based on the features of audio data extracted from video data streamed in real time, and then detects anomalous scene candidates. is judged by an anomaly judgment device as one of an abnormal scene, a normal scene, and a scene requiring operator judgment, and video data of candidate abnormal scenes judged to require operator judgment are presented. An example will be described in which confirmation input as to whether or not is added to the features of the video data and accumulated as learning data for the anomaly determiner.
しかしながら、本実施形態はこれに限定されない。例えば、異常検出装置は、録画された映像データから事後的に異常シーンを検出してもよい。また、例えば、蓄積される学習データの数に応じて、異常シーン検出を可変に制御し、検出された異常シーンの候補の映像データのすべてを、異常判定器をバイパスしてオペレータに提示してもよく、あるいは、異常判定器が、検出された異常シーンの候補の映像データの音声および画像の特徴に基づいて、異常シーンを自動検出してもよい。後者の場合、異常判定の閾値を比較的低く設定して、閾値近傍の異常シーンのみを適宜確認的にオペレータに提示してもよい。 However, this embodiment is not limited to this. For example, the anomaly detection device may detect an anomalous scene ex post facto from recorded video data. Further, for example, abnormal scene detection is variably controlled according to the number of stored learning data, and all of the detected abnormal scene candidate video data is presented to the operator bypassing the abnormality determiner. Alternatively, the anomaly determiner may automatically detect an anomalous scene based on the audio and image features of the detected anomalous scene candidate video data. In the latter case, the threshold for abnormality determination may be set relatively low, and only abnormal scenes near the threshold may be appropriately presented to the operator for confirmation.
<異常検出装置の機能構成>
図1は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図1に示す異常検出装置1は、データ取得部11、特徴抽出部12、異常シーン候補検 出部13、異常判定器14、およびシーン提示部15を備える。
異常検出装置1は、PC(Personal Computer)等で構成されるクライアント装置3とネットワークを介して通信可能に接続してよい。この場合、異常検出装置1はサーバに実装され、クライアント装置3は、異常検出装置1が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、異常検出装置1のシーン提示部15を含む各コンポーネント11~15の一部または全部を備えてもよい。
<Functional configuration of abnormality detection device>
FIG. 1 is a block diagram showing an example of the functional configuration of an abnormality detection device 1 according to this embodiment.
The abnormality detection device 1 shown in FIG.
The abnormality detection device 1 may be communicably connected to a
データ取得部11は、リアルタイムでストリーミング配信される映像データを取得して、取得された映像データを特徴抽出部12へ供給する。映像データは、音声(Audio)データと画像(Visual)データとを含む動画像データであるが、データ取得部11は、動画像データに替えて、音声データを含む静止画データを取得して、特徴抽出部12へ供給してもよい。
データ取得部11は、ストリーミング配信される映像データに替えて、異常検出装置1のHDD等の不揮発性記憶装置に予め録画された映像データを取得してもよく、録画された映像データを対向装置から通信I/Fを介して受信してもよい。
データ取得部11はまた、異常検出装置1において異常シーン検出処理を実行するために必要な各種パラメータの入力を受け付ける。データ取得部11は、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、各種パラメータの入力を受け付けてよい。
The
The
The
特徴抽出部12は、データ取得部11から供給される映像データから音声データを分離し、分離された音声データから音声特徴を抽出する。
特徴抽出部12はまた、データ取得部11から供給される映像データから画像データを分離し、分離された画像データから画像特徴を抽出する。
特徴抽出部12は、抽出された音声特徴および画像特徴を、映像データとともに、異常シーン候補検出部13へ供給する。
The
The
The
異常シーン候補検出部13は、特徴抽出部12から供給される音声特徴に基づいて、映像データから異常シーンの候補を検出し、検出された異常シーンの候補を、異常判定器14へ供給する。異常シーン候補検出部13はまた、検出された異常シーンの候補を、異常判定器14をバイパスして、シーン提示部15へ供給してもよい。
The abnormal scene
なお、異常シーンとは、例えば、暴力的なシーンや子供向けでないシーン等、家族での視聴に不適切な(Non-Family-Safe:NFS)シーンを含むがこれに限定されない。異常シーンは、映像配信サービスごとの規約ないしルール上当該映像配信サービスを介して配信すべきでない旨規定されているシーンまたはコンテンツ、その他オペレータが映像データの音声および画像から最終的に配信すべきでないとマニュアルで判定したシーンまたはコンテンツを広く含むものとする。
特徴抽出部12が実行する特徴抽出処理および異常シーン候補検出部13が実行する異常シーン候補検出処理の詳細は、図3~図8を参照して後述する。
Abnormal scenes include, but are not limited to, scenes inappropriate for family viewing (Non-Family-Safe: NFS), such as violent scenes and scenes not for children. Abnormal scenes are scenes or content that are stipulated that they should not be distributed via the video distribution service according to the terms or rules of each video distribution service, and other operators should not ultimately distribute audio and images of video data. shall broadly include any scene or content manually determined to be
Details of the feature extraction processing performed by the
本実施形態において、異常シーン候補検出部13は、教師なし学習により音声特徴を分類することで、異常シーンの候補を検出する。ストリーミング配信される映像データ中で、異常シーンの出願頻度は僅かであり、また異常シーンとすべきか否かの基準も映像配信サービスごとに多様であるため、新たなサービスが開始される際や基準が変更された際に、適切な教師データを予め用意することは難しく、教師あり学習により高精度の分類を実現することが困難である。本実施形態では、映像データのうち、音声データのみから教師なし学習により音声特徴を分類することで、少ないサンプル数であっても高精度かつ低負荷で、異常シーンの候補を検出することができる。
In this embodiment, the abnormal scene
異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を入力とし、入力された異常シーンの候補の映像データを、異常シーン、正常シーン、オペレータの判断を要するシーンのいずれかに分類する。異常判定器14は、異常シーンの候補の分類結果のうち、異常シーンおよび正常シーンのいずれかに分類された異常シーンの候補を、分類結果を付加して学習データDB(データベース)2に格納していく。また、異常判定器14は、異常シーンの候補のうち、オペレータの判断を要するシーンと分類された異常シーンの候補を、シーン提示部15へ供給する。
The abnormal scene candidate supplied from the abnormal scene
本実施形態において、異常判定器14は、特徴抽出部12により抽出された映像データの音声特徴および画像特徴が統合された特徴空間を用いて、教師あり学習により、入力される異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに3分類する。異常判定器14は、学習データDB2に蓄積された異常シーンの候補の分類結果を教師データとした学習を実行してよい。
異常判定器14が実行する異常シーン判定処理の詳細は、図9を参照して後述する。
In this embodiment, the
The details of the abnormal scene determination process executed by the
シーン提示部15は、異常判定器14から供給される、オペレータの判断を要するシーンと分類された異常シーンの候補を、表示装置等を介して外部に提示して、オペレータの確認入力を受け付ける。異常検出装置1はまた、異常シーン候補検出部13から供給される異常シーンの候補を、外部に提示して、オペレータの確認入力を受け付けてよい。
異常検出装置1は、自装置の表示装置等をユーザインタフェースとしてもよいが、異常検出装置1と通信可能に接続されるクライアント装置3のユーザインタフェースを介して、異常シーンの候補を外部に提示し、またはオペレータの確認入力を受け付けてよい。
この場合、異常検出装置1はさらに、異常シーン候補検出部13から供給される異常シーンの候補を、クライアント装置3へ送信し、クライアント装置3から送信されるオペレータの確認入力を受信する送受信部を備えてよい。クライアント装置3は、異常検出装置1から送信される異常シーンの候補を受信し、ユーザインタフェースを介して提示された異常シーンの候補に対するオペレータの確認入力を異常検出装置1へ送信する送受信部を備えてよい。
The
The abnormality detection device 1 may use its own display device or the like as a user interface. , or an operator confirmation input may be accepted.
In this case, the abnormality detection device 1 further includes a transmitting/receiving unit that transmits the abnormal scene candidates supplied from the abnormal scene
オペレータは、シーン提示部15により提示される異常シーンの候補の映像データの画像を音声と照らし合わせることで、提示された異常シーンの候補を、異常シーンまたは正常シーンのいずれかであると確認し、確認結果をシーン提示部15に入力する。オペレータは、異常シーンであると確認された異常シーンの候補に対して、所定の措置を講じることができる。例えば、確認された異常シーンを、配信される映像データから削除してもよく、あるいは当該映像データの配信を停止してもよく、当該映像データの配信元ユーザのアカウントを停止してもよい。
シーン提示部15は、提示された異常シーンの候補の音声特徴および画像特徴に対して、オペレータが確認入力した確認結果(異常シーンまたは正常シーンのアノテーション)を付加し、学習データとして学習データDB2に格納する。
The operator confirms that the presented abnormal scene candidate is either an abnormal scene or a normal scene by comparing the video data image of the abnormal scene candidate presented by the
The
具体例として、異常シーン候補検出部13が、映像データから抽出された音声特徴から、銃を発砲したような音声を検出し、当該音声を含むシーンを異常シーンの候補として検出したものとする。この場合、オペレータは、異常シーンの候補の画像をチェックして、異常シーンおよび正常シーンのいずれかであるかを確認すればよい。
例えば、異常シーンの候補の画像が、銃やその他暴力的または残酷なオブジェクトを含んでいれば、異常シーンと確認することができ、一方、屋外の花火等のオブジェクトを含んでいれば、正常シーンと確認することができる。
As a specific example, it is assumed that the abnormal scene
For example, if an abnormal scene candidate image contains a gun or other violent or cruel object, it can be identified as an abnormal scene. can be confirmed.
このように、本実施形態では、映像データの音声および画像のマルチモーダルな情報を用いて、複数段階で半自動的に異常シーンを検出している。具体的には、映像データの音声から異常シーンの候補を自動的に検出し、オペレータに検出された異常シーンの候補を提示して、異常シーンの候補の画像から異常シーンか正常シーンかを確認させている。これにより、配信される映像の監視におけるオペレータの負荷が格段に軽減される。 Thus, in this embodiment, multimodal information of audio and image of video data is used to semi-automatically detect an abnormal scene in a plurality of stages. Specifically, candidates for abnormal scenes are automatically detected from the sound of the video data, the candidates for the detected abnormal scenes are presented to the operator, and the image of the candidate for the abnormal scene is checked to see if it is an abnormal scene or a normal scene. I am letting As a result, the operator's burden in monitoring the video to be distributed is greatly reduced.
<異常シーン検出処理の処理手順>
図2は、本実施形態に係る異常検出装置1が実行する、異常シーン検出処理の処理手順の一例を示すフローチャートである。
なお、図2の各ステップは、異常検出装置1のHDD等の記憶装置に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、図2に示すフローチャートの少なくとも一部をハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
<Procedure of Abnormal Scene Detection Processing>
FIG. 2 is a flowchart showing an example of the abnormal scene detection process performed by the abnormality detection device 1 according to the present embodiment.
Each step in FIG. 2 is implemented by the CPU reading and executing a program stored in a storage device such as an HDD of the abnormality detection device 1 . Also, at least part of the flowchart shown in FIG. 2 may be realized by hardware. When implemented by hardware, for example, by using a predetermined compiler, a dedicated circuit may be automatically generated on an FPGA (Field Programmable Gate Array) from a program for implementing each step. Also, a Gate Array circuit may be formed in the same manner as the FPGA and implemented as hardware. Also, it may be realized by an ASIC (Application Specific Integrated Circuit).
S1で、異常検出装置1の特徴抽出部12は、データ取得部11から供給される映像データを音声データおよび画像データに分離し、音声特徴および画像特徴をそれぞれ抽出する。
図3は、特徴抽出部12が、特徴抽出の前処理として、データ取得部11から供給される映像データ(例えば、mp4またはm3u8等のマルチメディアフォーマット)から分離した、例えば1秒単位にセグメント化した音声データ(例えば、wavフォーマット)の音声信号波形の一例を示す。図3において、縦軸が音声の振幅を示し、横軸が時間を示す。
特徴抽出部12は、分離された音声データを、配信される映像データで想定され得る音源等に合わせて、適宜アップサンプリング等により正規化してよい。
In S1, the
FIG. 3 shows that the
The
本実施形態において、特徴抽出部12は、図3に示す音声データから、音声特徴を、例えば、メルスペクトログラム(メル周波数スペクトログラム)(Mel Frequency Spectrogram)で表現される音声特徴として抽出してよい。
スペクトログラムとは、音声信号を窓関数に通して周波数スペクトルを計算した結果を指し、時間、周波数、および信号成分の強さ(振幅)をそれぞれX軸、Y軸、およびZ軸とする3次元のグラフで表される。スペクトログラムは、音声信号の周波数成分と振幅成分を例えばフーリエ変換により取り出した各音声データセグメント(フレーム)のスペクトルを時間軸に沿って並べた、いわゆる声紋に相当する。メルスペクトログラムとは、人間の音高知覚(周波数知覚特性)が考慮された重み付けを行うためのメル尺度で変換されたスペクトログラムである。
In the present embodiment, the
A spectrogram is the result of passing an audio signal through a window function to calculate the frequency spectrum. represented graphically. A spectrogram corresponds to a so-called voiceprint in which the spectrum of each audio data segment (frame) obtained by extracting frequency components and amplitude components of an audio signal by Fourier transform, for example, is arranged along the time axis. A mel spectrogram is a spectrogram converted by the mel scale for weighting considering human pitch perception (frequency perception characteristics).
図4は、特徴抽出部12が映像データから分離した音声データから抽出したメルスペクトログラムで表現される音声特徴であって、異常シーン候補検出部13により異常シーンの候補として検出される音声特徴の一例を示す。図4および図5において、X軸が時間を示し、Y軸が周波数を示し、Z軸が振幅、すなわち音声信号の強度を示す。また、図4および図5において、信号強度が大きいセルほど薄いパターンで、信号強度が小さいほど濃いパターンで示されている。
図4に示すスペクトログラムは、音量が大きく、信号強度の分布にピーク性があり、短時間で音声信号が減衰しているパターンを示す。図4は、銃の発砲のスペクトログラムの一例を示すが、例えば、人の叫び声や何かを殴る音等も同様または同種のパターンを示すものと考えられる。
FIG. 4 shows an example of audio features expressed by a mel-spectrogram extracted from audio data separated from video data by the
The spectrogram shown in FIG. 4 shows a pattern in which the sound volume is large, the signal strength distribution has peaks, and the audio signal is attenuated in a short period of time. FIG. 4 shows an example of a spectrogram of a gun shot, but it is conceivable that, for example, a person's shouting or the sound of hitting something would exhibit a similar or similar pattern.
一方、図5は、特徴抽出部12が映像データから分離した音声データセグメントから抽出したメルスペクトグラムで表現される音声特徴であって、異常シーン候補検出部13により正常シーンと判定される(異常シーンの候補として検出されない)音声特徴の一例を示す。図5に示すスペクトログラムは、低音量または中音量であり、信号強度の分布が時間軸上均一であるパターンを示す。
特徴抽出部12は、音声データから、前景音声(例えば、人の発話音声や叫び声等)と背景音声(音楽や雑踏音等)とを分離して、いずれか一方の音声のスペクトログラムを音声特徴として異常シーン候補検出部13へ供給してもよい。この場合、例えば、時間軸上一時的に出現して繰り返されない音声を前景音声として分離することができる。
On the other hand, FIG. 5 shows audio features represented by mel-spectograms extracted from audio data segments separated from video data by the
The
本実施形態において、特徴抽出部12はさらに、音声データからメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients:MFCC)を算出し、算出されたMFCCを図4ないし図5に示すメルスペクトログラムに連結して、音声特徴を抽出してもよい。
ケプストラムとは、音声信号をフーリエ変換した振幅スペクトルに対数を掛けて対数スペクトルを求め、対数スペクトルに再度フーリエ変換を適用してスペクトル化したものをいう。対数スペクトルのケプストラム(対数ケプストラム)を求めることで、高周期で変動する音源成分と畳み込まれていた声道特性の成分とを分離することができる。
In this embodiment, the
The cepstrum is obtained by multiplying the logarithm of the amplitude spectrum obtained by Fourier-transforming an audio signal to obtain a logarithmic spectrum, and applying the Fourier transform again to the logarithmic spectrum to convert it into a spectrum. By obtaining the cepstrum of the logarithmic spectrum (logarithmic cepstrum), it is possible to separate the sound source component that fluctuates at a high frequency from the convoluted vocal tract characteristic component.
対数ケプストラムの低次成分は、音声のスペクトル包絡(声道成分に由来する周波数特性)を表現している。個人差の大きいピッチ成分を除去し、音韻の特定に重要である声道の音響特性のみを抽出することができる。この対数ケプストラムの低次成分に対して、人の周波数知覚特性を考慮した重み付けを、メル尺度を適用することにより付与した特徴量が、MFCCである。 The low-order components of the logarithmic cepstrum represent the spectral envelope of speech (frequency characteristics derived from vocal tract components). It is possible to remove pitch components with large individual differences and extract only the acoustic characteristics of the vocal tract, which are important for identifying phonemes. The MFCC is a feature amount obtained by applying a weighting that considers the human frequency perception characteristic to the low-order components of the logarithmic cepstrum by applying the Mel scale.
具体的には、振幅スペクトルを、メル尺度上で等間隔である複数のフィルタバンクにかけて、各帯域のスペクトル成分を取り出し、各帯域の振幅スペクトルの和を取って、複数次元の振幅スペクトルに圧縮し、この圧縮された振幅スペクトルの対数を取って、対数振幅スペクトルを求める。
こうして求めたメル周波数スペクトル(メル尺度で圧縮された対数振幅スペクトル)に対して、フーリエ変換(例えば、離散フーリエ変換(Discrete Fourier Transform:DFT)を行うことにより、メル周波数ケプストラムに変換する。メル周波数ケプストラムの低次成分(スペクトルの声道成分)を取り出して、必要に応じて正規化処理を行うことにより、MFCCを求めることができる。
Specifically, the amplitude spectrum is applied to multiple filter banks that are evenly spaced on the Mel scale, the spectral components of each band are extracted, the sum of the amplitude spectra of each band is taken, and the amplitude spectrum is compressed into a multi-dimensional amplitude spectrum. , taking the logarithm of this compressed amplitude spectrum to obtain the logarithmic amplitude spectrum.
The obtained Mel frequency spectrum (the logarithmic amplitude spectrum compressed on the Mel scale) is subjected to Fourier transform (for example, Discrete Fourier Transform: DFT) to convert it into a Mel frequency cepstrum. The MFCC can be obtained by extracting the low-order components of the cepstrum (vocal tract components of the spectrum) and performing normalization processing as necessary.
図6は、単位時間(例えば、1秒)でスライスして例えば平均値を取ったMFCC61と、メルスペクトラムを時間軸上で平均振幅を取ったメルスペクトグラム62とを連結した音声特徴の一例を示す。
図6に示すような音声特徴を異常シーン候補検出部13に供給して異常シーンの候補を検出させることで、音声データの周波数成分の情報、特に人の聴覚上重要な周波数成分を失うことなく、音声特徴を適切に圧縮することができる。
FIG. 6 shows an example of speech features in which an
By supplying the audio features as shown in FIG. 6 to the abnormal scene
なお、特徴抽出部12により映像データの音声データから抽出される音声特徴は、図6に示す表現に限定されず、特徴抽出部12は、上記以外の任意の手法および表現により、音声特徴を抽出してよい。
特徴抽出部12はまた、映像データから分離された画像データの全部または一部から、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)等を使用して、画像特徴を抽出してよい。しかしながら、特徴抽出部12により画像データから画像特徴を抽出する手法はCNNに限定されず、任意の手法を用いることができる。
Note that the audio features extracted from the audio data of the video data by the
The
図2に戻り、S2で、異常検出装置1の異常シーン検出部13は、特徴抽出部12から供給される映像データから分離された音声データの音声特徴に基づいて、教師なし学習により分類することにより、異常シーンの候補を検出する。
異常シーン検出部13は、例えば、アイソレーションフォレスト(Isolation Forest:IF)により、音声特徴の特徴空間上で、異常値を持つ音声特徴を分離し、分離された異常な音声特徴に対応する映像シーンを、異常シーンの候補として検出する。
Returning to FIG. 2, in S2, the abnormal
The abnormal
アイソレーションフォレストは、正常値を持つ特徴群をモデル化(プロファイル化)して正常モデルを生成することなく、異常値を持つ特徴を直接分離する教師なし学習の1つである。高速アルゴリズムでありかつメモリ消費も少ないためリアルタイム配信される映像の監視に適しており、また、正常モデルのモデル化が不要であるため、少ないサンプリング数でも精度の低下を招き難い。 Isolation forest is one of unsupervised learning that directly isolates features with abnormal values without modeling (profiling) a group of features with normal values to generate a normal model. Since it is a high-speed algorithm and consumes little memory, it is suitable for monitoring video that is distributed in real time. In addition, since modeling of a normal model is unnecessary, it is difficult to cause a decrease in accuracy even with a small number of samples.
図7は、アイソレーションフォレストが、特徴空間上、異常値を持つ特徴を分離するアルゴリズムを説明する概略図である。アイソレーションフォレストは、特徴空間上に配置される各特徴点が、他のすべての特徴点と分離できるまで、図7の破線で示されるように、繰り返しパーティション(仕切り)を生成していく。図7を参照して、左端の特徴点および右端の特徴点は、それぞれ、中央近傍に位置する特徴点より必要なパーティションの数が少ない。図7では、左端および右端の特徴点は、1つのパーティションで他のすべての特徴点から分離することができるため、それぞれ異常値を持つ特徴点として検出することができる。 FIG. 7 is a schematic diagram illustrating an algorithm for isolating features having outliers in the feature space by the isolation forest. The isolation forest repeatedly generates partitions as indicated by broken lines in FIG. 7 until each feature point placed on the feature space can be separated from all other feature points. Referring to FIG. 7, the leftmost and rightmost feature points each require fewer partitions than the feature points located near the center. In FIG. 7, the leftmost and rightmost feature points can be separated from all other feature points by one partition, so they can each be detected as feature points with outliers.
図8は、図7におけるパーティション生成の繰り返し処理を二分木の木構造(アイソレーションツリー:Isolation Tree)で表現した概念図である。図7におけるパーティションの数は、図8において木構造のルートノードから終端ノードまでのパス長で表現することができる。
異常シーン候補検出部13は、各音声特徴の特徴点のパス長に基づいて、各特徴点の異常(anomaly)スコアを、下記の式1により算出する。
FIG. 8 is a conceptual diagram expressing the iterative processing of partition generation in FIG. 7 in a binary tree structure (isolation tree). The number of partitions in FIG. 7 can be represented by the path length from the root node to the end node of the tree structure in FIG.
The abnormal scene
ここで、右辺指数部のE(h(x))は平均パス長であり、c(n)はデータセットのインスタンス数nに依存する正規化因子である。各特徴点の異常スコアS(x、n)は、平均パス長が短い程1に近づき、平均パス長が長い程0に近づく。 where E(h(x)) of the exponent on the right side is the average path length, and c(n) is a normalization factor that depends on the number of instances n in the data set. The abnormality score S(x, n) of each feature point approaches 1 as the average path length becomes shorter, and approaches 0 as the average path length becomes longer.
図8を参照して、左側のバーは、下端から上端に向かって、0から1までの異常スコアの値に対応する。異常シーン検出部13は、0から1までの間の異常スコアの閾値θと、各特徴点の異常スコアS(x、n)とを比較し、異常スコアS(x、n)が閾値θを上回る特徴点の音声特徴を、異常値(外れ値)として判定し、他方、異常スコアS(x、n)が閾値θ以内の特徴点の音声特徴を正常値として判定する。
Referring to FIG. 8, the left bar corresponds to anomaly score values from 0 to 1 from bottom to top. The abnormal
異常シーン検出部13は、閾値θを上回る異常スコアが算出された音声特徴および対応する画像特徴を含む映像シーンを、異常シーンの候補として検出する。
なお、異常シーン候補検出部13が異常シーンの候補を検出するために使用する教師なし学習アルゴリズムは、アイソレーションフォレストに限定されない。異常シーン候補検出部13は、アイソレーションフォレストに替えて、変分オートエンコーダ(Variational AutoEncoder:VAE)を使用して、音声特徴の再構成スコアを算出することにより、異常シーンの候補を検出してもよく、他のあらゆる教師なし学習を使用してもよい。
The abnormal
The unsupervised learning algorithm used by the abnormal scene
図2に戻り、S3で、異常検出装置1の異常シーン候補検出部13は、学習データDB2に格納された学習データの数を、所定の閾値と比較する。学習データDB2に格納された学習データの数が所定の閾値を上回る場合(S3:Y)、S4に進み、異常シーン候補検出部13は、検出された異常シーンの候補を、異常判定器14へ供給する。一方、学習データDB2に格納された学習データの数が所定の閾値以内である場合(S3:N)、異常判定器での処理(S4~S6)をバイパスして、S7に進む。
Returning to FIG. 2, in S3, the abnormal scene
本実施形態では、異常判定器14が学習データDB2へ異常シーン判定の学習データを十分蓄積していない場合は、異常判定器14による異常シーン判定の精度(信頼度)が十分でないと判断して、異常判定器14での処理をバイパスする。そして、シーン提示部15は、異常シーン候補検出部13により検出された異常シーンの候補を、オペレータに直接提示し、オペレータの確認入力を受け付ける。これにより、学習データのサンプル数が少ない間は、異常シーンの候補に対して常にオペレータの確認判断を要求することで、異常判定器14での機械学習実行の処理負荷を削減することができる。
In the present embodiment, when the
このように、本実施形態では、検出された異常シーンの候補からどのように異常シーンを判定するかの制御を、自律的に最適化する。具体的には、異常判定器14への学習データのサンプル数が少ないうちは、専らオペレータによる異常シーンの判定を優先して異常シーンの判定の精度低下を防止する。一方、異常判定器14への学習データのサンプル数が所定の閾値を超えた場合には、異常判定器14が異常シーンまたは正常シーンのいずれかに分類できなかった異常シーンの候補のみをオペレータに提示して確認入力を要求することで、オペレータの負荷をさらに軽減することができる。
As described above, in the present embodiment, the control of how to determine an abnormal scene from detected abnormal scene candidates is optimized autonomously. Specifically, while the number of samples of learning data to the
S4で、異常検出装置1の異常判定器14は、異常シーン候補検出部13から供給される異常シーンの候補を、正常シーン、異常シーン、およびオペレータの判断を要するシーンのいずれかに分類することにより、異常シーンの候補の異常を判定し、判定結果を学習データDB2に格納する。
具体的には、異常判定器14は、例えば、教師あり学習として、k近傍法(k-nearest neighbor algorithm:k-NN)を使用して、音声特徴および画像特徴が統合された特徴空間上で最近傍解を探索することにより、異常シーン候補検出部13から供給される異常シーンの候補を分類する。
In S4, the
Specifically, the
図9は、k近傍法による分類アルゴリズムの例を説明する概念図である。
図9を参照して、特徴空間には、丸マークで示されるオブジェクト群が配置されている。各オブジェクトは多次元の特徴空間における位置ベクトルで表現され、正しい分類クラスが既知である。同心円の中央の星マークは、分類クラスが未知である分類対象の位置ベクトルであり、本実施形態では、判定対象の異常シーン候補の位置ベクトルである。k近傍法では、星マークで示される新たな位置ベクトルと、丸マークで示される既存の位置ベクトル群との距離を算出し、k個の最近傍のサンプルが選択される。位置ベクトル間の距離は、ユークリッド距離として算出されてよいが、マンハッタン距離等の他の距離として算出されてもよい。
FIG. 9 is a conceptual diagram illustrating an example of a classification algorithm based on the k-nearest neighbor method.
Referring to FIG. 9, object groups indicated by circle marks are arranged in the feature space. Each object is represented by a position vector in a multidimensional feature space, and the correct classification class is known. The star mark in the center of the concentric circles is the position vector of the classification target whose classification class is unknown, and in this embodiment, the position vector of the abnormal scene candidate to be determined. In the k-nearest neighbor method, the distance between a new position vector indicated by a star mark and the existing position vector group indicated by a circle mark is calculated, and k nearest samples are selected. The distance between position vectors may be calculated as Euclidean distance, but may be calculated as other distances such as Manhattan distance.
図9を参照して、k=3の場合、内側同心円内には、最近傍の3つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが1個配置されているから、判定対象の位置ベクトルは、濃い丸マークのクラスに分類される。一方、k=6の場合、外側同心円内には、最近傍の6つのオブジェクトとして、濃い丸マークが2個に対して薄い丸マークが4個配置されているから、判定対象の位置ベクトルは、薄い丸マークのクラスに分類される。なお、k個の最近傍のオブジェクトの間で、新たな位置ベクトルとの距離を重み付けしてクラスを決定してもよい。 Referring to FIG. 9, when k=3, two dark circle marks and one light circle mark are arranged as the three closest objects within the inner concentric circle. position vectors fall into the dark circle class. On the other hand, when k=6, two dark circle marks and four light circle marks are arranged as the six closest objects in the outer concentric circle, so the position vector to be determined is: It is classified into the thin circle mark class. Note that the class may be determined by weighting the distance from the new position vector among the k nearest objects.
異常判定器14は、映像データの音声特徴と画像特徴とが統合された特徴空間上に、正しいクラスが未知である異常シーンの候補を位置ベクトルとしてマッピングし、k個の最近傍のオブジェクト(サンプル)のうち、異常シーンに分類されるサンプルの数を、正常シーンに分類されるサンプルの数と比較することにより、判定対象の異常シーンの候補を、異常シーン、正常シーン、およびオペレータの判断を要するシーンのいずれかに分類する。
The
具体的には、異常判定器14は、音声特徴と画像特徴とが統合された特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数が、正常シーンに分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を異常シーンであると判定する。異常判定部14はまた、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、正常シーンに分類されるサンプルの数が、異常シーンの分類されるサンプルの数より十分多い場合、判定対象の異常シーンの候補を正常シーンであると判定する。
Specifically, the
一方、異常判定器14は、特徴空間上で、異常シーンの候補に対するk個の最近傍のサンプルのうち、異常シーンに分類されるサンプルの数と正常シーンに分類されるサンプルの数との差が小さく、所定の閾値内である場合、判定対象の異常シーンの候補を、オペレータの判断を要するシーンであると判定する。
代替的に、異常判定器14は、k個の最近傍の異常シーンのサンプル数と正常シーンのサンプル数との大小により、判定対象の異常シーンの候補を、異常シーンまたは正常シーンのいずれかに自動的に分類してもよい。特に、学習データDB2に十分なサンプル数の学習データが蓄積されている場合には、異常シーン検出においてオペレータの介入を不要ともできる。
なお、異常判定器14が異常シーンの候補の異常を判定するためのアルゴリズムは、上記のk近傍法に限定されない。異常判定器14は、例えば、CNN等のニューラルネットワークや、サポートベクタマシン(Support Vector Machine:SVM)等を含む、他の教師あり学習の機械学習アルゴリズムを使用して異常シーンを判定してよい。
On the other hand, the
Alternatively, the
Note that the algorithm used by the
図2に戻り、S4で、異常判定器14は、異常シーンの候補が異常シーンであると判定した場合、S5に進み、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行して処理を終了する。
異常判定器14は、異常シーンの候補が正常シーンであると判定した場合、S6に進み、異常シーンの候補を含む映像コンテンツの配信を続行して処理を終了する。一方、異常判定器14は、異常シーンの候補が、オペレータの判断を要するシーンであると判定した場合、S7に進む。
Returning to FIG. 2, when the
When the abnormal scene candidate is determined to be a normal scene, the
S7で、異常検出装置1のシーン提示部15は、異常シーン候補検出部13から供給された異常シーンの候補、あるいは異常判定器14によりオペレータの判断を要するシーンと判定された異常シーンの候補の映像(音声データおよび画像データ)を、オペレータに提示する。
S8で、異常検出装置1のシーン提示部15は、S7で提示された異常シーンの候補の映像に対するオペレータの確認入力として、異常シーンまたは正常シーンのいずれかのタグ付けの入力を受け付ける。
S9で、オペレータは、異常シーンとタグ付けした異常シーンの候補について、異常シーンに対する処理、すなわち、異常シーンを含む映像コンテンツの配信停止、当該映像コンテンツの配信元のアカウントの削除、あるいは判定された異常シーンの削除等の処理を実行する。一方、オペレータは、正常シーンとタグ付けした異常シーンの候補については、異常シーンに対する処理を実行することなく、映像の配信を続行させる。
In S7, the
In S8, the
In S9, for the abnormal scene candidate tagged as an abnormal scene, the operator performs processing for the abnormal scene, that is, stop distribution of the video content containing the abnormal scene, delete the account of the distribution source of the video content, or Execute processing such as deletion of abnormal scenes. On the other hand, the operator allows the video distribution to continue for abnormal scene candidates tagged as normal scenes without executing processing for abnormal scenes.
S10で、異常検出装置1のシーン提示部15は、S8でシーン提示部15に入力されたオペレータの異常シーンまたは正常シーンのタグ(ラベル)を、提示された異常シーンの候補の音声特徴および画像特徴と対応付けて、オペレータによる異常シーンの判定結果である学習データとして、学習データDB2に格納する。これにより、新たな学習データで、学習データDB2が更新される。
In S10, the
S11で、異常検出装置1の異常判定器14は、S10で更新された学習データDB2を基づいて、再学習を実行する。なお、異常判定器14の再学習が必要か否かは、異常判定器14の異常判定アルゴリズムに依存する。例えば、上記で説明したように、異常判定器14がk近傍法を使用する場合は、異常シーンの判定の度に、学習データDB2を参照してk個の最近傍の標本を選ぶため、S11で再学習を実行する必要がなく、S10で学習データDB2を更新すれば足り、S11の処理を省略してよい。
At S11, the
一方、異常判定器14が、ニューラルネットワークやSVM等を使用する場合は、いずれかのタイミングで異常判定器14を再学習させて、異常判定器14のパラメータを更新する必要がある。
再学習のタイミングは、学習データDB2を更新する度に、異常判定器14を毎回再学習させてもよく、学習データDB2が所定回数更新される度に、異常判定器14を再学習させてもよい。あるいは、S4で異常判定器14を使用する直前に、異常判定器14を再学習させることもできるが、リアルタイム配信される映像からリアルタイムで異常シーンを検出しようとする場合には、再学習実行によりリアルタイム性が低下しかねないことを考慮すべきである。
On the other hand, when the
As for the timing of relearning, the
<変形例>
図10は、本実施形態に係る異常検出装置1が実行する異常シーン検出処理の変形例を示す図である。
異常シーン候補検出部13は、変形例として、図10に示すように、S3の処理を省略して、学習データDB2に蓄積される学習データの数にかかわりなく、一律に、検出された異常シーンの候補を、異常判定器14に供給してもよい。これにより、映像監視におけるオペレータの異常シーンの候補の確認処理の負荷をさらに軽減することができる。
<Modification>
FIG. 10 is a diagram showing a modification of the abnormal scene detection process executed by the abnormality detection device 1 according to this embodiment.
As a modified example, as shown in FIG. 10, the abnormal scene
以上説明したように、本実施形態によれば、異常検出装置は、取得された映像データ中の音声特徴および画像特徴を抽出し、抽出された音声特徴を教師なし学習により分類することにより、映像データから異常シーンの候補を検出する。異常検出装置はまた、検出された異常シーンの候補を、映像データの音声特徴および画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器を備え、異常判定器により、異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、ユーザインタフェースを介して受け付ける。 As described above, according to the present embodiment, the anomaly detection apparatus extracts audio features and image features from acquired video data, and classifies the extracted audio features by unsupervised learning to detect video data. Detect abnormal scene candidates from data. The abnormality detection device also includes an abnormality determiner that determines the detected abnormal scene candidate as abnormal, normal, or other based on the audio features and image features of the video data, and the abnormality determiner: If it is determined that the candidate for the abnormal scene belongs to Others, the candidate for the abnormal scene is presented via a user interface, and information to be added to the candidate for the presented abnormal scene is input through the user interface. accepted through
これにより、第1段階で、映像データ中の音声特徴に基づいて教師なし学習により高速かつ低負荷で異常シーンの候補を第1段階として検出し、第2段階で、映像データ中の音声特徴および画像特徴に基づく異常判定器による異常シーンの判定と、映像提示に基づくオペレータの目視による異常シーンの判定とを補完的に併用する。
したがって、オペレータの負荷を軽減しつつ、映像から多様な異常を高精度に検出することができる。
これにより、リアルタイムで配信され、多様な異常シーンを含み得る映像データに十分に追従した、高速かつ高精度な異常シーンのマルチモーダルな検出が実現できる。
As a result, in the first step, abnormal scene candidates are detected at high speed and low load by unsupervised learning based on the audio features in the video data, and in the second step, the audio features in the video data and Abnormal scene determination by an abnormality determiner based on image features and abnormal scene determination by operator's visual observation based on image presentation are used in a complementary manner.
Therefore, various abnormalities can be detected from the video with high accuracy while reducing the burden on the operator.
As a result, high-speed and highly accurate multimodal detection of abnormal scenes can be realized, which sufficiently follows video data that is distributed in real time and can include various abnormal scenes.
(実施形態2)
以下、図11~図14を参照して、実施形態2を、実施形態1と異なる点についてのみ詳細に説明する。
本実施形態では、上記で説明した実施形態1に加え、さらに、映像データの画像特徴から映像中のオブジェクトである人の感情を解析し、感情解析結果を異常シーンの候補の検出や異常シーンの判定に用いる。
(Embodiment 2)
Only the differences from the first embodiment will be described in detail below with reference to FIGS. 11 to 14. FIG.
In this embodiment, in addition to the above-described first embodiment, the emotion of a person, who is an object in the video, is analyzed from the image characteristics of the video data, and the result of the emotion analysis is used to detect candidates for abnormal scenes and to detect abnormal scenes. Used for judgment.
図11は、本実施形態に係る異常検出装置1の機能構成の一例を示すブロック図である。
図11のブロック図では、図1に示す実施形態1の異常検出装置1の機能構成に加えて、感情解析部16を備える。
図11において、データ取得部11、特徴抽出部12、異常シーン候補13、異常判定器14、およびシーン提示部15の機能構成は、図1に示す対応する各部と同様である。
図11を参照して、特徴抽出部12は、映像データ中の画像データから抽出した画像特徴を、感情解析部16へ供給する。
FIG. 11 is a block diagram showing an example of the functional configuration of the abnormality detection device 1 according to this embodiment.
The block diagram of FIG. 11 includes an
In FIG. 11, the functional configurations of the
Referring to FIG. 11,
感情解析部16は、特徴抽出部12から供給される映像データの画像特徴に基づいて、画像中のオブジェクトである人の顔の感情を解析する。
感情解析部16は、例えば、CNN等の教師あり学習を用いて、画像中の人の顔を解析することで、画像中の人の顔の感情を推定してよい。人の顔の画像から推定される人の顔の感情は、例えば、怒り、嫌悪、恐怖、幸福、悲しみ、驚き、その他(ニュートラル)の感情を含んでよい。
感情解析部16はまた、時間的に隣接する複数の画像フレームの間で算出される、推定された感情の平均信頼度に基づいて、対象画像中の人の顔の感情を決定してもよい。
The
The
The
感情解析部16はさらに、画像中の人の身体や四肢の動き、人が把持等するオブジェクト(例えば、マイクロフォン、楽器等)、または背景(例えば、屋内か屋外か等)を解析してよい。特徴抽出部12は、感情解析部16が解析すべき対象オブジェクトの特徴を抽出して、感情解析部16へ供給してよい。
The
本実施形態において、感情解析部16が人の顔の画像の画像特徴から推定する人の顔の感情は、異常シーン候補検出部13が実行する異常シーンの候補の検出処理、および異常判定器14が実行する異常シーンの候補の異常判定処理を補完する。
具体的には、感情解析部16は、人の顔の画像特徴から推定された人の顔の感情から、映像の文脈を推定して、異常シーン候補検出部13に対して、異常シーン候補検出処理のキュー(トリガ)を与えてもよい。例えば、感情解析部16が、人の顔の画像を解析して人の顔の感情として、例えば、怒り、恐怖、驚き等を検出した場合、当該画像を含む映像は、異常シーンである可能性が高いため、感情解析部16は、異常シーン解析部13にキューを与えて、当該映像の音声特徴から異常シーンの候補を検出する処理を実行させてもよい。
In this embodiment, the emotion of a person's face estimated by the
Specifically, the
感情解析部16はまた、人の顔の画像特徴から推定される人の顔の感情の特徴を異常判定器14に供給し、異常判定器14が、感情解析部16から供給される人の顔の感情の特徴を特徴空間に統合して、k近傍法により、異常シーンの候補を異常判定してもよい。例えば、異常判定器14は、人の顔の感情として、例えば、怒り、恐怖、驚き等の特徴を、異常シーンと判定するための正因子として使用してよい。
感情解析部16はさらに、人の顔の画像特徴から推定される人の顔の感情の解析結果を、シーン提示部15に供給し、シーン提示部15が、感情解析部16から供給される人の顔の感情の解析結果を、例えば、提示される映像中に重畳表示や別ウインドウ表示等で併せて表示してもよい。
The
The
図12は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の処理手順の一例を示すフローチャートである。
図12のフローチャートでは、図2に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S1とS2の間に、S12の処理が追加されている。
S1の処理は、図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出する。
FIG. 12 is a flowchart showing an example of the procedure of abnormal scene detection processing executed by the abnormality detection device 1 according to the second embodiment.
In the flowchart of FIG. 12, the process of S12 is added between S1 and S2 to the abnormal scene detection process executed by the abnormality detection device 1 of the first embodiment shown in FIG.
The processing of S1 is the same as that of the first embodiment shown in FIG. That is, as in the first embodiment, the
S1で、異常検出装置1の特徴抽出部12が、映像データから音声特徴および画像特徴がそれぞれ抽出すると、S12に進む。
S12で、異常検出装置1の感情解析部16は、特徴抽出部12により抽出された画像特徴から、異常シーンの候補を検出する。具体的には、感情解析部16は、画像中の人の顔の画像特徴から、人の感情を推定し、例えば、怒り、恐怖、驚き等の感情が推定された場合には、当該画像を含む映像シーンを異常シーンの候補として検出してよい。
感情解析部16は、画像特徴から異常シーンの候補を検出した場合、後続するS2で実行される異常シーン候補検出部13により実行される映像の音声特徴に基づく異常シーン候補の検出処理にキュー(トリガ)を与える。
In S1, when the
In S<b>12 , the
When the
S12に続き、S2で、異常検出装置1の異常シーン候補検出部13は、感情解析部16が画像特徴から異常シーンの候補を検出してトリガを与えた場合、感情解析部16から供給される異常シーンの候補に対応する音声特徴を教師なし学習を用いて分類することにより、異常シーンの候補を検出する。
Following S12, in S2, the abnormal scene
代替的に、異常シーン候補検出部13は、感情解析部16からトリガを与えられるか否かにかかわりなく、常時、映像データの音声特徴から異常シーンの候補を検出し、感情解析部16から画像特徴に基づく異常シーン候補検出のトリガを与えられた際に、検出された異常シーン候補の音声特徴から、異常シーンの候補として異常検出器14に供給すべきかを確認してもよい。
S2~S11までの処理は、図2に示す第1の実施形態と同様である。
なお、本実施形態に係る異常検出装置1は、図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
Alternatively, the abnormal scene
The processing from S2 to S11 is the same as in the first embodiment shown in FIG.
10, the abnormality detection device 1 according to the present embodiment omits the determination and branching process of S3, and regardless of the number of learning data stored in the
図13は、実施形態2に係る異常検出装置1が実行する異常シーン検出処理の変形例の処理手順の一例を示すフローチャートである。
図13のフローチャートでは、図1に示す実施形態1の異常検出装置1が実行する異常シーン検出処理に対して、S2とS3の間に、S13の処理が追加されている。
S1およびS2の処理は、図2に示す実施形態1と同様である。すなわち、実施形態1と同様、異常検出装置1の特徴抽出部12は、データ取得部11により供給される映像データから、音声特徴および画像特徴をそれぞれ抽出し、異常シーン候補検出部13は、特徴抽出部12から供給される映像データの音声特徴に基づいて、異常シーンの候補を検出する。
FIG. 13 is a flowchart showing an example of a processing procedure of a modified example of abnormal scene detection processing executed by the abnormality detection device 1 according to the second embodiment.
In the flowchart of FIG. 13, the process of S13 is added between S2 and S3 to the abnormal scene detection process executed by the abnormality detection device 1 of the first embodiment shown in FIG.
The processing of S1 and S2 is the same as that of Embodiment 1 shown in FIG. That is, as in the first embodiment, the
次に、S13で、異常検出装置1の感情解析部16は、特徴抽出部12から供給される画像データの画像特徴のうち、特に画像中に含まれる人の顔の画像特徴から、人の顔の感情を推定する。
S3~S11までの処理は、図2に示す実施形態1と同様であるが、S4で、異常判定器14は、感情解析部16から供給される画像中の人の顔の感情の特徴を音声および画像の特徴空間に統合してよい。また、S7で、シーン提示部15は、感情解析部16の解析結果を、異常シーンの候補の画像と併せて提示してよい。
なお、図13において、S2およびS13は、同時並行的に実行されてもよく、S13は、時系列的にS2より前に実行されてもよい。
また、本実施形態に係る異常検出装置1は、図10と同様、S3の判定及び分岐処理を省略し、学習データDB2に格納される学習データの数にかかわりなく、S4の異常判定器14による異常シーンの判定処理に進んでもよい。
Next, in S13, the
The processing from S3 to S11 is the same as that of Embodiment 1 shown in FIG. and may be integrated into the feature space of the image. Further, in S7, the
In FIG. 13, S2 and S13 may be executed concurrently, and S13 may be executed before S2 in chronological order.
10, the abnormality detection device 1 according to the present embodiment omits the determination and branching process of S3, and regardless of the number of learning data stored in the
図14は、異常検出装置1の感情解析部16が映像データの画像を解析し、シーン提示部15が提示する感情解析結果の出力例を示す図である。
図14を参照して、画像中で、人の顔の周囲にバウンディングボックス131が表示され、人の顔のオブジェクトとして検出されたことを示している。このバウンディングボックス13内の人の顔から推定された感情の信頼度が、出力ウインドウの左上に表示されている。
図14の例では、怒りの信頼度が37.45%と最も高く算出されているが、バウンディングボックス131で包囲された人の顔の表情は、怒りを示しておらずニュートラルであるものとする。この場合、図14の画像を提示されたオペレータは、提示された画像中の人の顔の表情を目視で確認し、異常シーンではない(すなわち、正常シーンである)との確認結果をシーン提示部15に入力することができる。あるいは、感情解析部16は、信頼度のスコアに所定の閾値を設け、怒りの信頼度のスコアが閾値以下である場合には、異常シーンの候補として検出しなくてもよい。
FIG. 14 is a diagram showing an output example of emotion analysis results presented by the
Referring to FIG. 14, a
In the example of FIG. 14, the reliability of anger is calculated to be the highest at 37.45%, but it is assumed that the facial expression of the person surrounded by the
以上説明したように、本実施形態によれば、異常検出装置の異常判定器は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、異常シーンの判定を実行すれば足りる。したがって、学習データのサンプル数が少ない場合であっても、高精度かつ低負荷で異常判定処理を実行することができる。
同様に、本実施形態によれば、異常検出装置のシーン提示部は、映像データの音声特徴、および画像特徴、特に、人の顔の感情の特徴、の双方のマルチモーダルな情報から、異常シーンである蓋然性が高いと判定された異常シーンの候補について、オペレータに提示すれば足りる。したがって、異常シーンの確認におけるオペレータの負荷がさらに軽減される。
As described above, according to the present embodiment, the anomaly determiner of the anomaly detection apparatus uses multimodal information of both audio features and image features of video data, particularly facial emotional features of people. , it is sufficient to execute the determination of the abnormal scene for the candidate of the abnormal scene determined to have a high probability of being an abnormal scene. Therefore, even if the number of samples of learning data is small, the abnormality determination process can be executed with high accuracy and low load.
Similarly, according to the present embodiment, the scene presenting unit of the abnormality detection device extracts an abnormal scene from multimodal information of both audio features and image features of the video data, especially the emotional features of a person's face. It is sufficient to present the operator with the candidate of the abnormal scene determined to have a high probability. Therefore, the burden on the operator in confirming abnormal scenes is further reduced.
<異常検出装置のハードウエア構成>
図15は、本実施形態に係る異常検出装置1のハードウエア構成の非限定的一例を示す図である。
本実施形態に係る異常検出装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図15を参照して、異常検出装置1は、単一のコンピュータに実装される例が示されているが、本実施形態に係る異常検出装置1は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
<Hardware configuration of abnormality detection device>
FIG. 15 is a diagram showing a non-limiting example of the hardware configuration of the abnormality detection device 1 according to this embodiment.
The anomaly detection device 1 according to this embodiment can be implemented on any single or multiple computers, mobile devices, or any other processing platform.
Referring to FIG. 15, an example in which abnormality detection device 1 is implemented in a single computer is shown, but abnormality detection device 1 according to the present embodiment is implemented in a computer system including a plurality of computers. you can A plurality of computers may be interconnectably connected by a wired or wireless network.
図15に示すように、異常検出装置1は、CPU21と、ROM22と、RAM23と、HDD24と、入力部25と、表示部26と、通信I/F27と、システムバス28とを備えてよい。異常検出装置1はまた、外部メモリを備えてよい。PC3もまた、図15と同様の構成を備えてよい。
CPU(Central Processing Unit)21は、異常検出装置1における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
異常検出装置1はまた、GPU(Graphics Processing Unit)を備えてよい。GPUは、CPU21より高い計算機能を有し、複数または多数のGPUを並列して動作させることにより、特に、本実施形態のような機械学習を使用する映像処理アプリケーションに、より高い処理パフォーマンスを提供する。GPUは、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
As shown in FIG. 15, the abnormality detection device 1 may include a
A CPU (Central Processing Unit) 21 comprehensively controls the operation of the abnormality detection device 1, and controls each component (22 to 27) via a
The abnormality detection device 1 may also include a GPU (Graphics Processing Unit). The GPU has higher computational power than the
ROM(Read Only Memory)22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)14、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)23は、揮発性メモリであり、CPU11の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
A ROM (Read Only Memory) 22 is a non-volatile memory that stores control programs and the like necessary for the
A RAM (Random Access Memory) 23 is a volatile memory and functions as a main memory of the
HDD24は、例えば、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD24には、例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、異常シーン検出処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をパラメータ調整装置1へ指示入力するためのユーザインタフェースであるGUI(Graphical User Interface)を提供してよい。
The
The
The
通信I/F27は、異常検出装置1と外部装置との通信を制御するインタフェースである。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で映像、異常シーン判定結果、異常シーン確認入力、各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
The communication I/
A communication I/
図1に示す異常検出装置1の各要素のうち少なくとも一部の機能は、CPU21がプログラムを実行することで実現することができる。ただし、図1に示す異常検出装置1の各要素のうち少なくとも一部の機能が専用のハードウエアとして動作するようにしてもよい。この場合、専用のハードウエアは、CPU21の制御に基づいて動作する。
At least some of the functions of the elements of the abnormality detection device 1 shown in FIG. 1 can be realized by the
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。 It should be noted that although specific embodiments are described above, the embodiments are merely examples and are not intended to limit the scope of the invention. The apparatus and methods described herein may be embodied in forms other than those described above. Also, appropriate omissions, substitutions, and modifications may be made to the above-described embodiments without departing from the scope of the invention. Forms with such omissions, substitutions and modifications are included in the scope of what is described in the claims and their equivalents, and belong to the technical scope of the present invention.
1…異常検出装置、2…学習データDB、3…PC、11…データ取得部、12…特徴抽出部、13…異常シーン候補検出部、14…異常判定器、15…シーン提示部、16…感情解析部、21…CPU、22…ROM、23…RAM、24…HDD、25…入力部、26…表示部、27…通信I/F、28…バス
DESCRIPTION OF SYMBOLS 1...
Claims (16)
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と
を備えることを特徴とする情報処理装置。 a video acquisition unit that acquires video data;
a feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit and extracts image features from the video data;
an abnormal scene candidate detection unit that detects abnormal scene candidates from the video data based on the audio features extracted by the feature extraction unit;
an abnormality determiner for determining whether the abnormal scene candidate detected by the abnormal scene candidate detection unit is abnormal, normal, or otherwise based on the audio feature and the image feature;
When the abnormality determiner determines that the candidate for the abnormal scene belongs to others, the candidate for the abnormal scene is presented via a user interface, and information to be added to the candidate for the presented abnormal scene. and a scene presenting unit that receives input of through the user interface.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the abnormal scene candidate detection unit detects the abnormal scene candidate from the video data using unsupervised learning.
ことを特徴とする請求項1または2に記載の情報処理装置。 The abnormal scene candidate detection unit detects the abnormal scene candidates from the video data by directly separating abnormal audio features without generating a model of normal audio features. Item 3. The information processing device according to Item 1 or 2.
ことを特徴とする請求項3に記載の情報処理装置。 The information processing according to claim 3, wherein the abnormal scene candidate detection unit separates the abnormal audio features by calculating a path length in an isolation forest of each audio feature. Device.
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。 5. The information processing according to any one of claims 1 to 4, wherein said feature extraction unit extracts an audio feature represented by a Mel frequency spectrogram of audio data in said video data. Device.
ことを特徴とする請求項5に記載の情報処理装置。 The feature extraction unit calculates Mel Frequency Cepstrum Coefficients (MFCC) from the audio data, connects the calculated MFCC to the Mel frequency, and extracts the audio feature. 6. The information processing apparatus according to claim 5.
ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。 The scene presentation unit adds information input via the user interface to the audio features and the image features, and stores the information in a storage device as learning data for the abnormality determiner. The information processing apparatus according to any one of claims 1 to 6.
ことを特徴とする請求項7に記載の情報処理装置。 8. The abnormal scene candidate detection unit causes the abnormality determiner to determine the candidate of the abnormal scene when the number of the learning data stored in the storage device exceeds a predetermined threshold. The information processing device according to .
ことを特徴とする請求項7または8に記載の情報処理装置。 When the number of pieces of learning data stored in the storage device is within a predetermined threshold, the abnormal scene candidate detection unit bypasses the determination by the abnormal device and instructs the scene presentation unit to display the abnormal scene. 9. The information processing apparatus according to claim 7, wherein candidates are presented.
ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。 The abnormality determiner determines that a difference between the number of abnormal samples and the number of normal samples located near the candidate for the abnormal scene is within a predetermined threshold in a feature space in which the audio features and the image features are integrated. 10. The information processing apparatus according to any one of claims 1 to 9, wherein the candidate for the abnormal scene is determined to be other when the abnormal scene is detected.
ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 10, wherein the abnormality determiner determines the candidate for the abnormal scene by a k nearest neighbor method.
ことを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。 From the image features extracted by the feature extraction unit, using supervised learning, analyze facial emotion included in the video data, and supply the analyzed facial emotion features to the abnormality determiner. further comprising an emotion analysis unit,
12. The information processing apparatus according to any one of claims 1 to 11, characterized by:
ことを特徴とする請求項12に記載の情報処理装置。 The emotion analysis unit causes the abnormal scene candidate detection unit to detect an abnormal scene based on the audio feature when the candidate for the abnormal scene is detected from the video data based on the analyzed emotion of the face. 13. The information processing apparatus according to claim 12, wherein the information processing apparatus is executed.
前記サーバは、
映像データを取得する映像取得部と、
前記映像取得部により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出部と、
前記異常シーン候補検出部により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定器と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示部と、
当該異常シーンの候補を前記クライアント装置へ送信する送信部と、を有し、
前記クライアント装置は、
前記サーバから送信される前記異常シーンの候補を受信する受信部と、
前記受信部により受信された前記異常シーンの候補を提示し、提示された異常シーンの候補に対して付加すべき情報の入力を受け付ける前記ユーザインタフェースと、
前記ユーザインタフェースが入力を受け付けた前記異常シーンの候補に対して付加すべき情報を、前記サーバへ送信する送信部と、を有する
ことを特徴とする情報処理システム。 An information processing system comprising a server and at least one client device connected to the server via a network,
The server is
a video acquisition unit that acquires video data;
a feature extraction unit that extracts audio features from the video data acquired by the video acquisition unit and extracts image features from the video data;
an abnormal scene candidate detection unit that detects abnormal scene candidates from the video data based on the audio features extracted by the feature extraction unit;
an abnormality determiner for determining whether the abnormal scene candidate detected by the abnormal scene candidate detection unit is abnormal, normal, or otherwise based on the audio feature and the image feature;
When the abnormality determiner determines that the candidate for the abnormal scene belongs to others, the candidate for the abnormal scene is presented via a user interface, and information to be added to the candidate for the presented abnormal scene. a scene presentation unit that receives the input of via the user interface;
a transmitting unit configured to transmit the abnormal scene candidate to the client device;
The client device
a receiving unit that receives the abnormal scene candidate transmitted from the server;
the user interface that presents the candidate for the abnormal scene received by the receiving unit and receives input of information to be added to the candidate for the presented abnormal scene;
An information processing system, comprising: a transmitting unit configured to transmit to the server information to be added to the abnormal scene candidate whose input is received by the user interface.
映像データを取得するステップと、
取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出するステップと、
教師なし学習により、抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出するステップと、
異常判定器により、検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定するステップと、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるステップと
を含むことを特徴とする情報処理方法。 An information processing method executed by an information processing device,
obtaining video data;
extracting audio features from the acquired video data and extracting image features from the video data;
detecting abnormal scene candidates from the video data based on the extracted audio features by unsupervised learning;
determining, by an abnormality determiner, the detected abnormal scene candidate as abnormal, normal, or otherwise based on the audio features and the image features;
When the abnormality determiner determines that the candidate for the abnormal scene belongs to others, the candidate for the abnormal scene is presented via a user interface, and information to be added to the candidate for the presented abnormal scene. and a step of accepting an input of via the user interface.
映像データを取得する映像取得処理と、
前記映像取得処理により取得された映像データから音声特徴を抽出し、前記映像データから画像特徴を抽出する特徴抽出処理と、
前記特徴抽出処理により抽出された前記音声特徴に基づいて、前記映像データから異常シーンの候補を検出する異常シーン候補検出処理と、
異常判定器により、前記異常シーン候補検出処理により検出された前記異常シーンの候補を、前記音声特徴および前記画像特徴に基づいて、異常、正常、およびその他のいずれかに判定する異常判定処理と、
前記異常判定器により、前記異常シーンの候補がその他に属すると判定された場合、当該異常シーンの候補を、ユーザインタフェースを介して提示し、提示された異常シーンの候補に対して付加すべき情報の入力を、前記ユーザインタフェースを介して受け付けるシーン提示処理と
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。 An information processing program for causing a computer to execute information processing, the program causing the computer to:
a video acquisition process for acquiring video data;
A feature extraction process for extracting an audio feature from the video data acquired by the video acquisition process and extracting an image feature from the video data;
Abnormal scene candidate detection processing for detecting abnormal scene candidates from the video data based on the audio features extracted by the feature extraction processing;
an abnormality determination process for determining, by an abnormality determiner, the abnormal scene candidate detected by the abnormal scene candidate detection process as abnormal, normal, or other based on the audio feature and the image feature;
When the abnormality determiner determines that the candidate for the abnormal scene belongs to others, the candidate for the abnormal scene is presented via a user interface, and information to be added to the candidate for the presented abnormal scene. and a scene presentation process for receiving an input of through the user interface.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022099393A JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020129279A JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
JP2022099393A JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020129279A Division JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022153360A true JP2022153360A (en) | 2022-10-12 |
JP7361163B2 JP7361163B2 (en) | 2023-10-13 |
Family
ID=80264888
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020129279A Active JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
JP2022099393A Active JP7361163B2 (en) | 2020-07-30 | 2022-06-21 | Information processing device, information processing method and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020129279A Active JP7096296B2 (en) | 2020-07-30 | 2020-07-30 | Information processing equipment, information processing methods and programs |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7096296B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012058944A (en) * | 2010-09-08 | 2012-03-22 | Secom Co Ltd | Abnormality detection device |
JP2013131153A (en) * | 2011-12-22 | 2013-07-04 | Welsoc Co Ltd | Autonomous crime prevention warning system and autonomous crime prevention warning method |
JP2018120300A (en) * | 2017-01-23 | 2018-08-02 | 株式会社リコー | Information processing apparatus, information processing method, and program |
JP2019159820A (en) * | 2018-03-13 | 2019-09-19 | オムロン株式会社 | Inspection device, image identification device, identification device, inspection method, and inspection program |
JP2019200671A (en) * | 2018-05-17 | 2019-11-21 | 大日本印刷株式会社 | Learning device, learning method, program, data generation method, and identification device |
JP2020003846A (en) * | 2018-06-25 | 2020-01-09 | アズビル株式会社 | Discrimination label assignment support apparatus and discrimination label assignment support method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5064140B2 (en) | 2007-08-23 | 2012-10-31 | ヤフー株式会社 | Streaming information playback control method |
JP2012142645A (en) | 2009-04-28 | 2012-07-26 | Mitsubishi Electric Corp | Audio/video reproducing apparatus, audio/video recording and reproducing apparatus, audio/video editing apparatus, audio/video reproducing method, audio/video recording and reproducing method, and audio/video editing apparatus |
-
2020
- 2020-07-30 JP JP2020129279A patent/JP7096296B2/en active Active
-
2022
- 2022-06-21 JP JP2022099393A patent/JP7361163B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012058944A (en) * | 2010-09-08 | 2012-03-22 | Secom Co Ltd | Abnormality detection device |
JP2013131153A (en) * | 2011-12-22 | 2013-07-04 | Welsoc Co Ltd | Autonomous crime prevention warning system and autonomous crime prevention warning method |
JP2018120300A (en) * | 2017-01-23 | 2018-08-02 | 株式会社リコー | Information processing apparatus, information processing method, and program |
JP2019159820A (en) * | 2018-03-13 | 2019-09-19 | オムロン株式会社 | Inspection device, image identification device, identification device, inspection method, and inspection program |
JP2019200671A (en) * | 2018-05-17 | 2019-11-21 | 大日本印刷株式会社 | Learning device, learning method, program, data generation method, and identification device |
JP2020003846A (en) * | 2018-06-25 | 2020-01-09 | アズビル株式会社 | Discrimination label assignment support apparatus and discrimination label assignment support method |
Non-Patent Citations (1)
Title |
---|
吉澤 亜耶,橋本 洋一: "異常検知技術の概要と応用動向について", INTEC TECHNICAL JOURNAL 第17号, vol. 第17号, JPN6023027349, 30 September 2016 (2016-09-30), ISSN: 0005099708 * |
Also Published As
Publication number | Publication date |
---|---|
JP7096296B2 (en) | 2022-07-05 |
JP2022026016A (en) | 2022-02-10 |
JP7361163B2 (en) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538472B2 (en) | Processing speech signals in voice-based profiling | |
Gogate et al. | Deep learning driven multimodal fusion for automated deception detection | |
Iqbal et al. | A real-time emotion recognition from speech using gradient boosting | |
Saidi et al. | Hybrid CNN-SVM classifier for efficient depression detection system | |
JP4546767B2 (en) | Emotion estimation apparatus and emotion estimation program | |
Ilyas et al. | AVFakeNet: A unified end-to-end Dense Swin Transformer deep learning model for audio–visual deepfakes detection | |
Senthilkumar et al. | Speech emotion recognition based on Bi-directional LSTM architecture and deep belief networks | |
Ringeval et al. | Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion | |
Venu | IOT Based Speech Recognition System to Improve the Performance of Emotion Detection | |
Boishakhi et al. | Multi-modal hate speech detection using machine learning | |
Deb et al. | Classification of speech under stress using harmonic peak to energy ratio | |
Al-Dhief et al. | Dysphonia detection based on voice signals using naive bayes classifier | |
Shanthi et al. | An integrated approach for mental health assessment using emotion analysis and scales | |
Fonnegra et al. | Speech emotion recognition integrating paralinguistic features and auto-encoders in a deep learning model | |
JP7096296B2 (en) | Information processing equipment, information processing methods and programs | |
Liang et al. | Semi-supervised multimodal emotion recognition with improved wasserstein gans | |
Gong et al. | Continuous assessment of children’s emotional states using acoustic analysis | |
US20230015028A1 (en) | Diagnosing respiratory maladies from subject sounds | |
Gupta et al. | Speech emotion recognition using MFCC and wide residual network | |
van Bemmel et al. | Automatic Selection of the Most Characterizing Features for Detecting COPD in Speech | |
Weninger et al. | Speaker trait characterization in web videos: Uniting speech, language, and facial features | |
CN116935889B (en) | Audio category determining method and device, electronic equipment and storage medium | |
KR102564570B1 (en) | System and method for analyzing multimodal emotion | |
KR102630804B1 (en) | Sentiment analysis method and emotion analysis device | |
Marghescu et al. | Speech Emotion Recognition for Emergency Services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220805 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |