JP7222209B2 - DEEP LEARNING NETWORK USED FOR EVENT DETECTION, TRAINING DEVICE AND METHOD FOR THE NETWORK - Google Patents

DEEP LEARNING NETWORK USED FOR EVENT DETECTION, TRAINING DEVICE AND METHOD FOR THE NETWORK Download PDF

Info

Publication number
JP7222209B2
JP7222209B2 JP2018177357A JP2018177357A JP7222209B2 JP 7222209 B2 JP7222209 B2 JP 7222209B2 JP 2018177357 A JP2018177357 A JP 2018177357A JP 2018177357 A JP2018177357 A JP 2018177357A JP 7222209 B2 JP7222209 B2 JP 7222209B2
Authority
JP
Japan
Prior art keywords
event
deep learning
learning network
training
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018177357A
Other languages
Japanese (ja)
Other versions
JP2019091421A (en
Inventor
イヌ・ルォイ
タヌ・ジミン
バイ・シアンホォイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019091421A publication Critical patent/JP2019091421A/en
Application granted granted Critical
Publication of JP7222209B2 publication Critical patent/JP7222209B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報技術分野に関し、特にイベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法に関する。 TECHNICAL FIELD The present invention relates to the field of information technology, and more particularly to a deep learning network used for event detection, a training device for the network, and a training method.

近年、深層学習(deep learning)はコンピュータビジョン(computer vision)の分野に広く応用されている。深層学習により、コンピュータビジョン分野の研究方向は、画像分類から例えばイベント検出などの映像解析(video analysis)に移行している。画像分類に比べて、映像解析はより複雑なシーンに直面し、イベント検出もより高いレベルの論理的判断を学習するためのモデルを必要とする。 Recently, deep learning has been widely applied in the field of computer vision. Deep learning is moving the direction of research in the field of computer vision from image classification to video analysis, such as event detection. Compared to image classification, video analysis faces more complex scenes, and event detection also requires models to learn higher-level logical judgments.

図1は従来のイベント検出モデルの検出結果を示す図である。図1に示すように、図1に示す監視映像画面では、従来のイベント検出モデルで検出された各イベントの発生確率は、正常(Normal)0.03、事故(Accident)0.46、渋滞(Jam)0.41、駐車(Park)0.08、逆行(Reverse)0.02となる。 FIG. 1 is a diagram showing detection results of a conventional event detection model. As shown in FIG. 1, on the monitoring video screen shown in FIG. 1, the probability of occurrence of each event detected by the conventional event detection model is 0.03 for normal, 0.46 for accident, and 0.46 for traffic congestion. Jam) 0.41, Park 0.08, and Reverse 0.02.

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。 It should be noted that the above description of the technical background is provided for a clear and complete understanding of the technical solution of the present invention, and is provided for the understanding of those skilled in the art. These technical ideas are merely described as part of the background art of the present invention and are not well known by those skilled in the art.

本発明の発明者の発見によると、図1の場合は、理想的な出力結果は事故(Accident)と渋滞(Jam)であるはずなのに、上記従来のイベント検出モデルの出力条件を0.5以上とすると、出力結果が得られなくなり、出力条件を最大確率のイベントの出力とすると、出力結果は事故(Accident)となる。即ち、従来のイベント検出モデルは、相互に排他的なイベントのみを区別することができ、複数のイベントを検出結果として出力することができなく、検出結果の正確性及び完全性を確保することができない。また、従来のイベント検出モデルは、マルチ分類器の検出モデルであるため、その訓練時間が長い。 According to the discovery of the inventor of the present invention, in the case of FIG. Then, the output result cannot be obtained, and if the output condition is the output of the event with the maximum probability, the output result is an accident. That is, the conventional event detection model can only distinguish mutually exclusive events, cannot output multiple events as detection results, and can ensure the accuracy and completeness of detection results. Can not. In addition, since the conventional event detection model is a multi-classifier detection model, its training time is long.

本発明の実施例は、イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法を提供する。該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 Embodiments of the present invention provide a deep learning network used for event detection, an apparatus for training the network and a training method. The deep learning network has at least two event classifiers that detect different events independently of each other, and each event classifier detects independently and outputs the detection result, so that the event detection result Accuracy and completeness can be ensured. Also, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

本発明の実施例の第1態様では、イベント検出に用いられる深層学習ネットワークであって、入力データを読み取るデータ層と、前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含む、深層学習ネットワークを提供する。 In a first aspect of an embodiment of the present invention, a deep learning network used for event detection, comprising: a data layer reading input data; a convolutional layer extracting features from the input data read by the data layer; at least two event classifiers that detect different events independently of each other based on the features extracted by the convolutional layers and output detection results of the different events, respectively. .

本発明の実施例の第2態様では、本発明の実施例の第1態様に記載の深層学習ネットワークの訓練装置であって、前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置を提供する。 According to a second aspect of an embodiment of the present invention, a training apparatus for a deep learning network according to the first aspect of an embodiment of the present invention, comprising first training means for training parameters of said convolutional layers of said deep learning network. and second training means for training the parameters of the at least two event classifiers of the deep learning network while maintaining the parameters of the convolutional layers of the deep learning network.

本発明の実施例の第3態様では、本発明の実施例の第1態様に記載の深層学習ネットワークの訓練方法であって、前記深層学習ネットワークの前記畳み込み層のパラメータを訓練するステップと、前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練するステップと、を含む、方法を提供する。 In a third aspect of an embodiment of the present invention, a method for training a deep learning network according to the first aspect of an embodiment of the present invention, comprising the steps of training parameters of said convolutional layers of said deep learning network; and training the parameters of the at least two event classifiers of the deep learning network while maintaining the parameters of the convolutional layers of the deep learning network.

本発明の有利な効果としては、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 Advantageously, the deep learning network has at least two event classifiers for detecting different events independently of each other, each event classifier for independently detecting and generating a detection result of By outputting, the accuracy and completeness of event detection results can be ensured. Also, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。 Specific embodiments of the invention are disclosed in detail, as set forth in the following description and drawings, to illustrate the manner in which the principles of the invention may be employed. It should be noted that embodiments of the present invention are not limited in scope. Embodiments of the present invention include various changes, modifications and equivalents within the spirit and content of the appended claims.

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。 Features described and/or shown in one embodiment may be used in one or many other embodiments in the same or similar manner and may be combined with features in other embodiments; Features in other embodiments may be substituted.

なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。 It should be noted that the term "comprising/including" as used herein means the presence of a feature, element, step or component, and the presence or absence of one or more other features, elements, steps or components. Additions are not excluded.

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
従来のイベント検出モデルの検出結果を示す図である。 本発明の実施例1のイベント検出に用いられる深層学習ネットワークを示す図である。 本発明の実施例1の深層学習ネットワークの検出結果を示す図である。 本発明の実施例1のイベント分類器203を示す図である。 本発明の実施例2の訓練装置を示す図である。 本発明の実施例3の電子機器を示す図である。 本発明の実施例3の電子機器のシステム構成を示すブロック図である。 本発明の実施例4の訓練方法を示す図である。
The drawings included herein are included to provide an understanding of embodiments of the invention, and constitute a part of this specification and are intended to illustrate embodiments of the invention and, together with the written description, The principle of the present invention will now be explained. It should be noted that the drawings described herein are merely for explaining the embodiments of the present invention, and those skilled in the art can easily obtain other drawings based on these drawings.
FIG. 10 is a diagram showing detection results of a conventional event detection model; 1 is a diagram showing a deep learning network used for event detection in Example 1 of the present invention; FIG. It is a figure which shows the detection result of the deep learning network of Example 1 of this invention. It is a figure which shows the event classifier 203 of Example 1 of this invention. Fig. 2 is a diagram showing a training device according to Example 2 of the present invention; It is a figure which shows the electronic device of Example 3 of this invention. FIG. 10 is a block diagram showing the system configuration of an electronic device according to Example 3 of the present invention; It is a figure which shows the training method of Example 4 of this invention.

本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。 These and other features of the invention can be understood from the drawings and the description below. The specification and drawings disclose specific embodiments of the invention, which represent some embodiments consistent with the principles of the invention. It should be noted that the invention is not limited to the described embodiments, but that the invention includes all modifications, variations and equivalents that come within the scope of the claims.

<実施例1>
本発明の実施例はイベント検出に用いられる深層学習ネットワークを提供する。図2は本発明の実施例1のイベント検出に用いられる深層学習ネットワークを示す図である。図2に示すように、深層学習ネットワーク200は、データ層201、畳み込み層202、及び少なくとも2つのイベント分類器203を含む。
<Example 1>
Embodiments of the present invention provide deep learning networks for use in event detection. FIG. 2 is a diagram showing a deep learning network used for event detection in Example 1 of the present invention. As shown in FIG. 2, deep learning network 200 includes data layer 201 , convolutional layer 202 and at least two event classifiers 203 .

データ層201は、入力データを読み取る。 Data layer 201 reads input data.

畳み込み層202は、該データ層により読み取られた該入力データから特徴を抽出する。 A convolutional layer 202 extracts features from the input data read by the data layer.

少なくとも2つのイベント分類器203は、該畳み込み層により抽出された該特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する。 At least two event classifiers 203 independently detect different events based on the features extracted by the convolutional layers, and output different event detection results.

上記実施例によれば、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 According to the above embodiment, the deep learning network has at least two event classifiers that detect different events independently of each other, and each event classifier independently detects and outputs a detection result. By doing so, the accuracy and completeness of event detection results can be ensured. Also, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

本実施例では、データ層201は、入力データを読み取る。例えば、データ層201は、監視映像を処理し、入力データを取得する。 In this example, data layer 201 reads input data. For example, the data layer 201 processes surveillance video and obtains input data.

例えば、該入力データは、監視映像の少なくとも1つのフレームであってもよく、該監視映像は、道路の上方に設置された監視カメラにより取得されてもよい。 For example, the input data may be at least one frame of surveillance video, which may be captured by a surveillance camera installed above the road.

本実施例では、畳み込み層202は、該データ層により読み取られた該入力データから特徴を抽出する。該畳み込み層202は、従来の構造を用いてもよい。例えば、該畳み込み層202は、従来のAlexnetネットワーク構造であってもよい。 In this embodiment, convolutional layer 202 extracts features from the input data read by the data layer. The convolutional layer 202 may use conventional structures. For example, the convolutional layer 202 may be a conventional Alexnet network structure.

本実施例では、該特徴は、入力データとなる監視映像画像における各特徴、例えば輪郭、テクスチャ(texture)、輝度などであってもよい。 In this embodiment, the feature may be each feature in the surveillance video image as the input data, such as contour, texture, brightness, and the like.

本実施例では、少なくとも2つのイベント分類器203は、該畳み込み層202により抽出された該特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する。 In this embodiment, at least two event classifiers 203 independently detect different events based on the features extracted by the convolutional layer 202, and respectively output different event detection results.

本実施例では、各イベント分類器203は異なるイベントを検出でき、且つ各イベント分類器203は1種類のイベントのみを検出し、即ち各イベント分類器203は何れも二分分類器である。 In this embodiment, each event classifier 203 can detect different events, and each event classifier 203 can only detect one kind of event, ie each event classifier 203 is a dichotomous classifier.

本実施例では、イベント分類器203の数は、実際の需要に応じて設定されてもよい。例えば、検出すべきイベントの種類の数に応じて設定されてもよい。 In this embodiment, the number of event classifiers 203 may be set according to actual demand. For example, it may be set according to the number of types of events to be detected.

例えば、図2に示すように、該深層学習ネットワーク200は、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)というイベントをそれぞれ検出するための5つのイベント分類器203を含んでもよい。 For example, as shown in FIG. 2, the deep learning network 200 has five events for detecting each event: Normal, Accident, Jam, Park and Reverse. An event classifier 203 may be included.

本実施例では、少なくとも2つのイベント分類器203により出力された検出結果を表示してもよい。例えば、少なくとも2つのイベント分類器203により出力された異なるイベントの検出結果を監視映像画面にまとめて表示してもよい。 In this embodiment, detection results output by at least two event classifiers 203 may be displayed. For example, different event detection results output by at least two event classifiers 203 may be collectively displayed on the surveillance video screen.

図3は本発明の実施例1の深層学習ネットワークの検出結果を示す図である。図3に示すように、図1と同様な監視映像画面では、同様な入力映像について、該深層学習ネットワーク200により取得された検出結果は、正常(Normal)0.01、事故(Accident)0.96、渋滞(Jam)0.89、駐車(Park)0.31、逆行(Reverse)0.10となる。このように、深層学習ネットワーク200は、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)をそれぞれ検出するための5つのイベント分類器203を有し、各イベント分類器203が異なるイベントを独立して検出することで、イベント検出結果の正確性及び完全性を確保できる。 FIG. 3 is a diagram showing detection results of the deep learning network of Example 1 of the present invention. As shown in FIG. 3, on a monitoring video screen similar to that in FIG. 1, the detection results obtained by the deep learning network 200 for a similar input video are 0.01 for Normal and 0.01 for Accident. 96, Jam 0.89, Park 0.31, Reverse 0.10. Thus, the deep learning network 200 has five event classifiers 203 for detecting normal (Normal), accident (Accident), jam (Jam), parking (Park) and reverse (Reverse), By independently detecting different events by each event classifier 203, the accuracy and completeness of event detection results can be ensured.

本実施例では、各イベント分類器203の構造は、同一であってもよいし、異なってもよい。本実施例では、同一の構造を有するイベント分類器203を一例にして説明する。 In this embodiment, the structure of each event classifier 203 may be the same or different. In this embodiment, the event classifier 203 having the same structure will be described as an example.

図4は本発明の実施例1のイベント分類器203を示す図である。図4に示すように、イベント分類器203は、第1全結合層401、第2全結合層402、及び第1全結合層401と第2全結合層402との間に設けられる長短期記憶(LSTM:Long Short-Term Memory)層403を含む。 FIG. 4 is a diagram showing the event classifier 203 of Example 1 of the present invention. As shown in FIG. 4 , the event classifier 203 includes a first fully connected layer 401 , a second fully connected layer 402 , and a long short-term memory layer provided between the first fully connected layer 401 and the second fully connected layer 402 . (LSTM: Long Short-Term Memory) layer 403 .

本実施例では、イベント分類器にLSTM層を設けることで、経時的に有用な情報を記憶し、無用な情報を忘れるという特性を用いて、高い検出精度を得ることができる。 In this embodiment, by providing an LSTM layer in the event classifier, it is possible to obtain high detection accuracy by using the characteristic of storing useful information over time and forgetting useless information.

本実施例では、該イベント分類器203は、該イベント分類器203により検出されたイベントの発生確率を出力するための出力層404をさらに含んでもよい。 In this embodiment, the event classifier 203 may further include an output layer 404 for outputting the probability of occurrence of events detected by the event classifier 203 .

本実施例では、第1全結合層401、第2全結合層402、LSTM層403及び出力層404は、何れも従来の構造を用いてもよい。 In this embodiment, the first fully-connected layer 401, the second fully-connected layer 402, the LSTM layer 403, and the output layer 404 may all have conventional structures.

本実施例では、各イベント分類器203は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである。このように、深層学習ネットワーク200の訓練及び/又は調整を柔軟に行うことができ、訓練及び/又は調整の時間を効果的に減らすことができる。 In this embodiment, each event classifier 203 can be trained independently and/or its parameters adjusted independently. In this way, the deep learning network 200 can be flexibly trained and/or tuned, effectively reducing training and/or tuning time.

本実施例では、イベント分類器203は、独立して該深層学習ネットワーク200に追加し、或いは該深層学習ネットワーク200から削除することができるものである。 In this embodiment, event classifiers 203 can be independently added to or deleted from the deep learning network 200 .

例えば、実際な状況に応じて新たなイベントを検出する場合は、該深層学習ネットワーク200に該新たなイベントを検出するためのイベント分類器を独立して追加してもよい。実際な状況に応じてイベントの検出が不要となる場合は、該深層学習ネットワーク200から該イベントを検出するためのイベント分類器を削除してもよい。 For example, when detecting a new event according to the actual situation, an event classifier for detecting the new event may be added to the deep learning network 200 independently. If event detection becomes unnecessary according to the actual situation, the event classifier for detecting the event may be deleted from the deep learning network 200 .

このように、該深層学習ネットワークは、柔軟な拡張と削除の機能を有することができ、実際な需要に応じて該深層学習ネットワークにおけるイベント分類器を増減できる。 In this way, the deep learning network can have flexible expansion and deletion functions, and the event classifiers in the deep learning network can be increased or decreased according to actual demands.

上記実施例によれば、該深層学習ネットワークは、互いに独立した、異なるイベントの検出を行う少なくとも2つのイベント分類器を有し、各イベント分類器が独立して検出を行い、検出結果を出力することで、イベント検出結果の正確性及び完全性を確保できる。また、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 According to the above embodiment, the deep learning network has at least two event classifiers that detect different events independently of each other, and each event classifier independently detects and outputs a detection result. By doing so, the accuracy and completeness of event detection results can be ensured. Also, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

<実施例2>
本発明の実施例は、実施例1に記載されたイベント検出に用いられる深層学習ネットワークの訓練装置をさらに提供する。該深層学習ネットワークの構成は図2に示すものであり、該深層学習ネットワーク200は、データ層201、畳み込み層202、及び少なくとも2つのイベント分類器203を含む。
<Example 2>
An embodiment of the present invention further provides an apparatus for training a deep learning network used for event detection as described in the first embodiment. The structure of the deep learning network is shown in FIG. 2, the deep learning network 200 includes a data layer 201, a convolutional layer 202 and at least two event classifiers 203. FIG.

図5は本発明の実施例2の訓練装置を示す図である。図5に示すように、訓練装置500は、第1訓練部501及び第2訓練部502を含む。 FIG. 5 is a diagram showing a training device of embodiment 2 of the present invention. As shown in FIG. 5, training device 500 includes first training section 501 and second training section 502 .

第1訓練部501は、該深層学習ネットワーク200の畳み込み層202のパラメータを訓練する。 A first training unit 501 trains the parameters of the convolutional layer 202 of the deep learning network 200 .

第2訓練部502は、該深層学習ネットワーク200の畳み込み層202のパラメータを維持したまま、該深層学習ネットワーク200の少なくとも2つのイベント分類器203のパラメータを訓練する。 A second training unit 502 trains the parameters of at least two event classifiers 203 of the deep learning network 200 while maintaining the parameters of the convolutional layers 202 of the deep learning network 200 .

このように、各イベント分類器は1種類のイベントのみを検出する必要があり、即ち各イベント分類器が何れも二分分類器であるため、必要な訓練時間が短い。 Thus, each event classifier needs to detect only one type of event, i.e. each event classifier is a dichotomous classifier, thus requiring less training time.

本実施例では、第1訓練部501は、深層学習ネットワーク200の畳み込み層202のパラメータを訓練する。 In this embodiment, the first training unit 501 trains parameters of the convolutional layer 202 of the deep learning network 200 .

例えば、公開データセットを用いて畳み込み層202のパラメータを訓練してもよい。このように、公開データセットに百万枚以上の画像が含まれているため、モデルがパラメータを訓練するための豊富な特徴を提供でき、訓練して得られたモデルは良好な普遍性を有する。 For example, public data sets may be used to train the parameters of convolutional layer 202 . Thus, since the public dataset contains more than one million images, the model can provide rich features for training parameters, and the trained model has good universality. .

本実施例では、畳み込みニューラルネットワーク構造(Caffe:Convolutional Architecture for Fast Feature Embedding)において訓練を行ってもよく、該畳み込み層202のパラメータの訓練を終了させるために、通常のAlexnetネットワークの後に2つの全結合層、1つの精度(accuracy)層及び1つの損失(loss)層を追加する必要がある。訓練プロセスでは、該accuracy層及び該loss層の出力値に基づいて、モデルが収束しているか否かを判断し、収束している場合は訓練を終了させる。訓練が完了した後に、該追加された2つの全結合層、1つのaccuracy層及び1つのloss層を削除し、訓練された該畳み込み層202を取得する。 In the present example, training may be performed in a convolutional neural network structure (Caffe: Convolutional Architecture for Fast Feature Embedding), in which a normal Alexnet network is followed by two full We need to add a coupling layer, one accuracy layer and one loss layer. In the training process, based on the output values of the accuracy layer and the loss layer, it is determined whether the model has converged, and if converged, the training is terminated. After the training is completed, we delete the added two fully connected layers, one accuracy layer and one loss layer to obtain the trained convolutional layer 202 .

本実施例では、該畳み込み層202の訓練が完了した後に、第2訓練部502は、該深層学習ネットワーク200の畳み込み層202のパラメータを維持したまま、該深層学習ネットワーク200の少なくとも2つのイベント分類器203のパラメータを訓練する。 In this embodiment, after the training of the convolutional layer 202 is completed, the second training unit 502 performs at least two event classifications of the deep learning network 200 while maintaining the parameters of the convolutional layer 202 of the deep learning network 200. 203 parameters are trained.

例えば、取得された監視映像のデータを用いて訓練を行ってもよい。訓練の際に、1つのaccuracy層及び1つのloss層を追加する必要があり、訓練プロセスでは、該畳み込み層202の学習率を0に設定し、即ち該畳み込み層202のパラメータを変更せずに維持する。また、各イベント分類器203のうち訓練不要なイベント分類器の学習率を0に設定してもよい。訓練プロセスでは、該accuracy層及び該loss層の出力値に基づいて、モデルが収束しているか否かを判断し、収束している場合は訓練を終了させる。訓練が完了した後に、該追加されたaccuracy層及びloss層を削除し、訓練されたイベント分類器203を取得する。 For example, the training may be performed using acquired monitoring video data. During training, one accuracy layer and one loss layer need to be added, and in the training process, the learning rate of the convolutional layer 202 is set to 0, i.e. without changing the parameters of the convolutional layer 202 maintain. Further, the learning rate of event classifiers that do not require training among the event classifiers 203 may be set to zero. In the training process, based on the output values of the accuracy layer and the loss layer, it is determined whether the model has converged, and if converged, the training is terminated. After training is completed, we remove the added accuracy and loss layers to obtain a trained event classifier 203 .

本実施例では、第2訓練部502は、該少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、該少なくとも2つのイベント分類器のパラメータを訓練してもよい。 In this embodiment, the second training unit 502 uses at least two labels represented by binarized numerical values respectively corresponding to the at least two event classifiers, Parameters may be trained.

例えば、ラベル「1」でイベントが発生したことを表し、ラベル「0」でイベントが発生していないことを表してもよく、各ラベルは、順次に配列され、正常(Normal)、事故(Accident)、渋滞(Jam)、駐車(Park)及び逆行(Reverse)というイベントを検出するための各イベント分類器203にそれぞれ対応してもよい。例えば、図1に示す監視映像画面では、各イベント分類器203に対応するラベルは「01100」と表されてもよい。 For example, the label "1" may indicate that an event has occurred, and the label "0" may indicate that an event has not occurred. ), congestion (Jam), parking (Park), and reverse (Reverse) events. For example, in the surveillance image screen shown in FIG. 1, the label corresponding to each event classifier 203 may be expressed as "01100".

本実施例では、第2訓練部502は、該少なくとも2つのイベント分類器203のパラメータを同時に訓練し、或いは該少なくとも2つのイベント分類器の各イベント分類器203のパラメータをそれぞれ訓練してもよい。 In this embodiment, the second training unit 502 may train the parameters of the at least two event classifiers 203 simultaneously, or may train the parameters of each event classifier 203 of the at least two event classifiers respectively. .

このように、各イベント分類器203のパラメータを同時に訓練する場合は、訓練時間をさらに減らすことができ、各イベント分類器203のパラメータをそれぞれ訓練する場合は、実際の状況に応じて訓練を柔軟に行うことができる。 In this way, if the parameters of each event classifier 203 are trained simultaneously, the training time can be further reduced, and if the parameters of each event classifier 203 are trained separately, the training can be flexible according to the actual situation. can be done.

本実施例では、イベント分類器203は、独立して該深層学習ネットワーク200に追加し、或いは該深層学習ネットワーク200から削除することができるものである。このため、訓練装置500は、第3訓練部503をさらに含んでもよい。 In this embodiment, event classifiers 203 can be independently added to or deleted from the deep learning network 200 . Therefore, the training device 500 may further include a third training section 503 .

第3訓練部503は、深層学習ネットワーク200に新たなイベント分類器203が追加された場合、畳み込み層202及び元の少なくとも2つのイベント分類器203のパラメータを維持したまま、深層学習ネットワーク200に追加された該新たなイベント分類器203のパラメータを単独で訓練する。具体的な訓練方法は、元のイベント分類器の訓練方法を参照してもよく、ここでその説明を省略する。 When a new event classifier 203 is added to the deep learning network 200, the third training unit 503 maintains the parameters of the convolutional layer 202 and the original at least two event classifiers 203 while adding the new event classifier 203 to the deep learning network 200. It trains the parameters of the new event classifier 203 that have been created by itself. The specific training method may refer to the training method of the original event classifier, and the description thereof is omitted here.

これによって、新たな検出要求がある場合は、該畳み込み層202及び元の少なくとも2つのイベント分類器203を訓練し直す必要がなく、該新たなイベント分類器203のパラメータを単独で訓練すればよいため、訓練時間を効果的に減らすことができ、新たな検出要求を迅速に満たすことができる。また、新たなイベント分類器の訓練プロセスでは、元のイベント分類器に影響を与えないため、元のイベント分類器の検出精度を確保できる。 Thus, when there is a new detection request, the convolutional layer 202 and the original at least two event classifiers 203 need not be retrained, but the parameters of the new event classifier 203 can be trained alone. Therefore, the training time can be effectively reduced, and new detection requirements can be quickly met. Also, the training process of the new event classifier does not affect the original event classifier, thus ensuring the detection accuracy of the original event classifier.

本実施例では、訓練装置500は、調整部504をさらに含んでもよい。 In this example, training device 500 may further include adjustment unit 504 .

調整部504は、該少なくとも2つのイベント分類器203のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整する。 The adjusting unit 504 independently adjusts parameters of one or more event classifiers of the at least two event classifiers 203 if one or more event classifiers do not meet a predetermined condition.

本実施例では、該所定の条件は、例えばイベント分類器の検出精度が所定の閾値に達したことである。例えば、該深層学習ネットワークを用いてイベント検出を行うプロセスにおいて、イベント分類器203に入力された特徴に以前の訓練の際に使ったことがない特徴が含まれることにより、1つ又は複数のイベント分類器203の検出精度が降下し、所定の閾値よりも低くなった。このように、調整部504を用いて該1つ又は複数のイベント分類器203のパラメータを独立して調整することで、他の調整不要なイベント分類器に影響を与えず、様々な状況に応じて調整を柔軟、且つ迅速に行うことができる。 In this embodiment, the predetermined condition is, for example, that the detection accuracy of the event classifier has reached a predetermined threshold. For example, in the process of performing event detection using the deep learning network, one or more event The detection accuracy of the classifier 203 has decreased and has become lower than the predetermined threshold. In this way, by independently adjusting the parameters of the one or more event classifiers 203 using the adjustment unit 504, the other event classifiers that do not need adjustment are not affected, and various situations can be achieved. adjustments can be made flexibly and quickly.

例えば、調整プロセスでは、これらの以前の訓練の際に使ったことがない特徴を元の訓練データに追加し、調整が必要な該1つ又は複数のイベント分類器203を独立して訓練し、訓練が完了すると、該1つ又は複数のイベント分類器203のパラメータの調整が完了する。 For example, the tuning process adds features to the original training data that have not been used in these previous trainings, and independently trains the event classifier or classifiers 203 that need to be tuned, Once training is complete, tuning the parameters of the one or more event classifiers 203 is complete.

上記実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 According to the above embodiments, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

<実施例3>
本発明の実施例は電子機器をさらに提供し、図6は本発明の実施例3の電子機器を示す図である。図6に示すように、電子機器600は訓練装置601を含み、該訓練装置601は実施例1に記載された深層学習ネットワークを訓練する。該訓練装置601の構成及び機能は実施例2に記載されたものと同じであり、ここでその説明を省略する。
<Example 3>
Embodiments of the present invention further provide an electronic device, and FIG. 6 is a schematic diagram of the electronic device of Embodiment 3 of the present invention. As shown in FIG. 6, the electronic device 600 includes a training device 601, which trains the deep learning network described in the first embodiment. The configuration and function of the training device 601 are the same as those described in Example 2, and the description thereof is omitted here.

図7は本発明の実施例3の電子機器のシステム構成を示すブロック図である。図7に示すように、電子機器700は、中央処理装置(中央制御装置)701及び記憶装置702を含んでもよく、記憶装置702は中央処理装置701に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。 FIG. 7 is a block diagram showing the system configuration of an electronic device according to Example 3 of the present invention. As shown in FIG. 7, the electronic device 700 may include a central processing unit (central control unit) 701 and a storage device 702 , the storage device 702 being connected to the central processing unit 701 . The diagrams are merely exemplary and other types of structures may be used to supplement or replace the structures to implement telecommunications or other functions.

図7に示すように、電子機器700は、入力部703、ディスプレイ704及び電源705をさらに含んでもよい。 As shown in FIG. 7, electronic device 700 may further include input 703 , display 704 and power supply 705 .

1つの態様では、実施例2の訓練装置の機能は中央処理装置701に統合されてもよい。ここで、中央処理装置701は、深層学習ネットワークの前記畳み込み層のパラメータを訓練し、該深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、該深層学習ネットワークの少なくとも2つのイベント分類器のパラメータを訓練するように構成されてもよい。 In one aspect, the functionality of the training device of Example 2 may be integrated into central processing unit 701 . Here, the central processing unit 701 trains the parameters of the convolutional layers of the deep learning network, and while maintaining the parameters of the convolutional layers of the deep learning network, trains the parameters of at least two event classifiers of the deep learning network. may be configured to train the

例えば、該少なくとも2つのイベント分類器のパラメータを訓練するステップは、該少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは該少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練するステップ、を含んでもよい。 For example, training parameters of the at least two event classifiers includes training parameters of the at least two event classifiers simultaneously or training parameters of each event classifier of the at least two event classifiers respectively. step.

例えば、中央処理装置701は、該深層学習ネットワークにイベント分類器が追加された場合、該畳み込み層及び該少なくとも2つのイベント分類器のパラメータを維持したまま、該深層学習ネットワークに追加された該イベント分類器のパラメータを単独で訓練するように構成されてもよい。 For example, when an event classifier is added to the deep learning network, the central processing unit 701 maintains the parameters of the convolutional layer and the at least two event classifiers while maintaining the event classifier added to the deep learning network. It may be configured to train the classifier parameters alone.

例えば、中央処理装置701は、該少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整するように構成されてもよい。 For example, central processing unit 701 may independently adjust parameters of one or more event classifiers of the at least two event classifiers if one or more event classifiers do not meet a predetermined condition. may be configured to

例えば、該少なくとも2つのイベント分類器のパラメータを訓練するステップは、該少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、該少なくとも2つのイベント分類器のパラメータを訓練するステップ、を含んでもよい。 For example, training the parameters of the at least two event classifiers includes using at least two binarized numerical labels respectively corresponding to the at least two event classifiers to obtain the at least two training the parameters of the two event classifiers.

もう1つの態様では、実施例2に記載された訓練装置は中央処理装置701とそれぞれ構成されてもよく、例えば訓練装置は中央処理装置701に接続されたチップであり、中央処理装置701の制御により該訓練装置の機能を実現してもよい。 In another aspect, the training devices described in Example 2 may each be configured with a central processing unit 701, e.g. may implement the functionality of the training device.

本実施例における電子機器700は、図7に示されている全ての構成部を含まなくてもよい。 The electronic device 700 in this embodiment does not have to include all the components shown in FIG.

図7に示すように、中央処理装置701は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び/又は論理装置を含んでもよく、中央処理装置701は入力を受信し、電子機器700の各部の操作を制御する。 As shown in FIG. 7, central processing unit 701, also referred to as a controller or operational control unit, which may include a microprocessor or other processing and/or logic device, central processing unit 701 receives inputs and processes electronic It controls the operation of each part of the device 700 .

記憶装置702は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の1つ又は複数であってもよい。また、中央処理装置701は、記憶装置702に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の部材は従来技術に類似するため、ここでその説明が省略される。電子機器700の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。 Storage device 702 may be, for example, one or more of a buffer, flash memory, hard disk, removable media, volatile memory, non-volatile memory, or other suitable device. Also, the central processing unit 701 may execute programs stored in the storage device 702 to realize storage or processing of information. Other members are similar to the prior art, so their description is omitted here. Each portion of electronic device 700 may be implemented by specific hardware, firmware, software, or a combination thereof without departing from the scope of the invention.

本実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 According to this embodiment, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

<実施例4>
本発明の実施例は実施例1のイベント検出に用いられる深層学習ネットワークの訓練方法をさらに提供し、該訓練方法は実施例2の訓練装置に対応する。図8は本発明の実施例4の訓練方法を示す図である。図8に示すように、該方法は以下のステップを含む。
<Example 4>
An embodiment of the present invention further provides a training method for the deep learning network used for event detection in embodiment 1, which training method corresponds to the training apparatus in embodiment 2. FIG. 8 is a diagram showing a training method according to embodiment 4 of the present invention. As shown in FIG. 8, the method includes the following steps.

ステップ801:該深層学習ネットワークの該畳み込み層のパラメータを訓練する。 Step 801: Train the parameters of the convolutional layers of the deep learning network.

ステップ802:該深層学習ネットワークの該畳み込み層のパラメータを維持したまま、該深層学習ネットワークの該少なくとも2つのイベント分類器のパラメータを訓練する。 Step 802: Training the parameters of the at least two event classifiers of the deep learning network while maintaining the parameters of the convolutional layers of the deep learning network.

本実施例では、該方法は以下のステップをさらに含んでもよい。 In this embodiment, the method may further include the following steps.

ステップ803:該深層学習ネットワークにイベント分類器が追加された場合、該畳み込み層及び該少なくとも2つのイベント分類器のパラメータを維持したまま、該深層学習ネットワークに追加された該イベント分類器のパラメータを単独で訓練する。 Step 803: If an event classifier has been added to the deep learning network, while maintaining the parameters of the convolutional layer and the at least two event classifiers, set the parameters of the event classifier added to the deep learning network. train alone.

ステップ804:該少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、該1つ又は複数のイベント分類器のパラメータを独立して調整する。 Step 804: Adjust parameters of the one or more event classifiers independently if one or more of the at least two event classifiers do not meet a predetermined condition.

本実施例では、上記の各ステップの具体的な実現方法は実施例2に記載されたものと同じであり、ここでその説明を省略する。 In this embodiment, the specific implementation method of each of the above steps is the same as that described in Embodiment 2, and the description thereof is omitted here.

本実施例によれば、各イベント分類器が1種類のイベントだけを検出すれば良いため、該深層学習ネットワークの訓練に必要な時間が短く、訓練された該深層学習ネットワークの検出精度が高い。 According to this embodiment, since each event classifier needs to detect only one type of event, the time required for training the deep learning network is short, and the trained deep learning network has high detection accuracy.

本発明の実施例は、深層学習ネットワークの訓練装置又は電子機器においてプログラムを実行する際に、コンピュータに、該深層学習ネットワークの訓練装置又は電子機器において上記実施例4に記載の深層学習ネットワークの訓練方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。 An embodiment of the present invention provides a method for executing a program in a deep learning network training device or an electronic device, causing a computer to perform the deep learning network training described in the above embodiment 4 in the deep learning network training device or electronic device. Further provided is a computer readable program for carrying out the method.

本発明の実施例は、コンピュータに、深層学習ネットワークの訓練装置又は電子機器において上記実施例4に記載の深層学習ネットワークの訓練方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。 An embodiment of the present invention includes a storage medium storing a computer-readable program for causing a computer to execute the deep learning network training method according to the fourth embodiment in a deep learning network training apparatus or electronic device. Offer more.

本発明の実施例を参照しながら説明した深層学習ネットワークの訓練装置又は電子機器において実行される深層学習ネットワークの訓練方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図5に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図8に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。 The deep learning network training method performed in the deep learning network training device or electronic device described with reference to the embodiments of the present invention may be implemented in hardware, software modules executed by a processor, or a combination of both. may For example, one or more of the functional block diagrams shown in FIG. 5, or one or more combinations of functional block diagrams, may correspond to each software module of the computer program flow, or to each hardware module. You can respond. These software modules may respectively correspond to the steps shown in FIG. These hardware modules may be implemented by hardwareizing these software modules using, for example, a field programmable gate array (FPGA).

ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。 A software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, mobile hard disk, a CD-ROM, or any other form of storage medium known to those skilled in the art. The storage medium may be coupled to the processor such that the processor reads information from and writes information to the storage medium, and the storage medium may be a component of the processor. The processor and storage medium are located in the ASIC. The software module may be stored in the memory of the mobile terminal or may be stored on a memory card inserted into the mobile terminal. For example, if the device (eg, mobile terminal) uses a relatively large-capacity MEGA-SIM card or a large-capacity flash memory device, the software module is stored in the MEGA-SIM card or large-capacity flash memory device. good too.

図5に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図5に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。 One or more of the functional blocks and/or one or more combinations of functional blocks in the functional block diagram depicted in FIG. DSP), application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, or any suitable combination thereof. may be One or more of the functional blocks and/or one or more combinations of functional blocks in the functional block diagram depicted in FIG. It may be implemented in a combination of processors, one or more microprocessors in combination with DSP communications, or any other configuration.

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び修正を行ってもよく、これらの変形及び修正も本発明の範囲に属する。 Although the present invention has been described with reference to specific embodiments, the above description is merely illustrative and does not limit the scope of protection of the present invention. Various variations and modifications may be made to the present invention without departing from the spirit and principle of the present invention, and these variations and modifications are also within the scope of the present invention.

また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
イベント検出に用いられる深層学習ネットワークであって、
入力データを読み取るデータ層と、
前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、
前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含む、深層学習ネットワーク。
(付記2)
前記少なくとも2つのイベント分類器は、同一又は異なる構造を有する、付記1に記載の深層学習ネットワーク。
(付記3)
前記少なくとも2つのイベント分類器は、同一の構造を有し、
前記イベント分類器は、第1全結合層、第2全結合層、及び前記第1全結合層と前記第2全結合層との間に設けられる長短期記憶層を含む、付記2に記載の深層学習ネットワーク。
(付記4)
各前記イベント分類器は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである、付記1に記載の深層学習ネットワーク。
(付記5)
前記イベント分類器は、独立して前記深層学習ネットワークに追加し、或いは前記深層学習ネットワークから削除することができるものである、付記1に記載の深層学習ネットワーク。
(付記6)
付記1に記載の深層学習ネットワークの訓練装置であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置。
(付記7)
前記第2訓練手段は、前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練する、付記6に記載の装置。
(付記8)
前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練する第3訓練手段、をさらに含む、付記6に記載の装置。
(付記9)
前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整する調整手段、をさらに含む、付記6に記載の装置。
(付記10)
前記第2訓練手段は、前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練する、付記6に記載の装置。
(付記11)
付記1に記載の深層学習ネットワークの訓練方法であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練するステップと、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練するステップと、を含む、方法。
(付記12)
前記少なくとも2つのイベント分類器のパラメータを訓練するステップは、
前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練するステップ、を含む、付記11に記載の方法。
(付記13)
前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練するステップ、をさらに含む、付記11に記載の方法。
(付記14)
前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整するステップ、をさらに含む、付記11に記載の方法。
(付記15)
前記少なくとも2つのイベント分類器のパラメータを訓練するステップは、
前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練するステップ、を含む、付記11に記載の方法。
In addition, the following notes are further disclosed with respect to the embodiments including the above-described examples.
(Appendix 1)
A deep learning network used for event detection, comprising:
a data layer that reads input data;
a convolutional layer that extracts features from the input data read by the data layer;
at least two event classifiers that detect different events independently of each other based on the features extracted by the convolutional layers and output different event detection results, respectively.
(Appendix 2)
2. The deep learning network of clause 1, wherein the at least two event classifiers have the same or different structures.
(Appendix 3)
the at least two event classifiers have the same structure;
3. The method of claim 2, wherein the event classifier includes a first fully connected layer, a second fully connected layer, and a long-term memory layer provided between the first fully connected layer and the second fully connected layer. deep learning network.
(Appendix 4)
2. The deep learning network of clause 1, wherein each said event classifier can be independently trained and/or independently parameter tuned.
(Appendix 5)
Clause 1. The deep learning network of Clause 1, wherein the event classifier can be independently added to or deleted from the deep learning network.
(Appendix 6)
A deep learning network training device according to Supplementary Note 1,
a first training means for training parameters of the convolutional layers of the deep learning network;
and second training means for training the parameters of the at least two event classifiers of the deep learning network while maintaining the parameters of the convolutional layers of the deep learning network.
(Appendix 7)
7. Apparatus according to clause 6, wherein said second training means trains parameters of said at least two event classifiers simultaneously or trains parameters of each event classifier of said at least two event classifiers respectively.
(Appendix 8)
If an event classifier is added to the deep learning network, training the parameters of the event classifier added to the deep learning network alone while maintaining the parameters of the convolutional layer and the at least two event classifiers. 7. The apparatus of clause 6, further comprising a third training means for:
(Appendix 9)
adjusting means for independently adjusting parameters of the one or more event classifiers if one or more of the at least two event classifiers does not meet a predetermined condition; 6. Apparatus according to clause 6.
(Appendix 10)
The second training means trains parameters of the at least two event classifiers using at least two labels represented by binarized numerical values respectively corresponding to the at least two event classifiers. 6. Apparatus according to clause 6.
(Appendix 11)
A method of training a deep learning network according to Supplementary Note 1, comprising:
training parameters of the convolutional layers of the deep learning network;
training parameters of the at least two event classifiers of the deep learning network while maintaining parameters of the convolutional layers of the deep learning network.
(Appendix 12)
training the parameters of the at least two event classifiers,
12. The method of clause 11, comprising training parameters of the at least two event classifiers simultaneously, or training parameters of each event classifier of the at least two event classifiers, respectively.
(Appendix 13)
If an event classifier is added to the deep learning network, training the parameters of the event classifier added to the deep learning network alone while maintaining the parameters of the convolutional layer and the at least two event classifiers. 12. The method of clause 11, further comprising the step of:
(Appendix 14)
independently adjusting parameters of the one or more event classifiers if one or more of the at least two event classifiers do not meet a predetermined condition. 11. The method according to 11.
(Appendix 15)
training the parameters of the at least two event classifiers,
training parameters of the at least two event classifiers using at least two binarized numerical labels respectively corresponding to the at least two event classifiers. described method.

Claims (10)

イベント検出に用いられる深層学習ネットワークであって、
入力データを読み取るデータ層と、
前記データ層により読み取られた前記入力データから特徴を抽出する畳み込み層と、
前記畳み込み層により抽出された前記特徴に基づいて、互いに独立して異なるイベントの検出を行い、異なるイベントの検出結果をそれぞれ出力する少なくとも2つのイベント分類器と、を含
各前記イベント分類器は、1つのイベントのみを検出する、深層学習ネットワーク。
A deep learning network used for event detection, comprising:
a data layer that reads input data;
a convolutional layer that extracts features from the input data read by the data layer;
at least two event classifiers that detect different events independently of each other based on the features extracted by the convolutional layers and output different event detection results, respectively;
A deep learning network , wherein each said event classifier detects only one event .
前記少なくとも2つのイベント分類器は、同一又は異なる構造を有する、請求項1に記載の深層学習ネットワーク。 2. The deep learning network of claim 1, wherein the at least two event classifiers have identical or different structures. 前記少なくとも2つのイベント分類器は、同一の構造を有し、
前記イベント分類器は、第1全結合層、第2全結合層、及び前記第1全結合層と前記第2全結合層との間に設けられる長短期記憶層を含む、請求項2に記載の深層学習ネットワーク。
the at least two event classifiers have the same structure;
3. The event classifier of claim 2, wherein the event classifier includes a first fully connected layer, a second fully connected layer, and a long-term memory layer provided between the first fully connected layer and the second fully connected layer. deep learning network.
各前記イベント分類器は、独立して訓練し、且つ/或いは独立してパラメータを調整することができるものである、請求項1に記載の深層学習ネットワーク。 2. The deep learning network of claim 1, wherein each said event classifier can be independently trained and/or independently parameter tuned. 前記イベント分類器は、独立して前記深層学習ネットワークに追加し、或いは前記深層学習ネットワークから削除することができるものである、請求項1に記載の深層学習ネットワーク。 2. The deep learning network of claim 1, wherein the event classifiers can be independently added to or removed from the deep learning network. 請求項1に記載の深層学習ネットワークの訓練装置であって、
前記深層学習ネットワークの前記畳み込み層のパラメータを訓練する第1訓練手段と、
前記深層学習ネットワークの前記畳み込み層のパラメータを維持したまま、前記深層学習ネットワークの前記少なくとも2つのイベント分類器のパラメータを訓練する第2訓練手段と、を含む、装置。
A deep learning network training device according to claim 1,
a first training means for training parameters of the convolutional layers of the deep learning network;
and second training means for training the parameters of the at least two event classifiers of the deep learning network while maintaining the parameters of the convolutional layers of the deep learning network.
前記第2訓練手段は、前記少なくとも2つのイベント分類器のパラメータを同時に訓練し、或いは前記少なくとも2つのイベント分類器の各イベント分類器のパラメータをそれぞれ訓練する、請求項6に記載の装置。 7. Apparatus according to claim 6, wherein said second training means trains parameters of said at least two event classifiers simultaneously or trains parameters of each event classifier of said at least two event classifiers respectively. 前記深層学習ネットワークにイベント分類器が追加された場合、前記畳み込み層及び前記少なくとも2つのイベント分類器のパラメータを維持したまま、前記深層学習ネットワークに追加された前記イベント分類器のパラメータを単独で訓練する第3訓練手段、をさらに含む、請求項6に記載の装置。 If an event classifier is added to the deep learning network, training the parameters of the event classifier added to the deep learning network alone while maintaining the parameters of the convolutional layer and the at least two event classifiers. 7. The apparatus of claim 6, further comprising a third training means for: 前記少なくとも2つのイベント分類器のうち1つ又は複数のイベント分類器が所定の条件を満たさない場合、前記1つ又は複数のイベント分類器のパラメータを独立して調整する調整手段、をさらに含む、請求項6に記載の装置。 adjusting means for independently adjusting parameters of the one or more event classifiers if one or more of the at least two event classifiers does not meet a predetermined condition; 7. Apparatus according to claim 6. 前記第2訓練手段は、前記少なくとも2つのイベント分類器にそれぞれ対応する、二値化された数値で表される少なくとも2つのラベルを用いて、前記少なくとも2つのイベント分類器のパラメータを訓練する、請求項6に記載の装置。 The second training means trains the parameters of the at least two event classifiers using at least two labels represented by binarized numerical values respectively corresponding to the at least two event classifiers. 7. Apparatus according to claim 6.
JP2018177357A 2017-11-15 2018-09-21 DEEP LEARNING NETWORK USED FOR EVENT DETECTION, TRAINING DEVICE AND METHOD FOR THE NETWORK Active JP7222209B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711128574.7 2017-11-15
CN201711128574.7A CN109784487B (en) 2017-11-15 2017-11-15 Deep learning network for event detection, training device and method of deep learning network

Publications (2)

Publication Number Publication Date
JP2019091421A JP2019091421A (en) 2019-06-13
JP7222209B2 true JP7222209B2 (en) 2023-02-15

Family

ID=66493690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018177357A Active JP7222209B2 (en) 2017-11-15 2018-09-21 DEEP LEARNING NETWORK USED FOR EVENT DETECTION, TRAINING DEVICE AND METHOD FOR THE NETWORK

Country Status (2)

Country Link
JP (1) JP7222209B2 (en)
CN (1) CN109784487B (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560541A (en) * 2019-09-10 2021-03-26 富士通株式会社 Training device and method for target detection model and electronic equipment
CN112528716B (en) * 2019-09-19 2024-01-05 杭州海康威视数字技术股份有限公司 Event information acquisition method and device
CN110826702A (en) * 2019-11-18 2020-02-21 方玉明 Abnormal event detection method for multitask deep network
CN113327414B (en) * 2020-02-28 2023-06-20 深圳市丰驰顺行信息技术有限公司 Vehicle reverse running detection method, device, computer equipment and storage medium
CN113450775A (en) * 2020-03-10 2021-09-28 富士通株式会社 Model training device, model training method, and storage medium
CN113487010B (en) * 2021-05-21 2024-01-05 国网浙江省电力有限公司杭州供电公司 Power grid network security event analysis method based on machine learning
WO2024003976A1 (en) * 2022-06-27 2024-01-04 楽天グループ株式会社 Computer vision system, computer vision method, and computer vision program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015887A1 (en) 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235938B2 (en) * 2013-08-13 2017-11-22 日本電信電話株式会社 Acoustic event identification model learning device, acoustic event detection device, acoustic event identification model learning method, acoustic event detection method, and program
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN106688011B (en) * 2014-09-10 2018-12-28 北京市商汤科技开发有限公司 method and system for multi-class object detection
CN106462940A (en) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 Generic object detection in images
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
US9547821B1 (en) * 2016-02-04 2017-01-17 International Business Machines Corporation Deep learning for algorithm portfolios
US9904871B2 (en) * 2016-04-14 2018-02-27 Microsoft Technologies Licensing, LLC Deep convolutional neural network prediction of image professionalism
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
CN106650789B (en) * 2016-11-16 2023-04-07 同济大学 Image description generation method based on depth LSTM network
CN106845549B (en) * 2017-01-22 2020-08-21 珠海习悦信息技术有限公司 Scene and target identification method and device based on multi-task learning
CN107064913A (en) * 2017-03-10 2017-08-18 上海斐讯数据通信技术有限公司 A kind of wireless location method and system based on deep learning
JP7023613B2 (en) * 2017-05-11 2022-02-22 キヤノン株式会社 Image recognition device and learning device
JP6729516B2 (en) * 2017-07-27 2020-07-22 トヨタ自動車株式会社 Identification device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015887A1 (en) 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANG, Y., et al.,Dynamic Multi-Task Learning with Convolutional Neural Network,Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17) [online],2017年08月19日,pp. 1668-1674,[retrieved on 2022-06-23], Retrieved from the Internet: <URL: https://www.ijcai.org/proceedings/2017/231>,<DOI: 10.24963/ijcai.2017/231>
HUO, Z., et al.,Vehicle type classification and attribute prediction using multi-task RCNN,2016 9th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI) [online],2016年10月15日,pp. 564-569,[retrieved on 2022-06-20], Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/7852774>,<DOI: 10.1109/CISP-BMEI.2016.7852774>
ZHANG, Shanghang et al.,"FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras",arXiv [online],v2,2017年08月,[2022年12月23日検索],インターネット<URL:https://arxiv.org/abs/1707.09476v2>,DOI: 10.48550/ARXIV.1707.09476

Also Published As

Publication number Publication date
CN109784487B (en) 2023-04-28
CN109784487A (en) 2019-05-21
JP2019091421A (en) 2019-06-13

Similar Documents

Publication Publication Date Title
JP7222209B2 (en) DEEP LEARNING NETWORK USED FOR EVENT DETECTION, TRAINING DEVICE AND METHOD FOR THE NETWORK
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
CN107358157B (en) Face living body detection method and device and electronic equipment
WO2020010547A1 (en) Character identification method and apparatus, and storage medium and electronic device
JP6897335B2 (en) Learning program, learning method and object detector
CN110633610A (en) Student state detection algorithm based on YOLO
CN106027931A (en) Video recording method and server
WO2022105608A1 (en) Rapid face density prediction and face detection method and apparatus, electronic device, and storage medium
WO2023142452A1 (en) Model training method, railway catenary anomaly detection method, and related apparatus
CN110781980B (en) Training method of target detection model, target detection method and device
CN111553231B (en) Face snapshot and deduplication system, method, terminal and medium based on information fusion
CN113408671A (en) Object identification method and device, chip and electronic equipment
CN110293818A (en) On-board air conditioner control method and device
US11709914B2 (en) Face recognition method, terminal device using the same, and computer readable storage medium
CN112101135A (en) Moving target detection method and device and terminal equipment
CN104809438B (en) A kind of method and apparatus for detecting electronic eyes
WO2020244076A1 (en) Face recognition method and apparatus, and electronic device and storage medium
US20200074709A1 (en) Methods and systems for performing editing operations on media
Mustafa et al. Dense multi-focus fusion net: A deep unsupervised convolutional network for multi-focus image fusion
TW202011350A (en) Image segmentation method, apparatus and non-transitory computer readable medium of the same
CN115879002A (en) Training sample generation method, model training method and device
US20220114717A1 (en) Distortion-based filtering for image classification
KR20150103443A (en) Multiclass classification apparatus, method thereof and computer readable medium having computer program recorded therefor
US10885343B1 (en) Repairing missing frames in recorded video with machine learning
CN114445864A (en) Gesture recognition method and device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230117

R150 Certificate of patent or registration of utility model

Ref document number: 7222209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150