JP2017536635A - ピクチャーのシーンの判定方法、装置及びサーバ - Google Patents
ピクチャーのシーンの判定方法、装置及びサーバ Download PDFInfo
- Publication number
- JP2017536635A JP2017536635A JP2017531955A JP2017531955A JP2017536635A JP 2017536635 A JP2017536635 A JP 2017536635A JP 2017531955 A JP2017531955 A JP 2017531955A JP 2017531955 A JP2017531955 A JP 2017531955A JP 2017536635 A JP2017536635 A JP 2017536635A
- Authority
- JP
- Japan
- Prior art keywords
- picture
- scene
- processed
- identification model
- album
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
Abstract
本発明はピクチャーのシーンの判定方法、装置及びサーバに関し、方法は少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、上記処理しようとするピクチャーをそれぞれ識別し、上記処理しようとするピクチャーに対応するシーンを決定し、上記処理しようとするピクチャーに対応するシーンを用いて、上記処理しようとするピクチャーをマークすることを含む。これにより、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させる。【選択図】図1
Description
本発明は、出願番号がCN201510463271.5であり、出願日が2015年07月31日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容をここで参照として本願に援用される。
本発明は通信技術分野に関し、特にピクチャーのシーンの判定方法、装置及びサーバに関する。
現在、スマートフォンの普及度がますます高くなり、いつでも、どこでも携帯電話のカメラでピクチャーを撮ることはますます人気となっている。携帯電話のフォトギャラリーにおける大量のピクチャーに対して、関連技術において、ユーザはある時間帯内又はある位置で撮られたピクチャーを確認できるように、ピクチャーを撮る際の時間又は位置でピクチャーに対してマークを付ける。
本発明の実施例はピクチャーのシーンの判定方法、装置及びサーバを提供する。
前記技術案は、以下のとおりであり、
本発明の実施例により示された第1態様によれば、ピクチャーのシーンの判定方法を提供しており、該方法は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得すること、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定すること、及び
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることを含む。
本発明の実施例により示された第1態様によれば、ピクチャーのシーンの判定方法を提供しており、該方法は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得すること、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定すること、及び
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることを含む。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることにより、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
更に、前記ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する前に、
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得すること、及び
前記各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得ることをさらに含む。
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得すること、及び
前記各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得ることをさらに含む。
本発明の実施例により示された技術的解決手段は、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得し、前記各シーンに対応するトレーニングピクチャーを前記初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得ることにより、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させるという有益な効果を有し得る。
更に、前記方法は、
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得すること、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得ること、及び
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定することを更に含む。
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得すること、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得ること、及び
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定することを更に含む。
更に、前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定した後に、
前記分類正確率が所定閾値より小さい場合に、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定することを更に含む。
前記分類正確率が所定閾値より小さい場合に、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定することを更に含む。
更に、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定し、
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する。
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する。
本発明の実施例により示された技術的解決手段は、各シーンに対応するテストピクチャーを含むテストサンプルセットを取得し、前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、前記ピクチャーシーン識別モデルに対応する分類正確率を取得し、前記分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、更新後のトレーニングサンプルセットを用いて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定し、最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定することにより、ピクチャーシーン識別モデルの分類正確率を向上させ、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる、という有益な効果を有し得る。
更に、前記ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する前に、
所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得ることをさらに含み、
それに対応して、前記のピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定することは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得ることを含む。
所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得ることをさらに含み、
それに対応して、前記のピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定することは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得ることを含む。
本発明の実施例により示された技術的解決手段は、所定サイズに応じて処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得て、ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得る。処理しようとするピクチャーサイズへの規格化処理が、ピクチャーシーン識別モデルの処理しようとするピクチャーへの識別速度を向上させて、処理しようとするピクチャー識別の効率を向上させるという有益な効果を有し得る。
更に、前記方法は、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得ること、及び
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークすることを更に含む。
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークすることを更に含む。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークすることにより、ユーザが各分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
更に、前記方法は、各分類アルバムに対して、前記分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記分類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記分類アルバムに対応する少なくとも1つのサブ分類アルバムを得ること、及び
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークすることを含む。
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークすることを含む。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対して、前記分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記分類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記分類アルバムに対応する少なくとも1つのサブ分類アルバムを得て、各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークすることにより、ユーザが各分類アルバム又はサブ分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
本発明の実施例により示された第2態様によれば、ピクチャーのシーンの判定装置を提供しており、該装置は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する第1取得モジュールと、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する第1識別モジュールと、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークする第1マークモジュールと、を備える。
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する第1取得モジュールと、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する第1識別モジュールと、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークする第1マークモジュールと、を備える。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることにより、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
更に、前記装置は、
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する第2取得モジュールと、
前記各シーンに対応するトレーニングピクチャーを前記初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得る入力モジュールと、を更に備える。
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する第2取得モジュールと、
前記各シーンに対応するトレーニングピクチャーを前記初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得る入力モジュールと、を更に備える。
本発明の実施例により示された技術的解決手段は、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得し、前記の各シーンに対応するトレーニングピクチャーを前記初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得ることにより、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させるという有益な効果を有し得る。
更に、前記装置は、
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する第3取得モジュールと、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る第2識別モジュールと、
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定する第1決定モジュールと、を更に備える。
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する第3取得モジュールと、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る第2識別モジュールと、
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定する第1決定モジュールと、を更に備える。
更に、前記装置は、
前記分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する繰り返し処理モジュールを更に備える。
前記分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する繰り返し処理モジュールを更に備える。
更に、前記装置は、
各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する第2決定モジュールと、
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する第3決定モジュールと、を更に備える。
各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する第2決定モジュールと、
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する第3決定モジュールと、を更に備える。
本発明の実施例により示された技術的解決手段は、各シーンに対応するテストピクチャーを含むテストサンプルセットを取得し、前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、前記ピクチャーシーン識別モデルに対応する分類正確率を取得し、前記分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、更新後のトレーニングサンプルセットを用いて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定し、最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定することにより、ピクチャーシーン識別モデルの分類正確率を向上させ、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる、という有益な効果を有し得る。
更に、前記装置は、
所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得る処理モジュールを更に備え、
それに対応して、第1識別モジュールは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得る識別ユニットを備える。
所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得る処理モジュールを更に備え、
それに対応して、第1識別モジュールは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得る識別ユニットを備える。
本発明の実施例により示された技術的解決手段は、所定サイズに応じて処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得て、ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得る。処理しようとするピクチャーサイズへの規格化処理が、ピクチャーシーン識別モデルの処理しようとするピクチャーへの識別速度を向上させて、処理しようとするピクチャー識別の効率を向上させるという有益な効果を有し得る。
更に、前記装置は、
各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得る第1記憶モジュールと、
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークする第2マークモジュールと、を更に備える。
各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得る第1記憶モジュールと、
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークする第2マークモジュールと、を更に備える。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークすることにより、ユーザが各分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
更に、前記装置は、
各類アルバムに対して、前記類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記類アルバムに対応する少なくとも1つのサブ分類アルバムを得る第2記憶モジュールと、
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークする第3マークモジュールと、を更に備える。
各類アルバムに対して、前記類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記類アルバムに対応する少なくとも1つのサブ分類アルバムを得る第2記憶モジュールと、
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークする第3マークモジュールと、を更に備える。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対して、前記分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記分類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記分類アルバムに対応する少なくとも1つのサブ分類アルバムを得て、各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークすることにより、ユーザが各分類アルバム又はサブ分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
本発明の実施例の第3態様によれば、サーバを提供しており、
処理部と、
前記処理部により実行可能な指令を記憶するためのメモリーと、を備え、
そのうち、前記処理部は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークする。
処理部と、
前記処理部により実行可能な指令を記憶するためのメモリーと、を備え、
そのうち、前記処理部は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークする。
本発明の実施例により示された技術的解決手段は、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定し、前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることにより、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させるという有益な効果を有し得る。
以上の一般的な説明及び後述する詳細な説明は例示的で解釈的なものに過ぎず、本発明を限定するためのものではないことが理解可能である。
この図面は明細書に合併されて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するためである。
上記図面により、本発明の明確な実施例を示しており、後に詳述する。これらの図面及び文字による説明はいずれかの方法で本発明の思想の範囲を限定するものではなく、特定な実施例を参照しながら当業者に対して本発明の概念を説明するためのものである。
ここで例示的な実施例について詳しく説明し、その実例は図面に示す通りである。下記の説明が図面に関わる時、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に説明される実施形態は本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは特許請求の範囲に詳細に記載された本発明の一部の態様と一致する装置と方法の例に過ぎない。
図1は一例示的な実施例により示されたピクチャーのシーンの判定方法のフローチャートであり、当該ピクチャーのシーンの判定方法はピクチャーのシーンの判定装置により実行することができ,ピクチャーのシーンの判定装置は具体的に携帯電話端末、PAD等のインテリジェント端末に対応するサーバ又はサーバにインストールされるアプリケーションappであってもよい。ピクチャーのシーンの判定装置は携帯電話端末、PAD等のインテリジェント端末又はインテリジェント端末にインストールされるアプリケーションappであってもよい。本例示的な実施例により示されたピクチャーのシーンの判定方法は以下のいくつかのステップを含んでもよい。
ステップ101では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する。
本実施例では、サーバがユーザ端末のフォトギャラリーを取得する前に、ユーザ端末は手動又は自動モードでフォトギャラリーを更新し、又はクラウドサーバーにアップロードすることができる。
ステップ102では、ピクチャーのシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定する。
本実施例では、畳み込みニューラルネットワークを用いてピクチャーシーン識別モデルを構築する。畳み込みニューラルネットワークは人工ニューラルネットワークの1種であり、現在の音声分析及び画像識別分野の研究のホットスポットとなっている。その重み共有ネットワーク構造は、より生物の神経回路に類似させ、ネットワークモデルの複雑さを低減し、重みの数を減少させる。該利点は、ネットワークの入力が多次元画像である場合、より明らかになり、画像を直接にネットワークの入力とさせることができ、従来の識別アルゴリズムにおける複雑な特徴抽出及びデータの再構築の過程を避ける。
畳み込みニューラルネットワークのネットワーク構造は、図2に示すものである。畳み込みニューラルネットワークは1つの多層のニューラルネットワークであり、各層は複数の2次元平面からなり、各平面は複数の独立したニューロンからなる。本実施例では、畳み込みニューラルネットワークに基づいて取得したピクチャーシーン識別モデルがN層の構造を有すると仮定し、隣接する両層の隠れ層ノードの間の各接続された重み付け係数がトレーニングサンプルセットによりトレーニングして決定され、説明の便宜上、本発明の実施例で隠れ層ノードの間の接続された重み付け係数を特徴係数と称し、従って、ピクチャーシーン識別モデルはN層の特徴係数を有する。
本実施例では、ピクチャーシーン識別モデルの入力は処理しようとするピクチャーであり、出力は処理しようとするピクチャーのシーン分類結果であってもよい。処理しようとするピクチャーに対応するシーンは、パーティーシーン、風景のシーン、砂浜のシーン、他のシーン等を含んでもよい。処理しようとするピクチャーをピクチャーシーン識別モデルに入力してから、出力された処理しようとするピクチャーのシーン分類結果に応じて、処理しようとするピクチャーに対応するシーンが上記シーンのうちのどれであるかを確定することができる。
ステップ103では、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークする。
本実施例では、処理しようとするピクチャーはユーザ端末のフォトギャラリーにおけるピクチャーに限定されなくてもよく、他の方式で又は他の供給源から取得したピクチャーであってもよく、ここで処理しようとするピクチャーの取得方式は限定されず、必要に応じて設定することができる。
本実施例の実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを確定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークすることで、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させる。
図3は別の例示的な実施例により示されたピクチャーのシーンの判定方法のフローチャートである。図3に示すように、上記方法は、図1に示す例示的な実施例の上で、ステップ102の前に、以下のステップを含んでもよい。
ステップ104では、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する。
本実施例では、トレーニング効果を保証するために、トレーニングサンプルセットにおける各シーンに対応するトレーニングピクチャーの数量が第1所定数より大きくてもよい。例えば、パーティーシーンに対応するトレーニングピクチャーの数量は10万枚であってもよく、風景のシーンに対応するトレーニングピクチャーの数量は10万枚であってもよく、砂浜のシーンに対応するトレーニングピクチャーの数量は10万枚であってもよく、他のシーンに対応するトレーニングピクチャーの数量は20万枚、又はそれ以上であってもよい。
ステップ105では、各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得る。
本実施例では、サーバは、各トレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにより出力されたシーン分類結果と入力されたトレーニングピクチャーに対応するシーンを比較することにより、現在のピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を調整する必要があるか否かを確定することができる。ただし、このようなトレーニング方式は、前の1枚のトレーニングピクチャーを利用して、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を正方向調整した後、後の1枚のトレーニングピクチャーを利用して、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を逆方向調整する可能性があるため、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を頻繁に調整する必要があるようになってしまうという問題が存在する恐れがある。
このために、本実施例では、サーバは更に1ロットのトレーニングピクチャーを初期ピクチャーシーン識別モデルに順に入力し、初期ピクチャーシーン識別モデルから出力されたこの1ロットのトレーニングピクチャーのシーン分類結果に基づいて、現在のピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を調整する必要があるか否かを決定することもできる。次に、次のロットのトレーニングピクチャーを初期ピクチャーシーン識別モデルに順に入力する。
本例示的な実施例では、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得し、各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得ることにより、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる。
上記例示的な実施例のトレーニングによってピクチャーシーン識別モデルを得た後、ピクチャーシーン識別モデルの分類正確率が必ずしも所定閾値を満たさないので、ピクチャーシーン識別モデルの分類正確率に所定閾値を満たせるように、図4を参照し、サーバは、ステップ105の後、以下のステップを行ってもよい。
ステップ106では、各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する。
本実施例では、テスト効果を向上させるために、テストサンプルセットに含まれる各シーンに対応するテストピクチャーの数は第2所定数より大きくてもよい。例えば、パーティーシーンに対応するテストピクチャーの数は1万枚であってもよく、風景のシーンに対応するテストピクチャーの数は1万枚であってもよく、砂浜のシーンに対応するテストピクチャーの数は1万枚であってもよく、他のシーンに対応するテストピクチャーの数は2万枚、又はそれ以上であってもよい。
ステップ107では、ピクチャーシーン識別モデルを用いて、テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る。
ステップ108では、各テストピクチャーに対応するシーン分類結果に基づいて、ピクチャーシーン識別モデルに対応する分類正確率を決定する。
本実施例では、テストピクチャーに対応するシーン分類結果が該テストピクチャーに対応するシーンと同じである場合に、分類が正確であり、テストピクチャーに対応するシーン分類結果が該テストピクチャーに対応するシーンと異なる場合に、誤分類であり、シーン分類が正確であるテストピクチャーの数とテストピクチャーの合計数との比をピクチャーシーン識別モデルの分類正確率として決定する。
ステップ109では、分類正確率が所定閾値より小さい場合に、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する。
トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する。
ステップ110では、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する。
ステップ111では、最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する。
本例示的な実施例では、各シーンに対応するテストピクチャーを含むテストサンプルセットを取得し、ピクチャーシーン識別モデルを用いて、テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、ピクチャーシーン識別モデルに対応する分類正確率を取得し、分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、更新後のトレーニングサンプルセットを用いて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定し、最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定することで、ピクチャーシーン識別モデルの分類正確率を向上させ、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる。
図5は別の例示的な実施例により示されたピクチャーのシーンの判定方法のフローチャートである。図5に示すように、図3に示す例示的な実施例の上で、入力されたピクチャーに対するピクチャーシーン識別モデルの処理速度を向上させるために、処理しようとするピクチャーのサイズを所定サイズに設定することができる。従って、上記方法は、ステップ102の前に、以下のステップを含んでもよい。
ステップ112では、所定サイズに応じて処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得る。
本実施例では、例えば、サーバは必要に応じて所定サイズを設定することができる。例えば、224ピクセル×224ピクセル等であってもよい。
なお、それに対応して、ステップ105の前及びステップ107の前に、各シーンに対応するトレーニングピクチャーとテストピクチャーを上記処理方式で同様に処理することができる。
それに対応して、ステップ102は、ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、処理しようとするピクチャーに対応するシーンを得るというステップ1021を含んでもよい。
本例示的な実施例では、所定サイズに応じて処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得て、ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、処理しようとするピクチャーに対応するシーンを得る。処理しようとするピクチャーのサイズへの規格化処理は、ピクチャーシーン識別モデルの処理しようとするピクチャーへの識別速度を向上させて、処理しようとするピクチャー識別の効率を向上させる。
図6は別の例示的な実施例により示されたピクチャーのシーンの判定方法のフローチャートであり、図6に示すように、図1に示す例示的な実施例の上で、上記方法は、以下のステップを含んでもよい。
ステップ113では、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの類のアルバムを得る。
ステップ114では、各類のアルバムに対応するシーンを用いて、分類アルバムをマークする。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの類のアルバムを得て、各分類アルバムに対応するシーンを用いて、分類アルバムをマークすることにより、ユーザが各分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させる。
図7は別の例示的な実施例により示されたピクチャーのシーンの判定方法のフローチャートである。図7に示すように、図6に示す例示的な実施例の上で、上記方法は、以下ステップを含んでもよい。
ステップ115では、各分類アルバムに対して、分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、分類アルバムにおける各処理しようとするピクチャーを分類記憶し、分類アルバムに対応する少なくとも1つのサブ分類アルバムを得る。
ステップ116では、各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、サブ分類アルバムをマークする。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対して、分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、分類アルバムにおける各処理しようとするピクチャーを分類記憶し、分類アルバムに対応する少なくとも1つのサブ分類アルバムを得て、各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、サブ分類アルバムをマークすることにより、ユーザが各分類アルバム又はサブ分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させる。
以下は本発明の装置の実施例であり、本発明の方法の実施例の実施において使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。
図8は別の例示的な実施例により示されたピクチャーのシーンの判定装置のブロック図である、当該ピクチャーのシーンの判定装置はソフトウェア、ハードウェア又は両者の組み合わせによって上記方法を実現することができる。当該ピクチャーのシーンの判定装置は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する第1取得モジュール81と、
ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定する第1識別モジュール82と、
処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークする第1マークモジュール83と、を備えてもよい。
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する第1取得モジュール81と、
ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定する第1識別モジュール82と、
処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークする第1マークモジュール83と、を備えてもよい。
本実施例では、畳み込みニューラルネットワークを用いて、ピクチャーシーン識別モデルを構築する。畳み込みニューラルネットワークは人工ニューラルネットワークの1種であり、現在の音声分析及び画像識別分野の研究のホットスポットとなっている。その重み共有ネットワーク構造は、より生物学的ニューラルネットワークに類似させ、ネットワークモデルの複雑さを低減し、重みの数を減少させる。該利点はネットワークの入力が多次元画像である場合、より明らかになり、画像を直接にネットワークの入力とすることができ、従来の識別アルゴリズムにおける複雑な特徴抽出及びデータ再構築の過程を避ける。
畳み込みニューラルネットワークのネットワーク構造は図2に示すものである。畳み込みニューラルネットワークは1つの多層のニューラルネットワークであり、各層は複数の2次元平面からなり、各平面は複数の独立したニューロンからなる。本実施例では、畳み込みニューラルネットワークに基づいて取得したピクチャーシーン識別モデルがN層の構造を有すると仮定し、隣接する両層の隠れ層ノードの間の各接続の重み付け係数がトレーニングサンプルセットによりトレーニングして決定され、説明の便宜上、本発明の実施例で隠れ層ノードの間の接続の重み付け係数を特徴係数と称し、従って、ピクチャーシーン識別モデルはN層の特徴係数を有する。
本実施例では、ピクチャーシーン識別モデルの入力は処理しようとするピクチャーであり、出力は処理しようとするピクチャーのシーン分類結果であってもよい。処理しようとするピクチャーに対応するシーンは、パーティーシーン、風景のシーン、砂浜のシーン、他のシーン等を含んでもよい。処理しようとするピクチャーをピクチャーシーン識別モデルに入力してから、出力された処理しようとするピクチャーのシーン分類結果に応じて、処理しようとするピクチャーに対応するシーンが上記シーンのうちのどれであるかを決定することができる。
本実施例では、処理しようとするピクチャーはユーザ端末のフォトギャラリーにおけるピクチャーに限定されなくてもよく、他の方式で又は他の供給源から取得したピクチャーであってもよく、ここで処理しようとするピクチャーの取得方式は限定されず、必要に応じて設定することができる。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークすることで、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させる。
図9を参照し、図8に示す例示的な実施例の上で、上記装置は、
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する第2取得モジュール84と、
各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得る入力モジュール85と、を更に備える。
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する第2取得モジュール84と、
各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得る入力モジュール85と、を更に備える。
本実施例では、トレーニング効果を保証するために、トレーニングサンプルセットにおける各シーンに対応するトレーニングピクチャーの数が第1所定数より大きくてもよい。例えば、パーティーシーンに対応するトレーニングピクチャーの数は10万枚であってもよく、風景のシーンに対応するトレーニングピクチャーの数量は10万枚であってもよく、砂浜のシーンに対応するトレーニングピクチャーは10万枚であってもよく、他のシーンに対応するトレーニングピクチャーの数は20万枚、又はそれ以上であってもよい。
本実施例では、サーバは、各トレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルから出力されたシーン分類結果と入力されたトレーニングピクチャーに対応するシーンを比較することにより、現在のピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を調整する必要があるか否かを決定することができる。ただし、このようなトレーニング方式は、前の1枚のトレーニングピクチャーを利用して、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を正方向調整した後、後の1枚のトレーニングピクチャーを利用して、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を逆方向調整する可能性があるため、ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を頻繁に調整する必要があるようになってしまうという問題が存在する恐れがある。
このために、本実施例では、サーバは更に1ロットのトレーニングピクチャーを初期ピクチャーシーン識別モデルに順に入力し、初期ピクチャーシーン識別モデルから出力されたこの1ロットのトレーニングピクチャーのシーン分類結果に基づいて、現在のピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数を調整する必要があるか否かを決定することもできる。次に、次のロットのトレーニングピクチャーを初期ピクチャーシーン識別モデルに順に入力する。
本例示的な実施例では、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得し、各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得ることで、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる。
本例示的な実施例では、各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得し、各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、ピクチャーシーン識別モデルを得ることにより、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる。
図10を参照し、図9に示す例示的な実施例の上で、上記装置は、
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する第3取得モジュール86と、
ピクチャーシーン識別モデルを用いて、テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る第2識別モジュール87と、
各テストピクチャーに対応するシーン分類結果に基づいて、ピクチャーシーン識別モデルに対応する分類正確率を決定する第1決定モジュール88と、
分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する繰り返し処理モジュール89と、
各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する第2決定モジュール90と、
最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する第3決定モジュール91と、を更に備える。
各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する第3取得モジュール86と、
ピクチャーシーン識別モデルを用いて、テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る第2識別モジュール87と、
各テストピクチャーに対応するシーン分類結果に基づいて、ピクチャーシーン識別モデルに対応する分類正確率を決定する第1決定モジュール88と、
分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する繰り返し処理モジュール89と、
各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する第2決定モジュール90と、
最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する第3決定モジュール91と、を更に備える。
本実施例では、テスト効果を向上させるために、テストサンプルセットに含まれる各シーンに対応するテストピクチャーの数は第2所定数より大きくてもよい。例えば、パーティーシーンに対応するテストピクチャーの数は1万枚であってもよく、風景のシーンに対応するテストピクチャーの数は1万枚であってもよく、砂浜のシーンに対応するテストピクチャーの数は1万枚であってもよく、他のシーンに対応するテストピクチャーの数は2万枚、又はそれ以上であってもよい。
本実施例では、テストピクチャーに対応するシーン分類結果が該テストピクチャーに対応するシーンと同じである場合に、分類が正確であり、テストピクチャーに対応するシーン分類結果が該テストピクチャーに対応するシーンと異なる場合に、誤分類であり、シーン分類が正確であるテストピクチャーの数とテストピクチャーの合計数の比をピクチャーシーン識別モデルの分類正確率として決定する。
本例示的な実施例では、各シーンに対応するテストピクチャーを含むテストサンプルセットを取得し、ピクチャーシーン識別モデルを用いて、テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、ピクチャーシーン識別モデルに対応する分類正確率を取得し、分類正確率が所定閾値より小さい場合、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、更新後のトレーニングサンプルセットを用いて、前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定し、最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定することにより、ピクチャーシーン識別モデルの分類正確率を向上させ、ピクチャーシーン識別モデルが処理しようとするピクチャーを正確に識別する可能性を向上させる。
図11を参照し、図8に示す例示的な実施例の上で、上記装置は、
所定サイズに応じて上記処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得る処理モジュール92を更に備え、
それに対応して、第1識別モジュール82は、
ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、処理しようとするピクチャーに対応するシーンを得る識別ユニット821を備える。
所定サイズに応じて上記処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得る処理モジュール92を更に備え、
それに対応して、第1識別モジュール82は、
ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、処理しようとするピクチャーに対応するシーンを得る識別ユニット821を備える。
本例では、各シーンに対応するトレーニングピクチャーとテストピクチャーを上記処理方式で同様に処理する。
本例示的な実施例では、所定サイズに応じて処理しようとするピクチャーを規格化処理し、処理しようとするピクチャーに対応する所定サイズのピクチャーを得て、ピクチャーシーン識別モデルを用いて、所定サイズのピクチャーを識別し、処理しようとするピクチャーに対応するシーンを得て、処理しようとするピクチャーサイズへの規格化処理が、ピクチャーシーン識別モデルの処理しようとするピクチャーへの識別速度を向上させることで、処理しようとするピクチャー識別の効率を向上させる。
図12を参照し、図8に示す例示的な実施例の上で、上記装置は、
各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得る第1記憶モジュール93と、
各分類アルバムに対応するシーンを用いて、分類アルバムをマークする第2マークモジュール94と、を更に備える。
各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得る第1記憶モジュール93と、
各分類アルバムに対応するシーンを用いて、分類アルバムをマークする第2マークモジュール94と、を更に備える。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対応するシーンを用いて、分類アルバムをマークすることで、ユーザが各分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させる。
図13を参照し、図12に示す例示的な実施例の上で、上記装置は、
各分類アルバムに対して、分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、各類アルバムにおける各処理しようとするピクチャーを分類記憶し、各類アルバムに対応する少なくとも1つのサブ分類アルバムを得る第2記憶モジュール95と、
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、サブ分類アルバムをマークする第3マークモジュール96と、を更に備える。
各分類アルバムに対して、分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、各類アルバムにおける各処理しようとするピクチャーを分類記憶し、各類アルバムに対応する少なくとも1つのサブ分類アルバムを得る第2記憶モジュール95と、
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、サブ分類アルバムをマークする第3マークモジュール96と、を更に備える。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークし、各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得て、各分類アルバムに対して、分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、分類アルバムにおける各処理しようとするピクチャーを分類記憶し、分類アルバムに対応する少なくとも1つのサブ分類アルバムを得て、各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、サブ分類アルバムをマークすることで、ユーザが各分類アルバム又はサブ分類アルバムを確認しやすくなり、フォトギャラリーに対するユーザの使用体験を向上させる。
上記実施例における装置について、そのうち、各モジュールの実行操作の具体的な方式は、該方法に関する実施例で詳細に説明したので、ここで詳細に説明しない。
図14は例示的な実施例により示されたサーバ140のブロック図である。図14を参照し、サーバ140、処理部142、メモリー144、電源部146、入力/出力(I/O)のインターフェース148、及び通信部1410のうちの1つ又は複数の部を備えてもよい。
処理部142は一般的にサーバ140の全体の操作を制御し、処理部142は具体的に少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークするように配置されてもよい。
処理部142は、上記方法の全部又は一部のステップを完成するように、指令を実行する1つ又は複数のプロセッサ1420を備えてもよい。また、処理部142は、処理部142と他の部との間のインターラクションを行うように、1つ又は複数のモジュールを備えてもよい。例えば、処理部142、通信部1410と処理部142との間のインターラクションを行うために、通信モジュールを備えてもよい。
メモリー144は、サーバの操作を支持するように、様々な種類のデータ及び処理部142の実行可能な指令を記憶するように配置される。これらのデータの示例は、アプリケーションに関連するプログラム、指令又は実行データ等を含む。メモリー144は、例えば、全ての種類の揮発性又は不揮発性メモリー又はそれらの組み合わせ、例えば、スタティックランダムアクセスメモリー(SRAM、static random access memory)、電気的消去可能なプログラム可能な読み取り専用メモリー(EEPROM、Electrically Erasable Programmable Read−Only Memory)、消去可能なプログラム可能な読み取り専用メモリー(EPROM、Erasable Programmable Read Only Memory)、プログラム可能な読み取り専用メモリー(PROM、Programmable Read Only Memory)、読み取り専用メモリー(ROM、Read Only Memory)、磁気メモリー、フラッシュメモリー、磁気ディスク又は光ディスクにより実現することができる。
電源部146はサーバ140の各種の部へ電力を提供する。電源部146は、電源管理システム、1つ又は複数の電源、及び他のサーバ140に関連する部を備えてもよい。
I/Oインターフェース148は、処理部142と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。通信部1410は、サーバ140と他の装置との間の有線又は無線方式の通信に利便性を与えるように配置される。サーバ140は通信規格に基づく無線ネットワーク、例えば、WiFi、2G又は3G、又はそれらの組み合わせにアクセスすることができる。1つの例示的な実施例では、通信部1410は、ブロードキャストチャネルを経由して外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャストの関連情報を受信する。1つの例示的な実施例では、通信部1410は、近距離通信を促進するために、近接場通信(NFC)モジュールを更に備える。例えば、NFCモジュールでは、ラジオ周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、ウルトラワイドバンド(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現することができる。
例示的な実施例では、装置140は、1つ又は複数特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラム可能論理装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品により実現され、上記ピクチャーのシーンの判定方法を実行するためである。
例示的な実施例では、指令を含む非一時的なコンピュータ可読記憶媒体を更に提供し、例えば指令を含むメモリー144を更に提供しており、上記方法を実現するように、上記指令はサーバ140のプロセッサ1420で実行されてもよい。例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリー(RAM)、CD−ROM、磁気テープ、フロッピーディスク及び光データ記憶装置等であってもよい。
非一時的なコンピュータ可読記憶媒体であって、記憶媒体における指令がサーバ140のプロセッサにより実行された場合、上記ピクチャーのシーンの判定方法をサーバ140に実行させる可能である。
本例示的な実施例では、少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、ピクチャーシーン識別モデルを用いて、処理しようとするピクチャーをそれぞれ識別し、処理しようとするピクチャーに対応するシーンを決定し、処理しようとするピクチャーに対応するシーンを用いて、処理しようとするピクチャーをマークすることにより、ユーザが確認する時、処理しようとするピクチャーに対応するシーンに応じてフォトギャラリーにおける処理しようとするピクチャーを分類してユーザに提供し、フォトギャラリーに対するユーザの使用体験を向上させる。
当業者であれば、明細書を考慮しここに開示された発明を実践した後、本公開のその他の実施態様を容易に想到できる。本発明は、本公開の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない当該技術分野における周知知識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は特許請求の範囲により与えられる。
ここで理解すべきことは、本発明は既に上記のように説明され、図面に示された精確な構成に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。
Claims (17)
- ピクチャーのシーンの判定方法であって、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得すること、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定すること、及び
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることを含むことを特徴とするピクチャーのシーンの判定方法。 - 前記ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する前に、
各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得すること、及び
前記各シーンに対応するトレーニングピクチャーを初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得ることを更に含むことを特徴とする請求項1に記載のピクチャーのシーンの判定方法。 - 各シーンに対応するテストピクチャーを含むテストサンプルセットを取得すること、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得ること、及び
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定することを更に含むことを特徴とする請求項2に記載のピクチャーのシーンの判定方法。 - 前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定した後に、
前記分類正確率が所定閾値より小さい場合に、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定することを更に含むことを特徴とする請求項3に記載のピクチャーのシーンの判定方法。 - 各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定すること、及び
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定することを更に含むことを特徴とする請求項4に記載のピクチャーのシーンの判定方法。 - 前記ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する前に、
所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得ることを更に含み、
それに対応して、前記のピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定することは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得ることを含むことを特徴とする請求項1に記載のピクチャーのシーンの判定方法。 - 各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得ること、及び
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークすることを更に含むことを特徴とする請求項1に記載のピクチャーのシーンの判定方法。 - 各分類アルバムに対して、前記分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記分類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記分類アルバムに対応する少なくとも1つのサブ分類アルバムを得ること、及び
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークすることを更に含むことを特徴とする請求項7に記載のピクチャーのシーンの判定方法。 - ピクチャーのシーンの判定装置であって、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得する第1取得モジュールと、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識別し、前記処理しようとするピクチャーに対応するシーンを決定する第1識別モジュールと、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークする第1マークモジュールと、を備えることを特徴とするピクチャーのシーンの判定装置。 - 各シーンに対応するトレーニングピクチャーを含むトレーニングサンプルセットを取得する第2取得モジュールと、
前記各シーンに対応するトレーニングピクチャーを前記初期ピクチャーシーン識別モデルにランダムに入力し、初期ピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、前記ピクチャーシーン識別モデルを得る入力モジュールと、を更に備えることを特徴とする請求項9に記載のピクチャーのシーンの判定装置。 - 各シーンに対応するテストピクチャーを含むテストサンプルセットを取得する第3取得モジュールと、
前記ピクチャーシーン識別モデルを用いて、前記テストサンプルセットにおける各シーンに対応するテストピクチャーをそれぞれ識別し、各テストピクチャーに対応するシーン分類結果を得る第2識別モジュールと、
前記各テストピクチャーに対応するシーン分類結果に基づいて、前記ピクチャーシーン識別モデルに対応する分類正確率を決定する第1決定モジュールと、を更に備えることを特徴とする請求項10に記載のピクチャーのシーンの判定装置。 - 前記分類正確率が所定閾値より小さい場合に、最大繰り返し回数に達する又は分類正確率が所定閾値より大きくなるまで、下記の処理を繰り返し実行し、即ち、
前記トレーニングサンプルセットを更新し、
更新後のトレーニングサンプルセットに基づいて、前記の前回の繰り返しに対応するピクチャーシーン識別モデルにおける各層の隠れ層ノードの間の特徴係数をトレーニングし、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルを繰り返し、
更新されたテストサンプルセットに基づいて、今回の繰り返しに対応する更新後のピクチャーシーン識別モデルに対して分類正確率のテストを行い、対応する分類正確率を決定する繰り返し処理モジュールを更に備えることを特徴とする請求項11に記載のピクチャーのシーンの判定装置。 - 各回の繰り返しに対応する分類正確率のうちの最大分類正確率を決定する第2決定モジュールと、
前記最大分類正確率に対応する更新後のピクチャーシーン識別モデルをターゲットピクチャーシーン識別モデルとして決定する第3決定モジュールと、を更に備えることを特徴とする請求項12に記載のピクチャーのシーンの判定装置。 - 所定サイズに応じて前記処理しようとするピクチャーを規格化処理し、前記処理しようとするピクチャーに対応する所定サイズのピクチャーを得る処理モジュールを更に備え、
それに対応して、第1識別モジュールは、
ピクチャーシーン識別モデルを用いて、前記所定サイズのピクチャーを識別し、前記処理しようとするピクチャーに対応するシーンを得る識別ユニットを備えることを特徴とする請求項9に記載のピクチャーのシーンの判定装置。 - 各処理しようとするピクチャーに対応するシーンに応じて、ユーザ端末のフォトギャラリーにおける各処理しようとするピクチャーを分類記憶し、少なくとも1つの分類アルバムを得る第1記憶モジュールと、
各分類アルバムに対応するシーンを用いて、前記分類アルバムをマークする第2マークモジュールと、を更に備えることを特徴とする請求項9に記載のピクチャーのシーンの判定装置。 - 各分類アルバムに対して、前記分類アルバムにおける各処理しようとするピクチャーに対応する時間及び/又は地理的位置に基づいて、前記分類アルバムにおける各処理しようとするピクチャーを分類記憶し、前記分類アルバムに対応する少なくとも1つのサブ分類アルバムを得る第2記憶モジュールと、
各サブ分類アルバムに対応する時間及び/又は地理的位置を用いて、前記サブ分類アルバムをマークする第3マークモジュールと、を更に備えることを特徴とする請求項15に記載のピクチャーのシーンの判定装置。 - サーバであって、
処理部と、
前記処理部により実行可能な指令を記憶するためのメモリーと、を備え、
前記処理部は、
少なくとも1枚の処理しようとするピクチャーを含むユーザ端末のフォトギャラリーを取得し、
ピクチャーシーン識別モデルを用いて、前記処理しようとするピクチャーをそれぞれ識 別し、前記処理しようとするピクチャーに対応するシーンを決定し、
前記処理しようとするピクチャーに対応するシーンを用いて、前記処理しようとするピクチャーをマークすることを特徴とするサーバ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510463271.5 | 2015-07-31 | ||
CN201510463271.5A CN105138963A (zh) | 2015-07-31 | 2015-07-31 | 图片场景判定方法、装置以及服务器 |
PCT/CN2015/099291 WO2017020514A1 (zh) | 2015-07-31 | 2015-12-28 | 图片场景判定方法、装置以及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017536635A true JP2017536635A (ja) | 2017-12-07 |
Family
ID=54724307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017531955A Pending JP2017536635A (ja) | 2015-07-31 | 2015-12-28 | ピクチャーのシーンの判定方法、装置及びサーバ |
Country Status (8)
Country | Link |
---|---|
US (1) | US20170032189A1 (ja) |
EP (1) | EP3125156A1 (ja) |
JP (1) | JP2017536635A (ja) |
KR (1) | KR101796401B1 (ja) |
CN (1) | CN105138963A (ja) |
MX (1) | MX2016003724A (ja) |
RU (1) | RU2631994C1 (ja) |
WO (1) | WO2017020514A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL236598A0 (en) * | 2015-01-05 | 2015-05-31 | Superfish Ltd | Image similarity as a function of image weighted image descriptors generated from neural networks |
CN105138963A (zh) * | 2015-07-31 | 2015-12-09 | 小米科技有限责任公司 | 图片场景判定方法、装置以及服务器 |
CN105678622A (zh) * | 2016-01-07 | 2016-06-15 | 平安科技(深圳)有限公司 | 车险理赔照片的分析方法及系统 |
CN107527091B (zh) * | 2016-10-14 | 2021-05-25 | 腾讯科技(北京)有限公司 | 数据处理方法和装置 |
US10970605B2 (en) * | 2017-01-03 | 2021-04-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of operating the same |
CN107609602A (zh) * | 2017-09-28 | 2018-01-19 | 吉林大学 | 一种基于卷积神经网络的驾驶场景分类方法 |
CN107864333B (zh) * | 2017-11-08 | 2020-04-21 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及存储介质 |
CN108229680B (zh) * | 2017-12-15 | 2021-11-23 | 北京市商汤科技开发有限公司 | 神经网络系统、遥感图像识别方法、装置、设备及介质 |
CN108009280B (zh) * | 2017-12-21 | 2021-01-01 | Oppo广东移动通信有限公司 | 图片处理方法、装置、终端及存储介质 |
CN108236784B (zh) * | 2018-01-22 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110276364B (zh) * | 2018-03-15 | 2023-08-08 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、数据分类方法、装置及电子设备 |
CN108615071B (zh) * | 2018-05-10 | 2020-11-24 | 创新先进技术有限公司 | 模型测试的方法及装置 |
CN109101547B (zh) * | 2018-07-05 | 2021-11-12 | 北京泛化智能科技有限公司 | 用于野生动物的管理方法及装置 |
CN109284687B (zh) * | 2018-08-24 | 2020-08-07 | 武汉大学 | 一种基于室内机会信号增强的场景识别方法及装置 |
CN109242984B (zh) * | 2018-08-27 | 2020-06-16 | 百度在线网络技术(北京)有限公司 | 虚拟三维场景构建方法、装置及设备 |
CN109452914A (zh) * | 2018-11-01 | 2019-03-12 | 北京石头世纪科技有限公司 | 智能清洁设备,清洁模式选择方法,计算机存储介质 |
CN111209904A (zh) * | 2018-11-21 | 2020-05-29 | 华为技术有限公司 | 一种业务处理的方法以及相关装置 |
CN110060122A (zh) * | 2019-03-16 | 2019-07-26 | 平安城市建设科技(深圳)有限公司 | 图片展示方法、装置、设备及计算机可读存储介质 |
CN110059707B (zh) * | 2019-04-25 | 2021-05-14 | 北京小米移动软件有限公司 | 图像特征点的优化方法、装置和设备 |
CN110399803B (zh) * | 2019-07-01 | 2022-04-22 | 北京邮电大学 | 一种车辆检测方法及装置 |
WO2021008026A1 (zh) * | 2019-07-18 | 2021-01-21 | 平安科技(深圳)有限公司 | 视频分类方法、装置、计算机设备和存储介质 |
US10943353B1 (en) | 2019-09-11 | 2021-03-09 | International Business Machines Corporation | Handling untrainable conditions in a network architecture search |
US11023783B2 (en) * | 2019-09-11 | 2021-06-01 | International Business Machines Corporation | Network architecture search with global optimization |
CN110929663B (zh) * | 2019-11-28 | 2023-12-29 | Oppo广东移动通信有限公司 | 一种场景预测方法及终端、存储介质 |
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN112580481A (zh) * | 2020-12-14 | 2021-03-30 | 康佳集团股份有限公司 | 基于边缘节点和云端协同视频处理方法、装置、服务器 |
CN113705362B (zh) * | 2021-08-03 | 2023-10-20 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法、装置、电子设备及存储介质 |
CN114677691B (zh) * | 2022-04-06 | 2023-10-03 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN116524302B (zh) * | 2023-05-05 | 2024-01-26 | 广州市智慧城市投资运营有限公司 | 一种场景识别模型的训练方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6482133A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Network learning system |
JP2000057349A (ja) * | 1998-08-10 | 2000-02-25 | Hitachi Ltd | 欠陥の分類方法およびその装置並びに教示用データ作成方法 |
JP2010534420A (ja) * | 2007-06-05 | 2010-11-04 | イーストマン コダック カンパニー | 意味分類装置を利用した自動的なストーリー生成 |
US20110218950A1 (en) * | 2008-06-02 | 2011-09-08 | New York University | Method, system, and computer-accessible medium for classification of at least one ictal state |
JP2011253528A (ja) * | 2010-06-01 | 2011-12-15 | Mitsubishi Electric Research Laboratories Inc | 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法 |
JP2012509522A (ja) * | 2008-11-19 | 2012-04-19 | イーストマン コダック カンパニー | 事象毎に意味論的に分類する方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3965983B2 (ja) * | 2001-11-30 | 2007-08-29 | 松下電工株式会社 | 画像処理方法およびその装置 |
US7295700B2 (en) * | 2003-10-24 | 2007-11-13 | Adobe Systems Incorporated | Object extraction based on color and visual texture |
US7715597B2 (en) * | 2004-12-29 | 2010-05-11 | Fotonation Ireland Limited | Method and component for image recognition |
JP2011049740A (ja) * | 2009-08-26 | 2011-03-10 | Sony Corp | 画像処理装置および方法 |
US8238671B1 (en) * | 2009-12-07 | 2012-08-07 | Google Inc. | Scene classification for place recognition |
US20130229262A1 (en) * | 2012-03-05 | 2013-09-05 | Symbol Technologies, Inc. | Radio frequency identification reader antenna arrangement with multiple linearly-polarized elements |
CN102663448B (zh) * | 2012-03-07 | 2016-08-10 | 北京理工大学 | 一种基于网络的增强现实物体识别分析方法 |
EP2973106A1 (en) * | 2013-03-15 | 2016-01-20 | The Cleveland Clinic Foundation | Self-evolving predictive model |
US20140280561A1 (en) * | 2013-03-15 | 2014-09-18 | Fujifilm North America Corporation | System and method of distributed event based digital image collection, organization and sharing |
CN103440318B (zh) * | 2013-08-29 | 2016-08-17 | 王靖洲 | 移动终端的景观识别系统 |
US10043112B2 (en) | 2014-03-07 | 2018-08-07 | Qualcomm Incorporated | Photo management |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
CN104751175B (zh) * | 2015-03-12 | 2018-12-14 | 西安电子科技大学 | 基于增量支持向量机的sar图像多类标场景分类方法 |
CN104809469A (zh) * | 2015-04-21 | 2015-07-29 | 重庆大学 | 一种面向服务机器人的室内场景图像分类方法 |
US10062010B2 (en) * | 2015-06-26 | 2018-08-28 | Intel Corporation | System for building a map and subsequent localization |
CN105138963A (zh) * | 2015-07-31 | 2015-12-09 | 小米科技有限责任公司 | 图片场景判定方法、装置以及服务器 |
-
2015
- 2015-07-31 CN CN201510463271.5A patent/CN105138963A/zh active Pending
- 2015-12-28 MX MX2016003724A patent/MX2016003724A/es unknown
- 2015-12-28 RU RU2016110590A patent/RU2631994C1/ru active
- 2015-12-28 KR KR1020167005266A patent/KR101796401B1/ko active IP Right Grant
- 2015-12-28 JP JP2017531955A patent/JP2017536635A/ja active Pending
- 2015-12-28 WO PCT/CN2015/099291 patent/WO2017020514A1/zh active Application Filing
-
2016
- 2016-07-11 US US15/207,278 patent/US20170032189A1/en not_active Abandoned
- 2016-07-25 EP EP16180960.3A patent/EP3125156A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6482133A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Network learning system |
JP2000057349A (ja) * | 1998-08-10 | 2000-02-25 | Hitachi Ltd | 欠陥の分類方法およびその装置並びに教示用データ作成方法 |
JP2010534420A (ja) * | 2007-06-05 | 2010-11-04 | イーストマン コダック カンパニー | 意味分類装置を利用した自動的なストーリー生成 |
US20110218950A1 (en) * | 2008-06-02 | 2011-09-08 | New York University | Method, system, and computer-accessible medium for classification of at least one ictal state |
JP2012509522A (ja) * | 2008-11-19 | 2012-04-19 | イーストマン コダック カンパニー | 事象毎に意味論的に分類する方法 |
JP2011253528A (ja) * | 2010-06-01 | 2011-12-15 | Mitsubishi Electric Research Laboratories Inc | 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
KR101796401B1 (ko) | 2017-11-10 |
CN105138963A (zh) | 2015-12-09 |
WO2017020514A1 (zh) | 2017-02-09 |
RU2631994C1 (ru) | 2017-09-29 |
US20170032189A1 (en) | 2017-02-02 |
MX2016003724A (es) | 2018-06-22 |
EP3125156A1 (en) | 2017-02-01 |
KR20170023761A (ko) | 2017-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017536635A (ja) | ピクチャーのシーンの判定方法、装置及びサーバ | |
JP6461349B2 (ja) | 秘密ピクチャー識別方法、装置及びサーバ | |
US20210216830A1 (en) | Content tagging | |
US11637797B2 (en) | Automated image processing and content curation | |
WO2020164270A1 (zh) | 基于深度学习的行人检测方法、系统、装置及存储介质 | |
CN110083730B (zh) | 使用语音标签管理图像的方法和装置 | |
CN106934376B (zh) | 一种图像识别方法、装置及移动终端 | |
US20220383053A1 (en) | Ephemeral content management | |
WO2019019255A1 (zh) | 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质 | |
CN110659581B (zh) | 一种图像处理方法、装置、设备和存储介质 | |
KR20170049380A (ko) | 태그처리방법 및 태그처리장치 | |
CN105874776A (zh) | 图像处理设备和方法 | |
CN111340131A (zh) | 图像的标注方法、装置、可读介质和电子设备 | |
KR20160103398A (ko) | 이미지의 품질 측정 방법 및 장치 | |
CN106796653A (zh) | 图像数据处理方法和支持该方法的电子装置 | |
KR20170137424A (ko) | 중개 방법, 장치 및 시스템 | |
CN108492301A (zh) | 一种场景分割方法、终端及存储介质 | |
CN105430394A (zh) | 视频数据压缩处理方法、装置和设备 | |
Zhu et al. | Automatic detection of books based on Faster R-CNN | |
CN106557770A (zh) | 通过比较贝塞尔曲线来标识图像中的形状 | |
CN107077594A (zh) | 标记移动设备上的视觉媒体 | |
CN111353063B (zh) | 图片显示方法、装置及存储介质 | |
WO2019051704A1 (zh) | 垃圾文件的识别方法和装置 | |
Li et al. | Context-aware mobile image annotation for media search and sharing | |
KR102060110B1 (ko) | 컨텐츠에 포함되는 객체를 분류하는 방법, 장치 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180619 |