JP7030078B2 - 端末装置に適用される情報生成方法および装置 - Google Patents

端末装置に適用される情報生成方法および装置 Download PDF

Info

Publication number
JP7030078B2
JP7030078B2 JP2019105064A JP2019105064A JP7030078B2 JP 7030078 B2 JP7030078 B2 JP 7030078B2 JP 2019105064 A JP2019105064 A JP 2019105064A JP 2019105064 A JP2019105064 A JP 2019105064A JP 7030078 B2 JP7030078 B2 JP 7030078B2
Authority
JP
Japan
Prior art keywords
information
image
user
user attribute
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019105064A
Other languages
English (en)
Other versions
JP2020013553A (ja
Inventor
リウ,カン
リウ,ジエン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2020013553A publication Critical patent/JP2020013553A/ja
Application granted granted Critical
Publication of JP7030078B2 publication Critical patent/JP7030078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施例は、コンピュータの技術分野に関し、具体的に端末装置に適用される情報生成方法および装置に関する。
現在、ビデオ情報を再生するための多数のオフライン電子スクリーンがある。例えば、エレベータ、地下鉄車内、バス車内、タクシー、POS(Point of Sale,販売時点情報管理)機、トレッドミル、チケット機に設置された電子スクリーンなどが挙げられる。更に例えば、大学のキャンパスや商業施設に設置されたLED(Light Emitting Diode,発光ダイオード)大画面などが挙げられる。
しかしながら、従来のオフライン電子スクリーン上で再生されているビデオ情報の大部分は、電子スクリーンの前にいるユーザ向けにリアルタイムにカスタマイズされるものではない。
本発明の実施例は、端末装置に適用される情報生成方法および装置を提出した。
第1態様では、本発明の実施例は、端末装置に適用される情報生成方法であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、取得されたビデオフレーム画像を処理対象画像として記憶するステップと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップと、を含む端末装置に適用される情報生成方法を提供する。
いくつかの実施例では、該方法は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信するステップを更に含む。
いくつかの実施例では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む。
いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む。
いくつかの実施例では、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む。
いくつかの実施例では、前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む。
いくつかの実施例では、得られたユーザ属性情報を第1端末装置に送信するステップは、パッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信することを含む。
いくつかの実施例では、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む。
第2態様では、本発明の実施例は、端末装置に適用される情報生成装置であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットと、を備える端末装置に適用される情報生成装置を提供する。
いくつかの実施例では、該装置は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信するように構成される送信ユニットを更に備える。
いくつかの実施例では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む。
いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える。
いくつかの実施例では、抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される。
いくつかの実施例では、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える。
いくつかの実施例では、送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信するように構成される。
いくつかの実施例では、取得ユニットは、更にターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される。
第3態様では、本発明の実施例は、端末装置であって、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶される記憶装置と、を備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施態様に記載の方法を実現させる、端末装置を提供する。
第4態様では、本発明の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、第1態様のいずれかの実施態様に記載の方法を実現する、コンピュータ可読記憶媒体を提供する。
本発明の実施例によって提供された端末装置に適用される情報生成方法および装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。
本発明の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
本発明の一実施例を適用可能な例示的なシステムアーキテクチャを示す図である。 本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャートである。 本発明に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。 本発明に係る端末装置に適用される情報生成方法のもう一つの実施例を示すフローチャートである。 本発明に係る端末装置に適用される情報生成装置の一実施例を示す構造概略図である。 本発明の実施例を達成するための端末装置に適用されるコンピュータシステムの構造概略図である。
以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことが理解される。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、本発明の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。
図1は、本発明に係る端末装置に適用される情報生成方法または端末装置に適用される情報生成装置の実施例が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、ネットワーク102、カメラ103、及び電子スクリーン104を含んでもよい。ネットワーク102は、端末装置101と、カメラ103との間で通信リンクの媒体を提供するために使用される。ネットワーク102は、有線(例えば、ユニバーサルシリアルバスインターフェースデータライン)接続またはローカルエリアネットワーク接続を含んでもよい。カメラ103の撮影範囲は、電子スクリーン104の前方領域をカバーしており、すなわちカメラ103は電子スクリーン104の前方にいる視聴者を撮影することができる。
ユーザは、メッセージを受信するために、端末装置101を使用してネットワーク102を介してカメラ103と情報のやり取りをすることができる。端末装置101には、顔認識アプリケーション、顔検出アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。
端末装置101は、ハードウェアでもソフトウェアでもよい。端末装置101がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101がソフトウェアである場合は、上記の電子機器に搭載されてもよい。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、情報生成サービスを提供するためのもの)として実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
電子スクリーン104は、ビデオ情報を再生することができる。電子スクリーン104によって再生されるビデオ情報は、電子スクリーンからローカルに取得されてもよいし、クラウドサーバから取得されてもよい。
なお、本発明の実施例によって提供される端末装置に適用される情報生成方法は、通常に端末装置101によって実行され、これに応じて、端末装置に適用される情報生成装置は、通常、端末装置101に配置される。
図1の端末装置、ネットワーク、カメラおよび電子スクリーンの数は単なる例示的なものであると理解される。実施の必要性に応じて、端末装置、ネットワーク、カメラおよび電子スクリーンの数を任意に加減してもよい。
次に、本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャート200を示す図2を参照する。当該端末装置に適用される情報生成方法は、次のステップを含む。
ステップ201:ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、図1に示す端末装置)は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得することができる。ここで、ターゲットカメラの撮影範囲は、ターゲットスクリーンの前方領域をカバーしている。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができる。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができるので、前記実行主体はターゲットカメラによって取得されたビデオフレーム画像を外部ネットワークの接続状態に依存せずにリアルタイムに取得することができ、外部ネットワークに接続する必要がないので、ビデオフレーム画像の取得プロセスは、外部によって攻撃されることなく安全に行うことができる。
前記実行主体とターゲットカメラとが有線で接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像を有線接続でリアルタイムに取得することができる。
前記実行主体とターゲットカメラとがローカルエリアネットワークを介して接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像をローカルエリアネットワーク接続でリアルタイムに取得することができる。
本実施例のいくつかの任意選択実施態様では、ステップ201はまた、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように実行されてもよい。従来のカメラの取得頻度が通常に高く、連続する数フレーム以内にカメラによって取得されたビデオフレームの画像がそれほど変化していないので、ユーザ属性情報を得るためにターゲットカメラによって取得された画像をフレーム毎に処理解析すれば、コンピューティングリソースの無駄に繋がり、従って、当該任意選択実施態様により、ビデオフレーム画像取得の頻度を減らし、更にビデオフレーム画像取得のリアルタイム性能を改善し、必要なコンピューティングリソースを減らすことができる。
ステップ202:取得されたビデオフレーム画像を処理対象画像として記憶する。
本実施例では、前記実行主体(例えば、図1に示す端末装置)は、ステップ201においてリアルタイムに取得されたビデオフレーム画像を処理対象画像として記憶することが可能である。ここで、ステップ201でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のメモリに記憶してもよいし、ステップ201でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のハードディスクに記憶してもよい。
ステップ203:処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。
本実施例では、端末装置に適用される情報生成方法の実行主体は、ステップ202で記憶された処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得することができる。なお、処理対象画像にユーザ画像が含まれていない場合には、得られるユーザ属性情報がゼロとなり、処理対象画像に少なくとも1つのユーザ画像が含まれている場合には、少なくとも1つのユーザ属性情報が得られる。
ここで、ユーザ属性情報は、ユーザ属性を記述するために用いられる。
本実施例のいくつかの任意選択実施態様では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含んでもよい。例えば、頭部姿勢情報は、頭部の左右回転角度、上下回転角度および前後回転角度を含んでもよい。眼部情報は、眼部の位置および眼部のサイズを含んでもよい。鼻部情報は、鼻の位置および鼻のサイズを含んでもよい。耳部情報は、耳部の位置および耳部のサイズを含んでもよい。口部情報は口部の位置および口部の大きさを含んでもよい。顔面表情情報は、喜び、悲しみ、怒り、驚きなどを含んでもよい。
なお、ここでは、ユーザ属性認識モデルは、画像とユーザ属性情報との対応関係を表現している。
本実施例のいくつかの任意選択実施態様では、ユーザ属性認識モデルは、以下の訓練ステップによって事前に取得されることが可能である。
第1ステップ:初期ユーザ属性認識モデルのモデル構造情報を確定する。
初期ユーザ属性認識モデルは、ユーザ属性を識別するための様々な種類のモデルを含むことができるので、ユーザ属性を識別するためのモデルの種類が異なると、確定する必要があるモデル構造情報も異なることが理解される。任意選択で、初期ユーザ属性認識モデルは畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワークが多層ニューラルネットワークであり、各層が複数の二次元平面からなり、各平面が複数の独立したニューロンからなるので、ここでは畳み込みニューラルネットワークの種類に対応する初期のユーザ属性認識モデルにはどの層(たとえば、畳み込み層、プーリング層、活性化関数層など)が含まれるか、層間の接続順序、および各層に含まれるパラメータ(例えば、ウェイト(weight)、バイアス(bias)、畳み込みステップサイズ)などを確定する必要がある。これらのうち、畳み込み層は画像特徴の抽出に使用可能である。各畳み込み層について、畳み込みカーネルの数、各畳み込みカーネルのサイズ、各畳み込みカーネル内の各ニューロンのウェイト、各畳み込みカーネルに対応するオフセット項、および2回の隣接する畳み込み間のステップサイズ、パディング必要性、パディングピクセル数、およびパディング値(通常はパディング値が0である)などを確定することが可能である。プーリング層を使用することにより、入力情報をダウンサンプリング(Down Sample)し、データとパラメータの量を圧縮し、過剰適合を低減することができる。プール層ごとに、該プール層のプール方法を確定することができる(例えば、領域平均値または領域最大値をとる)。活性化関数層は、入力情報に対して非線形計算を実行するために使用される。活性化関数層ごとに、特定の活性化関数を確定することができる。例えば、活性化関数は、ReLUおよびReLUの様々な変形活性化関数、シグモイド(Sigmoid)関数、Tanh(双曲線正接)関数、Maxout関数などであってもよい。実際には、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)は、フィードフォワードニューラルネットワークであり、その人工ニューロンは、カバレッジの一部における周囲の要素に応答可能であり、画像処理に対して優れた性能を発揮できるので、畳み込みニューラルネットワークを利用して画像特徴の抽出を実行することができ、画像特徴は画像の様々な基本要素(例えば、色、線、紋理など)であってもよい。
任意選択で、初期ユーザ属性認識モデルは、Adaboostアルゴリズム、変形可能パーツモデル(DPM,Deformable Part Model)、深層畳み込みニューラルネットワーク、再帰型ニューラルネットワーク(Recursive Neural Network)、リカレントニューラルネットワーク(Recurrent Neural Network, RNN)のうちの少なくとも1つを更に含んでもよい。それに応じて、異なるモデルに対応して、確定されるべきモデル構造情報も異なる。
第2ステップ:初期ユーザ属性認識モデルのモデルパラメータを初期化することができる。
実際には、初期ユーザ属性認識モデルの各モデルパラメータは、いくつかの異なる小さな乱数で初期化することができる。「小さな乱数」を使用することにより、モデルが過大な重みにより飽和状態になることで訓練が失敗してしまうことを防止でき、「異なる」乱数の使用により、モデルが正常に学習できることが確保される。
第3ステップ:訓練サンプル集合を取得することができる。
ここで、訓練サンプルは、サンプル画像と、該サンプル画像に対応する注釈情報とを含み、該サンプル画像に対応する注釈情報は、該サンプル画像に含まれる各ユーザ画像に対応するユーザのユーザ属性情報を含むことができる。
第4ステップ:訓練サンプル中のサンプル画像および注釈情報をそれぞれユーザ属性認識モデルの入力および望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。
ここで、訓練ステップの実行主体は、訓練サンプル集合内の訓練サンプルのサンプル画像を初期ユーザ属性認識モデルに入力し、該サンプル画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、該訓練サンプル中の注釈情報を初期ユーザ属性認識モデルの望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。具体的には、予め設定された損失関数を用いて、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出し、例えばL2ノルムを損失関数として使用し、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出してもよい。そして、算出された差分に基づいて、初期ユーザ属性認識モデルのパラメータを調整する、事前設定された訓練終了条件が満たされた場合に訓練を終了することができる。例えば、ここで、事前設定された訓練終了条件は、訓練時間が所定の期間を超えたこと、訓練回数が所定の回数を超えたこと、算出された差分が所定の差分閾値よりも小さいことのうちの少なくとも1つを含むことができる。
ここで、生成されたユーザ属性情報と該訓練サンプル内の注釈情報との間の差分に基づいて、初期ユーザ属性認識モデルのモデルパラメータを様々な実現方法で調整してもよい。例えば、BP(Back Propagation,誤差逆伝播)アルゴリズムまたはSGD(Stochastic Gradient Descent,確率的勾配降下)アルゴリズムを使用して、初期ユーザ属性認識モデルのモデルパラメータを調整することができる。
第5ステップ:訓練によって得られた初期ユーザ属性認識モデルを事前訓練されたユーザ属性認識モデルとして確定する。
ここで、訓練ステップの実行主体は、上述した実行主体と同一であってもよい。このように、前記実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルをローカルに格納することができる。
ここで、訓練ステップの実行主体は、上述した実行主体と異なっていてもよく、このようにすると、訓練ステップの実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルを前記実行主体に送信して、それによって、前記実行主体は、受信されたユーザ属性認識モデルをローカルに格納することができる。
次に、図3を参照し、図3は、本実施例に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。図3の応用シナリオでは、カメラ301が電子スクリーン302の前にいる視聴者303のビデオ情報を取り込み、端末装置304がカメラ301に有線で接続されている。端末装置304は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、取得されたビデオフレーム画像を処理対象画像305として記憶し、処理対象画像305を事前訓練されたユーザ属性認識モデル306に入力して、視聴者303それぞれのユーザ属性情報307を取得する。
本発明の上記実施例によって提供された方法は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。
更に、端末装置に適用される情報生成方法のもう一つの実施例のフロー400を示す図4を参照する。当該端末装置に適用される情報生成方法のフロー400は、次のステップを含む。
ステップ401:ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。
ステップ402:取得されたビデオフレーム画像を処理対象画像として記憶する。
ステップ403:処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。
本実施例では、ステップ401、ステップ402およびステップ403の具体的な操作は、図2に示す実施例のステップ201、ステップ202およびステップ203の操作と実質的に同じであり、ここではこれ以上くどくど述べない。
ステップ404:得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定する。
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、図1に示す端末装置)は、ステップ403で得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定することができる。
任意選択で、抽出されたユーザ画像を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。
任意選択で、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。
ステップ405:第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第1端末装置に送信する。
本実施例では、端末装置に適用される情報生成方法の実行主体(例えば、図1に示す端末装置)は、第1端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第1端末装置に送信することができる。ここで、第1端末装置は、前記実行主体とネットワークを介して接続されるとともに前記実行主体とは異なる電子機器であってもよい。
ここで、ユーザ属性情報取得要求は様々な形態の要求であってもよい。例えば、HTTP(Hypertext Transfer Protocol,ハイパーテキスト・トランスファー・プロトコル)要求、FTP(File Transfer Protocol,ファイル・トランスファー・プロトコル)要求、Socket(ソケット)要求などであってもよい。これに対応して、前記実行主体は他の電子機器に対して対応する形式のサービスを提供する場合がある。例えば、前記実行主体がHTTPサービスを提供する場合、ユーザ属性情報取得要求はHTTP要求であってもよい。前記実行主体がFTPサービスを提供する場合、ユーザ属性情報取得要求はFTP要求であってもよい。前記実行主体がSocketサービスを提供する場合、ユーザ属性情報取得要求はSocket要求であってもよい。
第1端末装置は、前記実行主体にユーザ属性情報取得要求を送信して、前記実行主体によって送信されたユーザ属性情報を取得することで、得られたユーザ属性情報を利用することができる。
一例として、第1端末装置は、受信した各ユーザ属性情報を表示することができる。例えば、第1端末装置は、受信した各ユーザ情報のうちのユーザ画像情報に基づいてユーザ画像を生成して表示し、表示されたユーザ画像の周囲において対応するユーザ属性情報のうちの他の属性情報、例えば性別、年齢などを提示してもよい。
別の例として、第1端末装置はまた、受信した各ユーザ属性情報を解析して、ターゲットスクリーンに再生するビデオを決定することができる。例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの視聴者のうちの男性の数が女性の数より多いか、または全てが男性である場合、車の広告、スポーツ番組、金融番組など、男性向けのビデオをターゲットスクリーンに再生するように決定する。ターゲットスクリーンの視聴者のうちの女性の数が男性の数より多いか、または全てが女性である場合、化粧品の広告、家政番組、感情番組など、女性向けのビデオをターゲットスクリーンに再生するように決定する。また、例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの80%を超える視聴者が22~30歳であることがわかる場合、求人広告、職場体験番組、不動産賃貸および販売広告など、22~30歳のユーザ向けの番組をターゲットスクリーンに再生するように決定する。
本実施例のいくつかの任意選択実施態様では、前記実行主体は、更にステップ405の前に、ステップ404の後に、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化することができる。従って、ステップ405では、前記実行主体は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、パッケージ化されたJsonデータフォーマットのユーザ属性情報を第1端末装置に送信することができる。
図4から分かるように、図2の対応する実施例に比して、本実施例の端末装置に適用される情報生成方法のフロー400には、第1端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第1端末装置に送信することが追加されている。従って、本実施例で説明した技術案は、ターゲットスクリーンにいる視聴者のユーザ属性情報を外部の電子機器に提供することができ、それによって他の電子機器にユーザ属性情報を提供するサービスを実現することができる。
更に図5を参照すると、上記の図に示された方法の実施態様として、本発明は、端末装置に適用される情報生成装置の一実施例を提供し、該装置の実施例は、図2に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施例の端末装置に適用される情報生成装置500は、取得ユニット501、記憶ユニット502および入力ユニット503を備える。ここで、取得ユニット501は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニット501であって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される。記憶ユニット502は、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される。入力ユニット503は、前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成され、ここで、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するためのものである。
本実施例では、端末装置に適用される情報生成装置500の取得ユニット501、記憶ユニット502および入力ユニット503の具体的な処理及びそれらの技術的効果は、それぞれ図2の対応する実施例におけるステップ201、ステップ202及びステップ203の関連する説明を参照することができ、ここではこれ以上くどくど述べない。
本実施例のいくつかの任意選択実施態様では、前記装置500は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニット(図5では図示せず)を更に備えてもよい。
本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含んでもよい。
本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、更にユーザ画像情報を含み、前記装置500は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニット(図5では図示せず)を更に備えてもよい。
本実施例のいくつかの任意選択実施態様では、前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成されてもよい。
本実施例のいくつかの任意選択実施態様では、前記装置は、更に得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニット(図5では図示せず)を更に備えてもよい。
本実施例のいくつかの任意選択実施態様では、前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成されてもよい。
本実施例のいくつかの任意選択実施態様では、前記取得ユニット501は、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成されてもよい。
なお、本発明の実施例によって提供された端末装置に適用される情報生成装置における各ユニットの実現の詳細および技術的効果は、本発明の他の実施例の説明を参照することができ、ここではこれ以上くどくど述べない。
以下、本発明の実施例を実現するための端末装置に適用されるコンピュータシステム600の構造概略図を示す図6を参照する。図6に示す端末装置は、一例に過ぎず、本発明の実施例の機能および使用範囲を限定するものではない。
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM,Read Only Memory)602に記憶されているプログラムまたは記憶部608からランダムアクセスメモリ(RAM,Random Access Memory)603にロードされたプログラムによって様々な適当な動作および処理を実行することができる中央処理装置(CPU,Central Processing Unit)601を備える。RAM603には、システム600の動作に必要な様々なプログラムおよびデータが更に格納されている。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O,Input/Output)インターフェース605もバス604に接続されている。
キーボード、マウスなどを含む入力部606、陰極線管(CRT,Cathode Ray Tube)、液晶ディスプレイ(LCD,Liquid Crystal Display)など及びスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、並びにLAN(ローカルエリアネットワーク,Local Area Network)カード、モデムなどを含むネットワークインターフェースカードの通信部609を含む構成要素は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどが挙げられ、必要に応じてドライバ610に取り付けられ、それによって、リムーバブルメディア611から読み出されたコンピュータプログラムが所望により記憶部608にインストールされる。
特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部609を介してネットワークからダウンロードされてインストールされることが可能であり、および/またはリムーバブルメディア611からインストールされることも可能である。該コンピュータプログラムが中央処理装置(CPU)601によって実行されると、本発明の方法で限定された上記の機能を実行する。注意すべきなのは、本発明に記載したコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本発明において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本発明において、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリアの一部として伝送される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝送されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、無線、有線、光ケーブル、RFなど、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
本発明の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータ上で実行され、部分的にユーザのコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で実行され、または完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。リモートコンピュータに関わる場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダによりインターネットで接続される)。
図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメントもしくはコードの一部を表してもよく、該モジュール、プログラムセグメントもしくはコードの一部は、規定されたロジック機能を達成するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、ブロック内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された2つのブロックは、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、並びに、ブロック図および/またはフローチャートにおけるブロックの組み合わせは、規定された機能もしくは動作を実行する、ハードウェアに基づく専用システムで実現されてもよく、または、専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「プロセッサは、取得ユニットと、記憶ユニットと、入力ユニットとを備える」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、取得ユニットは、「ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するユニット」として記載されてもよい。
一方、本発明は、コンピュータ可読媒体を更に提供し、該コンピュータ可読媒体は、前記実施例に記載された装置に含まれるものであってもよく、独立に存在して該装置に組み立てられていないものであってもよい。前記コンピュータ可読媒体は、1つまたは複数のプログラムが記憶されており、前記1つまたは複数のプログラムが該装置によって実行されると、該装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、取得されたビデオフレーム画像を処理対象画像として記憶し、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。
以上の記載は、本発明の好ましい実施例、および使用される技術的原理に関する説明に過ぎない。本発明に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせてなる他の技術案も含むべきであることを、当業者に理解されたい。例えば、上記の特徴と、本発明に開示された(これに限定されない)類似の機能を有する技術的特徴とを互いに置き換えてなる技術案が挙げられる。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
端末装置に適用される情報生成方法であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するステップと、
を含む端末装置に適用される情報生成方法。
請求項2:
前記方法は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するステップを更に含む、請求項1に記載の方法。
請求項3:
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項2に記載の方法。
請求項4:
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項3に記載の方法。
請求項5:
前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項4に記載の方法。
請求項6:
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項5に記載の方法。
請求項7:
前記得られたユーザ属性情報を前記第1端末装置に送信するステップは、
パッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信することを含む請求項6に記載の方法。
請求項8:
前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項1~7のいずれか1項に記載の方法。
請求項9:
端末装置に適用される情報生成装置であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する入力ユニットと、を備える端末装置に適用される情報生成装置。
請求項10:
前記装置は、第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニットを更に備える、請求項9に記載の装置。
請求項11:
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項10に記載の装置。
請求項12:
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項11に記載の装置。
請求項13:
前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項12に記載の装置。
請求項14:
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項13に記載の装置。
請求項15:
前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成される請求項14に記載の装置。
請求項16:
前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項9~15のいずれか1項に記載の装置。
請求項17:
端末装置であって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶される記憶装置と、を備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~8のいずれか1項に記載の方法を実現させる、端末装置。
請求項18:
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法を実現する、コンピュータ可読媒体。

Claims (17)

  1. 端末装置に適用される情報生成方法であって、
    ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
    取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
    前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれるステップと、
    第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するステップと
    を含み、
    前記第1端末装置は、
    前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析するステップと、
    前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定するステップと
    実行するように配置される、端末装置に適用される情報生成方法。
  2. 前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項に記載の方法。
  3. 前記ユーザ属性情報は、更にユーザ画像情報を含み、
    前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項に記載の方法。
  4. 前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
    抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項に記載の方法。
  5. 前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項に記載の方法。
  6. 前記得られたユーザ属性情報を前記第1端末装置に送信するステップは、
    パッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信することを含む請求項に記載の方法。
  7. 前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
    前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項1~のいずれか1項に記載の方法。
  8. 端末装置に適用される情報生成装置であって、
    ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
    取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
    前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれる入力ユニットと、
    第1端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第1端末装置に送信するように構成される送信ユニットと
    を備え、
    前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析するステップと、
    前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定するステップと
    実行するように配置される、端末装置に適用される情報生成装置。
  9. 前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも1つと、を含む請求項に記載の装置。
  10. 前記ユーザ属性情報は、更にユーザ画像情報を含み、
    前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項に記載の装置。
  11. 前記抽出ユニットは、更に抽出されたユーザ画像をBase64で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項10に記載の装置。
  12. 前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をJsonデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項11に記載の装置。
  13. 前記送信ユニットは、更にパッケージ化されたJsonデータフォーマットのユーザ属性情報を前記第1端末装置に送信するように構成される請求項12に記載の装置。
  14. 前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項8~13のいずれか1項に記載の装置。
  15. 端末装置であって、
    1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶される記憶装置と、を備え、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~のいずれか1項に記載の方法を実現させる、端末装置。
  16. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1~のいずれか1項に記載の方法を実現する、コンピュータ可読媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1~のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2019105064A 2018-07-16 2019-06-05 端末装置に適用される情報生成方法および装置 Active JP7030078B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810778514.8A CN108985228A (zh) 2018-07-16 2018-07-16 应用于终端设备的信息生成方法和装置
CN201810778514.8 2018-07-16

Publications (2)

Publication Number Publication Date
JP2020013553A JP2020013553A (ja) 2020-01-23
JP7030078B2 true JP7030078B2 (ja) 2022-03-04

Family

ID=64548705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019105064A Active JP7030078B2 (ja) 2018-07-16 2019-06-05 端末装置に適用される情報生成方法および装置

Country Status (3)

Country Link
US (1) US11087140B2 (ja)
JP (1) JP7030078B2 (ja)
CN (1) CN108985228A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832662B (zh) * 2017-09-27 2022-05-27 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN109640157B (zh) * 2018-12-28 2021-07-27 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN111309423B (zh) * 2020-02-13 2023-11-21 北京百度网讯科技有限公司 终端界面图像的配置方法、装置、设备及介质
CN113379820A (zh) * 2020-03-09 2021-09-10 北京京东振世信息技术有限公司 信息处理方法及装置
CN113691729B (zh) * 2021-08-27 2023-08-22 维沃移动通信有限公司 图像处理方法及装置
KR102563455B1 (ko) * 2023-03-16 2023-08-08 주식회사 그레이즈 복수 시설의 출입 관제 방법 및 이를 위한 컴퓨터 판독 가능한 기록매체

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227158A (ja) 2003-01-21 2004-08-12 Omron Corp 情報提供装置および情報提供方法
JP2007181070A (ja) 2005-12-28 2007-07-12 Shunkosha:Kk コンテンツ注目評価装置及びコンテンツ注目評価方法
JP2012058476A (ja) 2010-09-08 2012-03-22 Sharp Corp コンテンツ出力システム、出力制御装置、出力制御方法、及びコンピュータプログラム
US20130290108A1 (en) 2012-04-26 2013-10-31 Leonardo Alves Machado Selection of targeted content based on relationships
JP2015002477A (ja) 2013-06-17 2015-01-05 キヤノン株式会社 情報処理装置、情報処理システムおよび情報処理方法
JP2015064513A (ja) 2013-09-26 2015-04-09 カシオ計算機株式会社 表示装置、コンテンツ表示方法及びプログラム
JP2016042346A (ja) 2014-08-18 2016-03-31 富士ゼロックス株式会社 人のソーシャルタイプを決定する方法、システム及びプログラム
JP2017199148A (ja) 2016-04-26 2017-11-02 富士通株式会社 視線検出装置、視線検出方法及び視線検出用コンピュータプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237563B (zh) * 2007-01-31 2011-06-01 华为技术有限公司 节目受众信息获取方法和装置
JP4858400B2 (ja) * 2007-10-17 2012-01-18 ソニー株式会社 情報提供システム、情報提供装置、情報提供方法
US8756184B2 (en) * 2009-12-01 2014-06-17 Hulu, LLC Predicting users' attributes based on users' behaviors
JP5423740B2 (ja) * 2011-08-23 2014-02-19 日本電気株式会社 映像提供装置、映像利用装置、映像提供システム、映像提供方法、および、コンピュータ・プログラム
CN104112209A (zh) * 2013-04-16 2014-10-22 苏州和积信息科技有限公司 显示终端的受众统计方法和系统
US9280701B2 (en) * 2014-05-08 2016-03-08 Shutterfly, Inc. Grouping face images using statistic distribution estimate
US10257495B1 (en) * 2014-12-31 2019-04-09 Morphotrust Usa, Llc Three dimensional composite images of digital identifications
US10306311B1 (en) * 2016-03-24 2019-05-28 Massachusetts Mutual Life Insurance Company Intelligent and context aware reading systems
CN105894333A (zh) * 2016-04-27 2016-08-24 昆明理工大学 一种基于显示屏广告观看量的大数据采集、处理系统及方法
CN106126687A (zh) * 2016-06-29 2016-11-16 北京小米移动软件有限公司 界面主题的推荐方法、装置、终端及服务器
CN106658178B (zh) * 2017-01-03 2020-02-07 京东方科技集团股份有限公司 一种显示控制装置及其控制方法
US10474899B2 (en) * 2017-04-03 2019-11-12 Facebook, Inc. Social engagement based on image resemblance
CN113095124B (zh) * 2017-06-07 2024-02-06 创新先进技术有限公司 一种人脸活体检测方法、装置以及电子设备
CN107844781A (zh) * 2017-11-28 2018-03-27 腾讯科技(深圳)有限公司 人脸属性识别方法及装置、电子设备及存储介质
US10503970B1 (en) * 2017-12-11 2019-12-10 State Farm Mutual Automobile Insurance Company Method and system for identifying biometric characteristics using machine learning techniques
US10475106B1 (en) * 2019-01-16 2019-11-12 Capital One Services, Llc Generating a product recommendation based on a user reaction
JP7211266B2 (ja) * 2019-05-27 2023-01-24 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227158A (ja) 2003-01-21 2004-08-12 Omron Corp 情報提供装置および情報提供方法
JP2007181070A (ja) 2005-12-28 2007-07-12 Shunkosha:Kk コンテンツ注目評価装置及びコンテンツ注目評価方法
JP2012058476A (ja) 2010-09-08 2012-03-22 Sharp Corp コンテンツ出力システム、出力制御装置、出力制御方法、及びコンピュータプログラム
US20130290108A1 (en) 2012-04-26 2013-10-31 Leonardo Alves Machado Selection of targeted content based on relationships
JP2015002477A (ja) 2013-06-17 2015-01-05 キヤノン株式会社 情報処理装置、情報処理システムおよび情報処理方法
JP2015064513A (ja) 2013-09-26 2015-04-09 カシオ計算機株式会社 表示装置、コンテンツ表示方法及びプログラム
JP2016042346A (ja) 2014-08-18 2016-03-31 富士ゼロックス株式会社 人のソーシャルタイプを決定する方法、システム及びプログラム
JP2017199148A (ja) 2016-04-26 2017-11-02 富士通株式会社 視線検出装置、視線検出方法及び視線検出用コンピュータプログラム

Also Published As

Publication number Publication date
US20200019789A1 (en) 2020-01-16
CN108985228A (zh) 2018-12-11
JP2020013553A (ja) 2020-01-23
US11087140B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
JP7030078B2 (ja) 端末装置に適用される情報生成方法および装置
CN109145784B (zh) 用于处理视频的方法和装置
US10949655B2 (en) Emotion recognition in video conferencing
US10992839B2 (en) Electronic device and method for controlling the electronic device
US11343532B2 (en) System and method for vision-based joint action and pose motion forecasting
CN110166827B (zh) 视频片段的确定方法、装置、存储介质及电子装置
WO2018121777A1 (zh) 人脸检测方法、装置和电子设备
US10902262B2 (en) Vision intelligence management for electronic devices
CN108830235B (zh) 用于生成信息的方法和装置
WO2020000879A1 (zh) 图像识别方法和装置
WO2018033156A1 (zh) 视频图像的处理方法、装置和电子设备
CN111476871B (zh) 用于生成视频的方法和装置
WO2018033154A1 (zh) 手势控制方法、装置和电子设备
CN109740018B (zh) 用于生成视频标签模型的方法和装置
JP6807389B2 (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
JP2019527395A (ja) コンテンツを効果的に配信するための動的クリエイティブの最適化
CN110288705B (zh) 生成三维模型的方法和装置
US10939143B2 (en) System and method for dynamically creating and inserting immersive promotional content in a multimedia
KR102377992B1 (ko) Ai 기반 템플릿 조합을 통한 사용자 맞춤형 광고 컨텐츠 제공 플랫폼을 제공하는 방법, 이를 위한 프로그램 및 시스템
CN112527115A (zh) 用户形象生成方法、相关装置及计算机程序产品
US11436826B2 (en) Augmented reality experience for shopping
CN111797273A (zh) 用于调整参数的方法和装置
US11631119B2 (en) Electronic product recognition
CN113283376B (zh) 人脸活体检测方法、人脸活体检测装置、介质及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R150 Certificate of patent or registration of utility model

Ref document number: 7030078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150