JP7030078B2

JP7030078B2 - 端末装置に適用される情報生成方法および装置

Info

Publication number: JP7030078B2
Application number: JP2019105064A
Authority: JP
Inventors: リウ，カン; リウ，ジエン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2018-07-16
Filing date: 2019-06-05
Publication date: 2022-03-04
Anticipated expiration: 2039-06-05
Also published as: US20200019789A1; CN108985228A; JP2020013553A; US11087140B2

Description

本発明の実施例は、コンピュータの技術分野に関し、具体的に端末装置に適用される情報生成方法および装置に関する。

現在、ビデオ情報を再生するための多数のオフライン電子スクリーンがある。例えば、エレベータ、地下鉄車内、バス車内、タクシー、ＰＯＳ（ＰｏｉｎｔｏｆＳａｌｅ，販売時点情報管理）機、トレッドミル、チケット機に設置された電子スクリーンなどが挙げられる。更に例えば、大学のキャンパスや商業施設に設置されたＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ，発光ダイオード）大画面などが挙げられる。

しかしながら、従来のオフライン電子スクリーン上で再生されているビデオ情報の大部分は、電子スクリーンの前にいるユーザ向けにリアルタイムにカスタマイズされるものではない。

本発明の実施例は、端末装置に適用される情報生成方法および装置を提出した。

第１態様では、本発明の実施例は、端末装置に適用される情報生成方法であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、取得されたビデオフレーム画像を処理対象画像として記憶するステップと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップと、を含む端末装置に適用される情報生成方法を提供する。

いくつかの実施例では、該方法は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第１端末装置に送信するステップを更に含む。

いくつかの実施例では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含む。

いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む。

いくつかの実施例では、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む。

いくつかの実施例では、前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む。

いくつかの実施例では、得られたユーザ属性情報を第１端末装置に送信するステップは、パッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を第１端末装置に送信することを含む。

いくつかの実施例では、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む。

第２態様では、本発明の実施例は、端末装置に適用される情報生成装置であって、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、画像とユーザ属性情報との間の対応関係を表現するための事前訓練されたユーザ属性認識モデルに、処理対象画像を入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットと、を備える端末装置に適用される情報生成装置を提供する。

いくつかの実施例では、該装置は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第１端末装置に送信するように構成される送信ユニットを更に備える。

いくつかの実施例では、ユーザ属性情報は、更にユーザ画像情報を含み、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える。

いくつかの実施例では、抽出ユニットは、更に抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される。

いくつかの実施例では、該装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える。

いくつかの実施例では、送信ユニットは、更にパッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を第１端末装置に送信するように構成される。

いくつかの実施例では、取得ユニットは、更にターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される。

第３態様では、本発明の実施例は、端末装置であって、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶される記憶装置と、を備え、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第１態様のいずれかの実施態様に記載の方法を実現させる、端末装置を提供する。

第４態様では、本発明の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該コンピュータプログラムが１つまたは複数のプロセッサによって実行されると、第１態様のいずれかの実施態様に記載の方法を実現する、コンピュータ可読記憶媒体を提供する。

本発明の実施例によって提供された端末装置に適用される情報生成方法および装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。

本発明の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。

本発明の一実施例を適用可能な例示的なシステムアーキテクチャを示す図である。本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャートである。本発明に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。本発明に係る端末装置に適用される情報生成方法のもう一つの実施例を示すフローチャートである。本発明に係る端末装置に適用される情報生成装置の一実施例を示す構造概略図である。本発明の実施例を達成するための端末装置に適用されるコンピュータシステムの構造概略図である。

以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことが理解される。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、本発明の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。

図１は、本発明に係る端末装置に適用される情報生成方法または端末装置に適用される情報生成装置の実施例が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、ネットワーク１０２、カメラ１０３、及び電子スクリーン１０４を含んでもよい。ネットワーク１０２は、端末装置１０１と、カメラ１０３との間で通信リンクの媒体を提供するために使用される。ネットワーク１０２は、有線（例えば、ユニバーサルシリアルバスインターフェースデータライン）接続またはローカルエリアネットワーク接続を含んでもよい。カメラ１０３の撮影範囲は、電子スクリーン１０４の前方領域をカバーしており、すなわちカメラ１０３は電子スクリーン１０４の前方にいる視聴者を撮影することができる。

ユーザは、メッセージを受信するために、端末装置１０１を使用してネットワーク１０２を介してカメラ１０３と情報のやり取りをすることができる。端末装置１０１には、顔認識アプリケーション、顔検出アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。

端末装置１０１は、ハードウェアでもソフトウェアでもよい。端末装置１０１がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１がソフトウェアである場合は、上記の電子機器に搭載されてもよい。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、情報生成サービスを提供するためのもの）として実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。

電子スクリーン１０４は、ビデオ情報を再生することができる。電子スクリーン１０４によって再生されるビデオ情報は、電子スクリーンからローカルに取得されてもよいし、クラウドサーバから取得されてもよい。

なお、本発明の実施例によって提供される端末装置に適用される情報生成方法は、通常に端末装置１０１によって実行され、これに応じて、端末装置に適用される情報生成装置は、通常、端末装置１０１に配置される。

図１の端末装置、ネットワーク、カメラおよび電子スクリーンの数は単なる例示的なものであると理解される。実施の必要性に応じて、端末装置、ネットワーク、カメラおよび電子スクリーンの数を任意に加減してもよい。

次に、本発明に係る端末装置に適用される情報生成方法の一実施例のフローチャート２００を示す図２を参照する。当該端末装置に適用される情報生成方法は、次のステップを含む。

ステップ２０１：ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。

本実施例では、端末装置に適用される情報生成方法の実行主体（例えば、図１に示す端末装置）は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得することができる。ここで、ターゲットカメラの撮影範囲は、ターゲットスクリーンの前方領域をカバーしている。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができる。前記実行主体とターゲットカメラとは、有線またはローカルエリアネットワークで接続することができるので、前記実行主体はターゲットカメラによって取得されたビデオフレーム画像を外部ネットワークの接続状態に依存せずにリアルタイムに取得することができ、外部ネットワークに接続する必要がないので、ビデオフレーム画像の取得プロセスは、外部によって攻撃されることなく安全に行うことができる。

前記実行主体とターゲットカメラとが有線で接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像を有線接続でリアルタイムに取得することができる。

前記実行主体とターゲットカメラとがローカルエリアネットワークを介して接続されている場合、前記実行主体は、ターゲットカメラによって取得されたビデオフレーム画像をローカルエリアネットワーク接続でリアルタイムに取得することができる。

本実施例のいくつかの任意選択実施態様では、ステップ２０１はまた、ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように実行されてもよい。従来のカメラの取得頻度が通常に高く、連続する数フレーム以内にカメラによって取得されたビデオフレームの画像がそれほど変化していないので、ユーザ属性情報を得るためにターゲットカメラによって取得された画像をフレーム毎に処理解析すれば、コンピューティングリソースの無駄に繋がり、従って、当該任意選択実施態様により、ビデオフレーム画像取得の頻度を減らし、更にビデオフレーム画像取得のリアルタイム性能を改善し、必要なコンピューティングリソースを減らすことができる。

ステップ２０２：取得されたビデオフレーム画像を処理対象画像として記憶する。

本実施例では、前記実行主体（例えば、図１に示す端末装置）は、ステップ２０１においてリアルタイムに取得されたビデオフレーム画像を処理対象画像として記憶することが可能である。ここで、ステップ２０１でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のメモリに記憶してもよいし、ステップ２０１でリアルタイムに取得されたビデオフレーム画像を処理対象画像として前記実行主体のハードディスクに記憶してもよい。

ステップ２０３：処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。

本実施例では、端末装置に適用される情報生成方法の実行主体は、ステップ２０２で記憶された処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得することができる。なお、処理対象画像にユーザ画像が含まれていない場合には、得られるユーザ属性情報がゼロとなり、処理対象画像に少なくとも１つのユーザ画像が含まれている場合には、少なくとも１つのユーザ属性情報が得られる。

ここで、ユーザ属性情報は、ユーザ属性を記述するために用いられる。

本実施例のいくつかの任意選択実施態様では、ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含んでもよい。例えば、頭部姿勢情報は、頭部の左右回転角度、上下回転角度および前後回転角度を含んでもよい。眼部情報は、眼部の位置および眼部のサイズを含んでもよい。鼻部情報は、鼻の位置および鼻のサイズを含んでもよい。耳部情報は、耳部の位置および耳部のサイズを含んでもよい。口部情報は口部の位置および口部の大きさを含んでもよい。顔面表情情報は、喜び、悲しみ、怒り、驚きなどを含んでもよい。

なお、ここでは、ユーザ属性認識モデルは、画像とユーザ属性情報との対応関係を表現している。

本実施例のいくつかの任意選択実施態様では、ユーザ属性認識モデルは、以下の訓練ステップによって事前に取得されることが可能である。

第１ステップ：初期ユーザ属性認識モデルのモデル構造情報を確定する。

初期ユーザ属性認識モデルは、ユーザ属性を識別するための様々な種類のモデルを含むことができるので、ユーザ属性を識別するためのモデルの種類が異なると、確定する必要があるモデル構造情報も異なることが理解される。任意選択で、初期ユーザ属性認識モデルは畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワークが多層ニューラルネットワークであり、各層が複数の二次元平面からなり、各平面が複数の独立したニューロンからなるので、ここでは畳み込みニューラルネットワークの種類に対応する初期のユーザ属性認識モデルにはどの層（たとえば、畳み込み層、プーリング層、活性化関数層など）が含まれるか、層間の接続順序、および各層に含まれるパラメータ（例えば、ウェイト（ｗｅｉｇｈｔ）、バイアス（ｂｉａｓ）、畳み込みステップサイズ）などを確定する必要がある。これらのうち、畳み込み層は画像特徴の抽出に使用可能である。各畳み込み層について、畳み込みカーネルの数、各畳み込みカーネルのサイズ、各畳み込みカーネル内の各ニューロンのウェイト、各畳み込みカーネルに対応するオフセット項、および２回の隣接する畳み込み間のステップサイズ、パディング必要性、パディングピクセル数、およびパディング値（通常はパディング値が０である）などを確定することが可能である。プーリング層を使用することにより、入力情報をダウンサンプリング（ＤｏｗｎＳａｍｐｌｅ）し、データとパラメータの量を圧縮し、過剰適合を低減することができる。プール層ごとに、該プール層のプール方法を確定することができる（例えば、領域平均値または領域最大値をとる）。活性化関数層は、入力情報に対して非線形計算を実行するために使用される。活性化関数層ごとに、特定の活性化関数を確定することができる。例えば、活性化関数は、ＲｅＬＵおよびＲｅＬＵの様々な変形活性化関数、シグモイド（Ｓｉｇｍｏｉｄ）関数、Ｔａｎｈ（双曲線正接）関数、Ｍａｘｏｕｔ関数などであってもよい。実際には、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）は、フィードフォワードニューラルネットワークであり、その人工ニューロンは、カバレッジの一部における周囲の要素に応答可能であり、画像処理に対して優れた性能を発揮できるので、畳み込みニューラルネットワークを利用して画像特徴の抽出を実行することができ、画像特徴は画像の様々な基本要素（例えば、色、線、紋理など）であってもよい。

任意選択で、初期ユーザ属性認識モデルは、Ａｄａｂｏｏｓｔアルゴリズム、変形可能パーツモデル（ＤＰＭ，ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ）、深層畳み込みニューラルネットワーク、再帰型ニューラルネットワーク（ＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）のうちの少なくとも１つを更に含んでもよい。それに応じて、異なるモデルに対応して、確定されるべきモデル構造情報も異なる。

第２ステップ：初期ユーザ属性認識モデルのモデルパラメータを初期化することができる。

実際には、初期ユーザ属性認識モデルの各モデルパラメータは、いくつかの異なる小さな乱数で初期化することができる。「小さな乱数」を使用することにより、モデルが過大な重みにより飽和状態になることで訓練が失敗してしまうことを防止でき、「異なる」乱数の使用により、モデルが正常に学習できることが確保される。

第３ステップ：訓練サンプル集合を取得することができる。

ここで、訓練サンプルは、サンプル画像と、該サンプル画像に対応する注釈情報とを含み、該サンプル画像に対応する注釈情報は、該サンプル画像に含まれる各ユーザ画像に対応するユーザのユーザ属性情報を含むことができる。

第４ステップ：訓練サンプル中のサンプル画像および注釈情報をそれぞれユーザ属性認識モデルの入力および望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。

ここで、訓練ステップの実行主体は、訓練サンプル集合内の訓練サンプルのサンプル画像を初期ユーザ属性認識モデルに入力し、該サンプル画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、該訓練サンプル中の注釈情報を初期ユーザ属性認識モデルの望ましい出力とし、初期ユーザ属性認識モデルを機械学習法によって訓練することができる。具体的には、予め設定された損失関数を用いて、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出し、例えばＬ２ノルムを損失関数として使用し、得られたユーザ属性情報と該訓練サンプル中の注釈情報との間の差分を算出してもよい。そして、算出された差分に基づいて、初期ユーザ属性認識モデルのパラメータを調整する、事前設定された訓練終了条件が満たされた場合に訓練を終了することができる。例えば、ここで、事前設定された訓練終了条件は、訓練時間が所定の期間を超えたこと、訓練回数が所定の回数を超えたこと、算出された差分が所定の差分閾値よりも小さいことのうちの少なくとも１つを含むことができる。

ここで、生成されたユーザ属性情報と該訓練サンプル内の注釈情報との間の差分に基づいて、初期ユーザ属性認識モデルのモデルパラメータを様々な実現方法で調整してもよい。例えば、ＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ，誤差逆伝播）アルゴリズムまたはＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，確率的勾配降下）アルゴリズムを使用して、初期ユーザ属性認識モデルのモデルパラメータを調整することができる。

第５ステップ：訓練によって得られた初期ユーザ属性認識モデルを事前訓練されたユーザ属性認識モデルとして確定する。

ここで、訓練ステップの実行主体は、上述した実行主体と同一であってもよい。このように、前記実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルをローカルに格納することができる。

ここで、訓練ステップの実行主体は、上述した実行主体と異なっていてもよく、このようにすると、訓練ステップの実行主体は、訓練ステップを実行してユーザ属性認識モデルを取得した後、前記訓練によって取得されたユーザ属性認識モデルを前記実行主体に送信して、それによって、前記実行主体は、受信されたユーザ属性認識モデルをローカルに格納することができる。

次に、図３を参照し、図３は、本実施例に係る端末装置に適用される情報生成方法の応用シナリオの概略図である。図３の応用シナリオでは、カメラ３０１が電子スクリーン３０２の前にいる視聴者３０３のビデオ情報を取り込み、端末装置３０４がカメラ３０１に有線で接続されている。端末装置３０４は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、取得されたビデオフレーム画像を処理対象画像３０５として記憶し、処理対象画像３０５を事前訓練されたユーザ属性認識モデル３０６に入力して、視聴者３０３それぞれのユーザ属性情報３０７を取得する。

本発明の上記実施例によって提供された方法は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、次に、取得されたビデオフレーム画像を処理対象画像として記憶し、最後に、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。それによって、ターゲットスクリーンの前にいる視聴者をリアルタイムにローカル解析し、視聴者のユーザ属性情報を取得することが可能となり、後続のターゲットスクリーンの再生コンテンツのカスタマイズに対して参照基準を提供することができ、そして、ターゲットスクリーンの現在の視聴者のために再生コンテンツをカスタマイズすることが可能であり、ターゲットスクリーンで再生されるビデオの再生効果が向上され、リモートネットワーク環境の制御不能性が低減された。

更に、端末装置に適用される情報生成方法のもう一つの実施例のフロー４００を示す図４を参照する。当該端末装置に適用される情報生成方法のフロー４００は、次のステップを含む。

ステップ４０１：ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得する。

ステップ４０２：取得されたビデオフレーム画像を処理対象画像として記憶する。

ステップ４０３：処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得する。

本実施例では、ステップ４０１、ステップ４０２およびステップ４０３の具体的な操作は、図２に示す実施例のステップ２０１、ステップ２０２およびステップ２０３の操作と実質的に同じであり、ここではこれ以上くどくど述べない。

ステップ４０４：得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定する。

本実施例では、端末装置に適用される情報生成方法の実行主体（例えば、図１に示す端末装置）は、ステップ４０３で得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定することができる。

任意選択で、抽出されたユーザ画像を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。

任意選択で、更に抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することができる。

ステップ４０５：第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を第１端末装置に送信する。

本実施例では、端末装置に適用される情報生成方法の実行主体（例えば、図１に示す端末装置）は、第１端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第１端末装置に送信することができる。ここで、第１端末装置は、前記実行主体とネットワークを介して接続されるとともに前記実行主体とは異なる電子機器であってもよい。

ここで、ユーザ属性情報取得要求は様々な形態の要求であってもよい。例えば、ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ，ハイパーテキスト・トランスファー・プロトコル）要求、ＦＴＰ（ＦｉｌｅＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ，ファイル・トランスファー・プロトコル）要求、Ｓｏｃｋｅｔ（ソケット）要求などであってもよい。これに対応して、前記実行主体は他の電子機器に対して対応する形式のサービスを提供する場合がある。例えば、前記実行主体がＨＴＴＰサービスを提供する場合、ユーザ属性情報取得要求はＨＴＴＰ要求であってもよい。前記実行主体がＦＴＰサービスを提供する場合、ユーザ属性情報取得要求はＦＴＰ要求であってもよい。前記実行主体がＳｏｃｋｅｔサービスを提供する場合、ユーザ属性情報取得要求はＳｏｃｋｅｔ要求であってもよい。

第１端末装置は、前記実行主体にユーザ属性情報取得要求を送信して、前記実行主体によって送信されたユーザ属性情報を取得することで、得られたユーザ属性情報を利用することができる。

一例として、第１端末装置は、受信した各ユーザ属性情報を表示することができる。例えば、第１端末装置は、受信した各ユーザ情報のうちのユーザ画像情報に基づいてユーザ画像を生成して表示し、表示されたユーザ画像の周囲において対応するユーザ属性情報のうちの他の属性情報、例えば性別、年齢などを提示してもよい。

別の例として、第１端末装置はまた、受信した各ユーザ属性情報を解析して、ターゲットスクリーンに再生するビデオを決定することができる。例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの視聴者のうちの男性の数が女性の数より多いか、または全てが男性である場合、車の広告、スポーツ番組、金融番組など、男性向けのビデオをターゲットスクリーンに再生するように決定する。ターゲットスクリーンの視聴者のうちの女性の数が男性の数より多いか、または全てが女性である場合、化粧品の広告、家政番組、感情番組など、女性向けのビデオをターゲットスクリーンに再生するように決定する。また、例えば、受信した各ユーザ情報を解析することによって、ターゲットスクリーンの８０％を超える視聴者が２２～３０歳であることがわかる場合、求人広告、職場体験番組、不動産賃貸および販売広告など、２２～３０歳のユーザ向けの番組をターゲットスクリーンに再生するように決定する。

本実施例のいくつかの任意選択実施態様では、前記実行主体は、更にステップ４０５の前に、ステップ４０４の後に、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化することができる。従って、ステップ４０５では、前記実行主体は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、パッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を第１端末装置に送信することができる。

図４から分かるように、図２の対応する実施例に比して、本実施例の端末装置に適用される情報生成方法のフロー４００には、第１端末装置によって送信されたユーザ属性情報取得要求を受信した後、得られたユーザ属性情報を第１端末装置に送信することが追加されている。従って、本実施例で説明した技術案は、ターゲットスクリーンにいる視聴者のユーザ属性情報を外部の電子機器に提供することができ、それによって他の電子機器にユーザ属性情報を提供するサービスを実現することができる。

更に図５を参照すると、上記の図に示された方法の実施態様として、本発明は、端末装置に適用される情報生成装置の一実施例を提供し、該装置の実施例は、図２に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施例の端末装置に適用される情報生成装置５００は、取得ユニット５０１、記憶ユニット５０２および入力ユニット５０３を備える。ここで、取得ユニット５０１は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニット５０１であって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される。記憶ユニット５０２は、取得されたビデオフレーム画像を処理対象画像として記憶するように構成される。入力ユニット５０３は、前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成され、ここで、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するためのものである。

本実施例では、端末装置に適用される情報生成装置５００の取得ユニット５０１、記憶ユニット５０２および入力ユニット５０３の具体的な処理及びそれらの技術的効果は、それぞれ図２の対応する実施例におけるステップ２０１、ステップ２０２及びステップ２０３の関連する説明を参照することができ、ここではこれ以上くどくど述べない。

本実施例のいくつかの任意選択実施態様では、前記装置５００は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第１端末装置に送信するように構成される送信ユニット（図５では図示せず）を更に備えてもよい。

本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含んでもよい。

本実施例のいくつかの任意選択実施態様では、前記ユーザ属性情報は、更にユーザ画像情報を含み、前記装置５００は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニット（図５では図示せず）を更に備えてもよい。

本実施例のいくつかの任意選択実施態様では、前記抽出ユニットは、更に抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成されてもよい。

本実施例のいくつかの任意選択実施態様では、前記装置は、更に得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニット（図５では図示せず）を更に備えてもよい。

本実施例のいくつかの任意選択実施態様では、前記送信ユニットは、更にパッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を前記第１端末装置に送信するように構成されてもよい。

本実施例のいくつかの任意選択実施態様では、前記取得ユニット５０１は、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成されてもよい。

なお、本発明の実施例によって提供された端末装置に適用される情報生成装置における各ユニットの実現の詳細および技術的効果は、本発明の他の実施例の説明を参照することができ、ここではこれ以上くどくど述べない。

以下、本発明の実施例を実現するための端末装置に適用されるコンピュータシステム６００の構造概略図を示す図６を参照する。図６に示す端末装置は、一例に過ぎず、本発明の実施例の機能および使用範囲を限定するものではない。

図６に示すように、コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ，ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に記憶されているプログラムまたは記憶部６０８からランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３にロードされたプログラムによって様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ，ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１を備える。ＲＡＭ６０３には、システム６００の動作に必要な様々なプログラムおよびデータが更に格納されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ，Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部６０６、陰極線管（ＣＲＴ，ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ，ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）など及びスピーカなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、並びにＬＡＮ（ローカルエリアネットワーク，ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムなどを含むネットワークインターフェースカードの通信部６０９を含む構成要素は、Ｉ／Ｏインターフェース６０５に接続されている。通信部６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブルメディア６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどが挙げられ、必要に応じてドライバ６１０に取り付けられ、それによって、リムーバブルメディア６１１から読み出されたコンピュータプログラムが所望により記憶部６０８にインストールされる。

特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードされてインストールされることが可能であり、および／またはリムーバブルメディア６１１からインストールされることも可能である。該コンピュータプログラムが中央処理装置（ＣＰＵ）６０１によって実行されると、本発明の方法で限定された上記の機能を実行する。注意すべきなのは、本発明に記載したコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、１本または複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本発明において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本発明において、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリアの一部として伝送される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝送されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、無線、有線、光ケーブル、ＲＦなど、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。

本発明の動作を実行するためのコンピュータプログラムコードは、１種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータ上で実行され、部分的にユーザのコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で実行され、または完全にリモートコンピュータ若しくはサーバ上で実行されてもよい。リモートコンピュータに関わる場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダによりインターネットで接続される）。

図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメントもしくはコードの一部を表してもよく、該モジュール、プログラムセグメントもしくはコードの一部は、規定されたロジック機能を達成するための１つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、ブロック内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された２つのブロックは、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、並びに、ブロック図および／またはフローチャートにおけるブロックの組み合わせは、規定された機能もしくは動作を実行する、ハードウェアに基づく専用システムで実現されてもよく、または、専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。

本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「プロセッサは、取得ユニットと、記憶ユニットと、入力ユニットとを備える」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、取得ユニットは、「ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するユニット」として記載されてもよい。

一方、本発明は、コンピュータ可読媒体を更に提供し、該コンピュータ可読媒体は、前記実施例に記載された装置に含まれるものであってもよく、独立に存在して該装置に組み立てられていないものであってもよい。前記コンピュータ可読媒体は、１つまたは複数のプログラムが記憶されており、前記１つまたは複数のプログラムが該装置によって実行されると、該装置は、ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得し、ここで、ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、端末装置とターゲットカメラとが有線またはローカルエリアネットワークで接続されており、取得されたビデオフレーム画像を処理対象画像として記憶し、処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得し、ここで、ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する。

以上の記載は、本発明の好ましい実施例、および使用される技術的原理に関する説明に過ぎない。本発明に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせてなる他の技術案も含むべきであることを、当業者に理解されたい。例えば、上記の特徴と、本発明に開示された（これに限定されない）類似の機能を有する技術的特徴とを互いに置き換えてなる技術案が挙げられる。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
端末装置に適用される情報生成方法であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するステップと、
を含む端末装置に適用される情報生成方法。
請求項２：
前記方法は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第１端末装置に送信するステップを更に含む、請求項１に記載の方法。
請求項３：
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含む請求項２に記載の方法。
請求項４：
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項３に記載の方法。
請求項５：
前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項４に記載の方法。
請求項６：
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項５に記載の方法。
請求項７：
前記得られたユーザ属性情報を前記第１端末装置に送信するステップは、
パッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を前記第１端末装置に送信することを含む請求項６に記載の方法。
請求項８：
前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項１～７のいずれか１項に記載の方法。
請求項９：
端末装置に適用される情報生成装置であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現する入力ユニットと、を備える端末装置に適用される情報生成装置。
請求項１０：
前記装置は、第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第１端末装置に送信するように構成される送信ユニットを更に備える、請求項９に記載の装置。
請求項１１：
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含む請求項１０に記載の装置。
請求項１２：
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項１１に記載の装置。
請求項１３：
前記抽出ユニットは、更に抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項１２に記載の装置。
請求項１４：
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項１３に記載の装置。
請求項１５：
前記送信ユニットは、更にパッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を前記第１端末装置に送信するように構成される請求項１４に記載の装置。
請求項１６：
前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項９～１５のいずれか１項に記載の装置。
請求項１７：
端末装置であって、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶される記憶装置と、を備え、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～８のいずれか１項に記載の方法を実現させる、端末装置。
請求項１８：
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～８のいずれか１項に記載の方法を実現する、コンピュータ可読媒体。

Claims

端末装置に適用される情報生成方法であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続されているステップと、
取得されたビデオフレーム画像を処理対象画像として記憶するステップと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するステップであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれるステップと、
第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第１端末装置に送信するステップと
を含み、
前記第１端末装置は、
前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析するステップと、
前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定するステップと
を実行するように配置される、端末装置に適用される情報生成方法。
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含む請求項１に記載の方法。
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップを更に含む請求項２に記載の方法。
前記抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するステップは、
抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定することを含む請求項３に記載の方法。
前記方法は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するステップを更に含む請求項４に記載の方法。
前記得られたユーザ属性情報を前記第１端末装置に送信するステップは、
パッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を前記第１端末装置に送信することを含む請求項５に記載の方法。
前記ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するステップは、
前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得することを含む請求項１～６のいずれか１項に記載の方法。
端末装置に適用される情報生成装置であって、
ターゲットカメラによって取得されたビデオフレーム画像をリアルタイムに取得するように構成される取得ユニットであって、前記ターゲットカメラの撮影範囲がターゲットスクリーンの前方領域をカバーしており、前記端末装置と前記ターゲットカメラとが有線またはローカルエリアネットワークで接続される取得ユニットと、
取得されたビデオフレーム画像を処理対象画像として記憶するように構成される記憶ユニットと、
前記処理対象画像を事前訓練されたユーザ属性認識モデルに入力して、前記処理対象画像に含まれるユーザ画像に対応するユーザのユーザ属性情報を取得するように構成される入力ユニットであって、前記ユーザ属性認識モデルは、画像とユーザ属性情報との間の対応関係を表現するように構成され、前記処理対象画像に複数のユーザのユーザ画像が含まれる入力ユニットと、
第１端末装置によって送信されたユーザ属性情報取得要求の受信に応答して、得られたユーザ属性情報を前記第１端末装置に送信するように構成される送信ユニットと
を備え、
前記複数のユーザのユーザ属性情報に基づいて、前記複数のユーザの視聴者構成を解析するステップと、
前記解析された視聴者構成に基づいて、大多数のユーザの特徴に適する、ターゲットスクリーンに再生されるコンテンツを決定するステップと
を実行するように配置される、端末装置に適用される情報生成装置。
前記ユーザ属性情報は、ユーザ画像位置情報と、性別、年齢、頭部姿勢情報、眼部情報、鼻部情報、口部情報、耳部情報および顔面表情情報のうちの少なくとも１つと、を含む請求項８に記載の装置。
前記ユーザ属性情報は、更にユーザ画像情報を含み、
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報のうちのユーザ画像位置情報に基づいて、前記処理対象画像からユーザ画像を抽出し、抽出されたユーザ画像に基づいて該ユーザ属性情報のうちのユーザ画像情報を確定するように構成される抽出ユニットを更に備える請求項９に記載の装置。
前記抽出ユニットは、更に抽出されたユーザ画像をＢａｓｅ６４で符号化した文字列を該ユーザ属性情報のうちのユーザ画像情報として確定するように構成される請求項１０に記載の装置。
前記装置は、得られた各ユーザ属性情報について、該ユーザ属性情報をＪｓｏｎデータフォーマットのユーザ属性情報にパッケージ化するように構成されるパッケージ化ユニットを更に備える請求項１１に記載の装置。
前記送信ユニットは、更にパッケージ化されたＪｓｏｎデータフォーマットのユーザ属性情報を前記第１端末装置に送信するように構成される請求項１２に記載の装置。
前記取得ユニットは、更に前記ターゲットカメラによって取得されたビデオフレーム画像を予め設定されたフレーム数毎にリアルタイムに取得するように構成される請求項８～１３のいずれか１項に記載の装置。
端末装置であって、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶される記憶装置と、を備え、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～７のいずれか１項に記載の方法を実現させる、端末装置。
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法を実現する、コンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～７のいずれか一項に記載の方法を実現する、コンピュータプログラム。