JP2020535501A - 対象認識方法、装置及びインテリジェント端末 - Google Patents

対象認識方法、装置及びインテリジェント端末 Download PDF

Info

Publication number
JP2020535501A
JP2020535501A JP2020514952A JP2020514952A JP2020535501A JP 2020535501 A JP2020535501 A JP 2020535501A JP 2020514952 A JP2020514952 A JP 2020514952A JP 2020514952 A JP2020514952 A JP 2020514952A JP 2020535501 A JP2020535501 A JP 2020535501A
Authority
JP
Japan
Prior art keywords
recognition result
information
recognition
test target
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020514952A
Other languages
English (en)
Other versions
JP7104779B2 (ja
Inventor
廉士国
劉兆祥
王寧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Beijing Technologies Co Ltd
Original Assignee
Cloudminds Beijing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Beijing Technologies Co Ltd filed Critical Cloudminds Beijing Technologies Co Ltd
Publication of JP2020535501A publication Critical patent/JP2020535501A/ja
Application granted granted Critical
Publication of JP7104779B2 publication Critical patent/JP7104779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願の実施例は対象認識方法、装置及びインテリジェント端末を提供する。そのうち、前記方法は、プリセット時間帯内に収集した被検対象に対する情報を判定情報とするステップと、該判定情報及び該判定情報を収集する前に取得したデータに基づいて、被検対象の現在時刻における認識結果を取得して出力するステップと、該認識結果に対応する属性種類が優先度の最も高い属性種類であるか否かを判定するステップと、そうでなければ、次のプリセット時間帯内に収集した該被検対象に対する情報を判定情報とし、且つ該判定情報及び該判定情報を収集する前に取得したデータに基づいて、被検対象の現在時刻における認識結果を取得して出力するステップに戻すステップと、を含む。上記の技術的解決手段によって、本願の実施例は対象認識の適時性と詳細度を折衷でき、ユーザ体験を向上させる。【選択図】なし

Description

本願の実施例はインテリジェント認識技術分野に関し、特に対象認識方法、装置及びインテリジェント端末に関する。
機械の知能化プロセスの進歩に伴い、人々とインテリジェント端末との間のインタラクションがますます頻繁になり、ヒューマンコンピュータインタラクションの自然な体験がますます重要になっている。ここにおいて、ヒューマンコンピュータインタラクションの自然な体験に影響を与える2つの重要な要素は、インテリジェント端末が被検対象に対する認識の適時性と詳細度である。
現在、ヒューマンコンピュータインタラクション体験を向上させるために、ほとんどのインテリジェント端末は、人の名前、車のモデル(又はシリーズ)、ナンバープレート番号、及び猫種など、詳細度の高い対象認識結果を出力できると期待されている。
しかし、実際の場面では、環境が変わりやすく、インテリジェント端末の認識能力が限られているため、幾つかの場面では、詳細な認識結果を分析するために、インテリジェント端末はより多くの情報を収集するのにより長い時間がかかることがある。この場合、インテリジェント端末が詳細度の高い認識結果を出力すると強制的に要求すれば、長い時間がかかる可能性があり、対象認識の適時性を満たすことができなくなり、対象認識の適時性を満たすためにインテリジェント端末が一定の時間内に認識結果を出力しなければならないと規定すれば、詳細度の低い認識結果しか取得できない可能性があり、これもユーザの使い勝手の良さを助長するものではない。
従って、対象認識の適時性と詳細度をいかに折衷するかは、既存のインテリジェント認識技術によって解決されるべき緊急の問題である。
本願の実施例にて提供される対象認識方法、装置及びインテリジェント端末は、対象認識の適時性と詳細度をいかに折衷するかという問題を解決できる。
第1の態様では、本願の実施例にて提供されるインテリジェント端末に適用する対象認識方法は、
プリセット時間帯内に収集した属性間に優先度関係が設定される少なくとも2種類の属性を含む被検対象に対する情報を判定情報とするステップと、
前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得し、前記認識結果を出力し、前記認識結果が前記属性種類のいずれか1種に対応するステップと、
前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定するステップと、
そうでなければ、次のプリセット時間帯内に収集した前記被検対象に対する情報を判定情報とし、且つ前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得し、前記認識結果を出力する前記ステップに戻すステップと、を含む。
第2の態様では、本願の実施例にて提供されるインテリジェント端末に適用する対象認識装置は、
プリセット時間帯内に収集した属性間に優先度関係が設定される少なくとも2種類の属性を含む被検対象に対する情報を判定情報とするために用いられる情報収集ユニットと、
前記判定情報及び判定情報を収集する前に取得したデータに基づいて前記被検対象の現在時刻における認識結果を取得するための認識モジュールと、前記認識結果を出力するための出力モジュールと、を含み、前記認識結果が前記属性種類のいずれか1種に対応する認識ユニットと、
前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定し、
そうでなければ、情報収集ユニットが次のプリセット時間帯内に収集した前記被検対象に対する情報を前記判定情報として認識ユニットに出力するように制御するために用いられる判定ユニットと、を含む。
第3の態様では、本願の実施例にて提供されるインテリジェント端末は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されているメモリと、を含み、
ここで、前記メモリに前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記少なくとも1つのプロセッサが上記した対象認識方法を実行することを可能にするように前記コマンドは前記少なくとも1つのプロセッサによって実行される。
第4の態様では、本願の実施例は非一時的コンピュータ可読記憶媒体を提供し、前記非一時的コンピュータ可読記憶媒体にはインテリジェント端末に上記した対象認識方法を実行させるためのコンピュータ実行可能コマンドが記憶されている。
第5の態様において、本願の実施例はさらにコンピュータプログラム製品を提供し、前記コンピュータプログラム製品は非一時的コンピュータ可読記憶媒体に記憶されているコンピュータプログラムを含み、前記コンピュータプログラムはプログラムコマンドを含み、前記プログラムコマンドがインテリジェント端末によって実行されると、インテリジェント端末に上記した対象認識方法を実行させる。
本願の実施例にて提供される対象認識方法、装置及びインテリジェント端末は、被検対象に対する説明の詳細度によって、被検対象の属性に対して優先度順位を有する複数の属性種類に分割し、且つ、認識のプロセスでは、プリセット時間帯内に収集した被検対象に対する情報を判定情報とし、そして該判定情報及び該判定情報を収集する前に取得したデータに基づいて、該被検対象の現在時刻における認識結果を取得して出力し、また、現在時刻における認識結果に対応する属性種類の優先度が最上位ではなければ、即ち現在時刻において取得した認識結果が最も詳細な認識結果ではなければ、次のプリセット時間帯内に該被検対象に対する情報を収集し続け、そして、該情報を判定情報とし、上記の認識ステップ及び判定ステップを繰り返すことにより、異なる認識場面においても被検対象に対する認識結果を適時出力でき、また、取得した認識結果が最も詳細な認識結果ではなければ、情報収集時間の累積につれて、より豊富な情報に基づいてより詳細な認識結果を次第に出力し、それによって対象認識の適時性と詳細度を折衷でき、ユーザ体験を向上させる。
1つ又は複数の実施例は、それに対応する図面の図によって例示的に説明する。これらの例示的な説明は実施例を限定するものではない。図面中の同じ参照番号を有する要素は類似の要素として示されており、図面中の図は、特記しない限り、縮尺が限定されない。
本願の実施例にて提供される対象認識方法の概略フローチャートである。 本願の実施例にて提供される他の対象認識方法の概略フローチャートである。 本願の実施例にて提供される対象認識装置の概略構造図である。 本願の実施例にて提供されるインテリジェント端末のハードウェアの概略構造図である。
本願の目的、技術的解決手段及び利点をより分かりやすくするために、以下、図面及び実施例を参照しながら、本願についてさらに詳細に説明する。本明細書に記載された具体的な実施例は単なる本願を解釈するものであり、本願を限定するものではないと理解すべきである。
なお、本願の実施例における様々な特徴は、矛盾がなければ、互いに組み合わせてもよく、全て本願の保護範囲内にある。さらに、装置概略図では、機能モジュール分割が実行され、フローチャートでは、論理シーケンスが示されるが、場合によって、図示又は説明されたステップは、装置内のモジュール分割又はフローチャートの順序と異なって実行されてもよい。
本願の実施例において、対象認識方法、装置、及びインテリジェント端末が提供され、例えば、インテリジェント盲導、受付ロボット、サービスロボット、侵入物検知、意味認識など、対象認識に関するあらゆる応用分野に適用でき、特に、インテリジェント盲導、受付ロボット、サービスロボットなど、ヒューマンコンピュータインタラクション体験に焦点を当てた応用分野に適用する。
そのうち、本願の実施形態にて提供される対象認識方法は、プリセット時間帯内に収集した情報に基づいて認識結果を適時出力し、そして現在時刻において取得した認識結果に対応する属性種類の「優先度」に従って、対象認識の詳細度をさらに最適化するために情報収集を継続するか否かを決定するというインテリジェント最適化認識方法であり、被検対象に対する説明の詳細度によって、被検対象の属性に対して優先度順位を有する複数の属性種類に分割し(優先度が高いほど、認識結果の詳細度が高くなる)、且つ、認識のプロセスでは、プリセット時間帯内に収集した被検対象に対する情報を判定情報とし、そして該判定情報及び該判定情報を収集する前に取得したデータに基づいて、該被検対象の現在時刻における認識結果を取得して出力し、現在時刻における認識結果に対応する属性種類の優先度が最上位ではなければ、即ち現在時刻において取得した認識結果が最も詳細な認識結果ではなければ、次のプリセット時間帯内に該被検対象に対する情報を収集し続け、そして、該情報を判定情報とし、上記の認識ステップ及び判定ステップを繰り返すことにより、異なる認識場面においても被検対象に対する認識結果を適時出力でき、また、取得した認識結果が最も詳細な認識結果ではなければ、情報収集時間の累積につれて、より豊富な情報に基づいてより詳細な認識結果を次第に出力し、それによって対象認識の適時性と詳細度を折衷でき、ユーザ体験を向上させる。
従って、本願の実施例にて提供される対象認識方法、装置及びインテリジェント端末を用いて、同一の人物/物体(被検対象)を認識する場合は、異なる認識環境でも被検対象の認識結果を適時出力することができ、且つ、時間の経過とともに、より詳細な認識結果を出力することができる。なお、異なる認識環境では、同じプリセット時間帯内にインテリジェント端末が出力した認識結果の詳細度は異なる可能性がある。
例えば、収集した画像による人認識を例とし、照度が良く、距離が近く、且つ被検者がインテリジェント端末のカメラに正対する認識環境では、インテリジェント端末は第1のプリセット時間帯内(例えば、最初の5秒内に、即ちインテリジェント端末が情報収集を開始した後の5秒以内)に1枚の明瞭な顔画像を収集することができ、次いで、該明瞭な顔画像に基づいて被検者の「名前」を認識することができ、このとき、インテリジェント端末は、ユーザとのインタラクションをするために被検者の「名前」を出力してもよい。また、このとき、最も詳細な認識結果が取得されたため、被検者についての情報の収集を停止してもよい。他の認識環境では、例えば、インテリジェント端末が情報収集を行う第1のプリセット時間帯内(例えば、最初の5秒以内)に、被検者がインテリジェント端末のカメラに対して横に立っているため、インテリジェント端末は被検者の横顔画像しか収集できず、そして該横顔画像に基づいて該被検者の「性別」しか認識できず、このとき、インテリジェント端末は、ユーザに適時フィードバックするために、被検者の「性別」という第1の認識結果を出力し、また、「性別」が最も詳細な認識結果ではないため、本願の実施例では、インテリジェント端末は次のプリセット時間帯内(例えば、2番目の5秒以内)に被検者についての情報を収集し続ける。インテリジェント端末は、第2のプリセット時間帯内に被検者の正面顔画像を収集することができれば、第1のプリセット時間帯内に収集した横顔画像と第2のプリセット時間帯内に収集した正面顔画像を合わせて被検者の「名前」を認識することができ、次いで被検者の「名前」という第2の認識結果を出力し、それによってより詳細な認識結果を取得し、インテリジェント端末がユーザとのインタラクション内容をさらに調整することが容易になり、ユーザ体験を向上させる。
本願の実施例にて提供される対象認識方法及び装置は、ロボット、盲導メガネ、スマートヘルメット、スマートフォン、タブレットコンピュータ、サーバなど、あらゆる種類のインテリジェント端末に適用することができる。該インテリジェント端末は、磁気ディスク、コンパクトディスク(CD−ROM)、読み取り専用メモリ又はランダムアクセスメモリなど、データを記憶するためのあらゆる適切な種類の記憶媒体を含む。該インテリジェント端末は1つ又は複数の論理演算モジュールをさらに含み、データベースの閲覧、画像処理など、あらゆる適切な種類の機能又は操作を、シングルスレッドで、又は複数のスレッドが並列して実行する。前記論理演算モジュールは、シングルコアプロセッサ、マルチコアプロセッサ、グラフィックプロセッサ(GPU)など、論理演算操作を実行することができるあらゆる適切な種類の電子回路又はチップ型電子デバイスであってもよい。
具体的には、以下、図面を参照しながら本願の実施例についてさらに説明する。
<実施例1>
図1は本願の実施例にて提供される対象認識方法の概略フローチャートであり、あらゆる種類のインテリジェント端末によって実行されてもよく、具体的には、図1に示すように、該方法はステップ110〜ステップ150を含むが、これらに限定されるものではない。
ステップ110:プリセット時間帯内に収集した被検対象に対する情報を判定情報とする。
本実施例では、前記「被検対象」は人物、動物、物体などを含むが、これらに限定されるものではない。被検対象に対する説明の詳細度によって被検対象を少なくとも2つの異なるレベルの属性種類に分け、且つ被検対象に対する説明の詳細度に従って属性種類に優先度関係を設定してもよい。ここで、認識が困難な属性種類に対する詳細度が高いと考えられ、認識の難易度は、同じ条件(例えば、同じ画像を入力する)下での異なる属性種類の認識アルゴリズムの認識率に従ってソートしてもよい(例えば、常に、名前の認識が性別の認識より困難であり、性別の認識が顔/人体の認識より困難である)。又は、属性種類間の相互包含関係によってソートしてもよい(例えば、性別を認識するためには、顔の存在を最初に認識する必要がある)。例えば、被検対象が人物である場合には、被検対象に対する説明の詳細度に従って、人物の属性種類が「名前」、「性別」及び「人物か否か」を含むように設定してもよく、認識の難易度に従って、これらの属性種類の優先度順位を、L1(名前)>L2(性別)>L3(人物か否か)に設定してもよい。
本実施例では、インテリジェント端末は被検対象に対する情報を継続的に収集するとともに、複数のプリセット時点において被検対象の認識結果を出力し、こうして、前記「プリセット時間帯」は、対象認識を行う1つのプリセット時点と、該プリセット時点の前のプリセット時点との間の期間であり、該期間はインテリジェント端末が情報収集を行うプロセスのうちいずれか1つの期間であってもよい。また、本実施例では、インテリジェント端末が収集した「情報」は被検対象の属性を反映できる判定基準であり、該情報に基づいて被検対象の属性を認識することができる。該情報の種類は画像情報、音声情報、熱赤外線画面、近赤外線画面、超音波信号、電磁波反射信号などを含むが、これらに限定されず、1つ又は複数のセンサによって収集して取得してもよく、例えば、カメラによって被検対象に対する画像情報を収集し、マイクによって被検対象に対する音声情報を収集し、熱赤外線センサによって被検対象に対する熱赤外線画面を収集するなどが挙げられる。
例えば、インテリジェント端末が(0、t1)の時間帯内に被検者の背面画像a1を収集し、(t1、t2)の時間帯内に被検者の横顔画像a2を収集し、(t2、T)の時間帯内に被検者の顔画像a3を収集し、ここで0<t1<t2<Tであると仮定すると、本ステップ110に記載の「プリセット時間帯内に収集した被検対象に対する情報」は、インテリジェント端末が(0、t1)の時間帯内に収集した背面画像a1であってもよく、(t1、t2)の時間帯内に収集した横顔画像a2であってもよく、(t2、T)の時間帯内に収集した顔画像a3であってもよい。
本実施例では、被検対象を認識する場合、インテリジェント端末は実際の状況に従って被検対象に対する情報を継続的に収集し、且つ特定の時点において対象認識を行うようにされてもよい。具体的には、ある時点において対象認識を行う場合、現在時点と前の時点との間の時間帯内にインテリジェント端末が収集した被検対象に対する情報を判定情報としてもよく、インテリジェント端末は該判定情報に基づいて次のステップ120を実行して、該時点における該被検対象の認識結果を取得することができる。例えば、インテリジェント端末は、情報収集コマンドを受信した時刻を開始時点(即ち、時刻0)とし、時刻t1、t2、Tで対象認識を行うようにされると、時刻t1で、(0、t1)の時間帯内に収集した被検対象に対する情報を判定情報とし、該判定情報に基づいて次のステップ120を実行して、時刻t1における被検対象の認識結果を取得することができる。時刻t2で、(t1、t2)の時間帯内に収集した被検対象に対する情報を判定情報とし、該判定情報に基づいて次のステップ120を実行して、時刻t2における被検対象の認識結果を取得することができる。時刻Tで、(t2、T)の時間帯内に収集した被検対象に対する情報を判定情報とし、該判定情報に基づいて次のステップ120を実行して、時刻Tにおける被検対象の認識結果を取得することができる。ここで、実際に使用する際、任意の2つの時点間の時間長は等しくてもよく(即ち、周期的に目標認識を行う)、等しくなくてもよく、本願の実施例はこれに対して特に限定しない。
ステップ120:前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得し、前記認識結果を出力する。
本実施例では、特定の時点において、該時点より前のプリセット時間帯内に取得した判定情報及び該判定情報を収集する前に取得したデータに基づいて対象認識を行う。前記「判定情報」は、いずれか1つのプリセット時間帯内にインテリジェント端末が収集した現在時刻における該被検対象の認識結果を取得するための情報であってもよい。前記「現在時刻」とは、該判定情報の収集を完了して該判定情報に基づいて対象認識を行う時刻である。前記「前記判定情報を収集する前に取得したデータ」は該判定情報を収集する前に収集した被検対象に対する情報でもよく、該判定情報を収集する前に取得した認識結果(即ち、現在時刻の前に既に取得した認識結果)であってもよい。例えば、収集した判定情報は(t1、t2)の時間帯内にインテリジェント端末が収集した横顔画像a2であると仮定すると、該横顔画像a2の取得を完了した時刻t2は「現在時刻」であり、「該判定情報を収集する前に取得したデータ」は時刻t1の前(時刻t1を含む)に取得したデータであり、該データは(0、t1)の時間帯内に収集した背面画像a1であってもよく、時刻t1においてインテリジェント端末が取得した認識結果であってもよい。
本実施例では、前記「認識結果」は、被検対象の属性種類の1種に対応する。例えば、人物認識を例とし、その属性種類は「名前」、「性別」及び「人物か否か」を含み、取得した認識結果が「李四」であれば、該認識結果である「李四」に対応する属性種類は「名前」であり、取得した認識結果が「男性」であれば、該認識結果である「男性」に対応する属性種類は「性別」であり、取得した認識結果が「人物」であれば、該認識結果である「人物」に対応する属性種類は「人物か否か」である。また、対象認識の適時性の要求を満たしつつ、できるだけ詳細な認識結果を出力するために、本実施例では、対象認識を行う(即ち、本ステップ120を実行する)各時点において、収集した判定情報及び前記判定情報を収集する前に取得したデータに基づいて最も詳細な認識結果を取得する(即ち、これらの判定情報及びデータに対して演算を行った後、優先度の最も高い属性種類に対応する判定結果を得る)。例えば、ある時点において、収集した判定情報及び前記判定情報を収集する前に取得したデータに基づいて、判定結果である「人」、「男性」及び「李四」を得ることができ、ここで、「李四」に対応する属性種類である「名前」は優先度が最も高いため、このとき認識結果である「李四」を取得して出力することができる。
具体的には、本実施例において、判定情報及び該判定情報を収集する前に取得したデータに基づいて、該被検対象の現在時刻における認識結果を取得することの具体的な実施形態は以下の3つの実施形態を含むが、これらに限定されるものではない。
一実施形態では、前記判定情報を収集する前に取得したデータは、前記判定情報を収集する前に収集した該被検対象に対する情報を含み、このときは「特徴融合」を採用して被検対象の現在時刻における認識結果を取得することができる。
具体的には、まず、前記判定情報と前記判定情報を収集する前に収集した前記被検対象に対する情報との特徴を融合し、そして、融合された特徴に基づいて前記被検対象の現在時刻における認識結果を取得する。具体的には、異なる時間帯内に収集した判定情報から、被検対象の属性を認識するための特徴を抽出し、それらの特徴を融合し、次いで、ニューラルネットワークアルゴリズムなど適切な認識アルゴリズムによって、融合された特徴に基づいて被検対象の現在時刻における認識結果を取得する。
別の実施形態では、前記判定情報を取得する前に取得したデータは、該判定情報を収集する前に取得した認識結果を含み、このときは、「結果融合」を採用して被検対象の現在時刻における認識結果を取得することができる。
具体的には、まず、前記判定情報に対応する認識結果を取得し、そして、前記判定情報に対応する認識結果及び前記判定情報を収集する前に取得した認識結果から、属性種類の優先度が最も高い認識結果を前記被検対象の現在時刻における認識結果として選択する。ここで、前記判定情報に対応する認識結果を取得することは、該判定情報に基づいて該被検対象の認識結果を取得することである。例えば、前記判定情報を収集する前に取得した認識結果は「人物」と「男性」とを含み、現在時刻において取得した判定情報に基づいて得られた認識結果が「男性」であれば、「人物」、「男性」、「男性」の3つの認識結果から、該被検対象の現在時刻における認識結果として、「男性」(対応する属性種類の優先度が最も高い)を選択することができる。
さらに別の実施形態では、現在時刻が対象認識を行う最初の時点においてあれば、例えば、収集した判定情報は(0、t1)の時間帯内に収集した被検対象に対する情報であれば、該判定情報を収集する前にいかなるデータもなく、このとき、収集した判定情報のみに基づいて該被検対象の現在時刻における認識結果を取得することができ、即ち、該実施形態では、収集した判定情報に対応する認識結果が、該被検対象の現在時刻における認識結果である。
特に、幾つかの実施形態では、対象認識の適時性及び詳細度を保証しながら認識結果の確実性を保証するために、被検対象の各属性種類に対応する判定結果には、該判定結果の確実性(又は信頼性)を特徴付けるための信頼度が設けられる。ステップ120で取得された認識結果は、そのうち1種の前記属性種類に対応する判定結果であり、前記判定結果の信頼度はプリセット条件を満たし、且つ、前記認識結果に対応する属性種類は、信頼度がプリセット条件を満たす判定結果に対応する属性種類のうち、優先度が最も高い。
判定結果の信頼度は、特徴比較の類似度によって決定することができ、類似度が高いほど信頼度が高い。前記「プリセット条件」は、実際の適用場面に応じて設定されてもよく、ある判定結果の信頼できる程度を認識するために用いられる。具体的には、該プリセット条件は、判定結果の信頼度がそれに対応する属性種類に対応する信頼度閾値以上であることとしてもよい。各属性種類に対応する信頼度閾値は同一であってもよく、例えば、属性種類である「名前」、「性別」及び「人物か否か」に対応する信頼度閾値がいずれも70%であり、被検対象の判定結果が"張三"(信頼度は70%)、"男性"(信頼度は89%)及び"人物"(信頼度は100%)を含むことを取得すれば、判定結果である"張三"、"男性"及び"人物"の信頼度はいずれもプリセット条件を満たし、このとき該被検対象の認識結果は、3つの属性種類のうち優先度が最も高い「名前」に対応する判定結果である「張三」である。又は、他の実施形態では、各属性種類に対応する信頼度閾値も異なってもよく、例えば、属性種類である「名前」に対応する信頼度閾値が75%で、属性種類である「性別」に対応する信頼度閾値が85%で、属性種類である「人物か否か」に対応する信頼度閾値が95%であるとプリセットしてもよく、被検対象の判定結果が同様に"張三"(信頼度は70%)、"男性"(信頼度は89%)及び"人物"(信頼度は100%)であることを取得すれば、信頼度がプリセット条件を満たす判定結果は、「男性」と「人物」のみであり、このとき該被検対象の認識結果は、2つの属性種類のうち優先度が最も高い「性別」に対応する判定結果の「男性」である。
該実施形態では、収集した判定情報に基づいて(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報に基づいて)、被検対象の現在時刻における認識結果を取得することの具体的な実施形態は、以下の2種類の実施形態を含むが、これらに限定されるものではない。
第1の実施形態では、まず、収集した判定情報に基づいて(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報に基づいて)、被検対象の各属性種類に対応する判定結果及び各判定結果の信頼度を取得し、そして信頼度がプリセット条件を満たす判定結果のうち優先度の最も高い属性種類に対応する判定結果を前記被検対象の認識結果として出力する。
該実施形態では、収集した判定情報に基づいて(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報に基づいて)、被検対象の各属性種類に対応する判定結果を取得することは、適切なアルゴリズム(例えば、ニューラルネットワーク)によって達成することができる。例えば、被検対象が人物であり、インテリジェント端末が収集した判定情報(又は収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報)が該人物の画像情報であると仮定すると、インテリジェント端末は該画像から属性種類である「人物か否か」、「性別」及び「名前」に対応する判定結果を繰り返し計算することができる。例えば、まず、ニューラルネットワークの最下層で「人物か否か」を判別するための特徴1を算出し、且つ該特徴1に基づいて「人物か否か」に対応する判定結果及び該判定結果の信頼度を得て、そして、ニューラルネットワークの中間層で特徴1に基づいて「性別」を判定するための特徴2を算出し、且つ特徴2に基づいて「性別」に対応する判定結果及び該判定結果の信頼度を得て、最後に、ニューラルネットワークの最上層で特徴2に基づいて「名前」を認識するための特徴3を算出し、且つ特徴3に基づいて「名前」に対応する判定結果及び該判定結果の信頼度を得る。全ての判定結果及びその信頼度を得た後、まず信頼度がプリセット要件を満たす判定結果を選択し、次に詳細度の最も高い(即ち、対応する属性種類の優先度が最も高い)判定結果を、被検対象の現在時刻における認識結果として選択する。
第2の実施形態では、収集した判定情報に基づいて(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報に基づいて)、被検対象の各属性種類に対応する判定結果及び各判定結果の信頼度を優先順位の高い順に従って段階的に取得し、1つ目の信頼度がプリセット条件を満たす判定結果が現れると、該1つ目の信頼度がプリセット条件を満たす判定結果を、前記被検対象の現在時刻における認識結果として出力する。即ち、被検対象に対する判定情報を収集した場合(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報を取得した場合)には、まず、収集した情報に基づいて(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報に基づいて)、優先度の最も高い属性種類に対応する第1レベルの判定結果及び第1レベルの判定結果の第1レベルの信頼度を取得し、該第1レベルの信頼度がプリセット条件を満たせば(例えば第1レベルの信頼度が第1レベルの信頼度閾値以上であれば)、該第1レベルの判定結果を被検対象の現在時刻における認識結果として直接的に出力し、そうでないと、収集した判定情報に基づいて次のレベルの属性種類に対応する第2レベルの判定結果及び第2レベルの判定結果の第2レベルの信頼度を取得し、該第2レベルの信頼度がプリセット条件を満たせば(例えば第2レベルの信頼度が第2レベルの信頼度閾値以上であれば)、該第2レベルの判定結果を被検対象の現在時刻における認識結果として出力し、そうでないと、収集した判定情報に基づいて次のレベルの属性種類に対応する判定結果及びその信頼度を取得し続け、信頼度がプリセット条件を満たす判定結果を得るまで、このように繰り返す。
該実施形態では、収集した判定情報(又は、収集した判定情報及び該判定情報を収集する前に収集した被検対象に対する情報)から、異なるレベルを判定するために異なる特徴を抽出することができる。例えば、被検対象が車両であり、収集した情報が該車両の画像情報であると仮定すると、該画像情報から、画像中に車両があるか否かを認識するために特徴aを抽出し、画像中の車両の色を認識するために特徴bを抽出し、車両の種類(車、トラック、バスなど)を認識するために特徴cを抽出することができる。
該実施形態では、被検対象の各属性種類に対応する判定結果及びその信頼度を優先順位の高い順に従って段階的に取得し、1つ目の信頼度がプリセット条件を満たす判定結果が現れると、該1つ目の信頼度がプリセット条件を満たす判定結果を、前記被検対象の現在時刻における認識結果とし、属性種類ごとに認識判定を行う必要がなく、これにより、データ処理量を削減することができ、認識の詳細度及び信頼性に影響を与えることなく、認識効率を向上させることができる。
また、実際に使用する際に、認識精度と認識効率を向上させるために、収集した判定情報は少なくとも2種類の情報源を含んでもよい。ここで、前記「情報源」とは、被検対象の属性を反映できる情報の源である。前記「少なくとも2種類の情報源」は少なくとも2つの異なる種類の判定情報であってもよく、例えば、画像情報、音声情報、熱赤外線画面、近赤外線画面、超音波信号、又は電磁波反射信号のうちいずれか2つ以上などである。又は、前記「少なくとも2種類の情報源」は、少なくとも2つの角度から収集した特定の種類の情報であってもよく、例えば複数の角度から被検対象の画像情報(又は音声情報)を収集すると、各角度から収集した画像情報(又は音声情報)はいずれも情報源としてもよい。もちろん、前記「少なくとも2種類の情報源」は、上記の2つの形態の組み合わせであってもよいと理解されるべきであり、例えば、収集した判定情報は、複数の角度から収集した画像情報及び1つの角度から収集した音声情報を含む。
収集した判定情報が少なくとも2種類の情報源を含む場合は、上記の「特徴融合」又は「結果融合」を参照しながら、これらの情報源に基づいて被検対象の現在時刻における認識結果を取得することもできる。
さらに、インテリジェント盲導、受付ロボット、サービスロボットなど、ヒューマンコンピュータインタラクションを行うことができる適用場面では、インテリジェント端末は被検対象の現在時刻における認識結果を出力した後、前記認識結果に対応するインタラクション信号をさらに送信する。
例えば、盲導に使用されるスマートメガネ又はスマートヘルメットについては、1つ目のプリセット時点において出力された認識結果が「人」であれば、1つ目のプリセット時点において「前に人がいる」という音声プロンプトをユーザに送信することができる。2つ目のプリセット時点において出力された認識結果が「男性」であれば、2つ目のプリセット時点において「前の人は男性である」という音声プロンプトをユーザに送信し続けることができる。3つ目のプリセット時点に出力された認識結果が「張三」であれば、3つ目のプリセット時点において「この男性は張三である」という音声プロンプトをユーザに送信し続けることができる。
他の例として、受付又はサービス提供のために使用されるロボットについては、1つ目のプリセット時点において出力された認識結果が「人」であれば、被検対象に「こんにちは!何かお手伝いましようか?」と挨拶して一般的なサービスを提供することができ、収集した情報量が増加するにつれて、2つ目のプリセット時点において出力された認識結果が「男性」であれば、該被検対象との会話の内容を、例えば「最新の電子製品をお探しですか」など、男性のための内容に調整する。3つ目のプリセット時点において出力された認識結果が「張三」であれば、被検対象との会話の内容を、張三についての内容に調整し続け、例えば「最近ご注目いただく製品が届きますが、試してみますか」などとする。
ステップ130:前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定する。
本実施例では、特定のプリセット時点において認識結果を取得した場合は、該認識結果を出力し、且つ、該認識結果に対応する属性種類が前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定し、そうであれば、下記のステップ140を実行し、そうでなければ、下記のステップ150を実行する。例えば、人物認識を例とし、特定のプリセット時点において取得した認識結果が「男性」であると仮定すると、「男性」に対応する属性種類は「性別」であるが、人物認識については、優先度の最も高い属性種類が「名前」であるため、このとき被検対象に対して情報を収集し続け、且つ下記のステップ150を実行する必要がある。
ステップ140:前記被検対象に対する情報の収集を停止する。
特定のプリセット時点において被検対象の優先度の最も高い属性種類に対応する認識結果を取得した場合は、最も詳細な認識結果を得たことを示し、このため、本実施例では、不要な計算量及びエネルギー消費を減らすために、最も詳細な認識結果を取得した時に、該被検対象に対する情報の収集を停止することができる。
もちろん、特定のプリセット時点において最も詳細な認識結果を取得した時に、前記被検対象に対する情報の収集を停止するという実施形態は実施形態の1つに過ぎず、実際に使用する際に、他の実施形態を用いてステップ140を実行してもよいことが理解されるべきである。例えば、幾つかの実施形態では、出力された認識結果の正確さを保証するために、特定のプリセット時点において被検対象の優先度の最も高い属性種類に対応する認識結果を取得した場合は、該認識結果が最初に取得した最も詳細な認識結果であるか否かをまず判定してもよく、もしそうであれば、下記のステップ150を実行し、そうでなければ、現在取得した最も詳細な認識結果及び前に取得した最も詳細な認識結果を検証し、検証に成功すれば、該被検対象に対する情報の収集を停止し、検証に失敗すれば、下記のステップ150に進む。
ステップ150:次のプリセット時間帯内に収集した前記被検対象に対する情報を判定情報とする。
本実施例では、特定のプリセット時点において、例えば1つ目のプリセット時点において、被検対象の優先度の最も高い属性種類に対応する認識結果を取得していなければ、このとき最も詳細な認識結果を得ていないことが示され、より詳細な認識結果を取得するために被検対象に対してさらに認識する必要があり、従って、ステップ130の判定結果が否定的である場合、インテリジェント端末は、被検対象に対する情報を収集し続け、次のプリセット時点、例えば2つ目のプリセット時点になると、該次のプリセット時間帯(2つ目のプリセット時点と1つ目のプリセット時点との間の時間帯)内に収集した該被検対象に対する情報を判定情報とし、上記のステップ130に戻し、それによってインテリジェント端末は「次のプリセット時点」(2つ目のプリセット時点)における該被検対象の認識結果を取得する。
上記の技術的解決手段から分かるように、本願の実施例の有益な効果は以下のとおりである。本願の実施例にて提供される対象認識方法は、被検対象に対する説明の詳細度によって、被検対象の属性に対して優先度順位を有する複数の属性種類に分割し、且つ、認識のプロセスでは、プリセット時間帯内に収集した被検対象に対する情報を判定情報とし、そして該判定情報及び該判定情報を収集する前に取得したデータに基づいて、該被検対象の現在時刻における認識結果を取得して出力し、また、現在時刻における認識結果に対応する属性種類の優先度が最上位ではなければ、即ち現在時刻において取得した認識結果が最も詳細な認識結果ではなければ、次のプリセット時間帯内に該被検対象に対する情報を収集し続け、そして、該情報を判定情報とし、上記の認識ステップ及び判定ステップを繰り返すことにより、異なる認識場面においても被検対象に対する認識結果を適時出力でき、また、取得した認識結果が最も詳細な認識結果ではなければ、情報収集時間の累積につれて、より豊富な情報に基づいてより詳細な認識結果を次第に出力し、それによって対象認識の適時性と詳細度を折衷でき、ユーザ体験を向上させる。
<実施例2>
実際の適用場面では、2つの連続するプリセット時点において同じ認識結果を取得することがあると考えながら、同じ認識結果の繰り返し出力を回避して、ユーザ体験を向上させるために、本願の実施例2はさらに別の対象認識方法を提供し、該方法と実施例1にて提供される対象認識方法の相違点としては、認識結果を出力する前に、被検対象の現在時刻における認識結果に対応する属性種類の優先度が被検対象の前の時刻における認識結果に対応する属性種類より高いか否かを判定する必要があり、そうであれば、該認識結果を出力し、そうでなければ、該認識結果を出力しない。
具体的には、図2に示すように、本願の実施例にて提供される別の目標認識方法の概略フローチャートであって、該方法は、ステップ210〜ステップ242を含むが、これらに限定されるものではない。
ステップ210:プリセット時間帯内に収集した被検対象に対する情報を判定情報とする。
ステップ220:前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得する。
本実施例では、特定のプリセット時点における被検対象の認識結果を取得した後、下記のステップ230及び240を同時に実行する。
ステップ230:前記被検対象の現在時刻における認識結果に対応する属性種類の優先度が前記被検対象の前の時刻における認識結果に対応する属性種類より高いか否かを判定する。
本実施例では、特定のプリセット時点(即ち現在時刻)における被検対象の認識結果を取得した場合は、まず、インテリジェント端末が該プリセット時点(即ち現在時刻)において取得した認識結果に対応する属性種類の優先度が前のプリセット時点において取得した認識結果に対応する属性種類(即ち前の時刻)より高いか否かを判定し、そうであれば、現在時刻において取得した認識結果は前の時刻において取得した認識結果より詳細であると示され、それによってステップ231を実行し、現在時刻において取得した認識結果を出力する。そうでなければ、ステップ232を実行し、現在時刻において取得した認識結果を出力しない。
ステップ231:前記認識結果を出力する。
ステップ232:前記認識結果を出力しない。
ステップ240:前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定する。
本実施例では、本ステップ240はステップ230と同期して実行されてもよく、前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であれば、ステップ241を実行する。前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類ではなければ、ステップ242を実行する。
ステップ241:前記被検対象に対する情報の収集を停止する。
ステップ242:次のプリセット時間帯内に収集した前記被検対象に対する情報を判定情報とする。
なお、本実施例では、上記のステップ210、220、240、241及び242は、それぞれ実施例1のステップ110、120、130、140及び150と同じ又は類似の技術的特徴を有するため、実施例1における具体的な実施形態も本実施例に適用可能であり、本実施例はその詳細な説明を省略する。
上記の技術的解決手段から分かるように、本願の実施例の有益な効果は以下のとおりである。本願の実施例にて提供される対象認識方法は、取得した認識結果を出力する前に、現在時刻における被検対象の認識結果に対応する属性種類の優先度が前の時刻における被検対象の認識結果に対応する属性種類より高いか否かをまず判定し、そうである限り、該認識結果を出力し、それによって同じ認識結果を繰り返し出力してユーザに迷惑をかけることを回避し、ユーザ体験を向上させる。
<実施例3>
図3は本願の実施例にて提供される対象認識装置の概略構造図であり、図3に示すように、該対象認識装置は、情報収集ユニット31と、認識ユニット32と、判定ユニット33とを含む。
情報収集ユニット31は、プリセット時間帯内に収集した属性間に優先度関係が設定される少なくとも2種類の属性を含む被検対象に対する情報を判定情報とするために用いられる。
認識ユニット32は、前記判定情報及び判定情報を収集する前に取得したデータに基づいて前記被検対象の現在時刻における認識結果を取得するための認識モジュール321と、前記認識結果を出力するための出力モジュール322と、を含み、前記認識結果は前記属性種類のいずれか1種に対応し、ここで、幾つかの実施例では、前記認識結果は前記属性種類のいずれか1種に対応する判定結果であり、前記判定結果の信頼度はプリセット条件を満たし、且つ、前記認識結果に対応する属性種類は、信頼度がプリセット条件を満たす判定結果に対応する属性種類のうち、優先度が最も高い。
判定ユニット33は、前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定し、そうでなければ、情報収集ユニット31が次のプリセット時間帯内に収集した前記被検対象に対する情報を前記判定情報として認識ユニット32に出力するように制御するために用いられる。
本実施例では、対象認識が必要な場合は、まず情報収集ユニット31によって被検対象に対して情報を収集し、プリセット時間帯内に収集した被検対象に対する情報を判定情報として認識ユニット32に入力し、認識ユニット32において、認識モジュール321によって前記判定情報及び判定情報を収集する前に取得したデータに基づいて前記被検対象の現在時刻における認識結果を取得し、さらに出力モジュール322によって前記認識結果を出力し、また、判定ユニット33において、前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定し、そうでなければ、情報収集ユニット31が次のプリセット時間帯内に収集した前記被検対象に対する情報を前記判定情報として認識ユニット32に送り返すように制御する。
ここで、幾つかの実施例では、前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に収集した前記被検対象に対する情報を含み、こうして、認識モジュール321は具体的に、前記判定情報及び前記判定情報を収集する前に収集した前記被検対象に対する情報の特徴を融合し、融合された特徴に基づいて前記被検対象の現在時刻における認識結果を取得するために用いられる。
ここで、幾つかの実施例では、前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に収集した前記被検対象に対する情報を含み、こうして、認識モジュール321は具体的に、前記判定情報に対応する認識結果を取得し、前記判定情報に対応する認識結果及び前記判定情報を収集する前に取得した認識結果から、属性種類の優先度が最も高い認識結果を前記被検対象の現在時刻における認識結果として選択するために用いられる。
ここで、幾つかの実施例では、認識ユニット32はさらに判定モジュール323を含む。
該判定モジュール323は、前記被検対象の現在時刻における認識結果に対応する属性種類の優先度が前記被検対象の前の時刻における認識結果に対応する属性種類より高いか否かを判定し、そうであれば、出力モジュール322によって前記認識結果を出力し、そうでなければ、出力モジュール322が前記認識結果を出力しないように制御するために用いられる。
さらに、幾つかの実施例では、該対象認識装置3は、前記認識結果に対応するインタラクション信号を送信するために用いられるインタラクションユニット34をさらに含む。
なお、前記対象認識装置と上記の方法の実施例における対象認識方法は同じ発明概念を基にするため、上記の方法の実施例の対応する内容及び有益な効果は、本装置の実施例にも適用可能であり、ここでは詳細な説明を省略する。
上記の技術的解決手段から分かるように、本願の実施形態の有益な効果は以下のとおりである。本願の実施例にて提供される対象認識装置は、被検対象に対する説明の詳細度によって、被検対象の属性に対して優先度順位を有する複数の属性種類に分割し、且つ、認識のプロセスでは、情報収集ユニット31によってプリセット時間帯内に収集した被検対象に対する情報を判定情報とし、そして認識ユニット32において該判定情報及び該判定情報を収集する前に取得したデータに基づいて、該被検対象の現在時刻における認識結果を取得して出力し、また、判定ユニット33によって現在時刻における認識結果に対応する属性種類の優先度が最上位であるか否かを判定し、そうであれば、情報収集ユニット31が次のプリセット時間帯において該被検対象に対する情報を収集し続けるように制御し、そして、該情報を判定情報として認識ユニット32に送信することにより、異なる認識場面においても被検対象に対する認識結果を適時出力でき、また、取得した認識結果が最も詳細な認識結果ではなければ、情報収集時間の累積につれて、より豊富な情報に基づいてより詳細な認識結果を次第に出力し、それによって対象認識の適時性と詳細度を折衷でき、ユーザ体験を向上させる。
<実施例4>
図4は本願の実施例にて提供されるインテリジェント端末のハードウェアの概略構造図であり、該インテリジェント端末400は、ロボット、盲導メガネ、スマートヘルメット、スマートフォン、タブレットコンピュータ、サーバなど、あらゆる種類のインテリジェント端末であってもよく、上記の方法の実施例1及び実施例2にて提供される対象認識方法を実行することができる。
具体的には、図4に示すように、該インテリジェント端末400は、
1つ以上のプロセッサ401及びメモリ402を含み、図4には1つのプロセッサ401を例として示す。
プロセッサ401とメモリ402はバス又は他の方式によって接続されてもよく、図4にはバスによる接続を例として示す。
メモリ402は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム及びモジュールを記憶するために用いられてもよく、例えば本願の実施例における対象認識方法に対応するプログラムコマンド/モジュール(例えば、図3に示される情報収集ユニット31、認識ユニット32、判定ユニット33及びインタラクションユニット34)が挙げられる。プロセッサ401は、メモリ402に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することによって、対象認識装置の様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例のいずれかの対象認識方法を実現する。
メモリ402はプログラム記憶領域及びデータ記憶領域を含んでもよく、そのうち、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は対象認識装置の使用によって生成されたデータを記憶することができる。さらに、メモリ402は高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的固体記憶デバイスなど、非一時的メモリも含んでもよい。幾つかの実施例では、メモリ402は、プロセッサ401に対して遠隔に配置されたメモリを含むことが好ましく、これらの遠隔メモリはネットワークを介してインテリジェント端末400に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されるものではない。
前記1つ以上のモジュールは前記メモリ402に記憶され、前記1つ以上のプロセッサ401によって実行されると、上記の方法の実施例のいずれかにおける対象認識方法を実行し、例えば、上記した図1に示される方法のステップ110乃至ステップ150を実行し、図2に示される方法のステップ210乃至ステップ242を実行し、図3に示されるユニット31−34の機能を実行する。
<実施例5>
本願の実施例は非一時的コンピュータ可読記憶媒体をさらに提供し、前記非一時的コンピュータ可読記憶媒体には、コンピュータ実行可能コマンドが記憶されており、該コンピュータ実行可能コマンドは1つ以上のプロセッサによって実行され、例えば、図4に示されるプロセッサ401によって実行され、それによって上記の1つ以上のプロセッサは上記の方法の実施例における対象認識方法を実行でき、例えば、上記した図1に示される方法のステップ110乃至ステップ150を実行し、図2に示される方法のステップ210乃至ステップ242を実行し、図3に示されるユニット31−34の機能を実行する。
上記した装置の実施例は単なる例示的であり、分離した部材として説明された前記ユニットは物理的に分離しているものであってもよいし、そうでなくてもよくユニットとして表示されたユニットは物理的ユニットであってもよいし、そうでなくてもよく、即ち、1つの場所に位置してもよく、複数のネットワークユニットに分散してもよい。本実施例の解決手段の目的を達成するために、実際のニーズに基づいて、そのうち一部又はすべてのユニットを選択してもよい。
上記の実施形態の説明を通して、当業者は、各実施形態がソフトウェアに加えて一般的なハードウェアプラットフォームによって実現でき、もちろんハードウェアによっても実現できると明確に理解すべきである。当業者であれば、上記の実施例の方法におけるフローの全部又は一部は、コンピュータプログラムによって関連するハードウェアを命令することで実現でき、前記プログラムは非一時的コンピュータ可読記憶媒体に記憶することができ、該プログラムは実行時に、上記の方法の実施例のフローを含んでもよいことが理解されるべきである。前記記憶媒体は、磁気ディスク、コンパクトディスク、読み取り専用メモリ(Read−Only Memory、ROM)、又はランダムアクセスメモリ(Random Access Memory、RAM)であってもよい。
上記の製品は、本願の実施例にて提供される対象認識方法を実行することができ、対象認識方法を実行するための機能モジュール及び有益な効果を有する。本実施例において詳細に説明されていない技術的詳細については、本願の実施例にて提供される対象認識方法を参照してもよい。
最後に、上記の実施例は、本願の技術的解決手段を説明するために用いられるものに過ぎず、それを限定するものではなく、本願の思想において、上記の実施例又は異なる実施例における技術的特徴は組み合わせてもよく、ステップは任意の順序に従って実現してもよく、且つ上記のように本願の異なる態様の他の多くの変形形態があり、簡潔にするために、それらは詳細に記載されていない。上記した実施例を参照して本願について詳細に説明したが、当業者であれば、上記した実施例に記載の技術的解決手段を修正するか、又は技術的特徴の一部に対して等価置換を行ってもよく、これらの修正又は置換は、それ相応な技術的解決手段が本願の各実施例の技術的解決手段の範囲から逸脱しないことが理解されるべきである。

Claims (15)

  1. インテリジェント端末に適用する対象認識方法であって、
    プリセット時間帯内に収集した属性間に優先度関係が設定される少なくとも2種類の属性を含む被検対象に対する情報を判定情報とするステップと、
    前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得し、前記認識結果を出力し、前記認識結果が前記属性種類のいずれか1種に対応するステップと、
    前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定するステップと、
    そうでなければ、次のプリセット時間帯内に収集した前記被検対象に対する情報を判定情報とし、且つ前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得し、前記認識結果を出力する前記ステップに戻すステップと、を含むことを特徴とする対象認識方法。
  2. 前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に収集した前記被検対象に対する情報を含み、
    こうして、前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得する前記ステップは、
    前記判定情報及び前記判定情報を収集する前に収集した前記被検対象に対する情報の特徴を融合することと、
    融合された特徴に基づいて前記被検対象の現在時刻における認識結果を取得することと、を含むことを特徴とする請求項1に記載の対象認識方法。
  3. 前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に取得した認識結果を含み、
    こうして、前記判定情報及び前記判定情報を収集する前に取得したデータに基づいて、前記被検対象の現在時刻における認識結果を取得する前記ステップは、
    前記判定情報に対応する認識結果を取得することと、
    前記判定情報に対応する認識結果及び前記判定情報を収集する前に取得した認識結果から、属性種類の優先度が最も高い認識結果を前記被検対象の現在時刻における認識結果として選択することと、を含むことを特徴とする請求項1に記載の対象認識方法。
  4. 前記認識結果は前記属性種類のいずれか1種に対応する判定結果であり、前記判定結果の信頼度はプリセット条件を満たし、且つ、前記認識結果に対応する属性種類は、信頼度がプリセット条件を満たす判定結果に対応する属性種類のうち、優先度が最も高いことを特徴とする請求項1から請求項3のいずれか一項に記載の対象認識方法。
  5. 前記認識結果を出力する前記ステップの前に、
    前記被検対象の現在時刻における認識結果に対応する属性種類の優先度が前記被検対象の前の時刻における認識結果に対応する属性種類より高いか否かを判定し、
    そうであれば、前記認識結果を出力することをさらに含むことを特徴とする請求項1から請求項3のいずれか一項に記載の対象認識方法。
  6. 前記認識結果を出力する前記ステップの後、
    前記認識結果に対応するインタラクション信号を送信することをさらに含むことを特徴とする請求項1から請求項3のいずれか一項に記載の対象認識方法。
  7. インテリジェント端末に適用する対象認識装置であって、
    プリセット時間帯内に収集した属性間に優先度関係が設定される少なくとも2種類の属性を含む被検対象に対する情報を判定情報とするために用いられる情報収集ユニットと、
    前記判定情報及び判定情報を収集する前に取得したデータに基づいて前記被検対象の現在時刻における認識結果を取得するための認識モジュールと、前記認識結果を出力するための出力モジュールと、を含み、前記認識結果が前記属性種類のいずれか1種に対応する認識ユニットと、
    前記認識結果に対応する属性種類が、前記少なくとも2種類の属性のうち優先度の最も高い属性種類であるか否かを判定し、
    そうでなければ、情報収集ユニットが次のプリセット時間帯内に収集した前記被検対象に対する情報を前記判定情報として認識ユニットに出力するように制御するために用いられる判定ユニットと、を含むことを特徴とする対象認識装置。
  8. 前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に収集した前記被検対象に対する情報を含み、
    こうして、前記識モジュールは具体的に、
    前記判定情報及び前記判定情報を収集する前に収集した前記被検対象に対する情報の特徴を融合し、
    融合された特徴に基づいて前記被検対象の現在時刻における認識結果を取得するために用いられることを特徴とする請求項7に記載の対象認識装置。
  9. 前記判定情報を収集する前に取得した前記データは、前記判定情報を収集する前に取得した認識結果を含み、
    こうして、前記認識モジュールは具体的に、
    前記判定情報に対応する認識結果を取得し、
    前記判定情報に対応する認識結果及び前記判定情報を収集する前に取得した認識結果から、属性種類の優先度が最も高い認識結果を前記被検対象の現在時刻における認識結果として選択するために用いられることを特徴とする請求項7に記載の対象認識装置。
  10. 前記認識結果は前記属性種類のいずれか1種に対応する判定結果であり、前記判定結果の信頼度はプリセット条件を満たし、且つ、前記認識結果に対応する属性種類は、信頼度がプリセット条件を満たす判定結果に対応する属性種類のうち、優先度が最も高いことを特徴とする請求項7から請求項9のいずれか一項に記載の対象認識装置。
  11. 前記認識ユニットは、
    前記被検対象の現在時刻における認識結果に対応する属性種類の優先度が前記被検対象の前の時刻における認識結果に対応する属性種類より高いか否かを判定し、
    そうであれば、前記認識結果を出力するために用いられる判定モジュールをさらに含むことを特徴とする請求項7から請求項9のいずれか一項に記載の対象認識装置。
  12. 前記対象認識装置は、
    前記認識結果に対応するインタラクション信号を送信するために用いられるインタラクションユニットをさらに含むことを特徴とする請求項7から請求項9のいずれか一項に記載の対象認識装置。
  13. インテリジェント端末であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されているメモリと、を含み、
    ここで、前記メモリに前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記少なくとも1つのプロセッサが請求項1から請求項6のいずれか一項に記載の対象認識方法を実行することを可能にするように前記コマンドは前記少なくとも1つのプロセッサによって実行されることを特徴とするインテリジェント端末。
  14. 非一時的コンピュータ可読記憶媒体であって、前記非一時的コンピュータ可読記憶媒体にはインテリジェント端末に請求項1から請求項6のいずれか一項に記載の対象認識方法を実行させるためのコンピュータ実行可能コマンドが記憶されていることを特徴とする非一時的コンピュータ可読記憶媒体。
  15. コンピュータプログラム製品であって、前記コンピュータプログラム製品は非一時的コンピュータ可読記憶媒体に記憶されているコンピュータプログラムを含み、前記コンピュータプログラムはプログラムコマンドを含み、前記プログラムコマンドがインテリジェント端末によって実行されると、インテリジェント端末に請求項1から請求項6のいずれか一項に記載の対象認識方法を実行させることを特徴とするコンピュータプログラム製品。
JP2020514952A 2017-09-15 2017-09-15 対象認識方法、装置及びインテリジェント端末 Active JP7104779B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/101966 WO2019051813A1 (zh) 2017-09-15 2017-09-15 一种目标识别方法、装置和智能终端

Publications (2)

Publication Number Publication Date
JP2020535501A true JP2020535501A (ja) 2020-12-03
JP7104779B2 JP7104779B2 (ja) 2022-07-21

Family

ID=62142062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020514952A Active JP7104779B2 (ja) 2017-09-15 2017-09-15 対象認識方法、装置及びインテリジェント端末

Country Status (4)

Country Link
US (1) US11036990B2 (ja)
JP (1) JP7104779B2 (ja)
CN (1) CN108064389B (ja)
WO (1) WO2019051813A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020014842A1 (zh) * 2018-07-16 2020-01-23 深圳达闼科技控股有限公司 一种物质检测的方法、装置、终端和可读存储介质
CN109543569A (zh) * 2018-11-06 2019-03-29 深圳绿米联创科技有限公司 目标识别方法、装置、视觉传感器及智能家居系统
CN111200534B (zh) * 2018-11-16 2022-01-18 中国电信股份有限公司 终端信息的确定方法和装置
CN111581436B (zh) * 2020-03-30 2024-03-22 西安天和防务技术股份有限公司 目标识别方法、装置、计算机设备和存储介质
CN114666169B (zh) * 2022-05-24 2022-08-12 杭州安恒信息技术股份有限公司 一种扫描探测类型的识别方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134302A (ja) * 2009-11-25 2011-07-07 Kddi Corp 2次コンテンツ提供システムおよび方法
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
CN106934817A (zh) * 2017-02-23 2017-07-07 中国科学院自动化研究所 基于多属性的多目标跟踪方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711145B2 (en) * 2006-01-27 2010-05-04 Eastman Kodak Company Finding images with multiple people or objects
US8315463B2 (en) * 2006-11-14 2012-11-20 Eastman Kodak Company User interface for face recognition
JP2011107899A (ja) * 2009-11-16 2011-06-02 Sony Corp 情報処理装置、設定変更方法及び設定変更プログラム
US9389774B2 (en) * 2010-12-01 2016-07-12 Sony Corporation Display processing apparatus for performing image magnification based on face detection
US9055276B2 (en) * 2011-07-29 2015-06-09 Apple Inc. Camera having processing customized for identified persons
US20130027569A1 (en) * 2011-07-29 2013-01-31 Kenneth Alan Parulski Camera having processing customized for recognized persons
CN102521558B (zh) * 2011-11-18 2014-04-02 深圳市宝捷信科技有限公司 一种条码识别方法及装置
JP2013207357A (ja) * 2012-03-27 2013-10-07 Sony Corp サーバ、クライアント端末、システムおよびプログラム
CN105844283B (zh) * 2015-01-16 2019-06-07 阿里巴巴集团控股有限公司 用于识别图像类目归属的方法、图像搜索方法及装置
EP3502939B1 (en) * 2016-08-19 2023-06-14 Tencent Technology (Shenzhen) Company Limited Authentication method based on virtual reality scene, virtual reality device, and storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134302A (ja) * 2009-11-25 2011-07-07 Kddi Corp 2次コンテンツ提供システムおよび方法
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
CN106934817A (zh) * 2017-02-23 2017-07-07 中国科学院自动化研究所 基于多属性的多目标跟踪方法及装置

Also Published As

Publication number Publication date
WO2019051813A1 (zh) 2019-03-21
US20200218897A1 (en) 2020-07-09
US11036990B2 (en) 2021-06-15
CN108064389A (zh) 2018-05-22
CN108064389B (zh) 2019-02-01
JP7104779B2 (ja) 2022-07-21

Similar Documents

Publication Publication Date Title
JP7104779B2 (ja) 対象認識方法、装置及びインテリジェント端末
US11501781B2 (en) Methods and systems for passive wakeup of a user interaction device
CN109240576B (zh) 游戏中的图像处理方法及装置、电子设备、存储介质
KR102288344B1 (ko) 서비스 실행 방법 및 디바이스
TWI544830B (zh) 一種穿戴式設備之間的互動方法
WO2020042993A1 (zh) 语音控制方法、装置及系统
KR102050006B1 (ko) 서비스 실행 방법 및 장치
CN107992728B (zh) 人脸验证方法及装置
WO2019051814A1 (zh) 一种目标识别方法、装置和智能终端
WO2019056267A1 (zh) 一种分级交互决策方法、交互终端以及云端服务器
US11620995B2 (en) Voice interaction processing method and apparatus
CN109272320A (zh) 基于用户行为特征的身份识别方法、装置及设备
CN104102181A (zh) 智能家居控制方法、装置及系统
CN111144284B (zh) 深度人脸图像的生成方法、装置、电子设备及介质
US20140214832A1 (en) Information gathering via crowd-sensing
JP2022542413A (ja) 投影方法および投影システム
TWI789586B (zh) 近場通訊認證的發起方法及相關裝置
US20190087381A1 (en) Method and apparatus for controlling serial peripheral interface of fingerprint sensor, and mobile terminal
WO2018103024A1 (zh) 智能导盲方法和装置
JP2021179642A (ja) 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム
CN109815405A (zh) 灰度分流方法与系统
CN112908321A (zh) 设备控制方法、装置、存储介质及电子装置
US20220171964A1 (en) Method, apparatus, computing device and computer-readable storage medium for monitoring use of target item
CN104834906A (zh) 一种人员身份确认方法、装置和移动终端
CN110059518A (zh) 一种扫码方法、装置及移动终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220708

R150 Certificate of patent or registration of utility model

Ref document number: 7104779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150