JP2020201938A - ライブビデオ及びオブジェクト検出を介して物理オブジェクトをドキュメント化する要求を報告するための方法、プログラム及び装置 - Google Patents

ライブビデオ及びオブジェクト検出を介して物理オブジェクトをドキュメント化する要求を報告するための方法、プログラム及び装置 Download PDF

Info

Publication number
JP2020201938A
JP2020201938A JP2020055901A JP2020055901A JP2020201938A JP 2020201938 A JP2020201938 A JP 2020201938A JP 2020055901 A JP2020055901 A JP 2020055901A JP 2020055901 A JP2020055901 A JP 2020055901A JP 2020201938 A JP2020201938 A JP 2020201938A
Authority
JP
Japan
Prior art keywords
request
item
viewer
payload
live video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020055901A
Other languages
English (en)
Other versions
JP7472586B2 (ja
Inventor
カーター スコット
Scott Carter
カーター スコット
ローラン ドゥヌ
Laurent Denoue
ドゥヌ ローラン
ダニエル アブラハミ
Avrahami Daniel
ダニエル アブラハミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2020201938A publication Critical patent/JP2020201938A/ja
Application granted granted Critical
Publication of JP7472586B2 publication Critical patent/JP7472586B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【課題】情報の要求に対し、ライブビデオによるオブジェクト検出を用いて、要求されたアイテム(項目)をカタログ化することができる方法、プログラム及び装置を提供する。【解決手段】第三者発信元から、又はテンプレートにより、要求を受信してペイロードを生成し、ビューアを介してライブビデオを受信し、ライブビデオ内のオブジェクトで認識処理を実行して、オブジェクトがペイロード内のアイテムであるかどうかを判断し、オブジェクトが認識処理の判断に一致する可能性を示す閾値を用いてオブジェクトをフィルタリングし、アイテムの選択を示す入力を受信し、受信した入力に基づいてテンプレートを更新し、オブジェクトに関連付けられた情報を提供して要求を完了する、コンピュータ実装方法が提供される。【選択図】図9

Description

実施例の態様は、アプリケーション、遠隔地の人物又は組織からの情報の要求への応答に関連する方法、プログラム、装置、及びユーザ体験に関連し、より具体的には、情報の要求をライブオブジェクト認識ツールに関連付けて、要求されたアイテム(項目)をカタログ化し、要求されたアイテムの現在の状態に関連する証拠を収集する。
関連技術では、アプリケーション、遠隔地の人物又は組織によって情報の要求が生成されることがある。そのような情報要求に応じて、関連技術のアプローチは、要求に関連付けられた物理オブジェクトの存在及び状態の少なくとも一方をドキュメント化することを伴い得る。例えば、写真、ビデオ、又はメタデータが、要求をサポートする証拠として提供され得る。
いくつかの関連技術のシナリオでは、不動産仲介業者用に、買い手又は売り手によって不動産リストが生成され得る。不動産リストでは、買い手又は売り手、もしくは不動産仲介業者は、不動産のさまざまな特徴に関連するドキュメントを提供する必要がある。例えば、ドキュメントには、敷地の状態、不動産の建物内にある設備、備品やその他の用具の状態などに関する情報が含まれ得る。
同様に、関連技術のシナリオには、短期間のレンタル(自動車、家屋などの宿泊施設など)が含まれ得る。例えば、賃貸人は、レンタルの前後に、アイテムの存在や状態の証拠など、資産のアイテムに関連する証拠を収集する必要があり得る。このような情報は、保守の実行、アイテムの交換、保険金請求の提出などが必要かどうかを評価するのに役立ち得る。
保険金請求の場合、保険会社は証拠提供を請求者に要求する場合がある。例えば、衝突などによる自動車の損傷の場合、請求者は、保険金請求とともに写真又はその他の証拠などのメディアを提供する必要があり得る。
別の関連技術の場合、オンラインで販売される物品(オブジェクト)などの動産の売り手は、オンライン販売ウェブサイト又はアプリケーションで公開するために、アイテムのさまざまな特徴をドキュメント化する必要があり得る。例えば、自動車の売り手は、購入希望者が車体、エンジン、タイヤ、インテリアなどの写真を見ることができるように、自動車のさまざまな部品の状態を記録する必要があり得る。
さらに別の関連技術の場合、サービスを提供する主体(例えば、多機能プリンタ(MFP)などのプリンタにサービスを提供する主体)は、サービスの提供前と提供後の両方で、サービスが実行される対象(オブジェクト)の状態をドキュメント化する必要があり得る。例えば、検査官又はフィールド技術者は、作業指示を提出する前に1つ又は複数の特定の問題をドキュメント化するか、作業指示が正常に完了したことを確認し、サービスの前後に対象の物理的状態を確認する必要があり得る。
医療分野における関連技術のアプローチでは、手術器具の確認と一覧の作成が必要である。外科的処置では、外科的有害事象(SAE)を回避するために、外科手術の実施後にすべての手術器具が正常に収集され、把握されていることが重要である。より具体的には、手術中に不注意でアイテムが患者の体内に残され、その後除去されない場合、外科的有害事象として「異物遺残(retained surgical item:RSI)」が発生し得る。
医療分野における別の関連技術のアプローチでは、医療専門家は、患者の問題の適切なドキュメントを確認する必要があり得る。例えば、医療専門家は、患者から、傷、皮膚障害、手足の柔軟性の状態、又は他の医学的状態のドキュメントを提供される必要がある。この必要性は、遠隔医療インターフェースなどを介して遠隔で対応する患者を考慮する場合に特に重要である。
前述の関連技術のシナリオなどでは、ドキュメントを提供する関連技術の手順がある。より具体的には、関連技術では、要求を完了させるために必要なドキュメントは静的リストから生成され、情報はその後に要求者に提供される。さらに、更新を行う必要がある場合は、更新を手動で実行する必要がある。
しかし、この関連技術のアプローチには、さまざまな問題及び欠点がある。例えば、これに限定されないが、静的リストから受け取った情報は、不完全又は不正確なドキュメントにつながり得る。さらに、時間とともに状況が変化しても、静的リストはまれにしか更新されないか、手動で更新及び検証される場合があり得る。静的リストが十分に迅速に更新されない場合、又は更新と検証が手動で実行されない場合、物理的オブジェクトの状態に関連する文書が正確で完全かつ最新であると誤って理解又は想定され、このような文書への依存に関連して上記の問題につながる。
したがって、物理的オブジェクトの状態の最新かつ正確なドキュメントを提供し、ドキュメントの手動更新及び検証に関連する問題と欠点とを回避するリアルタイム・ドキュメンテーションを提供するという、関連技術において満たされていないニーズがある。
"How to Retrain an Image Classifier for New Categories" TensorFlow, https://www.tensorflow.org/hub/tutorials/image retraining; 2019年6月10日検索 BOHANNON, CAITLYN "State Farm claims app adds object recognition for simple submission" RETAILDIVE, https:// www.retaildive.com/ex/mobilecommercedaily/state-farm-claims-app-adds-object-recognition-for-simple-submission; 2019年6月10日検索 Tractable; https://tractable.ai/products/car-accidents/; 2019年6月10日検索 SEIF, GEORGE "Transfer Learning for Image Classification using Keras" Towards Data Science; https://towardsdatascience.com/transfer-learning-for-image-classification-using-keras-c47ccf09c8c8; 2019年6月10日検索 ViewSpection; https://www.viewspection.com; 2019年6月10日検索 CARTER, S. et al. "Nudgecam: Toward targeted, higher quality media capture". In Proceedings of the International Conference on Multimedia, MM’10, 2010年10月25日〜29日; pp. 615-618; イタリア国フィレンツェ SEGVIC, S. et al. "A computer vision assisted geoinformation inventory for traffic infrastructure" In Proceedings of the International IEEE Conference on Intelligent Transportation Systems, 2010年; pp. 66-73
本発明は、情報の要求に対し、ライブビデオによるオブジェクト検出を用いて、要求されたアイテム(項目)をカタログ化することができる方法、プログラム及び装置を提供することを課題とする。
実施例の態様によれば、第三者(third party)発信元から、又はテンプレートにより、要求を受信してペイロードを生成し、ビューアを介してライブビデオを受信し、ライブビデオ内のオブジェクトに対して認識処理を実行してオブジェクトがペイロード内のアイテムであるかどうかを判断し、オブジェクトが認識処理の判断に一致する可能性を示す閾値を用いてオブジェクトをフィルタリングし、アイテムの選択を示す入力を受信し、受信した入力に基づいてテンプレートを更新し、オブジェクトに関連付けられた情報を提供して要求を完了する、コンピュータ実装方法が提供される。
さらなる態様によれば、第三者の外部発信元から受信した要求について、第三者の外部発信元は、データベース、ドキュメント、及びアプリケーションに関連する手動又は自動化された要求の1つ以上を含む。
さらなる態様によれば、テンプレートを介して受信された要求について、ドキュメントが解析されてアイテムが抽出され、テンプレート分析アプリケーションプログラミングインターフェース(API)がペイロードを生成してもよい。
さらに他の態様によれば、ユーザは、階層配列において1つ以上のセクションのアイテムを選択することができる。
さらに他の態様によれば、ビューアは、認識装置によりビューアのフレームを分析する別個のスレッドを実行する。
さらなる態様によれば、オブジェクトは、要求に関連付けられたペイロードで受信されたアイテムに対してフィルタリングされる。また、各アイテムは、認識処理が実行されたオブジェクトに関してトークン化及び抽出(ステミング:stemming)される。
さらなる態様によれば、認識処理は、要求に基づいて、ビューア内にあると判定されたオブジェクトの閾値を引き上げるように動的に適合される。
さらなる態様によれば、情報は、記述(説明)、メタデータ、及びメディアのうちの少なくとも1つを含む。
実施例は、記憶装置及びプロセッサを有する非一時的コンピュータ可読媒体も含んでいてもよく、プロセッサは、オブジェクト検出によりライブビデオ内の物理的オブジェクトの状態を評価するための命令を実行可能である。
本発明の別の態様は、第三者発信元から、又はテンプレートにより、要求を受信してペイロードを生成し、ビューアを介してライブビデオを受信し、ライブビデオ内のオブジェクトに対して認識処理を実行して、オブジェクトがペイロード内のアイテムであるかどうかを判断し、オブジェクトが認識処理の決定と一致する可能性を示す閾値を用いてオブジェクトをフィルタリングし、アイテムの選択を示す入力を受信し、受信した入力に基づいてテンプレートを更新し、オブジェクトに関連付けられた情報を提供して要求を完了すること、を含む方法をコンピュータに実行させる、プログラムである。
ユーザは、1つ以上のセクションのアイテムを選択することができてもよい。
ビューアは、認識装置でビューアのフレームを分析する別個のスレッドを実行してもよい。
本方法は、要求に関連するペイロードで受信されたアイテムに対してオブジェクトをフィルタリングすることをさらに含んでもよく、各アイテムは認識処理が実行されたオブジェクトに関してトークン化及びステミングされてもよい。
認識処理は、要求に基づいて前記ビューア内にあると判定された前記オブジェクトの閾値を引き上げるように動的に適合されてもよい。
情報は、記述、メタデータ、及びメディアのうちの少なくとも1つを含んでもよい。
本発明の別の態様は、要求を処理可能である装置であって、テンプレートにより前記要求を受信し、ペイロードを生成する手段と、ビューアを介してライブビデオを受信し、ライブビデオ内のオブジェクトに対して認識処理を実行して、前記オブジェクトが前記ペイロード内のアイテムであるかどうかを判断する手段と、オブジェクトが認識処理の決定と一致する可能性を示す閾値を用いてオブジェクトをフィルタリングする手段と、ユーザによるアイテムの選択を示す入力を受信する手段と、受信した前記入力に基づいてテンプレートを更新し、オブジェクトに関連付けられた情報を提供して要求を完了する手段と、を備えて構成される。
ビューアをさらに備え、ビューアは、認識装置により前記ビューアのフレームを分析する別個のスレッドを実行してもよい。
認識処理を実行することは、要求に関連するペイロードで受信されたアイテムに対してオブジェクトをフィルタリングすることをさらに含み、各アイテムは、認識処理が実行されたオブジェクトに関してトークン化及びステミングされてもよい。
認識処理の実行が、要求に基づいてビューア内にあると判定されたオブジェクトの閾値を引き上げるように動的に適合されてもよい。
実施例によるデータフローのさまざまな態様を示す。 実施例によるシステムアーキテクチャのさまざまな態様を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例によるユーザ体験の例を示す。 いくつかの実施例のプロセス例を示す。 いくつかの実施例での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境の例を示す。 いくつかの実勢例に適した環境の例を示す。
以下の詳細な説明は、本出願の図面及び実施例のさらなる詳細を提供する。図面間で重複する要素参照番号と説明は、明確性のために省略されている。説明全体で使用される用語は例として提供されており、限定することを意図したものではない。
実施例の態様は、情報要求をライブオブジェクト認識ツールに結合することで、要求されたアイテムを半自動でカタログ化し、要求されたアイテムの現在の状態に関する証拠を収集することに関連するシステム及び方法に関する。例えば、ユーザは、ビデオカメラなどのビューア(例えば検知装置)を介して、環境を検知又はスキャンすることができる。さらに、関心対象である1つ以上のオブジェクトに関連付けられたメディアをカタログ化し、キャプチャするために、環境のスキャンが実行される。本実施例によれば、情報要求が取得され、対象(オブジェクト)がオンラインモバイルアプリケーションのライブビデオで検出され、情報要求に対する応答が提供される。
図1は、データフロー図に関連付けられた実施例100を示している。実施例100の説明は、実施例のフェーズ、すなわち、(1)情報要求の取得、(2)ライブビデオによるオブジェクトの検出、及び(3)情報要求に対する応答の生成、に関して提供される。本明細書では前述のフェーズについて説明しているが、フェーズの前、間、又は後に他の動作が行われてもよい。さらに、フェーズは即時に順番に実行される必要はなく、シーケンス間に一時停止時間をもって実行されてもよい。
情報要求取得フェーズでは、要求が処理のためにシステムに提供される。例えば、101に示すように、外部システムは、アプリケーション又は他のリソースからの情報記述子などの情報要求をオンラインモバイルアプリケーションに送信することができる。一実施例によれば、要求される情報に関連するテキスト記述を含むペイロード(情報本体)が取得され得る。例えば、ペイロード(例えば、JavaScript Object Notation:JSONなど)には、要求されたアイテムが現在選択されているかどうか、アイテムの種類(ラジオボックス項目、写真などのメディアなど)、及びアイテムが属するグループ又はセクションの説明のような追加の情報が、任意選択的に含まれ得る。
追加的に、103に示すように、情報要求を生成するために1つ以上のドキュメントテンプレートが提供されてもよい。本実施例では、ラジオボックスなどのドキュメント内の1つ以上のアイテムを抽出するために、ドキュメント分析ツールによる解析を実行することができる。ドキュメント分析ツールは任意選択的に、ドキュメントテンプレートに基づいて、写真、説明テキストなどを含むメディアなどの、より複雑な要求の抽出を実行し得る。
101及び103に関して上述したように、情報要求が取得されると、オンラインモバイルアプリケーションは、情報要求に基づいてユーザインターフェースを提供する。例えば、ユーザインターフェースはビデオベースであり得る。103に関して上述したように、ユーザはペイロードを生成するためにリストから選択することができる。103で取得された情報は、ライブビューア(例えばビデオカメラ)に提供され得る。103でのアプローチ例に関連するさらなる説明を図3に示し、以下でさらに説明する。
105で、ビデオベースのオブジェクト認識装置が起動する。実施例のさまざまな態様によれば、図4に関して以下でさらに詳細に説明するように、1つ以上のアイテムがライブビデオディスプレイ上にオーバーレイ表示され得る(例えば、候補アイテムが右上に表示され、ビューア内に表示されるライブビデオにオーバーレイされる)。ドキュメントテンプレートの異なるセクションに関連付けられたラジオボックスなど、異なるセクションを持つトークンがペイロードに含まれる場合、ユーザには、図4の左下に示すような、選択可能なセクションのリストを含む表示が提供される。
107で、フィルタリング動作が実行される。具体的には、信頼度の低いオブジェクトは除外される。109では、情報要求からのアイテムに対してフィルタリングが実行されるため、現在のリスト内のオブジェクトがビデオフレーム内で検出される。例えば、図4に関して、選択されている特定のセクションに対して、現在のアイテムのリストに対してフィルタが適用される。実施例によれば、ユーザは、以下でさらに説明するように、ドキュメントの異なるセクションで類似した名前のアイテムを選択することができる。
ユーザが操作するビューアは環境内のビューアをスキャンするため使われるため、オブジェクト認識装置を使用してライブビューアがフレームを分析する別のスレッドを実行する。一実施例によれば、TensorFlowLiteフレームワークが、約1000種類のアイテムを含み得るImageNetデータセットで学習された画像認識モデル(例えばInception−v3)で使用される。上述のように、構成可能な閾値フィルタが、システムが、信頼度が低いとするオブジェクトを排除する。
構成可能な閾値フィルタを通過するオブジェクトは、次いで、情報要求に関連付けられたアイテムに対してフィルタリングされる。オブジェクトがこのフィルタを通過するために、各アイテムはトークン化及び抽出(ステミング)され、次いでオブジェクトの記述が認識される。次に、各アイテムの少なくとも1つのトークンが、認識されたオブジェクトの少なくとも1つのトークンと一致される必要がある。例えば、これに限定されないが、「Coffee Filter」は「Coffee」、「Coffee Pot」などに一致することとなる。
オブジェクトが第2のフィルタを通過すると、111でオブジェクトのフレームがキャッシュされる。113で、オブジェクトは、ユーザインターフェース内のアイテムが強調表示されるなどにより、ユーザにより選択可能とされる。任意選択的に、キャッシュには、オプションとしての高解像度写真などのメディア又はオブジェクトの他のタイプのメディアが含まれてもよい。
さらに、オブジェクト認識装置は動的に適応できることに留意されたい。例えば、情報要求に基づいて、そのシーンで予想されるオブジェクトの種類の認識信頼度を強化させることができる。
ライブビデオでオブジェクトが検出されると、情報要求に対する応答が生成される。例えば、115において、ユーザは、クリック又はその他の方法でアイテムを選択する意思表示をすることにより、強調表示されたアイテムを選択することができる。
115でアイテムが選択されると、そのアイテムは候補アイテムのリストから削除され、選択されたアイテムのリストへ移される。例えば、図5のシーケンスに示すように、「Dishwasher」という言葉が選択されているので、これは上方の候補アイテムのアイテムリストから削除され、上方のアイテムリストの下にある選択されたアイテムのリストに移動される。
117で、オブジェクト選択イベントとメディアがアプリケーションに返される。さらに、バックグラウンドスレッドで、アプリケーションは、選択されたアイテムの記述及びメタデータ、並びにキャッシュされたメディア(写真など)を要求元のサービスに転送する。例えば、選択はバックエンドサービスに提供され得る。
119では、対応するドキュメントテンプレートの更新が即時(on-the-fly)で実行される。より具体的には、バックエンドサービスは、ラジオボックスに対応するアイテムを選択し得る。121では、写真などのアップロードされたメディアへのリンクの挿入など、対応する文書テンプレートにメディアが挿入される。
任意選択的に、ユーザは、オンラインモバイルアプリケーションとの相互作用により、任意の時点でアイテムを選択解除することができる。選択解除アクションは、選択解除イベントを生成し、これはリスティングサービスに提供される。
さらに、オンラインモバイルアプリケーションには、ドキュメントエディタ及びビューアが含まれてもよい。したがって、ユーザは、オブジェクト認識装置によって提供される更新を確認することできる。
図2は、実施例に関連するシステムアーキテクチャ200を示している。ドキュメントテンプレートのデータベース又は情報ベース201が提供されてもよく、情報要求を取得するために、203にドキュメントテンプレート分析アプリケーションプログラミングインターフェース(API)が提供され得る。
さらに、1つ以上のサードパーティアプリケーション205を使用して、情報要求を取得してもよい。いくつかの実施例では、情報要求は、テンプレートに関連付けられていない1以上の発信元から受信され得る。例えば、これに限定されないが、医療シナリオでは、医師などの医療専門家は、遠隔で医療機器の配置に関するメディアを収集するように患者に要求することがある(例えば自宅又は遠隔医療キオスクにおいて)。この要求により収集されたデータは、医療専門家向けのサマリードキュメントに提供又は挿入されるか、又はリモートサーバのデータベースフィールドに挿入され、1つ以上のインターフェース部(例えばモバイルメッセージング、電子健康記録のタブなど)を介して医師に提供(例えば表示)される。
さらなる実施例によると、収集された情報の一部はエンドユーザインターフェース部では提供されず、代わりにアルゴリズムに提供又は挿入され得る(例えば、保険目的の損害に関する写真の要求は、補償を査定するためにアルゴリズムに直接供給される)。さらに、情報要求は、サードパーティアプリケーションからの手動又は自動の要求など、テンプレート以外の発信元から生成されてもよい。
オブジェクト検出を実行し、情報要求に応答するために、オンラインモバイルアプリケーション207が、モバイル装置上のビデオカメラなどのビューアを介してユーザに提供される。これは例えばそれぞれ105〜113及び115〜121に関して上述されている。105〜113に関して上述したように、ライブビデオでオブジェクトの検出を実行するために、オブジェクト認識部209が提供されてもよい。さらに、115〜121に関して上述したように、情報要求に応答するために、ドキュメントエディタ及びビューア211が提供されてもよい。
前述のシステムアーキテクチャ200は、データフロー100の実施例に関して説明されているが、本実施例はこれに限定されず、本発明の範囲から逸脱することなくさらなる変更が採用されてもよい。例えば、これに限定されないが、並行して実行される一連の動作は、代わりに連続して実行されてもよく、又はその逆でもあってもよい。さらに、オンラインモバイルアプリケーションのクライアントで実行されるアプリケーションは、遠隔で実行されてもよく、その逆であってもよい。
さらに、実施例には、オブジェクトの誤認識の処理に関する態様が含まれる。例えば、これに限定されないが、ユーザが携帯電話のビデオカメラなどのビューアに指示しても、オブジェクトそのものがオブジェクト認識装置によって認識されない場合、対話的サポートがユーザに提供されてもよい。例えば、これに限定されないが、対話的サポートは、依然として情報を取得する選択肢をユーザに提供するか、又はオブジェクトに関連付けられた追加的な視覚的証拠を提供するようにユーザに指示してもよい。任意選択的に、新しく取得されたデータをオブジェクト認識モデルで使用して、モデルの改善を行ってもよい。
例えば、これに限定されないが、オブジェクトの外観が変化した場合、オブジェクト認識装置はオブジェクトをうまく認識できない場合がある。一方、ユーザにとっては、オブジェクトをリストから選択し、視覚的な証拠を提供する必要がある。状況の一例として自動車の車体の例が挙げられるが、フェンダなどの元々滑らかな形状を持つオブジェクトに対し、後に衝突などが生じ、損傷又は外観を損なわれたことにより、これがオブジェクト認識装置によって認識できなくなる。
ユーザが自動車のフェンダなどの所望のオブジェクトにビューアを配置し、オブジェクト認識装置がオブジェクトを正しく認識しない場合、又はオブジェクトをまったく認識しない場合、ユーザには手動で介入する選択肢が提供されてもよい。より具体的には、ユーザは、フレーム、高解像度画像、又はフレームシーケンスが取得されるように、リスト内のアイテムの名前を選択することができる。ユーザは次いで、選択したタイプのオブジェクトが表示されているかどうかを確認するように求められる。任意選択的に、ユーザは、追加の側面又は視角から追加の証拠を提供することを提案するか、又はユーザにそれを要求してもよい。
さらに、提供されたフレーム及びオブジェクト名を新しいトレーニングデータとして使用して、オブジェクト認識モデルを改善することができる。任意選択的に、新しいデータがオブジェクトに関連付けられていることをユーザが確認するための検証を実行してもよく、このような検証は、モデルの変更前に実行することができる。状況の一例では、オブジェクトは一部のフレームで認識可能であり得るが、すべてのフレームで認識できるわけではない。
追加的な実施例によれば、ターゲット領域に対してさらなる画像認識モデルが生成されてもよい。例えば、これに限定されないが、再トレーニングや転移学習などの領域の画像認識モデルが生成され得る。さらに他の実施例によれば、リンクされたドキュメントテンプレートに明確に現れないオブジェクトが追加されてもよい。例えば、これに限定されないが、オブジェクト認識装置は、上位レベルのセクション又はカテゴリに一致するドキュメントから検出されたオブジェクトを含む出力を生成してもよい。
さらに、前述の実施例は、読み込まれるか又は抽出される情報記述子を使用してもよいが、他の態様は、要求された情報のリストを構築するために前述の技術を使用することに関していてもよい。例えば、これに限定されないが、チュートリアルビデオに、ビデオと即時のオブジェクト検出を使用して必要なツールのリストを収集するための手順が提供されてもよい。
いくつかの追加的な実施例によると、ユーザがテンプレートの階層を使用できるようにすることに加えて、他のオプションも提供され得る。例えば、ドキュメント分析を実行するため、既存の階層を変更するか、又は全く新しい階層を作成するための設定やオプションがユーザに提供されてもよい。
図3は、本実施例によるユーザ体験に関連する態様300を示している。これらの実施例には、図1及び図2に関して上述した態様の実装においてオンラインモバイルアプリケーションに提供される表示が含まれるが、これらに限定されない。
具体的には、301で、ドキュメントの現在の状態の出力が表示される。このドキュメントは、305でユーザに提供されるドキュメントのリストから生成される。これらの要求に関連する情報は、オンラインアプリケーション、又は、リスト作成、保険金請求又はその他の要求を完了させるために、ウィザードやその他の一連の段階的な指示を通じてユーザをガイドするチャットボットを介して取得される。
301に示される態様はテンプレートを示しており、この場合ではレンタルリストに関している。テンプレートには、レンタルなどのリストに存在する可能性があり、ドキュメント化する必要があるアイテムが含まれ得る。例えば、301に示すように、物件の画像が写真画像とともに表示され、その後にレンタル物件のさまざまな部屋のリストが表示される。例えば、キッチンに関しては、キッチンのアイテムが個別にリストされる。
図1の101〜103に関して上述したように、ドキュメントテンプレートは、さまざまなアイテムを提供し、303に示すようなペイロードが抽出され得る。305では、複数のドキュメントが示されており、そのうちの最初のものが301に示される出力である。
図4は、本実施例によるユーザ体験に関連する追加的な態様400を示している。例えば、これに限定されないが、401では、ユーザのアプリケーションにおけるドキュメントのリストが示されている。ユーザは、ドキュメントを1つ(この場合は最初にリストされているドキュメント)を選択して、403に示すように、選択されていないドキュメントにリストされているすべてのアイテムを含む、ドキュメントにカタログ化できるすべてのアイテムの出力を生成する。403の左下部分に示されているように、複数のセクションが選択のために示されている。
407で、インターフェースの下部にあるスクロールリストから、「Kitchen」などのセクションが選択された状況では、出力407がユーザに提供される。より具体的には、選択されたセクションに存在する未選択のアイテム、この場合はキッチンに存在するアイテムのリストが提供される。
図5は、本実施例によるユーザ体験に関連する追加的な態様500を示している。例えば、これに限定されないが、501では、ユーザは、ビューア又はビデオカメラの焦点を自分のいるキッチンの一部に合わせている。オブジェクト認識装置は、上述した動作によりアイテムを検出する。オブジェクト認識装置は、503の強調表示されたテキストに示すように、この場合は「Dishwasher」である、検出されたアイテムの強調表示をユーザに提供する。
505に示されるように、クリック、ジェスチャなどにより、ユーザが強調表示されたアイテムを選択すると、507に示されるような出力が表示される。より具体的には、ビューアに関連付けられたライブビデオの食器洗い機にはラベルが付けられ、505の右上に表示されるキッチンの「Dishwasher」という言葉にラベルが付けられる。
したがって、505に示されるようなアイテムを選択することにより、関連するドキュメントが更新される。より具体的には、509に示されるように、リストに示される「Dishwasher」という言葉は、写真などのメディアを含むさらなる情報とリンクされる。
さらに、511に示すように、リンクされた言葉がユーザによって選択されると、513に示すように、リンクされた言葉に関連付けられたアイテム、この場合は食器洗い機の画像が表示される。この実施例では、アイテムの半自動カタログ化を伴う、ライブビデオを使用したライブオブジェクト認識を提供する。
図6は、本実施例によるユーザ体験に関連する追加的な態様600を示している。この実施例では、上述したような選択が行われ、食器洗い機のアイテムがキッチンアイテムに追加されている。
601で、ユーザは、携帯電話のビデオカメラなどの画像取得装置の焦点をコーヒーメーカの方向に動かす。オブジェクト認識装置は、画像の焦点にあるオブジェクトがコーヒーメーカとして特徴付けられているか、又は認識されていることを示す。
603で、ユーザは、クリック又はジェスチャ、もしくはオンラインアプリケーションと相互作用する他の方法により、コーヒーメーカを選択する。605で、コーヒーメーカはインターフェースの右下にあるキッチンセクションのアイテムのリストに追加され、右上隅の選択されていないアイテムのリストから削除される。
したがって、上述の開示に示されているように、ビューアの焦点を移動することで、ユーザはすでに選択されている最初の項目に加えて、オブジェクト認識機能を使用して別のオブジェクトを識別及び選択することができる。
図7は、本実施例によるユーザ体験に関連する追加的な態様700を示している。この実施例では、上述したような選択が行われ、コーヒーメーカのアイテムが、選択されたキッチンアイテムのリストに追加されている。
701で、ユーザは、ビューアの焦点を台所の冷蔵庫の方向に動かす。ただし、冷蔵庫の横には電子レンジもある。オブジェクト認識装置は、701の未選択アイテムリストで強調表示されているように、ライブビデオに2つの未選択アイテム、つまり冷蔵庫と電子レンジがあることを示す。
703で、ユーザは、クリック、ユーザのジェスチャ又はオンラインアプリケーションとのその他の相互作用により、冷蔵庫を選択する。したがって、705で、冷蔵庫は未選択アイテムのリストから削除され、キッチンセクションの選択されたアイテムのリストに追加される。さらに、707で、関連ドキュメントが更新されて、冷蔵庫、食器洗い機、流しへのリンクが表示される。
実施例によれば、オブジェクト認識装置は、ユーザが1つ以上のオブジェクトを選択できるように、ライブビデオにある複数のオブジェクトの選択肢をユーザに提供してもよい。
図8は、本実施例によるユーザ体験に関連する追加的な態様800を示している。801に示すように、ユーザはドキュメントのリストからドキュメントの1つを選択し得る。この実施例では、ユーザが販売用に提供している自動車を選択する。ドキュメントは803で示され、メディア(例えば写真)、記述(説明)、及びオブジェクトに関連付けられ得るアイテムのリストを含む。
805では、オブジェクト認識装置に関連付けられたインターフェースが示されている。より具体的には、ライブビデオは車両の一部、即ち車輪に焦点が合わせられている。オブジェクト認識装置は、ドキュメント内のアイテムから、ライブビデオ内のアイテムが助手席側又は運転席側の前輪又は後輪であることを示す。
807で、ユーザは、クリック、ジェスチャ又はオンラインモバイルアプリケーションとのその他の相互作用などによって、ユーザインターフェースから運転席側の前輪を選択する。したがって、809で、運転席側の前輪がドキュメント内の未選択アイテムのリストから削除され、右下隅の選択されたアイテムのリストに追加される。811で、ドキュメントが更新されて、運転席側の前輪がリンクされていることが示され、リンクで選択すると、813で、潜在的な購入者などに運転席側の前輪の画像が示される。
図9は、実施例による例示的なプロセス900を示している。プロセス例900は、本明細書で説明されるように、1つ以上の装置上で実行され得る。
901で、(例えば、オンラインモバイルアプリケーションで)情報要求が受信される。より具体的には、情報要求は、第三者の外部発信元から、又はドキュメントテンプレートを介して受信され得る。情報要求がドキュメントテンプレートを介して受信された場合、ドキュメントを解析してアイテム(ラジオボックスなど)を抽出し得る。この情報は、例えば、ペイロードとしてドキュメントテンプレート分析APIを介して受信され得る。
903で、ライブビデオオブジェクト認識が実行される。例えば、ペイロードがライブビューアに提供され、ユーザにアイテムのリストからアイテムを選択する機会が提供され得る。ユーザが1つ以上のセクションの項目を選択できるように、1つ又は複数の階層が提供され得る。さらに、ライブビューアは、オブジェクト認識装置でフレームを分析する別のスレッドを実行する。
905で、オブジェクトが認識されると、各オブジェクトがフィルタリングされる。より具体的には、ライブビデオ内のオブジェクトがオブジェクト認識装置の結果と一致する可能性を示す信頼閾値に対してオブジェクトがフィルタリングされる。
907では、フィルタの適用後に残っているオブジェクトについて、ユーザに選択肢が提供される。例えば、フィルタリング後に残ったオブジェクトは、ユーザインターフェース上のリストとしてユーザに提供され得る。
909で、オンラインモバイルアプリケーションのユーザインターフェースは、アイテムの選択を示す入力を受信する。例えば、ユーザはクリック、ジェスチャ、又はオンラインモバイルアプリケーションとの相互作用を使用して、リストからアイテムを選択することができる。
911では、受信したユーザ入力に基づいてドキュメントテンプレートが更新される。例えば、アイテムは未選択アイテムのリストから削除され、選択されたアイテムのリストに追加され得る。さらに、913で、別のスレッド上で、アプリケーションは、選択されたアイテムの記述及びメタデータ、並びにキャッシュされた写真を、例えば要求サービスに提供する。
前述の実施例では、ユーザに関連付けられたオンラインモバイルアプリケーション上で動作が実行される。例えば、クライアント装置には、ライブビデオを受信するビューアが含まれ得る。しかし、実施例はこれに限定されず、本発明の範囲から逸脱することなく、他のアプローチが代わりに使用されてもよい。例えば、これに限定されないが、他の例示的なアプローチでは、クライアント装置から遠隔で(例えばサーバで)動作を実行してもよい。さらに他の実施例では、ユーザから遠隔のビューアを使用してもよい(例えば、オブジェクトの近くにあり、ユーザの物理的な存在なしに操作可能であるセンサ又はセキュリティビデオカメラ)。
図10は、いくつかの実施例での使用に適した例示的なコンピュータ装置1005を備えた例示的なコンピューティング環境1000を示している。コンピューティング環境1000のコンピュータ装置1005は、1つ以上の処理部、コア、又はプロセッサ1010、メモリ1015(例えばRAM、ROMなど)、内部記憶装置1020(例えば磁気、光学、ソリッドステートストレージ及び/又は有機記憶装置)及び/又はI/Oインターフェース1025を含むことができ、これらのいずれも、情報を通信するための通信機構又はバス1030に結合されるか、又はコンピュータ装置1005に組み込まれることができる。
コンピュータ装置1005は、入力/インターフェース1035及び出力装置/インターフェース1040に通信可能に結合されることができる。入力/インターフェース1035及び出力装置/インターフェース1040のいずれか又は両方は、有線又は無線インターフェースであることができ、取り外し可能であってよい。入力/インターフェース1035には、入力を行うために使用できる物理的又は仮想の装置、構成要素、センサ、又はインターフェースが含まれ得る(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイク、カメラ、点字、モーションセンサ、光学式リーダなど)。
出力装置/インターフェース1040は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含み得る。いくつかの実施例では、入力/インターフェース1035(例えばユーザインターフェース)及び出力装置/インターフェース1040を、コンピュータ装置1005に組み込むか、又は物理的に結合することができる。他の実施例では、他のコンピュータ装置が、コンピュータ装置1005の入力/インターフェース1035及び出力装置/インターフェース1040として機能するか、又はその機能を提供してもよい。
コンピュータ装置1005の例には、これらに限定されないが、高度モバイル装置(例えば、スマートフォン、車両及び他の機械内の装置、人間及び動物によって運ばれる装置など)、モバイル装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、及び移動用に設計されていない装置(例えば、デスクトップコンピュータ、サーバ装置、その他のコンピュータ、情報端末、1つ以上のプロセッサが組み込まれるか結合されたテレビ、ラジオなど)が含まれていてもよい。
コンピュータ装置1005は、同じ又は異なる構成の1つ以上のコンピュータ装置を含む任意の数のネットワーク化された構成要素、装置、及びシステムと通信するために外部記憶装置1045及びネットワーク1050に通信可能に(例えば、I/Oインターフェース1025を介して)結合されることができる。コンピュータ装置1005又は任意の接続されたコンピューティング装置は、サーバ、クライアント、シンサーバ、汎用機械、専用機械、又は別のラベルとして機能するか、サービスを提供するか、又はこれらと見做されることができる。例えば、これに限定されないが、ネットワーク1050はブロックチェーンネットワーク及びクラウドの少なくとも一方を含んでいてもよい。
I/Oインターフェース1025は、コンピューティング環境1000内の少なくともすべての接続された構成要素、装置、及びネットワークと情報をやり取りするため、任意の通信又はI/Oプロトコル又は標準(例えばイーサネット(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX(登録商標)、モデム、セルラーネットワークプロトコルなど)を使用する有線又は無線インターフェースを含むことができるが、これらに限定されない。ネットワーク1050は、任意のネットワーク又はネットワークの組み合わせであってよい(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラネットワーク、衛星ネットワークなど)。
コンピュータ装置1005は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能又はコンピュータ可読媒体を使用及び通信することができる。一時的媒体には、伝送媒体(例えば金属ケーブル、光ファイバなど)、信号、搬送波などが含まれる。非一時的媒体には、磁気媒体(例えばディスク及びテープ)、光学媒体(例えばCD ROM、デジタルビデオディスク、ブルーレイディスク)、固体素子媒体(例えばRAM、ROM、フラッシュメモリ、固体素子記憶装置)及びその他の不揮発性記憶装置又はメモリが含まれる。
コンピュータ装置1005を使用して、いくつかの例示的なコンピューティング環境で技法、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施することができる。コンピュータ実行可能命令は、一時的媒体から取得し、非一時的媒体に格納及びそこから取得されることができる。実行可能命令は、プログラム、スクリプト、及び機械語(例えばC、C++、C#、Java(登録商標)、Visual Basic(登録商標)、Python(登録商標)、Perl(登録商標)、JavaScript(登録商標)など)の1つ以上から生成可能である。
プロセッサ1010は、ネイティブ又は仮想環境で、任意のオペレーティングシステム(OS)(図示せず)の下で実行可能である。論理部1055、アプリケーションプログラミングインターフェース(API)部1060、入力部1065、出力部1070、情報要求取得部1075、オブジェクト検出部1080、情報要求応答部1085、及び異なる構成部が互いにOS又は他のアプリケーション(図示せず)と通信するためのユニット間通信機構1095を含む、1つ以上のアプリケーションを配備することができる。
例えば、情報要求取得部1075、オブジェクト検出部1080、及び情報要求応答部1085は、上述の構成に関して上述した1つ以上の処理を実施することができる。説明された構成部及び要素は、さまざまに設計、機能、構成、又は実装することができ、本明細書に提供された説明に限定されない。
いくつかの実施例では、情報又は実行命令がAPI部1060によって受信されると、それは1つ以上の他の構成部(例えば、論理部1055、入力部1065、情報要求取得部1075、オブジェクト検出部1080、及び情報要求応答部1085)に通信され得る。
例えば、情報要求取得部1075は、第三者発信元及びドキュメントテンプレートから情報を受信及び処理することができ、これはドキュメントテンプレートからの情報記述子の抽出を含む。情報要求取得部1075の出力はペイロードを提供し、これはオブジェクト検出部1080に提供され得る。オブジェクト検出部は、ドキュメントに含まれる情報に関して、オブジェクト認識装置を適用してライブビデオ内のアイテムの識別を出力することにより、ライブビデオでオブジェクトを検出する。また、情報要求応答部1085は、情報要求取得部1075及びオブジェクト検出部1080から取得した情報に基づいて、要求に応じた情報を提供し得る。
場合によっては、上記のいくつかの実施例では、論理部1055は、構成部間の情報フローを制御し、API部1060、入力部1065、情報要求取得部1075、オブジェクト検出部1080、及び情報要求応答部1085によって提供されるサービスを指示するように構成され得る。例えば、1つ以上のプロセスのフロー又は実装は、論理部1055のみによって、又はAPI部860と連動して制御されてもよい。
図11は、いくつかの実施例に適した環境例を示している。環境1100は、装置1105〜1145を含み、それぞれが、例えばネットワーク1160を介して(例えば、有線又は無線接続により)少なくとも1つの他の装置に通信可能に接続される。一部の装置は、1つ以上の記憶装置1130及び1145に通信可能に接続されてもよい。
1つ以上の装置1105〜1145の例は、それぞれ図10に記載されたコンピュータ装置1005であってよい。装置1105〜1145は、上述のようなモニタ及び関連するウェブカメラを有するコンピュータ1105(例えば、ラップトップコンピュータ装置)、モバイル装置1110(例えば、スマートフォン又はタブレット)、テレビ1115、車両1120に関連する装置、サーバコンピュータ1125、コンピューティング装置1135〜1140、記憶装置1130及び1145を含み得るが、これらに限定されない。
いくつかの実装では、装置1105〜1120は、オブジェクト検出と認識に使用するライブビデオを遠隔で取得する、ユーザに関連付けられたユーザ装置であるとされ、ドキュメントを編集及び表示するための設定とインターフェースをユーザに提供する。装置1125〜1145は、(例えば、ドキュメントテンプレート、サードパーティアプリケーションなどに関連付けられた情報を保存及び処理するために使用される)サービスプロバイダに関連付けられた装置であってもよい。本実施例では、これらのユーザ装置の1つ以上は、ライブビデオを感知することができる1つ以上のビデオカメラを含むビューアに関連付けられてもよく、このようなビデオカメラは、ユーザのリアルタイムの動きを感知し、上述したように、オブジェクトの検出と認識、及び情報要求の処理のためにシステムへのリアルタイムのライブビデオフィードを提供する。
実施例の態様には、さまざまな長所と利点がある。例えば、これに限定されないが、関連技術とは対照的に、本実施例は、ライブオブジェクト認識とアイテムの半自動カタログ化を統合する。したがって、この実施例では、他の関連技術のアプローチと比較して、オブジェクトが捕捉される可能性がより高くすることができる。
例えば、不動産の一覧に関して、買い手又は売り手、又は不動産仲介業者は、上述の実施例を使用して、不動産のさまざまな特徴に関連付けられたライブビデオフィードからドキュメントを提供でき、ユーザ(例えば買い手、売り手、不動産業者)は、要求されたアイテムを半自動でカタログ化し、現在の物理的状態に関連する証拠を収集できる。例えば、ライブビデオフィードからのドキュメントには、敷地の状態、不動産の建物内にある設備、備品やその他の用具の状態などに関する情報が含まれ得る。
同様に、短期間のレンタル(例えば家、自動車など)の場合、上述の実施例を使用して、賃貸人は、ライブビデオフィードを使用して存在の証拠並びにレンタルの前後でのアイテムの状態などの、物件のアイテムに関連する証拠を収集し得る。このような情報は、メンテナンスを実行する必要があるか、アイテムを交換する必要があるか、又は保険金請求などのために、より正確な評価をするのに有用であり得る。さらに、アイテムを半自動的にカタログ化する機能は、保険会社と被保険者がアイテムの状態をより正確に識別及び評価することができるようにする。
さらに、保険請求の例では、上述の実施例を使用して、保険会社が請求者からライブビデオに基づいた証拠を取得することができる。例えば、衝突などによる自動車の損傷の場合、保険金請求者は、保険金請求とともに提出される、ライブビデオフィードに基づく写真やその他の証拠などのメディアを提供することができる。ユーザ及び保険会社は、請求をより正確に定義するために、アイテムを半自動でカタログ化することができる。
上述の実施例の別の使用法では、オンラインで販売される物品などの動産の売り手は、オンラインアプリケーションを使用してライブビデオを適用し、アイテムのさまざまな側面をドキュメント化して、オンライン販売ウェブサイト又はアプリケーションで公開することができる。例えば、上述したように、自動車の売り手はライブビデオを使用して自動車のさまざまな部品の状態を記録し、半自動的にカタログ化されたアイテムのリストに基づいて、購入者の候補は車体、エンジン、タイヤ、インテリアなどの写真などのメディアを見ることができる。
実施例のさらに別の用途では、サービスを提供する主体は、ライブビデオを使用して、サービスの提供前及び後にサービスが行われるオブジェクトの状態をドキュメント化することができる。例えば、MFPなどのプリンタを整備する検査官又は現場技術者は、作業指示を提出する前に1つ以上の特定の問題をドキュメント化するか、又は作業指示が正常に完了したことを確認する必要があり、サービスをより効率的に完了するために、半自動カタログ化機能を実行することができる。
医療分野の実施例では、リアルタイムビデオを使用して手術器具を確認及び一覧作成をしてもよく、これにより、異物遺残などの外科的有害事象を回避するために、手術が行われた後、すべての手術器具が正常に収集及び確認されることを確実にできる。手術器具の数と複雑さを考えると、半自動カタログ化機能は、医療専門家がそのような事象をより正確かつ効率的に回避することを可能にする。
医療分野での別の実施例では、医療専門家は、現在の状態を示すライブビデオを使用して、傷、皮膚障害、手足の柔軟性状態、又はその他の病状のドキュメントなど、患者の問題の適切なドキュメントを確認することができ、したがって、特に遠隔医療インターフェースなどを介した遠隔での患者の診察の場合、より正確に治療を実施することができる。医療専門家及び患者が特定の患者の問題に集中し、また患者のリアルタイムの状態に関してもそのようにするために、半自動カタログ化を実行することができる。
いくつかの実施例が示され、説明されているが、これらの実施例は、当業者に本明細書で説明される主題を伝えるために提供される。本明細書で説明される主題は、説明される実施例に限定されることなく、さまざまな形態で実施され得ることを理解されたい。本明細書で説明される主題は、具体的に定義又は説明された事項なしに、或いは、他の又は異なる要素、あるいは説明されていない事項により実施することができる。当業者は、添付の特許請求の範囲などで定義される、本明細書で説明される主題から逸脱することなく、これらの実施例において変更が行われてもよいことを理解するであろう。

Claims (20)

  1. 第三者発信元から、又はテンプレートにより、要求を受信してペイロードを生成し、
    ビューアを介してライブビデオを受信し、前記ライブビデオ内のオブジェクトに対して認識処理を実行して、前記オブジェクトが前記ペイロード内のアイテムであるかどうかを判断し、
    前記オブジェクトが前記認識処理の決定と一致する可能性を示す閾値を用いて前記オブジェクトをフィルタリングし、
    前記アイテムの選択を示す入力を受信し、
    受信した前記入力に基づいて前記テンプレートを更新し、前記オブジェクトに関連付けられた情報を提供して要求を完了すること、
    を含むコンピュータ実装方法。
  2. 前記第三者発信元から受信した前記要求について、前記第三者発信元が、データベース、ドキュメント、及びアプリケーションに関連する手動又は自動の要求のうちの1つ以上を含む、請求項1に記載のコンピュータ実装方法。
  3. 前記テンプレートを介して受信される前記要求について、ドキュメントを解析して前記アイテムを抽出することをさらに含む、請求項1に記載のコンピュータ実装方法。
  4. テンプレート分析アプリケーションプログラミングインターフェース(API)を提供して前記ペイロードを生成することをさらに含む、請求項3に記載のコンピュータ実装方法。
  5. ユーザが、階層配列において1つ以上のセクションのアイテムを選択することができる、請求項1に記載のコンピュータ実装方法。
  6. 前記ビューアが、認識装置により前記ビューアのフレームを分析する別個のスレッドを実行する、請求項1に記載のコンピュータ実装方法。
  7. 前記要求に関連する前記ペイロードで受信されたアイテムに対して前記オブジェクトをフィルタリングすることをさらに含む、請求項1に記載のコンピュータ実装方法。
  8. 前記アイテムの各々は、前記認識処理が実行された前記オブジェクトに関してトークン化及びステミングされる、請求項7に記載のコンピュータ実装方法。
  9. 前記認識処理が、前記要求に基づいて前記ビューア内にあると判定された前記オブジェクトの閾値を引き上げるように動的に適合される、請求項1に記載のコンピュータ実装方法。
  10. 前記情報が、記述、メタデータ、及びメディアのうちの少なくとも1つを含む、請求項1に記載のコンピュータ実装方法。
  11. 第三者発信元から、又はテンプレートにより、要求を受信してペイロードを生成し、
    ビューアを介してライブビデオを受信し、前記ライブビデオ内のオブジェクトに対して認識処理を実行して、前記オブジェクトが前記ペイロード内のアイテムであるかどうかを判断し、
    前記オブジェクトが前記認識処理の決定と一致する可能性を示す閾値を用いて前記オブジェクトをフィルタリングし、
    前記アイテムの選択を示す入力を受信し、
    受信した前記入力に基づいて前記テンプレートを更新し、前記オブジェクトに関連付けられた情報を提供して要求を完了すること、
    を含む方法をコンピュータに実行させる、プログラム。
  12. ユーザは、1つ以上のセクションのアイテムを選択することができる、請求項11に記載のプログラム。
  13. 前記ビューアが、認識装置で前記ビューアのフレームを分析する別個のスレッドを実行する、請求項11に記載のプログラム。
  14. 前記要求に関連する前記ペイロードで受信されたアイテムに対して前記オブジェクトをフィルタリングすることをさらに含み、各アイテムは前記認識処理が実行された前記オブジェクトに関してトークン化及びステミングされる、請求項11に記載のプログラム。
  15. 前記認識処理が、前記要求に基づいて前記ビューア内にあると判定された前記オブジェクトの閾値を引き上げるように動的に適合される、請求項11に記載のプログラム。
  16. 前記情報が、記述、メタデータ、及びメディアのうちの少なくとも1つを含む、請求項11に記載のプログラム。
  17. テンプレートにより要求を受信し、ペイロードを生成する手段と、
    ビューアを介してライブビデオを受信し、前記ライブビデオ内のオブジェクトに対して認識処理を実行して、前記オブジェクトが前記ペイロード内のアイテムであるかどうかを判断する手段と、
    前記オブジェクトが前記認識処理の決定と一致する可能性を示す閾値を用いて前記オブジェクトをフィルタリングする手段と、
    ユーザによる前記アイテムの選択を示す入力を受信する手段と、
    受信した前記入力に基づいて前記テンプレートを更新し、前記オブジェクトに関連付けられた情報を提供して要求を完了する手段と、
    を備える、要求を処理可能である装置。
  18. ビューアをさらに備え、前記ビューアが、認識装置により前記ビューアのフレームを分析する別個のスレッドを実行する、請求項17に記載の装置。
  19. 前記認識処理を実行することは、前記要求に関連する前記ペイロードで受信されたアイテムに対して前記オブジェクトをフィルタリングすることをさらに含み、各アイテムは、前記認識処理が実行された前記オブジェクトに関してトークン化及びステミングされる、請求項17に記載の装置。
  20. 前記認識処理の実行が、前記要求に基づいて前記ビューア内にあると判定された前記オブジェクトの閾値を引き上げるように動的に適合される、請求項17に記載の装置。
JP2020055901A 2019-06-10 2020-03-26 ライブビデオ及びオブジェクト検出を介して物理オブジェクトをドキュメント化する要求を報告するための方法、プログラム及び装置 Active JP7472586B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/436,577 US20200387568A1 (en) 2019-06-10 2019-06-10 Methods and systems for reporting requests for documenting physical objects via live video and object detection
US16/436577 2019-06-10

Publications (2)

Publication Number Publication Date
JP2020201938A true JP2020201938A (ja) 2020-12-17
JP7472586B2 JP7472586B2 (ja) 2024-04-23

Family

ID=73650563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020055901A Active JP7472586B2 (ja) 2019-06-10 2020-03-26 ライブビデオ及びオブジェクト検出を介して物理オブジェクトをドキュメント化する要求を報告するための方法、プログラム及び装置

Country Status (3)

Country Link
US (1) US20200387568A1 (ja)
JP (1) JP7472586B2 (ja)
CN (1) CN112069865A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397736B2 (en) * 2020-01-27 2022-07-26 Salesforce, Inc. Large scale data ingestion
CN115065869A (zh) * 2022-05-31 2022-09-16 浙江省机电产品质量检测所有限公司 一种基于数字化视频的检验检测报告制作方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086844A (ja) 2002-06-28 2004-03-18 Aioi Insurance Co Ltd 事故対応システム
JP5479198B2 (ja) 2010-04-23 2014-04-23 株式会社東芝 電子機器及び画像処理プログラム
JP2014219727A (ja) 2013-05-01 2014-11-20 株式会社ネクスト 不動産情報システム及び不動産情報携帯端末
JP6476601B2 (ja) 2014-06-10 2019-03-06 富士ゼロックス株式会社 物体画像情報管理サーバ、物体関連情報管理サーバ及びプログラム
US10943111B2 (en) 2014-09-29 2021-03-09 Sony Interactive Entertainment Inc. Method and apparatus for recognition and matching of objects depicted in images
JP2017116998A (ja) 2015-12-21 2017-06-29 セゾン自動車火災保険株式会社 情報処理装置、情報処理システム、情報処理方法、情報処理プログラム
CA2936854A1 (en) * 2016-07-22 2018-01-22 Edmond Helstab Methods and systems for assessing and managing asset condition
EP3602403A4 (en) * 2017-03-23 2021-01-27 Harsco Technologies LLC DETECTION OF TRACK CHARACTERISTICS USING ARTIFICIAL VISION
JP6318289B1 (ja) 2017-05-31 2018-04-25 株式会社ソフトシーデーシー 関連情報表示システム
JP6315636B1 (ja) 2017-06-30 2018-04-25 株式会社メルカリ 商品出品支援システム、商品出品支援プログラム及び商品出品支援方法
US11392998B1 (en) * 2018-08-22 2022-07-19 United Services Automobile Association (Usaa) System and method for collecting and managing property information

Also Published As

Publication number Publication date
US20200387568A1 (en) 2020-12-10
JP7472586B2 (ja) 2024-04-23
CN112069865A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107680684B (zh) 用于获取信息的方法及装置
US10771685B2 (en) Automatic guided capturing and presentation of images
US8869115B2 (en) Systems and methods for emotive software usability
US20220392216A1 (en) Systems, methods, and apparatus for image-responsive automated assistants
JP2019093137A5 (ja)
US20140006926A1 (en) Systems and methods for natural language processing to provide smart links in radiology reports
US11106726B2 (en) Systems and methods for an image repository for pathology
US20210022603A1 (en) Techniques for providing computer assisted eye examinations
US20180082372A1 (en) System and method for generating solutions using a recommendation engine
WO2019080662A1 (zh) 信息推荐方法及装置、设备
Majumder et al. A deep learning-based smartphone app for real-time detection of five stages of diabetic retinopathy
US8935628B2 (en) User interface for medical diagnosis
CN108170794B (zh) 信息推荐方法及装置、存储介质和电子设备
US20190304603A1 (en) Feature engineering method, apparatus, and system
US11277358B2 (en) Chatbot enhanced augmented reality device guidance
JP7472586B2 (ja) ライブビデオ及びオブジェクト検出を介して物理オブジェクトをドキュメント化する要求を報告するための方法、プログラム及び装置
Wei et al. A deep learning-based smartphone app for real-time detection of retinal abnormalities in fundus images
US20160055378A1 (en) Real-time analytics to identify visual objects of interest
US20180357318A1 (en) System and method for user-oriented topic selection and browsing
US20170061099A1 (en) Context-specific element selection for structured image reporting
CN111048215A (zh) 一种基于crm的医疗视频制作方法及系统
US20190227634A1 (en) Contextual gesture-based image searching
US20220044150A1 (en) Systems, methods, and apparatus to classify personalized data
US20120330901A1 (en) Validation of ingested data
US10359910B2 (en) Cross validation of user feedback in a dialog system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240325

R150 Certificate of patent or registration of utility model

Ref document number: 7472586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150