JP7293735B2 - 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム - Google Patents

文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム Download PDF

Info

Publication number
JP7293735B2
JP7293735B2 JP2019041325A JP2019041325A JP7293735B2 JP 7293735 B2 JP7293735 B2 JP 7293735B2 JP 2019041325 A JP2019041325 A JP 2019041325A JP 2019041325 A JP2019041325 A JP 2019041325A JP 7293735 B2 JP7293735 B2 JP 7293735B2
Authority
JP
Japan
Prior art keywords
ranked
documents
list
ranked list
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019041325A
Other languages
English (en)
Other versions
JP2019197534A (ja
Inventor
チィーウ パトリック
キム チョルファン
肇 上野
チアヒアデ ユリアス
ダニガン アンソニー
カーター スコット
チェン フランシーン
ジアン ジャオ
イアン リュウ ビー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2019197534A publication Critical patent/JP2019197534A/ja
Application granted granted Critical
Publication of JP7293735B2 publication Critical patent/JP7293735B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B13/00Optical objectives specially designed for the purposes specified below
    • G02B13/06Panoramic objectives; So-called "sky lenses" including panoramic objectives having reflecting surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Optics & Photonics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、一般に文書管理システムに関し、より具体的には、会議又はオフィス環境における文書及び人物の認識並びに検索に関する。
関連技術の実施形態では、関連文書の検索に基づいて関係者を検索する検索システムが存在するが、このような実施形態は、同時に起こり得る会議又はオフィス環境の状況を考慮しない。
関連技術の実施形態には、2つの目が見える状態でカメラに面していない顔を検出し認識することが困難である以前のアルゴリズムを改善する、深層学習顔検出及び認識アルゴリズムがある。このような関連技術を用いれば、180°視野の魚眼レンズや360°視野のパノラマカメラからの、様々な姿勢の歪みのある顔を検出して認識することができる。
関連技術の実施形態では、組織内の関係者をデータベースから検索することができるシステム(例えば、関連文書の作成者に基づく)があるが、テーブルや机の周りで会議をしているかもしれない会議又はオフィス環境の参加者に関する情報を利用するシステムはない。そのような情報は、会議参加者に基づいてプレゼンテーションのための関連文書に容易にアクセスし、印刷又は取得するために、様々な会議状況で必要とされ得る。
例えば、会議又は卓上議論のための文書の物理的コピーが足りない場合、参加者が文書を印刷するためにはコンピュータ及び文書管理システムにアクセスしなければならないので、一般的に会議の参加者が文書を検索して別の物理的な印刷物を作成するのは煩雑である。あるいは、会議の特定の参加者が文書のソフトコピーを要求した場合、文書の作成者は、通常、コンピュータにアクセスしてその文書を電子メール又は他の方法で転送するために机に戻る必要がある。さらに、会議の議論中に会議の他の参加者が関連する公開文書を持っている特定のトピックがある場合、そのような参加者は関連文書にアクセスしたくても、そのような文書を検索して会議の参加者に配布するためにコンピュータや他の装置にアクセスできないことがある。
米国特許公開第20170308550号公報
BLEI, D., et al., "Latent Dirichlet Allocation". J. Machine Learning Research, 3, (January 2003), pp. 993-1022. CHANG, J., et al., "Reading Tea Leaves: How Humans Interpret Topic Models" NIPS 2009, pp. 288-296. CHEN, F., et al., "Topic Modelling of Documents Metadata for Visualizing Collaborations Over Time" March 7-10, 2016; Sonoma, CA, USA. CHIU, P., et al., "Picture Detection in Document Page Images", pp. 211-214, September 21-24, 2010, Manchester, United Kingdom. DHILLON, I., "Co-Clustering Documents and Words Using Bipartite Spectral Graph Partitioning", (2001), San Francisco, CA, USA. DUNNIGAN, T., et al., "Evolution of a Tabletop Telepresence System Through Art and Technology", October 26-30, 2015; Brisbane, Australia. Kim, C., et al., High-Quality Capture of Documents on a Cluttered Tabletop with a 4K Video Camera", September 8-11, 2015, Lausanne, Switzerland. LIAO, C., et al., "FACT: Fine-Grained Cross-Media Interaction with Documents Via a Portable Hybrid Paper-Laptop Interface", October 25-29, 2010, Firenze, Italy. NEWMAN, W., et al., "CamWorks: A Video-Based Toolf for Efficient Capture From Paper Source Documents; (1999). SCHILIT, B. et al., "Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations", April 18-23,1998, Los Angeles, CA, USA, pp.249-256. SCHROFF, F., et al., "FaceNet: A Unified Embedding for Face Recognition and Clustering", CVPR 2015, Computer Vision Foundation, pp. 815-823. UNO, T., et al., "An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases", Discovery Science 2004, pp. 16-31. WELLNER, P., "The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display", November 11-13, 1991, pp. 27-33. ZHAO, J., et al., "BiDots: Visual Exploration of Weighted Biclusters", IEEE Vast 2017 (and IEEE TVCG, 24(1):2018), pp. 195-204. ZHANG, K., et al., "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks", IEEE Signal Learning Processing Letters (2016).
本開示の技術は、会議又は卓上議論等において、所望の情報に容易にアクセスすることができるシステム、方法及びプログラムを提供する。
本明細書に記載された実施形態は、魚眼レンズによって取り込まれたテーブルの周りの人物を認識し、その情報を利用してクエリ(query)を作成し、検索結果を処理して関係者及び関連文書の対話型視覚化を行うことによって、上記の問題を解決する。
本開示の態様はプロセッサを含むシステムを含み、システムは、卓上に近接した1又は複数の人物の第1の画像を取り込むために第1のカメラシステムを利用し、卓上に近接した1又は複数の文書の第2の画像を取り込むために第2のカメラシステムを利用し、第1の画像上で行われた人物認識と第2の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成し、算出された2モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定し、第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供するように構成される。
本開示の態様は方法をさらに含み、方法は、卓上に近接した1又は複数の人物の第1の画像を取り込むために第1のカメラシステムを利用すること、卓上に近接した1又は複数の文書の第2の画像を取り込むために第2のカメラシステムを利用すること、第1の画像上で行われた人物認識と第2の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成すること、算出された2モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定すること、及び第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供することを含む。
本開示の態様は、プロセスを実行するための命令を格納する非一時的なコンピュータ可読媒体をさらに含み、プロセスは、卓上に近接した1又は複数の人物の第1の画像を取り込むために第1のカメラシステムを利用すること、卓上に近接した1又は複数の文書の第2の画像を取り込むために第2のカメラシステムを利用すること、第1の画像上で行われた人物認識と第2の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成すること、算出された2モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定すること、及び第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供することを含む。
本開示の態様に係るシステムは、プロセッサを含み、プロセッサは、第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成し、2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定し、第1のランク付けされた人物のリストからの1又は複数の人物及び第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供する、ように構成されている。
上記のシステムは、第1のカメラシステムは魚眼レンズカメラを備え、第2のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。
上記のシステムにおいて、クエリ結果は、1又は複数のデータベース文書を検索するための人物認識から導出された名前とOCRからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された1又は複数のデータベース文書上の2モードネットワークのランク付けされたリストの算出から導出される。
上記のシステムにおいて、プロセッサは、ランク付けされたリスト上の2モードネットワークのそれぞれについて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを算出することによって、クエリの結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定するように構成される。
上記のシステムにおいて、プロセッサは、2モードネットワークのランク付けされたリストの算出を、関連するトピックのランク付けされたリスト内の各トピックについて、検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出し、関連するトピックのランク付けされたリスト内の各トピックについて、第1のトピック点数及び第2のトピック点数に基づいて、2モードネットワークのランク付けされたリストの各々を算出することによって実行するように構成される。
上記のシステムにおいて、第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースは、アクセスされた1又は複数の文書の表示アプリケーションの実行、及びアクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される。
上記のシステムにおいて、第1のランク付けされた人物のリストからの1又は複数の人物に関する情報にアクセスするためのインタフェースは、第1のランク付けされたリストからの1又は複数の人物の連絡先情報にアクセスすること、及びアクセスされた1又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも1つを実行するように構成される。
本開示の態様に係る方法は、第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成すること、2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定すること、及び第1のランク付けされた人物のリストからの1又は複数の人物及び第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供することを含む。
上記の方法において、第1のカメラシステムは魚眼レンズカメラを備え、第2のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。
上記の方法において、クエリ結果は、1又は複数のデータベース文書を検索するための人物認識から導出された名前とOCRからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された1又は複数のデータベース文書上の2モードネットワークのランク付けされたリストの算出から導出される。
上記の方法において、クエリの結果に基づいた第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストの決定は、ランク付けされたリスト上の2モードネットワークのそれぞれについて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを算出することをさらに含む。
上記の方法において、2モードネットワークのランク付けされたリストの算出の実行は、関連するトピックのランク付けされたリスト内の各トピックについて、検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出すること、及び関連するトピックのランク付けされたリスト内の各トピックについて、第1のトピック点数及び第2のトピック点数に基づいて、2モードネットワークのランク付けされたリストの各々を算出することを含む。
上記の方法において、第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースは、アクセスされた1又は複数の文書の表示アプリケーションの実行、及びアクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される。
上記の方法において、第1のランク付けされた人物のリストからの1又は複数の人物に関する情報にアクセスするためのインタフェースは、第1のランク付けされたリストからの1又は複数の人物の連絡先情報にアクセスすること、及びアクセスされた1又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも1つを実行するように構成される。
本開示の態様に係るプログラムは、コンピュータに、第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成する手順と、2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定する手順と、及び第1のランク付けされた人物のリストからの1又は複数の人物及び第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供する手順と、を実行させるためのプログラムである。
上記のプログラムにおいて、第1のカメラシステムは魚眼レンズカメラを備え、第2のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。
上記のプログラムにおいて、クエリ結果は、1又は複数のデータベース文書を検索するための人物認識から導出された名前とOCRからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された1又は複数のデータベース文書上の2モードネットワークのランク付けされたリストの算出から導出される。
上記のプログラムにおいて、クエリの結果に基づいた第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストの決定は、ランク付けされたリスト上の2モードネットワークのそれぞれについて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを算出することをさらに含む。
2モードネットワークのランク付けされたリストの算出の実行は、関連するトピックのランク付けされたリスト内の各トピックについて、検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出する手順と、関連するトピックのランク付けされたリスト内の各トピックについて、第1のトピック点数及び第2のトピック点数に基づいて、2モードネットワークのランク付けされたリストの各々を算出する手順と、を含む。
第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースは、アクセスされた1又は複数の文書の表示アプリケーションの実行、及びアクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される。
本明細書に記載されている例示的な実施形態では、ディスプレイのための表示アプリケーション上で実行するため、追加の印刷物が必要な場合に印刷するため、又はそのような文書にアクセスするためのコンピュータ端末へのアクセスを見つける必要なしに他のユーザ装置にソフトコピーを提供するために、卓上議論の周りの関係者についての関連文書を検索することができる。さらに、現在の議論に関連する卓上議論の参加者によって作成された文書を検索するための人認識及び2モードネットワークを利用して、現在のトピックに関する文書を卓上議論の参加者に提供することもできる。
図1は例示的な実施形態に従うシステムの例示的な概要を示した図である。 図2Aは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。 図2Bは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。 図2Cは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。 図2Dは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。 図3は例示的な実施形態に従うシステムの例示的なハードウェア図を示した図である。 図4は例示的な実施形態に従う、入力から出力を計算するための例示的な処理パイプライン(processing pipeline)を示した図である。 図5は例示的な実施形態に従う、トピック分析に基づいて2モードネットワークを計算するための例示的な処理パイプラインを示した図である。
以下の詳細な説明は、本出願の図面及び例示的な実施形態のさらなる詳細を提供する。図面間で重複する要素の参照番号及び説明は、明確にするために省略されている。明細書全体にわたって使用されている用語は、例として提供されており、限定を意図するものではない。例えば、「自動」という用語の使用は、本出願の実施形態を実施する当業者の所望の実施形態に応じて、実施形態の特定の態様に対するユーザ又は管理者の制御を含む完全自動又は半自動の実施形態を含むことができる。
図1は、例示的な実施形態に従うシステムの例示的な概要を示す。システムの実施形態では、人物認識101及び文書取り込み102が会議又はオフィス設定のために並行して行われ、検索エンジン103及び処理結果104によって処理されて視覚化105が生成される。本明細書に記載の実施形態は、これらに限定されないがテーブルの周りの小グループ会議、又はスマートデスクに座っている人など、会議又はオフィス設定の状況中の関連する文書及び人物を検索するシステムを対象とする。検索クエリ(search query)は、テーブル上の文書のテキストに基づいて、参加者の名前と共に作成される。文書テキストは、高解像度カメラ及び光学式文字認識(OCR)を使用して取得される。参加者の名前は、魚眼レンズと深層学習に基づく顔認識アルゴリズムとを使用して取得される。検索結果は、関連文書及び参加者の異なるランク付けされたリストを生成するために処理される(例えば、認識された参加者及びその文書に焦点を当てる又はフィルタリングする)。2モードネットワークのランキングリストは、対話型アプリケーションを使用した視覚化のトピック分析に基づいて計算される。
図2Aから図2(d)は、実施形態に従う検索結果の対話型視覚化を示す。図2Aの例示的な実施形態では、認識された人物は中央列の近くに「ピン留め」されている。中央列の各項目はトピック(例えば、3つのトピック用語を備える)を表し、各行は、そのトピックが関連する人物及び文書を含む(例えば、ランクの高い項目が大きく、中央列に近い)。しかしながら、検索結果の視覚化のための他の実施形態も実施されてもよく、本開示はそれに限定されない。例えば、対話型視覚化は、本明細書で説明されるように、認識された人物及びそれらの文書のランク点数を上げることに基づくビュー(view)を提供することができる。ビューは、所望の実施形態及び会議又は対話の状況に応じて、認識された人物及びその文書をフィルタリングすることに基づいて提供されてもよいし、すべての関連文書及び人物に基づいて提供されてもよい。本明細書で説明されるように、図2(b)は、認識された人物及びその文書のランク点数を上げることに基づく例示的な対話型ビュー(interactive view)を示す。図2Cは、認識された人物及びその文書をフィルタリングすることに基づく例示的な対話型ビューを示す。図2Dは、すべての関連文書及び人物に基づく例示的な対話型ビューを示す。他の対話型ビューもまた、所望の実施形態によって構築することができる。
図3は、例示的な実施形態に従うシステムの例示的なハードウェア図を示す。システム300は、人物取り込み用のカメラシステム301、文書取り込み用の別個のカメラシステム302、プロセッサ303、メモリ304、ディスプレイ305、及びインタフェース(I/F)306を含むことができる。システム300は、卓上に置かれた1又は複数の文書311を有する卓上310を監視するように構成される。卓上310は、スマートデスク、会議テーブル、あるいは1又は複数の文書311が置かれ得る他の物理的表面の形態であり得る。1又は複数の文書311は、紙文書の形式であってもよく、又はタブレット、電子リーダなど所望の実施形態に従う他の形式であってもよい。
人物取り込み用のカメラシステム301は、人物検出のために構成された180度の魚眼レンズカメラの形態であり得る。多くの会議室、スマートデスク及び他のオフィス設定は、通常、ビデオ会議又は他の目的のために180°魚眼レンズカメラを有することが可能であるため、例示的な実施形態は、180°魚眼レンズカメラを含むそのような環境においてシームレスに実施することができる。別の選択肢は、テーブルの中央に配置された360°パノラマカメラを使用することである。例示的な実施形態では、プロセッサ303は、人物取り込み用のカメラシステム301を利用して、卓上310に近接した1又は複数の人物の画像を取り込むことができる(例えば、卓上310の近くに座っている人物に適用される、卓上310から一定距離内にいる人物に適用される、静置スピーカーのみに適用されるなど)。近接度は、所望の実施形態に従って定義された、予め設定された閾値とすることができる。
文書取り込み用のカメラシステム302は、1又は複数の文書311からテキストを検出するように構成することができ、かつ人物取り込み用のカメラシステム301よりも高い画素密度で取り込むように動作する高解像度ビデオカメラの形態であってもよい。例示的な実施形態では、高解像度ビデオカメラは、1又は複数の文書311がそのような情報を含む場合、文書内の人物の写真上で人物認識を実行するように構成することもできる。所望の実施形態に応じて、会議施設又はオフィス設定がそのような実施形態を容易にする場合、1つのカメラシステムを文書取り込み及び顔取り込みの両方に利用することができる。プロセッサ303は、(例えば、卓上310の境界内などの)卓上に近接した1又は複数の文書の画像を取り込むために、文書取り込み用のカメラシステム302を利用することができる。近接度は、所望の実施形態に従って設定された閾値に基づくことができる。
ディスプレイ305は、所望の実施形態に応じて、視覚化及び検索結果との対話のためのタッチスクリーンの形態とすることができる。ディスプレイ305はまた、図2Aから図2Dに示すように、個々の文書のフルサイズのバージョンを表示する中央コントローラを備えたディスプレイのセットを含むことができる。I/F306は、所望の実施形態に応じて、キーボード、マウス、タッチパッド、又はディスプレイ305のための他の入力装置などのインタフェース装置を含むことができる。
例示的な実施形態では、プロセッサ303は、物理ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組み合わせを含む中央処理装置(CPU)の形態であってもよい。プロセッサ303はシステムの入力を取り込むように構成され、システムの入力は、文書取り込み用のカメラ302からのカメラ画像と、顔検出及び認識のための180°魚眼レンズを有するカメラ301からのカメラ画像とを含むことができる。プロセッサ303は、2モードネットワークのランク付けされたリストを含む出力としてデータ構造を生成することができ、各ネットワークは、ランク付けされた文書のリスト及びランク付けされた人物のリストによって指定される2組の頂点を有する。そのようなランク付けされたリストは、図2Aから図2Dに示すような形態でディスプレイ305に提供され得る。プロセッサ303は、カメラシステム301及び302の画像からの人物認識及びテキスト抽出から導出されるデータベースのクエリを生成するための本明細書に記載された実施形態を容易にするための図4及び図5に示すフローチャートを実行するように構成することもでき、2モードネットワークの計算されたランク付けされたリストに基づくクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定するように構成することもでき、第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするためのインタフェースをディスプレイ305上に提供するように構成することもできる。
I/F306又はディスプレイ305を介してディスプレイがタッチスクリーンとして実施される場合、ユーザは1又は複数の文書にアクセスし、ここでプロセッサ303は、所望の実施形態に応じて、アクセスされた1又は複数の文書の表示アプリケーションの実行、及び文書を物理プリンタへ送信することによる、アクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成することができる。
さらなる実施形態では、I/F306又はディスプレイ305を介してディスプレイがタッチスクリーンとして実施される場合、ユーザは、表示されたランク付けされた人物のリストからの1又は複数の人物についての情報にアクセスすることもでき、ここでプロセッサ303は、ランク付けされたリストからの1又は複数の人物の連絡先情報(例えば、電子メールアドレス、オフィス電話番号、住所、携帯電話番号、チャットアプリケーションハンドルなど)にアクセスすること、及びアクセスされた1又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも1つを実行するように構成される。例えば、ランク付けされたリストからの1又は複数の人物の連絡先情報にアクセスすると、電子メールアプリケーションを起動することができ、あるいは携帯電話番号又はチャットアプリケーションハンドルの選択に応答して、テキスト/チャットアプリケーションを起動することができる。さらに、オフィス電話番号又は携帯電話番号の選択に応答して、VoIP(Voice over Internet Protocol)を介して、又は音声アプリケーション又は他の方法によって電話をかけることができる。所望の実施形態に従って、適切なアプリケーションを起動するか、又は選択された人物に連絡するための他の実施形態も可能であり、本開示は特定の実施形態によって限定されない。
図4は、例示的な実施形態に従う、入力から出力を計算するための例示的な処理パイプラインを示す。具体的には、図4は、図1に示すシステム全体の例示的な実施形態を示す。システムは、401で卓上の文書を検出して取り込むとともに、402で卓上の周囲の顔を検出して認識する。例示的な実施形態では、文書及び人物の検索は、406で、文書メタデータのデータセット(例えば、「タイトル」、「要約」、「作成者」などのフィールドを含む)から、405で定式化されたクエリ文字列に基づく当技術分野において既知の標準的なテキストベースの検索エンジンを使用することによって実施することができる。本明細書で説明される文書取り込みの実施形態は、403でページコンテンツのOCRテキストを提供する。本明細書で説明される顔検出及び認識の実施形態は、404でテーブルの周囲の認識された人物の名前を提供する。
405のクエリを定式化するための例示的な実施形態では、ページコンテンツ(ストップワードを削除したもの)及び名前を有する語の袋(bag of words)を利用することができる。しかしながら、一部の実施形態では、ページ上の語の数が名前からの語の数よりもはるかに多い場合に問題が生じる可能性がある。このような潜在的な問題に対処するために、ページテキスト及び名前による2つの個別のクエリを実行することができ、その結果は例示的な実施形態において組み合わせることができる。別の例示的な実施形態では、名前からの語を有する「作成者」フィールドを対象にすることによって、クエリを指定することができる。所望の実施形態に従って、405で、他の方法を利用してクエリを定式化することもできる。
407で、検索エンジンの出力から、結果は、関連性点数を有する文書メタデータ項目のランク付けされたリストによって記述される。2モードネットワークを計算するために、異なるモデル(例えば、バイクラスタリング(biclustering)、共クラスタリング(co-clustering)、トピックモデリング(topic modeling)など)を使用することが可能である。トピックモデリング及びそれに対応する計算を含む例示的な実施形態を以下に説明する。
409で、計算された2モードネットワークから、視覚化が生成されて結果が表示されるので、各2モードネットワークは、左側に人物があり右側に文書があるサムネイルの行によって表される。文書サムネイルは、所望の実施形態に従って、任意の画像検出方法又は視覚的文書要約方法を利用して決定することができる。さらに、出力は、ネットワークをモデル化する方法に依存する、2モードネットワークの各々についての説明又はラベルを提供する。
文書取り込み及びOCR
物理的な紙文書について、クエリのために文書を取り込むために、システム300は、高解像度カメラシステム302を介して高解像度文書画像を取り込んで再構成する。文書は必ずしも紙の形である必要はなく、例えば、デジタル文書を表示するタブレット又は電子リーダもまた、所望の実施形態に従って利用することができる。OCRの実行は、TesseractオープンソースOCRエンジンのような任意の所望の実施形態を通じて行うことができる。
人物検出及び認識
例示的な実施形態では、通常、オフィス設定及び会議室が180°魚眼レンズカメラを伴うので、テーブルの周りの人物の姿勢及び180°魚眼レンズからの歪みのために、人物検出及び認識に問題がある。関連技術を採用すると、人物認識技術による結果はそのような実施形態にとっては不十分なものであり、特に顔の両目が見えない場合の顔認識などの技術ではそうである。上記の問題を克服するために、例示的な実施形態は、顔認識を行うために片目の頭部ポーズを処理し、かつ魚眼レンズの歪みを処理することができる深層学習ベースの方法を利用する。
優れた精度に加えて、顔認識のための深層学習の実施形態は「顔埋め込み(face embedding)」表現の事前計算を含むことができ、これは、新しい顔に適用されたときに、学習及び認識のために必要とされる各人物の顔画像を少なくすることができる。このような実施形態により、企業や組織にとってデータ収集がはるかに便利になる。
例示的な実施形態では、顔認識は「顔埋め込み」表現を備えた事前訓練された顔認識モデルを利用し、これは、顔画像からユークリッド空間へのマッピングを提供するもので、同じ人物の顔の距離は小さく、別個の人物の顔の距離は大きくなる。人物の顔画像が収集されると、事前訓練された顔認識実装を使用して顔画像をユークリッド空間に埋め込むことができ、対応する名前又は人物の識別子と共に画像をメモリ304に格納することができる。取り込まれた画像内の顔をシステムが検出するたびに、事前訓練された顔認識によって計算された埋め込みが、格納された埋め込みと比較される。次に、システム300は、格納された埋め込みの中で最も近いものに対応する人物として顔を認識する。
さらに、環境の性質(例えば、卓上310に近接する人物を含む環境)により、関連技術の実施形態では利用できない人物認識のための他の技術を利用することができる。そのような実施形態では、卓上310の近くにいる人物が着用するバッジを感知し、検出されたバッジに基づいて人物の顔認識を導出するか、又は電話会議によって会議に接続された遠隔参加者のユーザ名を調べる。卓上310に近接する人物について認識を行うための他の実施形態も同様に実施することができ、本開示は特定の実施形態に限定されない。
トピック分析に基づいた2モードネットワークの計算
図5は、例示的な実施形態による、トピック分析に基づいて2モードネットワークを計算するための例示的な処理パイプラインを示す。
上記において、文書メタデータを検索するためのクエリの定式化について説明した。502で検索エンジンにクエリを入力することにより、503で関連文書メタデータ項目のランク付けされたリスト及びそれらの検索ランク点数が提供される。閾値(例えば100)は、返されたトップランクの文書の数を決定する。
これとは別に、トピック508のリストを得るために、507で文書メタデータ506に対するトピック分析が実行される。各トピックは、一連の用語及びそれに関連する確率で表される。509で、各文書の各トピックについて、文書メタデータテキストに対するトピック用語を一致させることに基づいてトピック類似度点数が計算され、式は次のとおりである。sim(doc、topic)=Σwordp(word|doc)p(word|topic)。510で、トピック類似度点数は、各作成者について、その作成者による文書セットに対してsim(doc、topic)の平均をとることによっても計算される。このトピック分析工程は、事前に計算することができる(又はデータセットが更新されると定期的に計算される)。
関連するトピックのランク付けされたリストを計算するために、トピックランク点数は、各トピックtについて、関連文書{dj}を繰り返し、djの検索ランク点数を掛けた、djに関するトピック類似度点数sjiを合計して計算することができる。その後、トピックはこれらのトピックランク点数によって並べ替えられる。
関連トピックごとに、そのトピックに関して最も関連性の高い文書及び人物が見つかる。これらの項目は、2モードネットワークを形成する。図2Aの例では、項目は、中央列のトピックの上位の用語と共に行で表示される。トピックtについて最も関連性のある文書を計算するために、j番目の文書のトピック点数sjiが利用される。(顔検出から)認識された人物と一致する複数の作成者が文書にある場合、点数sjiを(例えば、一致カウントを掛けることによって)引き上げることができる。
同様に、トピックtに関して最も関連性のある人物を計算するために、j番目の作成者のトピック点数sjiが利用される。(顔検出から)認識された人物と作成者が一致する場合、点数sjiを(例えば、10.0などの重みを掛けることによって)引き上げることができる。
様々なビュー及びパーソナライゼーション(personalization)
パーソナライゼーションの原則に基づいて異なるビューを生成することができる。検索パーソナライゼーションを実行するための例示的な実施形態の例には、クエリの拡張及び結果処理が含まれる。システムは、クエリを定式化するために、(顔検出から)認識された人物の名前を使用してクエリを拡張する。結果処理の様々なバリエーションを使用して、図2Aから図2Cで説明したように異なるビューを生成することができる。複数のビューは、ユーザインタフェースのタブとして整理することでサポートできる。認識された人物とその文書との関連性点数を検索結果において引き上げることによって、視覚化はこれらの人物に焦点を当てることができる。このビューを使用する例は会議中であり、ユーザは関連するプロジェクトや同僚に簡単にアクセスして話し合うことができる。これは、議論の流れが失われたときに、会議の参加者は会議の後に文書及び連絡先情報を送信すると発言する(又は情報が後で共有されない場合がある)ような、よくある状況のときに好ましい。
認識された人物及びその文書をフィルタリングすることにより、視覚化は他の人物や文書に焦点を当てることができる。このビューを使用する例は、1人のユーザが机に座っているときである。ユーザは自分の文書を知っていて、それらの文書が貴重な画面の面積を占めるのを見る必要はない。
パーソナライズ結果処理(ただし依然としてクエリ拡張機能あり)なしに、例示的な実施形態は関連するすべての文書及び人物に基づいてビューを生成できる。このような実施形態は、ユーザが標準の検索アプリケーションから期待する関連アイテムのセットを提供し、したがって、有用な選択肢となり得る。
詳細な説明の一部の部分は、コンピュータ内の動作のアルゴリズム及び記号表現に関して提示される。これらのアルゴリズム記述及び記号表現は、データ処理技術の当業者が技術革新の本質を当業者に伝えるために使用する手段である。アルゴリズムは、所望の終了状態又は結果をもたらす一連の定義された工程である。実施形態では、実行される工程は、有形の結果を達成するための有形の量の物理的操作を必要とする。
特に断らない限り、説明から明らかなように、「処理する」、「計算する」、「算出する」、「決定する」、「表示する」などの用語を利用する議論は、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを、コンピュータシステムのメモリ又はレジスタあるいは他の情報記憶装置、伝送装置又は表示装置内の物理量として同様に表される他のデータに操作及び変換するコンピュータシステム又は他の情報処理装置の動作及び処理を含む。
例示的な実施形態はまた、本明細書の動作を実行するための装置に関連してもよい。この装置は、必要な目的のために特別に構成することができ、あるいは1又は複数のコンピュータプログラムによって選択的に起動又は再構成される1又は複数の汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に格納されてもよい。コンピュータ可読記憶媒体は、光ディスク、磁気ディスク、読み出し専用メモリ、ランダムアクセスメモリ、固体装置及びドライブ、又は電子情報を格納するのに適した任意の他のタイプの有形の又は非一時的な媒体を含んでもよいが、これらに限定されるものではない。コンピュータ可読信号媒体は、搬送波のような媒体を含んでもよい。本明細書で提示されるアルゴリズム及び表示は、特定のコンピュータ又は他の装置に本質的に関連するものではない。コンピュータプログラムは、所望の実施形態の動作を実行する命令を含む純粋なソフトウェア実施形態を含むことができる。
様々な汎用システムが、本明細書の実施形態に従うプログラム又はモジュールと共に使用されてもよく、又は所望の方法工程を実行するためにより特殊化された装置を構築するのに好都合であることがわかるかもしれない。さらに、例示的な実施形態は、任意の特定のプログラミング言語を参照して説明されていない。本明細書に記載されているような例示的な実施形態の教示を実施するために、様々なプログラミング言語を使用することができることが理解されよう。プログラミング言語の命令は、1又は複数の処理装置、例えば、中央処理装置(CPU)、プロセッサ、又はコントローラによって実行されてもよい。
当技術分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、又はソフトウェア及びハードウェアの組み合わせによって実行することができる。例示的な実施形態の様々な態様は、回路及び論理装置(ハードウェア)を使用して実施されてもよく、他の態様は、機械可読媒体(ソフトウェア)に格納された命令を使用して実施されてもよく、この命令は、プロセッサによって実行される場合、プロセッサに、本出願の実施形態を実行する方法を実行させる。さらに、本出願の一部の実施形態はハードウェアでのみ実行されてもよく、他の実施形態はソフトウェアでのみ実行されてもよい。さらに、説明された様々な機能は、単一のユニットで実行することもできるし、任意の数の方法で複数の構成要素に分散させることもできる。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータのようなプロセッサによって実行されてもよい。必要に応じて、命令は、圧縮及び/又は暗号化された形式で媒体に格納することができる。
さらに、本出願の他の実施形態は、本明細書の詳細の考察及び本出願の教示の実施から当業者には明らかであろう。説明された例示的な実施形態の様々な態様及び/又は構成要素は、単独で、又は任意の組み合わせで使用され得る。本明細書及び例示的な実施形態は、単なる例として考えられるものであり、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示される。

Claims (20)

  1. システムであって、
    プロセッサを含み、プロセッサは、
    第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成し、
    2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定し、
    前記第1のランク付けされた人物のリストからの1又は複数の人物及び前記第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供する、ように構成された
    システム。
  2. 前記第1のカメラシステムは魚眼レンズカメラを備え、前記第2のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項1に記載のシステム。
  3. 前記クエリ結果は、1又は複数のデータベース文書を検索するための前記人物認識から導出された名前とOCRからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された1又は複数のデータベース文書上の2モードネットワークの前記ランク付けされたリストの算出から導出される、請求項1に記載のシステム。
  4. 前記プロセッサは、前記ランク付けされたリスト上の前記2モードネットワークのそれぞれについて、前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストを算出することによって、前記クエリの結果に基づいて、前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストを決定するように構成される、請求項3に記載のシステム。
  5. 前記プロセッサは、2モードネットワークの前記ランク付けされたリストの前記算出を、
    関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、前記1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出し、
    関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第1のトピック点数及び前記第2のトピック点数に基づいて、前記2モードネットワークの前記ランク付けされたリストの各々を算出することによって実行するように構成される、請求項3に記載のシステム。
  6. 前記第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた1又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される、請求項1に記載のシステム。
  7. 前記第1のランク付けされた人物のリストからの1又は複数の人物に関する情報にアクセスするための前記インタフェースは、前記第1のランク付けされたリストからの前記1又は複数の人物の連絡先情報にアクセスすること、及び前記アクセスされた1又は複数の人物に前記連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも1つを実行するように構成される、請求項1に記載のシステム。
  8. 方法であって、
    第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成すること、
    2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定すること、及び
    前記第1のランク付けされた人物のリストからの1又は複数の人物及び前記第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供することを含む、
    処理をコンピュータが実行する方法。
  9. 前記第1のカメラシステムは魚眼レンズカメラを備え、前記第2のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項8に記載の方法。
  10. 前記クエリ結果は、1又は複数のデータベース文書を検索するための前記人物認識から導出された名前とOCRからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された1又は複数のデータベース文書上の2モードネットワークの前記ランク付けされたリストの算出から導出される、請求項8に記載の方法。
  11. 前記クエリの結果に基づいた前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストの前記決定は、前記ランク付けされたリスト上の前記2モードネットワークのそれぞれについて、前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストを算出することをさらに含む、請求項10に記載の方法。
  12. 2モードネットワークの前記ランク付けされたリストの前記算出の前記実行は、
    関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、前記1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出すること、及び
    関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第1のトピック点数及び前記第2のトピック点数に基づいて、前記2モードネットワークの前記ランク付けされたリストの各々を算出することを含む、請求項10に記載の方法。
  13. 前記第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた1又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される、請求項8に記載の方法。
  14. 前記第1のランク付けされた人物のリストからの1又は複数の人物に関する情報にアクセスするための前記インタフェースは、前記第1のランク付けされたリストからの前記1又は複数の人物の連絡先情報にアクセスすること、及び前記アクセスされた1又は複数の人物に前記連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも1つを実行するように構成される、請求項8に記載の方法。
  15. コンピュータに、
    第1のカメラシステムによって取り込まれた第1の画像上で実行された人物認識と、第2のカメラシステムによって取り込まれた第2の画像上のテキスト抽出と、から導出されたクエリを生成する手順と、
    2モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第1のランク付けされた人物のリスト及び第2のランク付けされた文書のリストを決定する手順と、及び
    前記第1のランク付けされた人物のリストからの1又は複数の人物及び前記第2のランク付けされた文書のリストからの1又は複数の文書に関する情報にアクセスするためのインタフェースを提供する手順と、を実行させるための
    プログラム。
  16. 前記第1のカメラシステムは魚眼レンズカメラを備え、前記第2のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項15に記載のプログラム。
  17. 前記クエリ結果は、1又は複数のデータベース文書を検索するための前記人物認識から導出された名前とOCRからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された1又は複数のデータベース文書上の2モードネットワークの前記ランク付けされたリストの算出から導出される、請求項15に記載のプログラム。
  18. 前記クエリの結果に基づいた前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストの前記決定は、前記ランク付けされたリスト上の前記2モードネットワークのそれぞれについて、前記第1のランク付けされた人物のリスト及び前記第2のランク付けされた文書のリストを算出することをさらに含む、請求項17に記載のプログラム。
  19. 2モードネットワークの前記ランク付けされたリストの前記算出の前記実行は、
    関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された1又は複数のデータベース文書のそれぞれについての第1のトピック点数と、前記1又は複数のデータベース文書に関連付けられた各作成者についての第2のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出する手順と、
    関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第1のトピック点数及び前記第2のトピック点数に基づいて、前記2モードネットワークの前記ランク付けされたリストの各々を算出する手順とを含む、請求項17に記載のプログラム。
  20. 前記第2のランク付けされた文書のリストからの1又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた1又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた1又は複数の文書の印刷の少なくとも1つを実行するように構成される、請求項15に記載のプログラム。
JP2019041325A 2018-05-09 2019-03-07 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム Active JP7293735B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/975,682 2018-05-09
US15/975,682 US10810457B2 (en) 2018-05-09 2018-05-09 System for searching documents and people based on detecting documents and people around a table

Publications (2)

Publication Number Publication Date
JP2019197534A JP2019197534A (ja) 2019-11-14
JP7293735B2 true JP7293735B2 (ja) 2023-06-20

Family

ID=68464850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019041325A Active JP7293735B2 (ja) 2018-05-09 2019-03-07 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム

Country Status (3)

Country Link
US (1) US10810457B2 (ja)
JP (1) JP7293735B2 (ja)
CN (1) CN110471886B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210133262A1 (en) * 2019-10-31 2021-05-06 The Goodyear Tire & Rubber Company Tire purchase method
US11496897B2 (en) * 2020-02-24 2022-11-08 Citrix Systems, Inc. Biometric identification of information recipients
CN111368101B (zh) * 2020-03-05 2021-06-18 腾讯科技(深圳)有限公司 多媒体资源信息的展示方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293454A (ja) 2006-04-21 2007-11-08 Fuji Xerox Co Ltd 資料提示システム及び資料提示方法
JP2013501975A (ja) 2009-08-07 2013-01-17 グーグル インコーポレイテッド 視覚クエリに応答するためのアーキテクチャ
JP2017199343A (ja) 2016-04-25 2017-11-02 富士ゼロックス株式会社 卓上カメラ−プロジェクタシステムでの文書閲覧時における関連文書及び人物を可視化するための計算実行方法、プログラムおよび計算処理システム
JP2018063699A (ja) 2016-10-11 2018-04-19 株式会社リコー 人工知能及び会議ルールテンプレートを用いる電子会議の管理

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
US6925197B2 (en) * 2001-12-27 2005-08-02 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
US20100312734A1 (en) * 2005-10-07 2010-12-09 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US8892549B1 (en) * 2007-06-29 2014-11-18 Google Inc. Ranking expertise
US8670597B2 (en) * 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9098758B2 (en) * 2009-10-05 2015-08-04 Adobe Systems Incorporated Framework for combining content intelligence modules
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
US20110191336A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Contextual image search
US9268851B2 (en) * 2010-04-29 2016-02-23 International Business Machines Corporation Ranking information content based on performance data of prior users of the information content
US8559682B2 (en) * 2010-11-09 2013-10-15 Microsoft Corporation Building a person profile database
US20130110827A1 (en) * 2011-10-26 2013-05-02 Microsoft Corporation Relevance of name and other search queries with social network feature
US20130166282A1 (en) * 2011-12-21 2013-06-27 Federated Media Publishing, Llc Method and apparatus for rating documents and authors
CN103714094B (zh) * 2012-10-09 2017-07-11 富士通株式会社 识别视频中的对象的设备和方法
US20150199379A1 (en) * 2012-10-30 2015-07-16 Google Inc. Sorting and searching of related content based on underlying file metadata
US20140280296A1 (en) * 2013-03-14 2014-09-18 Google Inc. Providing help information based on emotion detection
JP2017504105A (ja) * 2013-12-02 2017-02-02 キューベース リミテッド ライアビリティ カンパニー インメモリデータベースサーチのためのシステム及び方法
US9619481B2 (en) * 2014-06-17 2017-04-11 Adobe Systems Incorporated Method and apparatus for generating ordered user expert lists for a shared digital document
US10268763B2 (en) * 2014-07-25 2019-04-23 Facebook, Inc. Ranking external content on online social networks
US10621231B2 (en) * 2015-08-24 2020-04-14 Google Llc Generation of a topic index with natural language processing
WO2017210419A1 (en) * 2016-06-03 2017-12-07 Magic Leaf, Inc. Augmented reality identity verification
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US10204274B2 (en) * 2016-06-29 2019-02-12 Cellular South, Inc. Video to data
US10769156B2 (en) * 2016-08-26 2020-09-08 Microsoft Technology Licensing, Llc Rank query results for relevance utilizing external context
CN106131704A (zh) * 2016-08-30 2016-11-16 天脉聚源(北京)传媒科技有限公司 一种节目搜索的方法和装置
US20180095966A1 (en) * 2016-10-04 2018-04-05 Microsoft Technology Licensing, Llc Presenting ranked search results based on accessibility scores
US11103773B2 (en) * 2018-07-27 2021-08-31 Yogesh Rathod Displaying virtual objects based on recognition of real world object and identification of real world object associated location or geofence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293454A (ja) 2006-04-21 2007-11-08 Fuji Xerox Co Ltd 資料提示システム及び資料提示方法
JP2013501975A (ja) 2009-08-07 2013-01-17 グーグル インコーポレイテッド 視覚クエリに応答するためのアーキテクチャ
JP2017199343A (ja) 2016-04-25 2017-11-02 富士ゼロックス株式会社 卓上カメラ−プロジェクタシステムでの文書閲覧時における関連文書及び人物を可視化するための計算実行方法、プログラムおよび計算処理システム
JP2018063699A (ja) 2016-10-11 2018-04-19 株式会社リコー 人工知能及び会議ルールテンプレートを用いる電子会議の管理

Also Published As

Publication number Publication date
CN110471886B (zh) 2024-06-28
CN110471886A (zh) 2019-11-19
US20190347509A1 (en) 2019-11-14
US10810457B2 (en) 2020-10-20
JP2019197534A (ja) 2019-11-14

Similar Documents

Publication Publication Date Title
Shi et al. Knowledge Aware Semantic Concept Expansion for Image-Text Matching.
JP6349031B2 (ja) 画像に表されたオブジェクトの認識及び照合のための方法及び装置
Wang et al. Event driven web video summarization by tag localization and key-shot identification
US10303984B2 (en) Visual search and retrieval using semantic information
US9811245B2 (en) Systems and methods for displaying an image capturing mode and a content viewing mode
US8577882B2 (en) Method and system for searching multilingual documents
TWI544350B (zh) Input method and system for searching by way of circle
Zhang et al. Efficient propagation for face annotation in family albums
JP7293735B2 (ja) 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム
US20140204119A1 (en) Generating augmented reality exemplars
US20140164927A1 (en) Talk Tags
CN110516096A (zh) 合成感知数字图像搜索
WO2017139764A1 (en) Zero-shot event detection using semantic embedding
Sang et al. Exploiting social-mobile information for location visualization
Dey et al. Learning cross-modal deep embeddings for multi-object image retrieval using text and sketch
WO2018133321A1 (zh) 一种生成镜头信息的方法和装置
Liu et al. Listen, look, and gotcha: instant video search with mobile phones by layered audio-video indexing
Anguera et al. Multimodal photo annotation and retrieval on a mobile phone
Ang et al. LifeConcept: an interactive approach for multimodal lifelog retrieval through concept recommendation
Liu et al. Event-based media enrichment using an adaptive probabilistic hypergraph model
TW201421267A (zh) 搜索系統及方法
Wankhede et al. Content-based image retrieval from videos using CBIR and ABIR algorithm
Wang et al. Listen, look, and find the one: Robust person search with multimodality index
Tanaka et al. Memory specs: an annotation system on Google Glass using document image retrieval
Yousefi et al. 3D hand gesture analysis through a real-time gesture search engine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R150 Certificate of patent or registration of utility model

Ref document number: 7293735

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150