JP2019197534A

JP2019197534A - 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム

Info

Publication number: JP2019197534A
Application number: JP2019041325A
Authority: JP
Inventors: パトリック　チィーウ; Patrick Chiu; チィーウパトリック; チョルファンキム; Kim Chul-Hwan; キムチョルファン; 肇上野; Hajime Ueno; チアヒアデユリアス; Tjahjadi Yulius; ダニガンアンソニー; Anthony Dunnigan; カータースコット; Scott Carter; チェンフランシーン; Francine Chen; ジアンジャオ; Zhiqiang Zhao; ビー　イアン　リュウ; Ian Ryuu B
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-05-09
Filing date: 2019-03-07
Publication date: 2019-11-14
Anticipated expiration: 2039-03-07
Also published as: US20190347509A1; JP7293735B2; CN110471886B; CN110471886A; US10810457B2

Abstract

【課題】会議又は卓上議論等において、所望の情報に容易にアクセスすることができるシステム、方法及びプログラムを提供する。【解決手段】システム及び方法は、卓上に近接した１又は複数の人物の第１の画像を取り込むために第１のカメラシステムを利用すること、卓上に近接した１又は複数の文書の第２の画像を取り込むために第２のカメラシステムを利用すること、第１の画像上で行われた人物認識と第２の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成すること、算出された２モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定すること、及び第１のランク付けされた人物のリストからの１又は複数の人物に関する情報及び第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供することを対象とする。【選択図】図１

Description

本開示は、一般に文書管理システムに関し、より具体的には、会議又はオフィス環境における文書及び人物の認識並びに検索に関する。

関連技術の実施形態では、関連文書の検索に基づいて関係者を検索する検索システムが存在するが、このような実施形態は、同時に起こり得る会議又はオフィス環境の状況を考慮しない。

関連技術の実施形態には、２つの目が見える状態でカメラに面していない顔を検出し認識することが困難である以前のアルゴリズムを改善する、深層学習顔検出及び認識アルゴリズムがある。このような関連技術を用いれば、１８０°視野の魚眼レンズや３６０°視野のパノラマカメラからの、様々な姿勢の歪みのある顔を検出して認識することができる。

関連技術の実施形態では、組織内の関係者をデータベースから検索することができるシステム（例えば、関連文書の作成者に基づく）があるが、テーブルや机の周りで会議をしているかもしれない会議又はオフィス環境の参加者に関する情報を利用するシステムはない。そのような情報は、会議参加者に基づいてプレゼンテーションのための関連文書に容易にアクセスし、印刷又は取得するために、様々な会議状況で必要とされ得る。
例えば、会議又は卓上議論のための文書の物理的コピーが足りない場合、参加者が文書を印刷するためにはコンピュータ及び文書管理システムにアクセスしなければならないので、一般的に会議の参加者が文書を検索して別の物理的な印刷物を作成するのは煩雑である。あるいは、会議の特定の参加者が文書のソフトコピーを要求した場合、文書の作成者は、通常、コンピュータにアクセスしてその文書を電子メール又は他の方法で転送するために机に戻る必要がある。さらに、会議の議論中に会議の他の参加者が関連する公開文書を持っている特定のトピックがある場合、そのような参加者は関連文書にアクセスしたくても、そのような文書を検索して会議の参加者に配布するためにコンピュータや他の装置にアクセスできないことがある。

米国特許公開第２０１７０３０８５５０号公報

BLEI, D., et al., "Latent Dirichlet Allocation". J. Machine Learning Research, 3, (January 2003), pp. 993-1022. CHANG, J., et al., "Reading Tea Leaves: How Humans Interpret Topic Models" NIPS 2009, pp. 288-296. CHEN, F., et al., "Topic Modelling of Documents Metadata for Visualizing Collaborations Over Time" March 7-10, 2016; Sonoma, CA, USA. CHIU, P., et al., "Picture Detection in Document Page Images", pp. 211-214, September 21-24, 2010, Manchester, United Kingdom. DHILLON, I., "Co-Clustering Documents and Words Using Bipartite Spectral Graph Partitioning", (2001), San Francisco, CA, USA. DUNNIGAN, T., et al., "Evolution of a Tabletop Telepresence System Through Art and Technology", October 26-30, 2015; Brisbane, Australia. Kim, C., et al., High-Quality Capture of Documents on a Cluttered Tabletop with a 4K Video Camera", September 8-11, 2015, Lausanne, Switzerland. LIAO, C., et al., "FACT: Fine-Grained Cross-Media Interaction with Documents Via a Portable Hybrid Paper-Laptop Interface", October 25-29, 2010, Firenze, Italy. NEWMAN, W., et al., "CamWorks: A Video-Based Toolf for Efficient Capture From Paper Source Documents; (1999). SCHILIT, B. et al., "Beyond Paper: Supporting Active Reading with Free Form Digital Ink Annotations", April 18-23,1998, Los Angeles, CA, USA, pp.249-256. SCHROFF, F., et al., "FaceNet: A Unified Embedding for Face Recognition and Clustering", CVPR 2015, Computer Vision Foundation, pp. 815-823. UNO, T., et al., "An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases", Discovery Science 2004, pp. 16-31. WELLNER, P., "The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display", November 11-13, 1991, pp. 27-33. ZHAO, J., et al., "BiDots: Visual Exploration of Weighted Biclusters", IEEE Vast 2017 (and IEEE TVCG, 24(1):2018), pp. 195-204. ZHANG, K., et al., "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks", IEEE Signal Learning Processing Letters (2016).

本開示の技術は、会議又は卓上議論等において、所望の情報に容易にアクセスすることができるシステム、方法及びプログラムを提供する。

本明細書に記載された実施形態は、魚眼レンズによって取り込まれたテーブルの周りの人物を認識し、その情報を利用してクエリ（ｑｕｅｒｙ）を作成し、検索結果を処理して関係者及び関連文書の対話型視覚化を行うことによって、上記の問題を解決する。

本開示の態様はプロセッサを含むシステムを含み、システムは、卓上に近接した１又は複数の人物の第１の画像を取り込むために第１のカメラシステムを利用し、卓上に近接した１又は複数の文書の第２の画像を取り込むために第２のカメラシステムを利用し、第１の画像上で行われた人物認識と第２の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成し、算出された２モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定し、第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供するように構成される。

本開示の態様は方法をさらに含み、方法は、卓上に近接した１又は複数の人物の第１の画像を取り込むために第１のカメラシステムを利用すること、卓上に近接した１又は複数の文書の第２の画像を取り込むために第２のカメラシステムを利用すること、第１の画像上で行われた人物認識と第２の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成すること、算出された２モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定すること、及び第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供することを含む。

本開示の態様は、プロセスを実行するための命令を格納する非一時的なコンピュータ可読媒体をさらに含み、プロセスは、卓上に近接した１又は複数の人物の第１の画像を取り込むために第１のカメラシステムを利用すること、卓上に近接した１又は複数の文書の第２の画像を取り込むために第２のカメラシステムを利用すること、第１の画像上で行われた人物認識と第２の画像上のテキスト抽出から導出されたデータベースに対するクエリを生成すること、算出された２モードネットワークのランク付けされたリストに基づくクエリの結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定すること、及び第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースをディスプレイ上に提供することを含む。

本開示の態様に係るシステムは、プロセッサを含み、プロセッサは、第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成し、２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定し、第１のランク付けされた人物のリストからの１又は複数の人物及び第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供する、ように構成されている。

上記のシステムは、第１のカメラシステムは魚眼レンズカメラを備え、第２のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。

上記のシステムにおいて、クエリ結果は、１又は複数のデータベース文書を検索するための人物認識から導出された名前とＯＣＲからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された１又は複数のデータベース文書上の２モードネットワークのランク付けされたリストの算出から導出される。

上記のシステムにおいて、プロセッサは、ランク付けされたリスト上の２モードネットワークのそれぞれについて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを算出することによって、クエリの結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定するように構成される。

上記のシステムにおいて、プロセッサは、２モードネットワークのランク付けされたリストの算出を、関連するトピックのランク付けされたリスト内の各トピックについて、検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出し、関連するトピックのランク付けされたリスト内の各トピックについて、第１のトピック点数及び第２のトピック点数に基づいて、２モードネットワークのランク付けされたリストの各々を算出することによって実行するように構成される。

上記のシステムにおいて、第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースは、アクセスされた１又は複数の文書の表示アプリケーションの実行、及びアクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される。

上記のシステムにおいて、第１のランク付けされた人物のリストからの１又は複数の人物に関する情報にアクセスするためのインタフェースは、第１のランク付けされたリストからの１又は複数の人物の連絡先情報にアクセスすること、及びアクセスされた１又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも１つを実行するように構成される。

本開示の態様に係る方法は、第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成すること、２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定すること、及び第１のランク付けされた人物のリストからの１又は複数の人物及び第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供することを含む。

上記の方法において、第１のカメラシステムは魚眼レンズカメラを備え、第２のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。

上記の方法において、クエリ結果は、１又は複数のデータベース文書を検索するための人物認識から導出された名前とＯＣＲからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された１又は複数のデータベース文書上の２モードネットワークのランク付けされたリストの算出から導出される。

上記の方法において、クエリの結果に基づいた第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストの決定は、ランク付けされたリスト上の２モードネットワークのそれぞれについて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを算出することをさらに含む。

上記の方法において、２モードネットワークのランク付けされたリストの算出の実行は、関連するトピックのランク付けされたリスト内の各トピックについて、検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出すること、及び関連するトピックのランク付けされたリスト内の各トピックについて、第１のトピック点数及び第２のトピック点数に基づいて、２モードネットワークのランク付けされたリストの各々を算出することを含む。

上記の方法において、第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースは、アクセスされた１又は複数の文書の表示アプリケーションの実行、及びアクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される。

上記の方法において、第１のランク付けされた人物のリストからの１又は複数の人物に関する情報にアクセスするためのインタフェースは、第１のランク付けされたリストからの１又は複数の人物の連絡先情報にアクセスすること、及びアクセスされた１又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも１つを実行するように構成される。

本開示の態様に係るプログラムは、コンピュータに、第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成する手順と、２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定する手順と、及び第１のランク付けされた人物のリストからの１又は複数の人物及び第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供する手順と、を実行させるためのプログラムである。

上記のプログラムにおいて、第１のカメラシステムは魚眼レンズカメラを備え、第２のカメラシステムは、魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む。

上記のプログラムにおいて、クエリ結果は、１又は複数のデータベース文書を検索するための人物認識から導出された名前とＯＣＲからのテキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、検索された１又は複数のデータベース文書上の２モードネットワークのランク付けされたリストの算出から導出される。

上記のプログラムにおいて、クエリの結果に基づいた第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストの決定は、ランク付けされたリスト上の２モードネットワークのそれぞれについて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを算出することをさらに含む。

２モードネットワークのランク付けされたリストの算出の実行は、関連するトピックのランク付けされたリスト内の各トピックについて、検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出する手順と、関連するトピックのランク付けされたリスト内の各トピックについて、第１のトピック点数及び第２のトピック点数に基づいて、２モードネットワークのランク付けされたリストの各々を算出する手順と、を含む。

第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースは、アクセスされた１又は複数の文書の表示アプリケーションの実行、及びアクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される。

本明細書に記載されている例示的な実施形態では、ディスプレイのための表示アプリケーション上で実行するため、追加の印刷物が必要な場合に印刷するため、又はそのような文書にアクセスするためのコンピュータ端末へのアクセスを見つける必要なしに他のユーザ装置にソフトコピーを提供するために、卓上議論の周りの関係者についての関連文書を検索することができる。さらに、現在の議論に関連する卓上議論の参加者によって作成された文書を検索するための人認識及び２モードネットワークを利用して、現在のトピックに関する文書を卓上議論の参加者に提供することもできる。

図１は例示的な実施形態に従うシステムの例示的な概要を示した図である。図２Ａは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。図２Ｂは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。図２Ｃは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。図２Ｄは、例示的な実施形態に従う検索結果の対話型視覚化を示した図である。図３は例示的な実施形態に従うシステムの例示的なハードウェア図を示した図である。図４は例示的な実施形態に従う、入力から出力を計算するための例示的な処理パイプライン（ｐｒｏｃｅｓｓｉｎｇｐｉｐｅｌｉｎｅ）を示した図である。図５は例示的な実施形態に従う、トピック分析に基づいて２モードネットワークを計算するための例示的な処理パイプラインを示した図である。

以下の詳細な説明は、本出願の図面及び例示的な実施形態のさらなる詳細を提供する。図面間で重複する要素の参照番号及び説明は、明確にするために省略されている。明細書全体にわたって使用されている用語は、例として提供されており、限定を意図するものではない。例えば、「自動」という用語の使用は、本出願の実施形態を実施する当業者の所望の実施形態に応じて、実施形態の特定の態様に対するユーザ又は管理者の制御を含む完全自動又は半自動の実施形態を含むことができる。

図１は、例示的な実施形態に従うシステムの例示的な概要を示す。システムの実施形態では、人物認識１０１及び文書取り込み１０２が会議又はオフィス設定のために並行して行われ、検索エンジン１０３及び処理結果１０４によって処理されて視覚化１０５が生成される。本明細書に記載の実施形態は、これらに限定されないがテーブルの周りの小グループ会議、又はスマートデスクに座っている人など、会議又はオフィス設定の状況中の関連する文書及び人物を検索するシステムを対象とする。検索クエリ（ｓｅａｒｃｈｑｕｅｒｙ）は、テーブル上の文書のテキストに基づいて、参加者の名前と共に作成される。文書テキストは、高解像度カメラ及び光学式文字認識（ＯＣＲ）を使用して取得される。参加者の名前は、魚眼レンズと深層学習に基づく顔認識アルゴリズムとを使用して取得される。検索結果は、関連文書及び参加者の異なるランク付けされたリストを生成するために処理される（例えば、認識された参加者及びその文書に焦点を当てる又はフィルタリングする）。２モードネットワークのランキングリストは、対話型アプリケーションを使用した視覚化のトピック分析に基づいて計算される。

図２Ａから図２（ｄ）は、実施形態に従う検索結果の対話型視覚化を示す。図２Ａの例示的な実施形態では、認識された人物は中央列の近くに「ピン留め」されている。中央列の各項目はトピック（例えば、３つのトピック用語を備える）を表し、各行は、そのトピックが関連する人物及び文書を含む（例えば、ランクの高い項目が大きく、中央列に近い）。しかしながら、検索結果の視覚化のための他の実施形態も実施されてもよく、本開示はそれに限定されない。例えば、対話型視覚化は、本明細書で説明されるように、認識された人物及びそれらの文書のランク点数を上げることに基づくビュー（ｖｉｅｗ）を提供することができる。ビューは、所望の実施形態及び会議又は対話の状況に応じて、認識された人物及びその文書をフィルタリングすることに基づいて提供されてもよいし、すべての関連文書及び人物に基づいて提供されてもよい。本明細書で説明されるように、図２（ｂ）は、認識された人物及びその文書のランク点数を上げることに基づく例示的な対話型ビュー（ｉｎｔｅｒａｃｔｉｖｅｖｉｅｗ）を示す。図２Ｃは、認識された人物及びその文書をフィルタリングすることに基づく例示的な対話型ビューを示す。図２Ｄは、すべての関連文書及び人物に基づく例示的な対話型ビューを示す。他の対話型ビューもまた、所望の実施形態によって構築することができる。

図３は、例示的な実施形態に従うシステムの例示的なハードウェア図を示す。システム３００は、人物取り込み用のカメラシステム３０１、文書取り込み用の別個のカメラシステム３０２、プロセッサ３０３、メモリ３０４、ディスプレイ３０５、及びインタフェース（Ｉ／Ｆ）３０６を含むことができる。システム３００は、卓上に置かれた１又は複数の文書３１１を有する卓上３１０を監視するように構成される。卓上３１０は、スマートデスク、会議テーブル、あるいは１又は複数の文書３１１が置かれ得る他の物理的表面の形態であり得る。１又は複数の文書３１１は、紙文書の形式であってもよく、又はタブレット、電子リーダなど所望の実施形態に従う他の形式であってもよい。

人物取り込み用のカメラシステム３０１は、人物検出のために構成された１８０度の魚眼レンズカメラの形態であり得る。多くの会議室、スマートデスク及び他のオフィス設定は、通常、ビデオ会議又は他の目的のために１８０°魚眼レンズカメラを有することが可能であるため、例示的な実施形態は、１８０°魚眼レンズカメラを含むそのような環境においてシームレスに実施することができる。別の選択肢は、テーブルの中央に配置された３６０°パノラマカメラを使用することである。例示的な実施形態では、プロセッサ３０３は、人物取り込み用のカメラシステム３０１を利用して、卓上３１０に近接した１又は複数の人物の画像を取り込むことができる（例えば、卓上３１０の近くに座っている人物に適用される、卓上３１０から一定距離内にいる人物に適用される、静置スピーカーのみに適用されるなど）。近接度は、所望の実施形態に従って定義された、予め設定された閾値とすることができる。

文書取り込み用のカメラシステム３０２は、１又は複数の文書３１１からテキストを検出するように構成することができ、かつ人物取り込み用のカメラシステム３０１よりも高い画素密度で取り込むように動作する高解像度ビデオカメラの形態であってもよい。例示的な実施形態では、高解像度ビデオカメラは、１又は複数の文書３１１がそのような情報を含む場合、文書内の人物の写真上で人物認識を実行するように構成することもできる。所望の実施形態に応じて、会議施設又はオフィス設定がそのような実施形態を容易にする場合、１つのカメラシステムを文書取り込み及び顔取り込みの両方に利用することができる。プロセッサ３０３は、（例えば、卓上３１０の境界内などの）卓上に近接した１又は複数の文書の画像を取り込むために、文書取り込み用のカメラシステム３０２を利用することができる。近接度は、所望の実施形態に従って設定された閾値に基づくことができる。

ディスプレイ３０５は、所望の実施形態に応じて、視覚化及び検索結果との対話のためのタッチスクリーンの形態とすることができる。ディスプレイ３０５はまた、図２Ａから図２Ｄに示すように、個々の文書のフルサイズのバージョンを表示する中央コントローラを備えたディスプレイのセットを含むことができる。Ｉ／Ｆ３０６は、所望の実施形態に応じて、キーボード、マウス、タッチパッド、又はディスプレイ３０５のための他の入力装置などのインタフェース装置を含むことができる。

例示的な実施形態では、プロセッサ３０３は、物理ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組み合わせを含む中央処理装置（ＣＰＵ）の形態であってもよい。プロセッサ３０３はシステムの入力を取り込むように構成され、システムの入力は、文書取り込み用のカメラ３０２からのカメラ画像と、顔検出及び認識のための１８０°魚眼レンズを有するカメラ３０１からのカメラ画像とを含むことができる。プロセッサ３０３は、２モードネットワークのランク付けされたリストを含む出力としてデータ構造を生成することができ、各ネットワークは、ランク付けされた文書のリスト及びランク付けされた人物のリストによって指定される２組の頂点を有する。そのようなランク付けされたリストは、図２Ａから図２Ｄに示すような形態でディスプレイ３０５に提供され得る。プロセッサ３０３は、カメラシステム３０１及び３０２の画像からの人物認識及びテキスト抽出から導出されるデータベースのクエリを生成するための本明細書に記載された実施形態を容易にするための図４及び図５に示すフローチャートを実行するように構成することもでき、２モードネットワークの計算されたランク付けされたリストに基づくクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定するように構成することもでき、第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするためのインタフェースをディスプレイ３０５上に提供するように構成することもできる。

Ｉ／Ｆ３０６又はディスプレイ３０５を介してディスプレイがタッチスクリーンとして実施される場合、ユーザは１又は複数の文書にアクセスし、ここでプロセッサ３０３は、所望の実施形態に応じて、アクセスされた１又は複数の文書の表示アプリケーションの実行、及び文書を物理プリンタへ送信することによる、アクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成することができる。

さらなる実施形態では、Ｉ／Ｆ３０６又はディスプレイ３０５を介してディスプレイがタッチスクリーンとして実施される場合、ユーザは、表示されたランク付けされた人物のリストからの１又は複数の人物についての情報にアクセスすることもでき、ここでプロセッサ３０３は、ランク付けされたリストからの１又は複数の人物の連絡先情報（例えば、電子メールアドレス、オフィス電話番号、住所、携帯電話番号、チャットアプリケーションハンドルなど）にアクセスすること、及びアクセスされた１又は複数の人物に連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも１つを実行するように構成される。例えば、ランク付けされたリストからの１又は複数の人物の連絡先情報にアクセスすると、電子メールアプリケーションを起動することができ、あるいは携帯電話番号又はチャットアプリケーションハンドルの選択に応答して、テキスト／チャットアプリケーションを起動することができる。さらに、オフィス電話番号又は携帯電話番号の選択に応答して、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を介して、又は音声アプリケーション又は他の方法によって電話をかけることができる。所望の実施形態に従って、適切なアプリケーションを起動するか、又は選択された人物に連絡するための他の実施形態も可能であり、本開示は特定の実施形態によって限定されない。

図４は、例示的な実施形態に従う、入力から出力を計算するための例示的な処理パイプラインを示す。具体的には、図４は、図１に示すシステム全体の例示的な実施形態を示す。システムは、４０１で卓上の文書を検出して取り込むとともに、４０２で卓上の周囲の顔を検出して認識する。例示的な実施形態では、文書及び人物の検索は、４０６で、文書メタデータのデータセット（例えば、「タイトル」、「要約」、「作成者」などのフィールドを含む）から、４０５で定式化されたクエリ文字列に基づく当技術分野において既知の標準的なテキストベースの検索エンジンを使用することによって実施することができる。本明細書で説明される文書取り込みの実施形態は、４０３でページコンテンツのＯＣＲテキストを提供する。本明細書で説明される顔検出及び認識の実施形態は、４０４でテーブルの周囲の認識された人物の名前を提供する。

４０５のクエリを定式化するための例示的な実施形態では、ページコンテンツ（ストップワードを削除したもの）及び名前を有する語の袋（ｂａｇｏｆｗｏｒｄｓ）を利用することができる。しかしながら、一部の実施形態では、ページ上の語の数が名前からの語の数よりもはるかに多い場合に問題が生じる可能性がある。このような潜在的な問題に対処するために、ページテキスト及び名前による２つの個別のクエリを実行することができ、その結果は例示的な実施形態において組み合わせることができる。別の例示的な実施形態では、名前からの語を有する「作成者」フィールドを対象にすることによって、クエリを指定することができる。所望の実施形態に従って、４０５で、他の方法を利用してクエリを定式化することもできる。

４０７で、検索エンジンの出力から、結果は、関連性点数を有する文書メタデータ項目のランク付けされたリストによって記述される。２モードネットワークを計算するために、異なるモデル（例えば、バイクラスタリング（ｂｉｃｌｕｓｔｅｒｉｎｇ）、共クラスタリング（ｃｏ−ｃｌｕｓｔｅｒｉｎｇ）、トピックモデリング（ｔｏｐｉｃｍｏｄｅｌｉｎｇ）など）を使用することが可能である。トピックモデリング及びそれに対応する計算を含む例示的な実施形態を以下に説明する。

４０９で、計算された２モードネットワークから、視覚化が生成されて結果が表示されるので、各２モードネットワークは、左側に人物があり右側に文書があるサムネイルの行によって表される。文書サムネイルは、所望の実施形態に従って、任意の画像検出方法又は視覚的文書要約方法を利用して決定することができる。さらに、出力は、ネットワークをモデル化する方法に依存する、２モードネットワークの各々についての説明又はラベルを提供する。

文書取り込み及びＯＣＲ

物理的な紙文書について、クエリのために文書を取り込むために、システム３００は、高解像度カメラシステム３０２を介して高解像度文書画像を取り込んで再構成する。文書は必ずしも紙の形である必要はなく、例えば、デジタル文書を表示するタブレット又は電子リーダもまた、所望の実施形態に従って利用することができる。ＯＣＲの実行は、ＴｅｓｓｅｒａｃｔオープンソースＯＣＲエンジンのような任意の所望の実施形態を通じて行うことができる。

人物検出及び認識

例示的な実施形態では、通常、オフィス設定及び会議室が１８０°魚眼レンズカメラを伴うので、テーブルの周りの人物の姿勢及び１８０°魚眼レンズからの歪みのために、人物検出及び認識に問題がある。関連技術を採用すると、人物認識技術による結果はそのような実施形態にとっては不十分なものであり、特に顔の両目が見えない場合の顔認識などの技術ではそうである。上記の問題を克服するために、例示的な実施形態は、顔認識を行うために片目の頭部ポーズを処理し、かつ魚眼レンズの歪みを処理することができる深層学習ベースの方法を利用する。

優れた精度に加えて、顔認識のための深層学習の実施形態は「顔埋め込み（ｆａｃｅｅｍｂｅｄｄｉｎｇ）」表現の事前計算を含むことができ、これは、新しい顔に適用されたときに、学習及び認識のために必要とされる各人物の顔画像を少なくすることができる。このような実施形態により、企業や組織にとってデータ収集がはるかに便利になる。

例示的な実施形態では、顔認識は「顔埋め込み」表現を備えた事前訓練された顔認識モデルを利用し、これは、顔画像からユークリッド空間へのマッピングを提供するもので、同じ人物の顔の距離は小さく、別個の人物の顔の距離は大きくなる。人物の顔画像が収集されると、事前訓練された顔認識実装を使用して顔画像をユークリッド空間に埋め込むことができ、対応する名前又は人物の識別子と共に画像をメモリ３０４に格納することができる。取り込まれた画像内の顔をシステムが検出するたびに、事前訓練された顔認識によって計算された埋め込みが、格納された埋め込みと比較される。次に、システム３００は、格納された埋め込みの中で最も近いものに対応する人物として顔を認識する。

さらに、環境の性質（例えば、卓上３１０に近接する人物を含む環境）により、関連技術の実施形態では利用できない人物認識のための他の技術を利用することができる。そのような実施形態では、卓上３１０の近くにいる人物が着用するバッジを感知し、検出されたバッジに基づいて人物の顔認識を導出するか、又は電話会議によって会議に接続された遠隔参加者のユーザ名を調べる。卓上３１０に近接する人物について認識を行うための他の実施形態も同様に実施することができ、本開示は特定の実施形態に限定されない。

トピック分析に基づいた２モードネットワークの計算

図５は、例示的な実施形態による、トピック分析に基づいて２モードネットワークを計算するための例示的な処理パイプラインを示す。

上記において、文書メタデータを検索するためのクエリの定式化について説明した。５０２で検索エンジンにクエリを入力することにより、５０３で関連文書メタデータ項目のランク付けされたリスト及びそれらの検索ランク点数が提供される。閾値（例えば１００）は、返されたトップランクの文書の数を決定する。

これとは別に、トピック５０８のリストを得るために、５０７で文書メタデータ５０６に対するトピック分析が実行される。各トピックは、一連の用語及びそれに関連する確率で表される。５０９で、各文書の各トピックについて、文書メタデータテキストに対するトピック用語を一致させることに基づいてトピック類似度点数が計算され、式は次のとおりである。ｓｉｍ（ｄｏｃ、ｔｏｐｉｃ）＝Σ_ｗｏｒｄｐ（ｗｏｒｄ｜ｄｏｃ）ｐ（ｗｏｒｄ｜ｔｏｐｉｃ）。５１０で、トピック類似度点数は、各作成者について、その作成者による文書セットに対してｓｉｍ（ｄｏｃ、ｔｏｐｉｃ）の平均をとることによっても計算される。このトピック分析工程は、事前に計算することができる（又はデータセットが更新されると定期的に計算される）。

関連するトピックのランク付けされたリストを計算するために、トピックランク点数は、各トピックｔ_ｉについて、関連文書｛ｄｊ｝を繰り返し、ｄｊの検索ランク点数を掛けた、ｄｊに関するトピック類似度点数ｓ_ｊｉを合計して計算することができる。その後、トピックはこれらのトピックランク点数によって並べ替えられる。

関連トピックごとに、そのトピックに関して最も関連性の高い文書及び人物が見つかる。これらの項目は、２モードネットワークを形成する。図２Ａの例では、項目は、中央列のトピックの上位の用語と共に行で表示される。トピックｔ_ｉについて最も関連性のある文書を計算するために、ｊ番目の文書のトピック点数ｓ_ｊｉが利用される。（顔検出から）認識された人物と一致する複数の作成者が文書にある場合、点数ｓ_ｊｉを（例えば、一致カウントを掛けることによって）引き上げることができる。

同様に、トピックｔ_ｉに関して最も関連性のある人物を計算するために、ｊ番目の作成者のトピック点数ｓ_ｊｉが利用される。（顔検出から）認識された人物と作成者が一致する場合、点数ｓ_ｊｉを（例えば、１０．０などの重みを掛けることによって）引き上げることができる。

様々なビュー及びパーソナライゼーション（ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ）

パーソナライゼーションの原則に基づいて異なるビューを生成することができる。検索パーソナライゼーションを実行するための例示的な実施形態の例には、クエリの拡張及び結果処理が含まれる。システムは、クエリを定式化するために、（顔検出から）認識された人物の名前を使用してクエリを拡張する。結果処理の様々なバリエーションを使用して、図２Ａから図２Ｃで説明したように異なるビューを生成することができる。複数のビューは、ユーザインタフェースのタブとして整理することでサポートできる。認識された人物とその文書との関連性点数を検索結果において引き上げることによって、視覚化はこれらの人物に焦点を当てることができる。このビューを使用する例は会議中であり、ユーザは関連するプロジェクトや同僚に簡単にアクセスして話し合うことができる。これは、議論の流れが失われたときに、会議の参加者は会議の後に文書及び連絡先情報を送信すると発言する（又は情報が後で共有されない場合がある）ような、よくある状況のときに好ましい。

認識された人物及びその文書をフィルタリングすることにより、視覚化は他の人物や文書に焦点を当てることができる。このビューを使用する例は、１人のユーザが机に座っているときである。ユーザは自分の文書を知っていて、それらの文書が貴重な画面の面積を占めるのを見る必要はない。

パーソナライズ結果処理（ただし依然としてクエリ拡張機能あり）なしに、例示的な実施形態は関連するすべての文書及び人物に基づいてビューを生成できる。このような実施形態は、ユーザが標準の検索アプリケーションから期待する関連アイテムのセットを提供し、したがって、有用な選択肢となり得る。

詳細な説明の一部の部分は、コンピュータ内の動作のアルゴリズム及び記号表現に関して提示される。これらのアルゴリズム記述及び記号表現は、データ処理技術の当業者が技術革新の本質を当業者に伝えるために使用する手段である。アルゴリズムは、所望の終了状態又は結果をもたらす一連の定義された工程である。実施形態では、実行される工程は、有形の結果を達成するための有形の量の物理的操作を必要とする。

特に断らない限り、説明から明らかなように、「処理する」、「計算する」、「算出する」、「決定する」、「表示する」などの用語を利用する議論は、コンピュータシステムのレジスタ及びメモリ内の物理（電子）量として表されるデータを、コンピュータシステムのメモリ又はレジスタあるいは他の情報記憶装置、伝送装置又は表示装置内の物理量として同様に表される他のデータに操作及び変換するコンピュータシステム又は他の情報処理装置の動作及び処理を含む。

例示的な実施形態はまた、本明細書の動作を実行するための装置に関連してもよい。この装置は、必要な目的のために特別に構成することができ、あるいは１又は複数のコンピュータプログラムによって選択的に起動又は再構成される１又は複数の汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に格納されてもよい。コンピュータ可読記憶媒体は、光ディスク、磁気ディスク、読み出し専用メモリ、ランダムアクセスメモリ、固体装置及びドライブ、又は電子情報を格納するのに適した任意の他のタイプの有形の又は非一時的な媒体を含んでもよいが、これらに限定されるものではない。コンピュータ可読信号媒体は、搬送波のような媒体を含んでもよい。本明細書で提示されるアルゴリズム及び表示は、特定のコンピュータ又は他の装置に本質的に関連するものではない。コンピュータプログラムは、所望の実施形態の動作を実行する命令を含む純粋なソフトウェア実施形態を含むことができる。

様々な汎用システムが、本明細書の実施形態に従うプログラム又はモジュールと共に使用されてもよく、又は所望の方法工程を実行するためにより特殊化された装置を構築するのに好都合であることがわかるかもしれない。さらに、例示的な実施形態は、任意の特定のプログラミング言語を参照して説明されていない。本明細書に記載されているような例示的な実施形態の教示を実施するために、様々なプログラミング言語を使用することができることが理解されよう。プログラミング言語の命令は、１又は複数の処理装置、例えば、中央処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実行されてもよい。

当技術分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、又はソフトウェア及びハードウェアの組み合わせによって実行することができる。例示的な実施形態の様々な態様は、回路及び論理装置（ハードウェア）を使用して実施されてもよく、他の態様は、機械可読媒体（ソフトウェア）に格納された命令を使用して実施されてもよく、この命令は、プロセッサによって実行される場合、プロセッサに、本出願の実施形態を実行する方法を実行させる。さらに、本出願の一部の実施形態はハードウェアでのみ実行されてもよく、他の実施形態はソフトウェアでのみ実行されてもよい。さらに、説明された様々な機能は、単一のユニットで実行することもできるし、任意の数の方法で複数の構成要素に分散させることもできる。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータのようなプロセッサによって実行されてもよい。必要に応じて、命令は、圧縮及び／又は暗号化された形式で媒体に格納することができる。

さらに、本出願の他の実施形態は、本明細書の詳細の考察及び本出願の教示の実施から当業者には明らかであろう。説明された例示的な実施形態の様々な態様及び／又は構成要素は、単独で、又は任意の組み合わせで使用され得る。本明細書及び例示的な実施形態は、単なる例として考えられるものであり、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示される。

Claims

システムであって、
プロセッサを含み、プロセッサは、
第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成し、
２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定し、
前記第１のランク付けされた人物のリストからの１又は複数の人物及び前記第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供する、ように構成された
システム。
前記第１のカメラシステムは魚眼レンズカメラを備え、前記第２のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項１に記載のシステム。
前記クエリ結果は、１又は複数のデータベース文書を検索するための前記人物認識から導出された名前とＯＣＲからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された１又は複数のデータベース文書上の２モードネットワークの前記ランク付けされたリストの算出から導出される、請求項１に記載のシステム。
前記プロセッサは、前記ランク付けされたリスト上の前記２モードネットワークのそれぞれについて、前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストを算出することによって、前記クエリの結果に基づいて、前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストを決定するように構成される、請求項３に記載のシステム。
前記プロセッサは、２モードネットワークの前記ランク付けされたリストの前記算出を、
関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、前記１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出し、
関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第１のトピック点数及び前記第２のトピック点数に基づいて、前記２モードネットワークの前記ランク付けされたリストの各々を算出することによって実行するように構成される、請求項３に記載のシステム。
前記第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた１又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される、請求項１に記載のシステム。
前記第１のランク付けされた人物のリストからの１又は複数の人物に関する情報にアクセスするための前記インタフェースは、前記第１のランク付けされたリストからの前記１又は複数の人物の連絡先情報にアクセスすること、及び前記アクセスされた１又は複数の人物に前記連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも１つを実行するように構成される、請求項１に記載のシステム。
方法であって、
第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成すること、
２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定すること、及び
前記第１のランク付けされた人物のリストからの１又は複数の人物及び前記第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供することを含む、
方法。
前記第１のカメラシステムは魚眼レンズカメラを備え、前記第２のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項８に記載の方法。
前記クエリ結果は、１又は複数のデータベース文書を検索するための前記人物認識から導出された名前とＯＣＲからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された１又は複数のデータベース文書上の２モードネットワークの前記ランク付けされたリストの算出から導出される、請求項８に記載の方法。
前記クエリの結果に基づいた前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストの前記決定は、前記ランク付けされたリスト上の前記２モードネットワークのそれぞれについて、前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストを算出することをさらに含む、請求項１０に記載の方法。
２モードネットワークの前記ランク付けされたリストの前記算出の前記実行は、
関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、前記１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出すること、及び
関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第１のトピック点数及び前記第２のトピック点数に基づいて、前記２モードネットワークの前記ランク付けされたリストの各々を算出することを含む、請求項１０に記載の方法。
前記第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた１又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される、請求項８に記載の方法。
前記第１のランク付けされた人物のリストからの１又は複数の人物に関する情報にアクセスするための前記インタフェースは、前記第１のランク付けされたリストからの前記１又は複数の人物の連絡先情報にアクセスすること、及び前記アクセスされた１又は複数の人物に前記連絡先情報に従って連絡するために通信アプリケーションを実行することの少なくとも１つを実行するように構成される、請求項８に記載の方法。
コンピュータに、
第１のカメラシステムによって取り込まれた第１の画像上で実行された人物認識と、第２のカメラシステムによって取り込まれた第２の画像上のテキスト抽出と、から導出されたクエリを生成する手順と、
２モードネットワークの算出されたランク付けされたリストから導出されたクエリ結果に基づいて、第１のランク付けされた人物のリスト及び第２のランク付けされた文書のリストを決定する手順と、及び
前記第１のランク付けされた人物のリストからの１又は複数の人物及び前記第２のランク付けされた文書のリストからの１又は複数の文書に関する情報にアクセスするためのインタフェースを提供する手順と、を実行させるための
プログラム。
前記第１のカメラシステムは魚眼レンズカメラを備え、前記第２のカメラシステムは、前記魚眼レンズカメラよりも高い画素密度で取り込むように構成されたカメラを含む、請求項１５に記載のプログラム。
前記クエリ結果は、１又は複数のデータベース文書を検索するための前記人物認識から導出された名前とＯＣＲからの前記テキスト抽出とに基づいたデータベース内の文書メタデータの検索、及び、前記検索された１又は複数のデータベース文書上の２モードネットワークの前記ランク付けされたリストの算出から導出される、請求項１５に記載のプログラム。
前記クエリの結果に基づいた前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストの前記決定は、前記ランク付けされたリスト上の前記２モードネットワークのそれぞれについて、前記第１のランク付けされた人物のリスト及び前記第２のランク付けされた文書のリストを算出することをさらに含む、請求項１７に記載のプログラム。
２モードネットワークの前記ランク付けされたリストの前記算出の前記実行は、
関連するトピックの前記ランク付けされたリスト内の各トピックについて、前記検索された１又は複数のデータベース文書のそれぞれについての第１のトピック点数と、前記１又は複数のデータベース文書に関連付けられた各作成者についての第２のトピック点数とを生成するために文書メタデータ上で実行されるトピック分析に基づいて関連するトピックのランク付けされたリストを算出する手順と、
関連するトピックの前記ランク付けされたリスト内の前記各トピックについて、前記第１のトピック点数及び前記第２のトピック点数に基づいて、前記２モードネットワークの前記ランク付けされたリストの各々を算出する手順とを含む、請求項１７に記載のプログラム。
前記第２のランク付けされた文書のリストからの１又は複数の文書にアクセスするための前記インタフェースは、前記アクセスされた１又は複数の文書の表示アプリケーションの実行、及び前記アクセスされた１又は複数の文書の印刷の少なくとも１つを実行するように構成される、請求項１５に記載のプログラム。