JP2023057658A - 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム - Google Patents

情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム Download PDF

Info

Publication number
JP2023057658A
JP2023057658A JP2021167248A JP2021167248A JP2023057658A JP 2023057658 A JP2023057658 A JP 2023057658A JP 2021167248 A JP2021167248 A JP 2021167248A JP 2021167248 A JP2021167248 A JP 2021167248A JP 2023057658 A JP2023057658 A JP 2023057658A
Authority
JP
Japan
Prior art keywords
unit
data
document
information processing
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021167248A
Other languages
English (en)
Inventor
崇 桑原
Takashi Kuwabara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2021167248A priority Critical patent/JP2023057658A/ja
Publication of JP2023057658A publication Critical patent/JP2023057658A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】直感的な対話インターフェイスにより所望の情報を検索する技術を提供する。【解決手段】サーバー130のハードディスク5が有するデータベース300は、粒度に応じて階層化された複数のクラスタ310,320,330を有し、各データには、各クラスタのクラスタラベルが付されており、サーバー130と通信可能な端末110,120からクラスタの粒度に応じて提示されるクラスタラベルから選択されたクラスタラベルを受信すると、サーバー130は、当該クラスタラベルを含むクラスタ310,320,330に分類されている文書データを読み出して、検索結果として端末110,120に送信し、検索結果をモニター8に表示させる。【選択図】図3

Description

本開示は情報処理に関し、より特定的には、クラスタを用いた情報管理に関する。
近年、多くの企業のDX(Digital Transformation)化推進により、オフィスのデジタル情報量は、爆発的に増加している。この状況下で、オフィス業務の効率化を図るには、蓄積されたドキュメントデータの活用は必須である。多くのオフィス業務は、「やったことがある作業」であれば過去の情報を参照しながら業務を進めるほうが圧倒的に作業効率は良く、理解も早く間違いも少ない。つまり、過去の成果物の「引用と再利用」が業務効率化に繋がる。
現状、情報を再利用するための一つの手段として、参考になる情報を「まずは検索」することが行なわれる。(例、ファイルエクスプローラー、アプリケーション上での検索など)
情報の検索に関し、例えば、特開2002-32394号公報(特許文献1)は、「関連語の提示において、関連語を相互に関連度の高いクラスタ(グループ)ごとに提示することで、利用者の関連語の効率的な選択を支援する」技術を開示している。より具体的には、「単語クラスタリング部3は、単語をノード、単語間にある関連をアークとしたグラフの全体から関連性の高い部分グラフをクラスタとして抽出し、得られたクラスタのノード集合を得ることで、文書データベース部2の登録文書中の単語のクラスタリングを行ない、関連語情報を作成し、関連語情報記憶部4に記憶する。関連語情報取得部6は、関連語情報記憶部4を参照して、単語入力部5で入力された単語の関連語を、相互に関連度の高いクラスタごとに提示できるように求める。」というものである([要約]参照)。
また、特開2006-31577号公報(特許文献2)は、「検索対象に対して、あるキーワードとの関連性のみならず、その検索された情報間の関連性を動的かつリアルタイムに計算し、情報を整理した上で新たなカテゴリを自動的に生成しユーザに提示することができ、質問文とのマッチングの度合いに関係なく、検索された対象間の関連性により内容の確認を行うことが支援されるため、より効率的に意図する対象に到達する可能性が高まる情報の検索俯瞰方法および装置」を開示している。具体的には、「検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法」は、「検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとで情報の検索俯瞰方法を構成している。」というものである([要約]参照)。
特開2002-32394号公報 特開2006-31577号公報
ユーザーは、作業に必要な「関連する情報」を見つけようと思ったときに、ヒットすると期待されるキーワードを連想し、検索された結果の量を見て、言い換え、抽象化、具体化を繰り返すことで所望な情報を特定する。このような検索を効率的に行うためには、リテラシーの高さがユーザーに求められる。はっきりした目的のものを、数個見つけるのは可能でも、必要な情報が多くなってくると検索で見つけるのは非常に難しい。
実際問題、たとえば、ユーザーは、従来の検索システムで業務上必要とする情報を探そうとしても、必要となる情報が多岐に渡るため、キーワードを記憶できないことは多い。具体的な場面としては、プロジェクトのマネジメント職(以下、ユーザーというとき、マネジメント職を示す場合がある)が該当する。プロジェクトによっては、情報は多岐に渡り現場の担当者しか知り得ない情報も存在する。
ユーザーは、具体的なキーワードを明確に覚えなくとも、担当者自身が担当箇所を正しく把握していれば業務上問題ないことから、実際のドキュメントの情報と理解している情報がキーワードレベルで結びついていない。その一方で、ユーザーは渉外対応や他部署からの問い合わせによっては、詳細な情報を基に回答するケースもあるが、ユーザーが問い合わせ内容から判断し担当者に回答してもらうケースも多い。担当者に回答してもらう場合、その担当者が業務上、時間が取れない、また不在の際には問い合わせに回答できないこともある。この場合、ユーザーが詳細な情報を検索せざるを得ないため検索するが、これまでの検索システムでは、そのキーワードを明確にしなければ所望の情報に辿り着くための検索ができないという課題があるため、ユーザーとしては現場の担当者に聞かずに所望の情報を手に入れたいのにできないことになってしまう。
このように、ユーザーが記憶している知識だけでは所望の情報に辿り着くことができないことが多く、ユーザーの知識レベルに合わせた情報探索が求められている。
本開示は上述のような背景に鑑みてなされたものであって、ある局面に従う目的は、ユーザーの知識レベルに応じた情報探索を支援する技術を提供することである。
ある実施の形態に従うと、情報処理装置が提供される。この情報処理装置は、複数の文書の各々を解析して特徴ごとに各文書をクラスタリングするクラスタリング部と、各文書から特徴語を抽出する抽出部と、抽出された特徴語を概念レベルごとに管理する記憶部とを備える。
ある局面において、クラスタリング部は、各文書を解析する解析部を含む。
ある局面において、解析部は、ドキュメントデータ、画像データ、または音声データのいずれかのデータを解析する。
ある局面において、解析部は、形態素解析部を含む。形態素解析部は、いずれかのデータを解析することにより得られたデータをテキストデータに変換し、テキストデータに存在する各単語の品詞を推定し、各単語を品詞ごとに分類する。
ある局面において、解析部は、テキストデータの単位ごとに、当該テキストデータをベクトルデータに変換するベクトル変換部をさらに含む。
ある局面において、テキストデータの単位は、文書単位、段落単位、複数の文単位、一文単位のいずれかである。
ある局面において、クラスタリング部は、ベクトルデータの次元削減を行なって削減後のデータをマッピングするベクトル次元圧縮部を含む。
ある局面において、クラスタリング部は、マッピングされたデータについて、指定されたクラスタの数に応じて、ベクトル間距離によるクラスタリング推定を行なう。
ある局面において、クラスタリング部は、どの文書がどのクラスタに属するかという文書ごとのクラスタリング結果を出力する。
ある局面において、抽出部は、概念レベルのクラスタに該当する文書群を解析し、各文書に含まれる、頻度の高い語句または他の単語との関連度の高い語句をランク付けし、ランク付けされた語句を特徴語として抽出する。
ある局面において、情報処理装置は、概念レベルを任意の粒度に設定または変更するための粒度設定部をさらに備える。
ある局面において、情報処理装置は、端末装置から概念レベルを含む検索要求を受信する受信部と、検索要求に含まれる概念レベルの特徴語を含む文書を検索して、検索結果を端末装置に表示させる検索部とをさらに備える。
ある局面において、検索部は、設定または変更された概念レベルに含まれる特徴語を端末装置に表示させる。
ある局面において、情報処理装置は、端末装置による特徴語の選択を受け付ける選択部をさらに備える。
ある局面において、検索結果を端末装置に表示させることは、選択された特徴語に基づいて文書を検索して検索結果を端末装置に表示させることを含む。
ある局面において、検索部は、異なる概念レベルの特徴語に基づいて文書を検索する。
他の実施の形態に従うと、情報を提供するためにコンピューターによって実行される方法が提供される。この方法は、複数の文書の各々を解析して特徴ごとに各文書をクラスタリングするステップと、各文書から特徴語を抽出するステップと、抽出された特徴語を概念レベルごとに管理するステップと、端末装置から概念レベルを含む検索要求を受信するステップとを含む。
さらに他の実施の形態に従うと、情報を提供するためにコンピューターによって実行されるプログラムが提供される。このプログラムはコンピューターに、複数の文書の各々を解析して特徴ごとに各文書をクラスタリングするステップと、各文書から特徴語を抽出するステップと、抽出された特徴語を概念レベルごとに管理するステップと、端末装置から概念レベルを含む検索要求を受信するステップとを実行させる。
ある実施の形態に従うと、ユーザーの知識レベルに応じた情報探索を支援することができる。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
ある局面にしたがって情報を管理するシステム10の構成の概略を表わす図である。 コンピューターシステム200のハードウェア構成を表わすブロック図である。 システム10において予めクラスタリングされた情報が管理者によって検索されて取り出される局面を例示する図である。 サーバー130のハードディスク5におけるデータの格納の一態様を例示する図である。 サーバー130が備える機能の構成の一例を表わすブロック図である。 サーバー130のCPU1が実行する処理の一部を表わすフローチャートである。 端末110からの検索供給に応答するサーバー130が実行する処理の一部を表わすフローチャートである。 文書をクラスタ分類するための解析の指示を受け付ける画面の一態様を例示する図である。 文書を検索する条件の入力を受け付ける画面を表わす図である。 検索を行なうために端末110,120のモニター8に表示される画面の一例を表わす図である。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
[概要]
最初に、本明細書に開示される技術思想の概要について説明する。
本明細書では、所望する情報の格納場所に関する知識を持たないユーザーが担当者を介在せずに、ユーザーとの直感的な対話インターフェイス(マウス操作、等)により、目的となる文書に関連する情報をキーワード化することなく、その情報に辿り着けるよう情報探索支援を行えるシステムが提案される。
当該システムは、様々なカテゴリ、トピックが含まれているオフィス文書群を予めバックエンドで解析し、ユーザーが認知しやすい知識階層に近い構造を構築し、ユーザーがインタラクティブにトピックやカテゴリを表す特徴語を取捨選択し、これにより、ユーザーは、所望する情報に辿り着くことができる。
システムにおいて、サーバーは、記憶装置に蓄積されたオフィス文書群に存在する、カテゴリ、トピックなどと呼ばれる知識の上位概念を検知し、オフィス文書をその上位概念で仕分け可能にする。以下、当該上位概念を「トピック」という。
サーバーは、トピックごとに仕分けされたオフィス文書クラスタに対し、ユーザーが認知できるトピック代表語を付与することが可能にする。例えば、サーバーは、ユーザーがフロントエンドサービスとして、トピック代表語を選択可能にする。また、サーバーは、ユーザーにより選択された当該オフィス文書クラスタに対し、キーワードによる全文検索、メタデータ(拡張子、タイムスタンプ、サイズ等)による絞り込み、または、当該クラスタ内の知識の提示によるサポート等の機能を提供し、詳細な情報の絞り込みを可能にする。以下、当該システムについて詳細を説明する。
[システム構成]
図1を参照して、情報探索支援を実行するシステム10の構成について説明する。図1は、ある局面にしたがって情報を管理するシステム10の構成の概略を表わす図である。システム10は、一以上の端末110-1,110-2・・・110-nと、管理者が使用する端末120と、サーバー130とを備える。端末110-1,110-2,110-nを包括的に表わすときは、端末110と表わす。端末110と、端末120と、サーバー130とは、それぞれ、ネットワーク190に接続されている。ネットワーク190は、イントラネットおよびインターネットのいずれであってもよい。接続の形態は、有線および無線のいずれであってもよい。
端末110,120およびサーバー130は、通信機能と演算機能と記憶機能とを有する周知の構成からなるコンピューターシステムによって実現される。当該コンピューターシステムの構成は後述する。
サーバー130は、端末110から受信した情報のデータ解析を行ない、データ解析の結果に応じて適切なクラスタに分類し、分類後のデータを保持している。端末から受信するデータは、文書、プレゼンテーション資料、テキストデータを含む雑誌等の文書データ等を含む。
サーバー130は、管理者が使用する端末120から検索条件を受信すると、当該検索条件によって指定されるクラスタの粒度に基づき、当該クラスタに含まれる文書を抽出し、抽出した文書を示すデータを検索結果の候補として端末120に送信する。端末120のモニター8は、管理者が所望する情報の候補として、当該受信したデータに基づく結果を表示する。
[コンピューターシステムの構成]
図2を参照して、端末110,120またはサーバー130を実現するコンピューターシステム200の構成について説明する。図2は、コンピューターシステム200のハードウェア構成を表わすブロック図である。
コンピューターシステム200は、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)1と、コンピューターシステム200の使用者による指示の入力を受けるマウス2およびキーボード3と、CPU1によるプログラムの実行により生成されたデータ、又はマウス2若しくはキーボード3を介して入力されたデータを揮発的に格納するRAM4と、データを不揮発的に格納するハードディスク5と、光ディスク駆動装置6と、通信インターフェイス(I/F)7と、モニター8とを含む。各構成要素は、相互にデータバスによって接続されている。光ディスク駆動装置6には、CD-ROM(Compact Disc - Read Only Memory)9その他の光ディスクが装着される。
コンピューターシステム200における処理は、各ハードウェアおよびCPU1により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク5に予め記憶されている場合がある。また、ソフトウェアは、CD-ROM9その他の記録媒体に格納されて、コンピュータープログラムとして流通している場合もある。あるいは、ソフトウェアは、いわゆるインターネットに接続されている情報提供事業者によってダウンロード可能なアプリケーションプログラムとして提供される場合もある。このようなソフトウェアは、光ディスク駆動装置6その他の読取装置によりその記録媒体から読み取られて、あるいは、通信インターフェイス7を介してダウンロードされた後、ハードディスク5に一旦格納される。そのソフトウェアは、CPU1によってハードディスク5から読み出され、RAM4に実行可能なプログラムの形式で格納される。CPU1は、そのプログラムを実行する。
図2に示されるコンピューターシステム200を構成する各構成要素は、一般的なものである。したがって、本開示に係る技術思想の本質的な部分の一つは、RAM4、ハードディスク5、CD-ROM9その他の記録媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。記録媒体は、一時的でない、コンピューター読取可能なデータ記録媒体を含み得る。なお、コンピューターシステム200の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
なお、記録媒体としては、CD-ROM、FD(Flexible Disk)、ハードディスクに限られず、SSD(Solid State Drive)、磁気テープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリーカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリー等の固定的にプログラムを担持する媒体でもよい。
ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。
他の局面において、コンピューターシステム200は、スマートフォン、タブレット端末のような携帯可能な情報通信端末として実現され得る。
[文書クラスタリングの概要]
図3を参照して、本明細書に開示される技術思想の概要について説明する。図3は、システム10において予めクラスタリングされた情報が管理者によって検索されて取り出される局面を例示する図である。
ある局面において、端末120を使用するユーザーは、端末110を使用する担当者の管理者として、サーバー130に蓄積されている情報にアクセスする。サーバー130は、各担当者によって端末110からアップロードされた情報を保持し、予め定められた実行タイミングにしたがって、各情報をクラスタリングしている。当該予め定められた実行タイミングは、例えば、週末のように情報にアクセスされない時期、あるいは、端末110から新たに情報がアップロードされた日の夜間である。
サーバー130はクラスタリングしたデータベース300を保持している。データベース300は、粒度に応じて細分化された複数のクラスタ310,320,330を有する。例えば、最も粒度が荒い(=概念レベルが最も上位の)クラスタ310は、情報カテゴリの一例として、プロジェクト管理、機能仕様、設計、評価というカテゴリ(クラスタラベルともいう。)を含む。次に粒度が荒いクラスタ320は、管理システム統合化開発、作業計画、CSRA,CSRC、OpenAPI、BD、ITというカテゴリを含む。最も粒度が細かいクラスタ330は、QA、ROMRAM増加、パフォーマンス測定、体制、見積、計画、CSRA仕様書、CSRC仕様書、OpenAIPExt仕様書、設定値一覧、OpenAPIint仕様書、BD、DD、PG、IT、不具合対応、環境構築手順書というカテゴリを含む。
文書の作成者以外の他ユーザーまたは管理者は、必要な情報の正式なデータ名(たとえば、文書あるいはプレゼン資料として保存されているファイル名)を知らない場合が多いので、クラスタを頼りに必要な情報の取得を試みる。より具体的には、他ユーザーまたは管理者は、端末120を操作してクラスタの所望の粒度を指定する画面をモニター8に表示し、指定したクラスタから情報の抽出を試みる。
[データ構造]
図4を参照して、サーバー130のデータ構造について説明する。図4は、サーバー130のハードディスク5におけるデータの格納の一態様を例示する図である。ハードディスク5は、テーブル410を保持している。テーブル410は、領域411,412,413,414を含む。
領域411は、概念の大きさを規定するデータ項目を含む。が年の大きさはクラスタの粒度に相当する。ある局面において、概念は3段階(例えば、大、中、小)に規定される。他の局面において、概念は2段階(例えば、大、小)または4段階以上(例えば、極大、大、中、小、極小)の階層として規定されてもよい。
領域412は、クラスタラベルを識別するためのクラスタID(Identification)を含む。領域413は、文書の解析結果に応じて予め当該クラスタIDが付与された文書を識別するための文書IDを含む。領域414は、当該クラスタを示すトピック代表語を含む。トピック代表語は、システム10の管理者によって任意に付与され得る。
[サーバー130の構成]
図5を参照して、サーバー130の動作について説明する。図5は、サーバー130が備える機能の構成の一例を表わすブロック図である。サーバー130は、データ解析部510と、記憶部520と、クラスタリング解析部530と、類似文書抽出部540と、特徴語抽出部550と、フロントエンドサービスデータ制御部560とを備える。フロントエンドサービスデータ制御部560は、フロントエンドサービス表示部570に接続されている。
データ解析部510は、データ変換部511と、形態素解析部512と、ベクトル変換部513とを含む。記憶部520は、データ格納部521と、ベクトルデータ格納部522と、文書クラスタリング結果格納部523と、特徴語格納部524とを含む。クラスタリング解析部530は、ベクトル次元圧縮部531と、クラスタリング処理部532とを含む。類似文書抽出部540は、Cos類似度計算部541と、類似文書ソート部542とを含む。
データ解析部510は、端末110から受信した情報を解析し、解析結果を検索可能な形式で記憶部520に格納する。より具体的には、データ変換部511は、受信したデータを、解析可能なデータ形式として予め規定された形式に変換し、変換後のデータをデータ格納部521に格納する。形態素解析部512は、データ格納部521に格納されているデータを参照して、形態素解析を実行する。
ベクトル変換部513は、形態素解析の実行結果を数値化し、実行結果をベクトルデータに変換し、取得したベクトルデータをベクトルデータ格納部522に格納する。ベクトル変換部513は、たとえば、BERT、word2vec、USE、sentenceBERT等を用いて実現される。
記憶部520は、例えばハードディスク5、SSD(Solid State Drive)その他の不揮発性の記憶装置によって実現される。データ格納部521、ベクトルデータ格納部522、文書クラスタリング結果格納部523、特徴語格納部524は、それぞれ、データを格納する領域として構成され、他の局面では、個別の記憶装置としても構成され得る。
クラスタリング解析部530は、ベクトルデータを用いてクラスタリング処理を実行し、端末110から得られたデータを予め設定されたクラスターに分類し、分類結果を文書クラスタリング結果格納部523に格納する。
より具体的には、ベクトル次元圧縮部531は、ベクトルデータ格納部522に格納されているベクトルデータの意味を保持したまま、当該ベクトルデータの次元を圧縮(削減)する。ベクトル次元圧縮部531は、例えば、PCA、t-SNE等により実現される。
クラスタリング処理部532は、次元削減されたベクトル分布からクラスタを検知する。より具体的には、クラスタリング処理部532は、ベクトル次元圧縮部531による圧縮の結果として得られたデータを対象にクラスタリング処理を実行し、類似度に基づくグループ分けを行ない、グループ分けが行なわれた各文書を文書クラスタリング結果格納部523に格納する。クラスタリングの手法は特に限定されない。クラスタリング処理部532は、例えば、k-means、Ward法、G-Means、X-Means、LightGBM(Light Gradient Boosting Machine)を等を用いて実現され得る。
類似文書抽出部540は、入力された文書と類似する文書を検索する。より具体的には、Cos類似度計算部541は、各文書のコサイン類似度をそれぞれ算出し、各文書の算出結果を比較することで、類似している文書を抽出する。類似文書ソート部542は、抽出された文書を、例えば類似度に応じてあるいはタイムスタンプの日付順に並べ替える。
特徴語抽出部550は、文書クラスタリング結果格納部523に格納されているクラスタリング後の文書データにアクセスして、当該文書データから当該文書の特徴となり得る語句(特徴語、トピックともいう。)を抽出し、抽出した特徴語を特徴語格納部524に格納する。特徴語抽出部550は、例えば、MultipartiteRank、TextRank、PositionRank、TopicRank等を用いて実現され得る。
フロントエンドサービスデータ制御部560は、端末110から受信した情報に基づいて抽出された文書を端末110に表示させるためのデータを生成する。フロントエンドサービスデータ制御部560は、その生成したデータをフロントエンドサービス表示部570に送信する。フロントエンドサービス表示部570は、端末110、120のモニター8によって実現される。
[サーバー130の制御構造]
図6を参照して、サーバー130の制御構造について説明する。図6は、サーバー130のCPU1が実行する処理の一部を表わすフローチャートである。
ステップS610にて、CPU1は、データ解析部510として、データ格納部521にアクセスして、変換後のデータを取得する。
ステップS615にて、CPU1は、形態素解析部512として、取得したデータを対象に、形態素解析処理を実行する。
ステップS620にて、CPU1は、ベクトル変換部513として、ベクトル変換処理を実行する。
ステップS625にて、CPU1は、ベクトル次元圧縮部531として、ベクトルの次元を削減する処理を実行する。
ステップS630にて、CPU1は、検索対象の全ての文書を次元圧縮されたベクトルに変換する処理が完了したか否かを判断する。この判断は、たとえば、ステップS610において処理の対象となるデータを取得した際に一意の番号を付し、ステップS630までの処理が完了したデータに当該処理の完了を占めるフラグを与え、全てのデータに当該フラグが付されているか否かに基づいて行なわれる。CPU1は全ての文書について処理が完了したと判断すると(ステップS630にてYES)、制御をステップS635に切り替える。そうでない場合には(ステップS630にてNO)、CPU1は、制御をステップS615に切り替える。
ステップS635にて、CPU1は、クラスタリングを行なうための変数nに、ユーザーによって指定された値を設定する。例えば、3段階のクラスタリングが指定された場合、CPU1は、変数n=3と設定する。
ステップS640にて、CPU1は、クラスタリング処理部532として、変数nで指定されたクラスタの数に応じてクラスタリングを行なう。クラスタリング処理がn回繰り返されると、CPU1は制御をステップS645に切り替える。
ステップS645にて、CPU1は、ステップS635と同様に、クラスタリングを行なうための変数nに、ユーザーによって指定された値を設定する。
ステップS650にて、CPU1は、n段階のクラスタのうちの一つの階層のクラスタの個数を、変数mで指定されたクラスタの個数に設定する。例えば、図3の例では、大概念のクラスタ階層では、クラスタの個数は4個であり、中概念のクラスタ階層では、クラスタの個数は6個であり、小概念のクラスタ階層では、クラスタの個数は17個である。
ステップS655にて、CPU1は、特徴語抽出部550として、当該m番目のクラスタにまとめられた文書群から、当該クラスタのタイトルとなる特徴語を抽出する。CPU1は、m個のクラスタ全てについて特徴語を抽出すると、制御をステップS660に切り替える。
ステップS660にて、CPU1は、n階層目の概念レベルごとに、各クラスタのそれぞれの特徴語を特徴語格納部524に格納する。
[検索処理]
図7を参照して、サーバー130の制御構造についてさらに説明する。図7は、端末110からの検索供給に応答するサーバー130が実行する処理の一部を表わすフローチャートである。ある局面においてサーバー130は、検索アプリケーションプログラムを始動している。
ステップS710にて、CPU1は、ハイパーパラメーターの設定の入力を待機している。ハイパーパラメータの設定は、概念レベルの数、概念レベルごとに設定されるクラスタの数等を含む。
ステップS715にて、CPU1は、ハイパーパラメータの設定が入力されたか否かを判断する。この判断は、例えば、概念レベルの数、概念レベルごとに設定されるクラスタの数等に加えて、ハイパーパラメータの設定の入力が確定したことを示す入力を端末110から受信したか否かに基づいて行なわれる。CPU1はハイパーパラメータの設定が入力されたと判断すると(ステップS715にてYES)、制御をステップS720に切り替える。そうでない場合には(ステップS715にてNO)、CPU1は、制御をステップS710に戻す。
ステップS720にて、CPU1は、端末110のユーザーが入力する検索文書を受け付ける。
ステップS725にて、CPU1は、端末110のユーザーからの解析指示により類似文書の抽出を実行する。
ステップS730にて、CPU1は、類似文書の抽出結果を表示するデータを生成し、端末110に当該データを送信して、当該データに基づく画面を端末110のモニター8に表示させる。
ステップS735にて、CPU1は、ユーザーにより設定された概念レベルを提示するためのデータを生成し、当該データを端末110に送信して、当該データに基づき概念レベルを端末110のモニター8に表示させる。
ステップS740にて、CPU1は、端末110のユーザーによる概念レベルの選択を受け付ける。
ステップS745にて、CPU1は、フロントエンドサービスデータ制御部560として、端末110のユーザーが選択した概念レベルに該当する特徴語を特徴語格納部524から抽出して、端末110のモニター8に提示させる。
ステップS750にて、CPU1は、端末110のユーザーによる特徴語の選択を受け付ける。
ステップS755にて、CPU1は、端末110のユーザーによって選択された特徴語に該当するクラスタに属する文書を絞り込み、絞り込みの結果を表示するデータを端末110に送信し、端末110のモニター8を通じてユーザーに提示する。
[画面]
図8~図10を参照して、モニター8に表示される画面について説明する。図8は、文書をクラスタ分類するための解析の指示を受け付ける画面の一態様を例示する図である。文書の解析は、ある局面においてサーバー130によって実行されて、解析結果はサーバー130のハードディスク5に保持されている。
図8の画面は、文書が既に解析された場合および特定の文書の解析を行なう場合のいずれでも表示され得る。例えば、当該画面は、サーバー130のモニター8に表示される。他の局面において、サーバー130によって実現される解析機能が端末110,120によって実現される場合は、当該画面は、端末110,120のモニター8にも表示され得る。
モニター8は、領域810,820を表示する。領域810は、解析の対象となるフォルダ(巡廻フォルダ)の選択を受け付ける。検索対象の文書が格納されているフォルダが決まっている場合は、ユーザー(一般ユーザー、または、管理者)は、当該フォルダを検索対象として指定し得る。
領域820は、ユーザーが指定した文書の入力を受け付ける。例えば、ユーザーは、手元にある文書に類似の文書の検索を希望する場合がある。当該ユーザーは、一般ユーザーおよび管理者のいずれであってもよい。
その後、ユーザーが解析開始の指示を受け付けるアイコン830を操作すると、サーバー130は、領域810において指定されたフォルダ内の文書を解析し、または、領域820で指定された画像または文書に類似する画像または文書を検索する。
他の局面において、あるプロジェクトが遂行されている場合に、当該プロジェクトのメンバーが作成し使用する文書、画像その他のコンテンツのデータが、メンバー間で共有されたフォルダに格納されている場合がある。その場合、当該フォルダは、予め定められたクローリング条件で巡廻され、当該フォルダに格納されている文書その他のデータは解析されている。このような場合、管理者は、領域810で、その共有されたフォルダを指定した上で領域820に検索したい文字列(クラスタ名、キーワード等)を入力すると、サーバー130は、当該フォルダに格納されているデータから当該文字列を含むデータを抽出し得る。
図9は、文書を検索する条件の入力を受け付ける画面を表わす図である。モニター8は、領域910,920を表示する。領域910は、文書名(たとえば、電子メール001.eml、プロジェクトX.docx、レイアウト.ppt、予算.xlsx 等)の入力を受け付ける。
領域920は、領域910への入力により指定された文書のうち分析対象となる文の選択を受け付ける。たとえば、電子メールの文書が検索対象として指定された場合、電子メールの文頭には、宛名、挨拶その他形式的な一文が含まれる場合が多い。そこで、このような形式的な一文を検索対象から除外されるように、一文一文を検索対象とするか否かを設定できる。これにより検索効率を高め得る。
ユーザーがアイコン930を押下して検索開始の指示を与えると、サーバー130は、入力された条件にしたがって検索処理を開始する。
図10は、検索を行なうために端末110,120のモニター8に表示される画面の一例を表わす図である。モニター8は、領域1010,1020,1030,1040,1050および1060を表示する。
領域1010は、検索のための条件を受け付ける。条件は、期間、ファイル形式、ファイルサイズ等を含む。なお、当該条件は図10に例示されたものに限られず、各ファイルのプロパティに含まれる項目(たとえば、作成者、最終更新者、作成地など)が当該条件として使用されてもよい。
領域1020は、入力文書に類似する文書の候補を表示する。例えば、領域1020は、図8の領域820で指定された文書に類似する文書を表示する。
領域1030は、一般的な検索のためのキーの入力を受け付ける。検索エンジンとしては、Google(登録商標)、Yahoo!(登録商標)その他の周知の検索エンジンが使用され得る。
領域1040は、ユーザーによって領域1050から選択されたクラスタを表示する。たとえば、選択クラスタ1に示されるように、最初に大概念のクラスタが選択されている。その上で、選択クラスタ2に示されるように、大概念の他のクラスタが選択されている。さらに、選択クラスタ3に示されるように、中概念のクラスタが選択されている。ユーザーが検索対象を絞るためにクラスタを選定すると、選定されたクラスタが領域1040に順次表示されていく。
領域1050は、クラスタの大きさ(概念の階層)の選択を受け付ける。領域1060は、選択されたクラスタに含まれるクラスタラベルを表示する。図10の例示では、領域1050において、クラスタの大きさとして「大」が選択されると、その選択に応答して、当該クラスタに含まれる4つのクラスタラベルが領域1060に表示される。領域1060において、各クラスタラベルが付与された文書の数が、当該クラスタラベルと共に表示される。
他の局面において、領域1050において、クラスタの大きさとして「中」が選択された場合には、領域1060には、図3に例示されるように、6個のクラスタラベルが表示される。また、クラスタの大きさとして「小」が選択された場合には、領域1060には、17個のクラスタラベルがスクロール可能な態様で表示され得る。
以上のような構造及びフローチャートを有するシステム10の動作について説明する。ある局面において、各ユーザーは、担当者用の端末110-1,110-2,110-nを用いて業務に使用する資料を作成し、サーバー130の共有フォルダに各資料のデータを格納する。サーバー130は、システム10が使用されていない時間帯、例えば、深夜、週末、祝日等予め定められた解析タイミングで、共有フォルダに蓄積された文書を解析し、クラスタリングを行ない、管理者または一般ユーザーによって設定されたクラスタラベルを各文書に関連付ける。
文書を作成したユーザー以外の他のユーザーまたは管理者が、当該文書あるいはそれに類似する文書を検索する場合、図10に示される画面に検索条件を入力し、当該文書と同じクラスタに分類される文書を検索し、モニター8は、検索結果を表示する(ステップS730)。
[まとめ]
上記で開示された技術的思想の一部は、以下のように要約され得る。
ある実施の形態に従うと、情報処理装置として機能するサーバー130は、CPU1と、ハードディスク5とを備える。CPU1は、複数の文書の各々を解析して特徴ごとに各文書をクラスタリングし、各文書から特徴語を抽出する。ハードディスク5は、抽出された特徴語を概念レベルごとに管理する。
ある局面において、CPU1は、各文書を解析する。
ある局面において、CPU1は、ドキュメントデータ、画像データ、または音声データのいずれかのデータを解析する。
ある局面において、CPU1は、形態素解析部として、いずれかのデータを解析することにより得られたデータをテキストデータに変換し、テキストデータに存在する各単語の品詞を推定し、各単語を品詞ごとに分類する。
ある局面において、CPU1は、テキストデータの単位ごとに、当該テキストデータをベクトルデータに変換する。
ある局面において、CPU1は、文書単位、段落単位、複数の文単位、一文単位のいずれかで、テキストデータをベクトルデータに変換する。
ある局面において、CPU1は、ベクトルデータの次元削減を行なって削減後のデータをマッピングする。
ある局面において、CPU1は、クラスタリング部として、マッピングされたデータについて、指定されたクラスタの数に応じて、ベクトル間距離によるクラスタリング推定を行なう。
ある局面において、CPU1は、クラスタリング部として、どの文書がどのクラスタに属するかという文書ごとのクラスタリング結果を出力する。
ある局面において、CPU1は、概念レベルのクラスタに該当する文書群を解析し、各文書に含まれる、頻度の高い語句または他の単語との関連度の高い語句をランク付けし、ランク付けされた語句を特徴語として抽出する。
ある局面において、CPU1は、サーバー130に与えられる設定に基づいて、概念レベルを任意の粒度に設定または変更する。
ある局面において、CPU1は、端末110,120から概念レベルを含む検索要求を受信し、当該検索要求に含まれる概念レベルの特徴語を含む文書を検索して、検索結果を端末110,120に表示させる。
ある局面において、CPU1は、設定または変更された概念レベルに含まれる特徴語を端末110,120のモニター8に表示させる。
ある局面において、CPU1は、端末110,120による特徴語の選択を受け付ける。
ある局面において、CPU1は、選択された特徴語に基づいて文書を検索して検索結果を端末110,120のモニター8に表示させる。
ある局面において、CPU1は、検索部として、異なる概念レベルの特徴語に基づいて文書を検索する。
以上のようにしてある実施の形態に従うと、サーバー130は、クラスタの粒度に応じて規定されたクラスタラベルを文書に対応付けて管理している。したがって、所望する情報の格納場所に関する知識を持たないユーザーが担当者を介在せずに、ユーザーとの直感的な対話インターフェイス(マウス操作など)により、目的となる文書に関連する情報をキーワード化することなく、その情報に辿り着くことができる。その際、ユーザーは、当該粒度を変化させながら文書を検索できるので、検索の範囲を調整しながら知りたい情報がどの文書にあるかを容易に知ることができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
開示された技術思想は、データが共有されるネットワーク環境において適用され得る。
1 CPU、2 マウス、3 キーボード、4 RAM、5 ハードディスク、6 光ディスク駆動装置、7 通信インターフェイス、8 モニター、9 ROM、10 システム、110,120 端末、130 サーバー、190 ネットワーク、200 コンピューターシステム、300 データベース、410 テーブル、411,412,413,414,810,820,910,920,1010,1020,1030,1040,1050,1060 領域、510 データ解析部、511 データ変換部、512 形態素解析部、513 ベクトル変換部、520 記憶部、521 データ格納部、522 ベクトルデータ格納部、523 文書クラスタリング結果格納部、524 特徴語格納部、530 クラスタリング解析部、531 ベクトル次元圧縮部、532 クラスタリング処理部、540 類似文書抽出部、541 類似度計算部、542 類似文書ソート部、550 特徴抽出部、560 フロントエンドサービスデータ制御部、570 フロントエンドサービス表示部、830,930 アイコン。

Claims (18)

  1. 複数の文書の各々を解析して特徴ごとに各前記文書をクラスタリングするクラスタリング部と、
    各前記文書から特徴語を抽出する抽出部と、
    抽出された特徴語を概念レベルごとに管理する記憶部とを備える、情報処理装置。
  2. 前記クラスタリング部は、各前記文書を解析する解析部を含む、請求項1に記載の情報処理装置。
  3. 前記解析部は、ドキュメントデータ、画像データ、または音声データのいずれかのデータを解析する、請求項2に記載の情報処理装置。
  4. 前記解析部は、形態素解析部を含み、前記形態素解析部は、前記いずれかのデータを解析することにより得られたデータをテキストデータに変換し、前記テキストデータに存在する各単語の品詞を推定し、各単語を品詞ごとに分類する、請求項3に記載の情報処理装置。
  5. 前記解析部は、前記テキストデータの単位ごとに、当該テキストデータをベクトルデータに変換するベクトル変換部をさらに含む、請求項4に記載の情報処理装置。
  6. 前記テキストデータの単位は、文書単位、段落単位、複数の文単位、一文単位のいずれかである、請求項5に記載の情報処理装置。
  7. 前記クラスタリング部は、前記ベクトルデータの次元削減を行なって削減後のデータをマッピングするベクトル次元圧縮部を含む、請求項5に記載の情報処理装置。
  8. 前記クラスタリング部は、前記マッピングされたデータについて、指定されたクラスタの数に応じて、ベクトル間距離によるクラスタリング推定を行なう、請求項7に記載の情報処理装置。
  9. 前記クラスタリング部は、どの文書がどのクラスタに属するかという文書ごとのクラスタリング結果を出力する、請求項7に記載の情報処理装置。
  10. 前記抽出部は、前記概念レベルのクラスタに該当する文書群を解析し、各文書に含まれる、頻度の高い語句または他の単語との関連度の高い語句をランク付けし、ランク付けされた語句を特徴語として抽出する、請求項9に記載の情報処理装置。
  11. 前記概念レベルを任意の粒度に設定または変更するための粒度設定部をさらに備える、請求項1~10のいずれかに記載の情報処理装置。
  12. 端末装置から概念レベルを含む検索要求を受信する受信部と、
    前記検索要求に含まれる概念レベルの特徴語を含む文書を検索して、検索結果を前記端末装置に表示させる検索部とをさらに備える、請求項1~11のいずれかに記載の情報処理装置。
  13. 前記検索部は、前記概念レベルに含まれる特徴語を前記端末装置に表示させる、請求項12に記載の情報処理装置。
  14. 前記端末装置による特徴語の選択を受け付ける選択部をさらに備える、請求項13に記載の情報処理装置。
  15. 検索結果を前記端末装置に表示させることは、選択された特徴語に基づいて文書を検索して、検索結果を前記端末装置に表示させることを含む、請求項13に記載の情報処理装置。
  16. 前記検索部は、異なる概念レベルの特徴語に基づいて文書を検索する、請求項12~15のいずれかに記載の情報処理装置。
  17. 情報を提供するためにコンピューターによって実行される方法であって、
    複数の文書の各々を解析して特徴ごとに各前記文書をクラスタリングするステップと、
    各前記文書から特徴語を抽出するステップと、
    抽出された特徴語を概念レベルごとに管理するステップと、
    端末装置から概念レベルを含む検索要求を受信するステップとを含む、方法。
  18. 情報を提供するためにコンピューターによって実行されるプログラムであって、前記プログラムは前記コンピューターに、
    複数の文書の各々を解析して特徴ごとに各前記文書をクラスタリングするステップと、
    各前記文書から特徴語を抽出するステップと、
    抽出された特徴語を概念レベルごとに管理するステップと、
    端末装置から概念レベルを含む検索要求を受信するステップとを実行させる、プログラム。
JP2021167248A 2021-10-12 2021-10-12 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム Pending JP2023057658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021167248A JP2023057658A (ja) 2021-10-12 2021-10-12 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021167248A JP2023057658A (ja) 2021-10-12 2021-10-12 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム

Publications (1)

Publication Number Publication Date
JP2023057658A true JP2023057658A (ja) 2023-04-24

Family

ID=86054734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021167248A Pending JP2023057658A (ja) 2021-10-12 2021-10-12 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム

Country Status (1)

Country Link
JP (1) JP2023057658A (ja)

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
WO2018072071A1 (zh) 知识图谱构建系统及方法
US6938025B1 (en) Method and apparatus for automatically determining salient features for object classification
JP3577819B2 (ja) 情報探索装置及び情報探索方法
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
WO2000075809A1 (fr) Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
CN107844493B (zh) 一种文件关联方法及系统
US8904272B2 (en) Method of multi-document aggregation and presentation
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
KR101153534B1 (ko) 웹 데이터 및 로컬 데이터에 대한 데이터 자동 태깅 방법및 데이터 자동 태깅 시스템
CN109213830B (zh) 专业性技术文档的文档检索系统
JP7104390B2 (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP2023057658A (ja) 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム
Yoon et al. Engineering an image‐browsing environment: re‐purposing existing denotative descriptors
JP2004046870A (ja) 情報単位群操作装置
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
Bogen et al. Redeye: a digital library for forensic document triage
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
JP2000259658A (ja) 文書分類装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240913