JP6887002B2

JP6887002B2 - 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Info

Publication number: JP6887002B2
Application number: JP2019131301A
Authority: JP
Inventors: 山本　直人; 直人山本; 俊雅清水
Original assignee: Ｋｐｍｇコンサルティング株式会社
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-06-16
Anticipated expiration: 2039-07-16
Also published as: JP2021015562A; JP2021120905A

Description

本明細書における開示は、情報処理装置、サーバ装置、ユーザ端末、方法及びプログラムに関する。

文書データを解析する技術が開発されている。例えば、特開２０１７−２７１６８号公報（特許文献１）は、文書データの形態素解析を行うことで単語を抽出し、抽出した単語に基づいてユーザの嗜好を表すデータを抽出する技術が記載されている。また、特許文献１には、ユーザが自由に記載した文章の用字または用語の不統一を吸収するための技術が記載されている。具体的には、特許文献１には、複数の文章を用いて単語を抽出することで、単語の特徴を表すベクトルを演算し、ベクトルをクラスタリングすることで、各クラスタの重心に近い単語である代表語を設定することが記載されている。こうすることにより、文章から抽出される単語を、代表語に置き換えることができる。

特開２０１７−２７１６８号公報

一方、研究機関、事業会社等の研究開発を行う事業者においては、各所で様々な知見がドキュメントとして蓄積されている。例えば、研究開発部門における研究開発により得られた知見を、社内で文書として蓄積していることがある。また、事業部門や研究開発部門が、社外で発表された資料を参照することもある。

しかしながら、これらの文書データを解析しようとしても、そのデータ量が膨大なものとなっていくにつれて、コンピュータでデータ処理を行うことが現実的な時間に収めることが難しくなっていく。そのため、データ量が蓄積すればするほど、事業会社等のユーザにとって、研究開発等に役立てるために文書データを解析することがやりづらくなっていくおそれがある。例えば、ユーザが文書データを解析するために入力するデータを指定したとしても、解析の処理に膨大な時間を要し、解析結果を得るまでの時間が長期化してしまう。

したがって、文書データが蓄積していくことに追随して、文書データの解析結果を得ることのユーザの利便性をよりいっそう向上させる技術が必要とされている。

一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるための情報処理装置が提供される。当該情報処理装置は、プロセッサと、メモリとを備える。プロセッサが、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第１の単語群を特定する第１のステップと、第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第２のステップと、少なくとも第１の単語群の各単語と、第２の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第３のステップと、を実行する。

一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置が提供される。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶している。サーバ装置は、ユーザ端末から、キーワードを特定する情報を受け付けるステップと、受け付けたキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、キーワードとの類似関係が第３の条件を満たす第５の単語群を特定するステップと、当該第５の単語群の各単語との類似関係が第４の条件を満たす第６の単語群を特定するステップと、少なくとも（１）第５の単語群の各単語、（２）第６の単語群の各単語、（３）キーワードと第５の単語群の各単語との類似関係を示す情報、（４）第５の単語群の各単語と第６の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答するステップと、を行う。

一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置が行う方法が提供される。当該コンピュータ装置は、プロセッサと、メモリとを備える。方法は、プロセッサが、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第１の単語群を特定する第１のステップと、第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第２のステップと、少なくとも第１の単語群の各単語と、第２の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第３のステップと、を実行することを含む。

一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置を動作させるためのプログラムが提供される。当該コンピュータ装置は、プロセッサと、メモリとを備える。プログラムは、プロセッサに、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第１の単語群を特定する第１のステップと、第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第２のステップと、少なくとも第１の単語群の各単語と、第２の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第３のステップと、を実行させることを含む。

一実施形態によると、膨大な文書データに対し、文書データに含まれる単語間の類似関係を規定したデータ構造によりサーバ装置にデータを格納させる。これにより、ユーザが文書データから様々な知見を得ることを、現実的な処理時間で可能にするシステムを構築することができる。

本実施形態にかかるシステム構成の一例を示す図である。文書データ格納装置１１の機能を示すブロック図である。サーバ２０の機能を示すブロック図である。文書データ格納装置１１に記憶される各種データのデータ構造を示す図である。ユーザが独自に定義するカテゴリの例を示す図である。グラフ構造データベース２８４のデータ構造を概念的に示す図である。文書データ格納装置１１が、サーバ２０に、単語間の類似関係を示す情報を、グラフ型のデータ構造を有するデータベースとして保持させる処理を示すフローチャートである。ユーザが指定したキーワードに対し、単語間の類似関係を端末装置１０に表示させる処理を示すフローチャートである。ユーザが指定したキーワードとカテゴリに対し、単語間の類似関係を端末装置１０に表示させる処理を示すフローチャートである。端末装置１０のディスプレイ１４において、単語間の類似関係を表示させる画面例を示す。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜システム構成＞
図１は、本実施形態にかかるシステム構成の一例を示す図である。

図１に示すように、システム１は、端末装置１０と、文書データ格納装置１１と、サーバ２０とを含んで構成されている。文書データの解析結果を利用しようとするユーザは、端末装置１０を操作して、サーバ２０にアクセスする。

サーバ２０は、予め、大量の文書データに対して特定の処理を行うことにより、文書データに含まれる単語の類似関係を、グラフ型のデータ構造を有するデータベースとして保持している。このデータベースは、各単語と、単語間の類似関係を示す情報とを関連付けたものである。具体的には、このデータベースは、各単語をノードとし、単語間の類似度をエッジとしたデータ構造を有している。このようなデータ構造とすることにより、端末装置１０からの要求に応答して、文書データの解析結果を応答する。サーバ２０は、例えば、端末装置１０から、所定のキーワードを入力として受け付けて、入力されたキーワードに類似する単語群、および、この単語群にさらに類似する単語群を、上記のデータ構造のデータベースに基づき端末装置１０へ応答する。これにより、端末装置１０では、ユーザが指定したキーワードに類似する単語群、この単語群に類似する単語群、そして、これら単語群に含まれる各単語の類似関係を示す情報（類似度等）を描画した表示画像を生成することができる。

ここで、サーバ２０に上記のデータ構造のデータベースを構築するために、以下の実施形態では、予め文書データ格納装置１１が大量の文書データを収集し、これら文書データに対してデータ処理を行うことにより、上記のデータ構造のデータを生成して、サーバ２０へ送信する例を説明する。なお、大量の文書データを蓄積する主体、大量の文書データを解析して上記のデータ構造のデータベースを生成する主体について、上記の例では共に文書データ格納装置１１が行う例を示しているが、これに限られない。例えば、サーバ２０が文書データの蓄積を行い、文書データ格納装置１１が、サーバ２０から文書データを受信して、上記のデータ構造のデータを生成することとしてもよい。また、文書データ格納装置１１が、サーバ２０と通信し、サーバ２０に、上記のデータ構造のデータを生成させる等としてもよい。

＜各装置の構成＞
端末装置１０は、大量の文書データの解析結果を利用する各ユーザが操作する装置である。端末装置１０は、例えば据え置き型のＰＣ（Personal Computer）、ラップトップＰＣ、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。

端末装置１０は、通信ＩＦ（Interface）１２と、入出力ＩＦ１３と、ディスプレイ１４と、メモリ１５と、ストレージ１６と、プロセッサ１９とを備える。

文書データ格納装置は、図示していないが、端末装置１０と同様に通信ＩＦ１２、入力装置１３、ディスプレイ１４、メモリ１５、ストレージ１６、プロセッサ１９と同等の構成を備える。

サーバ２０は、通信ＩＦ２２と、入出力ＩＦ２３と、メモリ２５と、ストレージ２６と、プロセッサ２９とを備える。

端末装置１０は、ネットワーク８０を介してサーバ２０と通信可能に接続される。端末装置１０は、ＬＴＥ（Long Term Evolution）などの通信規格に対応した無線基地局、ＩＥＥＥ８０２．１１などの無線ＬＡＮ（Local Area Network）規格に対応した無線ＬＡＮルータ等の通信機器と通信することによりネットワーク８０に接続される。ユーザは、例えば、オフィスに設置されるＰＣ、外出時に使用する携帯端末のいずれからでもサーバ２０と通信して、サーバ２０を介したデータの入出力操作を行うことができる。例えば、ユーザは、オフィス滞在時であっても、外出時であっても、端末装置１０によりサーバ２０と通信し、サーバ２０で管理される各種データを参照し、データを入力することができる。

通信ＩＦ１２は、端末装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

入力装置１３は、ユーザからの入力操作を受け付けるためのデバイス（例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等）である。

ディスプレイ１４は、ユーザに対し情報を提示するためのデバイス（ディスプレイ）である。なお、端末装置１０は、出力装置として、図示しないスピーカ等を含む。

メモリ１５は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

ストレージ１６は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

プロセッサ１９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

サーバ２０は、予め単語間の類似関係をグラフ型のデータ構造を有するデータベースとして保持している。サーバ２０は、端末装置１０のユーザに対し、当該ユーザにより指定されるキーワードに類似する単語を提示する。サーバ２０は、端末装置１０とネットワーク８０を介して通信し、ユーザがキーワードを指定するためのユーザーインタフェースを提供し得る。例えば、ユーザは、ブラウザアプリケーションを実行し、サーバ２０にアクセスする。サーバ２０は、ブラウザに画面を表示するための情報を端末装置１０に応答する。ユーザは、ブラウザにより表示される画面を操作することで、キーワードを指定して検索を行うことと、指定されたキーワードに類似する単語をディスプレイで確認すること等ができる。

通信ＩＦ２２は、サーバ２０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

入出力ＩＦ２３は、ユーザからの入力操作を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。

メモリ２５は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

ストレージ２６は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

プロセッサ２９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

＜機能構成＞
図２は、文書データ格納装置１１の機能を示すブロック図である。

図２に示すように、文書データ格納装置１１は、通信部１０１と、記憶部１０２と、制御部１０３としての機能を発揮する。

通信部１０１は、文書データ格納装置１１が外部の装置と通信するための処理を行う。

記憶部１０２は、文書データ格納装置１１が使用するデータ及びプログラムを記憶する。記憶部１０２は、テキストデータ群１８１と、単語リスト１８２と、カテゴリ辞書１８３と、グラフ構造データベース１８４とを記憶する。

テキストデータ群１８１は、文書データ格納装置１１が取得して蓄積する文書データのデータベースである。テキストデータ群１８１の詳細は後述する。

単語リスト１８２は、テキストデータ群１８１に蓄積する文書に基づき生成される単語のリストである。単語リスト１８２の詳細は後述するが、単語リスト１８２は、単語間の類似度合を計算するためのパラメータを含む。例えば、文書データ格納装置１１が収集した文書に含まれる文章において、使用されている単語の共起関係を表す空間ベクトル（「意味ベクトル」などともいう）を生成する。例えば、文書に含まれる文章を形態素解析することで単語に分解し、Ｗｏｒｄ２Ｖｅｃのような技術を利用して、単語の意味的な特徴が反映された意味ベクトルを生成することができる。

カテゴリ辞書１８３は、単語を分類するための各カテゴリに含まれる単語を定義した辞書データである。辞書データに含まれるカテゴリとしては、一般の辞書に含まれるカテゴリ（例えば、「自然」、「社会」「生物」）、技術分野ごとに公開されている辞典などに含まれるカテゴリなどもあるが、本実施形態では、ユーザが独自に定義したカテゴリを使用することもある。ユーザが独自に定義するカテゴリについては後述する。

グラフ構造データベース１８４は、複数の単語と、各単語間の類似関係を示す情報とを有するデータである。グラフ構造データベース１８４は、複数の単語のそれぞれをノードとし、各単語間の類似度をエッジとしたグラフ構造のデータベースである。

制御部１０３は、文書データ格納装置１１のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。

操作内容取得モジュール１０４１は、ユーザが文書データ格納装置１１に対して入力した操作の内容を取得する。操作内容取得モジュール１０４１は、例えば、文書データ格納装置１１のＯＳ（Operating System）等によりユーザに提供されるインタフェース、また、ブラウザ等に表示される情報に対してユーザが行った入力操作の内容を取得する。

文書取得モジュール１０４２は、文書データ格納装置１１が外部の装置から分析対象となる文書を取得する。文書取得モジュール１０４２は、例えば、技術文書を蓄積するデータベースから、一定の条件を満たす文書データ（例えば、特定の技術分野の文書データ、特定の著者が作成した文書データなど）を取得して、テキストデータ群１８１として記憶部１０２に記憶させる。

形態素解析モジュール１０４３は、記憶部１０２に記憶されるテキストデータ群１８１の文章を読み出して形態素解析を行い、単語に分解する。なお、形態素解析モジュール１０４３は、オンライン辞書サービスの見出し語リストや、文書データ格納装置１１が保持する辞書データを用いて、名詞等を抽出する。形態素解析モジュール１０４３は、辞書データに含まれていない単語についても、固有表現等の未知語であるとして抽出する。

単語リスト生成モジュール１０４４は、形態素解析モジュール１０４３が文書データに対して形態素解析を行って分解された単語について、単語の重複を排除することで単語リスト１８２を生成する。

単語カテゴリ付与モジュール１０４５は、文書データに基づき生成される単語リスト１８２に含まれる各単語に対し、カテゴリを付与する。単語カテゴリ付与モジュール１０４５は、単語リスト１８２を生成するための解析対象となった文書データに所定のパラメータ（例えば、文書を作成した主体など）が設定されている場合に、当該パラメータを単語のカテゴリとして付与してもよい。

単語ベクトル演算モジュール１０４６は、単語と共起する語の共起頻度を意味ベクトルとして表すための演算を行う。単語ベクトル演算モジュール１０４６は、例えば、Ｗｏｒｄ２Ｖｅｃのような技術により実現される。単語間で意味ベクトルのcos類似度を計算することで、単語間の類似度を算出することができる。

類似単語抽出モジュール１０４７は、単語間の類似度に基づいて、特定の単語を抽出する。類似単語抽出モジュール１０４７は、例えば、文書データ格納装置１１のユーザが指定した１以上の単語と、単語リスト１８２に含まれる各単語との類似度を算出することにより、ユーザが指定した単語に類似する類似単語を抽出する。類似単語抽出モジュール１０４７は、例えば、ユーザが指定した単語の意味ベクトルと、単語リスト１８２に含まれる各単語の意味ベクトルとに基づいてcos類似度を計算することで、ユーザが指定した単語との類似度を各単語について取得する。

類似単語抽出モジュール１０４７は、さらに、抽出された単語に類似する単語についても、類似度に基づいて単語リスト１８２から抽出する。

類似単語抽出モジュール１０４７は、このように、文書データ格納装置１１のユーザが指定した１以上のキーワード、または、文書データ格納装置１１がユーザの操作によらず特定した１以上のキーワードに類似する単語を抽出する処理を再帰的に行うことにより、キーワードをノードとし、キーワード間の類似度をエッジとしたグラフ構造のデータベースを生成する。なお、ユーザが指定することができるキーワードの数（または文書データ格納装置１１がユーザの操作によらず特定するキーワードの数）は、所定数に限られることとしてもよい。すなわち、単語リスト１８２に示されるすべての単語をユーザが指定できるのではなく、その一部の所定数の単語について、ユーザまたは文書データ格納装置１１が指定できることとしてもよい。文書データ格納装置１１は、例えば、ユーザが指定したキーワードに類似する類似度が一定値を超える単語（第１の単語群）をノードとし、ユーザが指定したキーワードのノードとの間にエッジ（リレーションシップ）を定義する。同様に、第１の単語群の各単語に類似する類似度が一定値を超える単語（第２の単語群）をノードとし、第１の単語群の各単語との間にエッジを定義する。以降、同様にして、ある単語をノードとし、当該単語に類似する単語をノードとして、ノード間にエッジを定義することでグラフを生成する。

類似単語抽出モジュール１０４７は、この他に、ユーザが指定したキーワードに類似する類似度が高い単語から順に所定数の単語を、第１の単語群として抽出することとしてもよい。

類似単語抽出モジュール１０４７は、この他に、ユーザが指定したキーワードおよびカテゴリに基づいて、ユーザが指定したカテゴリに適合し、ユーザが指定したキーワードに類似する単語を抽出することとしてもよい。

類似単語抽出モジュール１０４７は、このようにして、各単語をノードとし、単語間の類似度をエッジとするグラフ構造のデータベースを生成して、記憶部１０２にグラフ構造データベース１８４として記憶させる。

送受信モジュール１０４８は、文書データ格納装置１１が、他の装置とデータを送信する処理、および、受信する処理を行う。送受信モジュール１０４８は、例えば、サーバ２０にグラフ構造データベースを保持させるために、グラフ構造データベース１８４を、サーバ２０へアップロードする処理等を行う。

図３は、サーバ２０の機能を示すブロック図である。
図３に示すように、サーバ２０は、通信部２０１と、記憶部２０２と、制御部２０３としての機能を発揮する。

通信部２０１は、サーバ２０が外部の装置と通信するための処理を行う。

記憶部２０２は、サーバ２０が使用するデータ及びプログラムを記憶する。記憶部２０２は、テキストデータ群２８１と、単語リスト２８２と、カテゴリ辞書２８３とを記憶する。以下の例では、文書データ格納装置１１とサーバ２０とが、ともに文書データを保持する例を説明する。

テキストデータ群２８１は、サーバ２０が取得して蓄積する文書データのデータベースである。テキストデータ群２８１の詳細は後述する。

単語リスト２８２は、テキストデータ群２８１に蓄積する文書に基づき生成される単語のリストである。単語リスト２８２は、単語リスト１８２と同様に、単語間の類似度合を計算するためのパラメータを含む。

カテゴリ辞書２８３は、単語を分類するための各カテゴリに含まれる単語を定義した辞書データである。

グラフ構造データベース２８４は、文書データ格納装置１１から送信されるグラフ構造データベース１８４をサーバ２０が受信して、記憶部２０２に記憶させるデータベースである。

制御部２０３は、サーバ２０のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。

操作内容取得モジュール２０４１は、ユーザが端末装置１０に対して入力した操作の内容を取得する。操作内容取得モジュール２０４１は、例えば、端末装置１０のブラウザに表示される情報に対してユーザが行った入力操作の内容を取得する。

文書取得モジュール２０４２は、サーバ２０が外部の装置から分析対象となる文書を取得する。文書取得モジュール２０４２は、例えば、技術文書を蓄積するデータベースから、一定の条件を満たす文書データ（例えば、特定の技術分野の文書データ、特定の著者が作成した文書データなど）を取得する。

形態素解析モジュール２０４３は、記憶部２０２に記憶されるテキストデータ群２８１の文章を読み出して形態素解析を行い、単語に分解する。なお、形態素解析モジュール２０４３は、オンライン辞書サービスの見出し語リストや、サーバ２０が保持する辞書データを用いて、名詞等を抽出する。形態素解析モジュール２０４３は、辞書データに含まれていない単語についても、固有表現等の未知語であるとして抽出する。

単語リスト生成モジュール２０４４は、形態素解析モジュール２０４３が文書データに対して形態素解析を行って分解された単語について、単語の重複を排除することで単語リスト２８２を生成する。

単語カテゴリ付与モジュール２０４５は、文書データに基づき生成される単語リスト２８２に含まれる各単語に対し、カテゴリを付与する。単語カテゴリ付与モジュール２０４５は、単語リスト２８２を生成するための解析対象となった文書データに所定のパラメータ（例えば、文書を作成した主体など）が設定されている場合に、当該パラメータを単語のカテゴリとして付与してもよい。

単語ベクトル演算モジュール２０４６は、単語と共起する語の共起頻度を意味ベクトルとして表すための演算を行う。単語ベクトル演算モジュール２０４６は、例えば、Ｗｏｒｄ２Ｖｅｃのような技術により実現される。単語間で意味ベクトルのcos類似度を計算することで、単語間の類似度を算出することができる。

類似単語抽出モジュール２０４７は、単語間の類似度に基づいて、特定の単語を抽出する。類似単語抽出モジュール２０４７は、例えば、文書データ格納装置１１のユーザが指定した１以上の単語と、単語リスト２８２に含まれる各単語との類似度を算出することにより、ユーザが指定した単語に類似する類似単語を抽出する。類似単語抽出モジュール２０４７は、例えば、ユーザが指定した単語の意味ベクトルと、単語リスト２８２に含まれる各単語の意味ベクトルとに基づいてcos類似度を計算することで、ユーザが指定した単語との類似度を各単語について取得する。

類似単語抽出モジュール２０４７は、さらに、抽出された単語に類似する単語についても、類似度に基づいて単語リスト２８２から抽出する。

類似単語抽出モジュール２０４７は、このように、文書データ格納装置１１のユーザが指定した１以上のキーワード、または、文書データ格納装置１１のユーザの操作によらず特定した１以上のキーワードに類似する単語を抽出する処理を再帰的に行うことにより、キーワードをノードとし、キーワード間の類似度をエッジとしたグラフ構造のデータベースを生成する。サーバ２０は、例えば、文書データ格納装置１１のユーザが指定したキーワードをノードとしたグラフを生成する。例えば、ユーザが指定したキーワードに類似する類似度が一定値を超える単語（第１の単語群）をノードとし、ユーザが指定したキーワードのノードとの間にエッジ（リレーションシップ）を定義する。同様に、第１の単語群の各単語に類似する類似度が一定値を超える単語（第２の単語群）をノードとし、第１の単語群の各単語との間にエッジを定義する。以降、同様にして、ある単語をノードとし、当該単語に類似する単語をノードとして、ノード間にエッジを定義することでグラフを生成する。

類似単語抽出モジュール２０４７は、この他に、ユーザが指定したキーワードに類似する類似度が高い単語から順に所定数の単語を、第１の単語群として抽出することとしてもよい。

類似単語抽出モジュール２０４７は、この他に、ユーザが指定したキーワードおよびカテゴリに基づいて、ユーザが指定したカテゴリに適合し、ユーザが指定したキーワードに類似する単語を抽出することとしてもよい。

描画用データ生成モジュール２０４８は、端末装置１０に対して、端末装置１０において画像を描画するためのデータを生成する。生成されたデータは、サーバ２０から端末装置１０に送信される。描画用データ生成モジュール２０４８は、類似単語抽出モジュール２０４７により抽出される単語群と、ユーザが指定したキーワードとの類似関係を端末装置１０で描画するためのデータを生成する。また、描画用データ生成モジュール２０４８は、ユーザが指定したカテゴリに適合する単語であって、ユーザが指定したキーワード、第１の単語群、第２の単語群の類似の関係を示す情報を描画するためのデータを生成する。

図４は、文書データ格納装置１１に記憶される各種データのデータ構造を示す図である。

テキストデータ群１８１は、文書データごとに、文書データに設定される各種パラメータ（属性など）を保持する。テキストデータ群１８１の各レコードは、項目「文書識別情報（ＩＤ）」と、項目「日時」と、項目「文書作成者」と、項目「文書分類」と、項目「文章」とを含む。

項目「文書識別情報（ＩＤ）」は、文書データ格納装置１１またはサーバ２０が取得する文書データそれぞれを識別するための情報である。
項目「日時」は、文書データが作成されたタイミング、または、文書データが公開されたタイミングその他の文書に関するタイミングの情報を示す。
項目「文書作成者」は、文書データにおける文書の作成者を示す。例えば、技術文書の著者、技法を公開した企業名などが、文書の作成者となり得る。
項目「文書分類」は、文書データに付与される分類を示す。例えば、文書データが特許文献である、プレスリリースである、論文として発表されたものである、ＳＮＳ（Social Network Service）に投稿されたものである等、どのようにして公開されたものであるかによって分類することとしてもよい。また、文書データがアンケートによって得られた内容を示すものである、事業会社内で研究開発が行われることで得られたものである等、どのようにして文書データが作成されたものであるかによって分類することとしてもよい。
項目「文章」は、文書データに含まれる文章を示す。

単語リスト１８２は、各単語について、単語間の類似度を演算するためのパラメータと、各単語に設定されるカテゴリとを保持する。単語リスト１８２の各レコードは、項目「単語」と、項目「単語ベクトル」と、項目「第１カテゴリ」と、項目「第２カテゴリ」とを含む。

項目「単語」は、文書データに基づき抽出される各単語を示す。
項目「単語ベクトル」は、各単語について、単語ベクトル演算モジュール１０４６等により演算された意味ベクトルを示す。
項目「第１カテゴリ」は、各単語に付与されるカテゴリを示す。
項目「第２カテゴリ」は、各単語に付与されるカテゴリを示す。このように、各単語に、複数のカテゴリを定義できることとしてもよく、単語が含まれる文書データに示される情報（文書データを作成した事業者、個人、文書データの分類（技術情報、特許文献、プレスリリース等））をカテゴリに含めてもよい。例えば、項目「第２カテゴリ」には、図４に示すように、ユーザが独自に定義したカテゴリの情報が格納される。

図５は、ユーザが独自に定義するカテゴリの例を示す図である。図４に示すように、ユーザが独自に定義したカテゴリとして、カテゴリ「部品」、カテゴリ「素材」、カテゴリ「不具合」、カテゴリ「研究機関」、カテゴリ「大学」、カテゴリ「企業」、カテゴリ「研究者名」をユーザが用意している。

図４に戻ると、カテゴリ辞書１８３は、各単語のカテゴリを定義した辞書データであり、項目「単語」と、項目「分類」とを含んでいる。

図６は、グラフ構造データベース２８４のデータ構造を概念的に示す図である。上記のように、グラフ構造データベース２８４は、各単語をノードとし、単語間の類似度をエッジとしたグラフ型のデータベースである。

＜動作＞
サーバ２０にグラフ構造データベース２８４を保持させるための各装置の動作について説明する。

図７は、文書データ格納装置１１が、サーバ２０に、単語間の類似関係を示す情報を、グラフ型のデータ構造を有するデータベースとして保持させる処理を示すフローチャートである。

ステップＳ７０１において、文書データ格納装置１１は、大量の文書データを含むテキストデータ群１８１に対し、形態素解析を施すことにより、単語を抽出する。

ステップＳ７０３において、文書データ格納装置１１は、文書データにおける各単語の共起関係に基づき、各単語の単語ベクトル（意味ベクトル）を計算する。

ステップＳ７０５において、文書データ格納装置１１は、文書データ格納装置１１のユーザから、１以上のキーワードと、階層の指定を受け付ける。「階層」とは、キーワードに類似する単語を特定する処理を再帰的に繰り返す回数を示す。

ステップＳ７０７において、文書データ格納装置１１は、文書データ格納装置１１のユーザが指定した１以上のキーワードそれぞれについて、各キーワードとの類似関係が一定の条件を満たす複数の単語を、第１の単語群として特定する。ここで、キーワードとの類似関係が一定の条件を満たす単語とは、キーワードとの類似度が一定値を超える単語であることとしてもよい。また、キーワードとの類似関係が一定の条件を満たす複数の単語とは、キーワードとの類似度が高い順に各単語を並べた場合に、上位所定数までの単語であるとしてもよい。

ステップＳ７０９において、文書データ格納装置１１は、第１の単語群に含まれる各単語との類似関係が一定の条件を満たす単語群を特定する。以降、ステップＳ７０５でユーザが指定された階層（または、文書データ格納装置１１が予め設定した階層）に至るまで、特定された単語群の各単語との類似関係が一定の条件を満たす単語群を特定する処理を再帰的に繰り返す。例えば、予め階層として階層「２」が指定されている場合、文書データ格納装置１１は、ユーザが指定したキーワードに類似する第１の単語群（階層「１」）と、第１の単語群の各単語に類似する第２の単語群（階層「２」）を特定することにより、各単語の抽出を行う。

ステップＳ７１１において、文書データ格納装置１１は、ユーザが指定したキーワードと、ステップＳ７０７、Ｓ７０９で特定される各単語をノードとし、単語間の類似度をノード間のエッジとするデータ構造のデータを生成し、グラフ構造データベース１８４としてメモリ等に保持させる。

ステップＳ７１３において、文書データ格納装置１１は、グラフ構造データベース１８４を、サーバ２０に格納させるために送信する。

ステップＳ７５１において、サーバ２０は、文書データ格納装置１１から受信したデータを、グラフ構造データベース２８４として記憶部に格納させる。

次に、端末装置１０のユーザの操作に応答して、単語間の類似関係を表示させるための各装置の動作について説明する。

図８は、ユーザが指定したキーワードに対し、単語間の類似関係を端末装置１０に表示させる処理を示すフローチャートである。

ステップＳ８０１において、端末装置１０は、端末装置１０のユーザから、キーワードの指定を受け付ける。端末装置１０は、キーワードに類似する単語を抽出するための階層の指定を受け付ける。なお、端末装置１０は、ユーザから、複数のキーワードの指定を受け付けることとしてもよい。

ステップＳ８５１において、サーバ２０は、グラフ構造データベース２８４を参照することにより、ユーザが指定したキーワードに対応するノードを特定し、キーワードとの類似関係が一定の条件を満たす複数の単語（第３の単語群）を抽出する。例えば、サーバ２０は、ユーザが指定したキーワードとの類似度が一定値を超える単語を、ユーザが指定したキーワードに対応するノードと、当該ノードに関連付けられるエッジとに基づいて第３の単語群として特定する。また、例えば、サーバ２０は、ユーザが指定したキーワードとの類似度が高い順に所定数の複数の単語を、グラフ構造データベース２８４を参照することにより第３の単語群として特定することとしてもよい。

ステップＳ８５５において、サーバ２０は、グラフ構造データベース２８４を参照することにより、第３の単語群との類似関係が一定の条件を満たす複数の単語（第４の単語群）を抽出する。

ステップＳ８５９において、サーバ２０は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。サーバ２０は、少なくとも第３の単語群と、第４の単語群と、各単語間の類似度の情報とを含むグラフ構造のデータを、各単語のカテゴリとともに端末装置１０へ応答する。

ステップＳ８０５において、端末装置１０は、サーバ２０から、グラフ構造のデータを受信する。端末装置１０は、ユーザが指定したキーワードと、当該キーワードに類似する単語としてサーバ２０に抽出される各単語とを、これら単語の類似関係がユーザに認識できる態様で描画する。端末装置１０は、キーワードおよびサーバ２０に抽出される各単語をノードとして、各ノードの単語に類似する単語のノードとの間にエッジを設定したグラフを描画する。端末装置１０は、各単語に設定されるカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように描画する。

図９は、ユーザが指定したキーワードとカテゴリに対し、単語間の類似関係を端末装置１０に表示させる処理を示すフローチャートである。図８に示す処理と比較すると、端末装置１０が、ユーザから、キーワードおよびカテゴリの指定を受け付けている。

ステップＳ９０２において、端末装置１０は、端末装置１０のユーザから、キーワードの指定と、カテゴリの指定とを受け付ける。端末装置１０は、キーワードに類似する単語を抽出するための階層の指定を受け付ける。

ステップＳ９５２において、サーバ２０は、グラフ構造データベース２８４を参照することにより、ユーザが指定したカテゴリに適合する単語を対象とし、各単語についてユーザが指定したキーワードとの類似関係が一定の条件を満たす複数の単語（第３の単語群）を抽出する。これにより、サーバ２０は、ユーザが指定したキーワードに類似する単語群として、第１階層までの単語を抽出している。

ステップＳ９５６において、サーバ２０は、グラフ構造データベース２８４を参照することにより、ユーザが指定したカテゴリに適合する単語を対象とし、第３の単語群に含まれる各単語との類似度を、それぞれの単語について演算することにより、第３の単語群に類似する単語（第４の単語群）を抽出する。これにより、サーバ２０は、ユーザが指定したキーワードに類似する単語群として、第２階層までの単語を抽出している。以降、サーバ２０は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。

ステップＳ９５９において、サーバ２０は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。サーバ２０は、少なくとも第３の単語群と、第４の単語群と、各単語間の類似度の情報とを含むグラフ構造のデータを、各単語のカテゴリとともに端末装置１０へ応答する。
ステップＳ９０５において、端末装置１０は、ステップＳ８０５と同様の処理を行う。

＜画面例＞
図１０は、端末装置１０のディスプレイ１４において、単語間の類似関係を表示させる画面例を示す。

図１０に示すように、端末装置１０は、ブラウザ等によりサーバ２０と通信接続することで、ディスプレイ１４に画面を表示する。当該画面は、カテゴリ選択部９０１と、キーワード指定部９０２と、階層指定部９０３と、制限数指定部９０４と、キーワード検索実行部９０５と、経路検索実行部９０６と、ノード表示態様表示部９０７と、グラフ表示部９０８とを含む。

カテゴリ選択部９０１は、端末装置１０のユーザから、カテゴリの指定をする操作を受け付けるための領域である。図示するように、予め定められたカテゴリの候補の中から、ユーザがカテゴリを指定することとしてもよい。図示する例では、ユーザは、カテゴリ「社内」に含まれる全てのカテゴリ、および、カテゴリ「社外」に含まれるすべてのカテゴリを指定している。図８のステップＳ７０２に対応する。

カテゴリ「社内」は、単語に対して社内の情報である旨のカテゴリが付与されている単語を、抽出の対象とすることを示す。社内の情報とは、例えば、社内のリソースを使用して生成された情報であり、社内の資金、人員等を用いて実施した顧客アンケート、製品の設計書、開発した技術を記録した書面その他の情報を含む。

カテゴリ「社外」は、単語に対して社外の情報である旨のカテゴリが付与されている単語を、抽出の対象とすることを示す。例えば、他社が生成して公表した情報として、プレスリリース、他者による特許出願、他者による研究論文、ＳＮＳに投稿された情報などがある。

キーワード指定部９０２は、端末装置１０のユーザから、キーワードの指定を受け付けるための領域である。図示する例では、キーワードとして単語「冷蔵庫」が指定されている。

階層指定部９０３は、キーワードに類似する単語を抽出するための階層の数の指定をユーザから受け付けるための領域である。図８のステップＳ８０１、図９のステップＳ９０２に対応する。

制限数指定部９０４は、指定したキーワードに基づき、グラフに描画するノードの数の上限の指定をユーザから受け付けるための領域である。端末装置１０は、サーバ２０から受信した単語群の情報について、ユーザが指定した上限までのノードを描画する。例えば、ユーザが指定した階層の数（階層指定部９０３）、および、ユーザが指定したノードの数（制限数指定部９０４）に基づいて、ユーザが指定したキーワードに類似する単語を抽出する数を、階層ごとに設定してもよい。例えば、ユーザが指定したキーワードに類似する第３の単語群（第１階層）についてはＭ個の単語を抽出し、第３の単語群に類似する単語（第２階層）についてはＮ個の単語を抽出する等のように、各階層で抽出する単語数を設定するとともに、単語（ノード）の総数が、制限数指定部９０４で指定される数を超えないように設定することとしてもよい。このように、グラフに描画するノードの数の上限をユーザが指定する場合、サーバ２０は、各階層で類似する単語を抽出するにあたり、類似度が高い単語から順に抽出することとしてもよい。例えば、制限数指定部９０４により指定されるノードの数の上限に基づき、ユーザが指定したキーワードに類似する第３の単語群（第１階層）についてＭ個の単語を抽出する場合、グラフ構造データベース２８４を参照することにより、キーワードとの類似度が高いものから順にＭ個の単語を抽出の対象とする。

キーワード検索実行部９０５は、単語間の類似関係を表示する処理を開始するための入力操作をユーザから受け付けるための領域である。端末装置１０は、キーワード検索実行部９０５へのユーザの入力操作を受け付けることにより、サーバ２０に対し、ステップＳ８０１等で入力されたキーワードを送信する。これによりサーバ２０がステップＳ８５１等の処理を行って、キーワードに類似する単語を抽出する。

経路検索実行部９０６は、ノード間に設定されるエッジ（リレーションシップ）の検索をする操作をユーザから受け付けるための領域である。端末装置１０は、例えば、グラフ表示部９０８に含まれる各ノードのうち、複数のノードをユーザが指定した場合に、指定されたノード間の経路を検索することができる。また、ノード間のエッジにパラメータを設定する場合に（例えば、エッジにカテゴリを付与すること、ノード間の類似度をエッジのパラメータとして設定すること等ができる）、所定のパラメータを有するエッジ（例えば、類似度が一定以上のエッジ）を特定することができる。

ノード表示態様表示部９０７は、グラフ表示部９０８に表示されるノードのカテゴリを視覚的にユーザに示すための領域である。図示する例では、ノードのカテゴリとして、カテゴリ「社内」とカテゴリ「社外」のうち、カテゴリ「社内」のみが設定されているものを、ノードを表す円の外周が強調されたものとして示している。また、図示する例では、ノードのカテゴリとして、カテゴリ「社外」のみが設定されているものを、ノードを表す円の外周が点線で表されたものとして示している。また、図示する例では、ノードのカテゴリとして、カテゴリ「社内」およびカテゴリ「社外」」の両方が設定されているものを、ノードを表す円の外周が実線で表されたものとして示している。これにより、各ノードが、カテゴリ「社内」とカテゴリ「社外」の両方が付与されたものであるか、カテゴリ「社内」のみが付与されたものであるか、カテゴリ「社外」のみが付与されたものであるかを、ユーザに対して視覚的に提示することができる。ユーザは、これら各ノードの表示態様を参照することで、各単語が、社内の知見として蓄積されたものであるか、社内にはなく社外の知見として蓄積されたものであるか、あるいはその両方で社内および社外の知見として蓄積されたものであるかを容易に確認することができる。これにより、例えば、研究開発のテーマとして、ユーザにとって知見の蓄積が薄い分野の示唆を得ることができ、カテゴリ「社外」が付与された単語に基づき文書を検索することで、文書の作成者、著者等を特定し、コンタクトをとるきっかけを得ることができる。

グラフ表示部９０８は、サーバ２０が抽出した単語群を、これら単語の類似関係を視覚化したグラフとして描画する領域である。図示するように、各ノードを円形で表現し、各ノードと、これら各ノードの単語に類似する単語のノードとの間にエッジを描画している。グラフ表示部９０８において、ユーザが指定したキーワードを、キーワード表示部９０９に表示している。図示する例では、グラフに含まれるノードの全てをディスプレイ１４に表示しておらず、一部の表示にとどまっている。グラフ表示部９０８は、グラフを表示する範囲を拡大縮小するための操作を受け付けるボタン（「拡大ボタン」および「縮小ボタン」）も含む。

＜付記＞
以上の実施形態で説明した事項を以下に付記する。

（付記１）
ユーザ端末（１０）からの解析の要求に対して解析結果を応答するサーバ装置（２０）にデータを保持させるための情報処理装置（１１）が提供される。当該情報処理装置（１１）は、プロセッサと、メモリとを備え、プロセッサが、解析の対象となる文書データ（１８１）に含まれる複数の単語のうち、所定の規則に基づいて第１の単語群を特定する第１のステップ（Ｓ７０７）と、第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第２のステップ（Ｓ７０９）と、少なくとも第１の単語群の各単語と、第２の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第３のステップ（Ｓ７１３）と、を実行する。

（付記２）
プロセッサは、第１のキーワードの指定を受け付ける第４のステップ（Ｓ７０５）をさらに実行し、第１のステップ（Ｓ７０７）は、文書データに含まれる複数の単語のうち、指定された第１のキーワードと類似する度合に基づいて、第１の単語群を特定する、（付記１）に記載の情報処理装置。

（付記３）
第１のステップ（Ｓ７０７）は、複数の単語のうち、指定されたキーワードと類似する度合が高い順から所定数の第１の単語群を特定すること、または、指定されたキーワードと類似する度合が一定値を超える第１の単語群を特定することの少なくともいずれかを行う、（付記２）に記載の情報処理装置。

（付記４）
第３のステップ（Ｓ７１３）は、各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース（１８４、２８４）をサーバ装置（２０）の記憶部に記憶させる、（付記１）から（付記３）のいずれかに記載の情報処理装置。

（付記５）
サーバ装置（２０）に記憶されるグラフ構造のデータベース（２８４）は、サーバ装置が、ユーザ端末（１０）からの解析の要求に含まれる第２のキーワード（Ｓ８０１）に基づいて、当該グラフ構造のデータベースを参照することにより、当該第２のキーワードとの類似関係が第１の条件を満たす第３の単語群を特定し（Ｓ８５１）、第３の単語群の各単語との類似関係が第２の条件を満たす第４の単語群を特定し（Ｓ８５５）、少なくとも（１）第３の単語群の各単語、（２）第４の単語群の各単語、（３）第２のキーワードと第３の単語群の各単語との類似関係を示す情報、（４）第３の単語群の各単語と第４の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答する（Ｓ８５９）ために用いられるものである、（付記１）から（付記４）のいずれかに記載の情報処理装置。

（付記６）
情報処理装置は、さらに、文書データに含まれる各単語を抽出して、それぞれの単語間の類似度を演算可能なパラメータを、抽出した各単語について演算する第５のステップ（Ｓ７０１、Ｓ７０３）を実行し、単語間の類似関係を示す情報は、各単語のパラメータに基づいて算出されるパラメータである、（付記１）から（付記５）のいずれかに記載の情報処理装置。

（付記７）
ユーザ端末（１０）からの解析の要求に対して解析結果を応答するサーバ装置（２０）が提供される。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース（２８４）を記憶部に記憶しており、ユーザ端末から、キーワードを特定する情報を受け付けるステップ（Ｓ８０１、Ｓ８５１）と、受け付けたキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、キーワードとの類似関係が第３の条件を満たす第５の単語群を特定するステップ（Ｓ８５１）と、当該第５の単語群の各単語との類似関係が第４の条件を満たす第６の単語群を特定するステップ（Ｓ８５５）と、少なくとも（１）第５の単語群の各単語、（２）第６の単語群の各単語、（３）キーワードと第５の単語群の各単語との類似関係を示す情報、（４）第５の単語群の各単語と第６の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答するステップ（Ｓ８５９）と、を行う。

（付記８）
サーバ装置は、ユーザ端末に、第５の単語群の各単語、および、第６の単語群の各単語をノードとし、単語間の類似関係を示す情報をエッジとしたグラフを描画させ、描画されたグラフをユーザ端末のモニタに表示させる（Ｓ８０５）、（付記７）に記載のサーバ装置。

（付記９）
ユーザの操作に応じて、解析の対象となる文書データに対してサーバ装置に解析を要求するためのユーザ端末（１０）が提供される。ユーザ端末は、プロセッサ（１９）と、メモリ（１５、１６）とを備える。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース（２８４）を記憶部に記憶している。プロセッサは、ユーザから、キーワードを指定する操作を受け付けるステップ（Ｓ８０１、Ｓ９０２）と、指定されたキーワードに基づいて、サーバ装置に、当該グラフ構造のデータベースを参照させることにより、キーワードとの類似関係が第３の条件を満たす第５の単語群を特定するステップ（Ｓ８５１）と、当該第５の単語群の各単語との類似関係が第４の条件を満たす第６の単語群を特定するステップ（Ｓ８５５）と、少なくとも（１）第５の単語群の各単語、（２）第６の単語群の各単語、（３）キーワードと第５の単語群の各単語との類似関係を示す情報、（４）第５の単語群の各単語と第６の単語群の各単語との類似関係を示す情報をサーバ装置から受信するステップ（Ｓ８５９、Ｓ８０５）と、サーバ装置から受信した情報に基づいて、第５の単語群の各単語、および、第６の単語群の各単語をノードとし、単語間の類似関係を示す情報をエッジとしたグラフを描画してユーザに提示するステップ（Ｓ８０５）と、を行う。

１０端末装置、１１文書データ格納装置、１２通信ＩＦ、１３入力装置、１４ディスプレイ、１５メモリ、１６ストレージ、１９プロセッサ、２０サーバ、２２通信ＩＦ、２３入出力ＩＦ、２５メモリ、２６ストレージ、２９プロセッサ、８０ネットワーク、１８１テキストデータ群、１８２単語リスト、１８３カテゴリ辞書、１８４グラフ構造データベース、２８１テキストデータ群、２８２単語リスト、２８３カテゴリ辞書、２８４グラフ構造データベース、９０１カテゴリ選択部、９０２キーワード指定部、９０３階層指定部、９０４制限数指定部、９０５キーワード検索実行部、９０６経路検索実行部、９０７ノード表示態様表示部、９０８グラフ表示部、９０９キーワード表示部。

Claims

ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるための情報処理装置であって、当該情報処理装置は、プロセッサと、メモリとを備え、前記プロセッサが、
第１のキーワードの指定を受け付ける第１のステップと、
解析の対象となる文書データに含まれる複数の単語のうち、前記指定された第１のキーワードと類似する度合に基づいて、第１の単語群を特定する第２のステップと、
前記第１の単語群の単語の各々について、ユーザが独自に定義したカテゴリを付与する第３のステップと、
前記第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第４のステップと、
前記第１の単語群の各単語、および、前記第２の単語群の各単語をノードとし、これら各単語間の類似関係を示す情報を各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを、前記サーバ装置の記憶部に保持させる第５のステップと、
を実行し、
前記グラフ構造は、前記ユーザ端末に、単語に付与されているカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように表示させるために用いられるものである、情報処理装置。
前記第２のステップは、前記複数の単語のうち、前記指定されたキーワードと類似する度合が高い順から所定数の前記第１の単語群を特定すること、または、前記指定されたキーワードと類似する度合が一定値を超える前記第１の単語群を特定することの少なくともいずれかを行う、請求項２に記載の情報処理装置。
前記サーバ装置に記憶される前記グラフ構造のデータベースは、
前記サーバ装置が、
前記ユーザ端末からの解析の要求に含まれる第２のキーワード及びカテゴリに基づいて、当該グラフ構造のデータベースを参照することにより、前記カテゴリに適合し、かつ、当該第２のキーワードとの類似関係が第１の条件を満たす第３の単語群を特定し、
前記第３の単語群の各単語との類似関係が第２の条件を満たす第４の単語群を特定し、
少なくとも（１）前記第３の単語群の各単語、（２）前記第４の単語群の各単語、（３）前記第２のキーワードと前記第３の単語群の各単語との類似関係を示す情報、（４）前記第３の単語群の各単語と前記第４の単語群の各単語との類似関係を示す情報を前記ユーザ端末に対して応答するために用いられるものである、
請求項１又は２に記載の情報処理装置。
前記情報処理装置は、さらに、
前記文書データに含まれる各単語を抽出して、それぞれの単語間の類似度を演算可能なパラメータを、前記抽出した各単語について演算する第６のステップを実行し、
前記単語間の類似関係を示す情報は、各単語の前記パラメータに基づいて算出されるパラメータである、
請求項１から３のいずれかに記載の情報処理装置。
ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置であって、
前記サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、前記単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶しており、
前記ユーザ端末から、キーワード及びカテゴリを特定する情報を受け付けるステップと、
前記受け付けたキーワード及びカテゴリに基づいて、当該グラフ構造のデータベースを参照することにより、前記カテゴリに適合し、かつ、前記キーワードとの類似関係が第３の条件を満たす第５の単語群を特定するステップと、
当該第５の単語群の各単語との類似関係が第４の条件を満たす第６の単語群を特定するステップと、
少なくとも（１）前記第５の単語群の各単語、（２）前記第６の単語群の各単語、（３）前記キーワードと前記第５の単語群の各単語との類似関係を示す情報、（４）前記第５の単語群の各単語と前記第６の単語群の各単語との類似関係を示す情報を前記ユーザ端末に対して応答するステップと、
前記第５の単語群の各単語、および、前記第６の単語群の各単語をノードとし、単語間の前記類似関係を示す情報をエッジとしたグラフを描画させ、前記描画されたグラフを、前記キーワードと共に、前記ユーザ端末のモニタに表示させるステップと、
を実行し、
前記記憶部に格納された単語の各々は、ユーザが独自に定義したカテゴリが付与されており、
前記表示させるステップにおいて、前記ユーザ端末に、単語に付与されているカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように表示させる
サーバ装置。
ユーザの操作に応じて、解析の対象となる文書データに対してサーバ装置に解析を要求するためのユーザ端末であって、前記ユーザ端末は、プロセッサと、メモリとを備え、
前記サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、前記単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶しており、
前記プロセッサは、前記ユーザから、キーワード及びカテゴリを指定する操作を受け付けるステップと、
前記指定されたキーワード及びカテゴリに基づいて、前記サーバ装置に、前記当該グラフ構造のデータベースを参照させることにより、前記カテゴリに適合し、かつ、前記キーワードとの類似関係が第３の条件を満たす第５の単語群を特定するステップと、
当該第５の単語群の各単語との類似関係が第４の条件を満たす第６の単語群を特定するステップと、
少なくとも（１）前記第５の単語群の各単語、（２）前記第６の単語群の各単語、（３）前記キーワードと前記第５の単語群の各単語との類似関係を示す情報、（４）前記第５の単語群の各単語と前記第６の単語群の各単語との類似関係を示す情報を前記サーバ装置から受信するステップと、
前記サーバ装置から受信した情報に基づいて、前記第５の単語群の各単語、および、前記第６の単語群の各単語をノードとし、単語間の前記類似関係を示す情報をエッジとしたグラフを描画して、前記キーワードと共に、前記ユーザに提示するステップと、
を実行し、
前記サーバ装置の記憶部に格納された単語の各々は、ユーザが独自に定義したカテゴリが付与されており、
前記提示するステップにおいて、単語に付与されているカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように表示させる
ユーザ端末。
ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置が行う方法であって、当該コンピュータ装置は、プロセッサと、メモリとを備え、前記方法は、前記プロセッサが、
第１のキーワードの指定を受け付ける第１のステップと、
解析の対象となる文書データに含まれる複数の単語のうち、前記指定された第１のキーワードと類似する度合に基づいて、第１の単語群を特定する第２のステップと、
前記第１の単語群の単語の各々について、ユーザが独自に定義したカテゴリを付与する第３のステップと、
前記第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第４のステップと、
前記第１の単語群の各単語、および、前記第２の単語群の各単語をノードとし、これら各単語間の類似関係を示す情報を各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを、前記サーバ装置の記憶部に保持させる第５のステップと、
を実行し、
前記グラフ構造は、前記ユーザ端末に、単語に付与されているカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように表示させるために用いられるものである、
方法。
ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置を動作させるためのプログラムであって、当該コンピュータ装置は、プロセッサと、メモリとを備え、前記プログラムは、前記プロセッサに、
第１のキーワードの指定を受け付ける第１のステップと、
解析の対象となる文書データに含まれる複数の単語のうち、前記指定された第１のキーワードと類似する度合に基づいて、第１の単語群を特定する第２のステップと、
前記第１の単語群の単語の各々について、ユーザが独自に定義したカテゴリを付与する第３のステップと、
前記第１の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第２の単語群を特定する第４のステップと、
前記第１の単語群の各単語、および、前記第２の単語群の各単語をノードとし、これら各単語間の類似関係を示す情報を各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを、前記サーバ装置の記憶部に保持させる第５のステップと、
を実行し、
前記グラフ構造は、前記ユーザ端末に、単語に付与されているカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように表示させるために用いられるものである、
プログラム。