JP2021015562A - 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム - Google Patents

情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム Download PDF

Info

Publication number
JP2021015562A
JP2021015562A JP2019131301A JP2019131301A JP2021015562A JP 2021015562 A JP2021015562 A JP 2021015562A JP 2019131301 A JP2019131301 A JP 2019131301A JP 2019131301 A JP2019131301 A JP 2019131301A JP 2021015562 A JP2021015562 A JP 2021015562A
Authority
JP
Japan
Prior art keywords
word
words
word group
similarity
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019131301A
Other languages
English (en)
Other versions
JP6887002B2 (ja
Inventor
山本 直人
Naoto Yamamoto
直人 山本
俊雅 清水
Toshimasa Shimizu
俊雅 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kpmg Consulting Co Ltd
Original Assignee
Kpmg Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kpmg Consulting Co Ltd filed Critical Kpmg Consulting Co Ltd
Priority to JP2019131301A priority Critical patent/JP6887002B2/ja
Publication of JP2021015562A publication Critical patent/JP2021015562A/ja
Priority to JP2021083246A priority patent/JP2021120905A/ja
Application granted granted Critical
Publication of JP6887002B2 publication Critical patent/JP6887002B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】文書データが蓄積していくことに追随して、文書データの解析結果を得ることのユーザの利便性をよりいっそう向上させる技術を提供する。【解決手段】情報処理装置(文書データ格納装置11)は、プロセッサと、メモリとを備え、プロセッサが、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップS707と、第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップS709と、少なくとも第1の単語群の各単語と、第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第3のステップS713と、を実行する。【選択図】図7

Description

本明細書における開示は、情報処理装置、サーバ装置、ユーザ端末、方法及びプログラムに関する。
文書データを解析する技術が開発されている。例えば、特開2017−27168号公報(特許文献1)は、文書データの形態素解析を行うことで単語を抽出し、抽出した単語に基づいてユーザの嗜好を表すデータを抽出する技術が記載されている。また、特許文献1には、ユーザが自由に記載した文章の用字または用語の不統一を吸収するための技術が記載されている。具体的には、特許文献1には、複数の文章を用いて単語を抽出することで、単語の特徴を表すベクトルを演算し、ベクトルをクラスタリングすることで、各クラスタの重心に近い単語である代表語を設定することが記載されている。こうすることにより、文章から抽出される単語を、代表語に置き換えることができる。
特開2017−27168号公報
一方、研究機関、事業会社等の研究開発を行う事業者においては、各所で様々な知見がドキュメントとして蓄積されている。例えば、研究開発部門における研究開発により得られた知見を、社内で文書として蓄積していることがある。また、事業部門や研究開発部門が、社外で発表された資料を参照することもある。
しかしながら、これらの文書データを解析しようとしても、そのデータ量が膨大なものとなっていくにつれて、コンピュータでデータ処理を行うことが現実的な時間に収めることが難しくなっていく。そのため、データ量が蓄積すればするほど、事業会社等のユーザにとって、研究開発等に役立てるために文書データを解析することがやりづらくなっていくおそれがある。例えば、ユーザが文書データを解析するために入力するデータを指定したとしても、解析の処理に膨大な時間を要し、解析結果を得るまでの時間が長期化してしまう。
したがって、文書データが蓄積していくことに追随して、文書データの解析結果を得ることのユーザの利便性をよりいっそう向上させる技術が必要とされている。
一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるための情報処理装置が提供される。当該情報処理装置は、プロセッサと、メモリとを備える。プロセッサが、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、少なくとも第1の単語群の各単語と、第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第3のステップと、を実行する。
一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置が提供される。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶している。サーバ装置は、ユーザ端末から、キーワードを特定する情報を受け付けるステップと、受け付けたキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、キーワードとの類似関係が第3の条件を満たす第5の単語群を特定するステップと、当該第5の単語群の各単語との類似関係が第4の条件を満たす第6の単語群を特定するステップと、少なくとも(1)第5の単語群の各単語、(2)第6の単語群の各単語、(3)キーワードと第5の単語群の各単語との類似関係を示す情報、(4)第5の単語群の各単語と第6の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答するステップと、を行う。
一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置が行う方法が提供される。当該コンピュータ装置は、プロセッサと、メモリとを備える。方法は、プロセッサが、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、少なくとも第1の単語群の各単語と、第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第3のステップと、を実行することを含む。
一実施形態によると、ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置を動作させるためのプログラムが提供される。当該コンピュータ装置は、プロセッサと、メモリとを備える。プログラムは、プロセッサに、解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、少なくとも第1の単語群の各単語と、第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第3のステップと、を実行させることを含む。
一実施形態によると、膨大な文書データに対し、文書データに含まれる単語間の類似関係を規定したデータ構造によりサーバ装置にデータを格納させる。これにより、ユーザが文書データから様々な知見を得ることを、現実的な処理時間で可能にするシステムを構築することができる。
本実施形態にかかるシステム構成の一例を示す図である。 文書データ格納装置11の機能を示すブロック図である。 サーバ20の機能を示すブロック図である。 文書データ格納装置11に記憶される各種データのデータ構造を示す図である。 ユーザが独自に定義するカテゴリの例を示す図である。 グラフ構造データベース284のデータ構造を概念的に示す図である。 文書データ格納装置11が、サーバ20に、単語間の類似関係を示す情報を、グラフ型のデータ構造を有するデータベースとして保持させる処理を示すフローチャートである。 ユーザが指定したキーワードに対し、単語間の類似関係を端末装置10に表示させる処理を示すフローチャートである。 ユーザが指定したキーワードとカテゴリに対し、単語間の類似関係を端末装置10に表示させる処理を示すフローチャートである。 端末装置10のディスプレイ14において、単語間の類似関係を表示させる画面例を示す。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<システム構成>
図1は、本実施形態にかかるシステム構成の一例を示す図である。
図1に示すように、システム1は、端末装置10と、文書データ格納装置11と、サーバ20とを含んで構成されている。文書データの解析結果を利用しようとするユーザは、端末装置10を操作して、サーバ20にアクセスする。
サーバ20は、予め、大量の文書データに対して特定の処理を行うことにより、文書データに含まれる単語の類似関係を、グラフ型のデータ構造を有するデータベースとして保持している。このデータベースは、各単語と、単語間の類似関係を示す情報とを関連付けたものである。具体的には、このデータベースは、各単語をノードとし、単語間の類似度をエッジとしたデータ構造を有している。このようなデータ構造とすることにより、端末装置10からの要求に応答して、文書データの解析結果を応答する。サーバ20は、例えば、端末装置10から、所定のキーワードを入力として受け付けて、入力されたキーワードに類似する単語群、および、この単語群にさらに類似する単語群を、上記のデータ構造のデータベースに基づき端末装置10へ応答する。これにより、端末装置10では、ユーザが指定したキーワードに類似する単語群、この単語群に類似する単語群、そして、これら単語群に含まれる各単語の類似関係を示す情報(類似度等)を描画した表示画像を生成することができる。
ここで、サーバ20に上記のデータ構造のデータベースを構築するために、以下の実施形態では、予め文書データ格納装置11が大量の文書データを収集し、これら文書データに対してデータ処理を行うことにより、上記のデータ構造のデータを生成して、サーバ20へ送信する例を説明する。なお、大量の文書データを蓄積する主体、大量の文書データを解析して上記のデータ構造のデータベースを生成する主体について、上記の例では共に文書データ格納装置11が行う例を示しているが、これに限られない。例えば、サーバ20が文書データの蓄積を行い、文書データ格納装置11が、サーバ20から文書データを受信して、上記のデータ構造のデータを生成することとしてもよい。また、文書データ格納装置11が、サーバ20と通信し、サーバ20に、上記のデータ構造のデータを生成させる等としてもよい。
<各装置の構成>
端末装置10は、大量の文書データの解析結果を利用する各ユーザが操作する装置である。端末装置10は、例えば据え置き型のPC(Personal Computer)、ラップトップPC、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。
端末装置10は、通信IF(Interface)12と、入出力IF13と、ディスプレイ14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。
文書データ格納装置は、図示していないが、端末装置10と同様に通信IF12、入力装置13、ディスプレイ14、メモリ15、ストレージ16、プロセッサ19と同等の構成を備える。
サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。
端末装置10は、ネットワーク80を介してサーバ20と通信可能に接続される。端末装置10は、LTE(Long Term Evolution)などの通信規格に対応した無線基地局、IEEE802.11などの無線LAN(Local Area Network)規格に対応した無線LANルータ等の通信機器と通信することによりネットワーク80に接続される。ユーザは、例えば、オフィスに設置されるPC、外出時に使用する携帯端末のいずれからでもサーバ20と通信して、サーバ20を介したデータの入出力操作を行うことができる。例えば、ユーザは、オフィス滞在時であっても、外出時であっても、端末装置10によりサーバ20と通信し、サーバ20で管理される各種データを参照し、データを入力することができる。
通信IF12は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。
入力装置13は、ユーザからの入力操作を受け付けるためのデバイス(例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)である。
ディスプレイ14は、ユーザに対し情報を提示するためのデバイス(ディスプレイ)である。なお、端末装置10は、出力装置として、図示しないスピーカ等を含む。
メモリ15は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
ストレージ16は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。
プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
サーバ20は、予め単語間の類似関係をグラフ型のデータ構造を有するデータベースとして保持している。サーバ20は、端末装置10のユーザに対し、当該ユーザにより指定されるキーワードに類似する単語を提示する。サーバ20は、端末装置10とネットワーク80を介して通信し、ユーザがキーワードを指定するためのユーザーインタフェースを提供し得る。例えば、ユーザは、ブラウザアプリケーションを実行し、サーバ20にアクセスする。サーバ20は、ブラウザに画面を表示するための情報を端末装置10に応答する。ユーザは、ブラウザにより表示される画面を操作することで、キーワードを指定して検索を行うことと、指定されたキーワードに類似する単語をディスプレイで確認すること等ができる。
通信IF22は、サーバ20が外部の装置と通信するため、信号を入出力するためのインタフェースである。
入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。
メモリ25は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。
プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
<機能構成>
図2は、文書データ格納装置11の機能を示すブロック図である。
図2に示すように、文書データ格納装置11は、通信部101と、記憶部102と、制御部103としての機能を発揮する。
通信部101は、文書データ格納装置11が外部の装置と通信するための処理を行う。
記憶部102は、文書データ格納装置11が使用するデータ及びプログラムを記憶する。記憶部102は、テキストデータ群181と、単語リスト182と、カテゴリ辞書183と、グラフ構造データベース184とを記憶する。
テキストデータ群181は、文書データ格納装置11が取得して蓄積する文書データのデータベースである。テキストデータ群181の詳細は後述する。
単語リスト182は、テキストデータ群181に蓄積する文書に基づき生成される単語のリストである。単語リスト182の詳細は後述するが、単語リスト182は、単語間の類似度合を計算するためのパラメータを含む。例えば、文書データ格納装置11が収集した文書に含まれる文章において、使用されている単語の共起関係を表す空間ベクトル(「意味ベクトル」などともいう)を生成する。例えば、文書に含まれる文章を形態素解析することで単語に分解し、Word2Vecのような技術を利用して、単語の意味的な特徴が反映された意味ベクトルを生成することができる。
カテゴリ辞書183は、単語を分類するための各カテゴリに含まれる単語を定義した辞書データである。辞書データに含まれるカテゴリとしては、一般の辞書に含まれるカテゴリ(例えば、「自然」、「社会」「生物」)、技術分野ごとに公開されている辞典などに含まれるカテゴリなどもあるが、本実施形態では、ユーザが独自に定義したカテゴリを使用することもある。ユーザが独自に定義するカテゴリについては後述する。
グラフ構造データベース184は、複数の単語と、各単語間の類似関係を示す情報とを有するデータである。グラフ構造データベース184は、複数の単語のそれぞれをノードとし、各単語間の類似度をエッジとしたグラフ構造のデータベースである。
制御部103は、文書データ格納装置11のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。
操作内容取得モジュール1041は、ユーザが文書データ格納装置11に対して入力した操作の内容を取得する。操作内容取得モジュール1041は、例えば、文書データ格納装置11のOS(Operating System)等によりユーザに提供されるインタフェース、また、ブラウザ等に表示される情報に対してユーザが行った入力操作の内容を取得する。
文書取得モジュール1042は、文書データ格納装置11が外部の装置から分析対象となる文書を取得する。文書取得モジュール1042は、例えば、技術文書を蓄積するデータベースから、一定の条件を満たす文書データ(例えば、特定の技術分野の文書データ、特定の著者が作成した文書データなど)を取得して、テキストデータ群181として記憶部102に記憶させる。
形態素解析モジュール1043は、記憶部102に記憶されるテキストデータ群181の文章を読み出して形態素解析を行い、単語に分解する。なお、形態素解析モジュール1043は、オンライン辞書サービスの見出し語リストや、文書データ格納装置11が保持する辞書データを用いて、名詞等を抽出する。形態素解析モジュール1043は、辞書データに含まれていない単語についても、固有表現等の未知語であるとして抽出する。
単語リスト生成モジュール1044は、形態素解析モジュール1043が文書データに対して形態素解析を行って分解された単語について、単語の重複を排除することで単語リスト182を生成する。
単語カテゴリ付与モジュール1045は、文書データに基づき生成される単語リスト182に含まれる各単語に対し、カテゴリを付与する。単語カテゴリ付与モジュール1045は、単語リスト182を生成するための解析対象となった文書データに所定のパラメータ(例えば、文書を作成した主体など)が設定されている場合に、当該パラメータを単語のカテゴリとして付与してもよい。
単語ベクトル演算モジュール1046は、単語と共起する語の共起頻度を意味ベクトルとして表すための演算を行う。単語ベクトル演算モジュール1046は、例えば、Word2Vecのような技術により実現される。単語間で意味ベクトルのcos類似度を計算することで、単語間の類似度を算出することができる。
類似単語抽出モジュール1047は、単語間の類似度に基づいて、特定の単語を抽出する。類似単語抽出モジュール1047は、例えば、文書データ格納装置11のユーザが指定した1以上の単語と、単語リスト182に含まれる各単語との類似度を算出することにより、ユーザが指定した単語に類似する類似単語を抽出する。類似単語抽出モジュール1047は、例えば、ユーザが指定した単語の意味ベクトルと、単語リスト182に含まれる各単語の意味ベクトルとに基づいてcos類似度を計算することで、ユーザが指定した単語との類似度を各単語について取得する。
類似単語抽出モジュール1047は、さらに、抽出された単語に類似する単語についても、類似度に基づいて単語リスト182から抽出する。
類似単語抽出モジュール1047は、このように、文書データ格納装置11のユーザが指定した1以上のキーワード、または、文書データ格納装置11がユーザの操作によらず特定した1以上のキーワードに類似する単語を抽出する処理を再帰的に行うことにより、キーワードをノードとし、キーワード間の類似度をエッジとしたグラフ構造のデータベースを生成する。なお、ユーザが指定することができるキーワードの数(または文書データ格納装置11がユーザの操作によらず特定するキーワードの数)は、所定数に限られることとしてもよい。すなわち、単語リスト182に示されるすべての単語をユーザが指定できるのではなく、その一部の所定数の単語について、ユーザまたは文書データ格納装置11が指定できることとしてもよい。文書データ格納装置11は、例えば、ユーザが指定したキーワードに類似する類似度が一定値を超える単語(第1の単語群)をノードとし、ユーザが指定したキーワードのノードとの間にエッジ(リレーションシップ)を定義する。同様に、第1の単語群の各単語に類似する類似度が一定値を超える単語(第2の単語群)をノードとし、第1の単語群の各単語との間にエッジを定義する。以降、同様にして、ある単語をノードとし、当該単語に類似する単語をノードとして、ノード間にエッジを定義することでグラフを生成する。
類似単語抽出モジュール1047は、この他に、ユーザが指定したキーワードに類似する類似度が高い単語から順に所定数の単語を、第1の単語群として抽出することとしてもよい。
類似単語抽出モジュール1047は、この他に、ユーザが指定したキーワードおよびカテゴリに基づいて、ユーザが指定したカテゴリに適合し、ユーザが指定したキーワードに類似する単語を抽出することとしてもよい。
類似単語抽出モジュール1047は、このようにして、各単語をノードとし、単語間の類似度をエッジとするグラフ構造のデータベースを生成して、記憶部102にグラフ構造データベース184として記憶させる。
送受信モジュール1048は、文書データ格納装置11が、他の装置とデータを送信する処理、および、受信する処理を行う。送受信モジュール1048は、例えば、サーバ20にグラフ構造データベースを保持させるために、グラフ構造データベース184を、サーバ20へアップロードする処理等を行う。
図3は、サーバ20の機能を示すブロック図である。
図3に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
通信部201は、サーバ20が外部の装置と通信するための処理を行う。
記憶部202は、サーバ20が使用するデータ及びプログラムを記憶する。記憶部202は、テキストデータ群281と、単語リスト282と、カテゴリ辞書283とを記憶する。以下の例では、文書データ格納装置11とサーバ20とが、ともに文書データを保持する例を説明する。
テキストデータ群281は、サーバ20が取得して蓄積する文書データのデータベースである。テキストデータ群281の詳細は後述する。
単語リスト282は、テキストデータ群281に蓄積する文書に基づき生成される単語のリストである。単語リスト282は、単語リスト182と同様に、単語間の類似度合を計算するためのパラメータを含む。
カテゴリ辞書283は、単語を分類するための各カテゴリに含まれる単語を定義した辞書データである。
グラフ構造データベース284は、文書データ格納装置11から送信されるグラフ構造データベース184をサーバ20が受信して、記憶部202に記憶させるデータベースである。
制御部203は、サーバ20のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。
操作内容取得モジュール2041は、ユーザが端末装置10に対して入力した操作の内容を取得する。操作内容取得モジュール2041は、例えば、端末装置10のブラウザに表示される情報に対してユーザが行った入力操作の内容を取得する。
文書取得モジュール2042は、サーバ20が外部の装置から分析対象となる文書を取得する。文書取得モジュール2042は、例えば、技術文書を蓄積するデータベースから、一定の条件を満たす文書データ(例えば、特定の技術分野の文書データ、特定の著者が作成した文書データなど)を取得する。
形態素解析モジュール2043は、記憶部202に記憶されるテキストデータ群281の文章を読み出して形態素解析を行い、単語に分解する。なお、形態素解析モジュール2043は、オンライン辞書サービスの見出し語リストや、サーバ20が保持する辞書データを用いて、名詞等を抽出する。形態素解析モジュール2043は、辞書データに含まれていない単語についても、固有表現等の未知語であるとして抽出する。
単語リスト生成モジュール2044は、形態素解析モジュール2043が文書データに対して形態素解析を行って分解された単語について、単語の重複を排除することで単語リスト282を生成する。
単語カテゴリ付与モジュール2045は、文書データに基づき生成される単語リスト282に含まれる各単語に対し、カテゴリを付与する。単語カテゴリ付与モジュール2045は、単語リスト282を生成するための解析対象となった文書データに所定のパラメータ(例えば、文書を作成した主体など)が設定されている場合に、当該パラメータを単語のカテゴリとして付与してもよい。
単語ベクトル演算モジュール2046は、単語と共起する語の共起頻度を意味ベクトルとして表すための演算を行う。単語ベクトル演算モジュール2046は、例えば、Word2Vecのような技術により実現される。単語間で意味ベクトルのcos類似度を計算することで、単語間の類似度を算出することができる。
類似単語抽出モジュール2047は、単語間の類似度に基づいて、特定の単語を抽出する。類似単語抽出モジュール2047は、例えば、文書データ格納装置11のユーザが指定した1以上の単語と、単語リスト282に含まれる各単語との類似度を算出することにより、ユーザが指定した単語に類似する類似単語を抽出する。類似単語抽出モジュール2047は、例えば、ユーザが指定した単語の意味ベクトルと、単語リスト282に含まれる各単語の意味ベクトルとに基づいてcos類似度を計算することで、ユーザが指定した単語との類似度を各単語について取得する。
類似単語抽出モジュール2047は、さらに、抽出された単語に類似する単語についても、類似度に基づいて単語リスト282から抽出する。
類似単語抽出モジュール2047は、このように、文書データ格納装置11のユーザが指定した1以上のキーワード、または、文書データ格納装置11のユーザの操作によらず特定した1以上のキーワードに類似する単語を抽出する処理を再帰的に行うことにより、キーワードをノードとし、キーワード間の類似度をエッジとしたグラフ構造のデータベースを生成する。サーバ20は、例えば、文書データ格納装置11のユーザが指定したキーワードをノードとしたグラフを生成する。例えば、ユーザが指定したキーワードに類似する類似度が一定値を超える単語(第1の単語群)をノードとし、ユーザが指定したキーワードのノードとの間にエッジ(リレーションシップ)を定義する。同様に、第1の単語群の各単語に類似する類似度が一定値を超える単語(第2の単語群)をノードとし、第1の単語群の各単語との間にエッジを定義する。以降、同様にして、ある単語をノードとし、当該単語に類似する単語をノードとして、ノード間にエッジを定義することでグラフを生成する。
類似単語抽出モジュール2047は、この他に、ユーザが指定したキーワードに類似する類似度が高い単語から順に所定数の単語を、第1の単語群として抽出することとしてもよい。
類似単語抽出モジュール2047は、この他に、ユーザが指定したキーワードおよびカテゴリに基づいて、ユーザが指定したカテゴリに適合し、ユーザが指定したキーワードに類似する単語を抽出することとしてもよい。
描画用データ生成モジュール2048は、端末装置10に対して、端末装置10において画像を描画するためのデータを生成する。生成されたデータは、サーバ20から端末装置10に送信される。描画用データ生成モジュール2048は、類似単語抽出モジュール2047により抽出される単語群と、ユーザが指定したキーワードとの類似関係を端末装置10で描画するためのデータを生成する。また、描画用データ生成モジュール2048は、ユーザが指定したカテゴリに適合する単語であって、ユーザが指定したキーワード、第1の単語群、第2の単語群の類似の関係を示す情報を描画するためのデータを生成する。
図4は、文書データ格納装置11に記憶される各種データのデータ構造を示す図である。
テキストデータ群181は、文書データごとに、文書データに設定される各種パラメータ(属性など)を保持する。テキストデータ群181の各レコードは、項目「文書識別情報(ID)」と、項目「日時」と、項目「文書作成者」と、項目「文書分類」と、項目「文章」とを含む。
項目「文書識別情報(ID)」は、文書データ格納装置11またはサーバ20が取得する文書データそれぞれを識別するための情報である。
項目「日時」は、文書データが作成されたタイミング、または、文書データが公開されたタイミングその他の文書に関するタイミングの情報を示す。
項目「文書作成者」は、文書データにおける文書の作成者を示す。例えば、技術文書の著者、技法を公開した企業名などが、文書の作成者となり得る。
項目「文書分類」は、文書データに付与される分類を示す。例えば、文書データが特許文献である、プレスリリースである、論文として発表されたものである、SNS(Social Network Service)に投稿されたものである等、どのようにして公開されたものであるかによって分類することとしてもよい。また、文書データがアンケートによって得られた内容を示すものである、事業会社内で研究開発が行われることで得られたものである等、どのようにして文書データが作成されたものであるかによって分類することとしてもよい。
項目「文章」は、文書データに含まれる文章を示す。
単語リスト182は、各単語について、単語間の類似度を演算するためのパラメータと、各単語に設定されるカテゴリとを保持する。単語リスト182の各レコードは、項目「単語」と、項目「単語ベクトル」と、項目「第1カテゴリ」と、項目「第2カテゴリ」とを含む。
項目「単語」は、文書データに基づき抽出される各単語を示す。
項目「単語ベクトル」は、各単語について、単語ベクトル演算モジュール1046等により演算された意味ベクトルを示す。
項目「第1カテゴリ」は、各単語に付与されるカテゴリを示す。
項目「第2カテゴリ」は、各単語に付与されるカテゴリを示す。このように、各単語に、複数のカテゴリを定義できることとしてもよく、単語が含まれる文書データに示される情報(文書データを作成した事業者、個人、文書データの分類(技術情報、特許文献、プレスリリース等))をカテゴリに含めてもよい。例えば、項目「第2カテゴリ」には、図4に示すように、ユーザが独自に定義したカテゴリの情報が格納される。
図5は、ユーザが独自に定義するカテゴリの例を示す図である。図4に示すように、ユーザが独自に定義したカテゴリとして、カテゴリ「部品」、カテゴリ「素材」、カテゴリ「不具合」、カテゴリ「研究機関」、カテゴリ「大学」、カテゴリ「企業」、カテゴリ「研究者名」をユーザが用意している。
図4に戻ると、カテゴリ辞書183は、各単語のカテゴリを定義した辞書データであり、項目「単語」と、項目「分類」とを含んでいる。
図6は、グラフ構造データベース284のデータ構造を概念的に示す図である。上記のように、グラフ構造データベース284は、各単語をノードとし、単語間の類似度をエッジとしたグラフ型のデータベースである。
<動作>
サーバ20にグラフ構造データベース284を保持させるための各装置の動作について説明する。
図7は、文書データ格納装置11が、サーバ20に、単語間の類似関係を示す情報を、グラフ型のデータ構造を有するデータベースとして保持させる処理を示すフローチャートである。
ステップS701において、文書データ格納装置11は、大量の文書データを含むテキストデータ群181に対し、形態素解析を施すことにより、単語を抽出する。
ステップS703において、文書データ格納装置11は、文書データにおける各単語の共起関係に基づき、各単語の単語ベクトル(意味ベクトル)を計算する。
ステップS705において、文書データ格納装置11は、文書データ格納装置11のユーザから、1以上のキーワードと、階層の指定を受け付ける。「階層」とは、キーワードに類似する単語を特定する処理を再帰的に繰り返す回数を示す。
ステップS707において、文書データ格納装置11は、文書データ格納装置11のユーザが指定した1以上のキーワードそれぞれについて、各キーワードとの類似関係が一定の条件を満たす複数の単語を、第1の単語群として特定する。ここで、キーワードとの類似関係が一定の条件を満たす単語とは、キーワードとの類似度が一定値を超える単語であることとしてもよい。また、キーワードとの類似関係が一定の条件を満たす複数の単語とは、キーワードとの類似度が高い順に各単語を並べた場合に、上位所定数までの単語であるとしてもよい。
ステップS709において、文書データ格納装置11は、第1の単語群に含まれる各単語との類似関係が一定の条件を満たす単語群を特定する。以降、ステップS705でユーザが指定された階層(または、文書データ格納装置11が予め設定した階層)に至るまで、特定された単語群の各単語との類似関係が一定の条件を満たす単語群を特定する処理を再帰的に繰り返す。例えば、予め階層として階層「2」が指定されている場合、文書データ格納装置11は、ユーザが指定したキーワードに類似する第1の単語群(階層「1」)と、第1の単語群の各単語に類似する第2の単語群(階層「2」)を特定することにより、各単語の抽出を行う。
ステップS711において、文書データ格納装置11は、ユーザが指定したキーワードと、ステップS707、S709で特定される各単語をノードとし、単語間の類似度をノード間のエッジとするデータ構造のデータを生成し、グラフ構造データベース184としてメモリ等に保持させる。
ステップS713において、文書データ格納装置11は、グラフ構造データベース184を、サーバ20に格納させるために送信する。
ステップS751において、サーバ20は、文書データ格納装置11から受信したデータを、グラフ構造データベース284として記憶部に格納させる。
次に、端末装置10のユーザの操作に応答して、単語間の類似関係を表示させるための各装置の動作について説明する。
図8は、ユーザが指定したキーワードに対し、単語間の類似関係を端末装置10に表示させる処理を示すフローチャートである。
ステップS801において、端末装置10は、端末装置10のユーザから、キーワードの指定を受け付ける。端末装置10は、キーワードに類似する単語を抽出するための階層の指定を受け付ける。なお、端末装置10は、ユーザから、複数のキーワードの指定を受け付けることとしてもよい。
ステップS851において、サーバ20は、グラフ構造データベース284を参照することにより、ユーザが指定したキーワードに対応するノードを特定し、キーワードとの類似関係が一定の条件を満たす複数の単語(第3の単語群)を抽出する。例えば、サーバ20は、ユーザが指定したキーワードとの類似度が一定値を超える単語を、ユーザが指定したキーワードに対応するノードと、当該ノードに関連付けられるエッジとに基づいて第3の単語群として特定する。また、例えば、サーバ20は、ユーザが指定したキーワードとの類似度が高い順に所定数の複数の単語を、グラフ構造データベース284を参照することにより第3の単語群として特定することとしてもよい。
ステップS855において、サーバ20は、グラフ構造データベース284を参照することにより、第3の単語群との類似関係が一定の条件を満たす複数の単語(第4の単語群)を抽出する。
ステップS859において、サーバ20は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。サーバ20は、少なくとも第3の単語群と、第4の単語群と、各単語間の類似度の情報とを含むグラフ構造のデータを、各単語のカテゴリとともに端末装置10へ応答する。
ステップS805において、端末装置10は、サーバ20から、グラフ構造のデータを受信する。端末装置10は、ユーザが指定したキーワードと、当該キーワードに類似する単語としてサーバ20に抽出される各単語とを、これら単語の類似関係がユーザに認識できる態様で描画する。端末装置10は、キーワードおよびサーバ20に抽出される各単語をノードとして、各ノードの単語に類似する単語のノードとの間にエッジを設定したグラフを描画する。端末装置10は、各単語に設定されるカテゴリに応じて、各単語に対応する各ノードの表示態様が異なるように描画する。
図9は、ユーザが指定したキーワードとカテゴリに対し、単語間の類似関係を端末装置10に表示させる処理を示すフローチャートである。図8に示す処理と比較すると、端末装置10が、ユーザから、キーワードおよびカテゴリの指定を受け付けている。
ステップS902において、端末装置10は、端末装置10のユーザから、キーワードの指定と、カテゴリの指定とを受け付ける。端末装置10は、キーワードに類似する単語を抽出するための階層の指定を受け付ける。
ステップS952において、サーバ20は、グラフ構造データベース284を参照することにより、ユーザが指定したカテゴリに適合する単語を対象とし、各単語についてユーザが指定したキーワードとの類似関係が一定の条件を満たす複数の単語(第3の単語群)を抽出する。これにより、サーバ20は、ユーザが指定したキーワードに類似する単語群として、第1階層までの単語を抽出している。
ステップS956において、サーバ20は、グラフ構造データベース284を参照することにより、ユーザが指定したカテゴリに適合する単語を対象とし、第3の単語群に含まれる各単語との類似度を、それぞれの単語について演算することにより、第3の単語群に類似する単語(第4の単語群)を抽出する。これにより、サーバ20は、ユーザが指定したキーワードに類似する単語群として、第2階層までの単語を抽出している。以降、サーバ20は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。
ステップS959において、サーバ20は、ユーザが指定した階層に達するまで、抽出した単語群に類似する単語を抽出することを繰り返す。サーバ20は、少なくとも第3の単語群と、第4の単語群と、各単語間の類似度の情報とを含むグラフ構造のデータを、各単語のカテゴリとともに端末装置10へ応答する。
ステップS905において、端末装置10は、ステップS805と同様の処理を行う。
<画面例>
図10は、端末装置10のディスプレイ14において、単語間の類似関係を表示させる画面例を示す。
図10に示すように、端末装置10は、ブラウザ等によりサーバ20と通信接続することで、ディスプレイ14に画面を表示する。当該画面は、カテゴリ選択部901と、キーワード指定部902と、階層指定部903と、制限数指定部904と、キーワード検索実行部905と、経路検索実行部906と、ノード表示態様表示部907と、グラフ表示部908とを含む。
カテゴリ選択部901は、端末装置10のユーザから、カテゴリの指定をする操作を受け付けるための領域である。図示するように、予め定められたカテゴリの候補の中から、ユーザがカテゴリを指定することとしてもよい。図示する例では、ユーザは、カテゴリ「社内」に含まれる全てのカテゴリ、および、カテゴリ「社外」に含まれるすべてのカテゴリを指定している。図8のステップS702に対応する。
カテゴリ「社内」は、単語に対して社内の情報である旨のカテゴリが付与されている単語を、抽出の対象とすることを示す。社内の情報とは、例えば、社内のリソースを使用して生成された情報であり、社内の資金、人員等を用いて実施した顧客アンケート、製品の設計書、開発した技術を記録した書面その他の情報を含む。
カテゴリ「社外」は、単語に対して社外の情報である旨のカテゴリが付与されている単語を、抽出の対象とすることを示す。例えば、他社が生成して公表した情報として、プレスリリース、他者による特許出願、他者による研究論文、SNSに投稿された情報などがある。
キーワード指定部902は、端末装置10のユーザから、キーワードの指定を受け付けるための領域である。図示する例では、キーワードとして単語「冷蔵庫」が指定されている。
階層指定部903は、キーワードに類似する単語を抽出するための階層の数の指定をユーザから受け付けるための領域である。図8のステップS801、図9のステップS902に対応する。
制限数指定部904は、指定したキーワードに基づき、グラフに描画するノードの数の上限の指定をユーザから受け付けるための領域である。端末装置10は、サーバ20から受信した単語群の情報について、ユーザが指定した上限までのノードを描画する。例えば、ユーザが指定した階層の数(階層指定部903)、および、ユーザが指定したノードの数(制限数指定部904)に基づいて、ユーザが指定したキーワードに類似する単語を抽出する数を、階層ごとに設定してもよい。例えば、ユーザが指定したキーワードに類似する第3の単語群(第1階層)についてはM個の単語を抽出し、第3の単語群に類似する単語(第2階層)についてはN個の単語を抽出する等のように、各階層で抽出する単語数を設定するとともに、単語(ノード)の総数が、制限数指定部904で指定される数を超えないように設定することとしてもよい。このように、グラフに描画するノードの数の上限をユーザが指定する場合、サーバ20は、各階層で類似する単語を抽出するにあたり、類似度が高い単語から順に抽出することとしてもよい。例えば、制限数指定部904により指定されるノードの数の上限に基づき、ユーザが指定したキーワードに類似する第3の単語群(第1階層)についてM個の単語を抽出する場合、グラフ構造データベース284を参照することにより、キーワードとの類似度が高いものから順にM個の単語を抽出の対象とする。
キーワード検索実行部905は、単語間の類似関係を表示する処理を開始するための入力操作をユーザから受け付けるための領域である。端末装置10は、キーワード検索実行部905へのユーザの入力操作を受け付けることにより、サーバ20に対し、ステップS801等で入力されたキーワードを送信する。これによりサーバ20がステップS851等の処理を行って、キーワードに類似する単語を抽出する。
経路検索実行部906は、ノード間に設定されるエッジ(リレーションシップ)の検索をする操作をユーザから受け付けるための領域である。端末装置10は、例えば、グラフ表示部908に含まれる各ノードのうち、複数のノードをユーザが指定した場合に、指定されたノード間の経路を検索することができる。また、ノード間のエッジにパラメータを設定する場合に(例えば、エッジにカテゴリを付与すること、ノード間の類似度をエッジのパラメータとして設定すること等ができる)、所定のパラメータを有するエッジ(例えば、類似度が一定以上のエッジ)を特定することができる。
ノード表示態様表示部907は、グラフ表示部908に表示されるノードのカテゴリを視覚的にユーザに示すための領域である。図示する例では、ノードのカテゴリとして、カテゴリ「社内」とカテゴリ「社外」のうち、カテゴリ「社内」のみが設定されているものを、ノードを表す円の外周が強調されたものとして示している。また、図示する例では、ノードのカテゴリとして、カテゴリ「社外」のみが設定されているものを、ノードを表す円の外周が点線で表されたものとして示している。また、図示する例では、ノードのカテゴリとして、カテゴリ「社内」およびカテゴリ「社外」」の両方が設定されているものを、ノードを表す円の外周が実線で表されたものとして示している。これにより、各ノードが、カテゴリ「社内」とカテゴリ「社外」の両方が付与されたものであるか、カテゴリ「社内」のみが付与されたものであるか、カテゴリ「社外」のみが付与されたものであるかを、ユーザに対して視覚的に提示することができる。ユーザは、これら各ノードの表示態様を参照することで、各単語が、社内の知見として蓄積されたものであるか、社内にはなく社外の知見として蓄積されたものであるか、あるいはその両方で社内および社外の知見として蓄積されたものであるかを容易に確認することができる。これにより、例えば、研究開発のテーマとして、ユーザにとって知見の蓄積が薄い分野の示唆を得ることができ、カテゴリ「社外」が付与された単語に基づき文書を検索することで、文書の作成者、著者等を特定し、コンタクトをとるきっかけを得ることができる。
グラフ表示部908は、サーバ20が抽出した単語群を、これら単語の類似関係を視覚化したグラフとして描画する領域である。図示するように、各ノードを円形で表現し、各ノードと、これら各ノードの単語に類似する単語のノードとの間にエッジを描画している。グラフ表示部908において、ユーザが指定したキーワードを、キーワード表示部909に表示している。図示する例では、グラフに含まれるノードの全てをディスプレイ14に表示しておらず、一部の表示にとどまっている。グラフ表示部908は、グラフを表示する範囲を拡大縮小するための操作を受け付けるボタン(「拡大ボタン」および「縮小ボタン」)も含む。
<付記>
以上の実施形態で説明した事項を以下に付記する。
(付記1)
ユーザ端末(10)からの解析の要求に対して解析結果を応答するサーバ装置(20)にデータを保持させるための情報処理装置(11)が提供される。当該情報処理装置(11)は、プロセッサと、メモリとを備え、プロセッサが、解析の対象となる文書データ(181)に含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップ(S707)と、第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップ(S709)と、少なくとも第1の単語群の各単語と、第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、サーバ装置の記憶部に保持させる第3のステップ(S713)と、を実行する。
(付記2)
プロセッサは、第1のキーワードの指定を受け付ける第4のステップ(S705)をさらに実行し、第1のステップ(S707)は、文書データに含まれる複数の単語のうち、指定された第1のキーワードと類似する度合に基づいて、第1の単語群を特定する、(付記1)に記載の情報処理装置。
(付記3)
第1のステップ(S707)は、複数の単語のうち、指定されたキーワードと類似する度合が高い順から所定数の第1の単語群を特定すること、または、指定されたキーワードと類似する度合が一定値を超える第1の単語群を特定することの少なくともいずれかを行う、(付記2)に記載の情報処理装置。
(付記4)
第3のステップ(S713)は、各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース(184、284)をサーバ装置(20)の記憶部に記憶させる、(付記1)から(付記3)のいずれかに記載の情報処理装置。
(付記5)
サーバ装置(20)に記憶されるグラフ構造のデータベース(284)は、サーバ装置が、ユーザ端末(10)からの解析の要求に含まれる第2のキーワード(S801)に基づいて、当該グラフ構造のデータベースを参照することにより、当該第2のキーワードとの類似関係が第1の条件を満たす第3の単語群を特定し(S851)、第3の単語群の各単語との類似関係が第2の条件を満たす第4の単語群を特定し(S855)、少なくとも(1)第3の単語群の各単語、(2)第4の単語群の各単語、(3)第2のキーワードと第3の単語群の各単語との類似関係を示す情報、(4)第3の単語群の各単語と第4の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答する(S859)ために用いられるものである、(付記1)から(付記4)のいずれかに記載の情報処理装置。
(付記6)
情報処理装置は、さらに、文書データに含まれる各単語を抽出して、それぞれの単語間の類似度を演算可能なパラメータを、抽出した各単語について演算する第5のステップ(S701、S703)を実行し、単語間の類似関係を示す情報は、各単語のパラメータに基づいて算出されるパラメータである、(付記1)から(付記5)のいずれかに記載の情報処理装置。
(付記7)
ユーザ端末(10)からの解析の要求に対して解析結果を応答するサーバ装置(20)が提供される。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース(284)を記憶部に記憶しており、ユーザ端末から、キーワードを特定する情報を受け付けるステップ(S801、S851)と、受け付けたキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、キーワードとの類似関係が第3の条件を満たす第5の単語群を特定するステップ(S851)と、当該第5の単語群の各単語との類似関係が第4の条件を満たす第6の単語群を特定するステップ(S855)と、少なくとも(1)第5の単語群の各単語、(2)第6の単語群の各単語、(3)キーワードと第5の単語群の各単語との類似関係を示す情報、(4)第5の単語群の各単語と第6の単語群の各単語との類似関係を示す情報をユーザ端末に対して応答するステップ(S859)と、を行う。
(付記8)
サーバ装置は、ユーザ端末に、第5の単語群の各単語、および、第6の単語群の各単語をノードとし、単語間の類似関係を示す情報をエッジとしたグラフを描画させ、描画されたグラフをユーザ端末のモニタに表示させる(S805)、(付記7)に記載のサーバ装置。
(付記9)
ユーザの操作に応じて、解析の対象となる文書データに対してサーバ装置に解析を要求するためのユーザ端末(10)が提供される。ユーザ端末は、プロセッサ(19)と、メモリ(15、16)とを備える。サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベース(284)を記憶部に記憶している。プロセッサは、ユーザから、キーワードを指定する操作を受け付けるステップ(S801、S902)と、指定されたキーワードに基づいて、サーバ装置に、当該グラフ構造のデータベースを参照させることにより、キーワードとの類似関係が第3の条件を満たす第5の単語群を特定するステップ(S851)と、当該第5の単語群の各単語との類似関係が第4の条件を満たす第6の単語群を特定するステップ(S855)と、少なくとも(1)第5の単語群の各単語、(2)第6の単語群の各単語、(3)キーワードと第5の単語群の各単語との類似関係を示す情報、(4)第5の単語群の各単語と第6の単語群の各単語との類似関係を示す情報をサーバ装置から受信するステップ(S859、S805)と、サーバ装置から受信した情報に基づいて、第5の単語群の各単語、および、第6の単語群の各単語をノードとし、単語間の類似関係を示す情報をエッジとしたグラフを描画してユーザに提示するステップ(S805)と、を行う。
10 端末装置、11 文書データ格納装置、12 通信IF、13 入力装置、14 ディスプレイ、15 メモリ、16 ストレージ、19 プロセッサ、20 サーバ、22 通信IF、23 入出力IF、25 メモリ、26 ストレージ、29 プロセッサ、80 ネットワーク、181 テキストデータ群、182 単語リスト、183 カテゴリ辞書、184 グラフ構造データベース、281 テキストデータ群、282 単語リスト、283 カテゴリ辞書、284 グラフ構造データベース、901 カテゴリ選択部、902 キーワード指定部、903 階層指定部、904 制限数指定部、905 キーワード検索実行部、906 経路検索実行部、907 ノード表示態様表示部、908 グラフ表示部、909 キーワード表示部。

Claims (11)

  1. ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるための情報処理装置であって、当該情報処理装置は、プロセッサと、メモリとを備え、前記プロセッサが、
    解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、
    前記第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、
    少なくとも前記第1の単語群の各単語と、前記第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、前記サーバ装置の記憶部に保持させる第3のステップと、を実行する、情報処理装置。
  2. 前記プロセッサは、第1のキーワードの指定を受け付ける第4のステップをさらに実行し、
    前記第1のステップは、前記文書データに含まれる複数の単語のうち、前記指定された第1のキーワードと類似する度合に基づいて、前記第1の単語群を特定する、請求項1に記載の情報処理装置。
  3. 前記第1のステップは、前記複数の単語のうち、前記指定されたキーワードと類似する度合が高い順から所定数の前記第1の単語群を特定すること、または、前記指定されたキーワードと類似する度合が一定値を超える前記第1の単語群を特定することの少なくともいずれかを行う、請求項2に記載の情報処理装置。
  4. 前記第3のステップは、各単語をノードとし、前記単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを前記サーバ装置の前記記憶部に記憶させる、請求項1から3のいずれかに記載の情報処理装置。
  5. 前記サーバ装置に記憶される前記グラフ構造のデータベースは、
    前記サーバ装置が、
    前記ユーザ端末からの解析の要求に含まれる第2のキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、当該第2のキーワードとの類似関係が第1の条件を満たす第3の単語群を特定し、
    前記第3の単語群の各単語との類似関係が第2の条件を満たす第4の単語群を特定し、
    少なくとも(1)前記第3の単語群の各単語、(2)前記第4の単語群の各単語、(3)前記第2のキーワードと前記第3の単語群の各単語との類似関係を示す情報、(4)前記第3の単語群の各単語と前記第4の単語群の各単語との類似関係を示す情報を前記ユーザ端末に対して応答するために用いられるものである、請求項1から4のいずれかに記載の情報処理装置。
  6. 前記情報処理装置は、さらに、
    前記文書データに含まれる各単語を抽出して、それぞれの単語間の類似度を演算可能なパラメータを、前記抽出した各単語について演算する第5のステップを実行し、
    前記単語間の類似関係を示す情報は、各単語の前記パラメータに基づいて算出されるパラメータである、請求項1から5のいずれかに記載の情報処理装置。
  7. ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置であって、
    前記サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、前記単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶しており、
    前記ユーザ端末から、キーワードを特定する情報を受け付けるステップと、
    前記受け付けたキーワードに基づいて、当該グラフ構造のデータベースを参照することにより、前記キーワードとの類似関係が第3の条件を満たす第5の単語群を特定するステップと、
    当該第5の単語群の各単語との類似関係が第4の条件を満たす第6の単語群を特定するステップと、
    少なくとも(1)前記第5の単語群の各単語、(2)前記第6の単語群の各単語、(3)前記キーワードと前記第5の単語群の各単語との類似関係を示す情報、(4)前記第5の単語群の各単語と前記第6の単語群の各単語との類似関係を示す情報を前記ユーザ端末に対して応答するステップと、を行う、サーバ装置。
  8. 前記サーバ装置は、
    前記ユーザ端末に、前記第5の単語群の各単語、および、前記第6の単語群の各単語をノードとし、単語間の前記類似関係を示す情報をエッジとしたグラフを描画させ、前記描画されたグラフを前記ユーザ端末のモニタに表示させる、請求項7に記載のサーバ装置。
  9. ユーザの操作に応じて、解析の対象となる文書データに対してサーバ装置に解析を要求するためのユーザ端末であって、前記ユーザ端末は、プロセッサと、メモリとを備え、
    前記サーバ装置は、解析の対象となる文書データに含まれる複数の単語について、その一部の各単語をノードとし、前記単語間の類似関係を示す情報を、各単語に対応するノード間のエッジとして定義したグラフ構造のデータベースを記憶部に記憶しており、
    前記プロセッサは、前記ユーザから、キーワードを指定する操作を受け付けるステップと、
    前記指定されたキーワードに基づいて、前記サーバ装置に、前記当該グラフ構造のデータベースを参照させることにより、前記キーワードとの類似関係が第3の条件を満たす第5の単語群を特定するステップと、
    当該第5の単語群の各単語との類似関係が第4の条件を満たす第6の単語群を特定するステップと、
    少なくとも(1)前記第5の単語群の各単語、(2)前記第6の単語群の各単語、(3)前記キーワードと前記第5の単語群の各単語との類似関係を示す情報、(4)前記第5の単語群の各単語と前記第6の単語群の各単語との類似関係を示す情報を前記サーバ装置から受信するステップと、
    前記サーバ装置から受信した情報に基づいて、前記第5の単語群の各単語、および、前記第6の単語群の各単語をノードとし、単語間の前記類似関係を示す情報をエッジとしたグラフを描画して前記ユーザに提示するステップと、を行う、ユーザ端末。
  10. ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置が行う方法であって、当該コンピュータ装置は、プロセッサと、メモリとを備え、前記方法は、前記プロセッサが、
    解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、
    前記第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、
    少なくとも前記第1の単語群の各単語と、前記第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、前記サーバ装置の記憶部に保持させる第3のステップと、を実行することを含む、方法。
  11. ユーザ端末からの解析の要求に対して解析結果を応答するサーバ装置にデータを保持させるコンピュータ装置を動作させるためのプログラムであって、当該コンピュータ装置は、プロセッサと、メモリとを備え、前記プログラムは、前記プロセッサに、
    解析の対象となる文書データに含まれる複数の単語のうち、所定の規則に基づいて第1の単語群を特定する第1のステップと、
    前記第1の単語群の各単語に対し、単語間の類似度に基づき所定の条件を満たす第2の単語群を特定する第2のステップと、
    少なくとも前記第1の単語群の各単語と、前記第2の単語群の各単語と、これら各単語間の類似関係を示す情報とを関連付けて、前記サーバ装置の記憶部に保持させる第3のステップと、を実行させることを含む、プログラム。

JP2019131301A 2019-07-16 2019-07-16 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム Active JP6887002B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019131301A JP6887002B2 (ja) 2019-07-16 2019-07-16 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
JP2021083246A JP2021120905A (ja) 2019-07-16 2021-05-17 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019131301A JP6887002B2 (ja) 2019-07-16 2019-07-16 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021083246A Division JP2021120905A (ja) 2019-07-16 2021-05-17 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021015562A true JP2021015562A (ja) 2021-02-12
JP6887002B2 JP6887002B2 (ja) 2021-06-16

Family

ID=74531611

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019131301A Active JP6887002B2 (ja) 2019-07-16 2019-07-16 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
JP2021083246A Pending JP2021120905A (ja) 2019-07-16 2021-05-17 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021083246A Pending JP2021120905A (ja) 2019-07-16 2021-05-17 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム

Country Status (1)

Country Link
JP (2) JP6887002B2 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム
JP2007317070A (ja) * 2006-05-29 2007-12-06 Itochu Techno-Solutions Corp トポロジーグラフ表示システムおよびコンピュータプログラム
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2015007920A (ja) * 2013-06-25 2015-01-15 国立大学法人鳥取大学 テキスト処理を用いた社会構造モデルの抽出
JP2015041386A (ja) * 2013-08-23 2015-03-02 ネイバー コーポレーションNAVER Corporation セマンティックデプス構造基盤の検索語提示システムおよび方法
US20180113933A1 (en) * 2016-10-24 2018-04-26 Google Inc. Systems and methods for measuring the semantic relevance of keywords
JP2019061490A (ja) * 2017-09-26 2019-04-18 株式会社日立製作所 業務支援システムおよび業務支援方法
JP2019532219A (ja) * 2016-08-31 2019-11-07 8 リバーズ キャピタル,エルエルシー イオン輸送部材を備える電力生成のためのシステムおよび方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152468A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 文書検索装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2005122665A (ja) * 2003-10-20 2005-05-12 Sony Corp 電子機器装置、関連語データベースの更新方法、プログラム
JP2007317070A (ja) * 2006-05-29 2007-12-06 Itochu Techno-Solutions Corp トポロジーグラフ表示システムおよびコンピュータプログラム
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2015007920A (ja) * 2013-06-25 2015-01-15 国立大学法人鳥取大学 テキスト処理を用いた社会構造モデルの抽出
JP2015041386A (ja) * 2013-08-23 2015-03-02 ネイバー コーポレーションNAVER Corporation セマンティックデプス構造基盤の検索語提示システムおよび方法
JP2019532219A (ja) * 2016-08-31 2019-11-07 8 リバーズ キャピタル,エルエルシー イオン輸送部材を備える電力生成のためのシステムおよび方法
US20180113933A1 (en) * 2016-10-24 2018-04-26 Google Inc. Systems and methods for measuring the semantic relevance of keywords
JP2019061490A (ja) * 2017-09-26 2019-04-18 株式会社日立製作所 業務支援システムおよび業務支援方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王 玉馨 外3名: "単語類似度ネットワークを通じた自動同義語獲得", 情報処理学会研究報告, vol. 第2008巻第46号, JPN6020039475, 15 May 2008 (2008-05-15), JP, pages 7 - 14, ISSN: 0004368392 *

Also Published As

Publication number Publication date
JP2021120905A (ja) 2021-08-19
JP6887002B2 (ja) 2021-06-16

Similar Documents

Publication Publication Date Title
EP3929769A1 (en) Information recommendation method and apparatus, electronic device, and readable storage medium
Roll et al. Using machine learning to disentangle homonyms in large text corpora
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
US20180330231A1 (en) Entity model establishment
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
Tabak et al. Comparison of emotion lexicons
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
Ye et al. Geospatial and semantic mapping platform for massive COVID-19 scientific publication search
WO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
JP2019200449A (ja) 案件振分支援システム、案件振分支援装置、及び案件振分支援方法
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
JP2017072964A (ja) 情報分析装置及び情報分析方法
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
KR20220068793A (ko) Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법
CN109213830B (zh) 专业性技术文档的文档检索系统
JP6887002B2 (ja) 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
Kadir et al. Text analysis on health product reviews using r approach
KR101067830B1 (ko) 다중 자원의 통합에 의한 자원 검색 장치 및 방법
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method
Izo et al. Named entities as a metadata resource for indexing and searching information
JP2019197459A (ja) 案件振分支援システム、案件振分支援装置、及び案件振分支援方法
JP2019149102A (ja) 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム
JP2011248827A (ja) 言語横断型情報検索方法、言語横断型情報検索システム及び言語横断型情報検索プログラム
Mohammadi et al. Web Content Extraction by Weighing the Fundamental Contextual Rules

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200413

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210517

R150 Certificate of patent or registration of utility model

Ref document number: 6887002

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250