JP5218409B2 - 関連情報検索システム及び関連情報検索方法 - Google Patents

関連情報検索システム及び関連情報検索方法 Download PDF

Info

Publication number
JP5218409B2
JP5218409B2 JP2009526445A JP2009526445A JP5218409B2 JP 5218409 B2 JP5218409 B2 JP 5218409B2 JP 2009526445 A JP2009526445 A JP 2009526445A JP 2009526445 A JP2009526445 A JP 2009526445A JP 5218409 B2 JP5218409 B2 JP 5218409B2
Authority
JP
Japan
Prior art keywords
unknown word
related information
unknown
paraphrase
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009526445A
Other languages
English (en)
Other versions
JPWO2009020092A1 (ja
Inventor
享 赤峯
俊夫 竹田
淑子 松川
聡 中澤
剛巨 河合
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009526445A priority Critical patent/JP5218409B2/ja
Publication of JPWO2009020092A1 publication Critical patent/JPWO2009020092A1/ja
Application granted granted Critical
Publication of JP5218409B2 publication Critical patent/JP5218409B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、関連情報検索システム及び関連情報検索方法に関し、特に、テキストデータに含まれるユーザにとって未知である未知語に対して、未知語に関連する関連情報を検索する関連情報検索システム及び関連情報検索方法に関する。
会議の際に、発言中や資料中に意味が分からない単語や表現が含まれるため、何について発言しているのかや、資料に何が書かれているのかが正確に理解できないことがある。その場合、意味が分からない単語や表現を、辞書、過去の会議の資料、又はインターネット上の情報から検索して関連情報を提示することができれば、会議内容の理解に大きな助けとなる。
しかしながら、関連情報を提示するためには、意味が分からない語である不明語(未知語)を抽出し、辞書や過去の会議資料、インターネット上の情報等の複数の検索対象に対して検索を行い、検索結果から必要な関連情報を選び出す必要がある。この不明語に対する関連情報検索のための一連の作業は作業コストが高いので、意味が分からない不明語の関連情報を検索せずに分からないままにしておくことが多い。また、コストをかけて会議中に関連情報の検索を行おうとすると、会議に集中できず、会議の話題についていけない等の問題も生じる。
この不明語に対する関連情報検索のための作業コストを低減するための関連する情報検索手段の一例が、特開2004−157897号(文献1)に記載されている。この文献1に記載された情報検索手段は、インターネット上に最近出現した新語を不明語とみなすことで、不明語の抽出を自動化している。また、自動抽出した不明語に対して関連情報を検索することで、作業コストを低減している。つまり、文献1に記載された方法では、インターネット上の検索語を既知語と未知語との2値で区別し、新語のみを未知語として自動抽出する。そして、その自動抽出した未知語を検索することで作業コストを低減している。
また、特開平9−204418号(文献2)では、用語に対する利用者の理解度を履歴として蓄積し知識管理手段を用いて管理することで、利用者に対して用語の理解度に応じた関連情報を提供している。また、この文献2に記載された知識管理手段では、用語毎に理解度を履歴として記録しつづけ、関連情報を提供する毎に理解度を変化させることで、利用者の知識状態を管理している。
文献1に記載された関連技術の問題点は、不明語を入力するコストを低減することができるものの、不明語入力後の関連情報検索や情報提示の精度を向上させることができないことである。その理由は、文献1に記載された関連技術では、新語ならば不明語であり、新語でなければ不明語でないという2値によって判定しているにすぎない。そのため、不明語の種類によって、検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりすることができず、提示情報を変更することができないためである。
例えば、特に、会議等で出てくる不明語の場合、単にユーザにとって新語であるため不明語である場合に限らず、過去に参照したことがあるにもかかわらずユーザが忘れてしまったために不明語となったような単語も多く含まれる。その場合、インターネット上の汎用的な情報を提示するのではなく、ユーザの記憶に近い、過去にアクセスした文書を提示できるようにすることが有効である。しかし、文献1に記載された関連技術では、ユーザが過去にアクセスした文書を提示することについては考慮されていない。
一方、不明語入力後の関連情報検索や情報提示の精度を向上できるようにする関連技術が、例えば、文献2に記載されている。文献2に記載された関連技術では、履歴として蓄積する利用者の理解度を利用して検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりする。そのため、文献2に記載された関連技術を用いれば、不明語入力後の関連情報検索や情報提示の精度をある程度向上させることができる。しかし、文献2に記載された関連技術を用いる場合、利用者の理解度を求めるため、過去の利用者の理解度を蓄積して管理しなければならない。例えば、利用者に適切な関連情報を提供するために、システムは、過去の利用者の理解度を記憶する記憶装置を備えなければならず、利用者の理解度を履歴として管理するためのコストがかかる。また、理解度の蓄積が行われていないユーザに対しては、適切な関連情報を提供することはできない。
そこで、本発明は、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる関連情報検索システム及び関連情報検索方法を提供することを目的とする。
本発明による関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段と、テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、検索手段により検索された関連情報を提示する提示手段とを備え、分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段と、言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段とを備え、検索手段は、分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する。
本発明による関連情報検索方法は、テキスト入力手段が、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、分類手段が、入力されたテキストデータに基づいて、未知語を分類するステップと、検索手段が、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、提示手段が、検索された関連情報を提示するステップとを備え、分類するステップは、言い換え表現判定手段が、入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、第2のカテゴリ分類手段が、判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップとを備え、検索するステップは、検索手段が、分類手段によって検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える。
本発明によれば、未知語及び既知語の少なくとも一方が全て指定されたテキストデータに基づいて未知語を分類し、未知語の分類結果に基づいて未知語に関連する関連情報を検索するように構成されているので、未知語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。
図1は、本発明による関連情報検索システムの構成の一例を示すブロック図である。 図2は、関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理の一例を示す流れ図である。 図3は、第2の実施形態における関連情報検索システムの構成例を示すブロック図である。 図4は、第2の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。 図5は、第3の実施形態における関連情報検索システムの構成例を示すブロック図である。 図6は、第3の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。 図7A−図7Cは、関連資料の優先度を加算した不明語に対する関連情報の検索結果のランキングの例を示す説明図である。
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による関連情報検索システムの構成の一例を示すブロック図である。本実施形態では、関連情報検索システムは、会議や講演の発言や資料等に含まれる、聞き手若しくは読み手にとって不明な単語や表現に関連する情報を検索する。
なお、本実施形態において、関連情報検索システムは、不明語からその意味や関連情報を検索する情報検索装置や、情報検索装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能をテレビ会議やWeb会議等を行う場合に応用した会議支援装置や、会議支援装置をコンピュータを用いて実現するためのプログラムといった用途にも適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種学習情報を検索する場合に応用した学習支援装置の用途や、学習支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種文章読解や外国語の翻訳を行なう場合に応用した読解支援装置の用途や、読解支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。
図1に示すように、関連情報検索システムは、プログラム制御により動作するパーソナルコンピュータ等のデータ処理装置1によって実現される。また、データ処理装置1は、入力部11と、不明語分類部12と、関連情報検索部13と、関連情報提示部14とを含む。これらの機能部は、それぞれ概略以下に示すように動作する。
入力部11は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びキーボードやマウス等の入力装置によって実現される。入力部11は、ユーザの操作に従って、ユーザにとって未知である未知語(以下、不明語ともいう)、又はユーザにとって既知である既知語が全て指定されたテキストデータを入力する機能を備える。入力部11は、不明語と既知語の両方が全て指定されたテキストデータを入力する機能を備えていてもよい。また、入力部11は、ユーザの操作に従って、不明語の検索指示を入力する機能を備える。
本実施形態では、例えば、不明語の種類として、ユーザが全く理解できない分野の単語、ユーザの既知の分野であるがユーザにとって未知である未知語、正式名では理解できるが略語では理解できない語等がある。また、検索対象の不明語に対する関連情報として検索される情報には、略語の正式名称への言い換え辞書の辞書情報、単語の意味を記した辞書の辞書情報、過去に使われた関連資料、インターネット上の情報等がある。
また、テキストデータとは、例えば、会議資料の文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータとは、例えば、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲のテキストである。なお、テキストデータは、例えば、会議の発言の音声を音声認識したテキストであってよい。この場合、会議における発言全体の音声を音声認識したテキストであってもよく、特定の話者の発言の音声を音声認識したテキストであってもよい。また、一定時間内の発言の音声を音声認識したテキストであってもよい。
本実施形態では、入力対象のテキストデータは、ユーザの操作に従って、そのテキストデータに含まれる全ての語について、未知語又は既知語が予め指定されているものとする。なお、テキストデータは、会議資料等の文書全体又は一部について未知語又は既知語が指定されていてもよいし、複数の文書にまたがって含まれる文字や文字列を1つのテキストデータとみなして未知語又は既知語が指定されていてもよい。
なお、テキストデータは、少なくとも、テキストデータに含まれている全ての語についてユーザによって予めチェックされていれば、未知語及び既知語の両方が予め指定されていてもよく、未知語又は既知語のいずれかが予め指定されていてよい。例えば、テキストデータにおいて未知語のみが指定されている場合、関連情報検索システムは、未知語と指定されている語以外の語を既知語とみなして処理を実行すればよい。また、例えば、テキストデータにおいて既知語のみが指定されている場合、関連情報検索システムは、既知語と指定されている語以外の語を未知語とみなして処理を実行すればよい。
また、入力部11は、文書中又は文書群中のユーザによって指定された範囲を1つのテキストデータとして入力してもよいし、文書又は文書群を所定区間毎に(例えば、1ページ毎に、1文書毎に)自動的に抽出して1つのテキストデータとしてもよい。
不明語分類部12は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語分類部12は、入力部11から不明語の検索指示及びテキストデータを入力すると、入力したテキストデータに基づいてユーザの知識を推定する機能を備える。また、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を複数の種類に分類する機能を備える。
なお、不明語分類部12は、例えば、テキストデータ中に含まれる不明語の密度を示す不明語密度に基づいて、ユーザの知識を推定し不明語を分類する。また、不明語分類部12は、例えば、テキストデータ中に含まれるある不明語に対して、言い換え語が存在するか否かを判定し、その言い換え語も不明語であるか否かを判定することによって、ユーザの知識を推定し不明語を分類する。
関連情報検索部13は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。関連情報検索部13は、不明語分類部12による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する機能を備える。この場合、関連情報検索部13は、不明語分類部12が求めた不明語の分類結果を用いて、不明語に対する検索対象の関連情報を選択する。そして、関連情報検索部13は、選択した関連情報の検索を行う。この場合、例えば、関連情報検索部13は、不明語の分類結果に基づいて、検索対象の関連情報を変更し、関連情報の検索を行う。なお、関連情報検索部13は、不明語に対して1つの関連情報を検索してもよいし、複数の関連情報を検索してもよい。
関連情報検索部13は、検索対象の関連情報として、例えば、予め蓄積する文書ファイルや辞書ファイル、インターネット上のWebサイトの情報等を検索する。また、関連情報検索部13は、検索対象の関連情報として、不明語の説明の詳細度を用いて、説明が詳細である文書ファイル、又は説明が簡単である文書ファイルを区別して検索してもよい。説明の詳細度として、関連情報検索部13は、例えば、不明語が文書の題名や章、節のタイトルに含まれる場合には、文章全体を詳細な説明として検索することができる。また、不明語に対して括弧書きで説明が含まれる場合や、不明語が1行で定義されている場合等には、その文書を簡単な説明として検索することができる。 また、関連情報検索部13は、例えば、辞書等の定義文の長さにより区別して、関連情報を検索してもよい。
また、関連情報検索部13は、不明語の分類結果の組み合わせに対して検索対象を設定する所定のルールによって、検索対象の関連情報を設定してもよい。この場合、関連情報検索部13は、検索対象の関連情報を、ルールで指定した適切な検索対象の関連情報に決定することができる。
関連情報提示部14は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びディスプレイ装置等の出力装置によって実現される。関連情報提示部14は、検索結果の関連情報を提示する機能を備える。この場合、例えば、関連情報提示部14は、関連情報検索部13が検索した関連情報を、ディスプレイ装置等の表示装置に表示する。なお、関連情報提示部14は、関連情報検索部13が検索した関連情報が複数ある場合には、所定のルールに従って、関連情報をランキングして表示してもよい。
なお、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を、プリンタ等の印刷装置に出力するようにしてもよい。また、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を電子データとして出力するようにしてもよい。
また、本実施形態において、データ処理装置1の記憶装置(図示せず)は、テキストデータに含まれる不明語(未知語)に関連する関連情報を検索するための各種プログラムを記憶している。例えば、データ処理装置1の記憶装置は、コンピュータに、未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、入力したテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類するステップと、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、検索した関連情報を提示するステップとを実行させるための関連情報検索用プログラムを記憶している。この関連情報検索用プログラムは、磁気ディスクや光ディスクなどの、機械読み取り可能な記録媒体に記録された状態で提供することができる。インターネットなどの電気通信回線を通じて提供することもできる。
次に、動作について説明する。図2は、関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理の一例を示す流れ図である。図2に示すように、関連情報検索システムの入力部11は、まず、ユーザの操作に従って、未知語(不明語)又は既知語が全て指定されたテキストデータを入力する(ステップS10)。
次に、不明語分類部12は、入力したテキストデータに基づいて、ユーザの知識を推定する。そして、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を分類する(ステップS11)。
次に、関連情報検索部13は、不明語の分類結果に従って、検索対象の関連情報を決定し関連情報を検索する(ステップS12)。そして、関連情報提示部14は、検索した関連情報をディスプレイ装置等の表示装置に表示する(ステップS13)。
以上のように、本実施形態によれば、関連情報検索システムは、入力したテキストデータに基づいて不明語を分類する。そして、分類した不明語の種別に従って、検索対象の関連情報を変更したり、ランキングして表示したりする。そのため、不明語の分類に従って自動的に検索対象の不明語に対する関連情報を選択し、検索する関連情報をランキングすることができる。従って、ユーザに不明語に対する関連情報を提示するためのユーザの作業コストを削減することができる。
また、本実施形態によれば、予めユーザの知識の履歴情報を蓄積しなくても、入力したテキストデータに基づいてユーザの知識を推定して関連情報を検索できるので、コストをかけることなく、関連情報を提供することができる。従って、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。
例えば、特開平9−204418号公報に記載された関連技術では、関連情報検索や情報提示の精度を向上させるために、過去のユーザの理解度(知識)を示す履歴情報をデータベース等に蓄積しなければならず、履歴情報を管理するためのコストや管理負担が大きい。これに対し、本実施形態によれば、過去のユーザの知識の履歴情報を蓄積する必要をなくすることができるので、コストをかけることなく、関連情報を提供することができる。
また、本実施形態によれば、過去の履歴情報によることなく、未知語又は既知語が指定されたテキストデータに基づいて関連情報を検索するので、未知語に限らず、ユーザが現在の段階で知りたい語に対しても関連情報を検索して提示することができる。例えば、現在の段階で知りたい語を未知語としてテキストデータ上で指定すれば、未知語に対する関連情報だけでなく、意味を再確認したい語等の現在の段階で知りたい語に対しても関連情報を検索して提示することができる。
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、不明語密度に基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。
図3は、第2の実施形態における関連情報検索システムの構成例を示すブロック図である。図3に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Aが不明語密度解析部121及びカテゴリ分類部122を含む点で、第1の実施形態と異なる。
不明語密度解析部121及びカテゴリ分類部122は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語密度解析部121は、入力部11が入力したテキストデータに基づいて、テキストデータ中の不明語の数から、テキストデータ中に含まれる不明語の密度を示す不明語密度を計算する機能を備える。
カテゴリ分類部122は、不明語密度解析部121が求めたテキストデータ中の不明語密度に基づいて、不明語を複数のカテゴリに分類する機能を備える。本実施形態では、不明語を不明語密度に基づいて、不明語密度が高いカテゴリ(第1のカテゴリ)と不明語密度が低いカテゴリ(第2のカテゴリ)とに分類する。不明語密度の高低は、例えば、不明語密度が所定の閾値より大きいか否かで区分できる。
本実施形態では、不明語密度による分類結果に基づいて検索対象の関連情報を選択することで、読み手(ユーザ)に不明語についての適切な説明を提供することができる。例えば、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が高ければ、テキストデータに含まれる文書の内容が、読み手(ユーザ)が詳しくない分野の内容であると判断できる。この場合、不明語分類部12Aは、不明語に対して詳細な説明を含む文章や、詳細な説明が書かれた専門用語辞書を、優先度を上げて検索対象の関連情報として選択する。そのようにすることで、読み手に詳しい説明を提供することができる。
また、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が低ければ、テキストデータに含まれる文書の内容が、読み手にとってある程度理解できる分野の内容であると判断できる。そのため、不明語分類部12Aは、不明語に対して簡単な説明を含む文章や、文書中の簡単な説明部分だけを、検索対象の関連情報として選択する。また、不明語分類部12Aは、略語辞書等の簡単な説明を、検索対象の関連情報として選択する。ここでいう「簡単な説明」は、上記の「詳細な説明」を所定量の説明とすると、その所定量よりも簡潔な説明と捉えることができる。
なお、不明語密度解析部121は、不明語密度として、不明語の数を文章中の全単語数で除算した値を求めてもよい。また、不明語密度解析部121は、テキストデータ中の不明語の数をそのまま不明語密度として利用してもよい。
次に、動作について図面を参照して説明する。図4は、第2の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図4において、ステップS10の処理は、第1の実施形態で示した処理と同様である。
次に、不明語分類部12Aの不明語密度解析部121は、入力したテキストデータに基づいて、テキストデータの文字列中の不明語密度を計算する(ステップS111A)。次に、不明語分類部12Aのカテゴリ分類部122は、不明語密度解析部121が求めた不明語密度に基づいて、不明語を分類する(ステップS112A)。この場合、例えば、カテゴリ分類部122は、不明語密度解析部121が求めた不明語密度が所定の閾値より大きいか否かを判定する。
不明語密度が高いと判断した場合には、関連情報検索部13は、不明語に対して詳細な説明を含む関連情報を検索する(ステップS121A)。また、不明語密度が低いと判断した場合には、関連情報検索部13は、不明語に対して簡潔な説明を含む関連情報を検索する(ステップS122A)。
なお、図4において、ステップS13の処理は、第1の実施形態で示した処理と同様である。
以上のように、本実施形態によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。
実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、ある不明語に対する言い換え語もユーザにとって不明語であるか否かに基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。
図5は、第3の実施形態における関連情報検索システムの構成例を示すブロック図である。図5に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Bが言い換え表現既知判定部123及びカテゴリ分類部124を含む点で、第1の実施形態と異なる。また、関連情報検索システムが、略語辞書等の言い換え用辞書3を含む点で、第1の実施形態と異なる。
言い換え辞書3は、例えば、略語辞書やカタカナ語辞書等である。言い換え辞書3は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置に記憶される。また、例えば、言い換え辞書3は、データ処理装置1が内蔵するハードディスク装置に記憶されていてもよい。
言い換え表現既知判定部123及びカテゴリ分類部124は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。言い換え表現既知判定部123は、記憶装置に記憶する言い換え辞書3に基づいて、不明語の言い換え語を抽出する機能を備える。
言い換え表現既知判定部123は、例えば、テキストデータ中に含まれる語の中に、言い換え辞書3に含まれる語に合致するものがあるか否かを判断し、テキストデータ中に含まれる言い換え語を特定する。この場合、言い換え表現既知判定部123は、テキストデータ中に不明語として指定されている語のうち、言い換え語が存在するものを特定する。また、言い換え表現既知判定部123は、その不明語に対する言い換え語がテキストデータ中に含まれているか否かを判断する。その不明語に対する言い換え語が含まれていれば、言い換え表現既知判定部123は、その言い換え語についても不明語として指定されているか否かを判定する。そのようにすることによって、言い換え表現既知判定部123は、言い換え語がユーザにとって理解できる単語か、言い換え語も不明語であるかを判定することができる。
カテゴリ分類部124は、言い換え表現既知判定部123による言い換え語が不明語であるか否かの判定結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語であるか、言い換えても不明な単語であるかを分類する機能を備える。すなわち、カテゴリ分類部124は、言い換え語が不明語であるか否かの判定結果に基づいて、不明語を、言い換え表現に置き換えることにより理解できる語のカテゴリ(第3のカテゴリ)と、言い換え表現に置き換えても理解できない語のカテゴリ(第4のカテゴリ)とに分類する。
関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語である場合には、不明語に代えて言い換え語の提示を行うことを優先する制御を行なう。そのように、言い換え語に置き換えて提示することによって、読み手が不明語について理解することができる。この場合、ユーザは用語の内容について理解しているにもかかわらず、不明語の表記に仕方によって既知の内容に直ちに結びつけられないだけだからである。
また、関連情報検索部13Bは、不明語を言い換え語に言い換えても不明な単語である場合には、言い換え語に変換して表示するだけではなく、詳細な説明を含む関連情報を優先して表示する。そのようにすることによって、読み手が不明語について理解することができる。この場合、ユーザは単に語の表記がわからないのではなく用語の内容についてまったくわからない場合であるため、詳細な説明を含む関連情報を読んで始めて理解できる場合だからである。
次に、動作について図面を参照して説明する。図6は、第3の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図6において、ステップS10の処理は、第1の実施形態で示した処理と同様である。
次に、言い換え表現既知判定部123は、記憶装置に記憶する不明語の言い換え語を辞書から取得(抽出)する(ステップS111B)。また、言い換え表現既知判定部123は、取得した言い換え語に基づいて、テキストデータ中に含まれるある不明語に対する言い換え語が、そのテキストデータ中の文書や単語に含まれているか否か確認(判定)する(S112B)。テキストデータ中に言い換え語が含まれていると判断した場合には、言い換え表現既知判定部123は、さらに、その言い換え語も不明語であるか否かを判断する(ステップS113B)。
不明語の言い換え語も不明語であると判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えても、ユーザに理解できない単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語に対する詳細な説明を含む関連情報を検索する(ステップS121B)。
置き換え語が不明語ではないと判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えることにより、ユーザに理解できる単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語対する簡潔な説明を含む関連情報を検索する(ステップS122B)。
なお、ステップS112Bでテキストデータ中に言い換え語が含まれていないと判断した場合には、ステップS123Bに移行し、関連情報検索部13Bは、第1の実施形態で示したステップS12と同様の処理に従って、関連情報を検索する(ステップS123B)。
なお、図6において、ステップS13の処理は、第1の実施形態で示した処理と同様である。ただし、関連情報提示部14は、ステップS113Bで言い換え語が不明語でないと判断した場合には、簡潔な説明を含む関連情報とともに、関連情報として言い換え情報そのものを表示してもよい。
以上のように、本実施形態によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。
次に、本発明の第1の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第2の実施形態で示した関連情報検索システムに相当する。また、本実施例では、関連情報検索システムは、データ処理装置1としてパーソナル・コンピュータを用いて実現される。また、データ処理装置1は、出力装置としてディスプレイ装置を備えている。
関連情報検索システムは、ユーザの操作に従って、未知語(不明語)又は既知語が予め指定されたテキストデータを入力する。例えば、ユーザが、ディプレイ装置に表示される文書上でマウスクリック等の操作を行って不明語を指定することによって、関連情報検索システムは、その不明語を検索する。
テキストデータは、会議資料文書中の文字列や、会議の発言の音声認識結果の文字列である。ここで、テキストデータが会議資料文書中の文字列である場合には、文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータは、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲の文字列でもよい。
また、対象文書が音声認識結果の文字列である場合には、会議全体の音声を音声認識した文字列であってもよく、特定の話者の発言の区間の音声を音声認識した文字列であってもよい。また、一定時間内の音声を音声認識した文字列であってもよく、会議の特定のスライドが表示されている期間等一定の範囲の音声認識結果の文字列でもよい。
本実施例では、関連情報検索システムは、以下に示す例文1をテキストデータとして入力する。
例文1「本システムは、業務ごとに異なるアプリケーションのマスタデータを統合する機能に加え、在庫回転率や納期遵守率、リードタイム誤差等のKPI(Key Performance Indicator )と呼ばれる経営指標を監視することで、ビジネスプロセスの遂行状況を的確に把握する機能を有しています。これにより、ビジネスプロセスにおける問題点の早期発見と迅速な対策、計画系システムへの素早いフィードバック、KPIを通した他社とのベンチマーキングとベスト・プラクティスに基づいた最適なビジネスプロセスのスムーズな導入・定着を実現いたします。」
例文1を読んだユーザは、例えば、テキストデータ中に登場する順に、「KPI」、「Key Performance Indicator 」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」の語を理解できなかったものとする。
ユーザは、理解できなかった語を不明語として、システムに対して指定操作を行う。すると、関連情報検索システムは、ユーザの操作に従って、「KPI」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」が不明語であることが指定された例文1の文章をテキストデータとして入力する。
ここで、ユーザは、不明語「KPI」に対する関連情報を参照したい場合、「KPI」に対する関連情報を、システムに対して要求操作を行う。関連情報検索システムの入力部11は、ユーザの操作に従って、不明語「KPI」に対する関連情報の要求を受け付ける。すると、不明語分類部12Aは、入力したテキストデータに基づいて、不明語の分類を行う。
まず、不明語密度解析部121は、入力したテキストデータに基づいて、不明語密度を計算する。例えば、不明語密度解析部121は、入力したテキストデータに対して形態素解析を行う。そして、不明語密度解析部121は、例えば、形態素解析によって抽出した文章中の単語(名詞句)が32語あり、そのうち不明語が8語であるとすると、不明語の数を全ての単語の数で除算して、不明語密度を8/32=0.25と計算する。
なお、不明語密度解析部121は、不明語密度の計算を行う場合、単語の数をカウントする処理で、テキストデータ中に同じ単語が複数指定されているときには、同じ単語を1つと数えてカウントしてもよい。例えば、不明語密度解析部121は、語「KPI」及び「ビジネスプロセス」については複数回指定されているのでまとめて、不明語の数を4語としてカウントし、文章中の全単語数を28語としてカウントする。そして、不明語密度解析部121は、不明語密度を5/23=0.178と計算してもよい。
また、不明語密度解析部121は、単語ではなく、テキストデータ中の理解ができない文の数と、テキストデータ中の全ての文の数とを利用して、不明語密度を計算してもよい。また、不明語密度解析部121は、テキストデータ中の内容が理解できない範囲の長さと文章の長さとに基づいて不明語密度を計算してもよい。なお、この場合、複合語や定型句の単語への分け方によって計算した不明語密度が変わることはない。
また、不明語密度解析部121は、不明語密度の計算区間を、テキストデータ全体ではなく、ページや章、節、段落、文、一定の文字数、表示画面内の文章、ユーザが指定した領域等の一定の範囲に制限して、不明語密度を求めてもよい。また、不明語密度解析部121は、処理対象が話者の発言の音声を音声認識した結果であった場合には、不明語密度の計算区間を、特定の話者の発言の音声の区間や、一定時間内、会議の特定のスライドが表示されている期間等の一定の範囲に制限して、不明語密度を求めてもよい。
また、不明語密度解析部121は、テキストデータに含まれる全ての語をカウントして不明語密度を求めるのではなく、所定の品詞の語のみをカウントして不明語密度を求めるようにしてもよい。例えば、不明語密度解析部121は、テキストデータ中の名詞や動詞のみを抽出してカウントし不明語密度を求める等、品詞を考慮した不明語密度算出を行ってもよい。
次に、カテゴリ分類部122は、不明語密度解析部121が計算した不明語密度に基づいて、不明語を分類する。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きいか否かを判定する。この場合、カテゴリ分類部122は、不明語密度が事前に設定された閾値を超えたか否かを判定することで、不明語密度が高い不明語、不明語密度が低い不明語に分けることができる。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が所定の閾値より大きくなければ、不明語密度が低い不明度であると分類する。
また、カテゴリ分類部122は、不明語密度が高い及び低いの2つのカテゴリに不明語を分類するのではなく、3つ以上のカテゴリに分類してもよい。例えば、3つのカテゴリに分類する場合には、カテゴリ分類部122は、予め定められた2つの閾値を用いて、不明語を3つのカテゴリに分類する。例えば、カテゴリ分類部122は、不明語密度が第1の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が第1の閾値より大きくないが第2の閾値より大きければ、不明語密度が中レベルの不明語であると分類する。さらに、カテゴリ分類部122は、不明語密度が第2の閾値より大きくなければ、不明語密度が低い不明語であると分類する。
次に、関連文書検索部13は、不明語分類部12Aによる不明語分類の結果に基づいて、検索対象の不明語の関連情報に優先度をつけて情報検索を行う。例えば、関連情報検索部13は、予め各種文書ファイルや辞書ファイルを蓄積するデータベースを備える場合には、検索対象の不明語を含む関連情報をデータベースから抽出する。また、例えば、関連情報検索部13は、インターネット等の通信ネットワークを介して、各種Webサイト上で公開されている関連情報を要求し、各Webサイトを運営するサーバから受信する。
ここで、関連情報検索部13は、例えば、検索対象の不明語に対する関連資料文書(関連情報)として、次のような文書を検索し取得(抽出、受信)したものとする。
(1)関連情報検索部13は、記述「KPI(重要業績評価指標)を比較すると...」を含む文書Aを取得したものとする。(2)関連情報検索部13は、記述「KPIとは」を含む章の見出しと、記述「本システムでは業績評価手法の1つであるKPIを指標として設定できます。KPIとは〜」を含む章の本文を有する文書Bを取得したものとする。
ここで、(1)の文書Aを取得した場合、不明語「KPI」に対して、直後に括弧で囲まれた名詞句が文書中に含まれる。この場合、この括弧内に含まれる語(本例では名詞句)で直前の不明語を説明していると考えられるため、関連情報検索部13は、この括弧内に含まれる名詞句を簡潔な説明とすることができる。
また、(2)の文書Bを取得した場合、文書の見出しに不明語「KPI」が含まれるため、見出し語に続く節で不明語についての説明が含まれていると考えられる。そのため、関連情報検索部13は、文書Bに含まれる章全体を詳細な説明とすることができる。
例文1に示すテキストデータを入力した場合であって、不明語分類部12が不明語密度が低いと判定した場合には、ユーザが不明語については知らなかったが、同じテキストデータ中に含まれるその他の単語についてはよく知っていると考えることができる。よって、ユーザは、そのテキストデータに記載されている内容の分野について知識があると考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について簡潔な説明が含まれるものを提示することが適切であると判断し、(1)の文書Aを優先して検索結果とする。
一方、不明語分類部12が不明語密度が高いと判定した場合には、ユーザがテキストデータ中の文章の各単語を全体的にあまり知らないため、ユーザがテキストデータに記載されている内容の分野について知識が少ないと考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について詳細な説明が含まれるものを提示することが必要だと判断し、(2)の文書Bを優先して検索結果とする。
また、関連情報検索部13は、検索対象に対する関連情報として、例えば、(3)略語辞書から抽出した辞書情報や、(4)専門用語辞書から抽出した辞書情報等の各種辞書情報を取得してもよい。この場合、不明語分類部12が不明語密度が低いと判定した場合には、関連情報検索部13は、不明語に対する簡潔な説明を含む関連情報として、(3)の略語辞書から抽出した辞書情報を利用してもよい。また、不明語分類部12が不明語密度が高いと判定した場合には、関連情報検索部13は、不明語に対する詳細な説明として、(4)専門用語辞書から抽出した辞書情報を利用してもよい。
(3)略語辞書とは、略語の元になった語句を説明した辞書である。略語辞書を用いる場合、関連情報検索部13は、例えば、略語「KPI」を説明した情報として、「key performance indicator 」という辞書情報を抽出する。また、(4)専門用語辞書とは、単語の意味について詳細に説明した辞書である。専門用語辞書を用いる場合、関連情報検索部13は、例えば語「KPI」を説明した情報として、「企業目標やビジネス戦略を実現するために設定した具体的な業務プロセスをモニタリングするために設定される指標(業績評価指標:performance indicators)といい、その中で特に重要なものを指す。...」という辞書情報を抽出する。
また、前述したように、関連文書として(1)文書A及び(2)文書Bを抽出した場合、関連情報検索部13は、不明語分類部12Aによって不明語密度が低いと判断されたとすると、不明語に対する簡潔な説明である(1)の文書Aを優先して検索結果とする。この場合、文章Aを優先して検索結果とするために、関連情報検索部13は、予め文書Aに対する優先度を設定するようにすればよい。関連情報検索部13は、検索エンジンを用いた関連情報検索において、検索した各関連情報をランキングしスコア値を求める。そして、関連情報検索部13は、求めたランキングのスコア値に優先度を加算して、さらに検索対象の不明語に対する関連情報をランキングすればよい。
なお、ここで、インターネット上のWeb情報の検索等を行って関連情報を検索する場合、その検索技術については、既存の検索技術を用いることとする。
例えば、文書Aと文書Bとについて検索エンジンを用いて検索した際のスコア値がともに+10であった場合を説明する。この場合、例えば、優先度を付加する前の各検索関連情報のランキングのスコア値として、関連情報検索部13は、図7Aに示すランキングのスコア値を得る。
関連情報検索部13は、不明語に対する簡潔な説明である文書Aに対して優先度+5が与えられているとすると、合計のスコア値を+15と求め、図7Bに示すように、文書Aを文書Bより上位にランキングする。そして、関連情報提示部14は、関連情報検索部13の検索結果に基づいて、ディスプレイ装置等の表示装置に、文書Aをランキングの上位に表示する。
なお、単純に優先度をスコア値に加算する場合を示したが、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度と検索エンジンのスコア値とをパラメータとして計算で求めてもよい。また、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングとして、優先度の順に、単に検索対象の不明語に対する関連情報の検索結果を並べてもよい。さらに、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度を検索エンジンのスコア計算のパラメータとして計算して求めてもよい。
そして、関連文書提示部14は、関連情報検索部13が求めたランキング順に、不明語に対する関連情報の検索結果を、ディスプレイ装置等の表示装置上に表示する。
また、ユーザが特定のグループに所属している場合、関連情報検索システムは、そのグループの他のメンバがその分野に詳しいか否かを推定し、その推定結果をユーザに対して適用して関連情報を検索してもよい。これは、同じグループのメンバとユーザとは、同じ分野の知識を持っていると考えられるためである。
ここで、グループとは、ユーザが所属する部署や、参加プロジェクト、出席した会議等を指す。例えば、先のユーザが会議に参加している場合に、同じ会議の出席者で例文1を読んでいる参加者がいるものとする。このとき、他の出席者もこの関連情報検索システムを利用しており、ユーザは、他の参加者が入力操作したテキストデータも参照できるものとする。
関連情報検索システムの不明語分類部12Aは、ユーザ以外の他の出席者の入力操作に従って入力したテキストデータに基づいて、不明語が他の出席者にとって不明語密度が高い語であるか、低い語であるかに分類することができる。他の出席者が例文1について不明語密度が高かった場合には、他の出席者と知識が同等であると考えられるユーザにとって、不明語に対する詳細な説明を含む関連情報の提示が必要な語である可能性がある。そのため、関連情報検索部13は、(2)の文書Bの詳細な説明を含む文書の優先度を+3としてスコア値に加算し、図7Cに示すように、合計のスコア値を+13と求める。
図7Cに示すように、文書Aと文書Bとの得点の差が小さくなるため、ランキングの順位が変化して、関連情報検索部13は、文書Bも比較的上位にランキングすることになる。この場合、ユーザが実際には文書について詳しくなかったのであるが、ユーザ自身に対する不明語密度が小さかったために、不明語分類部12Aによってユーザがテキストデータの内容に詳しいと判定されることもありうる。そのような場合であっても、不明語分類部12Aによって他のメンバにとって不明語が多いと判断されるため、関連情報検索部13は、文書Bを上位にランキングする。そのため、ユーザは、不明語に対する詳しい説明を参照することができる。
表1に、関連情報検索部13が検索する検索対象の不明語に対する関連情報の一例を示す。表1に示す例では、関連情報検索部13は、略語辞書、専門用語辞書、過去に参照した文書、及びインターネット情報Web情報を、検索対象の不明語に対する関連情報として検索する。表1において、略語辞書は略語を展開した正式な表現のみを表すものであり、専門用語辞書はその領域(分野)の知識のない人にその専門用語の意味を教えるものである。また、過去に参照した文書は、過去にユーザ自身が作成した文書や会議等で参照した文書の集合である。
Figure 0005218409
以上のように、本実施例によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。
次に、本発明の第2の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第3の実施形態で示した関連情報検索システムに相当する。本実施例では、不明語分類部12Bが、言い換え表現既知判定部123を含む点で、第1の実施例と異なる。また、関連情報検索システムは、不明語の言い換えを行うために略語辞書や、カタカナ語辞書等からなる言い換え辞書3を、予め磁気ディスク装置や光ディスク装置等の記憶装置に記憶する。
言い換え表現既知判定部123は、略語辞書やカタカナ語辞書等の言い換え辞書3から、入力されたテキストデータに含まれる不明語句に対する言い換え表現を取得(抽出)する。また、言い換え表現既知判定部123は、抽出した言い換え表現がテキストデータの対象文章中に登場するか否かを判断する。また、対象文章中に登場する場合には、言い換え表現既知判定部123は、その言い換え表現も不明語であるか否かを判定する。
例えば、例文1に示すテキストデータを入力した場合に、言い換え表現既知判定部123は、不明語「KPI」に対して、略語辞書から言い換え表現「Key Performance Indicator 」を得たものとする。
言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、テキストデータの対象文章中に「Key Performance Indicator 」が含まれており、かつユーザが「Key Performance Indicator 」も不明語と指定していると判定する。そして、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語に対して言い換え表現に置き換えてもユーザが理解できない語であると分類する。この場合、ユーザにとって不明語の表す内容自体が未知である可能性が高いと判断できる。そのため、関連情報検索部13Bは、不明語に対する詳細な説明を含む関連情報の優先度を上げて検索結果とする。そして、関連情報提示部14が詳細な説明を含む関連情報を提示することで、ユーザは不明語に対する内容まで理解することができる。
一方、関連情報検索システムが以下に示す例文2をテキストデータとして入力する場合を考える。
例文2「弊社は、このたび次世代サプライチェーン・マネジメント構築事業を日本国内で推進してまいります。日本の製造業におけるSCMパッケージの導入率は1割以下と推測されます。」
上記に示す例文2を入力した場合、例えば、言い換え表現既知判定部123は、不明語「SCM」に対して、略語辞書から言い換え表現「サプライチェーン・マネジメント」を得たものとする。
言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、入力テキストデータ中に「サプライチェーン・マネジメント」があり、ユーザが不明語として指定していないと判断する。この場合、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語「SCM」について言い換え表現に置き換えればユーザが理解できる語であるとして分類する。この場合、ユーザは不明語の表す意味自体は分かっているため、関連情報検索部13Bは、略語辞書から抽出した言い換え表現を優先して検索結果とする。そして、関連情報提示部14が言い換え語「サプライチェーン・マネジメント」を提示することで、ユーザは不明語に対する意味を理解することができる。
以上のように、本実施例によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。
なお、上記に示した各実施形態では、以下の(1)〜(5)に示すような関連情報検索システムの特徴的構成が示されている。
(1)関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段(例えば、入力部11によって実現される)と、テキスト入力手段により入力されたテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類する分類手段(例えば、不明語分類部12によって実現される)と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段(例えば、関連情報検索部13によって実現される)と、検索手段により検索された関連情報を提示する提示手段(例えば、関連情報提示部14によって実現される)とを備える。そのような構成によれば、入力されたテキストデータに基づいて未知語を分類する。そして、分類した未知語の種別に従って、検索対象の関連情報を提示する。そのため、未知語の分類に従って自動的に検索対象の未知語に対する関連情報を選択し提示することができる。従って、ユーザに未知語に対する関連情報を提示するためのユーザの作業コストを削減することができる。
(2)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度(例えば、不明語密度)を算出する密度算出手段(例えば、不明語密度解析部121によって実現される)と、密度算出手段により算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリ(例えば、未知語密度が高いカテゴリ)と未知語密度が閾値以下のカテゴリである第2のカテゴリ(例えば、未知語密度が低いカテゴリ)とに分類する第1のカテゴリ分類手段(例えば、カテゴリ分類部122によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第1のカテゴリに分類されると、検索対象の未知語に対する所定量の説明(例えば、詳細な説明)を含む関連情報を検索し、分類手段によって検索対象の未知語が第2のカテゴリに分類されると、検索対象の未知語に対する所定量より簡潔な説明を含む関連情報を検索する。そのような構成によれば、テキストデータ中の未知語密度に基づいて未知語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。
(3)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段(例えば、言い換え表現既知判定部123によって実現される)と、言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段(例えば、カテゴリ分類部124によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する。そのような構成によれば、未知語に対する言い換え語があるか否かを判断し、その言い換え語も未知語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。
(4)第1のカテゴリ分類手段は、密度算出手段により算出された未知語密度が所定の閾値より大きいか否かを判定し、未知語密度が所定の閾値より大きいと判定すると、検索対象の未知語を第1のカテゴリに分類し、未知語密度が所定の閾値以下であると判定すると、検索対象の未知語を第2のカテゴリに分類する。そのような構成によれば、未知語密度の閾値判定を行うことによって、容易にテキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。
(5)関連情報検索システムは、予め言い換え表現を含む言い換え辞書(例えば、言い換え辞書3)を記憶する言い換え辞書記憶手段(例えば、言い換え辞書3を記憶する磁気ディスク装置や光ディスク装置等の記憶装置によって実現される)をさらに備える。言い換え表現判定手段は、検索対象の未知語に対する言い換え表現を言い換え辞書記憶手段から抽出し、抽出した言い換え表現が未知語であるか否かを判定する。第2のカテゴリ分類手段は、言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する。そのような構成によれば、予め記憶する言い換え辞書から容易に言い換え表現を抽出して取得することができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2007年8月3日に出願された日本出願特願2007−203196号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

Claims (6)

  1. ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段と、
    前記テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、
    前記分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、
    前記検索手段により検索された関連情報を提示する提示手段と
    を備え、
    前記分類手段は、
    テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段と、
    前記言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段と
    を備え、
    前記検索手段は、前記分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する
    関連情報検索システム。
  2. 予め言い換え表現を含む言い換え辞書を記憶する言い換え辞書記憶手段をさらに備え、
    前記言い換え表現判定手段は、
    検索対象の未知語に対する言い換え表現を前記言い換え辞書記憶手段から抽出し、
    抽出した言い換え表現が未知語であるか否かを判定し、
    前記第2のカテゴリ分類手段は、
    前記言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、
    前記言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する
    請求項1記載の関連情報検索システム。
  3. テキスト入力手段が、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、
    分類手段が、入力されたテキストデータに基づいて、未知語を分類するステップと、
    検索手段が、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
    提示手段が、検索された関連情報を提示するステップと
    を備え、
    分類するステップは、
    言い換え表現判定手段が、入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
    第2のカテゴリ分類手段が、判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
    を備え、
    検索するステップは、前記検索手段が、前記分類手段によって検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
    関連情報検索方法。
  4. 辞書記憶手段が、予め言い換え表現を含む言い換え辞書を記憶するステップをさらに備え、
    前記言い換え表現判定手段が判定するステップは、
    検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
    抽出された言い換え表現が未知語であるか否かを判定するステップと
    を備え、
    前記第2のカテゴリ分類手段が第3のカテゴリと第4のカテゴリとに分類するステップは、
    前記言い換え表現判定手段により言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
    前記言い換え表現判定手段により言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
    を備える請求項3記載の関連情報検索方法。
  5. ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、
    入力されたテキストデータに基づいて、未知語を分類するステップと、
    未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
    検索された関連情報を提示するステップと
    をコンピュータに実行させるためのプログラムであって、
    分類するステップは、
    入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
    判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
    を備え、
    検索するステップは、検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
    プログラム。
  6. 予め言い換え表現を含む言い換え辞書を記憶するステップをさらにコンピュータに実行させ、
    判定するステップは、
    検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
    抽出された言い換え表現が未知語であるか否かを判定するステップと
    を備え、
    第3のカテゴリと第4のカテゴリとに分類するステップは、
    言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
    言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
    を備える請求項5記載のプログラム。
JP2009526445A 2007-08-03 2008-08-04 関連情報検索システム及び関連情報検索方法 Expired - Fee Related JP5218409B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009526445A JP5218409B2 (ja) 2007-08-03 2008-08-04 関連情報検索システム及び関連情報検索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007203196 2007-08-03
JP2007203196 2007-08-03
JP2009526445A JP5218409B2 (ja) 2007-08-03 2008-08-04 関連情報検索システム及び関連情報検索方法
PCT/JP2008/063955 WO2009020092A1 (ja) 2007-08-03 2008-08-04 関連情報検索システム及び関連情報検索方法

Publications (2)

Publication Number Publication Date
JPWO2009020092A1 JPWO2009020092A1 (ja) 2010-11-04
JP5218409B2 true JP5218409B2 (ja) 2013-06-26

Family

ID=40341325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526445A Expired - Fee Related JP5218409B2 (ja) 2007-08-03 2008-08-04 関連情報検索システム及び関連情報検索方法

Country Status (2)

Country Link
JP (1) JP5218409B2 (ja)
WO (1) WO2009020092A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013229A1 (ja) * 2009-07-30 2011-02-03 株式会社東芝 行動推薦装置
US9305081B2 (en) 2009-11-20 2016-04-05 Nec Corporation Information processing device
JP5032600B2 (ja) * 2010-01-07 2012-09-26 株式会社東芝 文書可読性評価プログラムおよび文書可読性評価装置
JP6739811B2 (ja) 2019-01-22 2020-08-12 株式会社インタラクティブソリューションズ 発言禁止用語に対し注意を喚起するためのプレゼンテーション支援装置
JP7476962B2 (ja) * 2020-07-03 2024-05-01 日本電信電話株式会社 発話理解支援システム、方法、装置及びプログラム
JP2024041246A (ja) * 2022-09-14 2024-03-27 Necプラットフォームズ株式会社 処理システム、処理方法およびプログラム
CN118261141B (zh) * 2024-04-17 2024-09-06 后浪出版咨询(北京)有限责任公司 基于数据关联性的自学习书籍校编系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204418A (ja) * 1996-01-29 1997-08-05 Fuji Xerox Co Ltd 文書処理装置
JPH1125123A (ja) * 1997-07-04 1999-01-29 Fuji Xerox Co Ltd 文書処理装置
JP2004302926A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 用語検索方法、及びコンピュータに、その方法を行わせるプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204418A (ja) * 1996-01-29 1997-08-05 Fuji Xerox Co Ltd 文書処理装置
JPH1125123A (ja) * 1997-07-04 1999-01-29 Fuji Xerox Co Ltd 文書処理装置
JP2004302926A (ja) * 2003-03-31 2004-10-28 Fujitsu Ltd 用語検索方法、及びコンピュータに、その方法を行わせるプログラム

Also Published As

Publication number Publication date
JPWO2009020092A1 (ja) 2010-11-04
WO2009020092A1 (ja) 2009-02-12

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
CN110888990B (zh) 文本推荐方法、装置、设备及介质
Weimer et al. Automatically assessing the post quality in online discussions on software
US9460195B1 (en) System and methods for determining term importance, search relevance, and content summarization
US9483532B1 (en) Text processing system and methods for automated topic discovery, content tagging, categorization, and search
US9910886B2 (en) Visual representation of question quality
Luyckx et al. The effect of author set size and data size in authorship attribution
Chen et al. User intention modeling in web applications using data mining
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
US9189470B2 (en) Generation of explanatory summaries
US20120203584A1 (en) System and method for identifying potential customers
WO2009154153A1 (ja) 文書検索システム
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US20110112824A1 (en) Determining at least one category path for identifying input text
JP5391632B2 (ja) ワードと文書の深さの決定
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
BE1027696B1 (nl) Analyse en vergelijking van tekengecodeerde digitale gegevens, met name voor job matching
US11275777B2 (en) Methods and systems for generating timelines for entities
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
Bhatia et al. Identifying the role of individual user messages in an online discussion and its use in thread retrieval
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
McGillivray et al. Digital humanities and natural language processing:“je t’aime... moi non plus”
Tumitan et al. Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene.
US20220366346A1 (en) Method and apparatus for document evaluation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees