JP2006065366A - キーワード分類装置およびその方法、端末装置ならびにプログラム - Google Patents

キーワード分類装置およびその方法、端末装置ならびにプログラム Download PDF

Info

Publication number
JP2006065366A
JP2006065366A JP2004243460A JP2004243460A JP2006065366A JP 2006065366 A JP2006065366 A JP 2006065366A JP 2004243460 A JP2004243460 A JP 2004243460A JP 2004243460 A JP2004243460 A JP 2004243460A JP 2006065366 A JP2006065366 A JP 2006065366A
Authority
JP
Japan
Prior art keywords
keyword
storage unit
noun
unit
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004243460A
Other languages
English (en)
Inventor
Kenji Tateishi
健二 立石
Junko Nakagawa
淳子 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004243460A priority Critical patent/JP2006065366A/ja
Publication of JP2006065366A publication Critical patent/JP2006065366A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 問い合わせ窓口担当者が過去の類似問い合わせ事例を効率的に探したり、マーケティング担当者が、問い合わせデータを分類してパレート図を効率的に作成できるための、データの全体像把握が可能なキーワード分類装置を構築する。
【解決手段】 キーワード抽出部40は、文書保持部10に保持された複数の問い合わせデータからキーワードとなる名詞句を抽出し、キーワード記憶部50に記憶する。共起表現抽出部60は、前記複数の問い合わせデータから前記抽出されたキーワードの名詞句に共起する述語句を抽出し、共起表現記憶部70に記憶する。分類部80は、前記複数の問い合わせデータをキーワード記憶部50に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を共起表現記憶部70に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類し、表示装置3に表示する。
【選択図】 図1

Description

本発明はキーワード分類装置および方法に関し、特に名詞句によるキーワードのカテゴリ内に、そのキーワード(名詞句)に対する述語句によるキーワードのサブカテゴリを作成するキーワード分類装置および方法、ならびに、カテゴリのキーワードにあわせて、そのキーワードに類似するキーワードをまとめて閲覧できるように表示するキーワード分類装置および方法に関する。
例えば、企業のコンタクトセンター(お客様相談室)や自治体の問い合わせ窓口などには質問、要望、トラブルといったさまざまな問い合わせが多数寄せられる。問い合わせデータを蓄積し検索しやすくすることで、コンタクトセンターの業務効率を改善したり、問い合わせデータの分析結果を製品開発等のマーケティングに利用したりすることが重要になってきている。
このような問い合わせデータの蓄積を有効活用するために、問い合わせデータをカテゴリに分類してパレート図を作成する方法がある。パレート図は、カテゴリごとのデータの件数を棒グラフで表示したもので、データの全体像を把握するために有効である。
複数のデータをカテゴリに分類する方法として、データから重要キーワードを抽出して、そのキーワードをカテゴリとしてデータを分類する方法がある(キーワード分類方式)。例えば非特許文献1では、分類対象となるニュース原稿の形態素解析を行って原稿に含まれる名詞と動詞を全て抽出した後に各抽出単語の重要度を決定し、次に、その重要度をもとにニュース原稿にクラスタリングを行って類似した原稿の集まりであるクラスタを生成し、最後に、クラスタがあらわす話題が何であるか特徴付ける名詞句を抽出して、話題の候補としている。また特許文献1、2では、格助詞に注目し言語学的に主題を示す重要文節から単語をキーワードとして抽出している。
キーワード分類方式によって問い合わせデータを分類した例を図21に示す。この例では、「スイッチ」、「A4+用紙」、「電源+スイッチ」、「活字」を各カテゴリとして問い合わせデータを分類し、あわせて各カテゴリに属するデータ数を表示している。
特開平3−135669号公報 特許第2583386号公報 山田一郎, 金淵培, 柴田正啓, "ニュース原稿を利用した話題抽出とニュース話題選択の個人化の検討",[online]、「知識発見のための自然言語処理」シンポジウム,[平成16年8月16日検索]、インターネット<URL:http://cl.aist-nara.ac.jp/lab/kura/papers/misc/NLP_Sympo99/yamada/yamada.html>
従来のキーワード分類方式には、以下の3つの問題がある。
第1の問題点は、カテゴリに含まれる問い合わせデータの数が増えるに従って、問い合わせデータの検索や問い合わせデータの全体像把握が効率的に行えなくなることである。例えば、図21では、「スイッチ」のカテゴリに合計58件の問い合わせデータが分類されているため、スイッチというキーワードを含む問い合わせデータの中から真に必要なデータを探し出すのは容易でない。このような場合、カテゴリをさらにサブカテゴリに分類すれば良いが、カテゴリのキーワードとサブカテゴリのキーワードに関係がないと殆ど無意味であるため、問い合わせデータの検索や問い合わせデータの全体像把握が効率的に行えるようなサブカテゴリを如何に定めるかが重要である。
第2の問題点は、従来のキーワード分類方式は、「価格」と「値段」、「電源」と「電源+スイッチ」のようにお互いに類似する別のカテゴリが存在する場合に、それらが別々に表示され、類似カテゴリが存在することがユーザにわからず問い合わせデータの全体像把握が効率的に行えないことである。
第3の問題点は、第1の問題点および第2の問題点が原因で、問い合わせ窓口担当者が過去の類似問い合わせ事例を探すのに時間がかかり、問い合わせ処理に支障をきたしていた。同じようにマーケティング担当者が、問い合わせデータを分類してパレート図を作成するのに時間がかかり、重要な情報を製品部門へ伝達するのが遅れていたことである。
本発明の第1の目的は、名詞句によるキーワードのカテゴリ内に、そのキーワード(名詞句)に対する述語句によるキーワードのサブカテゴリを作成することにより、データの全体像把握を容易にするキーワード分類装置および方法を提供することにある。
本発明の第2の目的は、カテゴリのキーワードにあわせて、そのキーワードに類似するキーワードをまとめて閲覧できるように表示することで、データの全体像把握を容易にするキーワード分類装置および方法を提供することにある。
本発明の第3の目的は、データの全体像把握が可能なキーワード分類装置により問い合わせ窓口担当者が過去の類似問い合わせ事例を効率的に探したり、マーケティング担当者が、問い合わせデータを分類してパレート図を効率的に作成できるようにすることにある。
本発明の第1のキーワード分類装置は、分類対象とする複数の文書を保持する文書保持部と、前記複数の文書からキーワードとなる名詞句を抽出するキーワード抽出部と、前記抽出されたキーワードを記憶するキーワード記憶部と、前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出する共起表現抽出部と、前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを記憶する共起表現記憶部と、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を前記共起表現記憶部に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類する分類部とを備えることを特徴とする。
本発明の第1のキーワード分類方法は、a)キーワード抽出部が、文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、キーワード記憶部に記憶するステップ、b)共起表現抽出部が、前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出し、前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを共起表現記憶部に記憶するステップ、c)分類部が、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を前記共起表現記憶部に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類するステップ、を含むことを特徴とする。
このような構成を有する本発明の第1のキーワード分類装置及び方法にあっては、キーワード抽出部によって抽出された名詞句で分類されたカテゴリ内に、共起表現抽出部によって抽出された名詞句に対する述語句で文書を分類したサブカテゴリを作成することにより第1の目的を達成できる。
本発明の第2のキーワード分類装置は、分類対象とする複数の文書を保持する文書保持部と、前記複数の文書からキーワードとなる名詞句を抽出するキーワード抽出部と、前記抽出されたキーワードを記憶するキーワード記憶部と、前記キーワード記憶部に記憶されたキーワード毎にそれに類似するキーワードを抽出する類似キーワード検索部と、前記抽出された類似キーワードを記憶する類似キーワード記憶部と、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードでカテゴリに分類し、その結果を出力する際に、カテゴリの名詞句と類似キーワード記憶部に記憶されたその名詞句に類似する名詞句による類似キーワードとをあわせて表示装置に出力する分類部とを備えたことを特徴とする。
本発明の第2のキーワード分類方法は、a)キーワード抽出部が、文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、キーワード記憶部に記憶するステップ、b)類似キーワード検索部が、前記キーワード記憶部に記憶されたキーワード毎にそれに類似するキーワードを抽出し、類似キーワード記憶部に記憶するステップ、c)分類部が、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードでカテゴリに分類し、その結果を出力する際に、カテゴリの名詞句と前記類似キーワード記憶部に記憶されたその名詞句に類似する名詞句による類似キーワードとをあわせて表示装置に出力するステップ、を含むことを特徴とする。
このような構成を有する本発明の第2のキーワード分類装置および方法は、キーワード抽出部によって抽出された名詞句のキーワードにあわせて、類似キーワード検索部によって検索された類似キーワードをまとめて閲覧できるように表示するため、データの全体像把握が容易になり、第2の目的を達成することができる。
本発明の第1の端末装置は、第3の目的を達成するために、本発明の第1または第2のキーワード分類装置と該キーワード分類装置で分類された結果を表示する表示装置とを備え、前記文書保持部に企業のコンタクトセンターあるいは自治体の問い合わせ窓口に寄せられた過去の問い合わせデータが記録されていることを特徴とする。
本発明の第2の端末装置は、第3の目的を達成するために、本発明の第1のキーワード分類装置と該キーワード分類装置で分類結果からパレート図を作成する図形作成装置とを備え、前記文書保持部に企業のコンタクトセンターあるいは自治体の問い合わせ窓口に寄せられた過去の問い合わせデータが記録されていることを特徴とする。
本発明の効果は、データの全体像の把握が容易になることである。その理由は、キーワード抽出部によって抽出された名詞句で分類されたカテゴリ内に、共起表現抽出部によって抽出された名詞句に対する述語句で文書を分類したサブカテゴリを作成する分類部を備えているからである。もう一つの理由は、キーワード抽出部によって抽出された名詞句のキーワードにあわせて、類似キーワード検索部によって検索された類似キーワードをまとめて閲覧できるように表示する分類部を備えているからである。
本発明の別の効果は、問い合わせ窓口担当者が過去の類似問い合わせ事例を効率的に探したり、マーケティング担当者が、問い合わせデータを分類してパレート図を効率的に作成できることにある。その理由は、キーワード抽出部によって抽出された名詞句で分類されたカテゴリ内に、共起表現抽出部によって抽出された名詞句に対する述語句で文書を分類したサブカテゴリを作成する分類部を備えているからである。もう一つの理由は、キーワード抽出部によって抽出された名詞句のキーワードにあわせて、類似キーワード検索部によって検索された類似キーワードをまとめて閲覧できるように表示する分類部を備えているからである。
「第1の実施の形態」
図1を参照すると、本発明の第1の実施の形態は、文書を記憶する磁気ディスク等の文書記憶部1と、プログラム制御により動作するデータ処理装置2と、ディスプレイ装置等の表示装置3と、キーボードやマウス等の入力装置4とを備える。
データ処理装置2は、文書保持部10と、形態素解析部20と、係り受け解析部30と、キーワード抽出部40と、キーワード記憶部50と、共起表現抽出部60と、共起表現記憶部70と、分類部80と、分類結果記憶部90とを備える。
文書保持部10は、文書記憶部1に記憶された日本語の自然言語の文書を入力して保持するメモリ等である。文書は1文以上の文から構成されている。図3に、文書保持部10に保持されている日本語の自然言語の文章の例を示す。各文書は、当該文書を一意に識別するための文書IDと文書内容(テキスト)とで構成される。文書保持部10に保持される文書の例として、企業のコンタクトセンターや自治体の問い合わせ窓口に寄せられた過去の大量の問い合わせデータ(それに対する回答データも含む)がある。
形態素解析部20は、文書保持部10から文書を受け取り、形態素解析により単語列に分割する。図4に図3の各文書に対する形態素解析部20の結果を示す。例えば、ID1の文書は、「知的[名詞]+財産[名詞]+の[助詞-連体化]+情報[名詞]+検索[サ変名詞]+について[格助詞]+知る[動詞]+たい[助動詞]+。[記号]」のように分割している。"[]"内の文字列が単語の品詞、"+"は単語の区切りを意味する。形態素解析部20による図4に示したような解析結果は、図示しないメモリ等の記憶部に一時的に記憶され、後段の各部により参照される。
係り受け解析部30は、形態素解析部20から単語列を受け取り、単語を文節に纏め上げ、その文節間の係り受け関係を求める。図5に図4の形態素解析部20の各結果に対する係り受け解析部30の結果を示す。例えば、図3中のID1の文書については、「知的+財産+の→情報+検索+について」と「情報+検索+について→知る+たい+。」と「 知る+たい+。→ x」の3つの係り受け関係が得られる。"→"の両側が一つの文節を示し、"x"は係り先がないことを示す。また、この図5では品詞情報は冗長になるため省略している。
キーワード抽出部40は、形態素解析部20から単語列を受け取り、名詞句をキーワードとして選択し、キーワード(名詞句)が複数選択された場合はキーワード(名詞句)間の優先度を決定する。
図2を参照すると、キーワード抽出部40の一実施例は、キーワード選択部401と、キーワード優先度判定部402とを備える。
キーワード選択部401は、形態素解析部20から受け取った単語列からすべての名詞句をキーワードとして選択する。名詞句とは名詞もしくは名詞の連続である。例えば、「情報+検索」「自然+言語+処理」のように複数の名詞の単語が連続する場合は名詞句とする。
キーワード優先度判定部402は、キーワード選択部401で選択されたキーワード(名詞句)が複数あった場合に、それらのキーワード間の優先度を決定する。優先度の決定方法としては、一つの方法(方法1)として、キーワード(名詞句)の出現頻度によって決定する方法がある。例えば、キーワード選択部401で、「情報+検索」と「自然+言語+処理」の2つのキーワードが選択され、「情報+検索」の出現頻度が4回、「自然+言語+処理」が3回出現した場合は、「情報+検索」のほうが「自然+言語+処理」よりも優先度が高いとする。図6の(b)に、図4の形態素解析部20の結果を元にした、方法1によるキーワード抽出部40の結果の一例を示す。
また、別の方法(方法2)として、キーワード(名詞句)の出現頻度に、キーワードの後ろ近傍に出現する助詞によって決まる重みを加味して決定する方法がある。ここで取り扱う助詞として、主題を提示する助詞「は」「も」「について」「に関して」「に関する」、主格を提示する助詞「が」、目的格を提示する助詞「を」がある。助詞の重みは、主題を提示する助詞に大きな重みがつくように設定する。例えば、主題を提示する助詞→3、主格を提示する助詞→2、目的格を提示する助詞→1、その他(その他の助詞、助詞不明)→0といったごとくである。このとき、優先度は、キーワードの後ろ近傍に出現する助詞の重みの総和によって決定する。例えば、「情報+検索」と「自然+言語+処理」いうキーワードが選択され、出現頻度は「情報+検索」が4回、「自然+言語+処理」が3回であったとする。「情報+検索」は、「情報検索について」「情報検索は」「情報検索を」「情報検索を」として出現し、「自然+言語+処理」は「自然言語処理から」「自然言語処理する」「自然言語処理について」として出現した場合、「情報+検索」の重みの総和は、3+3+1+1=8、一方「自然+言語+処理」の重みの総和は、0+0+3=3となり、「情報+検索」のほうが「自然+言語+処理」よりも優先度が高いとする。図6の(a)に、図4の形態素解析部20の結果を元にした、方法2によるキーワード抽出部40の結果の一例を示す。
キーワード記憶部50は、キーワード抽出部40からキーワードとその優先度とそれが含まれる文書IDを受け取り記憶するメモリ等である。このキーワード記憶部50には、図6(a)、(b)に示したようなキーワード抽出部40の結果が記憶される。
共起表現抽出部60は、キーワード記憶部50よりキーワード(名詞句)を、係り受け解析部30より文節間の係り受け関係をそれぞれ受け取り、キーワード(名詞句)に共起する述語句を共起表現として選択し、共起表現(述語句)が複数選択された場合は共起表現(述語句)間の優先度を決定する。
図2を参照すると、共起表現抽出部60の一実施例は、共起表現選択部601と、共起表現優先度判定部602とを備える。
共起表現選択部601は、キーワード記憶部50に記憶されたキーワード(名詞句)と、係り受け解析部30で解析された文節間の係り受け関係とを受け取り、キーワード(名詞句)に共起する述語句を共起表現として選択する。ここで、キーワード(名詞句)に共起する述語句とは、キーワード(名詞句)の係り先の文節内の述語句(単語もしくは単語列)を意味する。また、述語句とは、「動詞」「形容詞」「形容動詞」といった品詞の単語、もしくは、この単語を先頭として文節内の特定の単語までの単語列を意味する。特定の単語とは「できる」「すぎる」「やすい」「にくい」「ずらい」「ない」「たい」「ほしい」「か」といった可能、疑問、要望、程度、否定を示す単語を意味する。例えば、「情報検索について知りたい」では「知る」または「知る+たい」がキーワード「情報+検索」に対する共起表現となる。他にも「情報検索を研究する」では「研究」が、「情報検索は面白いですか」では「面白い」または「面白い+です+か」が「情報+検索」に対する共起表現となる。
共起表現優先度判定部602は、共起表現選択部601で選択された共起表現が複数あった場合に共起表現間の優先度を決定する。優先度の決定方法としては、共起表現の出現頻度によって決定する方法がある。例えば、キーワード「情報+検索」の共起表現として「研究」が3回、「面白い」が4回、選択された場合は、キーワード「情報+検索」の共起表現としては「面白い」が「研究」よりも優先度が高いとする。図7は、図5の係り受け解析部30の結果と、図6(a)または(b)のキーワード記憶部50のデータを元にした、キーワード「情報+検索」の共起表現を抽出した結果である。
共起表現記憶部70は、共起表現抽出部60からキーワード(名詞句)とその共起表現(述語句)とその優先度とその共起表現を含む文書IDを受け取り保存するメモリ等である。この共起表現記憶部70には、図7に示したような共起表現抽出部60の結果が記憶される。
分類部80は、文書保持部10に保持された文書集合をキーワード記憶部50に記憶されたキーワード(名詞句)で第1カテゴリに分類し、次に第1カテゴリに所属する文書を、共起表現記憶部70に記憶された前記キーワード(名詞句)に共起する述語句で第2カテゴリに分類し、その結果を分類結果記憶部90に保存し、また分類結果記憶部90に保存された分類結果を表示装置3に出力する。
分類部80において、第1カテゴリに文書集合を分類する場合において、ある文書内に複数のキーワード(名詞句)が存在する場合は、(1)すべてのキーワード(名詞句)で分類する、(2)優先度が最も高いキーワード(名詞句)だけで分類する、の2通りの方法がある。(1)の方法の場合は、一つの文書が複数のカテゴリ(名詞句)に所属する場合があり、(2)の方法の場合は、一つの文書は一つのカテゴリ(名詞句)にのみ所属する。同様に、あるカテゴリに属する文書集合をサブカテゴリに分類する場合において、ある文書内に複数の共起表現(述語句)が存在する場合は、(1)すべての共起表現(述語句)で分類する、(2) 優先度が最も高い共起表現(述語句)だけで分類する、の2通りの方法がある。(1)の方法の場合は、一つの文書が複数のサブカテゴリ(述語句)に所属する場合があり、(2)の方法の場合は、一つの文書は一つのサブカテゴリ(述語句)にのみ所属する。
図8に分類部80が分類結果記憶部90に記憶した分類結果を表示装置3に出力する方法の一例を示す。この図8の出力方法では、所属する文書数の多い順に第1カテゴリの名詞句が上から順に並べられ、かつ第2カテゴリである述語句はそれに所属する文書数の多い順に上から並べられ、全体として表形式で表示されている。他の方法として、名詞句の優先度順に第1カテゴリの名詞句を並べ、かつ述語句の優先度順に第2カテゴリの述語句を並べるようにしてもよい。
さらに図8の出力方法では、サブカテゴリに所属する文書集合内で出現頻度が高い第1カテゴリの名詞句以外の名詞句をサブカテゴリをあらわす代表語として最初に表示しておき、代表語をユーザが選択するとそのサブカテゴリに所属するその代表語を含む文書集合を別の場所(別ウィンドウ)に表示する。図8では、カテゴリ「スイッチ」の1つのサブカテゴリ「付く+ない」に対応する代表語「コンピュータ」が入力装置4の操作によって選択されたために、そのサブカテゴリに属する合計12個の文書のうち、「コンピュータ」を含む文書を別ウィンドウに表示している。これを実現するために、分類部80は、各サブカテゴリの代表語毎に、その代表語を含む文書の文書IDを記録した対応表を分類結果記憶部90に記録し、ある代表語がユーザに選択されると前記対応表を参照してその代表語を含む文書の文書IDを取得し、文書保持部10からその文書IDに対応する文書内容を読み込んで別ウィンドウに表示する。
図9に分類部80が分類結果記憶部90に記憶した分類結果を表示装置3に出力する方法の別の例を示す。この図9の出力方法では、カテゴリ欄に第1カテゴリである名詞句と、第2カテゴリである述語句を木構造で表示し、利用者が入力装置4の操作によって名詞句または述語句を選択すると、問い合わせ文欄に表示する文書をそのカテゴリに属する文書に切り替えるようにしている。
次に、図10を参照して本実施の形態の動作を説明する。図10は、本実施の形態の処理のフローチャートを示す。図10のS1からS5のそれぞれのステップは、図1の形態素解析部20、係り受け解析部30、キーワード抽出部40、共起表現抽出部60および分類部80の処理に対応している。ここで、ステップS2はステップS3の後、つまり図10の順番以外でS1→S3→S2→S4→S5であってもよい。
図10を参照すると、まず形態素解析部20は、文書保持部10から例えば図3に示したような複数の文書を受け取り、形態素解析により単語列に分割し、図4に示したような解析結果を生成する(ステップS1)。
次に係り受け解析部30は、形態素解析部20の各文書毎の解析結果を受け取り、解析結果中の単語を文節に纏め上げ、その文節間の係り受け関係を求め、例えば図5に示したような解析結果を生成する(ステップS2)。
次にキーワード抽出部40は、形態素解析部20から各文書毎の解析結果を受け取り、解析結果中の単語列に含まれる名詞句をキーワードとして選択する(ステップS3)。また、選択したキーワード(名詞句)が複数ある場合、キーワード(名詞句)間の優先度を決定する。キーワード抽出部40で抽出されたキーワード(名詞句)はその優先度などとともにキーワード記憶部50に図6(a)または(b)に示したように記憶される。
次に共起表現抽出部60は、キーワード記憶部50よりキーワード(名詞句)を、係り受け解析部30より文節間の係り受け関係をそれぞれ受け取り、キーワード(名詞句)に共起する述語句を共起表現として選択する(ステップS4)。また選択した共起表現(述語句)が複数ある場合、共起表現(述語句)間の優先度を決定する。共起表現抽出部60で抽出された共起表現(述語句)はその優先度などとともに共起表現記憶部70に図7に示したように記憶される。
次に分類部80は、文書保持部10に保持された文書集合をキーワード記憶部50に記憶されたキーワード(名詞句)で第1カテゴリに分類し、次に第1カテゴリに所属する文書を、共起表現記憶部70に記憶された前記キーワード(名詞句)に共起する述語句で第2カテゴリに分類し、その結果を分類結果記憶部90に保存し、また分類結果記憶部90に保存された分類結果を、図8または図9で説明したような出力方法で表示装置3に出力する(ステップS5)。
このように本実施の形態によれば、文書保持部10の文書集合をキーワード抽出部40によって抽出された名詞句で第1カテゴリに分類し、次に第1カテゴリに所属する文書を共起表現抽出部70によって抽出された前記名詞句に対する述語句で第2カテゴリに分類するため、第1カテゴリに含まれるデータの数が増えても個々の第2カテゴリに所属するデータの数はそれほど増えず、然も、第1カテゴリの名詞句と第2カテゴリの述語句とには密接な関係があるため、問い合わせデータの検索や問い合わせデータの全体像把握が効率的に行える。例えば、図21の場合、「スイッチ」のカテゴリに合計58件の問い合わせデータが分類されているため、スイッチというキーワードを含む問い合わせデータの中から例えば、コンピュータのスイッチが付かないという問い合わせデータを探し出すのは容易でないが、図8に示したようにカテゴリ「スイッチ」にサブカテゴリ「付く+ない」がある場合、そのような問い合わせデータの探索がより簡単に行えることになる。
「第2の実施の形態」
図14を参照すると、本発明の第3の実施の形態は、文書を記憶する文書記憶部1と、プログラム制御により動作するデータ処理装置2と、ディスプレイ装置等の表示装置3と、キーワードやマウス等の入力装置4とを備える。
データ処理装置2は、文書保持部10と、形態素解析部20と、係り受け解析部30と、キーワード抽出部40と、キーワード記憶部50と、共起表現抽出部60と、共起表現記憶部70と、分類部80と、分類結果記憶部90と、類似キーワード検索部110と、類似キーワード記憶部120とを備える。このデータ処理装置2において、分類部80と類似キーワード検索部110と類似キーワード記憶部120以外は、第1の実施の形態の図1の構成における文書保持部10、形態素解析部20、係り受け解析部30、キーワード抽出部40、キーワード記憶部50、共起表現抽出部60、共起表現記憶部70と同じである。
類似キーワード検索部110は、共起表現記憶部70に記憶されたキーワード(名詞句)とその共起表現(述語句)を受け取り、それぞれのキーワード(名詞句)に類似するキーワード(名詞句)を検索する。ここで、キーワードの類似性を判定する一つの方法(方法1)として、キーワードAがキーワードBを含む場合、または、キーワードBがキーワードAを含む場合に、キーワードBをキーワードAの類似キーワードとして判定する方法がある。例えば、共起表現記憶部70に図12に示すようなデータが記憶されているとした場合、キーワード「情報+検索」はキーワード「情報+検索+システム」を含むため、「情報+検索+システム」は「情報+検索」の類似キーワードとなる。一方、キーワード「検索」はキーワード「情報+検索」を含むため、「検索」は「情報+検索」の類似キーワードとなる。
また、キーワードの類似性を判定する別の方法として(方法2)、キーワードAとキーワードBとで共起する共起表現の種類が類似する場合に、キーワードBをキーワードAの類似キーワードとして判定する方法がある。例えば、図15の場合では、キーワード「サーチエンジン」はキーワード「情報+検索」と出現する共起表現が一致するため、「サーチエンジン」は「情報+検索」の類似キーワードとなる。この例では、すべての共起表現が一致しているが、かならずしもその限りではなく、例えば、共起表現の優先度が高い上位n番目までの共起表現が一致する場合、もしくは、一致する割合が一定以上の場合に類似キーワードとして判定しても良い。
類似キーワード記憶部120は、類似キーワード検索部110からキーワードとその類似キーワードを受け取り記憶する。図13の(a)に、図12に対する類似キーワード検索部110の方法1による結果を記憶した例を示す。同様に、図13の(b)に、図13に対する類似キーワード検索部110の方法2による結果を記憶した例を示す。
分類部80は、文書保持部10の文書集合をキーワード記憶部50に記憶された名詞句によるキーワードでカテゴリに分類し、分類結果を分類結果記憶部90に記憶する。そして、その分類結果を出力する際、分類部80は、キーワードの名詞句と、類似キーワード記憶部120に記憶されたその名詞句のキーワードに類似する名詞句の関連キーワードとをあわせて表示装置3に出力する。
図14に分類部80が分類結果記憶部90に記憶した分類結果を表示装置3に出力する方法の一例を示す。この図14の出力方法では、カテゴリの名詞句の隣の列に類似キーワードを関連カテゴリとして表示し、そのさらに隣の列に文書内容を、さらに隣の列にデータ数を表示している。この図14では、類似キーワード検索部110の方法1と方法2の両方の方式の結果を表示しているが、どちらか一方の方式の結果のみを表示しても良い。
図15に分類部80が分類結果記憶部90に記憶した分類結果を表示装置3に出力する方法の別の例を示す。図15では、カテゴリの名詞句の隣の列に類似キーワードを関連カテゴリとして表示しており、利用者が名詞句または関連キーワードを選択すると、問い合わせ文表示欄に表示する文書をそのカテゴリに属する文書に切り替える。
次に、図16を参照して本実施の形態の動作を説明する。図16は、本実施の形態の処理のフローチャートを示す。図16のS1からのそれぞれのステップは、図11の形態素解析部20、係り受け解析部30、キーワード抽出部40、共起表現抽出部60、類似キーワード検索部110、分類部80の処理に対応している。ここで、ステップS2はステップS3の後、つまり図16の順番以外でS1→S3→S2→S4→S7→S5であってもよい。
図16を参照すると、まず形態素解析部20は、文書保持部10から例えば図3に示したような複数の文書を受け取り、形態素解析により単語列に分割し、図4に示したような解析結果を生成する(ステップS1)。
次に係り受け解析部30は、形態素解析部20の各文書毎の解析結果を受け取り、解析結果中の単語を文節に纏め上げ、その文節間の係り受け関係を求め、例えば図5に示したような解析結果を生成する(ステップS2)。
次にキーワード抽出部40は、形態素解析部20から各文書毎の解析結果を受け取り、解析結果中の単語列に含まれる名詞句をキーワードとして選択し、選択したキーワード(名詞句)が複数ある場合、キーワード(名詞句)間の優先度を決定する(ステップS3)。キーワード抽出部40で抽出されたキーワード(名詞句)はその優先度などとともにキーワード記憶部50に図6(a)または(b)に示したように記憶される。
次に共起表現抽出部60は、キーワード記憶部50よりキーワード(名詞句)を、係り受け解析部30より文節間の係り受け関係をそれぞれ受け取り、キーワード(名詞句)に共起する述語句を共起表現として選択し、選択した共起表現(述語句)が複数ある場合、共起表現(述語句)間の優先度を決定する(ステップS4)。共起表現抽出部60で抽出された共起表現(述語句)はその優先度などとともに共起表現記憶部70に図7に示したように記憶される。
次に類似キーワード検索部110は、共起表現記憶部70に記憶されたキーワード(名詞句)とその共起表現(述語句)を受け取り、それぞれのキーワード(名詞句)に類似するキーワード(名詞句)を検索する(ステップS7)。類似キーワード検索部110で検索された各キーワード毎の類似キーワードは、類似キーワード記憶部120に図13に示したように記憶される。
次に分類部80は、文書保持部10の文書集合をキーワード記憶部50に記憶された名詞句によるキーワードでカテゴリに分類し、分類結果を分類結果記憶部90に一旦記憶し、その後に表示装置3に表示する(ステップS8)。このとき分類部80は、図14または図15に示したように、キーワードの名詞句と類似キーワード記憶部120に記憶されたその名詞句のキーワードに類似する名詞句の関連キーワードとをあわせて表示装置3に出力する。
このように本実施の形態によれば、キーワード抽出部40によって抽出された名詞句のキーワードにあわせて、類似キーワード検索部110によって検索された類似キーワードをまとめて閲覧できるように表示するため、例えば、「価格」と「値段」、「電源」と「電源+スイッチ」のようにお互いに類似する別のカテゴリが存在する場合に、それらが別々に表示され、類似カテゴリが存在することがユーザにわからず問い合わせデータの全体像把握が効率的に行えない事態が防止でき、データの全体像把握が容易になる。
「第3の実施の形態」
図17を参照すると、本発明の第3の実施の形態にかかる端末装置1000は、キーワード分類装置1001と、問い合わせデータ記憶部1002と、表示装置1003と、入力装置1004とで構成される。キーワード分類装置1001は、図1のデータ処理装置2または図11のデータ処理装置2に相当する。問い合わせデータ記憶部1002は、磁気ディスク等で構成され、企業のコンタクトセンターや自治体の問い合わせ窓口に寄せられた過去の大量の問い合わせデータ(その回答データも含む)を記憶している。表示装置1003はLCD等のディスプレイ、入力装置1004はキーワードやマウス等で構成される。
本実施の形態にかかる端末装置1000は、企業のコンタクトセンターや自治体の問い合わせ窓口に設置される。問い合わせデータ記憶部1002に記憶された問い合わせデータは、キーワード分類装置1001内の文書保持部(図1または図11の文書保持部)に取り込まれ、前述した実施の形態と同様にして分類処理され、分類結果が表示装置1003に表示される。コンタクトセンターの担当者や自治体の問い合わせ窓口の担当者であるユーザ1005は、表示装置1003に表示された分類結果の中から、顧客より新たに提示された問い合わせに類似する事例を探し、それを参考に問い合わせに応答する。これにより、問い合わせに対して迅速な応答が可能となる。
「第4の実施の形態」
図18を参照すると、本発明の第4の実施の形態にかかる端末装置2000は、キーワード分類装置2001と、問い合わせデータ記憶部2002と、表示装置2003と、入力装置2004と、図形作成装置2005とで構成される。キーワード分類装置2001は、図1のデータ処理装置2に相当する。問い合わせデータ記憶部2002は、磁気ディスク等で構成され、企業のコンタクトセンターや自治体の問い合わせ窓口に寄せられた過去の大量の問い合わせデータを記憶している。図形作成装置2005は、キーワード分類装置2001の分類結果からパレート図を作成して表示装置2003に出力する装置である。表示装置2003はLCD等のディスプレイ、入力装置2004はキーワードやマウス等で構成される。
本実施の形態にかかる端末装置2000は、マーケティング担当者2006によって利用される。問い合わせデータ記憶部2002に記憶された問い合わせデータは、キーワード分類装置2001内の文書保持部(図1の文書保持部)に取り込まれ、前述した実施の形態と同様にして分類処理され、分類結果が図形作成装置2005に出力される。
図形作成装置2005は、分類結果からパレート図を作成し、表示装置1003に表示する。マーケティング担当者2006は、表示されたパレート図を参考に、問い合わせデータを分析し、その分析結果を製品開発等のマーケティングに利用する。
図形作成装置2005が分類結果から作成したパレート図の具体例を図19と図20に示す。何れも図8に示される分類結果から作成されたものである。図19のパレート図は、横軸にカテゴリの名詞句を列挙し、縦軸にデータ数をとり、各カテゴリに属するデータ数に比例した長さの棒グラフを描き、かつ、各棒グラフをサブカテゴリに属するデータ数に比例した幅で横に分割し、各分割領域にサブカテゴリの述語句を表示している。他方、図20では、横軸にカテゴリの名詞句を列挙し、縦軸にデータ数をとり、各カテゴリに属するデータ数に比例した長さの棒グラフを描いた左側のパレート図を表示し、そのパレート図中の何れかの棒グラフが入力装置の操作で選択された場合に、そのカテゴリに属するデータ数をサブカテゴリ毎に棒グラフにした右側のパレート図を表示するものである。なお、各パレート図において折れ線は左側のカテゴリから順にデータ数を累積していった場合のデータ数の累積割合を示している。
このように本実施の形態の端末装置2000によれば、問い合わせデータを分類してパレート図を効率的に作成することができる。
以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されず、その他各種の付加変更が可能である。また、本発明のキーワード分類装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとキーワード分類プログラムとで実現することができる。キーワード分類プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における形態素解析部20、係り受け解析部30、キーワード抽出部40、共起表現抽出部60、分類部80、類似キーワード検索部110等の機能手段として機能させる。
以上のように、本発明にかかるキーワード検索装置および方法は、企業のコンタクトセンターや自治体の問い合わせ窓口に寄せられた過去の大量の問い合わせデータから、問い合わせ窓口担当者が過去の類似問い合わせ事例を効率的に探したり、マーケティング担当者が、問い合わせデータを分類してパレート図を効率的に作成する装置および方法に用いるのに適している。
本発明の第1の実施の形態のブロック図である。 本発明の第1の実施の形態におけるキーワード抽出部と共起表現抽出部の構成例を示すブロック図である。 本発明の第1の実施の形態における文書保持部の記憶例を示す図である。 本発明の第1の実施の形態における形態素解析部の出力例を示す図である。 本発明の第1の実施の形態における係り受け解析部の出力例を示す図である。 本発明の第1の実施の形態におけるキーワード記憶部の記憶例を示す図である。 本発明の第1の実施の形態における共起表現記憶部の記憶例を示す図である。 本発明の第1の実施の形態における分類部の出力例を示す図である。 本発明の第1の実施の形態における分類部の別の出力例を示す図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態のブロック図である。 本発明の第2の実施の形態における共起表現記憶部の記憶例を示す図である。 本発明の第2の実施の形態における類似キーワード記憶部の記憶例を示す図である。 本発明の第2の実施の形態における分類部の出力例を示す図である。 本発明の第2の実施の形態における分類部の別の出力例を示す図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第3の実施の形態のブロック図である。 本発明の第4の実施の形態のブロック図である。 本発明の第4の実施の形態における図形作成装置が作成するパレート図の一例を示す図である。 本発明の第4の実施の形態における図形作成装置が作成するパレート図の別の例を示す図である。 従来技術による問い合わせデータの分類結果を示す図である。
符号の説明
1…文書記憶部
2…データ処理装置
3…表示装置
4…入力装置
10…文書保持部
20…形態素解析部
30…係り受け解析部
40…キーワード抽出部
50…キーワード記憶部
60…共起表現抽出部
70…共起表現記憶部
80…分類部
90…分類結果記憶部
110…類似キーワード検索部
120…類似キーワード記憶部
401…キーワード選択部
402…キーワード優先度判定部
601…共起表現選択部
602…共起表現優先度判定部
1000、2000…端末装置
1001、2001…キーワード分類装置
1002、2002…問い合わせデータ記憶部
1003、2003…表示装置
1004、2004…入力装置
1005…ユーザ
2005…図形作成装置
2006…マーケティング担当者

Claims (13)

  1. 分類対象とする複数の文書を保持する文書保持部と、
    前記複数の文書からキーワードとなる名詞句を抽出するキーワード抽出部と、
    前記抽出されたキーワードを記憶するキーワード記憶部と、
    前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出する共起表現抽出部と、
    前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを記憶する共起表現記憶部と、
    前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を前記共起表現記憶部に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類する分類部とを備えることを特徴とするキーワード分類装置。
  2. 前記分類部は、第1カテゴリに文書集合を分類する場合において、ある文書内に名詞句による複数のキーワードが存在する場合に、名詞句の優先度が最も高い名詞句で文書を分類することを特徴とする請求項1記載のキーワード分類装置。
  3. 前記分類部は、第1カテゴリに文書集合を分類する場合において、ある文書内に名詞句による複数のキーワードが存在する場合に、文書集合全体での名詞句の総出現頻度が最も高い名詞句で文書を分類することを特徴とする請求項1記載のキーワード分類装置。
  4. 前記分類部は、第1カテゴリに文書集合を分類する場合において、ある文書内に名詞句による複数のキーワードが存在する場合に、文書集合全体での名詞句の後ろ近傍に出現する助詞によって決まる重みの総和が最も高い名詞句で文書を分類することを特徴とする請求項1記載のキーワード分類装置。
  5. 前記分類部は、前記分類結果を表示装置に出力する場合において、カテゴリに所属する文書集合のうち出現頻度が高い名詞句でありかつ第1カテゴリの名詞句以外の名詞句をカテゴリをあらわす代表語として最初に表示しておき、いずれかの代表語を選択する指示が入力装置から入力されたとき、そのカテゴリに所属する代表語を含む文書集合を別の場所に表示することを特徴とする請求項1記載のキーワード分類装置。
  6. 分類対象とする複数の文書を保持する文書保持部と、
    前記複数の文書からキーワードとなる名詞句を抽出するキーワード抽出部と、
    前記抽出されたキーワードを記憶するキーワード記憶部と、
    前記キーワード記憶部に記憶されたキーワード毎にそれに類似するキーワードを抽出する類似キーワード検索部と、
    前記抽出された類似キーワードを記憶する類似キーワード記憶部と、
    前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードでカテゴリに分類し、その結果を出力する際に、カテゴリの名詞句と類似キーワード記憶部に記憶されたその名詞句に類似する名詞句による類似キーワードとをあわせて表示装置に出力する分類部とを備えたことを特徴とするキーワード分類装置。
  7. 前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出する共起表現抽出部と、
    前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを記憶する共起表現記憶部とを備え、
    前記類似キーワード検索部は、前記キーワード記憶部に記憶されたキーワード毎に、そのキーワードの名詞句に共起する述語句と同じ述語句が前記共起表現記憶部に記憶されている他の名詞句のキーワードを類似キーワードとして抽出するものであることを特徴とする請求項6記載のキーワード分類装置。
  8. 請求項1ないし7の何れか1項に記載されたキーワード分類装置と該キーワード分類装置で分類された結果を表示する表示装置とを備え、前記文書保持部に企業のコンタクトセンターあるいは自治体の問い合わせ窓口に寄せられた過去の問い合わせデータが記録されている端末装置。
  9. 請求項1ないし5の何れか1項に記載されたキーワード分類装置と該キーワード分類装置の分類結果からパレート図を作成する図形作成装置とを備え、前記文書保持部に企業のコンタクトセンターあるいは自治体の問い合わせ窓口に寄せられた過去の問い合わせデータが記録されている端末装置。
  10. a)キーワード抽出部が、文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、キーワード記憶部に記憶するステップ、
    b)共起表現抽出部が、前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出し、前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを共起表現記憶部に記憶するステップ、
    c)分類部が、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を前記共起表現記憶部に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類するステップ、
    を含むことを特徴とするキーワード分類方法。
  11. a)キーワード抽出部が、文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、キーワード記憶部に記憶するステップ、
    b)類似キーワード検索部が、前記キーワード記憶部に記憶されたキーワード毎にそれに類似するキーワードを抽出し、類似キーワード記憶部に記憶するステップ、
    c)分類部が、前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードでカテゴリに分類し、その結果を出力する際に、カテゴリの名詞句と前記類似キーワード記憶部に記憶されたその名詞句に類似する名詞句による類似キーワードとをあわせて表示装置に出力するステップ、
    を含むことを特徴とするキーワード分類方法。
  12. 分類対象とする複数の文書を保持する文書保持部、抽出されたキーワードを記憶するキーワード記憶部および抽出された述語句を記憶する共起表現記憶部を有するキーワード分類装置を構成するコンピュータを、
    前記文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、前記キーワード記憶部に記憶するキーワード抽出手段、
    前記複数の文書から前記抽出されたキーワードの名詞句に共起する述語句を抽出し、前記抽出されたキーワードの名詞句とそれに対応する前記述語句とを前記共起表現記憶部に記憶する共起表現抽出手段、
    前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードで第1カテゴリに分類し、かつ第1カテゴリに所属する文書を前記共起表現記憶部に記憶された前記名詞句によるキーワードに対応する述語句で第2カテゴリに分類する分類手段、
    として機能させるプログラム。
  13. 分類対象とする複数の文書を保持する文書保持部、抽出されたキーワードを記憶するキーワード記憶部および抽出された類似キーワードを記憶する類似キーワード記憶部を有するキーワード分類装置を構成するコンピュータを、
    前記文書保持部に保持された分類対象とする複数の文書からキーワードとなる名詞句を抽出し、前記キーワード記憶部に記憶するキーワード抽出手段、
    前記キーワード記憶部に記憶されたキーワード毎にそれに類似するキーワードを抽出し、前記類似キーワード記憶部に記憶する類似キーワード検索手段、
    前記複数の文書を前記キーワード記憶部に記憶された名詞句によるキーワードでカテゴリに分類し、その結果を出力する際に、カテゴリの名詞句と前記類似キーワード記憶部に記憶されたその名詞句に類似する名詞句による類似キーワードとをあわせて表示装置に出力する分類手段、
    として機能させるプログラム。
JP2004243460A 2004-08-24 2004-08-24 キーワード分類装置およびその方法、端末装置ならびにプログラム Pending JP2006065366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004243460A JP2006065366A (ja) 2004-08-24 2004-08-24 キーワード分類装置およびその方法、端末装置ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004243460A JP2006065366A (ja) 2004-08-24 2004-08-24 キーワード分類装置およびその方法、端末装置ならびにプログラム

Publications (1)

Publication Number Publication Date
JP2006065366A true JP2006065366A (ja) 2006-03-09

Family

ID=36111849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004243460A Pending JP2006065366A (ja) 2004-08-24 2004-08-24 キーワード分類装置およびその方法、端末装置ならびにプログラム

Country Status (1)

Country Link
JP (1) JP2006065366A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
JP2008033835A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
JP2009152927A (ja) * 2007-12-21 2009-07-09 Sony Corp コンテンツの再生方法および再生システム
JP2010198141A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ
JP2012234282A (ja) * 2011-04-28 2012-11-29 Nec Corp 要求文書分析システム、方法およびプログラム
WO2012169380A1 (ja) * 2011-06-09 2012-12-13 Shindo Tatsuya 文書共有システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (ja) * 1994-09-30 1996-06-11 Hitachi Ltd 文書情報分類方法および文書情報分類装置
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2000067068A (ja) * 1998-08-21 2000-03-03 Nec Corp ドキュメント自動分類システム及び方法
JP2000259670A (ja) * 1999-03-12 2000-09-22 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2001184358A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2003044486A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システム、クラスタ管理方法およびクラスタ管理プログラム
JP2003323436A (ja) * 2002-05-01 2003-11-14 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (ja) * 1994-09-30 1996-06-11 Hitachi Ltd 文書情報分類方法および文書情報分類装置
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2000067068A (ja) * 1998-08-21 2000-03-03 Nec Corp ドキュメント自動分類システム及び方法
JP2000259670A (ja) * 1999-03-12 2000-09-22 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2001184358A (ja) * 1999-12-24 2001-07-06 Fujitsu Ltd カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2003044486A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システム、クラスタ管理方法およびクラスタ管理プログラム
JP2003323436A (ja) * 2002-05-01 2003-11-14 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
幡鎌博: "ナレッジマネジメントへむけて−知識検索・整理および基盤技術−", 人工知能学会誌, vol. 第13巻,第6号, JPN6009012448, 1 November 1998 (1998-11-01), JP, pages 912 - 919, ISSN: 0001276923 *
清田陽司: "構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価", 電子情報通信学会技術研究報告, vol. 第98巻,第210号, JPN6009012445, 24 July 1998 (1998-07-24), JP, pages 15 - 22, ISSN: 0001276925 *
砂山渡: "未来の流行を予測するWebからの注目キーワードの発見", 知能と情報, vol. 第15巻,第3号, JPN6009012447, 15 June 2003 (2003-06-15), JP, pages 309 - 317, ISSN: 0001276924 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
JP2008033835A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法
JP4734191B2 (ja) * 2006-07-31 2011-07-27 富士通株式会社 オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
JP2009152927A (ja) * 2007-12-21 2009-07-09 Sony Corp コンテンツの再生方法および再生システム
JP2010198141A (ja) * 2009-02-23 2010-09-09 Rakuten Inc 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP2012234282A (ja) * 2011-04-28 2012-11-29 Nec Corp 要求文書分析システム、方法およびプログラム
WO2012169380A1 (ja) * 2011-06-09 2012-12-13 Shindo Tatsuya 文書共有システム
JPWO2012169380A1 (ja) * 2011-06-09 2015-02-23 達也 進藤 文書共有システム
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ

Similar Documents

Publication Publication Date Title
Bethard et al. Who should I cite: learning literature search models from citation behavior
US8010539B2 (en) Phrase based snippet generation
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
US10747795B2 (en) Cognitive retrieve and rank search improvements using natural language for product attributes
JP2010066870A (ja) 情報推薦装置および情報推薦方法
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
Duan et al. VISA: a visual sentiment analysis system
Fišer et al. Distributional modelling for semantic shift detection
Caputo et al. SABRE: A sentiment aspect-based retrieval engine
JP2006065366A (ja) キーワード分類装置およびその方法、端末装置ならびにプログラム
Venkatachalam et al. An ontology-based information extraction and summarization of multiple news articles
Grobelnik et al. Text mining as integration of several related research areas: report on KDD's workshop on text mining 2000
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Nazemi et al. Comparison of full-text articles and abstracts for visual trend analytics through natural language processing
Ly et al. Product review summarization based on facet identification and sentence clustering
Wang et al. An automatic online news topic keyphrase extraction system
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2002183175A (ja) テキストマイニング方法
JP2000105769A (ja) 文書表示方法
Chakraborti et al. Multi-document text summarization for competitor intelligence: a methodology
JP2005234772A (ja) 文書管理装置および方法
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090525

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090811