JP4956298B2 - 辞書構築支援装置 - Google Patents

辞書構築支援装置 Download PDF

Info

Publication number
JP4956298B2
JP4956298B2 JP2007173411A JP2007173411A JP4956298B2 JP 4956298 B2 JP4956298 B2 JP 4956298B2 JP 2007173411 A JP2007173411 A JP 2007173411A JP 2007173411 A JP2007173411 A JP 2007173411A JP 4956298 B2 JP4956298 B2 JP 4956298B2
Authority
JP
Japan
Prior art keywords
expression
dictionary
input
document data
data group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007173411A
Other languages
English (en)
Other versions
JP2009015394A (ja
Inventor
早織 倉田
恭子 牧野
茂 松本
ルミ 早川
敏行 加納
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007173411A priority Critical patent/JP4956298B2/ja
Publication of JP2009015394A publication Critical patent/JP2009015394A/ja
Application granted granted Critical
Publication of JP4956298B2 publication Critical patent/JP4956298B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば文書データ群のテキストマイニングにおいて必要とされる辞書情報の構築を支援する辞書構築支援装置に関する。
従来、文書分析システム用の辞書構築を支援する装置として、文書データから抽出された表現を、簡単な操作で辞書に登録出来る装置があった(例えば、特許文献1参照)。この装置では、例えば、文章データを形態素解析および構文解析して単語を抽出した後、抽出された単語を羅列することにより単語リストを作成する。そして、この単語リストから辞書に登録する単語をユーザに選択させることにより、辞書構築を行っている。
特開2002−140338号公報
しかしながら、ユーザの目視による単語の選択作業は、試行錯誤のため時間がかかる作業であった。一方、分類精度がよい辞書を作成するためには、単なる出現頻度順に並んだ単語リストから単語を選択し登録するのみでは不十分であった。
そこで、本発明の目的は、ユーザによる選択操作を必要とせずに精度がよい辞書情報の構築を支援することが可能になる辞書構築支援装置を提供することにある。
すなわち、本発明に係わる辞書構築支援装置は、文書データ群の分析用の辞書情報を記憶する記憶手段と、辞書情報の構築支援用の文書データ群を入力する入力手段と、入力した文書データ群中の特徴表現を抽出する第1の抽出手段と、入力した文書データ群中の類似表現を抽出する第2の抽出手段とを備え、抽出した特徴表現および類似表現をもとに、入力した文書データ群に含まれる表現と異なる表現を生成し、この生成した表現を含む辞書情報を記憶手段に記憶することを特徴とする。
本発明によれば、ユーザによる選択操作を必要とせずに精度がよい辞書情報の構築を支援することができる。
以下図面により本発明の実施形態について説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態にしたがった辞書構築支援装置の構成例を示すブロック図である。
図1に示すように、本発明の第1の実施形態にしたがった辞書構築支援装置は、入力手段である入力装置1、記憶手段である記憶装置2、登録候補表現生成部3、表現の編集手段である表現編集部4、辞書登録部5、表示装置6、分類処理手段である分類処理部7を備え、それぞれがバス8を介して相互に接続される。
記憶装置2は、ハードディスクドライブや不揮発性メモリなどの記憶媒体であり、登録候補表現生成部3、表現編集部4、辞書情報の記憶制御手段である辞書登録部5、分類処理部7による実行対象の制御用プログラムを記憶する。
また、記憶装置2は、辞書情報の構築に用いる文書データ群を記憶する分析対象データ記憶部21、辞書情報を記憶する辞書情報記憶部22を有する。本実施形態では、辞書情報は、文書データ群の分類のための表現を分類項目名と対応付けた分類用辞書情報である。また、記憶装置2は、登録候補表現生成部3、表現編集部4、辞書登録部5、分類処理部7によるワークメモリとしても機能する。
登録候補表現生成部3は、文書データ群から特徴表現を抽出する第1の抽出手段である特徴表現抽出部31、文書データ群から類似表現を抽出する第2の抽出手段である類似表現抽出部32、辞書情報に登録する表現の生成条件を設定する表現生成条件設定部33、辞書情報へ登録する表現を生成する生成手段である表現生成部34を有する。入力装置1は例えばキーボードやマウスである。表示装置6はディスプレイ装置である。
表現編集部4は、登録候補表現生成部3の特徴表現抽出部31や類似表現抽出部32により抽出した表現を入力装置1への入力操作にしたがって編集する。
辞書登録部5は、登録候補表現生成部3の表現生成部34が生成した表現を辞書情報に登録する。また、辞書登録部5は、表現生成部34が生成した表現のうち辞書情報に登録する表現を判定する辞書登録判定部51を有する。
分類処理部7は、分類を要する文書データ群を記憶装置2の辞書情報記憶部22に記憶される辞書情報をもとに分類する。
次に、図1に示した構成の辞書構築支援装置の動作について説明する。
この実施形態では、旅行会社のアンケート分析用辞書情報の構築を目的とし、辞書情報構築のための分析対象データ群としてアンケート回答文書データを想定している。ただし、分析対象データはテキストデータであれば特に限定されない。
また、分析対象データ群のそれぞれにおいては、本文である分析対象テキストの属性情報が含まれる。この実施形態では、属性情報として、アンケート対象の旅行が国内であるか海外であるかの区別、アンケートの意見が好評意見であるか不評意見であるかの区別、利用施設やコースの区別が挙げられる。
図2は、本発明の第1の実施形態にしたがった辞書構築支援装置の処理動作の一例を示すフローチャートである。
分析対象データ群となる文書データ群は記憶装置2に既に記憶されているとする。この文書データ群は、入力装置1への操作により新規に作成して記憶装置2に記憶してもよいし、外部装置から図示しない入出力インタフェースを介して記憶装置2に記憶してもよい。
まず、登録候補表現生成部3は、入力装置1への予め定められた入力操作により、分析対象データ群の指定および辞書情報の構築が指示されると、記憶装置2に記憶される文書データ群のうち、指定された分析対象データ群を読み出し、当該データ群中の各分析対象データであるアンケート回答文書データについて、当該回答文書データに含まれる属性情報と関連付けた情報を分析対象データ記憶部21に記憶する(ステップS1)。
図3は、本発明の第1の実施形態にしたがった辞書構築支援装置の分析対象データ記憶部に記憶された分析対象データ群の一例を表形式で示す図である。
図3に示した分析対象データ群の1行分は、1つのアンケート回答文書データに対応する。各行の分析対象データは、アンケート回答本文である分析対象テキスト、アンケート対象の旅行が国内であるか海外であるかを区別する属性A、アンケートの意見が好評意見であるか不評意見であるかを区別する属性B、利用施設やコースを区別する属性Cが関連付けられる。
例えば、図3に示した分析対象データ群の1行目に対応する分析対象データでは、属性Aは「国内」で、属性Bは「好評意見」であり、属性Cは「ホテル」であり、分析対象テキストは「ホテルの食事が良い、満足した」となる。
次に、登録候補表現生成部3の特徴表現抽出部31は、分析対象データ記憶部21に記憶された分析対象データ群から特徴表現を抽出する(ステップS2)。
具体的には、特徴表現抽出部31は、例えば、形態素解析や構文解析により単語頻度やTF(Term Frequency)とIDF(Inverse Document Frequency)の積を算出し、これらの値(スコア)を基準に特徴的な単語とするといった、公知の特徴単語抽出方法で、分析対象データから特徴表現を抽出する。
TFは、各文書内における出現頻度を全文書について和をとった値である。IDFは全文書数とDFの商の対数である。DFは、表現が出現する文書数である。
また、分析対象データに属性情報が付与されている場合、この値に基づき分析対象データを幾つかの集合に分割し、相互情報量などといった値を基準に、グループ特有の表現やグループ毎の特徴表現を抽出することも可能である。相互情報量は、文章・文書中に出現する2単語が同時に出現する度合いなどにより、単語間の関連度を表す量であり、この2単語を、グループとそのグループに属する単語すると、相互情報量は、この単語がグループに属する度合いを表す量でもある。
特徴表現抽出部31は、記憶装置2に記憶された特徴情報抽出の条件にしたがって特徴情報の抽出をグループごとに行う。ここでは、第1のグループに属する特徴表現抽出の条件は「グループ分割指定」、「グループごとに表現抽出」および「属性Bが好評意見である」である。また、第2のグループに属する特徴表現抽出の条件は「グループ分割指定」、「グループごとに表現抽出」および「属性Bが不評意見である」である。
特徴表現抽出部31は、図3に示した内容の分析対象データ群をもとに、特徴表現と、当該特徴表現のスコアと、当該特徴表現の抽出元の分析対象テキストが図3に示した分析対象データ群の表で対応する属性Bの名称と、属性の名称ごとに固有の仮のグループ名とを関連付けて、これらをグループごとに纏めた上でスコア順に並べた処理データを生成する。
図4は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による特徴表現抽出のための処理データの一例を表形式で示す図である。
図4に示した処理データでは、グループ名「グループA」に属する特徴表現は、抽出元の分析対象テキストが図3に示した分析対象データ群の表で対応する属性Bが「好評意見」であった「満足」、「抜群」、「良い」、「面白い」であり、グループ名「グループB」に属する特徴表現は、抽出元の分析対象テキストが図3に示した分析対象データ群の表で対応する属性Bが「不評意見」であった「汚い」などである。
特徴表現抽出部31は、図4に示した処理データのうち、グループ名の項目における仮のグループ名の記述を抽出条件の項目の属性情報の名称の記述に置き換えたデータを生成し、これを特徴表現抽出結果として表示装置6に表示させる。
図5は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による特徴表現抽出結果の一例を表形式で示す図である。
図5に示した特徴表現抽出結果では、図4に示した処理データ中の「グループA」が「好評意見」に置き換えられ、「グループB」が「不評意見」に置き換えられる。この結果、グループ名「好評意見」に関わる特徴表現が「満足」、「抜群」、「良い」、「面白い」となり、グループ名「不評意見」に関わる特徴表現が「汚い」などとなる。
表現編集部4は、図5に示した特徴表現抽出結果が表示装置6に表示される状態で入力装置1への表現編集にかかる入力操作がなされた場合、表示装置6に表示された内容の特徴表現抽出結果を編集し、この編集後の結果を記憶装置2に上書き記憶する。
次に、登録候補表現生成部3の類似表現抽出部32は、分析対象データ記憶部21に記憶された分析対象データ群から類似表現を抽出する(ステップS3)。
具体的には、類似表現抽出部32は、例えば、クラスタリングといった、文書を内容が互いに似たもの同士である集合(クラスタ)を幾つか生成する方法などの、公知の文書分類方法で、分析対象データ群をこのような幾つかの集合に分割する。
類似表現抽出部32は、各クラスタにおいて、表現がクラスタに属する度合である帰属度を示すスコアを単語別に算出し、これらの単語のスコアを基準に、クラスタ毎に意味が類似する単語である類似表現を抽出する。
類似表現抽出部32は、図3に示した内容の分析対象データ群をもとに、類似表現と、当該類似表現のスコアと、当該類似表現が属するクラスタに固有の仮のクラスタ名とを関連付けて、これらをクラスタごとに纏めた上でスコア順に並べた処理データを生成する。
図6は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出のための処理データの一例を表形式で示す図である。
図6に示した処理データでは、クラスタ名「クラスタA」に属する類似表現は、図3に示した分析対象データ群の分析対象テキストに含まれる「ミュージアム」、「美術館」および「博物館」であり、クラスタ名「クラスタB」に属する類似表現は、図3に示した分析対象データ群の分析対象テキストに含まれる「お風呂」および「浴室」である。
類似表現抽出部32は、図6に示した処理データのうち、クラスタ名の項目の記述を当該クラスタ名に属する類似表現のうちスコアが最も高い表現に置き換えたデータを生成し、これを類似表現抽出結果として表示装置6に表示させる。
図7は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出結果の一例を表形式で示す図である。
図7に示した特徴表現抽出結果は、図6に示した処理データ中のクラスタ名「クラスタA」が、当該「クラスタA」に属する類似表現「ミュージアム」、「美術館」および「博物館」のうちスコアが最も高い「ミュージアム」に置き換えられ、処理データ中のクラスタ名「クラスタB」が、当該「クラスタB」に属する類似表現「お風呂」および「浴室」のうちスコアが最も高い「お風呂」に置き換えられたものである。この結果、クラスタ名「ミュージアム」に関わる類似表現が「ミュージアム」、「美術館」および「博物館」となり、クラスタ名「お風呂」に関わる特徴表現が「お風呂」および「浴室」となる。
表現編集部4は、図7に示した類似表現抽出結果が表示装置6に表示される状態で入力装置1への表現編集にかかる入力操作がなされた場合、表示装置6に表示された内容の類似表現抽出結果を編集し、この編集後の結果を記憶装置2に上書き記憶する。
次に、登録候補表現生成部3の表現生成条件設定部33は、辞書に登録する表現の生成条件を設定し、これを表示装置6に表示させる(ステップS4)。
具体的には、表現生成条件設定部33は、第1の生成条件として、ステップS2の処理で特徴表現抽出部31が生成した特徴表現抽出結果を設定する。また、表現生成条件設定部33は、第2の生成条件として、ステップS3の処理で類似表現抽出部32が生成した類似表現抽出結果をもとに、見出し表現と当該見出し表現に属する複数の同義語を設定する。
図8は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出結果にしたがった表現生成条件の一例を表形式で示す図である。
図8に示した表現生成条件は、図7に示した類似表現抽出結果の「ミュージアム」に関わる類似表現である「ミュージアム」、「美術館」および「博物館」のうち、「ミュージアム」を見出し表現「ミュージアム」に属する第1の同義語である同義語Aとして、「美術館」を第2の同義語である同義語Bとして、「博物館を」第3の同義語である同義語Cとして設定し、かつ、図7に示した類似表現抽出結果の「お風呂」に関わる類似表現である「お風呂」および「浴室」のうち、「お風呂」を見出し表現「お風呂」に属する第1の同義語である同義語Aとして、「浴室」を第2の同義語である同義語Bにそれぞれ設定したものである。
表現生成条件設定部33は、図8に示した生成条件が表示装置6に表示される状態で入力装置1への条件編集にかかる入力操作がなされた場合、表示装置6に表示された内容の表現生成条件を編集し、この編集後の結果を記憶装置2に上書き記憶する。
次に、登録候補表現生成部3の表現生成部34は、表現生成条件設定部33が設定した各種の表現生成条件をもとに、単独で存在する表現や共起表現を分析対象データ群から抽出することにより、辞書情報への登録候補の表現を生成する(ステップS5)。
表現生成部34による共起表現の抽出方法は、ステップS4の処理で設定された表現生成条件中の表現と共起する表現を抽出する方法である。この方法は、共起する表現間は形態素単位で隣接もしくは離れていてもよいといった、既存の様々な基準で定められる。また、表現生成部34は構文解析を用いて共起表現を抽出してもよい。
図9は、本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による辞書登録候補生成結果の一例を表形式で示す図である。
図9に示した辞書登録候補生成結果では、表現生成部34が辞書情報への登録候補として得た表現と、当該表現のTF、DFと、当該表現が属するグループ名とが関連付けられる。
この辞書登録候補生成結果において、共起表現と関わるグループ名は、表現生成部34が、共起表現を構成する各種表現と、各種表現生成条件や特徴表現抽出結果や類似表現抽出結果における表現と対応付けられるグループ名やクラスタ名をもとに生成したものである。
また、この辞書登録候補生成結果において、共起表現と関わるTF、DFは、表現生成部34が、各種表現生成条件や特徴表現抽出結果や類似表現抽出結果における各種表現のスコアなどをもとにして計算したものである。
表現生成部34は、第1の生成条件として設定された、図5に示した特徴表現抽出結果中の特徴表現「満足」、「抜群」、「良い」、「汚い」を使用することで、図9に示すように、辞書情報への登録候補の表現「満足」、「食事満足」、「ツアー価格満足」、「景色が抜群」、「食事が満足」「食事が良い」、「部屋が汚い」を取得する。これらの登録候補の表現のグループ名は、当該表現の取得元の生成条件中の該当表現のグループ名である「好評意見」や「不評意見」に準ずる。
この得られた表現のうち図9に示した表の1行目の「満足」は、表現生成部34が、第1の生成条件中の特徴表現「満足」を、そのまま辞書情報への登録候補の表現としたものであり、図9中の線L1で囲まれた「食事が良い」は分析対象データ群中の分析対象テキストの表現と一致するものである。しかし、「食事満足」、「ツアー価格満足」、「景色が抜群」、「食事が満足」、「部屋が汚い」は、分析対象データ群中の分析対象テキストの表現と一致しないが、第1の生成条件中の特徴表現「満足」、「抜群」、「良い」、「汚い」および分析対象データ群中の分析対象テキストの表現をもとに表現生成部34が新たに生成した表現である。
つまり、表現生成部34は、第1の生成条件を用いることで、用言、例えば第1の生成条件中の特徴表現「良い」などに対する主体まで含んだ表現を得ることができる。
また、記憶装置2には「表現生成部34は辞書情報への登録候補の表現として「食事」と「満足」の間に助詞も含んだ表現を生成してもよい」といった表現生成ルールが記憶されており、表現生成部34は、このルールをもとに、図9に示すように第1の生成条件中の特徴表現「満足」に対し、辞書登録候補の表現「食事満足」、「食事が満足」といった、「食事」に関して2つ以上の表現を生成する。このようにして、表現生成部34は、適切な表現のバリエーションを生成することが出来る。
ここで、表現生成部34は、辞書情報への登録候補として得た表現の中で、TFが10以上の表現を抽出し、これを辞書登録候補生成結果とする。つまり、表現生成部34は生成済みの表現のうち予め定められた条件を満たす表現を選択する選択手段として機能する。
また、表現生成部34は、図8に示した第2の生成条件中の同義語である「ミュージアム」、「美術館」と「博物館」の組、および「お風呂」、「浴室」の組を使用することで、図9中の線L2で囲まれたように、辞書情報への登録候補の表現「ミュージアムは面白い」、「美術館は面白い」といった、同じ用言に対する主体が同義語からなる表現群や、「お風呂が広い」、「浴室が汚い」というお風呂に関する表現群を生成する。これらの登録候補の表現のグループ名は、当該表現の取得元の生成条件中の該当表現のクラスタ名である「ミュージアム」や「お風呂」に準ずる。
この「ミュージアムは面白い」は、分析対象データ群には存在しない文章である。一方、「博物館は面白い」は分析対象データ群に存在する文章である。よって、表現生成部34は、この同義語条件を用いた表現生成により、入力データである分析対象データ群にない表現も得ることができる。この様な表現生成方法により、他の分類対象の文書データ群の分類に対して適用可能で分類精度の高い辞書登録表現を生成できる効果がある。
次に、辞書登録部5の辞書登録判定部51は、表現生成部34が得た辞書登録候補生成結果をもとに、記憶装置2に記憶された辞書登録基準に基づき、表現を辞書に登録するか否かの判定を行う(ステップS6)。
具体的には、辞書登録判定部51は、辞書登録基準として、一般的に単語の重みを示す指標である、TFとIDFの積などを使用し、この指標がある値以上を取る表現を辞書情報に登録すべき表現と判定する。この値は、例えば、TFとIDFの積を単語全体に対して和をとった値の何%とするといった経験値や統計学による分析結果に基づく値でもよい。
辞書登録部5は、表現生成部34が得た辞書登録候補生成結果中の表現のうち、辞書登録判定部51が辞書情報に登録すべき表現と判定した表現を、当該辞書登録候補生成結果において対応付けられるグループ名とともに記憶装置2の辞書情報記憶部22に記憶することで辞書情報を登録する(ステップS7)。辞書情報として登録された表現のそれぞれには通し番号が付与される。
図10は、本発明の第1の実施形態にしたがった辞書構築支援装置の辞書登録部による辞書情報登録結果の一例を表形式で示す図である。
そして、辞書登録部5は、入力装置1への、登録済み辞書情報の検証にかかる各種メニューである「辞書作成支援」、「辞書編集」の選択にかかる入力操作にしたがって、記憶装置2の辞書情報記憶部22に記憶される辞書情報を表示装置6に表示させる(ステップS8)。
図11は、本発明の第1の実施形態にしたがった辞書構築支援装置による辞書情報の表示例を示す図である。
この画面上の「名前を付けて保存」と表示されたアイコンが入力装置1への操作により選択されると、辞書登録部5は、表示される辞書情報の識別名である辞書名の入力画面を表示装置6に表示させる。この画面にしたがって入力された辞書名の辞書情報を辞書情報記憶部22に記憶する。これにより辞書情報の構築が終了する。
また、図11に示された画面上で、入力装置1への入力操作により、辞書情報の内容を変更することができる。変更の終了後、「上書き保存」と表示されたアイコンが入力装置1への操作により選択されると、当該辞書情報を辞書情報記憶部22に上書き記憶する。
辞書情報の構築後、分類処理部7は、辞書情報の構築に用いた分析対象データ群とは別の、分類対象の文書データ群を記憶装置2から新たに読み出す。分類対象の文書データ群は、入力装置1への操作により新規に作成して記憶装置2に記憶してもよいし、外部装置から図示しない入出力インタフェースを介して記憶装置2に記憶してもよい。
そして、分類処理部7は、読み出した文書データ群の一つと辞書情報中の表現とを照合し、当該文書データ中の表現のうち辞書情報における表現と一致する表現があれば、当該表現に対して辞書情報中で関連付けられるグループ名を取得し、照合した文書データを当該グループ名に関わる文書データとして分類する(ステップS9)。分類処理部7は、この分類処理を文書データ群のそれぞれについて行なう。
以上のように、本発明の第1の実施形態にしたがった辞書構築支援装置では、登録候補表現生成部3と辞書登録部5により、ユーザが表現を一から考えて手作業で辞書情報を登録しなくても、この辞書情報が自動で構築でき、容易に辞書構築を行うことが可能となる。
加えて、この辞書構築支援装置は、分析対象データ群の文章にそのまま記述される表現のみを辞書情報の表現とするのではなく、分析対象データ群のそれぞれの文章データ中に点在する表現をもとに、分析対象データ群の文章にそのまま記述されていない表現を辞書情報の表現とすることができるので、辞書情報の構築後に、別の分類対象の文書データ群を精度良く分類することができる。
また、この発明は、文書校正システムといった他の文書分析システム用の辞書構築にも適用可能である。さらに、辞書情報の更新作業といった、文書分析システムの運用作業の時間削減にも効果がある。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る辞書構築支援装置の構成のうち図1に示したものと同一部分の説明は省略する。
図12は、本発明の第2の実施形態にしたがった辞書構築支援装置の構成例を示すブロック図である。
図12に示すように、本発明の第2の実施形態にしたがった辞書構築支援装置は、第1の実施形態にしたがった辞書構築支援装置と比較して、辞書検証部41と、辞書情報の編集手段である辞書編集部42をさらに備え、それぞれがバス8に接続される。
辞書検証部41は、ユーザが分析対象データ群と当該データ群をもとに構築された辞書情報との対応関係を表示装置6に表示させる。
また、辞書編集部42は、入力装置1への入力操作にしたがって辞書情報記憶部22に記憶される辞書情報を編集する。
図13は、本発明の第2の実施形態にしたがった辞書構築支援装置の処理動作の一例を示すフローチャートである。
本発明の第2の実施形態では、第1の実施形態で説明したステップS1からS8までの処理がなされた後で、入力装置1への、登録済み辞書情報の検証にかかる登録済み辞書情報の検証にかかる各種メニューである「辞書作成支援」、「辞書検証」および「辞書検証結果表示」の選択や検証対象の辞書名の入力操作がなされると、辞書検証部41は、記憶装置2の辞書情報記憶部22に記憶される辞書情報のうち、検証対象の辞書名に対応する辞書情報を読み出し、かつ、当該辞書情報の構築に用いられた分析対象データ群を記憶装置2の分析対象データ記憶部21から読み出し、これらをもとに、文章表示フィールドおよび辞書表示フィールドを含む辞書情報検証用画面を表示装置6に表示させる(ステップS11)。
図14は、本発明の第2の実施形態にしたがった辞書構築支援装置の辞書検証部による辞書情報検証結果の表示例を示す図である。
図14に示すように、辞書情報検証結果の画面の文章表示フィールドには、分析対象データ群の各文書データの文章番号と文章、つまり本文とが関連付けられて表示される。文章表示フィールドに一度に表示される文章は分析対象データ群の一部であるが、表示されていない文章番号に対応する文章は、入力装置1による画面上のスクロールバーへの操作により表示させることができる。
ユーザが入力装置1への操作により画面上の文章の一つを選択すると、辞書検証部41は、ステップS11の処理で読み出した辞書情報の表現のうち、選択された文章中の表現と一致する表現を、当該辞書情報中で対応付けられるグループ名、通し番号とともに辞書表示フィールドに表示させる。
例えば、図10において、「文章番号1」の文章がカーソルなどで選択されている場合、辞書表示フィールドには、この文章において抽出された辞書情報に登録されている表現、つまり文章表示フィールドにおける選択済み文章において下線が付される表現「食事が良い」、「満足」が表示される。これにより、ユーザは、分析対象データ群の文章のうち、構築された辞書情報に反映されている表現を容易に確認できる。
この辞書構築支援装置は、ユーザが辞書情報検証結果の画面を参照して、この画面で選択されている文章中の表現に関わる辞書情報の表現を追加する機能を有する。
例えば、ユーザが「文章番号1」の文章中の下線が付されていない表現「対応悪かった」を確認し、これをグループ名「不評意見」に関わる表現「対応悪かった」として辞書情報に登録したいと考え、入力装置1への入力操作により、図10の画面上の辞書表示フィールドに行を追加し、グループ名「不評意見」、表現「対応悪かった」を入力したとする。
そして、入力装置1への操作により、画面上の「上書き保存」と示されたアイコンが選択されると、辞書編集部42は、追加した表現を辞書情報記憶部22に上書き記憶することで辞書情報を編集する(ステップS12)。
そして、辞書検証部41は、ステップS11の処理と同様に、記憶装置2の辞書情報記憶部22に記憶される辞書情報のうち、検証対象の辞書名に対応する辞書情報を読み出し、かつ、当該辞書情報の構築に用いられた分析対象データ群を記憶装置2の分析対象データ記憶部21から読み出し、これらをもとに、辞書情報編集後の文章表示フィールドおよび辞書表示フィールドを含む辞書情報検証用画面を表示装置6に表示させる(ステップS13)。
図15は、本発明の第2の実施形態にしたがった辞書構築支援装置の辞書編集部による辞書情報編集後の辞書情報検証結果の表示例を示す図である。
図15に示した画面では、図14に示した画面と比較して、文章フィールドにおいて選択済みの文章番号「1」の文章中の「対応悪かった」に下線が新たに付され、この下線部分に対応して、辞書情報フィールドにグループ名「不評意見」、番号「9」および表現「対応悪かった」が追加される。以後は、第1の実施形態で説明したステップS9,S10の処理に移行する。
以上説明したように、本発明の第2の実施形態にしたがった辞書構築支援装置は、第1の実施形態での効果に加え、ユーザは、構築済みの辞書情報と当該構築に用いられた分析対象データ群の文章との対応関係を検証した上で、辞書の編集を行なうことができ、この編集された辞書情報に関する検証を行なうこともできる。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
本発明の第1の実施形態にしたがった辞書構築支援装置の構成例を示すブロック図。 本発明の第1の実施形態にしたがった辞書構築支援装置の処理動作の一例を示すフローチャート。 本発明の第1の実施形態にしたがった辞書構築支援装置の分析対象データ記憶部に記憶された分析対象データ群の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による特徴表現抽出のための処理データの一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による特徴表現抽出結果の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出のための処理データの一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出結果の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による類似表現抽出結果にしたがった表現生成条件の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の登録候補表現生成部による辞書登録候補生成結果の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置の辞書登録部による辞書情報登録結果の一例を表形式で示す図。 本発明の第1の実施形態にしたがった辞書構築支援装置による辞書情報の表示例を示す図。 本発明の第2の実施形態にしたがった辞書構築支援装置の構成例を示すブロック図。 本発明の第2の実施形態にしたがった辞書構築支援装置の処理動作の一例を示すフローチャート。 本発明の第2の実施形態にしたがった辞書構築支援装置の辞書検証部による辞書情報検証結果の表示例を示す図。 本発明の第2の実施形態にしたがった辞書構築支援装置の辞書編集部による辞書情報編集後の辞書情報検証結果の表示例を示す図。
符号の説明
1…入力装置、2…記憶装置、3…登録候補表現生成部、4…表現編集部、5…辞書登録部、6…表示装置、7…分類処理部、8…バス、21…分析対象データ記憶部、22…辞書情報記憶部、31…特徴表現抽出部、32…類似表現抽出部、33…表現生成条件設定部、34…表現生成部、41…辞書検証部、42…辞書編集部、51…辞書登録判定部。

Claims (6)

  1. 文書データ群の分析用の辞書情報を記憶する記憶手段と、
    前記辞書情報の構築支援用の文書データ群を入力する入力手段と、
    前記入力した文書データ群中の特徴表現を抽出する第1の抽出手段と、
    前記入力した文書データ群中の類似表現を抽出する第2の抽出手段と、
    前記第1の抽出手段により抽出した特徴表現および前記第2の抽出手段により抽出した類似表現をもとに、前記入力した文書データ群に含まれる表現と異なる表現を生成する生成手段と、
    前記生成手段により生成した表現を含む辞書情報を前記記憶手段に記憶する記憶制御手段と
    を備えたことを特徴とする辞書構築支援装置。
  2. 前記辞書情報は、分類項目名および当該分類項目名に関わる文書データ群中の表現を対応付けた情報であり、
    前記入力する文書データ群のそれぞれの表現は当該表現に関わる分類項目名に対応付けられ、
    前記第1の抽出手段は、前記特徴表現を、当該特徴表現の抽出元の文書データ群にて対応付けられる分類項目名と対応付けて抽出し、
    前記生成手段は、前記生成した表現を、当該表現の生成のもととなる特徴表現に対応付けられる分類項目名と対応付け、
    前記記憶制御手段は、前記異なる表現および当該表現と対応付けられる分類項目名を含む辞書情報を前記記憶手段に記憶し、
    分類対象の文書データ群を入力する第2の入力手段と、
    前記第2の入力手段により入力した文書データ群および前記記憶手段に記憶される辞書情報をもとに、前記分類対象の文書データ群のそれぞれを前記分類項目名に関わる文書データとして分類する分類処理手段と
    をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。
  3. 前記記憶手段に記憶された辞書情報の編集入力を受け付ける編集入力手段と、
    前記編集入力手段により入力した内容をもとに前記辞書情報を編集する編集手段と
    をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。
  4. 前記生成手段により生成した表現のうち予め定められた条件を満たす表現を選択する選択手段をさらに備え、
    前記記憶制御手段は、前記選択した表現を含む辞書情報を前記記憶手段に記憶する
    ことを特徴とする請求項1に記載の辞書構築支援装置。
  5. 前記第1の抽出手段により抽出した特徴表現および前記第2の抽出手段により抽出した類似表現を表示装置に表示させる表示制御手段と、
    前記表示された特徴表現および類似表現のうち任意の表現の編集入力を受け付ける編集入力手段と、
    前記編集入力手段による入力にしたがって該当表現を編集する編集手段と
    をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。
  6. 前記記憶手段に記憶された辞書情報の編集入力を受け付ける編集入力手段と、
    前記編集入力手段により入力した内容をもとに前記辞書情報を編集する編集手段と、
    前記文書データ群のうち一文書データの選択入力を受け付ける選択入力手段と、
    前記選択入力手段による入力にしたがって、前記記憶手段に記憶された文書データ群から文書データを選択する選択手段と、
    前記選択手段により選択した文書データ中の表現のうち、前記編集手段により編集された辞書情報の表現と一致する表現を強調させて表示装置に表示させ、前記辞書情報のうち前記一致する表現を前記表示装置に表示させる表示制御手段と
    をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。
JP2007173411A 2007-06-29 2007-06-29 辞書構築支援装置 Expired - Fee Related JP4956298B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007173411A JP4956298B2 (ja) 2007-06-29 2007-06-29 辞書構築支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007173411A JP4956298B2 (ja) 2007-06-29 2007-06-29 辞書構築支援装置

Publications (2)

Publication Number Publication Date
JP2009015394A JP2009015394A (ja) 2009-01-22
JP4956298B2 true JP4956298B2 (ja) 2012-06-20

Family

ID=40356259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007173411A Expired - Fee Related JP4956298B2 (ja) 2007-06-29 2007-06-29 辞書構築支援装置

Country Status (1)

Country Link
JP (1) JP4956298B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254071A1 (en) * 2009-12-17 2012-10-04 Nec Corporation Text mining system, text mining method and recording medium
US20150220632A1 (en) * 2012-09-27 2015-08-06 Nec Corporation Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4772233B2 (ja) * 2001-03-19 2011-09-14 株式会社東芝 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム
JP2004078541A (ja) * 2002-08-16 2004-03-11 Celestar Lexico-Sciences Inc 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体
JP2003248686A (ja) * 2002-02-22 2003-09-05 Ricoh Co Ltd 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体
JP4423004B2 (ja) * 2003-10-03 2010-03-03 三菱電機株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2005316699A (ja) * 2004-04-28 2005-11-10 Hitachi Ltd コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2007018234A (ja) * 2005-07-07 2007-01-25 National Institute Of Information & Communication Technology 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置

Also Published As

Publication number Publication date
JP2009015394A (ja) 2009-01-22

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
JP2001216142A (ja) プログラム作成支援装置
JP4956298B2 (ja) 辞書構築支援装置
JP2000200308A (ja) プロジェクト管理方法、プロジェクト管理システム、および、記録媒体
JP2001325276A (ja) 情報処理システム、情報処理方法、コンピュータプログラム、記憶媒体及びプログラム伝送装置
JP2009265736A (ja) 電子機器、その制御方法およびコンピュータプログラム
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JP2008027290A (ja) 日本語文作成支援方法及びその装置
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
JP3442422B2 (ja) 同義語情報作成装置および方法
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP6524668B2 (ja) 文書検索装置、文書検索方法、プログラム、
JP4260641B2 (ja) 検索結果処理装置、検索結果処理プログラム、検索結果処理プログラム記録媒体及び検索結果処理システム
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JPH10207875A (ja) 表作成装置およびその方法
JPH09179868A (ja) 対訳文対応付け支援システム
JP5163324B2 (ja) データベースシステム
JP5083627B2 (ja) 少数意見抽出装置
JP3243949B2 (ja) 文書作成支援装置
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
JP2004118877A (ja) 情報フィルタリング装置
JP2006350585A (ja) 医療情報入力システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120316

R150 Certificate of patent or registration of utility model

Ref document number: 4956298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees