JP4956298B2 - 辞書構築支援装置 - Google Patents
辞書構築支援装置 Download PDFInfo
- Publication number
- JP4956298B2 JP4956298B2 JP2007173411A JP2007173411A JP4956298B2 JP 4956298 B2 JP4956298 B2 JP 4956298B2 JP 2007173411 A JP2007173411 A JP 2007173411A JP 2007173411 A JP2007173411 A JP 2007173411A JP 4956298 B2 JP4956298 B2 JP 4956298B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- dictionary
- input
- document data
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010276 construction Methods 0.000 title claims description 58
- 230000014509 gene expression Effects 0.000 claims description 278
- 238000000605 extraction Methods 0.000 claims description 61
- 239000000284 extract Substances 0.000 claims description 10
- 238000012795 verification Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 235000012054 meals Nutrition 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Description
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態にしたがった辞書構築支援装置の構成例を示すブロック図である。
図1に示すように、本発明の第1の実施形態にしたがった辞書構築支援装置は、入力手段である入力装置1、記憶手段である記憶装置2、登録候補表現生成部3、表現の編集手段である表現編集部4、辞書登録部5、表示装置6、分類処理手段である分類処理部7を備え、それぞれがバス8を介して相互に接続される。
また、記憶装置2は、辞書情報の構築に用いる文書データ群を記憶する分析対象データ記憶部21、辞書情報を記憶する辞書情報記憶部22を有する。本実施形態では、辞書情報は、文書データ群の分類のための表現を分類項目名と対応付けた分類用辞書情報である。また、記憶装置2は、登録候補表現生成部3、表現編集部4、辞書登録部5、分類処理部7によるワークメモリとしても機能する。
辞書登録部5は、登録候補表現生成部3の表現生成部34が生成した表現を辞書情報に登録する。また、辞書登録部5は、表現生成部34が生成した表現のうち辞書情報に登録する表現を判定する辞書登録判定部51を有する。
分類処理部7は、分類を要する文書データ群を記憶装置2の辞書情報記憶部22に記憶される辞書情報をもとに分類する。
この実施形態では、旅行会社のアンケート分析用辞書情報の構築を目的とし、辞書情報構築のための分析対象データ群としてアンケート回答文書データを想定している。ただし、分析対象データはテキストデータであれば特に限定されない。
また、分析対象データ群のそれぞれにおいては、本文である分析対象テキストの属性情報が含まれる。この実施形態では、属性情報として、アンケート対象の旅行が国内であるか海外であるかの区別、アンケートの意見が好評意見であるか不評意見であるかの区別、利用施設やコースの区別が挙げられる。
分析対象データ群となる文書データ群は記憶装置2に既に記憶されているとする。この文書データ群は、入力装置1への操作により新規に作成して記憶装置2に記憶してもよいし、外部装置から図示しない入出力インタフェースを介して記憶装置2に記憶してもよい。
図3に示した分析対象データ群の1行分は、1つのアンケート回答文書データに対応する。各行の分析対象データは、アンケート回答本文である分析対象テキスト、アンケート対象の旅行が国内であるか海外であるかを区別する属性A、アンケートの意見が好評意見であるか不評意見であるかを区別する属性B、利用施設やコースを区別する属性Cが関連付けられる。
例えば、図3に示した分析対象データ群の1行目に対応する分析対象データでは、属性Aは「国内」で、属性Bは「好評意見」であり、属性Cは「ホテル」であり、分析対象テキストは「ホテルの食事が良い、満足した」となる。
具体的には、特徴表現抽出部31は、例えば、形態素解析や構文解析により単語頻度やTF(Term Frequency)とIDF(Inverse Document Frequency)の積を算出し、これらの値(スコア)を基準に特徴的な単語とするといった、公知の特徴単語抽出方法で、分析対象データから特徴表現を抽出する。
TFは、各文書内における出現頻度を全文書について和をとった値である。IDFは全文書数とDFの商の対数である。DFは、表現が出現する文書数である。
図4に示した処理データでは、グループ名「グループA」に属する特徴表現は、抽出元の分析対象テキストが図3に示した分析対象データ群の表で対応する属性Bが「好評意見」であった「満足」、「抜群」、「良い」、「面白い」であり、グループ名「グループB」に属する特徴表現は、抽出元の分析対象テキストが図3に示した分析対象データ群の表で対応する属性Bが「不評意見」であった「汚い」などである。
図5に示した特徴表現抽出結果では、図4に示した処理データ中の「グループA」が「好評意見」に置き換えられ、「グループB」が「不評意見」に置き換えられる。この結果、グループ名「好評意見」に関わる特徴表現が「満足」、「抜群」、「良い」、「面白い」となり、グループ名「不評意見」に関わる特徴表現が「汚い」などとなる。
具体的には、類似表現抽出部32は、例えば、クラスタリングといった、文書を内容が互いに似たもの同士である集合(クラスタ)を幾つか生成する方法などの、公知の文書分類方法で、分析対象データ群をこのような幾つかの集合に分割する。
類似表現抽出部32は、図3に示した内容の分析対象データ群をもとに、類似表現と、当該類似表現のスコアと、当該類似表現が属するクラスタに固有の仮のクラスタ名とを関連付けて、これらをクラスタごとに纏めた上でスコア順に並べた処理データを生成する。
図6に示した処理データでは、クラスタ名「クラスタA」に属する類似表現は、図3に示した分析対象データ群の分析対象テキストに含まれる「ミュージアム」、「美術館」および「博物館」であり、クラスタ名「クラスタB」に属する類似表現は、図3に示した分析対象データ群の分析対象テキストに含まれる「お風呂」および「浴室」である。
図7に示した特徴表現抽出結果は、図6に示した処理データ中のクラスタ名「クラスタA」が、当該「クラスタA」に属する類似表現「ミュージアム」、「美術館」および「博物館」のうちスコアが最も高い「ミュージアム」に置き換えられ、処理データ中のクラスタ名「クラスタB」が、当該「クラスタB」に属する類似表現「お風呂」および「浴室」のうちスコアが最も高い「お風呂」に置き換えられたものである。この結果、クラスタ名「ミュージアム」に関わる類似表現が「ミュージアム」、「美術館」および「博物館」となり、クラスタ名「お風呂」に関わる特徴表現が「お風呂」および「浴室」となる。
具体的には、表現生成条件設定部33は、第1の生成条件として、ステップS2の処理で特徴表現抽出部31が生成した特徴表現抽出結果を設定する。また、表現生成条件設定部33は、第2の生成条件として、ステップS3の処理で類似表現抽出部32が生成した類似表現抽出結果をもとに、見出し表現と当該見出し表現に属する複数の同義語を設定する。
図8に示した表現生成条件は、図7に示した類似表現抽出結果の「ミュージアム」に関わる類似表現である「ミュージアム」、「美術館」および「博物館」のうち、「ミュージアム」を見出し表現「ミュージアム」に属する第1の同義語である同義語Aとして、「美術館」を第2の同義語である同義語Bとして、「博物館を」第3の同義語である同義語Cとして設定し、かつ、図7に示した類似表現抽出結果の「お風呂」に関わる類似表現である「お風呂」および「浴室」のうち、「お風呂」を見出し表現「お風呂」に属する第1の同義語である同義語Aとして、「浴室」を第2の同義語である同義語Bにそれぞれ設定したものである。
図9に示した辞書登録候補生成結果では、表現生成部34が辞書情報への登録候補として得た表現と、当該表現のTF、DFと、当該表現が属するグループ名とが関連付けられる。
また、この辞書登録候補生成結果において、共起表現と関わるTF、DFは、表現生成部34が、各種表現生成条件や特徴表現抽出結果や類似表現抽出結果における各種表現のスコアなどをもとにして計算したものである。
つまり、表現生成部34は、第1の生成条件を用いることで、用言、例えば第1の生成条件中の特徴表現「良い」などに対する主体まで含んだ表現を得ることができる。
具体的には、辞書登録判定部51は、辞書登録基準として、一般的に単語の重みを示す指標である、TFとIDFの積などを使用し、この指標がある値以上を取る表現を辞書情報に登録すべき表現と判定する。この値は、例えば、TFとIDFの積を単語全体に対して和をとった値の何%とするといった経験値や統計学による分析結果に基づく値でもよい。
図10は、本発明の第1の実施形態にしたがった辞書構築支援装置の辞書登録部による辞書情報登録結果の一例を表形式で示す図である。
この画面上の「名前を付けて保存」と表示されたアイコンが入力装置1への操作により選択されると、辞書登録部5は、表示される辞書情報の識別名である辞書名の入力画面を表示装置6に表示させる。この画面にしたがって入力された辞書名の辞書情報を辞書情報記憶部22に記憶する。これにより辞書情報の構築が終了する。
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る辞書構築支援装置の構成のうち図1に示したものと同一部分の説明は省略する。
図12に示すように、本発明の第2の実施形態にしたがった辞書構築支援装置は、第1の実施形態にしたがった辞書構築支援装置と比較して、辞書検証部41と、辞書情報の編集手段である辞書編集部42をさらに備え、それぞれがバス8に接続される。
また、辞書編集部42は、入力装置1への入力操作にしたがって辞書情報記憶部22に記憶される辞書情報を編集する。
本発明の第2の実施形態では、第1の実施形態で説明したステップS1からS8までの処理がなされた後で、入力装置1への、登録済み辞書情報の検証にかかる登録済み辞書情報の検証にかかる各種メニューである「辞書作成支援」、「辞書検証」および「辞書検証結果表示」の選択や検証対象の辞書名の入力操作がなされると、辞書検証部41は、記憶装置2の辞書情報記憶部22に記憶される辞書情報のうち、検証対象の辞書名に対応する辞書情報を読み出し、かつ、当該辞書情報の構築に用いられた分析対象データ群を記憶装置2の分析対象データ記憶部21から読み出し、これらをもとに、文章表示フィールドおよび辞書表示フィールドを含む辞書情報検証用画面を表示装置6に表示させる(ステップS11)。
図14に示すように、辞書情報検証結果の画面の文章表示フィールドには、分析対象データ群の各文書データの文章番号と文章、つまり本文とが関連付けられて表示される。文章表示フィールドに一度に表示される文章は分析対象データ群の一部であるが、表示されていない文章番号に対応する文章は、入力装置1による画面上のスクロールバーへの操作により表示させることができる。
例えば、ユーザが「文章番号1」の文章中の下線が付されていない表現「対応悪かった」を確認し、これをグループ名「不評意見」に関わる表現「対応悪かった」として辞書情報に登録したいと考え、入力装置1への入力操作により、図10の画面上の辞書表示フィールドに行を追加し、グループ名「不評意見」、表現「対応悪かった」を入力したとする。
図15に示した画面では、図14に示した画面と比較して、文章フィールドにおいて選択済みの文章番号「1」の文章中の「対応悪かった」に下線が新たに付され、この下線部分に対応して、辞書情報フィールドにグループ名「不評意見」、番号「9」および表現「対応悪かった」が追加される。以後は、第1の実施形態で説明したステップS9,S10の処理に移行する。
Claims (6)
- 文書データ群の分析用の辞書情報を記憶する記憶手段と、
前記辞書情報の構築支援用の文書データ群を入力する入力手段と、
前記入力した文書データ群中の特徴表現を抽出する第1の抽出手段と、
前記入力した文書データ群中の類似表現を抽出する第2の抽出手段と、
前記第1の抽出手段により抽出した特徴表現および前記第2の抽出手段により抽出した類似表現をもとに、前記入力した文書データ群に含まれる表現と異なる表現を生成する生成手段と、
前記生成手段により生成した表現を含む辞書情報を前記記憶手段に記憶する記憶制御手段と
を備えたことを特徴とする辞書構築支援装置。 - 前記辞書情報は、分類項目名および当該分類項目名に関わる文書データ群中の表現を対応付けた情報であり、
前記入力する文書データ群のそれぞれの表現は当該表現に関わる分類項目名に対応付けられ、
前記第1の抽出手段は、前記特徴表現を、当該特徴表現の抽出元の文書データ群にて対応付けられる分類項目名と対応付けて抽出し、
前記生成手段は、前記生成した表現を、当該表現の生成のもととなる特徴表現に対応付けられる分類項目名と対応付け、
前記記憶制御手段は、前記異なる表現および当該表現と対応付けられる分類項目名を含む辞書情報を前記記憶手段に記憶し、
分類対象の文書データ群を入力する第2の入力手段と、
前記第2の入力手段により入力した文書データ群および前記記憶手段に記憶される辞書情報をもとに、前記分類対象の文書データ群のそれぞれを前記分類項目名に関わる文書データとして分類する分類処理手段と
をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。 - 前記記憶手段に記憶された辞書情報の編集入力を受け付ける編集入力手段と、
前記編集入力手段により入力した内容をもとに前記辞書情報を編集する編集手段と
をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。 - 前記生成手段により生成した表現のうち予め定められた条件を満たす表現を選択する選択手段をさらに備え、
前記記憶制御手段は、前記選択した表現を含む辞書情報を前記記憶手段に記憶する
ことを特徴とする請求項1に記載の辞書構築支援装置。 - 前記第1の抽出手段により抽出した特徴表現および前記第2の抽出手段により抽出した類似表現を表示装置に表示させる表示制御手段と、
前記表示された特徴表現および類似表現のうち任意の表現の編集入力を受け付ける編集入力手段と、
前記編集入力手段による入力にしたがって該当表現を編集する編集手段と
をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。 - 前記記憶手段に記憶された辞書情報の編集入力を受け付ける編集入力手段と、
前記編集入力手段により入力した内容をもとに前記辞書情報を編集する編集手段と、
前記文書データ群のうち一文書データの選択入力を受け付ける選択入力手段と、
前記選択入力手段による入力にしたがって、前記記憶手段に記憶された文書データ群から文書データを選択する選択手段と、
前記選択手段により選択した文書データ中の表現のうち、前記編集手段により編集された辞書情報の表現と一致する表現を強調させて表示装置に表示させ、前記辞書情報のうち前記一致する表現を前記表示装置に表示させる表示制御手段と
をさらに備えたことを特徴とする請求項1に記載の辞書構築支援装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007173411A JP4956298B2 (ja) | 2007-06-29 | 2007-06-29 | 辞書構築支援装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007173411A JP4956298B2 (ja) | 2007-06-29 | 2007-06-29 | 辞書構築支援装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009015394A JP2009015394A (ja) | 2009-01-22 |
JP4956298B2 true JP4956298B2 (ja) | 2012-06-20 |
Family
ID=40356259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007173411A Expired - Fee Related JP4956298B2 (ja) | 2007-06-29 | 2007-06-29 | 辞書構築支援装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4956298B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254071A1 (en) * | 2009-12-17 | 2012-10-04 | Nec Corporation | Text mining system, text mining method and recording medium |
US20150220632A1 (en) * | 2012-09-27 | 2015-08-06 | Nec Corporation | Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4772233B2 (ja) * | 2001-03-19 | 2011-09-14 | 株式会社東芝 | 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム |
JP2004078541A (ja) * | 2002-08-16 | 2004-03-11 | Celestar Lexico-Sciences Inc | 文書情報抽出処理装置、文書情報抽出処理方法、プログラム、および、記録媒体 |
JP2003248686A (ja) * | 2002-02-22 | 2003-09-05 | Ricoh Co Ltd | 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 |
JP4423004B2 (ja) * | 2003-10-03 | 2010-03-03 | 三菱電機株式会社 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2005316699A (ja) * | 2004-04-28 | 2005-11-10 | Hitachi Ltd | コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム |
JP2006099423A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Software Eng Co Ltd | テキストマイニングサーバ及びプログラム |
JP2007018234A (ja) * | 2005-07-07 | 2007-01-25 | National Institute Of Information & Communication Technology | 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置 |
-
2007
- 2007-06-29 JP JP2007173411A patent/JP4956298B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009015394A (ja) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
US20110252062A1 (en) | Electronic device for searching for entry word in dictionary data, control method thereof and program product | |
JP2001216142A (ja) | プログラム作成支援装置 | |
JP4956298B2 (ja) | 辞書構築支援装置 | |
JP2000200308A (ja) | プロジェクト管理方法、プロジェクト管理システム、および、記録媒体 | |
JP2001325276A (ja) | 情報処理システム、情報処理方法、コンピュータプログラム、記憶媒体及びプログラム伝送装置 | |
JP2009265736A (ja) | 電子機器、その制御方法およびコンピュータプログラム | |
JP2005122665A (ja) | 電子機器装置、関連語データベースの更新方法、プログラム | |
JP2008027290A (ja) | 日本語文作成支援方法及びその装置 | |
JP5877775B2 (ja) | コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 | |
JP3442422B2 (ja) | 同義語情報作成装置および方法 | |
JP6549173B2 (ja) | 計算機システム及び文章データの検索方法 | |
JP2005158044A (ja) | 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置 | |
JP6524668B2 (ja) | 文書検索装置、文書検索方法、プログラム、 | |
JP4260641B2 (ja) | 検索結果処理装置、検索結果処理プログラム、検索結果処理プログラム記録媒体及び検索結果処理システム | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JPH10207875A (ja) | 表作成装置およびその方法 | |
JPH09179868A (ja) | 対訳文対応付け支援システム | |
JP5163324B2 (ja) | データベースシステム | |
JP5083627B2 (ja) | 少数意見抽出装置 | |
JP3243949B2 (ja) | 文書作成支援装置 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
JP2004118877A (ja) | 情報フィルタリング装置 | |
JP2006350585A (ja) | 医療情報入力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4956298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150323 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |