JP4904496B2 - 文書類似性導出装置及びそれを用いた回答支援システム - Google Patents
文書類似性導出装置及びそれを用いた回答支援システム Download PDFInfo
- Publication number
- JP4904496B2 JP4904496B2 JP2006304301A JP2006304301A JP4904496B2 JP 4904496 B2 JP4904496 B2 JP 4904496B2 JP 2006304301 A JP2006304301 A JP 2006304301A JP 2006304301 A JP2006304301 A JP 2006304301A JP 4904496 B2 JP4904496 B2 JP 4904496B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- sentence
- idf
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そこで、問い合わせに適した回答作成を支援する回答支援装置が、特開2001−273308号公報に開示されている。
本発明に係る文書類似性導出装置は、文からなる文書の文を形態素解析する手段と、形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求めるものである。
本発明に係る文書−文書群類似性導出装置は、前記文書類似性導出装置の各手段を含み、TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを第1の文書について求め、複数文書からなる第2の文書群の各文書の文書ベクトルを求め、求めた第2の文書群の各文書の文書ベクトルから平均文書ベクトルを求め、求めた第2の文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第2の文書群の類似性を求めるものである。
このように本発明においては、文書間の類似性だけでなく、文書群と文書の類似性を求めることもできるという効果を有する。
本発明に係る高類似性文書特定装置は、前記文書類似性導出装置の各手段を含み、TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象となる比較対象文書について求め、第nの文書の索引TF−IDFの文書ベクトル、共起ベクトル及び文タイプベクトルを求め、比較対象文書の文書ベクトルと第nの文書の文書ベクトルから比較対象文書と第nの文書の類似性を求め、nは1ないしNまであり、各第nの文書と比較対象文書の類似性の中から類似性の高い第nの文書を特定するものである。
このように本発明においては、複数の文書と比較対象文書の類似性を求め、高い類似性を有する文書を特定するので、比較対象文書の内容によく類似した文書を得ることができるという効果を有する。
本発明に係る高類似性文書群特定装置は、前記文書類似性導出装置の各手段を含み、TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象文書について求め、複数文書からなる第nの文書群の各文書の文書ベクトルを求め、求めた第nの文書群の各文書の文書ベクトルから平均文書ベクトルを求め、求めた第nの文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第nの文書群の類似性を求め、nは1ないしNまであり、各第nの文書群と比較対象文書の類似性の中から類似性の高い第nの文書群を特定するものである。
本発明に係る回答支援システムは、前記高類似性文書群特定装置を含み、前記各第nの文書群は類似する質問文からなり、比較対象文書も質問文であり、各第nの文書群の質問内容に対応する回答文を関連付けて予め記録し、前記高類似性文書群特定装置により類似性の高いとされた第nの文書群に関連付けられている回答文を出力するものである。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
システムは、ユーザから質問メールを受け取ると、自動的に処理を始める。処理の結果、すなわち、回答候補は質問者への返答メールの形に整形されて最終査読者の査読を待つ。
質問文の解析として、形態素解析のみを活用する理由は、依存構造解析などの信頼性に起因するものである。
文を形態素に分割して品詞を見分ける形態素解析については、自然言語処理の基礎技術の一つであり、所謂当業者であれば適宜適用が可能であるため、ここでは詳述しない。形態素解析エンジンとしては、例えば、MeCab、ChaSen、KAKASIなどがある。
回答者が使用する回答者コンピュータ100、200上に回答支援システムを構築する。回答者コンピュータ100、200に回答支援プログラムがインストールされ、回答支援システムが構築される。本実施形態では、このように一つのコンピュータにより回答支援システムが構築されているが、クライアント・サーバ型で構築することもできる。例えば、クライアントでは、ユーザからの質問文をクライアントが受けてサーバに送信し、サーバで処理されて複数の回答候補をクライアントに返信する構成である。
回答者コンピュータ100の構成の一例を示したが、回答者コンピュータ200、サーバ300、ユーザコンピュータ600も同様の構成である。
質問応答データベースも回答者コンピュータ100、200にそれぞれ構築するものとする。ここで、別途データベースサーバとして構築し、複数の回答者コンピュータが共通に使用する構成にすることもできる。
質問応答メールデータとは、パソコンユーザから送られてきた問い合わせメールとそれに対する査読済み回答文のペアのことである。
質問応答メールデータの中には、同一データないしは類似データが多数存在する。したがって、問い合わせメールの内容または意味が同一または類似で、それらの回答文の文章表現も同じまたは類似である場合、それらを「類似データ」とみなす。
構築したメールコールセンターの質問応答データベースは二段階(二層)のツリー構造である。リーフカテゴリはブランチカテゴリに属する場合もあるし、直接ルートカテゴリに属する場合もある。ルートカテゴリはブランチカテゴリの上位カテゴリであるが、ツリー構造のルートノードであるので、「層」とはみなさない。すなわち、全体を三層構造とは呼ばないことにしている。
・ルートカテゴリ→ブランチカテゴリ→リーフカテゴリ
・ルートカテゴリ→リーフカテゴリ
この概略を図8に示す。
質問応答データベースの構築には、多くの工数を要する。したがって、当初は、1705の質問応答データについて人手で質問応答データベースを構築した。
質問応答データベース構築の効率をあげるため、その後、質問応答データベース構築支援システムを作成して活用した。上に述べた6537件の質問応答データは、この質問応答データベース構築支援システムを使用して構築したものである。そのスクリーンショットを図9に示す。なお、質問応答データベースは質問応答データベース構築支援システムを用いることなく、全て人手により構築してもよい。
メールコールセンターの質問応答データベース構築支援システムの特徴は下記の通りである.
・分類する質問メールと既存の質問カテゴリの類似度を計算する
・操作しやすいGUIインタフェースを提供する
−質問メール、質問カテゴリに既存の質問メールの内容表示および質問カテゴリの表示
−分類する質問メールに対して、類似度順で質問カテゴリの提示
−分類する質問メールに対して、属する質問カテゴリの選択・作成・削除
−質問カテゴリごとの回答文テンプレートの作成(後記参照)
メールコールセンターの質問応答データベース構築支援システムの構成は図10で示す。
メールコールセンターの質問応答データベース構築支援システムでは、分類する質問メールが下記の4つのステップを通して質問カテゴリに分類される(回答文の作成に関しては後説)。
メールコールセンターの質問応答データベース構築支援システムで、質問メールの分類を行う際に、分類する質問メールデータを質問カテゴリ判定システムを通して、既存の質問カテゴリとの類似度の計算を行うため、事前に、メールコールセンターの質問応答データベース構築支援システム用の質問カテゴリを用意する必要がある。
ここで、メールコールセンターの質問応答データベース構築支援システム用データベースとして、1705件の質問メールを利用して作成した質問カテゴリを利用する([2.1 質問応答データベースの構築手法]を参照)。
メールコールセンターの質問応答データベース構築支援システムでは、質問カテゴリ判定システムを利用して、質問メールが属するリーフカテゴリの判定を行う。
判定手法として、質問メールと質問カテゴリをベクトル空間上の点で表し、ベクトル間の類似度を定義する。
・TF−IDFによる文書ベクトル
・体言と用言の共起を考慮した文書ベクトル
・文タイプを考慮した文書ベクトル
また、質問カテゴリに属する質問メールの文書ベクトルを平均化したものを質問カテゴリの文書ベクトルとし、判定する質問メールの文書ベクトルとの重みづき余弦尺度によって、両方の類似度を求める。類似度の計算結果によって、質問メールが属する質問カテゴリを判定する。
詳細には、後記[3.特徴ベクトル]で説示する。つまり、特徴ベクトルは回答支援システムで質問文に対する適切な回答文を特定するだけでなく、質問応答データベース構築支援システムでも使用する。
メールコールセンターの質問応答データベース構築支援システムをツールとしてユーザが使用する際、容易に利用できるようにシステム用のGUIインタフェースを作成した。
図9で表示したボタンを押すことで、[2.3.1 システム構成]冒頭で説明したインタフェース機能を実現することが可能である。
分類する質問メール一件を選択してクリックすることで、図9のウィンドウ中央に選択した質問メールの内容が表示される。
リーフカテゴリに分類された同一データないしは類似データの回答文は同じまたは類似であるため、リーフカテゴリに属する質問メールに対して、共通回答文であるリーフカテゴリ回答文を作成する。未知の問い合わせメールの回答文を作成する際、その質問メールの属するリーフカテゴリのカテゴリ回答文を用いて、回答文の作成を行う。
リーフカテゴリ回答文には、定型回答文とテンプレート回答文の2種類を用意する。定型回答文は機種関連情報などを含んでいない場合のためのものであり、回答文を作成する際にそのまま出力する。一方、テンプレート回答文は、ハードウェアやソフトウェアなどの多種類の機種関連情報に関するスロットが用意されており、それらの機種関連情報を機種関連情報データベースから抽出し、スロットに入れ、回答文を作成し出力する。
メールコールセンターの質問応答データベースでは、リーフカテゴリは類似質問メールの集合である。類似質問メールとは、お問い合わせメールの内容または意味が類似して、そのお問い合わせメールに対して送信した最終査読データである回答文が類似または同じである質問メールのことを指す。
次節からそれぞれのリーフカテゴリ回答文について説明を行う。
リーフカテゴリ回答文を利用して、お問い合わせメールの回答文を作成する方法について述べる。
お問い合わせメールの回答文を作成する流れを図11に示す。
お問い合わせメールは質問カテゴリ判定システムを通して、属するリーフカテゴリを判定する。属するリーフカテゴリを決定すれば、リーフカテゴリ回答文を利用して回答文を作成する。
お問い合わせメールが属するリーフカテゴリのリーフカテゴリ回答文が定型回答文である場合、そのリーフカテゴリ回答文をお問い合わせメールの回答文として出力する。
お問い合わせメールが属するリーフカテゴリのリーフカテゴリ回答文がテンプレート回答文である場合、以下の4つのステップでお問い合わせメールの回答文を作成する。
ここでは、機器名、機器情報について説示したが、当然他の情報であってもよい。
これより、分類済みの質問応答データベースを用いて、新たに入力として与えられた質問文がどのカテゴリに属するのかを判定する手法について説示する。
本実施形態では、質問文とカテゴリをベクトル空間上の点で表す。また、ベクトル間の類似度を定義する。質問文と、その質問文が属するカテゴリとの類似度が大きくなるようにベクトルの要素を決定し、類似度を定義することで、類似度によって質問文のカテゴリを推定するものである。
つまり、以下の特徴ベクトルを複合的に用いる。
・TF(Term Frequency)/IDF(Inverse Document Frequency)による特徴ベクトル
・体言と用言の共起を考慮した特徴ベクトル
・文タイプを考慮した特徴ベクトル
システムでは、問い合わせメール中に出現する語のTF/IDFによる重みを要素とした文書ベクトルを拡張したもので質問文を表現する。
TF−IDF重み付けはテキストの自動索引づけにおいて、索引語の重みを計算する手法である。TF(Term Frequency)とは、ある文書dにおける索引語tの生起頻度であり、tf(d,t)と表記する。またIDF(Inverse Document Frequency)は文書の数Nと、索引語tが一回以上生起する文書の数dfreq(t)によって次のように定義される。
TF/IDFによる重み付けは、通常、ある語が特定の文書を特徴付ける尺度を表現するものであり、文の構造を反映しない。したがって、
・「電源を切る。」
・「電源を入れる。」
という二つの文に対して、「電源」という語は同じ重みが与えられる。だが実際には、目的とする質問文のカテゴリ判定においては、この二つは違う特徴を持つものとして認識すべきである。これは、語の出現頻度だけを考えていては、とらえにくい特徴である。そこで、TF/IDFによる重み付けに加えて、体言に対する用言の一文での共起の度合を重みとして用いることを考える。それぞれの体言について、一文中で共起した用言の頻度を要素とする特徴ベクトルを用いる。文書ベクトルの要素として、TF−IDF重みと一緒に保持しておく。これにより、ふたつの語を比べた際に、共起ベクトルの余弦尺度による類似度を用いることを考える。
通常、TF−IDFのみによる文書ベクトルVとV´の類似度sim(V、V´)は、余弦尺度、つまり内積によって求める。全文書中の語の数、すなわち文書ベクトルの次元をnとすると、以下のように表される。
パソコンユーザから送られてきた問い合わせメールの内容をより正確に反映した特徴ベクトルを作成するため、文中の語がどのような意味の文に出現するのか、という傾向について考える。そのために、まず問い合わせメールを分析してそれぞれの文タイプごとの特徴を調べ、分析結果をもとに文タイプ同定のルールを作成する。
ここでは、質問メールを分析することにより、次のように少数の文タイプを設定した。
・Question:「〜できますか?」「〜を教えて下さい」など、質問を述べてある文。
・Problem:「〜ができません」「〜する方法がわかりません」など、問題を述べてある文。
・Intention:「〜したい」「〜しようと思う」など、質問者の意図・希望が述べてある文。
・Situation:問題発生の手順・状況などについて述べてある文。
・Think:「〜だと思います」など、質問者の考えが述べてある文。
・Other case:「HDDでの再生は問題ありません」など、別の状況では問題が発生しない場合が述べてある文。
・About :「〜について」などの、質問内容を端的に表している文。質問、回答の一行目に述べられることがある.
・Message:エラーメッセージや、ダイアログなど、画面に表示された文字列の内容を述べてある文。
・etc:その他の情報
上記の文タイプを集計した結果を以下に示す。
・Question 324
・Problem 648
・Intention 87
・Situation 398
・Think 37
・Other case 80
・About 368
・Message 96
・etc 34
・Question:ほとんどの場合文末が記号「?」か助詞「か」、あるいは「教えてください」「ご教示ください」「お願いします」などで終わる。その他のタイプはほとんどマッチしない。
・Problem:文末が自立の動詞・形容詞の基本形や、「〜できません」「〜しない」「〜してしまう」などで終わる場合が全体の3分の2を占める。また、QUESTION文の直前に多く出現する。
・Intention:ほとんどの場合、文末が「〜したい」「〜ほしい」「〜しようと思っています」などで終わる。
・Situation:「〜しました」のような過去形で終わる場合が多いが、そうでない場合も多くある。PROBLEM文の直前に多く出現する。
・Think :「〜かと」を含むか、文末が「思う」「気がする」などで終わる。
・Other case:「〜は」「〜では」「〜も」「〜と」「〜だと」などを含む文で、文末が「できる」「異常ない」「問題ない」「正常です」「発生しない」などで終わる。
・About :質問、回答の一行目において、文末が名詞で終わる。
・Message:文の全部、あるいは一部が「」や''で括られていることが多い。その直後に「という」「と、」「って」などの語がつき、「表示されました」「出ました」「メッセージが出ました」などの文が続く。
・etc:「初心者です」「名前は〜です」などの情報がある。これらについては、あらかじめ対応ルールを用意しておくのが難しく、また出現頻度も少ないため、今回は対応を見送ることにする。
上記の分析結果をもとに、文タイプの同定ルールを作成した。 ルールは三段階に分けて適用される。まず、最初に適用するルールについて述べる。以下のそれぞれにあてはまる文に、重複を許してタイプを割り振っていく。
上記の分析結果をもとに、文タイプの同定ルールを作成した。ルールは三段階に分けて適用される。まず、最初に適用するルールについて述べる。以下のそれぞれにあてはまる文に、重複を許してタイプを割り振っていく。
・Problem:文末が自立の動詞・形容詞の基本形で終わる。あるいは、文末が「でした」「が」でなく、格助詞「が」を含む文のうち、格助詞「が」と文末の間に他の助詞を含まない。あるいは、文末の3文節に「すみません」「すいません」「していません」「しておりません」を含まず、「なくなっています」「なくなった」「なくなり」「てしまった」「なります」「なりました」「まいました」「まいます」「ません」「ない」「しまう」「れる」「れます」を含む。
・Intention:文末の5文節に「(動詞)+たい」「ほしい」「(動詞)+(よ)うと」を含み、その後に動詞の「思う」「考える」が続く。
・Think :文中に助詞の並び「かと」を含む、あるいは、文末の3文節に「思う」「思った」「思われ」「考えられ」「気がする」「気がします」を含む。
・Other case:助詞、あるいは助詞の並び「は」「では」「も」「と」「だと」を含む文で、文末が「できる」「動く」「作動(する)」「動作(する)」「起動(する)」の活用のうち、「基本形」「た」「ます」「ている」で終わるか、「異常」「問題」「不都合」の後に「ありません」「なかった」「ない」が続いて終わる。あるいは、助詞「は」「と」の後に、「正常に」「正しく」「普通に」「通常」「きちんと」「うまく」「ちゃんと」を含む文がくる。
・About :質問、回答の一行目において、文末が名詞で終わる。
・Message:助詞「と」を含む文で、以降に「メッセージ」「ボックス」「ポップアップ」「表示」「エラー」動詞「出る」が出現する。助詞「と」の直前に、「」、()、'、``、で括られた部分がある場合、複数の文にまたがっている場合でも、括弧などで括られた内部を全て``MESSAGE''と判断する。
・質問文中にQUESTIONもPROBLEMも出現していない場合。ABOUTが出現している場合は、ABOUT中の語を含む文をPROBLEMとする。ABOUT中の語を含む文がない場合や、ABOUTが出現していない場合、タイプが割り振られていない一番最初の文をPROBLEMとする。残りはSITUATIONとする。
・質問文中にQUESTIONが出現している場合。QUESTIONの直前の文にタイプが割り振られていない場合、PROBLEMとする。残りはSITUATIONとする。
・それ以外の場合。タイプが割り振られていない文をすべてSITUATIONとする。
文タイプが重複している文は、以下の優先順位で文タイプを決定する。
``MESSAGE''>``ABOUT''>``QUESTION''>``PROBLEM''>``OTHERCASE''>``INTENTION''>``THINK''
求めた文タイプを利用して、式(4)を次のように拡張する。要素にTF-IDFによる重み、体言・用言の共起ベクトル、文タイプベクトルを持つ文書ベクトルVt、V´tの類似度sim(Vt、V´t)を、以下のように定義する。
未知の問い合わせメールがどの質問カテゴリに属するのかを計算するのに、各質問カテゴリ内の質問文の特徴ベクトルを平均化したものを便宜的に質問カテゴリのベクトルとする。その概念図を図12に示す。
これらに対して、未知の問い合わせメールのベクトルとの類似度を計算する。これは、カテゴリ内の質問文の文書ベクトルを平均化することで、少数のノイズを取り除き、カテゴリ内で真に特徴的な語の情報のみを残すことができるからである。
この平均ベクトルを正規化したものと、未知の質問文の文書ベクトルとの類似度の計算結果を利用して、回答作成支援システムを作成する。
[4.5.1 文書ベクトル]
W:単語空間
W∋i:ある体言と対応している
例:i=PC,i’=電源...
ここにおいて、ある文書ベクトルV内の単語iをTF−IDFにおいて重み付けした値をTF−IDF(i)と表すものとする。
w:TF−IDF(i)
c:{v:TF−IDF(v),v’:TF−IDF(v’),..}v,v’:体言i
と文中で共起する用言、c:vを軸として持つベクトル
t:{文タイプ1:文タイプ1中でのiの出現回数,..}t:文タイプを軸として持つベクトル
以上の3つの値をセットそして持ち、そのベクトルの要素wを正規化したものとする。
買ってきたばかりのPCの電源が入りません。
何をしたらいいのでしょうか?
[文章ベクトルV]
{i1:[w=TF−IDF(PC),c={買う:TF−IDF(買う),入る:TF−IDF(入る)},t={否定:1}]
i2:[w=TF−IDF(電源),c={買う:TF−IDF(買う),入る:TF−IDF(入る)},t={否定:1}]
i3:[w=TF−IDF(何),c={する:TF−IDF(する)},t={疑問:1}]}*i1=PC,i2=電源,i3=何
PCが起動しないのですが、どうしたらよろしいですか?
[文章ベクトルV’]
{i1:[w=TF−IDF(PC),c={TF−IDF(起動)}],t={疑問:1}}}*i1=PC
文章ベクトルV、V’の類似度を計算しようとする時、ベクトル空間の次元数は(V
∪V’)の単語空間の次元数に等しい。
よって、例におけるV■は軸としてPCしか持たない1次元のベクトル空間であるがこ
こでは(V∪V’)の単語空間に拡張する。
また共起ベクトルc、文タイプベクトルtも同様に拡張した文章ベクトルV’をV’’
と表すとそれは以下のようになる。
{i1:[w=TF−IDF(PC),c={買う:TF−IDF(買う),入る:TF−IDF(入る),起動:TF−IDF(起動),する:TF−IDF(する)},t={疑問:1,否定:0}]
i2:[w=TF−IDF(電源),c={買う:TF−IDF(買う),入る:TF−IDF(入る),起動:TF−IDF(起動),する:TF−IDF(する)},t={疑問:0,否定:0}]
i3:[w=TF−IDF(何),c={買う:TF−IDF(買う),入る:TF−IDF(入る),起動:TF−IDF(起動),する:TF−IDF(する)},t={疑問:0,否定:0}]}*i1=PC,i2=電源,i3=何
ここにおいて類似度の計算は以下の式(5)に従う。また、ここにおける(t・t')は文タイプが一致すれば1一致しないならば0を返すものである。
図13は本実施形態に係る回答支援システムのブロック構成であり、図14は本実施形態に係る回答支援システムの動作フローチャートである。なお、図13に示したブロック構成は一例であり、所謂当業者で明らかであるように複数のモジュール構成をとることができる。そして、ここでは、動作主体を明示しているが、ハードウェア的視点から言えば、コンピュータ、プロセッサが動作主体である。
回答者コンピュータ100は複数のメールサーバを介してユーザコンピュータ600からの質問メールをメーラで受信する。なお、回答者コンピュータ100が直接アクセスするメールサーバが所定メールアドレスのメールを、登録された回答者コンピュータへ適宜振り分けする機能を有する構成であってもよい。
入力部1は使用者から指示を受け付け、指示された質問メールを取り込む(S100)。
前処理部2は全角(半角)文字変換やアルファベットの大文字(小文字)変換などの前処理を実行する。
形態素解析部3は前処理後の質問文を形態素解析する(S200)。
類似性算出部6は、各質問カテゴリの平均文書ベクトルを読み出し、この読み出した平均文書ベクトルと求めた質問メールの各ベクトルから式(5)を用いて類似度を求める(S300、S400)。
類似性算出部6が各質問カテゴリとの類似度を求めた後に、出力部8は各質問カテゴリを読み出し、類似度順に質問カテゴリをリスト表示する(S500)。
使用者からの承認を受け付けると、メーラを介して回答文が質問者に返信される(S700)。
(カテゴリ判定実験)
実験データとして、分類済みの質問・回答データのうち、1カテゴリに3件以上の質問文を持つ629カテゴリをデータAとして用いる。また、1カテゴリに12件以上の質問文を持つ145カテゴリをデータBとして用いる。データAの総データ数は6536件で、83個の上位カテゴリを持つ。データBの総データ数は4023件で、52個の上位カテゴリを持つ。これらのデータに対し、データを3分割してそのうちふたつを学習データとして用い、残りをテストデータとして3回テストを行った結果の平均をとる3分割交差検定を行い、質問文の正解カテゴリと、正解カテゴリの上位カテゴリを何位に判定したかを調べた。
質問文に対して、正解カテゴリと、正解の上位カテゴリをどれだけ上位に判定したかを評価とする。
データAでの判定結果は、データBに比べると悪い。その理由として、学習データの不足が考えられる。データAのカテゴリ数は629個であるが、その大半が1カテゴリ内に3個か4個程度のデータしか持っていない。学習データの数に比べて、カテゴリ数が非常に多いため、判定ミスが増加したものと考えられる。
判定実験での実験データBを用いて、単純なTF−IDFによる重み付けだけを用いる文書ベクトルと、提案手法である、体言・用言の共起と、文タイプを考慮した文書ベクトルの類似度による判定精度を比較した。
質問文に対して、正解カテゴリと、正解の上位カテゴリをどれだけ上位に判定したかを評価とする。
提案手法の方が、若干精度が良いが、改善率としては一割程度である。その理由として、ベクトルを平均化した結果、カテゴリの文書ベクトルが非常に特徴的になってしまった。カテゴリの文書ベクトル同士の類似度を計算したところ、ほとんど0に近い値ばかりになった。特徴的な語があると、それに強く反応してしまい、他の要素があまり考慮されていない。
判定実験での実験データBを用いて、KNN法によるカテゴリ判定と、平均ベクトル法によるカテゴリ判定の精度を比較した。平均ベクトル法では、未知の質問文の文書ベクトルを入力として、カテゴリの平均ベクトルとの類似度を用いてカテゴリを判定したが、KNN法では入力ベクトルとすべての学習データ内の文書ベクトルとの類似度を求め、類似度が高い方からk個の文書ベクトルが属するカテゴリから、入力ベクトルの属するカテゴリを判定する。
類似度の計算は、提案手法である体言・用言の共起と文タイプを考慮した文書ベクトルを用いて計算した。
質問文に対して、正解カテゴリと、正解の上位カテゴリをどれだけ上位に判定したかを評価とする。
上位カテゴリの一位判定において、KNN法のほうがわずかに高い値を出しているものの、全体的には、特に三位以内での判定において、平均ベクトル法のほうが良い精度を出している。
KNN法の判定ミスの理由として、類似度の高いk個のデータの中に、正解のカテゴリに属するデータがひとつもない場合が4023件中583件もあることが挙げられ、データの分布がかなりの範囲で重なっている。
2 前処理部
3 形態素解析部
4 文書ベクトル作成部
41 TF−IDF文書ベクトル部
42 共起ベクトル部
43 文タイプ文書ベクトル部
5 文書ベクトル記憶部
6 類似性算出部
7 回答文書特定部
8 出力部
100 回答者コンピュータ
101 CPU
102 RAM
103 ROM
104 HD
105 CD−ROMドライブ
111 マウス
112 キーボード
121 ディスプレイ
122 スピーカー
131 LANインタフェース
200 回答者コンピュータ
300 サーバ
400 プリンタ
500 ネットワーク機器
600 ユーザコンピュータ
Claims (8)
- 文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、
第2の文書のTF/IDF文書ベクトル及び共起ベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル及び共起ベクトルと第2の文書のTF/IDF文書ベクトル及び共起ベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。 - 文からなる文書の文章を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。 - 文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段とを含み、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求める文書類似性導出装置。 - 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを第1の文書について求め、
複数文書からなる第2の文書群の各文書の文書ベクトルを求め、
求めた第2の文書群の各文書の文書ベクトルから平均文書ベクトルを求め、
求めた第2の文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第2の文書群の類似性を求める文書−文書群類似性導出装置。 - 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象となる比較対象文書について求め、
第nの文書の索引TF−IDFの文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
比較対象文書の文書ベクトルと第nの文書の文書ベクトルから比較対象文書と第nの文書の類似性を求め、
nは1ないしNまであり、各第nの文書と比較対象文書の類似性の中から類似性の高い第nの文書を特定する高類似性文書特定装置。 - 前記請求項1ないし3のいずれかに記載の文書類似性導出装置の各手段を含み、
TF−IDFベクトルと共起ベクトル及び/又は文タイプベクトルである文書ベクトルを比較対象文書について求め、
複数文書からなる第nの文書群の各文書の文書ベクトルを求め、
求めた第nの文書群の各文書の文書ベクトルから平均文書ベクトルを求め、
求めた第nの文書群の平均文書ベクトルと第1の文書の文書ベクトルから第1の文書と第nの文書群の類似性を求め、
nは1ないしNまであり、各第nの文書群と比較対象文書の類似性の中から類似性の高い第nの文書群を特定する高類似性文書群特定装置。 - 文からなる文書の文を形態素解析する手段と、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求める手段と、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求める手段としてコンピュータを機能させ、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求め、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性をコンピュータに求めさせる文書類似性導出プログラム。 - 文からなる文書の文を形態素解析するステップと、
形態素解析された文書から、当該文書に出現する索引語のTF/IDFによる重みを要素としたTF/IDFベクトルを求めるステップと、
形態素解析された文書から、当該文書に出現する体言について当該体言が出現する文中で共起した用言の頻度を要素とした共起ベクトルを求めるステップと、
形態素解析された文書から、当該文書に出現する索引語が出現する文章の文タイプを決定し、それぞれの文タイプの頻度を要素とした文タイプベクトルを求めるステップとを含み、
第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、
第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルを求めるステップと、
求めた第1の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルと第2の文書のTF/IDF文書ベクトル、共起ベクトル及び文タイプベクトルから第1の文書と第2の文書の類似性を求めるステップとをさらに含む文書類似性導出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006304301A JP4904496B2 (ja) | 2006-11-09 | 2006-11-09 | 文書類似性導出装置及びそれを用いた回答支援システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006304301A JP4904496B2 (ja) | 2006-11-09 | 2006-11-09 | 文書類似性導出装置及びそれを用いた回答支援システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008123111A JP2008123111A (ja) | 2008-05-29 |
JP4904496B2 true JP4904496B2 (ja) | 2012-03-28 |
Family
ID=39507824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006304301A Active JP4904496B2 (ja) | 2006-11-09 | 2006-11-09 | 文書類似性導出装置及びそれを用いた回答支援システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4904496B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5458880B2 (ja) * | 2009-03-02 | 2014-04-02 | 富士通株式会社 | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
JP5017405B2 (ja) * | 2010-03-19 | 2012-09-05 | 株式会社東芝 | 規程管理装置及びプログラム |
CN104102626B (zh) * | 2014-07-07 | 2017-08-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
JP6190904B1 (ja) * | 2016-03-01 | 2017-08-30 | 京セラコミュニケーションシステム株式会社 | 類似文書検索装置 |
JP6729232B2 (ja) * | 2016-09-20 | 2020-07-22 | 富士通株式会社 | メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法 |
JP6621776B2 (ja) * | 2017-03-22 | 2019-12-18 | 株式会社東芝 | 検証システム、検証方法及びプログラム |
JP6906588B2 (ja) * | 2017-03-22 | 2021-07-21 | 株式会社東芝 | 検証システム、検証方法及びプログラム |
JP6695835B2 (ja) * | 2017-08-18 | 2020-05-20 | 株式会社三井住友銀行 | 機械学習を利用したfaq登録支援方法、及びコンピュータシステム |
CN109298796B (zh) * | 2018-07-24 | 2022-05-24 | 北京捷通华声科技股份有限公司 | 一种词联想方法及装置 |
JP6727277B2 (ja) * | 2018-12-04 | 2020-07-22 | 株式会社三井住友銀行 | 対話システム、方法、およびプログラム |
JP6968353B2 (ja) * | 2019-11-22 | 2021-11-17 | 株式会社エクサウィザーズ | 特徴抽出方法、コンピュータプログラム及び情報処理装置 |
CN113779201B (zh) * | 2021-09-16 | 2023-06-30 | 北京百度网讯科技有限公司 | 用于识别指令的方法、装置以及语音交互屏幕 |
CN116629804B (zh) * | 2023-06-06 | 2024-01-09 | 河北华正信息工程有限公司 | 一种信访督查跟踪管理系统及管理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110929A (ja) * | 1992-09-28 | 1994-04-22 | Toshiba Corp | データ検索装置 |
JPH1078971A (ja) * | 1996-09-02 | 1998-03-24 | Canon Inc | 文書分類装置及び文書分類方法 |
JP2001331515A (ja) * | 2000-05-23 | 2001-11-30 | Sigmatics Inc | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 |
JP2002245067A (ja) * | 2001-02-14 | 2002-08-30 | Mitsubishi Electric Corp | 情報検索装置 |
-
2006
- 2006-11-09 JP JP2006304301A patent/JP4904496B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008123111A (ja) | 2008-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
US8185378B2 (en) | Method and system for determining text coherence | |
EP2711849A2 (en) | Learning opinion-related patterns for contextual and domain-dependent opinion detection | |
CN109299865B (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
US20100079464A1 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
US20120035912A1 (en) | Multilingual sentence extractor | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
Wang et al. | Customer-driven product design selection using web based user-generated content | |
MXPA03006566A (es) | Metodo para el analisis automatico de examenes. | |
US11023503B2 (en) | Suggesting text in an electronic document | |
EP1542138A1 (en) | Learning and using generalized string patterns for information extraction | |
Verma et al. | A novel approach for text summarization using optimal combination of sentence scoring methods | |
JP2006190229A (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
JP2005190284A (ja) | 情報分類装置および情報分類方法 | |
JP4854019B2 (ja) | 意見収集システム、意見収集方法および意見収集プログラム | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
JP6586055B2 (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
CN115203570A (zh) | 预测模型的训练方法、专家推荐匹配方法、装置以及介质 | |
Tănăsescu | Sentiment Analysis for Human Resources: A Comparative Analysis of Methods That Can Be Used Along with Modern Technologies. | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 | |
JP6509391B1 (ja) | 計算機システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111213 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |