JP2009053743A

JP2009053743A - 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム

Info

Publication number: JP2009053743A
Application number: JP2007217172A
Authority: JP
Inventors: Hirosato Nomura; 浩郷野村
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2007-08-23
Filing date: 2007-08-23
Publication date: 2009-03-12

Abstract

【課題】文書間の類似性を精度よく求める新たな手法を提供する。
【解決手段】複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、前記入力文書に含まれる文を形態素解析する形態素解析処理部４１５と、前記形態素解析手段処理部４１５が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出処理部４２０と、前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出処理部４２５と、前記特徴ベクトル算出処理部４２０が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出処理部４２５が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定処理部４５０とを備えることを特徴とする。
【選択図】図３

Description

本発明は、文書の類似性を求める文書類似性導出装置に関し、特に、文の特徴ベクトルを算出して類似性を判定する文書類似性導出装置等に関する。

近年インターネットやパソコンの普及により、アフターサービスとしてのパソコン技術サポートの要望や利用が増大している。多くのパソコン技術サポートセンターでは、主に電話で技術サポートを行う従来型のコールセンターに加えて、インターネット経由でＥ−ｍａｉｌでの問い合わせを受け付けるメールコールセンターがたくさん設置されてきている。

メールコールセンターで行われている技術サポートは、すべて無料サポートである。質問メールは、夕刻から深夜にかけて多く送付されてくる。問い合わせメールの受信から回答の発信までは所定時間内（例えば２４時間以内）に完了することが求められている。このような制約があるため、企業にとって、正確かつ迅速なサポートを行うには人件費などのコストが膨大なものになりつつある。そこで、メールコールセンターの自動化が強く求められている。

メールによる技術サポートの場合、質問の内容は既に計算機可読な状態にあり、サポート結果としての回答作成処理はバッチ処理的に行うことが許容される。また、ＦＡＱのように、送られてくる質問には過去に出現した質問に類似したものが何度も送られてくるという傾向があり、過去に作成した回答サンプルを有効に活用することが可能である。こうした点は、自然言語処理技術を十分に活かしうる特徴と言える。

しかしながら、メールコールセンターを自動化しようとした場合、その精度はほぼ完全に１００％であることが求められる。現在の自然言語処理技術でそこまでの精度を得ることはほぼ不可能と言えるため、最終的な回答の作成には、人の手による査読が不可欠であるという現状がある。
そこで、問い合わせに適した回答作成を支援する回答支援装置が、特許文献１に開示されている。

この特許文献１に開示された回答支援装置は、予め想定された問い合わせの内容とこの問い合わせに対する回答作成を支援する支援情報とが対応づけられて格納される支援情報記憶手段と、予め想定された問い合わせの内容とこの問い合わせに対する回答作成者の回答作成者情報とが対応づけられて格納される回答作成者情報記憶手段と、入力される問い合わせの内容により前記支援情報記憶手段を検索して得られた支援情報および当該問い合わせの内容を、当該内容により前記回答作成者情報記憶手段を検索して得られた回答作成者情報に対応する回答作成者に送付する情報送付手段とを有するものである。
特開２００１−２７３３０８号公報

前記背景技術の回答支援装置によれば、消費者からの問い合わせに対して適切な回答作成者に問い合わせが転送されると共に、回答作成者には問い合わせに係る支援情報を得ることができるため迅速に回答することができる。

しかしながら、この背景技術の回答支援装置は、具体的には、消費者がリストボックスやチェックボックスなどの選択形式の問い合わせに対して対応する回答作成者及び支援情報を特定するものであり、消費者が自ら作成した問い合わせ文章に対応することができないという課題を有する。なお、支援情報とは、具体的には、消費者への問い合わせに係るマニュアル、仕様書のことである。

本発明は前記課題を解決するためになされたものであり、文書間の類似性を精度よく求める新たな手法を提供することを目的とする。

（１．類似性の判定）
本発明に係る文書類似性導出装置は、複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、前記入力文書に含まれる文を形態素解析する形態素解析手段と、前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段とを備えることを特徴とする。

このように、本発明においては、文書群の平均特徴ベクトルを算出して類似性の判定を行うため、判定の対象となる入力文書がどの文書群に属するかの判定を行い、対象となる入力文書を文書群に振り分けることで、いずれの分類に属するかを判定することができるため、類似性を判定する場合に分類を絞って判定することができる。つまり、類似度の判定精度を上げることができる。

（２．境界を算出）
本発明に係る文書類似性導出装置は、前記複数の文書群における文書群間の境界を、前記平均特徴ベクトル算出手段が算出した平均特徴ベクトルに基づいて算出する境界算出手段を備え、前記類似性判定手段が、前記境界算出手段が算出した境界に基づいて、前記入力文書と前記複数の文書群における各文書群との類似性を判定することを特徴とする。
このように、本発明においては、複数の文書群の文書群間の境界を算出することで、文書群を明確に区別し、入力文書がどの分類に属するかの判定を容易に行うことができる。

（３．第１の補正手段「誤認識文書群を特定する」）
本発明に係る文書類似性導出装置は、前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と異なる分類であるが、当該任意の一の文書群と同じ分類であると認識された誤認識文書群を特定する誤認識文書群特定手段と、前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記誤認識文書群特定手段が特定した誤認識文書群から遠ざけて補正する平均特徴ベクトル補正手段とを備えることを特徴とする。
このように、本発明においては、誤認識文書群を特定し、任意の一の文書群の平均特徴ベクトルを誤認識文書群から遠ざけて補正することで、文書群間の境界が補正され、より正確に類似性を判定することができる。

（４．第１の補正手段「非認識文書群を特定する」）
本発明に係る文書類似性導出装置は、前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と同じ分類であるが、当該任意の一の文書群と異なる分類であると認識された非認識文書群を特定する非認識文書群特定手段と、前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記非認識文書群特定手段が特定した非認識文書群に近づけて補正する平均特徴ベクトル補正手段とを備えることを特徴とする。
このように、本発明においては、非認識文書群を特定し、任意の一の文書群の平均特徴ベクトルを非認識文書群に近づけて補正することで、文書群間の境界が補正され、より正確に類似性を判定することができる。

（５．第１の補正手段「補正値の算出」）
本発明に係る文書類似性導出装置は、前記平均特徴ベクトル補正手段が、前記複数の文書群において、任意の一の文書群に含まれる文書の総数、当該任意の一の文書群における誤認識文書群に含まれる文書の総数、及び当該任意の一の文書群における前記非認識文書群に含まれる文書の総数の合計に対する、当該任意の一の文書群における誤認識文書群の文書の総数の比率、及び、当該任意の一の文書群における非認識文書群の文書の総数の比率から補正値を決定することを特徴とする。
このように、本発明においては、誤認識文書群、非認識文書群に基づいて平均特徴ベクトルの補正値を算出し、その補正値に基づいて境界が補正されるため、類似性の判定を正確に行うことができる。

（６．第２の補正手段「３つの特徴を特定する」）
本発明に係る文書類似性導出装置は、前記複数の文書群の任意の一の文書群には存在して他の文書群には存在しない特徴、当該任意の一の文書群には存在しないが他の文書群には存在する特徴、及び他の文書群よりも当該任意の一の文書群において重みが高い特徴を特定し、当該特定された各特徴に基づいて補正を行う固有特徴補正手段を備えることを特徴とする。
このように、本発明においては、重要度が高い特徴を抽出して補正を行うことで、類似性の判定には関係のない特徴ベクトルを除き、文書群におけるノイズを除去することができるため、より正確に文書群の境界を求めることができる。

（７．第２の補正手段「補正値の算出」）
本発明に係る文書類似性導出装置は、前記固有特徴補正手段が、前記任意の一の文書群における誤認識文書群の文書の総数に対する、他の文書群における当該任意の一の文書群の誤認識文書群の文書の総数の比率から補正値を決定することを特徴とする。
このように、本発明においては、重要度が高い特徴を抽出して補正値を算出し、その補正値に基づいて文書群の平均特徴ベクトルを調整するため、境界を補正して類似性の判定を正確に行うことができる。

（８．第３の補正手段「サブ文書群の抽出手法」）
本発明に係る文書類似性導出装置は、前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正後の前記非認識文書群をサブ文書群として抽出するサブ文書群抽出手段を備え、前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする。
このように、本発明においては、補正処理後に非認識文書であると判定されている文書群をサブ文書群として抽出し、そのサブ文書群の平均特徴ベクトルと任意の一の文書群の平均特徴ベクトルから境界を算出し、その境界に基づいて類似性の判定を行うため、補正処理によってもなお非認識文書であると判定されている文書群を、本来のカテゴリの文書群として認識して類似性の判定を行うことができると共に、文書群に含まれる各文書の特徴ベクトルからなるクラスタが非線形のものであっても、線形として処理を行うことができる。例えば、具体的には、文書群の境界面が凹面を有してる場合は、１つの平均特徴ベクトルのみでその文書群を代表することは困難であり、１つの平均特徴ベクトルのみで代表した場合は、類似性を正確に判定することができない。従って、サブ文書群を抽出し、サブ文書群毎に平均特徴ベクトルを算出し、それらの平均特徴ベクトルを１つの同一文書群と見なすことで、文書群の境界面が凹面を有してる場合であっても、線形処理で類似性を判定することができるため、類似性の判定精度を上げることができる。

（９．第３の補正手段「サブ文書群の第２の抽出手法」）
本発明に係る文書類似性導出装置は、前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正前の前記非認識文書群及び補正後の当該非認識文書群との差分から、当該任意の一の文書群の一部をサブ文書群として抽出するサブ文書群抽出手段を備え、前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする。
このように、本発明においては、サブ文書群を抽出し、そのサブ文書群の特徴ベクトルと当該文書群の特徴ベクトルから境界を算出し、その境界に基づいて類似性の判定を行うため、文書群に含まれる各文書の特徴ベクトルからなるクラスタが非線形のものであっても、線形として処理を行うことができる。従って、類似性の判定精度を上げることができる。

（１０．回答文抽出）
本発明に係る文書類似性導出装置は、予め登録された前記複数の文書群における各文書群の各文書が、問い合わせ文書とそれに対応する回答文書であり、前記入力文書が問い合わせ文書である場合に、前記類似性判定手段が判定した結果に基づいて、当該入力文書に対応する回答文書を当該複数の文書群における各文書群の各文書から抽出する、回答文書抽出手段を備えることを特徴とする。
このように、本発明においては、問い合わせの文書に対して、最も類似した文書からその回答文書を抽出するため、回答者の手間を省いて時間と労力を抑えることができる。特にメールセンターのような場所には、１日に何千件もの問い合わせメールが送信されるため、それに対応する回答を自動で抽出することで、かなりの人手と時間を節約することが可能となる。

これまで装置として本発明を把握してきたが、所謂当業者であれば明らかであるように、システム、プログラム又は方法としても把握することができる。
また、これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。

（本発明の第１の実施形態）
《１本発明の概要》
以下、本発明の実施の形態である文書類似性導出装置を含むメールサポートの回答作成支援システムの概要について説明する。本実施形態では、より現実的なシステムとして、パソコンユーザからの質問に対してシステムが少数の回答候補を提示し、それらから選択、査読して回答を仕上げるような支援システムの構築を目指す。実際のメールコールセンターの業務においては、過去の何万件もの質問・応答サンプルからの適切な例の検索が作業全体の内でかなりの比重を占めているため、査読のベースとなる回答案の候補を精度良く絞り込んで示すことができればメールコールセンターの運営コストの大幅な削減が実現できる。
ここでは、メールサポートの回答作成支援システムの説明として、メールサポートというタスクの解説を行い、それから実際にやりとりされる質問、回答メールの構成と特徴に付いて触れ、本発明における回答作成支援システムのシステムモデルについて述べる。

《１−１メールサポート》
メールサポートとは、顧客が企業から購入した製品やサービスに対して疑問や不具合が生じたときに、顧客がメールで質問をコールセンターへ送り、その質問に対してコールセンターが２４時間年中無休で回答を返すサポートサービスの事である。ここでは、電話でのやりとりによって問題を解決するサポートをコールセンターサポート呼び、メールによるやりとりによって問題を解決するサポートをメールサポートとする。

《１−２質問、回答メール》
以下に、送られてきた質問メール例とそれに対する回答を例にあげ、その構成と特徴について述べる。

《１−２−１質問、回答メールの構成》
図１は、実際に送られてきた質問メールとその回答の例示である。質問者はメールサポートを利用する際、ユーザ登録が必要になる。ユーザ情報にはユーザの使っているパソコンの機種名、搭載ＯＳなどが登録される。質問者は、ホームページのフォームで質問を入力し送信する。
インシデントＩＤには質問が送られてきた日付と適当な番号によってユニークな文字列が与えられる。質問メールの質問部分では、機種とＯＳについてはユーザ登録の際の情報が記載される。この質問では、質問者が入力する情報は[問い合わせ内容]、[操作／設定の詳細]、[エラーメッセージ]、[ＯＳ]、[使用環境]、[問題発生の頻度]の６つから構成されている。

《１−２−２質問メールの特徴》
質問の本文は主に[問い合わせ内容]に書かれている。メールによっては[操作／設定の詳細]、[エラーメッセージ]にも質問内容が及んでいる場合もある。また、これらの３項目については質問者が自由に書くことができるため、タイプミス、誤字及び脱字等があり文解析において係り受け関係がうまく取れないなどの文法的な不適切さが少なくない。さらに単語についても、「ＷＩＮＤＯＷＳ」が「ＷＩＮＤＯＵＳ」と書かれていたり、「内蔵」を「内臓」と書かれているなど、間違いやタイプミス、誤変換が多く、同じ質問文中でも「ＷＩＮＤＯＷＳ」と「ウィンドウズ」の両方の表記を混在させるといったカタカナ、アルファベットなど字種の違いによる表記の揺れが目立つ。後述する文書ベクトルを求める際に、本実施形態においては[問い合わせ内容]、[エラーメッセージ]に書かれている文章のみを利用している。[ＯＳ]は大半をＷｉｎｄｏｗｓＸＰが占め、[操作／設定の詳細]、[使用環境]、[問題発生の頻度]は書かれている内容が重複していることが少なくないため、本実施形態においては冗長性削減のために利用しないことにする。

《１−２−３回答メールの特徴》
回答メールには、回答者が質問に対する回答を記入する。特に、文頭には「〜について、お問い合わせ頂きました」や「〜する方法をご案内致します」のような、予め決められている形式の文が入る。過去に回答した質問文には、その質問文に対する回答文は存在するが、新たに送られてきた未知の質問文には回答文が存在しないため、質問文に対する回答文は利用できない。しかしながら、これらの文頭にある文は、質問文中の語を用いて質問文の内容を端的に記述していることが多く、利用するにあたっての信頼性は高いものと考えられる。

《１−３回答作成支援システムモデル》
以下に，本発明におけるメールサポートにおける回答作成の負担を軽減するためのシステムモデルについて述べる。

《１−３−１回答候補検索支援》
メールサポートに送られてくる質問について、それらは全て異なる内容ではなく、同じ内容の質問が多数存在する。本実施形態ではそれを利用して、送られてきた質問と同じ内容を持つ質問を過去に送られてきた質問、回答データベースの中から判別し、それに対する回答を査読者に提示することによって回答作成支援を行う。

《１−３−２ベクトル空間モデル》
前述したように、質問者が自由に書いた文には文法間違い、単語間違い、単語の表記の揺れが多い。よって、解析処理として複雑な係り受け解析などの文法解析の適用は難しい。そこで、本実施形態においては解析処理として形態素解析のみを用いて質問内の語をベクトルの要素として持つベクトル空間を用い、質問をベクトル空間上の点と見なし、その空間において同質な質問同士の類似度が高くなるように、類似性の判定を定義することで回答を検索する。
以上が本実施形態の回答作成支援システムの概要である。

《２回答作成支援システムの構成》
次に、本実施形態に係る回答作成支援システムの構成について説明する。

《２−１ハードウェア構成》
図２は、本実施形態に係るコンピュータのハードウェアとネットワークの構成図である。本発明の文書類似性導出装置である回答者コンピュータ１００、２００に回答支援プログラムがインストールされ、回答支援システムが構築される。本実施形態では、このように一つのコンピュータにより回答支援システムが構築されているが、クライアント・サーバ型で構築することもできる。例えば、クライアントでは、ユーザからの質問文をクライアントが受けてサーバに送信し、サーバで処理されて複数の回答候補をクライアントに返信する構成である。

本実施形態の回答支援システムを構築したコンピュータの属するネットワーク構成は、ＬＡＮ上に回答者コンピュータ１００、回答者コンピュータ２００、サーバ３００、プリンタ（サーバ）４００及びネットワーク機器５００が接続され、相互に通信可能となっている。また、ネットワーク機器５００は外部ネットワークとも接続し、他のコンピュータとＬＡＮ上のコンピュータを通信可能としている。ここでは、質問者コンピュータ６００からメールが送信されるとして、メールサーバが送信するメールがネットワーク機器５００を介して回答者コンピュータに送信される。回答者コンピュータが複数ある場合のメールの振り分け処理などは、メールサポートセンタに構築されたシステムの一機能として実装され、周知・慣用技術であるためここでは詳述しない。

回答支援システムが構築される回答者コンピュータ１００は、例えば、ＣＰＵ(Central Processing Unit)１０１、ＲＡＭ１０２、ＲＯＭ１０３、外部記憶装置であるＨＤ(hard disk)１０４、ＣＤ−ＲＯＭからデータを読み出すＣＤ−ＲＯＭドライブ１０５、入力装置であるマウス１１１及びキーボード１１２、出力装置であるディスプレイ１２１とスピーカー１２２、並びに、ネットワークに接続するためのＬＡＮインターフェース１３１からなる。

なお、図２では、回答者コンピュータ１００の構成の一例を示したが、回答者コンピュータ２００、サーバ３００、質問者コンピュータ６００も同様の構成である。
また、回答者コンピュータ１００の構成は、文書類似性導出装置としての機能を実現できればよく、上記構成に限定されない。従って、回答者コンピュータ２００、サーバ３００、質問者コンピュータ６００も同様に上記構成に限定されない。

《２−２回答者コンピュータのモジュール構成》
次に、図２における回答者コンピュータ１００のモジュール構成について説明する。図３は回答者コンピュータ１００のモジュール構成図である。回答者コンピュータ１００は、入力処理部４０５と前処理部４１０と形態素解析処理部４１５と特徴ベクトル算出処理部４２０と平均特徴ベクトル算出処理部４２５と境界算出処理部４３０と補正処理部４３５と類似性判定処理部４５０と回答文抽出処理部４７０と出力処理部４７５と文書記憶部４６０とを備える。
入力処理部４０５は、入力される問合わせ文データ４０１のデータを入力する処理を行う。
前処理部４１０は、全角（半角）文字変換やアルファベットの大文字（小文字）変換など、形態素解析を行う上での前処理を行う。

形態素解析処理部４１５は、前処理部４１０で前処理された問合わせ文データを形態素解析する処理を行う。
特徴ベクトル算出処理部４２０は、形態素解析されたデータからＴＦ／ＩＤＦ値、体言と用言との組での共起頻度、及び文タイプごとの単語出現頻度から特徴ベクトルを算出する処理を行う。この処理は、質問文間の類似度を余弦類似度で求めるために、これらの属性値の集合を便宜的に多次元空間のベクトルとして扱う。

平均特徴ベクトル算出処理部４２５は、文書記憶部４６０に保持されているカテゴリに分類された文書群の各文書の特徴ベクトルを平均して文書群の平均特徴ベクトルを算出する処理を行う。ここで算出された平均特徴ベクトルが、カテゴリを代表する特徴ベクトルとなる。

境界算出処理部４３０は、平均特徴ベクトル算出部４２０が算出した特徴ベクトルから類似性を判定するための境界を算出する処理を行う。
補正処理部４３５は、平均特徴ベクトル算出処理部４２５が算出した平均特徴ベクトルを調整して、境界算出処理部４３０が算出した境界をカテゴリの境界に近づけるように補正する処理を行う。

類似性判定処理部４５０は、補正された境界に基づいて、問合わせ文データがどのカテゴリの平均特徴ベクトルに最も類似しているかを判定する処理を行う。
回答文抽出処理部４７０は、類似していると判定された問合わせ文データに対応する回答文データを抽出する処理を行う。
出力処理部４７５は、類似していると判定された問合わせ文データと回答文データの中で上位数件（例えば３件）のデータを画面や紙に出力する処理を行う。

《２−２−１補正処理部のモジュール構成》
図４は、補正処理部４３５のモジュール構成図である。補正処理部４３５は、誤認識文書群特定処理部４３６と非認識文書群特定処理部４３７と平均特徴ベクトル補正処理部４３８と固有特徴ベクトル４４０とを備える。
誤認識文書群特定処理部４３６は、基準となる一のカテゴリと異なるカテゴリに分類される質問データが、類似性の判定において、同じカテゴリであると誤認識されているデータ群を特定する処理を行う。

非認識文書群特定処理部４３７は、基準となる一のカテゴリと同じカテゴリに分類される質問データが、類似性の判定において、異なるカテゴリであると非認識されているデータ群を特定する処理を行う。

固有特徴補正処理部４４０は、基準となる一のカテゴリと他のカテゴリを比較して、特徴に有意な差が見られる場合に、その特徴をカテゴリの固有の特徴として抽出し、それに基づいて平均特徴ベクトルを補正する補正値を算出する処理を行う。

平均特徴ベクトル補正処理部４３８は、誤認識文書群特定処理部４３６と非認識文書群特定処理部４３７と固有特徴補正処理部４４０が特定（算出）した結果に基づいて、基準となる一のカテゴリにおける平均特徴ベクトルを補正する処理を行う。
以上が、回答支援システムの構成である。

《３回答支援システムの動作》
次に、本実施形態に係る回答作成支援システムの動作について説明する。図５は、本実施形態に係る回答作成支援システムの動作を示すフローチャートである。回答者コンピュータ１００は、質問者６００からの問合わせメールを受信する（ステップＳ６０１）。問合わせメールにおける問合わせ文データが入力される（ステップＳ６０２）。問合わせ文データについては前処理が行われ（ステップＳ６０３）、形態素解析処理が行われる（ステップＳ６０４）。

《３−１形態素解析》
ここで、ステップＳ６０４の形態素解析処理について詳細に説明する。文書を特徴付ける語としては、名詞、未知語、動詞、形容詞などの自立語の原型と品詞情報の組を用いる。半角と全角の同じ文字や、アルファベットの大文字小文字などを区別しないようにあらかじめ前処理した文を形態素解析器にかけ、連続する数字、アルファベット、記号はつなげて名詞とする。ただし、連続する名詞を複合名詞とすることは、学習データが不十分であるとの考えから行わない。数詞と助数詞の連続については、数詞を実際の数字の並びではなく、数クラスに置き換える処理を行う。なお、括弧内の文で、２文節以上の文については、括弧内の文であるという情報は保持しつつ、別の一文として切り離して扱うようにする。語の解析は、日本語係り受け解析器ＣａｂｏＣｈａと、形態素解析器ＭｅＣａｂを用いて、形態素解析と文節区切りまでを行う。
図５に戻って、問合わせ文データの形態素解析処理が終了すると、特徴ベクトルが算出される（ステップＳ６０５）。

《３−２特徴ベクトルの算出》
ここで、ステップＳ６０５の特徴ベクトルの算出処理について詳細に説明する。特徴ベクトルの算出に際してベクトルの要素に対する重みとして以下の属性を用いる。
・ＴＦ／ＩＤＦ値
・体言と用言との組での共起頻度
・文タイプごとの単語出現頻度

《３−２−１ＴＦ／ＩＤＦ値》
ＴＦ−ＩＤＦ重み付けはテキストの自動索引づけにおいて、索引語の重みを計算する手法である。ＴＦ(Term Frequency)とは、ある文書ｄにおける索引語ｔの生起頻度であり、ｔｆ(ｄ，ｔ)と表記する。またＩＤＦ(Inverse Document Frequency)は文書の数Ｎと索引語ｔが１回以上生起する文書の数ｄｆｒｅｑ（ｔ）によって次のように定義される。

索引語ｔの文書ｄにおける重みｗ（ｔ，ｄ）として、ＴＦとＩＤＦの積をもちいるのがＴＦ−ＩＤＦ重み付けである。重み付けにＴＦを用いるのは、文書中で繰り返し生起する語はその文書において重要な概念であると考えているためである。しかし、多くの文書に生起する語は、文書を特定する性質を持たず、索引語として適していない。そこで、語がどのくらい特定性を持つかをＩＤＦによって重み付けに反映させている。

本実施形態においては、ＴＦ−ＩＤＦの重みづけによる文書ベクトルを拡張し、重み付きの余弦尺度によって類似度を求める。余弦尺度は、２つのベクトルの類似度を、ベクトルがなす角の余弦によって考えるもので、同じベクトル同士はそのなす角が０で余弦は１となり、完全に異なる要素を持つベクトル同士は直交して余弦は０になるというものである。ベクトルｖとｖ’のなす角θの余弦は以下の式で表せる。

ベクトルが正規化済みであるならば、これはｖとｖ’の内積に等しい。以降、基本的にベクトルはすべて正規化済みであると仮定する。つまり、余弦尺度は内積によって求められる。

《３−２−２体言と用言との組での共起頻度》
ＴＦ／ＩＤＦによる重み付けは、通常、ある語が特定の文書を特徴付ける尺度を表現するものであり、文の構造を反映しない。したがって、
・「電源を切る。」
・「電源を入れる。」
という二つの文に対して、「電源」という語は同じ重みが与えられる。だが実際には、目的とする質問文のカテゴリ判定においては、この二つは違う特徴を持つものとして認識すべきである。これは、語の出現頻度だけを考えていては、とらえにくい特徴である。そこで、ＴＦ／ＩＤＦによる重み付けに加えて、体言に対する用言の一文での共起の度合を重みとして用いることを考える。それぞれの体言について、一文中で共起した用言の頻度を要素とする特徴ベクトルを用いる。文書ベクトルの要素として、ＴＦ−ＩＤＦ重みと一緒に保持しておく。これにより、ふたつの語を比べた際に、共起ベクトルの余弦尺度による類似度を用いることを考える。
通常、ＴＦ−ＩＤＦのみによる文書ベクトルＶとＶ´の類似度ｓｉｍ（Ｖ、Ｖ´）は、余弦尺度、つまり内積によって求める。全文書中の語の数、すなわち文書ベクトルの次元をｎとすると、以下のように表される。

ここで、共起ベクトルの類似度を重みに加える。要素にＴＦ−ＩＤＦによる重みと体言・用言の共起ベクトルを持つ文書ベクトルＶ_c、Ｖ´_cの類似度ｓｉｍ（Ｖ、Ｖ´）を、以下のように定義する。

上式は、ある語ｉについて、ＴＦ−ＩＤＦの重みが大きいほど、また、語ｉに同じような共起の傾向があるほど、文書ベクトルの類似度が高くなる。上記の「電源」の例の場合、それぞれに共起している用言は「切る」、「入れる」であるので、共起ベクトルの類似度は０である。したがって文書ベクトル全体の類似度も０となり、ふたつの文は似ていないと判断される。

《３−２−３文タイプごとの単語出現頻度》
パソコンユーザから送られてきた問い合わせメールの内容をより正確に反映した特徴ベクトルを作成するため、文中の語がどのような意味の文に出現するのか、という傾向について考える。そのために、まず問い合わせメールを分析してそれぞれの文タイプごとの特徴を調べ、分析結果をもとに文タイプ同定のルールを作成する。

ここでは、質問メールを分析することにより、次のように少数の文タイプを設定した。
・Ｑｕｅｓｔｉｏｎ：「〜できますか?」「〜を教えて下さい」など、質問を述べてある文。
・Ｐｒｏｂｌｅｍ：「〜ができません」「〜する方法がわかりません」など、問題を述べてある文。
・Ｉｎｔｅｎｔｉｏｎ：「〜したい」「〜しようと思う」など、質問者の意図・希望が述べてある文。
・Ｓｉｔｕａｔｉｏｎ：問題発生の手順・状況などについて述べてある文。
・Ｔｈｉｎｋ：「〜だと思います」など、質問者の考えが述べてある文。
・Ｏｔｈｅｒｃａｓｅ：「HDDでの再生は問題ありません」など、別の状況では問題が発生しない場合が述べてある文。
・Ａｂｏｕｔ：「〜について」などの、質問内容を端的に表している文。質問、回答の一行目に述べられることがある．
・Ｍｅｓｓａｇｅ：エラーメッセージや、ダイアログなど、画面に表示された文字列の内容を述べてある文。
・ｅｔｃ：その他の情報
上記の文タイプを集計した結果を以下に示す。
・Ｑｕｅｓｔｉｏｎ３２４
・Ｐｒｏｂｌｅｍ６４８
・Ｉｎｔｅｎｔｉｏｎ８７
・Ｓｉｔｕａｔｉｏｎ３９８
・Ｔｈｉｎｋ３７
・Ｏｔｈｅｒｃａｓｅ８０
・Ａｂｏｕｔ３６８
・Ｍｅｓｓａｇｅ９６
・ｅｔｃ３４

質問について述べてある文や、パソコンの不具合・問題について述べてある文など、上記９種類の文タイプを設定し、約一週間分の問い合わせメール、３２３件２０７２文を分析して、文末表現や機能語から、文タイプを同定するルールを作成し、各文タイプ中での各単語の頻度を要素とする特徴ベクトルを用いる。上の表の右端の数字は、参考までに記したものであり、それぞれの文タイプについて、分析の際に出現した回数である。

ほとんどの質問には、QUESTIONかPROBLEMのどちらかが含まれ、どちらも出現しない場合は３２３件中に３件だけであった．その3件中のすべてにINTENTIONが含まれていた。さらに、それぞれのタイプについての分析を以下に示す。
・Question：ほとんどの場合文末が記号「?」か助詞「か」、あるいは「教えてください」「ご教示ください」「お願いします」などで終わる。その他のタイプはほとんどマッチしない。
・Problem：文末が自立の動詞・形容詞の基本形や、「〜できません」「〜しない」「〜してしまう」などで終わる場合が全体の３分の２を占める。また、ＱＵＥＳＴＩＯＮ文の直前に多く出現する。
・Intention：ほとんどの場合、文末が「〜したい」「〜ほしい」「〜しようと思っています」などで終わる。
・Situation：「〜しました」のような過去形で終わる場合が多いが、そうでない場合も多くある。PROBLEM文の直前に多く出現する。
・Think：「〜かと」を含むか、文末が「思う」「気がする」などで終わる。
・Other case：「〜は」「〜では」「〜も」「〜と」「〜だと」などを含む文で、文末が「できる」「異常ない」「問題ない」「正常です」「発生しない」などで終わる。
・About ：質問、回答の一行目において、文末が名詞で終わる。
・Message：文の全部、あるいは一部が「」や''で括られていることが多い。その直後に「という」「と、」「って」などの語がつき、「表示されました」「出ました」「メッセージが出ました」などの文が続く。
・etc：「初心者です」「名前は〜です」などの情報がある。これらについては、あらかじめ対応ルールを用意しておくのが難しく、また出現頻度も少ないため、今回は対応を見送ることにする。

上記の分析結果をもとに、文タイプの同定ルールを作成した。ルールは三段階に分けて適用される。まず、最初に適用するルールについて述べる。以下のそれぞれにあてはまる文に、重複を許してタイプを割り振っていく。
・Question：文末が「が?」以外の疑問符で終わる。あるいは、文末が助詞「か」で終わる。あるいは、文末の5文節以内に「教えて」「教示」「教授」「お知らせ」「なぜ」「願い」を含む。
・Problem：文末が自立の動詞・形容詞の基本形で終わる。あるいは、文末が「でした」「が」でなく、格助詞「が」を含む文のうち、格助詞「が」と文末の間に他の助詞を含まない。あるいは、文末の3文節に「すみません」「すいません」「していません」「しておりません」を含まず、「なくなっています」「なくなった」「なくなり」「てしまった」「なります」「なりました」「まいました」「まいます」「ません」「ない」「しまう」「れる」「れます」を含む。
・Intention：文末の５文節に「(動詞)+たい」「ほしい」「(動詞)+(よ)うと」を含み、その後に動詞の「思う」「考える」が続く。
・Think：文中に助詞の並び「かと」を含む、あるいは、文末の3文節に「思う」「思った」「思われ」「考えられ」「気がする」「気がします」を含む。
・Other case：助詞、あるいは助詞の並び「は」「では」「も」「と」「だと」を含む文で、文末が「できる」「動く」「作動(する)」「動作(する)」「起動(する)」の活用のうち、「基本形」「た」「ます」「ている」で終わるか、「異常」「問題」「不都合」の後に「ありません」「なかった」「ない」が続いて終わる。あるいは、助詞「は」「と」の後に、「正常に」「正しく」「普通に」「通常」「きちんと」「うまく」「ちゃんと」を含む文がくる。
・About ：質問、回答の一行目において、文末が名詞で終わる。
・Message：助詞「と」を含む文で、以降に「メッセージ」「ボックス」「ポップアップ」「表示」「エラー」動詞「出る」が出現する。助詞「と」の直前に、「」、（）、'、``、で括られた部分がある場合、複数の文にまたがっている場合でも、括弧などで括られた内部を全て``MESSAGE''と判断する。

次に、なにもタイプが割り振られなかった文に対して、SITUATIONかPROBLEMを割り振る。次の三種類の場合を考える。
・質問文中にQUESTIONもPROBLEMも出現していない場合。ABOUTが出現している場合は、ABOUT中の語を含む文をPROBLEMとする。ABOUT中の語を含む文がない場合や、ABOUTが出現していない場合、タイプが割り振られていない最初の文をPROBLEMとする。残りはSITUATIONとする。
・質問文中にQUESTIONが出現している場合。QUESTIONの直前の文にタイプが割り振られていない場合、PROBLEMとする。残りはSITUATIONとする。
・それ以外の場合。タイプが割り振られていない文をすべてSITUATIONとする。

次に、重複した文タイプに対して、タイプ間の優先順位にもとづいたルールを適用してタイプを確定する。
文タイプが重複している文は、以下の優先順位で文タイプを決定する。
``MESSAGE''＞``ABOUT''＞``QUESTION''＞``PROBLEM''＞``OTHERCASE''＞``INTENTION''＞``THINK''

以上のルールを適用して、文タイプを決定する。質問文中に出現する語は、どのような文タイプ中で何度出現するのかという情報をベクトルとして持つことになる。
求めた文タイプを利用して、式（４）を次のように拡張する。要素にＴＦ−ＩＤＦによる重み、体言・用言の共起ベクトル、文タイプベクトルを持つ文書ベクトルＶ_t、Ｖ´_tの類似度ｓｉｍ（Ｖ_t、Ｖ´_t）を、以下のように定義する。

式（５）は、語ｉが同じような文タイプに出現する傾向がある場合、文書ベクトルの類似度が大きくなることを表している。質問文が、どのようなことについて述べているのかという傾向が似ているものを類似度が高いと評価する。
以上が、特徴ベクトルの算出に際してベクトルの要素に対する重みに関する処理の詳細な説明である。
図５に戻って、問合わせ文データの特徴ベクトルを算出する一方、それらの処理と並行して、予めカテゴライズされた文書群を保持している文書記憶部４６０の文書データから、カテゴリ毎に平均特徴ベクトルが算出される（ステップＳ６０６）。

《３−３質問、回答データベース》
ここで、文書記憶部４６０の文書データ（質問、回答データベース）とステップＳ６０６の平均特徴ベクトルの算出処理について詳細に説明する。本実施形態においては、問い合わせ文に対する回答文例を適切に見つけ出すことが重要であることから、回答文の内容(文章表現)の類似性から同一の内容の回答であると見なし得るかどうかを重視して、カテゴリを作成する必要がある。使用機種名のように、各質問に依存した要素は、ワイルドカード化した上で比較を行い同一性の判断をする。図６は、質問応答カテゴリの階層関係を示す概念図である。質問の分類は、同じ内容の質問を同じカテゴリに分類するという基準で行われ、分類の結果は以下のような性質を持つ。以下では、問い合わせ文のメールの内容と、それに対する回答をセットにしたものをデータと呼ぶ。

・同じ問い合わせ内容のデータは、同じカテゴリに分類される。
・ひとつのデータは、ひとつのカテゴリにのみ分類される。
また、似たような内容のカテゴリについて、上位のカテゴリを作成し、二層の階層構造を持った分類を行う。上位カテゴリの分類は、以下のような性質を持つ。以降、下層のカテゴリをリーフカテゴリ、質問カテゴリの上位のカテゴリをブランチカテゴリと呼ぶ。
・内容が似たようなリーフカテゴリは、同じブランチカテゴリに分類される。
・ひとつのリーフカテゴリは、ひとつのブランチカテゴリにのみ分類され、複数のブランチカテゴリが同じリーフカテゴリを持つことはない。
・ブランチカテゴリは、二つ以上のリーフカテゴリを持ち、データは持たない。

発明者は、約一万件の問合わせ文書を分類し、そのうち６５３７件の問合わせ文書を用いて、６３４個の問合わせカテゴリと、８３個の上位カテゴリを作成した。残りの問合わせ文書は、分類対象外問合わせ文書として、データベースから除外されている。その理由の一つとして、１カテゴリに１件、または２件しか問合わせ文書がないものを、レアケースとして分類対象外としている。従って、分類済みの質問、回答データベースには、１カテゴリに最低３件以上の問合わせ文書が存在することが保証されている。また、他の分類対象外の理由として、問い合わせ内容が以前問合わせした内容の続きなどの場合、以前の問い合わせの内容を把握していることが前提となっているため、例外として分類対象外としている。このようにして、文書記憶部４６０が作成される。

カテゴリ構築の方針から、一つのリーフカテゴリに属する質問回答データの回答部分は同じ内容であると見なし得るため、リーフカテゴリにごとに共通回答文となる回答文テンプレートを作成する。回答文テンプレートには、問合わせメール部分に記載された機種関連情報などに基づいて埋められるべきスロットが存在する。もちろん、機種依存性などが全く存在しない回答の場合にはスロットは存在しない。査読用の回答例文は、システムがそれらを適宜埋めた上で提示する。

《３−４平均特徴ベクトルの算出》
次に平均特徴ベクトルの算出について説明する。上記で作成した文書記憶部４６０が保持する全文を検索することによって過去のデータから未知の質問と同質の質問の検索を行うと、たまたま同様の表現を行っている内容の違う質問が返されることがあり、また、検索結果に個々の質問文書を出力として返すため、回答候補が多い場合に閲覧効率が悪く回答作成者にとって大きな負担となる場合がある。そこで、既に分類が行われた質問、回答データベースから、そのカテゴリ内に存在する各文書の特徴ベクトルを平均化したものをそのカテゴリの平均特徴ベクトルとして扱うことで、質問内容の汎化を行い検索精度と閲覧効率を向上させる。

図７は、平均特徴ベクトルのモデルを示す図である。カテゴリがＡ、Ｂ及びＣに分類されており、それぞれのカテゴリで複数の文書の特徴ベクトルが点で示されている。各カテゴリの中の黒点がそのカテゴリの平均特徴ベクトルであり、各文書の特徴ベクトルの平均を算出したものである。そして、未知の質問文（新たに入力された文書）がどのカテゴリに属するのかを計算するのに、カテゴリ内の平均特徴ベクトルから未知の質問文との類似度を計算する。ｎ個の正規化前の質問文の特徴ベクトルａ₁・・・ａ_nを持つカテゴリＡの平均特徴ベクトルは、以下のようになる。

この平均特徴ベクトルを正規化したものと、未知の質問文の特徴ベクトルとの余弦類似度を類似度として定義する。
図５に戻って、平均特徴ベクトルが算出されると、その平均特徴ベクトルに基づいて境界が算出される（ステップＳ６０７）。

《３−５境界算出処理》
ここで、ステップＳ６０７の境界の算出処理について詳細に説明する。図８は平均特徴ベクトルに基づいてカテゴリの類似を判定するための境界を算出した様子を示す図である。図では説明の都合上２次元領域に線として境界を算出しているが、実際は３次元空間であるため、境界は曲面である。図８（ａ）は□と○のカテゴリを分類する境界線を示している。ここでは、それぞれの平均特徴ベクトルを結ぶ線分に対して、線分の中点を通って垂直に交差する面を境界として算出している。図８（ｂ）は□と○と△のカテゴリを分類する境界線を示している。ここでは、それぞれの平均特徴ベクトルの重心となる点（図中の★マーク）を算出し、そこから図８（ａ）と同様にしてそれぞれの境界を算出している。
なお、境界の求め方は、上記の方法に限定されない。
また、３つ以上のカテゴリの境界線を算出する場合は、上記いずれの方法を利用してもよい。

図５に戻って、ステップＳ６０７で境界が算出されると補正処理が行われる（ステップＳ６０８）。この補正処理について、さらに詳細なフローを図９に示す。補正処理においては、固有特徴の抽出が行われ（ステップＳ９０１）、誤認識文書群と非認識文書群が特定される（ステップＳ９０２、ステップＳ９０３）。それらの情報に基づいて、平均特徴ベクトルの補正が行われる（ステップＳ９０４）。

《３−６補正処理》
ここで、ステップＳ６０８の補正処理について詳細に説明する。以下に、カテゴリ同士の差異を考慮した平均特徴ベクトルの補正手法とそれを用いた質問文のカテゴリ判別手法について説明する。

前記の類似性判定手法においてカテゴリの特徴を表している平均特徴ベクトルモデルは、対象のカテゴリに属するＴＦ−ＩＤＦによって重みを与えた文書の特徴ベクトルの平均化よって平均特徴ベクトルを求め、対象の質問内容の特徴を捉えている。しかし、判別という点で重要なのは対象同士を区別できる差異である。それは、あるカテゴリの特徴としていくら強く現れていても、その特徴が全ての対象において同程度に強く現れている場合には、その特徴は判別において重要ではない。これはＴＦ−ＩＤＦのみから求めることは難しい。よって、本実施形態における類似性判定手法ではカテゴリ同士の差異を特徴として考慮する判定を行う手法も提案する。

ここで、未知の質問文の、対象のカテゴリ（基準となる一のカテゴリ）への判別において重要な特徴とは、対象のカテゴリではよく現れていて他のカテゴリではあまり現れない特徴と、対象のカテゴリにはあまり現れないのに他のカテゴリではよく現れている特徴の２つと考えられる。そこで、対象のカテゴリに属する平均特徴ベクトルによって表される対象のカテゴリとの類似性を示すベクトルをＶ_s、対象のカテゴリと他カテゴリの平均特徴ベクトルの差によって表されるベクトルを、対象のカテゴリとの非類似性を表すベクトルＶ_dとし、この２つを用いることで対象のカテゴリを表す平均特徴ベクトルＶ_cを、以下の式のように定義する。

これにより、対象のカテゴリの平均特徴ベクトルに対して他のカテゴリとの類似性を加味し、カテゴリ同士の差異を表現したベクトルとして平均特徴ベクトルを表現する。そして、このベクトルモデルによって、判別における尺度として類似性ではなく差異を用いたカテゴリの判別を行う。

前述した平均特徴ベクトル手法では、カテゴリに属する平均特徴ベクトルとの類似性を用いてカテゴリの判別を行っているが、他のカテゴリとの差異を考慮していないために実際の判別においてそれが有益かどうかは定かではない。よって、カテゴリ判別の結果における誤答傾向を平均特徴ベクトルへとフィードバックする事によって、その誤答傾向をなくすようにベクトルを補正する手法を述べる。この補正を簡潔に表すと図１０のように表すことができる。これは各ベクトルを多次元ベクトル空間上の点とした場合に、対象のカテゴリの平均特徴ベクトルを表す点を、対象のカテゴリへと正しく認識できなかった文書ベクトル（非認識文書群）を表す点へと近づけて正しく認識できるようにし、また、誤って認識してしまった異なるカテゴリの文書ベクトル（誤認識文書群）を表す点から遠ざけ、誤って認識しないようにするものである。

以下、実際に補正に用いる補正値について説明する。まず、カテゴリ判別時における誤判別結果（誤認識文書群と非認識文書群）からの情報によって求められる補正値について述べる。これは補正前の対象カテゴリの平均特徴ベクトルでは、対象カテゴリに属するにも関わらず対象カテゴリへと正しく判別できなかった文書群の特徴を平均特徴ベクトルに加えることによって正しく判別できるようにし、対象カテゴリに属しないにも関わらず対象カテゴリへと誤って判別してしまった文書群の特徴を平均特徴ベクトルから除くことによって誤って判別しないようにするものである。

ここで、誤答について対象のカテゴリに属しながらそのカテゴリへと判別されない非認識を誤判別Ａとし、また対象のカテゴリに属しないながらそのカテゴリに判別される誤認識を誤判別Ｂとする。判別結果において対象のカテゴリｃにおける誤判別Ａ文書群の平均ベクトルを平均誤判別Ａ文書ベクトルＶ_cpとして以下の式から求める。

補正の際にはこのベクトルを平均特徴ベクトルに加算することで誤判別Ａ事例を正しく判別できるようにする。また同様に、誤判別Ｂ文書群の平均ベクトルを平均誤判別Ｂ文書ベクトルＶ_cnとして以下の式から求める。

補正の際にこのベクトルを平均特徴ベクトルから減算することで誤判別Ｂ事例を誤って判別しないようにする。上記各式（８）、式（９）においてベクトルＶ_cはカテゴリｃに
おける平均特徴ベクトルで、Ｅ_cpはカテゴリｃにおける誤判別Ａの文書群の特徴ベクトル集合で、Ｅ_cnはカテゴリｃにおける誤判別Ｂの文書群の特徴ベクトル集合である。

次に、平均特徴ベクトル同士の比較によって求められる補正値について説明する。これは、対象のカテゴリの平均特徴ベクトルと他のカテゴリの平均特徴ベクトルと比較して、ある特徴に有意な差が見られる場合に、その特徴をそのカテゴリにおける固有の特徴として抽出し、それを用いた補正を行うことで対象のカテゴリの特徴を先鋭化させ、判定精度の向上を図るものである。

前述のベクトル補正値は、あくまで実際の特徴ベクトルを元に補正値を求めているのでどうしてもある程度の判別には関係のない特徴が含まれてしまい、判別において有益な特徴のみを補正することができない。そこで、平均特徴ベクトル同士を比較し、他のどのカテゴリよりも対象のカテゴリへの判別における重要度が高い特徴を抽出し、それを用いて補正を行うことによって平均特徴ベクトルからノイズを消すことができる。そこで、対象のカテゴリの固有の特徴として、他のどのカテゴリよりも対象のカテゴリにおいて重みが高い第１の特徴、対象のカテゴリには存在して他のカテゴリには存在しない第２の特徴、対象のカテゴリには存在しないが他のカテゴリには存在する第３特徴の３つの特徴を考えて補正値を求める。以上の３つにおいて第１の特徴の場合は、対象のカテゴリと他のカテゴリとの特徴における重みの差の最小値を用い、第２、第３の特徴の場合は、本実施形態では固定値を用いる。このようにして求めた補正値を重みとして特徴に対して与えたものを要素とするベクトルをカテゴリｃにおける固有特徴ベクトルをベクトルＶ_fcとし，以下の式により求めることができ、カテゴリの平均特徴ベクトルの補正に用いる。

Ｃはカテゴリ集合であり、ベクトルＶ_fc（ω）はカテゴリｃの平均特徴ベクトルにおける要素ωの値であり、Ａは補正定数である。なお，本実施形態においては補正定数Ａを０．３とする。

次に、前述した補正値を用いて誤答傾向をフィードバックさせて行う平均特徴ベクトルの補正について説明する。まず、補正ベクトルＶ_cp、Ｖ_cnについてベクトルＶ_cp、Ｖ_cnには、対象のカテゴリの平均特徴ベクトルＶ_cとの差分ベクトルを取り、これを正規化することでベクトルＶ_cをベクトルＶ_cpへと近づけ、ベクトルＶ_cnから遠ざけるような単位補正ベクトルを求める。それぞれの補正ベクトルを考えたとき、ベクトルＶ_cをベクトルＶ_cpへと近づけることは誤判別Ａ事例に近づけることと等しいので、それにより誤判別Ａ事例に対する正しいカテゴリヘの類似度を上げることができる。その結果として、正しいカテゴリへの類似度が、誤って判別されているカテゴリへの類似度より高くなれば、正しく判別できていない誤判別Ａ事例集合を正しく判別できるようになる。また、同じくベクトルＶ_cをベクトルＶ_cnから遠ざけることは、誤判別Ｂ事例から遠ざけることと等しいので、それにより誤判別Ｂ事例に対する正しいカテゴリヘの類似度を下げることができる。その結果として，誤って判別されているカテゴリの類似度が正しいカテゴリへの類似度より低くなれば、正しく判別できていない誤判別Ｂ事例集合を正しく判別できるようになる。

ここで、それぞれの補正ベクトルを考えた時に、そのまま補正ベクトルを用いて補正を行うとそれぞれ誤判別Ａ、Ｂの事例数の規模に関係なく補正を行うので、少量の誤判別規模から求めた補正値でも大きな補正を与えてしまうことになる。そこで、それぞれに対して誤判別規模に応じた適切な重みを与えたい。従って、ベクトルＶ_cp、ベクトルＶ_cnから求められる補正ベクトルに対しては、カテゴリｃに属する全質問文書数と誤判別Ａ文書数と誤判別Ｂ文書数の総和に対する誤判別Ａ文書数の比率と誤判別Ｂ文書数の比率を重みとして与え、ベクトルＶ_fcには、対象のカテゴリにおける総誤判別Ｂ文書数におけるそれぞれのカテゴリ毎の誤判別Ｂ文書数の割合を重みとして与える。以下の式が、補正を行う場合の式である。

Ｃはカテゴリ集合であり、ｅ_cはカテゴリｃにおける誤判別Ｂ文書数であり、ｅ_cc'はカテゴリｃにおけるカテゴリｃ’との誤判別Ｂ文書数ｗの値であり、ｎはカテゴリｃに属する全質問文書数である。

以上の補正は、それぞれのカテゴリの平均特徴ベクトルに対して独立に行われるので、ある１つのカテゴリに対する補正が判別結果全体に対してよい結果を与えるとは限らない。そこで全体のバランスを考えるために以上の補正を繰り返し行うことでカテゴリ判別における最適なカテゴリ文書ベクトルを求める。

図１１に、フィードバック回数における既知の質問集合と未知の質問集合における判別精度の推移を示す。その結果から、既知の質問集合の精度の変化が初めて等しいか悪くなった時を、最適化の終了条件とみなすことことができる。つまりグラフからフィードバック回数を４、５回行えば最適化は終了できる。

なお、本実施形態の補正処理においては、誤答傾向をフィードバックして行う補正と固有の特徴を抽出して行う補正の両方を行っているが、誤答傾向をフィードバックして行う補正のみを行ってもよいし、固有の特徴を抽出して行う補正のみを行ってもよい。
以上が補正処理に関する詳細な説明である。

図５に戻って、ステップＳ６０６で補正処理が終了すると、問合わせ文データの特徴ベクトルと補正処理が行われた各カテゴリの平均特徴ベクトルから類似性が判定される（ステップＳ６０９）。その結果最も類似していると判定されたカテゴリの中から、特に類似している質問、回答データから回答文を抽出し（ステップＳ６１０）、査読者が確認できるようにディスプレイに出力する（ステップＳ６１１）。この時、出力する回答文の件数は３件で、査読者はその３件だけを査読して（ステップＳ６１２）、最も類似している回答文から正式な回答文を作成することができる。
なお、ディスプレイに出力する回答文の件数は、査読者が任意に設定することができる。
回答文が作成されると、質問者６００に対してその回答文をメールで送信して（ステップＳ６１３）処理を終了する。

《３−７回答文の抽出操作》
図１２に、査読者が実際に操作する実行画面の一例を示す。図１２（ａ）は実行画面の画面構成で、図１２（ｂ）は実際の実行画面である。査読者は、左上の質問文入力フォームに質問文を入力する。そして、「カテゴリ判定」ボタンを押すと、右のリストボックスに類似度が高い順にカテゴリが表示される。リストボックス内のカテゴリをクリックすると、そのカテゴリに属する過去の質問、回答文が左下のテキストボックスに表示され参照することができる。上位カテゴリのリストボックスには、上位カテゴリが表示され、クリックすると下位のカテゴリが表示される。下位のカテゴリをクリックすると、カテゴリに属する過去の質問、回答文が参照できる。回答者は、これらの情報を見ながら質問文に修正を加えて再度カテゴリ判定を行うこともできる。

なお、質問文を入力しなくても全ての質問、回答文を参照することは可能であり、また、様々な検索（質問日時、回答日時、担当者、キーワード、カテゴリキーワード、タイトル等）により文書を検索することもできる。
また、画面の左に質問、回答データベースの階層構造を視覚的に表示できるようにしてもよい。例えば、上位カテゴリのリストの一覧を表示しておき、クリックするとその上位カテゴリ含まれる下位カテゴリの一覧が表示できるようにする。

（本発明の第２の実施形態）
《１概要》
第１の実施形態で示した手法は、各カテゴリに対して１つの平均特徴ベクトルによってカテゴリの判別を行っているために、ベクトル空間上において線型分離不可能なカテゴリ同士の判別において精度が低くなる可能性がある。そこで本実施形態においては、カテゴリに対して複雑な判別を可能にするために新たな平均特徴ベクトルを追加することによって線型分離不可能なカテゴリ同士に判別においても精度を向上させる手法を述べる。カテゴリ内の質問文書集合は類義語や同義語、言い回し等の表現の曖昧性により単一の特徴において１つに固まった集合ではなく、複数の特徴において多数の集合を形成していると考えられる。例えば、カテゴリは同じであるが、島のように離れた領域に小さくクラスタリングされていたり、また、その島が一つのカテゴリで複数存在する場合もある。そこで、単一のベクトルのみにおいて対象のカテゴリを表現し、それによって判別を行うのは難しいと考えられる。よって、第１の実施形態における補正処理を行った後に最終的に残った誤判別Ａ文書集合の平均文書ベクトルを、既存の平均特徴ベクトルと同質の内容を表す独立した特徴であると見なし、新たな平均特徴ベクトルとして追加し、前記で述べた補正の最適化を行う。そして、実際の判別においては、カテゴリに属する平均特徴ベクトル群の最高値を対象のカテゴリとの類似度とする。

《２構成》
図１３は、本実施形態に係る補正処理部４３５のモジュール構成図である。第１の実施形態と異なる点は、サブカテゴリ抽出処理部４４５と特徴ベクトル追加処理部４４６が追加された点である。
サブカテゴリ抽出処理部４４５は、基準となる一のカテゴリの文書群の特徴ベクトルの集合が凹型のような線形処理ができない形状を有する場合や島を有する場合に、カテゴリに含まれる文書群の一部を抽出して、サブカテゴリとする処理を行う。
特徴ベクトル追加処理部４４６は、抽出されたサブカテゴリの平均特徴ベクトルを算出して、平均特徴ベクトルを追加する処理を行う。

《３動作》
図１４は、本実施形態に係る補正処理のフローチャートであり、図１５は、各処理を示した模式図である。まず、第１の実施形態における補正処理を行う（ステップＳ１４０１）（図１５（ａ）参照）。補正された結果、まだ非認識文書である文書群Ｃを特定する（ステップＳ１４０２）（図１５（ｂ）参照）。文書群Ｃをサブカテゴリとして抽出し、サブカテゴリの平均特徴ベクトルを算出する（ステップＳ１４０３）（図１５（ｃ）参照）。その他のカテゴリの平均特徴ベクトルを再計算して（ステップＳ１４０４）（図１５（ｄ）参照）補正処理を終了する。

また以下の方法でも補正処理が可能である。図１６は、本実施形態に係る補正処理の第２のフローチャートであり、図１７は、その各処理を示した模式図である。まず、対象となるカテゴリの文書群から非認識文書群Ａを特定する（ステップＳ１６０１）（図１７（ａ）参照）。第１の実施形態における平均特徴ベクトルの補正処理を行い、補正後の非認識文書群Ｂを特定する（ステップＳ１６０２）（図１７（ｂ）参照）。非認識文書群Ａと非認識文書群Ｂを比較して（ステップＳ１６０３）、補正後に非認識文書ではなくなった文書群Ｃを特定する（ステップＳ１６０４）（図１７（ｃ）参照）。文書群Ｃの文書データ数が所定の閾値以上かどうかを判定し（ステップＳ１６０５）、所定の閾値未満であれば、平均特徴ベクトルの補正を行わずに処理を終了する。所定の閾値以上であれば、文書群Ｃと対象となるカテゴリの一部を合体させてサブカテゴリを作成する（ステップＳ１６０６）。サブカテゴリの平均特徴ベクトルを算出し、サブカテゴリ以外のカテゴリにおける平均特徴ベクトルを再計算して（ステップＳ１６０７）（図１７（ｄ）参照）、平均特徴ベクトルの補正処理を終了する。

平均特徴ベクトルの追加処理を行った後は、同じ質問応答カテゴリに属する平均特徴ベクトルが複数存在することになる。したがってカテゴリの判別においては、カテゴリＣに属する特徴ベクトルの集合をＳｃとして、次の式により得られた値、すなわち平均特徴ベクトルの内で最も高い類似度の値を評価値として用いる。

このように複数の平均特徴ベクトルを用いることによって、より複雑な判別に対応できるようにする。また、図１８に、新規平均特徴ベクトルの追加における既知の質問集合と未知の質問集合における判別精度の推移を示す。その結果から、既知の質問集合の精度の変化が初めて等しいか悪くなった時を最適化の終了条件とみなすことができる。つまりグラフからフィードバック回数を６〜８回行えば最適化は終了できる。

なお、入力された問合わせ文データは、回答後に質問、回答データとして文書記憶部４６０に記憶され、過去のデータとして保存される。つまり、処理が多くなるほど質問、回答データ数が増え、より正確な類似判定を行うことができるようになる。

以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。

《実験データ》
１２件以上の質問、回答データが含まれるリーフカテゴリとそれらのブランチカテゴリとを用いて質問応答カテゴリの判定精度の評価実験を行った。対象となったリーフカテゴリは１４５個、ブランチカテゴリは５２個であり、含まれる質問、回答データの総数は４０２３件である。

《条件》
全ての質問、回答データを用いたクローズドテストと、質問、回答データを三分割し、内２つを学習データ、残りをテストデータとするオープンテストを行った。オープンテストは３回繰り返して行われた。また、それぞれのテストで補正処理を行った場合と補正処理を行わなかった場合の実験を行った。

《結果》
下記の表１はクローズドテストを行った結果である。表には、最上位及び３位以内のカテゴリに正解が含まれていた割合を、補正処理をした場合としなかった場合とで比較して示している。

表１から補正処理を行わない場合であっても、３位以内に正解が含まれている割合は８５％を超えており十分に正解を導出できていると言える。さらに補正処理を行った場合は、１位が正解である割合が９２．１％と非常に高い値を示している。改善率も７５．３％となっていることからも、補正処理により平均特徴ベクトルの算出が正確に行われていることがわかる。ここで改善率とは以下の式により算出している。

表２から、オープンテストの場合も３位以内に正解が含まれている割合は８５％を超えており十分に正解を導出できていると言える。補正処理を行った場合は、クローズドテストの場合ほどではないが、リーフカテゴリで１位が正解である場合の正解率の改善率が１５．４％程度、他の場合も改善率２０％以上と、ここでもかなりの改善が見られる。この結果により、新しい問い合わせ文に対しても、ブランチカテゴリで上位３位程度まで調べれば、ほとんどの場合で最終査読者が最良と判定するような回答例を獲得できると期待できる。今回の実験結果では、オープンテストにおけるリーフカテゴリでの１位認識精度は７０％弱であったが、クローズドテストの結果を鑑みると、学習に用いる質問、回答データを増やせば十分な精度を得ることができると思われる。

以上のように、上記各実施形態では、メールコールセンターでのパソコン技術サポートにおける回答メール作成作業の負担を軽減するために、適切な回答例候補を精度よく選出することを目的とし、各実施形態で提案した手法を用いることにより、上位３位までの質問応答カテゴリ、すなわち３個の回答例候補を調べるだけで、９０％弱の精度で適切な候補を特定でき、さらに、上位カテゴリのレベルで上位３位までに含まれる質問応答カテゴリを調べれば、９７．５％の精度で適切な候補の獲得が期待できる。従って、本発明で提案した手法は十分に有効であり、そのままメールコールセンターでの実務に活用可能であると言える。

実際に送られてきた質問メールとその回答の例示である。第１の実施形態に係るコンピュータのハードウェアとネットワークの構成図である。回答者コンピュータのモジュール構成図である。補正処理部のモジュール構成図である。第１の実施形態に係る回答作成支援システムの動作を示すフローチャートである。質問応答カテゴリの階層関係を示す概念図である。平均特徴ベクトルのモデルを示す図である。境界を算出する様子を示す図である。補正処理部の動作を示すフローチャートである。平均特徴ベクトルを補正する様子を示す図である。フィードバック回数における既知の質問集合と未知の質問集合における判別精度の推移を示すグラフである。査読者が実際に操作する実行画面の一例である。第２の実施形態に係る補正処理部のモジュール構成図である。第２の実施形態に係る補正処理部の動作を示すフローチャートである。補正処理における各処理の様子を示した模式図である。第２の実施形態に係る補正処理部の動作を示す第２のフローチャートである。補正処理部の動作を示す第２のフローチャートにおける各処理の様子を示した模式図である。新規平均特徴ベクトルの追加における既知の質問集合と未知の質問集合における判別精度の推移を示すグラフである。

符号の説明

１００回答者コンピュータ
１０１ＣＰＵ
１０２ＲＡＭ
１０３ＲＯＭ
１０４ＨＤＤ
１０５ＣＤ−ＲＯＭドライブ
１１１マウス
１１２キーボード
１２１ディスプレイ
１２２スピーカー
１３１ＬＡＮインターフェース
２００回答者コンピュータ
４０１問合わせ文データ
４０５入力処理部
４１０前処理部
４１５形態素解析
４２０特徴ベクトル算出処理部
４２５平均特徴ベクトル算出処理部
４３０境界算出処理部
４３５補正処理部
４３６誤認識文書群特定処理部
４３７非認識文書群特定処理部
４３８平均特徴ベクトル補正処理部
４４０固有特徴補正処理部
４４５サブカテゴリ抽出処理部
４４６特徴ベクトル追加処理部
４５０類似性判定処理部
４６０文書記憶部
４７０回答文抽出処理部
４７５出力処理部
４８０回答文データ

Claims

複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、
前記入力文書に含まれる文を形態素解析する形態素解析手段と、
前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、
前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、
前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段と、を備えることを特徴とする、文書類似性導出装置。
請求項１に記載の文書類似性導出装置において、
前記複数の文書群における文書群間の境界を、前記平均特徴ベクトル算出手段が算出した平均特徴ベクトルに基づいて算出する境界算出手段を備え、
前記類似性判定手段が、前記境界算出手段が算出した境界に基づいて、前記入力文書と前記複数の文書群における各文書群との類似性を判定することを特徴とする、文書類似性導出装置。
請求項２に記載の文書類似性導出装置において、
前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と異なる分類であるが、当該任意の一の文書群と同じ分類であると認識された誤認識文書群を特定する誤認識文書群特定手段と、
前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記誤認識文書群特定手段が特定した誤認識文書群から遠ざけて補正する平均特徴ベクトル補正手段と、を備えることを特徴とする、文書類似性導出装置。
請求項２または３に記載の文書類似性導出装置において、
前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と同じ分類であるが、当該任意の一の文書群と異なる分類であると認識された非認識文書群を特定する非認識文書群特定手段と、
前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記非認識文書群特定手段が特定した非認識文書群に近づけて補正する平均特徴ベクトル補正手段と、を備えることを特徴とする、文書類似性導出装置。
請求項４に記載の文書類似性導出装置において、
前記平均特徴ベクトル補正手段が、前記複数の文書群において、任意の一の文書群に含まれる文書の総数、当該任意の一の文書群における誤認識文書群に含まれる文書の総数、及び当該任意の一の文書群における前記非認識文書群に含まれる文書の総数の合計に対する、当該任意の一の文書群における誤認識文書群の文書の総数の比率、及び、当該任意の一の文書群における非認識文書群の文書の総数の比率から補正値を決定することを特徴とする、文書類似性導出装置。
請求項１ないし５のいずれかに記載の文書類似性導出装置において、
前記複数の文書群の任意の一の文書群には存在して他の文書群には存在しない特徴、当該任意の一の文書群には存在しないが他の文書群には存在する特徴、及び他の文書群よりも当該任意の一の文書群において重みが高い特徴を特定し、当該特定された各特徴に基づいて補正を行う固有特徴補正手段を備えることを特徴とする、文書類似性導出装置。
請求項６に記載の文書類似性導出装置において、
前記固有特徴補正手段が、前記任意の一の文書群における誤認識文書群の文書の総数に対する、他の文書群における当該任意の一の文書群の誤認識文書群の文書の総数の比率から補正値を決定することを特徴とする、文書類似性導出装置。
請求項３ないし７のいずれかに記載の文書類似性導出装置において、
前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正後の前記非認識文書群をサブ文書群として抽出するサブ文書群抽出手段を備え、
前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする、文書類似性導出装置。
請求項３ないし８のいずれかに記載の文書類似性導出装置において、
前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正前の前記非認識文書群及び補正後の当該非認識文書群との差分から、当該任意の一の文書群の一部をサブ文書群として抽出するサブ文書群抽出手段を備え、
前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする、文書類似性導出装置。
請求項１ないし９のいずれかに記載の文書類似性導出装置において、
予め登録された前記複数の文書群における各文書群の各文書が、問い合わせ文書とそれに対応する回答文書であり、前記入力文書が問い合わせ文書である場合に、前記類似性判定手段が判定した結果に基づいて、当該入力文書に対応する回答文書を当該複数の文書群における各文書群の各文書から抽出する、回答文書抽出手段を備えることを特徴とする、文書類似性導出装置。
複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出方法において、
前記入力文書に含まれる文を形態素解析する形態素解析ステップと、
前記形態素解析ステップで解析された結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出ステップと、
前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出ステップと、
前記特徴ベクトル算出ステップにて算出された前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出にて算出された前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定ステップと、を含むことを特徴とする、文書類似性導出装置。
複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行するようにコンピュータを動作させるための文書類似性導出プログラムにおいて、
前記入力文書に含まれる文を形態素解析する形態素解析手段と、
前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、
前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、
前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段としてコンピュータを動作させることを特徴とする、文書類似性導出プログラム。