JP2009053743A - 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム - Google Patents

文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム Download PDF

Info

Publication number
JP2009053743A
JP2009053743A JP2007217172A JP2007217172A JP2009053743A JP 2009053743 A JP2009053743 A JP 2009053743A JP 2007217172 A JP2007217172 A JP 2007217172A JP 2007217172 A JP2007217172 A JP 2007217172A JP 2009053743 A JP2009053743 A JP 2009053743A
Authority
JP
Japan
Prior art keywords
document
feature vector
group
similarity
document group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007217172A
Other languages
English (en)
Inventor
Hirosato Nomura
浩郷 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Original Assignee
Kyushu Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC filed Critical Kyushu Institute of Technology NUC
Priority to JP2007217172A priority Critical patent/JP2009053743A/ja
Publication of JP2009053743A publication Critical patent/JP2009053743A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文書間の類似性を精度よく求める新たな手法を提供する。
【解決手段】複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、前記入力文書に含まれる文を形態素解析する形態素解析処理部415と、前記形態素解析手段処理部415が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出処理部420と、前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出処理部425と、前記特徴ベクトル算出処理部420が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出処理部425が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定処理部450とを備えることを特徴とする。
【選択図】図3

Description

本発明は、文書の類似性を求める文書類似性導出装置に関し、特に、文の特徴ベクトルを算出して類似性を判定する文書類似性導出装置等に関する。
近年インターネットやパソコンの普及により、アフターサービスとしてのパソコン技術サポートの要望や利用が増大している。多くのパソコン技術サポートセンターでは、主に電話で技術サポートを行う従来型のコールセンターに加えて、インターネット経由でE−mailでの問い合わせを受け付けるメールコールセンターがたくさん設置されてきている。
メールコールセンターで行われている技術サポートは、すべて無料サポートである。質問メールは、夕刻から深夜にかけて多く送付されてくる。問い合わせメールの受信から回答の発信までは所定時間内(例えば24時間以内)に完了することが求められている。このような制約があるため、企業にとって、正確かつ迅速なサポートを行うには人件費などのコストが膨大なものになりつつある。そこで、メールコールセンターの自動化が強く求められている。
メールによる技術サポートの場合、質問の内容は既に計算機可読な状態にあり、サポート結果としての回答作成処理はバッチ処理的に行うことが許容される。また、FAQのように、送られてくる質問には過去に出現した質問に類似したものが何度も送られてくるという傾向があり、過去に作成した回答サンプルを有効に活用することが可能である。こうした点は、自然言語処理技術を十分に活かしうる特徴と言える。
しかしながら、メールコールセンターを自動化しようとした場合、その精度はほぼ完全に100%であることが求められる。現在の自然言語処理技術でそこまでの精度を得ることはほぼ不可能と言えるため、最終的な回答の作成には、人の手による査読が不可欠であるという現状がある。
そこで、問い合わせに適した回答作成を支援する回答支援装置が、特許文献1に開示されている。
この特許文献1に開示された回答支援装置は、予め想定された問い合わせの内容とこの問い合わせに対する回答作成を支援する支援情報とが対応づけられて格納される支援情報記憶手段と、予め想定された問い合わせの内容とこの問い合わせに対する回答作成者の回答作成者情報とが対応づけられて格納される回答作成者情報記憶手段と、入力される問い合わせの内容により前記支援情報記憶手段を検索して得られた支援情報および当該問い合わせの内容を、当該内容により前記回答作成者情報記憶手段を検索して得られた回答作成者情報に対応する回答作成者に送付する情報送付手段とを有するものである。
特開2001−273308号公報
前記背景技術の回答支援装置によれば、消費者からの問い合わせに対して適切な回答作成者に問い合わせが転送されると共に、回答作成者には問い合わせに係る支援情報を得ることができるため迅速に回答することができる。
しかしながら、この背景技術の回答支援装置は、具体的には、消費者がリストボックスやチェックボックスなどの選択形式の問い合わせに対して対応する回答作成者及び支援情報を特定するものであり、消費者が自ら作成した問い合わせ文章に対応することができないという課題を有する。なお、支援情報とは、具体的には、消費者への問い合わせに係るマニュアル、仕様書のことである。
本発明は前記課題を解決するためになされたものであり、文書間の類似性を精度よく求める新たな手法を提供することを目的とする。
(1.類似性の判定)
本発明に係る文書類似性導出装置は、複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、前記入力文書に含まれる文を形態素解析する形態素解析手段と、前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段とを備えることを特徴とする。
このように、本発明においては、文書群の平均特徴ベクトルを算出して類似性の判定を行うため、判定の対象となる入力文書がどの文書群に属するかの判定を行い、対象となる入力文書を文書群に振り分けることで、いずれの分類に属するかを判定することができるため、類似性を判定する場合に分類を絞って判定することができる。つまり、類似度の判定精度を上げることができる。
(2.境界を算出)
本発明に係る文書類似性導出装置は、前記複数の文書群における文書群間の境界を、前記平均特徴ベクトル算出手段が算出した平均特徴ベクトルに基づいて算出する境界算出手段を備え、前記類似性判定手段が、前記境界算出手段が算出した境界に基づいて、前記入力文書と前記複数の文書群における各文書群との類似性を判定することを特徴とする。
このように、本発明においては、複数の文書群の文書群間の境界を算出することで、文書群を明確に区別し、入力文書がどの分類に属するかの判定を容易に行うことができる。
(3.第1の補正手段「誤認識文書群を特定する」)
本発明に係る文書類似性導出装置は、前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と異なる分類であるが、当該任意の一の文書群と同じ分類であると認識された誤認識文書群を特定する誤認識文書群特定手段と、前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記誤認識文書群特定手段が特定した誤認識文書群から遠ざけて補正する平均特徴ベクトル補正手段とを備えることを特徴とする。
このように、本発明においては、誤認識文書群を特定し、任意の一の文書群の平均特徴ベクトルを誤認識文書群から遠ざけて補正することで、文書群間の境界が補正され、より正確に類似性を判定することができる。
(4.第1の補正手段「非認識文書群を特定する」)
本発明に係る文書類似性導出装置は、前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と同じ分類であるが、当該任意の一の文書群と異なる分類であると認識された非認識文書群を特定する非認識文書群特定手段と、前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記非認識文書群特定手段が特定した非認識文書群に近づけて補正する平均特徴ベクトル補正手段とを備えることを特徴とする。
このように、本発明においては、非認識文書群を特定し、任意の一の文書群の平均特徴ベクトルを非認識文書群に近づけて補正することで、文書群間の境界が補正され、より正確に類似性を判定することができる。
(5.第1の補正手段「補正値の算出」)
本発明に係る文書類似性導出装置は、前記平均特徴ベクトル補正手段が、前記複数の文書群において、任意の一の文書群に含まれる文書の総数、当該任意の一の文書群における誤認識文書群に含まれる文書の総数、及び当該任意の一の文書群における前記非認識文書群に含まれる文書の総数の合計に対する、当該任意の一の文書群における誤認識文書群の文書の総数の比率、及び、当該任意の一の文書群における非認識文書群の文書の総数の比率から補正値を決定することを特徴とする。
このように、本発明においては、誤認識文書群、非認識文書群に基づいて平均特徴ベクトルの補正値を算出し、その補正値に基づいて境界が補正されるため、類似性の判定を正確に行うことができる。
(6.第2の補正手段「3つの特徴を特定する」)
本発明に係る文書類似性導出装置は、前記複数の文書群の任意の一の文書群には存在して他の文書群には存在しない特徴、当該任意の一の文書群には存在しないが他の文書群には存在する特徴、及び他の文書群よりも当該任意の一の文書群において重みが高い特徴を特定し、当該特定された各特徴に基づいて補正を行う固有特徴補正手段を備えることを特徴とする。
このように、本発明においては、重要度が高い特徴を抽出して補正を行うことで、類似性の判定には関係のない特徴ベクトルを除き、文書群におけるノイズを除去することができるため、より正確に文書群の境界を求めることができる。
(7.第2の補正手段「補正値の算出」)
本発明に係る文書類似性導出装置は、前記固有特徴補正手段が、前記任意の一の文書群における誤認識文書群の文書の総数に対する、他の文書群における当該任意の一の文書群の誤認識文書群の文書の総数の比率から補正値を決定することを特徴とする。
このように、本発明においては、重要度が高い特徴を抽出して補正値を算出し、その補正値に基づいて文書群の平均特徴ベクトルを調整するため、境界を補正して類似性の判定を正確に行うことができる。
(8.第3の補正手段「サブ文書群の抽出手法」)
本発明に係る文書類似性導出装置は、前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正後の前記非認識文書群をサブ文書群として抽出するサブ文書群抽出手段を備え、前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする。
このように、本発明においては、補正処理後に非認識文書であると判定されている文書群をサブ文書群として抽出し、そのサブ文書群の平均特徴ベクトルと任意の一の文書群の平均特徴ベクトルから境界を算出し、その境界に基づいて類似性の判定を行うため、補正処理によってもなお非認識文書であると判定されている文書群を、本来のカテゴリの文書群として認識して類似性の判定を行うことができると共に、文書群に含まれる各文書の特徴ベクトルからなるクラスタが非線形のものであっても、線形として処理を行うことができる。例えば、具体的には、文書群の境界面が凹面を有してる場合は、1つの平均特徴ベクトルのみでその文書群を代表することは困難であり、1つの平均特徴ベクトルのみで代表した場合は、類似性を正確に判定することができない。従って、サブ文書群を抽出し、サブ文書群毎に平均特徴ベクトルを算出し、それらの平均特徴ベクトルを1つの同一文書群と見なすことで、文書群の境界面が凹面を有してる場合であっても、線形処理で類似性を判定することができるため、類似性の判定精度を上げることができる。
(9.第3の補正手段「サブ文書群の第2の抽出手法」)
本発明に係る文書類似性導出装置は、前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正前の前記非認識文書群及び補正後の当該非認識文書群との差分から、当該任意の一の文書群の一部をサブ文書群として抽出するサブ文書群抽出手段を備え、前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする。
このように、本発明においては、サブ文書群を抽出し、そのサブ文書群の特徴ベクトルと当該文書群の特徴ベクトルから境界を算出し、その境界に基づいて類似性の判定を行うため、文書群に含まれる各文書の特徴ベクトルからなるクラスタが非線形のものであっても、線形として処理を行うことができる。従って、類似性の判定精度を上げることができる。
(10.回答文抽出)
本発明に係る文書類似性導出装置は、予め登録された前記複数の文書群における各文書群の各文書が、問い合わせ文書とそれに対応する回答文書であり、前記入力文書が問い合わせ文書である場合に、前記類似性判定手段が判定した結果に基づいて、当該入力文書に対応する回答文書を当該複数の文書群における各文書群の各文書から抽出する、回答文書抽出手段を備えることを特徴とする。
このように、本発明においては、問い合わせの文書に対して、最も類似した文書からその回答文書を抽出するため、回答者の手間を省いて時間と労力を抑えることができる。特にメールセンターのような場所には、1日に何千件もの問い合わせメールが送信されるため、それに対応する回答を自動で抽出することで、かなりの人手と時間を節約することが可能となる。
これまで装置として本発明を把握してきたが、所謂当業者であれば明らかであるように、システム、プログラム又は方法としても把握することができる。
また、これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
(本発明の第1の実施形態)
《1 本発明の概要》
以下、本発明の実施の形態である文書類似性導出装置を含むメールサポートの回答作成支援システムの概要について説明する。本実施形態では、より現実的なシステムとして、パソコンユーザからの質問に対してシステムが少数の回答候補を提示し、それらから選択、査読して回答を仕上げるような支援システムの構築を目指す。実際のメールコールセンターの業務においては、過去の何万件もの質問・応答サンプルからの適切な例の検索が作業全体の内でかなりの比重を占めているため、査読のベースとなる回答案の候補を精度良く絞り込んで示すことができればメールコールセンターの運営コストの大幅な削減が実現できる。
ここでは、メールサポートの回答作成支援システムの説明として、メールサポートというタスクの解説を行い、それから実際にやりとりされる質問、回答メールの構成と特徴に付いて触れ、本発明における回答作成支援システムのシステムモデルについて述べる。
《1−1 メールサポート》
メールサポートとは、顧客が企業から購入した製品やサービスに対して疑問や不具合が生じたときに、顧客がメールで質問をコールセンターへ送り、その質問に対してコールセンターが24時間年中無休で回答を返すサポートサービスの事である。ここでは、電話でのやりとりによって問題を解決するサポートをコールセンターサポート呼び、メールによるやりとりによって問題を解決するサポートをメールサポートとする。
《1−2 質問、回答メール》
以下に、送られてきた質問メール例とそれに対する回答を例にあげ、その構成と特徴について述べる。
《1−2−1 質問、回答メールの構成》
図1は、実際に送られてきた質問メールとその回答の例示である。質問者はメールサポートを利用する際、ユーザ登録が必要になる。ユーザ情報にはユーザの使っているパソコンの機種名、搭載OSなどが登録される。質問者は、ホームページのフォームで質問を入力し送信する。
インシデントIDには質問が送られてきた日付と適当な番号によってユニークな文字列が与えられる。質問メールの質問部分では、機種とOSについてはユーザ登録の際の情報が記載される。この質問では、質問者が入力する情報は[問い合わせ内容]、[操作/設定の詳細]、[エラーメッセージ]、[OS]、[使用環境]、[問題発生の頻度]の6つから構成されている。
《1−2−2 質問メールの特徴》
質問の本文は主に[問い合わせ内容]に書かれている。メールによっては[操作/設定の詳細]、[エラーメッセージ]にも質問内容が及んでいる場合もある。また、これらの3項目については質問者が自由に書くことができるため、タイプミス、誤字及び脱字等があり文解析において係り受け関係がうまく取れないなどの文法的な不適切さが少なくない。さらに単語についても、「WINDOWS」が「WINDOUS」と書かれていたり、「内蔵」を「内臓」と書かれているなど、間違いやタイプミス、誤変換が多く、同じ質問文中でも「WINDOWS」と「ウィンドウズ」の両方の表記を混在させるといったカタカナ、アルファベットなど字種の違いによる表記の揺れが目立つ。後述する文書ベクトルを求める際に、本実施形態においては[問い合わせ内容]、[エラーメッセージ]に書かれている文章のみを利用している。[OS]は大半をWindows XPが占め、[操作/設定の詳細]、[使用環境]、[問題発生の頻度]は書かれている内容が重複していることが少なくないため、本実施形態においては冗長性削減のために利用しないことにする。
《1−2−3 回答メールの特徴》
回答メールには、回答者が質問に対する回答を記入する。特に、文頭には「〜について、お問い合わせ頂きました」や「〜する方法をご案内致します」のような、予め決められている形式の文が入る。過去に回答した質問文には、その質問文に対する回答文は存在するが、新たに送られてきた未知の質問文には回答文が存在しないため、質問文に対する回答文は利用できない。しかしながら、これらの文頭にある文は、質問文中の語を用いて質問文の内容を端的に記述していることが多く、利用するにあたっての信頼性は高いものと考えられる。
《1−3 回答作成支援システムモデル》
以下に,本発明におけるメールサポートにおける回答作成の負担を軽減するためのシステムモデルについて述べる。
《1−3−1 回答候補検索支援》
メールサポートに送られてくる質問について、それらは全て異なる内容ではなく、同じ内容の質問が多数存在する。本実施形態ではそれを利用して、送られてきた質問と同じ内容を持つ質問を過去に送られてきた質問、回答データベースの中から判別し、それに対する回答を査読者に提示することによって回答作成支援を行う。
《1−3−2 ベクトル空間モデル》
前述したように、質問者が自由に書いた文には文法間違い、単語間違い、単語の表記の揺れが多い。よって、解析処理として複雑な係り受け解析などの文法解析の適用は難しい。そこで、本実施形態においては解析処理として形態素解析のみを用いて質問内の語をベクトルの要素として持つベクトル空間を用い、質問をベクトル空間上の点と見なし、その空間において同質な質問同士の類似度が高くなるように、類似性の判定を定義することで回答を検索する。
以上が本実施形態の回答作成支援システムの概要である。
《2 回答作成支援システムの構成》
次に、本実施形態に係る回答作成支援システムの構成について説明する。
《2−1 ハードウェア構成》
図2は、本実施形態に係るコンピュータのハードウェアとネットワークの構成図である。本発明の文書類似性導出装置である回答者コンピュータ100、200に回答支援プログラムがインストールされ、回答支援システムが構築される。本実施形態では、このように一つのコンピュータにより回答支援システムが構築されているが、クライアント・サーバ型で構築することもできる。例えば、クライアントでは、ユーザからの質問文をクライアントが受けてサーバに送信し、サーバで処理されて複数の回答候補をクライアントに返信する構成である。
本実施形態の回答支援システムを構築したコンピュータの属するネットワーク構成は、LAN上に回答者コンピュータ100、回答者コンピュータ200、サーバ300、プリンタ(サーバ)400及びネットワーク機器500が接続され、相互に通信可能となっている。また、ネットワーク機器500は外部ネットワークとも接続し、他のコンピュータとLAN上のコンピュータを通信可能としている。ここでは、質問者コンピュータ600からメールが送信されるとして、メールサーバが送信するメールがネットワーク機器500を介して回答者コンピュータに送信される。回答者コンピュータが複数ある場合のメールの振り分け処理などは、メールサポートセンタに構築されたシステムの一機能として実装され、周知・慣用技術であるためここでは詳述しない。
回答支援システムが構築される回答者コンピュータ100は、例えば、CPU(Central Processing Unit)101、RAM102、ROM103、外部記憶装置であるHD(hard disk)104、CD−ROMからデータを読み出すCD−ROMドライブ105、入力装置であるマウス111及びキーボード112、出力装置であるディスプレイ121とスピーカー122、並びに、ネットワークに接続するためのLANインターフェース131からなる。
なお、図2では、回答者コンピュータ100の構成の一例を示したが、回答者コンピュータ200、サーバ300、質問者コンピュータ600も同様の構成である。
また、回答者コンピュータ100の構成は、文書類似性導出装置としての機能を実現できればよく、上記構成に限定されない。従って、回答者コンピュータ200、サーバ300、質問者コンピュータ600も同様に上記構成に限定されない。
《2−2 回答者コンピュータのモジュール構成》
次に、図2における回答者コンピュータ100のモジュール構成について説明する。図3は回答者コンピュータ100のモジュール構成図である。回答者コンピュータ100は、入力処理部405と前処理部410と形態素解析処理部415と特徴ベクトル算出処理部420と平均特徴ベクトル算出処理部425と境界算出処理部430と補正処理部435と類似性判定処理部450と回答文抽出処理部470と出力処理部475と文書記憶部460とを備える。
入力処理部405は、入力される問合わせ文データ401のデータを入力する処理を行う。
前処理部410は、全角(半角)文字変換やアルファベットの大文字(小文字)変換など、形態素解析を行う上での前処理を行う。
形態素解析処理部415は、前処理部410で前処理された問合わせ文データを形態素解析する処理を行う。
特徴ベクトル算出処理部420は、形態素解析されたデータからTF/IDF値、体言と用言との組での共起頻度、及び文タイプごとの単語出現頻度から特徴ベクトルを算出する処理を行う。この処理は、質問文間の類似度を余弦類似度で求めるために、これらの属性値の集合を便宜的に多次元空間のベクトルとして扱う。
平均特徴ベクトル算出処理部425は、文書記憶部460に保持されているカテゴリに分類された文書群の各文書の特徴ベクトルを平均して文書群の平均特徴ベクトルを算出する処理を行う。ここで算出された平均特徴ベクトルが、カテゴリを代表する特徴ベクトルとなる。
境界算出処理部430は、平均特徴ベクトル算出部420が算出した特徴ベクトルから類似性を判定するための境界を算出する処理を行う。
補正処理部435は、平均特徴ベクトル算出処理部425が算出した平均特徴ベクトルを調整して、境界算出処理部430が算出した境界をカテゴリの境界に近づけるように補正する処理を行う。
類似性判定処理部450は、補正された境界に基づいて、問合わせ文データがどのカテゴリの平均特徴ベクトルに最も類似しているかを判定する処理を行う。
回答文抽出処理部470は、類似していると判定された問合わせ文データに対応する回答文データを抽出する処理を行う。
出力処理部475は、類似していると判定された問合わせ文データと回答文データの中で上位数件(例えば3件)のデータを画面や紙に出力する処理を行う。
《2−2−1 補正処理部のモジュール構成》
図4は、補正処理部435のモジュール構成図である。補正処理部435は、誤認識文書群特定処理部436と非認識文書群特定処理部437と平均特徴ベクトル補正処理部438と固有特徴ベクトル440とを備える。
誤認識文書群特定処理部436は、基準となる一のカテゴリと異なるカテゴリに分類される質問データが、類似性の判定において、同じカテゴリであると誤認識されているデータ群を特定する処理を行う。
非認識文書群特定処理部437は、基準となる一のカテゴリと同じカテゴリに分類される質問データが、類似性の判定において、異なるカテゴリであると非認識されているデータ群を特定する処理を行う。
固有特徴補正処理部440は、基準となる一のカテゴリと他のカテゴリを比較して、特徴に有意な差が見られる場合に、その特徴をカテゴリの固有の特徴として抽出し、それに基づいて平均特徴ベクトルを補正する補正値を算出する処理を行う。
平均特徴ベクトル補正処理部438は、誤認識文書群特定処理部436と非認識文書群特定処理部437と固有特徴補正処理部440が特定(算出)した結果に基づいて、基準となる一のカテゴリにおける平均特徴ベクトルを補正する処理を行う。
以上が、回答支援システムの構成である。
《3 回答支援システムの動作》
次に、本実施形態に係る回答作成支援システムの動作について説明する。図5は、本実施形態に係る回答作成支援システムの動作を示すフローチャートである。回答者コンピュータ100は、質問者600からの問合わせメールを受信する(ステップS601)。問合わせメールにおける問合わせ文データが入力される(ステップS602)。問合わせ文データについては前処理が行われ(ステップS603)、形態素解析処理が行われる(ステップS604)。
《3−1 形態素解析》
ここで、ステップS604の形態素解析処理について詳細に説明する。文書を特徴付ける語としては、名詞、未知語、動詞、形容詞などの自立語の原型と品詞情報の組を用いる。半角と全角の同じ文字や、アルファベットの大文字小文字などを区別しないようにあらかじめ前処理した文を形態素解析器にかけ、連続する数字、アルファベット、記号はつなげて名詞とする。ただし、連続する名詞を複合名詞とすることは、学習データが不十分であるとの考えから行わない。数詞と助数詞の連続については、数詞を実際の数字の並びではなく、数クラスに置き換える処理を行う。なお、括弧内の文で、2文節以上の文については、括弧内の文であるという情報は保持しつつ、別の一文として切り離して扱うようにする。語の解析は、日本語係り受け解析器CaboChaと、形態素解析器MeCabを用いて、形態素解析と文節区切りまでを行う。
図5に戻って、問合わせ文データの形態素解析処理が終了すると、特徴ベクトルが算出される(ステップS605)。
《3−2 特徴ベクトルの算出》
ここで、ステップS605の特徴ベクトルの算出処理について詳細に説明する。特徴ベクトルの算出に際してベクトルの要素に対する重みとして以下の属性を用いる。
・TF/IDF値
・体言と用言との組での共起頻度
・文タイプごとの単語出現頻度
《3−2−1 TF/IDF値》
TF−IDF重み付けはテキストの自動索引づけにおいて、索引語の重みを計算する手法である。TF(Term Frequency)とは、ある文書dにおける索引語tの生起頻度であり、tf(d,t)と表記する。またIDF(Inverse Document Frequency)は文書の数Nと索引語tが1回以上生起する文書の数dfreq(t)によって次のように定義される。
Figure 2009053743
索引語tの文書dにおける重みw(t,d)として、TFとIDFの積をもちいるのがTF−IDF重み付けである。重み付けにTFを用いるのは、文書中で繰り返し生起する語はその文書において重要な概念であると考えているためである。しかし、多くの文書に生起する語は、文書を特定する性質を持たず、索引語として適していない。そこで、語がどのくらい特定性を持つかをIDFによって重み付けに反映させている。
本実施形態においては、TF−IDFの重みづけによる文書ベクトルを拡張し、重み付きの余弦尺度によって類似度を求める。余弦尺度は、2つのベクトルの類似度を、ベクトルがなす角の余弦によって考えるもので、同じベクトル同士はそのなす角が0で余弦は1となり、完全に異なる要素を持つベクトル同士は直交して余弦は0になるというものである。ベクトルvとv’のなす角θの余弦は以下の式で表せる。
Figure 2009053743
ベクトルが正規化済みであるならば、これはvとv’の内積に等しい。以降、基本的にベクトルはすべて正規化済みであると仮定する。つまり、余弦尺度は内積によって求められる。
《3−2−2 体言と用言との組での共起頻度》
TF/IDFによる重み付けは、通常、ある語が特定の文書を特徴付ける尺度を表現するものであり、文の構造を反映しない。したがって、
・「電源を切る。」
・「電源を入れる。」
という二つの文に対して、「電源」という語は同じ重みが与えられる。だが実際には、目的とする質問文のカテゴリ判定においては、この二つは違う特徴を持つものとして認識すべきである。これは、語の出現頻度だけを考えていては、とらえにくい特徴である。そこで、TF/IDFによる重み付けに加えて、体言に対する用言の一文での共起の度合を重みとして用いることを考える。それぞれの体言について、一文中で共起した用言の頻度を要素とする特徴ベクトルを用いる。文書ベクトルの要素として、TF−IDF重みと一緒に保持しておく。これにより、ふたつの語を比べた際に、共起ベクトルの余弦尺度による類似度を用いることを考える。
通常、TF−IDFのみによる文書ベクトルVとV´の類似度sim(V、V´)は、余弦尺度、つまり内積によって求める。全文書中の語の数、すなわち文書ベクトルの次元をnとすると、以下のように表される。
Figure 2009053743
ここで、共起ベクトルの類似度を重みに加える。要素にTF−IDFによる重みと体言・用言の共起ベクトルを持つ文書ベクトルVc、V´cの類似度sim(V、V´)を、以下のように定義する。
Figure 2009053743
上式は、ある語iについて、TF−IDFの重みが大きいほど、また、語iに同じような共起の傾向があるほど、文書ベクトルの類似度が高くなる。上記の「電源」の例の場合、それぞれに共起している用言は「切る」、「入れる」であるので、共起ベクトルの類似度は0である。したがって文書ベクトル全体の類似度も0となり、ふたつの文は似ていないと判断される。
《3−2−3 文タイプごとの単語出現頻度》
パソコンユーザから送られてきた問い合わせメールの内容をより正確に反映した特徴ベクトルを作成するため、文中の語がどのような意味の文に出現するのか、という傾向について考える。そのために、まず問い合わせメールを分析してそれぞれの文タイプごとの特徴を調べ、分析結果をもとに文タイプ同定のルールを作成する。
ここでは、質問メールを分析することにより、次のように少数の文タイプを設定した。
・Question:「〜できますか?」「〜を教えて下さい」など、質問を述べてある文。
・Problem:「〜ができません」「〜する方法がわかりません」など、問題を述べてある文。
・Intention:「〜したい」「〜しようと思う」など、質問者の意図・希望が述べてある文。
・Situation:問題発生の手順・状況などについて述べてある文。
・Think:「〜だと思います」など、質問者の考えが述べてある文。
・Other case:「HDDでの再生は問題ありません」など、別の状況では問題が発生しない場合が述べてある文。
・About :「〜について」などの、質問内容を端的に表している文。質問、回答の一行目に述べられることがある.
・Message:エラーメッセージや、ダイアログなど、画面に表示された文字列の内容を述べてある文。
・etc:その他の情報
上記の文タイプを集計した結果を以下に示す。
・Question 324
・Problem 648
・Intention 87
・Situation 398
・Think 37
・Other case 80
・About 368
・Message 96
・etc 34
質問について述べてある文や、パソコンの不具合・問題について述べてある文など、上記9種類の文タイプを設定し、約一週間分の問い合わせメール、323件2072文を分析して、文末表現や機能語から、文タイプを同定するルールを作成し、各文タイプ中での各単語の頻度を要素とする特徴ベクトルを用いる。上の表の右端の数字は、参考までに記したものであり、それぞれの文タイプについて、分析の際に出現した回数である。
ほとんどの質問には、QUESTIONかPROBLEMのどちらかが含まれ、どちらも出現しない場合は323件中に3件だけであった.その3件中のすべてにINTENTIONが含まれていた。さらに、それぞれのタイプについての分析を以下に示す。
・Question:ほとんどの場合文末が記号「?」か助詞「か」、あるいは「教えてください」「ご教示ください」「お願いします」などで終わる。その他のタイプはほとんどマッチしない。
・Problem:文末が自立の動詞・形容詞の基本形や、「〜できません」「〜しない」「〜してしまう」などで終わる場合が全体の3分の2を占める。また、QUESTION文の直前に多く出現する。
・Intention:ほとんどの場合、文末が「〜したい」「〜ほしい」「〜しようと思っています」などで終わる。
・Situation:「〜しました」のような過去形で終わる場合が多いが、そうでない場合も多くある。PROBLEM文の直前に多く出現する。
・Think:「〜かと」を含むか、文末が「思う」「気がする」などで終わる。
・Other case:「〜は」「〜では」「〜も」「〜と」「〜だと」などを含む文で、文末が「できる」「異常ない」「問題ない」「正常です」「発生しない」などで終わる。
・About :質問、回答の一行目において、文末が名詞で終わる。
・Message:文の全部、あるいは一部が「」や''で括られていることが多い。その直後に「という」「と、」「って」などの語がつき、「表示されました」「出ました」「メッセージが出ました」などの文が続く。
・etc:「初心者です」「名前は〜です」などの情報がある。これらについては、あらかじめ対応ルールを用意しておくのが難しく、また出現頻度も少ないため、今回は対応を見送ることにする。
上記の分析結果をもとに、文タイプの同定ルールを作成した。ルールは三段階に分けて適用される。まず、最初に適用するルールについて述べる。以下のそれぞれにあてはまる文に、重複を許してタイプを割り振っていく。
・Question:文末が「が?」以外の疑問符で終わる。あるいは、文末が助詞「か」で終わる。あるいは、文末の5文節以内に「教えて」「教示」「教授」「お知らせ」「なぜ」「願い」を含む。
・Problem:文末が自立の動詞・形容詞の基本形で終わる。あるいは、文末が「でした」「が」でなく、格助詞「が」を含む文のうち、格助詞「が」と文末の間に他の助詞を含まない。あるいは、文末の3文節に「すみません」「すいません」「していません」「しておりません」を含まず、「なくなっています」「なくなった」「なくなり」「てしまった」「なります」「なりました」「まいました」「まいます」「ません」「ない」「しまう」「れる」「れます」を含む。
・Intention:文末の5文節に「(動詞)+たい」「ほしい」「(動詞)+(よ)うと」を含み、その後に動詞の「思う」「考える」が続く。
・Think:文中に助詞の並び「かと」を含む、あるいは、文末の3文節に「思う」「思った」「思われ」「考えられ」「気がする」「気がします」を含む。
・Other case:助詞、あるいは助詞の並び「は」「では」「も」「と」「だと」を含む文で、文末が「できる」「動く」「作動(する)」「動作(する)」「起動(する)」の活用のうち、「基本形」「た」「ます」「ている」で終わるか、「異常」「問題」「不都合」の後に「ありません」「なかった」「ない」が続いて終わる。あるいは、助詞「は」「と」の後に、「正常に」「正しく」「普通に」「通常」「きちんと」「うまく」「ちゃんと」を含む文がくる。
・About :質問、回答の一行目において、文末が名詞で終わる。
・Message:助詞「と」を含む文で、以降に「メッセージ」「ボックス」「ポップアップ」「表示」「エラー」動詞「出る」が出現する。助詞「と」の直前に、「」、()、'、``、で括られた部分がある場合、複数の文にまたがっている場合でも、括弧などで括られた内部を全て``MESSAGE''と判断する。
次に、なにもタイプが割り振られなかった文に対して、SITUATIONかPROBLEMを割り振る。次の三種類の場合を考える。
・質問文中にQUESTIONもPROBLEMも出現していない場合。ABOUTが出現している場合は、ABOUT中の語を含む文をPROBLEMとする。ABOUT中の語を含む文がない場合や、ABOUTが出現していない場合、タイプが割り振られていない最初の文をPROBLEMとする。残りはSITUATIONとする。
・質問文中にQUESTIONが出現している場合。QUESTIONの直前の文にタイプが割り振られていない場合、PROBLEMとする。残りはSITUATIONとする。
・それ以外の場合。タイプが割り振られていない文をすべてSITUATIONとする。
次に、重複した文タイプに対して、タイプ間の優先順位にもとづいたルールを適用してタイプを確定する。
文タイプが重複している文は、以下の優先順位で文タイプを決定する。
``MESSAGE''>``ABOUT''>``QUESTION''>``PROBLEM''>``OTHERCASE''>``INTENTION''>``THINK''
以上のルールを適用して、文タイプを決定する。質問文中に出現する語は、どのような文タイプ中で何度出現するのかという情報をベクトルとして持つことになる。
求めた文タイプを利用して、式(4)を次のように拡張する。要素にTF−IDFによる重み、体言・用言の共起ベクトル、文タイプベクトルを持つ文書ベクトルVt、V´tの類似度sim(Vt、V´t)を、以下のように定義する。
Figure 2009053743
式(5)は、語iが同じような文タイプに出現する傾向がある場合、文書ベクトルの類似度が大きくなることを表している。質問文が、どのようなことについて述べているのかという傾向が似ているものを類似度が高いと評価する。
以上が、特徴ベクトルの算出に際してベクトルの要素に対する重みに関する処理の詳細な説明である。
図5に戻って、問合わせ文データの特徴ベクトルを算出する一方、それらの処理と並行して、予めカテゴライズされた文書群を保持している文書記憶部460の文書データから、カテゴリ毎に平均特徴ベクトルが算出される(ステップS606)。
《3−3 質問、回答データベース》
ここで、文書記憶部460の文書データ(質問、回答データベース)とステップS606の平均特徴ベクトルの算出処理について詳細に説明する。本実施形態においては、問い合わせ文に対する回答文例を適切に見つけ出すことが重要であることから、回答文の内容(文章表現)の類似性から同一の内容の回答であると見なし得るかどうかを重視して、カテゴリを作成する必要がある。使用機種名のように、各質問に依存した要素は、ワイルドカード化した上で比較を行い同一性の判断をする。図6は、質問応答カテゴリの階層関係を示す概念図である。質問の分類は、同じ内容の質問を同じカテゴリに分類するという基準で行われ、分類の結果は以下のような性質を持つ。以下では、問い合わせ文のメールの内容と、それに対する回答をセットにしたものをデータと呼ぶ。
・同じ問い合わせ内容のデータは、同じカテゴリに分類される。
・ひとつのデータは、ひとつのカテゴリにのみ分類される。
また、似たような内容のカテゴリについて、上位のカテゴリを作成し、二層の階層構造を持った分類を行う。上位カテゴリの分類は、以下のような性質を持つ。以降、下層のカテゴリをリーフカテゴリ、質問カテゴリの上位のカテゴリをブランチカテゴリと呼ぶ。
・内容が似たようなリーフカテゴリは、同じブランチカテゴリに分類される。
・ひとつのリーフカテゴリは、ひとつのブランチカテゴリにのみ分類され、複数のブランチカテゴリが同じリーフカテゴリを持つことはない。
・ブランチカテゴリは、二つ以上のリーフカテゴリを持ち、データは持たない。
発明者は、約一万件の問合わせ文書を分類し、そのうち6537件の問合わせ文書を用いて、634個の問合わせカテゴリと、83個の上位カテゴリを作成した。残りの問合わせ文書は、分類対象外問合わせ文書として、データベースから除外されている。その理由の一つとして、1カテゴリに1件、または2件しか問合わせ文書がないものを、レアケースとして分類対象外としている。従って、分類済みの質問、回答データベースには、1カテゴリに最低3件以上の問合わせ文書が存在することが保証されている。また、他の分類対象外の理由として、問い合わせ内容が以前問合わせした内容の続きなどの場合、以前の問い合わせの内容を把握していることが前提となっているため、例外として分類対象外としている。このようにして、文書記憶部460が作成される。
カテゴリ構築の方針から、一つのリーフカテゴリに属する質問回答データの回答部分は同じ内容であると見なし得るため、リーフカテゴリにごとに共通回答文となる回答文テンプレートを作成する。回答文テンプレートには、問合わせメール部分に記載された機種関連情報などに基づいて埋められるべきスロットが存在する。もちろん、機種依存性などが全く存在しない回答の場合にはスロットは存在しない。査読用の回答例文は、システムがそれらを適宜埋めた上で提示する。
《3−4 平均特徴ベクトルの算出》
次に平均特徴ベクトルの算出について説明する。上記で作成した文書記憶部460が保持する全文を検索することによって過去のデータから未知の質問と同質の質問の検索を行うと、たまたま同様の表現を行っている内容の違う質問が返されることがあり、また、検索結果に個々の質問文書を出力として返すため、回答候補が多い場合に閲覧効率が悪く回答作成者にとって大きな負担となる場合がある。そこで、既に分類が行われた質問、回答データベースから、そのカテゴリ内に存在する各文書の特徴ベクトルを平均化したものをそのカテゴリの平均特徴ベクトルとして扱うことで、質問内容の汎化を行い検索精度と閲覧効率を向上させる。
図7は、平均特徴ベクトルのモデルを示す図である。カテゴリがA、B及びCに分類されており、それぞれのカテゴリで複数の文書の特徴ベクトルが点で示されている。各カテゴリの中の黒点がそのカテゴリの平均特徴ベクトルであり、各文書の特徴ベクトルの平均を算出したものである。そして、未知の質問文(新たに入力された文書)がどのカテゴリに属するのかを計算するのに、カテゴリ内の平均特徴ベクトルから未知の質問文との類似度を計算する。n個の正規化前の質問文の特徴ベクトルa1・・・anを持つカテゴリAの平均特徴ベクトルは、以下のようになる。
Figure 2009053743
この平均特徴ベクトルを正規化したものと、未知の質問文の特徴ベクトルとの余弦類似度を類似度として定義する。
図5に戻って、平均特徴ベクトルが算出されると、その平均特徴ベクトルに基づいて境界が算出される(ステップS607)。
《3−5 境界算出処理》
ここで、ステップS607の境界の算出処理について詳細に説明する。図8は平均特徴ベクトルに基づいてカテゴリの類似を判定するための境界を算出した様子を示す図である。図では説明の都合上2次元領域に線として境界を算出しているが、実際は3次元空間であるため、境界は曲面である。図8(a)は□と○のカテゴリを分類する境界線を示している。ここでは、それぞれの平均特徴ベクトルを結ぶ線分に対して、線分の中点を通って垂直に交差する面を境界として算出している。図8(b)は□と○と△のカテゴリを分類する境界線を示している。ここでは、それぞれの平均特徴ベクトルの重心となる点(図中の★マーク)を算出し、そこから図8(a)と同様にしてそれぞれの境界を算出している。
なお、境界の求め方は、上記の方法に限定されない。
また、3つ以上のカテゴリの境界線を算出する場合は、上記いずれの方法を利用してもよい。
図5に戻って、ステップS607で境界が算出されると補正処理が行われる(ステップS608)。この補正処理について、さらに詳細なフローを図9に示す。補正処理においては、固有特徴の抽出が行われ(ステップS901)、誤認識文書群と非認識文書群が特定される(ステップS902、ステップS903)。それらの情報に基づいて、平均特徴ベクトルの補正が行われる(ステップS904)。
《3−6 補正処理》
ここで、ステップS608の補正処理について詳細に説明する。以下に、カテゴリ同士の差異を考慮した平均特徴ベクトルの補正手法とそれを用いた質問文のカテゴリ判別手法について説明する。
前記の類似性判定手法においてカテゴリの特徴を表している平均特徴ベクトルモデルは、対象のカテゴリに属するTF−IDFによって重みを与えた文書の特徴ベクトルの平均化よって平均特徴ベクトルを求め、対象の質問内容の特徴を捉えている。しかし、判別という点で重要なのは対象同士を区別できる差異である。それは、あるカテゴリの特徴としていくら強く現れていても、その特徴が全ての対象において同程度に強く現れている場合には、その特徴は判別において重要ではない。これはTF−IDFのみから求めることは難しい。よって、本実施形態における類似性判定手法ではカテゴリ同士の差異を特徴として考慮する判定を行う手法も提案する。
ここで、未知の質問文の、対象のカテゴリ(基準となる一のカテゴリ)への判別において重要な特徴とは、対象のカテゴリではよく現れていて他のカテゴリではあまり現れない特徴と、対象のカテゴリにはあまり現れないのに他のカテゴリではよく現れている特徴の2つと考えられる。そこで、対象のカテゴリに属する平均特徴ベクトルによって表される対象のカテゴリとの類似性を示すベクトルをVs、対象のカテゴリと他カテゴリの平均特徴ベクトルの差によって表されるベクトルを、対象のカテゴリとの非類似性を表すベクトルVdとし、この2つを用いることで対象のカテゴリを表す平均特徴ベクトルVcを、以下の式のように定義する。
Figure 2009053743
これにより、対象のカテゴリの平均特徴ベクトルに対して他のカテゴリとの類似性を加味し、カテゴリ同士の差異を表現したベクトルとして平均特徴ベクトルを表現する。そして、このベクトルモデルによって、判別における尺度として類似性ではなく差異を用いたカテゴリの判別を行う。
前述した平均特徴ベクトル手法では、カテゴリに属する平均特徴ベクトルとの類似性を用いてカテゴリの判別を行っているが、他のカテゴリとの差異を考慮していないために実際の判別においてそれが有益かどうかは定かではない。よって、カテゴリ判別の結果における誤答傾向を平均特徴ベクトルへとフィードバックする事によって、その誤答傾向をなくすようにベクトルを補正する手法を述べる。この補正を簡潔に表すと図10のように表すことができる。これは各ベクトルを多次元ベクトル空間上の点とした場合に、対象のカテゴリの平均特徴ベクトルを表す点を、対象のカテゴリへと正しく認識できなかった文書ベクトル(非認識文書群)を表す点へと近づけて正しく認識できるようにし、また、誤って認識してしまった異なるカテゴリの文書ベクトル(誤認識文書群)を表す点から遠ざけ、誤って認識しないようにするものである。
以下、実際に補正に用いる補正値について説明する。まず、カテゴリ判別時における誤判別結果(誤認識文書群と非認識文書群)からの情報によって求められる補正値について述べる。これは補正前の対象カテゴリの平均特徴ベクトルでは、対象カテゴリに属するにも関わらず対象カテゴリへと正しく判別できなかった文書群の特徴を平均特徴ベクトルに加えることによって正しく判別できるようにし、対象カテゴリに属しないにも関わらず対象カテゴリへと誤って判別してしまった文書群の特徴を平均特徴ベクトルから除くことによって誤って判別しないようにするものである。
ここで、誤答について対象のカテゴリに属しながらそのカテゴリへと判別されない非認識を誤判別Aとし、また対象のカテゴリに属しないながらそのカテゴリに判別される誤認識を誤判別Bとする。判別結果において対象のカテゴリcにおける誤判別A文書群の平均ベクトルを平均誤判別A文書ベクトルVcpとして以下の式から求める。
Figure 2009053743
補正の際にはこのベクトルを平均特徴ベクトルに加算することで誤判別A事例を正しく判別できるようにする。また同様に、誤判別B文書群の平均ベクトルを平均誤判別B文書ベクトルVcnとして以下の式から求める。
Figure 2009053743
補正の際にこのベクトルを平均特徴ベクトルから減算することで誤判別B事例を誤って判別しないようにする。上記各式(8)、式(9)においてベクトルVcはカテゴリcに
おける平均特徴ベクトルで、Ecpはカテゴリcにおける誤判別Aの文書群の特徴ベクトル集合で、Ecnはカテゴリcにおける誤判別Bの文書群の特徴ベクトル集合である。
次に、平均特徴ベクトル同士の比較によって求められる補正値について説明する。これは、対象のカテゴリの平均特徴ベクトルと他のカテゴリの平均特徴ベクトルと比較して、ある特徴に有意な差が見られる場合に、その特徴をそのカテゴリにおける固有の特徴として抽出し、それを用いた補正を行うことで対象のカテゴリの特徴を先鋭化させ、判定精度の向上を図るものである。
前述のベクトル補正値は、あくまで実際の特徴ベクトルを元に補正値を求めているのでどうしてもある程度の判別には関係のない特徴が含まれてしまい、判別において有益な特徴のみを補正することができない。そこで、平均特徴ベクトル同士を比較し、他のどのカテゴリよりも対象のカテゴリへの判別における重要度が高い特徴を抽出し、それを用いて補正を行うことによって平均特徴ベクトルからノイズを消すことができる。そこで、対象のカテゴリの固有の特徴として、他のどのカテゴリよりも対象のカテゴリにおいて重みが高い第1の特徴、対象のカテゴリには存在して他のカテゴリには存在しない第2の特徴、対象のカテゴリには存在しないが他のカテゴリには存在する第3特徴の3つの特徴を考えて補正値を求める。以上の3つにおいて第1の特徴の場合は、対象のカテゴリと他のカテゴリとの特徴における重みの差の最小値を用い、第2、第3の特徴の場合は、本実施形態では固定値を用いる。このようにして求めた補正値を重みとして特徴に対して与えたものを要素とするベクトルをカテゴリcにおける固有特徴ベクトルをベクトルVfcとし,以下の式により求めることができ、カテゴリの平均特徴ベクトルの補正に用いる。
Figure 2009053743
Cはカテゴリ集合であり、ベクトルVfc(ω)はカテゴリcの平均特徴ベクトルにおける要素ωの値であり、Aは補正定数である。なお,本実施形態においては補正定数Aを0.3とする。
次に、前述した補正値を用いて誤答傾向をフィードバックさせて行う平均特徴ベクトルの補正について説明する。まず、補正ベクトルVcp、VcnについてベクトルVcp、Vcnには、対象のカテゴリの平均特徴ベクトルVcとの差分ベクトルを取り、これを正規化することでベクトルVcをベクトルVcpへと近づけ、ベクトルVcnから遠ざけるような単位補正ベクトルを求める。それぞれの補正ベクトルを考えたとき、ベクトルVcをベクトルVcpへと近づけることは誤判別A事例に近づけることと等しいので、それにより誤判別A事例に対する正しいカテゴリヘの類似度を上げることができる。その結果として、正しいカテゴリへの類似度が、誤って判別されているカテゴリへの類似度より高くなれば、正しく判別できていない誤判別A事例集合を正しく判別できるようになる。また、同じくベクトルVcをベクトルVcnから遠ざけることは、誤判別B事例から遠ざけることと等しいので、それにより誤判別B事例に対する正しいカテゴリヘの類似度を下げることができる。その結果として,誤って判別されているカテゴリの類似度が正しいカテゴリへの類似度より低くなれば、正しく判別できていない誤判別B事例集合を正しく判別できるようになる。
ここで、それぞれの補正ベクトルを考えた時に、そのまま補正ベクトルを用いて補正を行うとそれぞれ誤判別A、Bの事例数の規模に関係なく補正を行うので、少量の誤判別規模から求めた補正値でも大きな補正を与えてしまうことになる。そこで、それぞれに対して誤判別規模に応じた適切な重みを与えたい。従って、ベクトルVcp、ベクトルVcnから求められる補正ベクトルに対しては、カテゴリcに属する全質問文書数と誤判別A文書数と誤判別B文書数の総和に対する誤判別A文書数の比率と誤判別B文書数の比率を重みとして与え、ベクトルVfcには、対象のカテゴリにおける総誤判別B文書数におけるそれぞれのカテゴリ毎の誤判別B文書数の割合を重みとして与える。以下の式が、補正を行う場合の式である。
Figure 2009053743
Cはカテゴリ集合であり、ecはカテゴリcにおける誤判別B文書数であり、ecc'はカテゴリcにおけるカテゴリc’との誤判別B文書数wの値であり、nはカテゴリcに属する全質問文書数である。
以上の補正は、それぞれのカテゴリの平均特徴ベクトルに対して独立に行われるので、ある1つのカテゴリに対する補正が判別結果全体に対してよい結果を与えるとは限らない。そこで全体のバランスを考えるために以上の補正を繰り返し行うことでカテゴリ判別における最適なカテゴリ文書ベクトルを求める。
図11に、フィードバック回数における既知の質問集合と未知の質問集合における判別精度の推移を示す。その結果から、既知の質問集合の精度の変化が初めて等しいか悪くなった時を、最適化の終了条件とみなすことことができる。つまりグラフからフィードバック回数を4、5回行えば最適化は終了できる。
なお、本実施形態の補正処理においては、誤答傾向をフィードバックして行う補正と固有の特徴を抽出して行う補正の両方を行っているが、誤答傾向をフィードバックして行う補正のみを行ってもよいし、固有の特徴を抽出して行う補正のみを行ってもよい。
以上が補正処理に関する詳細な説明である。
図5に戻って、ステップS606で補正処理が終了すると、問合わせ文データの特徴ベクトルと補正処理が行われた各カテゴリの平均特徴ベクトルから類似性が判定される(ステップS609)。その結果最も類似していると判定されたカテゴリの中から、特に類似している質問、回答データから回答文を抽出し(ステップS610)、査読者が確認できるようにディスプレイに出力する(ステップS611)。この時、出力する回答文の件数は3件で、査読者はその3件だけを査読して(ステップS612)、最も類似している回答文から正式な回答文を作成することができる。
なお、ディスプレイに出力する回答文の件数は、査読者が任意に設定することができる。
回答文が作成されると、質問者600に対してその回答文をメールで送信して(ステップS613)処理を終了する。
《3−7 回答文の抽出操作》
図12に、査読者が実際に操作する実行画面の一例を示す。図12(a)は実行画面の画面構成で、図12(b)は実際の実行画面である。査読者は、左上の質問文入力フォームに質問文を入力する。そして、「カテゴリ判定」ボタンを押すと、右のリストボックスに類似度が高い順にカテゴリが表示される。リストボックス内のカテゴリをクリックすると、そのカテゴリに属する過去の質問、回答文が左下のテキストボックスに表示され参照することができる。上位カテゴリのリストボックスには、上位カテゴリが表示され、クリックすると下位のカテゴリが表示される。下位のカテゴリをクリックすると、カテゴリに属する過去の質問、回答文が参照できる。回答者は、これらの情報を見ながら質問文に修正を加えて再度カテゴリ判定を行うこともできる。
なお、質問文を入力しなくても全ての質問、回答文を参照することは可能であり、また、様々な検索(質問日時、回答日時、担当者、キーワード、カテゴリキーワード、タイトル等)により文書を検索することもできる。
また、画面の左に質問、回答データベースの階層構造を視覚的に表示できるようにしてもよい。例えば、上位カテゴリのリストの一覧を表示しておき、クリックするとその上位カテゴリ含まれる下位カテゴリの一覧が表示できるようにする。
(本発明の第2の実施形態)
《1 概要》
第1の実施形態で示した手法は、各カテゴリに対して1つの平均特徴ベクトルによってカテゴリの判別を行っているために、ベクトル空間上において線型分離不可能なカテゴリ同士の判別において精度が低くなる可能性がある。そこで本実施形態においては、カテゴリに対して複雑な判別を可能にするために新たな平均特徴ベクトルを追加することによって線型分離不可能なカテゴリ同士に判別においても精度を向上させる手法を述べる。カテゴリ内の質問文書集合は類義語や同義語、言い回し等の表現の曖昧性により単一の特徴において1つに固まった集合ではなく、複数の特徴において多数の集合を形成していると考えられる。例えば、カテゴリは同じであるが、島のように離れた領域に小さくクラスタリングされていたり、また、その島が一つのカテゴリで複数存在する場合もある。そこで、単一のベクトルのみにおいて対象のカテゴリを表現し、それによって判別を行うのは難しいと考えられる。よって、第1の実施形態における補正処理を行った後に最終的に残った誤判別A文書集合の平均文書ベクトルを、既存の平均特徴ベクトルと同質の内容を表す独立した特徴であると見なし、新たな平均特徴ベクトルとして追加し、前記で述べた補正の最適化を行う。そして、実際の判別においては、カテゴリに属する平均特徴ベクトル群の最高値を対象のカテゴリとの類似度とする。
《2 構成》
図13は、本実施形態に係る補正処理部435のモジュール構成図である。第1の実施形態と異なる点は、サブカテゴリ抽出処理部445と特徴ベクトル追加処理部446が追加された点である。
サブカテゴリ抽出処理部445は、基準となる一のカテゴリの文書群の特徴ベクトルの集合が凹型のような線形処理ができない形状を有する場合や島を有する場合に、カテゴリに含まれる文書群の一部を抽出して、サブカテゴリとする処理を行う。
特徴ベクトル追加処理部446は、抽出されたサブカテゴリの平均特徴ベクトルを算出して、平均特徴ベクトルを追加する処理を行う。
《3 動作》
図14は、本実施形態に係る補正処理のフローチャートであり、図15は、各処理を示した模式図である。まず、第1の実施形態における補正処理を行う(ステップS1401)(図15(a)参照)。補正された結果、まだ非認識文書である文書群Cを特定する(ステップS1402)(図15(b)参照)。文書群Cをサブカテゴリとして抽出し、サブカテゴリの平均特徴ベクトルを算出する(ステップS1403)(図15(c)参照)。その他のカテゴリの平均特徴ベクトルを再計算して(ステップS1404)(図15(d)参照)補正処理を終了する。
また以下の方法でも補正処理が可能である。図16は、本実施形態に係る補正処理の第2のフローチャートであり、図17は、その各処理を示した模式図である。まず、対象となるカテゴリの文書群から非認識文書群Aを特定する(ステップS1601)(図17(a)参照)。第1の実施形態における平均特徴ベクトルの補正処理を行い、補正後の非認識文書群Bを特定する(ステップS1602)(図17(b)参照)。非認識文書群Aと非認識文書群Bを比較して(ステップS1603)、補正後に非認識文書ではなくなった文書群Cを特定する(ステップS1604)(図17(c)参照)。文書群Cの文書データ数が所定の閾値以上かどうかを判定し(ステップS1605)、所定の閾値未満であれば、平均特徴ベクトルの補正を行わずに処理を終了する。所定の閾値以上であれば、文書群Cと対象となるカテゴリの一部を合体させてサブカテゴリを作成する(ステップS1606)。サブカテゴリの平均特徴ベクトルを算出し、サブカテゴリ以外のカテゴリにおける平均特徴ベクトルを再計算して(ステップS1607)(図17(d)参照)、平均特徴ベクトルの補正処理を終了する。
平均特徴ベクトルの追加処理を行った後は、同じ質問応答カテゴリに属する平均特徴ベクトルが複数存在することになる。したがってカテゴリの判別においては、カテゴリCに属する特徴ベクトルの集合をScとして、次の式により得られた値、すなわち平均特徴ベクトルの内で最も高い類似度の値を評価値として用いる。
Figure 2009053743
このように複数の平均特徴ベクトルを用いることによって、より複雑な判別に対応できるようにする。また、図18に、新規平均特徴ベクトルの追加における既知の質問集合と未知の質問集合における判別精度の推移を示す。その結果から、既知の質問集合の精度の変化が初めて等しいか悪くなった時を最適化の終了条件とみなすことができる。つまりグラフからフィードバック回数を6〜8回行えば最適化は終了できる。
なお、入力された問合わせ文データは、回答後に質問、回答データとして文書記憶部460に記憶され、過去のデータとして保存される。つまり、処理が多くなるほど質問、回答データ数が増え、より正確な類似判定を行うことができるようになる。
以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。
《実験データ》
12件以上の質問、回答データが含まれるリーフカテゴリとそれらのブランチカテゴリとを用いて質問応答カテゴリの判定精度の評価実験を行った。対象となったリーフカテゴリは145個、ブランチカテゴリは52個であり、含まれる質問、回答データの総数は4023件である。
《条件》
全ての質問、回答データを用いたクローズドテストと、質問、回答データを三分割し、内2つを学習データ、残りをテストデータとするオープンテストを行った。オープンテストは3回繰り返して行われた。また、それぞれのテストで補正処理を行った場合と補正処理を行わなかった場合の実験を行った。
《結果》
下記の表1はクローズドテストを行った結果である。表には、最上位及び3位以内のカテゴリに正解が含まれていた割合を、補正処理をした場合としなかった場合とで比較して示している。
Figure 2009053743
表1から補正処理を行わない場合であっても、3位以内に正解が含まれている割合は85%を超えており十分に正解を導出できていると言える。さらに補正処理を行った場合は、1位が正解である割合が92.1%と非常に高い値を示している。改善率も75.3%となっていることからも、補正処理により平均特徴ベクトルの算出が正確に行われていることがわかる。ここで改善率とは以下の式により算出している。
Figure 2009053743
Figure 2009053743
表2から、オープンテストの場合も3位以内に正解が含まれている割合は85%を超えており十分に正解を導出できていると言える。補正処理を行った場合は、クローズドテストの場合ほどではないが、リーフカテゴリで1位が正解である場合の正解率の改善率が15.4%程度、他の場合も改善率20%以上と、ここでもかなりの改善が見られる。この結果により、新しい問い合わせ文に対しても、ブランチカテゴリで上位3位程度まで調べれば、ほとんどの場合で最終査読者が最良と判定するような回答例を獲得できると期待できる。今回の実験結果では、オープンテストにおけるリーフカテゴリでの1位認識精度は70%弱であったが、クローズドテストの結果を鑑みると、学習に用いる質問、回答データを増やせば十分な精度を得ることができると思われる。
以上のように、上記各実施形態では、メールコールセンターでのパソコン技術サポートにおける回答メール作成作業の負担を軽減するために、適切な回答例候補を精度よく選出することを目的とし、各実施形態で提案した手法を用いることにより、上位3位までの質問応答カテゴリ、すなわち3個の回答例候補を調べるだけで、90%弱の精度で適切な候補を特定でき、さらに、上位カテゴリのレベルで上位3位までに含まれる質問応答カテゴリを調べれば、97.5%の精度で適切な候補の獲得が期待できる。従って、本発明で提案した手法は十分に有効であり、そのままメールコールセンターでの実務に活用可能であると言える。
実際に送られてきた質問メールとその回答の例示である。 第1の実施形態に係るコンピュータのハードウェアとネットワークの構成図である。 回答者コンピュータのモジュール構成図である。 補正処理部のモジュール構成図である。 第1の実施形態に係る回答作成支援システムの動作を示すフローチャートである。 質問応答カテゴリの階層関係を示す概念図である。 平均特徴ベクトルのモデルを示す図である。 境界を算出する様子を示す図である。 補正処理部の動作を示すフローチャートである。 平均特徴ベクトルを補正する様子を示す図である。 フィードバック回数における既知の質問集合と未知の質問集合における判別精度の推移を示すグラフである。 査読者が実際に操作する実行画面の一例である。 第2の実施形態に係る補正処理部のモジュール構成図である。 第2の実施形態に係る補正処理部の動作を示すフローチャートである。 補正処理における各処理の様子を示した模式図である。 第2の実施形態に係る補正処理部の動作を示す第2のフローチャートである。 補正処理部の動作を示す第2のフローチャートにおける各処理の様子を示した模式図である。 新規平均特徴ベクトルの追加における既知の質問集合と未知の質問集合における判別精度の推移を示すグラフである。
符号の説明
100 回答者コンピュータ
101 CPU
102 RAM
103 ROM
104 HDD
105 CD−ROMドライブ
111 マウス
112 キーボード
121 ディスプレイ
122 スピーカー
131 LANインターフェース
200 回答者コンピュータ
401 問合わせ文データ
405 入力処理部
410 前処理部
415 形態素解析
420 特徴ベクトル算出処理部
425 平均特徴ベクトル算出処理部
430 境界算出処理部
435 補正処理部
436 誤認識文書群特定処理部
437 非認識文書群特定処理部
438 平均特徴ベクトル補正処理部
440 固有特徴補正処理部
445 サブカテゴリ抽出処理部
446 特徴ベクトル追加処理部
450 類似性判定処理部
460 文書記憶部
470 回答文抽出処理部
475 出力処理部
480 回答文データ

Claims (12)

  1. 複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出装置において、
    前記入力文書に含まれる文を形態素解析する形態素解析手段と、
    前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、
    前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、
    前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段と、を備えることを特徴とする、文書類似性導出装置。
  2. 請求項1に記載の文書類似性導出装置において、
    前記複数の文書群における文書群間の境界を、前記平均特徴ベクトル算出手段が算出した平均特徴ベクトルに基づいて算出する境界算出手段を備え、
    前記類似性判定手段が、前記境界算出手段が算出した境界に基づいて、前記入力文書と前記複数の文書群における各文書群との類似性を判定することを特徴とする、文書類似性導出装置。
  3. 請求項2に記載の文書類似性導出装置において、
    前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と異なる分類であるが、当該任意の一の文書群と同じ分類であると認識された誤認識文書群を特定する誤認識文書群特定手段と、
    前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記誤認識文書群特定手段が特定した誤認識文書群から遠ざけて補正する平均特徴ベクトル補正手段と、を備えることを特徴とする、文書類似性導出装置。
  4. 請求項2または3に記載の文書類似性導出装置において、
    前記境界算出手段にて算出された境界により、前記複数の文書群の任意の一の文書群と同じ分類であるが、当該任意の一の文書群と異なる分類であると認識された非認識文書群を特定する非認識文書群特定手段と、
    前記平均特徴ベクトル算出手段が算出した前記任意の一の文書群の平均特徴ベクトルを、前記非認識文書群特定手段が特定した非認識文書群に近づけて補正する平均特徴ベクトル補正手段と、を備えることを特徴とする、文書類似性導出装置。
  5. 請求項4に記載の文書類似性導出装置において、
    前記平均特徴ベクトル補正手段が、前記複数の文書群において、任意の一の文書群に含まれる文書の総数、当該任意の一の文書群における誤認識文書群に含まれる文書の総数、及び当該任意の一の文書群における前記非認識文書群に含まれる文書の総数の合計に対する、当該任意の一の文書群における誤認識文書群の文書の総数の比率、及び、当該任意の一の文書群における非認識文書群の文書の総数の比率から補正値を決定することを特徴とする、文書類似性導出装置。
  6. 請求項1ないし5のいずれかに記載の文書類似性導出装置において、
    前記複数の文書群の任意の一の文書群には存在して他の文書群には存在しない特徴、当該任意の一の文書群には存在しないが他の文書群には存在する特徴、及び他の文書群よりも当該任意の一の文書群において重みが高い特徴を特定し、当該特定された各特徴に基づいて補正を行う固有特徴補正手段を備えることを特徴とする、文書類似性導出装置。
  7. 請求項6に記載の文書類似性導出装置において、
    前記固有特徴補正手段が、前記任意の一の文書群における誤認識文書群の文書の総数に対する、他の文書群における当該任意の一の文書群の誤認識文書群の文書の総数の比率から補正値を決定することを特徴とする、文書類似性導出装置。
  8. 請求項3ないし7のいずれかに記載の文書類似性導出装置において、
    前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正後の前記非認識文書群をサブ文書群として抽出するサブ文書群抽出手段を備え、
    前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする、文書類似性導出装置。
  9. 請求項3ないし8のいずれかに記載の文書類似性導出装置において、
    前記複数の文書群における任意の一の文書群のうち、前記平均特徴ベクトル補正手段による補正前の前記非認識文書群及び補正後の当該非認識文書群との差分から、当該任意の一の文書群の一部をサブ文書群として抽出するサブ文書群抽出手段を備え、
    前記境界算出手段が、前記サブ文書群抽出手段にて抽出されたサブ文書群の平均特徴ベクトルに基づいて、当該サブ文書群と他の文書群間の境界を算出し、算出された境界に基づいて、前記類似性判定手段が、前記入力文書と当該任意の一の文書群との類似性を判定することを特徴とする、文書類似性導出装置。
  10. 請求項1ないし9のいずれかに記載の文書類似性導出装置において、
    予め登録された前記複数の文書群における各文書群の各文書が、問い合わせ文書とそれに対応する回答文書であり、前記入力文書が問い合わせ文書である場合に、前記類似性判定手段が判定した結果に基づいて、当該入力文書に対応する回答文書を当該複数の文書群における各文書群の各文書から抽出する、回答文書抽出手段を備えることを特徴とする、文書類似性導出装置。
  11. 複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行する文書類似性導出方法において、
    前記入力文書に含まれる文を形態素解析する形態素解析ステップと、
    前記形態素解析ステップで解析された結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出ステップと、
    前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出ステップと、
    前記特徴ベクトル算出ステップにて算出された前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出にて算出された前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定ステップと、を含むことを特徴とする、文書類似性導出装置。
  12. 複数に分類された文書群と入力文書との類似性を導出し、当該入力文書の処理を実行するようにコンピュータを動作させるための文書類似性導出プログラムにおいて、
    前記入力文書に含まれる文を形態素解析する形態素解析手段と、
    前記形態素解析手段が解析した結果に基づいて、重みを要素とした前記入力文書の特徴ベクトルを算出する特徴ベクトル算出手段と、
    前記複数に分類された各文書群に含まれる各文書の特徴ベクトルから当該文書群の平均特徴ベクトルを算出する平均特徴ベクトル算出手段と、
    前記特徴ベクトル算出手段が算出した前記入力文書の特徴ベクトル及び前記平均特徴ベクトル算出手段が算出した前記各文書群の平均特徴ベクトルから、当該入力文書が当該各文書群のうち、いずれの文書群に最も類似するかを判定する類似性判定手段としてコンピュータを動作させることを特徴とする、文書類似性導出プログラム。
JP2007217172A 2007-08-23 2007-08-23 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム Pending JP2009053743A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007217172A JP2009053743A (ja) 2007-08-23 2007-08-23 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007217172A JP2009053743A (ja) 2007-08-23 2007-08-23 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム

Publications (1)

Publication Number Publication Date
JP2009053743A true JP2009053743A (ja) 2009-03-12

Family

ID=40504808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007217172A Pending JP2009053743A (ja) 2007-08-23 2007-08-23 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム

Country Status (1)

Country Link
JP (1) JP2009053743A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016053784A (ja) * 2014-09-03 2016-04-14 富士ゼロックス株式会社 情報推薦プログラム及び情報処理装置
US9398349B2 (en) 2013-05-16 2016-07-19 Panasonic Intellectual Property Management Co., Ltd. Comment information generation device, and comment display device
RU2607975C2 (ru) * 2014-03-31 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Построение корпуса сравнимых документов на основе универсальной меры похожести
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP6770283B1 (ja) * 2020-03-11 2020-10-14 北日本コンピューターサービス 株式会社 質問回答システム及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9398349B2 (en) 2013-05-16 2016-07-19 Panasonic Intellectual Property Management Co., Ltd. Comment information generation device, and comment display device
RU2607975C2 (ru) * 2014-03-31 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Построение корпуса сравнимых документов на основе универсальной меры похожести
JP2016053784A (ja) * 2014-09-03 2016-04-14 富士ゼロックス株式会社 情報推薦プログラム及び情報処理装置
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP6770283B1 (ja) * 2020-03-11 2020-10-14 北日本コンピューターサービス 株式会社 質問回答システム及びプログラム
JP2021144397A (ja) * 2020-03-11 2021-09-24 北日本コンピューターサービス 株式会社 質問回答システム及びプログラム

Similar Documents

Publication Publication Date Title
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
US7472131B2 (en) Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
CN109685056B (zh) 获取文档信息的方法及装置
EP2711849A2 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
US20130253910A1 (en) Systems and Methods for Analyzing Digital Communications
Cataldi et al. Good location, terrible food: detecting feature sentiment in user-generated reviews
US11023503B2 (en) Suggesting text in an electronic document
US11182540B2 (en) Passively suggesting text in an electronic document
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
TW202034207A (zh) 使用意圖偵測集成學習之對話系統及其方法
CN115270818A (zh) 一种意图识别方法及装置、存储介质、计算机设备
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
US11914844B2 (en) Automated processing and dynamic filtering of content for display
CN112015857A (zh) 用户感知评价方法、装置、电子设备及计算机存储介质
US11487798B1 (en) Method for identifying a data segment in a data set
US11651256B1 (en) Method for training a natural language processing model
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
US20230316791A1 (en) Method for identifying entity data in a data set
CN115577124B (zh) 用于交互金融数据的方法、设备和介质
Xu et al. Contextualized latent semantic indexing: A new approach to automated Chinese essay scoring

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100517

A072 Dismissal of procedure

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20120522