JP6380393B2

JP6380393B2 - 文章分類装置、文章分類方法、及び文章分類プログラム

Info

Publication number: JP6380393B2
Application number: JP2015523949A
Authority: JP
Inventors: 貴士大西; 弘紀水口; 石川　開; 開石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-06-28
Filing date: 2014-05-28
Publication date: 2018-08-29
Anticipated expiration: 2034-05-28
Also published as: JPWO2014208298A1; WO2014208298A1

Description

本発明は、情報処理システムによる文章を所定内容毎に分類する文章分類装置、文章分類方法、及び文章分類プログラムに関し、特に、会話内容をテキスト化した文章を分類することに有用な文章分類装置、文章分類方法、及び文章分類プログラムに関する。

昨今、情報処理システムによるテキスト分析が様々な手法で行われている。

テキスト分析の基本的な技術の一つとして文章分類技術がある。これは、与えられた文章を予め決められた分類項目に分類する技術のことである。

こうした文章分類技術の一例が特許文献１に記載されている。

特許文献１に記載された文章分類装置は、通話音声を音声認識して得られたテキストに対して、通話内容が苦情に対する電話のテキストか、その他の電話のテキストかを分類する装置である。

この文章分類装置では、分類対象として入力された文章に含まれる語句すべてに対して苦情の通話内容である確率値を算出処理し、それをもとに文章の分類を行っている。苦情の通話内容である確率値は、分類の正解データとして与えられた正例文章集合及び負例文章集合における出現頻度等の統計量を求めると共に当該語句の音声認識の信頼度を用いて、算出処理する。

特開２０１１−１２３７０６号公報

会話内容を文字化した文章を分類することには様々な利点がある。他方で、情報処理システムによる正確な分類には、音声認識の正確性や、会話の成立性、応答の正当性、話者の発話意思の一意性など様々な問題がある。

特許文献１で示されている技術によれば音声認識の正確性に対する問題について向上させ得るかもしれない。他方で、他にも様々な課題が残る。また、音声認識の信頼度を用いる必要がある。

例えば、特許文献１の手法では、通話の構造（会話構造）を考慮せずに通話全体を用いて統計量の計算を行うことになる。このため、分類にとって不要な発話部分や繰り返し部分などが含まれることにより、分類精度が低くなるという課題を見出せる。なお、通話の構造は、挨拶やお礼などの社会的ルールや、コールセンターでの本人確認などのような運用ルールなどから定まっている。他方で全ての会話が通話の構造を厳密に守るとまでは云えない。

また、特許文献１の手法では、会話に対する発話意思を考慮せずに通話全体のテキストを用いて統計量の計算を行う。発話意思とは、（誰が）何を言ったかであるが、発話者でさえ明確でないことも有る。このため、分類にとって不確定な揺らぎが含まれることにより、分類精度が低くなる。なお、発話者は、テキスト化時に関連付けたり、文意解釈処理から特定したり、任意の手法で文章に関連付けて用いることができる。

このように、例示した特許文献１や同様な会話内容をテキスト化して扱う技術には、分類精度を高めきれていないという課題がある。一つの側面では、分類結果を、文書全体もしくは移動窓によって切り出された短い区間を対象に任意の分類ルールを適用して分類結果を得ていることが問題と云える。

例えば、コールセンターには、顧客の不満、要望の声が寄せられる。顧客の満足度や利便性を高めるために企業がそうした顧客の声をよく分析している。しかしながら、音声認識やオペレータによる入力などから得たテキスト文書について任意の分類ルールに基づく文章分類を実行した場合に、少なからず分類意図から外れた分類結果が混ざっている。

本発明は、文章分類に寄与する区間を特定して分類結果のより正確性を高める文章分類装置、文章分類方法、および文章分類プログラムを提供する。

本発明に係る文章分類装置は、分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、前記分類対象区間抽出部で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部と、を有することを特徴とする。

本発明に係る情報処理システムによる文章分類方法は、分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する工程と、抽出した前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する工程と、を含むことを特徴とする。

本発明に係る文章分類プログラムは、情報処理システムを、分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、前記分類対象区間抽出部で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部、として動作させることを特徴とする。

本発明によれば、文章分類に寄与する区間を特定して分類結果のより正確性を高める文章分類装置、文章分類方法、および文章分類プログラムを提供できる。

図１は、第１の実施形態にかかる文章分類装置の構成を示すブロック図である。図２は、第１の実施形態にかかる文章分類装置の動作例を示すフローチャートである。図３は、第２の実施形態にかかる文章分類装置の構成を示すブロック図である。図４は、第２の実施形態にかかる文章分類装置の動作例を示すフローチャートである。図５は、第３の実施形態にかかる文章分類装置の構成を示すブロック図である。図６は、第３の実施形態にかかる文章分類装置の動作例を示すフローチャートである。図７は、実施例で用いるコールセンターでのサービス解約の発話の例をテキスト化した説明図である。図８は、実施例で用いるコールセンターでのサービス解約の発話の別の例をテキスト化した説明図である。

次に、本発明の実施形態について図面を参照して詳細に説明する。
［第１の実施形態］
図１は、一実施形態にかかる文章分類装置１の構成を示すブロック図である。

文章分類装置１は、入力部１０と、分類対象区間抽出部２０と、文章分類部３０と、出力部４０を含み構成される。

入力部１０は、分類対象である会話内容が含まれるテキスト文書を受け付け、入力された文書に含まれている文章（入力文章、分類対象）を分類対象区間抽出部２０に渡す。

入力となる文書には、例えば、コールセンターのオペレータと顧客との通話を音声認識もしくは人手作業によってテキストに書き起こした文章、チャットやメールのログ、会議中の対話を書き起こした文章、などの会話文章が含まれていることとする。また報告書や議事録のような定型的な特徴を有する形式で書かれた文書でもよい。

説明を明瞭とするために、分類対象を例示して説明する。下記例の括弧内が通話内容であり、数字とラベルは、説明上付与した。以下、適宜分類対象とする文章として以下の文章を用いる。なお、”ＯＰ”はオペレータを指し、”ＣＵ”は顧客を指す略語である。
［コールセンターで受け付けたサービス変更に関する通話データ例］：
通し番号ラベル通話内容
１．名乗り（ＯＰ：○○コンタクトセンター□□でございます）
２．解約の申し出（ＣＵ：サービス”ＸＸ”を解約したいんだけど）
３．解約理由ヒアリング（ＯＰ：サービス”ＸＸ”でご満足いただけなかった点はありましたでしょうか？）
４．解約理由回答（ＣＵ：ちょっと料金が高かったもんで）
５．解約手続き（ＯＰ：それでは解約手続きをさせていただきます）
・
・
・
本人確認や解約手順の案内等のやり取り
・
・
・
６．クロージング（ＯＰ：ご利用ありがとうございました）
テキストデータ化した上記通話データを参照すれば分かるように、電話であるサービス”ＸＸ”を解約する場合、通話全体の会話構造には上記のラベル区分のように発話意図で区分できることが多い。

このような内容の通話データ群（分析対象群）に対して、特定のサービス（サービス”ＸＸ”）を解約する通話を識別処理し、加えて解約理由を分類するタスクを検討した場合、一部の部分から会話内容の特徴が捉えられることが多い。例えば、解約するサービスを特定する根拠となる発話は上記番号２の部分（解約の申し出）に現れることが多い。また、解約理由を分類する上での根拠となる発話は上記番号４の部分（解約理由回答）に現れることが多い。他方、その他の部分は、解約するサービスの特定や解約理由の分類にとって、直接的には重要性が低い部分と考えられる。

分類対象区間抽出部２０は、入力文章内から文章分類に寄与する区間を抽出処理する。この抽出処理にあたり、分類対象区間抽出部２０は、手がかり文を基礎に、入力文章がどのクラスに属するかを判定するための分類判定ルール（任意の所定ルール）を用いて分析する対象範囲を確定する。

文章分類に寄与する区間には、目的とした分類処理の根拠となる表現が含まれた区間が含まれる。分類の根拠となる表現とは、その表現を読むことによって分類をすることが可能となる表現である。例えば、特定の単語やフレーズでもよいし、文や段落のようにより長い区間の表現でもよい。また、単語やフレーズなどと共に発話者や文意（発話意図）を用いることもできる。

この分類対象区間の抽出処理では、入力文章内の文を順に読み込み、その各文を分類対象区間を抽出するための基礎となる手がかり文であるか否かをまず判定すればよい。次に、分類対象区間を確定する処理として、手がかり文を基礎に、所望する分類対象区間に限定されるように、文章の特徴を踏まえて、分類に不要と判断した区間を取り除く。

手がかり文は、文章や文書の構造を決定する文のことである。例えば、対話中の話題を転換するような発話の文章や見出し文を用いれば良い。

また、手がかり文を特定する処理では、該当する分類対象群中で用いられている単語や構造パターンに応じて手がかり文判定ルールを予め作成して特定することで抽出してもよい。例えば、被分類対象文書群で一般的に用いられているフレーズの連続性や、特定の話者が特徴付けられて用いる接続詞と固有名詞の組み合わせの特定などが挙げられる。なお、複数の手がかり文判定ルールを用いてもよい。

また、分類対象区間抽出部２０は、手がかり文や手がかり文でない文の事例を収集して、機械学習を用いて手がかり文を判定するための統計モデルを学習しておき、統計モデルを用いた判定器によって手がかり文を判定しても良い。

なお、手がかり文は、分類対象から複数特定するように構成しても良い。また、複数の手がかり文相互に確からしさを反映した重み係数を関連付けて優先性を与えても良い。

上記例文では、手がかり文として「解約の申し出」を識別する。加えて「解約するサービス名」も判定する。「解約の申し出」は、例えば、手がかり文判定ルールに記録された、発話者、サービス名の固有名詞、解約又は類似する語彙とサービス名の連続性を用いて判定することができる。

その後、分類対象区間抽出部２０は、手がかり文を基礎に、所望する分類対象区間に限定されるように、文章の特徴を踏まえて、分類に不要と判断した区間を取り除く。例えば、「解約の申し出」以後の文章を残し、「解約の申し出」以前の文章を分類に用いないように排除し、「解約理由ヒアリング」や「解約理由回答」が残るように分類対象区間を限定する。また、この際に、必要に応じて、助詞や接続詞などの判定に用いない語句を分類対象区間内から取り除くことを行ってもよい。また、話者の発話意思が不明確な区間を取り除くことを行ってもよい。

文章分類部３０は、分類対象区間抽出部２０で抽出された区間のテキストを用いて入力文章（分類対象）が何れのクラスに属するかを、任意に定められた分類判定ルールで分析して、属するクラスを判定する。

この分類では、入力文章が１つのクラスのみに属するように分類しても良いし、複数のクラスに属する分類でも良い。

分類処理は、単語やパターンによって分類ルールを作成して分類してもよいし、分類済みのデータから機械学習を用いて統計モデルを学習しておき、統計モデルを用いた分類器によって分類してもよく、任意である。

出力部４０は、文章分類部３０で分類処理された結果を出力する。出力先は、記憶部であってよいし、提示部であっても構わない。また、複数の分類結果を取り纏めて出力するように構成しても良い。出力形態は、適宜所望に出力すれば良い。

次に、図２のフローチャートを参照して文章分類装置１の処理動作例について説明する。

まず、入力部１０は入力テキストを受け付ける（ステップＡ１１）。

次に、分類対象区間抽出部２０は入力テキストに含まれる各文を順番に読み込み、逐次手がかり文かどうかを判定処理し、手がかり文と判定された文の位置特徴に基づいて分類対象区間を確定する（ステップＡ１２）。なお、分類対象区間は、手がかり文の判定と同時に行ってもよいし、文章全体に対して手がかり文の抽出を行った後に、分類対象区間を確定してもよい。

次に、文章分類部３０は、確定された分類対象区間に含まれるテキストを分類処理する（ステップＡ１３）。

最後に、出力部４０は分類結果を出力（ステップＡ１４）して、処理を終える。

次に、本実施形態の効果について説明する。本実施形態では、分類対象に対して、分類の根拠にできる表現を含む区間を抽出し、抽出された区間に対して所要な分類を実行することが可能になる。すなわち、分類することに関連が薄い内容を分類対象内から除外して、分類に寄与するだろう区間を特定して分類を行うことで、文章全区間を使用して分類する場合に比較して高精度な分類を実現できる。
［第２の実施形態］
図３は、第２の一実施形態にかかる文章分類装置２の構成を示すブロック図である。なお、第１の一実施形態にかかる文章分類装置１と同様な部分についての説明は記載を簡略化又は省略する。

文章分類装置２は、入力部１０と、分類対象区間抽出部２０と、文章分類部３０と、出力部４０を含み構成される。

また、分類対象区間抽出部２０は、手がかり文判定部２１０と区間抽出部２２０を含み構成される。また、文章分類部３０は、特徴量抽出部３１０と、特徴解析分類部３２０を含み構成される。

手がかり文判定部２１０は、第１の一実施形態で説明した手法で手がかり文を判定する。

区間抽出部２２０は、手がかり文として判定された文に対して、手がかり文の前方、後方、または両方向の文で、一定数以内の文が含まれる区間を分類対象区間として抽出する。

また、音声認識された対話テキストのように各文（発話）に時間が付与された文書の場合、区間抽出部２２０は、手がかり文として判定された文との時間を踏まえた、会話特徴に基づいて分類対象区間を確定できる。例えば、所定時間以内に発話された文が含まれる前方、後方、または両方向の区間を分類対象区間として抽出してもよい。また、各文（発話）に付与された時間には、会話の成立性や、会話の伝達性、話者の認識度などの特徴も現れる。この特徴を利用して、個々の発話の時間や、個々の会話間の時間（自身の発話間の時間、相手への応答要求に対する返答までの時間など）を参照して分類対象区間内外の重み付けに使用してもよい。

また、手がかり文判定部２１０と同様の方法を用いて分類対象区間の終端となる文を判定する終端文判定処理を用いて分類対象区間を決定する分類対象区間抽出手段を有してもよい。終端文判定処理では、終端となる文を、入力文章から判定することで、抽出した手がかり文と終端となる文との間の区間を分類対象区間に確定できる。

また、一度定めた分類対象区間内から終端文を判定して、分類対象区間を更に限定する終端文を導出してもよい。この終端文に基づいて新たな分類対象区間を確定させれば良い。この処理によれば、より良い終端文を導出できる。例えば、手がかり文の文言やフレーズ、文意に則して終端文と成り得る候補を定め、その文言等から終端文を導出できる。

また、これらの分類対象区間の抽出手法を適宜組み合わせて、不用と見做せる箇所の確からしさを高めることができる。

特徴量抽出部３１０では、例えば、ｔｆ−ｉｄｆや音声認識信頼度等で重みづけした形態素Ｎ−ｇｒａｍを抽出する。このとき、特徴量抽出部３１０で、分類対象区間中の文と手がかり文との位置関係や文の話者、会話の成立性、応答の正当性、話者の発話意思の一意性などの各パラメータに応じて特徴量の重みを変化させてもよい。例えば、手がかり文との距離が近い文から得られた特徴量の重みを大きくすることや、オペレータの発話から得られた特徴量の重みを顧客の発話から得られた特徴量の重みよりも大きくすることで、分類に寄与する特定の発話を重視することになり、この会話特徴を踏まえて分類精度を向上させることができる。

特徴解析分類部３２０は、特徴量抽出部３１０で抽出した特徴量をもとに文章の分類を行う。文章の分類処理は、分類のための任意のルールを用意しておき、特徴量とルールとの一致によってどのクラスに分類するかを決定することができる。また、分類済みの事例を収集しておき、機械学習によって各クラスの分類モデルを学習し、それを用いて文章の分類を行ってもよい。また、上記の手法の組合せによって文章の分類を行ってもよい。

出力部４０は、文章分類部３０で分類処理された結果を出力する。出力形態は、適宜所望に出力すれば良い。

また、例えば、話者の発話意思が明確な区間又は不明確な区間を予め抽出して重み付けに反映させるように前処理部を更に含ませても良い。また、尤度や検証に使用する重み関数を抽出してもよい。

次に、図４のフローチャートを参照して文章分類装置２の処理動作例について説明する。

まず、入力部１０は入力テキストを受け付ける（ステップＡ２１）。

次に、手がかり文判定部２１０は、入力テキストに含まれる各文を順番に読み込み、逐次手がかり文かどうかを判定処理する（ステップＡ２２）。

次に、手がかり文と判定された１ないし複数の文に対して、区間抽出部２２０は、手がかり文を基礎に分類対象区間を抽出する（ステップＡ２３）。

次に、特徴量抽出部３１０は、抽出された分類対象区間に含まれていたテキストから分類のための各種特徴量を抽出処理する（ステップＡ２４）。

次に、特徴解析分類部３２０は、抽出された特徴量を用いて入力テキストの分類を行う（ステップＡ２５）。

最後に、出力部４０は分類結果を出力（ステップＡ２６）して、処理を終える。

次に、本実施形態の効果について説明する。

本実施形態では、分類対象に対して、分類の根拠にできる表現を含む区間を抽出し、抽出された区間に対して所要な分類をより精確に実行することが可能になる。すなわち、分類することに関連が薄い内容を分類対象内から様々な観点から適確に除外して、分類に寄与するだろう区間を特定して分類を行うことで、文章全区間を使用して分類する場合に比較して高精度な分類を実現できる。

また、選別したテキスト情報が有する特徴量を用いて、例えば、手がかり文との位置関係や文の話者に応じて個々の語句や文章の特徴量の重みを変化させ、より高精度で適切な分類を実行できる。
［第３の実施形態］
図５は、第３の一実施形態にかかる文章分類装置３の構成を示すブロック図である。

文章分類装置３は、入力文章から、文章分類の検証に寄与する区間を抽出して、文章分類に寄与する区間と文章分類結果とをそれぞれ検証処理する検証手段を設けている。

なお、第１及び第２の一実施形態にかかる文章分類装置と同様な部分についての説明は記載を簡略化又は省略する。

文章分類装置３は、入力部１０と、分類対象区間抽出部２０と、文章分類部３０と、出力部４０を含み構成される。

また、分類対象区間抽出部２０は、手がかり文判定部２１０、区間抽出部２２０、検証手がかり文判定部２３０、分類対象区間検証部２４０を含み構成される。また、文章分類部３０は、特徴量抽出部３１０、特徴解析分類部３２０、検証特徴量抽出部３３０、特徴解析分類結果検証部３４０を含み構成される。

本構成では、検証手段を分類対象区間抽出部２０と文章分類部３０にそれぞれ内在するように設けている。他方、外部に設けても良い。

手がかり文判定部２１０、区間抽出部２２０、特徴量抽出部３１０、特徴解析分類部３２０は、第２の一実施形態と同様に動作させれば良い。

検証手がかり文判定部２３０は、手がかり文判定部２１０と同様の手法で、検証手がかり文を判定する。

検証手がかり文は、所定の確認手続を特定して得れば良い。運用ルールとして決められている所定の確認応答の宣言文言を判定することしても良いし、文意の繰り返し度から求めることしても良い。例えば、検証手がかり文として「確認します」や「復唱します」などの文が採用できる。

これらの特定には、予め定めた検証手がかり文判定ルールを用いてもよいし、検証手がかり文や検証手がかり文でない文の事例による統計モデルを用いた判定器によって検証手がかり文を判定しても良い。

なお、検証処理においても重み係数を用いることができる。例えば、適正度が高くない検証手がかり文が多数抽出された場合には、検証を取りやめることも可能にできる。

分類対象区間検証部２４０は、区間抽出部２２０と同様の手法で、文章分類の検証に寄与する区間（検証用区間）を、検証手がかり文を基礎に、確度が高い検証用区間に限定するように、検証手がかり文の後方で、一定数以内の文が含まれる区間を抽出する。この際、各文に時間が付与された文章の場合、分類対象区間検証部２４０は、検証手がかり文と判定された文の会話特徴に基づいて検証用区間を確定する。また、文章の特徴を踏まえて、検証に不要と判断した区間を取り除くことを行ってもよい。

また、手がかり文判定部２１０と同様の方法を用いて検証用区間の終端となる文を判定する検証終端文判定処理を用いて検証用区間を決定するようにしても良い。

例えば、「確認します」などの文から以後の文章を所定時間残し、検証用区間を特定すればよい。また、クロージングで用いる文言を検証用区間の終端となる文として用いることができる。

分類対象区間検証部２４０は、求めた検証用区間を用いて分類対象区間の検証を実行する。この検証では、検証用区間に含まれている文章の文言や文意に基づいて、文章分類に寄与する区間の適正度を求める。例えば、検証用区間で用いられている文意が分類対象区間に無い場合や、両区間での文意に違いがある場合には、分類対象区間の設定範囲を限定し過ぎていることが要因となり得る。このような場合は、自動的にパラメータを拡張方向に変更して分類対象区間の再設定処理を行うようにすれば良い。

検証特徴量抽出部３３０は、検証用区間から、特徴量抽出部３１０で抽出する特徴量に合せて、検証に用いる検証特徴量を抽出する。このとき、検証特徴量抽出部３３０は、検証用区間及びその前後の文を用いて、分類対象区間中との位置関係や文の話者、会話の成立性、応答の正当性、話者の発話意思の一意性などの各パラメータに応じて検証特徴量の重みを変化させることも可能である。例えば、顧客による検証用区間内での否定的文言や、オペレータによる文意の異なる繰り返しがあった際に、前方の文言の検証用特徴量の重みを低くするなどの対応が取り得る。

特徴解析分類結果検証部３４０は、検証特徴量抽出部３３０で抽出した検証特徴量を用いて特徴解析分類部３２０で分類された結果の検証を行う。検証処理は、特徴解析分類部３２０と同様の分類手法を用いて検証用区間から判断される分類と特徴解析分類部３２０での分類結果とが一致するか否かで行うことができる。双方の分類結果が一致しない場合は、より確信度が高い結果を採用する。また、もし、検証用区間の発話から文章分類のための前提が覆ることが判明した場合は、分類処理を停止してもよい。例えば、「解約したい」と顧客が申し出て、オペレータが理由を聞き、代案を提示する等の解約の引き止めを行った結果、最終的に顧客が解約を思いとどまった場合は、解約自体が行われなくなったため、解約理由の分析からは除外されることとなる。このような場合は、分類を行わない、若しくは「解約ではない」などと分類する。

次に、図６のフローチャートを参照して文章分類装置３の処理動作例について説明する。

まず、入力部１０は入力テキストを受け付ける（ステップＡ３１）。

次に、手がかり文判定部２１０と検証手がかり文判定部２３０は、入力テキストに含まれる各文を順番に読み込み、逐次手がかり文かどうか、検証手がかり文かどうかを判定処理する（ステップＡ３２）。

次に、手がかり文と判定された１ないし複数の文に対して、区間抽出部２２０は、手がかり文を基礎に分類対象区間を抽出すると共に、分類対象区間検証部２４０は分類対象区間の検証を行う（ステップＡ３３）。

次に、特徴量抽出部３１０と検証特徴量抽出部３３０は、抽出された分類対象区間と検証用区間から分類のための各種特徴量を抽出処理する（ステップＡ３４）。

次に、検証特徴分類部３２０は、抽出された特徴量を用いて入力テキストの分類を行うと共に、特徴解析分類結果検証部３４０は分類結果の検証を行う（ステップＡ３５）。

最後に、出力部４０は分類結果を出力（ステップＡ３６）して、処理を終える。

次に、本実施形態の効果について説明する。

本実施形態では、分類対象に対して、分類の根拠にできる表現を含む区間を抽出し、抽出された区間に対して所要な分類をより精確に実行することが可能になる。加えて、正確性を高める検証処理を、分類の根拠にする区間と分類結果とにそれぞれ分けて実施することで、所要な分類を更に精確に実行可能になる。なお、分類の根拠にする区間と分類結果の一方のみを検証する構成としてもよい。

次に、具体的な実施例を用いて本発明を説明する。

本実施例では、コールセンターであるサービスを解約する際の通話におけるオペレータと顧客の対話から顧客がそのサービスを解約する理由を分類するタスクで説明する。

本タスクでの解約理由にあたる分類クラスは、「料金」、「サービス不具合」、「その他」の３クラスに分類する。

サービス解約時における典型的な対話は図７のような対話である。図中の番号は発話に関する文章であり、ＯＰはオペレータの発話、ＣＵは顧客の発話を示す。図７の会話は内容に応じて複数の区間に分けることができる。

０１~０２はオペレータの名乗りの発話、０３~０５は顧客からの解約の申し出の発話、０６はオペレータからの解約理由を尋ねる発話、０７~１１は顧客からの解約理由の回答の発話とそれに対してオペレータから再考を依頼する発話、１２~５０は解約手続きの発話、５１~５３はクロージングの発話となっている。

ここで、解約理由を分類したい場合にその根拠となる発話は０６の解約理由を尋ねる発話以降の０７~１１の区間に出現すると考えられる。

本実施例では、第２の一実施形態で示した文章分析装置２を用いて、上記タスクを実行する。

文章分析装置２は、まず、入力部１０から図７に示した音声通話の書き起こしテキスト（通話記録文書）が入力されたとすると、分類対象区間抽出部２０は、分類対象区間を抽出する。

より具体的には、各文について手がかり文判定部２１０において解約理由を問う発話であるか否かを多様に判定して手がかり文を導出する。

ここでの判定手法としては、「解約するきっかけになったことはありましたか」や「何かご満足頂けなかった点がありましたでしょうか」のような解約理由ヒアリングの典型パターンを含むか否かで判定すればよい。

また、コールセンターで解約理由ヒアリングのスクリプトが用意されている場合は、そのスクリプトと各発話との編集距離が一定以内であるかによって判定してもよい。

また、解約理由を問う発話の事例を収集し、統計ベースの手法で判定することを用いても良い。

また、複数の判定手法を組み合わせてもよい。このような手法を用いることで図７の場合では、０６の発話が手がかり文として判定される。

次に、区間抽出部２２０は分類対象区間を抽出処理する。例えば、手がかり文の以降のＮ文を分類対象区間として抽出する。Ｎ＝５の場合、０７~１１の区間が分類対象区間として抽出される。他にも、各発話の発話時間が得られる場合は手がかり文の発話からＭ秒間の区間を分類対象区間として抽出してもよい。また、終端となる文を手がかり文と同様の手法で探索して、手がかり文と終端となる文を用いて分類対象区間を定めても良い。また、上記ＮとＭの条件を組み合わせ、Ｍ秒間以内のＮ文のように条件付けることも可能である。

次に、分類対象区間の発話に対して文章分類部３０は解約理由の分類を行う。

分類は「料金が高い」ならば「料金」、「サービスが使えない」ならば「サービス不具合」のようにルールベースで行うことができる。また、より詳細に特徴量抽出部３１０で分類対象区間の発話文章を形態素に分解し、そこから形態素Ｎグラムを特徴量として抽出し、特徴解析分類部３２０で予め分類クラスごとに作成しておいた統計モデルを用いて分類を行ってもよい。また、複数の方式を合わせて用いることで更に精確度を上げられる。

図７に示された事例では、顧客が「料金が高い（月額料金が高かった）」と発言しているので「料金」が解約理由だと分類される。他方、「他社のサービスの方が安い」との発話も、「サービスが使えない」ではなく「料金が高い」と文意から識別される。このように、一発話のみに限らず、複数の発話を同時的に扱い、同種の文意であれば尤度として確からしさに肯定的に反映させ、反する文意を識別した場合は尤度を低くすることも可能である。

また、特徴量抽出部３１０では、各特徴量の重みを単に一定値としても構わないが、手がかり文からの距離によって変化させてもよい。例えば、手がかり文からの距離に反比例した重みにしてもよい。これにより、解約理由ヒアリング発話に近い発話を強調して分類を行うことが可能になり、より高精度な分類を行うことができる。

次に、特徴解析分類部３２０は、抽出された特徴量を用いて入力テキスト（通話記録文書）を所定分類に分類を行う。

最後に、出力部４０は、分類結果をＤＢに格納したり、ユーザ画面に表示して処理を終える。

本実施例では、対話中のすべての発話を用いて文書内容を分類するのではなく、解約理由を分類することに有用な区間の発話のみを用いて分類することでより精確な分類を実現するこができる。

また、解約手続き後やクロージング前にオペレータ側から確認プロセスを含ませた場合には、第３の一実施形態で示した文章分析装置３を用いて、上記タスクについて検証も行える。

図８は、確認プロセスを含むサービス解約時における典型的な対話である。

オペレータ側から確認するプロセスを含ませた場合、まず、検証手がかり文を探索して、その後、検証分類対象区間を抽出し、検証分類対象区間として抽出した発言に基づいて分類精度を向上させる。

検証手がかり文は、典型パターン手法として、オペレータの発話として確認を述べる前に相手に確認事項を述べることを伝える定型的に用いる文を抽出することで判定すればよい。また、スクリプトによって判定してもよいし、統計ベースの手法で判定よいし、複数の判定手法を組み合わせてもよい。

このような手法を用いることで図８の事例では、５１の発話が検証手がかり文として判定される。

検証分類対象区間は、検証手がかり文を基礎にその範囲を導出する。手法は、分類対象区間と同様の手法を用いればよい。

検証処理は、例えば、検証分類対象区間に含まれる形態素の分類対象区間内での出現位置及び並びに基づいて、分類対象区間の抽出の適確性を導出できる。また、分類対象区間内から分類に不必要とした文言や発話の排除が適性であったか否かも検証できる。

また、解約理由を分類することに不要とした区間に、検証分類対象区間内で重要視される文言が含まれていないことも検証できる。

また、文章分類部３０でも、分類対象区間から抽出された形態素特徴と検証分類対象区間から抽出された形態素特徴とを用いて、分類結果の尤度検証を行える。

尚、文章分類装置の各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに文章分類プログラムが展開され、プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。また、このプログラムは、記録媒体に固定的に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施の形態を別の表現で説明すれば、文章分類装置として動作させる情報処理システムを、１ないし複数のＲＡＭに展開された文章分類プログラムに基づき、入力手段、分類対象区間抽出手段、文章分類手段、出力手段として制御部を動作させることで実現することが可能である。

以上説明したように、本発明によれば、会話が含まれた文章を対象に高精度な分類を実現することができる。

本発明では、分類対象区間抽出部において入力文章を分類するための根拠としてふさわしい区間を全体の中から限定的に抽出し、その範囲から分類対象区間に含まれるテキストを用いて所定の分類を実行する。

このため、入力文章が様々な役割を持ち分類の根拠となる部分が全体の一部であるような場合でも、分類対象とする区間を絞りこむことによって、文書全体を考慮して分類を行う場合よりも正確な分類が実現できる。また、例えば、分類対象区間中の各文と手がかり文との位置関係に応じて特徴量の重みを変化させることでより高精度な分類が実現している。

このような様々な処理を行うことで、例えばコールセンターでの通話テキストのような様々な内容が含まれるテキストであっても、会話の成立性、応答の正当性、話者の発話意思の一意性などを考慮した分類が行える。これは、オペレータと顧客との対話構造や運用ルールなどを踏まえて、分類対象とする区間を導出可能にしためである。

また、報告書や議事録のような定型的な特徴を有する形式で書かれた文書でも同様に所望する内容の分類を行える。

なお、上記説明では、１つの分類ルールのみを用いて説明したが、複数の分類ルールを同時的に処理できる。コールセンターの例では、解約理由と共に、事後動向調査（どの会社のサービスに今後移る予定であるかなど）や、満足度調査（全体サービスに対するコメントなどから推定）、要望調査なども同時的に行うことが可能である。この際、適宜分類ルール毎にその文章分類に寄与する区間を変更することが望ましい。

すなわち、本発明によれば、文章分類に寄与する区間を特定して分類結果のより正確性を高めた文章分類装置、文章分類方法、および文章分類プログラムを提供できる。

なお、以上に実施形態及び実施例を用いて説明したが、そのブロック構成の分離併合、手順の入れ替えなどの変更は本発明の趣旨および説明される機能を満たせば自由であり、上記形態が本発明を限定するものではない。本発明は、例えば実施形態の趣旨の分離併合の変更などの発明の要旨を逸脱しない範囲で種々の変更を施すことができ、これらの変更例も本発明に含まれる。

また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
［付記１］
分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、
前記分類対象区間抽出部で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部と、
を有することを特徴とする文章分類装置。
［付記２］
前記分類対象区間抽出部は、
文章分類に寄与する区間を抽出処理する際に用いる手がかり文を入力文章から判定する手がかり文判定部と、
手がかり文に近接する文を含む区間を分類対象区間として抽出処理する区間抽出部と、
を含むことを特徴とする上記付記に記載の文章分類装置。
［付記３］
前記区間抽出部は、手がかり文の前方、後方、または両方向の所定時間以内の発話区間の何れかの区間を、若しくは、手がかり文の前方、後方、または両方向の定数文以内の範囲区間を、分類対象区間として抽出処理することを特徴とする上記付記に記載の文章分類装置。
［付記４］
前記分類対象区間抽出部は、
更に、文章分類に寄与する区間を抽出処理する際に用いる終端となる文を入力文章若しくは前記分類対象区間から判定する終端文判定部を備え、
抽出した手がかり文と終端となる文との間の区間を新たな分類対象区間として抽出処理する
ことを特徴とする上記付記に記載の文章分類装置。
［付記５］
前記文章分類部は、
抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出処理する特徴量抽出部と、
抽出された特徴量を用いて文章を分類処理する分類部と
を備えることを特徴とする上記付記に記載の文章分類装置。
［付記６］
前記文章分類部は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、会話特徴たる前記手がかり文との位置関係に応じて抽出する特徴量の重みを変化させることを特徴とする上記付記に記載の文章分類装置。
［付記７］
前記文章分類部は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、特定の話者、会話の成立性、応答の正当性、話者の発話意思の一意性の何れか又は組み合わせにより、抽出する特徴量の重みを変化させることを特徴とする上記付記に記載の文章分類装置。
［付記８］
前記入力文章から、文章分類の検証に寄与する区間を、入力文章から判定して得た検証手がかり文を基礎に抽出処理すると共に、
前記文章分類の検証に寄与する区間として抽出した文章に基づいて、文章分類に寄与する区間および／又は文章分類結果を検証処理する
ことを特徴とする上記付記に記載の文章分類装置。
［付記９］
分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する工程と、
抽出した前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する工程と、
を含むことを特徴とする情報処理システムによる文章分類方法。
［付記１０］
前記文章分類に寄与する区間を抽出処理する工程は、
文章分類に寄与する区間を抽出処理する際に用いる手がかり文を入力文章から判定する工程と、
手がかり文に近接する文を含む区間を分類対象区間として抽出処理する工程と、
を含むことを特徴とする上記付記に記載の文章分類方法。
［付記１１］
前記文章分類に寄与する区間を抽出処理する工程は、手がかり文の前方、後方、または両方向の所定時間以内の発話区間の何れかの区間を、若しくは、手がかり文の前方、後方、または両方向の定数文以内の範囲区間を、分類対象区間として抽出処理することを特徴とする上記付記に記載の文章分類方法。
［付記１２］
前記文章分類に寄与する区間を抽出処理する工程には、更に、文章分類に寄与する区間を抽出処理する際に用いる終端となる文を入力文章若しくは前記分類対象区間から判定する工程を含み、
前記文章分類に寄与する区間を抽出処理する工程では、抽出した手がかり文と終端となる文との間の区間を新たな分類対象区間として抽出処理する
ことを特徴とする上記付記に記載の文章分類方法。
［付記１３］
前記分類を判定処理する工程は、
抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出処理する工程と、
抽出された特徴量を用いて文章を分類処理する工程と、
を含むことを特徴とする上記付記に記載の文章分類方法。
［付記１４］
前記分類を判定処理する工程は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、会話特徴たる前記手がかり文との位置関係に応じて抽出する特徴量の重みを変化させることを特徴とする上記付記に記載の文章分類方法。
［付記１５］
前記分類を判定処理する工程は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、特定の話者、会話の成立性、応答の正当性、話者の発話意思の一意性の何れか又は組み合わせにより、抽出する特徴量の重みを変化させることを特徴とする上記付記に記載の文章分類方法。
［付記１６］
前記入力文章から、文章分類の検証に寄与する区間を、入力文章から判定して得た検証手がかり文を基礎に抽出処理する工程と、
前記文章分類の検証に寄与する区間として抽出した文章に基づいて、文章分類に寄与する区間および／又は文章分類結果を検証処理する工程と、
を更に含むことを特徴とする上記付記に記載の文章分類方法。
［付記１７］
情報処理システムを、
分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、
前記分類対象区間抽出手段で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部、
として動作させることを特徴とする文章分類プログラム。
［付記１８］
前記分類対象区間抽出部を、
文章分類に寄与する区間を抽出処理する際に用いる手がかり文を入力文章から判定する手がかり文判定部と、
手がかり文に近接する文を含む区間を分類対象区間として抽出処理する区間抽出部、
として動作させることを特徴とする上記付記に記載の文章分類プログラム。
［付記１９］
前記区間抽出部を、手がかり文の前方、後方、または両方向の所定時間以内の発話区間の何れかの区間を、若しくは、手がかり文の前方、後方、または両方向の定数文以内の範囲区間を、分類対象区間として抽出処理するように動作させることを特徴とする上記付記に記載の文章分類プログラム。
［付記２０］
前記分類対象区間抽出部を、
更に、文章分類に寄与する区間を抽出処理する際に用いる終端となる文を入力文章若しくは前記分類対象区間から判定する終端文判定手段として動作させ、
抽出した手がかり文と終端となる文との間の区間を新たな分類対象区間として抽出処理させる
ことを特徴とする上記付記に記載の文章分類プログラム。
［付記２１］
前記文章分類部を、
抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出処理する特徴量抽出部と、
抽出された特徴量を用いて文章を分類処理する分類手段、
として動作させることを特徴とする上記付記に記載の文章分類プログラム。
［付記２２］
前記文章分類部を、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、会話特徴たる前記手がかり文との位置関係に応じて抽出する特徴量の重みを変化させるように動作させることを特徴とする上記付記に記載の文章分類プログラム。
［付記２３］
前記文章分類部を、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、特定の話者、会話の成立性、応答の正当性、話者の発話意思の一意性の何れか又は組み合わせにより、抽出する特徴量の重みを変化させるように動作させることを特徴とする上記付記に記載の文章分類プログラム。
［付記２４］
前記入力文章から、文章分類の検証に寄与する区間を、入力文章から判定して得た検証手がかり文を基礎に抽出処理すると共に、
前記文章分類の検証に寄与する区間として抽出した文章に基づいて、文章分類に寄与する区間および／又は文章分類結果を検証処理する
ように動作させることを特徴とする上記付記に記載の文章分類プログラム。

本発明は、テキスト化された会話内容を所要に分類する分析技術に適用できる。また、人と人以外のシステムと人との会話や１人での発話などから、所要ルールに基づく分類する技術にも用いられる。例えば、タイムラインを有する会話が成立している掲示板や任意グループ空間、任意ルールによる抽出空間などから、所用の要素を抽出して分類することに利用できる。

この出願は、２０１３年６月２８日に出願された日本出願特願２０１３−１３５９２２号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１文章分析装置
２文章分析装置
３文章分析装置
１０入力部（入力手段）
２０分類対象区間抽出部（分類対象区間抽出手段）
３０文章分類部（文章分類手段）
４０出力部（出力手段）
２１０手がかり文判定部（手がかり文判定手段）
２２０区間抽出部（区間抽出手段）
２３０検証手がかり文判定部（検証手がかり文判定手段）
２４０分類対象区間検証部（分類対象区間検証手段）
３１０特徴量抽出部（特徴量抽出手段）
３２０特徴解析分類部（特徴解析分類手段）
３３０検証特徴量抽出部（検証特徴量抽出手段）
３４０特徴解析分類結果検証部（特徴解析分類結果検証手段）

Claims

分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、
前記分類対象区間抽出手段で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部と、
を有することを特徴とする文章分類装置。
前記分類対象区間抽出部は、
文章分類に寄与する区間を抽出処理する際に用いる手がかり文を入力文章から判定する手がかり文判定部と、
手がかり文に近接する文を含む区間を分類対象区間として抽出処理する区間抽出部と、
を含むことを特徴とする請求項１に記載の文章分類装置。
前記区間抽出部は、手がかり文の前方、後方、または両方向の所定時間以内の発話区間の何れかの区間を、若しくは、手がかり文の前方、後方、または両方向の定数文以内の範囲区間を、分類対象区間として抽出処理することを特徴とする請求項２に記載の文章分類装置。
前記分類対象区間抽出部は、
更に、文章分類に寄与する区間を抽出処理する際に用いる終端となる文を入力文章若しくは前記分類対象区間から判定する終端文判定部を備え、
抽出した手がかり文と終端となる文との間の区間を新たな分類対象区間として抽出処理する
ことを特徴とする請求項２又は３に記載の文章分類装置。
前記文章分類部は、
抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出処理する特徴量抽出部と、
抽出された特徴量を用いて文章を分類処理する分類部と
を備えることを特徴とする請求項１ないし４の何れか一項に記載の文章分類装置。
前記文章分類部は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、会話特徴たる前記手がかり文との位置関係に応じて抽出する特徴量の重みを変化させることを特徴とする請求項１ないし５の何れか一項に記載の文章分類装置。
前記文章分類部は、抽出された分類対象区間に含まれる文から文章分類に使用する特徴量を抽出して用いる際に、特定の話者、会話の成立性、応答の正当性、話者の発話意思の一意性の何れか又は組み合わせにより、抽出する特徴量の重みを変化させることを特徴とする請求項１ないし６の何れか一項に記載の文章分類装置。
前記入力文章から、文章分類の検証に寄与する区間を、入力文章から判定して得た検証手がかり文を基礎に抽出処理すると共に、
前記文章分類の検証に寄与する区間として抽出した文章に基づいて、文章分類に寄与する区間および／又は文章分類結果を検証処理する
ことを特徴とする請求項１ないし７の何れか一項に記載の文章分類装置。
分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する工程と、
抽出した前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する工程と、
を含むことを特徴とする情報処理システムによる文章分類方法。
情報処理システムを、
分類対象である会話内容をテキスト化した入力文章から、文章分類に寄与する区間を、手がかり文を基礎に抽出処理する分類対象区間抽出部と、
前記分類対象区間抽出部で抽出された前記文章分類に寄与する区間のテキストを用いて該入力文章が何れの分類に属するかを判定処理する文章分類部、
として動作させることを特徴とする文章分類プログラム。