JP7272531B2

JP7272531B2 - テキスト解析装置、および、方法

Info

Publication number: JP7272531B2
Application number: JP2021169178A
Authority: JP
Inventors: くるみ蛭子; 之華呂; 良輝神田
Original assignee: ベクスト株式会社
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-05-12
Anticipated expiration: 2041-10-14
Also published as: JP2023059184A

Description

本開示は、テキストを処理する技術に関する。

特許文献１には、会話から得られたテキストを解析し、その会話における話題（特許文献１ではカテゴリ）の遷移を特定する手法が開示されている。この手法の話題の遷移を特定する技術は、例えば、顧客との電話対応業務を行うオペレータの養成等に利用することができる。

特開２０１７－１６７７２６号公報

特許文献１の手法では、テキストから削除すべき不要語を特定するために、人手により予め作成した不要語辞書が用いられる。また、テキストを分割したセグメントを話題（カテゴリ）に分類するために、人手により予め作成したカテゴリ辞書が用いられる。このような辞書を人手により作成する作業は容易でなく、できるだけ削減することが求められる。

本開示におけるひとつの目的は、会話のテキストに含まれる適切な話題を容易に特定することを可能にする技術を提供することである。

本発明における一つの実施形態に従うテキスト解析装置は、会話された内容をテキスト化した会話テキストを解析するテキスト解析装置であって、前記会話テキストを記憶するテキスト記憶部と、前記会話テキストを前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割し、前記セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、前記セグメントで語られている話題と、前記話題に関連する名詞句である話題関連名詞句とを抽出する話題抽出部と、を有する。

本発明によれば、会話のテキストに含まれる適切な話題を容易に特定することが可能となる。

会話解析システムのハードウェア構成のブロック図。会話テキスト体系化システムのハードウェア構成のブロック図。会話テキスト体系化システムの機能構成のブロック図。話題抽出部が実行する処理のフローチャート。セグメント分割処理のフローチャート。複合語生成処理のフローチャート。話題分類体系構築処理のフローチャート。話題分類条件生成処理のフローチャート。話題分類体系階層化処理のフローチャート。ツリー表示形式による話題の階層構造の一例を示す図。マップ表示形式による話題の階層構造の一例を示す図。話題分類条件の表示画面の一例を示す図。話題分類条件の編集画面の一例を示す図。会話文脈解析システムのハードウェア構成のブロック図。会話文脈解析システムの機能構成のブロック図。文脈特定処理のフローチャート。トークフロー抽出処理のフローチャート。分岐型トークフロー生成処理のフローチャート。分岐型トークフローが生成される様子を表す図。分岐型トークフローが生成される様子を表す図。分岐型トークフローが生成される様子を表す図。分岐型トークフローが生成される様子を表す図。第１表示処理フローのフローチャート。第１表示処理によって表示された分岐型トークフローの一例を示す図。第２表示処理フローのフローチャート。第２表示処理によって表示された分岐型トークフローの一例を示す図。問答抽出処理のフローチャート。第１表示処理における分岐型トークフローの画面表示の一例を示す図。第２表示処理における分岐型トークフローの画面表示の一例を示す図。問答抽出処理における画面表示の一例を示す図。

以下、本発明の実施形態について図面を参照して説明する。

本実施形態による「テキスト解析装置」の一例としての会話テキスト体系化システムは、人と人との会話に代表される人が話した内容から語られた話題を抽出し、抽出された話題を体系的に整理するシステムである。

＜会話解析システムのハードウェア構成＞
図１は、会話解析システムのハードウェア構成のブロック図である。

図１に示すように、会話解析システム１は、会話テキスト体系化システム１０と、後述する他の「テキスト解析装置」の一例としての会話文脈解析システム６０とを備えている。会話テキスト体系化システム１０は、話題を抽出し、抽出された話題を、会話文脈解析システム６０に出力する。尚、会話テキスト体系化システム１０と、会話文脈解析システム６０とは、それらのハードウェア構成および機能構成の一部が共通してもよい。

＜会話テキスト体系化システムのハードウェア構成＞
図２は、会話テキスト体系化システムのハードウェア構成のブロック図である。

図２に示すように、会話テキスト体系化システム１０は、処理装置９１と、メインメモリ９２と、記憶装置９３と、入力装置９４と、表示装置９５とを有し、これらの各部がデータバスおよびアドレスバスを含む信号線９６を介して相互に接続されたコンピュータシステムである。

処理装置９１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの中央処理装置を含み、メインメモリ９２に記憶された制御プログラムを実行することで、会話テキスト体系化システム１０の各機能（図３参照）が実現される。なお、処理装置９１はＣＰＵ自体であってもよい。

メインメモリ９２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などであり、このメインメモリ９２には、会話テキスト体系化システム１０の各部を機能させる制御プログラムなどが記憶される。

記憶装置９３は、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ：ＨＤＤ）やソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）などであり、処理装置９１による処理に供される入力データ、処理に用いられる閾値等のパラメータ、および処理の結果である出力データが記憶される。

入力データには会話テキストがある。会話テキストは、例えば、オペレータと顧客との電話による通話をテキストデータに変換した情報や、オペレータと顧客がチャットシステムで会話した内容のテキストなどである。会話テキストは、語句や文によって構成されており、ある纏まった意味内容を表す話題を潜在的に含んでいる。

入力装置９４は、ユーザが操作するマウスやキーボードなどの操作装置であり、操作による情報の入力を受け付ける。

表示装置９５は、コンピュータディスプレイなどの装置であり、入力データや出力データに基づくユーザインタフェース画面を表示して各種情報をユーザに提示する。

＜会話テキスト体系化システムの機能構成＞
図３は、会話テキスト体系化システムの機能構成のブロック図である。

図３を参照すると、本実施形態による会話テキスト体系化システム１０は、テキスト記憶部１１、話題抽出部１２、話題分類体系構築部１３、およびユーザインタフェース部１４を備えている。

テキスト記憶部１１には、予め収集された会話テキストＤ１が記録されている。

会話テキストＤ１は、人と人が音声で会話した内容をテキスト化したものやチャットによる発言テキストである。会話が始まってから終わるまで１回の会話のテキストデータが会話テキストＤ１として１つのファイルに格納されている。テキスト記憶部１１には、１つ以上、典型的には多数の会話テキストＤ１が記録されている。

本実施形態では、会話テキストＤ１は、一例として、顧客からの電話にオペレータが応対した際の会話のテキストである。１回の通話が１つの会話テキストＤ１となっている。１回の通話の会話テキストＤ１には、１つ以上、典型的には複数の発話が含まれている。ここでいう発話は、会話において人が発する音声の単位である。例えば、音声が発せられている状態から、ブレス等によって音声の無い時間が所定時間以上あると、発話の切れ目とされる。

話題抽出部１２は、会話テキストＤ１を、その会話テキストＤ１に出現する名詞句の個数に基づいてセグメントに分割する。ここで生成される各セグメントに出現する名詞句を、以下「セグメント出現名詞句」という場合がある。

更に、話題抽出部１２は、各セグメントのセグメント出現名詞句に基づいて、それらセグメントで語られている話題と、当該話題に関連する名詞句（以下「話題関連名詞句」ともいう）を抽出する。話題抽出部１２が実行する処理の詳細な例については後述する。

話題分類体系構築部１３は、各話題について、話題関連名詞句に基づいて、その話題に分類するための条件（以下「話題分類条件」ともいう）を生成する。話題分類条件を生成する処理の詳細な例については後述する。更に、話題分類体系構築部１３は、生成した話題分類条件の体系（以下「話題分類体系」ともいう）を階層構造に整理し、階層化された話題分類体系（以下「階層型話題分類体系」ともいう）を生成する。階層型話題分類体系を生成する処理（以下「話題分類体系構築処理」ともいう）の詳細な例については後述する。

ユーザインタフェース部１４は、話題およびその階層構造を編集可能に表示する。

ユーザインタフェース部１４は、話題の階層構造を複数の表示形式で表示可能とし、ユーザが作業の内容や目的に応じて表示形式を選択可能にしてもよい。例えば、話題の階層構造を、話題名の視認性を重視した表示形式と、話題の従属関係の視認性を重視した表示形式とで切り替えとしてもよい。表示形式の具体的な例については後述する。

＜話題抽出部１２による処理＞
図４は、話題抽出部１２が実行する処理のフローチャートである。

ステップＳ１０１にて、話題抽出部１２は、会話テキストＤ１に対してセグメント分割処理を行って複数のセグメントを生成する。セグメント分割処理は、会話テキストＤ１に対して形態素解析を行って名詞句を抽出し、出現する名詞句の個数に基づいて会話テキストＤ１を区切ってセグメントを生成し、それらセグメント毎の名詞句リストＤ２を生成する処理である。セグメント毎の名詞句リストＤ２は、各セグメントに出現する名詞句（セグメント出現名詞句）を出現順に列挙したリスト情報である。セグメント分割処理の詳細な例は後述する。

ステップＳ１０２にて、話題抽出部１２は、抽出的要約処理により、会話テキストＤ１に含まれるセグメントを所定個数以下に絞り込む。以下、絞り込みにより残ったセグメントのセグメント毎の名詞句リスト（以下、「抜粋セグメント毎の名詞句リスト」ともいう）Ｄ２’を処理の対象とする。

上述したように、１つの会話テキストＤ１は、１回の通話もしくは発言テキストに相当する。したがって、会話テキストＤ１の長さはまちまちであり、長時間にわたる大きな会話量あるいはテキスト量の会話テキストＤ１がある可能性がある。そのような長時間の会話テキストＤ１からは多数のセグメントが生成されることになる。１つの会話テキストＤ１から生成されたセグメントの数が多すぎると、話題の抽出の精度が低下する恐れがある。そこで、本実施形態では、抽出的要約により１つの会話テキストＤ１から生成されるセグメントの個数を一定個数以下に抑えている。
なお、この抽出的要約は行わなくても問題ない場合もある。例えば、会話テキストＤ１の長さがある程度以下に揃っていれば、１つの会話テキストＤ１から生成されるセグメントの個数もある程度以下に揃うので、抽出的要約を行う必要はないと考えられる。

ステップＳ１０３にて、話題抽出部１２は、抜粋セグメント毎の名詞句リストＤ２’に対して、そのセグメント出現名詞句を用いてトピックモデリング処理を行い、セグメントで語られている話題と、その話題に関連する名詞句すなわち話題関連名詞句を抽出する。ある話題の会話にて出現しうる名詞句がその話題の話題関連名詞句となる。

このとき、話題抽出部１２は、トピックモデリング処理において所定個数の話題を抽出する。トピックモデリング処理において抽出する話題の個数は、パラメータとして適切な値が設定される。また、このトピックモデリング処理により、話題における各話題関連名詞句の出現確率に関する情報も得られる。例えば、話題における各話題関連名詞句の出現確率の順位が得られる。

上述したステップＳ１０３の処理により、話題単位の名詞句リストＤ３が作成される。話題単位の名詞句リストＤ３は、抽出された話題のそれぞれについて、その話題の話題関連名詞句を出現確率順に列挙したリスト情報である。

続いて、ステップＳ１０４にて、話題抽出部１２は、各話題の各話題関連名詞句に対して複合語生成処理を行い、話題単位に複合処理前および複合処理後の見出し語リストを生成する。複合処理前の見出し語リストは、話題における出現確率が上位所定個の話題関連名詞句のリストである。

複合処理後の見出し語リストは、複合処理前の見出し語リストに含まれる適切な組み合わせの複数の話題関連名詞句を結合して複合語となったものを含むリストである。なお、複合処理前の見出し語リストに適切な組み合わせの複数の話題関連名詞句が無ければ、複合処理後の見出し語リストが、複合語を含まず、複合処理前の見出し語リストと同じものとなることもあり得る。
複合語生成処理の詳細な例については後述する。

上述したステップＳ１０２からステップＳ１０４での処理を、以下、話題抽出処理という場合がある。

＜セグメント分割処理＞
図５は、セグメント分割処理のフローチャートである。

話題抽出部１２は、ステップＳ２０１にて、１通話分の会話テキストＤ１を読み出し、ステップＳ２０２にて、読み出される通話が存在したか否か判定する。一度処理に供された通話は、ここでの読み出しの対象外となる。

読み出される通話が存在しなければ、話題抽出部１２は、処理を終了する。読み出される通話が存在していれば、話題抽出部１２は、ステップＳ２０３にて、その通話の会話テキストＤ１から１つの発話を読み出し、ステップＳ２０４にて、読み出される発話が存在したか否か判定する。一度処理に供された発話は、ここでの読み出しの対象外となる。

読み出される発話が存在しなければ、話題抽出部１２は、ステップＳ２０１に戻って処理を繰り返す。

読み出される発話が存在していれば、ステップＳ２０５にて、話題抽出部１２は、読み出された発話に出現する全ての名詞句を抽出する。続いて、ステップＳ２０６にて、話題抽出部１２は、抽出された名詞句を記憶部Ａに保存する。記憶部Ａは、セグメントに出現する名詞句を列挙していくために設けられるワークエリアである。

続いて、ステップＳ２０７にて、話題抽出部１２は、記憶部Ａ内に保存されているユニークな名詞句の個数が所定の閾値Ｍ未満であるか否か判定する。記憶部Ａ内に保存されているユニークな名詞句の個数が所定の閾値Ｍ未満であれば、話題抽出部１２は、ステップＳ２０３に戻って次の発話に対して同様の処理を繰り返す。

記憶部Ａ内に保存されているユニークな名詞句の個数が閾値Ｍ以上であれば、話題抽出部１２は、ステップＳ２０８にて、記憶部Ａに保存されている名詞句を記憶部Ｂに記録し、ステップＳ２０９にて、記憶部Ａをクリアし、ステップＳ２０３に戻って次の発話から処理を繰り返す。

記憶部Ｂは、セグメント毎のそのセグメントに出現する名詞句のリストを列挙していくためのワークエリアである。記憶部Ａ内に保存されているユニークな名詞句の個数が閾値Ｍ以上に達したということは、会話テキストＤ１におけるセグメントを区切る箇所まで発話が読み出されたことを意味する。このときに記憶部Ａ内に存在している名詞句が、当該セグメントに出現する名詞句として記憶部Ｂに保存される。全ての通話の分の会話テキストＤ１に対する処理が終わり、ステップＳ２０２にて、読み出される通話が存在しないと判定されたときには、記憶部Ｂ内にセグメント毎の名詞句リストＤ２が完成している。

＜複合語生成処理＞
図６は、複合語生成処理のフローチャートである。

ステップＳ３０１にて、話題抽出部１２は、予め、セグメント毎の名詞句リストＤ２の各セグメントから全組み合わせのＮグラムを抽出し、各Ｎグラムのセグメント毎の名詞句リストＤ２における出現頻度を算出しておく。Ｎグラムは、Ｎ個の連続する名詞句で構成される単位である。Ｎは２以上の整数である。

話題抽出部１２は、抽出したＮグラムと算出した出現頻度とから、名詞句のＮグラムをキーとし、そのＮグラムの出現頻度をバリューとするテーブル（以下「Ｎグラムテーブル」ともいう）Ｄ４を生成しておく。

話題抽出部１２は、ステップＳ３０２にて、話題単位の名詞句リストＤ３から、１つの話題の話題関連名詞句を全て読み出し、ステップＳ３０３にて、読み出される話題が存在していたか否か判定する。読み出される話題が存在していなければ、話題抽出部１２は処理を終了する。

読み出される話題が存在していれば、話題抽出部１２は、ステップＳ３０４にて、読み出された話題の話題関連名詞句のうち出現確率が上位所定個（ここではＬ個（Ｌは２以上の整数））の名詞句を選定する。ここで選定された名詞句のリストが、話題単位の見出し語リストＤ５となる。

続いて、ステップＳ３０５にて、話題抽出部１２は、Ｎ個の話題関連名詞句で構成される全ての順列を生成する。ここで_ＬＰ_Ｎ個の順列Ｄ６が生成される。

次に、ステップＳ３０６にて、話題抽出部１２は、_ＬＰ_Ｎ個の順列Ｄ６のうち、ＮグラムテーブルＤ４に存在する順列のみを残し、それ以外を除外する。更に、ステップＳ３０７にて、話題抽出部１２は、残った順列をＮグラムテーブルＤ４における出現頻度の順番にソートする。

更に、ステップＳ３０８にて、話題抽出部１２は、ＮグラムテーブルＤ４における出現頻度が所定の閾値（ここではＦ）以上の順列の名詞句を結合し、複合名詞句を生成する。このステップＳ３０８の処理により、話題単位の複合見出し語リストＤ７が生成される。ステップＳ３０８の処理の後、話題抽出部１２は、ステップＳ３０２に戻り、次の話題に対して処理を繰り返す。

＜話題分類体系構築処理＞
図７は、話題分類体系構築処理のフローチャートである。

ステップＳ４０１にて、話題分類体系構築部１３は、話題分類条件生成処理を実行する。話題分類条件生成処理は、話題抽出部１２により抽出された話題について話題名と話題分類条件とを付加する処理である。複数の話題の話題分類条件からなる体系が話題分類体系Ｄ８となる。話題分類体系構築処理の詳細な例は後述する。

ステップＳ４０２にて、話題分類体系構築部１３は、話題分類体系Ｄ８によって、会話テキストＤ１の各セグメントを話題に分類する。このとき、会話テキストＤ１からセグメント単位のテキストを生成し、そのテキストを用いて分類を行ってもよい。また、話題分類条件は、セグメントに含まれる名詞句のみで判断できるので、セグメント毎の名詞句リストＤ２を用いて分類を行ってもよい。

ステップＳ４０３にて、話題分類体系構築部１３は、全セグメントに対する、話題分類体系Ｄ８によっていずれかの話題に分類されたセグメントの割合（以下「カバー率」ともいう）を算出し、カバー率が所定の閾値以上であるか否か判定する。

カバー率が閾値未満であれば、ステップＳ４０４にて、話題分類体系構築部１３は、ステップＳ４０２にていずれの話題にも分類されなかったセグメント（以下「未分類セグメント」ともいう）のセグメント毎の名詞句リストＤ９を抽出し、未分類セグメントのセグメント毎の名詞句リストＤ９を処理対象として、話題抽出部１２に話題抽出処理（Ｓ１０２－Ｓ１０４）を実行させる。これにより新たな追加の話題が生成される。

続いて、ステップＳ４０５にて、話題分類体系構築部１３は、新たな追加の話題について話題分類条件生成処理を実行する。この話題分類条件生成処理はステップＳ４０１の処理と同様であり、その詳細な例は後述する。これにより新たな追加の話題について話題名および話題分類条件が生成され、追加の各話題の話題分類条件からなる話題分類体系（以下「追加の話題分類体系」）Ｄ１０が得られる。

ステップＳ４０６にて、話題分類体系構築部１３は、追加の話題分類体系Ｄ１０をマージして話題分類体系Ｄ８を更新し、ステップＳ４０２に戻り、更新された話題分類体系Ｄ８を用いて以降の処理を繰り返す。ステップＳ４０３にて、カバー率が閾値以上となれば、話題分類体系構築部１３は、ステップＳ４０７にて、最終的な話題分類体系Ｄ８を出力する。尚、いずれの話題にも分類されなかったセグメントのみを対象として、新たに生成された話題分類条件で分類することを、全セグメントのカバー率が閾値を超えるまでやってもよい。

ステップＳ４０８にて、話題分類体系構築部１３は、話題分類体系Ｄ８に対して話題分類体系階層化処理を行って階層構造に整理し、階層型話題分類体系Ｄ１１を生成する。話題分類体系階層化処理は、階層構造を持たない話題分類体系を階層構造に整理する処理である。話題分類体系階層化処理の詳細な例は後述する。

＜話題分類条件生成処理＞
図８は、話題分類条件生成処理のフローチャートである。

ステップＳ５０１にて、話題分類体系構築部１３は、会話テキストＤ１の全ての発話を１文単位に変換する。ステップＳ５０２にて、話題分類体系構築部１３は、話題単位の見出し語リストＤ５に含まれている名詞句を利用することにより話題毎の模範文Ｄ１２を抽出する。模範文は、当該話題の内容を端的に表す１文である。例えば、ある話題の見出し語リストとの類似性が最も高い文をその話題の模範文とすることにしてもよい。類似性の高い文は、例えば、概念検索あるいはキーワード検索のアルゴリズムを用いて抽出することができる。

ステップＳ５０３にて、話題分類体系構築部１３は、模範文Ｄ１２と話題単位の複合見出し語リストＤ７とを参照して、模範文Ｄ１２に出現する複合見出し語を抽出する。そして、話題分類体系構築部１３は、抽出された複合見出し語を重要名詞句の候補とし、話題単位の重要名詞句候補リストＤ１３に追加する。話題単位の重要名詞句は、各話題についての当該話題において重要性の高い名詞句である。

続いて、ステップＳ５０４にて、話題分類体系構築部１３は、話題単位の見出し語リストＤ５に含まれている名詞句のうち既に話題単位の重要名詞句候補リストに登録された複合名詞句を構成する名詞句を除いた名詞句であり、模範文Ｄ１２に出現するものを重要単語候補リストに追加する。

そして、ステップＳ５０５にて、話題分類体系構築部１３は、話題単位の重要名詞句候補リストＤ１３から、そこに登録されている名詞句のうち１文字の名詞句を削除することにより、話題単位の重要名詞句リストＤ１４を生成する。

ステップＳ５０６では、話題分類体系構築部１３は、話題単位の重要名詞句リストＤ１４に含まれている名詞句を模範文Ｄ１２に出現する順序に並べ替えて結合することにより話題名Ｄ１５を作成する。

続いて、ステップＳ５０７にて、話題分類体系構築部１３は、話題単位の重要名詞句リストＤ１４に含まれている全ての重要名詞句を含むことを当該話題の話題分類条件Ｄ１６として決定する。この話題分類条件Ｄ１６を束ねたものが話題分類体系Ｄ８である。

＜話題分類体系階層化処理＞
図９は、話題分類体系階層化処理のフローチャートである。

ステップＳ６０１にて、話題分類体系構築部１３は、話題分類体系Ｄ８から話題名に共通部分のある話題を抽出してグループ化し、１つの話題が複数のグループに属しないように、あり得るグルーピングのパターンを列挙する。

さらに、話題分類体系構築部１３は、ステップＳ６０２にて、いずれのグループにも属しない話題の個数が最も少なくなるパターンを採用し、ステップＳ６０３にて、採用したパターンのグループを上位階層の話題として階層構造を生成する。さらに、ステップＳ６０４にて、話題分類体系構築部１３は、グループに属する話題の話題名の共通部分を上位階層の話題の話題名とする。これにより、階層型話題分類体系Ｄ１７が生成される。

尚、上記ステップＳ６０１－Ｓ６０４の処理で生成された上位階層の話題を更にグルーピングできるならば、できなくなるまで上記ステップＳ６０１－Ｓ６０４の処理による階層化を繰り返してもよい。

次に、ステップＳ６０５にて、話題分類体系構築部１３は、階層型話題分類体系Ｄ１７において、各階層の話題名を所定の規則に従って並べ替える。ここでの所定の規則は、例えば、話題名の５０音順やアルファベット順などの辞書順に並べるというものであってよい。

次に、ユーザインタフェース部１４の表示画面について説明する。

ユーザインタフェース部１４は、話題およびその階層構造を、「第１表示形式」の一例としてのツリー表示形式と、「第２表示形式」の一例としてのマップ表示形式と、でユーザよって切り替え可能に表示する。

＜ツリー表示形式による話題の階層構造＞
図１０は、ツリー表示形式による話題の階層構造の一例を示す図である。

ユーザインタフェース部１４は、ツリー表示形式として、話題を表す第１話題オブジェクト（話題の左側の矩形）および話題の話題名Ｄ１５を、縦方向に並べ、同一の階層の話題の第１話題オブジェクトおよび話題名Ｄ１５の横位置を揃えて表示画面１４１に表示する。さらに、ユーザインタフェース部１４は、上位階層の話題の第１話題オブジェクトおよび話題名Ｄ１５の下に上位階層の話題に属する下位階層の話題の話題オブジェクト（話題分類条件Ｄ１６の左側の各矩形）および話題名Ｄ１５を配置する。ツリー表示形式は、話題名の視認性を重視した表示形式である。

図１０の表示画面１４１では、例えば、「グループ」「センター」「センター」の各話題は、相互に異なる階層の話題であり、「センター」「ヵ月」「会社」「住所」「保険」「入院」の各話題は、同一の階層の話題である。さらに、例えば、「入院手術」「入院手術請求」「入院特約」「入院給付金」「入院給付金請求」「怪我入院」「病院入院」の各話題よりも「入院」の話題は、上位階層の話題である。尚、第１話題オブジェクトは、階層毎に異なる色で表示されてよい。

＜マップ表示形式による話題の階層構造＞
図１１は、マップ表示形式による話題の階層構造の一例を示す図である。

ユーザインタフェース部１４は、マップ表示形式として、話題の話題名Ｄ１５を内包し話題を表す第２話題オブジェクトを用いて、上位階層の話題の第２話題オブジェクトと下位階層の話題の第２話題オブジェクトとを接続線によって接続し、接続線同士が重ならないように配置する。マップ表示形式は、話題の従属関係の視認性を重視した表示形式である。

図１１の表示画面１４２では、例えば、「保険」よりも「グループ」の話題が上位階層の話題である。これより、ユーザによるドラッグ＆ドロップ操作によって、容易に階層構造を編集可能とすることができる。

図１２は、話題分類条件の表示画面の一例を示す図である。

ユーザインタフェース部１４は、模範文Ｄ１２毎に抽出された重要名詞句（重要単語）を表示する。図１２の表示画面１４３では、例えば、「入院と手術のご請求ですね。」の模範文Ｄ１２が左側に表示され、その右側に「入院」「手術」「請求」の各重要名詞句が表示されている。

図１３は、話題分類条件の編集画面の一例を示す図である。

ユーザインタフェース部１４は、話題およびその階層構造の表示画面１４４上で選択された話題の話題名を編集可能に表示している。さらに、ユーザインタフェース部１４は、いずれかの話題が選択されると、選択された話題の話題分類条件を編集可能にする編集画面１４５を表示する。

図１３の表示画面１４４では、例えば、「グループ」の話題から放射状にその下位階層の「センター」「ヵ月」「会社」「住所」「保険」「入院」等の話題が配置されている。この表示画面１４４では、例えば、「入院」の話題またはその下位階層の「病院入院」等の話題がユーザによって選択されると、それらの右側に話題分類条件の編集画面１４５が表示される。編集画面１４５では、少なくとも話題分類条件がユーザによって編集可能に表示される。編集画面１４５では、話題名がユーザによって編集可能に表示されてもよい。

以上説明した通り、本実施形態では、会話された内容をテキスト化した会話テキストＤ１を解析する会話テキスト体系化システム１０であって、会話テキストＤ１を記憶するテキスト記憶部１１と、会話テキストＤ１を会話テキストＤ１に出現する名詞句の個数に基づいてセグメントに分割し、セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、セグメントで語られている話題と、話題に関連する名詞句である話題関連名詞句とを抽出する話題抽出部１２と、を有する構成とした。

このように構成すると、会話テキストＤ１を名詞句の個数に基づいてセグメントに分割するので、会話テキストＤ１の曖昧な文法の影響を低減しかつ不要語の影響を排除して、ある程度の情報量が揃った単位のセグメントに分割することができる。その結果、会話テキストＤ１に含まれる適切な話題を容易に特定することが可能となる。

さらに、話題関連名詞句に基づいて、話題に分類するための条件である話題分類条件Ｄ１６を生成する話題分類体系構築部１３を更に有する構成とした。

このように構成すると、名詞句の個数で区切られたセグメント毎の話題について、その話題に関連する名詞句に基づいて話題分類条件Ｄ１６を作成できるので、話題と関連の強い名詞句を基にして、適切な話題分類条件Ｄ１６を生成することができる。

さらに、話題分類体系構築部１３は、話題関連名詞句に基づいて会話テキストＤ１に含まれる文の中から話題毎にその話題を端的に表す模範文Ｄ１２を選択し、模範文Ｄ１２および話題関連名詞句に基づいてその話題の重要名詞句を生成し、重要名詞句に基づいて話題分類条件Ｄ１６を生成する構成とした。

このように構成すると、会話テキストＤ１から選択した模範文Ｄ１２に基づいて話題分類条件Ｄ１６を生成するので、人手により分類の条件に用いる単語や文を与えなくても、セグメントを適切に分類することが可能な話題分類条件Ｄ１６を生成することができる。

さらに、話題分類体系構築部１３は、重要名詞句を全て含むことを話題分類条件Ｄ１６とする構成とした。

このように構成すると、話題分類条件Ｄ１６に重要名詞句を全て含むので、セグメントをより適切に分類することが可能な話題分類条件Ｄ１６を生成することができる。

さらに、話題分類体系構築部１３は、生成した話題分類条件Ｄ１６によって会話テキストＤ１のセグメントを話題に分類し、いずれの話題にも分類されなかったセグメントの割合が所定の閾値以上であれば、いずれの話題にも分類されなかったセグメントを対象として新たな話題および話題分類条件Ｄ１６を生成し、新たに生成された話題分類条件Ｄ１６を追加して、セグメントの分類を再び行う、という処理を、いずれの話題にも分類されなかったセグメントの割合が閾値を超えるまで繰り返すことにより、話題分類条件Ｄ１６を生成する構成とした。

このように構成すると、適切な話題の個数を予め知らなくても、話題の精度を確保しつつ所望のカバー率を生成することができる。

さらに、話題分類体系構築部１３は、重要名詞句を模範文Ｄ１２における出現する順序に並べて結合することにより、話題の話題名Ｄ１５を生成する構成とした。

このように構成すると、名詞句の個数によって適切に区切られたセグメントの話題について、その話題に関連する名詞句（話題関連名詞句）に基づいて話題名Ｄ１５を生成するので、話題と関連の強い名詞句を基にして、視認性の高い話題を特定することができる、また、模範文Ｄ１２における出現順序に重要名詞句を結合することにより、視認性を高めることができる。

さらに、話題分類体系構築部１３は、話題名Ｄ１５に共通部分を含む複数の話題をまとめることにより上位分類の話題を生成し、共通部分を上位分類の話題の話題名Ｄ１５とすることにより、話題の階層構造を生成する構成とした。

このように構成すると、会話テキストＤ１から生成された複数の話題を階層化することにより、全体の話題の体系を容易に把握することが可能となる。

さらに、話題およびその階層構造を編集可能に表示するユーザインタフェース部１４を有し、ユーザインタフェース部１４は、話題およびその階層構造を、話題を表す第１話題オブジェクトおよび話題の話題名Ｄ１５を、縦方向に並べ、同一の階層の話題の第１話題オブジェクトおよび話題名Ｄ１５の横位置を揃え、上位階層の話題の第１話題オブジェクトおよび話題名Ｄ１５の下にその上位階層の話題に属する下位階層の話題の話題オブジェクトおよび話題名Ｄ１５を配置する第１表示形式と、話題の話題名Ｄ１５を内包し話題を表す第２話題オブジェクトを用いて、上位階層の話題の第２話題オブジェクトと下位階層の話題の第２話題オブジェクトとを接続線によって接続し、接続線同士が重ならないように配置する第２表示形式と、で切り替え可能に、表示する構成とした。

このように構成すると、話題およびその階層構造を操作や確認の内容に応じて好適な表示形式で表示することができる。

さらに、ユーザインタフェース部１４は、話題およびその階層構造の表示画面上でいずれかの話題が選択されると、選択された話題の話題分類条件を編集可能にする画面を表示する構成とした。

このように構成すると、階層構造の中から話題を選択して話題分類条件Ｄ１６を編集することができる。

さらに、話題抽出部１２は、会話テキストＤ１を、会話テキストＤ１に出現する名詞句の個数に基づいてセグメントに分割した後、会話テキストに含まれるセグメントを抽出的要約により所定個数以下に絞り込み、絞り込みにより残ったセグメントについて話題と話題関連名詞句とを抽出する構成とした。

このように構成すると、抽出的要約により１つの会話テキストＤ１から生成されるセグメントの個数を一定個数以下に抑えることにより、長い会話テキストＤ１がある場合でも話題抽出の精度を確保することができる。

さらに、話題抽出部１２は、話題関連名詞句のうち出現確率が上位の所定の個数の話題関連名詞句を選定し、選定された話題関連名詞句から、Ｎ（Ｎは２以上の整数）個の話題関連名詞句による順列を生成し、順列のうち、会話テキストＤ１に出現する名詞句のＮグラムであり、会話テキストＤ１におけるＮグラムの出現頻度が所定の閾値以上である順列を構成する話題関連名詞句を順列における順序で結合して複合名詞句とする構成とした。

このように構成すると、話題関連名詞句による順列のうち会話テキストＤ１における出現頻度の高いものを統合して複合名詞句とするので、会話テキストＤ１の内容にあった、より話題をよく表す複合名詞句による話題関連名詞句を生成することができる。

本実施形態による会話文脈解析システムは、人と人との会話に代表される人が話した会話の内容から抽出された話題の会話における遷移を視認性の高い情報に整理するシステムである。

＜会話文脈解析システムのハードウェア構成＞
図１４は、会話文脈解析システムのハードウェア構成のブロック図である。

図１４に示すように、会話文脈解析システム６０は、処理装置９１と、メインメモリ９２と、記憶装置９３と、入力装置９４と、表示装置９５とを有し、これらの各部がデータバスおよびアドレスバスを含む信号線９６を介して相互に接続されたコンピュータシステムである。

処理装置９１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの中央処理装置を含み、メインメモリ９２に記憶された制御プログラムを実行することで、会話文脈解析システム６０の各機能（図１５参照）が実現される。なお、処理装置９１はＣＰＵ自体であってもよい。

メインメモリ９２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などであり、このメインメモリ９２には、会話文脈解析システム６０の各部を機能させる制御プログラムなどが記憶される。

入力データには会話テキストがある。会話テキストは、例えば、オペレータと顧客との電話による通話をテキストデータに変換した情報である。会話テキストは、語句や文によって構成されており、ある纏まった意味内容を表す話題を潜在的に含んでいる。

＜会話テキスト体系化システムの機能構成＞
図１５は、会話文脈解析システムの機能構成のブロック図である。

図１５を参照すると、本実施形態による会話文脈解析システム６０は、テキスト記憶部６１、話題分類体系記憶部６２、文脈特定部６３、トークフロー抽出部６４、分岐型トークフロー生成部６５、問答抽出部６６、およびユーザインタフェース部６７を備えている。

テキスト記憶部６１には、予め収集された会話テキストＤ６１が記録されている。

会話テキストＤ６１は、人と人が音声で会話した内容をテキスト化したものや、オペレータと顧客がチャットシステムで会話した内容のテキストなどである。会話が始まってから終わるまで１回の会話のテキストデータが会話テキストＤ６１として１つのファイルに格納されている。テキスト記憶部６１には、１つ以上、典型的には多数の会話テキストＤ６１が記録されている。

会話テキストＤ６１は、上記会話テキストＤ１とは別の会話のテキストであってもよいし、同じものであってもよいし、一部が重複するものであってもよい。

本実施形態では、会話テキストＤ６１は、一例として、顧客からの電話にオペレータが応対した際の会話のテキストである。１回の通話が１つの会話テキストＤ６１となっている。１回の通話の会話テキストＤ６１には、１つ以上、典型的には複数の発話が含まれている。ここでいう発話は、会話において人が発する音声の単位である。例えば、音声が発せられている状態から、ブレス等によって音声の無い時間が所定時間以上あると、発話の切れ目とされる。

話題分類体系記憶部６２は、予め生成された話題分類体系Ｄ８を記憶している。話題分類体系Ｄ８は、複数の話題の話題分類条件からなる。話題分類条件は、当該話題に分類するための条件である。

文脈特定部６３は、話題分類体系Ｄ８に基づいて会話テキストＤ６１に含まれる話題を分類し、会話テキストＤ６１における話題の遷移（以下「文脈」ともいう）を特定する。その際、文脈特定部６３は、文脈特定処理を実行する。文脈特定処理の詳細な例は後述する。

トークフロー抽出部６４は、会話テキストの話題の遷移すなわち文脈をグループ化によって集約し、グループの文脈を代表する代表文脈を生成する。以下、代表文脈をトークフローということがある。その際、トークフロー抽出部６４は、トークフロー抽出処理を実行する。トークフロー抽出処理の詳細な例は後述する。

分岐型トークフロー生成部６５は、複数のトークフローに共通に含まれる話題を分岐点として、複数のトークフロー同士を関連づけることにより、複数のトークフローを関連づけた分岐型トークフローを生成する。その際、分岐型トークフロー生成部６５は、分岐型トークフロー生成処理を実行する。分岐型トークフロー生成処理の詳細な例は後述する。

問答抽出部６６は、ユーザから質問や回答に該当する話題が指定されると、指定された話題を含むトークフローの基となった会話テキストＤ６１の該当箇所から質問や回答を抽出する。例えば、問答抽出部６６は、会話テキストＤ６１とそれを基に生成された分岐型トークフローに基づいて、会話テキストＤ６１にて会話された内容に基づく質問文およびその回答文を生成する。その際、問答抽出部６６は、問答抽出処理を実行する。問答抽出処理では、問答抽出部６６は、分岐型トークフローの中で指定された話題を含む代表文脈の基となった会話テキストＤ６１における、指定された話題の箇所を特定し、その箇所から質問に該当する質問テキストおよびその質問に対する回答に該当する回答テキストをそれぞれ抽出する。尚、問答抽出部６６は、会話テキストＤ６１の質問テキストの直後の話者の異なるテキストを回答テキストとして抽出してもよい。問答抽出処理の詳細な例は後述する。

ユーザインタフェース部６７は、分岐型トークフローに含まれる話題とその遷移と、分岐型トークフローにおけるトークフロー同士の話題の関係性を高い視認性で表現する表示を可能にする。ユーザインタフェース部６７は、分岐型トークフローを目的に応じて複数の形式により表示することができる。表示処理の詳細な例と表示画面の例については後述する。

＜文脈特定処理＞
図１６は、文脈特定処理のフローチャートである。

ステップＳ１１０１にて、文脈特定部６３は、会話テキストＤ６１に対してセグメント分割処理を行って複数のセグメントを生成する。このセグメント分割処理は、上述したステップＳ１０１と同じ処理である。本処理により、セグメント毎の名詞句リストＤ６２が生成される。セグメント毎の名詞句リストＤ６２は、各セグメントに出現する名詞句を出現順に列挙したリスト情報である。

ステップＳ１１０２にて、文脈特定部６３は、各セグメントを話題分類体系Ｄ８に従って話題に分類する。この処理は上述ステップＳ４０２と同じ処理である。

文脈特定部６３は、ステップＳ１１０３にて、各会話テキストＤ６１に出現する話題を出現順に配列し、会話テキストＤ６１の文脈情報Ｄ６３を生成し、ステップＳ１１０４にて、文脈情報Ｄ６３を出力する。

＜トークフロー抽出処理＞
図１７は、トークフロー抽出処理のフローチャートである。

トークフロー抽出処理は、会話テキストの話題の遷移すなわち文脈をグループ化によって集約し、グループの文脈を代表する代表文脈を生成する処理である。

トークフロー抽出部６４は、ステップＳ１２０１にて、各会話テキストＤ６１の文脈情報Ｄ６３を取得し、ステップＳ１２０２にて、文脈情報Ｄ６３に含まれている各話題のＩＤＦ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）を算出する。ＩＤＦはＤＦ（ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）の逆数である。ＤＦは、ある話題が出現する会話テキストＤ６１の個数である。したがって、出現頻度の低い話題ほどＩＤＦが高くなる。

ステップＳ１２０３にて、トークフロー抽出部６４は、会話テキストＤ６１の文脈の全ての組み合わせの対について、「集合間類似度」の一例としての文脈同士の関連度を算出する。ここでいう文脈同士の関連度は、文脈に含まれる話題をＩＤＦによって重みづけし、重みづけされた話題を要素とする集合同士の類似度である。

ステップＳ１２０４にて、トークフロー抽出部６４は、関連度が閾値を超える文脈を集約することにより文脈のグループを作成する。これは、関連度の高い文脈同士は互いに類似しているのでそれらをグループ化するものである。

なお、このときＩＤＦで話題を重み付けすることにより、よく出現する汎用的な話題の重みを下げることができるので、会話テキストＤ６１中の重要な話題を優先し、また、重要性の低い汎用的な話題の重みを下げて関連度を算出できる。また、主題を判断する材料が少ない短い話題に高い関連度が算出されることを避けることができる。

ステップＳ１２０５にて、トークフロー抽出部６４は、各グループを代表する文脈を代表文脈（以下「トークフロー」ともいう）とする。例えば、グループに属する文脈の分布の中心に位置する文脈を代表文脈とすることにしてもよい。

ステップＳ１２０６にて、トークフロー抽出部６４は、全てのグループについてのグループおよびそのトークフローの情報をまとめてトークフロー情報Ｄ６４として出力する。

＜分岐型トークフロー生成処理＞
図１８は、分岐型トークフロー生成処理のフローチャートである。

分岐型トークフロー生成処理は、複数のトークフローに共通に含まれる話題を分岐点として複数のトークフローを関連づける処理である。以下、複数のトークフローを関連づけることをマージするともいう。

図１９から図２２は、分岐型トークフロー生成処理により複数の単独のトークフローから分岐型トークフローが生成される様子を表す図である。図１９－２２において、矩形はそれぞれ話題を示し、矩形内のアルファベットは、それぞれの話題を識別する識別子である。例えば、話題Ａと話題Ｂは異なる話題である。また、図１９－２２において、矢印は、話題の遷移を示す。文脈において、矢印の元側にある話題から矢印の先側にある話題へ遷移している。

分岐型トークフロー生成部６５は、ステップＳ１３０１にて、マージの対象とする複数のトークフローの指定をユーザから受け付け、ステップＳ１３０２にて、その指定されたトークフローをトークフロー情報Ｄ６４から抽出する。ここでは図１９に示した５つのトークフローが指定されたものとする。

ステップＳ１３０３にて、分岐型トークフロー生成部６５は、最初の分岐点とする話題の指定をユーザから受け付ける。以下、分岐点とする話題を分岐点話題という場合がある。また、最初に指定された分岐点話題を第１分岐点話題という場合がある。ここでは図１９に示した５つのトークフローについて、話題Ｃが第１分岐点話題として指定されたものとする。

ステップＳ１３０４にて、分岐型トークフロー生成部６５は、ステップＳ１３０１にて指定されたトークフローのうち第１分岐点話題を含むトークフローを、その第１分岐点話題の箇所でマージする。ここでは、話題Ｃが第１分岐点話題として指定されたので、図２０に示すように、話題Ｃを含む５つのトークフローが話題Ｃの箇所でマージされる。

ステップＳ１３０５にて、分岐型トークフロー生成部６５は、マージしたトークフローをそのマージした箇所から前段および後段のそれぞれに話題を順次辿り、次に分岐点話題となる、共通する話題を探索する。以下、第１分岐点話題の後に見つかった分岐点話題を第２分岐点話題という場合がある。共通する話題すなわち第２分岐点話題が見つかれば、分岐型トークフロー生成部６５は、その第２分岐点話題を含むトークフローを第２分岐点話題の箇所で更にマージする。ここでは図２０に示した５つのトークフローについて、話題Ｂ，Ｄ，Ｈ，Ｉが第２分岐点話題として探索されたものとする。

ステップＳ１３０６にて、分岐型トークフロー生成部６５は、トークフローを先頭および末尾まで辿ったか否か判定する。トークフローを先頭および末尾まで辿っていなければ、分岐型トークフロー生成部６５は、ステップＳ１３０５に戻ってトークフローを次段へと辿る。

図２１には、トークフローを末尾まで辿ってトークフローをマージした様子が示されている。図２２には、更に、トークフローを先頭まで辿ってトークフローをマージした様子が示されている。

トークフローを先頭および末尾まで辿り終えていれば、分岐型トークフロー生成部６５は、ステップＳ１３０７にて、トークフローの関連付けの情報を分岐型トークフロー情報Ｄ６５として出力する。

分岐型トークフローを表示することによって、オペレータによる顧客対応の評価や改善、ＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ。以下、ＦＡＱ）を作成の支援、チャットボット（Ｃｈａｔｂｏｔ）のシナリオ生成の支援、営業担当社員による顧客へのトークの分析に活用することができる。尚、トークの分析とは、営業担当社員の評価、好成績営業担当者の営業トークの文脈の可視化などである。トークの分析方法は、営業担当者をパラメータとするクロス分析、コンバージョンを示す話題を分岐点とする分岐型トークフローの構築などであってよい。

＜第１表示処理フロー＞
上述したように、ユーザインタフェース部６７は、分岐型トークフローを目的に応じて複数の形式により表示することができる。第１表示処理フローはそのひとつの表示形式による表示を行う処理である。

図２３は、第１表示処理フローのフローチャートである。

ステップＳ１４０１にて、ユーザインタフェース部６７は、表示すべき分岐型トークフローについての分岐型トークフロー情報Ｄ６５を取得する。

ステップＳ１４０２にて、ユーザインタフェース部６７は、分岐型トークフローの各話題について、当該話題にてマージされたトークフローの個数を高さで表す矩形の画像オブジェクト（話題オブジェクト）を生成する。

ステップＳ１４０３にて、ユーザインタフェース部６７は、分岐型トークフローの話題が遷移する箇所について、話題の遷移を表す画像オブジェクト（遷移オブジェクト）を生成する。

ステップＳ１４０４にて、ユーザインタフェース部６７は、生成した話題オブジェクトおよび遷移オブジェクトを画面に表示する。

図２４は、第１表示処理によって表示された分岐型トークフローの一例を示す図である。分岐型トークフロー７０が話題オブジェクト７１と遷移オブジェクト７２とによって表現されている。「分岐点オブジェクト」の一例としての話題オブジェクト７１_１，７１_２は、分岐点話題を表している。「単独オブジェクト」の一例としての話題オブジェクト７１_３，７１_４，７１_５は、単独のトークフローの話題を表している。話題オブジェクト７１_１の高さは、３つのトークフローがマージされていることを示している。話題オブジェクト７１_２の高さは、２つのトークフローがマージされていることを示している。話題オブジェクト７１_３，７１_４，７１_５の高さは、１つのトークフローであることを示している。

遷移オブジェクト７２は、話題オブジェクト７１_４，７１_５同士、話題オブジェクト７１_３と話題オブジェクト７１_２、および話題オブジェクト７１_１，７１_２同士を接続することにより話題の遷移を表している。

ユーザインタフェース部６７は、単独のトークフローの話題を表す話題オブジェクト７１_３，７１_４，７１_５と、分岐点話題を表す話題オブジェクト７１_１，７１_２と、遷移オブジェクト７２とによって、複数のトークフローの話題およびその遷移を表示する。

なお、ここでは、話題オブジェクト７１の高さで当該話題にてマージされたトークフローの個数を表す例を示したが、他の例として、話題オブジェクト７１の高さで当該話題を含む文脈の通話の個数の和を表すことにしてもよい。さらに、話題オブジェクト７１の高さで当該話題にてマージされたトークフローの個数を表す表示とするか、話題オブジェクト７１の高さで当該話題を含む文脈の通話の個数の和を表す表示とするかをユーザがモード選択可能としてもよい。

＜第２表示処理フロー＞
上述したように、ユーザインタフェース部６７は、分岐型トークフローを目的に応じて複数の形式により表示することができる。第２表示処理フローは第２表示形式による表示を行う処理である。第２表示形式は、各話題に該当するトークフロー数あるいは通話数と所望のパラメータとによるクロス分析に適した表示形式である。

図２５は、第２表示処理フローのフローチャートである。

ステップＳ１５０１にて、ユーザインタフェース部６７は、表示すべき分岐型トークフローについての分岐型トークフロー情報Ｄ６５を取得する。

ステップＳ１５０２にて、ユーザインタフェース部６７は、クロス分析用のパラメータの指定をユーザから受け付ける。例えば、クロス分析用のパラメータは会話テキストＤ６１の何らかの属性である。尚、当該会話テキストＤ６１の通話において顧客対応を行ったオペレータの氏名あるいは識別番号をパラメータとし、会話テキストＤ６１の個数をオペレータ毎に集計することにしてもよい。

ステップＳ１５０３にて、ユーザインタフェース部６７は、各話題について、当該話題の基になった通話を指定された属性により分類する。

ユーザインタフェース部６７は、ステップＳ１５０３にて、分岐型トークフローの各話題について、当該話題を含む通話を、指定されたパラメータによる属性に分類し、ステップＳ１５０４にて、分岐型トークフローの各話題について、各属性に属する会話テキストＤ６１の個数の割合を算出する。

ステップＳ１５０５にて、ユーザインタフェース部６７は、分岐型トークフローの各話題について、当該話題にてマージされたトークフローの個数、もしくは当該話題を含む文脈の会話テキストＤ６１の個数の和を高さによって表し、各属性に属する会話テキストＤ６１の個数の割合で属性毎に高さ方向で視覚的に区切った矩形の画像オブジェクト（話題オブジェクト）を生成する。属性毎に視覚的に区切るとは、各属性に相当する部分が色分けやハッチングなど視覚によって識別可能に表示することである。

ステップＳ１５０６にて、ユーザインタフェース部６７は、分岐型トークフローの話題が遷移する箇所について、話題の遷移を表す画像オブジェクト（遷移オブジェクト）を生成する。

ステップＳ１５０７にて、ユーザインタフェース部６７は、生成した話題オブジェクトおよび遷移オブジェクトを画面に表示する。

図２６は、第２表示処理によって表示された分岐型トークフローの一例を示す図である。本例では、クロス分析用のパラメータとしてオペレータ名が指定されている。図２６を参照すると、分岐型トークフロー８０が話題オブジェクト８１と遷移オブジェクト８２とによって表現されている。そして、話題オブジェクト８１は、オペレータＡの通話に対応する領域８１ａと、オペレータＢの通話に対応する領域８１ｂと、オペレータＣの通話に対応する領域８１ｃとに区切られている。

＜問答抽出処理＞
図２７は、問答抽出処理のフローチャートである。ここでいう問答は、例えば、オペレータによる顧客対応にて想定される質問とそれに対する回答である。

ステップＳ１６０１にて、ユーザインタフェース部６７は、対象とする分岐型トークフローについての分岐型トークフロー情報Ｄ６５を取得する。

ステップＳ１６０２にて、ユーザインタフェース部６７は、分岐型トークフローにおいて、問答を作成する対象の話題の指定をユーザから受け付ける。例えば、第１表示処理または第２表示処理により分岐型トークフローを画面に表示し、その画面上で話題の指定を受け付ける。ユーザは、分岐型トークフローの画面表示によって、トークフロー間における話題の遷移の関係性を視認することにより、どの箇所で問答を作成するのが良いか判断が容易になる。

ステップＳ１６０３にて、ユーザインタフェース部６７は、ユーザが指定した話題を含むトークフローの基となった通話の会話テキストＤ６１における当該話題の箇所から質問を抽出する。例えば、ユーザが指定した話題を含むトークフローのうち任意にひとつ選択し、トークフローの通話における当該話題の箇所を特定し、その箇所のテキストから質問を抽出すればよい。

ステップＳ１６０４にて、ユーザインタフェース部６７は、ユーザが指定した話題を含むトークフローの基となった通話の会話テキストＤ６１における当該話題の箇所からステップＳ１６０３にて抽出された質問に対する回答を抽出する。例えば、ユーザが指定した話題を含むトークフローのうち任意にひとつ選択し、トークフローの通話における当該話題の箇所を特定し、その箇所のテキストからステップＳ１６０３にて抽出された質問に対する回答を抽出すればよい。尚、ステップＳ１６０３にて質問を抽出した箇所の直後の異なる話者の発した発話を回答として抽出してもよい。

ステップＳ１６０５にて、ユーザインタフェース部６７は、抽出された質問および回答を書き言葉へ変換する。例えば、自然言語処理モデルを用いることにより、会話テキストＤ６１の話し言葉を書き言葉へ変換することができる。

ステップＳ１６０６にて、ユーザインタフェース部６７は、書き言葉に変換された質問と回答を問答情報Ｄ６６として出力する。

次に、ユーザインタフェース部６７の表示画面について説明する。

＜第１表示処理における分岐型トークフローの画面表示＞
図２８は、第１表示処理における分岐型トークフローの画面表示の一例を示す図である。

ユーザインタフェース部６７は、第１表示処理における分岐型トークフローを表示画面６７１に表示する。

図２８の表示画面６７１では、例えば、ＩＤ５８の「保険証券番号」、ＩＤ７９の「電話奥様」、およびＩＤ３２の「住所電話番号」は、単独のトークフローの話題を表す話題オブジェクトである。さらに、例えば、ＩＤ６０の「契約者名」とＩＤ６１の「本人契約」は、分岐点話題を表す話題オブジェクトである。

＜第２表示処理における分岐型トークフローの画面表示＞
図２９は、第２表示処理における分岐型トークフローの画面表示の一例を示す図である。

ユーザインタフェース部６７は、第２表示処理における分岐型トークフローを表示画面６７２に表示する。

図２９の表示画面６７２では、例えば、左側の表示領域６７３に各トークフローとその通話件数が表示され、右側の表示領域６７４にオペレータによる顧客対応における問答が「ＱＡ知識」として表示されている。

＜問答抽出処理における画面表示＞
図３０は、問答抽出処理における画面表示の一例を示す図。

ユーザインタフェース部６７は、問答抽出処理における問答を抽出画面６７３に表示する。

図３０の表示画面６７３では、例えば、フロー１の「話題２」および「話題４」が指定された場合、それらの会話テキストＤ６１が新たに表示領域６７５に表示される。表示領域６７５に表示されたやり取りから、質問または回答の抽出と書き言葉への変換が行われる。図３０の例では、表示領域６７５から、「会員証ご準備の上、ＩＤを入力してください。・・・」という回答が抽出されている。

以上説明した通り、本実施形態では、会話文脈解析システム６０は、会話テキストＤ６１の話題の遷移により表される複数の文脈を、話題を要素とする集合同士の類似度である集合間類似度に基づいてグループ化し、グループの代表的な文脈を話題の遷移により示す代表文脈を作成するトークフロー抽出部６４と、複数の代表文脈に共通に含まれる話題を分岐点話題とし、複数の代表文脈同士を分岐点話題にて関連づける分岐型トークフロー生成部６５と、単独の代表文脈の話題を表す画像オブジェクトである単独話題オブジェクトと、分岐点話題を表す画像オブジェクトである分岐点話題オブジェクトと、単独話題オブジェクト同士、単独話題オブジェクトと分岐点話題オブジェクト、または分岐点話題オブジェクト同士を接続することにより話題の遷移を表す画像オブジェクトである遷移オブジェクトとによって、複数の代表文脈の話題およびその遷移を表示するユーザインタフェース部６７と、を有する構成とした。

このように構成すると、複数のトークフローを分岐点話題で１つの分岐型トークフローに整理して表示することができるので、会話テキストＤ６１の話題の遷移を利便性の高い情報に整理することができる。

さらに、分岐型トークフロー生成部６５は、指定された第１分岐点話題で複数の代表文脈を関連づけ、関連付けられた代表文脈を第１分岐点話題から前方または後方の少なくとも一方に１段ずつ順次辿って共通する話題を探索し、共通する話題を第２分岐点話題として第２分岐点話題があった代表文脈を第２分岐点話題で関連づけ、ユーザインタフェース部６７は、第１分岐点話題および第２分岐点話題を分岐点話題オブジェクトで表示する構成とした。

このように構成すると、複数の代表文脈の話題を辿って共通する話題で１つの分岐点話題にマージするので、代表文脈間の関連性を表現した視認性の高い分岐型トークフローに整理することができる。その際、関連付けられた代表文脈を探索するように１段ずつ話題を辿るので、遷移オブジェクトが交差しない視認性の高い表示が可能である。

さらに、ユーザインタフェース部６７は、単独話題オブジェクトを所定の基本高さの矩形オブジェクトとし、分岐点話題オブジェクトを、その分岐点話題オブジェクトにて関連付けられた代表文脈の個数を基本高さに乗算した高さの矩形オブジェクトとする構成とした。

このように構成すると、複数の代表文脈を関連付けた分岐点話題オブジェクトにより、そこで関連付けられた複数の代表文脈の個数が視認可能となる。

さらに、ユーザインタフェース部６７は、単独話題オブジェクトおよび分岐点話題オブジェクトを、その話題を含む文脈の会話テキストＤ６１の個数の和を高さで表す矩形オブジェクトとする構成とした。

このように構成すると、複数の代表文脈を関連付けた分岐点話題オブジェクトにより、そこで関連付けられた複数の代表文脈の基になっている会話テキストＤ６１の個数が視認可能となる。

さらに、ユーザインタフェース部６７は、会話テキストＤ６１を分類する属性の指定を受け、属性のそれぞれに属する会話テキストＤ６１の個数の割合に基づいて、単独話題オブジェクトおよび分岐点話題オブジェクトを、視覚的に区別可能に分割して表示する構成とした。

このように構成すると、話題オブジェクトを属性により分割した表示により、会話テキストＤ６１の話題の遷移と、属性とをクロス分析することが可能となる。

さらに、単独話題オブジェクトまたは分岐点話題オブジェクトのいずれかの話題が指定されると、指定された話題を含む代表文脈の基となった会話テキストＤ６１における指定された話題の箇所を特定し、箇所から質問に該当するテキストを質問テキストとして抽出すると共に、その質問に対する回答に該当するテキストを回答テキストとして抽出する問答抽出部６６を更に有する構成とした、

このように構成すると、問答抽出部６６によってＦＡＱを自動で生成することができる。

さらに、問答抽出部６６は、質問テキストと回答テキストを書き言葉に変換する構成とした。

このように構成すると、書き言葉の自然なＦＡＱを自動で生成することができる。

さらに、トークフロー抽出部は、話題が出現する会話テキストの個数が少ないほど重みが大きくなるように前記話題の重みを算出し、前記話題を前記重みによって重み付けして、前記話題の集合同士の集合間類似度を算出し、前記集合間類似度が所定の閾値を超える会話テキストをグループ化する構成とした。

このように構成すると、出現回数の少ない重要な話題を優先し、出現回数の多い汎用的な話題の重みを下げることにより、会話テキスト同士の関連の度合いを適切に示す集合間類似度を算出し、各話題の重要性を考慮した適切なグループ化を行うことができる。

上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。

例えば、上記した実施形態では、遷移オブジェクトは、単独話題オブジェクト同士、単独話題オブジェクトと分岐点話題オブジェクト、および分岐点話題オブジェクト同士を接続した。これに限らずに、遷移オブジェクトは、単独話題オブジェクト同士、単独話題オブジェクトと分岐点話題オブジェクト、または分岐点話題オブジェクト同士を接続すればよい。

１０…会話テキスト体系化システム、１１…テキスト記憶部、１２…話題抽出部、１３…話題分類体系構築部、１４…ユーザインタフェース部、Ｄ１…会話テキスト、Ｄ１２…模範文、Ｄ１５…話題名、Ｄ１６…話題分類条件

Claims

会話された内容をテキスト化した会話テキストを解析するテキスト解析装置であって、
前記会話テキストを記憶するテキスト記憶部と、
前記会話テキストを前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割し、前記セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、前記セグメントで語られている話題と、前記話題に関連する名詞句である話題関連名詞句とを抽出する話題抽出部と、
を有し、
前記話題抽出部は、前記会話テキストを、前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割した後、前記会話テキストに含まれるセグメントを抽出的要約により所定個数以下に絞り込み、絞り込みにより残ったセグメントについて話題と話題関連名詞句とを抽出するテキスト解析装置。
前記話題関連名詞句に基づいて、前記セグメントを前記話題毎に分類するための条件である話題分類条件を生成する話題分類体系構築部を更に有する、
請求項１に記載のテキスト解析装置。
前記話題分類体系構築部は、前記話題関連名詞句に基づいて前記会話テキストに含まれる文の中から話題毎に当該話題の内容を表す模範文を選択し、前記模範文および前記話題関連名詞句に基づいて当該話題の重要名詞句を生成し、前記重要名詞句に基づいて前記話題分類条件を生成する、
請求項２に記載のテキスト解析装置。
前記話題分類体系構築部は、前記話題に対して生成された重要名詞句のリストに含まれている全ての重要名詞句を含むことを前記話題の話題分類条件とする、
請求項３に記載のテキスト解析装置。
前記話題分類体系構築部は、前記生成した話題分類条件によって前記会話テキストの各セグメントを前記話題毎に分類し、全セグメントの数に対する、いずれの話題にも分類されなかったセグメントの数の割合が所定の閾値以上であれば、前記いずれの話題にも分類されなかったセグメントを対象として新たな話題および話題分類条件を生成し、新たに生成された話題分類条件を追加して、前記セグメントの分類を再び行う、という処理を、いずれの話題にも分類されなかったセグメントの数の割合が前記閾値未満となるまで繰り返すことにより、前記話題分類条件を生成する、
請求項２に記載のテキスト解析装置。
前記話題分類体系構築部は、
前記重要名詞句を前記模範文における出現する順序に並べて結合することにより、前記話題の話題名を生成する、
請求項３に記載のテキスト解析装置。
前記話題分類体系構築部は、話題名に共通な名詞句を含む複数の話題をまとめることにより上位分類の話題を生成し、前記共通な名詞句を前記上位分類の話題の話題名とすることにより、話題の階層構造を生成する、
請求項６に記載のテキスト解析装置。
前記話題およびその階層構造を編集可能に表示するユーザインタフェース部を更に有し、
前記ユーザインタフェース部は、前記話題およびその階層構造を、
前記話題を表す第１話題オブジェクトおよび前記話題の話題名を、縦方向に並べ、同一の階層の話題の第１話題オブジェクトおよび話題名の横位置を揃え、上位階層の話題の第１話題オブジェクトおよび話題名の下に該上位階層の話題に属する下位階層の話題の話題オブジェクトおよび話題名を配置する第１表示形式と、
前記話題の話題名を内包し前記話題を表す第２話題オブジェクトを用いて、前記上位階層の話題の第２話題オブジェクトと前記下位階層の話題の第２話題オブジェクトとを接続線によって接続し、前記接続線同士が重ならないように配置する第２表示形式と、で切り替え可能に、表示する、
請求項７に記載のテキスト解析装置。
前記ユーザインタフェース部は、前記話題およびその階層構造の表示画面上でいずれかの話題が選択されると、前記選択された話題の話題分類条件を編集可能にする画面を表示する、
請求項８に記載のテキスト解析装置。
会話された内容をテキスト化した会話テキストを解析するテキスト解析装置であって、
前記会話テキストを記憶するテキスト記憶部と、
前記会話テキストを前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割し、前記セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、前記セグメントで語られている話題と、前記話題に関連する名詞句である話題関連名詞句とを抽出する話題抽出部と、
を有し、
前記話題抽出部は、
前記話題関連名詞句のうち出現確率が上位の所定の個数の話題関連名詞句を選定し、
前記選定された話題関連名詞句から、Ｎ（Ｎは２以上の整数）個の話題関連名詞句による順列を生成し、
前記順列のうち、前記会話テキストに出現する名詞句のＮグラムであり、前記会話テキストにおける前記Ｎグラムの出現頻度が所定の閾値以上である順列を構成する話題関連名詞句を前記順列における順序で結合して複合名詞句とするテキスト解析装置。
会話された内容をテキスト化した会話テキストを解析するためのテキスト解析方法であって、
前記会話テキストを記憶し、
前記会話テキストを前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割した後、前記会話テキストに含まれるセグメントを抽出的要約により所定個数以下に絞り込み、
前記セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、絞り込みにより残ったセグメントについて前記セグメントで語られている話題と、前記話題に関連する名詞句である話題関連名詞句とを抽出する、
ことをコンピュータが実行するテキスト解析方法。
会話された内容をテキスト化した会話テキストを解析するためのテキスト解析方法であって、
前記会話テキストを記憶し、
前記会話テキストを前記会話テキストに出現する名詞句の個数に基づいてセグメントに分割し、前記セグメントに含まれる名詞句であるセグメント出現名詞句に基づき、前記セグメントで語られている話題と、前記話題に関連する名詞句である話題関連名詞句とを抽出し、
前記話題関連名詞句のうち出現確率が上位の所定の個数の話題関連名詞句を選定し、
前記選定された話題関連名詞句から、Ｎ（Ｎは２以上の整数）個の話題関連名詞句による順列を生成し、
前記順列のうち、前記会話テキストに出現する名詞句のＮグラムであり、前記会話テキストにおける前記Ｎグラムの出現頻度が所定の閾値以上である順列を構成する話題関連名詞句を前記順列における順序で結合して複合名詞句とする、
ことをコンピュータが実行するテキスト解析方法。