JP5954836B2

JP5954836B2 - 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム

Info

Publication number: JP5954836B2
Application number: JP2013241303A
Authority: JP
Inventors: 千明宮崎; 平野　徹; 徹平野; 東中　竜一郎; 竜一郎東中; 牧野　俊朗; 俊朗牧野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-11-21
Filing date: 2013-11-21
Publication date: 2016-07-20
Anticipated expiration: 2033-11-21
Also published as: JP2015102914A

Description

本発明は、不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラムに関する。

従来、対象とするアプリケーションに応じて、様々なユーザ状態を推定する研究がなされてきた。例えば非特許文献１では、教育用の対話システムにおけるユーザ（学習者）とシステムの発話対が、ユーザのどのような感情状態（暇、困惑、集中、いらいら等）を示しているかを推定する技術を実現している。

また、非特許文献２では、コールセンタに入ってきた通話に応答するための対話システムにおいて、各対話で問題が発生しているか否か（ユーザに中断されてしまう対話、途中で人間が介入する対話、タスク種別を誤って判定される対話）を、システムとユーザの初めの２回のやりとりを用いて判別する技術を実現している。

D’Mello，S.K.，Craig，S.D.，Witherspoon，A.，Mcdaniel，B.，& Graesser，A.，"Automatic detection of learner’s affect from conversational cues."，(2008)，User Modeling and User-Adapted Interaction，18(1-2)，p.45-80. Walker，M.A.，Langkilde-Geary，I.，Hastie，H.W.，Wright，J. H.，& Gorin，A. L.，"Automatically training a problematic dialogue predictor for a spoken dialogue system."，(2001)，Journal of Artificial Intelligence Research，16(1)，p.293-319.

しかし、ユーザが何らかの知識を持ち合わせていない状態（「知らない」状態）や、対話相手の発話内容を理解していない状態（「分からない」状態）を推定する技術はこれまでに見当たらない。

本発明は、上記の事情に鑑みてなされたもので、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる不理解文判定モデル学習方法、装置、及びプログラムを提供することを目的とする。
また、入力文を作成したユーザが不理解状態であるか否かを判定することができる不理解文判定方法、装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の不理解文判定モデル学習方法は、学習用特徴量抽出部、及び不理解文判定モデル生成部を含む不理解文判定モデル学習装置における不理解文判定モデル学習方法であって、前記学習用特徴量抽出部によって、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、前記不理解文判定モデル生成部によって、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習するステップと、を含んで構成されている。

本発明の不理解文判定モデル学習装置は、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する学習用特徴量抽出部と、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習する不理解文判定モデル生成部と、を含んで構成されている。
また、前記学習用特徴量抽出部は、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出するようにすることができる。

本発明の不理解文判定方法は、特徴量抽出部、及び不理解文判定部を含む不理解文判定装置における不理解文判定方法であって、前記特徴量抽出部によって、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、前記不理解文判定部によって、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定するステップと、を含んで構成されている。

本発明の不理解文判定装置は、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定する不理解文判定部と、を含んで構成されている。
また、前記特徴量抽出部は、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出するようにすることができる。

本発明のプログラムは、コンピュータを、上記の不理解文判定モデル学習装置の各部として機能させるためのプログラムである。また、本発明のプログラムは、コンピュータを、上記の不理解文判定装置の各部として機能させるためのプログラムである。

以上説明したように、本発明の不理解文判定モデル学習方法、装置、及びプログラムによれば、複数の学習用文の各々について、学習用文に含まれる予め定められた不理解表現、及び学習用文に含まれる少なくとも１つの単語からなる単語系列の少なくとも一方に基づいて、特徴量を抽出し、複数の学習用文の各々について抽出された特徴量と、複数の学習用文の各々が不理解文であるか否かとに基づいて、文が不理解文であるか否かを判定するための不理解文判定モデルを学習することにより、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる、という効果が得られる。

また、本発明の不理解文判定方法、装置、及びプログラムによれば、入力文に含まれる予め定められた不理解表現、及び入力文に含まれる少なくとも１つの単語からなる単語系列の少なくとも一方に基づいて、特徴量を抽出し、抽出された特徴量と、予め学習された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定することにより、入力文を作成したユーザが不理解状態であるか否かを判定することができる、という効果が得られる。

本実施の形態に係る不理解文判定モデル学習装置の機能的な構成例を示すブロック図である。不理解表現リストの一例を示すイメージ図である。本実施の形態に係る不理解文判定装置の機能的な構成例を示すブロック図である。本実施の形態における不理解文判定モデル学習処理ルーチンを示すフローチャートである。本実施の形態における不理解文判定処理ルーチンを示すフローチャートである。

＜概要＞
まず、本発明の実施の形態の概要について説明する。

本発明の実施の形態で解決する課題は、著者または話者の「知らない・分からない」状態を表す文（不理解文）を検出することである。不理解は、常に「知りません」「分かりません」といった表現を用いて明示的に表されるわけではなく、「うーん、それって。」のように曖昧な言い方で表現されたり、場合によっては、「はあ？」のように理解できないことに対する不満という形で表現されたりする。本発明の実施の形態では、明示的に表される不理解に加え、非明示的に表現される不理解についても検出することを実現する。

本発明の実施の形態では、機械学習の手法によって、ユーザが不理解状態にあるときに使用されやすい表現をモデル化し、不理解状態を表す文の推定に利用する。

機械学習に利用する特徴量としては、（１）単語系列、および（２）不理解を表す特徴の系列、の２種類を用いる。

（１）の単語系列とは、連続した１〜Ｎ個の単語の系列（単語Ｎ−ｇｒａｍ）を指す。これにより、複数の単語から成る表現も捉えることが可能となる。

（２）の不理解を表す特徴の系列については、「知りません」「分かりません」のような明示的な不理解表現に加え、言語学・対話分析の知見に基づいて、知らない（自信のない）事柄について書く・話す際に用いられやすい表現のリストを作成し、これら表現の１〜Ｎ個の系列（不理解表現Ｎ−ｇｒａｍ）を特徴量として利用する。これにより、非明示的な不理解の検出漏れを防ぐことが可能となる。

また、以下の説明における「文」とは日本語で書かれた文をいう。日本語で書かれた文とは、日本語で書かれたテキストデータであれば何でも良い。会話音声のような話された言葉であっても、書き起こしや音声認識によってテキスト化されていればよい。

以下、図面を参照して、本発明の実施の形態を詳細に説明する。

＜不理解文判定モデル学習装置のシステム構成＞
本実施の形態に係る不理解文判定モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する不理解文判定モデル学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成される。このコンピュータは、機能的には、図１に示すように、学習用入力部１と、学習用演算部２と、不理解文判定モデルデータベース３とを含んだ構成で表すことができる。以下、各部について詳述する。

学習用入力部１は、複数の学習用文を受け付ける。複数の学習用文の各々には、ユーザ（当該学習用文の著者または話者）が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与されている。また、学習用文が対話データやＳＮＳ上のやりとりなどに含まれるものであり、文間の時系列が判明しており、学習用文に直前の文が存在する場合には、学習用入力部１は、学習用文と共に直前の文も受け付ける。なお、直前の文を、著者または話者自身の文（発話）か、話し相手の文（発話）であるかを区別して受け付けてもよい。すなわち、後述する不理解表現照合部２８で復唱を判定する際に、話し相手の直前の文を受け付けるようにしてもよい。この場合、学習用文の直前の文が話者自身の文だった場合は、話し相手の文が出てくるまでさかのぼり、学習用入力部１は、当該話し相手の直前の文を受け付ける。

学習用演算部２は、学習用入力部１によって受け付けた複数の学習用文に基づいて、文が不理解文であるか否かを判定するための不理解文判定モデルを学習する。学習用演算部２は、学習用文データベース２０と、不理解表現リストデータベース２２と、学習用特徴量抽出部２４と、不理解文判定モデル生成部３４とを備えている。

学習用文データベース２０には、学習用入力部１によって受け付けた複数の学習用文と、当該学習用文の直前の文とが格納される。

不理解表現リストデータベース２２には、予め定められた不理解表現が格納される。予め定められた不理解表現の一例を図２に示す。図２に示されるように、本実施の形態では、不理解表現として「明示的な不理解表現」、「疑問文を表す表現」、「自信のない事柄を表す表現」に該当する表現を不理解表現リストとして予め用意する。

学習用特徴量抽出部２４は、不理解表現リストデータベース２２に格納された不理解表現リストを用いて、学習用文データベース２０に格納された複数の学習用文の各々について、当該学習用文に含まれる不理解表現と、当該学習用文に含まれる、少なくとも１つの単語を含む単語系列とに基づいて、特徴量を抽出する。

具体的には、学習用特徴量抽出部２４は、複数の学習用文の各々について、単語への分割、不理解表現の照合、Ｎ−ｇｒａｍの出現頻度カウント、及び特徴量ベクトルの作成を行う。学習用特徴量抽出部２４は、単語分割部２６と、不理解表現照合部２８と、Ｎ−ｇｒａｍ出現頻度カウント部３０と、特徴量ベクトル生成部３２とを備えている。

単語分割部２６は、学習用文データベース２０に格納された複数の学習用文の各々に対して、形態素解析器によって解析することにより、当該学習用文を単語へ分割する。例えば、「無線ＬＡＮって何ですか」という学習用文の場合は、「無線／ＬＡＮ／って／何／です／か」というように分割される。直前の文についても、同様に、単語へ分割する。

不理解表現照合部２８は、複数の学習用文の各々について、当該学習用文と、不理解表現リストデータベース２２に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。

上記図２に示す通り、本実施の形態では、不理解表現として「明示的な不理解表現」、「疑問文を表す表現」、「自信のない事柄を表す表現」に該当する表現を不理解表現リストとして用意し、学習用文との照合を行う。

例えば、「無線ＬＡＮって何ですか」という学習用文の場合、「って」（引用形式）、「何」（疑問詞）、「か」（疑問の終助詞）が不理解表現に該当するものとして認識される。ここで、後述するＮ−ｇｒａｍ出現頻度カウントのために、ここで「無線ＬＡＮって何ですか」という入力文を「＜引用形式＞＜疑問詞＞＜疑問の終助詞＞」という不理解表現系列に変換しておく。

また、不理解表現として「復唱」を利用する。復唱が含まれるか否かを判定する際には、不理解表現リストとの照合ではなく、学習用文の直前の文に含まれる単語が、当該学習用文にも含まれているかどうかの照合を行う。本実施の形態では、復唱の判定においては名詞と未知語のみを対象とする。

また、不理解表現照合部２８での文字列マッチの際は、単語（形態素）の区切れ目や品詞を考慮したマッチングを行っても良い。これにより、例えば、「切って」の「って」（動詞接尾辞）が引用形式であると誤認されるのを防ぐことが可能となる。

Ｎ−ｇｒａｍ出現頻度カウント部３０は、単語分割部２６によって分割された単語と、不理解表現照合部２８によって照合された不理解表現とに基づいて、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度を数える。例えば、Ｎ−ｇｒａｍ出現頻度カウント部３０は、「無線／ＬＡＮ／って／何／です／か」という単語列を入力とした場合、単語系列のＮ−ｇｒａｍ出現頻度として、「無線」、「ＬＡＮ」、「って」のような１単語から成る単語系列（１−ｇｒａｍ）や、「無線ＬＡＮ」、「ＬＡＮって」、「って何」のような２単語から成る単語系列（２−ｇｒａｍ）などの出現回数をカウントする。

本実施の形態では、Ｎは入力文の単語数とする。「無線／ＬＡＮ／って／何／です／か」の例の場合、入力文は６単語で構成されているため、Ｎ＝６となり、６−ｇｒａｍまで作成し、頻度をカウントする。

Ｎ−ｇｒａｍ出現頻度カウント部３０は、不理解表現のＮ−ｇｒａｍについても同様の処理を行う。例えば、「＜引用形式＞＜疑問詞＞＜疑問の終助詞＞」の場合、Ｎ＝３となり、３−ｇｒａｍまで作成し、頻度をカウントする。また、「＜文頭＞＜引用形式＞＜疑問詞＞＜疑問の終助詞＞＜文末＞」のように、文頭・文末という位置情報を追加してＮ−ｇｒａｍを作成してもよい。本実施の形態では、Ｎは入力文に含まれる単語数としたが、一文に含まれる単語数が大きくなることが予想される場合等は、Ｎ＝７までとするなど上限値を設定してもよい。

特徴量ベクトル生成部３２は、Ｎ−ｇｒａｍ出現頻度カウント部３０によって得られた、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度に基づいて、単語系列のＮ−ｇｒａｍの各々の出現頻度及び不理解表現のＮ−ｇｒａｍの各々の出現頻度からなる特徴量ベクトルを生成する。

例えば、「無線ＬＡＮって何ですか」という学習用文の場合、「無線：１、ＬＡＮ：１、って：１、… 無線ＬＡＮ：１、ＬＡＮって：１、って何：１、… 無線ＬＡＮって：１、ＬＡＮって何：１、って何です：１、… ＜引用形式＞：１、＜疑問詞＞：１、＜疑問の終助詞＞：１、＜引用形式＞＜疑問詞＞：１、＜疑問詞＞＜疑問の終助詞＞：１、＜引用形式＞＜疑問詞＞＜疑問の終助詞＞：１」を表す特徴量ベクトルが作成される。なお、実際の特徴量ベクトルでは、「無線」や「ＬＡＮ」のような単語は特徴量ＩＤ（数字）に変換されて用いられる。

不理解文判定モデル生成部３４は、特徴量ベクトル生成部３２によって複数の学習用文の各々について生成された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習する。

本実施の形態では、機械学習の手法としてロジスティック回帰を用いることとするが、Support Vector Machine（SVM）や、Boostingアルゴリズムを用いる機械学習手法を用いても良い。これらの機械学習手法を用いて、各特徴量が不理解文の判定にどの程度寄与するのか（重み）を学習し、これを不理解文判定モデルとする。なお、Support Vector Machine（SVM）や、Boostingアルゴリズム等の他の機械学習手法に適用する場合には、当該手法に応じて、上記特徴量ベクトル生成部３２で生成する特徴量ベクトルの形式を変更する。

不理解文判定モデルデータベース３には、不理解文判定モデル生成部３４によって学習された不理解文判定モデルが格納される。

＜不理解文判定装置のシステム構成＞
本実施の形態に係る不理解文判定装置２００は、判定対象の文を入力として受け取り、入力された文が不理解文か否かを判定する。

本実施の形態に係る不理解文判定装置２００は、ＣＰＵと、ＲＡＭと、後述する不理解文判定処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成される。このコンピュータは、機能的には、図３に示すように、入力部４と、不理解文判定モデルデータベース５と、演算部６と、出力部７とを含んだ構成で表すことができる。以下、各部について詳述する。

入力部４は、判定対象の文として入力文を受け付ける。また、入力文に直前の文が存在する場合には、入力部４は、当該直前の文も受け付ける。なお、直前の文を、著者または話者自身の文（発話）か、話し相手の文（発話）であるかを区別して受け付けてもよい。

不理解文判定モデルデータベース５には、上記不理解文判定モデル学習装置１００によって作成された不理解文判定モデルが格納されている。

演算部６は、入力部４によって受け付けた入力文が不理解文であるか否かを判定する。演算部６は、不理解表現リストデータベース６０と、特徴量抽出部６２と、不理解文判定部７２とを備えている。

不理解表現リストデータベース６０には、上記不理解文判定モデル学習装置１００における不理解表現リストデータベース２２と同じ不理解表現リストが格納されている。

特徴量抽出部６２は、不理解表現リストデータベース２２に格納された不理解表現リストを用いて、上記不理解文判定モデル学習装置１００における学習用特徴量抽出部２４と同様に、入力文に含まれる不理解表現と、入力文に含まれる、少なくとも１つの単語を含む単語系列とに基づいて、特徴量ベクトルを抽出する。特徴量抽出部６２は、単語分割部６４と、不理解表現照合部６６と、Ｎ−ｇｒａｍ出現頻度カウント部６８と、特徴量ベクトル生成部７０とを備えている。

単語分割部６４は、上記不理解文判定モデル学習装置１００における単語分割部２６と同様に、入力部４によって受け付けた入力文に対して形態素解析器によって解析することにより、当該入力文を単語へ分割する。直前の文も入力された場合には、直前の文についても、同様に、単語へ分割する。

不理解表現照合部６６は、上記不理解文判定モデル学習装置１００における不理解表現照合部２８と同様に、入力文について、不理解表現リストデータベース６０に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。

Ｎ−ｇｒａｍ出現頻度カウント部６８は、上記不理解文判定モデル学習装置１００におけるＮ−ｇｒａｍ出現頻度カウント部３０と同様に、単語分割部６４によって分割された単語と、不理解表現照合部６６によって照合された不理解表現とに基づいて、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度を数える。

特徴量ベクトル生成部７０は、上記不理解文判定モデル学習装置１００における特徴量ベクトル生成部３２と同様に、Ｎ−ｇｒａｍ出現頻度カウント部６８によって得られた、単語系列Ｎ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度に基づいて、特徴量ベクトルを生成する。

不理解文判定部７２は、特徴量ベクトル生成部７０によって抽出された特徴量ベクトルと、不理解文判定モデルデータベース５に格納された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定する。

出力部７は、不理解文判定部７２によって判定された判定結果を結果として出力する。

＜不理解文判定モデル学習装置の作用＞
次に、本実施の形態に係る不理解文判定モデル学習装置１００の作用について説明する。不理解文判定モデル学習装置１００に、不理解文であるか否かが予め付与された複数の学習用文が入力されると、学習用入力部１によって、入力された複数の学習用文が、学習用文データベース２０へ格納される。また、学習用文に直前の文が存在する場合には、学習用入力部１は、学習用文と共に直前の文も受け付け、当該学習用文の直前の文も学習用文データベース２０へ格納する。そして、不理解文判定モデル学習装置１００によって、図４に示す不理解文判定モデル学習処理ルーチンが実行される。

まず、ステップＳ１００において、学習用特徴量抽出部２４によって、学習用文データベース２０に格納された複数の学習用文から、１つの学習用文を設定する。

ステップＳ１０２において、単語分割部２６によって、上記ステップＳ１００で設定された学習用文に対して、形態素解析器によって解析することにより、当該学習用文を単語へ分割する。また、当該学習用文の直前の文についても、同様に、単語へ分割する。

ステップＳ１０４において、不理解表現照合部２８によって、上記ステップＳ１００で設定された学習用文について、不理解表現リストデータベース２２に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。

ステップＳ１０６において、Ｎ−ｇｒａｍ出現頻度カウント部３０によって、上記ステップＳ１０２で分割された単語と、上記ステップＳ１０４で照合された不理解表現とに基づいて、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度を数える。

ステップＳ１０８において、特徴量ベクトル生成部３２によって、上記ステップＳ１０６で得られた、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度に基づいて、特徴量ベクトルを生成する。

ステップＳ１１０において、学習用特徴量抽出部２４によって、学習用文データベース２０に格納された全ての学習用文について、上記ステップＳ１００〜Ｓ１０８の処理を実行したか否かを判定する。学習用文データベース２０に格納された全ての学習用文について、上記ステップＳ１００〜Ｓ１０８の処理を実行した場合には、ステップＳ１１２へ進む。一方、上記ステップＳ１００〜Ｓ１０８の処理を実行していない学習用文が存在する場合には、ステップＳ１００へ戻る。

ステップＳ１１２において、不理解文判定モデル生成部３４によって、上記ステップＳ１０８で複数の学習用文の各々について生成された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習する。

ステップＳ１１４において、上記ステップＳ１１２で学習された不理解文判定モデルを不理解文判定モデルデータベース３に格納して、不理解文判定モデル学習処理ルーチンを終了する。

＜不理解文判定装置の作用＞
次に、本実施の形態に係る不理解文判定装置２００の作用について説明する。まず、不理解文判定モデル学習装置１００の不理解文判定モデルデータベース３に格納されている不理解文判定モデルが、不理解文判定装置２００に入力されると、不理解文判定モデルデータベース５に格納される。そして、判定対象としての入力文が、不理解文判定装置２００に入力されると、不理解文判定装置２００によって、図５に示す不理解文判定処理ルーチンが実行される。

まず、ステップＳ２００において、入力部４によって、判定対象の文として入力文を受け付ける。また、時系列が判明しており、入力文に直前の文が存在する場合には、入力部４によって、当該直前の文も受け付ける。

ステップＳ２０２において、単語分割部６４によって、上記ステップＳ２００で受け付けた入力文に対して形態素解析器によって解析することにより、当該入力文を単語へ分割する。直前の文も入力された場合には、直前の文についても、同様に、単語へ分割する。

ステップＳ２０４において、不理解表現照合部６６によって、入力文について、不理解表現リストデータベース６０に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。

ステップＳ２０６において、Ｎ−ｇｒａｍ出現頻度カウント部６８によって、上記ステップＳ２０２で分割された単語と、上記ステップＳ２０４で照合された不理解表現とに基づいて、単語系列のＮ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度を数える。

ステップＳ２０８において、特徴量ベクトル生成部７０によって、上記ステップＳ２０６で得られた、単語系列Ｎ−ｇｒａｍ出現頻度及び不理解表現のＮ−ｇｒａｍ出現頻度に基づいて、特徴量ベクトルを生成する。

ステップＳ２１０において、不理解文判定部７２によって、上記ステップＳ２０８で抽出された特徴量ベクトルと、不理解文判定モデルデータベース５に格納された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定する。

ステップＳ２１２において、出力部７によって、上記ステップＳ２１０で判定された判定結果を出力して、不理解文判定処理ルーチンを終了する。

以上説明したように、本実施の形態に係る不理解文判定モデル学習装置によれば、複数の学習用文の各々について、学習用文に含まれる不理解表現と、学習用文に含まれる少なくとも１つの単語からなる単語系列とに基づいて、特徴量ベクトルを抽出し、複数の学習用文の各々について抽出された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習することにより、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる。

また、本実施の形態に係る不理解文判定装置によれば、入力文に含まれる不理解表現の出現頻度と、入力文に含まれる少なくとも１つの単語からなる単語系列の出現頻度とに基づいて、特徴量ベクトルを抽出し、抽出された特徴量ベクトルと、予め学習された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定することにより、入力文を作成したユーザが不理解状態であるか否かを判定することができる。

また、日本語で書かれた文や発話が、著者や話者の「知らない・分からない」状態を表しているかどうかを自動的に判定することができる。

また、対話データやＳＮＳ上のやりとり等のテキストの中から、ユーザの「知らない・分からない」状態を表す文を検出することが可能となる。

また、文中に出現する単語や不理解を明示するキーワードに加え、著者や話者が自信のない事柄について述べる際に表れる特徴を用いることにより、非明示的な不理解文の検出も可能となる。

また、コールセンタ対話に本発明の実施の形態を適用すると、オペレータの説明がユーザに理解されていない箇所、つまりオペレータの説明が失敗している箇所を検出することが可能となり、オペレータの応対技術向上に必要な分析の効率化を図ることができる。

また、人と対話をするシステム（対話システム）に本発明の実施の形態を適用すると、システムの発話内容がユーザに理解されなかったことを認識できるようになり、同じ意味内容を別の言葉で言い換えて発話させるなど、ユーザの反応に対してより柔軟な応答をすることが可能となる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、特徴量ベクトルが、単語系列のＮ−ｇｒａｍの各々の有無及び不理解表現のＮ−ｇｒａｍの各々の有無からなる特徴量ベクトルであってもよい。また、特徴量ベクトルは、単語系列のＮ−ｇｒａｍの出現頻度又は有無からなる特徴量ベクトルであってもよいし、不理解表現のＮ−ｇｒａｍの出現頻度又は有無からなる特徴量ベクトルであってもよい。

また、上記実施の形態では、不理解文判定モデル学習装置１００と不理解文判定装置２００とを別々の装置として構成する場合を例に説明したが、不理解文判定モデル学習装置１００と不理解文判定装置２００とを１つの装置として構成してもよい。

また、不理解文判定モデル学習装置１００は、学習用文データベース２０、不理解表現リストデータベース２２、及び不理解文判定モデルデータベース３を備えている場合について説明したが、例えば学習用文データベース２０、不理解表現リストデータベース２２、及び不理解文判定モデルデータベース３の少なくとも１つが不理解文判定モデル学習装置１００の外部装置に設けられ、不理解文判定モデル学習装置１００は、外部装置と通信手段を用いて通信することにより、学習用文データベース２０、不理解表現リストデータベース２２、及び不理解文判定モデルデータベース３の少なくとも１つを参照するようにしてもよい。

また、同様に、不理解文判定装置２００は、不理解表現リストデータベース６０、及び不理解文判定モデルデータベース５を備えている場合について説明したが、例えば不理解表現リストデータベース６０、及び不理解文判定モデルデータベース５の少なくとも１つが不理解文判定装置２００の外部装置に設けられ、不理解文判定装置２００は、外部装置と通信手段を用いて通信することにより、不理解表現リストデータベース６０、及び不理解文判定モデルデータベース５の少なくとも１つを参照するようにしてもよい。

上述の不理解文判定モデル学習装置１００及び不理解文判定装置２００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１学習用入力部
２学習用演算部
３，５不理解文判定モデルデータベース
４入力部
６演算部
７出力部
２０学習用文データベース
２２，６０不理解表現リストデータベース
２４学習用特徴量抽出部
２６，６４単語分割部
２８，６６不理解表現照合部
３０，６８Ｎ−ｇｒａｍ出現頻度カウント部
３２，７０特徴量ベクトル生成部
３４不理解文判定モデル生成部
６２特徴量抽出部
７２不理解文判定部
１００不理解文判定モデル学習装置
２００不理解文判定装置

Claims

学習用特徴量抽出部、及び不理解文判定モデル生成部を含む不理解文判定モデル学習装置における不理解文判定モデル学習方法であって、
前記学習用特徴量抽出部によって、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、
前記不理解文判定モデル生成部によって、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習するステップと、
を含む不理解文判定モデル学習方法。
前記学習用特徴量抽出部が前記特徴量を抽出するステップは、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出する
請求項１に記載の不理解文判定モデル学習方法。
特徴量抽出部、及び不理解文判定部を含む不理解文判定装置における不理解文判定方法であって、
前記特徴量抽出部によって、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、
前記不理解文判定部によって、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定するステップと、
を含む不理解文判定方法。
前記特徴量抽出部が前記特徴量を抽出するステップは、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出する
請求項３に記載の不理解文判定方法。
知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する学習用特徴量抽出部と、
前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習する不理解文判定モデル生成部と、
を含む不理解文判定モデル学習装置。
前記学習用特徴量抽出部は、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出する
請求項５に記載の不理解文判定モデル学習装置。
明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定する不理解文判定部と、
を含む不理解文判定装置。
前記特徴量抽出部は、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のＮ−ｇｒａｍを、特徴量として抽出する
請求項７に記載の不理解文判定装置。
コンピュータを、請求項５に記載の不理解文判定モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項６に記載の不理解文判定モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項７に記載の不理解文判定装置の各部として機能させるためのプログラム。
コンピュータを、請求項８に記載の不理解文判定装置の各部として機能させるためのプログラム。