JP5954836B2 - 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム - Google Patents

不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム Download PDF

Info

Publication number
JP5954836B2
JP5954836B2 JP2013241303A JP2013241303A JP5954836B2 JP 5954836 B2 JP5954836 B2 JP 5954836B2 JP 2013241303 A JP2013241303 A JP 2013241303A JP 2013241303 A JP2013241303 A JP 2013241303A JP 5954836 B2 JP5954836 B2 JP 5954836B2
Authority
JP
Japan
Prior art keywords
ununderstood
sentence
learning
expression
determination model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013241303A
Other languages
English (en)
Other versions
JP2015102914A (ja
Inventor
千明 宮崎
千明 宮崎
平野 徹
徹 平野
東中 竜一郎
竜一郎 東中
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013241303A priority Critical patent/JP5954836B2/ja
Publication of JP2015102914A publication Critical patent/JP2015102914A/ja
Application granted granted Critical
Publication of JP5954836B2 publication Critical patent/JP5954836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラムに関する。
従来、対象とするアプリケーションに応じて、様々なユーザ状態を推定する研究がなされてきた。例えば非特許文献1では、教育用の対話システムにおけるユーザ(学習者)とシステムの発話対が、ユーザのどのような感情状態(暇、困惑、集中、いらいら等)を示しているかを推定する技術を実現している。
また、非特許文献2では、コールセンタに入ってきた通話に応答するための対話システムにおいて、各対話で問題が発生しているか否か(ユーザに中断されてしまう対話、途中で人間が介入する対話、タスク種別を誤って判定される対話)を、システムとユーザの初めの2回のやりとりを用いて判別する技術を実現している。
D’Mello,S.K.,Craig,S.D.,Witherspoon,A.,Mcdaniel,B.,& Graesser,A.,"Automatic detection of learner’s affect from conversational cues.",(2008),User Modeling and User-Adapted Interaction,18(1-2),p.45-80. Walker,M.A.,Langkilde-Geary,I.,Hastie,H.W.,Wright,J. H.,& Gorin,A. L.,"Automatically training a problematic dialogue predictor for a spoken dialogue system.",(2001),Journal of Artificial Intelligence Research,16(1),p.293-319.
しかし、ユーザが何らかの知識を持ち合わせていない状態(「知らない」状態)や、対話相手の発話内容を理解していない状態(「分からない」状態)を推定する技術はこれまでに見当たらない。
本発明は、上記の事情に鑑みてなされたもので、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる不理解文判定モデル学習方法、装置、及びプログラムを提供することを目的とする。
また、入力文を作成したユーザが不理解状態であるか否かを判定することができる不理解文判定方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の不理解文判定モデル学習方法は、学習用特徴量抽出部、及び不理解文判定モデル生成部を含む不理解文判定モデル学習装置における不理解文判定モデル学習方法であって、前記学習用特徴量抽出部によって、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、前記不理解文判定モデル生成部によって、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習するステップと、を含んで構成されている。
本発明の不理解文判定モデル学習装置は、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する学習用特徴量抽出部と、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習する不理解文判定モデル生成部と、を含んで構成されている。
また、前記学習用特徴量抽出部は、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出するようにすることができる。
本発明の不理解文判定方法は、特徴量抽出部、及び不理解文判定部を含む不理解文判定装置における不理解文判定方法であって、前記特徴量抽出部によって、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、前記不理解文判定部によって、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定するステップと、を含んで構成されている。
本発明の不理解文判定装置は、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定する不理解文判定部と、を含んで構成されている。
また、前記特徴量抽出部は、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出するようにすることができる。
本発明のプログラムは、コンピュータを、上記の不理解文判定モデル学習装置の各部として機能させるためのプログラムである。また、本発明のプログラムは、コンピュータを、上記の不理解文判定装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の不理解文判定モデル学習方法、装置、及びプログラムによれば、複数の学習用文の各々について、学習用文に含まれる予め定められた不理解表現、及び学習用文に含まれる少なくとも1つの単語からなる単語系列の少なくとも一方に基づいて、特徴量を抽出し、複数の学習用文の各々について抽出された特徴量と、複数の学習用文の各々が不理解文であるか否かとに基づいて、文が不理解文であるか否かを判定するための不理解文判定モデルを学習することにより、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる、という効果が得られる。
また、本発明の不理解文判定方法、装置、及びプログラムによれば、入力文に含まれる予め定められた不理解表現、及び入力文に含まれる少なくとも1つの単語からなる単語系列の少なくとも一方に基づいて、特徴量を抽出し、抽出された特徴量と、予め学習された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定することにより、入力文を作成したユーザが不理解状態であるか否かを判定することができる、という効果が得られる。
本実施の形態に係る不理解文判定モデル学習装置の機能的な構成例を示すブロック図である。 不理解表現リストの一例を示すイメージ図である。 本実施の形態に係る不理解文判定装置の機能的な構成例を示すブロック図である。 本実施の形態における不理解文判定モデル学習処理ルーチンを示すフローチャートである。 本実施の形態における不理解文判定処理ルーチンを示すフローチャートである。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態で解決する課題は、著者または話者の「知らない・分からない」状態を表す文(不理解文)を検出することである。不理解は、常に「知りません」「分かりません」といった表現を用いて明示的に表されるわけではなく、「うーん、それって。」のように曖昧な言い方で表現されたり、場合によっては、「はあ?」のように理解できないことに対する不満という形で表現されたりする。本発明の実施の形態では、明示的に表される不理解に加え、非明示的に表現される不理解についても検出することを実現する。
本発明の実施の形態では、機械学習の手法によって、ユーザが不理解状態にあるときに使用されやすい表現をモデル化し、不理解状態を表す文の推定に利用する。
機械学習に利用する特徴量としては、(1)単語系列、および(2)不理解を表す特徴の系列、の2種類を用いる。
(1)の単語系列とは、連続した1〜N個の単語の系列(単語N−gram)を指す。これにより、複数の単語から成る表現も捉えることが可能となる。
(2)の不理解を表す特徴の系列については、「知りません」「分かりません」のような明示的な不理解表現に加え、言語学・対話分析の知見に基づいて、知らない(自信のない)事柄について書く・話す際に用いられやすい表現のリストを作成し、これら表現の1〜N個の系列(不理解表現N−gram)を特徴量として利用する。これにより、非明示的な不理解の検出漏れを防ぐことが可能となる。
また、以下の説明における「文」とは日本語で書かれた文をいう。日本語で書かれた文とは、日本語で書かれたテキストデータであれば何でも良い。会話音声のような話された言葉であっても、書き起こしや音声認識によってテキスト化されていればよい。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
<不理解文判定モデル学習装置のシステム構成>
本実施の形態に係る不理解文判定モデル学習装置100は、CPUと、RAMと、後述する不理解文判定モデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成される。このコンピュータは、機能的には、図1に示すように、学習用入力部1と、学習用演算部2と、不理解文判定モデルデータベース3とを含んだ構成で表すことができる。以下、各部について詳述する。
学習用入力部1は、複数の学習用文を受け付ける。複数の学習用文の各々には、ユーザ(当該学習用文の著者または話者)が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与されている。また、学習用文が対話データやSNS上のやりとりなどに含まれるものであり、文間の時系列が判明しており、学習用文に直前の文が存在する場合には、学習用入力部1は、学習用文と共に直前の文も受け付ける。なお、直前の文を、著者または話者自身の文(発話)か、話し相手の文(発話)であるかを区別して受け付けてもよい。すなわち、後述する不理解表現照合部28で復唱を判定する際に、話し相手の直前の文を受け付けるようにしてもよい。この場合、学習用文の直前の文が話者自身の文だった場合は、話し相手の文が出てくるまでさかのぼり、学習用入力部1は、当該話し相手の直前の文を受け付ける。
学習用演算部2は、学習用入力部1によって受け付けた複数の学習用文に基づいて、文が不理解文であるか否かを判定するための不理解文判定モデルを学習する。学習用演算部2は、学習用文データベース20と、不理解表現リストデータベース22と、学習用特徴量抽出部24と、不理解文判定モデル生成部34とを備えている。
学習用文データベース20には、学習用入力部1によって受け付けた複数の学習用文と、当該学習用文の直前の文とが格納される。
不理解表現リストデータベース22には、予め定められた不理解表現が格納される。予め定められた不理解表現の一例を図2に示す。図2に示されるように、本実施の形態では、不理解表現として「明示的な不理解表現」、「疑問文を表す表現」、「自信のない事柄を表す表現」に該当する表現を不理解表現リストとして予め用意する。
学習用特徴量抽出部24は、不理解表現リストデータベース22に格納された不理解表現リストを用いて、学習用文データベース20に格納された複数の学習用文の各々について、当該学習用文に含まれる不理解表現と、当該学習用文に含まれる、少なくとも1つの単語を含む単語系列とに基づいて、特徴量を抽出する。
具体的には、学習用特徴量抽出部24は、複数の学習用文の各々について、単語への分割、不理解表現の照合、N−gramの出現頻度カウント、及び特徴量ベクトルの作成を行う。学習用特徴量抽出部24は、単語分割部26と、不理解表現照合部28と、N−gram出現頻度カウント部30と、特徴量ベクトル生成部32とを備えている。
単語分割部26は、学習用文データベース20に格納された複数の学習用文の各々に対して、形態素解析器によって解析することにより、当該学習用文を単語へ分割する。例えば、「無線LANって何ですか」という学習用文の場合は、「無線/LAN/って/何/です/か」というように分割される。直前の文についても、同様に、単語へ分割する。
不理解表現照合部28は、複数の学習用文の各々について、当該学習用文と、不理解表現リストデータベース22に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。
上記図2に示す通り、本実施の形態では、不理解表現として「明示的な不理解表現」、「疑問文を表す表現」、「自信のない事柄を表す表現」に該当する表現を不理解表現リストとして用意し、学習用文との照合を行う。
例えば、「無線LANって何ですか」という学習用文の場合、「って」(引用形式)、「何」(疑問詞)、「か」(疑問の終助詞)が不理解表現に該当するものとして認識される。ここで、後述するN−gram出現頻度カウントのために、ここで「無線LANって何ですか」という入力文を「<引用形式><疑問詞><疑問の終助詞>」という不理解表現系列に変換しておく。
また、不理解表現として「復唱」を利用する。復唱が含まれるか否かを判定する際には、不理解表現リストとの照合ではなく、学習用文の直前の文に含まれる単語が、当該学習用文にも含まれているかどうかの照合を行う。本実施の形態では、復唱の判定においては名詞と未知語のみを対象とする。
また、不理解表現照合部28での文字列マッチの際は、単語(形態素)の区切れ目や品詞を考慮したマッチングを行っても良い。これにより、例えば、「切って」の「って」(動詞接尾辞)が引用形式であると誤認されるのを防ぐことが可能となる。
N−gram出現頻度カウント部30は、単語分割部26によって分割された単語と、不理解表現照合部28によって照合された不理解表現とに基づいて、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度を数える。例えば、N−gram出現頻度カウント部30は、「無線/LAN/って/何/です/か」という単語列を入力とした場合、単語系列のN−gram出現頻度として、「無線」、「LAN」、「って」のような1単語から成る単語系列(1−gram)や、「無線LAN」、「LANって」、「って何」のような2単語から成る単語系列(2−gram)などの出現回数をカウントする。
本実施の形態では、Nは入力文の単語数とする。「無線/LAN/って/何/です/か」の例の場合、入力文は6単語で構成されているため、N=6となり、6−gramまで作成し、頻度をカウントする。
N−gram出現頻度カウント部30は、不理解表現のN−gramについても同様の処理を行う。例えば、「<引用形式><疑問詞><疑問の終助詞>」の場合、N=3となり、3−gramまで作成し、頻度をカウントする。また、「<文頭><引用形式><疑問詞><疑問の終助詞><文末>」のように、文頭・文末という位置情報を追加してN−gramを作成してもよい。本実施の形態では、Nは入力文に含まれる単語数としたが、一文に含まれる単語数が大きくなることが予想される場合等は、N=7までとするなど上限値を設定してもよい。
特徴量ベクトル生成部32は、N−gram出現頻度カウント部30によって得られた、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度に基づいて、単語系列のN−gramの各々の出現頻度及び不理解表現のN−gramの各々の出現頻度からなる特徴量ベクトルを生成する。
例えば、「無線LANって何ですか」という学習用文の場合、「無線:1、LAN:1、って:1、… 無線LAN:1、LANって:1、って何:1、… 無線LANって:1、LANって何:1、って何です:1、… <引用形式>:1、<疑問詞>:1、<疑問の終助詞>:1、<引用形式><疑問詞>:1、<疑問詞><疑問の終助詞>:1、<引用形式><疑問詞><疑問の終助詞>:1」を表す特徴量ベクトルが作成される。なお、実際の特徴量ベクトルでは、「無線」や「LAN」のような単語は特徴量ID(数字)に変換されて用いられる。
不理解文判定モデル生成部34は、特徴量ベクトル生成部32によって複数の学習用文の各々について生成された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習する。
本実施の形態では、機械学習の手法としてロジスティック回帰を用いることとするが、Support Vector Machine(SVM)や、Boostingアルゴリズムを用いる機械学習手法を用いても良い。これらの機械学習手法を用いて、各特徴量が不理解文の判定にどの程度寄与するのか(重み)を学習し、これを不理解文判定モデルとする。なお、Support Vector Machine(SVM)や、Boostingアルゴリズム等の他の機械学習手法に適用する場合には、当該手法に応じて、上記特徴量ベクトル生成部32で生成する特徴量ベクトルの形式を変更する。
不理解文判定モデルデータベース3には、不理解文判定モデル生成部34によって学習された不理解文判定モデルが格納される。
<不理解文判定装置のシステム構成>
本実施の形態に係る不理解文判定装置200は、判定対象の文を入力として受け取り、入力された文が不理解文か否かを判定する。
本実施の形態に係る不理解文判定装置200は、CPUと、RAMと、後述する不理解文判定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成される。このコンピュータは、機能的には、図3に示すように、入力部4と、不理解文判定モデルデータベース5と、演算部6と、出力部7とを含んだ構成で表すことができる。以下、各部について詳述する。
入力部4は、判定対象の文として入力文を受け付ける。また、入力文に直前の文が存在する場合には、入力部4は、当該直前の文も受け付ける。なお、直前の文を、著者または話者自身の文(発話)か、話し相手の文(発話)であるかを区別して受け付けてもよい。
不理解文判定モデルデータベース5には、上記不理解文判定モデル学習装置100によって作成された不理解文判定モデルが格納されている。
演算部6は、入力部4によって受け付けた入力文が不理解文であるか否かを判定する。演算部6は、不理解表現リストデータベース60と、特徴量抽出部62と、不理解文判定部72とを備えている。
不理解表現リストデータベース60には、上記不理解文判定モデル学習装置100における不理解表現リストデータベース22と同じ不理解表現リストが格納されている。
特徴量抽出部62は、不理解表現リストデータベース22に格納された不理解表現リストを用いて、上記不理解文判定モデル学習装置100における学習用特徴量抽出部24と同様に、入力文に含まれる不理解表現と、入力文に含まれる、少なくとも1つの単語を含む単語系列とに基づいて、特徴量ベクトルを抽出する。特徴量抽出部62は、単語分割部64と、不理解表現照合部66と、N−gram出現頻度カウント部68と、特徴量ベクトル生成部70とを備えている。
単語分割部64は、上記不理解文判定モデル学習装置100における単語分割部26と同様に、入力部4によって受け付けた入力文に対して形態素解析器によって解析することにより、当該入力文を単語へ分割する。直前の文も入力された場合には、直前の文についても、同様に、単語へ分割する。
不理解表現照合部66は、上記不理解文判定モデル学習装置100における不理解表現照合部28と同様に、入力文について、不理解表現リストデータベース60に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。
N−gram出現頻度カウント部68は、上記不理解文判定モデル学習装置100におけるN−gram出現頻度カウント部30と同様に、単語分割部64によって分割された単語と、不理解表現照合部66によって照合された不理解表現とに基づいて、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度を数える。
特徴量ベクトル生成部70は、上記不理解文判定モデル学習装置100における特徴量ベクトル生成部32と同様に、N−gram出現頻度カウント部68によって得られた、単語系列N−gram出現頻度及び不理解表現のN−gram出現頻度に基づいて、特徴量ベクトルを生成する。
不理解文判定部72は、特徴量ベクトル生成部70によって抽出された特徴量ベクトルと、不理解文判定モデルデータベース5に格納された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定する。
出力部7は、不理解文判定部72によって判定された判定結果を結果として出力する。
<不理解文判定モデル学習装置の作用>
次に、本実施の形態に係る不理解文判定モデル学習装置100の作用について説明する。不理解文判定モデル学習装置100に、不理解文であるか否かが予め付与された複数の学習用文が入力されると、学習用入力部1によって、入力された複数の学習用文が、学習用文データベース20へ格納される。また、学習用文に直前の文が存在する場合には、学習用入力部1は、学習用文と共に直前の文も受け付け、当該学習用文の直前の文も学習用文データベース20へ格納する。そして、不理解文判定モデル学習装置100によって、図4に示す不理解文判定モデル学習処理ルーチンが実行される。
まず、ステップS100において、学習用特徴量抽出部24によって、学習用文データベース20に格納された複数の学習用文から、1つの学習用文を設定する。
ステップS102において、単語分割部26によって、上記ステップS100で設定された学習用文に対して、形態素解析器によって解析することにより、当該学習用文を単語へ分割する。また、当該学習用文の直前の文についても、同様に、単語へ分割する。
ステップS104において、不理解表現照合部28によって、上記ステップS100で設定された学習用文について、不理解表現リストデータベース22に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。
ステップS106において、N−gram出現頻度カウント部30によって、上記ステップS102で分割された単語と、上記ステップS104で照合された不理解表現とに基づいて、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度を数える。
ステップS108において、特徴量ベクトル生成部32によって、上記ステップS106で得られた、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度に基づいて、特徴量ベクトルを生成する。
ステップS110において、学習用特徴量抽出部24によって、学習用文データベース20に格納された全ての学習用文について、上記ステップS100〜S108の処理を実行したか否かを判定する。学習用文データベース20に格納された全ての学習用文について、上記ステップS100〜S108の処理を実行した場合には、ステップS112へ進む。一方、上記ステップS100〜S108の処理を実行していない学習用文が存在する場合には、ステップS100へ戻る。
ステップS112において、不理解文判定モデル生成部34によって、上記ステップS108で複数の学習用文の各々について生成された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習する。
ステップS114において、上記ステップS112で学習された不理解文判定モデルを不理解文判定モデルデータベース3に格納して、不理解文判定モデル学習処理ルーチンを終了する。
<不理解文判定装置の作用>
次に、本実施の形態に係る不理解文判定装置200の作用について説明する。まず、不理解文判定モデル学習装置100の不理解文判定モデルデータベース3に格納されている不理解文判定モデルが、不理解文判定装置200に入力されると、不理解文判定モデルデータベース5に格納される。そして、判定対象としての入力文が、不理解文判定装置200に入力されると、不理解文判定装置200によって、図5に示す不理解文判定処理ルーチンが実行される。
まず、ステップS200において、入力部4によって、判定対象の文として入力文を受け付ける。また、時系列が判明しており、入力文に直前の文が存在する場合には、入力部4によって、当該直前の文も受け付ける。
ステップS202において、単語分割部64によって、上記ステップS200で受け付けた入力文に対して形態素解析器によって解析することにより、当該入力文を単語へ分割する。直前の文も入力された場合には、直前の文についても、同様に、単語へ分割する。
ステップS204において、不理解表現照合部66によって、入力文について、不理解表現リストデータベース60に格納された不理解表現リストの不理解表現との文字列マッチによって、不理解表現の照合を行う。
ステップS206において、N−gram出現頻度カウント部68によって、上記ステップS202で分割された単語と、上記ステップS204で照合された不理解表現とに基づいて、単語系列のN−gram出現頻度及び不理解表現のN−gram出現頻度を数える。
ステップS208において、特徴量ベクトル生成部70によって、上記ステップS206で得られた、単語系列N−gram出現頻度及び不理解表現のN−gram出現頻度に基づいて、特徴量ベクトルを生成する。
ステップS210において、不理解文判定部72によって、上記ステップS208で抽出された特徴量ベクトルと、不理解文判定モデルデータベース5に格納された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定する。
ステップS212において、出力部7によって、上記ステップS210で判定された判定結果を出力して、不理解文判定処理ルーチンを終了する。
以上説明したように、本実施の形態に係る不理解文判定モデル学習装置によれば、複数の学習用文の各々について、学習用文に含まれる不理解表現と、学習用文に含まれる少なくとも1つの単語からなる単語系列とに基づいて、特徴量ベクトルを抽出し、複数の学習用文の各々について抽出された特徴量ベクトルと、複数の学習用文の各々が不理解文であるか否かとに基づいて、不理解文判定モデルを学習することにより、文が不理解文であるか否かを判定するための不理解文判定モデルを得ることができる。
また、本実施の形態に係る不理解文判定装置によれば、入力文に含まれる不理解表現の出現頻度と、入力文に含まれる少なくとも1つの単語からなる単語系列の出現頻度とに基づいて、特徴量ベクトルを抽出し、抽出された特徴量ベクトルと、予め学習された不理解文判定モデルとに基づいて、入力文が不理解文であるか否かを判定することにより、入力文を作成したユーザが不理解状態であるか否かを判定することができる。
また、日本語で書かれた文や発話が、著者や話者の「知らない・分からない」状態を表しているかどうかを自動的に判定することができる。
また、対話データやSNS上のやりとり等のテキストの中から、ユーザの「知らない・分からない」状態を表す文を検出することが可能となる。
また、文中に出現する単語や不理解を明示するキーワードに加え、著者や話者が自信のない事柄について述べる際に表れる特徴を用いることにより、非明示的な不理解文の検出も可能となる。
また、コールセンタ対話に本発明の実施の形態を適用すると、オペレータの説明がユーザに理解されていない箇所、つまりオペレータの説明が失敗している箇所を検出することが可能となり、オペレータの応対技術向上に必要な分析の効率化を図ることができる。
また、人と対話をするシステム(対話システム)に本発明の実施の形態を適用すると、システムの発話内容がユーザに理解されなかったことを認識できるようになり、同じ意味内容を別の言葉で言い換えて発話させるなど、ユーザの反応に対してより柔軟な応答をすることが可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、特徴量ベクトルが、単語系列のN−gramの各々の有無及び不理解表現のN−gramの各々の有無からなる特徴量ベクトルであってもよい。また、特徴量ベクトルは、単語系列のN−gramの出現頻度又は有無からなる特徴量ベクトルであってもよいし、不理解表現のN−gramの出現頻度又は有無からなる特徴量ベクトルであってもよい。
また、上記実施の形態では、不理解文判定モデル学習装置100と不理解文判定装置200とを別々の装置として構成する場合を例に説明したが、不理解文判定モデル学習装置100と不理解文判定装置200とを1つの装置として構成してもよい。
また、不理解文判定モデル学習装置100は、学習用文データベース20、不理解表現リストデータベース22、及び不理解文判定モデルデータベース3を備えている場合について説明したが、例えば学習用文データベース20、不理解表現リストデータベース22、及び不理解文判定モデルデータベース3の少なくとも1つが不理解文判定モデル学習装置100の外部装置に設けられ、不理解文判定モデル学習装置100は、外部装置と通信手段を用いて通信することにより、学習用文データベース20、不理解表現リストデータベース22、及び不理解文判定モデルデータベース3の少なくとも1つを参照するようにしてもよい。
また、同様に、不理解文判定装置200は、不理解表現リストデータベース60、及び不理解文判定モデルデータベース5を備えている場合について説明したが、例えば不理解表現リストデータベース60、及び不理解文判定モデルデータベース5の少なくとも1つが不理解文判定装置200の外部装置に設けられ、不理解文判定装置200は、外部装置と通信手段を用いて通信することにより、不理解表現リストデータベース60、及び不理解文判定モデルデータベース5の少なくとも1つを参照するようにしてもよい。
上述の不理解文判定モデル学習装置100及び不理解文判定装置200は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 学習用入力部
2 学習用演算部
3,5 不理解文判定モデルデータベース
4 入力部
6 演算部
7 出力部
20 学習用文データベース
22,60 不理解表現リストデータベース
24 学習用特徴量抽出部
26,64 単語分割部
28,66 不理解表現照合部
30,68 N−gram出現頻度カウント部
32,70 特徴量ベクトル生成部
34 不理解文判定モデル生成部
62 特徴量抽出部
72 不理解文判定部
100 不理解文判定モデル学習装置
200 不理解文判定装置

Claims (12)

  1. 学習用特徴量抽出部、及び不理解文判定モデル生成部を含む不理解文判定モデル学習装置における不理解文判定モデル学習方法であって、
    前記学習用特徴量抽出部によって、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、
    前記不理解文判定モデル生成部によって、前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習するステップと、
    を含む不理解文判定モデル学習方法。
  2. 前記学習用特徴量抽出部が前記特徴量を抽出するステップは、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出する
    請求項1に記載の不理解文判定モデル学習方法。
  3. 特徴量抽出部、及び不理解文判定部を含む不理解文判定装置における不理解文判定方法であって、
    前記特徴量抽出部によって、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出するステップと、
    前記不理解文判定部によって、前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定するステップと、
    を含む不理解文判定方法。
  4. 前記特徴量抽出部が前記特徴量を抽出するステップは、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出する
    請求項3に記載の不理解文判定方法。
  5. 知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かが予め付与された複数の学習用文の各々について、明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、前記学習用文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記学習用文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する学習用特徴量抽出部と、
    前記学習用特徴量抽出部によって前記複数の学習用文の各々について抽出された特徴量と、前記複数の学習用文の各々が前記不理解文であるか否かとに基づいて、文が前記不理解文であるか否かを判定するための不理解文判定モデルを学習する不理解文判定モデル生成部と、
    を含む不理解文判定モデル学習装置。
  6. 前記学習用特徴量抽出部は、前記学習用文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出する
    請求項5に記載の不理解文判定モデル学習装置。
  7. 明示的な不理解表現及び非明示的な不理解表現が予め登録されたリストに従って、入力文と前記リストに登録された前記不理解表現とを照合し、照合された前記不理解表現に対応して予め定められた分類項目を用いて、前記入力文を前記分類項目からなる不理解表現の系列に変換し、前記変換した不理解表現の系列に基づいて、特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部によって抽出された特徴量と、文が、知識を持ち合わせていない状態又は理解していない状態を表す不理解文であるか否かを判定するための予め学習された不理解文判定モデルとに基づいて、前記入力文が前記不理解文であるか否かを判定する不理解文判定部と、
    を含む不理解文判定装置。
  8. 前記特徴量抽出部は、前記入力文を前記不理解表現の系列に変換し、前記変換した不理解表現の系列から得られる不理解表現のN−gramを、特徴量として抽出する
    請求項7に記載の不理解文判定装置。
  9. コンピュータを、請求項5に記載の不理解文判定モデル学習装置の各部として機能させるためのプログラム。
  10. コンピュータを、請求項6に記載の不理解文判定モデル学習装置の各部として機能させるためのプログラム。
  11. コンピュータを、請求項7に記載の不理解文判定装置の各部として機能させるためのプログラム。
  12. コンピュータを、請求項8に記載の不理解文判定装置の各部として機能させるためのプログラム。
JP2013241303A 2013-11-21 2013-11-21 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム Active JP5954836B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013241303A JP5954836B2 (ja) 2013-11-21 2013-11-21 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013241303A JP5954836B2 (ja) 2013-11-21 2013-11-21 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015102914A JP2015102914A (ja) 2015-06-04
JP5954836B2 true JP5954836B2 (ja) 2016-07-20

Family

ID=53378588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013241303A Active JP5954836B2 (ja) 2013-11-21 2013-11-21 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5954836B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6479916B1 (ja) * 2017-09-07 2019-03-06 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7080277B2 (ja) * 2020-05-12 2022-06-03 ヤフー株式会社 分類装置、分類方法、およびプログラム
JP2023110106A (ja) * 2020-06-05 2023-08-09 言語研究開発合同会社 言語学習支援装置、プログラム及び情報処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4008313B2 (ja) * 2002-08-30 2007-11-14 日本電信電話株式会社 質問タイプ学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習サンプルが記録されている記録媒体、質問タイプ同定装置、質問タイプ同定プログラム、同プログラムを記録した記録媒体
JP5674689B2 (ja) * 2012-02-15 2015-02-25 日本電信電話株式会社 知識量推定情報生成装置、知識量推定装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2015102914A (ja) 2015-06-04

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP6541673B2 (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
US10540547B2 (en) Apparatus and method for detecting debatable document
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
KR101534413B1 (ko) 상담 정보를 이용하여 상담 대화를 제공하는 방법 및 장치
Atmadja et al. Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
JP2018025956A (ja) モデル作成装置、推定装置、方法、及びプログラム
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
JP6665061B2 (ja) 整合性判定装置、方法、及びプログラム
WO2018109806A1 (ja) モデル学習装置及びモデル学習方法
WO2015099418A1 (ko) 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
Shafran et al. A comparison of classifiers for detecting emotion from speech
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP5911911B2 (ja) 結束性判定装置、モデル学習装置、方法、及びプログラム
Sayeedunnisa et al. Sarcasm detection: a contemporary research affirmation of recent literature
JP2018077698A (ja) 発話文抽出装置、不適切話題語リスト生成装置、方法、及びプログラム
JP2008165718A (ja) 意図判定装置、意図判定方法、及びプログラム
JP2016206894A (ja) 情報分類方法、装置、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5954836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150