JP2019066677A - 対話装置および対話プログラム - Google Patents

対話装置および対話プログラム Download PDF

Info

Publication number
JP2019066677A
JP2019066677A JP2017192384A JP2017192384A JP2019066677A JP 2019066677 A JP2019066677 A JP 2019066677A JP 2017192384 A JP2017192384 A JP 2017192384A JP 2017192384 A JP2017192384 A JP 2017192384A JP 2019066677 A JP2019066677 A JP 2019066677A
Authority
JP
Japan
Prior art keywords
phrase
unit
response
reliability
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017192384A
Other languages
English (en)
Other versions
JP6920730B2 (ja
Inventor
満次 吉田
Mitsuji Yoshida
満次 吉田
和也 角野
Kazuya Sumino
和也 角野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2017192384A priority Critical patent/JP6920730B2/ja
Publication of JP2019066677A publication Critical patent/JP2019066677A/ja
Application granted granted Critical
Publication of JP6920730B2 publication Critical patent/JP6920730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ユーザの満足度を向上させること。【解決手段】対話装置(1)は、ユーザの音声を入力する音声入力部(2)と、音声入力部から得られる入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するフレーズ認識部(3)と、フレーズ認識部により認識されたフレーズ候補に対し、少なくともその尤度に基づいて、フレーズ候補を受理するか否かを判定する第1の受理判定部(4)とを備える。対話装置(1)はまた、第1の受理判定部による判定結果の信頼度を判定する信頼度判定部(5)と、信頼度判定部により判定された信頼度が所定レベルよりも低い場合に、入力音声信号に基づいて、音声を音素単位で認識する音素認識部(6)と、音素認識部による認識結果に応じた返答フレーズの出力処理を行う返答処理部(8)とを備える。【選択図】図1

Description

本発明は、音声認識機能を有する対話装置、および、対話装置によって実行される対話プログラムに関し、特に、ユーザが発話したフレーズに応じた返答を行う対話装置および対話プログラムに関する。
音声認識機能を利用し、ユーザとの対話によって認知症のレベルを判定したり、何らかの条件(たとえば自動車の運転資格など)を満たしているか否かを判定したりするための研究が、従来から行われている。しかし、このような判定を行うためには、ユーザが発話したフレーズを正しく認識しなければならず、実用化に至っていないケースが大半である。高齢者向けの会話型ロボットも市販されているが、雑音の多い実際の生活環境においては、音声の認識率が低下するという問題がある。
一方で、特開2010−266488号公報(特許文献1)に開示された音声認識方法によれば、雑音環境においても精度良く音声(フレーズ)を認識することが可能である。特許文献1では、音声認識モデルパラメータ作成装置が、フレーズごとに、複数の雑音が重畳された音声データの特徴量を正規化し、正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成する。音声認識装置は、音声データの特徴量を算出した後、算出した特徴量を正規化し、その正規化特徴量と、音声認識モデルパラメータで作成された(記憶部に記憶された)モデルパラメータとを用いて、ユーザが発話したフレーズを認識する。
モデルパラメータを用いた一般的な音声認識では、認識したフレーズ(フレーズ候補)の棄却判定が行われる。つまり、フレーズ候補の尤度や他候補との尤度差に基づいて、フレーズ候補を受理するか、棄却するかが判定される。
特開2008−233305号公報(特許文献2)に示される音声対話装置では、受理/棄却だけでなく、確認の判定も行うことにより、ユーザとの対話を円滑化する技術が提案されている。具体的には、フレーズ候補の信頼度が、第1のしきい値より大きい場合に「受理」と判定し、第2のしきい値以下の場合に「棄却」と判定し、第1のしきい値以下かつ第2のしきい値より大きい場合に「確認」と判定する。確認と判定されると、音声認識結果(フレーズ候補)が正しいかどうかをユーザに確認する応答が行われる。
特開2010−266488号公報 特開2008−233305号公報
上述のように、特許文献1に開示されたフレーズ認識方法(フレーズ単位での音声認識方法)は、雑音に強く、実環境でも高い認識性能が得られるため、このようなフレーズ認識方法を対話装置に採用することで、ユーザビリティを向上させることができる。
その一方で、このようなフレーズ認識方法を対話装置に採用した場合、予め登録したフレーズにしか反応できないという課題が生じる。すなわち、発話したフレーズが登録フレーズと少しでも異なっていれば、登録フレーズと同じ意味(つまり、正解)であっても棄却される可能性がある。
特許文献2の音声対話装置では、フレーズ候補の受理/棄却以外に、確認の応答を可能とすることで、音声認識結果が誤りである場合に、誤った認識結果で対話を続けることを回避することができる。しかしながら、確認の応答を追加したとしても、特許文献2の技術では、正解となるフレーズ数は変わらないため、ユーザの満足度を向上させることができない。
本発明は、上記のような課題を解決するためになされたものであって、その目的は、ユーザの満足度を向上させることのできる対話装置および対話プログラムを提供することである。
この発明のある局面に従う対話装置は、ユーザが発話したフレーズに応じた返答を行う対話装置であって、ユーザの音声を入力する音声入力部と、音声入力部から得られる入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するフレーズ認識部と、フレーズ認識部により認識されたフレーズ候補に対し、少なくともその尤度に基づいて、フレーズ候補を受理するか否かを判定する第1の受理判定部とを備える。対話装置はまた、第1の受理判定部による判定結果の信頼度を判定する信頼度判定部と、信頼度判定部により判定された信頼度が所定レベルよりも低い場合に、入力音声信号に基づいて、音声を音素単位で認識する音素認識部と、音素認識部による認識結果に応じた返答フレーズの出力処理を行う返答処理部とを備える。
好ましくは、音素認識部は、認識した音素列に含まれる単語を判別し、対話装置は、音素認識部による単語の判別結果に応じて、受理、棄却、または確認の判定を行う第2の受理判定部をさらに備える。この場合、返答処理部は、第2の受理判定部による判定結果に基づいて、返答フレーズの出力処理を行うことが望ましい。
好ましくは、対話装置は、複数の返答音声データを予め記憶する音声データ記憶部をさらに備え、返答処理部は、第2の受理判定部により確認と判定された場合には、判別された単語とその位置情報とに基づいて、音声データ記憶部から、出力する返答音声データを選択する。
信頼度判定部は、第1の受理判定部により棄却と判定された場合にのみ、判定結果の信頼度を判定してもよい。
好ましくは、返答処理部は、信頼度判定部により判定された信頼度が所定レベル以上の場合には、第1の受理判定部による判定結果に応じた返答フレーズの出力処理を行う。
この発明の他の局面に従う対話プログラムは、ユーザが発話したフレーズに応じた返答を行う対話装置によって実行されるプログラムであって、入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するステップと、認識されたフレーズ候補に対し、少なくともその尤度に基づいて、フレーズ候補を受理するか否かを判定するステップとを備える。また、フレーズ候補を受理するか否かの判定結果の信頼度を判定するステップと、判定された信頼度が所定レベルよりも低い場合に、入力音声信号に基づいて、音声を音素単位で認識するステップと、音素単位での音声認識結果に応じた返答フレーズの出力処理を行うステップとを備える。
本発明によれば、フレーズ単位での音声認識を基本の認識手法としながら、フレーズ候補に対する受理/棄却の判定結果の信頼度が低い場合には、音素単位での音声認識を追加で行うため、登録フレーズ以外のフレーズ(または単語)にも反応することが可能となる。したがって、ユーザの満足度を向上させることができる。
本発明の実施の形態に係る対話装置の機能構成を示す機能ブロック図である。 本発明の実施の形態において、登録フレーズと返答音声データとが対応付けられた第1のデータテーブルの構造例を模式的に示す図である。 本発明の実施の形態において、登録単語と返答音声データとが対応付けられた第2のデータテーブルの構造例を模式的に示す図である。 本発明の実施の形態に係る対話装置の動作を示すフローチャートである。 本発明の実施の形態において確認判定を採用することにより、正解フレーズが増えることを概念的に示す図である。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
(概要について)
本実施の形態に係る対話装置は、ユーザが発話したフレーズに応じた返答(応答)を行う装置である。この対話装置は、ユーザとの会話を行うことを主目的としたコミュニケーションロボットの他、認知症などの病状レベルの判定や、自動車の運転資格の有無など、様々な種類の能力の判定を行うことを目的とした能力判定装置に搭載され得る。
本実施の形態に係る対話装置には、予め、認識可能な複数のフレーズが登録されており、対話装置は、これらの登録フレーズのなかから最も尤度が高いフレーズを、発話フレーズの候補として認識する。
公知の装置においては、このフレーズ候補の尤度に基づいて、フレーズ候補を音声認識結果として受理するか、棄却するかを判定する。ここで、図5を参照して、登録フレーズが100個であると仮定する。この場合、公知の装置において正解となり得る(受理される)フレーズは100個であるが、実際には、数万以上のことば(フレーズ)のなかで、それよりも多い数の正解フレーズが存在する。たとえば、ことば全体のなかで正解となるべきフレーズが500個存在すると仮定すると、公知の装置では、未登録の400フレーズは棄却されることになる。つまり、同じ意味であっても、登録フレーズと全く同じフレーズを発話した場合には受理されるが、登録フレーズと異なるフレーズを発話した場合には棄却されてしまう。
これに対し、本実施の形態では、受理/棄却の判定結果の信頼度が低い場合には、入力音声に対して音素認識を行うことで、登録フレーズに音響的に近い未登録のフレーズなどに対して何らかの応答ができるようにしている。以下に、このような対話装置について、詳細に説明する。
(機能構成について)
図1は、本実施の形態に係る対話装置1の機能構成を示す機能ブロック図である。
図1を参照して、対話装置1は、マイクロフォン2と、フレーズ認識部3と、第1の受理判定部4と、信頼度判定部5と、音素認識部6と、第2の受理判定部7と、返答処理部8と、スピーカ10と、複数の記憶部9A〜9Dとを備えている。マイクロフォン2は、音声を入力する音声入力部として機能し、スピーカ10は、音声を出力する音声出力部として機能する。
記憶部9Aには、複数の登録フレーズそれぞれのモデルパラメータが予め記憶されている。モデルパラメータは、典型的にはHMM(Hidden Markov Model)法に基づく音響モデルのパラメータである。より特定的には、特許文献1に記載の音声認識モデルパラメータ作成装置によって作成されたモデルパラメータである。なお、モデルパラメータは、たとえばDTW(Dynamic time warping)などHMM以外の音響モデルのパラメータであってもよい。
複数の登録フレーズは、一つの単語のみを含む登録フレーズと、複数の単語を含む登録フレーズとに分類される。後者の登録フレーズは、複数の単語が連続して一つのまとまった意味を表す「句」に相当する。本実施の形態において、記憶部9Aに記憶された複数の登録フレーズのうちの少なくとも一部は、「句」としてのフレーズである。たとえば、登録フレーズが「テレビをつけて」であれば、この登録フレーズには、「テレビ」と「つけて」の2つの単語が含まれる。登録フレーズが「テレビを消して」であれば、この登録フレーズには、「テレビ」と「消して」の2つの単語が含まれる。
記憶部9Bには、音素モデルパラメータが予め記憶されている。記憶部9Cには、複数の単語(たとえば、テレビ、つけて、消して、など)をそれぞれ特定するための複数の単語データを含む、単語情報が予め記憶されている。つまり、記憶部9Cには、登録フレーズに含まれている単語が登録されている。記憶部9Cは、単語記憶部に相当する。
記憶部9Dには、複数の返答音声データが予め記憶されている。返答音声データは、登録フレーズまたは登録単語に対応付けられて記憶されている。記憶部9Dには、たとえば、登録フレーズ用のデータテーブルと、登録単語用のデータテーブルとが格納されている。これらのデータテーブルの具体例については後述する。記憶部9Dは、音声データ記憶部に相当する。なお、記憶部9Dにおいて、返答音声データは、登録フレーズまたは登録単語以外の情報、たとえば時間情報、温度情報、位置情報などに関連付けられていてもよい。この場合、後述の返答処理部8において、フレーズまたは音素認識結果以外の情報も利用して返答内容を決定することができる。
フレーズ認識部3は、マイクロフォン2に入力された音声信号と記憶部9Aに記憶されたモデルパラメータとに基づいて、音声をフレーズ単位で認識する。具体的には、入力された音声信号を所定の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。フレーズ認識部3は、特許文献1と同様に、算出した特徴量を正規化し、入力音声の正規化特徴量を算出する。
フレーズ認識部3は、音声区間内における特徴量系列の各音響モデルに対する尤度を算出し、尤度が最も高い音響モデルが示すフレーズを、フレーズ候補(第1候補)として判定する。フレーズ認識部3は、第1候補から第n候補(n:2以上の自然数)の情報と、それらの尤度の情報とを含む認識結果を、第1の受理判定部4および信頼度判定部5に出力する。
第1の受理判定部4は、フレーズ候補の尤度に基づいて、受理または棄却を判定する。具体的には、フレーズ認識部3において認識された第1候補の尤度が所定値以上であるか否か、第1候補と他候補との尤度差が所定値以上であるか否か、などを判断することにより、第1候補を受理するか否かを判定する。
信頼度判定部5は、第1の受理判定部4による判定結果、すなわち一次判定結果(受理/棄却)の信頼度を判定する。具体的には、フレーズ認識部3において認識された第1候補の尤度と所定のしきい値との距離、あるいは、第1候補と他候補との尤度差と所定のしきい値との距離、などを算出し、算出した距離の近さ(小ささ)に応じて、信頼度を判定する。たとえば、算出した距離が所定値よりも大きければ、信頼度が高いと判定する。つまり、一次判定結果は正しいと判定する。一方、算出した距離が所定値よりも小さければ、信頼度は低いと判定する。つまり、一次判定結果は誤っている可能性があると判定する。
信頼度判定部5により信頼度が高い(所定のレベル以上)と判定された場合、その判定結果が返答処理部8に出力される。これに対し、信頼度が低い(所定のレベルより低い)と判定された場合、その判定結果が音素認識部6に出力される。
音素認識部6は、マイクロフォン2に入力された音声信号と、記憶部9Bに記憶された音素モデルパラメータとに基づいて、音声を音素単位で認識する。また、音素認識結果に応じて、音素列に含まれる登録単語を判別する。つまり、認識された音素列と、記憶部9Cに記憶された単語データとを照合することにより、音素列に含まれる登録単語を判別する。登録単語の判別方法においても、最も尤度の高い登録単語を、単語候補として判別する。音素認識部6は、音声区間内に、2個以上の登録単語を判別可能である。
音素認識部6により判別された登録単語、および、その単語の位置情報(つまり、音声区間におけるその単語の相対位置を示す情報)が、第2の受理判定部7に送られる。相対位置とは、前半、後半、中間などを含む。
第2の受理判定部7は、音素認識部6による登録単語の判別結果に応じて、受理、棄却、または確認の判定を行う。具体的には、音素認識部6によって判別された単語候補の尤度、および、位置情報に基づいて、登録単語の判別結果を受理するか、棄却するか、または、確認するか、を判定する。
最も簡易な判定手法は次の通りである。たとえば、単語候補の尤度が高く、第1レベルの場合には「受理」と判定し、単語候補の尤度が低く、第3レベルの場合には「棄却」と判定し、単語候補の尤度が第1レベルと第3レベルとの間のレベル(第2レベル)である場合には「確認」と判定する。なお、第2の受理判定部7においても、登録単語の第1候補の尤度だけでなく、第1候補と第2候補との尤度差など、他の候補の尤度をさらに用いることが望ましい。また、尤度が第1レベルまたは第2レベルの単語候補の位置が、全体の音声区間のうちの一部分(たとえば2/3以下)である場合には、「確認」と判定してもよい。また、単語候補の尤度が第1レベルまたは第2レベルであったとしても、単語候補の位置が期待値と異なる場合には、「棄却」と判定してもよい。
返答処理部8は、第2の受理判定部7による判定結果、すなわち二次判定結果(受理/確認/棄却)に応じて、返答処理を行う。具体的には、返答処理部8は、二次判定結果が受理または確認の場合には、フレーズ認識部3または音素認識部6による認識結果に応じた返答フレーズの出力処理を行う。返答処理部8は、記憶部9Dに記憶された複数の返答音声データのなかから、フレーズまたは単語の認識結果に応じた返答音声データを選択し、選択した返答音声をスピーカ10から出力させる。二次判定結果が棄却の場合には、環境による誤反応の可能性があるため、返答処理部8は返答処理を行うことなく待機する。
図2は、登録フレーズと返答音声データとが対応付けられた第1のデータテーブルの構造例を模式的に示す図である。図3は、二次判定結果(受理/確認)ごとに、登録単語と返答音声データとが対応付けられた第2のデータテーブルの構造例を模式的に示す図である。
返答処理部8は、第1の受理判定部4によって「受理」と判定され、かつ、信頼度判定部5によって信頼度が高いと判定された場合に、第1のデータテーブルを参照する。第1のデータテーブルには、各登録フレーズに対し、返答音声データが対応付けられて記憶されている。なお、1つの登録フレーズに対し、複数の返答音声データが対応付けられていてもよい。
返答処理部8は、第1の受理判定部4による判定結果に関わらず、第2の受理判定部7によって「受理」または「確認」と判定された場合に、第2のデータテーブルを参照する。第2のデータテーブルには、第2の受理判定部7による判定結果ごとに、音素認識部6において一度に判別され得る1個または複数の登録単語(1つの登録フレーズに含まれる1個または複数の単語)に対し、各単語の位置情報と、返答音声データとが対応付けられて記憶されている。
なお、図1に示した各機能部は、ハードウェア(回路)により実現されてもよいし、コンピュータがソフトウェアを実行することによって実現されてもよい。また、記憶部9A〜9Dは、個別の記憶装置として実現されてもよいし、一つの記憶装置に含まれてもよい。
(動作について)
図4は、本実施の形態に係る対話装置1の動作を示すフローチャートである。対話装置1は、自身が備える記憶装置に予め記憶されたプログラムを実行することで、以下に示す対話処理を実現できる。
図4を参照して、マイクロフォン2にユーザの音声が入力されると(ステップS1)、フレーズ認識部3は、入力音声信号を分析し、特徴量を算出する(ステップS2)。その後、フレーズ認識部3は、算出した特徴量と、記憶部9Aに記憶されたモデルパラメータとに基づいて、フレーズ認識を行う(ステップS3)。つまり、登録フレーズのうち、最も尤度の高いフレーズを、フレーズ候補として判定する。
フレーズ候補が判定されると、第1の受理判定部4は、そのフレーズの尤度に基づいて、受理/棄却を判定する(ステップS4)。具体的には、第1の受理判定部4は、フレーズ候補そのものの尤度だけでなく、第2候補との尤度差等、他のフレーズの尤度をさらに用いて、フレーズ候補を受理するか否かを判定する。フレーズ候補の受理/棄却判定は、公知の手法により行われてよい。
ステップS4においてフレーズ候補の受理/棄却が判定されると、信頼度判定部5が、一次判定結果の信頼度を判定する(ステップS5,S7)。フレーズ候補の判定結果が「受理」である場合、ステップS5において信頼度が判定され、フレーズ候補の判定結果が「棄却」である場合には、ステップS7において信頼度が判定されるが、両処理は同じであってもよい。
フレーズ候補の判定結果が「受理」であり、かつ、信頼度が高いと判定されると(ステップS6にて「高い」)、返答処理部8は通常応答を行う(ステップS11)。具体的には、「テレビをつけて」という登録フレーズが存在し、ユーザが登録フレーズと同じように「テレビをつけて」と発話したとする。その場合、返答処理部8は、記憶部9Dに格納された第1のデータテーブル(図2)を参照し、たとえば「わかりました。何チャンネルにしますか?」という返答音声データを選択する。これにより、スピーカ10から、選択されたデータに応じた返答音声が出力される。
フレーズ候補の判定結果が「棄却」であり、かつ、信頼度が高いと判定されると(ステップS8にて「高い」)、返答処理部8による応答を行うことなく、処理を終了する。
ステップS6,S8において信頼度が低いと判定されると、音素認識部6が、ステップS1で入力された音声信号に対して音素認識を行い、音素認識により認識された音素列と、記憶部9Cに記憶された単語データとを照合することにより、音素列に含まれる1つまたは複数の登録単語を判別する(ステップS9)。
登録単語が判別されると、第2の受理判定部7が、判別された登録単語の受理判定を行う(ステップS10)。判別された登録単語が「受理」と判定された場合(ステップS10にて「受理」)、ステップS11に進み、通常応答を行う。音素認識を経た後の通常応答においては、返答処理部8は、記憶部9Dに格納された第2のデータテーブル(図3)を参照する。
具体的には、ユーザが「テレビつけて」という未登録フレーズを発話し、音素認識部6により「テレビ」と「つけて」が判別されたと仮定する。第2の受理判定部により両方の単語が「受理」と判定された場合、返答処理部8は、第2のデータテーブルを参照し、「受理」の返答情報のうち、「テレビ」と「つけて」の組に対応付けられた返答音声データを選択する。
この場合の返答音声データは、「テレビをつけて」という登録フレーズに対応付けられた返答音声データと同じ(たとえば「わかりました。何チャンネルにしますか?」)とすることができる。つまり、「テレビつけて」という一纏まりのフレーズは未登録であったとしても、本実施の形態によれば、このフレーズを正解フレーズとして応答することができる。
ステップS9で判別された登録単語が「棄却」と判定された場合(ステップS10にて「棄却」)、返答処理部8による応答を行うことなく、処理を終了する。
これに対し、ステップS9で判別された登録単語が「確認」と判定された場合(ステップS10にて「確認」)、返答処理部8は確認応答を行う(ステップS12)。たとえば、上記の例と同様に、ユーザが「テレビつけて」という未登録フレーズを発話し、音素認識部6により「テレビ」と「つけて」が判別されたと仮定する。第2の受理判定部により両方または一方の単語が第2レベルと判定された場合、返答処理部8は、第2のデータテーブルを参照し、「確認」の返答情報のうち、「テレビ」と「つけて」の組に対応付けられた返答音声データを選択する。
この場合の返答音声データは「受理」のときとは異なる。この場合、たとえば「テレビをつけるのですか?」という返答を行うこととしてよい。
あるいは、ユーザが発話したフレーズのうち、前半の「テレビ」という単語だけが第1レベルと判定された場合、「テレビをどうするのですか?」のように、認識できた単語を返答フレーズに含めるようにしてもよい。同様に、ユーザが発話したフレーズのうち、後半の「つけて」という単語だけが第1レベルと判定された場合、「何をつけるのですか?」のように返答することもできる。
なお、返答処理部8は、フレーズまたは単語の認識結果の他、時間情報、温度情報、および位置情報などの付随情報を利用して返答内容を決定することが望ましい。
以上説明したように、本実施の形態によれば、フレーズ単位での音声認識を基本の認識手法としながら、フレーズ候補の受理判定結果の信頼度が低い場合には、音素単位での音声認識を追加で行うため、登録フレーズ以外のフレーズ(または単語)にも反応することが可能となる。つまり、棄却応答を行う頻度を低減することができる。したがって、対話装置1によれば、従来よりも自然な対話を実現できるため、ユーザの満足度を向上させることができる。
また、本実施の形態では、一次判定結果が「受理」の場合においても、信頼度が低い場合には音素認識を実行するため、仮にフレーズ認識部3がフレーズを誤認識したとしても、対話装置1としての誤認識率を低下させることができる。これにより、誤った認識結果に基づく返答を防止できるため、ユーザの満足度をさらに向上させることができる。なお、処理負荷の軽減という観点からすれば、一次判定結果が「棄却」の場合においてのみ、音素認識を実行することとしてもよい。
また、このような対話装置1は、雑音にも強いため、マイクロフォン2のすぐ近くで発話しなくても、適切に音声を認識することができる。これにより、音声認識を有効にするためのボタン操作等を不要とすることができるため、自然に対話を始めることができる。また、このような対話装置1は、通信回線を必要としないため、リアルタイム応答が可能である。また、自動車などの移動体への搭載が容易である。
前述の特徴から、このような対話装置1を各種の能力判定装置に搭載することにより、適切に能力を判定することが可能となる。これにより、能力判定を自動で行うことができるため、能力判定のための人手不足を低減することができる。また、その結果、能力を未確認のまま放置することによる問題の発生を低減することができる。
なお、本実施の形態では、音素認識部6において、音素認識の結果に基づき単語の判別が行われることとしたが、限定的ではない。たとえば、音素認識部6よって認識された音素列が、登録フレーズにどれだけ音響的に近いかを判断し、音響的な近さに応じて反応の仕方を変えてもよい(正解、○○ですか?、もう一度言って下さい、棄却、など)。
対話装置1により実行される対話処理方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない(non-transitory)記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 対話装置、2 マイクロフォン、3 フレーズ認識部、4 第1の受理判定部、5 信頼度判定部、6 音素認識部、7 第2の受理判定部、8 返答処理部、9A〜9D 記憶部、10 スピーカ。

Claims (6)

  1. ユーザが発話したフレーズに応じた返答を行う対話装置であって、
    ユーザの音声を入力する音声入力部と、
    前記音声入力部から得られる入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するフレーズ認識部と、
    前記フレーズ認識部により認識されたフレーズ候補に対し、少なくともその尤度に基づいて、前記フレーズ候補を受理するか否かを判定する第1の受理判定部と、
    前記第1の受理判定部による判定結果の信頼度を判定する信頼度判定部と、
    前記信頼度判定部により判定された信頼度が所定レベルよりも低い場合に、前記入力音声信号に基づいて、音声を音素単位で認識する音素認識部と、
    前記音素認識部による認識結果に応じた返答フレーズの出力処理を行う返答処理部とを備える、対話装置。
  2. 前記音素認識部は、認識した音素列に含まれる単語を判別し、
    前記音素認識部による単語の判別結果に応じて、受理、棄却、または確認の判定を行う第2の受理判定部をさらに備え、
    前記返答処理部は、前記第2の受理判定部による判定結果に基づいて、返答フレーズの出力処理を行う、請求項1に記載の対話装置。
  3. 複数の返答音声データを予め記憶する音声データ記憶部をさらに備え、
    前記返答処理部は、前記第2の受理判定部により確認と判定された場合には、判別された単語とその位置情報とに基づいて、前記音声データ記憶部から、出力する返答音声データを選択する、請求項2に記載の対話装置。
  4. 前記信頼度判定部は、前記第1の受理判定部により棄却と判定された場合にのみ、判定結果の信頼度を判定する、請求項1〜3のいずれかに記載の対話装置。
  5. 前記返答処理部は、前記信頼度判定部により判定された信頼度が所定レベル以上の場合には、前記第1の受理判定部による判定結果に応じた返答フレーズの出力処理を行う、請求項1〜4のいずれかに記載の対話装置。
  6. ユーザが発話したフレーズに応じた返答を行う対話装置によって実行されるプログラムであって、
    入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するステップと、
    認識されたフレーズ候補に対し、少なくともその尤度に基づいて、前記フレーズ候補を受理するか否かを判定するステップと、
    前記フレーズ候補を受理するか否かの判定結果の信頼度を判定するステップと、
    判定された信頼度が所定レベルよりも低い場合に、前記入力音声信号に基づいて、音声を音素単位で認識するステップと、
    音素単位での音声認識結果に応じた返答フレーズの出力処理を行うステップとを備える、対話プログラム。
JP2017192384A 2017-10-02 2017-10-02 対話装置および対話プログラム Active JP6920730B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017192384A JP6920730B2 (ja) 2017-10-02 2017-10-02 対話装置および対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017192384A JP6920730B2 (ja) 2017-10-02 2017-10-02 対話装置および対話プログラム

Publications (2)

Publication Number Publication Date
JP2019066677A true JP2019066677A (ja) 2019-04-25
JP6920730B2 JP6920730B2 (ja) 2021-08-18

Family

ID=66340644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017192384A Active JP6920730B2 (ja) 2017-10-02 2017-10-02 対話装置および対話プログラム

Country Status (1)

Country Link
JP (1) JP6920730B2 (ja)

Also Published As

Publication number Publication date
JP6920730B2 (ja) 2021-08-18

Similar Documents

Publication Publication Date Title
US8694316B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US20190355352A1 (en) Voice and conversation recognition system
JP4679254B2 (ja) 対話システム、対話方法、及びコンピュータプログラム
JP4786384B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10506088B1 (en) Phone number verification
US8428944B2 (en) System and method for performing compensated speech recognition
JP6121842B2 (ja) 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP4960596B2 (ja) 音声認識の方法およびシステム
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
US10504520B1 (en) Voice-controlled communication requests and responses
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2005283647A (ja) 感情認識装置
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2003330491A (ja) 音声認識装置および音声認識方法ならびにプログラム
JP2019197221A (ja) 用件判定装置、用件判定方法およびプログラム
JP6920730B2 (ja) 対話装置および対話プログラム
JP2019207329A (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP2019132997A (ja) 音声処理装置、方法およびプログラム
KR20230135396A (ko) 대화 관리 방법, 사용자 단말 및 컴퓨터로 판독 가능한 기록 매체
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210716

R150 Certificate of patent or registration of utility model

Ref document number: 6920730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250