JP6540414B2

JP6540414B2 - 音声処理装置および音声処理方法

Info

Publication number: JP6540414B2
Application number: JP2015183973A
Authority: JP
Inventors: 一博中臺; 圭佑中村; 山本　俊一; 俊一山本; 近藤　宏; 宏近藤; 住田　直亮; 直亮住田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2019-07-10
Anticipated expiration: 2035-09-17
Also published as: JP2017058545A; US20170084271A1; US9858924B2

Description

本発明は、音声処理装置および音声処理方法に関する。

利用者の発話内容に対して音声認識を行い、音声認識した結果を用いて処理を行う音声対話システムが求められている。近年、例えば会社やホテルの受け付け等に人型ロボットが採用され始めている。このような受け付けロボットは、シナリオに沿った案内の音声を出力するだけであった。また、会社等の受け付けに、表示部やタッチパネルを有する無人受け付けシステムが採用され始めている。例えば、無人受け付けシステムを会社の受け付けに用いる場合、来客者は、タッチパネルを操作して、訪問先の担当者に電話を接続していた。この場合、無人受け付けシステムは、例えば担当者の名前、担当者の所属部署名を来客者が入力または選択することで、担当者の内線番号を検索して担当者に電話を接続していた。

例えば、特許文献１には、入力された音声信号を認識して、認識した結果を用いて航空券や列車チケットの予約または購入、ホテルの予約を行う音声対話システムが開示されている。特許文献１に記載の技術では、入力された音声信号を認識して、その中から意味表現を取り出す。そして、特許文献１に記載の技術では、取り出した意味表現を意味的なまとまりに細分化し、分割された意味的なまとまりを逐次処理することで、予約や販売処理を行う。なお、意味表現とは、航空券や列車チケットの予約または購入、ホテルの予約を行う際に利用者が発話するフレーズである。

特開平６−２５９０９０号公報

しかしながら、特許文献１に記載の技術では、認識内容に誤りがあった場合、訪問者が発話を繰り返しても認識を誤ることがあるので、発話内容の意図を正確に取得するまで時間がかかるという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音声処理装置は、音声信号を取得する音声入力部と、前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、前記利用者に対して質問を行う質問部と、を備え、第１の優先度に対応する質問内容は、複数の項目を一度に質問して、前記利用者に発話を促す質問であり、第２の優先度に対応する質問内容は、複数の項目それぞれを１つずつ質問して、前記利用者に発話を促す質問であり、前記質問部は、前記第１の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行い、前記第１の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解部が理解した理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第２の優先度に変更し、前記第２の優先度に対応する質問内容に変更して、前記第２の優先度に対応する質問内容の質問を前記利用者に行う。

（２）また、本発明の一態様に係る音声処理装置において、前記質問部は、前記第２の優先度の場合に、前記第１の優先度に対応する質問内容を、前記第１の優先度に対応する質問内容に含まれる項目が前記利用者に発話を促したい目的語を聞きだす質問内容に変更するようにしてもよい。

（３）また、本発明の一態様に係る音声処理装置は、画像表示部を備え、前記画像表示部は、前記質問内容に対する音声信号を理解した前記理解結果の候補が複数の場合に、前記複数の候補を前記画像表示部に表示させ、前記利用者により前記複数の候補から１つを選択可能にするようにしてもよい。
（４）また、本発明の一態様に係る音声処理装置において、前記質問部は、前記音声認識部によってＮ−Ｂｅｓｔを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させるようにしてもよい。

（５）上記目的を達成するため、本発明の一態様に係る音声処理方法は、第１の優先度に対応する質問内容は、複数の項目を一度に質問して、利用者に発話を促す質問であり、第２の優先度に対応する質問内容は、複数の項目それぞれを１つずつ質問して、前記利用者に発話を促す質問であり、音声入力部が、音声信号を取得する音声入力手順と、音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識を行う音声認識手順と、意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、質問部が、前記第１の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行う手順と、前記質問部が、前記第１の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解手順によって理解された理解結果が正しいか否かを前記利用者に対して確認する確認質問を行う手順と、前記質問部が、前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第２の優先度に変更し、前記第２の優先度に対応する質問内容に変更して、前記第２の優先度に対応する質問内容の質問を前記利用者に行う手順と、を含む。

上述した（１）または（５）の構成によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。

また、上述した（１）の構成によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じて例えば異なる質問文を用いて、利用者に質問を行う。この結果、上述した（２）の構成によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させるこができる。

また、上述した（２）の構成によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、例えば受け付け業務において、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、上述した（２）の構成によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。

また、上述した構成によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、上述した構成によれば、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。

また、上述した（３）または（４）の構成によれば、ロボットと訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることができる。

第１実施形態に係る音声処理装置を含むロボットの概略構成を示すブロック図である。第１実施形態に係る優先度とシナリオの例を示す図である。第１実施形態に係る優先度が１の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。第１実施形態に係る優先度が２の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。第１実施形態に係る優先度が３の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。第１実施形態に係る音声処理装置の処理のフローチャートである。第２実施形態に係る音声処理装置の概略構成を示すブロック図である。第２実施形態に係る画像表示部に表示される画像の例を示す図である。第２実施形態に係る音声処理装置の処理のフローチャートである。第１実施形態〜第３実施形態に係るＤＢに格納されている担当者に関する情報の例を示す図である。第３実施形態に係るシナリオ記憶部に記憶されている情報の一例を示す図である。第３実施形態に係る画像表示部に表示される画像の例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音声処理装置をロボットが備える例について説明を行う。

［発明の概要］
まず、本発明の概要を説明する。
本発明では、人型ロボット（以下、単にロボットともいう）が受付にて来客者を認識したとき、受け付け業務を開始する。ロボットは、まず、所定の優先度に応じて、来客者に来客者の所属と名前、訪問先の担当者の所属と名前の発話を促す１回目の質問または発話を行う。そして、ロボットは、来客者の発話を音声認識した結果を理解し、理解した内容が正しいか否かを来客者に確認する。理解した内容が正しい場合、ロボットは、担当者に来客者が訪れたことを送信、または担当者に電話を接続する。理解した内容が正しくなかった場合、ロボットは、来客者の発話内容におけるキーワードを聞き出すために、１回目の質問とは異なる質問を所定の優先度に応じて行い、質問への応答内容を変更する。このように、本発明では、質問内容を質問回数毎に変化させることで、発話者が意図するキーワードを適切に発話者から聞き出すことができる。

［第１実施形態］
＜音声処理装置１の構成＞
図１は、本実施形態に係る音声処理装置１を含むロボット２の概略構成を示すブロック図である。図１に示すように、ロボット２は、音声処理装置１、センサ２１、駆動制御部２２、駆動部２３を含んで構成される。音声処理装置１は、撮像部１０、画像認識部１１、収音部１２、音声認識辞書１３、音声認識部１４、ＤＢ１５、意図理解部１６、および質問部１７を備えている。質問部１７は、シナリオ記憶部１７１、シナリオ選択部１７２、質問回数記憶部１７３、および音声出力部１７４を備えている。
なお、以下の説明では、ロボット２が、担当者への来客時の受付を行う場合について説明する。

センサ２１は、例えば各駆動部２３に取り付けられている力センサや姿勢センサであり、検出した検出結果を駆動制御部２２に出力する。
駆動制御部２２は、センサ２１が出力した検出結果に応じて、各駆動部２３の駆動を制御する。また、駆動制御部２２は、音声処理装置１が出力した画像に基づいて、例えば、ロボット２の顔に相当する部分を訪問者に向けるように制御してもよい。
駆動部２３は、ロボット２の腕、脚、頭部等に取り付けられている例えば複数のモータ、機構部等である。
なお、ロボット２は、電源（不図示）等をさらに備えている。

撮像部１０は、ロボット２の例えば人の目に対応する位置に取り付けられているＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ；電荷結合素子）カメラ、またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭＯＳ；相補性金属酸化膜半導体）カメラ等である。撮像部１０は、撮像した画像を画像認識部１１に出力する。なお、撮像部１０は、所定のタイミング毎に画像を撮像するようにしてもよい。

画像認識部１１は、撮像部１０が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。画像認識部１１は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。画像認識部１１は、生成した訪問者が訪れたことを示す情報を質問部１７に出力する。
なお、本実施形態では、撮像部１０と画像認識部１１を用いて、訪問者の訪問を認識する例を説明するが、訪問者の認識は、例えば人感センサ等を用いて行うようにしてもよい。

収音部１２は、ロボット２の例えば耳に対応する位置または頭部に対応する位置に取り付けられている少なくとも１つのマイクロホンである。収音部１２は、収音した音声信号を音声認識部１４に出力する。

音声認識辞書１３には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、単語辞書には、訪問者の会社名や部署名、担当者の部署名、人名が含まれている。また、音声認識辞書１３に格納されていない訪問者の会社名、訪問者名取得する毎に、音声認識辞書１３を音声認識部１４が更新するようにしてもよい。

音声認識部１４には、収音部１２が出力する音声信号、質問部１７が出力するロボット２の発話区間を示す情報が入力される。音声認識部１４は、収音部１２が出力した音声信号のうちロボット２の発話区間以外の音声信号について発話区間を検出し、検出した発話区間の音声信号に対して、音声認識辞書１３を参照して、周知の手法を用いて音声認識を行う。音声認識部１４は、認識した認識結果を意図理解部１６に出力する。なお、認識結果は、例えばテキスト情報である。なお、音声認識部１４は、例えば特開２０１５−６４５５４号公報に開示されている手法等を用いて音声認識を行う。なお、音声認識部１４は、例えばＢ−Ｂｅｓｔを用いて最も認識スコアが高かった認識候補を認識結果として意図理解部１６に出力する。例えば、訪問者の発話が「ＸＸＸ社の田中と申しますが、ＹＹＹ部の鈴木さまをお願いいたします。」の場合の認識結果は、「えっくすえっくすえっくすしゃのたなかともうしますが、わいわいわいぶのすずきさまをおねがいします」である。

ＤＢ１５には、概念モデルが格納されている。ここで、概念モデルとは、訪問者の発話パターンに基づいて、どのような要件が発話されるのかを想定し、発話パターン毎に、意味理解に用いる規則や文法などが記述されているモデルである。発話パターンは、例えば、担当者への来客時の受付での訪問者による発話、タクシーの呼び出しのための発話、打合せ場所の案内を求める発話等である。さらに、ＤＢ１５には、担当者の名前に担当者の所属と電話番号、性別、主な業務内容等が関連付けられて格納されている。

意図理解部１６には、音声認識部１４が出力した認識結果、シナリオ選択部１７２が出力した質問文または確認文を示す情報が入力される。意図理解部１６は、認識結果を、ＤＢ１５を参照して、かつシナリオ選択部１７２から入力された情報に基づいて、発話内容の意図を周知の手法を用いて発話内容の意図を理解する。ここで、発話内容の意図とは、担当者への来客時の受付、タクシーの呼び出し、打合せ場所の案内等である。意図理解部１６は、発話パターンが担当者への来客時の受付である場合、優先度に応じて、該当する担当者と当該担当者に対応付けられている情報（部署、性別、電話番号、主な業務）をＤＢ１５から抽出する。意図理解部１６は、音声認識された結果と理解した発話内容の意図を示す情報を理解結果としてシナリオ選択部１７２に出力する。

シナリオ記憶部１７１には、優先度に応じた訪問者に対する受け答えのシナリオが記憶されている。また、シナリオ記憶部１７１には、質問回数と優先度の対応が記憶されている。なお、シナリオ記憶部１７１に記憶されている情報の例は、後述する。

シナリオ選択部１７２は、画像認識部１１から訪問者が訪問したことを示す情報が入力されたとき、質問回数に１を加算する。シナリオ選択部１７２は、質問回数記憶部１７３に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部１７２は、意図理解部１６が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。シナリオ選択部１７２は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部１７４に出力する。また、シナリオ選択部１７２は、意図理解部１６が出力した理解結果が正しいか否かを判別するために、優先度に応じたタイミングで理解内容の確認を行う質問を、シナリオを用いて行い、この質問に対する訪問者の応答に応じて、２回目以降の質問を行うか否かを判別する。シナリオ選択部１７２は、訪問者に対する質問文または確認文を示す情報を意図理解部１６に出力する。シナリオ選択部１７２は、同一の訪問者に対して行った質問回数を質問回数記憶部１７３に記憶させる。シナリオ選択部１７２は、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を０にリセットする。なお、優先度、シナリオの例については、後述する。

質問回数記憶部１７３は、同一の訪問者に対する質問回数を記憶する。なお、質問回数の初期値は、例えば０である。

音声出力部１７４は、ロボット２の例えば口に対応する位置に取り付けられているスピーカである。音声出力部１７４は、シナリオ選択部１７２が出力した音声信号を発する。

＜優先度、シナリオの例＞
次に、優先度とシナリオの例を説明する。
図２は、本実施形態に係る優先度とシナリオの例を示す図である。図２に示すように、各シナリオには、優先度と、何回目の質問でシナリオを用いるのかと、発話を切るタイミングおよび理解結果を確認するタイミングとが対応付けられてシナリオ記憶部１７１に記憶されている。
質問回数が１回目のとき優先度は１であり、質問回数が２回目または３回目のとき優先度は２であり、質問回数が４回目のとき優先度は３である。また、図２において「−＞」は、発話を切るタイミングと理解結果を確認するタイミングを表している。なお、図２に示した例は一例であり、これに限られない。例えば、質問回数が２回目のとき優先度は２であり、質問回数が３回目のとき優先度は３であってもよい。また、優先度は２つ以上であればよく、４つ以上であってもよい。

優先度が１では、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を、訪問者に発話させることを促すシナリオと、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を理解した結果を確認するシナリオが設定されている。

図３は、本実施形態に係る優先度が１の場合のシナリオに基づくロボット２と訪問者との会話の一例を示す図である。図３において、Ｒ１１とＲ１２は、シナリオに基づくロボット２の発話であり、Ｈ１１とＨ１２は、訪問者（お客様）の発話である。
質問回数が１回目であるため、シナリオ選択部１７２は優先度を１に設定し、優先度が１に対応するシナリオをシナリオ記憶部１７１から読み出す。
図３に示すように、ロボット２は、読み出されたシナリオに対応する発話Ｒ１１を、音声出力部１７４を介して行うことによって、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」の４つの項目を、訪問者に発話させることを促す。
この発話Ｒ１１に応じて、訪問者は、発話Ｈ１１を行う。

ロボット２は、発話Ｈ１１を取得し、取得した発話Ｈ１１の音声認識を行う。音声認識の結果、音声認識部１４は、「ＸＸＸ社の田中と申しますが、ＹＹＹ部の鈴木さまを、お願いいたします。」のテキスト情報を得る。そして、意図理解部１６は、訪問者の発話Ｈ１１の内容を、ＤＢ１５を参照して理解し、理解した結果、訪問者の所属が「えっくすえっくすえっくすしゃ」であり、訪問者の名前が「たなか」であり、担当者の所属が「ぜっとぜっとぜっとぶ」であり、担当者の名前が「すずか」であると理解する。そして、シナリオ選択部１７２は、優先度が１に対応するシナリオに応じて、理解結果を確認する発話Ｒ１２を、音声出力部１７４を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。なお、シナリオ選択部１７２は、例えば、シナリオ記憶部１７１に記憶されているシナリオのひな形に、意図理解部１６が出力した理解された結果を埋め込んで、音声信号を生成する。
この発話Ｒ１２に対して、訪問者は、発話Ｈ１２を行う。すなわち、音声処理装置１の認識、理解結果が間違っていたため、間違っていることを示す発話を行う。
シナリオ選択部１７２は、図３に示した一連の会話を終了した後、理解結果が誤っていたため、質問回数に１を加算する。

なお、シナリオ選択部１７２は、意図理解部１６が出力した理解結果に基づいて、理解された結果が正しいか否かを判別する例を説明したが、これに限られない。例えば、画像認識部１１が、取得した画像に対して周知の手法で画像認識を行うことで、訪問者がうなずいているのか、首をかしげる等を行っているのかを認識して、認識した動作認識結果をシナリオ選択部１７２に出力するようにしてもよい。この場合、シナリオ選択部１７２は、画像認識部１１が出力した動作認識結果に基づいて、理解された結果が正しいか否かを判別するようにしてもよい。

図２に戻って、優先度とシナリオの説明を続ける。
優先度が２では、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」の項目の１つずつを、訪問者に発話させることを促すシナリオと、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」それぞれを逐次理解した結果を逐次確認するシナリオが設定されている。

図４は、本実施形態に係る優先度が２の場合のシナリオに基づくロボット２と訪問者との会話の一例を示す図である。図４において、Ｒ２１〜Ｒ２８は、シナリオに基づくロボット２の発話であり、Ｈ２１〜Ｈ２８は、訪問者の発話である。また、Ｃ２１〜Ｃ２４は、発話のグループを示している。

図４に示すように、シナリオ選択部１７２は、優先度が２に対応付けられているシナリオに応じて、まず、「訪問者の所属」を、訪問者に発話させることを促すシナリオ読み出し、読み出したシナリオに基づく発話Ｒ２１を、音声出力部１７４を介して行う。
訪問者は、発話Ｒ２１に応じて、発話Ｈ２１を行う。
そして、シナリオ選択部１７２は、発話Ｈ２１が理解された結果を用いて、優先度が２に対応するシナリオに応じた発話Ｒ２２を、音声出力部１７４を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。２回目では、このように１つの項目毎に認識および理解と確認を行う。
訪問者は、発話Ｒ２２に応じて、発話Ｈ２２を行う。なお、シナリオ選択部１７２は、確認した応答である発話Ｈ２２が「いいえ」であっても、Ｃ２２以下の会話を継続する。
以下、音声処理装置１は、「訪問者の名前」、「担当者の所属」、および「担当者の名前」１つずつを、訪問者に発話させることを促し、１つの項目毎に理解された結果を確認していく。
シナリオ選択部１７２は、図４に示したＣ２１〜Ｃ２４の一連の会話を終了した後、理解結果が誤っていたため、質問回数に１を加算する。

意図理解部１６は、２回目の質問で得られた結果、音声認識結果が間違っていた項目が「担当者の所属」および「担当者の名前」であると理解する。そして、意図理解部１６は、シナリオ選択部１７２に、３回目の質問を行うことを示す情報を出力する。この場合、シナリオ選択部１７２は、音声認識結果が間違っていた「担当者の所属」および「担当者の名前」についての会話Ｃ２３とＣ２４を行う。なお、シナリオ選択部１７２は、同じ優先度に複数のシナリオがシナリオ記憶部１７１に格納されている場合、２回目と３回目で異なるシナリオを選択する、すなわち２回目と３回目で質問が異なるようにしてもよい。

図２に戻って、優先度とシナリオの説明を続ける。
優先度が３では、「担当者の所属」と「担当者の名前」１つずつを、訪問者に発話させることを促すシナリオと、「担当者の所属」と「担当者の名前」それぞれを逐次理解した結果を、逐次確認するシナリオが設定されている。このように、優先度が３の場合に、「担当者の所属」と「担当者の名前」のみを質問して、訪問者から得る理由は、仮に訪問者の名前や所属の認識・理解結果が間違っていても、担当者へ連絡する優先順位が高いためである。例えば、初めて来社された訪問者の場合、訪問者名がＤＢ１５に格納されていず、正しく音声認識できない場合もある。その場合であっても、例えば電話を接続することが優先であるため、会社名および訪問者名の再質問を担当者に行わない。

図５は、本実施形態に係る優先度が３の場合のシナリオに基づくロボット２と訪問者との会話の一例を示す図である。図５において、Ｒ３１、Ｒ３２は、シナリオに基づくロボット２の発話であり、Ｈ３１、Ｈ３２は、訪問者の発話である。
図５に示す例では、発話Ｒ３１に対して、訪問者が担当者の名前に関する発話Ｈ３１を行ったため、意図理解部１６は、発話Ｈ３１に含まれている名詞が担当者の名前であると理解する。なお、図５に示す例では、音声認識部１４によって、担当者の名前が「すずき」と認識された例である。そして、意図理解部１６は、ＤＢ１５を参照して、「すずき」に該当する担当者が「鈴木」であると理解する。次に、意図理解部１６は、複数の「鈴木」がＤＢ１５に存在する場合、ＤＢ１５を探索して「鈴木」が所属する部署を抽出する。図５に示す例では、該当する担当者「鈴木」が２名存在していたため、意図理解部１６は、該当する２人の担当者に関する情報（所属と名前）を、シナリオ選択部１７２に出力する。シナリオ選択部１７２は、優先度が３に対応付けられているシナリオに応じて、担当者がどちらであるかを質問する発話Ｒ３１のシナリオを選択する。
なお、図５に示した例では、同じ名字の担当者が異なる部署に存在する例を示したが、同じ部署に同じ名字の担当者が複数存在する場合、該当者が男性と女性の場合、男性であるか女性であるかを質問するシナリオを選択するようにしてもよく、該当者のフルネームを質問するシナリオを選択するようにしてもよく、該当者が主に担当している業務内容を質問するシナリオを選択するようにしてもよい。

以上のように、優先度が１の場合、音声処理装置１は、４つの項目（訪問者の所属、訪問者名、担当者の所属、担当者の名前）を一回の発話から認識する。このため、仮に１つの項目に対する認識率が９０％である場合、４つの項目が全て正しく認識できる確率は約６６％（＝０．９＾４）である。
一方、優先度が２および３の場合、音声処理装置１は、１つの項目（訪問者の所属、訪問者名、担当者の所属、担当者の名前のうちの１つ）毎に発話を促し、１つの項目が含まれている発話から認識する。このため、仮に１つの項目に対する認識率が９０％である場合、４つの項目それぞれを正しく認識できる確率それぞれは９０％である。すなわち、項目を１つずつ認識することで、４つの項目全ての認識率を向上させることができる。また、認識結果が誤っていた項目のみについて質問を行う（すなわち、前回と異なる質問を行う）ようにしたので、全ての項目に対して再度認識を繰り返す必要がなくなり、認識にかかる時間を短縮することができる。

＜音声処理装置１の処理手順＞
次に、音声処理装置１の処理手順を説明する。
図６は、本実施形態に係る音声処理装置１の処理のフローチャートである。なお、図６では、優先度が１〜３の例を説明する。

（ステップＳ１）画像認識部１１は、撮像部１０が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。続けて、画像認識部１１は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。

（ステップＳ２）シナリオ選択部１７２は、画像認識部１１から訪問者が訪問したことを示す情報が入力されたとき、質問回数に１を加算する。続けて、シナリオ選択部１７２は、質問回数記憶部１７３を参照して、優先度を１に決定する。
（ステップＳ３）シナリオ選択部１７２は、優先度が１であるか２であるか３であるかを判別する。シナリオ選択部１７２は、優先度が１であると判別した場合（ステップＳ３；優先度１）、ステップＳ４に処理を進め、優先度が２であると判別した場合（ステップＳ３；優先度２）、ステップＳ１０に処理を進め、優先度が３であると判別した場合（ステップＳ３；優先度３）、ステップＳ１３に処理を進める。

（ステップＳ４）シナリオ選択部１７２は、優先度１に応じた訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。

（ステップＳ５）シナリオ選択部１７２は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部１７４から発することで、訪問者への質問を行う。
（ステップＳ６）音声認識部１４は、収音部１２によって収音された訪問者への質問に対する応答である音声信号を取得する。続けて、音声認識部１４は、取得した音声信号に対して、音声認識辞書１３を参照して、音声認識を行う。

（ステップＳ７）意図理解部１６は、音声認識部１４が出力した認識結果に対して、ＤＢ１５を参照して、発話内容の意図を理解する。

（ステップＳ８）シナリオ選択部１７２は、優先度１に応じて、訪問者の発話を認識、理解した結果が正しいか否かを確認するシナリオを選択する。続けて、シナリオ選択部１７２は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部１７４から発することで、訪問者への確認を行う。

（ステップＳ９）音声認識部１４は、収音部１２によって収音された訪問者への確認に対する応答である音声信号を取得する。続けて、音声認識部１４は、取得した音声信号に対して、音声認識辞書１３を参照して、音声認識を行う。続けて、意図理解部１６は、音声認識部１４が出力した認識結果に対して、ＤＢ１５を参照して、発話内容の意図を理解する。続けて、意図理解部１６は、ステップＳ１６に処理を進める。

（ステップＳ１０）シナリオ選択部１７２は、優先度２に応じた訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。
（ステップＳ１１）音声認識部１４、意図理解部１６、およびシナリオ選択部１７２は、ステップＳ５〜ステップＳ９の処理を行う。

（ステップＳ１２）シナリオ選択部１７２は、優先度２に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部１７２は、優先度２に対応するシナリオの質問が全て終了したと判別した場合（ステップＳ１２；ＹＥＳ）、ステップＳ１６の処理に進め、優先度２に対応するシナリオの質問が全て終了していないと判別した場合（ステップＳ１２；ＮＯ）、ステップＳ１１の処理に戻す。

（ステップＳ１３）シナリオ選択部１７２は、優先度３に応じた訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。
（ステップＳ１４）音声認識部１４、意図理解部１６、およびシナリオ選択部１７２は、ステップＳ５〜ステップＳ９の処理を行う。

（ステップＳ１５）シナリオ選択部１７２は、優先度３に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部１７２は、優先度３に対応するシナリオの質問が全て終了したと判別した場合（ステップＳ１５；ＹＥＳ）、ステップＳ１６の処理に進め、優先度３に対応するシナリオの質問が全て終了していないと判別した場合（ステップＳ１５；ＮＯ）、ステップＳ１４の処理に戻す。

（ステップＳ１６）意図理解部１６は、ステップＳ５で音声認識され、ステップＳ６で理解された結果が正しいか否かを、ステップＳ８で音声認識かつ理解した結果に基づいて判別する。意図理解部１６は、音声認識され理解された結果が正しいと判別した場合（ステップＳ１６；ＹＥＳ）、処理を終了し、音声認識され理解された結果が正しくないと判別された場合（ステップＳ１６；ＮＯ）、ステップＳ２に処理を戻す。
以上で、音声処理装置１の処理を終了する。

以上のように、本実施形態の音声処理装置１は、音声信号を取得する音声入力部（収音部１２）と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部１４と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部１６と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部１７と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。

この構成によって、本実施形態によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。

また、本実施形態の音声処理装置１において、質問部１７は、理解結果が正しいか否かを利用者に対して確認する確認質問を行い、意図理解部によって確認質問が理解された結果に基づいて、優先度を変更する。

この構成によって、本実施形態によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じたシナリオを用いて例えば異なる質問文を用いて、利用者に質問を行う。この結果、本実施形態によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させることができる。

また、本実施形態の音声処理装置１において、質問部１７は、優先度に応じて、質問内容を、必要な目的語を聞きだす質問内容に変更する。

この構成によって、本実施形態によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、本実施形態によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。

また、本実施形態の音声処理装置１において、優先度は、利用者に対して行った質問回数に基づく。

この構成によって、本実施形態によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。

なお、図２に示したタイミングの例は１例であり、訪問者へ確認を行うタイミングは、これに限られない。さらに質問を行う順番もこれに限られない。例えば、優先度が２の場合、訪問者の所属と名前までを連続して質問、取得し、担当者の所属と名前については、項目毎に質問、取得するようにしてもよい。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、１項目毎に行う方法に限られず、図５に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。

なお、音声認識辞書１３、ＤＢ１５、シナリオ記憶部１７１のうち少なくとも１つが、ネットワーク（不図示）を介して音声処理装置１と接続されていてもよい。さらに、音声認識辞書１３、ＤＢ１５、シナリオ記憶部１７１に格納または記憶されている情報は、更新、追加、修正のうちの少なくとも１つが音声認識部１４、意図理解部１６、シナリオ選択部１７２によって行われてもよい。

［第２実施形態］
第１実施形態では、訪問者が発話した発話内容に対する理解結果が正しいか否かを、音声を用いて確認する例を説明した。本実施形態では、画像表示部に理解結果を提示して、訪問者に確認してもらい、または認識結果または理解結果の候補が複数有る場合に複数の候補を提示して訪問者に選択してもらう例を説明する。

図７は、本実施形態に係る音声処理装置１Ａの概略構成を示すブロック図である。図７に示すように、音声処理装置１Ａは、撮像部１０、画像認識部１１、収音部１２、音声認識辞書１３、音声認識部１４、ＤＢ１５、意図理解部１６、質問部１７Ａ、画像表示部１８、およびタッチパネル入力部１９を備えている。質問部１７Ａは、シナリオ記憶部１７１、シナリオ選択部１７２Ａ、質問回数記憶部１７３、および音声出力部１７４を備えている。なお、第１実施形態と同様に、音声処理装置１Ａがロボット２に搭載されている例を説明する。また、音声処理装置１と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

シナリオ選択部１７２Ａは、画像認識部１１から訪問者が訪問したことを示す情報が入力されたとき、質問回数に１を加算する。シナリオ選択部１７２Ａは、質問回数記憶部１７３に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部１７２Ａは、意図理解部１６が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。シナリオ選択部１７２Ａは、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部１７４に出力する。また、シナリオ選択部１７２Ａは、意図理解部１６が出力した理解結果が正しいか否かを判別するために、理解内容の確認を行う質問を行う画像を生成し、生成した画像を画像表示部１８に表示させる。シナリオ選択部１７２Ａは、この質問に対するタッチパネル入力部１９が出力した訪問者の応答に応じて、２回目以降の質問を行うか否かを判別する。シナリオ選択部１７２Ａは、同一の訪問者に対して行った質問回数を質問回数記憶部１７３に記憶させる。また、シナリオ選択部１７２Ａは、音声認識された結果の候補が複数存在する場合、または理解された結果の候補が複数存在する場合、タッチパネル入力部１９を訪問者が操作した操作結果を取得し、取得した操作結果に基づいて、複数の候補から１つの候補を選択する。シナリオ選択部１７２Ａは、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を０にリセットする。

画像表示部１８は、例えば液晶パネルである。画像表示部１８は、質問部１７Ａが出力した画像を表示する。質問部１７Ａと画像表示部１８とは、有線または無線で接続されている。また、画像表示部１８は、例えばスマートフォンなどの携帯電話、タブレット端末等であってもよい。

タッチパネル入力部１９は、画像表示部１８の上面に設けられているタッチパネルセンサである。タッチパネル入力部１９は、訪問者の操作を受け付け、受け付けた操作結果を示す情報をシナリオ選択部１７２Ａに出力する。

＜画像表示部１８に表示される画像の例＞
次に、画像表示部１８に表示される画像の例を説明する。
図８は、本実施形態に係る画像表示部１８に表示される画像ｇ１０１の例を示す図である。なお、図８に示した例は、４つの項目（訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前）それぞれに対する理解結果を画像表示部１８に表示させ、タッチパネル入力部１９を訪問者が操作して、それぞれの確認を行う例である。符号１２１で囲んだ領域における各欄の領域毎（ただし空欄を除く）には、ボタンが割り当てられている。図８に示した画像ｇ１０１は、例えば、優先度が１の場合に、訪問者の返答を音声認識、理解したときに表示される。

鎖線ｇ１１１で囲んだ領域は、訪問者の所属を確認するために画像表示部１８に表示される画像である。また、鎖線ｇ１１１で囲んだ領域は、音声認識部１４が、訪問者の所属を示す音声信号に対して認識した結果に対してＮ−Ｂｅｓｔ探索により上位３つを選択し、意図理解部１６が、選択された上位３つに対応する単語（「ＸＸＸ」、「ＡＡＡ」、「ＺＺＺ」）を選択した例である。訪問者は、「ＸＸＸ」、「ＡＡＡ」、「ＺＺＺ」の候補の中に正解が存在する場合、正解の候補に対応するボタンの画像をタッチして選択し、正解が無い場合、「該当なし」を選択する。なお、正解が無い場合、シナリオ選択部１７２Ａは、ソフトウェアキーボードを画像表示部１８上に表示させ、訪問者にタッチパネル入力部１９を操作してもらって所属を入力させるようにしてもよい。または、シナリオ選択部１７２Ａは、音声信号を用いて、訪問者に所属を再質問するようにしてもよい。

鎖線ｇ１１２で囲んだ領域は、訪問者の名前を確認するために画像表示部１８に表示される画像である。また、鎖線ｇ１１２で囲んだ領域は、音声認識部１４が、訪問者の名前を示す音声信号に対して認識した結果からＮ−Ｂｅｓｔ探索により上位３つを選択し、意図理解部１６が、選択された上位３つに対応する単語（「田中」、「竹中」、「真中」）を選択した例である。

鎖線ｇ１１３で囲んだ領域は、訪問先の担当者の所属を確認するために画像表示部１８に表示される画像である。また、鎖線ｇ１１３で囲んだ領域は、担当者の所属を示す音声信号に対して認識した結果、該当する単語が２つ存在した例であり、意図理解部１６が、Ｎ−Ｂｅｓｔ探索により選択された上位２つに対応する単語（「ＣＣＣＣ」、「ＹＹＹ」）を選択した例である。

鎖線ｇ１１４で囲んだ領域は、訪問先の担当者の名前を確認するために画像表示部１８に表示される画像である。また、鎖線ｇ１１４で囲んだ領域は、担当者の名前の音声信号に対して認識した結果、１つの候補が得られた例であり、意図理解部１６が、選択された１つに対応する単語（「鈴木」）を選択した例である。

なお、シナリオ選択部１７２Ａは、図８に示した確認画面を、優先度毎に表示させるようにしてもよい。また、シナリオ選択部１７２Ａは、優先度が１のとき、図８の表示を行った場合、優先度が２のときに該当なしの項目のみに対して音声信号を用いて項目毎に質問する。または、シナリオ選択部１７２Ａは、優先度が２のときに該当なしの項目のみに対して画像表示部１８にソフトウェアキーボードの画像を表示させ、訪問者によってタッチパネル入力部１９が操作された結果である入力を取得するようにしてもよい。

また、シナリオ選択部１７２Ａは、訪問者への確認に対する応答である「はい」、「いいえ」のボタンを含む画像を生成し、生成した画像を画像表示部１８に表示させるようにしてもよい。この場合、音声処理装置１Ａは、認識、理解した結果に対する質問を、音声信号を用いて行い、図６のステップＳ９において、「はい」、「いいえ」のボタンを含む画像を画像表示部１８に表示させ、タッチパネル入力部１９が出力した入力結果に応じて、認識された内容が正しいか否かを判別するようにしてもよい。

＜音声処理装置１Ａの処理手順＞
次に、音声処理装置１Ａの処理手順を説明する。
図９は、本実施形態に係る音声処理装置１Ａの処理のフローチャートである。なお、図９では、優先度が１〜３の例を説明する。
（ステップＳ１〜Ｓ３）音声処理装置１Ａは、ステップＳ１〜Ｓ２の処理を行う。シナリオ選択部１７２Ａは、優先度が１であるか２であるか３であるかを判別する。シナリオ選択部１７２Ａは、優先度が１であると判別した場合（ステップＳ３；優先度１）、ステップＳ４に処理を進め、優先度が２であると判別した場合（ステップＳ３；優先度２）、ステップＳ１０５に処理を進め、優先度が３であると判別した場合（ステップＳ３；優先度３）、ステップＳ１１０に処理を進める。

（ステップＳ４）シナリオ選択部１７２Ａは、ステップＳ４の処理の終了後、ステップＳ１０１の処理に進む。
（ステップＳ１０１）音声処理装置１Ａは、ステップＳ５〜Ｓ７の処理を行い、処理の終了後、ステップＳ１０２の処理に進む。

（ステップＳ１０２）シナリオ選択部１７２Ａは、意図理解部１６が出力した理解結果に基づいて、例えば図８に示したような項目毎に応答内容を確認する画像を生成し、生成した画像を画像表示部１８に出力する。続けて、画像表示部１８は、シナリオ選択部１７２Ａが出力した画像を表示する。

（ステップＳ１０３）タッチパネル入力部１９は、訪問者が操作した結果を取得する。
（ステップＳ１０４）シナリオ選択部１７２Ａは、タッチパネル入力部１９が出力した結果の中に、「該当なし」を示す情報が含まれていないか否かを判別する。シナリオ選択部１７２Ａは、「該当なし」を示す情報が含まれていると判別した場合（ステップＳ１０４；ＮＯ）、「該当なし」が含まれていた項目を示す情報を抽出し、ステップＳ２に処理を戻す。シナリオ選択部１７２Ａは、「該当なし」を示す情報が含まれていないと判別した場合（ステップＳ１０４；ＹＥＳ）、処理を終了する。

（ステップＳ１０５）シナリオ選択部１７２Ａは、優先度２に応じた訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。続けて、シナリオ選択部１７２Ａは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
（ステップＳ１０６）音声処理装置１Ａは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップＳ５〜ステップＳ７の処理を行う。

（ステップＳ１０７）シナリオ選択部１７２Ａは、意図理解部１６が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部１８に出力する。続けて、画像表示部１８は、シナリオ選択部１７２Ａが出力した画像を項目毎に表示する。
（ステップＳ１０８）タッチパネル入力部１９は、訪問者が操作した結果を取得する。

（ステップＳ１０９）シナリオ選択部１７２Ａは、優先度２に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部１７２Ａは、優先度２に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合（ステップＳ１０９；ＹＥＳ）、ステップＳ１０４の処理に進め、優先度２に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合（ステップＳ１０９；ＮＯ）、ステップＳ１０６の処理に戻す。

（ステップＳ１１０）シナリオ選択部１７２Ａは、優先度３に応じた訪問者に対して発話するシナリオをシナリオ記憶部１７１から選択する。続けて、シナリオ選択部１７２Ａは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
（ステップＳ１１１）音声処理装置１Ａは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップＳ５〜ステップＳ７の処理を行う。

（ステップＳ１１２）シナリオ選択部１７２Ａは、意図理解部１６が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部１８に出力する。続けて、画像表示部１８は、シナリオ選択部１７２Ａが出力した画像を項目毎に表示する。
（ステップＳ１１３）タッチパネル入力部１９は、訪問者が操作した結果を取得する。

（ステップＳ１１４）シナリオ選択部１７２Ａは、優先度３に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部１７２Ａは、優先度３に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合（ステップＳ１１４；ＹＥＳ）、ステップＳ１０４の処理に進め、優先度３に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合（ステップＳ１１４；ＮＯ）、ステップＳ１１１の処理に戻す。
以上で、音声処理装置１Ａの処理を終了する。

なお、図９に示した例では、優先度が２または３の場合、項目毎のタイミングで質問と確認を行う例を示したが、確認画面の表示は、各優先度における「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したときに行うようにしてもよい。

以上のように、本実施形態の音声処理装置１Ａは、画像表示部１８を備え、理解結果に基づいて利用者の意図する内容の候補を画像表示部に表示させ、利用者により候補を選択可能にする。
また、本実施形態の音声処理装置１Ａにおいて、質問部１７Ａは、音声認識部１４によってＮ−Ｂｅｓｔを用いて利用者の発話内容に対する候補を抽出し、抽出した候補を画像表示部１８に表示させる。

この構成によって、本実施形態によれば、音声処理装置１Ａが音声認識した結果に基づいて各項目の候補を画像表示部１８に表示させ、タッチパネル入力部１９で選択させるようにしたので、ロボット２と訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることがすることができる。
例えば、図８において、ロボット２が訪問者に対して「お名前は田中さまでしょうか？竹中さまでしょうか？真中さまでしょうか？」と音声信号を用いて確認を行った場合、音声処理装置１Ａは、訪問者のこの確認に応じた返答の「田中です。」に対して、再度、音声認識を行う必要がある。この場合、前述したように、仮に認識率が９０％の場合、２回音声認識を行うことで、認識率が約８０％（＝０．９＾２）に低下する。一方、本実施形態によれば、画像表示部１８への表示と、タッチパネル入力部１９による選択により、音声認識を行う回数が１回で済むため、認識率９０％を得ることができる。

［第３実施形態］
第２実施形態では、例えば図８に示したように、全ての項目に対して、画像表示部１８に表示させてタッチパネル入力部１９の操作によって選択させる例を説明したが、本実施形態では、予め定められている使用タイミングと項目のみタッチパネル入力部１９の操作によって選択させる例を説明する。

音声処理装置１Ａの構成は、第２実施形態と同様であるが、シナリオ記憶部１７１に、図１１に示すように、タッチパネル入力部１９の使用の有無、使用タイミングが優先度に関連付けられて記憶されている。なお、シナリオ記憶部１７１に記憶されている情報については、後述する。

＜ＤＢ１５に格納されている担当者に関する情報の例＞
まず、ＤＢ１５に格納されている担当者に関する情報の例を説明する。
図１０は、第１実施形態〜第３実施形態に係るＤＢ１５に格納されている担当者に関する情報の例を示す図である。
図１０に示すように、ＤＢ１５には、担当者の名字の読みに、担当者の名前、所属、電話番号、性別、および主な業務内容等が関連付けられて格納されている。図９に示す例は、担当者の名前の読みが「すずき」と「よしだ」である情報の一例である。図９に示す例では、読みが「すずき」である担当者は４名であり、読みが「よしだ」である担当者は２名である。

＜優先度、シナリオの例＞
次に、本実施形態に係るシナリオ記憶部１７１に記憶されている情報の一例を説明する。
図１１は、本実施形態に係るシナリオ記憶部１７１に記憶されている情報の一例を示す図である。図１１に示すように、シナリオ記憶部１７１には、確認を行うタイミングといずれの項目に対してタッチパネル入力部１９を用いるかが、優先度と質問回数とシナリオに関連付けられている。図１１に示すように、本実施形態では、受け付けにおいて、特に重要な項目である担当者の所属と担当者の名前についてタッチパネル入力による選択を併用する。

優先度が１の場合、質問部１７Ａは、第１実施形態と同様に、訪問者が４つの項目を発話するように促す質問を行い、質問に対する応答を音声認識および理解した結果を、音声信号で出力する。図１１に示すように、本実施形態では、理解結果に対する訪問者の返答を得るためにタッチパネル入力部１９を使用せずに、訪問者の返答の音声信号を用いる。

次に、優先度が２または３の場合、質問部１７Ａは、第１実施形態と同様に、４つの項目毎に訪問者へ質問と確認を行う。図１１に示すように、本実施形態では、訪問者の所属と訪問者の名前に対して、第１実施形態と同様に音声信号を用いて確認を行い、音声信号による返答を取得する。そして、担当者の所属と担当者の名前に対する確認を画像表示部１８に表示させ、タッチパネル入力部１９を用いて選択結果を取得する。

意図理解部１６は、ＤＢ１５を参照した結果、候補が３人以下の場合、候補の担当者の名前を全て選択する。そして、意図理解部１６は、選択した候補者に関する情報を読み出して、読み出した候補者に関する情報をシナリオ選択部１７２Ａに出力する。
意図理解部１６は、ＤＢ１５を参照した結果、候補が４人以上の場合、ＤＢ１５に格納されている同じ読みの名字である担当者のうち、格納されている上位３人を選択する。そして、意図理解部１６は、選択した候補者に関する情報を読み出して、読み出した候補者にかんする情報をシナリオ選択部１７２Ａに出力する。

図１１に示すように、本実施形態では、優先度、確認を行うタイミング、得たい目的語の重要性等に応じて、音声で応対を行うのか、画像表示とタッチパネルによる選択を行うかが、設定されている。

なお、図１１に示した例は１例であり、訪問者へ確認を行うタイミング、タッチパネル入力を用いる項目は、これに限られない。さらに質問を行う順番もこれに限られない。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、１項目毎に行う方法に限られず、図５に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。

＜画像表示部１８に表示される画像の例＞
次に、画像表示部１８に表示される画像の例を説明する。
例えば、優先度が２の場合、画像表示部１８には、図８における鎖線ｇ１１３と鎖線ｇ１１４で囲まれた領域の画像が、画像表示部１８に表示される。訪問者は、タッチパネル入力部１９を操作して、それぞれの確認または選択を行う。

例えば、優先度が３の場合に、図５に示した応対によって担当者の名前「すずき」を取得したとき、意図理解部１６は、ＤＢ１５を参照して候補を選択する。
図１２は、本実施形態に係る画像表示部１８に表示される画像ｇ２０１の例を示す図である。図１２に示した例は、読み「すずき」に対して複数の候補が存在する場合の表示例である。
図１２に示す例では、担当者の名前が「すずき」であり、３人の候補者を表示した例である。この場合、図１２に示すように担当者の所属と名前とが関連付けられている。これにより、鎖線ｇ２１１、ｇ２１２、ｇ２１３で囲まれた領域それぞれには、１つのボタンが設定されている。例えば、鎖線ｇ２１１で囲まれた領域のうち、候補の欄、所属の欄、名前の欄のいずれがタッチパネル入力部１９の操作によって選択されても、第１候補が選択される。

なお、図１２に示すように、所属は訪問者が判別可能な範囲で省略して表示されるようにしてもよい。例えば、同じ読みであり、かつ同じ部に所属している場合に下の階層の課名まで表示させるようにしてもよい。同様に、名前についても、同じ漢字の名字の担当者が複数存在する場合にフルネームを表示させ、該当する漢字の名字の担当者が１名の場合に名字のみを表示させるようにしてもよい。
また、従来技術では、意図理解部の理解が誤っていた場合、例えば、訪問者が「ＺＺＺ部の金髪の方をお願いします。」と発話した場合、「金髪」を担当者名であると理解を誤る場合もあり得た。このような場合、再度、訪問者に同じ質問を繰り返しても認識率を向上できなかった。第１実施形態〜第３実施形態によれば、優先度毎に、目的語を聞き出せるように質問を変え、質問を区切るタイミングと質問を認識・理解した結果を確認するタイミングを変えたので、上述したように１つの項目の認識率を向上させることができる。

以上のように、本実施形態では、優先度と、得たい目的語の重要性等に応じて、音声による応対と音声認識、または画像表示とタッチパネル入力部１９による選択を併用する。この結果、本実施形態によれば、音声認識した結果、例えば担当者の名前について複数の候補がある場合であっても、Ｎ−Ｂｅｓｔ探索によって最も可能性の高い順に表示させて、利用者に選択してもらいことで、利用者の作業負担を軽減でき、応対にかかる時間を短縮することができる。

なお、第１実施形態〜第３実施形態では、会社における受け付け業務のうち、訪問者と担当者に関するやりとりを例に説明したが、これに限られない。本実施形態のロボット２を、会社における受け付け業務のうち、タクシーの受け付け、敷地内の案内等のやりとりを行うようにしてもよい。また、本実施形態のロボット２を、イベントの受け付け、ホテルの受け付け、チケット販売の窓口業務等で利用することも可能である。この場合、ＤＢ１５、シナリオ記憶部１７１には、用途に応じたモデル、シナリオ、優先度、優先度毎にどのタイミングで確認を訪問者へ行うか等の情報が、格納、記憶されている。
また、第１実施形態〜第３実施形態では、音声処理装置１（または１Ａ）がロボット２に搭載されている例を説明したが、これに限られない。音声処理装置１（または１Ａ）は、例えば、スマートフォン等の携帯電話、タブレット端末等に搭載されていてもよい。

また、第１実施形態〜第３実施形態において、音声処理装置１（または１Ａ）が撮像部１０と画像認識部１１を備えている場合、訪問者の顔の画像、訪問者の所属、訪問者の生前を関連付けて、例えばＤＢ１５に格納するようにしてもよい。これにより、音声処理装置１（または１Ａ）は、訪問者の音声認識に加え、訪問者の顔の画像認識を併用して訪問者を識別するようにしてもよい。

なお、本発明における音声処理装置１（または１Ａ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識、意図理解、訪問者とのやりとりを行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ…音声処理装置、１０…撮像部、１１…画像認識部、１２…収音部、１３…音声認識辞書、１４…音声認識部、１５…ＤＢ、１６…意図理解部、１７、１７Ａ…質問部、１７１、１７１Ａ…シナリオ記憶部、１７２、１７２Ａ…シナリオ選択部、１７３…質問回数記憶部、１７４…音声出力部、１８…画像表示部、１９…タッチパネル入力部

Claims

音声信号を取得する音声入力部と、
前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、
前記利用者に対して質問を行う質問部と、を備え、
第１の優先度に対応する質問内容は、複数の項目を一度に質問して、前記利用者に発話を促す質問であり、
第２の優先度に対応する質問内容は、複数の項目それぞれを１つずつ質問して、前記利用者に発話を促す質問であり、
前記質問部は、
優先度を第１の優先度とし、前記第１の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行い、前記第１の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解部が理解した理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、
前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第２の優先度に変更し、前記第２の優先度に対応する質問内容に変更して、前記第２の優先度に対応する質問内容の質問を前記利用者に行う、音声処理装置。
前記質問部は、前記第２の優先度の場合に、前記第１の優先度に対応する質問内容を、前記第１の優先度に対応する質問内容に含まれる項目が前記利用者に発話を促したい目的語を聞きだす質問内容に変更する、請求項１に記載の音声処理装置。
画像表示部を備え、
前記画像表示部は、
前記質問内容に対する音声信号を理解した前記理解結果の候補が複数の場合に、前記複数の候補を前記画像表示部に表示させ、前記利用者により前記複数の候補から１つを選択可能にする、請求項１または請求項２に記載の音声処理装置。
前記質問部は、前記音声認識部によってＮ−Ｂｅｓｔを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させる、請求項３に記載の音声処理装置。
第１の優先度に対応する質問内容は、複数の項目を一度に質問して、利用者に発話を促す質問であり、
第２の優先度に対応する質問内容は、複数の項目それぞれを１つずつ質問して、前記利用者に発話を促す質問であり、
音声入力部が、音声信号を取得する音声入力手順と、
音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識を行う音声認識手順と、
意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、
質問部が、優先度を第１の優先度とし、前記第１の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行う手順と、
前記質問部が、前記第１の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解手順によって理解された理解結果が正しいか否かを前記利用者に対して確認する確認質問を行う手順と、
前記質問部が、前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第２の優先度に変更し、前記第２の優先度に対応する質問内容に変更して、前記第２の優先度に対応する質問内容の質問を前記利用者に行う手順と、
を含む音声処理方法。