JP2017058545A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2017058545A
JP2017058545A JP2015183973A JP2015183973A JP2017058545A JP 2017058545 A JP2017058545 A JP 2017058545A JP 2015183973 A JP2015183973 A JP 2015183973A JP 2015183973 A JP2015183973 A JP 2015183973A JP 2017058545 A JP2017058545 A JP 2017058545A
Authority
JP
Japan
Prior art keywords
unit
question
understanding
voice
visitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015183973A
Other languages
English (en)
Other versions
JP6540414B2 (ja
Inventor
一博 中臺
Kazuhiro Nakadai
一博 中臺
圭佑 中村
Keisuke Nakamura
圭佑 中村
山本 俊一
Shunichi Yamamoto
俊一 山本
近藤 宏
Hiroshi Kondo
宏 近藤
住田 直亮
Naoaki Sumita
直亮 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015183973A priority Critical patent/JP6540414B2/ja
Priority to US15/235,540 priority patent/US9858924B2/en
Publication of JP2017058545A publication Critical patent/JP2017058545A/ja
Application granted granted Critical
Publication of JP6540414B2 publication Critical patent/JP6540414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。【解決手段】音声処理装置は、音声信号を取得する音声入力部と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。【選択図】図1

Description

本発明は、音声処理装置および音声処理方法に関する。
利用者の発話内容に対して音声認識を行い、音声認識した結果を用いて処理を行う音声対話システムが求められている。近年、例えば会社やホテルの受け付け等に人型ロボットが採用され始めている。このような受け付けロボットは、シナリオに沿った案内の音声を出力するだけであった。また、会社等の受け付けに、表示部やタッチパネルを有する無人受け付けシステムが採用され始めている。例えば、無人受け付けシステムを会社の受け付けに用いる場合、来客者は、タッチパネルを操作して、訪問先の担当者に電話を接続していた。この場合、無人受け付けシステムは、例えば担当者の名前、担当者の所属部署名を来客者が入力または選択することで、担当者の内線番号を検索して担当者に電話を接続していた。
例えば、特許文献1には、入力された音声信号を認識して、認識した結果を用いて航空券や列車チケットの予約または購入、ホテルの予約を行う音声対話システムが開示されている。特許文献1に記載の技術では、入力された音声信号を認識して、その中から意味表現を取り出す。そして、特許文献1に記載の技術では、取り出した意味表現を意味的なまとまりに細分化し、分割された意味的なまとまりを逐次処理することで、予約や販売処理を行う。なお、意味表現とは、航空券や列車チケットの予約または購入、ホテルの予約を行う際に利用者が発話するフレーズである。
特開平6−259090号公報
しかしながら、特許文献1に記載の技術では、認識内容に誤りがあった場合、訪問者が発話を繰り返しても認識を誤ることがあるので、発話内容の意図を正確に取得するまで時間がかかるという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音声処理装置は、音声信号を取得する音声入力部と、前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、前記意図理解部によって理解された理解結果に基づいて前記利用者に対して質問を行う質問部と、を備え、前記質問部は、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する。
(2)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、前記意図理解部によって前記確認質問が理解された結果に基づいて、前記優先度を変更するようにしてもよい。
(3)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記優先度に応じて、前記質問内容を、必要な目的語を聞きだす質問内容に変更するようにしてもよい。
(4)また、本発明の一態様に係る音声処理装置において、前記優先度は、前記利用者に対して行った質問回数に基づくようにしてもよい。
(5)また、本発明の一態様に係る音声処理装置は、画像表示部を備え、前記理解結果に基づいて前記利用者の意図する内容の候補を前記画像表示部に表示させ、前記利用者により前記候補を選択可能にするようにしてもよい。
(6)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させるようにしてもよい。
(7)上記目的を達成するため、本発明の一態様に係る音声処理方法は、音声入力部が、音声信号を取得する音声入力手順と、音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識うぃ行う音声認識手順と、意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、質問部が、前記意図理解手順によって理解された理解結果に基づいて前記利用者に対して質問を行い、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する質問手順と、を含む。
上述した(1)または(7)の構成によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。
また、上述した(2)の構成によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じて例えば異なる質問文を用いて、利用者に質問を行う。この結果、上述した(2)の構成によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させることができる。
また、上述した(3)の構成によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、例えば受け付け業務において、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、上述した(3)の構成によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。
また、上述した(4)の構成によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、上述した(4)の構成によれば、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。
また、上述した(5)または(6)の構成によれば、ロボットと訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることができる。
第1実施形態に係る音声処理装置を含むロボットの概略構成を示すブロック図である。 第1実施形態に係る優先度とシナリオの例を示す図である。 第1実施形態に係る優先度が1の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。 第1実施形態に係る優先度が2の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。 第1実施形態に係る優先度が3の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。 第1実施形態に係る音声処理装置の処理のフローチャートである。 第2実施形態に係る音声処理装置の概略構成を示すブロック図である。 第2実施形態に係る画像表示部に表示される画像の例を示す図である。 第2実施形態に係る音声処理装置の処理のフローチャートである。 第1実施形態〜第3実施形態に係るDBに格納されている担当者に関する情報の例を示す図である。 第3実施形態に係るシナリオ記憶部に記憶されている情報の一例を示す図である。 第3実施形態に係る画像表示部に表示される画像の例を示す図である。
以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音声処理装置をロボットが備える例について説明を行う。
[発明の概要]
まず、本発明の概要を説明する。
本発明では、人型ロボット(以下、単にロボットともいう)が受付にて来客者を認識したとき、受け付け業務を開始する。ロボットは、まず、所定の優先度に応じて、来客者に来客者の所属と名前、訪問先の担当者の所属と名前の発話を促す1回目の質問または発話を行う。そして、ロボットは、来客者の発話を音声認識した結果を理解し、理解した内容が正しいか否かを来客者に確認する。理解した内容が正しい場合、ロボットは、担当者に来客者が訪れたことを送信、または担当者に電話を接続する。理解した内容が正しくなかった場合、ロボットは、来客者の発話内容におけるキーワードを聞き出すために、1回目の質問とは異なる質問を所定の優先度に応じて行い、質問への応答内容を変更する。このように、本発明では、質問内容を質問回数毎に変化させることで、発話者が意図するキーワードを適切に発話者から聞き出すことができる。
[第1実施形態]
<音声処理装置1の構成>
図1は、本実施形態に係る音声処理装置1を含むロボット2の概略構成を示すブロック図である。図1に示すように、ロボット2は、音声処理装置1、センサ21、駆動制御部22、駆動部23を含んで構成される。音声処理装置1は、撮像部10、画像認識部11、収音部12、音声認識辞書13、音声認識部14、DB15、意図理解部16、および質問部17を備えている。質問部17は、シナリオ記憶部171、シナリオ選択部172、質問回数記憶部173、および音声出力部174を備えている。
なお、以下の説明では、ロボット2が、担当者への来客時の受付を行う場合について説明する。
センサ21は、例えば各駆動部23に取り付けられている力センサや姿勢センサであり、検出した検出結果を駆動制御部22に出力する。
駆動制御部22は、センサ21が出力した検出結果に応じて、各駆動部23の駆動を制御する。また、駆動制御部22は、音声処理装置1が出力した画像に基づいて、例えば、ロボット2の顔に相当する部分を訪問者に向けるように制御してもよい。
駆動部23は、ロボット2の腕、脚、頭部等に取り付けられている例えば複数のモータ、機構部等である。
なお、ロボット2は、電源(不図示)等をさらに備えている。
撮像部10は、ロボット2の例えば人の目に対応する位置に取り付けられているCCD(Charge Coupled Device;電荷結合素子)カメラ、またはCMOS(Complementary MOS;相補性金属酸化膜半導体)カメラ等である。撮像部10は、撮像した画像を画像認識部11に出力する。なお、撮像部10は、所定のタイミング毎に画像を撮像するようにしてもよい。
画像認識部11は、撮像部10が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。画像認識部11は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。画像認識部11は、生成した訪問者が訪れたことを示す情報を質問部17に出力する。
なお、本実施形態では、撮像部10と画像認識部11を用いて、訪問者の訪問を認識する例を説明するが、訪問者の認識は、例えば人感センサ等を用いて行うようにしてもよい。
収音部12は、ロボット2の例えば耳に対応する位置または頭部に対応する位置に取り付けられている少なくとも1つのマイクロホンである。収音部12は、収音した音声信号を音声認識部14に出力する。
音声認識辞書13には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、単語辞書には、訪問者の会社名や部署名、担当者の部署名、人名が含まれている。また、音声認識辞書13に格納されていない訪問者の会社名、訪問者名取得する毎に、音声認識辞書13を音声認識部14が更新するようにしてもよい。
音声認識部14には、収音部12が出力する音声信号、質問部17が出力するロボット2の発話区間を示す情報が入力される。音声認識部14は、収音部12が出力した音声信号のうちロボット2の発話区間以外の音声信号について発話区間を検出し、検出した発話区間の音声信号に対して、音声認識辞書13を参照して、周知の手法を用いて音声認識を行う。音声認識部14は、認識した認識結果を意図理解部16に出力する。なお、認識結果は、例えばテキスト情報である。なお、音声認識部14は、例えば特開2015−64554号公報に開示されている手法等を用いて音声認識を行う。なお、音声認識部14は、例えばB−Bestを用いて最も認識スコアが高かった認識候補を認識結果として意図理解部16に出力する。例えば、訪問者の発話が「XXX社の田中と申しますが、YYY部の鈴木さまをお願いいたします。」の場合の認識結果は、「えっくすえっくすえっくすしゃのたなかともうしますが、わいわいわいぶのすずきさまをおねがいします」である。
DB15には、概念モデルが格納されている。ここで、概念モデルとは、訪問者の発話パターンに基づいて、どのような要件が発話されるのかを想定し、発話パターン毎に、意味理解に用いる規則や文法などが記述されているモデルである。発話パターンは、例えば、担当者への来客時の受付での訪問者による発話、タクシーの呼び出しのための発話、打合せ場所の案内を求める発話等である。さらに、DB15には、担当者の名前に担当者の所属と電話番号、性別、主な業務内容等が関連付けられて格納されている。
意図理解部16には、音声認識部14が出力した認識結果、シナリオ選択部172が出力した質問文または確認文を示す情報が入力される。意図理解部16は、認識結果を、DB15を参照して、かつシナリオ選択部172から入力された情報に基づいて、発話内容の意図を周知の手法を用いて発話内容の意図を理解する。ここで、発話内容の意図とは、担当者への来客時の受付、タクシーの呼び出し、打合せ場所の案内等である。意図理解部16は、発話パターンが担当者への来客時の受付である場合、優先度に応じて、該当する担当者と当該担当者に対応付けられている情報(部署、性別、電話番号、主な業務)をDB15から抽出する。意図理解部16は、音声認識された結果と理解した発話内容の意図を示す情報を理解結果としてシナリオ選択部172に出力する。
シナリオ記憶部171には、優先度に応じた訪問者に対する受け答えのシナリオが記憶されている。また、シナリオ記憶部171には、質問回数と優先度の対応が記憶されている。なお、シナリオ記憶部171に記憶されている情報の例は、後述する。
シナリオ選択部172は、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。シナリオ選択部172は、質問回数記憶部173に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部172は、意図理解部16が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174に出力する。また、シナリオ選択部172は、意図理解部16が出力した理解結果が正しいか否かを判別するために、優先度に応じたタイミングで理解内容の確認を行う質問を、シナリオを用いて行い、この質問に対する訪問者の応答に応じて、2回目以降の質問を行うか否かを判別する。シナリオ選択部172は、訪問者に対する質問文または確認文を示す情報を意図理解部16に出力する。シナリオ選択部172は、同一の訪問者に対して行った質問回数を質問回数記憶部173に記憶させる。シナリオ選択部172は、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を0にリセットする。なお、優先度、シナリオの例については、後述する。
質問回数記憶部173は、同一の訪問者に対する質問回数を記憶する。なお、質問回数の初期値は、例えば0である。
音声出力部174は、ロボット2の例えば口に対応する位置に取り付けられているスピーカである。音声出力部174は、シナリオ選択部172が出力した音声信号を発する。
<優先度、シナリオの例>
次に、優先度とシナリオの例を説明する。
図2は、本実施形態に係る優先度とシナリオの例を示す図である。図2に示すように、各シナリオには、優先度と、何回目の質問でシナリオを用いるのかと、発話を切るタイミングおよび理解結果を確認するタイミングとが対応付けられてシナリオ記憶部171に記憶されている。
質問回数が1回目のとき優先度は1であり、質問回数が2回目または3回目のとき優先度は2であり、質問回数が4回目のとき優先度は3である。また、図2において「−>」は、発話を切るタイミングと理解結果を確認するタイミングを表している。なお、図2に示した例は一例であり、これに限られない。例えば、質問回数が2回目のとき優先度は2であり、質問回数が3回目のとき優先度は3であってもよい。また、優先度は2つ以上であればよく、4つ以上であってもよい。
優先度が1では、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を、訪問者に発話させることを促すシナリオと、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を理解した結果を確認するシナリオが設定されている。
図3は、本実施形態に係る優先度が1の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図3において、R11とR12は、シナリオに基づくロボット2の発話であり、H11とH12は、訪問者(お客様)の発話である。
質問回数が1回目であるため、シナリオ選択部172は優先度を1に設定し、優先度が1に対応するシナリオをシナリオ記憶部171から読み出す。
図3に示すように、ロボット2は、読み出されたシナリオに対応する発話R11を、音声出力部174を介して行うことによって、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」の4つの項目を、訪問者に発話させることを促す。
この発話R11に応じて、訪問者は、発話H11を行う。
ロボット2は、発話H11を取得し、取得した発話H11の音声認識を行う。音声認識の結果、音声認識部14は、「XXX社の田中と申しますが、YYY部の鈴木さまを、お願いいたします。」のテキスト情報を得る。そして、意図理解部16は、訪問者の発話H11の内容を、DB15を参照して理解し、理解した結果、訪問者の所属が「えっくすえっくすえっくすしゃ」であり、訪問者の名前が「たなか」であり、担当者の所属が「ぜっとぜっとぜっとぶ」であり、担当者の名前が「すずか」であると理解する。そして、シナリオ選択部172は、優先度が1に対応するシナリオに応じて、理解結果を確認する発話R12を、音声出力部174を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。なお、シナリオ選択部172は、例えば、シナリオ記憶部171に記憶されているシナリオのひな形に、意図理解部16が出力した理解された結果を埋め込んで、音声信号を生成する。
この発話R12に対して、訪問者は、発話H12を行う。すなわち、音声処理装置1の認識、理解結果が間違っていたため、間違っていることを示す発話を行う。
シナリオ選択部172は、図3に示した一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。
なお、シナリオ選択部172は、意図理解部16が出力した理解結果に基づいて、理解された結果が正しいか否かを判別する例を説明したが、これに限られない。例えば、画像認識部11が、取得した画像に対して周知の手法で画像認識を行うことで、訪問者がうなずいているのか、首をかしげる等を行っているのかを認識して、認識した動作認識結果をシナリオ選択部172に出力するようにしてもよい。この場合、シナリオ選択部172は、画像認識部11が出力した動作認識結果に基づいて、理解された結果が正しいか否かを判別するようにしてもよい。
図2に戻って、優先度とシナリオの説明を続ける。
優先度が2では、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」の項目の1つずつを、訪問者に発話させることを促すシナリオと、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」それぞれを逐次理解した結果を逐次確認するシナリオが設定されている。
図4は、本実施形態に係る優先度が2の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図4において、R21〜R28は、シナリオに基づくロボット2の発話であり、H21〜H28は、訪問者の発話である。また、C21〜C24は、発話のグループを示している。
図4に示すように、シナリオ選択部172は、優先度が2に対応付けられているシナリオに応じて、まず、「訪問者の所属」を、訪問者に発話させることを促すシナリオ読み出し、読み出したシナリオに基づく発話R21を、音声出力部174を介して行う。
訪問者は、発話R21に応じて、発話H21を行う。
そして、シナリオ選択部172は、発話H21が理解された結果を用いて、優先度が2に対応するシナリオに応じた発話R22を、音声出力部174を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。2回目では、このように1つの項目毎に認識および理解と確認を行う。
訪問者は、発話R22に応じて、発話H22を行う。なお、シナリオ選択部172は、確認した応答である発話H22が「いいえ」であっても、C22以下の会話を継続する。
以下、音声処理装置1は、「訪問者の名前」、「担当者の所属」、および「担当者の名前」1つずつを、訪問者に発話させることを促し、1つの項目毎に理解された結果を確認していく。
シナリオ選択部172は、図4に示したC21〜C24の一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。
意図理解部16は、2回目の質問で得られた結果、音声認識結果が間違っていた項目が「担当者の所属」および「担当者の名前」であると理解する。そして、意図理解部16は、シナリオ選択部172に、3回目の質問を行うことを示す情報を出力する。この場合、シナリオ選択部172は、音声認識結果が間違っていた「担当者の所属」および「担当者の名前」についての会話C23とC24を行う。なお、シナリオ選択部172は、同じ優先度に複数のシナリオがシナリオ記憶部171に格納されている場合、2回目と3回目で異なるシナリオを選択する、すなわち2回目と3回目で質問が異なるようにしてもよい。
図2に戻って、優先度とシナリオの説明を続ける。
優先度が3では、「担当者の所属」と「担当者の名前」1つずつを、訪問者に発話させることを促すシナリオと、「担当者の所属」と「担当者の名前」それぞれを逐次理解した結果を、逐次確認するシナリオが設定されている。このように、優先度が3の場合に、「担当者の所属」と「担当者の名前」のみを質問して、訪問者から得る理由は、仮に訪問者の名前や所属の認識・理解結果が間違っていても、担当者へ連絡する優先順位が高いためである。例えば、初めて来社された訪問者の場合、訪問者名がDB15に格納されていず、正しく音声認識できない場合もある。その場合であっても、例えば電話を接続することが優先であるため、会社名および訪問者名の再質問を担当者に行わない。
図5は、本実施形態に係る優先度が3の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図5において、R31、R32は、シナリオに基づくロボット2の発話であり、H31、H32は、訪問者の発話である。
図5に示す例では、発話R31に対して、訪問者が担当者の名前に関する発話H31を行ったため、意図理解部16は、発話H31に含まれている名詞が担当者の名前であると理解する。なお、図5に示す例では、音声認識部14によって、担当者の名前が「すずき」と認識された例である。そして、意図理解部16は、DB15を参照して、「すずき」に該当する担当者が「鈴木」であると理解する。次に、意図理解部16は、複数の「鈴木」がDB15に存在する場合、DB15を探索して「鈴木」が所属する部署を抽出する。図5に示す例では、該当する担当者「鈴木」が2名存在していたため、意図理解部16は、該当する2人の担当者に関する情報(所属と名前)を、シナリオ選択部172に出力する。シナリオ選択部172は、優先度が3に対応付けられているシナリオに応じて、担当者がどちらであるかを質問する発話R31のシナリオを選択する。
なお、図5に示した例では、同じ名字の担当者が異なる部署に存在する例を示したが、同じ部署に同じ名字の担当者が複数存在する場合、該当者が男性と女性の場合、男性であるか女性であるかを質問するシナリオを選択するようにしてもよく、該当者のフルネームを質問するシナリオを選択するようにしてもよく、該当者が主に担当している業務内容を質問するシナリオを選択するようにしてもよい。
以上のように、優先度が1の場合、音声処理装置1は、4つの項目(訪問者の所属、訪問者名、担当者の所属、担当者の名前)を一回の発話から認識する。このため、仮に1つの項目に対する認識率が90%である場合、4つの項目が全て正しく認識できる確率は約66%(=0.9^4)である。
一方、優先度が2および3の場合、音声処理装置1は、1つの項目(訪問者の所属、訪問者名、担当者の所属、担当者の名前のうちの1つ)毎に発話を促し、1つの項目が含まれている発話から認識する。このため、仮に1つの項目に対する認識率が90%である場合、4つの項目それぞれを正しく認識できる確率それぞれは90%である。すなわち、項目を1つずつ認識することで、4つの項目全ての認識率を向上させることができる。また、認識結果が誤っていた項目のみについて質問を行う(すなわち、前回と異なる質問を行う)ようにしたので、全ての項目に対して再度認識を繰り返す必要がなくなり、認識にかかる時間を短縮することができる。
<音声処理装置1の処理手順>
次に、音声処理装置1の処理手順を説明する。
図6は、本実施形態に係る音声処理装置1の処理のフローチャートである。なお、図6では、優先度が1〜3の例を説明する。
(ステップS1)画像認識部11は、撮像部10が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。続けて、画像認識部11は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。
(ステップS2)シナリオ選択部172は、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。続けて、シナリオ選択部172は、質問回数記憶部173を参照して、優先度を1に決定する。
(ステップS3)シナリオ選択部172は、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172は、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS10に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS13に処理を進める。
(ステップS4)シナリオ選択部172は、優先度1に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。
(ステップS5)シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174から発することで、訪問者への質問を行う。
(ステップS6)音声認識部14は、収音部12によって収音された訪問者への質問に対する応答である音声信号を取得する。続けて、音声認識部14は、取得した音声信号に対して、音声認識辞書13を参照して、音声認識を行う。
(ステップS7)意図理解部16は、音声認識部14が出力した認識結果に対して、DB15を参照して、発話内容の意図を理解する。
(ステップS8)シナリオ選択部172は、優先度1に応じて、訪問者の発話を認識、理解した結果が正しいか否かを確認するシナリオを選択する。続けて、シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174から発することで、訪問者への確認を行う。
(ステップS9)音声認識部14は、収音部12によって収音された訪問者への確認に対する応答である音声信号を取得する。続けて、音声認識部14は、取得した音声信号に対して、音声認識辞書13を参照して、音声認識を行う。続けて、意図理解部16は、音声認識部14が出力した認識結果に対して、DB15を参照して、発話内容の意図を理解する。続けて、意図理解部16は、ステップS16に処理を進める。
(ステップS10)シナリオ選択部172は、優先度2に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。
(ステップS11)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。
(ステップS12)シナリオ選択部172は、優先度2に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部172は、優先度2に対応するシナリオの質問が全て終了したと判別した場合(ステップS12;YES)、ステップS16の処理に進め、優先度2に対応するシナリオの質問が全て終了していないと判別した場合(ステップS12;NO)、ステップS11の処理に戻す。
(ステップS13)シナリオ選択部172は、優先度3に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。
(ステップS14)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。
(ステップS15)シナリオ選択部172は、優先度3に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部172は、優先度3に対応するシナリオの質問が全て終了したと判別した場合(ステップS15;YES)、ステップS16の処理に進め、優先度3に対応するシナリオの質問が全て終了していないと判別した場合(ステップS15;NO)、ステップS14の処理に戻す。
(ステップS16)意図理解部16は、ステップS5で音声認識され、ステップS6で理解された結果が正しいか否かを、ステップS8で音声認識かつ理解した結果に基づいて判別する。意図理解部16は、音声認識され理解された結果が正しいと判別した場合(ステップS16;YES)、処理を終了し、音声認識され理解された結果が正しくないと判別された場合(ステップS16;NO)、ステップS2に処理を戻す。
以上で、音声処理装置1の処理を終了する。
以上のように、本実施形態の音声処理装置1は、音声信号を取得する音声入力部(収音部12)と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部14と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部16と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部17と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。
この構成によって、本実施形態によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。
また、本実施形態の音声処理装置1において、質問部17は、理解結果が正しいか否かを利用者に対して確認する確認質問を行い、意図理解部によって確認質問が理解された結果に基づいて、優先度を変更する。
この構成によって、本実施形態によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じたシナリオを用いて例えば異なる質問文を用いて、利用者に質問を行う。この結果、本実施形態によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させることができる。
また、本実施形態の音声処理装置1において、質問部17は、優先度に応じて、質問内容を、必要な目的語を聞きだす質問内容に変更する。
この構成によって、本実施形態によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、本実施形態によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。
また、本実施形態の音声処理装置1において、優先度は、利用者に対して行った質問回数に基づく。
この構成によって、本実施形態によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。
なお、図2に示したタイミングの例は1例であり、訪問者へ確認を行うタイミングは、これに限られない。さらに質問を行う順番もこれに限られない。例えば、優先度が2の場合、訪問者の所属と名前までを連続して質問、取得し、担当者の所属と名前については、項目毎に質問、取得するようにしてもよい。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、1項目毎に行う方法に限られず、図5に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。
なお、音声認識辞書13、DB15、シナリオ記憶部171のうち少なくとも1つが、ネットワーク(不図示)を介して音声処理装置1と接続されていてもよい。さらに、音声認識辞書13、DB15、シナリオ記憶部171に格納または記憶されている情報は、更新、追加、修正のうちの少なくとも1つが音声認識部14、意図理解部16、シナリオ選択部172によって行われてもよい。
[第2実施形態]
第1実施形態では、訪問者が発話した発話内容に対する理解結果が正しいか否かを、音声を用いて確認する例を説明した。本実施形態では、画像表示部に理解結果を提示して、訪問者に確認してもらい、または認識結果または理解結果の候補が複数有る場合に複数の候補を提示して訪問者に選択してもらう例を説明する。
図7は、本実施形態に係る音声処理装置1Aの概略構成を示すブロック図である。図7に示すように、音声処理装置1Aは、撮像部10、画像認識部11、収音部12、音声認識辞書13、音声認識部14、DB15、意図理解部16、質問部17A、画像表示部18、およびタッチパネル入力部19を備えている。質問部17Aは、シナリオ記憶部171、シナリオ選択部172A、質問回数記憶部173、および音声出力部174を備えている。なお、第1実施形態と同様に、音声処理装置1Aがロボット2に搭載されている例を説明する。また、音声処理装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。
シナリオ選択部172Aは、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。シナリオ選択部172Aは、質問回数記憶部173に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部172Aは、意図理解部16が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。シナリオ選択部172Aは、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174に出力する。また、シナリオ選択部172Aは、意図理解部16が出力した理解結果が正しいか否かを判別するために、理解内容の確認を行う質問を行う画像を生成し、生成した画像を画像表示部18に表示させる。シナリオ選択部172Aは、この質問に対するタッチパネル入力部19が出力した訪問者の応答に応じて、2回目以降の質問を行うか否かを判別する。シナリオ選択部172Aは、同一の訪問者に対して行った質問回数を質問回数記憶部173に記憶させる。また、シナリオ選択部172Aは、音声認識された結果の候補が複数存在する場合、または理解された結果の候補が複数存在する場合、タッチパネル入力部19を訪問者が操作した操作結果を取得し、取得した操作結果に基づいて、複数の候補から1つの候補を選択する。シナリオ選択部172Aは、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を0にリセットする。
画像表示部18は、例えば液晶パネルである。画像表示部18は、質問部17Aが出力した画像を表示する。質問部17Aと画像表示部18とは、有線または無線で接続されている。また、画像表示部18は、例えばスマートフォンなどの携帯電話、タブレット端末等であってもよい。
タッチパネル入力部19は、画像表示部18の上面に設けられているタッチパネルセンサである。タッチパネル入力部19は、訪問者の操作を受け付け、受け付けた操作結果を示す情報をシナリオ選択部172Aに出力する。
<画像表示部18に表示される画像の例>
次に、画像表示部18に表示される画像の例を説明する。
図8は、本実施形態に係る画像表示部18に表示される画像g101の例を示す図である。なお、図8に示した例は、4つの項目(訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前)それぞれに対する理解結果を画像表示部18に表示させ、タッチパネル入力部19を訪問者が操作して、それぞれの確認を行う例である。符号121で囲んだ領域における各欄の領域毎(ただし空欄を除く)には、ボタンが割り当てられている。図8に示した画像g101は、例えば、優先度が1の場合に、訪問者の返答を音声認識、理解したときに表示される。
鎖線g111で囲んだ領域は、訪問者の所属を確認するために画像表示部18に表示される画像である。また、鎖線g111で囲んだ領域は、音声認識部14が、訪問者の所属を示す音声信号に対して認識した結果に対してN−Best探索により上位3つを選択し、意図理解部16が、選択された上位3つに対応する単語(「XXX」、「AAA」、「ZZZ」)を選択した例である。訪問者は、「XXX」、「AAA」、「ZZZ」の候補の中に正解が存在する場合、正解の候補に対応するボタンの画像をタッチして選択し、正解が無い場合、「該当なし」を選択する。なお、正解が無い場合、シナリオ選択部172Aは、ソフトウェアキーボードを画像表示部18上に表示させ、訪問者にタッチパネル入力部19を操作してもらって所属を入力させるようにしてもよい。または、シナリオ選択部172Aは、音声信号を用いて、訪問者に所属を再質問するようにしてもよい。
鎖線g112で囲んだ領域は、訪問者の名前を確認するために画像表示部18に表示される画像である。また、鎖線g112で囲んだ領域は、音声認識部14が、訪問者の名前を示す音声信号に対して認識した結果からN−Best探索により上位3つを選択し、意図理解部16が、選択された上位3つに対応する単語(「田中」、「竹中」、「真中」)を選択した例である。
鎖線g113で囲んだ領域は、訪問先の担当者の所属を確認するために画像表示部18に表示される画像である。また、鎖線g113で囲んだ領域は、担当者の所属を示す音声信号に対して認識した結果、該当する単語が2つ存在した例であり、意図理解部16が、N−Best探索により選択された上位2つに対応する単語(「CCCC」、「YYY」)を選択した例である。
鎖線g114で囲んだ領域は、訪問先の担当者の名前を確認するために画像表示部18に表示される画像である。また、鎖線g114で囲んだ領域は、担当者の名前の音声信号に対して認識した結果、1つの候補が得られた例であり、意図理解部16が、選択された1つに対応する単語(「鈴木」)を選択した例である。
なお、シナリオ選択部172Aは、図8に示した確認画面を、優先度毎に表示させるようにしてもよい。また、シナリオ選択部172Aは、優先度が1のとき、図8の表示を行った場合、優先度が2のときに該当なしの項目のみに対して音声信号を用いて項目毎に質問する。または、シナリオ選択部172Aは、優先度が2のときに該当なしの項目のみに対して画像表示部18にソフトウェアキーボードの画像を表示させ、訪問者によってタッチパネル入力部19が操作された結果である入力を取得するようにしてもよい。
また、シナリオ選択部172Aは、訪問者への確認に対する応答である「はい」、「いいえ」のボタンを含む画像を生成し、生成した画像を画像表示部18に表示させるようにしてもよい。この場合、音声処理装置1Aは、認識、理解した結果に対する質問を、音声信号を用いて行い、図6のステップS9において、「はい」、「いいえ」のボタンを含む画像を画像表示部18に表示させ、タッチパネル入力部19が出力した入力結果に応じて、認識された内容が正しいか否かを判別するようにしてもよい。
<音声処理装置1Aの処理手順>
次に、音声処理装置1Aの処理手順を説明する。
図9は、本実施形態に係る音声処理装置1Aの処理のフローチャートである。なお、図9では、優先度が1〜3の例を説明する。
(ステップS1〜S3)音声処理装置1Aは、ステップS1〜S2の処理を行う。シナリオ選択部172Aは、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172Aは、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS105に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS110に処理を進める。
(ステップS4)シナリオ選択部172Aは、ステップS4の処理の終了後、ステップS101の処理に進む。
(ステップS101)音声処理装置1Aは、ステップS5〜S7の処理を行い、処理の終了後、ステップS102の処理に進む。
(ステップS102)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、例えば図8に示したような項目毎に応答内容を確認する画像を生成し、生成した画像を画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を表示する。
(ステップS103)タッチパネル入力部19は、訪問者が操作した結果を取得する。
(ステップS104)シナリオ選択部172Aは、タッチパネル入力部19が出力した結果の中に、「該当なし」を示す情報が含まれていないか否かを判別する。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていると判別した場合(ステップS104;NO)、「該当なし」が含まれていた項目を示す情報を抽出し、ステップS2に処理を戻す。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていないと判別した場合(ステップS104;YES)、処理を終了する。
(ステップS105)シナリオ選択部172Aは、優先度2に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。続けて、シナリオ選択部172Aは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
(ステップS106)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。
(ステップS107)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を項目毎に表示する。
(ステップS108)タッチパネル入力部19は、訪問者が操作した結果を取得する。
(ステップS109)シナリオ選択部172Aは、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部172Aは、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合(ステップS109;YES)、ステップS104の処理に進め、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合(ステップS109;NO)、ステップS106の処理に戻す。
(ステップS110)シナリオ選択部172Aは、優先度3に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。続けて、シナリオ選択部172Aは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
(ステップS111)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。
(ステップS112)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を項目毎に表示する。
(ステップS113)タッチパネル入力部19は、訪問者が操作した結果を取得する。
(ステップS114)シナリオ選択部172Aは、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部172Aは、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合(ステップS114;YES)、ステップS104の処理に進め、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合(ステップS114;NO)、ステップS111の処理に戻す。
以上で、音声処理装置1Aの処理を終了する。
なお、図9に示した例では、優先度が2または3の場合、項目毎のタイミングで質問と確認を行う例を示したが、確認画面の表示は、各優先度における「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したときに行うようにしてもよい。
以上のように、本実施形態の音声処理装置1Aは、画像表示部18を備え、理解結果に基づいて利用者の意図する内容の候補を画像表示部に表示させ、利用者により候補を選択可能にする。
また、本実施形態の音声処理装置1Aにおいて、質問部17Aは、音声認識部14によってN−Bestを用いて利用者の発話内容に対する候補を抽出し、抽出した候補を画像表示部18に表示させる。
この構成によって、本実施形態によれば、音声処理装置1Aが音声認識した結果に基づいて各項目の候補を画像表示部18に表示させ、タッチパネル入力部19で選択させるようにしたので、ロボット2と訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることがすることができる。
例えば、図8において、ロボット2が訪問者に対して「お名前は田中さまでしょうか?竹中さまでしょうか?真中さまでしょうか?」と音声信号を用いて確認を行った場合、音声処理装置1Aは、訪問者のこの確認に応じた返答の「田中です。」に対して、再度、音声認識を行う必要がある。この場合、前述したように、仮に認識率が90%の場合、2回音声認識を行うことで、認識率が約80%(=0.9^2)に低下する。一方、本実施形態によれば、画像表示部18への表示と、タッチパネル入力部19による選択により、音声認識を行う回数が1回で済むため、認識率90%を得ることができる。
[第3実施形態]
第2実施形態では、例えば図8に示したように、全ての項目に対して、画像表示部18に表示させてタッチパネル入力部19の操作によって選択させる例を説明したが、本実施形態では、予め定められている使用タイミングと項目のみタッチパネル入力部19の操作によって選択させる例を説明する。
音声処理装置1Aの構成は、第2実施形態と同様であるが、シナリオ記憶部171に、図11に示すように、タッチパネル入力部19の使用の有無、使用タイミングが優先度に関連付けられて記憶されている。なお、シナリオ記憶部171に記憶されている情報については、後述する。
<DB15に格納されている担当者に関する情報の例>
まず、DB15に格納されている担当者に関する情報の例を説明する。
図10は、第1実施形態〜第3実施形態に係るDB15に格納されている担当者に関する情報の例を示す図である。
図10に示すように、DB15には、担当者の名字の読みに、担当者の名前、所属、電話番号、性別、および主な業務内容等が関連付けられて格納されている。図9に示す例は、担当者の名前の読みが「すずき」と「よしだ」である情報の一例である。図9に示す例では、読みが「すずき」である担当者は4名であり、読みが「よしだ」である担当者は2名である。
<優先度、シナリオの例>
次に、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を説明する。
図11は、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を示す図である。図11に示すように、シナリオ記憶部171には、確認を行うタイミングといずれの項目に対してタッチパネル入力部19を用いるかが、優先度と質問回数とシナリオに関連付けられている。図11に示すように、本実施形態では、受け付けにおいて、特に重要な項目である担当者の所属と担当者の名前についてタッチパネル入力による選択を併用する。
優先度が1の場合、質問部17Aは、第1実施形態と同様に、訪問者が4つの項目を発話するように促す質問を行い、質問に対する応答を音声認識および理解した結果を、音声信号で出力する。図11に示すように、本実施形態では、理解結果に対する訪問者の返答を得るためにタッチパネル入力部19を使用せずに、訪問者の返答の音声信号を用いる。
次に、優先度が2または3の場合、質問部17Aは、第1実施形態と同様に、4つの項目毎に訪問者へ質問と確認を行う。図11に示すように、本実施形態では、訪問者の所属と訪問者の名前に対して、第1実施形態と同様に音声信号を用いて確認を行い、音声信号による返答を取得する。そして、担当者の所属と担当者の名前に対する確認を画像表示部18に表示させ、タッチパネル入力部19を用いて選択結果を取得する。
意図理解部16は、DB15を参照した結果、候補が3人以下の場合、候補の担当者の名前を全て選択する。そして、意図理解部16は、選択した候補者に関する情報を読み出して、読み出した候補者に関する情報をシナリオ選択部172Aに出力する。
意図理解部16は、DB15を参照した結果、候補が4人以上の場合、DB15に格納されている同じ読みの名字である担当者のうち、格納されている上位3人を選択する。そして、意図理解部16は、選択した候補者に関する情報を読み出して、読み出した候補者にかんする情報をシナリオ選択部172Aに出力する。
図11に示すように、本実施形態では、優先度、確認を行うタイミング、得たい目的語の重要性等に応じて、音声で応対を行うのか、画像表示とタッチパネルによる選択を行うかが、設定されている。
なお、図11に示した例は1例であり、訪問者へ確認を行うタイミング、タッチパネル入力を用いる項目は、これに限られない。さらに質問を行う順番もこれに限られない。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、1項目毎に行う方法に限られず、図5に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。
<画像表示部18に表示される画像の例>
次に、画像表示部18に表示される画像の例を説明する。
例えば、優先度が2の場合、画像表示部18には、図8における鎖線g113と鎖線g114で囲まれた領域の画像が、画像表示部18に表示される。訪問者は、タッチパネル入力部19を操作して、それぞれの確認または選択を行う。
例えば、優先度が3の場合に、図5に示した応対によって担当者の名前「すずき」を取得したとき、意図理解部16は、DB15を参照して候補を選択する。
図12は、本実施形態に係る画像表示部18に表示される画像g201の例を示す図である。図12に示した例は、読み「すずき」に対して複数の候補が存在する場合の表示例である。
図12に示す例では、担当者の名前が「すずき」であり、3人の候補者を表示した例である。この場合、図12に示すように担当者の所属と名前とが関連付けられている。これにより、鎖線g211、g212、g213で囲まれた領域それぞれには、1つのボタンが設定されている。例えば、鎖線g211で囲まれた領域のうち、候補の欄、所属の欄、名前の欄のいずれがタッチパネル入力部19の操作によって選択されても、第1候補が選択される。
なお、図12に示すように、所属は訪問者が判別可能な範囲で省略して表示されるようにしてもよい。例えば、同じ読みであり、かつ同じ部に所属している場合に下の階層の課名まで表示させるようにしてもよい。同様に、名前についても、同じ漢字の名字の担当者が複数存在する場合にフルネームを表示させ、該当する漢字の名字の担当者が1名の場合に名字のみを表示させるようにしてもよい。
また、従来技術では、意図理解部の理解が誤っていた場合、例えば、訪問者が「ZZZ部の金髪の方をお願いします。」と発話した場合、「金髪」を担当者名であると理解を誤る場合もあり得た。このような場合、再度、訪問者に同じ質問を繰り返しても認識率を向上できなかった。第1実施形態〜第3実施形態によれば、優先度毎に、目的語を聞き出せるように質問を変え、質問を区切るタイミングと質問を認識・理解した結果を確認するタイミングを変えたので、上述したように1つの項目の認識率を向上させることができる。
以上のように、本実施形態では、優先度と、得たい目的語の重要性等に応じて、音声による応対と音声認識、または画像表示とタッチパネル入力部19による選択を併用する。この結果、本実施形態によれば、音声認識した結果、例えば担当者の名前について複数の候補がある場合であっても、N−Best探索によって最も可能性の高い順に表示させて、利用者に選択してもらいことで、利用者の作業負担を軽減でき、応対にかかる時間を短縮することができる。
なお、第1実施形態〜第3実施形態では、会社における受け付け業務のうち、訪問者と担当者に関するやりとりを例に説明したが、これに限られない。本実施形態のロボット2を、会社における受け付け業務のうち、タクシーの受け付け、敷地内の案内等のやりとりを行うようにしてもよい。また、本実施形態のロボット2を、イベントの受け付け、ホテルの受け付け、チケット販売の窓口業務等で利用することも可能である。この場合、DB15、シナリオ記憶部171には、用途に応じたモデル、シナリオ、優先度、優先度毎にどのタイミングで確認を訪問者へ行うか等の情報が、格納、記憶されている。
また、第1実施形態〜第3実施形態では、音声処理装置1(または1A)がロボット2に搭載されている例を説明したが、これに限られない。音声処理装置1(または1A)は、例えば、スマートフォン等の携帯電話、タブレット端末等に搭載されていてもよい。
また、第1実施形態〜第3実施形態において、音声処理装置1(または1A)が撮像部10と画像認識部11を備えている場合、訪問者の顔の画像、訪問者の所属、訪問者の生前を関連付けて、例えばDB15に格納するようにしてもよい。これにより、音声処理装置1(または1A)は、訪問者の音声認識に加え、訪問者の顔の画像認識を併用して訪問者を識別するようにしてもよい。
なお、本発明における音声処理装置1(または1A)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識、意図理解、訪問者とのやりとりを行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A…音声処理装置、10…撮像部、11…画像認識部、12…収音部、13…音声認識辞書、14…音声認識部、15…DB、16…意図理解部、17、17A…質問部、171、171A…シナリオ記憶部、172、172A…シナリオ選択部、173…質問回数記憶部、174…音声出力部、18…画像表示部、19…タッチパネル入力部

Claims (7)

  1. 音声信号を取得する音声入力部と、
    前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、
    前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、
    前記意図理解部によって理解された理解結果に基づいて前記利用者に対して質問を行う質問部と、を備え、
    前記質問部は、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する音声処理装置。
  2. 前記質問部は、前記理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、前記意図理解部によって前記確認質問が理解された結果に基づいて、前記優先度を変更する、請求項1に記載の音声処理装置。
  3. 前記質問部は、前記優先度に応じて、前記質問内容を、必要な目的語を聞きだす質問内容に変更する、請求項1または請求項2に記載の音声処理装置。
  4. 前記優先度は、前記利用者に対して行った質問回数に基づく、請求項1から請求項3のいずれか1項に記載の音声処理装置。
  5. 画像表示部を備え、
    前記理解結果に基づいて前記利用者の意図する内容の候補を前記画像表示部に表示させ、前記利用者により前記候補を選択可能にする、請求項1から請求項4のいずれか1項に記載の音声処理装置。
  6. 前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させる、請求項5に記載の音声処理装置。
  7. 音声入力部が、音声信号を取得する音声入力手順と、
    音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識うぃ行う音声認識手順と、
    意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、
    質問部が、前記意図理解手順によって理解された理解結果に基づいて前記利用者に対して質問を行い、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する質問手順と、
    を含む音声処理方法。
JP2015183973A 2015-09-17 2015-09-17 音声処理装置および音声処理方法 Active JP6540414B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015183973A JP6540414B2 (ja) 2015-09-17 2015-09-17 音声処理装置および音声処理方法
US15/235,540 US9858924B2 (en) 2015-09-17 2016-08-12 Voice processing apparatus and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015183973A JP6540414B2 (ja) 2015-09-17 2015-09-17 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP2017058545A true JP2017058545A (ja) 2017-03-23
JP6540414B2 JP6540414B2 (ja) 2019-07-10

Family

ID=58282963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015183973A Active JP6540414B2 (ja) 2015-09-17 2015-09-17 音声処理装置および音声処理方法

Country Status (2)

Country Link
US (1) US9858924B2 (ja)
JP (1) JP6540414B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170644A (ja) * 2017-03-30 2018-11-01 アイホン株式会社 インターホン装置
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
JP2019215685A (ja) * 2018-06-12 2019-12-19 株式会社国際情報ネット ロボットを利用した接客システム
KR20200057230A (ko) * 2018-11-16 2020-05-26 (주)아이컴시스 주소봇 서비스 시스템 및 방법
US10978055B2 (en) 2018-02-14 2021-04-13 Toyota Jidosha Kabushiki Kaisha Information processing apparatus, information processing method, and non-transitory computer-readable storage medium for deriving a level of understanding of an intent of speech

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678561A (zh) 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
EP3588492A4 (en) * 2017-12-22 2020-04-29 SONY Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM
US11475893B2 (en) * 2018-12-19 2022-10-18 Hyundai Motor Company Vehicle and a control method thereof
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム
CN109979462A (zh) * 2019-03-21 2019-07-05 广东小天才科技有限公司 一种结合上下文语境获取意图的方法和系统
CN111860335A (zh) * 2020-07-22 2020-10-30 安徽兰臣信息科技有限公司 一种基于人脸识别的智能穿戴设备
CN112002321B (zh) * 2020-08-11 2023-09-19 海信电子科技(武汉)有限公司 显示设备、服务器及语音交互方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308996A (ja) * 1993-04-23 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 質問応答型の対話装置におけるコマンドの要求およびコマンドの認識結果の確認のためのプロンプトの作成方法
JPH1031497A (ja) * 1996-07-18 1998-02-03 Hitachi Ltd 音声対話制御方法および音声対話システム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2004333543A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
WO2013038440A1 (ja) * 2011-09-13 2013-03-21 三菱電機株式会社 ナビゲーション装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259090A (ja) 1993-03-09 1994-09-16 Nec Corp 音声対話システム
US9082406B2 (en) * 2006-11-30 2015-07-14 Robert Bosch Llc Method and system for extending dialog systems to process complex activities for applications
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06308996A (ja) * 1993-04-23 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 質問応答型の対話装置におけるコマンドの要求およびコマンドの認識結果の確認のためのプロンプトの作成方法
JPH1031497A (ja) * 1996-07-18 1998-02-03 Hitachi Ltd 音声対話制御方法および音声対話システム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2004333543A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
WO2013038440A1 (ja) * 2011-09-13 2013-03-21 三菱電機株式会社 ナビゲーション装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170644A (ja) * 2017-03-30 2018-11-01 アイホン株式会社 インターホン装置
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
US10978055B2 (en) 2018-02-14 2021-04-13 Toyota Jidosha Kabushiki Kaisha Information processing apparatus, information processing method, and non-transitory computer-readable storage medium for deriving a level of understanding of an intent of speech
JP2019215685A (ja) * 2018-06-12 2019-12-19 株式会社国際情報ネット ロボットを利用した接客システム
KR20200057230A (ko) * 2018-11-16 2020-05-26 (주)아이컴시스 주소봇 서비스 시스템 및 방법
KR102175022B1 (ko) * 2018-11-16 2020-11-05 (주)아이컴시스 주소봇 서비스 시스템

Also Published As

Publication number Publication date
JP6540414B2 (ja) 2019-07-10
US9858924B2 (en) 2018-01-02
US20170084271A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6540414B2 (ja) 音声処理装置および音声処理方法
US10176810B2 (en) Using voice information to influence importance of search result categories
JP6465077B2 (ja) 音声対話装置および音声対話方法
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5967569B2 (ja) 音声処理システム
KR101777807B1 (ko) 수화 번역기, 시스템 및 방법
JP5158174B2 (ja) 音声認識装置
US20150331665A1 (en) Information provision method using voice recognition function and control method for device
JP6129134B2 (ja) 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム
US10245732B2 (en) Reception system and reception method
CN106796788A (zh) 基于用户反馈来改善自动语音识别
JP6820664B2 (ja) 受付システムおよび受付方法
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
JP6291303B2 (ja) コミュニケーション支援ロボットシステム
JP2022510350A (ja) 対話型健康状態評価方法およびそのシステム
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP2010078763A (ja) 音声処理装置、音声処理プログラム、およびインターホンシステム
JP2018087945A (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP2017211430A (ja) 情報処理装置および情報処理方法
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
US11755652B2 (en) Information-processing device and information-processing method
Goetze et al. Multimodal human-machine interaction for service robots in home-care environments
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
TWI659429B (zh) 互動式健康狀態評估系統及其方法
JP6866731B2 (ja) 音声認識装置、音声認識方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150