JP2018081147A

JP2018081147A - コミュニケーション装置、サーバ、制御方法、および情報処理プログラム

Info

Publication number: JP2018081147A
Application number: JP2016221809A
Authority: JP
Inventors: 学神尾; Manabu Kamio
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-05-24

Abstract

【課題】音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知する。
【解決手段】ロボット（１０）は、対象者からの発話音声を取得し、取得した発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する。
【選択図】図１

Description

本発明はユーザと音声によるコミュニケーションを実行するコミュニケーション装置等に関する。

従来、ユーザとコミュニケーションを行うロボットが知られている。例えば、特許文献１には、ユーザの音声を入力すると音声認識の結果の信頼度を算出し、信頼度に基づいて算出した評価値が予め設定された閾値未満であるときに回答不能行動を行うロボットが開示されている。また、特許文献２には、録音した音声を音声認識処理してテキストデータに変換し、不明部分があれば音声認識結果の修正画面を表示するサーバシステムが開示されている。

特開２０１１−２２７２３７号公報（２０１１年１１月１０日公開）特開２００５−２７５９２５号公報（２００５年１０月６日公開）

しかしながら、上述のような従来技術は、音声認識の精度が低かったユーザの音声を、音声によってユーザに通知することができないという問題がある。

本発明の一態様は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知することを目的としている。

上記の課題を解決するために、本発明の一態様に係るコミュニケーション装置は、対象者と音声会話を行うコミュニケーション装置であって、前記対象者からの発話音声を取得する音声取得部と、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部と、を備えることを特徴としている。

また、上記の課題を解決するために、本発明の一態様に係るサーバは、外部機器により取得された発話音声の音声データを受信するサーバ受信部と、前記音声データに対して音声認識を行う音声認識部と、前記音声認識部による音声認識により取得される語句について、音声認識の精度を算出する評価値算出部と、前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部と、前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部と、を備えることを特徴としている。

本発明の一態様によれば、音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知することができるという効果を奏する。

本発明の実施形態１に係るコミュニケーションシステムの要部構成を示すブロック図である。本発明の各実施形態のコミュニケーションシステムにおける、ユーザとロボットとの間のコミュニケーションの推移の概要を示す図である。図１のコミュニケーションシステムにおいて実行される処理の一例を示すフローチャートである。図１のコミュニケーションシステムにおいて不明な語句が１つであるか複数であるかによって発話内容を切り替える処理を示す図である。本発明の実施形態２に係るコミュニケーションシステムの要部構成を示すブロック図である。図５のコミュニケーションシステムにおいて実行される処理の一例を示すフローチャートである。本発明の実施形態３に係るコミュニケーションシステムの要部構成を示すブロック図である。

〔実施形態１〕
以下、本発明の実施の形態について、図１から図４に基づいて詳細に説明する。以下の各実施形態においては、コミュニケーション装置が、携帯電話機能付きの２足歩行ヒューマノイドロボットであるロボット１０に備えられているものとして説明する。なお、アニメキャラクタの戦闘ロボットをはじめとするロボット全般にコミュニケーション装置が備えられていてもよい。ロボット１０の理解を容易にするため、まず、ロボット１０を含むコミュニケーションシステム１における、ロボット１０とユーザ１１とのコミュニケーションの概要を、図２を用いて整理しておく。

（コミュニケーションの推移）
図２は、コミュニケーションシステム１におけるコミュニケーションの推移の概要を示す図であり、図示の通り、コミュニケーションシステム１は、ロボット１０（コミュニケーション装置）と、音声認識サーバ２０とを含んでいる。図２において、ロボット１０とユーザ１１とのコミュニケーションは、（Ａ）、（Ｂ）、（Ｃ）の順に推移する。

図２の（Ａ）に示すように、先ず、ロボット１０は、ユーザ１１（対象者）から、「明日の午後６時からＡＡスタジアムでＢＢチームの試合を見るよ。」との発話音声を取得する。ロボット１０は、ユーザ１１から発話音声を取得すると、取得した発話音声の音声データを音声認識サーバ２０に送信する。音声認識サーバ２０は、ロボット１０から受信した音声データに対して、音声認識処理を実行する。例えば、音声認識サーバ２０は、受信した音声データをテキストデータに変換して、そのテキストデータを解析して語句（フレーズを含む）を抽出する。なお、音声認識サーバ２０が実行する音声認識処理については、公知技術を用いることができる。また、以下の説明において「語句」との概念は、「文字列」を含む概念である。例えば、ユーザ１１からの「明日の午後６時から『ＡＡスタジアムで』ＢＢチームの試合を見るよ。」との発話音声の音声データを音声認識することによって、「ＡＡスタジアムで」との語句（文章、文字列）を抽出してもよいし、「ＡＡスタジアム」および「で」との語句（単語）を抽出してもよい。

音声認識サーバ２０は、音声認識処理により取得した語句の各々について、認識精度を算出する。以下の説明においては、音声認識処理により取得される語句の認識精度を、「評価値」と称してもよい。また、認識精度（評価値）が所定値に満たない語句を、コミュニケーションシステム１（つまり、ロボット１０および音声認識サーバ２０の少なくとも一方）が、「聞き取れなかった語句」または「不明の語句」と称することがある。

ユーザ１１からの「明日の午後６時からＡＡスタジアムでＢＢチームの試合を見るよ。」との発話音声に対し、音声認識サーバ２０は音声認識を実行し、「明日の午後６時からＡ？ス？ジ？ムでＢＢチームの試合を見るよ。」との音声認識処理結果を取得する。ここで、「？」で示した語は、音声認識サーバ２０が音声認識処理を実行して取得した語であって、評価値が所定値に満たない語を示している。

図２の（Ｂ）に示すように、音声認識サーバ２０は、ユーザ１１の発話音声の音声データに対して音声認識処理を実行して取得したテキストデータと、テキストデータに含まれる語句ごとの評価値（認識精度）を、ロボット１０に送信する。ロボット１０は、受信したテキストデータ全体の内、評価値が所定値に満たない語句を抽出する。次に、ロボット１０は、ユーザ１１の発話音声全体に対応する音声データのうち、評価値が所定値に満たない語句に対応する音声データを取得する。そして、ロボット１０は、評価値が所定値に満たない語句に対応する音声データを、ユーザ１１に対して、音声出力する。

図２の（Ｂ）に示す例では、ロボット１０は、評価値が所定値に満たない語句として、「Ａ？ス？ジ？ム」を抽出している。次に、ロボット１０は、ユーザ１１の「明日の午後６時からＡＡスタジアムでＢＢチームの試合を見るよ。」との発話音声の音声データのうち、「Ａ？ス？ジ？ム」に対応する音声データを取得する。そして、ロボット１０は、評価値が所定値に満たない「Ａ？ス？ジ？ム」に対応する音声データを、ユーザ１１に対して、音声出力する。つまり、ロボット１０は、ユーザからの発話音声のうち、聞き取れなかった語句に対応する発話音声を、ユーザ１１に聞き返す発話（音声出力）を実行する。

図２の（Ｃ）に示すように、聞き取れなかった語句を聞き返す発話をロボット１０が実行することにより、ユーザ１１は、ロボット１０が聞き取れなかった語句である「ＡＡスタジアム」を、分かり易くなるように言い直したり、声を大きくして言い直したりする。ロボット１０は、ユーザ１１が、分かり易くなるように（つまり、ロボット１０が認識しやすくなるように）言い直したり、声を大きくして言い直したりした発話音声を取得する。ロボット１０は、ユーザ１１から取得した発話音声の音声データを音声認識サーバ２０に送信する。音声認識サーバ２０は、ロボット１０から音声データを受信すると、受信した音声データに対して音声認識処理を実行し、「ＡＡスタジアム」との音声認識処理結果を取得する。

図２を用いて概要を説明してきたロボット１０およびコミュニケーションシステム１は、以下のように整理することができる。すなわち、ロボット１０は、ユーザ１１（対象者）と音声会話を行うコミュニケーション装置であって、ユーザ１１からの発話音声を取得する音声取得部１１０と、音声取得部１１０によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ１１に対して音声出力する音声出力部１８０と、を備えている。

前記の構成によれば、音声出力部１８０は、ユーザ１１からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ１１に対して音声出力する。したがって、ロボット１０は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、つまり、「ユーザ１１からの発話音声の内、どの語句が認識しづらかったのか」を、音声でユーザ１１に通知することができるという効果を奏する。

また、ロボット１０がどの語句が認識しづらかったのかを通知する結果、ユーザ１１は、ロボット１０が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、ユーザ１１は、ロボット１０が認識しづらかった語句を言い直すことによって、認識しづらかった語句についてのロボット１０の認識精度を向上させる。したがって、ロボット１０は、認識しづらかった語句の音声通知などを含むユーザ１１との音声会話によって、ユーザ１１とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。

コミュニケーションシステム１は、ユーザ１１と音声会話を行うコミュニケーションシステムであって、ユーザ１１からの発話音声を取得する音声取得部１１０と、音声取得部１１０によって取得された前記発話音声の音声データに対し音声認識を行なう音声認識部２２０と、音声認識部２２０による音声認識により取得される語句について、認識精度（評価値）を算出する評価値算出部２４０（精度算出部）と、音声取得部１１０によって取得された前記発話音声の音声データから、前記認識精度が所定値に満たない語句に対応する音声データを抽出する抽出部１５０と、抽出部１５０によって抽出された音声データを、ユーザ１１に対して音声出力する音声出力部１８０と、を備えている。

前記の構成によれば、音声出力部１８０は、ユーザ１１からの発話音声の内、音声認識の認識精度が所定値に満たなかった語句に対応する発話音声を、ユーザ１１に対して音声出力する。したがって、コミュニケーションシステム１は、音声認識の認識精度が所定値に満たなかった語句に対応する発話音声を、つまり、どの語句が認識しづらかったのかを、音声でユーザ１１に通知することができるという効果を奏する。

また、コミュニケーションシステム１がどの語句が認識しづらかったのかを通知した結果、ユーザ１１は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、コミュニケーションシステム１による、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、コミュニケーションシステム１は、認識しづらかった語句の音声通知などを含むユーザ１１との音声会話によって、ユーザ１１との音声会話全体の成功率を向上させることができるという効果を奏する。

（コミュニケーションシステムの要部構成）
図１は、本発明の実施形態１に係るコミュニケーションシステム１に含まれるロボット１０および音声認識サーバ２０の腰部構成を示すブロック図である。図１に示すように、コミュニケーションシステム１は、ロボット１０と音声認識サーバ２０とを含み、ロボット１０と音声認識サーバ２０とは、通信ネットワークを介して接続している。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。

（ロボットの構成）
次に、ロボット１０の構成について説明する。なお、本実施形態に直接関係のない部分（例えば、ロボット１０が備える、通話機能、メール機能を実現する部分など）については、以下の説明および上記ブロック図から省略している。ただし、実施の実情に則して、ロボット１０は、当該省略した構成を含んでもよい。ロボット１０は、ユーザ１１の発話音声を取得し、取得した発話音声に対する音声認識処理の実行結果に応じて、ユーザ１１と対話を行うコミュニケーション装置である。ロボット１０は、図１に示すように、音声取得部１１０、送信部１２０、記憶部１３０、受信部１４０、抽出部１５０、割合判定部１６０、対応データ取得部１７０、および音声出力部１８０を備えている。

音声取得部１１０は、例えばマイク等の音声入力装置であり、ユーザ１１の発話音声などを取得する。音声取得部１１０は、取得したユーザ１１の発話音声の音声データを、送信部１２０に出力する。また、音声取得部１１０は、ユーザ１１の発話音声の音声データを、記憶部１３０の音声データテーブル１３１に格納する。

送信部１２０は、ユーザ１１の発話音声の音声データを音声取得部１１０から取得する。送信部１２０は、取得した音声データを、音声認識サーバ２０のサーバ受信部２１０に送信する。

記憶部１３０は、ロボット１０が使用する各種データを格納する。記憶部１３０は、ロボット１０が実行する（１）制御プログラム、（２）ＯＳプログラム、（３）各種機能を実行するためのアプリケーションプログラム、および、（４）該アプリケーションプログラムを実行するときに読み出す各種データを記憶する。上記の（１）〜（４）のデータは、例えば、ＲＯＭ（read only memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable ProgrammableROM）、ＥＥＰＲＯＭ（登録商標）（Electrically EPROM）、ＨＤＤ（Hard Disc Drive）等の不揮発性記憶装置に記憶される。また、記憶部１３０には、音声データテーブル１３１が格納されている。音声データテーブル１３１には、音声取得部１１０が取得したユーザ１１の発話音声の音声データが格納される。

受信部１４０は、音声認識サーバ２０のサーバ送信部２５０から、ユーザ１１の発話音声に対する音声認識処理の実行結果を取得する。具体的には、受信部１４０は、ユーザ１１の発話音声の音声データに対して音声認識処理が実行されることによって生成されたテキストデータ、および、テキストデータに含まれる語句ごとの評価値（音声認識の精度）のデータを受信する。受信部１４０は、受信したテキストデータおよび語句ごとの評価値のデータを、抽出部１５０に通知する。

抽出部１５０は、受信部１４０から、テキストデータおよび語句ごとの評価値のデータを取得する。抽出部１５０は、取得したテキストデータから、評価値が所定値に満たなかった語句を抽出する。抽出部１５０は、テキストデータの全体と、抽出した語句とを、割合判定部１６０に送信する。

割合判定部１６０は、抽出部１５０によって抽出された語句が、つまり、評価値が所定値に満たなかった語句が、所定の個数（例えば、２個）以上あるかを判定する。（１）評価値が所定値に満たなかった語句が所定の個数以上あると判定した場合、割合判定部１６０は、対応データ取得部１７０に、抽出部１５０から取得したテキスト全体を通知する。すなわち、割合判定部１６０は、音声取得部１１０が取得したユーザ１１の発話音声全体に対応するテキスト全体を、対応データ取得部１７０に通知する。（２）評価値が所定値に満たなかった語句が所定の個数以上ないと判定した場合、割合判定部１６０は、対応データ取得部１７０に、抽出部１５０が抽出した語句のみを通知する。すなわち、割合判定部１６０は、評価値が所定値に満たなかった語句のみを、対応データ取得部１７０に通知する。

また、割合判定部１６０は、音声取得部１１０が取得したユーザ１１の発話音声の音声データ全体に対して、評価値が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きいかを判定してもよい。つまり、割合判定部１６０は、ユーザ１１の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が、所定の割合よりも大きいかを判定してもよい。（１）テキスト全体の内、評価値が所定値に満たなかった語句の占める割合が所定の割合よりも大きいと判定した場合、割合判定部１６０は、対応データ取得部１７０に、抽出部１５０から取得したテキスト全体を通知する。すなわち、割合判定部１６０は、音声取得部１１０が取得したユーザ１１の発話音声全体に対応するテキスト全体を、対応データ取得部１７０に通知する。（２）テキスト全体の内、評価値が所定値に満たなかった語句の占める割合が所定の割合以下であると判定した場合、割合判定部１６０は、対応データ取得部１７０に、抽出部１５０が抽出した語句のみを通知する。すなわち、割合判定部１６０は、評価値が所定値に満たなかった語句のみを、対応データ取得部１７０に通知する。

対応データ取得部１７０は、音声データテーブル１３１を参照して、割合判定部１６０から通知された「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データを取得する。例えば、（１）割合判定部１６０が、「評価値が所定値に満たない語句が所定の個数以上ある（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合より大きい）」と判定した場合、対応データ取得部１７０は、テキスト全体の音声データを取得する。また、（２）割合判定部１６０が、「評価値が所定値に満たない語句が所定の個数以上ない（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以下である）」と判定した場合、対応データ取得部１７０は、評価値が所定値に満たなかった語句の音声データを取得する。対応データ取得部１７０は、取得した音声データを、音声出力部１８０に出力する。

音声出力部１８０は、例えばスピーカ等の音声出力装置であり、ユーザ１１に対して音声出力する。音声出力部１８０は、対応データ取得部１７０から入力された音声データ（つまり、「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データ）を音声出力する。

ロボット１０は、ユーザ１１からの発話音声の音声データを音声データテーブル１３１に格納している。ロボット１０の音声出力部１８０は、ユーザ１１の発話音声の内、評価値の低かった部分（語句）に対応する発話音声を、そのまま音声出力することにより、ユーザ１１に対して、評価値の低かった部分の発話を促す。

また、ユーザ１１からの発話音声の音声データの内、音声認識の評価値の低かった語句に対応する音声データをロボット１０が音声出力することにより、ロボット１０は、何が音声認識できなかったかを、音声によってユーザ１１に明確に伝えることができる。その結果、ユーザ１１が音声認識できなかった部分の音声を再度発話する（言い直す）ことで、ロボット１０はその部分の音声をより精度よく認識できるようになる。したがって、ロボット１０は、認識しづらかった語句の音声通知などを含む「ユーザ１１との音声会話」によって、ユーザ１１とのコミュニケーション全体の成功率を向上させることができる。

なお、ロボット１０は、さらに撮像部（カメラ）を備えていてもよく、例えば、撮像部から入力された画像からユーザの表情および位置の少なくとも一方を解析し、解析結果に基づいて対話をするように構成されていてもよい。例えば、ロボット１０の正面から見てユーザの位置が右方向であると認識した場合、ロボット１０の頭部を実際に右に向ける、あるいは、頭部に顔が右に向いて移動する状態を表示することで、ユーザの方を向いている、つまり会話可能であるという状態を示す構成であってもよい。

（音声認識サーバの構成）
次に、音声認識サーバ２０について説明する。音声認識サーバ２０は、ロボット１０から受信した音声データ（入力音声）に対して音声認識処理を実行し、音声認識処理の実行結果をロボット１０に送信する。具体的には、音声認識サーバ２０は、ロボット１０から受信した音声データをテキストデータに変換し、そのテキストデータを解析して語句（フレーズを含む）を抽出する。また、音声認識サーバ２０は、音声認識処理により取得したテキストデータに含まれる語句の各々について、認識精度（評価値）を算出し、語句ごとの評価値を示すデータを、テキストデータ全体と共に、ロボット１０に送信する。なお、音声認識サーバ２０は、複数のロボット１０から、各々が取得した会話音声の音声データを受信してもよい。音声認識サーバ２０は、複数のロボット１０の各々が取得した会話音声の音声データに対する音声認識処理の実行結果を、複数のロボット１０の各々に送信してもよい。

音声認識サーバ２０は、図１に示すように、サーバ受信部２１０、音声認識部２２０、語句分割部２３０、評価値算出部２４０（精度算出部）、およびサーバ送信部２５０を備えている。

サーバ受信部２１０は、ロボット１０の送信部１２０から音声データを受信すると、受信した音声データを音声認識部２２０に送信する。音声認識部２２０は、ユーザ１１の入力音声（ユーザ１１の発話音声の音声データ）を認識する機能ブロックである。具体的には、音声認識部２２０は、サーバ受信部２１０が受信した音声データをテキストデータ（文字情報）に変換する。音声認識部２２０は、音声データから変換したテキストデータを、語句分割部２３０に通知する。

語句分割部２３０は、音声認識部２２０から通知されたテキストデータを、語句に分割する。言い換えれば、語句分割部２３０は、音声認識部２２０から通知されたテキストデータを解析して、語句（フレーズを含む）を抽出する。語句分割部２３０は、テキストデータから分割した語句のデータを、評価値算出部２４０に送信する。

評価値算出部２４０は、語句分割部２３０により分割された語句ごとに、音声認識の精度（評価値）を算出する。評価値算出部２４０は、「語句ごとの評価値のデータ」を、「テキストデータ」と共に、サーバ送信部２５０に出力する。なお、評価値とは、例えば、音声認識の精度を数値化したものである。

サーバ送信部２５０は、評価値算出部２４０から、「語句ごとの評価値のデータ」および「テキストデータ」を取得する。サーバ送信部２５０は、取得した「語句ごとの評価値のデータ」および「テキストデータ」を、ロボット１０の受信部１４０に送信する。

なお、本実施形態において、音声認識サーバ２０は、１台のサーバによって構成されてもよいし、複数台のサーバが通信ネットワークを介して接続することによって、上述の音声認識サーバ２０の各機能を実現するものであってもよい。

（コミュニケーションシステムにおける処理の流れ）
これまで構成を説明してきたロボット１０および音声認識サーバ２０を含むコミュニケーションシステム１について、次に、コミュニケーションシステム１全体における処理の流れを、図３に基づいて説明する。

図３は、図１のコミュニケーションシステム１において実行される処理の一例を示すフローチャートである。図３に示すように、まず、音声取得部１１０は、ユーザ１１が発話した内容（発話音声）を取得する（Ｓ１１０：音声取得ステップ）。音声取得部１１０は、ユーザ１１から発話音声を取得すると、取得した発話音声の音声データを記憶部１３０の音声データテーブル１３１に格納する（Ｓ１２０）。また、音声取得部１１０は、送信部１２０に、ユーザ１１の発話音声の音声データを出力する。送信部１２０は、音声取得部１１０からユーザ１１の発話音声の音声データを取得すると、取得した音声データを、サーバ受信部２１０に送信する。

サーバ受信部２１０は、送信部１２０から音声データを受信すると、音声認識部２２０に、受信した音声データを出力する。音声認識部２２０は、サーバ受信部２１０から取得した音声データに対し、音声認識を行う（Ｓ１３０）。

音声認識部２２０は、サーバ受信部２１０から取得した音声データを、テキスト情報（テキストデータ）に変換する（Ｓ１４０）。音声認識部２２０は、変換したテキストデータを、語句分割部２３０に通知する。

語句分割部２３０は、音声認識部２２０から、音声認識部２２０によって音声データから変換されたテキストデータを取得し、取得したテキストデータを語句に分割する（Ｓ１５０）。語句分割部２３０は、テキストデータから分割した語句のデータを、評価値算出部２４０に通知する。

評価値算出部２４０は、語句分割部２３０から、分割された語句のデータを取得すると、分割された語句ごとに評価値を算出する（Ｓ１６０）。評価値算出部２４０は、「語句ごとに算出した評価値のデータ」と、「テキストデータ」とを、サーバ送信部２５０に出力する。サーバ送信部２５０は、評価値算出部２４０から取得した「語句ごとの評価値のデータ」と、「テキストデータ」と、を受信部１４０に送信する。

受信部１４０は、サーバ送信部２５０から受信した「語句ごとの評価値のデータ」と、「テキストデータ」と、を抽出部１５０に出力する。抽出部１５０は、不明な語句（つまり、評価値の低い語句）が存在するかを判定する（Ｓ１７０）。

不明な語句が存在する場合（Ｓ１７０でＹＥＳ）、抽出部１５０は、受信部１４０から取得したテキストデータの中から、評価値の低い語句（評価値が所定値に満たなかった語句）を抽出する（Ｓ１８０）。そして、抽出部１５０は、「評価値の低い語句が、テキストデータ全体において、どの語句であるか」を示すデータを、割合判定部１６０に出力する。例えば、抽出部１５０は、テキストデータの全体と、抽出した語句（評価値が所定値に満たなかった語句）とを、割合判定部１６０に出力する。不明な語句が存在していない場合（Ｓ１７０でＮＯ）、ロボット１０（コミュニケーションシステム１）は、処理を終了する。

割合判定部１６０は、抽出部１５０から評価値の低い語句に関するデータを取得すると、「不明な語句（評価値の低い語句）が複数存在するか（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上であるか）」を判定する（Ｓ１９０）。割合判定部１６０は、その判定結果を対応データ取得部１７０に出力する。なお、「不明な語句が複数存在するか」との判定は、「不明な語句が２個以上存在するか」との判定を意味する。割合判定部１６０は、「不明な語句が、所定の個数（例えば、３個）以上あるか」を判定してもよい。

「不明な語句が複数存在する（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である）」場合（Ｓ１９０でＹＥＳ）、割合判定部１６０は、対応データ取得部１７０に、抽出部１５０から取得したテキスト全体を通知する。すなわち、割合判定部１６０は、音声取得部１１０が取得したユーザ１１の発話音声全体に対応するテキスト全体を、対応データ取得部１７０に通知する。対応データ取得部１７０は、音声データテーブル１３１を参照して、割合判定部１６０から通知された「テキストデータ全体」に対応する音声データを取得する。対応データ取得部１７０は、取得した音声データ（テキストデータ全体に対応する音声データ）を、音声出力部１８０に出力する。音声出力部１８０は、テキストデータ全体に対応する音声データを対応データ取得部１７０から取得すると、テキスト全体に対応する音声データを音声出力する（Ｓ２００：音声出力ステップ）。

「不明な語句が１つだけである（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である）」場合（Ｓ１９０でＮＯ）、割合判定部１６０は、対応データ取得部１７０に、不明な語句（つまり、評価値が所定値に満たなかった語句）のみを、対応データ取得部１７０に通知する。対応データ取得部１７０は、音声データテーブル１３１を参照して、割合判定部１６０から通知された「不明な語句」に対応する音声データを取得する。対応データ取得部１７０は、取得した音声データ（不明な語句に対応する音声データ）を音声出力部１８０に出力する。音声出力部１８０は、不明な語句に対応する音声データを対応データ取得部１７０から取得すると、不明な語句に対応する音声データを音声出力する（Ｓ２１０：音声出力ステップ）。

これまで図３を用いて説明してきた、コミュニケーションシステム１において実行される処理について、ロボット１０が実行する処理は以下のように整理することができる。すなわち、ロボット１０が実行する処理は、ユーザ１１（対象者）と音声会話を行うロボット１０（コミュニケーション装置）の制御方法であって、ユーザ１１からの発話音声を取得する音声取得ステップ（Ｓ１１０）と、前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ１１に対して音声出力する音声出力ステップ（Ｓ２００およびＳ２１０）と、を含んでいる。

（不明な語句が１つであるか否かで発話内容を切り替える処理）
図３のＳ１９０において、ロボット１０は、不明な語句（評価値の低い語句）が１つであるか、または複数であるかによって、ユーザ１１に対する発話内容を切り替える処理を実行すると説明した。評価値の低い語句が１つであるか、または複数であるかによって、ロボット１０が具体的にどのような内容の音声データを出力するのかを、図４を用いて説明していく。

図４は、図１のコミュニケーションシステム１において、ロボット１０が、不明な語句が１つであるか、または複数であるかによって、ユーザ１１に対する発話内容を切り替える処理を示す図である。図４の（Ａ）において、ユーザ１１が「明日の午後６時からＡＡスタジアムでＢＢチームの試合を見るよ。」と発話すると、ロボット１０または音声認識サーバ２０は、「明日の午後６時からＡ？ス？ジ？ムでＢＢチームの試合を見るよ。」との音声認識結果を取得する。

具体的には、ロボット１０または音声認識サーバ２０は、先ず、ユーザ１１の発話音声の音声データをテキストデータに変換する。次に、ロボット１０または音声認識サーバ２０は、「明日の」、「午後６時から」、「Ａ？ス？ジ？ムで」、「ＢＢチームの試合を」、「見るよ。」のように、ユーザ１１の発話音声の音声データから変換したテキストデータ全体を、語句に分割する。そして、ロボット１０または音声認識サーバ２０は、テキストデータから分割した語句について、語句ごとの音声認識の精度（評価値）を算出する。このとき、ロボット１０または音声認識サーバ２０は、それぞれの語句の評価値が、所定値より低いかどうかを判定する。図４の（Ａ）において、ロボット１０または音声認識サーバ２０は、例えば、「Ａ？ス？ジ？ムで」との語句の評価値のみが、所定値より低いと判定している。この場合、ロボット１０は、「さっき、『Ａ？ス？ジ？ムで』って話していたけど、何のことか分からなかった。『Ａ？ス？ジ？ムで』って、何ですか？」と発話することで、不明な語句のみをユーザ１１に聞き返す。

なお、図において、「？」で示した語は、ユーザ１１の発話音声に対して音声認識処理を実行して取得した語であって、音声認識の精度（評価値）が所定値に満たない語を示している。

図４の（Ｂ）において、ユーザ１１が「明日の午後６時からＡＡスタジアムでＢＢチームの試合を見るよ。」と発話すると、ロボット１０または音声認識サーバ２０は、「明日の午後？時からＡ？ス？ジ？ムでＢＢチー？の試合を？るよ。」との音声認識結果を取得する。

具体的には、ロボット１０または音声認識サーバ２０は、先ず、ユーザ１１の発話音声の音声データをテキストデータに変換する。次に、ロボット１０または音声認識サーバ２０は、「明日の」、「午後？時から」、「Ａ？ス？ジ？ムで」、「ＢＢチー？の試合を」、「？るよ。」のように、ユーザ１１の発話音声の音声データから変換したテキストデータ全体を、語句に分割する。ロボット１０または音声認識サーバ２０は、分割した語句の音声認識の評価値を算出する。このとき、ロボット１０または音声認識サーバ２０は、それぞれの語句の評価値が、所定値より低いかどうかを判定する。図４の（Ｂ）において、ロボット１０または音声認識サーバ２０は、例えば、「午後？時から」、「Ａ？ス？ジ？ムで」、「ＢＢチー？の試合を」、「？るよ。」との語句の評価値が、所定値より低いと判定している。この場合、ロボット１０は、「さっき、『明日の午後？時からＡ？ス？ジ？ムでＢＢチー？の試合を？るよ。』って話していたけど、全然分からなかった。もう１回教えてくれるかな？」と発話する。すなわち、ロボット１０は、ユーザ１１の発話内容の全てを、ユーザ１１に聞き返す。

図４を用いて説明してきたロボット１０の処理は、以下のように整理することができる。すなわち、音声取得部１１０によって取得された発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、評価値（音声認識の精度）が所定値に満たなかった語句が複数ある場合、音声出力部１８０は、音声取得部１１０によって取得された発話音声の音声データ全体を、ユーザ１１に対して音声出力する。

音声出力部１８０は、音声取得部１１０によって取得された発話音声の全体に対して、音声認識の精度が所定値に満たなかった語句に対応する占める割合が所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、音声取得部１１０によって取得された発話音声の全体を、ユーザ１１に対して音声出力する。

例えば人間同士の会話の場合、音声発話された一文のほとんどの語句が聞き取れなかった場合、および、音声発話された一文に聞き取れなかった語句が複数ある場合、聞き取れなかった語句を一つ一つ取り出して聞き返すよりも、一文全体をもう一度発話してもらった方が自然な会話となる。したがって、ロボット１０は、例えば取得した発話音声の全体に対して音声認識できなかった語句が大きい場合、または、音声認識できなかった語句が複数ある場合、人間同士の自然な会話の場合と同様に、発話音声の全体を聞き返すことにより、音声認識できなかった語句をユーザ１１に通知することができるという効果を奏する。

また、ロボット１０がどの語句が認識しづらかったのかを通知する結果、ユーザ１１は、ロボット１０が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、ユーザ１１は、ロボット１０が認識しづらかった語句を言い直すことによって、認識しづらかった語句についてのロボット１０の認識精度を向上させる。したがって、ロボット１０は、認識しづらかった語句の音声通知などを含むユーザとの音声会話によって、ユーザ１１とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。

〔実施形態２〕
本発明の他の実施形態について、図５および図６に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した機能ブロックと同じ機能を有する機能ブロックについては、同じ符号を付記し、その説明を省略する。

（コミュニケーションシステムの構成）
図５は、本発明の実施形態２に係るコミュニケーションシステム２の要部構成を示すブロック図である。コミュニケーションシステム２は、図５に示すように、ロボット３０と、音声認識サーバ２０と、を含んでいる。ロボット３０と音声認識サーバ２０とは通信ネットワークを介して接続している。コミュニケーションシステム２におけるロボット３０は、コミュニケーションシステム１におけるロボット１０と比べて、以下の点が異なる。すなわち、ロボット３０は、ロボット１０の構成に加えて、騒音判定部３１０（判定部）および表示部３２０をさらに備えている点が、ロボット１０と異なる。

すなわち、ロボット３０は、音声取得部１１０によって取得された発話音声の音声データの内、評価値（音声認識の精度）が所定値に満たなかった語句（不明な語句）に対応するテキスト情報を、ユーザ１１に対して表示する表示部３２０をさらに備えている。

前記の構成によれば、表示部３２０は、ユーザ１１からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、ユーザ１１に対して表示する。

したがって、ロボット３０は、「ユーザ１１からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、ユーザ１１に通知することができるという効果を奏する。

また、ロボット３０は、音声取得部１１０の取得する音声であって、ユーザ１１からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する騒音判定部３１０（判定部）をさらに備えている。ロボット３０の表示部３２０は、騒音判定部３１０によって、ユーザ１１からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、評価値が所定値に満たなかった語句に対応するテキスト情報を、ユーザ１１に対して表示する。

前記の構成によれば、表示部３２０は、騒音判定部３１０によって、ユーザ１１からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、ユーザ１１からの発話音声の内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、ユーザ１１に対して表示する。

したがって、ロボット３０は、例えば自装置の周囲が騒がしいなど、ロボット３０が出力した音声をユーザ１１が聞き取りづらい場合に、「ユーザ１１からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、ユーザ１１に通知することができるという効果を奏する。

（ロボットの構成の詳細）
騒音判定部３１０は、音声取得部１１０から、音声取得部１１０の取得する音声であって、ユーザ１１の発話音声以外の音声（つまり、雑音）を取得し、雑音の音量が所定の騒音基準値よりも大きいかを判定する。騒音判定部３１０は、雑音の音量が所定の騒音基準値よりも大きいと判定すると、割合判定部１６０から取得した以下の２つのデータのいずれかを、表示部３２０に通知する。

第１に、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が複数存在する（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である）場合、騒音判定部３１０は、以下のデータを表示部３２０に送信する。すなわち、騒音判定部３１０は、割合判定部１６０から取得したテキストデータ全体（ユーザ１１の発話音声の音声データから変換されたテキストデータ全体）を、表示部３２０に送信する。

第２に、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が１つだけである（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である）場合、騒音判定部３１０は、以下のデータを表示部３２０に送信する。すなわち、騒音判定部３１０は、不明な語句に対応するテキスト情報のみを表示部３２０に送信する。

表示部３２０は、音声取得部１１０によって取得された発話音声の音声データの内、評価値が所定値に満たなかった語句に対応するテキスト情報を、ユーザ１１に対して表示する。

特に、表示部３２０は、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が複数存在する（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である）場合、以下の情報を表示する。すなわち、表示部３２０は、騒音判定部３１０から受信したテキストデータ全体（ユーザ１１の発話音声の音声データから変換されたテキストデータ全体）を、表示する。

また、表示部３２０は、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が１つだけである（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である）場合、以下の情報を表示する。すなわち、表示部３２０は、騒音判定部３１０から受信した「不明な語句に対応するテキスト情報」のみを表示する。

したがって、騒音等により、ユーザ１１と音声によるコミュニケーションを実行することが困難である場合、ロボット３０の表示部３２０は、テキストデータ全体または音声認識の評価値の低かった語句に対応するテキスト情報を表示することができる。

なお、表示部３２０は、対応データ取得部１７０が音声データテーブル１３１を参照して取得する音声データ（対応データ取得部１７０が音声出力部１８０に出力する音声データ）を、対応データ取得部１７０から取得してもよい。そして、表示部３２０は、対応データ取得部１７０から取得した音声データに対応するテキストデータを表示してもよい。

（コミュニケーションシステムにおける処理の流れ）
これまで構成を説明してきたロボット３０および音声認識サーバ２０を含むコミュニケーションシステム２について、次に、コミュニケーションシステム２における処理の流れを、図６に基づいて説明する。

図６は、図５のコミュニケーションシステム２において実行される処理の一例を示すフローチャートである。図６に例示するフローチャートにおけるＳ１１０〜Ｓ１９０までの処理と、Ｓ２００の処理と、Ｓ２１０の処理とは、図３に例示したフローチャートにおける処理と同様であるため、説明は略記する。

「不明な語句が複数存在する（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である）」場合（Ｓ１９０でＹＥＳ）、騒音判定部３１０は、周囲の雑音の音量が騒音基準値より大きいかを判定する（Ｓ３１０）。

周囲の雑音の音量が騒音基準値より大きいとき（Ｓ３１０でＹＥＳ）、騒音判定部３１０は、ユーザ１１の発話音声全体の音声データから変換されたテキストデータ全体を表示部３２０に送信する。そして、表示部３２０は、騒音判定部３１０から受信したテキストデータ全体を表示する（Ｓ３３０）。

周囲の雑音の音量が騒音基準値以下であるとき（Ｓ３１０でＮＯ）、騒音判定部３１０は、ユーザ１１の発話音声全体の音声データから変換されたテキストデータ全体を表示部３２０に送信しない。

「不明な語句が１つだけである（または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である）」場合（Ｓ１９０でＮＯ）、騒音判定部３１０は、周囲の雑音の音量が騒音基準値より大きいかを判定する（Ｓ３２０）。

周囲の雑音の音量が騒音基準値より大きいとき（Ｓ３２０でＹＥＳ）、騒音判定部３１０は、テキストデータ全体の内、不明な語句に対応するテキストデータのみを表示部３２０に送信する。そして、表示部３２０は、騒音判定部３１０から受信した「不明な語句に対応するテキストデータ」のみを表示する（Ｓ３４０）。

周囲の雑音の音量が騒音基準値以下であるとき（Ｓ３２０でＮＯ）、騒音判定部３１０は、不明な語句に対応するテキストデータを表示部３２０に送信しない。

〔実施形態３〕
本発明の他の実施形態について、図７に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した機能ブロックと同じ機能を有する機能ブロックについては、同じ符号を付記し、その説明を省略する。

図７は、本発明の実施形態３に係るコミュニケーションシステム３の要部構成を示すブロック図である。コミュニケーションシステム３は、図７に示すように、ロボット４０および音声認識サーバ５０を含んでいる。コミュニケーションシステム３は、以下に示す点において、コミュニケーションシステム１と異なっている。すなわち、コミュニケーションシステム３においては、コミュニケーションシステム１においてロボット１０が備えていた記憶部１３０、抽出部１５０、割合判定部１６０、および対応データ取得部１７０を、音声認識サーバ５０が備えている。言い換えれば、コミュニケーションシステム３においてロボット４０は、音声取得部１１０、送信部１２０、受信部１４０、および音声出力部１８０のみを備えている。また、音声認識サーバ５０は、記憶部１３０、抽出部１５０、割合判定部１６０、対応データ取得部１７０、サーバ受信部２１０、音声認識部２２０、語句分割部２３０、評価値算出部２４０、およびサーバ送信部２５０を備えている。

ロボット４０において、音声取得部１１０は、取得したユーザ１１の発話音声の音声データを送信部１２０に出力する。送信部１２０は、音声取得部１１０から取得した音声データを、音声認識サーバ５０のサーバ受信部２１０に送信する。

音声認識サーバ５０において、サーバ受信部２１０は、ロボット４０の送信部１２０から音声データを受信する。サーバ受信部２１０は、受信した音声データを音声認識部２２０に送信する。また、サーバ受信部２１０は、受信した音声データを、記憶部１３０の音声データテーブル１３１に格納する。

音声認識サーバ５０の抽出部１５０は、評価値算出部２４０から、ユーザ１１の発話音声の音声データから変換されたテキストデータ全体と、語句ごとの評価値のデータと、を取得する。抽出部１５０は、取得したテキストデータから、評価値が所定値に満たなかった語句を抽出する。抽出部１５０は、テキストデータの全体と抽出した語句とを割合判定部１６０に送信する。

割合判定部１６０は、抽出部１５０によって抽出された語句が所定の個数以上ある場合、または、ユーザ１１の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が所定の割合よりも大きい場合、対応データ取得部１７０に、抽出部１５０から取得したテキスト全体を通知する。割合判定部１６０は、抽出部１５０によって抽出された語句が所定の個数以上ない場合、または、ユーザ１１の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が所定の割合以下である場合、対応データ取得部１７０に、評価値が所定値に満たなかった語句のみを通知する。

対応データ取得部１７０は、音声データテーブル１３１を参照して、割合判定部１６０から通知された「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データを取得する。対応データ取得部１７０は、取得した音声データを、サーバ送信部２５０に出力する。サーバ送信部２５０は、対応データ取得部１７０から取得した音声データを、受信部１４０に送信する。

ロボット４０の受信部１４０は、サーバ送信部２５０から受信した音声データを、音声出力部１８０に送信する。音声出力部１８０は、受信部１４０から取得した音声データを、音声出力する。

これまで図７を説明してきた音声認識サーバ５０は、以下のように整理することができる。すなわち、音声認識サーバ５０は、ロボット４０（外部機器）により取得された発話音声の音声データを受信するサーバ受信部２１０と、前記音声データに対して音声認識を行う音声認識部２２０と、音声認識部２２０による音声認識により取得される語句について、音声認識の精度（評価値）を算出する評価値算出部２４０と、前記音声データから、評価値が所定値に満たない語句に対応する音声データを抽出する抽出部１５０と、抽出部１５０によって抽出された音声データを、ロボット４０に対して送信するサーバ送信部２５０と、を備えている。

上記の構成によれば、サーバ送信部２５０は、ロボット４０により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、ロボット４０に対して送信する。したがって、音声認識サーバ５０は、ロボット４０に、ロボット４０により取得されたユーザ１１の発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、つまり、どの語句が認識しづらかったのかを、音声で出力させることができるという効果を奏する。

また、ロボット４０がどの語句が認識しづらかったのかをユーザ１１に通知した結果、前記発話音声の発話者（ユーザ１１）は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、音声認識サーバ５０による、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、音声認識サーバ５０は、ロボット４０に、認識しづらかった語句に対応する音声通知などを含むユーザ１１との音声会話を実行させることによって、ユーザ１１との音声会話全体の認識精度を向上させることができるという効果を奏する。

（クラウド型サービスについての注記）
図１を用いて説明してきたコミュニケーションシステム１においては、以下の複数の処理（機能）が複数の装置に分散されて実行される構成となっていた。例えば、（１）ユーザの発話音声を取得する機能、（２）ユーザの発話音声の音声データをテキスト情報（テキストデータ）に変換する機能、（３）テキスト情報から語句を抽出する機能、（４）抽出した語句について、音声認識の精度（評価値）を算出する機能、（５）評価値の低い語句を抽出する機能、および、（６）評価値の低い語句に対応する音声データを音声出力する機能は、ロボット１０および音声認識サーバ２０によって分担されて実行されていた。

しかしながら、１つのサーバまたは装置内で各々の機能を実現してもよいし、各々の機能を有するサーバまたは装置が個別に複数存在してもよいし、個々のサーバは異なる事業者によって管理されていてもよい。例えば、図７に例示するように、ロボット４０が、（２）〜（５）を実行する音声認識サーバ５０から、評価値の低い語句に対応する音声データ等を受信し、受信した音声データを音声出力する構成も、本発明の一態様に含まれる。すなわち、上述の（１）および（６）の機能のみを実行するロボット４０も、本発明の一態様に含まれる。また、上述の（１）〜（６）の全ての機能を実行するロボットも、本発明の一態様に含まれる。さらに、（２）〜（５）の各々の機能を実現する複数のサーバによって、音声認識サーバ５０を実現する構成も、本発明の一態様に含まれる。

〔ソフトウェアによる実現例〕
コミュニケーションシステム１〜３の制御ブロック（特に音声認識部２２０、語句分割部２３０、評価値算出部２４０、抽出部１５０、割合判定部１６０、対応データ取得部１７０、および騒音判定部３１０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、コミュニケーションシステム１〜３は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔変形例〕
コミュニケーションシステム１〜３において、ロボット１０、３０、４０および音声認識サーバ２０、５０の各々が音声認識機能を有し、ユーザ１１（対象者）は、自然言語を用いた音声によってロボット１０、３０、４０と対話することができるようにしてもよい。この場合、ロボット１０、３０、４０が備える音声認識機能よりも処理能力の高い音声認識機能を音声認識サーバ２０、５０が備えてもよい。そして、音声認識サーバ２０、５０が備える「処理能力の高い音声認識機能」によっても「不明な語句（音声認識の精度が所定値に満たなかった語句）」のみを、ロボット１０、３０、４０がユーザ１１に聞き返す構成であってもよい。

コミュニケーションシステム１〜３において、ロボット１０、３０、４０が対話ロボット型のコミュニケーション装置である例を説明した。しかしながら、ロボット１０は、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電（家庭用電子機器）等であってもよい。なお、これまでは、説明の簡略化のため、音声認識サーバ２０または音声認識サーバ５０に接続しているロボット１０、３０または４０が１台である例を説明した。しかしながら、音声認識サーバ２０または音声認識サーバ５０に接続するロボット１０、３０または４０の数は、複数であってもよい。また、音声認識サーバ２０または音声認識サーバ５０に、対話ロボッであるロボット１０、３０および４０と、スマートフォンであるロボット１０、３０および４０と、が接続してもよい。すなわち、複数のロボット１０、３０または４０が、音声認識サーバ２０または音声認識サーバ５０に接続する場合、対話ロボット型、携帯端末型、家電型などの様々な種類のロボット１０、３０または４０が接続してもよい。

〔まとめ〕
本発明の態様１に係るコミュニケーション装置（ロボット１０、３０、および４０）は、対象者（ユーザ１１）と音声会話を行うコミュニケーション装置であって、前記対象者からの発話音声を取得する音声取得部（１１０）と、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部（１８０）と、を備えている。

上記の構成によれば、前記音声出力部は、前記対象者からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する。したがって、前記コミュニケーション装置は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、つまり、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声で前記対象者に通知することができるという効果を奏する。

また、前記コミュニケーション装置がどの語句が認識しづらかったのかを通知する結果、前記対象者は、前記コミュニケーション装置が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、前記対象者は、前記コミュニケーション装置が認識しづらかった語句を言い直すことによって、認識しづらかった語句についての前記コミュニケーション装置の認識精度を向上させる。したがって、前記コミュニケーション装置は、認識しづらかった語句の音声通知などを含む前記対象者との音声会話によって、前記対象者とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。

本発明の態様２に係るコミュニケーション装置（ロボット３０）は、上記態様１において、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者（ユーザ）に対して表示する表示部（３２０）をさらに備えていてもよい。

上記の構成によれば、前記表示部は、前記対象者からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する。

したがって、前記コミュニケーション装置は、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、前記対象者に通知することができるという効果を奏する。

本発明の態様３に係るコミュニケーション装置（ロボット３０）は、上記態様２において、前記音声取得部の取得する音声であって、前記対象者からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する判定部（騒音判定部３１０）をさらに備え、前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記テキスト情報を、前記対象者に対して表示してもよい。

上記の構成によれば、前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記対象者からの発話音声の内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する。

したがって、前記コミュニケーション装置は、例えば自装置の周囲が騒がしいなど、前記コミュニケーション装置が出力した音声を前記対象者が聞き取りづらい場合に、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、前記対象者に通知することができるという効果を奏する。

本発明の態様４に係るコミュニケーション装置（ロボット１０、３０、および４０）は、上記態様１から３のいずれかにおいて、前記音声取得部によって取得された前記発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声出力部は、前記音声取得部によって取得された前記発話音声の音声データ全体を、前記対象者に対して音声出力してもよい。

上記の構成によれば、前記音声出力部は、前記音声取得部によって取得された前記発話音声の全体に対して、音声認識の精度が所定値に満たなかった語句に対応する占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声取得部によって取得された前記発話音声の全体を、前記対象者に対して音声出力する。

例えば人間同士の会話の場合、音声発話された一文のほとんどの語句が聞き取れなかった場合、および、音声発話された一文に聞き取れなかった語句が複数ある場合、聞き取れなかった語句を一つ一つ取り出して聞き返すよりも、一文全体をもう一度発話してもらった方が自然な会話となる。

したがって、前記コミュニケーション装置は、例えば取得した発話音声の全体に対して音声認識できなかった語句が大きい場合、または、音声認識できなかった語句が複数ある場合、人間同士の自然な会話の場合と同様に、前記発話音声の全体を聞き返すことにより、音声認識できなかった語句を前記対象者に通知することができるという効果を奏する。

本発明の態様５に係るサーバ（音声認識サーバ５０）は、外部機器（ロボット４０）により取得された発話音声の音声データを受信するサーバ受信部（２１０）と、前記音声データに対して音声認識を行う音声認識部（２２０）と、前記音声認識部による音声認識により取得される語句について、音声認識の精度（評価値）を算出する評価値算出部（２４０）と、前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部（１５０）と、前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部（２５０）と、を備えている。

上記の構成によれば、前記サーバ送信部は、外部機器（ロボット４０）により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、前記外部機器に対して送信する。したがって、前記サーバは、前記外部機器に、外部機器により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、つまり、どの語句が認識しづらかったのかを、音声で出力させることができるという効果を奏する。

また、前記外部機器がどの語句が認識しづらかったのかを通知した結果、前記発話音声の発話者（ユーザ１１）は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、前記サーバによる、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、前記サーバは、前記外部機器に、認識しづらかった語句に対応する音声通知などを含む前記発話者との音声会話を実行させることによって、前記発話者との音声会話全体の認識精度を向上させることができるという効果を奏する。

本発明の態様６に係る制御方法は、対象者と音声会話を行うコミュニケーション装置の制御方法であって、前記対象者からの発話音声を取得する音声取得ステップ（Ｓ１１０）と、前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力ステップ（Ｓ２００およびＳ２１０）と、を含んでいる。上記の制御方法によれば、態様１と同様の効果を奏する。

本発明の各態様に係るコミュニケーション装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記コミュニケーション装置が備える各部（ソフトウェア要素）として動作させることにより上記コミュニケーション装置をコンピュータにて実現させるコミュニケーション装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１、２、３コミュニケーションシステム
１０、３０ロボット（コミュニケーション装置）
４０ロボット（コミュニケーション装置、外部機器）
１１ユーザ（対象者）
５０音声認識サーバ（サーバ）
１１０音声取得部
１５０抽出部
１６０割合判定部
１８０音声出力部
２２０音声認識部
２１０サーバ受信部
２４０評価値算出部（精度算出部）
２５０サーバ送信部
３１０騒音判定部（判定部）
３２０表示部
Ｓ１１０音声取得ステップ
Ｓ２００、Ｓ２１０音声出力ステップ

Claims

対象者と音声会話を行うコミュニケーション装置であって、
前記対象者からの発話音声を取得する音声取得部と、
前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部と、を備えることを特徴とするコミュニケーション装置。
前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する表示部をさらに備えることを特徴とする請求項１に記載のコミュニケーション装置。
前記音声取得部の取得する音声であって、前記対象者からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する判定部をさらに備え、
前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記テキスト情報を、前記対象者に対して表示することを特徴とする請求項２に記載のコミュニケーション装置。
前記音声取得部によって取得された前記発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声出力部は、前記音声取得部によって取得された前記発話音声の音声データ全体を、前記対象者に対して音声出力することを特徴とする請求項１から３のいずれか１項に記載のコミュニケーション装置。
外部機器により取得された発話音声の音声データを受信するサーバ受信部と、
前記音声データに対して音声認識を行う音声認識部と、
前記音声認識部による音声認識により取得される語句について、音声認識の精度を算出する評価値算出部と、
前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部と、
前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部と、を備えることを特徴とするサーバ。
対象者と音声会話を行うコミュニケーション装置の制御方法であって、
前記対象者からの発話音声を取得する音声取得ステップと、
前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力ステップと、を含むことを特徴とする制御方法。
請求項１から４のいずれか１項に記載のコミュニケーション装置としてコンピュータを機能させるための情報処理プログラムであって、前記各部としてコンピュータを機能させるための情報処理プログラム。