JP2018081147A - コミュニケーション装置、サーバ、制御方法、および情報処理プログラム - Google Patents

コミュニケーション装置、サーバ、制御方法、および情報処理プログラム Download PDF

Info

Publication number
JP2018081147A
JP2018081147A JP2016221809A JP2016221809A JP2018081147A JP 2018081147 A JP2018081147 A JP 2018081147A JP 2016221809 A JP2016221809 A JP 2016221809A JP 2016221809 A JP2016221809 A JP 2016221809A JP 2018081147 A JP2018081147 A JP 2018081147A
Authority
JP
Japan
Prior art keywords
voice
unit
data
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016221809A
Other languages
English (en)
Inventor
学 神尾
Manabu Kamio
学 神尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2016221809A priority Critical patent/JP2018081147A/ja
Publication of JP2018081147A publication Critical patent/JP2018081147A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知する。
【解決手段】ロボット(10)は、対象者からの発話音声を取得し、取得した発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する。
【選択図】図1

Description

本発明はユーザと音声によるコミュニケーションを実行するコミュニケーション装置等に関する。
従来、ユーザとコミュニケーションを行うロボットが知られている。例えば、特許文献1には、ユーザの音声を入力すると音声認識の結果の信頼度を算出し、信頼度に基づいて算出した評価値が予め設定された閾値未満であるときに回答不能行動を行うロボットが開示されている。また、特許文献2には、録音した音声を音声認識処理してテキストデータに変換し、不明部分があれば音声認識結果の修正画面を表示するサーバシステムが開示されている。
特開2011−227237号公報(2011年11月10日公開) 特開2005−275925号公報(2005年10月6日公開)
しかしながら、上述のような従来技術は、音声認識の精度が低かったユーザの音声を、音声によってユーザに通知することができないという問題がある。
本発明の一態様は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知することを目的としている。
上記の課題を解決するために、本発明の一態様に係るコミュニケーション装置は、対象者と音声会話を行うコミュニケーション装置であって、前記対象者からの発話音声を取得する音声取得部と、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部と、を備えることを特徴としている。
また、上記の課題を解決するために、本発明の一態様に係るサーバは、外部機器により取得された発話音声の音声データを受信するサーバ受信部と、前記音声データに対して音声認識を行う音声認識部と、前記音声認識部による音声認識により取得される語句について、音声認識の精度を算出する評価値算出部と、前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部と、前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部と、を備えることを特徴としている。
本発明の一態様によれば、音声認識の精度が所定値に満たなかった語句に対応する音声データを、音声により対象者に通知することができるという効果を奏する。
本発明の実施形態1に係るコミュニケーションシステムの要部構成を示すブロック図である。 本発明の各実施形態のコミュニケーションシステムにおける、ユーザとロボットとの間のコミュニケーションの推移の概要を示す図である。 図1のコミュニケーションシステムにおいて実行される処理の一例を示すフローチャートである。 図1のコミュニケーションシステムにおいて不明な語句が1つであるか複数であるかによって発話内容を切り替える処理を示す図である。 本発明の実施形態2に係るコミュニケーションシステムの要部構成を示すブロック図である。 図5のコミュニケーションシステムにおいて実行される処理の一例を示すフローチャートである。 本発明の実施形態3に係るコミュニケーションシステムの要部構成を示すブロック図である。
〔実施形態1〕
以下、本発明の実施の形態について、図1から図4に基づいて詳細に説明する。以下の各実施形態においては、コミュニケーション装置が、携帯電話機能付きの2足歩行ヒューマノイドロボットであるロボット10に備えられているものとして説明する。なお、アニメキャラクタの戦闘ロボットをはじめとするロボット全般にコミュニケーション装置が備えられていてもよい。ロボット10の理解を容易にするため、まず、ロボット10を含むコミュニケーションシステム1における、ロボット10とユーザ11とのコミュニケーションの概要を、図2を用いて整理しておく。
(コミュニケーションの推移)
図2は、コミュニケーションシステム1におけるコミュニケーションの推移の概要を示す図であり、図示の通り、コミュニケーションシステム1は、ロボット10(コミュニケーション装置)と、音声認識サーバ20とを含んでいる。図2において、ロボット10とユーザ11とのコミュニケーションは、(A)、(B)、(C)の順に推移する。
図2の(A)に示すように、先ず、ロボット10は、ユーザ11(対象者)から、「明日の午後6時からAAスタジアムでBBチームの試合を見るよ。」との発話音声を取得する。ロボット10は、ユーザ11から発話音声を取得すると、取得した発話音声の音声データを音声認識サーバ20に送信する。音声認識サーバ20は、ロボット10から受信した音声データに対して、音声認識処理を実行する。例えば、音声認識サーバ20は、受信した音声データをテキストデータに変換して、そのテキストデータを解析して語句(フレーズを含む)を抽出する。なお、音声認識サーバ20が実行する音声認識処理については、公知技術を用いることができる。また、以下の説明において「語句」との概念は、「文字列」を含む概念である。例えば、ユーザ11からの「明日の午後6時から『AAスタジアムで』BBチームの試合を見るよ。」との発話音声の音声データを音声認識することによって、「AAスタジアムで」との語句(文章、文字列)を抽出してもよいし、「AAスタジアム」および「で」との語句(単語)を抽出してもよい。
音声認識サーバ20は、音声認識処理により取得した語句の各々について、認識精度を算出する。以下の説明においては、音声認識処理により取得される語句の認識精度を、「評価値」と称してもよい。また、認識精度(評価値)が所定値に満たない語句を、コミュニケーションシステム1(つまり、ロボット10および音声認識サーバ20の少なくとも一方)が、「聞き取れなかった語句」または「不明の語句」と称することがある。
ユーザ11からの「明日の午後6時からAAスタジアムでBBチームの試合を見るよ。」との発話音声に対し、音声認識サーバ20は音声認識を実行し、「明日の午後6時からA?ス?ジ?ムでBBチームの試合を見るよ。」との音声認識処理結果を取得する。ここで、「?」で示した語は、音声認識サーバ20が音声認識処理を実行して取得した語であって、評価値が所定値に満たない語を示している。
図2の(B)に示すように、音声認識サーバ20は、ユーザ11の発話音声の音声データに対して音声認識処理を実行して取得したテキストデータと、テキストデータに含まれる語句ごとの評価値(認識精度)を、ロボット10に送信する。ロボット10は、受信したテキストデータ全体の内、評価値が所定値に満たない語句を抽出する。次に、ロボット10は、ユーザ11の発話音声全体に対応する音声データのうち、評価値が所定値に満たない語句に対応する音声データを取得する。そして、ロボット10は、評価値が所定値に満たない語句に対応する音声データを、ユーザ11に対して、音声出力する。
図2の(B)に示す例では、ロボット10は、評価値が所定値に満たない語句として、「A?ス?ジ?ム」を抽出している。次に、ロボット10は、ユーザ11の「明日の午後6時からAAスタジアムでBBチームの試合を見るよ。」との発話音声の音声データのうち、「A?ス?ジ?ム」に対応する音声データを取得する。そして、ロボット10は、評価値が所定値に満たない「A?ス?ジ?ム」に対応する音声データを、ユーザ11に対して、音声出力する。つまり、ロボット10は、ユーザからの発話音声のうち、聞き取れなかった語句に対応する発話音声を、ユーザ11に聞き返す発話(音声出力)を実行する。
図2の(C)に示すように、聞き取れなかった語句を聞き返す発話をロボット10が実行することにより、ユーザ11は、ロボット10が聞き取れなかった語句である「AAスタジアム」を、分かり易くなるように言い直したり、声を大きくして言い直したりする。ロボット10は、ユーザ11が、分かり易くなるように(つまり、ロボット10が認識しやすくなるように)言い直したり、声を大きくして言い直したりした発話音声を取得する。ロボット10は、ユーザ11から取得した発話音声の音声データを音声認識サーバ20に送信する。音声認識サーバ20は、ロボット10から音声データを受信すると、受信した音声データに対して音声認識処理を実行し、「AAスタジアム」との音声認識処理結果を取得する。
図2を用いて概要を説明してきたロボット10およびコミュニケーションシステム1は、以下のように整理することができる。すなわち、ロボット10は、ユーザ11(対象者)と音声会話を行うコミュニケーション装置であって、ユーザ11からの発話音声を取得する音声取得部110と、音声取得部110によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ11に対して音声出力する音声出力部180と、を備えている。
前記の構成によれば、音声出力部180は、ユーザ11からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ11に対して音声出力する。したがって、ロボット10は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、つまり、「ユーザ11からの発話音声の内、どの語句が認識しづらかったのか」を、音声でユーザ11に通知することができるという効果を奏する。
また、ロボット10がどの語句が認識しづらかったのかを通知する結果、ユーザ11は、ロボット10が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、ユーザ11は、ロボット10が認識しづらかった語句を言い直すことによって、認識しづらかった語句についてのロボット10の認識精度を向上させる。したがって、ロボット10は、認識しづらかった語句の音声通知などを含むユーザ11との音声会話によって、ユーザ11とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。
コミュニケーションシステム1は、ユーザ11と音声会話を行うコミュニケーションシステムであって、ユーザ11からの発話音声を取得する音声取得部110と、音声取得部110によって取得された前記発話音声の音声データに対し音声認識を行なう音声認識部220と、音声認識部220による音声認識により取得される語句について、認識精度(評価値)を算出する評価値算出部240(精度算出部)と、音声取得部110によって取得された前記発話音声の音声データから、前記認識精度が所定値に満たない語句に対応する音声データを抽出する抽出部150と、抽出部150によって抽出された音声データを、ユーザ11に対して音声出力する音声出力部180と、を備えている。
前記の構成によれば、音声出力部180は、ユーザ11からの発話音声の内、音声認識の認識精度が所定値に満たなかった語句に対応する発話音声を、ユーザ11に対して音声出力する。したがって、コミュニケーションシステム1は、音声認識の認識精度が所定値に満たなかった語句に対応する発話音声を、つまり、どの語句が認識しづらかったのかを、音声でユーザ11に通知することができるという効果を奏する。
また、コミュニケーションシステム1がどの語句が認識しづらかったのかを通知した結果、ユーザ11は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、コミュニケーションシステム1による、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、コミュニケーションシステム1は、認識しづらかった語句の音声通知などを含むユーザ11との音声会話によって、ユーザ11との音声会話全体の成功率を向上させることができるという効果を奏する。
(コミュニケーションシステムの要部構成)
図1は、本発明の実施形態1に係るコミュニケーションシステム1に含まれるロボット10および音声認識サーバ20の腰部構成を示すブロック図である。図1に示すように、コミュニケーションシステム1は、ロボット10と音声認識サーバ20とを含み、ロボット10と音声認識サーバ20とは、通信ネットワークを介して接続している。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。
(ロボットの構成)
次に、ロボット10の構成について説明する。なお、本実施形態に直接関係のない部分(例えば、ロボット10が備える、通話機能、メール機能を実現する部分など)については、以下の説明および上記ブロック図から省略している。ただし、実施の実情に則して、ロボット10は、当該省略した構成を含んでもよい。ロボット10は、ユーザ11の発話音声を取得し、取得した発話音声に対する音声認識処理の実行結果に応じて、ユーザ11と対話を行うコミュニケーション装置である。ロボット10は、図1に示すように、音声取得部110、送信部120、記憶部130、受信部140、抽出部150、割合判定部160、対応データ取得部170、および音声出力部180を備えている。
音声取得部110は、例えばマイク等の音声入力装置であり、ユーザ11の発話音声などを取得する。音声取得部110は、取得したユーザ11の発話音声の音声データを、送信部120に出力する。また、音声取得部110は、ユーザ11の発話音声の音声データを、記憶部130の音声データテーブル131に格納する。
送信部120は、ユーザ11の発話音声の音声データを音声取得部110から取得する。送信部120は、取得した音声データを、音声認識サーバ20のサーバ受信部210に送信する。
記憶部130は、ロボット10が使用する各種データを格納する。記憶部130は、ロボット10が実行する(1)制御プログラム、(2)OSプログラム、(3)各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを記憶する。上記の(1)〜(4)のデータは、例えば、ROM(read only memory)、フラッシュメモリ、EPROM(Erasable ProgrammableROM)、EEPROM(登録商標)(Electrically EPROM)、HDD(Hard Disc Drive)等の不揮発性記憶装置に記憶される。また、記憶部130には、音声データテーブル131が格納されている。音声データテーブル131には、音声取得部110が取得したユーザ11の発話音声の音声データが格納される。
受信部140は、音声認識サーバ20のサーバ送信部250から、ユーザ11の発話音声に対する音声認識処理の実行結果を取得する。具体的には、受信部140は、ユーザ11の発話音声の音声データに対して音声認識処理が実行されることによって生成されたテキストデータ、および、テキストデータに含まれる語句ごとの評価値(音声認識の精度)のデータを受信する。受信部140は、受信したテキストデータおよび語句ごとの評価値のデータを、抽出部150に通知する。
抽出部150は、受信部140から、テキストデータおよび語句ごとの評価値のデータを取得する。抽出部150は、取得したテキストデータから、評価値が所定値に満たなかった語句を抽出する。抽出部150は、テキストデータの全体と、抽出した語句とを、割合判定部160に送信する。
割合判定部160は、抽出部150によって抽出された語句が、つまり、評価値が所定値に満たなかった語句が、所定の個数(例えば、2個)以上あるかを判定する。(1)評価値が所定値に満たなかった語句が所定の個数以上あると判定した場合、割合判定部160は、対応データ取得部170に、抽出部150から取得したテキスト全体を通知する。すなわち、割合判定部160は、音声取得部110が取得したユーザ11の発話音声全体に対応するテキスト全体を、対応データ取得部170に通知する。(2)評価値が所定値に満たなかった語句が所定の個数以上ないと判定した場合、割合判定部160は、対応データ取得部170に、抽出部150が抽出した語句のみを通知する。すなわち、割合判定部160は、評価値が所定値に満たなかった語句のみを、対応データ取得部170に通知する。
また、割合判定部160は、音声取得部110が取得したユーザ11の発話音声の音声データ全体に対して、評価値が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きいかを判定してもよい。つまり、割合判定部160は、ユーザ11の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が、所定の割合よりも大きいかを判定してもよい。(1)テキスト全体の内、評価値が所定値に満たなかった語句の占める割合が所定の割合よりも大きいと判定した場合、割合判定部160は、対応データ取得部170に、抽出部150から取得したテキスト全体を通知する。すなわち、割合判定部160は、音声取得部110が取得したユーザ11の発話音声全体に対応するテキスト全体を、対応データ取得部170に通知する。(2)テキスト全体の内、評価値が所定値に満たなかった語句の占める割合が所定の割合以下であると判定した場合、割合判定部160は、対応データ取得部170に、抽出部150が抽出した語句のみを通知する。すなわち、割合判定部160は、評価値が所定値に満たなかった語句のみを、対応データ取得部170に通知する。
対応データ取得部170は、音声データテーブル131を参照して、割合判定部160から通知された「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データを取得する。例えば、(1)割合判定部160が、「評価値が所定値に満たない語句が所定の個数以上ある(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合より大きい)」と判定した場合、対応データ取得部170は、テキスト全体の音声データを取得する。また、(2)割合判定部160が、「評価値が所定値に満たない語句が所定の個数以上ない(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以下である)」と判定した場合、対応データ取得部170は、評価値が所定値に満たなかった語句の音声データを取得する。対応データ取得部170は、取得した音声データを、音声出力部180に出力する。
音声出力部180は、例えばスピーカ等の音声出力装置であり、ユーザ11に対して音声出力する。音声出力部180は、対応データ取得部170から入力された音声データ(つまり、「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データ)を音声出力する。
ロボット10は、ユーザ11からの発話音声の音声データを音声データテーブル131に格納している。ロボット10の音声出力部180は、ユーザ11の発話音声の内、評価値の低かった部分(語句)に対応する発話音声を、そのまま音声出力することにより、ユーザ11に対して、評価値の低かった部分の発話を促す。
また、ユーザ11からの発話音声の音声データの内、音声認識の評価値の低かった語句に対応する音声データをロボット10が音声出力することにより、ロボット10は、何が音声認識できなかったかを、音声によってユーザ11に明確に伝えることができる。その結果、ユーザ11が音声認識できなかった部分の音声を再度発話する(言い直す)ことで、ロボット10はその部分の音声をより精度よく認識できるようになる。したがって、ロボット10は、認識しづらかった語句の音声通知などを含む「ユーザ11との音声会話」によって、ユーザ11とのコミュニケーション全体の成功率を向上させることができる。
なお、ロボット10は、さらに撮像部(カメラ)を備えていてもよく、例えば、撮像部から入力された画像からユーザの表情および位置の少なくとも一方を解析し、解析結果に基づいて対話をするように構成されていてもよい。例えば、ロボット10の正面から見てユーザの位置が右方向であると認識した場合、ロボット10の頭部を実際に右に向ける、あるいは、頭部に顔が右に向いて移動する状態を表示することで、ユーザの方を向いている、つまり会話可能であるという状態を示す構成であってもよい。
(音声認識サーバの構成)
次に、音声認識サーバ20について説明する。音声認識サーバ20は、ロボット10から受信した音声データ(入力音声)に対して音声認識処理を実行し、音声認識処理の実行結果をロボット10に送信する。具体的には、音声認識サーバ20は、ロボット10から受信した音声データをテキストデータに変換し、そのテキストデータを解析して語句(フレーズを含む)を抽出する。また、音声認識サーバ20は、音声認識処理により取得したテキストデータに含まれる語句の各々について、認識精度(評価値)を算出し、語句ごとの評価値を示すデータを、テキストデータ全体と共に、ロボット10に送信する。なお、音声認識サーバ20は、複数のロボット10から、各々が取得した会話音声の音声データを受信してもよい。音声認識サーバ20は、複数のロボット10の各々が取得した会話音声の音声データに対する音声認識処理の実行結果を、複数のロボット10の各々に送信してもよい。
音声認識サーバ20は、図1に示すように、サーバ受信部210、音声認識部220、語句分割部230、評価値算出部240(精度算出部)、およびサーバ送信部250を備えている。
サーバ受信部210は、ロボット10の送信部120から音声データを受信すると、受信した音声データを音声認識部220に送信する。音声認識部220は、ユーザ11の入力音声(ユーザ11の発話音声の音声データ)を認識する機能ブロックである。具体的には、音声認識部220は、サーバ受信部210が受信した音声データをテキストデータ(文字情報)に変換する。音声認識部220は、音声データから変換したテキストデータを、語句分割部230に通知する。
語句分割部230は、音声認識部220から通知されたテキストデータを、語句に分割する。言い換えれば、語句分割部230は、音声認識部220から通知されたテキストデータを解析して、語句(フレーズを含む)を抽出する。語句分割部230は、テキストデータから分割した語句のデータを、評価値算出部240に送信する。
評価値算出部240は、語句分割部230により分割された語句ごとに、音声認識の精度(評価値)を算出する。評価値算出部240は、「語句ごとの評価値のデータ」を、「テキストデータ」と共に、サーバ送信部250に出力する。なお、評価値とは、例えば、音声認識の精度を数値化したものである。
サーバ送信部250は、評価値算出部240から、「語句ごとの評価値のデータ」および「テキストデータ」を取得する。サーバ送信部250は、取得した「語句ごとの評価値のデータ」および「テキストデータ」を、ロボット10の受信部140に送信する。
なお、本実施形態において、音声認識サーバ20は、1台のサーバによって構成されてもよいし、複数台のサーバが通信ネットワークを介して接続することによって、上述の音声認識サーバ20の各機能を実現するものであってもよい。
(コミュニケーションシステムにおける処理の流れ)
これまで構成を説明してきたロボット10および音声認識サーバ20を含むコミュニケーションシステム1について、次に、コミュニケーションシステム1全体における処理の流れを、図3に基づいて説明する。
図3は、図1のコミュニケーションシステム1において実行される処理の一例を示すフローチャートである。図3に示すように、まず、音声取得部110は、ユーザ11が発話した内容(発話音声)を取得する(S110:音声取得ステップ)。音声取得部110は、ユーザ11から発話音声を取得すると、取得した発話音声の音声データを記憶部130の音声データテーブル131に格納する(S120)。また、音声取得部110は、送信部120に、ユーザ11の発話音声の音声データを出力する。送信部120は、音声取得部110からユーザ11の発話音声の音声データを取得すると、取得した音声データを、サーバ受信部210に送信する。
サーバ受信部210は、送信部120から音声データを受信すると、音声認識部220に、受信した音声データを出力する。音声認識部220は、サーバ受信部210から取得した音声データに対し、音声認識を行う(S130)。
音声認識部220は、サーバ受信部210から取得した音声データを、テキスト情報(テキストデータ)に変換する(S140)。音声認識部220は、変換したテキストデータを、語句分割部230に通知する。
語句分割部230は、音声認識部220から、音声認識部220によって音声データから変換されたテキストデータを取得し、取得したテキストデータを語句に分割する(S150)。語句分割部230は、テキストデータから分割した語句のデータを、評価値算出部240に通知する。
評価値算出部240は、語句分割部230から、分割された語句のデータを取得すると、分割された語句ごとに評価値を算出する(S160)。評価値算出部240は、「語句ごとに算出した評価値のデータ」と、「テキストデータ」とを、サーバ送信部250に出力する。サーバ送信部250は、評価値算出部240から取得した「語句ごとの評価値のデータ」と、「テキストデータ」と、を受信部140に送信する。
受信部140は、サーバ送信部250から受信した「語句ごとの評価値のデータ」と、「テキストデータ」と、を抽出部150に出力する。抽出部150は、不明な語句(つまり、評価値の低い語句)が存在するかを判定する(S170)。
不明な語句が存在する場合(S170でYES)、抽出部150は、受信部140から取得したテキストデータの中から、評価値の低い語句(評価値が所定値に満たなかった語句)を抽出する(S180)。そして、抽出部150は、「評価値の低い語句が、テキストデータ全体において、どの語句であるか」を示すデータを、割合判定部160に出力する。例えば、抽出部150は、テキストデータの全体と、抽出した語句(評価値が所定値に満たなかった語句)とを、割合判定部160に出力する。不明な語句が存在していない場合(S170でNO)、ロボット10(コミュニケーションシステム1)は、処理を終了する。
割合判定部160は、抽出部150から評価値の低い語句に関するデータを取得すると、「不明な語句(評価値の低い語句)が複数存在するか(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上であるか)」を判定する(S190)。割合判定部160は、その判定結果を対応データ取得部170に出力する。なお、「不明な語句が複数存在するか」との判定は、「不明な語句が2個以上存在するか」との判定を意味する。割合判定部160は、「不明な語句が、所定の個数(例えば、3個)以上あるか」を判定してもよい。
「不明な語句が複数存在する(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である)」場合(S190でYES)、割合判定部160は、対応データ取得部170に、抽出部150から取得したテキスト全体を通知する。すなわち、割合判定部160は、音声取得部110が取得したユーザ11の発話音声全体に対応するテキスト全体を、対応データ取得部170に通知する。対応データ取得部170は、音声データテーブル131を参照して、割合判定部160から通知された「テキストデータ全体」に対応する音声データを取得する。対応データ取得部170は、取得した音声データ(テキストデータ全体に対応する音声データ)を、音声出力部180に出力する。音声出力部180は、テキストデータ全体に対応する音声データを対応データ取得部170から取得すると、テキスト全体に対応する音声データを音声出力する(S200:音声出力ステップ)。
「不明な語句が1つだけである(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である)」場合(S190でNO)、割合判定部160は、対応データ取得部170に、不明な語句(つまり、評価値が所定値に満たなかった語句)のみを、対応データ取得部170に通知する。対応データ取得部170は、音声データテーブル131を参照して、割合判定部160から通知された「不明な語句」に対応する音声データを取得する。対応データ取得部170は、取得した音声データ(不明な語句に対応する音声データ)を音声出力部180に出力する。音声出力部180は、不明な語句に対応する音声データを対応データ取得部170から取得すると、不明な語句に対応する音声データを音声出力する(S210:音声出力ステップ)。
これまで図3を用いて説明してきた、コミュニケーションシステム1において実行される処理について、ロボット10が実行する処理は以下のように整理することができる。すなわち、ロボット10が実行する処理は、ユーザ11(対象者)と音声会話を行うロボット10(コミュニケーション装置)の制御方法であって、ユーザ11からの発話音声を取得する音声取得ステップ(S110)と、前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、ユーザ11に対して音声出力する音声出力ステップ(S200およびS210)と、を含んでいる。
(不明な語句が1つであるか否かで発話内容を切り替える処理)
図3のS190において、ロボット10は、不明な語句(評価値の低い語句)が1つであるか、または複数であるかによって、ユーザ11に対する発話内容を切り替える処理を実行すると説明した。評価値の低い語句が1つであるか、または複数であるかによって、ロボット10が具体的にどのような内容の音声データを出力するのかを、図4を用いて説明していく。
図4は、図1のコミュニケーションシステム1において、ロボット10が、不明な語句が1つであるか、または複数であるかによって、ユーザ11に対する発話内容を切り替える処理を示す図である。図4の(A)において、ユーザ11が「明日の午後6時からAAスタジアムでBBチームの試合を見るよ。」と発話すると、ロボット10または音声認識サーバ20は、「明日の午後6時からA?ス?ジ?ムでBBチームの試合を見るよ。」との音声認識結果を取得する。
具体的には、ロボット10または音声認識サーバ20は、先ず、ユーザ11の発話音声の音声データをテキストデータに変換する。次に、ロボット10または音声認識サーバ20は、「明日の」、「午後6時から」、「A?ス?ジ?ムで」、「BBチームの試合を」、「見るよ。」のように、ユーザ11の発話音声の音声データから変換したテキストデータ全体を、語句に分割する。そして、ロボット10または音声認識サーバ20は、テキストデータから分割した語句について、語句ごとの音声認識の精度(評価値)を算出する。このとき、ロボット10または音声認識サーバ20は、それぞれの語句の評価値が、所定値より低いかどうかを判定する。図4の(A)において、ロボット10または音声認識サーバ20は、例えば、「A?ス?ジ?ムで」との語句の評価値のみが、所定値より低いと判定している。この場合、ロボット10は、「さっき、『A?ス?ジ?ムで』って話していたけど、何のことか分からなかった。『A?ス?ジ?ムで』って、何ですか?」と発話することで、不明な語句のみをユーザ11に聞き返す。
なお、図において、「?」で示した語は、ユーザ11の発話音声に対して音声認識処理を実行して取得した語であって、音声認識の精度(評価値)が所定値に満たない語を示している。
図4の(B)において、ユーザ11が「明日の午後6時からAAスタジアムでBBチームの試合を見るよ。」と発話すると、ロボット10または音声認識サーバ20は、「明日の午後?時からA?ス?ジ?ムでBBチー?の試合を?るよ。」との音声認識結果を取得する。
具体的には、ロボット10または音声認識サーバ20は、先ず、ユーザ11の発話音声の音声データをテキストデータに変換する。次に、ロボット10または音声認識サーバ20は、「明日の」、「午後?時から」、「A?ス?ジ?ムで」、「BBチー?の試合を」、「?るよ。」のように、ユーザ11の発話音声の音声データから変換したテキストデータ全体を、語句に分割する。ロボット10または音声認識サーバ20は、分割した語句の音声認識の評価値を算出する。このとき、ロボット10または音声認識サーバ20は、それぞれの語句の評価値が、所定値より低いかどうかを判定する。図4の(B)において、ロボット10または音声認識サーバ20は、例えば、「午後?時から」、「A?ス?ジ?ムで」、「BBチー?の試合を」、「?るよ。」との語句の評価値が、所定値より低いと判定している。この場合、ロボット10は、「さっき、『明日の午後?時からA?ス?ジ?ムでBBチー?の試合を?るよ。』って話していたけど、全然分からなかった。もう1回教えてくれるかな?」と発話する。すなわち、ロボット10は、ユーザ11の発話内容の全てを、ユーザ11に聞き返す。
図4を用いて説明してきたロボット10の処理は、以下のように整理することができる。すなわち、音声取得部110によって取得された発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、評価値(音声認識の精度)が所定値に満たなかった語句が複数ある場合、音声出力部180は、音声取得部110によって取得された発話音声の音声データ全体を、ユーザ11に対して音声出力する。
音声出力部180は、音声取得部110によって取得された発話音声の全体に対して、音声認識の精度が所定値に満たなかった語句に対応する占める割合が所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、音声取得部110によって取得された発話音声の全体を、ユーザ11に対して音声出力する。
例えば人間同士の会話の場合、音声発話された一文のほとんどの語句が聞き取れなかった場合、および、音声発話された一文に聞き取れなかった語句が複数ある場合、聞き取れなかった語句を一つ一つ取り出して聞き返すよりも、一文全体をもう一度発話してもらった方が自然な会話となる。したがって、ロボット10は、例えば取得した発話音声の全体に対して音声認識できなかった語句が大きい場合、または、音声認識できなかった語句が複数ある場合、人間同士の自然な会話の場合と同様に、発話音声の全体を聞き返すことにより、音声認識できなかった語句をユーザ11に通知することができるという効果を奏する。
また、ロボット10がどの語句が認識しづらかったのかを通知する結果、ユーザ11は、ロボット10が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、ユーザ11は、ロボット10が認識しづらかった語句を言い直すことによって、認識しづらかった語句についてのロボット10の認識精度を向上させる。したがって、ロボット10は、認識しづらかった語句の音声通知などを含むユーザとの音声会話によって、ユーザ11とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。
〔実施形態2〕
本発明の他の実施形態について、図5および図6に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した機能ブロックと同じ機能を有する機能ブロックについては、同じ符号を付記し、その説明を省略する。
(コミュニケーションシステムの構成)
図5は、本発明の実施形態2に係るコミュニケーションシステム2の要部構成を示すブロック図である。コミュニケーションシステム2は、図5に示すように、ロボット30と、音声認識サーバ20と、を含んでいる。ロボット30と音声認識サーバ20とは通信ネットワークを介して接続している。コミュニケーションシステム2におけるロボット30は、コミュニケーションシステム1におけるロボット10と比べて、以下の点が異なる。すなわち、ロボット30は、ロボット10の構成に加えて、騒音判定部310(判定部)および表示部320をさらに備えている点が、ロボット10と異なる。
すなわち、ロボット30は、音声取得部110によって取得された発話音声の音声データの内、評価値(音声認識の精度)が所定値に満たなかった語句(不明な語句)に対応するテキスト情報を、ユーザ11に対して表示する表示部320をさらに備えている。
前記の構成によれば、表示部320は、ユーザ11からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、ユーザ11に対して表示する。
したがって、ロボット30は、「ユーザ11からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、ユーザ11に通知することができるという効果を奏する。
また、ロボット30は、音声取得部110の取得する音声であって、ユーザ11からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する騒音判定部310(判定部)をさらに備えている。ロボット30の表示部320は、騒音判定部310によって、ユーザ11からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、評価値が所定値に満たなかった語句に対応するテキスト情報を、ユーザ11に対して表示する。
前記の構成によれば、表示部320は、騒音判定部310によって、ユーザ11からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、ユーザ11からの発話音声の内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、ユーザ11に対して表示する。
したがって、ロボット30は、例えば自装置の周囲が騒がしいなど、ロボット30が出力した音声をユーザ11が聞き取りづらい場合に、「ユーザ11からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、ユーザ11に通知することができるという効果を奏する。
(ロボットの構成の詳細)
騒音判定部310は、音声取得部110から、音声取得部110の取得する音声であって、ユーザ11の発話音声以外の音声(つまり、雑音)を取得し、雑音の音量が所定の騒音基準値よりも大きいかを判定する。騒音判定部310は、雑音の音量が所定の騒音基準値よりも大きいと判定すると、割合判定部160から取得した以下の2つのデータのいずれかを、表示部320に通知する。
第1に、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が複数存在する(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である)場合、騒音判定部310は、以下のデータを表示部320に送信する。すなわち、騒音判定部310は、割合判定部160から取得したテキストデータ全体(ユーザ11の発話音声の音声データから変換されたテキストデータ全体)を、表示部320に送信する。
第2に、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が1つだけである(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である)場合、騒音判定部310は、以下のデータを表示部320に送信する。すなわち、騒音判定部310は、不明な語句に対応するテキスト情報のみを表示部320に送信する。
表示部320は、音声取得部110によって取得された発話音声の音声データの内、評価値が所定値に満たなかった語句に対応するテキスト情報を、ユーザ11に対して表示する。
特に、表示部320は、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が複数存在する(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である)場合、以下の情報を表示する。すなわち、表示部320は、騒音判定部310から受信したテキストデータ全体(ユーザ11の発話音声の音声データから変換されたテキストデータ全体)を、表示する。
また、表示部320は、雑音の音量が所定の騒音基準値より大きく、かつ、不明な語句が1つだけである(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である)場合、以下の情報を表示する。すなわち、表示部320は、騒音判定部310から受信した「不明な語句に対応するテキスト情報」のみを表示する。
したがって、騒音等により、ユーザ11と音声によるコミュニケーションを実行することが困難である場合、ロボット30の表示部320は、テキストデータ全体または音声認識の評価値の低かった語句に対応するテキスト情報を表示することができる。
なお、表示部320は、対応データ取得部170が音声データテーブル131を参照して取得する音声データ(対応データ取得部170が音声出力部180に出力する音声データ)を、対応データ取得部170から取得してもよい。そして、表示部320は、対応データ取得部170から取得した音声データに対応するテキストデータを表示してもよい。
(コミュニケーションシステムにおける処理の流れ)
これまで構成を説明してきたロボット30および音声認識サーバ20を含むコミュニケーションシステム2について、次に、コミュニケーションシステム2における処理の流れを、図6に基づいて説明する。
図6は、図5のコミュニケーションシステム2において実行される処理の一例を示すフローチャートである。図6に例示するフローチャートにおけるS110〜S190までの処理と、S200の処理と、S210の処理とは、図3に例示したフローチャートにおける処理と同様であるため、説明は略記する。
「不明な語句が複数存在する(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合以上である)」場合(S190でYES)、騒音判定部310は、周囲の雑音の音量が騒音基準値より大きいかを判定する(S310)。
周囲の雑音の音量が騒音基準値より大きいとき(S310でYES)、騒音判定部310は、ユーザ11の発話音声全体の音声データから変換されたテキストデータ全体を表示部320に送信する。そして、表示部320は、騒音判定部310から受信したテキストデータ全体を表示する(S330)。
周囲の雑音の音量が騒音基準値以下であるとき(S310でNO)、騒音判定部310は、ユーザ11の発話音声全体の音声データから変換されたテキストデータ全体を表示部320に送信しない。
「不明な語句が1つだけである(または、テキスト全体のうち、評価値の低い語句の占める割合が所定割合未満である)」場合(S190でNO)、騒音判定部310は、周囲の雑音の音量が騒音基準値より大きいかを判定する(S320)。
周囲の雑音の音量が騒音基準値より大きいとき(S320でYES)、騒音判定部310は、テキストデータ全体の内、不明な語句に対応するテキストデータのみを表示部320に送信する。そして、表示部320は、騒音判定部310から受信した「不明な語句に対応するテキストデータ」のみを表示する(S340)。
周囲の雑音の音量が騒音基準値以下であるとき(S320でNO)、騒音判定部310は、不明な語句に対応するテキストデータを表示部320に送信しない。
〔実施形態3〕
本発明の他の実施形態について、図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した機能ブロックと同じ機能を有する機能ブロックについては、同じ符号を付記し、その説明を省略する。
図7は、本発明の実施形態3に係るコミュニケーションシステム3の要部構成を示すブロック図である。コミュニケーションシステム3は、図7に示すように、ロボット40および音声認識サーバ50を含んでいる。コミュニケーションシステム3は、以下に示す点において、コミュニケーションシステム1と異なっている。すなわち、コミュニケーションシステム3においては、コミュニケーションシステム1においてロボット10が備えていた記憶部130、抽出部150、割合判定部160、および対応データ取得部170を、音声認識サーバ50が備えている。言い換えれば、コミュニケーションシステム3においてロボット40は、音声取得部110、送信部120、受信部140、および音声出力部180のみを備えている。また、音声認識サーバ50は、記憶部130、抽出部150、割合判定部160、対応データ取得部170、サーバ受信部210、音声認識部220、語句分割部230、評価値算出部240、およびサーバ送信部250を備えている。
ロボット40において、音声取得部110は、取得したユーザ11の発話音声の音声データを送信部120に出力する。送信部120は、音声取得部110から取得した音声データを、音声認識サーバ50のサーバ受信部210に送信する。
音声認識サーバ50において、サーバ受信部210は、ロボット40の送信部120から音声データを受信する。サーバ受信部210は、受信した音声データを音声認識部220に送信する。また、サーバ受信部210は、受信した音声データを、記憶部130の音声データテーブル131に格納する。
音声認識サーバ50の抽出部150は、評価値算出部240から、ユーザ11の発話音声の音声データから変換されたテキストデータ全体と、語句ごとの評価値のデータと、を取得する。抽出部150は、取得したテキストデータから、評価値が所定値に満たなかった語句を抽出する。抽出部150は、テキストデータの全体と抽出した語句とを割合判定部160に送信する。
割合判定部160は、抽出部150によって抽出された語句が所定の個数以上ある場合、または、ユーザ11の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が所定の割合よりも大きい場合、対応データ取得部170に、抽出部150から取得したテキスト全体を通知する。割合判定部160は、抽出部150によって抽出された語句が所定の個数以上ない場合、または、ユーザ11の発話音声全体に対応するテキスト全体の内、評価値の低い語句の占める割合が所定の割合以下である場合、対応データ取得部170に、評価値が所定値に満たなかった語句のみを通知する。
対応データ取得部170は、音声データテーブル131を参照して、割合判定部160から通知された「テキストデータ全体」または「評価値が所定値に満たなかった語句」に対応する音声データを取得する。対応データ取得部170は、取得した音声データを、サーバ送信部250に出力する。サーバ送信部250は、対応データ取得部170から取得した音声データを、受信部140に送信する。
ロボット40の受信部140は、サーバ送信部250から受信した音声データを、音声出力部180に送信する。音声出力部180は、受信部140から取得した音声データを、音声出力する。
これまで図7を説明してきた音声認識サーバ50は、以下のように整理することができる。すなわち、音声認識サーバ50は、ロボット40(外部機器)により取得された発話音声の音声データを受信するサーバ受信部210と、前記音声データに対して音声認識を行う音声認識部220と、音声認識部220による音声認識により取得される語句について、音声認識の精度(評価値)を算出する評価値算出部240と、前記音声データから、評価値が所定値に満たない語句に対応する音声データを抽出する抽出部150と、抽出部150によって抽出された音声データを、ロボット40に対して送信するサーバ送信部250と、を備えている。
上記の構成によれば、サーバ送信部250は、ロボット40により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、ロボット40に対して送信する。したがって、音声認識サーバ50は、ロボット40に、ロボット40により取得されたユーザ11の発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、つまり、どの語句が認識しづらかったのかを、音声で出力させることができるという効果を奏する。
また、ロボット40がどの語句が認識しづらかったのかをユーザ11に通知した結果、前記発話音声の発話者(ユーザ11)は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、音声認識サーバ50による、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、音声認識サーバ50は、ロボット40に、認識しづらかった語句に対応する音声通知などを含むユーザ11との音声会話を実行させることによって、ユーザ11との音声会話全体の認識精度を向上させることができるという効果を奏する。
(クラウド型サービスについての注記)
図1を用いて説明してきたコミュニケーションシステム1においては、以下の複数の処理(機能)が複数の装置に分散されて実行される構成となっていた。例えば、(1)ユーザの発話音声を取得する機能、(2)ユーザの発話音声の音声データをテキスト情報(テキストデータ)に変換する機能、(3)テキスト情報から語句を抽出する機能、(4)抽出した語句について、音声認識の精度(評価値)を算出する機能、(5)評価値の低い語句を抽出する機能、および、(6)評価値の低い語句に対応する音声データを音声出力する機能は、ロボット10および音声認識サーバ20によって分担されて実行されていた。
しかしながら、1つのサーバまたは装置内で各々の機能を実現してもよいし、各々の機能を有するサーバまたは装置が個別に複数存在してもよいし、個々のサーバは異なる事業者によって管理されていてもよい。例えば、図7に例示するように、ロボット40が、(2)〜(5)を実行する音声認識サーバ50から、評価値の低い語句に対応する音声データ等を受信し、受信した音声データを音声出力する構成も、本発明の一態様に含まれる。すなわち、上述の(1)および(6)の機能のみを実行するロボット40も、本発明の一態様に含まれる。また、上述の(1)〜(6)の全ての機能を実行するロボットも、本発明の一態様に含まれる。さらに、(2)〜(5)の各々の機能を実現する複数のサーバによって、音声認識サーバ50を実現する構成も、本発明の一態様に含まれる。
〔ソフトウェアによる実現例〕
コミュニケーションシステム1〜3の制御ブロック(特に音声認識部220、語句分割部230、評価値算出部240、抽出部150、割合判定部160、対応データ取得部170、および騒音判定部310)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、コミュニケーションシステム1〜3は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔変形例〕
コミュニケーションシステム1〜3において、ロボット10、30、40および音声認識サーバ20、50の各々が音声認識機能を有し、ユーザ11(対象者)は、自然言語を用いた音声によってロボット10、30、40と対話することができるようにしてもよい。この場合、ロボット10、30、40が備える音声認識機能よりも処理能力の高い音声認識機能を音声認識サーバ20、50が備えてもよい。そして、音声認識サーバ20、50が備える「処理能力の高い音声認識機能」によっても「不明な語句(音声認識の精度が所定値に満たなかった語句)」のみを、ロボット10、30、40がユーザ11に聞き返す構成であってもよい。
コミュニケーションシステム1〜3において、ロボット10、30、40が対話ロボット型のコミュニケーション装置である例を説明した。しかしながら、ロボット10は、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電(家庭用電子機器)等であってもよい。なお、これまでは、説明の簡略化のため、音声認識サーバ20または音声認識サーバ50に接続しているロボット10、30または40が1台である例を説明した。しかしながら、音声認識サーバ20または音声認識サーバ50に接続するロボット10、30または40の数は、複数であってもよい。また、音声認識サーバ20または音声認識サーバ50に、対話ロボッであるロボット10、30および40と、スマートフォンであるロボット10、30および40と、が接続してもよい。すなわち、複数のロボット10、30または40が、音声認識サーバ20または音声認識サーバ50に接続する場合、対話ロボット型、携帯端末型、家電型などの様々な種類のロボット10、30または40が接続してもよい。
〔まとめ〕
本発明の態様1に係るコミュニケーション装置(ロボット10、30、および40)は、対象者(ユーザ11)と音声会話を行うコミュニケーション装置であって、前記対象者からの発話音声を取得する音声取得部(110)と、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部(180)と、を備えている。
上記の構成によれば、前記音声出力部は、前記対象者からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する。したがって、前記コミュニケーション装置は、音声認識の精度が所定値に満たなかった語句に対応する音声データを、つまり、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声で前記対象者に通知することができるという効果を奏する。
また、前記コミュニケーション装置がどの語句が認識しづらかったのかを通知する結果、前記対象者は、前記コミュニケーション装置が認識しづらかった語句について、分かり易くなるように言い直したり、声を大きくして言い直したりすることができる。つまり、前記対象者は、前記コミュニケーション装置が認識しづらかった語句を言い直すことによって、認識しづらかった語句についての前記コミュニケーション装置の認識精度を向上させる。したがって、前記コミュニケーション装置は、認識しづらかった語句の音声通知などを含む前記対象者との音声会話によって、前記対象者とのコミュニケーション全体の成功率を向上させることができるという効果を奏する。
本発明の態様2に係るコミュニケーション装置(ロボット30)は、上記態様1において、前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者(ユーザ)に対して表示する表示部(320)をさらに備えていてもよい。
上記の構成によれば、前記表示部は、前記対象者からの発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する。
したがって、前記コミュニケーション装置は、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、前記対象者に通知することができるという効果を奏する。
本発明の態様3に係るコミュニケーション装置(ロボット30)は、上記態様2において、前記音声取得部の取得する音声であって、前記対象者からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する判定部(騒音判定部310)をさらに備え、前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記テキスト情報を、前記対象者に対して表示してもよい。
上記の構成によれば、前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記対象者からの発話音声の内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する。
したがって、前記コミュニケーション装置は、例えば自装置の周囲が騒がしいなど、前記コミュニケーション装置が出力した音声を前記対象者が聞き取りづらい場合に、「前記対象者からの発話音声の内、どの語句が認識しづらかったのか」を、音声に加えて、画像で、前記対象者に通知することができるという効果を奏する。
本発明の態様4に係るコミュニケーション装置(ロボット10、30、および40)は、上記態様1から3のいずれかにおいて、前記音声取得部によって取得された前記発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声出力部は、前記音声取得部によって取得された前記発話音声の音声データ全体を、前記対象者に対して音声出力してもよい。
上記の構成によれば、前記音声出力部は、前記音声取得部によって取得された前記発話音声の全体に対して、音声認識の精度が所定値に満たなかった語句に対応する占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声取得部によって取得された前記発話音声の全体を、前記対象者に対して音声出力する。
例えば人間同士の会話の場合、音声発話された一文のほとんどの語句が聞き取れなかった場合、および、音声発話された一文に聞き取れなかった語句が複数ある場合、聞き取れなかった語句を一つ一つ取り出して聞き返すよりも、一文全体をもう一度発話してもらった方が自然な会話となる。
したがって、前記コミュニケーション装置は、例えば取得した発話音声の全体に対して音声認識できなかった語句が大きい場合、または、音声認識できなかった語句が複数ある場合、人間同士の自然な会話の場合と同様に、前記発話音声の全体を聞き返すことにより、音声認識できなかった語句を前記対象者に通知することができるという効果を奏する。
本発明の態様5に係るサーバ(音声認識サーバ50)は、外部機器(ロボット40)により取得された発話音声の音声データを受信するサーバ受信部(210)と、前記音声データに対して音声認識を行う音声認識部(220)と、前記音声認識部による音声認識により取得される語句について、音声認識の精度(評価値)を算出する評価値算出部(240)と、前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部(150)と、前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部(250)と、を備えている。
上記の構成によれば、前記サーバ送信部は、外部機器(ロボット40)により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、前記外部機器に対して送信する。したがって、前記サーバは、前記外部機器に、外部機器により取得された発話音声の音声データのうち、音声認識の認識精度が所定値に満たなかった語句に対応する音声データを、つまり、どの語句が認識しづらかったのかを、音声で出力させることができるという効果を奏する。
また、前記外部機器がどの語句が認識しづらかったのかを通知した結果、前記発話音声の発話者(ユーザ11)は、音声認識の精度が所定値に満たなかった語句について、言い直したり、声を大きくしたりするなどして、前記サーバによる、音声認識の認識精度が所定値に満たなかった語句についての認識精度を向上させる。したがって、前記サーバは、前記外部機器に、認識しづらかった語句に対応する音声通知などを含む前記発話者との音声会話を実行させることによって、前記発話者との音声会話全体の認識精度を向上させることができるという効果を奏する。
本発明の態様6に係る制御方法は、対象者と音声会話を行うコミュニケーション装置の制御方法であって、前記対象者からの発話音声を取得する音声取得ステップ(S110)と、前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力ステップ(S200およびS210)と、を含んでいる。上記の制御方法によれば、態様1と同様の効果を奏する。
本発明の各態様に係るコミュニケーション装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記コミュニケーション装置が備える各部(ソフトウェア要素)として動作させることにより上記コミュニケーション装置をコンピュータにて実現させるコミュニケーション装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1、2、3 コミュニケーションシステム
10、30 ロボット(コミュニケーション装置)
40 ロボット(コミュニケーション装置、外部機器)
11 ユーザ(対象者)
50 音声認識サーバ(サーバ)
110 音声取得部
150 抽出部
160 割合判定部
180 音声出力部
220 音声認識部
210 サーバ受信部
240 評価値算出部(精度算出部)
250 サーバ送信部
310 騒音判定部(判定部)
320 表示部
S110 音声取得ステップ
S200、S210 音声出力ステップ

Claims (7)

  1. 対象者と音声会話を行うコミュニケーション装置であって、
    前記対象者からの発話音声を取得する音声取得部と、
    前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力部と、を備えることを特徴とするコミュニケーション装置。
  2. 前記音声取得部によって取得された前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応するテキスト情報を、前記対象者に対して表示する表示部をさらに備えることを特徴とする請求項1に記載のコミュニケーション装置。
  3. 前記音声取得部の取得する音声であって、前記対象者からの発話音声以外の音声の音量が所定の騒音基準値よりも大きいかを判定する判定部をさらに備え、
    前記表示部は、前記判定部によって、前記対象者からの発話音声以外の音声の音量が前記所定の騒音基準値よりも大きいと判定された場合に、前記テキスト情報を、前記対象者に対して表示することを特徴とする請求項2に記載のコミュニケーション装置。
  4. 前記音声取得部によって取得された前記発話音声の音声データ全体に対して、音声認識の精度が所定値に満たなかった語句に対応する音声データの占める割合が、所定の割合よりも大きい場合、または、音声認識の精度が所定値に満たなかった語句が複数ある場合、前記音声出力部は、前記音声取得部によって取得された前記発話音声の音声データ全体を、前記対象者に対して音声出力することを特徴とする請求項1から3のいずれか1項に記載のコミュニケーション装置。
  5. 外部機器により取得された発話音声の音声データを受信するサーバ受信部と、
    前記音声データに対して音声認識を行う音声認識部と、
    前記音声認識部による音声認識により取得される語句について、音声認識の精度を算出する評価値算出部と、
    前記音声データから、前記音声認識の精度が所定値に満たない語句に対応する音声データを抽出する抽出部と、
    前記抽出部によって抽出された音声データを、前記外部機器に対して送信するサーバ送信部と、を備えることを特徴とするサーバ。
  6. 対象者と音声会話を行うコミュニケーション装置の制御方法であって、
    前記対象者からの発話音声を取得する音声取得ステップと、
    前記音声取得ステップにて取得した前記発話音声の音声データの内、音声認識の精度が所定値に満たなかった語句に対応する音声データを、前記対象者に対して音声出力する音声出力ステップと、を含むことを特徴とする制御方法。
  7. 請求項1から4のいずれか1項に記載のコミュニケーション装置としてコンピュータを機能させるための情報処理プログラムであって、前記各部としてコンピュータを機能させるための情報処理プログラム。
JP2016221809A 2016-11-14 2016-11-14 コミュニケーション装置、サーバ、制御方法、および情報処理プログラム Pending JP2018081147A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016221809A JP2018081147A (ja) 2016-11-14 2016-11-14 コミュニケーション装置、サーバ、制御方法、および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016221809A JP2018081147A (ja) 2016-11-14 2016-11-14 コミュニケーション装置、サーバ、制御方法、および情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2018081147A true JP2018081147A (ja) 2018-05-24

Family

ID=62198848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016221809A Pending JP2018081147A (ja) 2016-11-14 2016-11-14 コミュニケーション装置、サーバ、制御方法、および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2018081147A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6920773B1 (ja) * 2019-09-27 2021-08-18 Tradfit株式会社 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム
JP7471921B2 (ja) 2020-06-02 2024-04-22 株式会社日立製作所 音声対話装置、音声対話方法、および音声対話プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6920773B1 (ja) * 2019-09-27 2021-08-18 Tradfit株式会社 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム
JP2021166102A (ja) * 2019-09-27 2021-10-14 Tradfit株式会社 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム
JP7066235B2 (ja) 2019-09-27 2022-05-13 Tradfit株式会社 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム
JP2023073412A (ja) * 2019-09-27 2023-05-25 Tradfit株式会社 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム
JP7471921B2 (ja) 2020-06-02 2024-04-22 株式会社日立製作所 音声対話装置、音声対話方法、および音声対話プログラム

Similar Documents

Publication Publication Date Title
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US10891952B2 (en) Speech recognition
US11412333B2 (en) Interactive system for hearing devices
US11462213B2 (en) Information processing apparatus, information processing method, and program
US10192550B2 (en) Conversational software agent
US10140988B2 (en) Speech recognition
US9799329B1 (en) Removing recurring environmental sounds
JP2017509917A (ja) 空間音響特性に少なくとも部分的に基づく動作指令の決定
US11367443B2 (en) Electronic device and method for controlling electronic device
US20150149169A1 (en) Method and apparatus for providing mobile multimodal speech hearing aid
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2017151415A1 (en) Speech recognition
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
US10002611B1 (en) Asynchronous audio messaging
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
JP2019090945A (ja) 情報処理装置
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
JP2018190070A (ja) 対話支援方法、装置、およびプログラム
JP7070402B2 (ja) 情報処理装置
WO2023165844A1 (en) Circuitry and method for visual speech processing