JP6889597B2 - ロボット - Google Patents

ロボット Download PDF

Info

Publication number
JP6889597B2
JP6889597B2 JP2017084412A JP2017084412A JP6889597B2 JP 6889597 B2 JP6889597 B2 JP 6889597B2 JP 2017084412 A JP2017084412 A JP 2017084412A JP 2017084412 A JP2017084412 A JP 2017084412A JP 6889597 B2 JP6889597 B2 JP 6889597B2
Authority
JP
Japan
Prior art keywords
utterance
sentence
television
generation unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017084412A
Other languages
English (en)
Other versions
JP2018180472A (ja
Inventor
金子 豊
金子  豊
祐太 星
祐太 星
上原 道宏
道宏 上原
苗村 昌秀
昌秀 苗村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2017084412A priority Critical patent/JP6889597B2/ja
Publication of JP2018180472A publication Critical patent/JP2018180472A/ja
Application granted granted Critical
Publication of JP6889597B2 publication Critical patent/JP6889597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Toys (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、コミュニケーションロボットを制御するための装置、方法及びプログラムに関する。
近年、高齢化、核家族化、共働きの家庭の増加等、様々な要因により、一人暮らしの高齢者、あるいは家族と同居しているものの、日中は家で一人となる日中独居の高齢者が増加している。これらの高齢者は、日中、一人でいることが多いが、孤独感を解消するために、犬や猫等のペットが欲しくても、容易に飼うことができない。
このような背景の中、会話等のコミュニケーションをサポートする動物型又は人型のコミュニケーションロボットが開発され販売されている。
コミュニケーションロボット開発の目標は、人間又は動物の代わりとなるロボットであるが、現状で実現は困難なため、既存のコミュニケーションロボットが持つ機能は限定されている。
例えば、既存のコミュニケーションロボットは、行動及び会話のパターンが限られているため、使い始めは目新しいものの、使い続けていると利用者が飽きてしまう課題がある。そこで、例えば、以下の方法が提案されている。
特許文献1では、ロボットの内部感情を示すために、感情に合致したコンテンツを再生する方法が提案されている。
特許文献2では、ロボットに組み込まれたカメラにより、周囲の人物又は物体を識別し、識別結果に関連した話題の会話を行う方法が提案されている。
特許文献3では、映像に対するソーシャルネットワークのコメント等の投稿情報を用いて、ロボットがユーザの好みに応じたコンテンツを提供すると共に、映像を一緒に視聴しているかのような動作を提供することで、ユーザに対して共感を生じさせる方法が提案されている。
特許第4556425号公報 特開2008−158697号公報 特開2015−148701号公報
ところで、独居者の多くは、一人でテレビを見ていること、また、特にテレビが見たいわけではないが、部屋が静かすぎることを紛らわすためにテレビを付けたままにしていることも多い。
このような状況において、あたかもテレビを見て楽しんでいるロボットの存在は、このロボットがテレビとユーザとの双方と関わりを持つことで、ユーザの孤独感を癒す効果が期待できる。
本発明は、テレビ及びユーザを認識しつつ、番組の内容に応じて自発的に向きを変えて発話できるロボットの制御装置、制御方法及び制御プログラムを提供することを目的とする。
本発明に係る制御装置は、番組情報を取得する情報取得部と、前記番組情報、及び発話用辞書に登録されているテンプレートに基づく発話文を生成する発話生成部と、ロボットの向きを制御する方向制御部と、前記発話文を音声に変換する音声合成部と、を備え、前記発話生成部は、前記発話文の特徴により、当該発話文が人へ話し掛ける文であるか否かを判定し、判定結果に応じて前記方向制御部に対して、テレビが位置する第1方向、又はユーザが位置する第2方向のいずれかを指示する。
前記制御装置は、カメラ画像に基づいて、前記第1方向を検出する第1方向検出部を備えてもよい。
前記制御装置は、複数のマイクに入力された音声のうち、前記テレビの方向からの音声を除くことにより、前記第2方向を検出する第2方向検出部を備えてもよい。
前記発話生成部は、前記番組情報としての字幕データのうち、出現頻度に基づく番組関連度の指標が所定以上の単語に基づいて、前記発話文を生成してもよい。
前記発話生成部は、前記番組情報に基づいて、前記発話用辞書を更新してもよい。
前記発話生成部は、前記テンプレートに予め付与されている区分に基づいて、前記発話文が人へ話し掛ける文であるか否かを判定してもよい。
前記発話生成部は、前記発話文の文末が特定の文字列であるか否かにより、前記発話文が人へ話し掛ける文であるか否かを判定してもよい。
本発明に係るロボットは、前記制御装置を有し、前記方向制御部により回転角度を制御される回転テーブルを備える。
本発明に係る制御方法は、番組情報を取得する情報取得ステップと、前記番組情報、及び発話用辞書に登録されているテンプレートに基づく発話文を生成する発話生成ステップと、ロボットの向きを制御する方向制御ステップと、前記発話文を音声に変換する音声合成ステップと、をコンピュータが実行し、前記発話生成ステップにおいて、前記発話文の特徴により、当該発話文が人へ話し掛ける文であるか否かを判定し、判定結果に応じて前記方向制御ステップに対して、テレビが位置する第1方向、又はユーザが位置する第2方向のいずれかを指示する。
本発明に係る制御プログラムは、番組情報を取得する情報取得ステップと、前記番組情報、及び発話用辞書に登録されているテンプレートに基づく発話文を生成する発話生成ステップと、ロボットの向きを制御する方向制御ステップと、前記発話文を音声に変換する音声合成ステップと、をコンピュータに実行させ、前記発話生成ステップにおいて、前記発話文の特徴により、当該発話文が人へ話し掛ける文であるか否かを判定し、判定結果に応じて前記方向制御ステップに対して、テレビが位置する第1方向、又はユーザが位置する第2方向のいずれかを指示させるためのものである。
本発明によれば、ロボットは、テレビ及びユーザを認識しつつ、番組の内容に応じて自発的に向きを変えて発話できる。
実施形態に係る制御装置の機能構成を示すブロック図である。 実施形態に係るEPGデータの一例を示す図である。 実施形態に係る字幕情報の一例を示す図である。 実施形態に係るロボットの実装例を示す第1の図である。 実施形態に係るロボットの実装例を示す第2の図である。 実施形態に係るテレビ位置検出処理の流れを示すフローチャートである。 実施形態に係る字幕情報の整形処理の流れを示すフローチャートである。 実施形態に係る整形処理を行った結果を例示する図である。 実施形態に係る発話生成処理の流れを示すフローチャートである。 実施形態に係る定型対話処理の流れを示すフローチャートである。 実施形態に係る対話文生成処理の流れを示すフローチャートである。 実施形態に係るつぶやき文生成処理の流れを示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
本実施形態に係る制御装置10は、ロボット1の動作を制御する情報処理装置である。制御装置10は、テレビの位置とユーザ(視聴者)の位置とを判別し、テレビ音声、映像、番組情報又は字幕情報等から抽出したキーワードに関連する言葉をテレビの方向を向いてつぶやく、又はユーザの方向を向いて話しかけるように、ロボット1を回転させることで、ユーザにロボットと一緒にテレビを視聴しているように感じさせる。
図1は、本実施形態に係る制御装置10の機能構成を示すブロック図である。
制御装置10は、ロボット1の周囲にあるテレビを検出するためのカメラC、ユーザの声を収集するマイクロホンアレイM、ユーザが好みのぬいぐるみ等Uを乗せるための回転テーブルT、この回転テーブルTを回転させるモータS、制御装置10が発生させる発話音声を出力するスピーカP、視聴中のテレビの番組情報及び字幕情報等を管理し提供するテレビ情報提供サーバV、テレビを制御するための赤外線発光器Lのそれぞれと接続されている。
制御装置10は、テレビ位置検出部11(第1方向検出部)と、音源定位・分離部12(第2方向検出部)と、音声認識部13と、テレビ情報取得部14(情報取得部)と、発話生成部15と、音声合成部16と、モータ角度制御部17(方向制御部)と、テレビ制御部18とを備える。
テレビ位置検出部11は、ロボット1の電源投入時、又はユーザがロボット1の置き場所を変更した場合、若しくはリセット動作を行った場合に、初期動作として、後述のテレビ位置検出処理を行う。
テレビ位置検出処理において、テレビ位置検出部11は、モータ角度制御部17を制御し、回転テーブルTを回転させながら、カメラCの画像からテレビが位置する第1方向を検出する。
ここで、画像からテレビの位置を検出する方法としては、例えば、以下の文献Aの方法が適用できる。すなわち、テレビ位置検出部11は、テレビ内の画像が時間的に変化することを利用し、撮影した画像のフレーム間差分画像から、差分が大きい矩形領域をテレビ受像機として検出できる。
文献A:特開2005−4697号公報
また、テレビ位置検出部11は、検出した第1方向を、音源定位・分離部12及びモータ角度制御部17に通知する。音源定位・分離部12及びモータ角度制御部17は、それぞれ通知された方向をテレビの方向として記憶する。
音源定位・分離部12は、複数のマイクからなるマイクロホンアレイMを用いて、ユーザの音声が到来する第2方向の検出(音源定位)と、音声の抽出(音源分離)を行う。
音源定位及び音源分離の方法としては、例えば、以下の文献Bの方法が適用でき、この方法により、音源定位・分離部12は、ユーザがロボット1に話し掛けた音声を取得できる。
文献B:奥乃博、中臺一博「ロボット聴覚オープンソフトウエア HARK」、日本ロボット学会誌、Vol.28、No.1、2010
ここで、音源定位・分離部12は、テレビ位置検出部11からテレビが位置する第1方向を取得しているので、マイクロホンアレイMに入力された音声のうち、第1方向からの音声を除くことで、テレビの音声以外の音をユーザの音声として判定し、音源の定位及び分離を行う。
また、音源定位・分離部12は、分離した音声データを音声認識部13に通知すると共に、音声が到来した第2方向をモータ角度制御部17に通知する。モータ角度制御部17は、通知された方向をユーザの方向として記憶する。
音声認識部13は、音源定位・分離部12から、音源分離された音声データが入力されると、この音声データをテキストデータに変換し、テキストデータを発話生成部15に通知する。
音声データからテキストデータへ変換する音声認識には様々な方式が開発されており、例えば、以下の文献Cの方法が適用できる。
文献C:河原達也、李晃伸「連続音声認識ソフトウェア Julius」、人工知能学会誌、Vol.20、No.1、2005
ここで、音声認識は、大規模な単語辞書及び単語並びの出現頻度(単語Nグラム)を用いて、入力された音声データから音声認識を行う大語彙音声認識と、予め予想される言葉の文法及び単語から音声認識を行う記述文法による音声認識と、単語辞書を用いて単語だけを認識する単語認識の3つに分類される。
本実施形態では、音声認識部13は、大語彙音声認識と記述文法による音声認識とを並列に使用する。記述文法による音声認識は、「チャンネルを1に切り替えて」、「テレビをつけて」、「音量を下げて」、「今何の番組を見ているの」等の、一般にテレビの操作に関する音声の認識に用い、その他の音声には、大語彙音声認識による音声認識結果を用いる。
音声認識では認識されたテキストデータ(単語の並び)に対して尤度(認識結果の単語又は音素並びの生起確率の積)が求められるので、音声認識部13は、例えば、大語彙音声認識による結果と、記述文法音声認識による結果とで、尤度が大きい方を音声認識の結果として用いてよい。
音声認識部13は、変換されたテキストデータと共に、使用された音声認識の方式(大語彙又は記述文法)を発話生成部15に通知する。
テレビ情報取得部14は、テレビ制御部18から通知されたチャンネルのEPG(Electronic Program Guide)及び字幕情報等の番組情報を、テレビ情報提供サーバVから取得する。
図2は、本実施形態に係るテレビ情報提供サーバVが蓄積する番組情報のうち、EPGデータの一例を示す図である。
番組情報は、例えば、“,”文字によってデータのフィールドが区切られ、番組の開始日、開始時刻、番組の時間長、番組タイトル、番組概要等を含む。
この例では、番組の放送日が2016年9月30日、番組開始時刻が22時00分00秒、番組の時間長が50分、番組タイトルが「ドラマめろめろ 第2回」、番組概要が「主人公Yは職場の同僚K子に思いをはせる。」である。
図3は、本実施形態に係るテレビ情報提供サーバVが蓄積する番組情報のうち、字幕情報の一例を示す図である。
ここでは、6個分の字幕情報の例を示している。1つの字幕情報は、例えば、“,”文字によってデータのフィールドが区切られ、表示日、表示開始時刻、字幕文等を含む。
例えば、1つ目の字幕情報は、2016年9月30日の22時10分14秒に、「こんばんは。」という字幕文を表示することを示している。
テレビ情報取得部14は、ネットワークを介してテレビ情報提供サーバVに接続する。なお、ネットワークのインタフェースは、無線でも有線でもよい。
また、テレビ情報提供サーバVは、例えば、放送局がインターネット等のサービスとして提供するサーバでもよいし、テレビ受像機が受信した放送データから番組情報を抽出する家庭内のサーバでもよい。
ここで、テレビ情報提供サーバVが放送局毎に異なる場合には、テレビ情報取得部14は、テレビ制御部18からチャンネル切り替えの通知を受信する度に、該当のチャンネルに対応するテレビ情報提供サーバVに接続し直す。
テレビ情報取得部14は、テレビ情報提供サーバVから番組情報を受信すると、受信した内容を発話生成部15に通知する。
また、テレビ情報取得部14は、テレビ情報提供サーバVから番組情報としての字幕情報を受信すると、後述の字幕文の整形処理を行った後、整形した字幕文テキストを発話生成部15に通知する。
発話生成部15は、入力された番組情報に基づいて、発話用辞書を更新すると共に、番組情報、及び発話用辞書に登録されているテンプレートに基づく発話文を生成する。
また、発話生成部15は、発話文の特徴により、この発話文が人へ話し掛ける文であるか否かを判定し、判定結果に応じてモータ角度制御部17に対して、テレビが位置する第1方向、又はユーザが位置する第2方向のいずれかを指示する。
具体的には、発話生成部15は、例えば、テンプレートに予め付与されている区分に基づいて、発話文が人へ話し掛ける文であるか、単なるつぶやき文であるかを判定してもよいし、発話文の文末が特定の文字列(「?」、「ね」等)であるか否かにより、発話文が人へ話し掛ける文であるか否かを判定してもよい。
発話生成部15は、番組情報としての字幕文が入力される毎に発話文を生成してもよいが、発話回数が多過ぎる場合には、例えば、ランダムに発話をするか否かを決定することで、発話量を減らしてもよい。また、発話生成部15は、字幕文に含まれるキーワードが視聴中の番組と関連が強いか否かにより、関連が所定以上に強い場合にのみ発話文を生成してもよい。
キーワードと番組との関連度の指標値としては、例えば、tf−idfが適用できる。
文書(放送番組)jにおける単語(キーワード)iの出現頻度をnij、文書(放送番組)の総数をDとすると、文書jにおける単語iのtf−idfijは、次の式1で表すことができる。ここで、sgn(x)は、x=0のとき0、x>0のとき1となる関数である。
式1: tf−idfij = tfij × idf
tfij = nij / Σkj
idf = log(D / Σ sgn(nij))
音声合成部16は、入力されたテキスト文から音声データを合成し、スピーカPから音声を出力させる。
テキストデータからの音声合成手法としては、例えば、次の文献Dに示されている隠れマルコフモデル(HMM)を利用した音声合成手法が適用できる。
文献D:大浦圭一郎、酒向慎司、徳田恵一「日本語テキスト音声合成システム Open JTalk」、日本音響学会研究発表会講演論文集、2−7−6、2010
モータ角度制御部17は、モータSに回転角度を指示し、ロボット1の向きを制御する。
テレビ制御部18は、テレビのリモコンと同様の信号を出力し、赤外線発光器Lを介してテレビの操作を行う。また、テレビ制御部18は、チャンネルの変更を行った場合に、変更後のチャンネルをテレビ情報取得部14に通知する。
テレビ制御部18のテレビ制御機能としては、例えば、電源のオン及びオフ、チャンネルの変更、音量の上げ下げ等がある。なお、テレビのリモコンが出力する信号は、製造メーカ及びテレビの機種毎に異なるが、本実施形態では、テレビ制御部18に、使用するテレビのリモコン信号の種類が予め登録されているものとする。
図4A及び図4Bは、本実施形態に係る制御装置10を備えたロボット1の実装例を示す図である。
本実施形態のロボット1は、筺体が円筒形であり、筐体上部の回転テーブルTは、モータSの回転軸に接続され、制御装置10からの制御信号により指定された向き(角度)に回転する。カメラC、スピーカP及び赤外線発光器Lは、回転テーブルTに取り付けられ、回転テーブルTと共に回転する。
また、ユーザは、この回転テーブルTの上に、カメラCの方向を前方として好みのぬいぐるみ等Uを固定することができ、このぬいぐるみ等Uも、回転テーブルTと共に回転する。
円筒形の筺体の下部には、回転テーブルTを回転させるモータSが取り付けられ、モータSの周囲には、複数のマイクからなるマイクロホンアレイMが配置される。図の例では、円筒形の筐体の内周に等間隔に8個のマイクが取り付けてある。なお、マイクの個数及び配置は一例であり、適宜設計されてよい。
制御装置10の実装例としての制御基板Rは、CPU、記憶装置、入出力インタフェース等を備えている。制御基板Rは、CPUが記憶装置に記憶されたソフトウェア(制御プログラム)を実行することにより、制御装置10の各部として機能する。
制御基板Rには、マイクロホンアレイM、モータS、カメラC、スピーカPが接続される。また、制御基板Rに設けられたネットワークインタフェースNは、インターネット等のネットワークを介して、テレビ情報提供サーバVと通信を行う。
なお、回転テーブルTに取り付けられたカメラC、スピーカP及び赤外線発光器Lと、制御基板Rとの接続は、直接ケーブルで行ってもよいが、例えば、モータSと回転テーブルTとがスリップリングを介して接続されてもよい。
[テレビ位置検出処理]
次に、制御装置10の初期動作としての、テレビ位置検出部11によるテレビ位置検出処理を詳述する。
図5は、本実施形態に係るテレビ位置検出処理の流れを示すフローチャートである。
ステップS1において、テレビ位置検出部11は、回転テーブルTの回転角度を示す変数θを0に初期化する。
ステップS2において、テレビ位置検出部11は、モータ角度制御部17にθを通知し、回転テーブルTをθの方向に向ける。
ステップS3において、テレビ位置検出部11は、カメラCの撮影画像(動画)からテレビ位置検出を実行し、テレビの位置を検出できたか否かを判定する。この判定がYESの場合、処理はステップS4に移り、判定がNOの場合、処理はステップS5に移る。
ステップS4において、テレビ位置検出部11は、テレビの位置を検出したので、現在の回転テーブルTの方向θを、変数posθに追加する。
ステップS5において、テレビ位置検出部11は、θにΔθを加える。
ステップS6において、テレビ位置検出部11は、θが360度より小さい場合に、処理をステップS2に戻し、新しい方向θで同様にテレビ位置の検出を繰り返す。
なお、Δθは、小さな値にするほど、位置検出の精度は向上するが、処理負荷とのトレードオフにより適宜設定される。
ステップS7において、テレビ位置検出部11は、検出されたposθの値から、テレビの位置(角度)を判定する。具体的には、テレビ位置検出部11は、テレビが検出された各θの平均値をテレビのある第1方向と判定してよい。例えば、Δθを30度とし、30度方向及び60度方向でテレビが検出された場合、(30+60)/2=45度の方向にテレビがあると判定する。
ステップS8において、テレビ位置検出部11は、判定した第1方向を、音源定位・分離部12及びモータ角度制御部17に通知する。
音源定位・分離部12及びモータ角度制御部17は、それぞれ通知された方向をテレビの方向として記憶する。
ステップS9において、テレビ位置検出部11は、テレビを予め決められたチャンネルにするため、モータ角度制御部17に対して、第1方向を向くことを指示する。
ステップS10において、テレビ位置検出部11は、テレビ制御部18に所定のチャンネルへの切り替えを指示する。
このように、初期動作により、テレビの位置する第1方向が検出され、テレビは、予め決められたチャンネルに切り替えられる。
なお、前述の文献Aに示されたテレビ検出の方法を用いる場合、テレビ画面の表示に変化があることを前提としているため、ステップS1に先立ち、テレビの電源を入れておく必要がある。この方法として、例えば、制御装置10は、モータ角度制御部17により回転テーブルTを回転させながら、テレビ制御部18によりテレビの電源を入れる信号を周囲に出してもよい。あるいは、制御装置10は、音声合成部16により「テレビの電源を入れてくれる」等と発話させ、ユーザに操作を促してもよい。
また、テレビの検出方法は限定されず、電源がオフのままテレビの位置を検出可能な方法として、例えば、テレビの枠をエッジ検出する方法、又は機械学習若しくはディープラーニング等により学習しておく方法等が用いられてもよい。この場合は、予めテレビの電源を入れておく必要はない。
[字幕情報の整形処理]
次に、発話生成部15の入力となる字幕情報の整形処理を詳述する。
整形処理は、テレビ情報提供サーバVから取得した字幕情報から字幕文テキストを生成する処理である。この処理により、1つの文が複数の画面に分割されている字幕データが1つの字幕文として連結され、解説的な補助の文字列(例えば、音楽が流れていることを表した音符記号、誰の言葉かを示す人物名等)が削除される。
図6は、本実施形態に係るテレビ情報取得部14による字幕情報の整形処理の流れを示すフローチャートである。
ステップS11において、テレビ情報取得部14は、整形した字幕文テキストを記録する文字列バッファを初期化する。
ステップS12において、テレビ情報取得部14は、テレビ情報提供サーバVから1つの字幕情報を取得する。
ステップS13において、テレビ情報取得部14は、字幕情報の先頭にある表示開始日時等のデータを除き、字幕文のみを抽出する。
ステップS14において、テレビ情報取得部14は、抽出した字幕文の中に特殊文字が含まれているか否かを判定する。特殊文字とは、音符記号及び括弧等の予め設定された文字である。この判定がYESの場合、処理はステップS11に戻り、テレビ情報取得部14は、抽出した文字列を字幕文テキストとしては利用せず、文字列バッファを初期化する。一方、判定がNOの場合、処理はステップS15に移る。
ステップS15において、テレビ情報取得部14は、抽出した字幕文を文字列バッファの末尾に追加する。
ステップS16において、テレビ情報取得部14は、文字列バッファの文末が区切り文字か否かを判定する。区切り文字とは、読点“。”及び疑問符“?”等であり、この区切り文字によって、文字列バッファに記録されている文が終わっている(完結している)か否かが判断される。この判定がYESの場合、処理はステップS17に移る。一方、判定がNOの場合、記録中の文が途中であるため、処理はステップS12に戻り、テレビ情報取得部14は、次の字幕情報を取得する。
ステップS17において、テレビ情報取得部14は、文字列バッファ内の削除指定文字を削除する。削除指定文字とは、予め決められた、字幕文に含まれる読む必要のない文字(例えば、矢印“→”等)である。
ステップS18において、テレビ情報取得部14は、文字列バッファ内に記録された整形された字幕文テキストを、発話生成部15に通知する。
ステップS19において、テレビ情報取得部14は、処理の終了が指示されたか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、次の字幕文テキストを生成するために、処理はステップS11に戻る。
図7は、本実施形態に係る字幕情報に対して整形処理を行った結果を例示する図である。
この例は、図3で例示した字幕情報に対して整形処理を行った結果を示している。
図3の字幕情報にある「(笑い声)」及び「♪〜(歌声)」の文字情報は削除され、また、「会社の帰りにお店によって→」及び「買い物してきてもらいたいの。」の2つの字幕情報が1つの字幕文テキストに整形され、さらに、削除指定文字「→」が削除されている。
結果として、図3の6つの字幕情報は、「こんばんは。」、「会社の帰りにお店によって買い物してきてもらいたいの。」、「いらっしゃいませ。」の3文に整形されている。
[発話生成処理]
次に、発話生成部15による発話生成処理を詳述する。
発話生成部15は、音声認識部13からの音声認識結果のテキスト文、及びテレビ情報取得部14からの番組情報、特に字幕文テキストの入力に対応した発話文の生成と、対応した動作とを行う。
本実施形態では、発話生成部15に入力されるテキスト文の種類によって発話生成処理は大きく3つに分かれる。1つ目は、音声認識部13からの音声認識結果が記述文法の場合であり、2つ目は、音声認識部13からの音声認識結果が大語彙の場合であり、3つ目は、テレビ情報取得部14からの字幕文テキストの場合である。
図8は、本実施形態に係る発話生成部15による発話生成処理の流れを示すフローチャートである。
ステップS21において、発話生成部15は、音声認識部13又はテレビ情報取得部14から、テキスト文の入力を受け付ける。
ステップS22において、発話生成部15は、入力されたテキスト文が記述文法による音声認識結果であるか否かを判定する。この判定がYESの場合、処理はステップS25に移り、判定がNOの場合、処理はステップS23に移る。
ステップS23において、発話生成部15は、入力されたテキスト文が大語彙音声認識結果であるか否かを判定する。この判定がYESの場合、処理はステップS26に移り、判定がNOの場合、処理はステップS24に移る。
ステップS24において、発話生成部15は、入力されたテキスト文が字幕文テキストであるか否かを判定する。この判定がYESの場合、処理はステップS27に移り、判定がNOの場合、処理はステップS28に移る。
ステップS25において、発話生成部15は、後述の定型対話処理を実行し、その後、処理はステップS28に移る。
ステップS26において、発話生成部15は、後述の対話文生成処理を実行し、その後、処理はステップS28に移る。
ステップS27において、発話生成部15は、後述のつぶやき文生成処理を実行し、その後、処理はステップS28に移る。
ステップS28において、発話生成部15は、処理の終了が指示されたか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、次のテキスト文を受け付けるために、処理はステップS21に戻る。
[定型対話処理]
定型対話処理は、予め決められた記述文法に従った音声入力文に対応して、発話及び動作を行うものである。定型文の入力と発話及び動作との組み合わせ例としては、例えば、「1チャンネルに切り替えて」という音声入力に対して「1チャンネルに切り替えるね」と確認の発話の後、テレビのチャンネルを切り替え、「1チャンネルに切り替えたよ」と発話するといったものがある。また、「何の番組を見ているの」という音声入力に対して、EPGデータから「ドラマめろめろ第2回だよ」と、現在の番組のタイトル等を発話するといった例もある。
図9は、本実施形態に係る定型対話処理の流れを示すフローチャートである。
ステップS31において、発話生成部15は、モータ角度制御部17に命令を出し、入力文の発話者であるユーザが位置する第2方向に回転テーブルTの向きを変える。
ステップS32において、発話生成部15は、予め決められた発話文のテキストデータを音声合成部16に通知し発話を実行する(例えば、上述の「1チャンネルに切り替えるね」)。
このとき、発話生成部15は、テレビ情報取得部14から通知されている現在の番組情報(例えば、EPGデータ)を利用することで、発話文内に番組のタイトル及び概要文等を含めることができる(例えば、上述の「ドラマめろめろ第2回だよ」)。
ステップS33において、発話生成部15は、入力された定型文にテレビに対する制御命令が含まれているか否かを判定する。この判定がYESの場合、処理はステップS34に移り、判定がNOの場合、処理は終了する。
ステップS34において、発話生成部15は、モータ角度制御部17に命令を出し、回転テーブルTを、テレビが位置する第1方向に向ける。
ステップS35において、発話生成部15は、テレビ制御部18に対してテレビへの制御命令の実行を指示する。
ステップS36において、発話生成部15は、回転テーブルTをユーザが位置する第2方向に向けるため、モータ角度制御部17に命令を出す。
ステップS37において、発話生成部15は、制御の完了をユーザに知らせるための発話文のテキストデータを音声合成部16に送る(例えば、上述の「1チャンネルに切り替えたよ」)。
[対話文生成処理]
対話文生成処理は、音声認識部13による大語彙音声認識の結果を入力として、対話文を生成して発話を実行するものである。
対話文を生成する方式として、例えば、次の文献Eで実装例が示されている人工無脳がある。
文献E:秋山智俊「恋するプログラム―Rubyでつくる人工無脳」、毎日コミュニケーションズ、2005
人工無脳は、入力文とは無関係に発話するための文が記録されたランダム辞書、ある単語に対する返答パターンを記録したパターン辞書、単語を当てはめることで文ができるテンプレート辞書、単語の並びの生起確率(Nグラム)辞書等を備え、乱数により選択した辞書を用いて、入力文に含まれている単語に対して発話文を生成する。また、これらの辞書は、入力文に基づいて学習(追加又は更新)されるため、入力文によって次第に変化していく。
本実施形態では、人工無脳の辞書の学習に、テレビ情報取得部14により整形された字幕文を用いる。これにより、発話生成部15は、ユーザが普段よく見る番組の単語及び会話文等を学習し、適切な対話文を作成できる。
図10は、本実施形態に係る対話文生成処理の流れを示すフローチャートである。
ステップS41において、発話生成部15は、回転テーブルTをユーザの位置する第2方向に向けるため、モータ角度制御部17に命令を出す。
ステップS42において、発話生成部15は、音声認識部13から通知されたテキスト文を入力として対話文を生成し、生成したテキストデータを音声合成部16に通知して発話を実行する。
ステップS43において、発話生成部15は、ステップS42の発話後に一定時間待ち、この間に次の音声が入力されたか否かを判定する。この判定がYESの場合、処理はステップS44に移り、判定がNOの場合、処理はステップS46に移る。
ステップS44において、発話生成部15は、新たな入力文が記述文法による音声認識結果であるか否かを判定する。この判定がYESの場合、処理はステップS45に移り、判定がNOの場合、すなわち音声認識結果が大語彙の場合、処理はステップS42に移る。
ステップS45において、発話生成部15は、定型対話処理(図9)を実行する。
ステップS46において、発話生成部15は、新たな入力がなかったので、モータ角度制御部17への命令により、回転テーブルTをテレビの位置する第1方法に向け、処理を終了する。
[つぶやき文生成処理]
つぶやき文生成処理は、ロボットが自律的にテレビを見ているような効果を出すために、テレビ又はユーザの方向を選択的に向きながら、番組に関連する言葉をつぶやくものである。
図11は、本実施形態に係るつぶやき文生成処理の流れを示すフローチャートである。
つぶやき文生成処理は、テレビ情報取得部14から、字幕文テキストの通知がある毎に実行される。
ステップS51において、発話生成部15は、入力された字幕文テキストを用いて、発話用の各辞書を更新する。
ステップS52において、発話生成部15は、入力された字幕文テキストに基づいて、発話文を生成する。
ステップS53において、発話生成部15は、生成した発話文が人へ話し掛ける文か否かを判定する。この判定がYESの場合、処理はステップS57に移り、判定がNOの場合、処理はステップS54に移る。
ステップS54において、発話生成部15は、発話文が話し掛けではないため、モータ角度制御部17を制御して回転テーブルTをテレビのある第1方向に向ける。
ステップS55において、発話生成部15は、発話文を音声合成部16に提供し、テレビのある第1方向に向けて発話させる。
ステップS56において、発話生成部15は、ステップS55の発話後、一定時間以内にユーザからの音声入力があったか否かを判定する。この判定がYESの場合、処理はステップS60に移り、判定がNOの場合、処理は終了する。
ステップS57において、発話生成部15は、発話文が話し掛けであるため、モータ角度制御部17を制御して回転テーブルTをユーザのいる第2方向に向ける。
ステップS58において、発話生成部15は、発話文を音声合成部16に提供し、ユーザのいる第2方向に向けて発話させる。
ステップS59において、発話生成部15は、ステップS58の発話後、一定時間以内にユーザからの音声入力があったか否かを判定する。この判定がYESの場合、処理はステップS60に移り、判定がNOの場合、処理はステップS61に移る。
ステップS60において、発話生成部15は、ユーザからの音声入力に基づいて、対話文生成処理(図10)を実行する。
ステップS61において、発話生成部15は、ユーザからの音声入力がなかったので、モータ角度制御部17を制御して回転テーブルTをテレビのある第1方法に向け、処理を終了する。
本実施形態によれば、制御装置10は、番組情報に基づいて発話文を生成すると共に、この発話文が人へ話し掛ける文であるか否かを判定し、ロボット1をテレビ又はユーザのいずれかの方向に選択的に向けて発話させる。
したがって、制御装置10は、ユーザと一緒にテレビを視聴するコミュニケーションロボットを構成できる。また、ロボットに対して発話することに対して抵抗感があるユーザは少なくないが、ユーザが発話をしなくても、ロボット1は、テレビ及びユーザを認識しつつ、番組の内容に応じて自発的に向きを変えて発話できるので、ユーザは、ロボット1を微笑ましく眺めることができる。
また、従来のコミュニケーションロボットは、多数のモータを搭載して複雑な動きを制御するのに対して、本実施形態のロボット1は単純な駆動操作であるため、安価に製作できる。
制御装置10は、カメラCの画像に基づいてテレビのある第1方向を、さらに、マイクロホンアレイMの音声に基づいてユーザのいる第2方向を検出するので、自動的にテレビ及びユーザの方向を認識しながら、ロボット1の配置によらず自発的に動作が可能である。
制御装置10は、字幕データのうち、番組関連度が所定以上のキーワードに基づいて発話文を生成するので、必要以上に発話を繰り返すことなく、視聴中の番組と関連する話題により適切にロボット1に発話をさせることができる。
制御装置10は、取得した番組情報に基づいて、発話用辞書を更新するので、ロボット1は、コミュニケーションの話題として視聴中のテレビ番組に関連する言葉を発話することで、時間と共に異なる内容となり、ユーザが飽きてしまう課題を軽減できる。
制御装置10は、テンプレートに予め付与されている区分に基づいて、発話文が人へ話し掛ける文であるか否かを判定することにより、あるいは、発話文の文末が特定の文字列であるか否かにより、発話文が人へ話し掛ける文であるか否かを判定することにより、容易にロボット1の向きを決定できる。
ロボット1は、方向制御部により回転角度を制御される回転テーブルTを備える。
ユーザは、回転テーブルTに好みのぬいぐるみ等Uを乗せることで、好みの形状のコミュニケーションロボットとして利用できる。したがって、自分が好きな形状のぬいぐるみ等Uが、自分の方を向いて話し掛けてくれると共に、テレビに向かってつぶやくことで、ユーザは、あたかもぬいぐるみ等Uが自律してテレビを見て反応しているかのように感じ、その様子を微笑ましく眺めることができる。
さらに、回転テーブルTに乗せる物はぬいぐるみに限らず、例えば既存のコミュニケーションロボットでもよい。既存のコミュニケーションロボットは、ユーザの正面に置いて使用することを前提に作られているため、回転角度に制限があり、テレビ及びユーザの両方を向くことができないか、あるいは、向けられたとしても、首だけが180度後ろに向くなど、不自然な状態となってしまうものが多い。これらのコミュニケーションロボットを本実施形態の回転テーブルに乗せることで、不自然にならずに、テレビ及びユーザの両方に向けることができる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
本実施形態では、ロボット1は、円筒状の装置として説明したが、これには限定されない。例えば、既存のコミュニケーションロボット又はぬいぐるみ等の内部装置として実装されてもよい。
本実施形態におけるテレビは、放送の受信機には限られず、PC等の画面に置き替えられてもよい。さらに、番組コンテンツは、放送又は通信のいずれで配信されてもよい。
また、テレビ情報取得部14は、テレビ情報提供サーバVから番組情報を取得することとしたが、テレビのある第1方向からの音声を分離し、音声認識部13を介してテレビの音声の音声認識を実行することで、字幕情報として取得してもよい。
あるいは、テレビ情報取得部14は、カメラCからテレビ画面の画像を取得し、画像解析により字幕又は被写体の情報を取得してもよい。
また、本実施形態では、カメラC及びテレビ位置検出部11により、テレビのある第1方向を自動検出したが、予めユーザがテレビの方向に向けてロボット1を設置する方式でもよい。この場合、カメラC及びテレビ位置検出部11が不要となるため、さらに安価な構成となる。
本実施形態では、ロボット1は、つぶやき文をテレビに向かって発話することとしたが、ユーザに向けて発話してもよいし、テレビの方向とユーザの方向とを混在させて、例えばランダムに方向を選択して発話してもよい。
本実施形態では、主に制御装置10の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、ロボット1を制御するための方法、又はプログラムとして構成されてもよい。
さらに、制御装置10の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 ロボット
10 制御装置
11 テレビ位置検出部(第1方向検出部)
12 音源定位・分離部(第2方向検出部)
13 音声認識部
14 テレビ情報取得部(情報取得部)
15 発話生成部
16 音声合成部
17 モータ角度制御部(方向制御部)
18 テレビ制御部
C カメラ
L 赤外線発光器
M マイクロホンアレイ
N ネットワークインタフェース
P スピーカ
R 制御基板
S モータ
T 回転テーブル
U ぬいぐるみ等
V テレビ情報提供サーバ

Claims (7)

  1. ユーザがコミュニケーションの相手として選択した物体を載せるための回転テーブルと、
    制御装置と、を備え、
    前記制御装置は、
    番組情報を取得する情報取得部と、
    前記番組情報、及び発話用辞書に登録されているテンプレートに基づく発話文を生成する発話生成部と、
    前記回転テーブル回転角度を制御することにより、前記コミュニケーションの相手の向きを制御する方向制御部と、
    前記発話文を音声に変換する音声合成部と、を備え、
    前記発話生成部は、前記発話文の特徴により、当該発話文が人へ話し掛ける文であるか否かを判定し、判定結果に応じて前記方向制御部に対して、テレビが位置する第1方向、又はユーザが位置する第2方向のいずれかを指示するロボット
  2. 前記制御装置は、カメラ画像に基づいて、前記第1方向を検出する第1方向検出部を備える請求項1に記載のロボット
  3. 前記制御装置は、複数のマイクに入力された音声のうち、前記テレビの方向からの音声を除くことにより、前記第2方向を検出する第2方向検出部を備える請求項2に記載のロボット
  4. 前記発話生成部は、前記番組情報としての字幕データのうち、出現頻度に基づく番組関連度の指標が所定以上の単語に基づいて、前記発話文を生成する請求項1から請求項3のいずれかに記載のロボット
  5. 前記発話生成部は、前記番組情報に基づいて、前記発話用辞書を更新する請求項1から請求項4のいずれかに記載のロボット
  6. 前記発話生成部は、前記テンプレートに予め付与されている区分に基づいて、前記発話文が人へ話し掛ける文であるか否かを判定する請求項1から請求項5のいずれかに記載のロボット
  7. 前記発話生成部は、前記発話文の文末が特定の文字列であるか否かにより、前記発話文が人へ話し掛ける文であるか否かを判定する請求項1から請求項5のいずれかに記載のロボット
JP2017084412A 2017-04-21 2017-04-21 ロボット Active JP6889597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017084412A JP6889597B2 (ja) 2017-04-21 2017-04-21 ロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017084412A JP6889597B2 (ja) 2017-04-21 2017-04-21 ロボット

Publications (2)

Publication Number Publication Date
JP2018180472A JP2018180472A (ja) 2018-11-15
JP6889597B2 true JP6889597B2 (ja) 2021-06-18

Family

ID=64276674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017084412A Active JP6889597B2 (ja) 2017-04-21 2017-04-21 ロボット

Country Status (1)

Country Link
JP (1) JP6889597B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7051728B2 (ja) * 2019-01-25 2022-04-11 Necパーソナルコンピュータ株式会社 対話型ロボット及びその制御装置
JP7407560B2 (ja) * 2019-10-30 2024-01-04 日本放送協会 キーワード評価装置、キーワード評価方法及びキーワード評価プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07302351A (ja) * 1994-05-09 1995-11-14 Canon Inc 画像・音声応答装置及び画像・音声応答方法
KR100454137B1 (ko) * 2001-04-12 2004-10-26 조인형 인터넷을 기반으로 하는 모니터 탑형 시뮬레이션학습시스템 및 학습방법
JP2004056226A (ja) * 2002-07-16 2004-02-19 Sanyo Electric Co Ltd ディジタル放送受信装置
JP2006042061A (ja) * 2004-07-28 2006-02-09 Toshiba Corp 放送受信装置、番組情報音声出力プログラム
JP2007160473A (ja) * 2005-12-15 2007-06-28 Fujitsu Ltd ロボットにおける対話相手識別方法およびロボット
JP4906552B2 (ja) * 2007-03-20 2012-03-28 日本放送協会 メタ情報付加装置及びメタ情報付加プログラム
JP5595112B2 (ja) * 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
JP6122792B2 (ja) * 2014-02-06 2017-04-26 日本電信電話株式会社 ロボット制御装置、ロボット制御方法及びロボット制御プログラム

Also Published As

Publication number Publication date
JP2018180472A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
JP7234926B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
US10276164B2 (en) Multi-speaker speech recognition correction system
US10614203B2 (en) Robot-human interactive device which performs control for authenticating a user, robot, interaction method, and recording medium storing program
US9251142B2 (en) Mobile speech-to-speech interpretation system
US20230045237A1 (en) Wearable apparatus for active substitution
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
JP6122792B2 (ja) ロボット制御装置、ロボット制御方法及びロボット制御プログラム
JP3670180B2 (ja) 補聴器
CN111541904A (zh) 直播过程中的信息提示方法、装置、设备及存储介质
JP4622384B2 (ja) ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム
JP2020181022A (ja) 会議支援装置、会議支援システム、および会議支援プログラム
JP6889597B2 (ja) ロボット
US20210383722A1 (en) Haptic and visual communication system for the hearing impaired
US11687317B2 (en) Wearable computing device audio interface
US20200294421A1 (en) Haptic and visual communication system for the hearing impaired
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
US20240119930A1 (en) Artificial intelligence device and operating method thereof
JP2016009133A (ja) 言語リハビリテーション支援装置及びその制御方法
JP7352491B2 (ja) ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
US20230386491A1 (en) Artificial intelligence device
JP7015711B2 (ja) 装置、ロボット、方法、及びプログラム
WO2023027998A1 (en) Haptic and visual communication system for the hearing impaired
KR20230067501A (ko) 음성 합성 장치 및 그의 음성 합성 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210521

R150 Certificate of patent or registration of utility model

Ref document number: 6889597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250