JP6810641B2

JP6810641B2 - 命令実行装置、サーバ、命令実行システム、命令実行方法、及び命令実行プログラム

Info

Publication number: JP6810641B2
Application number: JP2017048586A
Authority: JP
Inventors: 長谷川　進; 進長谷川
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2021-01-06
Anticipated expiration: 2037-03-14
Also published as: JP2018151554A

Description

本発明は命令実行装置、サーバ、命令実行システム、命令実行方法、及び命令実行プログラムに関する。

特許文献１には、音声認識結果を評価する音声認識システムが開示されている。上記音声認識システムは、データ項目ごとに音声認識結果の評価値を設定し、評価値が高い音声認識結果を選択する。また、上記音声認識システムは、話者の優先順位が最も高い話者の音声に係る音声認識結果を選択してもよく、発声の順序に応じて優先順位を定めてもよい。

特開２００６−２５９１６４号公報（２００６年９月２８日公開）

特許文献１に開示されている音声認識システムでは、データ項目ごとに設定されている評価値、話者の優先順位、及び発声の順序によって音声認識結果が選択される。このため、上記音声認識システムでは、複数の話者が同時に命令を発話したとき、話者の命令がどれだけ必要性が高いものかを考慮することができないという問題がある。

本発明の一態様は、複数の話者が発話した命令を認識し、複数の話者それぞれからの命令の優先度を判定することにより、最も優先度の高い命令を実行することを目的とする。

上記の課題を解決するために、本発明の一態様に係る命令実行装置は、複数の話者それぞれが発話した命令の発話音声を取得する音声取得部と、前記音声取得部によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与部と、前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与部と、最も高い前記優先度が付与された命令を実行する命令実行部と、を備える。

また、本発明の一態様に係るサーバは、外部機器によって取得された、複数の話者それぞれが発話した命令の発話音声の音声データを受信する受信部と、前記音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与するサーバ得点付与部と、各命令の前記得点の合計値を算出し、前記合計値の高い順に定めた優先度を各命令に付与するサーバ優先度付与部と、前記サーバ優先度付与部によって付与された前記優先度を前記外部機器に送信する送信部と、を備える。

さらに、本発明の一態様に係る命令実行方法は、話者が発話した命令を実行する命令実行装置における命令実行方法であって、複数の話者それぞれが発話した命令の発話音声を取得する音声取得工程と、前記音声取得工程によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与工程と、前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与工程と、最も高い前記優先度が付与された命令を実行する命令実行工程と、を備える。

本発明の一態様によれば、複数の話者が発話した命令を認識し、複数の話者それぞれからの命令の優先度を判定することにより、最も優先度の高い命令を実行することができるという効果を奏する。

本発明の実施形態１に係る命令実行システムの構成を示すブロック図である。上記命令実行システムによる処理の手順を示すフローチャートである。上記命令実行システムによる命令の優先度を付与する処理の手順を示すフローチャートである。上記命令実行システムによる処理の具体例の概要を示す図である。（ａ）は、複数の話者がロボットに対して発話する様子を示した図であり、（ｂ）は、ロボットが実行の内容を発話する様子を示した図である。本発明の実施形態２に係る命令実行システムの構成を示すブロック図である。命令実行装置がソフトウェアによって実現される場合において、命令実行システムの構成を示すブロック図である。

〔実施形態１〕
以下、本発明の実施の形態について、図１〜図４に基づいて説明すれば、以下の通りである。図１は、本発明の実施形態１に係る命令実行システム１の構成を示すブロック図である。

（命令実行システム１の構成）
命令実行システム１は、図１に示すように、ロボット１０（外部機器）及びサーバ２０を備えている。ロボット１０は、命令実行装置１００、音声入力部１１０、発話部１３５、通信部１４５、及び顔画像撮像部１５０を備えている。命令実行装置１００は、音声取得部１１５、音声分離部１２０、命令優先度付与部１２５、発話制御部１３０、及び命令実行部１４０を備えている。

命令実行装置１００は、話者による命令を実行することができる。命令実行装置１００は、話者からの発話音声の特徴点である発話音声特徴点、及び話者からの命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する。発話音声特徴点とは、後述する話者の音声の音量の差分、話者の音声による音の高さの差分、及び話者の音声の抑揚の少なくとも１つである。また、命令内容特徴点とは、後述する特定のキーワード及び同じ意味の命令の数の少なくとも１つである。

ロボット１０は、会話をすることができるロボットである。また、ロボット１０は、家電機器等の電子機器を遠隔操作するロボットであり、複数の話者から音声命令を受け取ったとき、どの命令を実行するかを判定し、その結果を話者に提示する。

音声入力部１１０には、複数の話者それぞれが発話した命令の発話音声が入力される。音声入力部１１０は、発話音声の音声データを音声取得部１１５に供給する。音声入力部１１０は、例えば、複数の話者が発話した音声を入力するための、少なくとも２つ以上のマイクから構成されるマイクアレイである。マイクは、全方位からの音声を入力することができるように、ロボット１０の頭部に複数設けられている。例えば、マイクは、ロボット１０の頭部の全周囲に設けられていてもよい。

音声取得部１１５は、音声入力部１１０から供給された発話音声の音声データを取得する。音声取得部１１５は、取得したアナログの発話音声をデジタルの音声データに変換し、この音声データを音声分離部１２０に供給する。

音声分離部１２０は、音声取得部１１５から供給された発話音声の音声データを、話者ごとの発話音声の音声データに分離する。具体的には、音声分離部１２０は、音声取得部１１５から供給された音声データの音声の指向性を検出し、方向が異なる音声を異なる話者の発話音声として分離する。音声データを分離する方法は、前述した特許文献１にも記載されている。

命令優先度付与部１２５は、音量差分算出部１２５ａ、高低差分算出部１２５ｂ、抑揚算出部１２５ｃ、命令認識部１２５ｄ、キーワードカウント部１２５ｅ、命令カウント部１２５ｆ、記憶部１２５ｇ、得点付与部１２５ｈ、及び優先度付与部１２５ｉを備えている。

音量差分算出部１２５ａ、高低差分算出部１２５ｂ、及び抑揚算出部１２５ｃは、音声分離部１２０により分離された音声データと、サーバ２０のデータベース部２２０に格納されている平常時の話者の音声データとを参照する。平常時の話者の音声データとは、データベース部２２０に予め記録されている、声の大きさ及び声の高さの情報（複数人数分の情報）である。ロボット１０を使用する話者は、使用開始時の初期設定を行うために、予め平常時の音声（特定の語句を含む定型文など）をロボット１０に発話する。ロボット１０は初期設定として、入力された音声から、声の大きさ及び声の高さの情報（複数人数分の情報）を認識し、それらの情報をサーバ２０のデータベース部２２０に記憶する。

音量差分算出部１２５ａは、話者ごとに、音声分離部１２０により分離された音声データの音量の大きさと、平常時の話者の音声データの音量の大きさとの差分を算出する。音量の大きさとは、音声データの開始から終了までの間の音量の大きさの平均値である。

高低差分算出部１２５ｂは、話者ごとに、音声分離部１２０により分離された音声データの音の高さと、平常時の話者の音声データの音の高さとの差分を算出する。音の高さとは、音声データの開始から終了までの間の音の高さの平均値である。

抑揚算出部１２５ｃは、話者ごとに、音声分離部１２０により分離された音声データの抑揚を算出する。具体的には、抑揚算出部１２５ｃは、音声分離部１２０により分離された音声データにおいて、下記の（１）〜（５）の処理を行う。

（１）抑揚算出部１２５ｃは、１つの音声データの開始から終了までの間を、所定の時間閾値ごとに複数の区間に分割する。（２）抑揚算出部１２５ｃは、区間ごとに、声の音量の最大値と最小値との差分を算出し、その差分が所定の音量差分閾値より大きい区間の数をカウントする。（３）抑揚算出部１２５ｃは、区間ごとに、声の高さの最大値と最小値との差分を算出し、その差分が所定の高低差分閾値より大きい区間の数をカウントする。（４）抑揚算出部１２５ｃは、区間ごとに、単語数をカウントし、隣接する区間の単語数の差分が速度差分閾値より大きいか否かを判定する。抑揚算出部１２５ｃは、単語数の差分が速度差分閾値より大きい、隣接する区間の境界の数をカウントする。（５）抑揚算出部１２５ｃは、音声分離部１２０により分離された音声データ、及び平常時の話者の音声データにおいて、上記の（２）〜（４）の処理にてカウントされた数を合計する。

このように、抑揚算出部１２５ｃは、話者ごとに、声の抑揚をカウントされた各種の値によって数値化する。声の抑揚とは、声の大小、声の高低、及び発話のスピードの変化の大きさである。

命令認識部１２５ｄは、音声分離部１２０により分離された音声データから、話者ごとの命令の内容を認識する。

キーワードカウント部１２５ｅは、命令認識部１２５ｄが認識した命令の内容に、特定のキーワードが含まれているか否かを判定する。命令の内容に特定のキーワードが含まれている場合、キーワードカウント部１２５ｅは、特定のキーワードの数をカウントする。特定のキーワードには、例えば、「お願い」、「やって」、「してよ」、「ロボットの愛称」、及び「他者の命令を否定する言葉」などが挙げられる。

命令カウント部１２５ｆは、所定時間内において、命令認識部１２５ｄが認識した命令の内容に含まれている同じ意味の命令の数（同じ命令の繰り返しの回数）をカウントする。

記憶部１２５ｇは、複数の話者Ｓ１〜Ｓｎが発話したそれぞれの命令ＣＯＭ１〜命令ＣＯＭｎについての発話音声特徴点及び命令内容特徴点を、話者Ｓ１〜話者Ｓｎ即ち命令ＣＯＭ１〜命令ＣＯＭｎごとに管理する。例えば、話者が３人である場合、記憶部１２５ｇは、３人の話者の発話音声特徴点及び命令内容特徴点を話者Ｓ１〜話者Ｓ３ごとに管理する。記憶部１２５ｇは、命令ＣＯＭ１〜命令ＣＯＭｎの発話音声特徴点（音量差分、高低差分、及び抑揚）及び命令内容特徴点（キーワードカウント及び命令カウント）の情報を格納している。音量差分の情報は、音量差分算出部１２５ａが算出した音量の差分の算出結果である。高低差分の情報は、高低差分算出部１２５ｂが算出した音の高さの差分の算出結果である。抑揚の情報は、抑揚算出部１２５ｃにより、前述した（１）〜（５）の処理にて算出されたカウント数の情報である。キーワードカウントの情報は、キーワードカウント部１２５ｅがカウントした特定のキーワードの数の情報である。命令カウントの情報は、命令カウント部１２５ｆがカウントした同じ意味の命令の数の情報である。

記憶部１２５ｇは、優先度記憶部１２６を備えている。優先度記憶部１２６は、優先度付与部１２５ｉが付与した、命令ＣＯＭ１〜命令ＣＯＭｎの優先度の情報を、命令認識部１２５ｄによって認識された、命令ＣＯＭ１〜命令ＣＯＭｎのデータと対応付けて格納している。

得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎの音量差分、高低差分、抑揚、キーワードカウント、及び命令カウントの情報により、命令ＣＯＭ１〜命令ＣＯＭｎに得点を付与する。

優先度付与部１２５ｉは、得点付与部１２５ｈにより付与された得点を、命令ＣＯＭ１〜命令ＣＯＭｎごとに合計する。優先度付与部１２５ｉは、得点の合計に基づいて、命令ＣＯＭ１〜命令ＣＯＭｎごとに優先度を付与する。この優先度は、話者がどれくらい困っているか、話者がどれくらい逼迫しているかを示すものである。優先度付与部１２５ｉは、得点の合計が多いほど高い優先度を付与する。

発話制御部１３０は発話部１３５を制御して、発話部１３５に音声を出力させる。また、発話制御部１３０は、優先度記憶部１２６を参照して、最も高い優先度が付与された命令の内容を、発話部１３５に発話させる。発話部１３５は、発話制御部１３０により制御されることで、ロボット１０の外部に音声を出力する。

命令実行部１４０は、発話制御部１３０から命令実行コマンドを受け取ると、通信部１４５を介して、操作対象機器３０に命令実行コマンドを供給する。

通信部１４５は、ロボット１０がサーバ２０及び操作対象機器３０と通信するためのものであり、サーバ２０のサーバ通信部２１０（受信部、送信部）及び操作対象機器３０と通信を行う。

顔画像撮像部１５０は、話者の撮影を行うカメラである。顔画像認識部１５５は、顔画像撮像部１５０が撮影した画像により、話者の顔画像を認識する。判定部１６０は、顔画像認識部１５５が認識した、話者の顔画像の解析を行うことで、話者の推定年齢及び性別を判定する。

サーバ２０は、サーバ通信部２１０及びデータベース部２２０を備えている。サーバ２０は、ロボット１０から受信した、複数の話者情報を格納する。

サーバ通信部２１０は、サーバ２０がロボット１０と通信を行うためのものであり、ロボット１０の通信部１４５と通信を行う。

データベース部２２０は、ロボット１０が認識した話者情報を格納している。話者情報とは、例えば、声の大きさ、声の高さ、推定年齢、及び性別などである。データベース部２２０には、複数の話者において、これらの情報が格納されている。

操作対象機器３０は、家電機器等の電子機器であり、例えば、エアコンなどが挙げられる。

（命令実行システム１による処理の手順）
次に、命令実行システム１による処理の手順（命令実行方法）を図２〜図４に基づいて説明する。図２は、命令実行システム１による処理の手順を示すフローチャートである。図３は、命令実行システム１による命令の優先度を付与する処理の手順を示すフローチャートである。図４は、命令実行システム１による処理の具体例の概要を示す図である。図４の（ａ）は、複数の話者がロボット１０に対して発話する様子を示した図であり、図４の（ｂ）は、ロボット１０が実行の内容を発話する様子を示した図である。

まず、複数の話者がロボット１０に対して同時に音声命令を出すと、音声取得部１１５は、音声入力部１１０から供給された発話音声を取得する（Ｓ１１０：音声取得工程）。音声取得部１１５は、取得した発話音声を音声データに変換し、その音声データを音声分離部１２０に供給する。

音声分離部１２０は、音声取得部１１５から供給された音声データに基づいて、話者ごとの音声になるように、音声を分離する（Ｓ１１５）。例えば、図４の（ａ）に示すような具体例を考える。図４では、操作対象機器３０がエアコンである場合を示している。話者Ｓ１〜話者Ｓ３は、ロボット１０に対して同時に音声命令（それぞれ内容は異なる）を出す。話者Ｓ１は「２６度の冷房がいいかなあ。」と発話し、話者Ｓ２は「除湿にして。湿度は５０％で。」と発話し、話者Ｓ３は「お願い！絶対冷房にして！２４度！お願い！絶対冷房にして！２４度！」と発話する。音声分離部１２０には、話者Ｓ１〜話者Ｓ３の音声が混ざった状態で、音声データが供給される。音声分離部１２０は、話者Ｓ１〜Ｓ３の混ざった状態の音声を、話者Ｓ１の音声、話者Ｓ２の音声、及び話者Ｓ３の音声に分離する。音声分離部１２０は、分離した音声を、音量差分算出部１２５ａ、高低差分算出部１２５ｂ、及び抑揚算出部１２５ｃに供給する。

音量差分算出部１２５ａは、音声分離部１２０から供給された音声と、データベース部２２０から平常時の話者の音声の音量を参照して、音声の音量の差分を算出する（Ｓ１２０）。具体的には、音量差分算出部１２５ａは、通信部１４５及びサーバ通信部２１０を介して、データベース部２２０に格納されている、平常時の話者の音声の音量を参照する。音量差分算出部１２５ａは、音声分離部１２０から供給された音声の音量と、データベース部２２０から参照した平常時の話者の音声の音量（標準値）との差分（第１差分）を算出する。

また、発話した話者が、データベース部２２０に記録されていない話者である場合を考える。この場合、音量差分算出部１２５ａは、データベース部２２０に記録されている、複数の話者による音声の音量を参照し、その音量の平均を算出する。その後、音量差分算出部１２５ａは、音声分離部１２０から供給された音声の音量と、その平均との差分を算出する。

音量差分算出部１２５ａは、ロボット１０に発話した複数の話者による音声に対して差分の算出を行う。音量差分算出部１２５ａは、算出した音量の差分のデータを記憶部１２５ｇに書き込む。記憶部１２５ｇは、音量差分算出部１２５ａが算出した音量の差分のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの音量差分として格納する。

また、高低差分算出部１２５ｂは、音声分離部１２０から供給された音声と、データベース部２２０から平常時の話者の音声の音の高さを参照して、音声の高低の差分を算出する（Ｓ１２５）。具体的には、高低差分算出部１２５ｂは、通信部１４５及びサーバ通信部２１０を介して、データベース部２２０に格納されている、平常時の話者の音声の音の高さを参照する。高低差分算出部１２５ｂは、音声分離部１２０から供給された音声の音の高さと、データベース部２２０から参照した平常時の話者の音声の音の高さ（標準値）との差分（第２差分）を算出する。

また、発話した話者が、データベース部２２０に記録されていない話者である場合を考える。この場合、高低差分算出部１２５ｂは、データベース部２２０に記録されている、複数の話者による音声の音の高さを参照し、その高さの平均を算出する。その後、高低差分算出部１２５ｂは、音声分離部１２０から供給された音声の音量と、その平均との差分を算出する。

高低差分算出部１２５ｂは、ロボット１０に発話した複数の話者による音声に対して差分の算出を行う。高低差分算出部１２５ｂは、算出した音の高さの差分のデータを記憶部１２５ｇに書き込む。記憶部１２５ｇは、高低差分算出部１２５ｂが算出した声の高さの差分のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの高低差分として格納する。

さらに、抑揚算出部１２５ｃは、音声分離部１２０から供給された音声から、音声の抑揚を算出する（Ｓ１３０）。具体的に以下に説明する。抑揚算出部１２５ｃは、前述した（１）〜（５）の処理にて算出したカウント数を記憶部１２５ｇに書き込む。抑揚算出部１２５ｃは、複数の話者による音声に対して音声の抑揚の算出を行う。記憶部１２５ｇは、抑揚算出部１２５ｃが算出した音声の抑揚のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの抑揚として格納する。

一方、命令認識部１２５ｄは、音声分離部１２０から供給された音声に基づいて、話者の命令内容を認識する（Ｓ１３５）。命令認識部１２５ｄは、認識した、話者の命令内容の情報を、キーワードカウント部１２５ｅ及び命令カウント部１２５ｆに供給する。

また、キーワードカウント部１２５ｅは、特定のキーワードの数をカウントする（Ｓ１４０）。具体的には、キーワードカウント部１２５ｅは、命令認識部１２５ｄが認識した命令の内容に、特定のキーワードが含まれているか否かを判定する。命令の内容に特定のキーワードが含まれている場合、キーワードカウント部１２５ｅは、複数の話者による音声に対して特定のキーワードの数のカウントを行う。キーワードカウント部１２５ｅは、カウントしたカウント数のデータを記憶部１２５ｇに書き込む。記憶部１２５ｇは、キーワードカウント部１２５ｅがカウントしたカウント数のデータを、命令ＣＯＭ１〜命令ＣＯＭｎのキーワードカウントとして格納する。

さらに、命令カウント部１２５ｆは、同じ意味の命令の数をカウントする（Ｓ１４５）。具体的には、命令カウント部１２５ｆは、所定時間内において、命令認識部１２５ｄが認識した命令の内容に含まれている同じ意味の命令の数（同じ命令の繰り返しの回数）をカウントする。命令カウント部１２５ｆは、複数の話者による音声に対して同じ意味の命令の数のカウントを行う。命令カウント部１２５ｆは、カウントした同じ意味の命令の数のデータを記憶部１２５ｇに書き込む。記憶部１２５ｇは、命令カウント部１２５ｆがカウントした同じ意味の命令の数のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの命令カウントとして格納する。

次に、命令優先度付与部１２５は、命令の優先度を付与する（Ｓ１５０）。命令優先度付与部１２５は、音声の音量の差分、音声の高低の差分、音声の抑揚、特定のキーワードの数、及び同じ意味の命令の数に基づいて、各命令に優先度を付与する。命令優先度付与処理の詳細については後述する。命令優先度付与処理の最後では、優先度付与部１２５ｉは、命令ＣＯＭ１〜命令ＣＯＭｎの優先度の情報を優先度記憶部１２６に格納する。

各命令の優先度の情報が優先度記憶部１２６に格納されると、発話部１３５は、最も優先度が高い命令を発話する（Ｓ１５５）。具体的には、各命令の優先度の情報が優先度記憶部１２６に格納されると、発話制御部１３０は、優先度記憶部１２６に格納されている、各命令の優先度の情報を参照する。発話制御部１３０は、その優先度の情報から最も優先度が高い命令を判断し、発話部１３５に最も優先度が高い命令を発話させる。例えば、図４の（ｂ）に示すように、話者Ｓ３の命令の優先度は最も高いため、ロボット１０が音声命令をそのまま発話する場合、ロボット１０は「『お願い！絶対冷房にして！２４度！』を実行するよ。」と発話する。ロボット１０がリモコン操作に関する言葉のみを発話する場合、「エアコンの温度を２４度にするよ。」と発話する。

発話部１３５が、最も優先度が高い命令を発話した後、発話制御部１３０は、発話した命令に対して了承するか否かの返答を話者に求める（Ｓ１６０）。具体的には、発話制御部１３０は、発話部１３５に最も優先度が高い命令を発話させた後、発話させた命令に対して了承するか否かの返答を求める内容を、発話部１３５に発話させる。このとき、ロボット１０の周囲にいる話者は、音声命令の了承、音声命令のキャンセル、及び次点の音声命令の読み上げのいずれかを回答する。ロボット１０は、話者からの返答内容を判定する。

話者が、ロボット１０が発話した命令に対して回答を行ったとき、命令認識部１２５ｄは、話者から命令が了承されたか否かを判定する（Ｓ１６５）。具体的には、話者からの発話内容が音声入力部１１０、音声取得部１１５、及び音声分離部１２０を介して、命令認識部１２５ｄに供給される。話者からの発話内容が命令の了承であれば、命令認識部１２５ｄは、発話制御部１３０に、命令実行部１４０に命令実行コマンドを供給するように指示する。発話制御部１３０は、命令認識部１２５ｄからその指示を受けると、命令実行部１４０に命令実行コマンドを供給する。

話者からの発話内容が命令の了承でなければ、命令認識部１２５ｄは、次点の命令の読み上げを指示されたか否かを判定する（Ｓ１７０）。具体的には、話者からの発話内容が、次点の命令の読み上げであれば、命令認識部１２５ｄは、発話制御部１３０に、次点の優先度の命令を発話するように指示する。発話制御部１３０は、命令認識部１２５ｄからその指示を受けると、優先度記憶部１２６から次点の優先度の情報を参照し、次点の優先度の命令を発話するように発話部１３５に指示する。話者からの発話内容が、命令のキャンセルであれば、ロボット１０は処理を中止する。

発話部１３５は、発話制御部１３０から次点の優先度の命令を発話するように指示を受けると、次点の優先度の命令を発話する（Ｓ１７５）。発話部１３５が次点の優先度の命令を発話した後、Ｓ１６０の処理に移る。

Ｓ１６５の処理の後、命令実行部１４０は、命令認識部１２５ｄから命令実行コマンドを受け取り、通信部１４５を介して操作対象機器３０に命令実行コマンドを送信する（Ｓ１８０：命令実行工程）。通信部１４５は、操作対象機器３０に対してＩＲ（ＩＲ：Infrared Ray）信号を送信する。

（命令優先度付与処理の手順）
Ｓ１５０の命令優先度付与処理について、図３に基づいて以下に詳細に説明する。Ｓ１５０の処理は、詳細には、図３に示すＳ１５０ａ〜Ｓ１５０ｇの処理である。

得点付与部１２５ｈは、音声の音量の差分を参照して得点を付与する（Ｓ１５０ａ）。具体的には、得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎの音量差分を参照して、命令ＣＯＭ１〜命令ＣＯＭｎに得点を付与する。得点付与部１２５ｈは、その差分が大きいほど多くの得点を付与する。つまり、得点付与部１２５ｈは、その差分のレベルに応じた得点を付与する。得点付与部１２５ｈは、記憶部１２５ｇから、音量差分算出部１２５ａが算出した音量差分の算出結果を参照する。得点付与部１２５ｈは、命令ＣＯＭ１〜命令ＣＯＭｎの得点の情報を、優先度付与部１２５ｉに供給する。

得点付与部１２５ｈは、音声の高低の差分を参照して得点を付与する（Ｓ１５０ｂ）。具体的には、得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎの高低差分を参照して、命令ＣＯＭ１〜命令ＣＯＭｎに得点を付与する。得点付与部１２５ｈは、その差分が大きいほど多くの得点を付与する。つまり、得点付与部１２５ｈは、その差分のレベルに応じた得点を付与する。得点付与部１２５ｈは、記憶部１２５ｇから、高低差分算出部１２５ｂが算出した音量差分の算出結果を参照する。得点付与部１２５ｈは、命令ＣＯＭ１〜命令ＣＯＭｎの得点の情報を、優先度付与部１２５ｉに供給する。

得点付与部１２５ｈは、音声の抑揚を参照して得点を付与する（Ｓ１５０ｃ）。具体的には、得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎの抑揚を参照して、命令ＣＯＭ１〜命令ＣＯＭｎに得点を付与する。得点付与部１２５ｈは、その抑揚が大きいほど多くの得点を付与する。つまり、得点付与部１２５ｈは、その抑揚のレベルに応じた得点を付与する。得点付与部１２５ｈは、記憶部１２５ｇから、抑揚算出部１２５ｃが算出した抑揚の算出結果を参照する。得点付与部１２５ｈは、命令ＣＯＭ１〜命令ＣＯＭｎの得点の情報を、優先度付与部１２５ｉに供給する。

得点付与部１２５ｈは、命令に含まれている特定のキーワードの数を参照して得点を付与する（Ｓ１５０ｄ）。具体的には、得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎのキーワードカウントを参照して、命令ＣＯＭ１〜命令ＣＯＭｎの命令に得点を付与する。得点付与部１２５ｈは、そのカウント数が多いほど多くの得点を付与する。つまり、得点付与部１２５ｈは、そのカウント数のレベルに応じた得点を付与する。例えば、図４の（ａ）に示すように、話者Ｓ３の発話内容には、前述した特定のキーワード「お願い」が含まれているため、話者Ｓ３の命令には、加点される。話者Ｓ１及び話者Ｓ２の発話内容には、前述した特定のキーワードが含まれていないため、話者Ｓ１及び話者Ｓ２の命令には加点されない。得点付与部１２５ｈは、記憶部１２５ｇから、キーワードカウント部１２５ｅがカウントしたキーワードカウントのカウント結果を参照する。得点付与部１２５ｈは、命令ＣＯＭ１〜命令ＣＯＭｎの得点の情報を、優先度付与部１２５ｉに供給する。

得点付与部１２５ｈは、命令に含まれている同じ意味の命令の数を参照して得点を付与する（Ｓ１５０ｅ）。具体的には、得点付与部１２５ｈは、記憶部１２５ｇに格納されている、命令ＣＯＭ１〜命令ＣＯＭｎの命令カウントを参照して、命令ＣＯＭ１〜命令ＣＯＭｎの命令に得点を付与する。得点付与部１２５ｈは、そのカウント数が多いほど多くの得点を付与する。つまり、得点付与部１２５ｈは、そのカウント数のレベルに応じた得点を付与する。例えば、図４の（ａ）に示すように、話者Ｓ３の発話内容には、同じ意味の命令「お願い」、「絶対冷房にして」、及び「２４度」が含まれているため、話者Ｓ３の命令には、加点される。話者Ｓ１及び話者Ｓ２の発話内容には、同じ意味の命令が含まれていないため、話者Ｓ１及び話者Ｓ２の命令には加点されない。得点付与部１２５ｈは、記憶部１２５ｇから、命令カウント部１２５ｆがカウントした命令カウントのカウント結果を参照する。得点付与部１２５ｈは、命令ＣＯＭ１〜命令ＣＯＭｎの得点の情報を、優先度付与部１２５ｉに供給する。

優先度付与部１２５ｉは、得点付与部１２５ｈから供給された、音量差分、高低差分、抑揚、キーワードカウント、及び命令カウントに応じた得点の合計値を算出し、各命令に合計得点を付与する（Ｓ１５０ｆ：得点付与工程）。つまり、優先度付与部１２５ｉは、命令ＣＯＭ１〜命令ＣＯＭｎごとに得点を合計し、命令ＣＯＭ１〜命令ＣＯＭｎそれぞれに合計得点を付与する。

優先度付与部１２５ｉは、各命令の合計得点の情報に基づいて、話者の命令ごとに優先度を付与する（Ｓ１５０ｇ：優先度付与工程）。優先度付与部１２５ｉは、合計得点の高い順に定めた優先度を付与する。ここで、図４に示すように、話者Ｓ３の命令は、話者Ｓ１及び話者Ｓ２の命令と比べて、得点の合計が多いとする。優先度付与部１２５ｉは、最も得点の合計が多い話者Ｓ３の命令の優先度を最も高くする。優先度付与部１２５ｉは、命令ＣＯＭ１〜命令ＣＯＭｎの優先度の情報を優先度記憶部１２６に格納する。

以上により、命令実行装置１００は、複数の話者が発話した命令の発話音声を取得し、命令ごとに得点の合計値を算出して優先度を付与し、最も高い優先度が付与された命令を実行する。これにより、命令実行装置１００は、複数の話者が発話した命令を認識し、複数の話者それぞれからの命令の優先度を判定することにより、最も優先度の高い命令を実行することができる。

また、命令実行装置１００は、声の大きさの標準値に対する第１差分、声の高さの標準値に対する第２差分、及び声の抑揚の少なくとも１つのレベルに応じた得点を各命令に付与する。また、命令実行装置１００は、特定のキーワード及び同じ意味の命令の数の少なくとも１つのレベルに応じた得点を各命令に付与する。これにより、命令実行装置１００は、複数の話者からの命令の優先度を詳細に判定することができる。

〔実施形態２〕
本発明の他の実施形態について、図２に基づいて説明すれば、以下の通りである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

前述した、Ｓ１２０の処理において、音量差分算出部１２５ａが音量の平均を算出する前に、顔画像撮像部１５０は、話者を撮影する。顔画像撮像部１５０は、撮影した話者の画像を、顔画像認識部１５５に供給する。顔画像認識部１５５は、顔画像撮像部１５０から供給された話者の画像に基づいて話者の顔画像を認識する。顔画像認識部１５５は、認識した話者の顔画像を判定部１６０に供給する。

判定部１６０は、顔画像認識部１５５から供給された話者の顔画像に基づいて、話者の推定年齢及び性別を判定する。判定部１６０は、判定した話者の推定年齢及び性別の情報を、通信部１４５及びサーバ通信部２１０を介して、データベース部２２０に格納する。

前述したように、音量差分算出部１２５ａは、データベース部２２０に記録されている、複数の話者の音声の音量を参照し、その音量の平均を算出する。このとき、音量差分算出部１２５ａは、通信部１４５及びサーバ通信部２１０を介してデータベース部２２０を参照することで、判定部１６０によりデータベース部２２０に格納された、話者の推定年齢及び性別の情報を認識する。音量差分算出部１２５ａは、データベース部２２０に格納されている複数の話者情報の中から、判定部１６０により判定された話者の推定年齢及び性別に限定して、話者の音声の音量の平均を算出する。つまり、音量差分算出部１２５ａは、複数の話者情報の中から、ロボット１０に発話した話者の推定年齢及び性別と同一である話者の音声の音量の平均を算出する。

また、前述したように、高低差分算出部１２５ｂは、複数の話者の音声の音の高さを参照し、その高さの平均を算出する。このとき、高低差分算出部１２５ｂは、通信部１４５及びサーバ通信部２１０を介してデータベース部２２０を参照することで、判定部１６０によりデータベース部２２０に格納された、話者の推定年齢及び性別の情報を認識する。高低差分算出部１２５ｂは、データベース部２２０に格納されている複数の話者情報の中から、判定部１６０により判定された話者の推定年齢及び性別に限定して、話者による音声の音の高さの平均を算出する。つまり、高低差分算出部１２５ｂは、複数の話者情報の中から、ロボット１０に発話した話者の推定年齢及び性別と同一である話者による音声の音の高さの平均を算出する。

以上により、命令実行装置１００は、複数の話者それぞれの性別及び年齢を判定し、判定した性別及び年齢に限定して、予め記録された複数の話者情報から声の大きさ及び声の高さの少なくとも１つの平均を算出する。そして、命令実行装置１００はこれらの平均を、声の大きさの標準値及び声の高さの標準値とする。これにより、声の大きさの標準値及び声の高さの標準値が、判定部によって判定された複数の話者それぞれの性別及び年齢に限定して算出されるため、より詳細に算出されたものになる。

〔実施形態３〕
本発明の他の実施形態について、図５に基づいて説明すれば、以下の通りである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。図５は、本発明の実施形態２に係る命令実行システム２の構成を示すブロック図である。

（命令実行システム２の構成）
命令実行システム２は、図５に示すように、ロボット１１及びサーバ２１を備えている。

ロボット１１は、ロボット１０と比べて、命令優先度付与部１２５を備えていない点が異なる。また、サーバ２１は、サーバ２０と比べて、命令優先度付与部２３０を備えている点が異なる。つまり、命令実行システム１では、ロボット１０が命令優先度付与部１２５を備えているのに対し、命令実行システム２では、サーバ２１が命令優先度付与部２３０を備えている。

命令優先度付与部２３０は、音量差分算出部２３０ａ、高低差分算出部２３０ｂ、抑揚算出部２３０ｃ、命令認識部２３０ｄ、キーワードカウント部２３０ｅ、命令カウント部２３０ｆ、記憶部２３０ｇ、得点付与部２３０ｈ（サーバ得点付与部）、及び優先度付与部２３０ｉ（サーバ優先度付与部）を備えている。

音量差分算出部２３０ａ、高低差分算出部２３０ｂ、抑揚算出部２３０ｃ、命令認識部２３０ｄ、キーワードカウント部２３０ｅ、命令カウント部２３０ｆ、記憶部２３０ｇ、得点付与部２３０ｈ、及び優先度付与部２３０ｉはそれぞれ、音量差分算出部１２５ａ、高低差分算出部１２５ｂ、抑揚算出部１２５ｃ、命令認識部１２５ｄ、キーワードカウント部１２５ｅ、命令カウント部１２５ｆ、記憶部１２５ｇ、得点付与部１２５ｈ、及び優先度付与部１２５ｉと同一である。

（命令実行システム２による処理の手順）
命令実行システム２は、命令実行システム１と比べて、Ｓ１１０及びＳ１１５の処理は同一である。また、Ｓ１２０〜Ｓ１８０の処理について、命令実行システム２による処理の手順は、図２及び図３のフローチャート図で示されている手順と同様であるが、データのやり取りにおいて一部が異なっている。よって、ここでは、命令実行システム２による処理の手順について、図２及び図３に基づいて、Ｓ１２０以降の処理を説明する。

Ｓ１１５の処理の後、音声分離部１２０は分離した音声を、通信部１４５及びサーバ通信部２１０を介して、音量差分算出部２３０ａ、高低差分算出部２３０ｂ、及び抑揚算出部２３０ｃに供給する。

音量差分算出部２３０ａは、音声分離部１２０から供給された音声と、データベース部２２０から平常時の話者の音声の音量を参照して、音声の音量の差分を算出する（Ｓ１２０）。具体的には、音量差分算出部２３０ａは、データベース部２２０から平常時の話者の音声の音量を参照する。音量差分算出部２３０ａが音量の差分を算出する処理は、音量差分算出部１２５ａが行う処理と同様である。音量差分算出部２３０ａは、算出した音量の差分のデータを記憶部２３０ｇに格納する。記憶部２３０ｇは、音量差分算出部２３０ａが算出した音量の差分のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの音量差分として格納する。

また、高低差分算出部２３０ｂは、音声分離部１２０から供給された音声と、データベース部２２０から平常時の話者の音声の高さを参照して、音声の高低の差分を算出する（Ｓ１２５）。具体的には、高低差分算出部２３０ｂは、データベース部２２０から平常時の話者の音声の高さを参照する。高低差分算出部２３０ｂが音声の高低の差分を算出する処理は、高低差分算出部１２５ｂが行う処理と同様である。高低差分算出部２３０ｂは、算出した音の高さの差分のデータを記憶部２３０ｇに格納する。記憶部２３０ｇは、高低差分算出部２３０ｂが算出した音の高さの差分のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの高低差分として格納する。

さらに、抑揚算出部２３０ｃは、音声分離部１２０から供給された音声から、音声の抑揚を算出する（Ｓ１３０）。抑揚算出部２３０ｃが音声の抑揚を算出する処理は、抑揚算出部１２５ｃが行う処理と同様である。抑揚算出部２３０ｃは、算出した音声の抑揚のデータを記憶部２３０ｇに格納する。記憶部２３０ｇは、抑揚算出部２３０ｃが算出した音声の抑揚のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの抑揚として格納する。

一方、命令認識部２３０ｄは、音声分離部１２０から供給された音声に基づいて、話者の命令内容を認識する（Ｓ１３５）。命令認識部２３０ｄは、認識した、話者の命令内容の情報を、キーワードカウント部２３０ｅ、命令カウント部２３０ｆに供給する。

また、キーワードカウント部２３０ｅは、特定のキーワードの数をカウントする（Ｓ１４０）。キーワードカウント部２３０ｅがカウントを行う処理は、キーワードカウント部１２５ｅが行う処理と同様である。キーワードカウント部２３０ｅは、カウントしたカウント数のデータを記憶部２３０ｇに格納する。記憶部２３０ｇは、キーワードカウント部２３０ｅがカウントしたカウント数のデータを、命令ＣＯＭ１〜命令ＣＯＭｎのキーワードカウントとして格納する。

さらに、命令カウント部２３０ｆは、同じ意味の命令の数をカウントする（Ｓ１４５）。命令カウント部２３０ｆがカウントを行う処理は、命令カウント部１２５ｆが行う処理と同様である。命令カウント部２３０ｆは、カウントした同じ意味の命令の数のデータを記憶部２３０ｇに格納する。記憶部２３０ｇは、命令カウント部２３０ｆがカウントした同じ意味の命令の数のデータを、命令ＣＯＭ１〜命令ＣＯＭｎの命令カウントとして格納する。

次に、命令優先度付与部２３０は、命令の優先度を付与する（Ｓ１５０）。命令優先度付与部２３０が命令の優先度を付与する処理は、命令優先度付与部１２５が行う処理と同様である。このため、命令優先度付与部２３０が行うＳ１５０ａ〜Ｓ１５０ｇの処理は、命令優先度付与部１２５が行う処理と同様である。

Ｓ１５０ｇの処理の後、各命令の優先度の情報が優先度記憶部２３１に格納されると、発話部１３５は、最も優先度が高い命令を発話する（Ｓ１５５）。具体的には、各命令の優先度の情報が優先度記憶部２３１に格納されると、発話制御部１３０は、通信部１４５及びサーバ通信部２１０を介して優先度記憶部２３１に格納されている、各命令の優先度の情報を参照する。発話制御部１３０は、その優先度の情報から最も優先度が高い命令を判断し、発話部１３５に最も優先度が高い命令を発話させる。

発話部１３５が、最も優先度が高い命令を発話した後、発話制御部１３０は、発話した命令に対して了承するか否かの返答を話者に求める（Ｓ１６０）。このとき、発話制御部１３０が行う処理は、命令実行システム１が行う処理と同様である。この処理が行われた後、ロボット１１の周囲にいる話者は、音声命令の了承、音声命令のキャンセル、及び次点の音声命令の読み上げのいずれかを回答する。ロボット１１は、話者からの返答内容を判定する。

話者が、ロボット１１が発話した命令に対して回答を行ったとき、命令認識部２３０ｄは、話者から命令が了承されたか否かを判定する（Ｓ１６５）。具体的には、話者からの発話内容が音声入力部１１０、音声取得部１１５、音声分離部１２０、通信部１４５、及びサーバ通信部２１０を介して、命令認識部２３０ｄに供給される。話者からの発話内容が命令の了承であれば、命令認識部２３０ｄは、通信部１４５及びサーバ通信部２１０を介して、発話制御部１３０に、命令実行部１４０に命令実行コマンドを供給するように指示する。発話制御部１３０は、命令認識部２３０ｄからその指示を受けると、命令実行部１４０に命令実行コマンドを供給する。

話者からの発話内容が命令の了承でなければ、命令認識部２３０ｄは、次点の命令の読み上げを指示されたか否かを判定する（Ｓ１７０）。具体的には、話者からの発話内容が、次点の命令の読み上げであれば、命令認識部２３０ｄは、通信部１４５及びサーバ通信部２１０を介して、発話制御部１３０に、次点の優先度の命令を発話するように指示する。発話制御部１３０は、命令認識部２３０ｄからその指示を受けると、通信部１４５及びサーバ通信部２１０を介して、優先度記憶部２３１から次点の優先度の情報を参照する。その後、発話制御部１３０は、次点の優先度の命令を発話するように発話部１３５に指示する。話者からの発話内容が、命令のキャンセルであれば、ロボット１１は処理を中止する。

Ｓ１６５の処理の後、命令実行部１４０は、命令認識部２３０ｄから命令実行コマンドを受け取り、通信部１４５を介して操作対象機器３０に命令実行コマンドを送信する（Ｓ１８０）。通信部１４５は、操作対象機器３０に対してＩＲ信号を送信する。

以上により、サーバ２１が、ロボット１１から取得した、発話音声の音声データを受信し、受信した音声データに対して命令の優先度を付与し、優先度の情報をロボット１１に送信する。これにより、ロボット１１に優先度を付与する構成を設けなくてもよいため、ロボット１１の処理負担を軽減することができる。

〔ソフトウェアによる実現例〕
命令実行装置１００の制御ブロック（特に音声取得部１１５、命令優先度付与部１２５、命令実行部１４０、顔画像認識部１５５、及び判定部１６０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよく、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、命令実行装置１００は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

また、命令実行装置１００がソフトウェアによって実現される場合、図６に示すように、ロボット１０は、ハードウェア要素として、音声入力部１１０、発話部１３５、通信部１４５、顔画像撮像部１５０、及び制御部１００ａを備える。そして、命令実行装置１００のソフトウェア要素は、ＣＰＵ等である制御部１００ａにおいてプログラムが実行されることにより実現される。すなわち、図６の制御部１００ａに含まれる音声取得部１１５等の機能ブロックはソフトウェア要素として実現される。

〔まとめ〕
本発明の態様１に係る命令実行装置（１００）は、複数の話者それぞれが発話した命令の発話音声を取得する音声取得部（１１５）と、前記音声取得部によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与部（１２５ｈ）と、前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与部（１２５ｉ）と、最も高い前記優先度が付与された命令を実行する命令実行部（１４０）と、を備える。

上記の構成によれば、命令実行装置は、複数の話者が発話した命令の発話音声を取得し、命令ごとに得点の合計値を算出して優先度を付与し、最も高い優先度が付与された命令を実行する。これにより、命令実行装置は、複数の話者が発話した命令を認識し、複数の話者それぞれからの命令の優先度を判定することにより、最も優先度の高い命令を実行することができる。例えば、命令実行装置は、複数の話者それぞれからの命令の優先度を判定することにより、最も逼迫の度合いの高い命令を実行することができる。

本発明の態様２に係る命令実行装置（１００）は、上記態様１において、前記発話音声特徴点及び前記命令内容特徴点から、最も高い前記優先度が付与された命令を実行する。前記発話音声特徴点は、声の大きさの標準値に対する第１差分、声の高さの標準値に対する第２差分、及び声の抑揚の少なくとも１つであり、複数の前記命令内容特徴点は、特定のキーワード、及び同じ意味の命令の数の少なくとも１つであってもよい。

上記の構成によれば、命令実行装置は、声の大きさの標準値に対する第１差分、声の高さの標準値に対する第２差分、及び声の抑揚の少なくとも１つのレベルに応じた得点を各命令に付与する。また、命令実行装置は、特定のキーワード及び同じ意味の命令の数の少なくとも１つのレベルに応じた得点を各命令に付与する。これにより、命令実行装置は、複数の話者からの命令の優先度を詳細に判定することができる。

本発明の態様３に係る命令実行装置（１００）は、上記態様２において、複数の前記話者の顔画像を認識する顔画像認識部（１５５）と、前記顔画像認識部によって認識された複数の前記話者の顔画像により複数の前記話者それぞれの年齢及び性別を判定する判定部（１６０）と、をさらに備え、前記得点付与部（１２５ｈ）は、前記判定部によって判定された複数の前記話者それぞれの性別及び年齢に限定して、予め記録された複数の話者情報から声の大きさ及び声の高さの少なくとも１つの平均を算出し、前記平均を前記標準値としてもよい。

上記の構成によれば、命令実行装置は、複数の話者それぞれの性別及び年齢を判定し、判定した性別及び年齢に限定して、予め記録された複数の話者情報から声の大きさ及び声の高さの少なくとも１つの平均を算出する。そして、命令実行装置はこれらの平均を、声の大きさの標準値及び声の高さの標準値とする。これにより、声の大きさの標準値及び声の高さの標準値が、判定部によって判定された複数の話者それぞれの性別及び年齢に限定して算出されるため、より詳細に算出されたものになる。

本発明の態様４に係るサーバ（２１）は、外部機器（ロボット１１）によって取得された、複数の話者それぞれが発話した命令の発話音声の音声データを受信する受信部（サーバ通信部２１０）と、前記音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与するサーバ得点付与部（得点付与部２３０ｈ）と、各命令の前記得点の合計値を算出し、前記合計値の高い順に定めた優先度を各命令に付与するサーバ優先度付与部（優先度付与部２３０ｉ）と、前記サーバ優先度付与部によって付与された前記優先度を前記外部機器に送信する送信部（サーバ通信部２１０）と、を備える。

上記の構成によれば、サーバが、外部機器から取得した、発話音声の音声データを受信し、受信した音声データに対して命令の優先度を付与し、優先度の情報を外部機器に送信する。これにより、外部機器に優先度を付与する構成を設けなくてもよいため、外部機器の処理負担を軽減することができる。

本発明の態様５に係る命令実行システム（１）は、上記態様３において、前記命令実行装置（１００）を有する外部機器（ロボット１０）と、前記外部機器から受信した、複数の前記話者情報を格納するサーバ（２０）と、を備えてもよい。

本発明の態様６に係る命令実行方法は、話者が発話した命令を実行する命令実行装置における命令実行方法であって、複数の話者それぞれが発話した命令の発話音声を取得する音声取得工程と、前記音声取得工程によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与工程と、前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与工程と、最も高い前記優先度が付与された命令を実行する命令実行工程と、を備える。

本発明の各態様に係る命令実行装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記命令実行装置が備える各部（ソフトウェア要素）として動作させることにより前記命令実行装置をコンピュータにて実現させる命令実行装置の命令実行プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１、２命令実行システム
１０、１１ロボット（外部機器）
２０、２１サーバ
３０操作対象機器
１００命令実行装置
１００ａ制御部
１１０音声入力部
１１５音声取得部
１２０音声分離部
１２５、２３０命令優先度付与部
１２５ａ、２３０ａ音量差分算出部
１２５ｂ、２３０ｂ高低差分算出部
１２５ｃ、２３０ｃ抑揚算出部
１２５ｄ、２３０ｄ命令認識部
１２５ｅ、２３０ｅキーワードカウント部
１２５ｆ、２３０ｆ命令カウント部
１２５ｇ、２３０ｇ記憶部
１２５ｈ得点付与部
２３０ｈ得点付与部（サーバ得点付与部）
１２５ｉ優先度付与部
２３０ｉ優先度付与部（サーバ優先度付与部）
１２６、２３１優先度記憶部
１３０発話制御部
１３５発話部
１４０命令実行部
１４５、２１０通信部
１５０顔画像撮像部
１５５顔画像認識部
１６０判定部
２１０サーバ通信部（受信部、送信部）
２２０データベース部
ＣＯＭ１〜ＣＯＭｎ命令
Ｓ１〜Ｓｎ話者

Claims

複数の話者それぞれが発話した命令の発話音声を取得する音声取得部と、
前記音声取得部によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与部と、
前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与部と、
最も高い前記優先度が付与された命令を実行する命令実行部と、を備え、
前記命令内容特徴点は、特定のキーワード、及び同じ意味の命令の数の少なくとも１つであることを特徴とする命令実行装置。
前記発話音声特徴点は、声の大きさの標準値に対する第１差分、声の高さの標準値に対する第２差分、及び声の抑揚の少なくとも１つであることを特徴とする請求項１に記載の命令実行装置。
複数の前記話者の顔画像を認識する顔画像認識部と、
前記顔画像認識部によって認識された複数の前記話者の顔画像により複数の前記話者それぞれの性別及び年齢を判定する判定部と、をさらに備え、
前記得点付与部は、前記判定部によって判定された複数の前記話者それぞれの年齢及び性別に限定して、予め記録された複数の話者情報から声の大きさ及び声の高さの少なくとも１つの平均を算出し、前記平均を前記標準値とすることを特徴とする請求項２に記載の命令実行装置。
外部機器によって取得された、複数の話者それぞれが発話した命令の発話音声の音声データを受信する受信部と、
前記音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与するサーバ得点付与部と、
各命令の前記得点の合計値を算出し、前記合計値の高い順に定めた優先度を各命令に付与するサーバ優先度付与部と、
前記サーバ優先度付与部によって付与された前記優先度を前記外部機器に送信する送信部と、を備え、
前記命令内容特徴点は、特定のキーワード、及び同じ意味の命令の数の少なくとも１つであることを特徴とするサーバ。
請求項３に記載の命令実行装置を有する外部機器と、
前記外部機器から受信した、複数の前記話者情報を格納するサーバと、
を備えることを特徴とする命令実行システム。
話者が発話した命令を実行する命令実行装置における命令実行方法であって、
複数の話者それぞれが発話した命令の発話音声を取得する音声取得工程と、
前記音声取得工程によって取得された前記発話音声の音声データから、前記発話音声の特徴点である発話音声特徴点、及び前記命令の内容の特徴点である命令内容特徴点の少なくとも１つのレベルに応じた得点を各命令に付与する得点付与工程と、
前記得点の合計値を前記命令ごとに算出し、前記合計値の高い順に定めた優先度を各命令に付与する優先度付与工程と、
最も高い前記優先度が付与された命令を実行する命令実行工程と、を備え、
前記命令内容特徴点は、特定のキーワード、及び同じ意味の命令の数の少なくとも１つであることを特徴とする命令実行方法。
請求項１に記載の命令実行装置としてコンピュータを機能させるための命令実行プログラムであって、前記音声取得部、前記得点付与部、前記優先度付与部、及び前記命令実行部としてコンピュータを機能させるための命令実行プログラム。