JP2007017733A

JP2007017733A - 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体

Info

Publication number: JP2007017733A
Application number: JP2005199749A
Authority: JP
Inventors: Kazuhiro Miki; 一浩三木; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-07-08
Filing date: 2005-07-08
Publication date: 2007-01-25

Abstract

【課題】複数の音声入力に関連付けた操作を可能にする。
【解決手段】パラメータ抽出部２は入力音声から各パラメータ値を抽出する。入力提示部７は、演算情報テーブル８およびターゲットパラメータ９に基づいて類似度演算用ターゲットパラメータを生成し、視覚的または聴覚的に提示する。類似度演算部４は、上記抽出された各パラメータ値と上記生成された各ターゲットパラメータ値との差分の二乗の重み付き和を、類似度として算出する。操作部５は、上記算出された類似度に従って対象に操作を行う。したがって、上記類似度演算用ターゲットパラメータのごとく予め指定されたパラメータとの類似度や、２つの音声入力から抽出されたパラメータの類似度や、代表的な音声入力から抽出されたパラメータと複数の音声入力から抽出されたパラメータとの類似度等、類似度演算方法を様々変えることによって、複数の音声入力に関連付けた操作を行うことが可能になる。
【選択図】図１

Description

この発明は、音声を利用した入力装置,入力システム,入力方法,入力処理プログラムおよびプログラム記録媒体に関する。

現在、携帯電話やＰＤＡ(Personal Digital Assistant)や小型のゲーム機等において、その処理能力の向上やメモリ容量の増加から、音声認識インタフェースが一般にも利用されだしている。実際には、テレビのチャンネルを発声することで「チャンネルの変更」を行う等のボタン操作の代替手段としての利用や、「スポーツ」と発声してテレビのスポーツ番組を視聴する等の思いついた単語を発声することで関連した情報を検索する利用が一般的である。

また、音声認識技術の一部である話者認識を利用したセキュリティー技術やゲームの入力インタフェースとしての利用も検討されている。例えば、特開２００１‐３４７０６６公報(特許文献１)に開示されたクイズゲーム装置では、複数の音声入力から、入力の順番や入力データの大きさや話者認識の結果等の個々のデータの状況に応じて１つの発声を選択/音声認識し、回答権を得た入力音声に対しその合否を判定している。また、ＷＯ９８/２２２３(特許文献２)に開示されたゲーム装置では、音声認識結果だけではなく、入力された音声信号におけるパワーの大きさ等の音声信号の状況を測定し、その状況に応じてゲームの動作を行っている。

しかしながら、上記従来の音声認識技術を利用したゲーム装置においては、以下のような問題がある。すなわち、上記特許文献１におけるクイズゲーム装置においては、発声話者特定手段を用いて、複数の発声からその１以上の音声に対して音声認識を行ってはいるものの、この発声話者特定手段を用いて発声話者を特定した後は通常の音声認識処理に従って音声認識を行っている。こうして、音声認識処理の前段または音声認識処理中において認識対象を選択してはいるが、その認識結果に応じた動作は「正解/不正解」の単純な正解判定のみであり、操作入力の手段としては最も単純なものである。そのため、このクイズゲーム装置においては、音声認識結果を利用した複雑な制御を行うことは難しく、操作入力装置としての汎用性に乏しい。

これに対して、上記特許文献２におけるゲーム装置においては、入力音声に対しそのパワーやピッチやデータの立ち上がり情報等の音響パラメータ(以下、単にパラメータと言う)を用いることによって、音声認識結果を含めた汎用的な操作が可能となっている。この特許文献２におけるゲーム装置での各パラメータの利用方法は、各パラメータの絶対値そのものを利用した操作である。特許文献２にも記載されているように、この音声入力による操作は、単独の入力音声で動作するゲーム等の操作において、「ボタンを長く押すこと等で特別な動作を行う」操作と同様に、音声データのパラメータを利用する(例えば、パラメータ「声の大きさ」に関して「大きな声で入力する事で特別な動作を行う」)操作であり、ハードウェアとしての入力装置を増やすことなく動作のパターンを増やすことができるという点から利用し易いという特長がある。

しかしながら、この特許文献２による入力方法は、単独の入力音声に対しては非常に利用し易い方法ではあるが、複数の音声入力がある場合には、その各入力音声を個々の単独操作の組み合わせとして利用することはできるものの、それら複数の音声入力を関連付けて利用することが難しいという問題がある。通信のインフラ整備が進む現在においては、ネットワークを利用したロールプレイングゲーム等の各端末間において、通信を行いながら操作を行うものも増加しており、音声入力のパラメータをボタンの代わりに利用するだけではなく、各端末から入力された複数の音声情報を上手く操作入力の一部として利用する必要がある。しかしながら、特許文献２による入力方法において、これを実現することは難しいのである。

さらに、上記特許文献２における入力方法においては、どのような発声単語をどのように発声すれば操作を行うことができるのかを提示する方法が無いという問題がある。例えば、「ジャンプ」という発声を行うことによって、その声の大きさに応じた高さでゲーム内のキャラクタがジャンプする場合に、どの程度の大きさで発声すれば適当な操作を行うことができるのか等の「発声する単語」と「操作に関わるパラメータの適当な大きさ」等を提示する方法が無く、利用しづらい操作インタフェースになっている。複数の音声入力を関連付けて操作を行う場合にもこの問題は重要であり、音声発声のタイミングを提示する等、複数の端末に対してどのような発声を行わせるのかを提示する必要がある。
特開２００１‐３４７０６６公報ＷＯ９８/２２２３

そこで、この発明の課題は、複数の音声入力を互いに関連付けた操作が可能な音声を利用した入力装置,入力システム,入力方法,入力処理プログラムおよびプログラム記録媒体を提供することにある。

上記課題を解決するため、この発明の入力装置は、
入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示部と、
上記音声データ入力部で得られた音声データから音響パラメータを抽出するパラメータ抽出部と、
上記パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算部と、
上記類似度演算部で算出された類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴としている。

上記構成によれば、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うようにしている。したがって、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。

さらに、予め指定されたターゲットパターンとの類似度、２つの入力音声に関する類似度、複数の入力音声とその中の代表的な入力音声との類似度等、様々な類似度演算方法を設定することによって、複数の入力音声を関連づけた操作を行うことが可能になる。

さらに、上記入力提示部によって、上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記入力提示部による提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができ、より利用し易い音声操作装置を構築することが可能になる。

また、１実施の形態の入力装置では、
上記入力提示部は、上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成し、この生成された類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報の提示を行うようになっている。

この実施の形態によれば、上記入力提示部は類似度演算用の音響パラメータの提示情報を提示するので、上記対象の操作に必要な音響パラメータの提示情報のみを提示して、効率よく且つ的確に所望の操作を行うことができる。

また、１実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキストの表示,画像の表示,上記テキストあるいは画像の表示形状,上記テキストあるいは画像の色,上記テキストあるいは画像の表示位置,上記テキストあるいは画像の動きおよびそれらの組み合わせによって提示するようになっている。

この実施の形態によれば、操作者は、入力すべき(つまり、発声すべき)音声の内容と音響パラメータの大きさおよび変動とを、上記テキストあるいは画像の表示形状,色,表示位置,動きおよびそれらの組み合わせによって、視覚によって具体的に知ることができる。したがって、操作者は、上記提示された提示情報に合わせて発声を行うことによって、上記対象に対して簡単に所望の操作を行うことができる。

また、１実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、音声によって提示するようになっている。

この実施の形態によれば、操作者は、入力すべき(つまり、発声すべき)音声の内容と音響パラメータの大きさおよび変動とを、音声によって具体的に知ることができる。したがって、操作者は、上記提示された提示情報を真似て発声を行うことによって、上記対象に対して簡単に所望の操作を行うことができる。

また、１実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキスト音声合成によって生成された合成音声によって提示するようになっている。

この実施の形態によれば、上記提示情報を、上記類似度演算用ターゲットパラメータの大きさおよび変動に基づいて、テキスト音声合成法で生成するので、上記類似度演算用ターゲットパラメータの大きさおよび変動を的確に表す音声で上記提示情報を提示することができる。

また、１実施の形態の入力装置では、
上記類似度演算部は、上記予め設定されたターゲットパラメータとして、上記入力提示部によって生成された類似度演算用ターゲットパラメータを用いるようになっている。

この実施の形態によれば、上記入力提示部で提示された類似度演算用ターゲットパラメータを、上記予め設定されたターゲットパラメータとして用いるので、操作者に提示されたターゲットパラメータを類似度演算用のターゲットパラメータとして用いることによって類似度を高めて、効率よく且つ的確に所望の操作を行うことができる。

また、１実施の形態の入力装置では、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えている。

この実施の形態によれば、操作者は、どのように発声すればより上記ターゲットパラメータに近づけることができるのかを直感的に理解することができる。したがって、次回の音声入力時における上記類似度をさらに高めることができる。

また、この発明の入力システムは、
少なくとも、
入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報を生成して提示する入力提示部と、
上記音声データ入力部に入力すべき音声の入力開始のタイミングを提示する入力タイミング提示部と、
上記音声データ入力部によって得られた音声データから音響パラメータを抽出するパラメータ抽出部と
を備えた複数の入力装置と、
上記複数の入力装置の各パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を、各入力装置毎に算出する類似度演算部と、
上記類似度演算部で算出された上記類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴としている。

上記構成によれば、複数の入力装置への音声入力によってある対象への操作の実行を行うことができる。したがって、複数の入力装置への入力音声を関連づけた操作を行うことが可能になる。

また、１実施の形態の入力システムでは、
上記各入力装置の上記入力提示部は、
上記生成した提示情報を他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた提示情報を受信する提示データ通信部と、
上記生成した提示情報および上記提示データ通信部を介して受信した他の入力装置の入力提示部からの提示情報の少なくとも何れか一方を表示する表示部と
を備えている。

この実施の形態によれば、上記複数の入力装置の操作者は、上記入力提示部の表示部に表示される提示情報を共有することができ、上記複数の入力装置への入力音声の関連づけを簡単に行うことが可能になる。

また、１実施の形態の入力システムでは、
上記各入力装置の上記入力提示部は、
上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成する類似度演算用ターゲットパラメータ生成部と、
上記生成された類似度演算用ターゲットパラメータを他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた類似度演算用ターゲットパラメータを受信するターゲットパラメータ通信部と、
予め音響パラメータに表示形状を割り当てて成る割り当て情報に従って、上記生成された類似度演算用ターゲットパラメータおよび上記ターゲットパラメータ通信部を介して受信した他の入装置の入力提示部からの類似度演算用ターゲットパラメータの少なくとも何れか一方に表示形状を割り当てる表示割り当て部と、
上記類似度演算用ターゲットパラメータの値と上記表示割り当て部による上記類似度演算用ターゲットパラメータに対する表示形状の割り当て結果とに基づいて、上記類似度演算用ターゲットパラメータの値の表示形状を決定する形状決定部と、
上記類似度演算用ターゲットパラメータの値を上記決定された表示形状で表示する表示部と
を備えている。

この実施の形態によれば、操作者は、上記類似度演算用ターゲットパラメータの値を表示部に表示される表示形状で視覚的に分かり易く知ることができる。さらに、上記複数の入力装置の操作者は、上記入力提示部の表示部に表示される提示情報を共有することができ、上記複数の入力装置への入力音声の関連づけを簡単に行うことが可能になる。

また、１実施の形態の入力システムでは、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部は、上記複数の入力装置の何れかあるいは上記サーバに搭載されており、
上記入力タイミング提示部は、上記類似度演算部が搭載された入力装置あるいは上記類似度演算部が搭載されたサーバから与えられた指令によって、音声の入力開始のタイミングの提示を行うようになっている。

この実施の形態によれば、上記入力タイミング提示部によって音声の入力開始のタイミングの提示を行うので、上記複数の入力装置への入力音声の関連づけを行う際に、各入力装置への音声の入力開始のタイミングを加味した関連づけが可能になる。

また、１実施の形態の入力システムでは、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えている。

この実施の形態によれば、上記複数の入力装置の各操作者は、どのように発声すればより上記ターゲットパラメータに近づけることができるのかを直感的に理解することができる。したがって、次回の音声入力時における上記類似度をさらに高めることができる。

また、１実施の形態の入力システムでは、
上記各入力装置には、他の入力装置の音声データ入力部に入力された音声のモニタリングを行うモニタリング部を備えている。

この実施の形態によれば、他の入力装置の音声データ入力部への入力音声をモニタリングできるので、入力装置の音声データ入力部への音声の入力開始のタイミングを容易に図ることが可能になる。

また、１実施の形態の入力システムでは、
上記モニタリング部は、
上記音声データ入力部によって得られた音声データを他の入力装置のモニタリング部に送信する入力音声送信部と、
他の入力装置のモニタリング部から送信されてきた音声データを受信すると共に、この受信した音声データに基づいて、他の入力装置に入力された音声を提示する音声提示部と
を備えている。

この実施の形態によれば、他の入力装置のモニタリング部から送信されてきた音声データに基づいて、他の入力装置に入力された音声を音声そのもので提示することができる。

また、１実施の形態の入力システムでは、
上記モニタリング部は、
上記パラメータ抽出部で抽出された音響パラメータを他の入力装置のモニタリング部に送信するパラメータ送信部と、
他の入力装置のモニタリング部から送信されてきた音響パラメータを受信すると共に、上記割り当て情報に従って、上記受信した各音響パラメータに表示形状を割り当てる表示割り当て部と、
上記受信した音響パラメータの値と上記表示割り当て部による上記音響パラメータに対する表示形状の割り当て結果とに基づいて、上記受信した音響パラメータの値の表示形状を決定する形状決定部と、
上記受信した音響パラメータの値を上記決定された表示形状で表示する表示部と
を備えている。

この実施の形態によれば、他の入力装置のモニタリング部から送信されてきた音響パラメータに基づいて、他の入力装置に入力された音声の音響パラメータを視覚的に提示することができる。

また、１実施の形態の入力システムでは、
上記類似度演算部は、上記ターゲットパラメータの値として、上記複数の入力装置のうちの何れか１つの入力装置のパラメータ抽出部で抽出された音響パラメータの値を用いている。

この実施の形態によれば、上記類似度演算部による類似度演算用の上記ターゲットパラメータの値として用いられた上記入力装置への入力音声と、その他の上記入力装置への入力音声との関連性によって、上記対象への操作が行われる。

また、１実施の形態の入力システムでは、
上記類似度演算部は、上記各ターゲットパラメータの値として、上記複数の入力装置のパラメータ抽出部で抽出された音響パラメータの値の統計値を用いる。

この実施の形態によれば、上記複数の入力装置への入力音声の統計値と、その他の上記入力装置への入力音声との関連性によって、上記対象への操作が行われる。

また、１実施の形態の入力装置では、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも１つである。

この実施の形態によれば、上記種々の音響パラメータのうち、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。

また、１実施の形態の入力システムでは、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも１つである。

また、１実施の形態の入力装置では、
当該入力装置は、サーバを有する通信ネットワークに接続されており、
上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか１つは、上記サーバに搭載されている。

この実施の形態によれば、上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか１つを、計算能力に優れた上記サーバに搭載している。したがって、上記各部における処理や演算をより高速に行うことができる。さらに、本入力装置を各種の装置に搭載する際に、本入力装置を搭載したことによる上記各種の装置の構成が複雑になるのを最小限に抑えることができる。したがって、様々な装置で本入力装置を利用することが可能になる。

また、１実施の形態の入力システムでは、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部,操作部および何れか１つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか１つは、上記サーバに搭載されている。

この実施の形態によれば、上記類似度演算部,操作部および何れか１つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか１つを、計算能力に優れた上記サーバに搭載している。したがって、上記各部における処理や演算をより高速に行うことができる。さらに、本入力システムを各種のシステムに搭載する際に、本入力システムを搭載したことによる上記各種のシステムの構成が複雑になるのを最小限に抑えることができる。したがって、様々なシステムで本入力システムを利用することが可能になる。

また、この発明の入力方法は、
入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示ステップと、
入力された音声を音声データに変換する音声入力ステップと、
上記得られた音声データから音響パラメータを抽出するパラメータ抽出ステップと、
上記抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算ステップと、
上記算出された類似度に応じて、予め定められた操作を行う操作ステップと
を備えたことを特徴としている。

上記構成によれば、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うようにしている。したがって、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、ある対象に対する操作の数を拡大することができる。

さらに、上記入力提示ステップによって、上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができる。

また、この発明の入力処理プログラムは、
コンピュータを、
上記入力装置における音声データ入力部,入力提示部,パラメータ抽出部,類似度演算部および操作部
として機能させる。

また、この発明の入力処理プログラムは、
コンピュータを、
上記入力システムにおける音声データ入力部,入力提示部,入力タイミング提示部,パラメータ抽出部,類似度演算部および操作部
として機能させる。

また、この発明のプログラム記録媒体は、
上記入力処理プログラムが記録されている。

以上より明らかなように、この発明の入力装置は、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うので、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。

さらに、入力提示部によって、音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記入力提示部による提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができ、より利用し易い音声操作装置を構築することが可能になる。

また、この発明の入力システムは、複数の入力装置への音声入力によって、ある対象への操作の実行を行うことができる。したがって、複数の入力装置への入力音声を関連づけた操作を行うことが可能になる。

以下、この発明を図示の実施の形態により詳細に説明する。

・第１実施の形態
図１は、本実施の形態の入力装置における機能的構成を示すブロック図である。以下、図１に従って、各部の構成と音声が入力された場合の各部の動作とについて説明する。

図１において、１は音声データ入力部であり、一般的に利用されるマイクロホン等で構成され、入力されるアナログの音声信号をデジタルの音声信号に変換して、パラメータ抽出部２および音声認識部３に送出する。パラメータ抽出部２は、演算情報テーブル８から与えられる演算情報に従って、デジタル音声信号から各種音響パラメータ(以下、単にパラメータと言う)の抽出を行う。音声認識部３は、一般的に従来から利用されている入力音声と内蔵しているモデル(複数の辞書)との差の値に基づいて音声認識を行うものであればどのようなものでもよい。但し、本実施の形態における音声認識部３は、演算情報テーブル８から与えられた演算情報によって、認識結果,認識スコア,音素継続時間長および入力音声の継続時間長のうちの少なくとも１つが類似度演算に利用される場合について音声認識を行う。

そして、上記音声認識部３は、音声認識の結果および音声認識時のスコアが利用される場合には、音声認識結果と、入力された音声が「各モデルの音声である確からしさの度合い」を示す値(モデルに対する尤度)とを、類似度演算部４に送出する。また、類似度演算部４による類似度演算の際に音素継続時間長および入力音声の継続時間長が利用される場合には、音声認識時に割り振られる音声認識結果の音素と音声データの割り付けであるセグメント情報(後に詳述)とをパラメータ抽出部２に送出するようになっている。そうすると、パラメータ抽出部２は、各種のパラメータを上記演算情報に従って入力音声から抽出し、類似度演算に必要なパラメータを類似度演算部４に送出するのである。

上記類似度演算部４は、上記演算情報テーブル８から得られる演算情報に基づいて、各パラメータに関して類似度を算出する。その際に、基本的に量的差分を計算できず、正解または不正解の結果のみが与えられるパラメータが、不正解である場合には、リジェクト情報を出力する。操作部５は、類似度演算部４で得られた類似度またはリジェクト情報に従って、操作対象に対して操作を行う。尚、リジェクト情報が得られた場合には、操作対象への操作は行わず、リジェクトした旨を提示する。

６は誤差情報提示部であり、上記類似度演算部４による類似度の演算結果に基づいて、入力された音声のターゲットパラメータに対する誤差を演算する。そして、その演算結果を、後に詳述する入力提示部７の表示割り当て部１２の場合と同様の方法によって、文字,数値および図形等を用いて操作者が直感的に理解できるように提示する。したがって、話者は、どのように発声すればよりターゲットパラメータに近づけることができるのかを直感的に理解することができ、次回の音声入力時における上記誤差の低下が期待できる。

７は入力提示部であり、上記ターゲットパラメータ９に格納された類似度演算に必要なターゲットパラメータを、演算情報テーブル８から得られる情報に基づいて抽出し、発声の内容,ピッチの高さおよびアクセントの位置等の発声の形態を操作者に提示する。操作者は、この入力提示部７によって提示された提示情報に基づいて発声を行うのである。

以下、上記構成を有する入力装置における各部の動作について、さらに具体的に説明する。

上記音声データ入力部１に入力される音声は、上述したように、入力提示部７によって提示された発声の内容,ピッチの高さおよびアクセントの位置等の「発声の形態の情報」に従って発声される。その際に、入力提示部７は、「発声する音声の内容」,「入力音声のパワー」,「ピッチ」,「音素の継続時間長」,「入力音声の継続時間長」,「音声入力までの時間」および「話者」の提示を、演算情報テーブル８から得られる演算情報に基づいて行う。ここで、演算情報テーブル８には、「類似度演算に用いるパラメータ」と夫々のパラメータに関する「類似度演算時の重み」および「リジェクト情報」等との類似度演算に必要な演算情報が格納されている。この情報は、例えば、以下に示す表１のように表現することができる。

表１に示す上記演算情報テーブル８における「演算パターン」は、類似度演算部４で行う類似度演算のパターンであり、外部からアクセスする際のポインタとなる。また、「パラメータ」の欄には、夫々の演算パターンでの演算に用いるパラメータとその演算情報とが格納されている。すなわち、各パラメータの欄には、当該パラメータを用いるか否かを示すフラグと類似度演算に用いる際の重み(Ｗt)とリジェクトを行うか否かを示すリジェクト情報［Ｒj］とが記載されている。

そして、各演算パターンにおいて、フラグ「１」が立っているパラメータを重み(Ｗt)で用いて類似度演算を行うのである。例えば、演算パターン３による類似度演算の場合には、パラメータ「ピッチ」とパラメータ「平均パワー」とを用い、夫々の重み(Ｗt)を１/２として類似度演算を行う。その際に、パラメータ「話者」にはリジェクト情報［Ｒj］が記載されているため、話者識別の結果が誤っている場合には、該当する操作はリジェクトされることになる。

以上のように、上記類似度演算を行う場合に用いる各種の演算情報を記録したものが演算情報テーブル８である。勿論、この演算情報テーブル８は、用いるパラメータ,演算の重み,発声内容,音声認識時のスコア,リジェクト情報等の類似度演算に利用できる各種の情報が利用可能な形態で格納できればどのような格納形態であってもよく、表１に示す形態はその一例である。

上記入力提示部７は、上記演算情報テーブル８を用いて、ターゲットパラメータ９中から類似度演算に必要なパラメータを抽出し、その抽出パラメータの変動およびおおよその強度等を発声話者に提示する。その場合における提示の方法としては、視覚的な提示や聴覚的な提示が考えられる。以下、入力提示部７の構成について説明する。

図２は、表示画面を用いた視覚的な提示を行う入力提示部７の構成を示す。入力提示部７は、類似度演算用ターゲットパラメータ生成部１１,表示割り当て部１２,形状決定部１３および表示部１４から概略構成されている。

上記類似度演算用ターゲットパラメータ生成部１１は、演算情報１５とターゲットパラメータ９とから類似度演算用ターゲットパラメータを生成する。そうすると、表示割り当て部１２は、生成された類似度演算用ターゲットパラメータに基づいて、割り当て情報１６に従って、上記類似度演算用ターゲットパラメータの各パラメータに表示形状を割り当てる。そして、形状決定部１３は、上記類似度演算用ターゲットパラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、各パラメータの表示形状を決定する。表示部１４は、決定された各パラメータの表示形状に従って、発声内容と各パラメータの変動および強度等とを、発声話者に視覚的に提示する。

図３は、表示画面を用いた視覚的な提示を行う場合における入力提示部７の提示動作の手順を示す。以下、図２および図３に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。

先ず、ステップＳ1で、上記類似度演算用ターゲットパラメータ生成部１１によって、各パラメータの利用情報に基づく「演算パターン」をポインタとして演算情報テーブル８がアクセスされ、該当する演算パターンに関して類似度演算に用いる演算情報１５「認識結果(０)[１]」,「平均ピッチ(１/２)」,「パワーの変動(１/２)」が抽出される。ステップＳ2で、さらに、ターゲットパラメータ９から、上記ステップＳ1において抽出されたパラメータ「認識結果」,「平均ピッチ」,「パワーの変動」に基づいて、類似度演算に必要なパラメータ値のみが選択されて、類似度演算用ターゲットパラメータ「認識結果(発声内容)：ススメ(進め)」,「平均ピッチ：３００Ｈz」,「パワーの変動：上記認識結果の音素毎に３０００,６０００,３０００」が生成される。

ステップＳ3で、上記表示割り当て部１２によって、上記生成された類似度演算用ターゲットパラメータの各パラメータに対して、割り当て情報１６に基づいて、表示形態の割り当てが行われる。上記各パラメータが「認識結果」,「平均ピッチ」,「パワーの変動」の場合には、認識結果すなわち発声すべき内容には表示形態「文字列」が割り当てられ、平均ピッチには表示形態「文字の位置」が割り当てられ、パワーの変動には表示形態「文字の大きさ」が割り当てられる。尚、上記割り当て情報は、システムに固定である。または、外部から与えられる。または、自動的に決定される。

ステップＳ4で、上記形状決定部１３によって、上記生成された類似度演算用ターゲットパラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、各パラメータ値の表示形状が決定される。各パラメータの最大値および最小値と表示形状(文字のサイズ,文字の位置等)とは予め関連付けられており、上記生成された類似度演算用ターゲットパラメータのパラメータ値が上記最大値と最小値の間の何れの位置に存在するかを計算することによって、各パラメータ値の表示形状を決定するのである。

例えば、パラメータ「パワー」の最大値が６０００であり、最小値が３０００であるとする。その場合、類似度演算用ターゲットパラメータ「認識結果(発声内容)：ススメ(進め)」,「パワーの変動：上記認識結果の音素毎に３０００,６０００,３０００」に基づいて、パワーの大きさを文字の大きさで表現する場合には、パワー値６０００をとる２番目の音素「ス」を最大の大きさの文字で表すと決定し、パワー値３０００をとる１番目の音素「ス」と３番目の音素「メ」とを最小の大きさの文字で表すと決定するのである。

また、パラメータ「平均ピッチ」の最大値が６００Ｈzであり、最低値が０Ｈzであるとする。その場合、類似度演算用ターゲットパラメータ「認識結果(発声内容)：ススメ(進め)」,「平均ピッチ：３００Ｈz」に基づいて、平均ピッチの大きさを文字の上下方向の位置で表現する場合には、３つの音素「ス」,「ス」,「メ」の平均ピッチは３００Ｈzで変動が無く、然も最大値６００Ｈzと最低値０Ｈzとの中間であるため、文字列「ススメ」を表示画面の上下方向真中に同じレベルで表すと決定するのである。以上のように、認識結果つまり発声内容は、文字列として表示される。

ステップＳ5で、上記表示部１４によって、上記決定された各パラメータ値の表示形状に従って、発声内容を表す文字列が、パワーの変動に応じた大きさで、平均ピッチに応じた表示画面上の位置に表示されるのである。

尚、上記説明においては、説明を簡単にするために、上記類似度演算用パラメータとして、発声内容,パワー変動およびピッチを用いた。しかしながら、この発明には、これに限定されるものではなく、入力音声から抽出可能なパラメータ、例えば「振幅」,「パワー」,「ピッチ」,「音素の継続時間長」,「入力音声全体の継続時間長」および「発声開始までの時間」の夫々に関する統計値,瞬時値,変化量や、「アクセント位置」,「音声認識の結果」,「話者識別の結果」,「音声認識途中の各種スコア」および「認識結果のスコア」等、入力音声に基づいて計算を行うことによって得られる総てのパラメータを取り扱うことができる。また、図３に示す例では、各パラメータの強度の提示方法として、テキスト情報,文字の大きさ,表示の位置を利用しているが、文字そのもの,図形の形状(各形状にパラメータを割り付ける),色(各色にパラメータを割り付ける),画像の種類(絵等にパラメータを割り付ける)等の各パラメータの提示方法と、表示の大きさ,表示の位置,表示の動き(色が変わる,現出していく,表示されたものが動く,形が変わる,消えていく等),線の形状等の各パラメータの強度の提示方法とを、組み合わせを用いてもよい。

次に、音声出力部を用いた聴覚的な提示を行う入力提示部７について、図４〜図７に従って説明する。

図４は、テキスト音声合成を用いた聴覚的な提示を行う入力提示部７の構成を示す。入力提示部７は、テキスト音声合成部２１および音声出力部２２から概略構成されている。テキスト音声合成部２１は、演算情報に基づいて決定されたターゲットパラメータから合成音声信号を生成する。そうすると、音声出力部２２は、上記生成された合成音声信号に基づいて合成音声を出力することによって、発声内容と各パラメータの変動および強度等とを発声話者に聴覚的に提示する。

図５は、テキスト音声合成を用いた聴覚的な提示を行う場合における入力提示部７の提示動作の手順を示す。以下、図４および図５に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。

ステップＳ11およびステップＳ12で、上記テキスト音声合成部２１によって、上記視覚的な表示を行う場合における図３のステップＳ1およびステップＳ2と同様にして、上記演算情報およびターゲットパラメータから類似度演算用ターゲットパラメータを生成する。そして、ステップＳ12では、さらに、上述したようにして生成された類似度演算用ターゲットパラメータのパラメータ情報に基づいて、テキスト音声合成によって合成音声信号が生成される。ステップＳ13で、音声出力部２２によって、上記生成された合成音声信号に基づいて、発声内容を表す合成音声が出力されるのである。

上述したように、音声にかかわる各種のパラメータに従って、テキスト音声合成によって合成音声を生成することは容易であり、殆どの音声合成エンジンに基本機能として備わっている。入力提示部７は、この基本機能を利用して生成した合成音声を提示することによって、入力情報を提示するのである。

図６は、予め用意されている音声データを用いて聴覚的な提示を行う入力提示部７の構成を示す。入力提示部７は、音声選択部２３および音声出力部２４から概略構成されている。音声選択部２３は、予め作成されて提示音声データベース(ＤＢ)２５に格納されている音声データから、演算情報に従って決定されたターゲットパラメータに基づいて、再生する音声データを選択する。そうすると、音声出力部２４は、上記選択された音声データに基づいて音声を出力することによって、発声内容と各パラメータの変動および強度等とを発声話者に聴覚的に提示する。

図７は、予め用意されている音声データを用いて聴覚的な提示を行う場合における入力提示部７の提示動作の手順を示す。以下、図６および図７に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。

ステップＳ21およびステップＳ22で、上記音声選択部２３によって、上記視覚的な表示を行う場合における図３のステップＳ1およびステップＳ2と同様にして、上記演算情報およびターゲットパラメータから上記類似度演算用ターゲットパラメータが生成される。そして、ステップＳ22では、さらに、上述したようにして生成された類似度演算用ターゲットパラメータのパラメータ情報に基づいて、再生する音声データが提示音声ＤＢ２５から選択される。ステップＳ23で、音声出力部２２によって、上記選択された音声データに基づいて、発声内容を表す合成音声が出力されるのである。

以上が、上記入力提示部７における構成とその動作との一例ある。

上述のようにして上記入力提示部７によって提示された発声内容と各パラメータの変動および強度等に呼応して入力された音声は、音声データ入力部１によって音声信号に変換される。音声データ入力部１は、一般的に用いられるマイクロホン等であり、入力されるアナログ音声信号をデジタル音声信号に変換して、パラメータ抽出部２および音声認識部３に送出する。

上記音声認識部３は、一般的に従来から用いられている入力音声と内部に保存されているモデル(複数の辞書)との差の値を基準として音声認識を行うものであればどのようなものでも差し支えない。但し、本実施の形態における音声認識部３は、演算情報テーブル８から与えられる演算情報によって、認識結果,認識スコア,音素継続時間長,入力音声の継続時間長のうちの少なくとも何れか１つが類似度演算に用いられる場合について、音声認識を行う。そのうち「認識結果」および「認識スコア」が用いられる場合には、「音声認識結果」と、入力された音声の「モデルの音声である確からしさの度合い」を示す値(モデルに対する尤度)を類似度演算部４に送出する。また、「音素継続時間長」および「入力音声の継続時間長」が類似度演算に用いられる場合には、音声認識時に割り振られる音声認識結果の音素と音声データとの割り付け結果であるセグメント情報(各種パラメータを示す図８における音素セグメント２６)をパラメータ抽出部２に送出する。

上記パラメータ抽出部２は、上記音声認識部３の場合と同様に、演算情報テーブル８から与えられる演算情報１５に基づいて各種パラメータの抽出を行う。ここで、上記抽出される各パラメータについて簡単に説明する。図８は、各種パラメータを示す。

(１)［ピッチ］
このパラメータ値は、上記デジタル音声信号において有声音から得られる略相似的な波の繰り返しのパターンを示す基本周波数であり、入力されたデジタル音声信号の全域または一部区間から得られるピッチ(基本周波数)の統計値,瞬時値および変化量である。このパラメータ「ピッチ」の抽出は、入力音声から得られたデジタル音声信号そのものの自己相関や、上記デジタル音声信号に対してＬＰＣ分析やＰＡＲＣＯＲ分析を行ったものに対する残差波形の自己相関を利用してその繰り返し周期を検討することによって行われる。また、上述した方法だけでなく、一般的に様々なピッチ抽出法が存在し、特に上述のピッチ抽出法に限定されるものではない
(２)［アクセント位置］
このパラメータ値は、一般的に用いられるアクセント位置であり、音声の単位である音節(子音＋母音)毎のピッチ値を算出し、単語内でピッチ値が急激に減少する直前の音節位置を求めることによって抽出される。

(３)［振幅］
このパラメータ値は、入力されたデジタル音声信号の全域または一部区間から得られる振幅値の統計値,瞬時値および変化量である。

(４)［パワー］
このパラメータ値は、入力されたデジタル音声信号の全域または一部区間から得られる振幅値の二乗値に対する統計値,瞬時値および変化量である。

(５)［音素の継続時間長］
このパラメータ値は、各音素の継続時間の統計値,瞬時値および変化量であり、音声認識結果に割り当てられた音素のセグメントから、音素毎の継続時間長を計算することによって得られる。図８における音素１〜音素６夫々の継続時間長が、各音素の継続時間長である。

(６)［入力音声の継続時間長］
このパラメータ値は、入力音声の区間における全継続時間長であり、図８における各音素の継続時間長の総和である。

(７)［音声入力までの時間］
このパラメータ値は、入力開始から実際に音声入力が開始される(つまり、有音区間が開始する)までの時間である。

上記パラメータ抽出部２は、これらのパラメータを演算情報テーブル８からの演算情報１５に従って入力音声のデジタル音声信号から抽出し、必要なパラメータ値を類似度演算部４に送出する。

そうすると、上記類似度演算部４は、上記演算情報テーブル８から得られる演算情報１５に基づいて、各パラメータに関して、入力音声のデジタル音声信号から抽出されたパラメータ値と入力提示部７によって上述のようにして得られたターゲットパラメータ値との差分を算出し、演算情報１５の重み(Ｗt)を用いた上記差分の二乗の重み付き和の値の逆数を類似度として演算する。類似度は下記の式(１)で定義される。

ここで、Ｎ：類似度算出に用いるパラメータの数
ＩＰi：入力音声から抽出されたパラメータの値
ＴＰi：類似度演算用ターゲットパラメータの値
Ｗi：重み。

本実施の形態においては、上記類似度を、その一例として、入力音声から抽出されたパラメータ値とターゲットパラメータ値との差の二乗の重み付き和の値の逆数と定義している。しかしながら、上記両パラメータの差を安定して算出できる差分の計算方法であればどのような計算方法を用いても差し支えない。但し、基本的に量的差分を計算できず、正解あるいは不正解の結果のみが与えられるパラメータ(認識結果,話者認識結果,アクセント位置等)であって、演算情報１５にリジェクト情報［Ｒj］が付記されている場合には、類似度演算部４は、そのパラメータの値が不正解の場合にはリジェクトである旨を操作部５に対して送出する。

上記操作部５は、上述のようにして類似度演算部４で得られた類似度あるいはリジェクト情報［Ｒj］に従って、予め設定されている操作を行う。但し、類似度が送出されてきた場合には、与えられた類似度に従って、予め各類似度に対応して設定されている操作を行う。この操作は、機器そのものを動作させるものであってもよいし、ゲーム等のキャラクタを動作させるなどのソフトウェアの入力であってもよく、入力によって行われる総ての動作を割り当てることができる。これに対して、リジェクト情報［Ｒj］が送出されてきた場合には、操作対象に対する操作の実行は行わず、リジェクトした旨の提示を行う。

上記誤差情報提示部６は、上記類似度演算部４による類似度演算の結果に基づいて、入力音声から抽出されたパラメータが上記類似度演算用ターゲットパラメータに対してどの程度の誤差を有するかを演算し、その算出結果を提示する。その結果、操作者は、誤差情報提示部６による提示内容と入力提示部７による提示内容とを参照することによって、音声データ入力部１に対する発声をどのようにすれば、入力音声のパラメータを上記ターゲットパラメータにより近づけることができるのかを数値的に理解することができ、次回の音声入力の校正が期待できるのである。

本実施の形態は、例えば、ゲームの操作に適用する場合には、ロールプレイングゲームのコマンド入力として用い、類似度演算部４によって演算された類似度に応じて、コマンドの効果が変わるような操作入力装置を構成することができる。また、上記類似度に応じて、キャラクタの動作の量を変更する等の様々なゲームの入力装置として用いることができる。また、ランダムに発声内容のみを表示し、パラメータの値を提示しないでリジェクト付の話者認識の結果や音声入力までの時間等を用いて、話者Ａがボタンを押してからｘ秒からｙ秒後の間に提示された発声内容の発声を開始し、続けて話者Ｂがｚ秒からｗ秒後の間に提示された発声内容の発声を開始することによって開錠するようなキーシステム等を構成することが可能になる。

以上、総ての動作を、上記入力装置そのもので行う場合を例に上げて説明を行った。しかしながら、本入力装置を通信ネットワークに接続し、上記動作の一部を通信ネットワークのサーバで行なうことも可能である。

上述のごとく、上記第１実施の形態においては、上記パラメータ抽出部２によって、入力音声のデジタル音声信号からパラメータ値を抽出する。また、入力提示部７によって、演算情報テーブル８およびターゲットパラメータ９に基づいて類似度演算用ターゲットパラメータを生成する。そして、類似度演算部４によって、上記抽出されたパラメータ値と上記生成されたターゲットパラメータのパラメータ値との差分の二乗の重み付き和の逆数を、類似度として算出する。そして、操作部５によって、上記算出された類似度に従って操作対象に対して操作を行うようにしている。

したがって、本実施の形態によれば、音響パラメータそのものの値ではなく、各パラメータ値の差分の二乗の和の逆数で表される類似度を利用することによって、動作や対象に対してより多数の操作を行うことができる。

すなわち、本実施の形態においては、上記類似度演算部４によって算出される類似度の演算パターンを、表１に示すように変更することによって、単一パラメータの大小のみの類似度の変動に基づく操作から、認識結果,話者照合結果,パワー等の複数パラメータの類似度の変動に基づく操作まで、幅広く多数の操作に対応することができる。

また、本実施の形態における類似度演算用ターゲットパラメータのごとく予め指定されたパラメータとの類似度や、２つの音声入力から抽出されたパラメータの類似度や、代表的な音声入力から抽出されたパラメータと複数の音声入力から抽出されたパラメータとの類似度等、類似度演算方法を様々変えることによって、複数の入力音声に基づいて各入力音声を関連付けた操作を行うことが可能になる。したがって、例えば、通信を行いながら複数の利用者の音声入力を用いた操作を行うことができる。

また、本実施の形態においては、上記入力提示部７によって、類似度演算用ターゲットパラメータに関して、発声すべき内容と如何様に音声を発声すればよいかを提示するようにしている。したがって、操作者は、入力提示部７による提示内容に従って発声すれば、操作対象に対して所望の操作を行うことができ、より利用しやすい音声操作装置を構成することが可能になる。

・第２実施の形態
本実施の形態は、複数の入力装置を用いて類似度による操作を行うものに関する。図９は、複数の入力によって操作を行う場合の例として、２つの入力装置を用いて対象の操作を行う入力システムの機能的構成を示すブロック図である。入力装置Ｓおよび入力装置Ｃ夫々の構成は、上記第１実施の形態における入力装置と略同様である。但し、入力音声が複数になるため、発声のタイミングの提示処理や上記入力提示部でのデータの同期処理等が必要になる。以下、図９に従って、本実施の形態における入力システムの構成および動作について簡単に説明する。

先ず、上記入力装置Ｓにおいて、入力提示部３７は、演算情報テーブル３８から得られる演算情報とターゲットパラメータ３９とに基づいて、類似度演算に用いられる類似度演算ターゲットパラメータを生成し、入力音声提示用のデータを作成する。ここまでは、上記第１実施の形態に示す入力提示部７の動作と同様である。ところが、本実施の形態においては、音声データ入力部３１と音声データ入力部４１との２つの音声データ入力部が存在するため、生成された入力提示用のデータを同期させる必要がある。

図１０は、本実施の形態における入力提示部３７,４７の構成を示す図である。入力装置Ｓ側の入力提示部３７は、類似度演算用ターゲットパラメータ生成部５１,表示割り当て部５２,形状決定部５３,提示データ通信部５４および表示部５５から概略構成されている。このうち、類似度演算用ターゲットパラメータ生成部５１,表示割り当て部５２,形状決定部５３および表示部５５は、上記第１実施の形態における図２に示す類似度演算用ターゲットパラメータ生成部１１,表示割り当て部１２,形状決定部１３および表示部１４と同じであり、演算情報５６とターゲットパラメータ３９とから類似度演算用ターゲットパラメータを生成し、割り当て情報５７に従って上記類似度演算用ターゲットパラメータの各パラメータに表示形状を割り当て、上記類似度演算用ターゲットパラメータのパラメータ値と上記表示形態の割り当て結果とに基づいて各パラメータ値の表示形状を決定する。これに対して、入力装置Ｃ側の入力提示部４７は、提示データ通信部５８および表示部５９から概略構成されている。

上記入力装置Ｓ側の入力提示部３７における提示データ通信部５４は、通信ネットワーク等の通信手段を利用して、形状決定部５３で決定された各パラメータ値の表示形状を、入力装置Ｃ側の提示データ通信部５８に送信する。そうした後、各入力装置Ｓ,Ｃにおける表示部５５,５９によって、上記各パラメータ値の表示形状に従って、発声内容と各パラメータの変動および強度等とが発声話者に視覚的に提示される。

尚、図１０に示す入力提示部３７,４７の構成は、視覚的な表示を行う場合の構成であるが、上記第１実施の形態における図４や図６のように、聴覚的な表示を行うように構成することも可能であることは言うまでもない。その場合には、テキスト音声合成部によって生成された合成音声信号、または、音声選択部によって選択された音声信号を、提示データ通信部によって、入力装置Ｃ側の提示データ通信部に送信することになる。

ところで、図１０に示す入力提示部３７,４７の構成では、形状決定部５３で決定された各パラメータ値の表示形状を、提示データ通信部５４によって、入力装置Ｃ側の提示データ通信部５８に送信するようにしている。しかしながら、入力装置Ｓ側の入力提示部３７は、類似度演算用ターゲットパラメータ生成部５１で生成された類似度演算用ターゲットパラメータ、または、表示割り当て部５２で上記類似度演算用ターゲットパラメータの各パラメータに割り当てられた表示形状を、入力装置Ｃ側の入力提示部４７に送信することも可能である。

図１１は、上記類似度演算用ターゲットパラメータを入力装置Ｃ側の入力提示部４７に送信する場合の入力提示部３７,４７の構成を示す。入力装置Ｓ側の入力提示部３７は、類似度演算用ターゲットパラメータ生成部６１,ターゲットパラメータ通信部６２,表示割り当て部６３,形状決定部６４および表示部６５から概略構成されている。また、入力装置Ｃ側の入力提示部４７は、ターゲットパラメータ通信部６６,表示割り当て部６７,形状決定部６８および表示部６９から概略構成されている。このうち、類似度演算用ターゲットパラメータ生成部６１,表示割り当て部６３,６７,形状決定部６４,６８および表示部６５,６９は、上記第１実施の形態における図２に示す類似度演算用ターゲットパラメータ生成部１１,表示割り当て部１２,形状決定部１３および表示部１４と同じである。割り当て情報７０は、表示割り当て部６７が表示形状の割り当てを行う際に用いる。

そして、上記入力装置Ｓ側の入力提示部３７において、ターゲットパラメータ通信部６２によって、類似度演算用ターゲットパラメータ生成部６１で生成された類似度演算用ターゲットパラメータを、入力装置Ｃ側のターゲットパラメータ通信部６６に送信するようにしている。こうして、上記生成された類似度演算用ターゲットパラメータを両方の入力装置Ｓ,Ｃで共有することによって、両方の入力装置Ｓ,Ｃにおいて、表示割り当て部６３,６７によって割り当てられる上記類似度演算用ターゲットパラメータの各パラメータ値と表示形状との関係が同一に保たれ、利用者は入力提示部３７,４７で提示される提示情報を常に同一のものとして扱うことができるのである。

以上のようにして、上記両方の入力提示部３７,４７において、発声すべき内容と各パラメータの強度や変動が提示されると、入力タイミング提示部４０,５０によって、各音声データ入力部３１,４１に対する入力開始の同期が取られる。実際には、任意の１つの入力装置の入力タイミング提示部(図９においては、入力装置Ｓの入力タイミング提示部４０)が入力開始の同期を取るためのトリガを発生し、通信手段を用いて他の入力装置Ｃの入力タイミング提示部５０に伝送する。トリガを受けた入力装置Ｃの入力タイミング提示部５０は、受けたトリガに従って操作者に音声入力を促す。すなわち、例えば、入力提示部４７が上記提示情報を提示している画面上にトリガが入ってからのカウントダウンを表示してもよいし、予め記録されている音声によるカウントダウンを出力してもよい。要は、入力開始を知らせることが可能な方法であれば何れの方法を用いても差し支えない。

こうして提示された発声内容と各パラメータの変動および強度等と、カウントダウン表示とに従って、各々の入力装置Ｓ,Ｃに対してタイミングを合わせて音声が入力される。そうすると、入力された音声は、各々の入力装置Ｓ,Ｃにおいて、音声データ入力部３１,４１、パラメータ抽出部３２,４２、音声認識部３３,４３において、上記第１実施の形態における図１に示す音声データ入力部１,パラメータ抽出部２および音声認識部３と同様の処理が行われる。

上記入力装置Ｓの類似度演算部３４は、入力装置Ｃ側のパラメータ抽出部４２および音声認識部４３と通信を行い、各々の音声認識部３３,４３による音声認識結果に基づいて各々のパラメータ抽出部３２,４２で抽出された各パラメータを用いて、類似度の算出を行う。その場合、
（Ａ）複数の入力装置Ｓ,Ｃのうちの任意の入力装置において入力音声から抽出されたパラメータをターゲットのパラメータ(類似度演算用ターゲットパラメータ)として、各入力装置Ｓ,Ｃ毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
（Ｂ）複数の入力装置Ｓ,Ｃにおいて入力音声から抽出された総てのパラメータの各パラメータ毎の平均値を、ターゲットのパラメータ(類似度演算用ターゲットパラメータ)として、各入力装置Ｓ,Ｃ毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
（Ｃ）予め本入力システムで提示される類似度演算用ターゲットパラメータ(例えば、入力装置Ｓの入力提示部３７で生成された類似度演算用ターゲットパラメータ)を用いて、各入力装置Ｓ,Ｃ毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
等が可能である。

操作部３５は、上述のようにして類似度演算部３４で得られた類似度あるいはリジェクト情報［Ｒj］に従って、予め設定されている操作を行う。但し、類似度が送出されてきた場合には、与えられた類似度に従って、予め各類似度に対応して設定されている操作を行う。この操作は、機器そのものを動作させるものであってもよいし、ゲーム等のキャラクタを動作させるなどのソフトウェアの入力であってもよく、入力によって行われる総ての動作を割り当てることができる。これに対して、リジェクト情報［Ｒj］が送出されてきた場合には、操作対象に対する操作の実行は行わず、リジェクトした旨の提示を行う。

誤差情報提示部３６は、上記類似度演算部３４による類似度演算の結果に基づいて、入力音声から抽出されたパラメータが上記類似度演算用ターゲットパラメータに対してどの程度の誤差を有するかを演算する。そして、その算出結果を、表示割り当て部５２の場合と同様の方法によって、文字,数値および図形等を用いて操作者が直感的に理解できるように提示する。その結果、操作者は、誤差情報提示部３６による提示内容と入力提示部７による提示内容とを参照することによって、音声データ入力部１に対する発声をどのようにすれば、入力音声のパラメータを上記ターゲットパラメータにより近づけることができるのかを直感的に理解することができ、次回の音声入力の校正が期待できるのである。

さらに、上記入力装置Ｓおよび入力装置Ｃには、誤差情報提示部３６による入力音声から抽出されたパラメータの上記類似度演算用ターゲットパラメータに対する誤差情報の提示機能だけではなく、他の入力装置への入力音声をモニタリングする機能を追加することも可能である。図１２は、他の入力装置への入力音声を音声そのものでモニタリングする構成を示すブロック図である。

上記入力装置Ｓには、入力音声送出部７１と音声提示部７２とが搭載されている。同様に、入力装置Ｃには、入力音声送出部７３と音声提示部７４とが搭載されている。入力装置Ｓ側の入力音声送出部７１は、音声データ入力部３１からの入力音声のディジタル音声信号を受けて、パラメータ抽出部３２に送出すると共に、入力装置Ｃの音声提示部７４に送信する。また、音声提示部７２は、入力装置Ｃの入力音声送出部７３から送信されてくる入力装置Ｓの音声データ入力部４１への入力音声のディジタル音声信号を受信して、音声による出力や波形の表示等によって操作者に他の入力装置Ｃでの入力音声を提示する。

尚、上記入力装置Ｃ側の入力音声送出部７３および音声提示部７４も、入力装置Ｓ側の入力音声送出部７１および音声提示部７２と同様に動作する。

また、上記入力装置Ｓおよび入力装置Ｃに追加される他の音声入力をモニタリングする機能は、音声そのものでモニタリングする場合の他に、視覚的にモニタリングすることも可能である。図１３は、他の入力装置への入力音声を視覚的にモニタリングする構成を示すブロック図である。

上記入力装置Ｓには、パラメータ送出部７５とパラメータ提示部７６とが搭載されている。同様に、入力装置Ｃには、パラメータ送出部７７とパラメータ提示部７８とが搭載されている。入力装置Ｓ側のパラメータ送出部７５は、パラメータ抽出部３２で抽出された各種のパラメータを受けて、類似度演算部３４に送出すると共に、入力装置Ｃのパラメータ提示部７８に送信する。また、パラメータ提示部７６は、入力装置Ｃのパラメータ送出部７７から送信されてくる入力装置Ｓへの入力音声から抽出された各種のパラメータを受信して、視覚的に表示する。

ここで、上記パラメータ提示部７６は、表示割り当て部７９,形状決定部８０および表示部８１で構成される。そして、表示割り当て部７９は、入力された各パラメータに対して、割り当て情報８２に従って表示形態の割り当てを行う。さらに、形状決定部８０は、上記入力された各パラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、上記各パラメータ値の表示形状を決定する。また、表示部８１は、上記決定された各パラメータ値の表示形状に従って、入力された各パラメータのパラメータ値を視覚的に表示する。

尚、上記入力装置Ｃ側のパラメータ送出部７７およびパラメータ提示部７８も、入力装置Ｓ側のパラメータ送出部７５およびパラメータ提示部７７と同じ構成を有して同様に動作する。

こうして、入力装置Ｓ側のパラメータ提示部７６によって、入力装置Ｃ側の入力音声を視覚的にモニタリングできる。同様に、入力装置Ｃ側のパラメータ提示部７８によって、入力装置Ｓ側の入力音声を視覚的にモニタリングできるのである。

以上のように、本入力システムによれば、複数の入力装置Ｓ,Ｃへの音声入力によってある対象への操作の実行を行うことができるのである。例えば、通信ゲーム等において、同じ発声を同じタイミングで行った場合には第１の動作を行わせ、タイミングが少しずれて同じ発声が行われた場合には第２の動作を行わせ、タイミングが大きくずれて同じ発声が行われた場合には第３の動作を行わせるような操作が可能になる。また、複数の音声入力を複数の発声話者によって行わなければ動作させないような操作を行うことも可能である。

尚、上記第２実施の形態においては、説明を簡単にするため、入力装置Ｓをサーバのように、入力装置Ｃをクライアントのように扱った。しかしながら、上記何れの機能も各入力装置Ｓ,Ｃは有しており、任意にその役割を変更することができる。さらに、入力装置Ｓが担った動作を行うサーバを設定し、このサーバによって入力装置Ｓと同様の動作を行うことも可能である。

また、上記第２実施の形態においては、上記パラメータ抽出部４２,音声認識部４３,類似度演算部３４,誤差情報提示部３６,入力提示部３７,４７および入力タイミング提示部４０,５０の夫々に通信機能を有して、個別に他の入力装置との通信を行っている。しかしながら、各入力装置に、専用の通信部を設け、各部は上記専用の通信部を介して他の入力装置との通信を行うようにすることも可能である。

ところで、上記第１実施の形態における上記音声データ入力部１,パラメータ抽出部２,音声認識部３,類似度演算部４,操作部５,誤差情報提示部６,および入力提示部７としての機能、および、上記第２実施の形態における音声データ入力部３１,４１,パラメータ抽出部３２,４２,音声認識部３３,４３,類似度演算部３４,操作部３５,誤差情報提示部３６,入力提示部３７,４７,入力タイミング提示部４０,５０としての機能は、プログラム記録媒体に記録された入力処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)(図示せず)でなるプログラムメディアである。または、外部補助記憶装置(図示せず)に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、プログラムメディアから入力処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、ＲＡＭ(ランダム・アクセス・メモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記ＲＡＭのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。

ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやＣＤ(コンパクトディスク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディスク),ＤＶＤ(ディジタル多用途ディスク)等の光ディスクのディスク系、ＩＣ(集積回路)カードや光カード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。

また、上記第１実施の形態における入力装置および上記第２実施の形態における入力システムは、インターネット等の通信ネットワークと通信Ｉ/Ｆを介して接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。

尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。

この発明の入力装置における構成を示すブロック図である。視覚的な提示を行う入力提示部の構成を示す図である。図２に示す入力提示部による提示動作の手順を示す図である。テキスト音声合成を用いた聴覚的な提示を行う入力提示部の構成を示す図である。図４に示す入力提示部による提示動作の手順を示す図である。予め用意されている音声データを用いて聴覚的な提示を行う入力提示部の構成を示す図である。図６に示す入力提示部による提示動作の手順を示す図である。各種パラメータを示す図である。２つの入力装置を有する入力システムの構成を示すブロック図である。図９における２つの入力提示部の構成を示す図である。図９における２つの入力提示部の図１０とは異なる構成を示す図である。他の入力装置への入力音声を聴覚的にモニタリングする構成を示す図である。他の入力装置への入力音声を視覚的にモニタリングする構成を示す図である。

符号の説明

１,３１,４１…音声データ入力部、
２,３２,４２…パラメータ抽出部、
３,３３,４３…音声認識部、
４,３４…類似度演算部、
５,３５…操作部、
６,３６…誤差情報提示部、
７,３７,４７…入力提示部、
８,３８…演算情報テーブル、
９,３９…ターゲットパラメータ、
１１,５１,６１…類似度演算用ターゲットパラメータ生成部、
１２,５２,６３,６７,７９…表示割り当て部、
１３,５３,６４,６８,８０…形状決定部、
１４,５５,５９,６５,６９,８１…表示部、
２１…テキスト音声合成部、
２２,２４…音声出力部、
２３…音声選択部、
２５…提示音声データベース(ＤＢ)、
４０,５０…入力タイミング提示部、
５４,５８…提示データ通信部、
６２,６６…ターゲットパラメータ通信部、
７１,７３…入力音声送出部、
７２,７４…音声提示部、
７５,７７…パラメータ送出部、
７６,７８…パラメータ提示部。

Claims

入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示部と、
上記音声データ入力部で得られた音声データから音響パラメータを抽出するパラメータ抽出部と、
上記パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算部と、
上記類似度演算部で算出された類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴とする入力装置。
請求項１に記載の入力装置において、
上記入力提示部は、上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成し、この生成された類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報の提示を行うようになっていることを特徴とする入力装置。
請求項２に記載の入力装置において、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキストの表示,画像の表示,上記テキストあるいは画像の表示形状,上記テキストあるいは画像の色,上記テキストあるいは画像の表示位置,上記テキストあるいは画像の動きおよびそれらの組み合わせによって提示するようになっていることを特徴とする入力装置。
請求項２に記載の入力装置において、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、音声によって提示するようになっていることを特徴とする入力装置。
請求項４に記載の入力装置において、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキスト音声合成によって生成された合成音声によって提示するようになっていることを特徴とする入力装置。
請求項２に記載の入力装置において、
上記類似度演算部は、上記予め設定されたターゲットパラメータとして、上記入力提示部によって生成された類似度演算用ターゲットパラメータを用いるようになっていることを特徴とする入力装置。
請求項１に記載の入力装置において、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えたことを特徴とする入力装置。
少なくとも、
入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報を生成して提示する入力提示部と、
上記音声データ入力部に入力すべき音声の入力開始のタイミングを提示する入力タイミング提示部と、
上記音声データ入力部によって得られた音声データから音響パラメータを抽出するパラメータ抽出部と
を備えた複数の入力装置と、
上記複数の入力装置の各パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を、各入力装置毎に算出する類似度演算部と、
上記類似度演算部で算出された上記類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記各入力装置の上記入力提示部は、
上記生成した提示情報を他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた提示情報を受信する提示データ通信部と、
上記生成した提示情報および上記提示データ通信部を介して受信した他の入力装置の入力提示部からの提示情報の少なくとも何れか一方を表示する表示部と
を備えたことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記各入力装置の上記入力提示部は、
上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成する類似度演算用ターゲットパラメータ生成部と、
上記生成された類似度演算用ターゲットパラメータを他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた類似度演算用ターゲットパラメータを受信するターゲットパラメータ通信部と、
予め音響パラメータに表示形状を割り当てて成る割り当て情報に従って、上記生成された類似度演算用ターゲットパラメータおよび上記ターゲットパラメータ通信部を介して受信した他の入装置の入力提示部からの類似度演算用ターゲットパラメータの少なくとも何れか一方に表示形状を割り当てる表示割り当て部と、
上記類似度演算用ターゲットパラメータの値と上記表示割り当て部による上記類似度演算用ターゲットパラメータに対する表示形状の割り当て結果とに基づいて、上記類似度演算用ターゲットパラメータの値の表示形状を決定する形状決定部と、
上記類似度演算用ターゲットパラメータの値を上記決定された表示形状で表示する表示部と
を備えたことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部は、上記複数の入力装置の何れかあるいは上記サーバに搭載されており、
上記入力タイミング提示部は、上記類似度演算部が搭載された入力装置あるいは上記類似度演算部が搭載されたサーバから与えられた指令によって、音声の入力開始のタイミングの提示を行うようになっている
ことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えたことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記各入力装置には、他の入力装置の音声データ入力部に入力された音声のモニタリングを行うモニタリング部を備えたことを特徴とする入力システム。
請求項１３に記載の入力システムにおいて、
上記モニタリング部は、
上記音声データ入力部によって得られた音声データを他の入力装置のモニタリング部に送信する入力音声送信部と、
他の入力装置のモニタリング部から送信されてきた音声データを受信すると共に、この受信した音声データに基づいて、他の入力装置に入力された音声を提示する音声提示部と
を備えたことを特徴とする入力システム。
請求項１３に記載の入力システムにおいて、
上記モニタリング部は、
上記パラメータ抽出部で抽出された音響パラメータを他の入力装置のモニタリング部に送信するパラメータ送信部と、
他の入力装置のモニタリング部から送信されてきた音響パラメータを受信すると共に、上記割り当て情報に従って、上記受信した各音響パラメータに表示形状を割り当てる表示割り当て部と、
上記受信した音響パラメータの値と上記表示割り当て部による上記音響パラメータに対する表示形状の割り当て結果とに基づいて、上記受信した音響パラメータの値の表示形状を決定する形状決定部と、
上記受信した音響パラメータの値を上記決定された表示形状で表示する表示部と
を備えたことを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記類似度演算部は、上記ターゲットパラメータの値として、上記複数の入力装置のうちの何れか１つの入力装置のパラメータ抽出部で抽出された音響パラメータの値を用いることを特徴とする入力システム。
請求項８に記載の入力システムにおいて、
上記類似度演算部は、上記各ターゲットパラメータの値として、上記複数の入力装置のパラメータ抽出部で抽出された音響パラメータの値の統計値を用いることを特徴とする入力システム。
請求項１に記載の入力装置において、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも１つであることを特徴とする入力装置。
請求項８に記載の入力システムにおいて、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも１つであることを特徴とする入力システム。
請求項１に記載の入力装置において、
当該入力装置は、サーバを有する通信ネットワークに接続されており、
上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか１つは、上記サーバに搭載されている
ことを特徴とする入力装置。
請求項８に記載の入力システムにおいて、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部,操作部および何れか１つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか１つは、上記サーバに搭載されている
ことを特徴とする入力システム。
入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示ステップと、
入力された音声を音声データに変換する音声入力ステップと、
上記得られた音声データから音響パラメータを抽出するパラメータ抽出ステップと、
上記抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算ステップと、
上記算出された類似度に応じて、予め定められた操作を行う操作ステップと
を備えたことを特徴とする入力方法。
コンピュータを、
請求項１における音声データ入力部,入力提示部,パラメータ抽出部,類似度演算部および操作部
として機能させることを特徴とする入力処理プログラム。
コンピュータを、
請求項８における音声データ入力部,入力提示部,入力タイミング提示部,パラメータ抽出部,類似度演算部および操作部
として機能させることを特徴とする入力処理プログラム。
請求項２３あるいは請求項２４に記載の入力処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。