JP2007017733A - 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 - Google Patents

入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 Download PDF

Info

Publication number
JP2007017733A
JP2007017733A JP2005199749A JP2005199749A JP2007017733A JP 2007017733 A JP2007017733 A JP 2007017733A JP 2005199749 A JP2005199749 A JP 2005199749A JP 2005199749 A JP2005199749 A JP 2005199749A JP 2007017733 A JP2007017733 A JP 2007017733A
Authority
JP
Japan
Prior art keywords
input
unit
parameter
presentation
similarity calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005199749A
Other languages
English (en)
Inventor
Kazuhiro Miki
一浩 三木
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2005199749A priority Critical patent/JP2007017733A/ja
Publication of JP2007017733A publication Critical patent/JP2007017733A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 複数の音声入力に関連付けた操作を可能にする。
【解決手段】 パラメータ抽出部2は入力音声から各パラメータ値を抽出する。入力提示部7は、演算情報テーブル8およびターゲットパラメータ9に基づいて類似度演算用ターゲットパラメータを生成し、視覚的または聴覚的に提示する。類似度演算部4は、上記抽出された各パラメータ値と上記生成された各ターゲットパラメータ値との差分の二乗の重み付き和を、類似度として算出する。操作部5は、上記算出された類似度に従って対象に操作を行う。したがって、上記類似度演算用ターゲットパラメータのごとく予め指定されたパラメータとの類似度や、2つの音声入力から抽出されたパラメータの類似度や、代表的な音声入力から抽出されたパラメータと複数の音声入力から抽出されたパラメータとの類似度等、類似度演算方法を様々変えることによって、複数の音声入力に関連付けた操作を行うことが可能になる。
【選択図】図1

Description

この発明は、音声を利用した入力装置,入力システム,入力方法,入力処理プログラムおよびプログラム記録媒体に関する。
現在、携帯電話やPDA(Personal Digital Assistant)や小型のゲーム機等において、その処理能力の向上やメモリ容量の増加から、音声認識インタフェースが一般にも利用されだしている。実際には、テレビのチャンネルを発声することで「チャンネルの変更」を行う等のボタン操作の代替手段としての利用や、「スポーツ」と発声してテレビのスポーツ番組を視聴する等の思いついた単語を発声することで関連した情報を検索する利用が一般的である。
また、音声認識技術の一部である話者認識を利用したセキュリティー技術やゲームの入力インタフェースとしての利用も検討されている。例えば、特開2001‐347066公報(特許文献1)に開示されたクイズゲーム装置では、複数の音声入力から、入力の順番や入力データの大きさや話者認識の結果等の個々のデータの状況に応じて1つの発声を選択/音声認識し、回答権を得た入力音声に対しその合否を判定している。また、WO98/2223(特許文献2)に開示されたゲーム装置では、音声認識結果だけではなく、入力された音声信号におけるパワーの大きさ等の音声信号の状況を測定し、その状況に応じてゲームの動作を行っている。
しかしながら、上記従来の音声認識技術を利用したゲーム装置においては、以下のような問題がある。すなわち、上記特許文献1におけるクイズゲーム装置においては、発声話者特定手段を用いて、複数の発声からその1以上の音声に対して音声認識を行ってはいるものの、この発声話者特定手段を用いて発声話者を特定した後は通常の音声認識処理に従って音声認識を行っている。こうして、音声認識処理の前段または音声認識処理中において認識対象を選択してはいるが、その認識結果に応じた動作は「正解/不正解」の単純な正解判定のみであり、操作入力の手段としては最も単純なものである。そのため、このクイズゲーム装置においては、音声認識結果を利用した複雑な制御を行うことは難しく、操作入力装置としての汎用性に乏しい。
これに対して、上記特許文献2におけるゲーム装置においては、入力音声に対しそのパワーやピッチやデータの立ち上がり情報等の音響パラメータ(以下、単にパラメータと言う)を用いることによって、音声認識結果を含めた汎用的な操作が可能となっている。この特許文献2におけるゲーム装置での各パラメータの利用方法は、各パラメータの絶対値そのものを利用した操作である。特許文献2にも記載されているように、この音声入力による操作は、単独の入力音声で動作するゲーム等の操作において、「ボタンを長く押すこと等で特別な動作を行う」操作と同様に、音声データのパラメータを利用する(例えば、パラメータ「声の大きさ」に関して「大きな声で入力する事で特別な動作を行う」)操作であり、ハードウェアとしての入力装置を増やすことなく動作のパターンを増やすことができるという点から利用し易いという特長がある。
しかしながら、この特許文献2による入力方法は、単独の入力音声に対しては非常に利用し易い方法ではあるが、複数の音声入力がある場合には、その各入力音声を個々の単独操作の組み合わせとして利用することはできるものの、それら複数の音声入力を関連付けて利用することが難しいという問題がある。通信のインフラ整備が進む現在においては、ネットワークを利用したロールプレイングゲーム等の各端末間において、通信を行いながら操作を行うものも増加しており、音声入力のパラメータをボタンの代わりに利用するだけではなく、各端末から入力された複数の音声情報を上手く操作入力の一部として利用する必要がある。しかしながら、特許文献2による入力方法において、これを実現することは難しいのである。
さらに、上記特許文献2における入力方法においては、どのような発声単語をどのように発声すれば操作を行うことができるのかを提示する方法が無いという問題がある。例えば、「ジャンプ」という発声を行うことによって、その声の大きさに応じた高さでゲーム内のキャラクタがジャンプする場合に、どの程度の大きさで発声すれば適当な操作を行うことができるのか等の「発声する単語」と「操作に関わるパラメータの適当な大きさ」等を提示する方法が無く、利用しづらい操作インタフェースになっている。複数の音声入力を関連付けて操作を行う場合にもこの問題は重要であり、音声発声のタイミングを提示する等、複数の端末に対してどのような発声を行わせるのかを提示する必要がある。
特開2001‐347066公報 WO98/2223
そこで、この発明の課題は、複数の音声入力を互いに関連付けた操作が可能な音声を利用した入力装置,入力システム,入力方法,入力処理プログラムおよびプログラム記録媒体を提供することにある。
上記課題を解決するため、この発明の入力装置は、
入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示部と、
上記音声データ入力部で得られた音声データから音響パラメータを抽出するパラメータ抽出部と、
上記パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算部と、
上記類似度演算部で算出された類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴としている。
上記構成によれば、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うようにしている。したがって、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。
さらに、予め指定されたターゲットパターンとの類似度、2つの入力音声に関する類似度、複数の入力音声とその中の代表的な入力音声との類似度等、様々な類似度演算方法を設定することによって、複数の入力音声を関連づけた操作を行うことが可能になる。
さらに、上記入力提示部によって、上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記入力提示部による提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができ、より利用し易い音声操作装置を構築することが可能になる。
また、1実施の形態の入力装置では、
上記入力提示部は、上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成し、この生成された類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報の提示を行うようになっている。
この実施の形態によれば、上記入力提示部は類似度演算用の音響パラメータの提示情報を提示するので、上記対象の操作に必要な音響パラメータの提示情報のみを提示して、効率よく且つ的確に所望の操作を行うことができる。
また、1実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキストの表示,画像の表示,上記テキストあるいは画像の表示形状,上記テキストあるいは画像の色,上記テキストあるいは画像の表示位置,上記テキストあるいは画像の動きおよびそれらの組み合わせによって提示するようになっている。
この実施の形態によれば、操作者は、入力すべき(つまり、発声すべき)音声の内容と音響パラメータの大きさおよび変動とを、上記テキストあるいは画像の表示形状,色,表示位置,動きおよびそれらの組み合わせによって、視覚によって具体的に知ることができる。したがって、操作者は、上記提示された提示情報に合わせて発声を行うことによって、上記対象に対して簡単に所望の操作を行うことができる。
また、1実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、音声によって提示するようになっている。
この実施の形態によれば、操作者は、入力すべき(つまり、発声すべき)音声の内容と音響パラメータの大きさおよび変動とを、音声によって具体的に知ることができる。したがって、操作者は、上記提示された提示情報を真似て発声を行うことによって、上記対象に対して簡単に所望の操作を行うことができる。
また、1実施の形態の入力装置では、
上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキスト音声合成によって生成された合成音声によって提示するようになっている。
この実施の形態によれば、上記提示情報を、上記類似度演算用ターゲットパラメータの大きさおよび変動に基づいて、テキスト音声合成法で生成するので、上記類似度演算用ターゲットパラメータの大きさおよび変動を的確に表す音声で上記提示情報を提示することができる。
また、1実施の形態の入力装置では、
上記類似度演算部は、上記予め設定されたターゲットパラメータとして、上記入力提示部によって生成された類似度演算用ターゲットパラメータを用いるようになっている。
この実施の形態によれば、上記入力提示部で提示された類似度演算用ターゲットパラメータを、上記予め設定されたターゲットパラメータとして用いるので、操作者に提示されたターゲットパラメータを類似度演算用のターゲットパラメータとして用いることによって類似度を高めて、効率よく且つ的確に所望の操作を行うことができる。
また、1実施の形態の入力装置では、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えている。
この実施の形態によれば、操作者は、どのように発声すればより上記ターゲットパラメータに近づけることができるのかを直感的に理解することができる。したがって、次回の音声入力時における上記類似度をさらに高めることができる。
また、この発明の入力システムは、
少なくとも、
入力された音声を音声データに変換する音声データ入力部と、
上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報を生成して提示する入力提示部と、
上記音声データ入力部に入力すべき音声の入力開始のタイミングを提示する入力タイミング提示部と、
上記音声データ入力部によって得られた音声データから音響パラメータを抽出するパラメータ抽出部と
を備えた複数の入力装置と、
上記複数の入力装置の各パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を、各入力装置毎に算出する類似度演算部と、
上記類似度演算部で算出された上記類似度に応じて、予め定められた操作を行う操作部と
を備えたことを特徴としている。
上記構成によれば、複数の入力装置への音声入力によってある対象への操作の実行を行うことができる。したがって、複数の入力装置への入力音声を関連づけた操作を行うことが可能になる。
また、1実施の形態の入力システムでは、
上記各入力装置の上記入力提示部は、
上記生成した提示情報を他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた提示情報を受信する提示データ通信部と、
上記生成した提示情報および上記提示データ通信部を介して受信した他の入力装置の入力提示部からの提示情報の少なくとも何れか一方を表示する表示部と
を備えている。
この実施の形態によれば、上記複数の入力装置の操作者は、上記入力提示部の表示部に表示される提示情報を共有することができ、上記複数の入力装置への入力音声の関連づけを簡単に行うことが可能になる。
また、1実施の形態の入力システムでは、
上記各入力装置の上記入力提示部は、
上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成する類似度演算用ターゲットパラメータ生成部と、
上記生成された類似度演算用ターゲットパラメータを他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた類似度演算用ターゲットパラメータを受信するターゲットパラメータ通信部と、
予め音響パラメータに表示形状を割り当てて成る割り当て情報に従って、上記生成された類似度演算用ターゲットパラメータおよび上記ターゲットパラメータ通信部を介して受信した他の入装置の入力提示部からの類似度演算用ターゲットパラメータの少なくとも何れか一方に表示形状を割り当てる表示割り当て部と、
上記類似度演算用ターゲットパラメータの値と上記表示割り当て部による上記類似度演算用ターゲットパラメータに対する表示形状の割り当て結果とに基づいて、上記類似度演算用ターゲットパラメータの値の表示形状を決定する形状決定部と、
上記類似度演算用ターゲットパラメータの値を上記決定された表示形状で表示する表示部と
を備えている。
この実施の形態によれば、操作者は、上記類似度演算用ターゲットパラメータの値を表示部に表示される表示形状で視覚的に分かり易く知ることができる。さらに、上記複数の入力装置の操作者は、上記入力提示部の表示部に表示される提示情報を共有することができ、上記複数の入力装置への入力音声の関連づけを簡単に行うことが可能になる。
また、1実施の形態の入力システムでは、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部は、上記複数の入力装置の何れかあるいは上記サーバに搭載されており、
上記入力タイミング提示部は、上記類似度演算部が搭載された入力装置あるいは上記類似度演算部が搭載されたサーバから与えられた指令によって、音声の入力開始のタイミングの提示を行うようになっている。
この実施の形態によれば、上記入力タイミング提示部によって音声の入力開始のタイミングの提示を行うので、上記複数の入力装置への入力音声の関連づけを行う際に、各入力装置への音声の入力開始のタイミングを加味した関連づけが可能になる。
また、1実施の形態の入力システムでは、
上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えている。
この実施の形態によれば、上記複数の入力装置の各操作者は、どのように発声すればより上記ターゲットパラメータに近づけることができるのかを直感的に理解することができる。したがって、次回の音声入力時における上記類似度をさらに高めることができる。
また、1実施の形態の入力システムでは、
上記各入力装置には、他の入力装置の音声データ入力部に入力された音声のモニタリングを行うモニタリング部を備えている。
この実施の形態によれば、他の入力装置の音声データ入力部への入力音声をモニタリングできるので、入力装置の音声データ入力部への音声の入力開始のタイミングを容易に図ることが可能になる。
また、1実施の形態の入力システムでは、
上記モニタリング部は、
上記音声データ入力部によって得られた音声データを他の入力装置のモニタリング部に送信する入力音声送信部と、
他の入力装置のモニタリング部から送信されてきた音声データを受信すると共に、この受信した音声データに基づいて、他の入力装置に入力された音声を提示する音声提示部と
を備えている。
この実施の形態によれば、他の入力装置のモニタリング部から送信されてきた音声データに基づいて、他の入力装置に入力された音声を音声そのもので提示することができる。
また、1実施の形態の入力システムでは、
上記モニタリング部は、
上記パラメータ抽出部で抽出された音響パラメータを他の入力装置のモニタリング部に送信するパラメータ送信部と、
他の入力装置のモニタリング部から送信されてきた音響パラメータを受信すると共に、上記割り当て情報に従って、上記受信した各音響パラメータに表示形状を割り当てる表示割り当て部と、
上記受信した音響パラメータの値と上記表示割り当て部による上記音響パラメータに対する表示形状の割り当て結果とに基づいて、上記受信した音響パラメータの値の表示形状を決定する形状決定部と、
上記受信した音響パラメータの値を上記決定された表示形状で表示する表示部と
を備えている。
この実施の形態によれば、他の入力装置のモニタリング部から送信されてきた音響パラメータに基づいて、他の入力装置に入力された音声の音響パラメータを視覚的に提示することができる。
また、1実施の形態の入力システムでは、
上記類似度演算部は、上記ターゲットパラメータの値として、上記複数の入力装置のうちの何れか1つの入力装置のパラメータ抽出部で抽出された音響パラメータの値を用いている。
この実施の形態によれば、上記類似度演算部による類似度演算用の上記ターゲットパラメータの値として用いられた上記入力装置への入力音声と、その他の上記入力装置への入力音声との関連性によって、上記対象への操作が行われる。
また、1実施の形態の入力システムでは、
上記類似度演算部は、上記各ターゲットパラメータの値として、上記複数の入力装置のパラメータ抽出部で抽出された音響パラメータの値の統計値を用いる。
この実施の形態によれば、上記複数の入力装置への入力音声の統計値と、その他の上記入力装置への入力音声との関連性によって、上記対象への操作が行われる。
また、1実施の形態の入力装置では、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも1つである。
この実施の形態によれば、上記種々の音響パラメータのうち、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。
また、1実施の形態の入力システムでは、
上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも1つである。
この実施の形態によれば、上記種々の音響パラメータのうち、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。
また、1実施の形態の入力装置では、
当該入力装置は、サーバを有する通信ネットワークに接続されており、
上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか1つは、上記サーバに搭載されている。
この実施の形態によれば、上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか1つを、計算能力に優れた上記サーバに搭載している。したがって、上記各部における処理や演算をより高速に行うことができる。さらに、本入力装置を各種の装置に搭載する際に、本入力装置を搭載したことによる上記各種の装置の構成が複雑になるのを最小限に抑えることができる。したがって、様々な装置で本入力装置を利用することが可能になる。
また、1実施の形態の入力システムでは、
上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
上記類似度演算部,操作部および何れか1つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか1つは、上記サーバに搭載されている。
この実施の形態によれば、上記類似度演算部,操作部および何れか1つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか1つを、計算能力に優れた上記サーバに搭載している。したがって、上記各部における処理や演算をより高速に行うことができる。さらに、本入力システムを各種のシステムに搭載する際に、本入力システムを搭載したことによる上記各種のシステムの構成が複雑になるのを最小限に抑えることができる。したがって、様々なシステムで本入力システムを利用することが可能になる。
また、この発明の入力方法は、
入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示ステップと、
入力された音声を音声データに変換する音声入力ステップと、
上記得られた音声データから音響パラメータを抽出するパラメータ抽出ステップと、
上記抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算ステップと、
上記算出された類似度に応じて、予め定められた操作を行う操作ステップと
を備えたことを特徴としている。
上記構成によれば、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うようにしている。したがって、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、ある対象に対する操作の数を拡大することができる。
さらに、上記入力提示ステップによって、上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができる。
また、この発明の入力処理プログラムは、
コンピュータを、
上記入力装置における音声データ入力部,入力提示部,パラメータ抽出部,類似度演算部および操作部
として機能させる。
また、この発明の入力処理プログラムは、
コンピュータを、
上記入力システムにおける音声データ入力部,入力提示部,入力タイミング提示部,パラメータ抽出部,類似度演算部および操作部
として機能させる。
また、この発明のプログラム記録媒体は、
上記入力処理プログラムが記録されている。
以上より明らかなように、この発明の入力装置は、個々の音響パラメータ値そのものではなく、各音響パラメータ毎の差分値に基づく類似度に応じて、対象に対する操作を行うので、例えば、上記類似度算出の際に用いる音響パラメータや付加する重み等を変えた演算パターンを設定することによって、単一の音響パラメータ値の変動に応じた操作から複数の音響パラメータ値の変動に応じた操作まで、上記対象に対する操作の数を拡大することができる。
さらに、予め指定されたターゲットパターンとの類似度、2つの入力音声に関する類似度、複数の入力音声とその中の代表的な入力音声との類似度等、様々な類似度演算方法を設定することによって、複数の入力音声を関連づけた操作を行うことが可能になる。
さらに、入力提示部によって、音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行うようにしている。したがって、操作者は、上記入力提示部による提示内容に従って発声することによって、上記対象に対して所望の操作を行うことができ、より利用し易い音声操作装置を構築することが可能になる。
また、この発明の入力システムは、複数の入力装置への音声入力によって、ある対象への操作の実行を行うことができる。したがって、複数の入力装置への入力音声を関連づけた操作を行うことが可能になる。
以下、この発明を図示の実施の形態により詳細に説明する。
・第1実施の形態
図1は、本実施の形態の入力装置における機能的構成を示すブロック図である。以下、図1に従って、各部の構成と音声が入力された場合の各部の動作とについて説明する。
図1において、1は音声データ入力部であり、一般的に利用されるマイクロホン等で構成され、入力されるアナログの音声信号をデジタルの音声信号に変換して、パラメータ抽出部2および音声認識部3に送出する。パラメータ抽出部2は、演算情報テーブル8から与えられる演算情報に従って、デジタル音声信号から各種音響パラメータ(以下、単にパラメータと言う)の抽出を行う。音声認識部3は、一般的に従来から利用されている入力音声と内蔵しているモデル(複数の辞書)との差の値に基づいて音声認識を行うものであればどのようなものでもよい。但し、本実施の形態における音声認識部3は、演算情報テーブル8から与えられた演算情報によって、認識結果,認識スコア,音素継続時間長および入力音声の継続時間長のうちの少なくとも1つが類似度演算に利用される場合について音声認識を行う。
そして、上記音声認識部3は、音声認識の結果および音声認識時のスコアが利用される場合には、音声認識結果と、入力された音声が「各モデルの音声である確からしさの度合い」を示す値(モデルに対する尤度)とを、類似度演算部4に送出する。また、類似度演算部4による類似度演算の際に音素継続時間長および入力音声の継続時間長が利用される場合には、音声認識時に割り振られる音声認識結果の音素と音声データの割り付けであるセグメント情報(後に詳述)とをパラメータ抽出部2に送出するようになっている。そうすると、パラメータ抽出部2は、各種のパラメータを上記演算情報に従って入力音声から抽出し、類似度演算に必要なパラメータを類似度演算部4に送出するのである。
上記類似度演算部4は、上記演算情報テーブル8から得られる演算情報に基づいて、各パラメータに関して類似度を算出する。その際に、基本的に量的差分を計算できず、正解または不正解の結果のみが与えられるパラメータが、不正解である場合には、リジェクト情報を出力する。操作部5は、類似度演算部4で得られた類似度またはリジェクト情報に従って、操作対象に対して操作を行う。尚、リジェクト情報が得られた場合には、操作対象への操作は行わず、リジェクトした旨を提示する。
6は誤差情報提示部であり、上記類似度演算部4による類似度の演算結果に基づいて、入力された音声のターゲットパラメータに対する誤差を演算する。そして、その演算結果を、後に詳述する入力提示部7の表示割り当て部12の場合と同様の方法によって、文字,数値および図形等を用いて操作者が直感的に理解できるように提示する。したがって、話者は、どのように発声すればよりターゲットパラメータに近づけることができるのかを直感的に理解することができ、次回の音声入力時における上記誤差の低下が期待できる。
7は入力提示部であり、上記ターゲットパラメータ9に格納された類似度演算に必要なターゲットパラメータを、演算情報テーブル8から得られる情報に基づいて抽出し、発声の内容,ピッチの高さおよびアクセントの位置等の発声の形態を操作者に提示する。操作者は、この入力提示部7によって提示された提示情報に基づいて発声を行うのである。
以下、上記構成を有する入力装置における各部の動作について、さらに具体的に説明する。
上記音声データ入力部1に入力される音声は、上述したように、入力提示部7によって提示された発声の内容,ピッチの高さおよびアクセントの位置等の「発声の形態の情報」に従って発声される。その際に、入力提示部7は、「発声する音声の内容」,「入力音声のパワー」,「ピッチ」,「音素の継続時間長」,「入力音声の継続時間長」,「音声入力までの時間」および「話者」の提示を、演算情報テーブル8から得られる演算情報に基づいて行う。ここで、演算情報テーブル8には、「類似度演算に用いるパラメータ」と夫々のパラメータに関する「類似度演算時の重み」および「リジェクト情報」等との類似度演算に必要な演算情報が格納されている。この情報は、例えば、以下に示す表1のように表現することができる。
Figure 2007017733
表1に示す上記演算情報テーブル8における「演算パターン」は、類似度演算部4で行う類似度演算のパターンであり、外部からアクセスする際のポインタとなる。また、「パラメータ」の欄には、夫々の演算パターンでの演算に用いるパラメータとその演算情報とが格納されている。すなわち、各パラメータの欄には、当該パラメータを用いるか否かを示すフラグと類似度演算に用いる際の重み(Wt)とリジェクトを行うか否かを示すリジェクト情報[Rj]とが記載されている。
そして、各演算パターンにおいて、フラグ「1」が立っているパラメータを重み(Wt)で用いて類似度演算を行うのである。例えば、演算パターン3による類似度演算の場合には、パラメータ「ピッチ」とパラメータ「平均パワー」とを用い、夫々の重み(Wt)を1/2として類似度演算を行う。その際に、パラメータ「話者」にはリジェクト情報[Rj]が記載されているため、話者識別の結果が誤っている場合には、該当する操作はリジェクトされることになる。
以上のように、上記類似度演算を行う場合に用いる各種の演算情報を記録したものが演算情報テーブル8である。勿論、この演算情報テーブル8は、用いるパラメータ,演算の重み,発声内容,音声認識時のスコア,リジェクト情報等の類似度演算に利用できる各種の情報が利用可能な形態で格納できればどのような格納形態であってもよく、表1に示す形態はその一例である。
上記入力提示部7は、上記演算情報テーブル8を用いて、ターゲットパラメータ9中から類似度演算に必要なパラメータを抽出し、その抽出パラメータの変動およびおおよその強度等を発声話者に提示する。その場合における提示の方法としては、視覚的な提示や聴覚的な提示が考えられる。以下、入力提示部7の構成について説明する。
図2は、表示画面を用いた視覚的な提示を行う入力提示部7の構成を示す。入力提示部7は、類似度演算用ターゲットパラメータ生成部11,表示割り当て部12,形状決定部13および表示部14から概略構成されている。
上記類似度演算用ターゲットパラメータ生成部11は、演算情報15とターゲットパラメータ9とから類似度演算用ターゲットパラメータを生成する。そうすると、表示割り当て部12は、生成された類似度演算用ターゲットパラメータに基づいて、割り当て情報16に従って、上記類似度演算用ターゲットパラメータの各パラメータに表示形状を割り当てる。そして、形状決定部13は、上記類似度演算用ターゲットパラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、各パラメータの表示形状を決定する。表示部14は、決定された各パラメータの表示形状に従って、発声内容と各パラメータの変動および強度等とを、発声話者に視覚的に提示する。
図3は、表示画面を用いた視覚的な提示を行う場合における入力提示部7の提示動作の手順を示す。以下、図2および図3に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。
先ず、ステップS1で、上記類似度演算用ターゲットパラメータ生成部11によって、各パラメータの利用情報に基づく「演算パターン」をポインタとして演算情報テーブル8がアクセスされ、該当する演算パターンに関して類似度演算に用いる演算情報15「認識結果(0)[1]」,「平均ピッチ(1/2)」,「パワーの変動(1/2)」が抽出される。ステップS2で、さらに、ターゲットパラメータ9から、上記ステップS1において抽出されたパラメータ「認識結果」,「平均ピッチ」,「パワーの変動」に基づいて、類似度演算に必要なパラメータ値のみが選択されて、類似度演算用ターゲットパラメータ「認識結果(発声内容):ススメ(進め)」,「平均ピッチ:300Hz」,「パワーの変動:上記認識結果の音素毎に3000,6000,3000」が生成される。
ステップS3で、上記表示割り当て部12によって、上記生成された類似度演算用ターゲットパラメータの各パラメータに対して、割り当て情報16に基づいて、表示形態の割り当てが行われる。上記各パラメータが「認識結果」,「平均ピッチ」,「パワーの変動」の場合には、認識結果すなわち発声すべき内容には表示形態「文字列」が割り当てられ、平均ピッチには表示形態「文字の位置」が割り当てられ、パワーの変動には表示形態「文字の大きさ」が割り当てられる。尚、上記割り当て情報は、システムに固定である。または、外部から与えられる。または、自動的に決定される。
ステップS4で、上記形状決定部13によって、上記生成された類似度演算用ターゲットパラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、各パラメータ値の表示形状が決定される。各パラメータの最大値および最小値と表示形状(文字のサイズ,文字の位置等)とは予め関連付けられており、上記生成された類似度演算用ターゲットパラメータのパラメータ値が上記最大値と最小値の間の何れの位置に存在するかを計算することによって、各パラメータ値の表示形状を決定するのである。
例えば、パラメータ「パワー」の最大値が6000であり、最小値が3000であるとする。その場合、類似度演算用ターゲットパラメータ「認識結果(発声内容):ススメ(進め)」,「パワーの変動:上記認識結果の音素毎に3000,6000,3000」に基づいて、パワーの大きさを文字の大きさで表現する場合には、パワー値6000をとる2番目の音素「ス」を最大の大きさの文字で表すと決定し、パワー値3000をとる1番目の音素「ス」と3番目の音素「メ」とを最小の大きさの文字で表すと決定するのである。
また、パラメータ「平均ピッチ」の最大値が600Hzであり、最低値が0Hzであるとする。その場合、類似度演算用ターゲットパラメータ「認識結果(発声内容):ススメ(進め)」,「平均ピッチ:300Hz」に基づいて、平均ピッチの大きさを文字の上下方向の位置で表現する場合には、3つの音素「ス」,「ス」,「メ」の平均ピッチは300Hzで変動が無く、然も最大値600Hzと最低値0Hzとの中間であるため、文字列「ススメ」を表示画面の上下方向真中に同じレベルで表すと決定するのである。以上のように、認識結果つまり発声内容は、文字列として表示される。
ステップS5で、上記表示部14によって、上記決定された各パラメータ値の表示形状に従って、発声内容を表す文字列が、パワーの変動に応じた大きさで、平均ピッチに応じた表示画面上の位置に表示されるのである。
尚、上記説明においては、説明を簡単にするために、上記類似度演算用パラメータとして、発声内容,パワー変動およびピッチを用いた。しかしながら、この発明には、これに限定されるものではなく、入力音声から抽出可能なパラメータ、例えば「振幅」,「パワー」,「ピッチ」,「音素の継続時間長」,「入力音声全体の継続時間長」および「発声開始までの時間」の夫々に関する統計値,瞬時値,変化量や、「アクセント位置」,「音声認識の結果」,「話者識別の結果」,「音声認識途中の各種スコア」および「認識結果のスコア」等、入力音声に基づいて計算を行うことによって得られる総てのパラメータを取り扱うことができる。また、図3に示す例では、各パラメータの強度の提示方法として、テキスト情報,文字の大きさ,表示の位置を利用しているが、文字そのもの,図形の形状(各形状にパラメータを割り付ける),色(各色にパラメータを割り付ける),画像の種類(絵等にパラメータを割り付ける)等の各パラメータの提示方法と、表示の大きさ,表示の位置,表示の動き(色が変わる,現出していく,表示されたものが動く,形が変わる,消えていく等),線の形状等の各パラメータの強度の提示方法とを、組み合わせを用いてもよい。
次に、音声出力部を用いた聴覚的な提示を行う入力提示部7について、図4〜図7に従って説明する。
図4は、テキスト音声合成を用いた聴覚的な提示を行う入力提示部7の構成を示す。入力提示部7は、テキスト音声合成部21および音声出力部22から概略構成されている。テキスト音声合成部21は、演算情報に基づいて決定されたターゲットパラメータから合成音声信号を生成する。そうすると、音声出力部22は、上記生成された合成音声信号に基づいて合成音声を出力することによって、発声内容と各パラメータの変動および強度等とを発声話者に聴覚的に提示する。
図5は、テキスト音声合成を用いた聴覚的な提示を行う場合における入力提示部7の提示動作の手順を示す。以下、図4および図5に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。
ステップS11およびステップS12で、上記テキスト音声合成部21によって、上記視覚的な表示を行う場合における図3のステップS1およびステップS2と同様にして、上記演算情報およびターゲットパラメータから類似度演算用ターゲットパラメータを生成する。そして、ステップS12では、さらに、上述したようにして生成された類似度演算用ターゲットパラメータのパラメータ情報に基づいて、テキスト音声合成によって合成音声信号が生成される。ステップS13で、音声出力部22によって、上記生成された合成音声信号に基づいて、発声内容を表す合成音声が出力されるのである。
上述したように、音声にかかわる各種のパラメータに従って、テキスト音声合成によって合成音声を生成することは容易であり、殆どの音声合成エンジンに基本機能として備わっている。入力提示部7は、この基本機能を利用して生成した合成音声を提示することによって、入力情報を提示するのである。
図6は、予め用意されている音声データを用いて聴覚的な提示を行う入力提示部7の構成を示す。入力提示部7は、音声選択部23および音声出力部24から概略構成されている。音声選択部23は、予め作成されて提示音声データベース(DB)25に格納されている音声データから、演算情報に従って決定されたターゲットパラメータに基づいて、再生する音声データを選択する。そうすると、音声出力部24は、上記選択された音声データに基づいて音声を出力することによって、発声内容と各パラメータの変動および強度等とを発声話者に聴覚的に提示する。
図7は、予め用意されている音声データを用いて聴覚的な提示を行う場合における入力提示部7の提示動作の手順を示す。以下、図6および図7に従って、発声内容と各パラメータの変動および強度等とを提示するまでの処理動作について、簡単な例を挙げて具体的に説明する。
ステップS21およびステップS22で、上記音声選択部23によって、上記視覚的な表示を行う場合における図3のステップS1およびステップS2と同様にして、上記演算情報およびターゲットパラメータから上記類似度演算用ターゲットパラメータが生成される。そして、ステップS22では、さらに、上述したようにして生成された類似度演算用ターゲットパラメータのパラメータ情報に基づいて、再生する音声データが提示音声DB25から選択される。ステップS23で、音声出力部22によって、上記選択された音声データに基づいて、発声内容を表す合成音声が出力されるのである。
以上が、上記入力提示部7における構成とその動作との一例ある。
上述のようにして上記入力提示部7によって提示された発声内容と各パラメータの変動および強度等に呼応して入力された音声は、音声データ入力部1によって音声信号に変換される。音声データ入力部1は、一般的に用いられるマイクロホン等であり、入力されるアナログ音声信号をデジタル音声信号に変換して、パラメータ抽出部2および音声認識部3に送出する。
上記音声認識部3は、一般的に従来から用いられている入力音声と内部に保存されているモデル(複数の辞書)との差の値を基準として音声認識を行うものであればどのようなものでも差し支えない。但し、本実施の形態における音声認識部3は、演算情報テーブル8から与えられる演算情報によって、認識結果,認識スコア,音素継続時間長,入力音声の継続時間長のうちの少なくとも何れか1つが類似度演算に用いられる場合について、音声認識を行う。そのうち「認識結果」および「認識スコア」が用いられる場合には、「音声認識結果」と、入力された音声の「モデルの音声である確からしさの度合い」を示す値(モデルに対する尤度)を類似度演算部4に送出する。また、「音素継続時間長」および「入力音声の継続時間長」が類似度演算に用いられる場合には、音声認識時に割り振られる音声認識結果の音素と音声データとの割り付け結果であるセグメント情報(各種パラメータを示す図8における音素セグメント26)をパラメータ抽出部2に送出する。
上記パラメータ抽出部2は、上記音声認識部3の場合と同様に、演算情報テーブル8から与えられる演算情報15に基づいて各種パラメータの抽出を行う。ここで、上記抽出される各パラメータについて簡単に説明する。図8は、各種パラメータを示す。
(1)[ピッチ]
このパラメータ値は、上記デジタル音声信号において有声音から得られる略相似的な波の繰り返しのパターンを示す基本周波数であり、入力されたデジタル音声信号の全域または一部区間から得られるピッチ(基本周波数)の統計値,瞬時値および変化量である。このパラメータ「ピッチ」の抽出は、入力音声から得られたデジタル音声信号そのものの自己相関や、上記デジタル音声信号に対してLPC分析やPARCOR分析を行ったものに対する残差波形の自己相関を利用してその繰り返し周期を検討することによって行われる。また、上述した方法だけでなく、一般的に様々なピッチ抽出法が存在し、特に上述のピッチ抽出法に限定されるものではない
(2)[アクセント位置]
このパラメータ値は、一般的に用いられるアクセント位置であり、音声の単位である音節(子音+母音)毎のピッチ値を算出し、単語内でピッチ値が急激に減少する直前の音節位置を求めることによって抽出される。
(3)[振幅]
このパラメータ値は、入力されたデジタル音声信号の全域または一部区間から得られる振幅値の統計値,瞬時値および変化量である。
(4)[パワー]
このパラメータ値は、入力されたデジタル音声信号の全域または一部区間から得られる振幅値の二乗値に対する統計値,瞬時値および変化量である。
(5)[音素の継続時間長]
このパラメータ値は、各音素の継続時間の統計値,瞬時値および変化量であり、音声認識結果に割り当てられた音素のセグメントから、音素毎の継続時間長を計算することによって得られる。図8における音素1〜音素6夫々の継続時間長が、各音素の継続時間長である。
(6)[入力音声の継続時間長]
このパラメータ値は、入力音声の区間における全継続時間長であり、図8における各音素の継続時間長の総和である。
(7)[音声入力までの時間]
このパラメータ値は、入力開始から実際に音声入力が開始される(つまり、有音区間が開始する)までの時間である。
上記パラメータ抽出部2は、これらのパラメータを演算情報テーブル8からの演算情報15に従って入力音声のデジタル音声信号から抽出し、必要なパラメータ値を類似度演算部4に送出する。
そうすると、上記類似度演算部4は、上記演算情報テーブル8から得られる演算情報15に基づいて、各パラメータに関して、入力音声のデジタル音声信号から抽出されたパラメータ値と入力提示部7によって上述のようにして得られたターゲットパラメータ値との差分を算出し、演算情報15の重み(Wt)を用いた上記差分の二乗の重み付き和の値の逆数を類似度として演算する。類似度は下記の式(1)で定義される。
Figure 2007017733
ここで、 N:類似度算出に用いるパラメータの数
IPi:入力音声から抽出されたパラメータの値
TPi:類似度演算用ターゲットパラメータの値
Wi:重み。
本実施の形態においては、上記類似度を、その一例として、入力音声から抽出されたパラメータ値とターゲットパラメータ値との差の二乗の重み付き和の値の逆数と定義している。しかしながら、上記両パラメータの差を安定して算出できる差分の計算方法であればどのような計算方法を用いても差し支えない。但し、基本的に量的差分を計算できず、正解あるいは不正解の結果のみが与えられるパラメータ(認識結果,話者認識結果,アクセント位置等)であって、演算情報15にリジェクト情報[Rj]が付記されている場合には、類似度演算部4は、そのパラメータの値が不正解の場合にはリジェクトである旨を操作部5に対して送出する。
上記操作部5は、上述のようにして類似度演算部4で得られた類似度あるいはリジェクト情報[Rj]に従って、予め設定されている操作を行う。但し、類似度が送出されてきた場合には、与えられた類似度に従って、予め各類似度に対応して設定されている操作を行う。この操作は、機器そのものを動作させるものであってもよいし、ゲーム等のキャラクタを動作させるなどのソフトウェアの入力であってもよく、入力によって行われる総ての動作を割り当てることができる。これに対して、リジェクト情報[Rj]が送出されてきた場合には、操作対象に対する操作の実行は行わず、リジェクトした旨の提示を行う。
上記誤差情報提示部6は、上記類似度演算部4による類似度演算の結果に基づいて、入力音声から抽出されたパラメータが上記類似度演算用ターゲットパラメータに対してどの程度の誤差を有するかを演算し、その算出結果を提示する。その結果、操作者は、誤差情報提示部6による提示内容と入力提示部7による提示内容とを参照することによって、音声データ入力部1に対する発声をどのようにすれば、入力音声のパラメータを上記ターゲットパラメータにより近づけることができるのかを数値的に理解することができ、次回の音声入力の校正が期待できるのである。
本実施の形態は、例えば、ゲームの操作に適用する場合には、ロールプレイングゲームのコマンド入力として用い、類似度演算部4によって演算された類似度に応じて、コマンドの効果が変わるような操作入力装置を構成することができる。また、上記類似度に応じて、キャラクタの動作の量を変更する等の様々なゲームの入力装置として用いることができる。また、ランダムに発声内容のみを表示し、パラメータの値を提示しないでリジェクト付の話者認識の結果や音声入力までの時間等を用いて、話者Aがボタンを押してからx秒からy秒後の間に提示された発声内容の発声を開始し、続けて話者Bがz秒からw秒後の間に提示された発声内容の発声を開始することによって開錠するようなキーシステム等を構成することが可能になる。
以上、総ての動作を、上記入力装置そのもので行う場合を例に上げて説明を行った。しかしながら、本入力装置を通信ネットワークに接続し、上記動作の一部を通信ネットワークのサーバで行なうことも可能である。
上述のごとく、上記第1実施の形態においては、上記パラメータ抽出部2によって、入力音声のデジタル音声信号からパラメータ値を抽出する。また、入力提示部7によって、演算情報テーブル8およびターゲットパラメータ9に基づいて類似度演算用ターゲットパラメータを生成する。そして、類似度演算部4によって、上記抽出されたパラメータ値と上記生成されたターゲットパラメータのパラメータ値との差分の二乗の重み付き和の逆数を、類似度として算出する。そして、操作部5によって、上記算出された類似度に従って操作対象に対して操作を行うようにしている。
したがって、本実施の形態によれば、音響パラメータそのものの値ではなく、各パラメータ値の差分の二乗の和の逆数で表される類似度を利用することによって、動作や対象に対してより多数の操作を行うことができる。
すなわち、本実施の形態においては、上記類似度演算部4によって算出される類似度の演算パターンを、表1に示すように変更することによって、単一パラメータの大小のみの類似度の変動に基づく操作から、認識結果,話者照合結果,パワー等の複数パラメータの類似度の変動に基づく操作まで、幅広く多数の操作に対応することができる。
また、本実施の形態における類似度演算用ターゲットパラメータのごとく予め指定されたパラメータとの類似度や、2つの音声入力から抽出されたパラメータの類似度や、代表的な音声入力から抽出されたパラメータと複数の音声入力から抽出されたパラメータとの類似度等、類似度演算方法を様々変えることによって、複数の入力音声に基づいて各入力音声を関連付けた操作を行うことが可能になる。したがって、例えば、通信を行いながら複数の利用者の音声入力を用いた操作を行うことができる。
また、本実施の形態においては、上記入力提示部7によって、類似度演算用ターゲットパラメータに関して、発声すべき内容と如何様に音声を発声すればよいかを提示するようにしている。したがって、操作者は、入力提示部7による提示内容に従って発声すれば、操作対象に対して所望の操作を行うことができ、より利用しやすい音声操作装置を構成することが可能になる。
・第2実施の形態
本実施の形態は、複数の入力装置を用いて類似度による操作を行うものに関する。図9は、複数の入力によって操作を行う場合の例として、2つの入力装置を用いて対象の操作を行う入力システムの機能的構成を示すブロック図である。入力装置Sおよび入力装置C夫々の構成は、上記第1実施の形態における入力装置と略同様である。但し、入力音声が複数になるため、発声のタイミングの提示処理や上記入力提示部でのデータの同期処理等が必要になる。以下、図9に従って、本実施の形態における入力システムの構成および動作について簡単に説明する。
先ず、上記入力装置Sにおいて、入力提示部37は、演算情報テーブル38から得られる演算情報とターゲットパラメータ39とに基づいて、類似度演算に用いられる類似度演算ターゲットパラメータを生成し、入力音声提示用のデータを作成する。ここまでは、上記第1実施の形態に示す入力提示部7の動作と同様である。ところが、本実施の形態においては、音声データ入力部31と音声データ入力部41との2つの音声データ入力部が存在するため、生成された入力提示用のデータを同期させる必要がある。
図10は、本実施の形態における入力提示部37,47の構成を示す図である。入力装置S側の入力提示部37は、類似度演算用ターゲットパラメータ生成部51,表示割り当て部52,形状決定部53,提示データ通信部54および表示部55から概略構成されている。このうち、類似度演算用ターゲットパラメータ生成部51,表示割り当て部52,形状決定部53および表示部55は、上記第1実施の形態における図2に示す類似度演算用ターゲットパラメータ生成部11,表示割り当て部12,形状決定部13および表示部14と同じであり、演算情報56とターゲットパラメータ39とから類似度演算用ターゲットパラメータを生成し、割り当て情報57に従って上記類似度演算用ターゲットパラメータの各パラメータに表示形状を割り当て、上記類似度演算用ターゲットパラメータのパラメータ値と上記表示形態の割り当て結果とに基づいて各パラメータ値の表示形状を決定する。これに対して、入力装置C側の入力提示部47は、提示データ通信部58および表示部59から概略構成されている。
上記入力装置S側の入力提示部37における提示データ通信部54は、通信ネットワーク等の通信手段を利用して、形状決定部53で決定された各パラメータ値の表示形状を、入力装置C側の提示データ通信部58に送信する。そうした後、各入力装置S,Cにおける表示部55,59によって、上記各パラメータ値の表示形状に従って、発声内容と各パラメータの変動および強度等とが発声話者に視覚的に提示される。
尚、図10に示す入力提示部37,47の構成は、視覚的な表示を行う場合の構成であるが、上記第1実施の形態における図4や図6のように、聴覚的な表示を行うように構成することも可能であることは言うまでもない。その場合には、テキスト音声合成部によって生成された合成音声信号、または、音声選択部によって選択された音声信号を、提示データ通信部によって、入力装置C側の提示データ通信部に送信することになる。
ところで、図10に示す入力提示部37,47の構成では、形状決定部53で決定された各パラメータ値の表示形状を、提示データ通信部54によって、入力装置C側の提示データ通信部58に送信するようにしている。しかしながら、入力装置S側の入力提示部37は、類似度演算用ターゲットパラメータ生成部51で生成された類似度演算用ターゲットパラメータ、または、表示割り当て部52で上記類似度演算用ターゲットパラメータの各パラメータに割り当てられた表示形状を、入力装置C側の入力提示部47に送信することも可能である。
図11は、上記類似度演算用ターゲットパラメータを入力装置C側の入力提示部47に送信する場合の入力提示部37,47の構成を示す。入力装置S側の入力提示部37は、類似度演算用ターゲットパラメータ生成部61,ターゲットパラメータ通信部62,表示割り当て部63,形状決定部64および表示部65から概略構成されている。また、入力装置C側の入力提示部47は、ターゲットパラメータ通信部66,表示割り当て部67,形状決定部68および表示部69から概略構成されている。このうち、類似度演算用ターゲットパラメータ生成部61,表示割り当て部63,67,形状決定部64,68および表示部65,69は、上記第1実施の形態における図2に示す類似度演算用ターゲットパラメータ生成部11,表示割り当て部12,形状決定部13および表示部14と同じである。割り当て情報70は、表示割り当て部67が表示形状の割り当てを行う際に用いる。
そして、上記入力装置S側の入力提示部37において、ターゲットパラメータ通信部62によって、類似度演算用ターゲットパラメータ生成部61で生成された類似度演算用ターゲットパラメータを、入力装置C側のターゲットパラメータ通信部66に送信するようにしている。こうして、上記生成された類似度演算用ターゲットパラメータを両方の入力装置S,Cで共有することによって、両方の入力装置S,Cにおいて、表示割り当て部63,67によって割り当てられる上記類似度演算用ターゲットパラメータの各パラメータ値と表示形状との関係が同一に保たれ、利用者は入力提示部37,47で提示される提示情報を常に同一のものとして扱うことができるのである。
以上のようにして、上記両方の入力提示部37,47において、発声すべき内容と各パラメータの強度や変動が提示されると、入力タイミング提示部40,50によって、各音声データ入力部31,41に対する入力開始の同期が取られる。実際には、任意の1つの入力装置の入力タイミング提示部(図9においては、入力装置Sの入力タイミング提示部40)が入力開始の同期を取るためのトリガを発生し、通信手段を用いて他の入力装置Cの入力タイミング提示部50に伝送する。トリガを受けた入力装置Cの入力タイミング提示部50は、受けたトリガに従って操作者に音声入力を促す。すなわち、例えば、入力提示部47が上記提示情報を提示している画面上にトリガが入ってからのカウントダウンを表示してもよいし、予め記録されている音声によるカウントダウンを出力してもよい。要は、入力開始を知らせることが可能な方法であれば何れの方法を用いても差し支えない。
こうして提示された発声内容と各パラメータの変動および強度等と、カウントダウン表示とに従って、各々の入力装置S,Cに対してタイミングを合わせて音声が入力される。そうすると、入力された音声は、各々の入力装置S,Cにおいて、音声データ入力部31,41、パラメータ抽出部32,42、音声認識部33,43において、上記第1実施の形態における図1に示す音声データ入力部1,パラメータ抽出部2および音声認識部3と同様の処理が行われる。
上記入力装置Sの類似度演算部34は、入力装置C側のパラメータ抽出部42および音声認識部43と通信を行い、各々の音声認識部33,43による音声認識結果に基づいて各々のパラメータ抽出部32,42で抽出された各パラメータを用いて、類似度の算出を行う。その場合、
(A)複数の入力装置S,Cのうちの任意の入力装置において入力音声から抽出されたパラメータをターゲットのパラメータ(類似度演算用ターゲットパラメータ)として、各入力装置S,C毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
(B)複数の入力装置S,Cにおいて入力音声から抽出された総てのパラメータの各パラメータ毎の平均値を、ターゲットのパラメータ(類似度演算用ターゲットパラメータ)として、各入力装置S,C毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
(C)予め本入力システムで提示される類似度演算用ターゲットパラメータ(例えば、入力装置Sの入力提示部37で生成された類似度演算用ターゲットパラメータ)を用いて、各入力装置S,C毎に、入力音声から抽出されたパラメータの値と上記類似度演算用ターゲットパラメータの値との類似度を算出する。
等が可能である。
操作部35は、上述のようにして類似度演算部34で得られた類似度あるいはリジェクト情報[Rj]に従って、予め設定されている操作を行う。但し、類似度が送出されてきた場合には、与えられた類似度に従って、予め各類似度に対応して設定されている操作を行う。この操作は、機器そのものを動作させるものであってもよいし、ゲーム等のキャラクタを動作させるなどのソフトウェアの入力であってもよく、入力によって行われる総ての動作を割り当てることができる。これに対して、リジェクト情報[Rj]が送出されてきた場合には、操作対象に対する操作の実行は行わず、リジェクトした旨の提示を行う。
誤差情報提示部36は、上記類似度演算部34による類似度演算の結果に基づいて、入力音声から抽出されたパラメータが上記類似度演算用ターゲットパラメータに対してどの程度の誤差を有するかを演算する。そして、その算出結果を、表示割り当て部52の場合と同様の方法によって、文字,数値および図形等を用いて操作者が直感的に理解できるように提示する。その結果、操作者は、誤差情報提示部36による提示内容と入力提示部7による提示内容とを参照することによって、音声データ入力部1に対する発声をどのようにすれば、入力音声のパラメータを上記ターゲットパラメータにより近づけることができるのかを直感的に理解することができ、次回の音声入力の校正が期待できるのである。
さらに、上記入力装置Sおよび入力装置Cには、誤差情報提示部36による入力音声から抽出されたパラメータの上記類似度演算用ターゲットパラメータに対する誤差情報の提示機能だけではなく、他の入力装置への入力音声をモニタリングする機能を追加することも可能である。図12は、他の入力装置への入力音声を音声そのものでモニタリングする構成を示すブロック図である。
上記入力装置Sには、入力音声送出部71と音声提示部72とが搭載されている。同様に、入力装置Cには、入力音声送出部73と音声提示部74とが搭載されている。入力装置S側の入力音声送出部71は、音声データ入力部31からの入力音声のディジタル音声信号を受けて、パラメータ抽出部32に送出すると共に、入力装置Cの音声提示部74に送信する。また、音声提示部72は、入力装置Cの入力音声送出部73から送信されてくる入力装置Sの音声データ入力部41への入力音声のディジタル音声信号を受信して、音声による出力や波形の表示等によって操作者に他の入力装置Cでの入力音声を提示する。
尚、上記入力装置C側の入力音声送出部73および音声提示部74も、入力装置S側の入力音声送出部71および音声提示部72と同様に動作する。
また、上記入力装置Sおよび入力装置Cに追加される他の音声入力をモニタリングする機能は、音声そのものでモニタリングする場合の他に、視覚的にモニタリングすることも可能である。図13は、他の入力装置への入力音声を視覚的にモニタリングする構成を示すブロック図である。
上記入力装置Sには、パラメータ送出部75とパラメータ提示部76とが搭載されている。同様に、入力装置Cには、パラメータ送出部77とパラメータ提示部78とが搭載されている。入力装置S側のパラメータ送出部75は、パラメータ抽出部32で抽出された各種のパラメータを受けて、類似度演算部34に送出すると共に、入力装置Cのパラメータ提示部78に送信する。また、パラメータ提示部76は、入力装置Cのパラメータ送出部77から送信されてくる入力装置Sへの入力音声から抽出された各種のパラメータを受信して、視覚的に表示する。
ここで、上記パラメータ提示部76は、表示割り当て部79,形状決定部80および表示部81で構成される。そして、表示割り当て部79は、入力された各パラメータに対して、割り当て情報82に従って表示形態の割り当てを行う。さらに、形状決定部80は、上記入力された各パラメータのパラメータ値と上記各パラメータに対する表示形態の割り当て結果とに基づいて、上記各パラメータ値の表示形状を決定する。また、表示部81は、上記決定された各パラメータ値の表示形状に従って、入力された各パラメータのパラメータ値を視覚的に表示する。
尚、上記入力装置C側のパラメータ送出部77およびパラメータ提示部78も、入力装置S側のパラメータ送出部75およびパラメータ提示部77と同じ構成を有して同様に動作する。
こうして、入力装置S側のパラメータ提示部76によって、入力装置C側の入力音声を視覚的にモニタリングできる。同様に、入力装置C側のパラメータ提示部78によって、入力装置S側の入力音声を視覚的にモニタリングできるのである。
以上のように、本入力システムによれば、複数の入力装置S,Cへの音声入力によってある対象への操作の実行を行うことができるのである。例えば、通信ゲーム等において、同じ発声を同じタイミングで行った場合には第1の動作を行わせ、タイミングが少しずれて同じ発声が行われた場合には第2の動作を行わせ、タイミングが大きくずれて同じ発声が行われた場合には第3の動作を行わせるような操作が可能になる。また、複数の音声入力を複数の発声話者によって行わなければ動作させないような操作を行うことも可能である。
尚、上記第2実施の形態においては、説明を簡単にするため、入力装置Sをサーバのように、入力装置Cをクライアントのように扱った。しかしながら、上記何れの機能も各入力装置S,Cは有しており、任意にその役割を変更することができる。さらに、入力装置Sが担った動作を行うサーバを設定し、このサーバによって入力装置Sと同様の動作を行うことも可能である。
また、上記第2実施の形態においては、上記パラメータ抽出部42,音声認識部43,類似度演算部34,誤差情報提示部36,入力提示部37,47および入力タイミング提示部40,50の夫々に通信機能を有して、個別に他の入力装置との通信を行っている。しかしながら、各入力装置に、専用の通信部を設け、各部は上記専用の通信部を介して他の入力装置との通信を行うようにすることも可能である。
ところで、上記第1実施の形態における上記音声データ入力部1,パラメータ抽出部2,音声認識部3,類似度演算部4,操作部5,誤差情報提示部6,および入力提示部7としての機能、および、上記第2実施の形態における音声データ入力部31,41,パラメータ抽出部32,42,音声認識部33,43,類似度演算部34,操作部35,誤差情報提示部36,入力提示部37,47,入力タイミング提示部40,50としての機能は、プログラム記録媒体に記録された入力処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)(図示せず)でなるプログラムメディアである。または、外部補助記憶装置(図示せず)に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、プログラムメディアから入力処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記第1実施の形態における入力装置および上記第2実施の形態における入力システムは、インターネット等の通信ネットワークと通信I/Fを介して接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
この発明の入力装置における構成を示すブロック図である。 視覚的な提示を行う入力提示部の構成を示す図である。 図2に示す入力提示部による提示動作の手順を示す図である。 テキスト音声合成を用いた聴覚的な提示を行う入力提示部の構成を示す図である。 図4に示す入力提示部による提示動作の手順を示す図である。 予め用意されている音声データを用いて聴覚的な提示を行う入力提示部の構成を示す図である。 図6に示す入力提示部による提示動作の手順を示す図である。 各種パラメータを示す図である。 2つの入力装置を有する入力システムの構成を示すブロック図である。 図9における2つの入力提示部の構成を示す図である。 図9における2つの入力提示部の図10とは異なる構成を示す図である。 他の入力装置への入力音声を聴覚的にモニタリングする構成を示す図である。 他の入力装置への入力音声を視覚的にモニタリングする構成を示す図である。
符号の説明
1,31,41…音声データ入力部、
2,32,42…パラメータ抽出部、
3,33,43…音声認識部、
4,34…類似度演算部、
5,35…操作部、
6,36…誤差情報提示部、
7,37,47…入力提示部、
8,38…演算情報テーブル、
9,39…ターゲットパラメータ、
11,51,61…類似度演算用ターゲットパラメータ生成部、
12,52,63,67,79…表示割り当て部、
13,53,64,68,80…形状決定部、
14,55,59,65,69,81…表示部、
21…テキスト音声合成部、
22,24…音声出力部、
23…音声選択部、
25…提示音声データベース(DB)、
40,50…入力タイミング提示部、
54,58…提示データ通信部、
62,66…ターゲットパラメータ通信部、
71,73…入力音声送出部、
72,74…音声提示部、
75,77…パラメータ送出部、
76,78…パラメータ提示部。

Claims (25)

  1. 入力された音声を音声データに変換する音声データ入力部と、
    上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示部と、
    上記音声データ入力部で得られた音声データから音響パラメータを抽出するパラメータ抽出部と、
    上記パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算部と、
    上記類似度演算部で算出された類似度に応じて、予め定められた操作を行う操作部と
    を備えたことを特徴とする入力装置。
  2. 請求項1に記載の入力装置において、
    上記入力提示部は、上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成し、この生成された類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報の提示を行うようになっていることを特徴とする入力装置。
  3. 請求項2に記載の入力装置において、
    上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキストの表示,画像の表示,上記テキストあるいは画像の表示形状,上記テキストあるいは画像の色,上記テキストあるいは画像の表示位置,上記テキストあるいは画像の動きおよびそれらの組み合わせによって提示するようになっていることを特徴とする入力装置。
  4. 請求項2に記載の入力装置において、
    上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、音声によって提示するようになっていることを特徴とする入力装置。
  5. 請求項4に記載の入力装置において、
    上記入力提示部は、上記類似度演算用ターゲットパラメータの大きさおよび変動を含む提示情報を、テキスト音声合成によって生成された合成音声によって提示するようになっていることを特徴とする入力装置。
  6. 請求項2に記載の入力装置において、
    上記類似度演算部は、上記予め設定されたターゲットパラメータとして、上記入力提示部によって生成された類似度演算用ターゲットパラメータを用いるようになっていることを特徴とする入力装置。
  7. 請求項1に記載の入力装置において、
    上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えたことを特徴とする入力装置。
  8. 少なくとも、
    入力された音声を音声データに変換する音声データ入力部と、
    上記音声データ入力部に入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報を生成して提示する入力提示部と、
    上記音声データ入力部に入力すべき音声の入力開始のタイミングを提示する入力タイミング提示部と、
    上記音声データ入力部によって得られた音声データから音響パラメータを抽出するパラメータ抽出部と
    を備えた複数の入力装置と、
    上記複数の入力装置の各パラメータ抽出部で抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を、各入力装置毎に算出する類似度演算部と、
    上記類似度演算部で算出された上記類似度に応じて、予め定められた操作を行う操作部と
    を備えたことを特徴とする入力システム。
  9. 請求項8に記載の入力システムにおいて、
    上記各入力装置の上記入力提示部は、
    上記生成した提示情報を他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた提示情報を受信する提示データ通信部と、
    上記生成した提示情報および上記提示データ通信部を介して受信した他の入力装置の入力提示部からの提示情報の少なくとも何れか一方を表示する表示部と
    を備えたことを特徴とする入力システム。
  10. 請求項8に記載の入力システムにおいて、
    上記各入力装置の上記入力提示部は、
    上記類似度演算部によって上記類似度を算出する際に用いられる類似度演算用ターゲットパラメータを生成する類似度演算用ターゲットパラメータ生成部と、
    上記生成された類似度演算用ターゲットパラメータを他の入力装置の入力提示部に送信すると共に、他の入力装置の入力提示部から送信されてきた類似度演算用ターゲットパラメータを受信するターゲットパラメータ通信部と、
    予め音響パラメータに表示形状を割り当てて成る割り当て情報に従って、上記生成された類似度演算用ターゲットパラメータおよび上記ターゲットパラメータ通信部を介して受信した他の入装置の入力提示部からの類似度演算用ターゲットパラメータの少なくとも何れか一方に表示形状を割り当てる表示割り当て部と、
    上記類似度演算用ターゲットパラメータの値と上記表示割り当て部による上記類似度演算用ターゲットパラメータに対する表示形状の割り当て結果とに基づいて、上記類似度演算用ターゲットパラメータの値の表示形状を決定する形状決定部と、
    上記類似度演算用ターゲットパラメータの値を上記決定された表示形状で表示する表示部と
    を備えたことを特徴とする入力システム。
  11. 請求項8に記載の入力システムにおいて、
    上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
    上記類似度演算部は、上記複数の入力装置の何れかあるいは上記サーバに搭載されており、
    上記入力タイミング提示部は、上記類似度演算部が搭載された入力装置あるいは上記類似度演算部が搭載されたサーバから与えられた指令によって、音声の入力開始のタイミングの提示を行うようになっている
    ことを特徴とする入力システム。
  12. 請求項8に記載の入力システムにおいて、
    上記類似度演算部の演算結果に基づいて、上記入力された音声から抽出された音響パラメータの上記予め設定されたターゲットパラメータに対する誤差を演算し、この演算結果を提示する誤差情報提示部を備えたことを特徴とする入力システム。
  13. 請求項8に記載の入力システムにおいて、
    上記各入力装置には、他の入力装置の音声データ入力部に入力された音声のモニタリングを行うモニタリング部を備えたことを特徴とする入力システム。
  14. 請求項13に記載の入力システムにおいて、
    上記モニタリング部は、
    上記音声データ入力部によって得られた音声データを他の入力装置のモニタリング部に送信する入力音声送信部と、
    他の入力装置のモニタリング部から送信されてきた音声データを受信すると共に、この受信した音声データに基づいて、他の入力装置に入力された音声を提示する音声提示部と
    を備えたことを特徴とする入力システム。
  15. 請求項13に記載の入力システムにおいて、
    上記モニタリング部は、
    上記パラメータ抽出部で抽出された音響パラメータを他の入力装置のモニタリング部に送信するパラメータ送信部と、
    他の入力装置のモニタリング部から送信されてきた音響パラメータを受信すると共に、上記割り当て情報に従って、上記受信した各音響パラメータに表示形状を割り当てる表示割り当て部と、
    上記受信した音響パラメータの値と上記表示割り当て部による上記音響パラメータに対する表示形状の割り当て結果とに基づいて、上記受信した音響パラメータの値の表示形状を決定する形状決定部と、
    上記受信した音響パラメータの値を上記決定された表示形状で表示する表示部と
    を備えたことを特徴とする入力システム。
  16. 請求項8に記載の入力システムにおいて、
    上記類似度演算部は、上記ターゲットパラメータの値として、上記複数の入力装置のうちの何れか1つの入力装置のパラメータ抽出部で抽出された音響パラメータの値を用いることを特徴とする入力システム。
  17. 請求項8に記載の入力システムにおいて、
    上記類似度演算部は、上記各ターゲットパラメータの値として、上記複数の入力装置のパラメータ抽出部で抽出された音響パラメータの値の統計値を用いることを特徴とする入力システム。
  18. 請求項1に記載の入力装置において、
    上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも1つであることを特徴とする入力装置。
  19. 請求項8に記載の入力システムにおいて、
    上記音響パラメータは、入力音声の基本周波数,振幅,パワー,音素の継続時間長,入力音声の継続時間長,音声入力までの時間の夫々に関する統計値,瞬時値,変化量およびアクセント位置,音声認識結果,話者識別結果,音声認識時の演算で得られるスコアのうち、少なくとも1つであることを特徴とする入力システム。
  20. 請求項1に記載の入力装置において、
    当該入力装置は、サーバを有する通信ネットワークに接続されており、
    上記入力提示部,パラメータ抽出部,類似度演算部および操作部のうちの少なくとも何れか1つは、上記サーバに搭載されている
    ことを特徴とする入力装置。
  21. 請求項8に記載の入力システムにおいて、
    上記複数の入力装置は、サーバを有する通信ネットワークで接続されており、
    上記類似度演算部,操作部および何れか1つの上記入力装置における入力提示部,入力タイミング提示部,パラメータ抽出部のうちの少なくとも何れか1つは、上記サーバに搭載されている
    ことを特徴とする入力システム。
  22. 入力すべき音声の内容と音響パラメータの大きさおよび変動とを含む提示情報の提示を行う入力提示ステップと、
    入力された音声を音声データに変換する音声入力ステップと、
    上記得られた音声データから音響パラメータを抽出するパラメータ抽出ステップと、
    上記抽出された音響パラメータの値と予め設定されたターゲットパラメータの値との差に基づく類似度を算出する類似度演算ステップと、
    上記算出された類似度に応じて、予め定められた操作を行う操作ステップと
    を備えたことを特徴とする入力方法。
  23. コンピュータを、
    請求項1における音声データ入力部,入力提示部,パラメータ抽出部,類似度演算部および操作部
    として機能させることを特徴とする入力処理プログラム。
  24. コンピュータを、
    請求項8における音声データ入力部,入力提示部,入力タイミング提示部,パラメータ抽出部,類似度演算部および操作部
    として機能させることを特徴とする入力処理プログラム。
  25. 請求項23あるいは請求項24に記載の入力処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2005199749A 2005-07-08 2005-07-08 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 Pending JP2007017733A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005199749A JP2007017733A (ja) 2005-07-08 2005-07-08 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005199749A JP2007017733A (ja) 2005-07-08 2005-07-08 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2007017733A true JP2007017733A (ja) 2007-01-25

Family

ID=37754955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005199749A Pending JP2007017733A (ja) 2005-07-08 2005-07-08 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2007017733A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
JP2019514045A (ja) * 2016-03-21 2019-05-30 アマゾン テクノロジーズ インコーポレイテッド 話者照合方法及びシステム
US10923111B1 (en) 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319380A (ja) * 1994-05-20 1995-12-08 Nec Corp 発声訓練装置
JPH08179789A (ja) * 1994-12-26 1996-07-12 Sharp Corp 音声情報表示装置
JPH1138863A (ja) * 1997-07-17 1999-02-12 Fuji Xerox Co Ltd 言語情報装置
JPH11296060A (ja) * 1998-04-15 1999-10-29 Ricoh Co Ltd 教育機器
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002091472A (ja) * 2000-09-19 2002-03-27 Nippon Hoso Kyokai <Nhk> 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319380A (ja) * 1994-05-20 1995-12-08 Nec Corp 発声訓練装置
JPH08179789A (ja) * 1994-12-26 1996-07-12 Sharp Corp 音声情報表示装置
JPH1138863A (ja) * 1997-07-17 1999-02-12 Fuji Xerox Co Ltd 言語情報装置
JPH11296060A (ja) * 1998-04-15 1999-10-29 Ricoh Co Ltd 教育機器
JP2001265211A (ja) * 2000-01-14 2001-09-28 Atr Ningen Joho Tsushin Kenkyusho:Kk 外国語学習装置、外国語学習方法および媒体
JP2002091472A (ja) * 2000-09-19 2002-03-27 Nippon Hoso Kyokai <Nhk> 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
JP2019514045A (ja) * 2016-03-21 2019-05-30 アマゾン テクノロジーズ インコーポレイテッド 話者照合方法及びシステム
US11514901B2 (en) 2016-03-21 2022-11-29 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10923111B1 (en) 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition

Similar Documents

Publication Publication Date Title
CN105788589B (zh) 一种音频数据的处理方法及装置
CN109949783B (zh) 歌曲合成方法及系统
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
WO2010004978A1 (ja) 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
JP2006517037A (ja) 韻律的模擬語合成方法および装置
US10229702B2 (en) Conversation evaluation device and method
JP6111802B2 (ja) 音声対話装置及び対話制御方法
US9711123B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon
JP2007140200A (ja) 語学学習装置およびプログラム
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2007017733A (ja) 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体
JP4808641B2 (ja) 似顔絵出力装置およびカラオケ装置
JP2015087649A (ja) 発話制御装置、方法、発話システム、プログラム、及び発話装置
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
US20220148570A1 (en) Speech interpretation device and system
CN111276113B (zh) 基于音频生成按键时间数据的方法和装置
JP6522679B2 (ja) 発話制御装置、方法、発話システム、及びプログラム
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6807491B1 (ja) 補聴器用合成音声セットの修正方法
CN113255313B (zh) 音乐生成方法、装置、电子设备和存储介质
KR20190002003A (ko) 음성 합성 방법 및 장치
US20240153482A1 (en) Non-transitory computer-readable medium and voice generating system
KR20170059665A (ko) 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
JP6508567B2 (ja) カラオケ装置、カラオケ装置用プログラム、およびカラオケシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110816