JP3906327B2

JP3906327B2 - 音声入力モード変換システム

Info

Publication number: JP3906327B2
Application number: JP2002097581A
Authority: JP
Inventors: 哲則小林; 幸宏尾本; 真孝後藤; 克亘伊藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2002-03-29
Filing date: 2002-03-29
Publication date: 2007-04-18
Anticipated expiration: 2022-03-29
Also published as: JP2003295884A

Description

【０００１】
【発明の属する技術分野】
本発明は、キーボードなどを用いることなく、文字入力やコマンド入力が可能な音声入力モード変換システムに関する。
【０００２】
【発明が解決しようとする課題】
これまで、コンピュータの入力装置としてキーボードやマウス、ポインティングデバイス等が使用されており、特にウインドウシステムが登場してからは、マウスなどの入力装置の重要度が高まった。さらに、近年は音声認識ソフトウエアが開発され、音声を入力手段とした音声入力インタフェースにより、文字を入力したりアプリケーションソフトを制御したりすることが可能となり、キーボードを操作することなく、ハンドフリーでコンピュータの操作を行うことが検討されている。
【０００３】
しかしながら、従来の音声入力インタフェースにおいては、発話された単語あるいは単語列が運ぶ言語的情報（音韻的特徴）のみが伝達されるべき情報として位置づけられてきたので、２つの異なる次元の操作を音声のままで峻別することはできなかった。例えば、「保存」という音声の場合、それが文字入力なのかファイルを保存するなどのコマンドを指すものであるのかは音声だけで判断することは困難であった。このため、基本的には文字入力のみを音声で行い、コマンド操作は依然キーボードで行うものが主流であり、ハンドフリーで操作できるものではなかった。
【０００４】
そこで、これを改善したものとして、キーボードの特殊キーを用いることにより両者の状態を峻別すること、例えば、コマンド操作を行う際にはキーボードの「シフト」キーや「Ｔａｂ」キーなどの特殊キーを押しながら発音してこれを音声認識ソフトウエアで認識させることにより「文字入力モード」であるか「コマンドモード」であるかを区別することが考えられるが、その場合であっても完全にハンドフリーで操作することはできない。
【０００５】
もし、キーボードなどの機械的入力手段を全く用いることなく、各種アプリケーションの種々の操作を行うことができれば、コンピュータの操作の簡易化を図れるだけでなく、例えばディクテーション操作の効率化や、あるいはモバイル型コンピュータにおいては各種電気・機械機器等の点検作業を行いながらハンドフリーでその管理ソフトを操作したりすることが可能となり、コンピュータの操作環境の更なる整備が図れて望ましい。
【０００６】
本発明は、上記課題に鑑みてなされたものであり、キーボード等の機械的入力手段を操作することなく音声だけでコンピュータのインタフェースを操作することのできる音声入力モード変換システムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明の音声入力モード変換システムは、基本的な構成として、音声を入力する音声入力手段と、この音声入力手段からの音声の基本周波数の分析結果に基づき該音声を２以上のカテゴリに識別する演算手段と、前記音声のカテゴリに対してそれぞれ異なる入力モードを対応させてアプリケーションの実行を制御するインタフェース管理手段とを備え、音声を基本周波数によりカテゴリを区別して分類し、それぞれのカテゴリに対して異なる入力モードを対応させることにより、キーボードなどの機械的入力手段によることなく、声の高さだけでアプリケーションの実行を制御することができるように構成する。
【０００８】
本発明の音声入力モード変換システムにおいては、例えば、インタフェース管理手段が前記音声の各カテゴリを前記アプリケーションの異なる機能に対応させて認識してその実行を制御するように構成することにより、キーボードなどの機械的入力手段によることなく、声の高さだけでアプリケーションの種々の機能の実行を制御することができる。
【０００９】
この場合に、前記演算手段が前記音声を「通常音声」と「シフト音声」の２つのカテゴリの音声に識別し、前記インタフェース管理手段は、この「通常音声」と「シフト音声」とを異なる入力モードに対応させてアプリケーションの実行を制御することにより、音声を基本周波数の高低により２つのカテゴリに分類し、それぞれのカテゴリに対して異なる入力モードを対応させることで、キーボードなどの機械的入力手段によることなく、アプリケーションの実行を制御することができる。
【００１０】
本発明の音声入力モード変換システムにおいて、前記演算手段は、前記音声入力手段にそれぞれ接続した音声認識部に連続する発話区間検出部及び基本周波数推定部と、これら音声認識部及び基本周波数推定部にそれぞれ接続した音声シフト識別部とを有し、前記発話区間検出部は入力された音声から発話区間を検出し、前記基本周波数推定部は前記発話区間の各基本周波数とその平均値を計算し、前記音声シフト識別部は発話区間における平均基本周波数の閾値に対する高低により「通常音声」であるか「シフト音声」であるかを判断する。このため、発話区間の各基本周波数の平均値を閾値と対比してこの閾値に対する高低で「通常音声」であるか「シフト音声」であるかを区別することができる。
【００１１】
本発明の音声入力モード変換システムは、具体的には、前記演算手段が有声休止検出部を有し、前記有声休止検出部は、前記発話区間検出部で検出された発話区間から有声休止を検出し、前記発話区間に有声休止が検出された場合に前記有声休止の各基本周波数を基本周波数推定部において計算するとともに前記音声シフト識別部は前記有声休止の基本周波数の平均値を基準基本周波数として、「通常音声」であるか「シフト音声」であるかを判断する閾値を設定する。このため、「エー」、「ンー」、「アノー」などの有声休止は、人間の発声において自然な発声音であることから、前記有声休止音声の基本周波数の平均値を基準基本周波数として推定し、この基準基本周波数に基づいて閾値を設定することにより、閾値を精度よく定めることができ、各モードの識別率を高めることができる。
【００１２】
本発明の音声入力モード変換システムは、別の態様として、前記有声休止検出部で前記有声休止区間が検出されるたびにその有声休止区間の基本周波数の平均値を基準基本周波数として更新する。これにより、最新の発声状態に基づいて逐次基準基本周波数が更新されるので、より高い精度で「文字入力モード」と「コマンドモード」とを識別することが可能となる。
【００１３】
また、本発明の音声入力モード変換システムは、別の態様として、前記有声休止をいずれのモードの音声としても認識しないように構成する。このため、言い淀みなどが文字入力されることがなく、発話中における言い淀みを許容したものとなる。
【００１４】
本発明の音声入力モード変換システムは、別の態様として、前記アプリケーションの実行状況を示す表示手段を有しており、該表示手段は発音している音声の閾値に対する高低を視覚的に表示するモニタ部を有し、いずれのモードに該当する音声であるかを視覚的に確認できるものである。このため、現在発声している音声がどのモードの音声であるかを視認しながら発声することができるので、より確実にアプリケーションの実行を制御することができる。
【００１５】
【発明の実施の形態】
以下、本発明の音声入力モード変換システムの一実施例について添付図面を参照して詳細に説明する。図１は本実施例の音声入力モード変換システムの構成を示しており、１は音声入力手段であり、２はパーソナルコンピュータなどの情報処理装置であり、この情報処理装置２内には演算手段３と、インタフェース管理手段４とが内蔵されており、インタフェース管理手段４はさらに情報処理装置２内にインストールされたアプリケーション５を制御するように構成されている。この演算手段３は発話区間検出部11と、有声休止検出部12と、基本周波数推定部13とを有し、発話区間検出部11には、音声認識部14が連続している。さらに、これら有声休止検出部12、基本周波数推定部13及び音声認識部14は、それぞれ音声シフト識別部15に接続している。そして、この音声シフト識別部15からの信号がインタフェース管理手段４に送信され、これに基づきアプリケーション５を制御する。上述したようなシステム構成において、音声入力手段１としては、集音用のマイクならば特に制限はなく、頭部装着式のマイクロホン等を用いることができる。
【００１６】
前記構成につきその作用について説明する。音声入力手段１から音声を入力すると演算手段３においてはこの音声を２以上のカテゴリ（本実施例においては２つのカテゴリ）に識別する。すなわち、まず、図２に示すように、発話区間検出部11において発話の開始及び終了時間を取得して発話区間を定め、この発話区間の各フレーム（１０ｍｓ）ごとの周波数（基本周波数（Ｆ０））を基本周波数推定部13において取得する。このとき有声休止検出部12において有声休止区間が検出された場合に、この有声休止区間の各基本周波数（Ｆ０）の平均値を測定し、これを基準基本周波数（基準Ｆ０）として設定する。これに基づいて後述する閾値を決定する。基準Ｆ０は、話者にとってごく自然な、いわば地声の高さであると考えられるが、有声休止をこれに当て嵌めることにより、言い淀むだけで求めることができる。そこで、この実施例においては、有声休止区間中の音高の平均値を話者固有の基準Ｆ０とみなすこととした。
【００１７】
ここで有声休止とは、言い淀み現象の一つで、その発声中は思考中のために調音器官の変化が小さくなるためＦ０が安定し、かつ、地声のＦ０（すなわち基準Ｆ０）に近いと仮定できるものであり、具体的には「エー」、「ンー」、「アノー」などが該当する。この有声休止は人間が自発的に発話する際には自然に現れるため、それを発声することが利用者の負担とはならず、さらに音声入力中には頻繁に現れることから、本実施例においては、発声区間内に有声休止が検出された場合に、その有声休止ごとに該有声休止区間のＦ０の平均値を用いて基準Ｆ０を更新することでその精度を高めることができる。
【００１８】
具体的には図３は男性話者６人の「んー」、「えー」、「あのー」の各有声休止区間のＦ０の平均値を示すグラフであるが、この平均値を算出するに当り、各有声休止区間の全てのＦ０の標準偏差は平均８６．２ｃｅｎｔと半音差未満であり、有声休止区間の音高が安定しており基準Ｆ０として好適であることがわかった。また、図３のグラフより有声休止の種類が異なってもＦ０の平均値はほぼ一定であるので、これを基準Ｆ０とした場合には安定した結果が期待できることがわかる。なお、各話者間においては、それぞれの有声休止の平均Ｆ０が大きく異なるので、話者ごとに基準Ｆ０を定める必要があることがわかる。
【００１９】
このようにして基準Ｆ０を計算したら音声シフト識別部15においてこの基準Ｆ０に基づいて閾値を算出する。この閾値の算出方法については「通常音声」と「シフト音声」とを精度よく識別できれば特に制限はないが、例えば、最も簡単な方法（以下、第１の方法という）としては、あらかじめサンプルとなる通常音声とシフト音声を入力して、これらを適切に識別できる音高を求め、これを基準Ｆ０からの相対値として閾値とすればよい。そして、次に言い淀んだときに、基準Ｆ０が更新あるいは新規に設定されるので、この値に上述したようにして求めた相対値を加えることにより、閾値を更新することができる。なお、閾値の算出方法としては、この他種々の方法が適用可能であるが、その他の算出方法の例については後述する。
【００２０】
一方、発話区間内で有声休止検出部12において有声休止が検出されなかった場合には、この発話区間の基本周波数（Ｆ０）の平均値を計算して発声音高とする。そして、図４に示すように音声シフト識別部15ではこの発声音高が前述した閾値より低い音声であれば「通常発声」と判断し、閾値より高い音声であれば「シフト発声」と判断し、これらの識別結果をインタフェース管理手段４に送信する。
【００２１】
そして、インタフェース管理手段４では、音声シフト識別部15からの識別結果を受信し、それぞれの発声に対してアプリケーション５の異なる機能を対応させる。すなわち、「通常発声」の場合には「文字入力モード」と認識して音声認識結果をそのまま文字列としてアプリケーション５に入力させる。また、「シフト発声」の場合には、その音声の文字認識結果があらかじめ設定しておいた「保存」、「印刷（プリント）」、「改行」などのコマンドと一致していれば「コマンドモード」として捉え、音声認識結果に対するコマンドをアプリケーション５に実行させ、該当しなければ「文字入力」と認識する。このとき、有声休止である「エー」、「ンー」、「アノー」などは、有声休止を「文字入力モード」の音声としても「コマンドモード」の音声としても認識しないようになっている。
【００２２】
このような本実施例のシステムの動作は、例えば、アプリケーション５がワードプロセッサなどの場合には、図５に示すように表示手段たるディスプレイ21に表示させればよい。すなわち、図５において、ディスプレイ21は、左側の文字入力表示部22と右側のモニタ部23とがそれぞれ配置され、これらの上側には操作・コマンド表示部24となっている。そして、モニタ部23には算出された閾値（ＴＨＬＤ）と基準基本周波数（Ｆ０Ｂａｓｅ）とを示すラインがその話者に応じてあらかじめ表示され、ここに現在発声された音声の音高が表示される構成となっている。そして、その発声された音声が閾値（ＴＨＬＤ）のライン以下であれば、文字入力モードとして文字入力表示部22に文字が表示される一方、閾値（ＴＨＬＤ）を超えると該当するコマンドが実行される。このようにディスプレイ21に発声された音声の音高と閾値に対する高低を視覚的に表示するモニタ部23を設けることにより、現在発声している音声が「文字入力モード」の音声であるか「コマンドモード」の音声であるかを話者が視認しながら、発声することができるので、より確実にアプリケーション５の実行を制御することができる。
【００２３】
以上詳述したとおり、本実施例の音声入力モード変換システムは、音声を入力する音声入力手段１と、この音声入力手段１からの音声の入力結果に基づき該音声が「通常音声」であるか「シフト音声」であるかを判断する演算手段３と、前記「通常音声」と「シフト音声」とを「文字入力モード」の音声であるか「コマンドモード」の音声であるかを識別してアプリケーションの実行を制御するインタフェース管理手段４とを備えたものであって、演算手段３は、音声入力手段１にそれぞれ接続した音声認識部14に連続する発話区間検出部11、有声休止検出部12及び基本周波数推定部13と、これら音声認識部14、有声休止検出部12及び基本周波数推定部13にそれぞれ接続した音声シフト識別部15とを有し、この発話区間検出部11は入力された音声から発話区間を検出し、有声休止検出部12は発話区間検出部11で検出された発話区間から有声休止を検出し、基本周波数推定部13は、発話区間の各基本周波数（Ｆ０）を計算するものである。これにより、発話区間に有声休止検出部12で有声休止が検出された場合に有声休止の各基本周波数（Ｆ０）を基本周波数推定部13において計算するとともに音声シフト識別部15はこの有声休止の各基本周波数（Ｆ０）の平均値を基準基本周波数（基準Ｆ０）として、この基準基本周波数（基準Ｆ０）に基づいて閾値を設定する一方、発話区間に有声休止が検出されなかった場合には、該発話区間の各基本周波数（Ｆ０）を基本周波数推定部13において計算し、前記閾値に対する高低により「通常音声」であるか「シフト音声」であるかを判断し、これに基づきインタフェース管理手段４で「文字入力モード」の音声であるか「コマンドモード」の音声であるかを識別してアプリケーションの実行を制御することができる。
【００２４】
このように本実施例の音声入力モード変換システムによれば、マウスやキーボード等の機械的入力手段を用いることなく、音声のみで多様な機能の呼び出しができる。これにより操作手順が簡略化でき、操作性が向上したものとなっている。また、従来の音声インタフェースでは異なるモードにあった機能を、現在システムがどのモードであるのかを意識せずに、常にシームレスに呼び出すことができるため、繰作時間の短縮も期待できる。
【００２５】
特に、有声休止検出部12で有声休止区間が検出されるたびにその基本周波数Ｆ０の平均値を基準基本周波数（基準Ｆ０）として更新する方式を採用しているため、最新の発声状態に基づいて逐次基準基本周波数（基準Ｆ０）が更新されるので、より精度よく「文字入力モード」と「コマンドモード」とを識別することが可能となっている。さらに、本実施例においては、演算手段３が有声休止を「文字入力モード」の音声としても「コマンドモード」の音声としても認識しないので、言い淀みなどが文字入力されることがなく、発話中における言い淀みを許容し、使用に際する利便性の向上したものとなっている。
【００２６】
なお、閾値の設定方法については、前記実施例に限定されず種々の設定方法を適用することができる。例えば、発声音高の分布は、正規分布に近いことから正規分布によりモデル（発声音高モデル）化して、図６に示すように通常発声とシフト発声のそれぞれの発声音高の分布を事前に求め、各発話の発声音高がいずれの分布に属するのがもっともらしいかに基づいて識別し、この境界を閾値とすることができる（以下、この方法を第２の方法という）。この二つの発声の正規分布の平均と分散は、カテゴリが既知の学習データの発声音高から計算する。識別時には、両カテゴリの分布に対して、識別対象の発声音高の尤度が高いカテゴリを求める。
【００２７】
さらに、第３の閾値の設定方法としては、例えば、ワードプロセッサなどの音声テキストエディタの場合、音高情報と言語的な事前知識とを組み合わせて閾値を設定することで「通常発声」と「シフト発声」との識別率の向上を図ることができる。すなわち、各フレーム（10ｍｓシフト）毎のスペクトルデータ列をＸ＝｛ｘ₁，ｘ₂・・・，ｘ_N｝（Ｎはフレーム数）、音高列をＡ＝｛ａ₁，ａ₂・・・，ａ_N｝、単語列をＷ＝｛ｗ₁，ｗ₂・・・，ｗ_K｝（Ｋは単語数）とし、各単語の発声がシフト発声かどうかを表す指標の列をＣ＝｛ｃ₁，ｃｗ₂・・・，ｃ_K｝とする。ｃ_Kをコマンド指標と呼ぶこととすると、通常発声であれば、ｃ_K＝０、シフト発声であればｃ_K＝１となる。このとき．発話内容及び発話区間がシフト発声かどうかを同時に計算することは、Ｘ，Ａが与えられたときのＰ（Ｗ，Ｃ｜Ｘ，Ａ）を最大化するＷ，Ｃを求めることに該当する。この推定は、以下のように定式化することができる。
【００２８】
【数１】

【００２９】
上式の導出にあたっては，スペクトルデータ列Ｘと、指標Ｃ，音高列Ａと単語列Ｗとは互いに独立としている。ここでさらに上記（２）式のP（Ａ｜Ｃ）を
【００３０】
【数２】

【００３１】
と近似することにする。（３）式中、ａ_kは、単語Ｃ_k区間にける平均音高と基準Ｆ０との差であり、以下これを単語音高と呼ぶことにする。Ｐ（ａ_k｜Ｃ_k）は、単語がシフト発声であるかないかが与えられたときに、どのような単語音高ａ_kが出力されるかを表す確率であり、音高の平均をとる区間が単語であることを除いて前述した正規分布における発声音高モデルに相当する。Ｐ（Ｃ｜Ｗ）は、各単語がコマンドであるか非コマンドであるかを単語列から判断する事前確率であり、これをコマンド生起モデルと呼ぶこととする。
【００３２】
連続音声認識においても重みを介して言語モデルと音響モデルとを結合するように、ここでも発声音高モデル、コマンド正規モデルなどは重みを介して結合することとすると下記式（４）が得られる。
【００３３】
【数３】

【００３４】
上記式（４）中の１／（ｋ−２）乗は、単語数での正規化を意味する。また、実際にはα＋β＝１，γ＝１と拘束することとする。以上の確率によってシフト発声の識別を行うことができる。
【００３５】
具体的には、式（４）を解く場合、理想的には、式を最適化する単語列とコマンド指標列を全ての単語境界仮説を網羅する形で求めることが望まれるが、この場合のアルゴリズムは煩雑化する。そこで今回は、第１パスにおいて、言語モデルと音響モデルだけを使って単語列のN−best候補を求めた上で、第２パスで音高モデルとコマンド生起モデルによって、リスコアリングするというアプローチを採用する。
【００３６】
ここで、単語列からコマンド指標の生起確率を与える前述したコマンド生起モデルの構成法について説明すると、一般にコマンド生起モデルの学習データを数多く集めることは困難であり、単純に単語列とコマンド指標列との関係をモデル化することは難しい。そこで、単語をいくつかのクラスに分類し、単語クラスの３つ組みと中央の単語の発話がコマンドかどうかの関係を調べた上で、次の近似式（５），（６）を導入する。
【００３７】
【数４】

【００３８】
ここで、上記式においてｖ_kは単語ｗ_kが属する単語クラスである。
【００３９】
このようにして、「文字入力モード」の音声であるか「コマンドモード」の音声であるかを識別するための閾値を設定することができる。
【００４０】
上述したような３種類の手法により文字入力モードとコマンドモードとを識別する閾値を設定することができる。なお、上述した第１乃至第３の閾値の設定方法では、話者ごとにモデルを設定しても話者共通のモデルを設定してもよいが、いずれの場合でも話者ごとにモデルを設定した方が識別率を高めることができる。具体的には、どの方法でも９０％以上（話者共通のモデルを設定した場合で約８０％以上）の識別率とすることができ、特に第３の方法では９５％以上の識別率とすることができる。したがって、これら第１乃至第３の方法は、識別率、処理の複雑さが異なるので、それぞれ使用される用途等に応じて適当な方法を選択すればよい。
【００４１】
以上、本発明の音声入力モード変換システムの一実施例について、添付図面を参照して説明してきたが、本発明は前記実施例に限定されることなく、種々の変形実施が可能である。例えば、前記実施例においては、「通常発声」を「文字入力モード」、「シフト発声」を「コマンドモード」として認識したが、これを逆に認識してもよいし、また、音声は「通常発声」と「シフト発声」の２つのカテゴリに分類したが、基本周波数の差異により３以上のカテゴリに分類してもよく、この場合には、さらに別のモードに対応させることも可能である。また、前記実施例においては有声休止検出部12は閾値を効率的に設定し、各モードの識別率を向上させるために設けているが、あらかじめ閾値を設定するようにすれば必ずしも必要ない。本発明の基本的思想は音声の高低でアプリケーションのモードを切り替えて制御することにある。さらに、本発明のシステムを適用可能なアプリケーションとしては特に制限はなく、ワードプロセッサやブラウザソフトのみならず、ドローイングソフトや表計算ソフトなどにも適用可能であることはいうまでもない。
【００４６】
【発明の効果】
本発明の音声入力モード変換システムによれば、音声を「通常音声」と「シフト音声」のカテゴリの音声に識別する演算手段が有声休止検出部を有し、有声休止検出部が、発話区間検出部で検出された発話区間から有声休止を検出し、発話区間に有声休止が検出された場合に前記有声休止の各基本周波数を基本周波数推定部において計算するとともに前記音声シフト識別部は前記有声休止の基本周波数の平均値を基準基本周波数として、「通常音声」であるか「シフト音声」であるかを判断する閾値を設定するものであるので、有声休止音声の基本周波数の平均値を基準基本周波数として推定し、この基準基本周波数に基づいて閾値を設定することにより、閾値を精度よく定めることができ、各モードの識別率を高めることができる。
【図面の簡単な説明】
【図１】本発明の一実施例による音声入力モード変換システムのシステム構成を示す概略図である。
【図２】前記実施例における基準Ｆ０の抽出方法を示す概略図である。
【図３】男性話者６人の有声休止区間のＦOの音高を示すグラフである。
【図４】前記実施例における第一の閾値の算出方法を示す概略図である。
【図５】前記実施例におけるディスプレイの一例を示す平面図である。
【図６】前記実施例における第２の閾値の算出方法を示す概略図である。
【符号の説明】
１音声入力手段
２情報処理装置
３演算手段
４インタフェース管理手段
５アプリケーション
11 発話区間検出部
12 有声休止検出部
13 基本周波数推定部
14 音声認識部
15 音声シフト識別部

Claims

音声を入力する音声入力手段と、
前記音声入力手段からの音声の基本周波数の分析結果に基づき、該音声を「通常音声」と「シフト音声」のカテゴリの音声に識別する演算手段と、
前記演算手段により識別された音声のカテゴリの「通常音声」と「シフト音声」とに対応して、「文字入力モード」の音声であるか「コマンドモード」の音声であるかを識別してアプリケーションの実行を制御するインタフェース管理手段とを備えた音声入力モード変換システムであって、
前記演算手段が、前記音声入力手段にそれぞれ接続した音声認識部に連続する発話区間検出部及び基本周波数推定部と、これら音声認識部及び基本周波数推定部にそれぞれ接続した音声シフト識別部とを有し、
前記発話区間検出部は、入力された音声から発話区間を検出し、前記基本周波数推定部は前記発話区間の各基本周波数とその平均値を計算し、前記音声シフト識別部は発話区間における平均基本周波数の閾値に対する高低により「通常音声」であるか「シフト音声」であるかを判断する
音声入力モード変換システムにおいて、
前記演算手段が、有声休止検出部を有し、
前記有声休止検出部は、前記発話区間検出部で検出された発話区間から有声休止を検出し、前記発話区間に有声休止が検出された場合に前記有声休止の各基本周波数を基本周波数推定部において計算するとともに、前記音声シフト識別部は前記有声休止の基本周波数の平均値を基準基本周波数として、「通常音声」であるか「シフト音声」であるかを判断する閾値を設定する
ことを特徴とする音声入力モード変換システム。
前記有声休止検出部で前記有声休止区間が検出されるたびにその有声休止区間の基本周波数の平均値を基準基本周波数として更新することを特徴とする請求項１記載の音声入力モード変換システム。
前記有声休止をいずれのモードの音声としても認識しないことを特徴とする請求項１又は２記載の音声入力モード変換システム。
前記アプリケーションの実行状況を示す表示手段を有しており、該表示手段は発音している音声の閾値に対する高低を視覚的に表示するモニタ部を有し、いずれのモードに該当する音声であるかを視覚的に確認できることを特徴とする請求項１乃至３のいずれか１項記載の音声入力モード変換システム。
前記インタフェース管理手段が前記音声の各カテゴリを前記アプリケーションの異なる機能に対応させて認識してその実行を制御することを特徴とする請求項１記載の音声入力モード変換システム。