JP2003295884A - 音声入力モード変換システム - Google Patents
音声入力モード変換システムInfo
- Publication number
- JP2003295884A JP2003295884A JP2002097581A JP2002097581A JP2003295884A JP 2003295884 A JP2003295884 A JP 2003295884A JP 2002097581 A JP2002097581 A JP 2002097581A JP 2002097581 A JP2002097581 A JP 2002097581A JP 2003295884 A JP2003295884 A JP 2003295884A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- speech
- fundamental frequency
- conversion system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
となく音声だけでコンピュータのインタフェースを操作
することのできる音声入力モード変換システムを提供す
る。 【解決手段】 音声を入力する音声入力手段1と、演算
手段3と、インタフェース管理手段4とを備える。演算
手段3は、音声認識部14に連続する発話区間検出部11、
有声休止検出部12及び基本周波数推定部13を備える。こ
れらまた、有声休止検出部12、基本周波数推定部13及び
音声認識部14には音声シフト識別部15が接続されてい
る。発話区間検出部11は入力された音声から発話区間を
検出し、有声休止検出部12は発話区間検出部11で検出さ
れた発話区間から有声休止区間を検出し、基本周波数推
定部13は発話区間の各基本周波数を計算する。
Description
用いることなく、文字入力やコマンド入力が可能な音声
入力モード変換システムに関する。
タの入力装置としてキーボードやマウス、ポインティン
グデバイス等が使用されており、特にウインドウシステ
ムが登場してからは、マウスなどの入力装置の重要度が
高まった。さらに、近年は音声認識ソフトウエアが開発
され、音声を入力手段とした音声入力インタフェースに
より、文字を入力したりアプリケーションソフトを制御
したりすることが可能となり、キーボードを操作するこ
となく、ハンドフリーでコンピュータの操作を行うこと
が検討されている。
ースにおいては、発話された単語あるいは単語列が運ぶ
言語的情報(音韻的特徴)のみが伝達されるべき情報と
して位置づけられてきたので、2つの異なる次元の操作
を音声のままで峻別することはできなかった。例えば、
「保存」という音声の場合、それが文字入力なのかファ
イルを保存するなどのコマンドを指すものであるのかは
音声だけで判断することは困難であった。このため、基
本的には文字入力のみを音声で行い、コマンド操作は依
然キーボードで行うものが主流であり、ハンドフリーで
操作できるものではなかった。
ボードの特殊キーを用いることにより両者の状態を峻別
すること、例えば、コマンド操作を行う際にはキーボー
ドの「シフト」キーや「Tab」キーなどの特殊キーを
押しながら発音してこれを音声認識ソフトウエアで認識
させることにより「文字入力モード」であるか「コマン
ドモード」であるかを区別することが考えられるが、そ
の場合であっても完全にハンドフリーで操作することは
できない。
全く用いることなく、各種アプリケーションの種々の操
作を行うことができれば、コンピュータの操作の簡易化
を図れるだけでなく、例えばディクテーション操作の効
率化や、あるいはモバイル型コンピュータにおいては各
種電気・機械機器等の点検作業を行いながらハンドフリ
ーでその管理ソフトを操作したりすることが可能とな
り、コンピュータの操作環境の更なる整備が図れて望ま
しい。
であり、キーボード等の機械的入力手段を操作すること
なく音声だけでコンピュータのインタフェースを操作す
ることのできる音声入力モード変換システムを提供する
ことを目的とする。
音声入力モード変換システムは、音声を入力する音声入
力手段と、この音声入力手段からの音声の基本周波数の
分析結果に基き該音声を2以上のカテゴリに識別する演
算手段と、前記音声のカテゴリに対してそれぞれ異なる
入力モードを対応させてアプリケーションの実行を制御
するインタフェース管理手段とを備えたものである。こ
のため、音声を基本周波数によりカテゴリを区別して分
類し、それぞれのカテゴリに対して異なる入力モードを
対応させることにより、キーボードなどの機械的入力手
段によることなく、声の高さだけでアプリケーションの
実行を制御することができる。
システムは、前記請求項1において、前記インタフェー
ス管理手段が前記音声の各カテゴリを前記アプリケーシ
ョンの異なる機能に対応させて認識してその実行を制御
するものである。このため、キーボードなどの機械的入
力手段によることなく、声の高さだけでアプリケーショ
ンの種々の機能の実行を制御することができる。
システムは、前記請求項1又は2において、前記演算手
段が前記音声を「通常音声」と「シフト音声」の2つの
カテゴリの音声に識別し、前記インタフェース管理手段
は、この「通常音声」と「シフト音声」とを異なる入力
モードに対応させてアプリケーションの実行を制御する
ものである。このため、音声を基本周波数の高低により
2つのカテゴリに分類し、それぞれのカテゴリに対して
異なる入力モードを対応させることにより、キーボード
などの機械的入力手段によることなく、アプリケーショ
ンの実行を制御することができる。
ムは、前記請求項3において、前記演算手段は、前記音
声入力手段にそれぞれ接続した音声認識部に連続する発
話区間検出部及び基本周波数推定部と、これら音声認識
部及び基本周波数推定部にそれぞれ接続した音声シフト
識別部とを有し、前記発話区間検出部は入力された音声
から発話区間を検出し、前記基本周波数推定部は前記発
話区間の各基本周波数とその平均値を計算し、前記音声
シフト識別部は発話区間における平均基本周波数の閾値
に対する高低により「通常音声」であるか「シフト音
声」であるかを判断するものである。このため、発話区
間の各基本周波数の平均値を閾値と対比してこの閾値に
対する高低で「通常音声」であるか「シフト音声」であ
るかを区別することができる。
ムは、前記請求項4において、前記演算手段が有声休止
検出部を有し、この有声休止検出部は、前記発話区間検
出部で検出された発話区間から有声休止を検出し、前記
発話区間に有声休止検出部で有声休止が検出されたらこ
の有声休止の各基本周波数を基本周波数推定部において
計算するとともに前記音声シフト識別部はこの有声休止
の基本周波数の平均値を基準基本周波数として、「通常
音声」であるか「シフト音声」であるかを判断する閾値
を設定するものである。このため、「エー」、「ン
ー」、「アノー」などの有声休止は、人間の発声におい
て自然な発声音であることから、この有声休止音声の基
本周波数の平均値を基準基本周波数として推定し、この
基準基本周波数に基いて閾値を設定することにより、閾
値を精度よく定めることができ、各モードの識別率を高
めることができる。
ムは、前記請求項5において、前記有声休止検出部で前
記有声休止区間が検出されるたびにその有声休止区間の
基本周波数の平均値を基準基本周波数として更新するも
のである。このため、最新の発声状態に基いて逐次基準
基本周波数が更新されるので、より高い精度で「文字入
力モード」と「コマンドモード」とを識別することが可
能となっている。
ムは、前記請求項5又は6において、前記有声休止をい
ずれのモードの音声としても認識しないものである。こ
のため、言い淀みなどが文字入力されることがなく、発
話中における言い淀みを許容したものとなっている。
ムは、前記請求項1乃至7のいずれか1項において、前
記アプリケーションの実行状況を示す表示手段を有して
おり、該表示手段は発音している音声の閾値に対する高
低を視覚的に表示するモニタ部を有し、いずれのモード
に該当する音声であるかを視覚的に確認できるものであ
る。このため、現在発声している音声がどのモードの音
声であるかを視認しながら発声することができるので、
より確実にアプリケーションの実行を制御することがで
きる。
換システムの一実施例について添付図面を参照して詳細
に説明する。図1は本実施例の音声入力モード変換シス
テムの構成を示しており、1は音声入力手段であり、2
はパーソナルコンピュータなどの情報処理装置であり、
この情報処理装置2内には演算手段3と、インタフェー
ス管理手段4とが内蔵されており、インタフェース管理
手段4はさらに情報処理装置2内にインストールされた
アプリケーション5を制御するように構成されている。
この演算手段3は発話区間検出部11と、有声休止検出部
12と、基本周波数推定部13とを有し、発話区間検出部11
には、音声認識部14が連続している。さらに、これら有
声休止検出部12、基本周波数推定部13及び音声認識部14
は、それぞれ音声シフト識別部15に接続している。そし
て、この音声シフト識別部15からの信号がインタフェー
ス管理手段4に送信され、これに基きアプリケーション
5を制御する。上述したようなシステム構成において、
音声入力手段1としては、集音用のマイクならば特に制
限はなく、頭部装着式のマイクロホン等を用いることが
できる。
る。音声入力手段1から音声を入力すると演算手段3に
おいてはこの音声を2以上のカテゴリ(本実施例におい
ては2つのカテゴリ)に識別する。すなわち、まず、図
2に示すように、発話区間検出部11において発話の開始
及び終了時間を取得して発話区間を定め、この発話区間
の各フレーム(10ms)ごとの周波数(基本周波数
(F0))を基本周波数推定部13において取得する。こ
のとき有声休止検出部12において有声休止区間が検出さ
れたら、この有声休止区間の各基本周波数(F0)の平
均値を測定し、これを基準基本周波数(基準F0)とし
て設定する。これに基いて後述する閾値を決定する。基
準F0は、話者にとってごく自然な、いわば地声の高さ
であると考えられるが、有声休止をこれに当て嵌めるこ
とにより、言い淀むだけで求めることができる。そこ
で、本実施においては、有声休止区間中の音高の平均値
を話者固有の基準F0とみなすこととした。
で、その発声中は思考中のために調音器官の変化が小さ
くなるためF0が安定し、かつ、地声のF0(すなわち
基準F0)に近いと仮定できるものであり、具体的には
「エー」、「ンー」、「アノー」などが該当する。この
有声休止は人間が自発的に発話する際には自然に現れる
ため、それを発声することが利用者の負担とはならず、
さらに音声入力中には頻繁に現れることから、本実施例
においては発声区間内に有声休止が検出されたらその有
声休止ごとに該有声休止区間のF0の平均値を用いて基
準F0を更新することでその精度を高めることができる
ようになっている。
ー」、「えー」、「あのー」の各有声休止区間のF0の
平均値を示すグラフであるが、この平均値を算出するに
当り、各有声休止区間の全てのF0の標準偏差は平均8
6.2centと半音差未満であり、有声休止区間の音
高が安定しており基準F0として好適であることがわか
った。また、図3のグラフより有声休止の種類が異なっ
てもF0の平均値はほぼ一定であるので、これを基準F
0とした場合には安定した結果が期待できることがわか
る。なお、各話者間においては、それぞれの有声休止の
平均F0が大きく異なるので、話者ごとに基準F0を定
める必要があることがわかる。
シフト識別部15においてこの基準F0に基いて閾値を算
出する。この閾値の算出方法については「通常音声」と
「シフト音声」とを精度よく識別できれば特に制限はな
いが、例えば、最も簡単な方法(以下、第1の方法とい
う)としては、あらかじめサンプルとなる通常音声とシ
フト音声を入力して、これらを適切に識別できる音高を
求め、これを基準F0からの相対値として閾値とすれば
よい。そして、次に言い淀んだときに、基準F0が更新
あるいは新規に設定されるので、この値に上述したよう
にして求めた相対値を加えることにより、閾値を更新す
ることができる。なお、閾値の算出方法としては、この
他種々の方法が適用可能であるが、その他の算出方法の
例については後述する。
いて有声休止が検出されなかった場合には、この発話区
間の基本周波数(F0)の平均値を計算して発声音高と
する。そして、図4に示すように音声シフト識別部15で
はこの発声音高が前述した閾値より低い音声であれば
「通常発声」と判断し、閾値より高い音声であれば「シ
フト発声」と判断し、これらの識別結果をインタフェー
ス管理手段4に送信する。
音声シフト識別部15からの識別結果を受信し、それぞれ
の発声に対してアプリケーション5の異なる機能を対応
させる。すなわち、「通常発声」の場合には「文字入力
モード」と認識して音声認識結果をそのまま文字列とし
てアプリケーション5に入力させる。また、「シフト発
声」の場合には、その音声の文字認識結果があらかじめ
設定しておいた「保存」、「印刷(プリント)」、「改
行」などのコマンドと一致していれば「コマンドモー
ド」として捉え、音声認識結果に対するコマンドをアプ
リケーション5に実行させ、該当しなければ「文字入
力」と認識する。このとき、有声休止である「エー」、
「ンー」、「アノー」などは、有声休止を「文字入力モ
ード」の音声としても「コマンドモード」の音声として
も認識しないようになっている。
例えば、アプリケーション5がワードプロセッサなどの
場合には、図5に示すように表示手段たるディスプレイ
21に表示させればよい。すなわち、図5において、ディ
スプレイ21は、左側の文字入力表示部22と右側のモニタ
部23とがそれぞれ配置され、これらの上側には操作・コ
マンド表示部24となっている。そして、モニタ部23には
算出された閾値(THLD)と基準基本周波数(F0
Base)とを示すラインがその話者に応じてあらかじ
め表示され、ここに現在発声された音声の音高が表示さ
れる構成となっている。そして、その発声された音声が
閾値(THLD)のライン以下であれば、文字入力モー
ドとして文字入力表示部22に文字が表示される一方、閾
値(THLD)を超えると該当するコマンドが実行され
る。このようにディスプレイ21に発声された音声の音高
と閾値に対する高低を視覚的に表示するモニタ部23を設
けることにより、現在発声している音声が「文字入力モ
ード」の音声であるか「コマンドモード」の音声である
かを話者が視認しながら、発声することができるので、
より確実にアプリケーション5の実行を制御することが
できる。
モード変換システムは、音声を入力する音声入力手段1
と、この音声入力手段1からの音声の入力結果に基き該
音声が「通常音声」であるか「シフト音声」であるかを
判断する演算手段3と、前記「通常音声」と「シフト音
声」とを「文字入力モード」の音声であるか「コマンド
モード」の音声であるかを識別してアプリケーションの
実行を制御するインタフェース管理手段4とを備えたも
のであって、演算手段3は、音声入力手段1にそれぞれ
接続した音声認識部14に連続する発話区間検出部11、有
声休止検出部12及び基本周波数推定部13と、これら音声
認識部14、有声休止検出部12及び基本周波数推定部13に
それぞれ接続した音声シフト識別部15とを有し、この発
話区間検出部11は入力された音声から発話区間を検出
し、有声休止検出部12は発話区間検出部11で検出された
発話区間から有声休止を検出し、基本周波数推定部13
は、発話区間の各基本周波数(F0)を計算するもので
ある。これにより、発話区間に有声休止検出部12で有声
休止が検出されたらこの有声休止の各基本周波数(F
0)を基本周波数推定部13において計算するとともに音
声シフト識別部15はこの有声休止の各基本周波数(F
0)の平均値を基準基本周波数(基準F0)として、こ
の基準基本周波数(基準F0)に基いて閾値を設定する
一方、発話区間に有声休止が検出されなかった場合に
は、該発話区間の各基本周波数(F0)を基本周波数推
定部13において計算し、前記閾値に対する高低により
「通常音声」であるか「シフト音声」であるかを判断
し、これに基きインタフェース管理手段4で「文字入力
モード」の音声であるか「コマンドモード」の音声であ
るかを識別してアプリケーションの実行を制御すること
ができる。
システムによれば、マウスやキーボード等の機械的入力
手段を用いることなく、音声のみで多様な機能の呼び出
しができる。これにより操作手順が簡略化でき、操作性
が向上したものとなっている。また、従来の音声インタ
フェースでは異なるモードにあった機能を、現在システ
ムがどのモードであるのかを意識せずに、常にシームレ
スに呼び出すことができるため、繰作時間の短縮も期待
できる。
検出されるたびにその基本周波数F0の平均値を基準基
本周波数(基準F0)として更新する方式を採用してい
るため、最新の発声状態に基いて逐次基準基本周波数
(基準F0)が更新されるので、より精度よく「文字入
力モード」と「コマンドモード」とを識別することが可
能となっている。さらに、本実施例においては、演算手
段3が有声休止を「文字入力モード」の音声としても
「コマンドモード」の音声としても認識しないので、言
い淀みなどが文字入力されることがなく、発話中におけ
る言い淀みを許容し、使用に際する利便性の向上したも
のとなっている。
施例に限定されず種々の設定方法を適用することができ
る。例えば、発声音高の分布は、正規分布に近いことか
ら正規分布によりモデル(発声音高モデル)化して、図
6に示すように通常発声とシフト発声のそれぞれの発声
音高の分布を事前に求め、各発話の発声音高がいずれの
分布に属するのがもっともらしいかに基づいて識別し、
この境界を閾値とすることができる(以下、この方法を
第2の方法という)。この二つの発声の正規分布の平均
と分散は、カテゴリが既知の学習データの発声音高から
計算する。識別時には、両カテゴリの分布に対して、識
別対象の発声音高の尤度が高いカテゴリを求める。
例えば、ワードプロセッサなどの音声テキストエディタ
の場合、音高情報と言語的な事前知識とを組み合わせて
閾値を設定することで「通常発声」と「シフト発声」と
の識別率の向上を図ることができる。すなわち、各フレ
ーム(10msシフト)毎のスペクトルデータ列をX=
{x1,x2・・・,xN}(Nはフレーム数)、音高列
をA={a1,a2・・・,aN}、単語列をW={w1,
w2・・・,wK}(Kは単語数)とし、各単語の発声が
シフト発声かどうかを表す指標の列をC={c1,cw2
・・・,cK}とする。cKをコマンド指標と呼ぶことと
すると、通常発声であれば、cK=0、シフト発声であ
ればcK=1となる。このとき.発話内容及び発話区間
がシフト発声かどうかを同時に計算することは、X,A
が与えられたときのP(W,C|X,A)を最大化する
W,Cを求めることに該当する。この推定は、以下のよ
うに定式化することができる。
タ列Xと、指標C,音高列Aと単語列Wとは互いに独立
としている。ここでさらに上記(2)式のP(A|C)
を
は、単語Ck区間にける平均音高と基準F0との差であ
り、以下これを単語音高と呼ぶことにする。P(ak|
Ck)は、単語がシフト発声であるかないかが与えられ
たときに、どのような単語音高akが出力されるかを表
す確率であり、音高の平均をとる区間が単語であること
を除いて前述した正規分布における発声音高モデルに相
当する。P(C|W)は、各単語がコマンドであるか非
コマンドであるかを単語列から判断する事前確率であ
り、これをコマンド生起モデルと呼ぶこととする。
モデルと音響モデルとを結合するように、ここでも発声
音高モデル、コマンド正規モデルなどは重みを介して結
合することとすると下記式(4)が得られる。
語数での正規化を意味する。また、実際にはα+β=
1,γ=1と拘束することとする。以上の確率によって
シフト発声の識別を行うことができる。
には、式を最適化する単語列とコマンド指標列を全ての
単語境界仮説を網羅する形で求めることが望まれるが、
この場合のアルゴリズムは煩雑化する。そこで今回は、
第1パスにおいて、言語モデルと音響モデルだけを使っ
て単語列のN−best候補を求めた上で、第2パスで音高
モデルとコマンド生起モデルによって、リスコアリング
するというアプローチを採用する。
率を与える前述したコマンド生起モデルの構成法につい
て説明すると、一般にコマンド生起モデルの学習データ
を数多く集めることは困難であり、単純に単語列とコマ
ンド指標列との関係をモデル化することは難しい。そこ
で、単語をいくつかのクラスに分類し、単語クラスの3
つ組みと中央の単語の発話がコマンドかどうかの関係を
調べた上で、次の近似式(5),(6)を導入する。
する単語クラスである。
声であるか「コマンドモード」の音声であるかを識別す
るための閾値を設定することができる。
力モードとコマンドモードとを識別する閾値を設定する
ことができる。なお、上述した第1乃至第3の閾値の設
定方法では、話者ごとにモデルを設定しても話者共通の
モデルを設定してもよいが、いずれの場合でも話者ごと
にモデルを設定した方が識別率を高めることができる。
具体的には、どの方法でも90%以上(話者共通のモデ
ルを設定した場合で約80%以上)の識別率とすること
ができ、特に第3の方法では95%以上の識別率とする
ことができる。したがって、これら第1乃至第3の方法
は、識別率、処理の複雑さが異なるので、それぞれ使用
される用途等に応じて適当な方法を選択すればよい。
ムの一実施例について、添付図面を参照して説明してき
たが、本発明は前記実施例に限定されることなく、種々
の変形実施が可能である。例えば、前記実施例において
は、「通常発声」を「文字入力モード」、「シフト発
声」を「コマンドモード」として認識したが、これを逆
に認識してもよいし、また、音声は「通常発声」と「シ
フト発声」の2つのカテゴリに分類したが、基本周波数
の差異により3以上のカテゴリに分類してもよく、この
場合には、さらに別のモードに対応させることも可能で
ある。また、前記実施例においては有声休止検出部12は
閾値を効率的に設定し、各モードの識別率を向上させる
ために設けているが、あらかじめ閾値を設定するように
すれば必ずしも必要ない。本発明の基本的思想は音声の
高低でアプリケーションのモードを切り替えて制御する
ことにある。さらに、本発明のシステムを適用可能なア
プリケーションとしては特に制限はなく、ワードプロセ
ッサやブラウザソフトのみならず、ドローイングソフト
や表計算ソフトなどにも適用可能であることはいうまで
もない。
変換システムは、音声を入力する音声入力手段と、この
音声入力手段からの音声の基本周波数の分析結果に基き
該音声を2以上のカテゴリに識別する演算手段と、前記
音声のカテゴリに対してそれぞれ異なる入力モードを対
応させてアプリケーションの実行を制御するインタフェ
ース管理手段とを備えたものであるので、音声を基本周
波数によりカテゴリを区別して分類し、それぞれのカテ
ゴリに対して異なる入力モードを対応させることによ
り、キーボードなどの機械的入力手段によることなく、
声の高さだけでアプリケーションの実行を制御すること
ができる。
システムは、前記請求項1において、前記インタフェー
ス管理手段が前記音声の各カテゴリを前記アプリケーシ
ョンの異なる機能に対応させて認識してその実行を制御
するものであるので、キーボードなどの機械的入力手段
によることなく、声の高さだけでアプリケーションの種
々の機能の実行を制御することができる。
システムは、前記請求項1又は2において、前記演算手
段は前記音声を「通常音声」と「シフト音声」の2つの
カテゴリの音声に識別し、前記インタフェース管理手段
は、この「通常音声」と「シフト音声」とを「文字入力
モード」の音声であるか「コマンドモード」の音声であ
るかを識別してアプリケーションの実行を制御するもの
であるので、音声を基本周波数の高低により2種類のカ
テゴリに分類し、それぞれのカテゴリに対して異なる入
力モードを対応させることにより、キーボードなどの機
械的入力手段によることなく、アプリケーションの実行
を制御することができる。
ムは、前記請求項3において、前記演算手段は、前記音
声入力手段にそれぞれ接続した音声認識部に連続する発
話区間検出部及び基本周波数推定部と、これら音声認識
部及び基本周波数推定部にそれぞれ接続した音声シフト
識別部とを有し、前記発話区間検出部は入力された音声
から発話区間を検出し、前記基本周波数推定部は前記発
話区間の各基本周波数とその平均値を計算し、前記音声
シフト識別部は発話区間における平均基本周波数の閾値
に対する高低により「通常音声」であるか「シフト音
声」であるかを判断するものであるので、発話区間の各
基本周波数の平均値を閾値と対比してこの閾値に対する
高低で「通常音声」であるか「シフト音声」であるかを
区別することができる。
ムは、前記請求項4において、前記演算手段が有声休止
検出部を有し、この有声休止検出部は、前記発話区間検
出部で検出された発話区間から有声休止を検出し、前記
発話区間に有声休止検出部で有声休止が検出されたらこ
の有声休止の各基本周波数を基本周波数推定部において
計算するとともに前記音声シフト識別部はこの有声休止
の基本周波数の平均値を基準基本周波数として、「通常
音声」であるか「シフト音声」であるかを判断する閾値
を設定するものであるので、有声休止音声の基本周波数
の平均値を基準基本周波数として推定し、この基準基本
周波数に基いて閾値を設定することにより、閾値を精度
よく定めることができ、各モードの識別率を高めること
ができる。
ムは、前記請求項5において、前記有声休止検出部で前
記有声休止区間が検出されるたびにその有声休止区間の
基本周波数の平均値を基準基本周波数として更新するも
のであるので、最新の発声状態に基いて逐次基準基本周
波数が更新されるので、より精度よく「文字入力モー
ド」と「コマンドモード」とを識別することが可能とな
っている。
ムは、前記請求項5又は6において、前記有声休止をい
ずれのモードの音声としても認識しないものであるの
で、言い淀みなどが文字入力されることがなく、発話中
における言い淀みを許容したものとなっている。
ムは、前記請求項1乃至7のいずれか1項において、前
記アプリケーションの実行状況を示す表示手段を有して
おり、該表示手段は発音している音声の閾値に対する高
低を視覚的に表示するモニタ部を有し、いずれのモード
に該当する音声であるかを視覚的に確認できるものであ
るので、現在発声している音声がどのモードの音声であ
るかを視認しながら、発声することができるので、より
確実にアプリケーションの実行を制御することができ
る。
ステムのシステム構成を示す概略図である。
概略図である。
すグラフである。
す概略図である。
平面図である。
す概略図である。
Claims (8)
- 【請求項1】 音声を入力する音声入力手段と、この音
声入力手段からの音声の基本周波数の分析結果に基き該
音声を2以上のカテゴリに識別する演算手段と、前記音
声のカテゴリに対してそれぞれ異なる入力モードを対応
させてアプリケーションの実行を制御するインタフェー
ス管理手段とを備えたことを特徴とする音声入力モード
変換システム。 - 【請求項2】 前記インタフェース管理手段が前記音声
の各カテゴリを前記アプリケーションの異なる機能に対
応させて認識してその実行を制御することを特徴とする
請求項1記載の音声入力モード変換システム。 - 【請求項3】 前記演算手段は前記音声を「通常音声」
と「シフト音声」の2つのカテゴリの音声に識別し、前
記インタフェース管理手段は、この「通常音声」と「シ
フト音声」とを「文字入力モード」の音声であるか「コ
マンドモード」の音声であるかを識別してアプリケーシ
ョンの実行を制御することを特徴とする請求項1又は2
記載の音声入力モード変換システム。 - 【請求項4】 前記演算手段は、前記音声入力手段にそ
れぞれ接続した音声認識部に連続する発話区間検出部及
び基本周波数推定部と、これら音声認識部及び基本周波
数推定部にそれぞれ接続した音声シフト識別部とを有
し、前記発話区間検出部は入力された音声から発話区間
を検出し、前記基本周波数推定部は前記発話区間の各基
本周波数とその平均値を計算し、前記音声シフト識別部
は発話区間における平均基本周波数の閾値に対する高低
により「通常音声」であるか「シフト音声」であるかを
判断することを特徴とする請求項3記載の音声入力モー
ド変換システム。 - 【請求項5】 前記演算手段が有声休止検出部を有し、
この有声休止検出部は、前記発話区間検出部で検出され
た発話区間から有声休止を検出し、前記発話区間に有声
休止検出部で有声休止が検出されたらこの有声休止の各
基本周波数を基本周波数推定部において計算するととも
に前記音声シフト識別部はこの有声休止の基本周波数の
平均値を基準基本周波数として、「通常音声」であるか
「シフト音声」であるかを判断する閾値を設定すること
を特徴とする請求項4記載の音声入力モード変換システ
ム。 - 【請求項6】 前記有声休止検出部で前記有声休止区間
が検出されるたびにその有声休止区間の基本周波数の平
均値を基準基本周波数として更新することを特徴とする
請求項5記載の音声入力モード変換システム。 - 【請求項7】 前記有声休止をいずれのモードの音声と
しても認識しないことを特徴とする請求項5又は6記載
の音声入力モード変換システム。 - 【請求項8】 前記アプリケーションの実行状況を示す
表示手段を有しており、該表示手段は発音している音声
の閾値に対する高低を視覚的に表示するモニタ部を有
し、いずれのモードに該当する音声であるかを視覚的に
確認できることを特徴とする請求項1乃至7のいずれか
1項記載の音声入力モード変換システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002097581A JP3906327B2 (ja) | 2002-03-29 | 2002-03-29 | 音声入力モード変換システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002097581A JP3906327B2 (ja) | 2002-03-29 | 2002-03-29 | 音声入力モード変換システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003295884A true JP2003295884A (ja) | 2003-10-15 |
JP3906327B2 JP3906327B2 (ja) | 2007-04-18 |
Family
ID=29240028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002097581A Expired - Lifetime JP3906327B2 (ja) | 2002-03-29 | 2002-03-29 | 音声入力モード変換システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3906327B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006054724A1 (ja) * | 2004-11-22 | 2006-05-26 | National Institute Of Advanced Industrial Science And Technology | 音声認識装置及び方法ならびにプログラム |
JP2008052676A (ja) * | 2006-08-28 | 2008-03-06 | Tokyo Electric Power Co Inc:The | コンピュータ実行可能なプログラム、方法、および処理装置 |
US8581910B2 (en) | 2010-10-20 | 2013-11-12 | Sharp Kabushiki Kaisha | Input display apparatus, input display method, and recording medium |
WO2018043138A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP2018109854A (ja) * | 2016-12-29 | 2018-07-12 | 恒次 國分 | 音コマンド入力装置 |
JP2020109475A (ja) * | 2019-01-02 | 2020-07-16 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、設備、及び記憶媒体 |
US11145304B2 (en) | 2018-09-20 | 2021-10-12 | Dynabook Inc. | Electronic device and control method |
-
2002
- 2002-03-29 JP JP2002097581A patent/JP3906327B2/ja not_active Expired - Lifetime
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006054724A1 (ja) * | 2004-11-22 | 2006-05-26 | National Institute Of Advanced Industrial Science And Technology | 音声認識装置及び方法ならびにプログラム |
GB2437436A (en) * | 2004-11-22 | 2007-10-24 | Nat Inst Of Advanced Ind Scien | Voice recognition device and method, and program |
GB2437436B (en) * | 2004-11-22 | 2009-07-08 | Nat Inst Of Advanced Ind Scien | Voice recognition device and method, and program |
US7848926B2 (en) | 2004-11-22 | 2010-12-07 | National Institute Of Advanced Industrial Science And Technology | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words |
JP2008052676A (ja) * | 2006-08-28 | 2008-03-06 | Tokyo Electric Power Co Inc:The | コンピュータ実行可能なプログラム、方法、および処理装置 |
US8581910B2 (en) | 2010-10-20 | 2013-11-12 | Sharp Kabushiki Kaisha | Input display apparatus, input display method, and recording medium |
WO2018043138A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP2018109854A (ja) * | 2016-12-29 | 2018-07-12 | 恒次 國分 | 音コマンド入力装置 |
JP7010585B2 (ja) | 2016-12-29 | 2022-01-26 | 恒次 國分 | 音コマンド入力装置 |
US11145304B2 (en) | 2018-09-20 | 2021-10-12 | Dynabook Inc. | Electronic device and control method |
JP2020109475A (ja) * | 2019-01-02 | 2020-07-16 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、設備、及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP3906327B2 (ja) | 2007-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US6845357B2 (en) | Pattern recognition using an observable operator model | |
US6721699B2 (en) | Method and system of Chinese speech pitch extraction | |
US6553342B1 (en) | Tone based speech recognition | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP7143916B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US20110196678A1 (en) | Speech recognition apparatus and speech recognition method | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP2009237353A (ja) | 関連付け装置、関連付け方法及びコンピュータプログラム | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
Yağanoğlu | Real time wearable speech recognition system for deaf persons | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
Këpuska | Wake-up-word speech recognition | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2003295884A (ja) | 音声入力モード変換システム | |
JP4677548B2 (ja) | パラ言語情報検出装置及びコンピュータプログラム | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP2000250593A (ja) | 話者認識装置及び方法 | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
Prukkanon et al. | F0 contour approximation model for a one-stream tonal word recognition system | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム | |
CN113436649B (zh) | 一种语音情感标定辅助方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041221 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20041221 |
|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20041221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3906327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |