JP2009104156A - 電話通信端末 - Google Patents
電話通信端末 Download PDFInfo
- Publication number
- JP2009104156A JP2009104156A JP2008318704A JP2008318704A JP2009104156A JP 2009104156 A JP2009104156 A JP 2009104156A JP 2008318704 A JP2008318704 A JP 2008318704A JP 2008318704 A JP2008318704 A JP 2008318704A JP 2009104156 A JP2009104156 A JP 2009104156A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- registered
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 259
- 230000008569 process Effects 0.000 claims description 224
- 238000012545 processing Methods 0.000 claims description 114
- 230000005540 biological transmission Effects 0.000 claims description 31
- 238000009826 distribution Methods 0.000 claims description 20
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 4
- 230000003203 everyday effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 55
- 230000004044 response Effects 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 24
- 238000012790 confirmation Methods 0.000 description 24
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000007257 malfunction Effects 0.000 description 11
- 230000000052 comparative effect Effects 0.000 description 7
- 239000000470 constituent Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 241000207961 Sesamum Species 0.000 description 3
- 235000003434 Sesamum indicum Nutrition 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデル22の尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する仮想的なモデル23の尤度とを算出し、それらの尤度に基づいて音声認識を行うようにした。
【選択図】 図7
Description
ところが、音声認識技術を用いた単一のリモートコントロール装置で複数の機器を制御する場合、認識させたい単語数が増大するため、入力した音声内容が、必ずしも正確に認識処理されず、指示内容とは異なる内容として認識され、誤動作の原因となり、使いやすさを求めるリモートコントロール装置としての特徴が半減していた。特に、テレビやオーディオといった音響機器を制御する場合、対象機器から発生する音により、音声認識処理が勝手に作動し、使用者が何ら発話していないにもかかわらずに機器操作が行われてしまったり、あるいは、所望とする制御内容を発話しても、音響機器から発生する音により、正しく認識されず、何度も言い直しをしなければならないという問題があった。
本発明は、上記従来の技術の未解決の課題に着目してなされたものであって、生活雑音による誤認識の発生を抑制防止する等、常時音声認識を行う機器に好適な音声認識方法を用いた電話通信端末を提供することを目的とする。
本発明の第1の態様は、
音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムにより照合することにより音声認識を行う音声認識方法において、前記登録語についての音声単位ラベル系列と並列に登録語以外の不要語を認識するための音声単位ラベル系列を設け、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識させることを特徴とする。換言すれば、音声を音響パラメータ系列に変換し、その音響パラメータ系列に対し、登録語についての音声単位ラベル系列に対応する登録語認識用音響モデルの尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する不要語認識用音響モデルの尤度とを算出し、それらの尤度に基づいて音声認識を行うことを特徴とするものである。
前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、使用するすべての音声単位モデルを平準化した仮想的な音声単位モデルからなるものとしてもよい。換言すれば、前記不要語認識用音響モデルを、全ての音声単位モデルを平準化した仮想的な音声単位モデルに集約してもよい。
また、前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、母音だけの音素で構成される自己ループ型のネットワーク構成であるものでもよい。換言すれば、前記不要語認識用音響モデルが、母音の音素に対応する音素モデルの集合体からなり、その集合体の終点から始点への自己ループを持つことを特徴とするものであって、音響パラメータ系列に対し、母音の音素に対応する音素モデル群の尤度を音響パラメータ毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものでもよい。
複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、遠隔操作を指示する認識対象語を記憶する記憶手段と、利用者から発せられた音声を入力する手段と、利用者から発せられた音声に含まれる前記認識対象語を前記記憶手段に基づいて認識する音声認識手段と、その音声認識手段にて認識された認識対象語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識方法が第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いたことを特徴とする。換言すれば、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いて認識することを特徴とするものである。
また、利用者に通話させるための音声入力部を有し、且つ、前記音声認識手段で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ユニットを備え、前記音声入力手段と前記通信ユニットの音声入力部とを個別に設けてもよい。
このような構成とすれば、利用者が通話中であって、その通話のために通信ユニットの音声入力部が専有されている場合であっても、利用者の音声を音声認識手段に入力でき、通信ユニットを制御することができる。
また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する制御手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、第1の態様から第3の態様のいずれか1つに記載の音声認識方法を用いて認識するものとしてもよい。なお、音声によるメールの送受信処理としては、例えば、利用者にメール内容を音声入力させ、その音声を音声データに変換し、その音声データを電子メールに添付して送信し、且つ、音声データが添付された電子メールを受信し、その音声データを再生する処理が挙げられる。また、音声による予定管理処理としては、例えば、利用者に予定の内容を音声入力させ、その音声を音声データに変換すると共に、その予定の実行日を入力させ、その実行日に音声データを対応づけて予定を管理する処理が挙げられる。また、音声によるメモ処理としては、利用者にメモ内容を音声入力させ、その音声を音声データに変換し、利用者の要求に応じて音声データを再生する処理が挙げられる。また、音声による報知処理としては、例えば、利用者に報知内容を入力させて、その音声を音声データに変換すると共に、報知タイミングを入力させ、その報知タイミングで音声データを再生する処理が挙げられる。
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする。換言すれば、利用者に電話操作に関する登録語を音声で入力させる音声入力部を有し、その音声入力部で入力させた登録語を認識する音声認識ユニットと、利用者に通話させるための音声入力部を有し且つ前記音声認識ユニットで認識された登録語に基づいて通信回線への接続状態を制御する通信ユニットとを備え、前記音声認識ユニットの音声入力部と前記通信ユニットの音声入力部とを個別に設けたことを特徴とするものである。
このような構成としたため、利用者が通話中であって、その通話のために通信ユニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ユニットに入力でき、通信ユニットを制御することができる。
公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする。換言すれば、前記記憶手段は、特定の名称が登録されている名称語彙リストと、任意の電話番号が登録されている番号語彙リストと、通話時の電話操作関連語が登録されている通話操作語彙リストと、着信時の電話操作関連語が登録されている着信操作語彙リストとを個別に記憶し、前記音声認識手段は、当該音声認識手段による認識結果又は通信回線の状態に応じて前記記憶手段に記憶されている語彙リストを選出し、その語彙リストを参照して、前記音声入出力手段で入力された音声に含まれる言葉を認識することを特徴とするものである。
このような構成としたため、状況に応じて語彙リストを適切なものに変更することで、生活雑音等の不要な音声による誤認識の発生を抑制防止できる。
また、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識するようにしてもよい。換言すれば、前記記憶手段は、電話番号の全桁に相当する数字列が登録されている連続番号語彙リストを記憶し、前記音声認識手段は、入力音声に含まれる電話番号を認識するときには、前記記憶手段に記憶されている連続番号語彙リストを参照するようにしてもよい。
このような構成にすれば、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。
また、前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有しているものであってもよい。換言すれば、前記音声認識手段が登録語を認識可能な状態にあることを報知するようにしてもよい。
このような構成にすれば、画面表示手段で知らされた発話タイミングで発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を適切に認識させることができる。
前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する第2制御手段を備えたものとしてもよい。
このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしてもよい。
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしてもよい。
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成してもよい。
利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声検出手段が登録語を認識可能な状態にあることを報知する発話タイミング報知手段とを備えたことを特徴するものである。
このような構成としたため、登録語を認識可能な状態にあることが報知されたときに発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。
さらに、本発明の第17の態様は、
前記音声検出手段で検出された音声の大きさを報知する音量報知手段を備えるものでもよい。
このような構成にすれば、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。
また、音声指示情報メモリ7内には、各登録語に対応する制御コードが記憶されており、音声指示認識回路6で抽出された、つまり音声認識された登録語に対応する制御コードを当該音声指示情報メモリ7から呼び出し、中央制御回路8を経由して、赤外線発光部2のIRED駆動・制御回路9へ制御コードが伝達される。そして、IRED駆動・制御回路9で、当該制御コードに対応するIREDコードをIREDコード情報メモリ10から呼び出し、IRED11から赤外線信号として発信される。
なお、使用するハードウエアとしては、図1記載の基本機能を有していれば、特に限定されるものではなく、以下ではリモコン装置本体部1として、図2に示すように、市販のパソコンを用いた場合について説明する。
次にステップS8に移行して、前記ステップS6で認識された指示内容に対応する赤外線コードを赤外線発光部2に送信させる。つまり、指示内容が音声入力されると、その指示内容の認識結果に基づいて、対応する赤外線コードを呼び出し、赤外線発光部2から対象機器へ赤外線コードを送信することになる。このモードでは、制御できる指示内容以外の命令や雑音が入力されると、不要語として認識する。
本システムを再開するときは、すでに中央制御回路8のオペレーションシステムが立ち上がっている場合には、本システムに関わるアプリケーションソフトを起動すればよく、前記オペレーションシステムが休止している場合は、本体システムの電源ボタンのみ物理的に押下することによって可能となる。
次に、本発明の第1実施例を説明する。
この実施例では、図7に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23を設け、その音素モデル23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理に読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を、それぞれ5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ発話したところ、語彙全体での正答率は94%であった。
次に、本発明の第2実施例を説明する。
この実施例では、図8に示すように、不要語モデルとして、母音の音素、つまり「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、その自己ループモデル23’と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を、それぞれ5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、語彙全体での正答率は90%であった。
次に、本発明の第3実施例を説明する。
この実施例では、第1実施例と同様、図7に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23を設け、その音素モデル23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク23とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は92%であった。
次に、本発明の第4実施例を説明する。
この実施例では、第2実施例と同様、図8に示すように、不要語モデルとして、母音の音素、つまり「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、その自己ループモデル23’と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は93%であった。
次に、本発明の第5実施例を説明する。
この実施例では、図9に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル23及び、「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群で構成される自己ループモデル23’を設け、それらのモデル22、23と、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS103の音声認識処理ルーチンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は100%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、全体での正答率は88%であった。
次に、本発明の第6実施例を説明する。
この実施例では、図10に示すように、不要語モデルとして、「あ(a)」、「い(i)」、「う(u)」、「え(e)」、「お(o)」の音素に対応するHMM群23”、つまり図8の不要語モデルから自己ループを除いたものと、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22とが並列に設けられた語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は23%であった。
次に、本発明の第1比較例を説明する。
この比較例では、図10に示すように、不要語モデルを認識するための仮想的なモデルを用いずに、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22だけで構成される語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火(たきび)」、「武雄(たけお)」、「ファミコン」を5回ずつ音声入力したところ、「焚き火」はすべて「テレビ」として誤認識され、「武雄」はすべて「ビデオ」として誤認識され、「ファミコン」はすべて「エアコン」として誤認識された。したがって、不要語として認識される確率、つまり登録語として誤認識されない確率は0%であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について10回ずつ音声入力したところ、語彙全体での正答率は98%であった。
次に、本発明の第2比較例を説明する。
この比較例では、比較例1と同様、図11に示すように、不要語を認識するための仮想的なモデルを用いずに、表1記載の登録単語リスト、つまり登録語の語彙ネットワーク22だけで構成される語彙ネットワーク20を、図3のステップS3の音声認識処理ルーチンに読み込んだ状態の図1記載の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「えーと」、「警備(けいび)」、「えへん」、「承知(しょーち)」、「オーデコロン」を、それぞれ10回ずつ音声入力した。結果、「あいうえお」は「ビデオ」として誤認識されやすく、「えーと」は「エアコン」として誤認識されやすく、「警備」は「テレビ」として誤認識されやすく、「えへん」は「エアコン」として誤認識されやすく、「承知」は「照明」として誤認識されやすく、「オーデコロン」が「オーディオ」として誤認識されやすかった。そのため、不要語として認識される確率、つまり登録語として誤認識されない確率は0%であった。
なお、本実施形態では、音声指示情報メモリ7が記憶手段に対応し、マイクロフォン3が利用者から発せられた音声を入力する手段に対応し、音声指示認識回路6が音声認識手段に対応し、赤外線発光部2が送信手段に対応する。
図14に、図13の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを送信等する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。
前記ステップS107では、マイクロフォン53で検出された音声に対し、登録語である録音開始コマンド(例えば、「録音開始」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音開始コマンドが含まれているか否かを判定し、録音開始コマンドが含まれている場合には(YES)ステップS108に移行し、そうでない場合には(NO)このフローを繰り返す。
前記ステップS109では、マイクロフォン53で検出された音声に対し、登録語である追加録音コマンド(例えば、「追加録音」という言葉)を認識する音声認識処理を実行し、且つ、その音声に追加録音コマンドが含まれているか否かを判定し、追加録音コマンドが含まれている場合には(YES)再びステップS108に移行し、そうでない場合には(NO)ステップS110に移行する。
前記ステップS111では、前記ステップS108で生成した音声データ、つまりメール内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67に再生させてから、ステップS112に移行する。
前記ステップS113では、プロバイダに電話をかけるためのATコマンドを記憶装置の所定のデータ領域から読み出し、そのATコマンドを音声通話ユニット102に送信し、プロバイダのメールサーバに接続する。
次にステップS115に移行して、回線切断を指示するATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット52に送信する。
一方、前記ステップS117では、前記ステップS108で生成した音声データ、つまりメール内容を記憶装置の所定のデータデータ領域から削除してから、前記ステップS118に移行する。
次にステップS204に移行して、プロバイダに電話をかけるためのATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット102に送信し、プロバイダのメールサーバに接続する。
次にステップS206に移行して、電子メールの受信が完了した旨のメッセージをLCD表示装置62に表示させる。
次にステップS207に移行して、回線切断を指示するATコマンドを記憶装置の所定のデータ領域から呼び出し、そのATコマンドを音声通話ユニット52に送信する。
前記ステップS211では、まずマイクロフォン53で検出された音声に対し、登録語であるスケジュール登録コマンド(例えば、「スケジュール登録」という言葉)を認識する音声認識処理を実行して、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には(YES)ステップS212に移行し、そうでない場合には(NO)ステップS217に移行する。
次にステップS213に移行して、前記ステップS208で選択させたメールにヘッダ情報(例えば、日付を指定する情報等)が記載されているか否かを判定し、ヘッダ情報が記載されている場合には(YES)ステップS214に移行し、そうでない場合には(NO)ステップS215に移行する。
次にステップS216に移行して、まず、前記ステップS208で選択させたメールに添付されている音声データを、前記ステップS215で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大・小項目選択コマンド(例えば、「プライベート」や「待合わせ」という言葉等)の入力を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大・小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声データ、つまりスケジュール内容の大・小項目として記憶装置の所定のデータ領域に格納してから、前記ステップS217に移行する。
次にステップS304に移行して、マイクロフォン53で検出された音声に対し、登録語であるスケジュール登録コマンドを認識する音声認識処理を実行し、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には(YES)ステップS305に移行し、そうでない場合には(NO)ステップS310に移行する。
次にステップS306に移行して、スケジュール内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップS303で認識した年月日におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。
前記ステップS312では、マイクロフォン53で検出された音声に対し、登録語である録音内容確認コマンド(例えば、「確認」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音内容確認コマンドが含まれているか否かを判定し、録音内容確認コマンドが含まれている場合には(YES)ステップS313に移行し、そうでない場合には(NO)ステップS314に移行する。
前記ステップS314では、まず、マイクロフォン53で検出された音声に対し、登録語であるスケジュール追加登録コマンド(例えば、「予定設定」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール追加登録コマンドが含まれているか否かを判定し、スケジュール追加登録コマンドが含まれている場合には(YES)ステップS315に移行し、そうでない場合には(NO)ステップS316に移行する。
一方、前記ステップS316では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール訂正コマンド(例えば、「訂正」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール訂正コマンドが含まれているか否かを判定し、スケジュール訂正コマンドが含まれている場合には(NO)前記ステップS305に移行し、そうでない場合には(NO)ステップS317に移行する。
一方、前記ステップS319では、マイクロフォン53で検出された音声に対し、登録語であるスケジュール検索コマンド(例えば、「予定検索」という言葉)を認識する音声認識処理を実行し、且つ、その音声にスケジュール検索コマンドが含まれているか否かを判定し、スケジュール検索コマンドが含まれている場合には(YES)ステップS320に移行し、そうでない場合には(NO)再び前記ステップS303に移行する。
次にステップS323に移行して、マイクロフォン53で検出された音声に再検索コマンド(例えば、「再検索」という言葉)を認識する音声認識処理を実行し、且つ、その音声に再検索コマンドが含まれているか否かを判定し、再検索コマンドが含まれている場合には(YES)ステップS324に移行し、そうでない場合には(NO)再び前記ステップS320に移行する。
前記ステップS405では、メモ内容の発話を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声を所定時間録音して音声データを生成し、その音声データを前記ステップS403で選択させたメモフォルダに対応するメモ内容として記憶装置の所定のデータ領域に格納する。
前記ステップS408では、前記ステップS403で選択させたメモフォルダに対応する音声データ、つまりメモ内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ67に再生させてから、前記ステップS409に移行する。
次にステップS505に移行して、報知内容を録音するか否かの返答を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声に対し、登録語である録音開始確認コマンド(例えば「はい」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音開始確認コマンドが含まれているか否かを判定し、録音開始確認コマンドが含まれている場合には(YES)ステップS506に移行し、そうでない場合には(NO)ステップS502に移行する。
次にステップS507に移行して、前記ステップS506で録音した音声、つまり報知内容の確認を促すメッセージをLCD表示装置62に表示させると共に、マイクロフォン53で検出された音声に対し、登録語である録音内容の確認コマンド(例えば、「用件確認」という言葉)を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には(YES)ステップS508に移行し、そうでない場合には(NO)ステップS509に移行する。
前記ステップS509では、マイクロフォン53で検出された音声に対し、登録語である終了コマンド(例えば、「終了」という言葉)を認識する音声認識処理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には(YES)この演算処理を終了し、そうでない場合には(NO)再び前記ステップS502に移行する。
以上、説明してきたように、本実施形態の情報通信端末装置にあっては、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能を利用者の音声に含まれる登録語を認識することで実行するため、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。
なお、本実施形態では、マイクロフォン53は音声検出手段に対応し、音声指示認識回路56が音声認識手段に対応し、中央制御回路58が制御手段に対応する。
また、音声指示情報メモリ107内には、登録語彙リストとして、人名とその人名に対応する電話番号とが記録された人名語彙リストと、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストと、電話操作に関する通話操作語彙リストと、電話着信時の応答に関する着信操作語彙リスト、各登録語に対応する制御コードとが記憶されている。例えば、音声指示認識回路106で電話操作に関する登録語が抽出、つまり認識結果として得られると、その音声認識された登録語に対応する電話制御用の制御コードを当該音声指示情報メモリ107から呼び出し、中央制御回路108より音声通話ユニット102へ送信される。制御コードは、音声通話ユニット102を制御できるものであれば特に限定されるものではないが、一般的にATコマンドが利用されるため、本実施形態でもATコマンドを代表例として採用している。
前記ステップS604では、前記ステップS602で人名が抽出されると、音声認識ユニット102に接続された端末画面(LCD表示装置109)に、抽出された人名を表示させると共に、応答音声制御回路110を用いて、音声アナウンスによって、抽出された人名を報知させる。
前記ステップS703では、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語である電話番号を受け付けるための予め登録された音声コマンドが含まれていることを音声指示認識回路106に認識させ、その音声コマンドが認識された場合、前記ステップS704に移行する。そして、任意の電話番号を受け付ける電話番号認識モードであるかどうかの確認を利用者が行い、人名認識モード等、電話番号認識モード以外であれば、電話番号を受け付けるための予め登録された音声コマンドを発話する。
このように、本実施形態では、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。ちなみに、電話番号を1桁ずつ認識させる方法では、全桁を正しく認識させようとすると、多くの時間がかかってしまう。
前記ステップS705では、前記ステップS704で認識された電話番号をLCD表示装置109に表示させると共に、その認識結果を応答音声制御回路110に伝達し、その電話番号をスピーカ105に報知させる。
前記ステップS707では、前記ステップS704で抽出された電話番号に対応するATコマンドを音声指示情報メモリ107から呼び出し、そのATコマンドを音声通話ユニット102に送信する。
前記ステップS903では、まず、登録語彙リストとして、話着信時の応答に関する着信操作語彙リストを音声指示認識回路106内に読み込む。次に、LCD表示装置109にオフフックを指示する語彙、またはオンフックを指示する語彙の発話を促すメッセージを表示させる。また、マイクロフォン103で検出された音声を読み込み、その音声に含まれる登録語であるオフフックを指示する語彙が含まれているか音声指示認識回路106に認識させる。そして、マイクロフォン103で検出された音声に登録語であるオフフックを指示する語彙が含まれているか、またはオンフックを指示する語彙が含まれているかを判定し、オフフックを指示する語彙が含まれている場合には(YES、ステップS903’)ステップS904に移行し、オンフックを指示する語彙が含まれている場合には(NO、ステップS903”)ステップS905に移行する。つまり、音声指示認識回路106では、電話着信時の応答に関する着信操作語彙リストを読み込み、利用者は、状況に応じて電話に応じるかどうかの判断を行う。電話に出る場合は、予め登録されているオフフックを指示する語彙、例えば「電話取って」なる語彙を発話する。マイクロフォン103を経由して入力された音声は、音声指示認識回路により「電話取って」であるかどうかの認識判断を行う。
以上の一連の音声認識動作において、本発明の音声認識機能付き電話通信端末では、音声入力の有無に関係なく、音声指示認識回路106の内部処理では、常時、音声検出アルゴリズム(VAD)が動作している。そして、このVADによって、マイクロフォン103から入力される雑音を含めたすべての音に対し、音声として未入力状態なのか、音声として入力継続中の状態なのか、音声として入力が終了した状態なのかといった判断を繰り返している。
例えば、上記実施の形態では、リモートコントロール装置、情報端末装置及び電話通信端末をそれぞれ個別に形成する例を示したが、これに限られるものではなく、例えば前記第1実施形態のリモコン装置本体部1又は前記第3実施形態の電話通信端末に、第2実施形態の通信ユニット52を取り付け、リモコン装置本体部1で音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声タイマ機能等を実行できるようにしてもよい。そのようにすれば、前記第2実施形態と同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。
また、本発明に係る情報通信端末は、利用者の音声に含まれる登録語を前記音声認識方法を用いて認識するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。
また、上記第1実施形態と同様な音声認識処理を用いるため、上記第1実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメータ系列に対し、不要語モデル23の尤度が大きく算出され、登録語の語彙ネットワーク22の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、電話通信端末の誤動作が防止される。
Claims (8)
- 公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末において、
音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
前記音声入出力手段は、通信ユニットと音声認識ユニットとでそれぞれ独立した入出力系統を有していることを特徴とする電話通信端末。 - 公衆電話回線網あるいはインターネット通信網に接続可能な電話通信端末であって、
音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、
前記記憶手段は、予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リストとを別々に備え、
発信・切断・着信に関するすべての電話操作が前記音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを特徴とする電話通信端末。 - 請求項1又は2に記載の電話通信端末において、電話番号の認識方法が、全桁数の連続発話の入力によって前記記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットワークを用いて所定の桁数の数字又は記号からなる数字列パターンを認識することを特徴とする電話通信端末。
- 請求項1から3のいずれか1項に記載の電話通信端末において、
前記画面表示手段は、発話タイミングを知らせる発話タイミング表示機能を有していることを特徴する電話通信端末。 - 請求項1から4のいずれか1項に記載の電話通信端末において、
前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも1つを実行する第2制御手段を備えたことを特徴とする電話通信端末。 - 請求項1から5のいずれか1項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルとしたことを特徴とする電話通信端末。 - 請求項1から5のいずれか1項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、母音の音素だけに対応する音素モデルの集合体であって、その集合体の終点から始点への自己ループを有する音響モデルとしたことを特徴とする電話通信端末。 - 請求項1から5のいずれか1項に記載の電話通信端末において、
前記音声認識手段は、音声認識対象者の入力音声を音響パラメータ系列に変換し、その音響パラメータ系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビタビアルゴリズムで照合することにより入力音声を認識すると共に、前記ビタビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識し、
前記登録語についての音声単位ラベル系列に対応する音響モデルは、隠れマルコフモデルを用いた音響モデルとし、
前記不要語を認識するための音声単位ラベル系列は、使用するすべての音素を混合ガウス分布で構成し、それら混合ガウス分布からすべての音素で共有化できる混合ガウス分布を抽出し、抽出した混合ガウス分布を合成してなる音声単位モデルと、母音の音素だけで構成される自己ループ型のネットワーク構成の音響モデルとを並列に設けて構成したことを特徴とする電話通信端末。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008318704A JP4558074B2 (ja) | 2001-12-17 | 2008-12-15 | 電話通信端末 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001382613 | 2001-12-17 | ||
JP2002117964 | 2002-04-19 | ||
JP2008318704A JP4558074B2 (ja) | 2001-12-17 | 2008-12-15 | 電話通信端末 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003553549A Division JP4263614B2 (ja) | 2001-12-17 | 2002-12-17 | リモートコントロール装置及び情報端末装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009104156A true JP2009104156A (ja) | 2009-05-14 |
JP4558074B2 JP4558074B2 (ja) | 2010-10-06 |
Family
ID=26625087
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003553549A Expired - Fee Related JP4263614B2 (ja) | 2001-12-17 | 2002-12-17 | リモートコントロール装置及び情報端末装置 |
JP2008318704A Expired - Fee Related JP4558074B2 (ja) | 2001-12-17 | 2008-12-15 | 電話通信端末 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003553549A Expired - Fee Related JP4263614B2 (ja) | 2001-12-17 | 2002-12-17 | リモートコントロール装置及び情報端末装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050043948A1 (ja) |
JP (2) | JP4263614B2 (ja) |
CN (1) | CN1271595C (ja) |
AU (1) | AU2002354201A1 (ja) |
TW (1) | TW200301460A (ja) |
WO (1) | WO2003052737A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173649A (ja) * | 2011-02-23 | 2012-09-10 | Kyocera Corp | 通信機器及び表示システム |
JP2016114744A (ja) * | 2014-12-15 | 2016-06-23 | オンキヨー株式会社 | 電子機器制御システム、端末装置、及び、サーバー |
WO2017195412A1 (ja) * | 2016-05-13 | 2017-11-16 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4735141B2 (ja) * | 2005-09-05 | 2011-07-27 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム |
US7957328B2 (en) * | 2006-01-30 | 2011-06-07 | Broadcom Corporation | Method and system for communicating to radio frequency integrated circuit |
CN1835074B (zh) * | 2006-04-07 | 2010-05-12 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
JP4821648B2 (ja) * | 2007-02-23 | 2011-11-24 | パナソニック電工株式会社 | 音声コントローラ |
TWI425806B (zh) * | 2007-06-08 | 2014-02-01 | Wistron Neweb Corp | 用來記事於一行動通訊裝置的方法及相關裝置 |
US8175885B2 (en) | 2007-07-23 | 2012-05-08 | Verizon Patent And Licensing Inc. | Controlling a set-top box via remote speech recognition |
US9261979B2 (en) * | 2007-08-20 | 2016-02-16 | Qualcomm Incorporated | Gesture-based mobile interaction |
US8565535B2 (en) | 2007-08-20 | 2013-10-22 | Qualcomm Incorporated | Rejecting out-of-vocabulary words |
US20090125813A1 (en) * | 2007-11-09 | 2009-05-14 | Zhongnan Shen | Method and system for processing multiple dialog sessions in parallel |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
JP5703491B2 (ja) * | 2010-01-26 | 2015-04-22 | 国立大学法人山梨大学 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
CN102439660A (zh) * | 2010-06-29 | 2012-05-02 | 株式会社东芝 | 基于置信度得分的语音标签方法和装置 |
US8744860B2 (en) | 2010-08-02 | 2014-06-03 | At&T Intellectual Property I, L.P. | Apparatus and method for providing messages in a social network |
US20120052907A1 (en) * | 2010-08-30 | 2012-03-01 | Sensory, Incorporated | Hands-Free, Eyes-Free Mobile Device for In-Car Use |
JP5695447B2 (ja) * | 2011-03-01 | 2015-04-08 | 株式会社東芝 | テレビジョン装置及び遠隔操作装置 |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
CN102760433A (zh) * | 2012-07-06 | 2012-10-31 | 广东美的制冷设备有限公司 | 联网家电用声控遥控器及其控制方法 |
CN103578470B (zh) * | 2012-08-09 | 2019-10-18 | 科大讯飞股份有限公司 | 一种电话录音数据的处理方法及系统 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
US9721587B2 (en) * | 2013-01-24 | 2017-08-01 | Microsoft Technology Licensing, Llc | Visual feedback for speech recognition system |
CN103077714B (zh) | 2013-01-29 | 2015-07-08 | 华为终端有限公司 | 信息的识别方法和装置 |
CN104216276A (zh) * | 2013-06-03 | 2014-12-17 | 龙博 | 智能记事手表 |
CN104347072A (zh) * | 2013-08-02 | 2015-02-11 | 广东美的制冷设备有限公司 | 遥控器控制的方法、装置和遥控器 |
CN103456303A (zh) * | 2013-08-08 | 2013-12-18 | 四川长虹电器股份有限公司 | 一种语音控制的方法和智能空调系统 |
CN104766608A (zh) * | 2014-01-07 | 2015-07-08 | 深圳市中兴微电子技术有限公司 | 一种语音控制方法及装置 |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
CN104076679B (zh) * | 2014-06-27 | 2017-04-26 | 汕头市奇士钟表有限公司 | 一种用于记录信息的智能手表 |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9972342B2 (en) * | 2015-11-20 | 2018-05-15 | JVC Kenwood Corporation | Terminal device and communication method for communication of speech signals |
CN105741838B (zh) * | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
JP6759613B2 (ja) * | 2016-02-10 | 2020-09-23 | 大日本印刷株式会社 | 携帯型デバイス及びプログラム |
JP6895037B2 (ja) * | 2016-11-06 | 2021-06-30 | ナレルシステム株式会社 | 音声認識方法、コンピュータプログラム及び装置 |
CN110322876A (zh) * | 2018-03-30 | 2019-10-11 | 中华映管股份有限公司 | 语音应用系统及其方法 |
US11195518B2 (en) * | 2019-03-27 | 2021-12-07 | Sonova Ag | Hearing device user communicating with a wireless communication device |
JP7033181B1 (ja) * | 2020-11-30 | 2022-03-09 | レノボ・シンガポール・プライベート・リミテッド | 情報処理装置及びレコーディング方法 |
CN115331670B (zh) * | 2022-08-09 | 2023-06-23 | 深圳市麦驰信息技术有限公司 | 一种家用电器用离线语音遥控器 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57208596A (en) * | 1981-06-18 | 1982-12-21 | Hitachi Ltd | Voice recognition circuit |
JPS59225441A (ja) * | 1983-06-06 | 1984-12-18 | Ricoh Co Ltd | 音声入力装置 |
JPS60128761A (ja) * | 1983-10-22 | 1985-07-09 | アルカテル・エヌ・ブイ | 電話加入者装置 |
JPH02171098A (ja) * | 1988-12-23 | 1990-07-02 | Matsushita Electric Ind Co Ltd | 音声認識リモコン装置 |
JPH02250095A (ja) * | 1989-03-23 | 1990-10-05 | Matsushita Refrig Co Ltd | 音声認識システム |
JPH0320566U (ja) * | 1989-07-11 | 1991-02-28 | ||
JPH057385A (ja) * | 1991-06-27 | 1993-01-14 | Sharp Corp | 音声認識リモコン装置 |
JPH05204394A (ja) * | 1991-09-19 | 1993-08-13 | Xerox Corp | ワードスポッティング法 |
JPH05300213A (ja) * | 1992-04-21 | 1993-11-12 | Sharp Corp | 音声ダイヤラ |
JPH0981181A (ja) * | 1995-09-11 | 1997-03-28 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JPH1049186A (ja) * | 1996-07-29 | 1998-02-20 | Nippon Telegr & Teleph Corp <Ntt> | 数字列音声認識方法およびこの方法を実施する装置 |
JPH1097270A (ja) * | 1996-09-24 | 1998-04-14 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH10282993A (ja) * | 1997-03-26 | 1998-10-23 | Deutsche Thomson Brandt Gmbh | 機器の音声作動式遠隔制御システム |
JP2886118B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 隠れマルコフモデルの学習装置及び音声認識装置 |
JPH11249692A (ja) * | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
WO1999050826A1 (en) * | 1998-03-30 | 1999-10-07 | Andrea Electronics Corporation | Remote control system for controlling key-press and speech actuated on-line applications |
JPH11288297A (ja) * | 1998-04-06 | 1999-10-19 | Mitsubishi Electric Corp | 音声認識装置 |
JPH11305793A (ja) * | 1998-04-16 | 1999-11-05 | Sony Corp | 音声認識装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60179798A (ja) * | 1984-02-27 | 1985-09-13 | 松下電器産業株式会社 | 音声認識装置 |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
JP3105863B2 (ja) * | 1998-04-02 | 2000-11-06 | 日本電気ロボットエンジニアリング株式会社 | 音声認識雑音除去方式 |
-
2002
- 2002-12-17 CN CN02827226.9A patent/CN1271595C/zh not_active Expired - Fee Related
- 2002-12-17 AU AU2002354201A patent/AU2002354201A1/en not_active Abandoned
- 2002-12-17 WO PCT/JP2002/013182 patent/WO2003052737A1/ja active Application Filing
- 2002-12-17 JP JP2003553549A patent/JP4263614B2/ja not_active Expired - Fee Related
- 2002-12-17 TW TW091136397A patent/TW200301460A/zh unknown
- 2002-12-17 US US10/499,220 patent/US20050043948A1/en not_active Abandoned
-
2008
- 2008-12-15 JP JP2008318704A patent/JP4558074B2/ja not_active Expired - Fee Related
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57208596A (en) * | 1981-06-18 | 1982-12-21 | Hitachi Ltd | Voice recognition circuit |
JPS59225441A (ja) * | 1983-06-06 | 1984-12-18 | Ricoh Co Ltd | 音声入力装置 |
JPS60128761A (ja) * | 1983-10-22 | 1985-07-09 | アルカテル・エヌ・ブイ | 電話加入者装置 |
JPH02171098A (ja) * | 1988-12-23 | 1990-07-02 | Matsushita Electric Ind Co Ltd | 音声認識リモコン装置 |
JPH02250095A (ja) * | 1989-03-23 | 1990-10-05 | Matsushita Refrig Co Ltd | 音声認識システム |
JPH0320566U (ja) * | 1989-07-11 | 1991-02-28 | ||
JPH057385A (ja) * | 1991-06-27 | 1993-01-14 | Sharp Corp | 音声認識リモコン装置 |
JPH05204394A (ja) * | 1991-09-19 | 1993-08-13 | Xerox Corp | ワードスポッティング法 |
JPH05300213A (ja) * | 1992-04-21 | 1993-11-12 | Sharp Corp | 音声ダイヤラ |
JPH0981181A (ja) * | 1995-09-11 | 1997-03-28 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2886118B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 隠れマルコフモデルの学習装置及び音声認識装置 |
JPH1049186A (ja) * | 1996-07-29 | 1998-02-20 | Nippon Telegr & Teleph Corp <Ntt> | 数字列音声認識方法およびこの方法を実施する装置 |
JPH1097270A (ja) * | 1996-09-24 | 1998-04-14 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH10282993A (ja) * | 1997-03-26 | 1998-10-23 | Deutsche Thomson Brandt Gmbh | 機器の音声作動式遠隔制御システム |
JPH11249692A (ja) * | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
WO1999050826A1 (en) * | 1998-03-30 | 1999-10-07 | Andrea Electronics Corporation | Remote control system for controlling key-press and speech actuated on-line applications |
JP2002510074A (ja) * | 1998-03-30 | 2002-04-02 | アンドレア エレクトロニクス コーポレイション | 打鍵及び音声作動オンラインアプリケーションを制御するためのリモートコントロールシステム |
JPH11288297A (ja) * | 1998-04-06 | 1999-10-19 | Mitsubishi Electric Corp | 音声認識装置 |
JPH11305793A (ja) * | 1998-04-16 | 1999-11-05 | Sony Corp | 音声認識装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173649A (ja) * | 2011-02-23 | 2012-09-10 | Kyocera Corp | 通信機器及び表示システム |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
JP2016114744A (ja) * | 2014-12-15 | 2016-06-23 | オンキヨー株式会社 | 電子機器制御システム、端末装置、及び、サーバー |
WO2017195412A1 (ja) * | 2016-05-13 | 2017-11-16 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JPWO2017195412A1 (ja) * | 2016-05-13 | 2019-03-14 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4263614B2 (ja) | 2009-05-13 |
JP4558074B2 (ja) | 2010-10-06 |
CN1271595C (zh) | 2006-08-23 |
WO2003052737A1 (fr) | 2003-06-26 |
JPWO2003052737A1 (ja) | 2005-04-28 |
TW200301460A (en) | 2003-07-01 |
CN1615508A (zh) | 2005-05-11 |
AU2002354201A1 (en) | 2003-06-30 |
US20050043948A1 (en) | 2005-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4558074B2 (ja) | 電話通信端末 | |
KR100856358B1 (ko) | 음성 인에이블 장치용 구두 사용자 인터페이스 | |
CN109410952B (zh) | 一种语音唤醒方法、装置及系统 | |
CN1783213B (zh) | 用于自动语音识别的方法和装置 | |
US7826945B2 (en) | Automobile speech-recognition interface | |
US8204748B2 (en) | System and method for providing a textual representation of an audio message to a mobile device | |
JP4816409B2 (ja) | 認識辞書システムおよびその更新方法 | |
CN104168353A (zh) | 蓝牙耳机及其语音交互控制方法 | |
EP1047046A2 (en) | Distributed architecture for training a speech recognition system | |
JPH07210190A (ja) | 音声認識方法及びシステム | |
EP1884923A1 (en) | Voice edition device, voice edition method, and voice edition program | |
JP2005534983A (ja) | 自動音声認識の方法 | |
AU760377B2 (en) | A method and a system for voice dialling | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
KR20040008990A (ko) | 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체 | |
JP2003058184A (ja) | 機器制御システム、音声認識装置及び方法、並びにプログラム | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
KR100827074B1 (ko) | 이동 통신 단말기의 자동 다이얼링 장치 및 방법 | |
JP2010060729A (ja) | 受付装置、受付方法、及び受付プログラム | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JPH09212186A (ja) | 音声認識方法およびこの方法を実施する装置 | |
JPH10289092A (ja) | 情報処理システムおよび情報管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090629 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100419 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4558074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |