JP4237713B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP4237713B2
JP4237713B2 JP2005031032A JP2005031032A JP4237713B2 JP 4237713 B2 JP4237713 B2 JP 4237713B2 JP 2005031032 A JP2005031032 A JP 2005031032A JP 2005031032 A JP2005031032 A JP 2005031032A JP 4237713 B2 JP4237713 B2 JP 4237713B2
Authority
JP
Japan
Prior art keywords
voice
unit
recognition
keyword
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005031032A
Other languages
English (en)
Other versions
JP2006215499A (ja
Inventor
直樹 関根
友成 柿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2005031032A priority Critical patent/JP4237713B2/ja
Priority to CN200610006603A priority patent/CN100578612C/zh
Publication of JP2006215499A publication Critical patent/JP2006215499A/ja
Application granted granted Critical
Publication of JP4237713B2 publication Critical patent/JP4237713B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識及び話者認識が可能であり、各種の機器を音声により制御するために利用される音声処理装置に関するものである。
一般に、音声認識及び話者認識をするための音声処理においては、目的の音声の他に周辺の環境音を拾うことで誤認識を起すという問題を抱えている。このような不都合を解消するために、特許文献1には、利用者が目的の言葉を発声する前に音声操作ボタンを用いる技術が開示されている。この技術を一般にプッシュツートークと云う。また、特許文献2には、特許文献1で開示された音声操作ボタンの代わりに、特定のキーワードを発声することで解決する技術が開示されている。この技術は、キーワードとなる一つの単語を待ち続け、その単語を認識した後の情報を得るようにしたものであり、マジックワード方式と称する。このように目的の言葉を発声する前の特定操作、すなわち、音声操作ボタンの操作あるいはキーワードの発声を、以下、前方トリガーと表記する。
特開平8−328584号公報 特開2000−322078号公報 近代科学社刊 古井貞煕著 「音響・音声光学」
前方トリガーを利用者に強いることは、その操作あるいは発声を意図的に行わなければならないため、利用者にとっては負担である。また、前方トリガーの操作を行った後は、確実で正確な発声が求められる。しかしながら、音声操作ボタンの操作、キーワードの発声等の前方トリガー後の目的とする言葉の発声は、前述のように正確な発声を要求されるため、それを意識することで話者が緊張し、言い淀みや言い間違えが起こる可能性が高い。そのため、利用者の発声に起因する誤認識を避けることは難しい。
利用者の音声を含む音が音声入力部から入力された音が音声か非音声かを判別する音声・非音声判別部と、予めキーワードを保存できるキーワード辞書と、音声認識を行うための音声認識用辞書と、前記音声認識用辞書を元に音声認識する音声認識部と、前記音声・非音声判別部で音声と判断された音が予め前記キーワード辞書に登録された単語であるか否かを検知する音声キーワード検知部と、音声入力部から入力された音が前記キーワード辞書に登録された単語を含むものであると検知された時点で入力された音を音声認識する指示を前記音声認識部に出す認識指示部とを具備し、利用者が目的の言葉を発声した後の特定の発声(キーワード)を引き金に音声認識を行うものである。
発声前の前トリガーを利用者に強いることなく、自然な発声で音声認識をすることができる。すなわち、マジックワード方式と違って、「目的の言葉」の後に特定の発声(キーワード)がなされるので、キーワード発声の際に、既に、目的の言葉が話されていることから緊張感がなく、これにより、キーワードの言い淀みや言い間違えが起こる可能性が低く、自然な発声で確実な音声認識を行うことができる。
本発明の第一の実施の形態を図1乃至図7に基づいて説明する。図1は、音声処理装置1の全体構成を示すブロック図である。この音声処理装置1は、話者2が発声する音声を含む音声が入力可能な音声入力部3を有する。この音声入力部3には、前記音声入力部3から入力された音をデジタル信号に変換するAD変換部4と、前記AD変換部4から入力された音が音声か非音声かを判別する音声・非音声判別部5と、前記音声・非音声判別部5で音声と判断された音を録音データ記憶部6に録音させる音声録音部7と、前記録音データ記憶部6に録音された音を後段の音声認識部8に渡す機能を有する認識指示部9とがシリーズに接続されている。そして、前記音声・非音声判別部5で音声と判断された音が予めキーワード辞書10に登録された単語であるか否かを検知する音声キーワード検知部11が前記音声・非音声判別部5から前記認識指示部9との間に接続され、前記キーワード辞書10にはキーワード変更部12が接続されている。また、前記音声録音部7と前記音声認識部8との間には、前記録音データ記憶部6が接続されている。さらに、前記音声認識部8には、音声認識を行うための音声認識用辞書13が接続されている。
しかして、前記音声入力部3は、入力された音声を電気的アナログ音に変換する変換部であり、マイクロフォンなどで代表される。前記AD変換部4は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換する変換部である。これらの音声入力部3とAD変換部4とにより音を入力するための入力手段が構成されている。
また、前記音声・非音声判別部5は、入力された音声が人間の声かどうかを判別する機能を備えている。代表的なものとして音源情報の構造によるものを次に示すが、これに限られるものではない。音声は、声帯の振動が声道を通ることで変化し、50音として表現されるものと考えられる。声帯振動を音源情報、声道の変化を声道特性と言い、特に、音源情報が音声・非音声を特徴付けると考えられる。音源情報の抽出手法としては、線形予測残差によるものが代表として挙げられる。デジタル化された入力音声の時間系列x(n)に対し、過去p個分の標本x(n−p)…x(n−1)の線形結合はx~(n)=α1*x(n−1)+α2*x(n−2)…αp*x(n−p)で、現在の標本値x(n)を予測する線形予測分析において、x(n)×x~(n)を線形予測残差と呼び、音源情報に相当する特徴量である。詳しくは、非特許文献1の第124頁以降に掲載されている。
音声の音源情報を図2に、非音声の音源情報を図3に示す。それぞれ横軸は周波数、縦軸は音量(音声パワー)を示している。この2つの図を比較すると、図2の音声の音源情報は、0kHz〜2.5kHzで周期性を示しており、図3の非音声の音源情報は、非周期的である。この周期の有無を判定する手法としては、自己相関法が有名である。自己相関法とは、系列{y(1)〜y(n)}に対して、c(j)=Σy(i)*(i+j)で計算される相関特徴量である。図4に相関特徴量の最大値ヒストグラムを示す。この図4から、横軸に相関特徴量0.3辺りで分離できることがわかる。この違いを用いて音声・非音声判別部5は構成される。
音声・非音声判別部5で、非音声の場合は、以後の動作は行わない。つまり、音声と判別された場合のみ、入力信号は音声録音部7、音声キーワード検知部11に送られる。音声録音部7は、音声と判別された入力音を録音データ記憶部6に記録する機能を果たす。記憶媒体は、HDD、メモリなどの記憶領域であれば何でも良い。
音声キーワード検知部11は、キーワード辞書10に登録された認識語句のみを受理するものである。図5は、音声キーワード検知部11の詳細図である。音響分析部14は、音声・非音声判別部5から収録されてデジタルデータを受け取り、FFT(高速フーリエ変換)などの処理による周波数分析などを行って入力音声の所定区間(例えば、音素単位あるいは単語単位など)毎に、各区間についての音声認識のために必要な特徴情報(例えばスペクトルなど)を時系列に出力するようになっている。
音響照合部15は、音響分析部14から出力された特徴情報を受け取り、キーワード辞書10に登録されている単語を参照して照合を行い、入力音声区間(例えば、音素あるいは音節あるいはアクセント句などの音素列単位、あるいは単語単位などの文字列単位など)の認識候補との類似度を計算して、キーワード辞書10に登録されている単語かどうかを判別する。なお、音響照合部15での上記処理は、HMM(隠れマルコフモデル)やDP(ダイナミックプログラミング)、あるいは、NN(ニューラルネットワーク)など、従来の照合技術にキーワード辞書10を加えて実現することができる。音響照合部15で、キーワード辞書10に登録された単語かどうかが判別されると、その結果は、認識指示部9に渡される。図6の点線枠は、認識指示部9の動作の詳細を示したものである。認識指示部9は、キーワード辞書10の単語を検知した場合のみ、録音データ記憶部6にあるデータを音声認識させる指示を行う。この機能は、ソフトウェアによる分岐命令(ifなど)で実現することが可能である。
具体的な事例として、利用者、すなわち、話者2が「鮭定食調理完了(さけていしょくちょうりかんりょう)」と話したものとする。ここで、キーワード辞書10にキーワードとして「調理完了(ちょうりかんりょう)」と登録されているものと仮定する。話者2が「さけ…」と発生した瞬間、音声・非音声判別部5が「音声」と判別し、この音声は音声録音部7で録音が開始され、録音データ記憶部6に保存される。発声が持続し、「ちょうりかんりょう」まで発話が到達すると、音声キーワード検知部11はキーワード辞書10に登録された認識語句とマッチするため、「キーワードを検知」した旨、認識指示部9に通知される。
キーワードを検知した通知を受け取った認識指示部9は、図6の流れ図の通り、録音を停止し、録音データ記憶部6で録音している音声が、図6の1〜nの順に音声認識部8に渡される。
音声認識部8は、予め音声認識用辞書13に登録された認識語句を元に、音声認識を始める。音声認識部8は、図5の音声キーワード検知部11のように、音響分析部と音響照合部の機能を設けることで実現可能である。
音声認識用辞書13に登録された認識語句が「鮭定食(さけていしょく)」である場合、前述のように、音声録音部7に録音された区間「さけていしょくちょうりかんりょう」における「さけていしょく」にマッチするため、音声認識部8は、正解結果、「鮭定食」を出力する。
図7に示すものは、本実施の形態の動作を模式的に図示したものであり、横軸に発声の時間経過を示すとともに、縦軸方向は装置の動作順序を示している。まず、話者2は、非音声の状態において、「鮭定食、調理完了」と発声する。このときの発声の音の振幅は、「鮭定食、調理完了」の順序に従って、「非音声」、「鮭定食」、「調理完了」と順次、図示の波形を示す。一方、装置側では、音声・非音声判別部5が「非音声」のタイミングでは音声を検知せず、「鮭定食」のタイミングで音声を検知する。この音声・非音声判別部5で音声が検知されると、音声録音部7が録音を開始し、音声キーワード検知部11においては、検知した音声が「鮭定食」であるため、キーワード検知はしない。そして、「調理完了」と発声されたタイミングで、音声キーワード検知部11は、キーワード検知を行う。これにより、認識指示部9では認識指示を行い、音声認識部8は、正解結果、「鮭定食」を出力する。
このような手法により、話者2が発声するだけで、従来のキーボード入力と同等の音声認識が可能になる。つまり、キーボード入力の入力確定操作である「リターンキー」の代替として、音声キーワード検知部11が働くことになる。この場合、仮に、話者2が「さ、さけて、しょく」と言い淀んでしまった場合、もしくは、「あゆていしょく」と誤って発声したことに気付いた場合でも、「ちょうりかんりょう」の発声をしない限り、本実施の形態においては、音声認識を実行しない。このことにより、音声の誤認識による誤動作を大幅に減らすことが可能となる。
もし、本実施の形態の音声処理装置1を別な場面で用いたい場合、「調理完了」というキーワードが不適当な場合も想定される。このような場合には、キーワード変更部12を用いてキーワードを場面に適合した語句に登録することも可能である。
つぎに、図8及び図9に基づいて本発明の第二の実施の形態を説明する。図1〜図7について説明した部分と同一部分は同一符号を用い、説明も省略する。本実施の形態における音声処理装置16は、つぎの構成においては、前述の音声処理装置1と同様である。すなわち、話者2が発声する音声を含む音声が入力可能な音声入力部3を有する。この音声入力部3には、前記音声入力部3から入力された音をデジタル信号に変換するAD変換部4と、前記AD変換部4から入力された音が音声か非音声かを判別する音声・非音声判別部5と、前記音声・非音声判別部5で音声と判断された音を録音データ記憶部6に録音させる音声録音部7と、前記録音データ記憶部6に録音された音を後段の音声認識部8に渡す機能を有する認識指示部9とがシリーズに接続されている。そして、前記音声・非音声判別部5で音声と判断された音が予めキーワード辞書10に登録された単語であるか否かを検知する音声キーワード検知部11が前記音声・非音声判別部5から前記認識指示部9との間に接続されている。また、前記音声認識部8には、音声認識を行うための音声認識用辞書13が接続されている。しかして、本実施の形態における特徴は、前記音声・非音声判別部5には、話者2の音声情報からその話者2を特定する情報が記録された話者認識用辞書17が接続された話者認識部18が接続され、この話者認識部18には、キーワード選択部19が接続され、このキーワード選択部19には、前記キーワード辞書10が接続されている。
つぎに、本実施の形態で新たに追加された話者認識部18の役割について以下説明する。話者認識は、話者2の音声情報(特定の単語情報ではなく、話者2の音声に含まれる音声上の特徴である)から話者2の個人を特定する技術であり、主に、セキュリティ用途に用いられている。予め、話者認識用辞書17に話者の音声情報を登録しておくことにより、話者2を判定することが可能である。話者認識部18は、図5に見られるように、音響分析部14と音響照合部15とで構成される。音声・非音声判別部5から出力されたデジタルデータを受け取り、FFT(高速フーリエ変換)などの処理による周波数分析などを行って、入力音声の所定区間(例えば、音素単位あるいは単語単位など)毎に、各区間についての話者認識のために必要な特徴情報(例えばスペクトルなど)を時系列に出力するようになっている。
音響照合部15は、音響分析部14から出力された特徴情報を受け取り、話者認識用辞書17に登録されている話者2の音声情報を参照して照合を行い、入力音声区間の話者の候補との類似度を計算して話者2を同定する。なお、音響照合部15での上記処理は、HMM(隠れマルコフモデル)や、固有値展開法、あるいは、VQ(ベクトル量子化)など、従来の照合技術にキーワード辞書10を加えて実現することができる。
話者2の音声は、話者認識部18で話者個人が特定され、個人名がキーワード選択部19に送られる。図9にキーワード選択部19の一例を示す。いま、話者2が「山田太郎入室」と発声するものとする。話者2が「山田太郎」本人である場合、キーワード選択部19は、リストに従って「入室」をキーワードと考え、キーワード辞書10に登録する。具体的に、話者が「やまだ…」と発声した瞬間、音声・非音声判別部5が「音声」と判別し、話者認識部18で「山田太郎」本人だと認識し、キーワード選択部19でキーワード「入室」を選択した後、キーワード辞書10に「入室(にゅうしつ)」が登録される。前記第一の実施の形態と同様、音声・非音声判別部5で「音声」と判別された時点から、この音声は音声録音部7で録音が開始される。発声が持続し、「にゅうしつ」まで発声が到達すると、キーワード辞書10に登録された認識語句とマッチするため、音声キーワード検知部11は、「キーワードを検知」した旨、認識指示部9に通知し、録音を停止する。この後の動作は、前述の第一の実施の形態と同様である。
本実施の形態においては、前述の実施の形態と同等の効果が生まれるばかりか、利用者毎に入力確定操作の発声を暗黙の内に変更可能となる。すなわち、「山田太郎入室」、「福沢次郎出社」、「鈴木花子ロック解除」というように、利用者毎に「山田太郎」、「福沢次郎」、「鈴木花子」という話者認識に基づき、「入室」、「出社」、「ロック解除」なるキーワードに変更される。また、利用者が福沢次郎であるにも係わらず、山田次郎を詐称するため、「やまだじろう、入室」と発声しても、話者認識部18により「山田太郎」と認識されず、しかも、福沢次郎の入力確定操作である「出社」とマッチしないため、動作しない。これにより、話者認識のセキュリティ強化にも繋がることになる。
つぎに、図10に基づいて本発明の第三の実施の形態を説明する。図1〜図7について説明した部分と同一部分は同一符号を用い、説明も省略する。まず、音声処理装置20の音声入力部3から音声・非音声判別部5までは、第一の実施の形態と同じ構成であるが、録音データ記憶部6を備えていない。音声・非音声判別部5で非音声の場合は、以後の動作は行わない。つまり、音声と判別された場合のみ入力信号は音声認識部8、音声キーワード検知部11に送られる。音声キーワード検知部11は、キーワード辞書10に登録された認識語句のみを受理するものである。この機能を備えた音声キーワード検知部11の実現方法については、第一の実施の形態の通りである。
具体的な事例として、利用者、すなわち、話者2が「鮭定食調理完了(さけていしょくちょうりかんりょう)」と話したものとする。ここで、キーワード辞書10に「調理完了(ちょうりかんりょう)」が登録されているとすると、話者2が「さけ…」と発声した瞬間、音声・非音声判別部5が「音声」と判別し、この音声は、音声認識部8に渡される。この時点で、音声認識部8は、予め音声認識用辞書13に登録された認識語句を元に、音声認識を始める。第一の実施の形態においては、録音データ記憶部6で記憶させる手法を用いたが、本実施の形態においては、先行して音声認識を始めることで、早く認識結果を返すことができる。音声認識用辞書13に登録された認識語句が「鮭定食(さけていしょく)」である場合、音声キーワード検知部11でキーワードを検知するまでの区間、「さけていしょく、ちょうりかんりょう」における「さけていしょく」を音声認識部8は認識し、正解結果「鮭定食」を得ている。発声が持続し、「ちょうりかんりょう」まで発声が到達すると、キーワード辞書10に登録された認識語句とマッチするため、音声キーワード検知部11は、「キーワードを検知」した旨、認識結果判定部21に通知する。認識結果判定部21がこの通知を受け取って初めて、音声認識部8から出力された正解結果「鮭定食」を音声処理装置20の結果として出力する。
本実施の形態においては、第一の実施の形態と同等の効果を得ることができるばかりか、それに較べて、録音データの記録を不要とするため、認識速度の点で優位性を発揮する。例えば、「辛子ソース付き味噌煮込みハンバーク定食、調理完了」との発声を利用者が行った場合、第一の実施の形態においては、「辛子ソース付き味噌煮込みハンバーク定食」分の音声認識速度だけ遅延して、結果を出力することになるが、本実施の形態においては、遅延なく結果を出力することができる。
もし、本実施の形態の音声処理装置20を別な場面で用いたい場合、「調理完了」というキーワードが不適当な場合も想定される。この場合は、キーワード変更部12を用いてキーワードを場面に合った語句に登録することも可能である。
つぎに、図11に基づいて本発明の第四の実施の形態を説明する。本実施の形態における音声処理装置22は、第三の実施の形態に対して、第二の実施の形態と同様に、話者認識用辞書17と話者認識部18とキーワード選択部19を付加したものである。そのため、具体的な説明は省略するが、第二の実施の形態に対して、第三の実施の形態の特徴を付加することができ、処理の高速化を実現することができるものである。
本発明においては、音声・非音声判別部で音声と検知された音を話者認識する話者認識部と、話者認識用辞書とを持ち、認識指示部は、話者認識用辞書に登録された話者であることとキーワード辞書に登録された単語であると音声キーワード検知部で検知された時点で初めて録音データ記憶部に録音された音を音声認識する指示を音声認識部に出すようにしたので、使用者の特定を行う機能を備えてセキュリティ機能を強化することができる。
また、話者認識部と話者認識辞書とで特定された話者に応じたキーワードをキーワード辞書に登録するようにしたので、利用者毎に入力確定操作の発声を暗黙の内に変更可能となる。
さらに、キーワード辞書の登録内容を変更することも容易にできる。
さらにまた、キーワード辞書は、複数のキーワードを保存でき、多様な用途に対応することができる。
ついで、利用者の音声を含む音が入力可能な音声入力部と、音声入力部から入力された音をデジタル信号に変換するAD変換部と、AD変換部から入力された音が音声か非音声かを判別する音声・非音声判別部と、予め1語のキーワードのみ保存できるキーワード辞書と、音声・非音声判別部で音声と判断された音が予めキーワード辞書に登録された単語であるか否かを検知する音声キーワード検知部と音声認識を行うための音声認識用辞書と、音声・非音声判別部で音声と判断された音を音声認識用辞書を元に音声認識する音声認識部とを有する音声処理装置において、音声キーワード検知部でキーワード辞書に登録された単語であると検知された時点で音声認識部の結果を受理する機能を有する認識結果判定部を持つようにすることにより、高速処理が可能となるものである。
また、話者認識部と話者認識辞書とで特定された話者に応じたキーワードをキーワード辞書に登録するようにすることにより、多様な使用状態に対応させることができる。
本発明の第一の実施の形態を示す音声処理装置のブロック図である。 音声の音源情報の波形図である。 非音声の音源情報の波形図である。 音声と非音声とのスペクトル相関特徴量の最大値と頻度との関係を示す関係図である。 音声キーワード検知部の模式図である。 音声キーワード検知部から音声認識部までの動作を示すフローチャートである。 音声発声の時間経過と各部の動作の変位との関係を示す説明図である。 本発明の第二の実施の形態を示す音声処理装置のブロック図である。 利用者とキーワードとの関係を示す説明図である。 本発明の第三の実施の形態を示す音声処理装置のブロック図である。 本発明の第四の実施の形態を示す音声処理装置のブロック図である。
符号の説明
3 音声入力部
5 音声・非音声判別部
8 音声認識部
9 認識指示部
10 キーワード辞書
11 音声キーワード検知部
13 音声認識用辞書

Claims (9)

  1. 利用者の音声を含む音が入力可能な音声入力部と、
    前記音声入力部から入力された音をデジタル信号に変換するAD変換部と、
    前記AD変換部から入力された音が音声か非音声かを判別する音声・非音声判別部と、
    前記音声・非音声判別部で音声と判断された音を録音データ記憶部に録音させる音声録音部と、
    予め1語のキーワードのみ保存できるキーワード辞書と、
    前記音声・非音声判別部で音声と判断された音が予め前記キーワード辞書に登録された単語であるか否かを検知する音声キーワード検知部と、
    前記録音データ記憶部に録音された音を音声認識部に渡す機能を有する認識指示部と、
    音声認識を行うための音声認識用辞書と、
    前記音声認識用辞書を元に前記認識指示部の指示に従って音声認識する音声認識部と、
    を有する音声処理装置において、
    前記認識指示部は、前記キーワード辞書に登録された単語であると前記音声キーワード検知部で検知された時点で初めて前記録音データ記憶部に録音された音を音声認識する指示を前記音声認識部に出すことを特徴とする音声処理装置。
  2. 前記音声・非音声判別部で音声と検知された音を話者認識する話者認識部と、話者認識用辞書とを持ち、前記認識指示部は、前記話者認識用辞書に登録された話者であり、かつ、前記キーワード辞書に登録された単語であると前記音声キーワード検知部で検知された時点で初めて前記録音データ記憶部に録音された音を音声認識する指示を前記音声認識部に出すことを特徴とする請求項1記載の音声処理装置。
  3. 前記話者認識部と前記話者認識辞書とで特定された話者に応じたキーワードを前記キーワード辞書に登録出来ることを特徴とする請求項2記載の音声処理装置。
  4. キーワード辞書の登録内容を変更することができるようにしたことを特徴とする請求項2記載の音声処理装置。
  5. 前記キーワード辞書は、複数のキーワードを保存できることを特徴とする請求項1、2、3及び4記載の音声処理装置。
  6. 利用者の音声を含む音が入力可能な音声入力部と、
    前記音声入力部から入力された音をデジタル信号に変換するAD変換部と、
    前記AD変換部から入力された音が音声か非音声かを判別する音声・非音声判別部と
    め1語のキーワードのみ保存できるキーワード辞書と、
    前記音声・非音声判別部で音声と判断された音が予め前記キーワード辞書に登録された単語であるか否かを検知する音声キーワード検知部と
    音声認識を行うための音声認識用辞書と、
    前記音声・非音声判別部で音声と判断された音を前記音声認識用辞書を元に音声認識する音声認識部と、
    を有する音声処理装置において、
    前記音声キーワード検知部でキーワード辞書に登録された単語であると検知された時点で前記音声認識部の結果を受理する機能を有する認識結果判定部を持つことを特徴とする音声処理装置。
  7. 前記音声・非音声判別部で音声と検知された音を話者認識する話者認識部と、話者認識用辞書とを持ち、前記認識指示部は、前記話者認識用辞書に登録された話者であり、かつ、前記キーワード辞書に登録された単語であると前記音声キーワード検知部で検知された時点で初めて前記音声認識部の結果を受理する機能を有する認識結果判定部を持つことを特徴とする請求項6記載の音声処理装置。
  8. 前記話者認識部と前記話者認識辞書とで特定された話者に応じたキーワードを前記キーワード辞書に登録出来ることを特徴とする請求項7記載の音声処理装置。
  9. キーワード辞書の登録内容を変更することができるようにしたことを特徴とする請求項7記載の音声処理装置。
JP2005031032A 2005-02-07 2005-02-07 音声処理装置 Active JP4237713B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005031032A JP4237713B2 (ja) 2005-02-07 2005-02-07 音声処理装置
CN200610006603A CN100578612C (zh) 2005-02-07 2006-01-26 语音处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005031032A JP4237713B2 (ja) 2005-02-07 2005-02-07 音声処理装置

Publications (2)

Publication Number Publication Date
JP2006215499A JP2006215499A (ja) 2006-08-17
JP4237713B2 true JP4237713B2 (ja) 2009-03-11

Family

ID=36918998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005031032A Active JP4237713B2 (ja) 2005-02-07 2005-02-07 音声処理装置

Country Status (2)

Country Link
JP (1) JP4237713B2 (ja)
CN (1) CN100578612C (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP5042194B2 (ja) 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
JP2013037030A (ja) * 2011-08-03 2013-02-21 Casio Comput Co Ltd エミュレータ装置およびプログラム
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
JP6502249B2 (ja) 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
JP2016024212A (ja) 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
GB2535766B (en) 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
JP6296121B2 (ja) * 2016-08-31 2018-03-20 カシオ計算機株式会社 エミュレータ装置、プログラム及び表示方法
CN107403011B (zh) * 2017-08-01 2020-08-07 三星电子(中国)研发中心 虚拟现实环境语言学习实现方法和自动录音控制方法
WO2019198132A1 (ja) * 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
JP2019200394A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
JP2021144065A (ja) * 2018-06-12 2021-09-24 ソニーグループ株式会社 情報処理装置および情報処理方法
DE112019003210T5 (de) * 2018-06-25 2021-03-11 Sony Corporation Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium
WO2020003851A1 (ja) * 2018-06-27 2020-01-02 ソニー株式会社 音声処理装置、音声処理方法及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JP2001067091A (ja) * 1999-08-25 2001-03-16 Sony Corp 音声認識装置
JP2002175096A (ja) * 2000-12-06 2002-06-21 Denso Corp マイク制御装置

Also Published As

Publication number Publication date
CN1819016A (zh) 2006-08-16
CN100578612C (zh) 2010-01-06
JP2006215499A (ja) 2006-08-17

Similar Documents

Publication Publication Date Title
JP4237713B2 (ja) 音声処理装置
CN109155132B (zh) 说话者验证方法和系统
US11361763B1 (en) Detecting system-directed speech
US10923111B1 (en) Speech detection and speech recognition
EP1936606B1 (en) Multi-stage speech recognition
US20200152206A1 (en) Speaker Identification with Ultra-Short Speech Segments for Far and Near Field Voice Assistance Applications
KR100742888B1 (ko) 음성 인식 방법
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
US20220343895A1 (en) User-defined keyword spotting
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
US20070136060A1 (en) Recognizing entries in lexical lists
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
JPH11231895A (ja) 音声認識方法及びその装置
JP2002189487A (ja) 音声認識装置および音声認識方法
Nouza et al. Fast keyword spotting in telephone speech
KR20020063665A (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
JP4749990B2 (ja) 音声認識装置
JP3615088B2 (ja) 音声認識方法及び装置
JP5136621B2 (ja) 情報検索装置及び方法
JP7035476B2 (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Sultana et al. Automatic speech recognition system
KR101648396B1 (ko) 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081218

R150 Certificate of patent or registration of utility model

Ref document number: 4237713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131226

Year of fee payment: 5