JP4520596B2 - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置 Download PDFInfo
- Publication number
- JP4520596B2 JP4520596B2 JP2000247012A JP2000247012A JP4520596B2 JP 4520596 B2 JP4520596 B2 JP 4520596B2 JP 2000247012 A JP2000247012 A JP 2000247012A JP 2000247012 A JP2000247012 A JP 2000247012A JP 4520596 B2 JP4520596 B2 JP 4520596B2
- Authority
- JP
- Japan
- Prior art keywords
- volume
- average
- word
- level
- pause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000004891 communication Methods 0.000 description 8
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Radar Systems Or Details Thereof (AREA)
- Telephone Function (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識方法および音声認識装置に関する。
【0002】
【従来の技術】
これまでに知られている音声自動認識方では、ノイズによって認識エラーが頻繁に引き起こされる。このようなノイズに関して2つの形式が区別され、すなわち別の話者の音声(これはたしかにたいていは適正に認識されるが本来の話者の音声信号に対応づけるべきものではない)と、音声信号を成さないノイズたとえば呼吸音(これは誤って音声として認識される)とが区別される。
【0003】
これらのノイズは、音声自動認識において甚だしいエラー要因を成す。このようなエラーを回避するため、個々の話者の話し方に合わせて音声認識システムがトレーニングされ、これによって話者からの音響信号であるのかノイズであるのかを音声認識システムが判定できるようになる。話者の代わることの多い音声認識システムであると、個々の話者各々に合わせてトレーニングすることができない。したがって電話装置に集積される音声認識システムであると、そのつど電話をかけてきた人によって、たいていは1分も続かないメッセージをその人が話せるようになる前に、数分間続くトレーニングフェーズを実行するのは不可能である。
【0004】
【発明が解決しようとする課題】
したがって本発明の課題は、ノイズにより生じる認識エラーの低減された音声認識を実現することである。
【0005】
【課題を解決するための手段】
本発明によればこの課題は、語の境界に基づき音声中の語と休止を決定し、休止中の平均休止音量を求め、語について平均語音量を求め、平均語音量と平均休止音量との差を求め、平均語音量と平均休止音量との差がまえもって定められた閾値よりも大きければ音声を認識し、そうでなければ音声認識を実行しないことにより解決される。
【0006】
【発明の実施の形態】
このように本発明によれば、語の境界に基づき音声中の語と休止とが決定される音声認識方法が提供される。休止中、休止音量(Siレベル)が求められる。また、語については平均語音量(Woレベル)が求められる。さらに、平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)が求められる。平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)がまえもって定められた閾値(S)よりも大きければ、音声が認識される。そうでなければ、その範囲では音声認識は実行されない。
【0007】
差Δは、話された語と休止中のノイズとの間における音量間隔を成している。認識された語の音量間隔が過度に小さければ、その語は適正には認識されなかった語であると評価される。このため、1つの語がそれ以外のノイズに対しまえもって定められた音量間隔をもっているか否かが判定される。ここでは、従来の音声自動認識方法では誤った認識を生じさせることの多いノイズは話者により発せられた語よりも静かである、という状況が利用される。本発明によればそれらのノイズを、それが語を含んでいるかまたはそれが音声信号を成さないノイズであるかとは無関係に、簡単に除去することができる。
【0008】
しかも本発明による方法はきわめて簡単に実現できる。それというのも、分析すべき音声信号区間の一部分に関する平均音量だけを求めればよいからである。なお、本発明における音量とは、デシベルで測定される物理的な音量にほぼ比例する何らかの物理量のことである。これに比例する量は、音響信号のエネルギーないしはそれに対応する電気信号のエネルギー、たとえば電圧や電流などその信号の電気的な量である。
【0009】
殊に音声認識において重要であるのは、適正な話者の適正な発話を認識することである。このことは、明らかに音声構成部分が含まれている周囲ノイズが音声認識システムによって、それが実際に認識すべき音声を発する話者からのものであると解釈されるおそれのある点で問題である。混同を避けるため、適正な話者と誤った話者とを区別する方法が提供される。たとえば、音声を認識すべき話者のレベルは、たいていはバックグラウンドから到来する妨害ノイズの音声よりも著しく高い。したがって音声を認識すべき話者の音量レベルに基づき、その音声をバックグラウンドノイズと区別することができる。
【0010】
本発明による音声認識装置によればプロセッサユニットが設けられており、このプロセッサユニットは以下のように構成されている。すなわち、
a)語の境界に基づき音声中の語と休止を決定し、
b)休止中の平均休止音量(Siレベル)を求め、
c)語について平均語音量(Woレベル)を求め、
d)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)を求め、
e)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)がまえもって定められた閾値(S)よりも大きければ音声を認識し、
f)そうでなければ音声認識を実行しない
ように構成されている。
【0011】
この装置は、本発明による方法あるいはその実施形態を実行するのに殊に適している。
【0012】
次に、図面を参照しながら本発明について詳しく説明する。
【0013】
【実施例】
図1には、音声自動認識方法が略示されている。この方法は実践ではコンピュータプログラムにより実現され、これは音声信号に対する入力を有するコンピュータまたはプロセッサユニットにおいて動作する。
【0014】
この方法ないしは対応するプログラムは、ステップS1においてスタートする。続くステップS2において、音声信号Sにおける1つの語が分析される。このような分析自体は周知のようにして行われ、その際、通常は電気信号に変換された信号として存在する音響的音声信号が語と休止のセグメントに分けられ、語はテキストに変換される。信号区間のセグメンテーションは、たとえばビタビアライメント方式に従って行われる。
【0015】
図2には、信号区間Sの一部分を座標系で表したダイアグラムが示されている。この座標系において横軸には時間tが、縦軸には音量が書き込まれている。ここで音量は、信号SにおけるエネルギーEの対数として表されている。
【0016】
本発明において音量とは、デシベルで測定される物理的な音量にほぼ比例するなんらかの物理量のこととする。これに比例する量は信号Sのエネルギーのほか、電気信号に変換された音響信号の電気的な量たとえば電圧や電流などである。
【0017】
信号区間Sのセグメンテーションにあたり時点t1,t2が求められ、これらの時点によってそれぞれ休止Pと語Wとの間の境界が定められる。図示の実施例では時点0と時点t1との間ないしは時点t2の後に休止があり、時点t1とt2との間では信号Sにより語が表されている。
【0018】
ステップ3において、平均休止音量Siレベルが求められる。この平均休止音量Siレベルは、1つまたは複数の休止区間Pにおける音量の時間的平均値である。
【0019】
ステップS4において、平均語音量Woレベルが求められる。この平均語音量Woレベルは、個々の語の区間Wにおける音量の時間的平均値であり、つまり個々の語について各々別個のWoレベルが計算される。
【0020】
続くステップS5において、平均語音量Woレベルと平均休止音量Siレベルとの差Δが計算される:
Δ=Woレベル−Siレベル
その後、ステップS6において、差Δが閾値SWよりも小さいか否かについて問い合わせられる。閾値SWは「音量間隔」を成している(図2も参照)。
【0021】
この問い合わせにより差Δが閾値SWよりも小さいと判明すればこのことは、平均語音量Woレベルと平均休止音量Siレベルとの間の音量間隔がまえもって定められた閾値SWよりも小さいことを意味する。平均語音量Woレベルと平均休止音量Siレベルとの間の音量間隔が所定の閾値SWよりも小さい語は、適正には認識されなかったと判定される。それというのも本発明の発明者によれば、ノイズは一般に評価すべき語信号よりも静かであり、あるいは満足のいく音声認識が不可能である一定の妨害ノイズ(回線中のノイズや喧しいバックグラウンドノイズ)のとき、平均語音量と平均休止音量との音量間隔はきわめて僅かであることが確かめられたからである。これら両方の事例において捕捉された信号がテキストに変換されると、ほとんど必ず誤った認識になってしまう。ステップ6における問い合わせにおいて差Δが閾値SWよりも小さいことが判明すれば、プログラムはステップS7へ進み、そこにおいて誤り除去が行われるが、これについてはあとで詳しく説明する。その後、ステップ8において、別の語を判定すべきであるか否かが調べられる。ステップ6の結果として差Δが閾値SWよりも大きければ、プログラムシーケンスはただちにステップS8の問い合わせに分岐する。
【0022】
ステップ8における問い合わせによって、まだ別の語を分析して評価すべきである否かが調べられ、結果が「イエス」であれば、プログラムシーケンスはステップS2へ戻って進み、そうでなければプログラムはステップS9で終了する。
【0023】
上述の実施例の場合、捕捉された語は個別に分析されてテキストに変換され、そして評価される。この方法を逐次認識ないしはステップ・バイ・ステップと称する。ここで好適であるのは、1つの語Wの平均語音量Woレベルとその直前の休止Pの平均休止音量Siレベルとから差Δを形成することである。しかし、語Wに続く休止の平均音量または先行する休止または後続の休止に関して平均をとった休止音量を用いることもできる。
【0024】
逐次認識の代わりに、複数の語をまとめた認識を用いることもできる。ここで一般的であるのは、それぞれ1つの文章全体を信号区間として取り込み、次に一度に分析することである(一文認識)。この種の一文認識の場合、休止音量の平均をすべての休止Pについてとることができるが、各語Wについての平均語音量は個別に求める必要があり、これは個々の語が適正に認識されたかされなかったかを判定できるようにするためである。
【0025】
ステップ7における誤り除去にあたり適用事例に応じて種々の変形の仕方があり、それらを単独でまたは組み合わせて使用することができる。
【0026】
第1の変形形態によれば、適正には認識されなかったと判定された語は、テキストへの変換時に考慮されないかまたはそのテキストから取り除かれる。
【0027】
誤り除去に関する第2の変形形態によれば、1つの語が適正には認識されなかったと判定されたとき、それ相応のメッセージがユーザに送出される。このメッセージは音響的なメッセージとして送出できるし(たとえば「最後の語は正しく理解できませんでした」)、あるいは画像表示として指示することもできる。第1の事例は、たとえば音声自動認識を備えた通信装置などディスプレイの設けられていない音声認識システムのために好適であるし、第2の事例はたとえばディクテーションシステムにおいて有用であろう。ディクテーションシステムでは画像表示としてまえもって定められたエラー記号がテキスト中の対応個所にはめ込まれ、それによってユーザはその語を新たに話すよう促され、ついでその語はテキスト中のエラー記号の個所にはめ込まれる。ここでユーザがいかなる語もはさむ意志がなければ、ユーザはエラー記号を除去するための相応の消去機能を操作できる。
【0028】
エラー除去の第3の変形形態によれば、要求された音量間隔に届かせるため対応するメッセージによりユーザに対しもっと大きく話すよう要求することができる。これにより音声入力が、音響的な条件(話者におけるノイズレベル)ないしは音響信号の伝送条件(回線中のノイズ)に整合されるようになる。もっと大きく話すよう繰り返し要求しても認識結果が改善されなければ、ユーザに対し別の音響条件ないしは伝送条件を作成するよう要求することもでき、これはたとえば、ユーザが音声認識システムを備えた電話を介して接続されている場合であれば、別の電話機から電話するようユーザに対し要求することによって行われる。
【0029】
エラー除去に関する第4の実施形態によれば、複数の語が相次いで適正に認識されなかったと評価された場合、このことを音声入力の品質が低すぎると判定することができ、ユーザに対しそれ相応のメッセージを送出することができる。
【0030】
さらにエラー除去の第5の変形形態によれば、いわゆるnベストリスト(n-best-list)の語が個別に評価される。1つの信号シーケンスに対し、同じように響く複数の語を対応づけできることが多い。それらの語によってnベストリストが形成される。休止と個々の語との間の限界はnベストリストの個々のワードにおいて区別されるので、nベストリストの個々の語について異なる平均語音量およびそれに従って異なる差Δを求めることができる。
【0031】
テキストに挿入されるnベストリストの語の選択は、それ自体周知のマッチング判定基準に従って行われ、その際、本発明によれば差Δを付加的なマッチング判定基準として用いることができ、この場合、最も大きい差Δをもつ語がテキスト中に挿入される。エラー除去に関するこの5番目の変形形態は独立した本発明の着想を成しており、これを上述の方法とは無関係にnベストリストの自動的な評価において適用することができる。
【0032】
本発明の1つの実施形態によれば、閾値SWは一定である。
【0033】
しかしこの閾値SWを、音響条件や信号伝送条件に合わせて自動的に整合させることもできる。優れた音響条件や信号伝送条件が生じていれば一般に、一定の閾値よりも著しく大きい差Δが得られ、これは様々な用途や条件に適したものでなければならない。このような事例の場合に好適であるのは、閾値を大きな差Δに合わせることである。つまりたとえば、捕捉された複数の語に対する平均語音量と捕捉された複数の休止に対する平均休止音量との間におけるグローバルな差Δglを計算し、これらグローバルな差Δglをそのまま、あるいは所定の一定値により減算した後、閾値SWとして用いることができる。これは殊に、エラー除去の第1の変形形態と組み合わせると有利である。なぜならばそれにより、平均語音量よりもごく僅かに静かなノイズもフィルタリングして除去することができるからである。その結果、高品質の音声入力の場合には閾値(それ以下では信号は適正には認識されなかったと判定される)が、劣悪な品質の音声入力の場合よりも高くセットされるようになる。有利には閾値に対する下限が設けられており、これによってそれがゼロまで低減されてしまう可能性がない。
【0034】
可変閾値のレベルを、音声入力の品質係数として判定することもできる。可変の閾値がその下限に達した場合、音声入力の品質がかなり劣化したことを意味し、このことをユーザに対しそれ相応に通知することができる。
【0035】
グローバルな差の計算にあたり有利には、音声認識システムとの会話中に話されたすべての語と休止が考慮される。
【0036】
図3は、音声認識のための装置が描かれている。この装置は通信施設1であり、これは回線ライン2を介して電話回線網と接続されている。この通信施設1は加入者アクセスコントローラ3を有しており、これにより外部から電話をかけてきた遠方の通話加入者を内部バス4,ディジタルオーディオプロセッサ5およびローカルな電話回線6を介して電話機7と接続することができ、つまりはその電話機を使用するユーザとつなぐことができる。内部バス4は、アナウンスユニット8および音声ユニット9と接続されている。アナウンスユニット8により、バス4つまりは電話回線2,6に対しアナウンスを出すことができる。この通信施設はマイクロプロセッサ10により制御され、これはディジタルオーディオプロセッサ5、アナウンスユニット8ならびに音声ユニット9と接続されている。音声ユニット9は、音声分析モジュール11と音量測定装置12と音声コントローラ13とによって構成されている。
【0037】
音声分析モジュール11は音声信号の分析を実行し、その際、音声信号は休止と語のセグメントに分けられ、さらに語はテキストに変換される。音声分析モジュールは音量測定装置12へ音声信号Sの個々の部分(語Wと休止P)を伝送し、音声コントローラ13へは変換されたテキストを伝送する。音声測定装置は音声信号における個々の部分の平均音量(Woレベル、Siレベル)を求め、対応する値を音声コントローラ13へ供給する。そして音声コントローラ13において、個々の語が適正に認識されたか否かが調べられ(図1のステップ6)、場合によっては音声コントローラ13において適正には認識されなかった語がフィルタリングされて除去される(エラー除去の第1の変形形態)。
【0038】
フィルタリングされたテキストまたはフィルタリングされなかったテキストは、エラー除去に必要とされる他のデータとともに音声コントローラ13からマイクロプロセッサ10へ転送され、受け取ったテキストおよび対応するデータをこのマイクロプロセッサが評価する。
【0039】
マイクロプロセッサ10の機能は、到来する呼び出しを自動的に個々の電話機7とつなぐことである。この機能は、音声コントローラ13により受け取られたテキストの評価と、ディジタルオーディオプロセッサ5における個々の出力の対応する出力のイネーブル接続により行われる。
【0040】
受け取ったテキストを評価できなかったり、あるいはアナウンスを伴うエラー除去が必要な場合(第2、第3または第4の変形形態)、アナウンスユニット8がマイクロプロセッサにより制御され、対応するアナウンスが実行される。
【0041】
このように本発明による通信施設には自動的な交換動作が統合されており、これによれば到来する電話通話を個々の電話機へ自動的に転送することができる。
【0042】
さらに本発明による通信施設1によれば、電話機7のユーザが電話施設1をその声で制御することができ、たとえば選択すべき番号をキーを押す代わりに話すようにすることができる。
【0043】
これらすべての機能は、できるかぎりエラーのない音声認識を前提としている。本発明によればノイズによるエラーを、それがバックグラウンドの音声信号であってもあるいは音声信号を成さないノイズによるものであっても、著しく改善し、従来の音声認識システムよりも簡単にエラーを防止することができる。
【図面の簡単な説明】
【図1】音声認識方法を略示するフローチャートである。
【図2】信号区間の一部分を表すダイアグラムである。
【図3】本発明に従って動作する通信施設を示すブロック図である。
【符号の説明】
1 通信施設
2 回線ライン
3 加入者アクセスコントローラ
4 内部バス
5 ディジタルオーディオプロセッサ
6 電話回線
7 電話機
8 アナウンスユニット
9 音声ユニット
10 マイクロプロセッサ
11 音声分析モジュール
12 音声測定装置
13 音声コントローラ
Claims (14)
- 音声認識方法において、
a)語の境界に基づき音声中の語と休止を決定し、
b)休止中の平均休止音量(Siレベル)を求め、
c)語について平均語音量(Woレベル)を求め、
d)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)を求め、
e)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)がまえもって定められた閾値(S)よりも大きければ音声を認識し、
f)そうでなければ音声認識を実行しないことを特徴とする、
音声認識方法。 - 平均休止音量と平均語音量を捕捉されたエネルギーに関する対数として測定する、請求項1記載の方法。
- セグメントに分けられた複数の語の平均語音量とセグメントに分けられた複数の休止の平均休止音量との間のグローバルな差を計算し、該グローバルな差に基づき閾値を求める、請求項1または2記載の方法。
- 前記閾値をグローバルな差と等しくする、請求項3記載の方法。
- 前記グローバルな差をまえもって定められた一定値だけ低減し、それにより得られた音量値を閾値として用いる、請求項3記載の方法。
- 一定の閾値を用いる、請求項1または2記載の方法。
- 音声認識を実行しない語はそれ以上考慮しない、請求項1から6のいずれか1項記載の方法。
- 音声認識を実行しない場合にはユーザに対しメッセージを送出する、請求項1から7のいずれか1項記載の方法。
- 前記メッセージによりユーザに対しもっと大きく話すよう、および/または適正には認識されなかった語を繰り返すよう要求する、請求項8記載の方法。
- 前記メッセージによりユーザに対し、平均語音量と平均休止音量との間に十分な間隔を生じさせるためにもっと大きく話すよう要求する、請求項9記載の方法。
- それぞれ個々の休止に対する平均休止音量を求め、話された語の平均語音量(Woレベル)と、直前の休止または直後の休止の平均休止音量(Siレベル)との間の差(Δ)を求める、請求項1から10のいずれか1項記載の方法。
- 相前後する複数の休止について平均休止音量を求め、該平均休止音量を差(Δ)を求めるときに用いる、請求項1から11のいずれか1項記載の方法。
- nベストリストを作成し、nベストリストにおける各語に対し、話された個々の語の平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)を対応づけ、nベストリストからテキスト中に挿入すべき語を、話された個々の語の平均語音量(Woレベル)と平均休止音量(Siレベル)との前記の差(Δ)に応じて求める、請求項1から12のいずれか1項記載の方法。
- 音声認識装置において、
プロセッサユニットが設けられており、該プロセッサユニットは、
a)語の境界に基づき音声中の語と休止を決定し、
b)休止中の平均休止音量(Siレベル)を求め、
c)語について平均語音量(Woレベル)を求め、
d)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)を求め、
e)平均語音量(Woレベル)と平均休止音量(Siレベル)との差(Δ)がまえもって定められた閾値(S)よりも大きければ音声を認識し、
f)そうでなければ音声認識を実行しないことを特徴とする、
音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19939102A DE19939102C1 (de) | 1999-08-18 | 1999-08-18 | Verfahren und Anordnung zum Erkennen von Sprache |
DE19939102.5 | 1999-08-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001075580A JP2001075580A (ja) | 2001-03-23 |
JP4520596B2 true JP4520596B2 (ja) | 2010-08-04 |
Family
ID=7918756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000247012A Expired - Fee Related JP4520596B2 (ja) | 1999-08-18 | 2000-08-16 | 音声認識方法および音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6947892B1 (ja) |
EP (1) | EP1077448B1 (ja) |
JP (1) | JP4520596B2 (ja) |
DE (2) | DE19939102C1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7739115B1 (en) | 2001-02-15 | 2010-06-15 | West Corporation | Script compliance and agent feedback |
GB2380644A (en) * | 2001-06-07 | 2003-04-09 | Canon Kk | Speech detection |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
US20070239675A1 (en) * | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Web search media service |
GB0616070D0 (en) * | 2006-08-12 | 2006-09-20 | Ibm | Speech Recognition Feedback |
JP5332798B2 (ja) * | 2009-03-26 | 2013-11-06 | ブラザー工業株式会社 | 通信制御装置、通信制御方法、及び通信制御プログラム |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
US8938081B2 (en) * | 2010-07-06 | 2015-01-20 | Dolby Laboratories Licensing Corporation | Telephone enhancements |
DE102010033117A1 (de) * | 2010-08-02 | 2012-02-02 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
KR101405202B1 (ko) | 2012-11-09 | 2014-06-10 | 현대자동차 주식회사 | 음성인식시스템의 증폭율 조정장치 및 방법 |
US9418651B2 (en) | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
WO2015167008A1 (ja) * | 2014-05-02 | 2015-11-05 | 株式会社ソニー・コンピュータエンタテインメント | 案内装置、案内方法、プログラム及び情報記憶媒体 |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
JP7014163B2 (ja) * | 2016-07-19 | 2022-02-01 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法 |
CN108753177A (zh) * | 2018-05-23 | 2018-11-06 | 武汉华星光电半导体显示技术有限公司 | 一种导电胶、显示面板的制造方法、显示面板及显示装置 |
CN108847218B (zh) * | 2018-06-27 | 2020-07-21 | 苏州浪潮智能科技有限公司 | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 |
CN108847237A (zh) * | 2018-07-27 | 2018-11-20 | 重庆柚瓣家科技有限公司 | 连续语音识别方法及系统 |
CN115629894B (zh) * | 2022-12-21 | 2023-04-07 | 深圳市人马互动科技有限公司 | 演讲提示方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6177900A (ja) * | 1984-09-25 | 1986-04-21 | 日本電気株式会社 | 音声区間検出装置 |
JPS6242197A (ja) * | 1985-08-20 | 1987-02-24 | 松下電器産業株式会社 | 音声区間検出方法 |
JPS63223795A (ja) * | 1987-03-13 | 1988-09-19 | 松下電器産業株式会社 | 音声入力装置 |
JPH05165492A (ja) * | 1991-12-12 | 1993-07-02 | Hitachi Ltd | 音声認識装置 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH1115494A (ja) * | 1997-06-25 | 1999-01-22 | Denso Corp | 音声認識装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4918732A (en) * | 1986-01-06 | 1990-04-17 | Motorola, Inc. | Frame comparison method for word recognition in high noise environments |
DE4106405C2 (de) * | 1990-03-23 | 1996-02-29 | Ricoh Kk | Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem |
FR2677828B1 (fr) * | 1991-06-14 | 1993-08-20 | Sextant Avionique | Procede de detection d'un signal utile bruite. |
JPH0535293A (ja) * | 1991-08-01 | 1993-02-12 | Fujitsu Ltd | 音声認識装置における認識候補数設定方式 |
CA2158849C (en) * | 1993-03-25 | 2000-09-05 | Kevin Joseph Power | Speech recognition with pause detection |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
JP3255584B2 (ja) * | 1997-01-20 | 2002-02-12 | ロジック株式会社 | 有音検知装置および方法 |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US6216103B1 (en) * | 1997-10-20 | 2001-04-10 | Sony Corporation | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6757652B1 (en) * | 1998-03-03 | 2004-06-29 | Koninklijke Philips Electronics N.V. | Multiple stage speech recognizer |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
AU6501999A (en) * | 1998-09-29 | 2000-04-17 | Scansoft, Inc. | Inter-word triphone models |
DE19854341A1 (de) * | 1998-11-25 | 2000-06-08 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
-
1999
- 1999-08-18 DE DE19939102A patent/DE19939102C1/de not_active Expired - Fee Related
-
2000
- 2000-08-10 DE DE50012279T patent/DE50012279D1/de not_active Expired - Lifetime
- 2000-08-10 EP EP00117171A patent/EP1077448B1/de not_active Expired - Lifetime
- 2000-08-16 JP JP2000247012A patent/JP4520596B2/ja not_active Expired - Fee Related
- 2000-08-18 US US09/642,452 patent/US6947892B1/en not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6177900A (ja) * | 1984-09-25 | 1986-04-21 | 日本電気株式会社 | 音声区間検出装置 |
JPS6242197A (ja) * | 1985-08-20 | 1987-02-24 | 松下電器産業株式会社 | 音声区間検出方法 |
JPS63223795A (ja) * | 1987-03-13 | 1988-09-19 | 松下電器産業株式会社 | 音声入力装置 |
JPH05165492A (ja) * | 1991-12-12 | 1993-07-02 | Hitachi Ltd | 音声認識装置 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH1115494A (ja) * | 1997-06-25 | 1999-01-22 | Denso Corp | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1077448A3 (de) | 2003-03-26 |
EP1077448B1 (de) | 2006-03-01 |
DE19939102C1 (de) | 2000-10-26 |
US6947892B1 (en) | 2005-09-20 |
DE50012279D1 (de) | 2006-04-27 |
JP2001075580A (ja) | 2001-03-23 |
EP1077448A2 (de) | 2001-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
US8175874B2 (en) | Personalized voice activity detection | |
US7392188B2 (en) | System and method enabling acoustic barge-in | |
US7050550B2 (en) | Method for the training or adaptation of a speech recognition device | |
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
US6574601B1 (en) | Acoustic speech recognizer system and method | |
US20040199388A1 (en) | Method and apparatus for verbal entry of digits or commands | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
JPH096388A (ja) | 音声認識装置 | |
JP3524370B2 (ja) | 音声起動システム | |
JP2012073364A (ja) | 音声対話装置、方法、プログラム | |
EP3252765B1 (en) | Noise suppression in a voice signal | |
JPH1152976A (ja) | 音声認識装置 | |
JP3998724B2 (ja) | 対話式装置 | |
AU5894499A (en) | A method and a system for voice dialling | |
EP1185976B1 (en) | Speech recognition device with reference transformation means | |
US7043427B1 (en) | Apparatus and method for speech recognition | |
EP1445760B1 (en) | Speaker verifying apparatus | |
US20220147722A1 (en) | System and method for automatic speech translation based on zero user interface | |
EP1385148B1 (en) | Method for improving the recognition rate of a speech recognition system, and voice server using this method | |
KR100194765B1 (ko) | 반향 제거를 이용한 음성 인식 시스템 및 그 방법 | |
US20230282217A1 (en) | Voice registration device, control method, program, and storage medium | |
JP2005123869A (ja) | 通話内容書き起こしシステムおよび通話内容書き起こし方法 | |
CN115424619A (zh) | 号码状态识别方法及装置、计算机可读存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100422 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100521 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4520596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |