JP2012508903A - 自動音声テキスト変換のためのシステムと方法 - Google Patents

自動音声テキスト変換のためのシステムと方法 Download PDF

Info

Publication number
JP2012508903A
JP2012508903A JP2011536467A JP2011536467A JP2012508903A JP 2012508903 A JP2012508903 A JP 2012508903A JP 2011536467 A JP2011536467 A JP 2011536467A JP 2011536467 A JP2011536467 A JP 2011536467A JP 2012508903 A JP2012508903 A JP 2012508903A
Authority
JP
Japan
Prior art keywords
event
speech recognition
events
speech
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011536467A
Other languages
English (en)
Other versions
JP5850747B2 (ja
JP2012508903A5 (ja
Inventor
ピンソン、マーク
ピンソン、デイビッド、シニア
フラナガン、メアリー
マカンバンド、シャーロック
Original Assignee
エスシーティアイ ホールディングス、インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エスシーティアイ ホールディングス、インク filed Critical エスシーティアイ ホールディングス、インク
Publication of JP2012508903A publication Critical patent/JP2012508903A/ja
Publication of JP2012508903A5 publication Critical patent/JP2012508903A5/ja
Application granted granted Critical
Publication of JP5850747B2 publication Critical patent/JP5850747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

音声認識が、近い実時間に実行されてかつイベントかつイベント・シーケンスを利用して、ブーストされたクラシファイヤ、アンサンブル、検出器かつカスケードを含んでいる機械学習技術を利用し、かつ、知覚クラスタを使用することによって改善される。音声認識も、縦並びに処理するものを使用して改善される。自動句読点挿入器は、認識されたテキスト・ストリームに句読点を挿入する。
【選択図】図8B

Description

本発明は、一般に、自動音声認識に関する。より具体的には、本発明は、時間的情報と、知覚されたクラスタから導出されたパターン等の、音声信号の最も頑強でかつ最も関連したアスペクトを用い、かつ新規な機械学習技術を使用して、この情報を処理することにより、自動音声認識を改良する技術に関する。
音声知覚情報は、周波数、振幅および時間に対し不均一に分布する。あらゆるアスペクトにおいて、音声は、大きく変化する。大部分の自動音声認識システムは、単一のスケールで一定に配置された間隔で情報を抽出する。人間の音声を知覚する際、いくつかの音声分類が、時間特性に注目することにより識別できることは知られているが、典型的な従来技術の音声認識システムでは、音声の時間的アスペクトは、完全には利用されていない。
ほとんどの従来技術の自動音声認識システムは、一定の短期間(典型的には、20-30ミリ秒)の分析フレームを使用して一定の時間ステップ(典型的には、10-15ミリ秒)で、音声信号から情報を抽出するプロセスを含む。様々な音声音が発生する際、音声信号は大きく変動し、かつ常に変位しているので、一回の短期間観察ベクトルに基づいて音声を分類することは信頼性が低い。実際、使用に耐えるシステムを作成するためには、より長い期間のパターンを、使用しなければならない。
米国特許第5956671号明細書 米国特許第6470311号明細書
B. Repp 他の「停止、摩擦音及び破擦音の音響キューの知覚統合」、実験心理学ジャーナル (Journal of Experimental Psychology):人の知覚と行動 (Human Perception and Performance)、1978年、4巻、4号、621-637頁 S. Basu 他による、「時間シフト不変量音声認識」、ICSLP98
より長い期間のパターンを用いることができる、従来技術の方法は、数多くの短期間観察ベクトルのメモリを保持し、これらのベクトルは、同時に音声分類器に提示される。このアプローチの分類器には、しばしば、人工神経網または相関テンプレートが使用される。短期間観察ベクトルのメモリを保持することにより、結果が改善されたが、依然として、いくつかの問題が未解決である。
第一に、フレーム・ベースの方法全てに共通する、一定時間ステップ・サンプリングは、音声信号と同期しない。このため、音声イベントと観察フレームとの関係は、ランダムとなる。これは、抽出された特徴と時間的詳細の量子化を大きく変動させる結果をもたらす。
次に、一定分析フレームに基づく抽出は、最適ではない。人間が音声音を知覚するために使用する情報は、多くの異なる時間スケールで発生する。例えば、母音は1秒以上も継続することがあるのに対して、“t”と発音された音の破裂音の持続時間は、わずか2、3ミリ秒でしかない。一連の多くの短期間観察は長期間観察が提示するものと同じ情報を提示せず、そして、逆もまた真である。
音声のいくつかのアスペクトは、時間の次元で大きく変化する。例えば、母音が保持されている長さは、話者、音声の速度、母音が、強調された音節内にあるか否か、そしてその音節を含むワードが、その文のどの場所に見出されるかに依存する。この時間的変動性は、音声情報を異なる相対的観察フレームへ移動させ、同じ音声分類の異なる例に対して抽出された値の変動性を著しく増加させ、そしてメモリ内の意味があるパターンの検出を困難にする。
加えて、フレーム・ベースのシステムは、概して、全てのフレームをそれらの重要性が等しいものとして、扱う。これとは対照的に、人間の知覚は、信号対雑音比が最良であり、かつ必要な識別をするために最も関連していてかつ最も信頼性が高い特性を含む、信号の部分を使用する。大部分の従来の自動音声認識システムには、隠れたマルコフ・モデル(Hidden Markov Models)が組み込まれている。隠れたマルコフ・モデルは、確率ステート・マシンである。
隠れたマルコフ・モデルは、観察ベクトルから評価された分類確率を、隠れた(観察されていない)分類生成物の可能性のあるシーケンスにマップする。上述した時間的変動性問題は、隠れたマルコフ・モデルを使用して、各放出しない状態がそれ自体に移行することを許容することによって対処される。自己移行状態を用いて、時間的変動性は、「吸収される」。残念なことに、このアプローチが、持続時間の情報を明示的に抽出するように変更されない限り、このアプローチは、不必要な時間的情報も望ましい時間的情報も除去してしまう。音声イベントの時間的関係は、音声音(特に、破裂音、破擦音および摩擦音の区別)を知覚するための有意な情報をもたらす。さらにまた、分類確率の頑強な評価は、大量の訓練データを必要とする。使用条件が訓練条件と異なるときには、確率評価は非常に不正確になり、結果として認識が劣ってしまう。
大部分の従来の自動音声認識システムにより用いられる特徴は、基本的には、短期間のスペクトル・プロフィールから取得されている。多くの音声音が、ホルマントと呼ばれるある特性周波数のピークを有するので、このアプローチはしばしば採用される。他の現行システムによって使用される非常に異なるアプローチは、周波数帯域の長期間軌跡に集中することである。TRAP(Temporal Pattern)と呼ばれる方法では、音声音は、音の例の平均長期間(〜1秒)軌跡としてモデル化される。分類化は、音声信号包絡線とTRAPモデルの各々との相関に基づいて実行される。このアプローチのいくつかのバージョンは、短期間スペクトル法と同等になると報告された結果を有する。これらの結果は、音声音の同定にとって有用な情報が、音素分節の境界を越えた時間に広がっていることを示す。この方法で使用される平均化およびウィンドウ化のため、TRAPの中心の近くの情報は、更に情報以上に強調されてしまう。TRAPは、全体的な傾向を捕えるが、時間的詳細は捕えない。
フレーム・ベースの特徴抽出のさらにもう一つの選択されるアプローチは、「イベント」と呼ばれる特定の検出可能な信号状態の位置で音声を分節化することである。各分節された部分は、単一の分類の同定を有すると考えられる。通常、モデルとの時間的整列配置は、動的な時間ワーピングによって実行される。これによって特徴軌跡を共通の時間スケールに投影することが可能になる。ついで、ワープされた時間スケールで、この特徴軌跡は、再標本化され、そしてテンプレートと相関させるか、または隠れたマルコフ・モデルに対する観察として使用される。動的な時間的ワーピングのプロセスは、音声分節の経時変動性の多くを除去する。しかしながら、信頼性が高い分節化イベントを見つけることは、イベント・ベースの方法に対して挑戦を提示することになる。イベントを挿入または削除することは、整列配置を破壊するという結果をもたらす。
明らかに、自動音声認識の効率および有効度を増大させる従来技術の改良が必要である。
音声の人による知覚は、重要部分では、音声信号内のイベントの相対的タイミングに依存する。音声知覚に対するキューは、さまざまな時間スケールで発生し、かつ知覚そのものから、時間で相殺させることができる。音声イベントの時間的関係を変えることにより、音声の知覚を変えることができる。これは、沈黙と摩擦音の持続時間が操作された知覚実験による、非特許文献1に示されている。このような実験の1つは、ワード"Say"と"Shop"の間に無音の短い間隔を導入する。これにより、リスナーは"Say Chop"と聞くことになる。イベントの相対的タイミングがどのように知覚に影響するかという他の例は、音声開始時間(voice onset time)(通常、VOTと略記される)である。VOTは、停止が解除されてから声帯の振動が始まるまでに、経過する時間の長さである。VOTは、各種の停止子音を区別する際の重要なキューである。タイミングの重要性も、音声現象の持続時間の変動性に由来する。他のものがかなり長いのに対し、いくつかの知覚できる音声現象は非常に短い。例えば、音素体系上転写された英語の音声のTIMITコーパスは5ミリ秒未満の持続時間を有する停止破裂分節を有するが、いくつかの母音分節は500ミリ秒以上も持続する。
イベントの相対的なタイミングが知覚に対して重要なキューであるが、特長抽出の最も普通の方法は、音声イベントのタイミングに対応していない。ほとんど全ての現在の音声および話者認識アプリケーションは、時間に対して固定ステップ・サイズ分前進する固定長分析フレームに基づいて、信号分節化アプローチを利用して特徴を抽出する。これらの分析フレームはサイズが固定されているので、これらは、ほとんど常に、これらが捕えようとする知覚現象の長さより著しく短いかまたは著しく長い、の何れかである。
この普通の方法は、実行するのが容易ではあるが、信号と第一フレームの出発点の間の関係が特定されていない状況、かつ分析フレームのサイズと様々な音声現象の時間スケールとの間の関係が特定されていない状況の元で、特徴を抽出する。非特許文献2に記載されているフレーム・ベースの音声認識システムは、10ミリ秒進む25ミリ秒のフレームと、信号と10ミリ秒未満の第一フレームとの開始関係におけるシフトに基づいていて、これが、「フロントエンドによって生成されるスペクトル評価及び[メル周波数cepstral係数]を大きく変化させる」原因となり、これが「同じデータベース上でワード誤り率に[10パーセント]にまで到る変化を与える結果」をもたらしていた。
音声信号の変動性の原因には、話者の声道長、アクセント、音声率、健康、感情的な状態、バックグラウンド・ノイズ等、多くが存在する。しかしながら、Basu他によって報告される変動性は、フレームサイズおよびフレームの整列配置が信号に対して特定の関係を有しない特徴抽出の方法を使用することに、完全に起因する。Ittycheriah他の米国特許第5,956,671号(1997年6月4日出願)(特許文献1)には、分析フレームと音声信号に特定の関係が無いことによって生じる特徴の変動性を減らすことを意図した技術が、開示されている。彼らの発明の一アスペクトは、信号を時間シフトさせた複数のバージョンを、別々の訓練の例として、固定フレーム分析プロセスに処理させることによって、訓練集合の変動性を拡大する。彼らは、特徴値が、固定フレーム分析の結果を信号の複数の時間遅延バージョンに平均化することによって計算される、認識時間に使用される技術も開示する。
これらの技術は、固定フレームと時間ステップを使用して特徴を抽出することによって生じる問題を完全には解決していない。さらに、例の数を増大させることは、訓練時間を増加させ、かつ元の音声信号には存在しない追加変動性をモデルに組み込むことになる。時間シフトさせた平均算出は、計算の複雑性を増加させ、そして、いくつかの知覚に関連する音声特性を「平均化」してしまう。
Moncurの米国特許第6,470,311号(1999年10月15日出願)(特許文献2)では、ピッチにほぼ等しい中心周波数を有する帯域フィルタの出力の正のゼロクロッシングに基づいて、有声音のピッチ同期分節化の方法が、部分的に、同期を扱っている。無声音は、いくつかの不特定の時間フレームにより計算された平均ピッチ周期を使用して分節化される。信号対雑音が低い条件およびDC信号オフセットが小さい信号が、ゼロクロッシング・ベースの分節化に問題を生じさせることは公知である点に留意すべきである。高品質の音声信号に対し、Moncurのアプローチは、有声音について、通常の固定フレーム分析法の改良を表す。残念なことに、無声音に対しては、このアプローチは、特定されていない固定フレームと時間ステップに戻っている。固定フレームおよび時間ステップの使用は、閉鎖および停止破裂のようなイベントの正確な位置を未解決のままにする。さらに、ささやきの音声に対しては全く解決策が提供されていない。
音声現象との関係が特定されていなくかつ変化してしまう固定均等フレームによるより、むしろ、音声信号のイベント自体と同期している特徴を抽出する解決策が、必要とされていることは明らかである。分節化技術は、有声音および無声音の両方を含む全ての信号に適用されなければならない。加えて、音声分析は、検出されつつあるイベントの特定のタイプの各々に対し適切な時間スケールで実行されなければならない。
今日の典型的な自動音声認識エンジンは、これが、自然な分節化を可能にするので、増大したコンテキストにより結果としてより高い精度をもたらすとの理由から、分析しかつ出力を生じるために沈黙の検出を待つ。発言が終るまで待つことは、出力が5〜25秒程度遅れる原因となる。テレビジョン放送のためにクローズドキャプションを自動的に作成すると言うようなアプリケーションに必要となる、実時間に近い出力を発生させなければならない場合には、分節化をより小さくすることが、分析に利用可能なコンテキストを減らすことになり、かつ、より精度が低くなることが予想され、そしてより低い精度が発生する。この種のアプリケーションに必要なものは、短い待ち時間と高精度である。
本発明のいくつかの実施態様は、検出器の自動学習および音声認識のための分類器に関する。より詳しくは、この発明は、特定の検出タスクまたは分類化タスクのために、音声信号の最も頑強でかつ最も関連するアスペクトに集中する検出器及び分類器の自動学習に関する。
本発明のいくつかの実施態様は、信号の注目すべきアスペクトを示す音声信号のスパイクまたはイベントの抽出に関する。これらの実施態様は、イベント間の時間的関係を捕えることにも関する。好ましい本実施態様では、重み付け分類器の構成が、イベントを抽出するために用いられる。本発明のいくつかの実施態様は、自動音声認識エンジンで使用するための重み付け分類器の構成を構築することに関わる。本発明のいくつかの実施態様は、個々のイベントを検出する代わりに、またはそれに加えて、イベントのシーケンスを検出することに関わる。本発明のいくつかの実施態様においては、選択されるキューに基づく検出器が、開発されている。
本発明のいくつかの実施態様では、適応ブースティング・アルゴリズムが、認識性能を向上させるために用いられる。本発明のいくつかの実施態様は、適応ブースティング・アルゴリズムによって作成されるアンサンブルの複雑さを減らすためのプロセスを含む。
本発明のいくつかの実施態様では、イベント・ベースの検出器カスケードを自動的に作成する方法が、めったにオブジェクトを検出しない非常にアンバランスな訓練集合または学習の問題を解決する。この結果的に得られる検出器カスケードは、初期段階の大多数の負の例を消去することによって、まれなオブジェクトを効果的に検出する。
本発明のいくつかの実施態様では、音声を知覚クラスタに分類するプロセスが、実行される。このプロセスは、選択される知覚の間の曖昧さをなくす。
本発明のいくつかの実施態様は、知覚的に重要な位置で音声信号を分節化することに関わる。これは、知覚的に関連するタイミングを抽出するのみならず、信号の分析を音声イベントに同期させ、これにより、非同期固定フレーム分析の問題の全てを回避する手段を提供する。この方法は、先ず、人間が知覚する確かなアスペクトとそれらが検出しようとする音声現象とに基づいて、低複雑度フィルタを使用してプリ分節化を実行する。これらのフィルタは、音声開始、停止、破裂、声門パルスおよび他の有意な音声信号イベントを表す知覚できるパターンの位置を検出する。このプリ分節化のイベントは、確かな特徴計算を同期させるために用いられる間隔を規定する。同期が取られている抽出された特徴のパターンは、更に、処理されて、より長い時間スケールで特徴が作成され、かつ音韻境界、音節核等のより高レベルの知覚イベントが検出される。
高レベル音声認識システムは、これらの技術の全てを使用することが好ましい。本発明のいくつかの実施態様では、複数の方法が、自動音声認識のシステムに対して用いられる。このシステムは、音声入力を受信し、一つ以上の処理手段をこの音声入力に適用し、どの処理手段が最も適切であるかを決め、そして結果として得られたテキスト・ストリームを出力する。本発明の好ましい本実施態様では、自動音声認識システムが、実時間の、テレビジョン字幕およびワード・スポッティング環境において用いられる。[他の実施態様は、会議または電話会議の字幕作成または文字転写、実時間のディクテーション、口頭の電話メッセージの書類への変換を含む、実質的に、いかなる形態の音声転写も含む。]本発明のいくつかの実施態様は、待ち時間を減らすために、時間的に重ねられたバースト方式のn−タンデム並列自動音声認識エンジンを使用する処理音声信号に関わる。本発明のいくつかの実施態様は、句読点のないテキストに句読点記号を自動的に付加することに関わる。
本発明のいくつかの実施態様に従って自動音声認識エンジンの処理モジュールで使用される重み付け分類器の構成を構築するワークフローの一例を示す。 本発明のいくつかの実施態様に従ってイベントを含む複数の音声信号の領域を自動的に識別するためのワークフローを示す。 本発明のいくつかの実施態様に従うイベントの時間関係を示す。 本発明のいくつかの実施態様に従って時間のグリッド・ユニット範囲内で起こるイベントの計数を示す。 本発明のいくつかの実施態様に従うイベントに基づく総和マップの構造を示す。 本発明のいくつかの実施態様に従って検出器カスケードを作成するためのワークフロー400を示す。 本発明のいくつかの実施態様に従う全ての正の例からのイベントを含む領域の例を示す。 本発明のいくつかの実施態様に従う全ての正の例からのイベントを含む時間特徴空間の領域の他の例を示す。 本発明のいくつかの実施態様に従う全ての正の例からのイベントを含む整列配置されていない領域を示す。 本発明のいくつかの実施態様に従う全ての正の例からのイベントを含む非矩形状領域の例を示す。 本発明のいくつかの実施態様に従う、領域の1つの投影における、最大の幾何学的な境界の、最大限に堅い境界と最大限にゆるい境界に対する関係を示す。 本発明のいくつかの実施態様に従う、自動音声のテキスト・システムへの表示を示す。 本発明のいくつかの実施態様に従う、自動音声のテキスト・システムへの表示を示す。 本発明のいくつかの実施態様に従う、イベント認識およびワード・スポッティングに対するシステムの表示を示す。 本発明のいくつかの実施態様に従う、音声信号の分節化の例を示す。 本発明のいくつかの実施態様に従って知覚的な変化を計算するために用いられる知覚コントラスト演算式を示す。 本発明のいくつかの実施態様に従う、循環待ち行列メモリを示す。 本発明のいくつかの実施態様に従う、更新された循環待ち行列メモリを示す。 本発明のいくつかの実施態様に従う、更新された循環待ち行列メモリを示す。 本発明のいくつかの実施態様に従う、2つの実行中合計を維持するための区分化された循環待ち行列を示す。 本発明のいくつかの実施態様に従う、区分化された循環待ち行列を例示する; 本発明のいくつかの実施態様に従う、有声音の小さい分節上の声門パルス検出器の出力を示す。 本発明のいくつかの実施態様に従う、音節核検出器の表示を示す。 本発明のいくつかの実施態様に従ってフォルマント抽出を実行するためのワークフローを示す。 本発明のいくつかの実施態様に従って、倍音抽出を実行するためのワークフローを示す。 本発明のいくつかの実施態様に従う、時間で重複し、一連の発言に作用する2台のタンデム処理エンジンの表示を示す。 本発明のいくつかの実施態様に従う、自動句読点挿入器を含む音声−テキスト・システムを示す。
本発明は、音声認識のための検出器および分類器の自動学習に関する。より詳しくは、この発明は、手元に特定の検出またはクラスタスクのための時間的情報を含む、音声信号の最も頑強でかつ最も関連するアスペクトに集中する検出器および分類器の自動学習を目的とする。
本発明の好ましい実施態様の場合、自動音声認識システムは、実時間のテレビジョン字幕およびワード・スポッティング環境において使用される。
自動音声認識が長年にわたって改善されて来たにもかかわらず、これはまだ人間の実行能力には近づいていない。人間の聴取者には何の困難も生じさせないノイズのレベルでも、従来の自動音声認識システムを、しばしば、使用不能にさせる場合がある。さらに、精度の向上は、作業時間と計算の複雑さを増大させることを犠牲にして来た。有意な部分において、これらの問題は、言語知覚のために人間によって使われる情報が、周波数、振幅および時間で不均等に配信されるという事実から生じる。ほとんどの自動音声認識システムは、時間に関して全てのポイントを音声の認識について等しく扱い、かつ全ての分類を同一組の特徴に基づいて決定する。これに対し、人間は、認知の識別のために必要な最も関連しかつ最も頑強である音声信号のこれらのアスペクトを選択することができるようである。
耳の神経受容体は、音響信号を、その動的振幅および周波数布特性に関連するスパイクの時間的パターンに変換する。この時間的スパイク・パターンは、情報をコード化し、そして更なる処理のために、それを脳の神経単位に伝える。脳の計算ユニットを形成する神経単位および神経連鎖は、スパイク・パターンを使用して、情報をコード化し、そして互いに情報を伝達する。人間の神経機械パターン認識の効率および効果は、優れている。スパイクのコード化が作成する信号の表現は、非常に粗雑である。人間が認知する確実なアスペクトに示唆されて、本発明では、本願明細書において「イベント」と呼ぶ、スパイクとして音声信号から抽出される情報をコード化する。
本発明の好ましい実施態様では、イベント・ベースの抽出は、信号の注目すべきアスペクトに焦点を当て、そしてこれらのアスペクトの時間的関係を捕える。イベントのタイプの一例は、周波数通過帯域のエネルギ包絡線内のピークである。これらのピークは、各バンドの音声エネルギが、バックグラウンド・ノイズに対して最も強い音声信号の位置にある。ピーク間の時間的距離および信号シーケンスは、現在述べていることに、強く関係する。イベントの抽出は、帯域フィルタから包絡線ピークを見出すことに限られない。他のイベントは、下位パターン検出器の出力を含む、より複雑な信号分析によって生成されたオンセットおよびオフセットおよびイベントを含む。いかなる既知の方法に基づく分類器および検出器も、それらの設計条件が検出されると、それらを点弧させることによって、イベント・パターンに組み込むことができる。
関連する自動検出器と分類器の構築
本願において、「分類器」という用語は、特徴ベクトル、イベントおよび/またはイベントのシーケンスに分類ラベルを割り当てる方法と装置を意味する。検出器は、「存在」または「不存在」の分類ラベルを、各特徴ベクトル、イベントおよび/またはイベントのシーケンスに割り当てる分類器である。
弱い分類器とは、50%以上の確立で実行する決定関数である。アンサンブル分類器は、多数の弱い分類器の結果を結合することによって形成される。ブースティングとは、アンサンブルの決定が、何れの弱い分類器による決定より良好となるように、弱い分類器を選択しかつ重みづけすることによって、アンサンブル分類器を自動的に構築する公知の方法である。選択は、弱い分類器の相対的に多数の組から対話により各弱い分類器を評価し、かつラベルが付された訓練例の重み付け分布に最善のパフォーマンスを有するものを選択することによって、なされる。この選択された弱い分類器はアンサンブルに追加され、かつその決定には、その誤り率に基づいた重みが割り当てられる。次いで、この分布重みは、アンサンブルによってなされたエラーを強調するように調整され、そして次の反復処理が開始される。正しく分類されなかった例が、分布内で強調されるので、アンサンブルのエラーを訂正する傾向を持つ弱い分類器が、続くステップで追加され、そしてアンサンブル全体の決定が改善される。
ブースティングは、良好な一般化特性を有する分類器を生成するために示された。この弱い分類器は、それらのパフォーマンスが50%以上の確立で行われる限り、いかなる形も取ることができる。
時間的パターンの分類化を実行する1つの方法は、多数の固定間隔で特徴軌跡をサンプル化し、かつ時間−特徴ポイントの全てを個々の特徴として示すことである。典型的に、固定数の時間−特徴ポイントが、分類化のために使われる。固定数の時間−特徴ポイントを用いて、1つの例の情報と他の例のそれとの間の対応が、特徴ベクトルの定義によって確立される。
本発明の好ましい実施態様では、異なるアプローチが、用いられる。特徴軌跡を均等にサンプリングすることが、サンプル間に発生する詳細を見落すことがあり、かつ均等なサンプリングが、ほとんど識別出来ない情報を含むサンプルを多く生成することから、本発明では、これに変えて、イベントに対する特徴軌跡をサンプル化する。イベントとは、重要な情報に焦点が当てられる軌跡内のピークである。イベント・ベースの抽出は、信号をまばらに表す。このアプローチでは、画像処理のような、他のコンテキスト内で典型的に使用される弱い分類器を規定する方法を修正する必要がある。何故ならば、所定の分類の例が、所定のタイプの、ゼロ、1個または2個以上のイベントを有する可能性があるからである。それ故、1つの例の情報と他の例の情報との間の対応を確立する方法が必要である。
特徴値、イベントおよびイベントのパターンは、検出器の目標分類に合う証拠を提供することができるか、またはそれに合わない証拠を提供することもある。イベントのタイプとイベント間の時間的関係は、目標分類の検出に有効な証拠またはそれに反する証拠の有意な部分を示す。残念なことに、異なる例における同じ発語のイベント・パターンの間に正確な相関関係は、発生しない。さらにまた、ノイズが、偽のまたは失われたイベントを発生させる原因となる場合があり、そして音声速度が、イベント・シーケンスにおいて時間的変動性を発生させる原因となる場合がある。通常、機械学習技術は、固定長特徴ベクトルを利用するように設計されている。固定長特徴ベクトルを用いて、正および負の各訓練例は、常に、各特徴ごとに値を有し、かつ各例間の特徴値に対応するものが、特徴ベクトルと同じインデックスが付された位置に見出される。固定長特徴ベクトルの値と異なり、イベントおよびイベントのパターンは、存在する場合もあるし存在しない場合もあり、かつ、互いにいくらか異なる時間的関係を持つばあいがある。このことは、1つの例からのどのイベントが、他の例のイベントに対応するかを決定することを困難にする。
ブーストされたアンサンブル学習者に対し弱い検出器を作製するために、時間的情報を利用することができるように、本発明は、例の間のイベンのおよびイベントのパターンの対応を決定することができる方法を規定する。
本発明の好ましい実施態様の場合、時間的起点は、確かな種類のイベントに関係していて、かつ全ての例の時間的起点は整列配置されている。音声の確実なアスペクトを示すイベントの時間的変動性は、時間的起点に対して規定される間隔によって決まる。所定の間隔に対し、(確かな種類の)イベントが、正の分類と負の分類に対する間隔内に入る整合性に違いがある場合、この違いを、弱い検出器を作製するために利用することができる。本発明の幾つかの実施態様では、例は、それらの音節核イベントの位置に基づいて整列配置される。本発明のいくつかの実施態様では、2組以上のイベントは、各組の中のイベントの1つに対して整列配置される。
イベントに関連した肯定情報に基づいて弱い検出器を使用可能とするためには、弱い検出器を規定する間隔は、大多数の正の例にはイベントを含まなければならず、かつ大多数の負の例にはイベントを含んではならない。この種の間隔は、大多数の正の例からイベントを含む全ての間隔を評価することによって、系統的に決定することができる。先ず、特定の共通イベントに基づく整列配置によって、例に、一般の時間的対応が持ち込まれる。オプションとして、全体の持続時間が異なる例を、共通の長さを有するように拡大・縮小(scale)させることができる。先ず、異なるセンサ(例えば、周波数帯センサ)からのイベントを2次元空間に置き、かつイベントの重み付け数の累算された合計を各イベントの上と左に記録することにより、整合性がとれた間隔を、例の全てに対して、効率的に発見することができる。これにより、いかなる矩形の間隔内のイベントの数も、累算された重み付けカウントにおける単純な違いによって決定することができる。イベントを含む各間隔に基づいて大多数の例に対し弱い検出器が評価され、そして現在の重みづけされた分布に対し最善の検出器が保持される。この複合検出器は、完全な訓練集合により評価され、そして分布重みが、発生したエラーに対して調整される。
この検出器の性能が訓練サンプルに対し完全となるまで、または、繰返しの最大数に達するまで、弱い分類器が、上記の方法に従って追加される。
図1は、自動音声認識エンジンの処理モジュール用の重み付け分類器の構成を構築するワークフロー100の一例を示す。本発明の好ましい本実施態様の場合、図9に関連して後述されるように、重み付け分類化体系が、自動音声認識エンジンの分類化モジュールに使われる。図1のワークフロー100は、複数の音声信号を訓練集合として格納し101、次いでイベント・パターンを訓練集合から抽出することによって開始される102。ここで、当該イベント・パターンは、音声信号の特性アスペクトを備える。次に、マッチング・イベント・パターンを有する音声信号のサンプルが、アクセスされ103、そして、音声信号内でイベントが発生した時間的位置に基づいて整列配置される104。各信号は、次いでオプションとして、共通の持続時間に拡大・縮小される105。
一旦、この抽出された信号が、マッチング・イベント位置により共通の持続時間に拡大・縮小されると、複数の弱い検出器が、信号に適用され、そして各弱い分類器の効率が、イベントを検出するその能力についてテストされる106。測定された効率に基づいて、弱い分類器は、高い係数を受信した際には良好に実行し、かつ低い係数を受信した際には十分に実行しないように、重みづけされる107。
次に、この重み付けが、効率の既定の閾値に基づいて、訓練集合内のイベントを適切に認識するかどうかを決定するために、この重み付け方式の効率が、テストされる108。このワークフローは、この重み付けがイベントを適切に認識しているか否かについて、問合せを行う109。この重み付け方式が適切に実行されると、ワークフロー100は、重み付け方式および端部を格納する110。一方、この重み付け方式が適切に実行されない場合、弱い分類器が、弱い分類器の前に適用されたグループに追加され111、かつ効率の閾値レベルが満たされるまで、ワークフローが、繰り返される。
異なる例での所定の発語のイベント・パターンには、いくつかの類似性がある。しかしながら、イベントの正確な対応は、音声のいかなる2つの例の間にも発生しない。異なる例からのイベントに、音節中心に対してなされるような、共通の時間基準が与えられると、異なる例からの所定の発語の対応するイベントが、時間−センサ平面の領域内で発生するであろう。音声は大きく変化し、かつ知覚に最も役立つ情報は、周波数、振幅、時間および時間スケールについて、不均一に分布する。従って、特定の知覚情報に貢献するイベントを含む時間−センサ平面の領域を特定することは、単一の一定スケールまたは形状を使用して、効率的に行うことはできない。しかも、関連した対応するイベントの補正を含むかもしれない領域の可能性がある位置、形状および尺度全てを、完全に、評価することの計算は実行不可能かもしれない。従って、音声知覚に役立つ、対応するイベントの領域を自動的に識別するプロセスが、規定される。
先ず、複数の正の訓練例からのイベントが、音節中心のような、共通の時間基準に対して作られ、そしてこのイベントが時間−軌跡平面に投影される。オプションとして、投影の前に、パターンを、それらの持続時間が1に等しくなるように、拡大・縮小することもできる。大多数の正の例からのイベントを含む時間−軌跡平面の領域が、対応するイベントのポテンシャル・クラスタとして保持される。これらの領域のリストが、作成され、そして弱い検出器を作製する全ての次のステップのために使用される。
図2は、本発明のいくつかの実施態様のイベント・パターンを含む複数の音声信号の領域を自動的に識別するためのワークフロー200の例を示す。ワークフロー200は、共通の時間軸に対して音声信号の訓練集合からの一群の音声信号を整列配置することにより開始される201。次に、ワークフロー200は、オプションとして、グループ内の個々の音声信号の持続時間を共通の時間ユニット持続時間に拡大・縮小し202、そして音声信号の音節中心および音声信号のイベント中心を共通の時間軸に投影する203。最後に、音節中心およびイベント中心を高密度で有する時間軸上の領域は、イベント・パターンを含む領域として識別される204。
イベントを高密度に有する領域を識別することを開示した技術に加えて、本発明は、イベント統合化マッピング、例密度制約のアプリケーション、冗長な領域の拒絶およびこれらの組み合わせを含むがこれらに限定されない、頑強な弱い検出器をもたらすことにはなりそうにない領域を拒絶するために使用される、いくつかの技術も含む。
イベント統合化マッピング
本発明のいくつかの実施態様では、イベント統合化マッピングのプロセスは、有用な弱い検出器をもたらすことになりそうにない領域を拒絶するために用いられる。
矩形状領域の上のピクセル強度値の合計の迅速な計算を可能にする画像処理の分野で知られている技術は、領域のイベント・カウントに基づいて実行不可能な領域を迅速に除去することを可能にするように変更される。本来の画像処理技術の場合、第一段階は、マップの各セルがそのセルの角および起点での対角線の反対側の角によって規定される矩形状領域におけるピクセル値の合計に対応する「総和マップ」を計算することである。この種の総和マップが計算されると、画像のいかなる矩形の小領域のピクセルの合計も、2つの減算および1つの加算演算によって決定することができる。「総和マップ」テクニックは、時間−軌跡平面に重畳されたグリッドの各グリッド・セル内のイベントのカウントによりピクセル強度値を置き換えることによって、特定された数より多くの数の例からの証拠を含むことができない領域を迅速に消去するように適合化される。グリッド・セル・イベント・カウントの総和マップが計算されるときに、その時のいかなる矩形状領域のイベントの数も、2つの減算および1つの加算演算のみで、判定することが出来る。領域のイベントの数を知ることは、領域の例の数を知ることと等価ではないが、それは上限を確立する。従って、必要数の例以上のイベントのカウントを有しない領域は、何れも、おそらく必要数の例を含むことはできない。
図3A〜3Cは、本発明のいくつかの実施態様のイベントに基づく総和マップの構造を示す。図3Aには、時間−軌跡平面のイベントのパターンが、表されている。図3Bにおいては、上書きされたグリッドの範囲内で発生するイベントのカウントが、決定される。図3Cには、各セルが、角に起点を有しかつ対角線の反対側の角としてセルを有する、矩形状領域のカウントの合計を含む、総和マップが、示されている。図3Cの中心の4つのセルのイベントの数を決定するためには、問題の領域の右上セルの値(この場合“7”)から、この領域に含まれていない下のセルの値(この場合“4”)と同様に、この領域に含まれていない左のセルの値(この場合“3”)が減算され、そして2つの減算された領域の交差部におけるセルの値(この場合“2”)が、加算される。この結果が、領域内のイベントの数となり、この場合、“2”(7 - 3 - 4 + 2 = 2)である。いかなるサイズまたは形状の領域のイベント・カウントを決定するための計算コストも、同じである。
イベント密度の制約
本発明のいくつかの他の実施態様の場合、イベント密度制約のアプリケーションが、有用な弱い検出器をもたらしそうにない領域を排除するために用いられる。例えば、特定量以下のイベント密度を有する領域を排除するために、オプションとして、最小の密度制約を適用させることができる。
冗長な領域の排除
本発明のいくつかの他の実施態様の場合、結果として有用な弱い検出器をもたらしそうにない冗長な領域は、排除される。他の領域を含むが、含まれている領域内に含まれるイベント以上の更なる正のイベントを追加しない領域は、領域のリストには追加されない。
図2を再度参照すると、一旦これらの領域が識別されると、これらは、弱い検出器を生成するために用いられる制約を形成する。弱い検出器は、所定の例が、領域内にイベントを有するかどうかを決定するために単純なテストを含むことができるし、また、領域内にイベントを有する正の例の特徴値の範囲に基づいて追加制約を含むように拡張させることもできる。
音声認識に基づくイベント・シーケンス
イベントのシーケンスは、一般に、自動音声認識では、シーケンスを構成する個々のイベントより強力な弁別手段となる。本発明のいくつかの実施態様は、個々のイベントを検出する代わりに、またはそれに加えて、イベントの検出イベント・シーケンスを含む。
本発明のいくつかの実施態様の場合、イベントのシーケンスは、時間的センサ空間内の(おそらく、縮尺されている)間隔を座標として使用して、ハイパ空間内に位置づけされている。この概念を理解するために、第二のイベントが、2時間単位後に第一のイベントに続き、かつ第三のイベントが、4時間単位後に第二のイベントに続く、1個のセンサによって生成される3つのイベントのシーケンスを考察しよう。これらの3つのイベントの時間シーケンスは、座標(2、4)によって示される。時間的シーケンスの類似性は、投影されたポイント間の距離関数を計算することにより判断することができる。例えば、ユークリッド距離を、この目的のために使うことができる。どのシーケンスが、これらの例に一貫して現れる(現れない)かを判断するために、上述したように、正の例と関連する可能性のあるシーケンスを表す一組の標準ポイントを形成するために、正の例からのイベントのシーケンスが、投影される。標準ポイントが、第一の例のポイントの各々の座標に基づいて規定され、そして、各標準ポイントに関連するポイントが、1に設定される。正のイベントの残りの部分から、イベント・シーケンスが、第一の例に類似した態様でそれらの間隔を座標として使用して、ハイパ空間ポイントに投影される。各シーケンス・ポイントが発生すると、それは最も近い標準ポイントに関連づけられる。シーケンス・ポイントは、その標準ポイントに関連したリストに追加され、そして標準ポイントのカウントは、1にインクリメントされる。次いで、標準ポイント座標が、それが関連する例のポイントの座標の中央値になるように調整される。全ての例が処理されると、高いカウントを有する標準ポイントが、この分類と非常に関連が強いイベント・シーケンスを示す。標準ポイントの座標は、このシーケンスの第一のイベントについての領域の相対的中心を示す。領域のサイズおよび形状は、関連する例のシーケンスの変化によって測定することができる。本発明のいくつかの実施態様の場合、類似のシーケンスを結合することは、望ましいかもしれない。結合の候補は、投影されたハイパ空間内のそれらの距離によって、容易に決定される。
本発明のいくつかの実施態様の場合、このプロセスは、目標分類についてしばしば同時に起こるのが見られるイベントのシーケンスを検出する領域の組合せを捜し出す。弱い検出器としてこれらの組合せを使用することは、目標分類が存在しないときの、頻度がより小さい共起に依存する。
本願明細書において記述されるプロセスは、正の分類の肯定的な証拠を提供するイベント・シーケンスを発見するプロセスに関する。否定的な証拠も、価値がある。否定的な証拠を発見するために、上記のプロセスが繰り返されるが、今回は、負の例により繰り返される。抑制性の弱い検出器は、ある頻度で負の例において繰り返されるが、正の例では決して、または、めったに発生しないシーケンスに基づいて形成される。
本発明のいくつかの実施態様の場合、弱い検出器のアンサンブルは、アンバランスな訓練集合を扱う、または結果としてより簡単な検出器をもたらす、適応ブースティング・アルゴリズムを用いて、形成することができる。
ブーストされたアンサンブルの単純化による性能改善
本発明のいくつかの実施態様の場合、適応性ブースティング・アルゴリズムが、認識パフォーマンスを増加させるために用いられる。適応性ブースティング・アルゴリズムは、弱い分類器を順次コールし、これらの分類器をテストし、かつテスト結果にあうように重みづけ係数を調整することを、反復するプロセスに関する。順応性ブースティング・アルゴリズムは、先読みおよび以前の重みの修正なしで繰返しごとに1つの弱い検出器を追加することによって、アンサンブルを作成する。その結果、最終的なアンサンブルは、必要以上に複雑になる可能性がある。
本発明のいくつかの実施態様は、適応性ブースティング・アルゴリズムによって作成されるアンサンブルの複雑さを減らすためのプロセスを含む。これらの実施態様によると、検出器が、訓練集合を完全に処理したか、またはラウンドの最大数に達したあと、簡略化プロセスが実行される。複合検出器のパフォーマンスは、各バージョンが、取り外されたその弱い検出器とは異なる検出器を有するそれ自体のバージョンと反復して比較される。もし、弱い検出器の何れかを取り除くことが、エラー率を改善するのであれば、最大の改良をもたらす除去が実行される。逆に、もし、弱い検出器の何れを取り除いても、エラー率が増加しないのであれば、そのような弱い検出器は取り外される。取り外す弱い検出器が無くなるまで、このプロセスは続く。
本発明のいくつかの他の実施態様では、新規な検出器が追加されると、アンサンブルの重みの全てを更新する線形プログラミング・ブースティング・アルゴリズムが、アンサンブル構造のために使われる。
選択されるキューの検出
人間の音声知覚は、音声信号のいくつかのアスペクトが損なわれる時には、別に選択されるキューに依存することができる。同様に、選択されるキューは、音声サンプルにおいて見いだすこともでき、かつ自動音声認識システムで検出することもできる。
本発明のいくつかの実施態様の場合、選択されるキューに基づく検出器は、アンサンブル検出器を作製するために前述のステップを実行し、次いで、前に作製された検出器により用いられる弱い検出器が、次の検出器を構成するために用いることができない制約で、次の検出器を製造するプロセスを、繰り返すことによって、開発される。これは、検出器の独立性を最大にする。多数の選択されるキュー検出器は、次いで、この種の変化に対して許容性がある検出器を製造するアンサンブルとして結合させることができる。
アンサンブルのカスケーディング検出器への自動変換
アンサンブル全体の決定は、個々の検出器の重み付けされた総和である。アンサンブルの標準形では、弱い分類器の全てが、音声の決定をするために評価されなければならない。本発明のいくつかの実施態様の場合、検出器のアンサンブルは、評価されなければならない弱い検出器の数を、平均で、減らすカスケーディング検出器に変換される。弱い検出器を最も強いものから最も弱いものに順序づけ、そして、各段階の合計と最終結果の関係を分析することにより、早期(early out)閾値を確立させて、アンサンブルを検出器カスケードに変換することができる。
さまざまなイベントの相対的タイミングは、音声知覚にとって重要な情報を含む。この種の情報は、所定のワード、音節、音素などの多数の例からの対応するイベントの持続的なパターンを調べることによって、利用することができる。この分析は、音声のあらゆるアスペクトの変動性と、異なる知覚のキューが異なる時間スケールで発生するという事実とから、有意義である。
しかしながら、本願明細書において説明されるように、大部分の機械学習分類化技術は、同種の情報の固定長ベクトルに基づいて、決定を学ぶように設計されている。イベント・ベースの抽出により、イベントは、信号条件に従って発生する。これは、所定の例が、同じ音節、ワード、音素等の他の例より多くまたはより少ないイベントを有することができることを意味する。抽出に基づくイベントを使用して検出器を有効に訓練するために、音節、ワード、音素等の一例からのどのイベントが、他の例の同じ知覚のサポートに対応するかを発見することが必要である。この明細書の後半に、これらの対応するイベントの境界の位置を自動的に決める方法が、記載されている。
関連支持情報及び違反情報を発見するために訓練例を自動的に使用し、かつ検出決定をするために重み付けを決定する方法および技術
非常にアンバランスな訓練集合のためのイベント・ベースのカスケード
本発明のいくつかの実施態様において、イベントに基づく検出器カスケードを自動的に作成する方法は、非常にアンバランスな訓練集合からの学習またはまれなオブジェクトを検出することを学習することの問題を解決する。結果として得られる検出器カスケードは、初期段階において大多数の負の例を消去することによって、まれなオブジェクトを効率的に検出する。
本発明のいくつかの実施態様の場合、イベントに基づいて検出器カスケードを作成することは、めったに発生しない特定のワードのための検出器を作成することに関係する。珍しいワードを検出することは、本発明および他の検出アプリケーションが、この開示から利益を得る当業者には直ちに明らかとなるであろうことを示すためのみに用いられる。例えば、いくつかの他の技術は、下位ワード音声分類(例えば、特定の音節、特定の音素、広い音分節類および広い音声分類)の検出を含む。加えて、本発明は、音声認識(例えば、工業プロセス・モニタリング、自動車システム故障検出および医療機器のモニタリング)に関係しない多くのアプリケーションにも適用することができる。
わずかな数の正の例と多数の負の例からなる非常にアンバランスな訓練集合は、総エラー回数を最小化することを試みる機械学習技術では、良好に扱えない。正の例がめったに(例えば、100,000,000分の1の率)発生しないときに、この発生を検出しない検出器のエラー率は、極めて低い(エラー率=0.00000001)。しかしながら、この検出器が決して誤った検出をしないという理由から、例え、この検出器のエラー率が低くても、これは基本的には役立たない。
複数のオブジェクトが、ある分類のメンバであるならば、それらのオブジェクトは、全て、その値が確かな範囲にある特性を共有する。従って、その値がこれらの範囲の外にある特性を有するオブジェクトは、その分類には属さないので、全て排除することができる。しかしながら、その値が完全に範囲内にない特性を有するオブジェクトも、その値が分類に関連した範囲にあるいくつかの特性を有することができる。従って、あるオブジェクトが範囲外にある特徴値を一つでも有していれば、そのオブジェクトが、その分類のメンバであることを拒否することは可能である。実際には、本発明のいくつかの実施態様では、クラスのメンバであることを確認するためには、一般に、全ての関連する特徴値が、この分類に合った範囲内にあることを必要とする。
音声認識に適用されると、イベント・ベースの特徴抽出は、時間的情報を含む音声分類の認識に最も関連した情報を保存するまばらな(sparse)表示を作成する。抽出することができるタイプのイベントの一例は、確かな特徴軌跡の包絡線のピークの発生である。特徴軌跡包絡線は、例えば、音声信号が確かな帯域フィルタ中を通過するときに、生成される出力について計算することができる。この種の多数の軌跡が計算される際、イベントは、時間−軌跡空間内に分散される。語類識別に有用である全ての証拠は、時間−軌跡空間内のイベントに関連している。イベント時間が、音節中心のような共通時間基準に対してなされるときには、同じ分類の複数の例からのイベントが、時間−軌跡空間内にプロットされ、関連したイベントのクラスタを含む領域が、形成される。
これらのクラスタを含む領域の位置、形状およびスケールは、分類に特有である。これらの領域のいくつかは、分類の全ての正の例が領域に入るであろうイベントと非常に強く関連するであろう。上述したように、この種の領域内にイベントを有しないオブジェクトは、分類のメンバであるとして拒絶することができる。多数の機能値を、各イベントに関連させてもよい。領域内の正の分類の例からのイベントに関連する特徴の各々に対する値の範囲は、空間の追加次元内に間隔を形成する。オブジェクトは、分類メンバとして受け入れられるべき関連した特徴次元ごとの範囲内の関連する値を有するイベントを有していなければならない。分類のオブジェクトの1つの非分類オブジェクトと全てを区別する特性は、分類のオブジェクトの全てと他の非分類オブジェクトを区別する特性と異なっていてもよい。
本発明のいくつかの実施態様によると、これらの関連した考慮点は、検出器を作製するために、自動的に発見させることができる。図4は、本発明のいくつかの実施態様による検出器カスケードを作成するワークフロー400を示す。
ワークフロー400は、ゼロ検出器段階を含むように検出器カスケードを初期化することから始まる401。次に、全ての正の訓練例からのイベントを含む時間−軌跡空間の全ての領域が、識別され、そして識別された各領域内にイベントを有する負の例の数が計算される402。
次に、全ての正の訓練例からのイベントを含む各領域に対し、領域の定義を、オプションとして、追加特徴次元を含むように拡大させることができる403。いかなる追加次元に対する領域の境界も、それらが正の例のあらゆる値を含むように選択される。次に、そのように確立された境界の全ての範囲内に特徴値を含まない負の例は、拒絶され、したがって、この領域に含まれている負の例のカウントは、減少する404。追加次元は(存在する場合には)、所定の次元数に対し、含まれている負の例のカウントを最小にするように選ばれる。これは、異なる領域に使用される特徴次元が、最良のものを識別しかつ領域ごとに変化する特徴次元であることを意味する。
次に、最小の負の訓練例からのイベントを含むリスト内の領域が、検出器カスケード・段階として選択される405。本発明のいくつかの実施態様の場合、検出器段階の最大数が、予め決められている。更に、選択された領域内のイベントのない負の例は、更なる考慮から外される406。
次に、ワークフローは、どれくらい負の例が残っているかについての問合せをする407。負の例が残っていない場合、訓練例を完全に実行する検出器カスケードが作成され;ワークフロー400は、検出器に出力して408、停止する。
以前の繰返しの場合よりも存在する負の例が多い場合、更に改善をすることはできない。この場合、ワークフロー400は、追加された段階を取り除き、不完全な検出器を書き直し409、そして停止する。
逆にいえば、以前の繰返しの場合よりも負の例が少ない場合には、ワークフローは、検出器段階の最大数が追加されているかどうか問い合わせる410。検出器段階の最大数がカスケードに追加されている場合、ワークフローは不完全な検出器を出力して411、停止する400。
負の例が残っていてかつ検出器段階の最大数に達していなかった場合、ワークフロー400は、ステップに戻ることによって追加段階を追加することによって検出器カスケードを造ることを繰り返しかつ続ける402。
検出器カスケードが作成されたあと、それらは、以下の方法に従って使われる。先ず、イベントは、それらが訓練プロセスの間にいたので、検出され、かつ共通参照が与えられる。次に、カスケードの第一段階で始まって、リスト内のイベントが、何れのイベントが領域内にあるかどうかを決定するために評価される。領域内にイベントがあると判明されると、リスト内のイベントは、少なくとも一つのイベントが、この段階によって使用される領域内にあるべきであると判明する限り、次の段階によって評価される。
次に、オブジェクトが、カスケードの段階の全ての領域内でイベントを有する場合、オブジェクトは分類のメンバとして検出される。最後に、オブジェクトがどの段階においてもイベントを有しない場合、それは、その段階により分類のメンバとして拒絶され、そしてこれ以上の処理は行われない。
これらの実施態様の場合、軸が整列配置された(ハイパ)矩形領域が、利用された。本発明のいくつかの他の実施態様の場合、(ハイパ)球体、または(ハイパ)楕円または異なる領域または異なる次元の境界形状の混合物のような、他の境界構成が、使われる。さらにまた、軸が整列配置されていない(ハイパ)矩形状領域を使用することもできる。この観察は、全ての弱い検出器の参照にあてはまる。
図5-6Cは、本発明のいくつかの実施態様の時間−機能値平面上の訓練例イベントの、投影のさまざまな例を示す。図5は、全ての正の例からのイベントを含む領域の例を示す。図6Aは、全ての正の例からのイベントを含む領域の他の例を示す。図6Bは、全ての正の例からのイベントを含む軸が整列配置されていない領域を示す。図6Cは、全ての正の例からのイベントを含む非矩形状領域の例を示す。
幾何学的なマージンを最大にすることによる一般化の改善
時間−軌跡平面の領域を識別するために使用される方法は、領域に含まれる正の訓練例イベント周辺と密接してフィットする境界と言う結果になる。検出器として使われるときに、この種の密接してフィットした境界は、領域の外側の境界で訓練例イベントとわずかしか異ならない値を有する場合を拒絶する。境界が、追加される負の例イベントを囲まずに可能な限り拡大される場合、検出器は、この領域内の正の訓練例の何れかの値の領域と同程度であるがその領域以上の値を有する場合を検出することが出来るであろう。しかしながら、これらの最大限にゆるい境界は、境界を制限する負の例イベントの値とわずかしか異ならない値を有する場合を誤って検出する原因になり得る。
一般化を、検出された正の例イベントと拒絶された負の例イベントとの間の幾何学的なマージンを最大にするために、領域の境界の各々を調整することによって、改善することができる。最大の幾何学的なマージン境界は、堅い最小限の境界とゆるい最大限の境界との中間である。幾何学的なマージンを最大にすることは、訓練例において見られていない場合への一般化のために最善のチャンスを可能にする。図7は、最大の幾何学的な境界の、領域の一投影内の最大限に堅い境界と最大限にゆるい境界との関係を示す。
知覚を拘束する信頼性が高い一般のカテゴリのシーケンスの使用
典型的自動音声認識システムは、詳細(例えば、音素または下位音素分類)を認識することにより、かつより高いレベル・パターン(例えば、ワード)を決定するためにそれらの詳細を使用することによって、機能する。これらの低レベルの詳細は、確定的に区別されない;その代わりに、確率評価は、特徴値の観察ベクトルを与えられる分類の各々に対してなされる。隠れたマルコフ・モデル(HMM)は、意図された音声音の最有望なシーケンスを計算するために、推移確率とともに分類確率評価を使用する。「詳細から作り上げる(building up from the details)」アプローチは普及していてかつかなり効果的であるが、これは、人間性能に対抗出来る自動音声認識システムにはならない。このアプローチの欠点の1つは、詳細な分類化の信頼性が高くなく、かつより高いレベルのコンテクストを適用することによって詳細な分類化を固定しなければならないという事実である。さらにまた、詳細な分類化は、コンテクストに大きく依存するが、音声分類のアイデンティティを決定するときには、このコンテクストは、知られていない。加えて、このコンテクストは、正確に表示されず、またはその信頼性も低い。さらに、めったに発生しないコンテクストの詳細を評価するための正確な統計は、困難である。音響の条件における変化またはモデルの統計的分布に表示されなかった音声の態様は、統計評価を非常に不正確にする原因となる。最後に、選択される解決法のサーチ領域が大きいことは、計算機処理を困難にさせる。典型的に、検索は、最有望な“n”だけを保持するような任意の手段によって減少させる。本発明の目的は、共通のアプローチの固有の課題および限界を解決することである。
一般に、幅広いカテゴリへの分類化は、詳細なカテゴリへの分類化より確実に実行させることができる。例えば、魚と鳥を区別することは、鳥または魚の特定型式を決定することよりより確実に行うことができる。同様に、音声認識の場合でも、広いカテゴリ化は、詳細なカテゴリ化よりより正確に実行させることができる。
加えて、人間の知覚は、広いカテゴリ化に主に作用し、そして、それらに焦点を当てることに理由がある場合のみ、詳細を考察するようである。流暢な連続する音声においては、ワードは、辞書が言うようには、めったに発声されないが、これは、知覚をサポートする充分な証拠が存在する限り、人間のリスナーにはほとんど問題にはならない。実際、音声のアスペクトが、通常、音声の予測されるタイミングに従う予想される信頼性が高い広いカテゴリに納まる限り、人間のリスナーは置換えおよび省略に耐えることができる。
質問"Why you cryin?"とその応答"See hit me!"の例を考察する。この質問では、"are"というワードを省略され、かつ音節'ing'が'in'で置換されている。これらの変更は、いずれも、人間の知覚に大きな影響を与えない。同様に、例え、必要な"sh"の音が、似たような音"s"に変わっていたとしても、応答はたぶん"She hit me!"であると考えられるであろう。これらの例の細部の置換えおよび省略は、知覚にほとんど影響を与えず、かつおそらく人間には気づかれないであろう。幅広い音節カテゴリのシーケンスのパターンは、多くの場合、詳細な分類の特定の識別を必要とせずに明白な知覚に導くインデックス知覚ユニットに対し充分なように見える。
本発明は、以下の観察に基づく:
・大いに、広い音声カテゴリのシーケンス・パターンは、可能な知覚選択肢を制限することができる。知覚選択肢は、知覚クラスタを形成する。
・広い音声カテゴリのシーケンスは、それ自身、知覚選択肢のリストに直接アクセスするために用いることができる。
・更なる計算は、知覚されたクラスタの中の残留する選択物の間の曖昧さをなくす必要がある場合のみ行われる。
・クラスタ内の選択肢が訓練時に知られているので、知覚されたクラスタごとに、曖昧性除去のプロセスは、最大の信頼性または最小の計算の労力に対し最適化することができる。従って、いかなる状況においても最も信頼性が高い差異を、適用することができる。
これは、さまざまなソースからの、ワード統計、韻律、文法等を含む情報を適用することができることを意味する。
・選択される知覚の間の曖昧さをなくす際には、選択される音声およびワード・コンテクストは知られている。このことにより、区別する特徴の計算が、関連しかつ最も信頼性が高い特徴に制限される。さらに、コンテクストに特有の検出器および分類器を、より高い信頼性のために用いることができる。
これらの実施態様によると、広いカテゴリのシーケンス・パターンが、完全に知覚の曖昧さをなくさない場合のみ、細部へのアピールが必要となる。それでも、他の詳細な識別より、より信頼できることが知られている詳細な識別を優先して使用することは、可能である。例えば、2つの位置での異なる音素によって互いに識別可能である2つの可能な知覚にインデックスされている広い音節カテゴリのシーケンス・パターンを考察しよう。音素対の1つが他のものより確実に識別されるべきであることが知られている場合、この識別は、より信頼性が高い分類化になされるであろう。
同様に、コンテクストは、知覚に対して非常に重要である。前述の例の応答が"cuz see hit me!"であった場合、それは、"cause, he hit me!"と認識されるかもしれない。分節´see´の細部は変化しなかったが、知覚は、その分節の細部には依存しない。
本発明のいくつかの実施態様では、一意のアルゴリズムが、音声を知覚されたクラスタに分類し、かつ入手可能な情報に最適にアクセスすることによって、知覚選択肢間の曖昧さをなくすために用いられる。これらの実施態様によると、各時間ステップ(すなわち、音声がある期間内に発生しない場合、他の音節パターンまたはヌル音節の到着)で、アルゴリズムは、音声を、(広い音節カテゴリのような)広いが信頼性の高いパターンに分類する。
次に、各広いカテゴリは、カテゴリ番号に関連している。類似のカテゴリには、優先して、同様の番号が割り当てられる。次に、アルゴリズムは、状態空間の座標としてのカテゴリ番号を用いて広いカテゴリのシーケンスを知覚パターンにマップする。状態空間の各ポイントは、知覚されたクラスタおよび曖昧性除去戦略に関連している。訓練の間に確立される曖昧性除去戦略は、知覚されたクラスタがアクセスされるときに、実行される一連のステップである。曖昧性除去戦略の目的は、入手可能な情報に最適にアクセスするために選択される知覚の間の曖昧さをなくすことである。曖昧性除去戦略は、異なる順序と異なる組合せで適用されるさまざまな曖昧性除去技術のコンピュータの要件および成功を評価することによって決定される。戦略を適用することの最後の結果は、知覚選択肢の小数(好ましくは1)への減少である。
選択肢が1個の知覚に減らされると、知覚は実行される。音声−テキスト・システムでは、これは、知覚に対応するワードを出力することに関わる。音声制御システムでは、知覚に関連したアクションが、実行される。
選択肢が1個の知覚に減らされず、かつ最大待ち時間閾値に、達した場合、最も見込みのある知覚が、知覚として受け入れられ、かつそれにしたがったアクションが、生成される。最大待ち時間閾値に達しなかった場合、残りの知覚選択肢は、保持され、そしてこれらの時間ステップでの知覚の曖昧性除去を援助し、かつこれらの時間ステップ内で利用可能な情報によって曖昧性をなくすために、次の時間ステップと相互に作用する。
自動音声認識エンジン
本発明の好ましい本実施態様では、本発明の全てのアスペクトを実行するための装置が、設けられている。本発明の好ましい本実施態様では、自動音声認識システムが、実時間テレビジョン字幕使用およびワード・スポッティング環境において用いられる。
図8Aは、広い音分節類の音節スケールでのイベント・ベースの抽出および認識を備える自動音声テキスト変換システム800への、自動音声の表示を示す。自動音声テキスト変換システム800への自動音声は、曖昧性除去に必要な場合のみ音素レベルの詳細を参照して、知覚単位のリストへのインデックスに広い音節を分類するシーケンスのパターンを、使用する。本発明の好ましい本実施態様では、自動音声テキスト変換システム800は、どの音素分類法を作るべきかを選択し、またはこれらの分類法または方法の信頼性に基づいて採用する曖昧性除去の他の方法を選択する。
自動音声テキスト変換システム800は、音響分析器802を含む。音響分析器は、入力音声信号801を受信して、当該入力信号801をデジタル化する。音響分析器802は、オプションとして、韻律分析器803と、そして、イベント抽出器804と結合される。本発明のいくつかの実施態様では、デジタル化された信号は、韻律分析機803によって処理され、これにより、話者の感情的な状態;その発言が、文、質問または命令であるか;反語;皮肉;強調;集中等を反映する、リズム、応力、イントネーションまたは他の韻律情報を含むがこれらに限定されない話者のさまざまな言語特性を抽出する。これらの実施態様によると、韻律情報およびディジタル化信号は、イベント抽出器804に送られる。
イベント抽出器804は、イベント・パターンを含む複数の音声信号において領域を自動的に識別しかつ音声認識のための当該イベントを抽出するための処理エンジンを備える。
本発明の好ましい本実施態様では、イベント抽出器804が、イベント認識および抽出のために前述したプロセスおよび方法を採用している。イベント抽出器804は、抽出された音声イベントを格納するための短期イベント・メモリ805に連結されている。短期イベント・メモリ805は、結果的に得られるテキスト・ストリームを出力するために、抽出されたイベントを使用するための複数のイベント−テキスト・ストリーム処理モジュールに連結されている。本発明の好ましい本実施態様では、イベント−テキスト・ストリーム処理モジュールは、音節核検出器806、音節カテゴリ化器807、音節シーケンス知覚インデクシング・モジュール808および下位音節細部カテゴリ化モジュール809を備える。イベント−テキスト・ストリーム処理モジュールは、そこに埋め込まれている、追加された韻律情報811を有するテキスト・ストリームを出力する。
図8Aに示される自動音声テキスト変換システム800は、自動音声認識のためかつそれを改善するために装置の一例を備える。自動音声認識のためかつそれを改善するためのこれらの方法およびプロセスを実行するために、いかなる数のシステム、構成、ハードウェアコンポーネント等を使用することができることは、当業者には、直ちに明らかであろう。
図8Bは、本発明のいくつかの実施態様による入力音声信号821を処理するための音声認識エンジン824を備える自動音声−テキスト変換システム820を示す。本発明の好ましい本実施態様では、音響分析器822は、入力音声信号821を受信しかつ当該入力音声信号821をデジタル化する。音響分析器822は、韻律分析器823と音声認識エンジン824に連結されている。本発明のいくつかの実施態様では、ディジタル化信号は韻律分析器823によって処理され、これにより前述した韻律情報が抽出される。
本発明の好ましい実施態様では、音声認識エンジン824は、さまざまな音声認識処理ステップを実行するための複数の処理モジュールを備える。図示されるように、音声認識処理エンジン824は、以下を備える:イベント抽出器825;パターンID 826;弱い領域排除器827;ブーストされたアンサンブル簡易化器828;イベント・シーケンス認識器829;選択されるキュー検出器830;カスケーディング検出器アンサンブル作成器831;音声一般化器832;そして、知覚クラスタ曖昧さ除去モジュール833。本願明細書においては特定の処理モジュールがリストされているが、いかなる音声認識ツール(現在知られているか、後に知られるかにかかわらず)も、音声認識エンジン824の処理モジュールとして実施させることができることは、当業者には、直ちに明らかであろう。
本発明のいくつかの実施態様において、イベント抽出器825は、音声認識エンジン824に使用される重みづけされた分類器の構成を構成するためのイベント・ベースの音声認識モジュールを備える。本発明のいくつかの実施態様では、パターン識別器826は、自動的に、イベント・パターンを含む複数の音声信号の領域を識別する。本発明のいくつかの実施態様では、弱い領域排除器827は、結果として頑強な弱い検出器になりそうにない領域を排除するために、いくつかの技術を採用した。本発明のいくつかの実施態様では、ブーストされたアンサンブル簡易化器828は、適応性ブーストするアルゴリズムによって作成される検出器アンサンブルの複雑さを減らす。本発明のいくつかの実施態様では、イベント・シーケンス認識器829は、個々のイベントを検出する代わりに、またはそれに加えてイベントのシーケンスを検出する。本発明のいくつかの実施態様では、選択されるキュー検出器830は、音声信号のアスペクトが損なわれる選択される音声キューを認識する。本発明のいくつかの実施態様では、カスケージング検出器アンサンブル作成器831は、検出器のアンサンブルを自動的に作成する。本発明のいくつかの実施態様において、音声一般化器832は、前述したように、幾何学的なマージンを最大にすることによって、一般化を改善する。本発明のいくつかの実施態様では、知覚クラスタ曖昧さ除去モジュール833は、前述したように、知覚クラスター化を使用して音声の曖昧さをなくす。本発明のこれらの実施態様によると、音声認識エンジン824は、音声データを出力する。
本発明のいくつかの実施態様では、認識された音声データが、1個以上データベース834に格納されていて、そこでは、1個以上のデータベース834がネットワーク835に連結されているのが好ましい。
本発明のいくつかの他の実施態様では、認識された音声データは、自動的に、音声をテキストに変換処理するために短期イベント・メモリ836に送られる。本発明のいくつかの実施態様では、短期イベント・メモリ836は、抽出されたイベントを使用して結果として得られるテキスト・ストリームを出力するために、複数のイベント−テキスト・ストリーム処理モジュールに結合される。本発明の好ましい本実施態様では、イベント−テキスト・ストリーム処理モジュールは、音節核検出器837、音節カテゴリ化器838、音節シーケンス知覚索引付けモジュール839、そして、下位音節細部カテゴリ化モジュール840を備える。イベント−テキスト・ストリーム処理モジュールは、そこに埋め込まれている追加韻律情報841を有するテキスト・ストリームを出力する。
本発明のいくつかの他の実施態様では、音声信号からイベント・データを抽出しかつそこにワードを配置する装置が、提供される。図8Cは、特定のワードのイベント・ベースの抽出および認識を備えるイベントの認識およびワード・スポッティングのためのシステム850を示す。自動音声−テキスト変換システム850は、入力音声信号851を受信するための音響分析器852を含む。音響分析器852は、オプションとして、韻律分析器853とイベント抽出器854に結合される。イベント抽出器854は、イベント・パターンを含む複数の音声信号の領域を自動的に識別し、かつワード・スポッティングのために当該イベントを抽出するための処理エンジンを備える。イベント抽出器854は、抽出された音声イベントを格納するための短期イベント・メモリ855に連結する。短期イベント・メモリ855は、複数のワード・スポッティング処理モジュールに連結される。本発明のいくつかの実施態様では、ワード・スポッティング処理モジュールは、音節核検出器856およびワード検出器857を備える。ワードが見つかると、ワード・スポッティング処理モジュールは1個以上のアクションを開始する。
第二の処理モジュール862は、スパイク状のニューラルネット分級機を具備えている。音声知覚に使用される情報は、周波数、振幅および時間で非一様に分布する。時間的パターンは、音声認識に非常に重要である。スパイクしている神経回路網はスパイクの時間的パターンの音声情報の符号化を可能にする、そして、ファジー記憶構造は、時間的変動性の許容度を可能にする。第三の処理モジュール863は、後述するように、1個以上タンデムの音声認識エンジンを備えている。
代替テキストに音声システム860は、入力音声信号867を分析しかつデジタル化するための音響分析器866も含む。デジタル化された音声信号は、3つの処理モジュール861、862または863の一つ以上によって処理され、かつその結果は、最もよく認識された結果を選択し869かつテキスト出力を配信する決定モジュールに供給される868。
本発明のいくつかの実施態様は、知覚的に重要な位置で音声信号を分節化することに関係する。これは、知覚的に関連したタイミングを抽出するのみならず、信号の分析を音声イベントに同期させる手段を提供し、この結果、上述したように、非同期の固定されたフレーム分析の問題の全てが回避される。
この方法は、先ず、人間の知覚の確かなアスペクトとそれらが検出しようとする音声現象に基づく複雑さが低いフィルタを使用してプレ分節化フィルタを実行する。これらのフィルタは、音声開始、終止、バースト、声門パルス、および他の有意な音声信号イベントを示す知覚パターンの位置を検出する。
プレ分節化イベント・フィルタリングは、ある特徴計算を同期させるために用いられる間隔を定義する。同期をとって抽出された特徴のパターンは、より長い時間スケールで特徴を作成し、かつ音韻境界、音節核等のようなさらにより高いレベルの知覚イベントを検出するために、更に、処理される。
図9は、本発明のいくつかの実施態様の音声信号の分節化の例を示す。図9の音声信号は、発言"Once"を含む。この信号は、波形を視聴するときに、視覚的に明らかであるように、発言のコースを通じて文字を数回を変更する。グラフの底で短い垂直マークによって示される分節化は、ワードの「声に出した」部分の間の声門パルス・イベントに対応する。
長い縦線は、様々な形の言音声音境界イベントに対応する。参照のために、分節ラベルは、分節の音声アイデンティティを示すグラフに配置された。音素間の移行の信号条件は、移行のタイプによって異なる。いくつかの境界では全エネルギが急激に変化し、他の境界では、スペクトル変化は、イベントに関連している。全体として、これらの多様なイベントは、特徴抽出を音声イベントと同期をとって実行させ、かつ知覚的に関連した分節化を提供することを可能にする。
本発明のいくつかの実施態様では、信号分節化は、音声信号に存在する知覚の相違に基づく。しばしば、音声知覚のために使用される情報は、時間的には一様に分布しない。人間の知覚は、刺激の変化に対する感度が高い。音声のようなにおいて時間的信号においては、有意な変化(すなわち、イベント)の時間位置は、信号の知覚器官のために提供する。イベントの相対的なタイミングと彼らの近所における刺激特性は、知覚情報の多くを符合化する。一般に、大きさの知覚は、非線形である。例えば、音の強さの知覚は、対数であり、通常、デシベルの単位で測定される。認識の広範囲に対して、刺激の弁別閾は、刺激の元のレベルと関係があることを実証することは可能である。しかしながら、これは、極端な場合には成立せず、かつ、刺激のレベルが、神経の活性化に対する最小レベルに達するまで、低い端では知覚されない。高い端で、一旦神経単位が飽和し始めると、刺激の更なる増加は、知覚されない。動作範囲において、刺激の多くのタイプに対して、知覚応答に対して必要とされる変化は、ウェーバーの法則: K = ΔI / Io;によって近似させることができ、ここで、Ioが元の刺激レベルであり、ΔIは刺激レベルの変化であり、かつ、Kは、弁別閾の閾値を既定する経験的に決定された定数である。
ウェーバーの法則式の右辺側は、コントラストとして認識することができる。本発明では、関連した特性の変化が、知覚の閾値を越えると、イベントが宣言される(すなわち、検出器が活性化される)。本発明では、知覚の変化は、ウェーバーの法則に関係がある知覚のコントラストの計算を使用して、計算される。
図10は、本発明のいくつかの実施態様の知覚の変化を計算するために使用される知覚のコントラスト関係式を示す。この式において、右辺の比率の分母は、標準のウェーバーの法則式と、2点で異なる:それが、対比されている値の合計を含む点と、それが、付加されたファクターεを含む点である。ファクターεは、超低レベルの刺激への知覚応答をより適切に模倣するために、超低レベルでの活性化を阻止する。これは、また、刺激が存在しないときの、ゼロによる割算を回避することによって数値的に公式を安定にする。
コントラスト値の合計を含めることは、超低および超高レベルの知覚のコントラスト応答を更に平坦化する。測定された知覚の特性(例えば、エネルギまたは周波数)ごとに、εおよび知覚の閾値の適切な値が、経験的に確立される。本発明のいくつかの実施態様では、複数の異質の知覚イベント検出器が、作製される。各検出器は、いくつかの特定の信号特性に基づいて、いくつかの特定の時間スケールについてかつ、それ自身の特定のεおよび知覚の閾値によって測定される。
本発明のイベント検出器は、さまざまなスケールで信号のさまざまなアスペクトに作動する。先ず、プレ分節化は、それは、爆発、閉止および声門パルスの時間的位置を検出する複雑さの低いフィルタによりエネルギ値を処理することによって実行される。特徴抽出が、次いで、プレ分節化イベントに対して実行される。追加フィルタおよび検出器が、高次特徴およびイベントを抽出するために同期をとって抽出された特徴に適用される。
付加された特徴抽出及び処理技術
区分化された循環待ち行列メモリ
イベント検出器のいくつかのコンポーネントは、さまざまな長さの分析ウィンドウを使用して計算されて、各々に関して特定の時間的関係において整列配置される特徴値の合計の比較に関わる。イベント検出器の計算の負担を最小化するために、これらの合計は、区分化された循環待ち行列メモリを使用して維持される。循環待ち行列は、新しい情報が、メモリ内の最も古い情報のインデックスであるIoでメモリに書き込まれる、先入先出方式(FIFO)メモリ構造である。メモリに新しい情報が書込まれた後、インデックスIoは、メモリの長さを法として前進する(すなわち、それがメモリの終端に至ると、インデックスIoがゼロに戻る)。メモリ内の値の実行中合計は、以下に記載されるプロセスに従って、維持させることができる。
先ず、循環待ち行列メモリ・ロケーション、実行中合計およびインデックスIoをゼロに初期化する。次に、各時間ステップで、インデックスされた値を実行中合計から減算し;実行中合計に新しい値を加算し;循環待ち行列に新しい値を書込み;かつ、メモリの長さを法としてインデックスIoを進める。
循環待ち行列の動作および実行中合計の効率的な計算に対するその有用性は、図11A-11Cに示されている。図11Aは、本発明のいくつかの実施態様の循環待ち行列メモリを示す。図11Aにおいて、新規な値“7”が記憶されるべきである場合、5素子循環待ち行列メモリは時間「t」で表される。図示された例では、新しい値は、値9を有するメモリ内の最も古い値を上書きするであろう。新しい値を記憶する前では、この例のメモリの値の合計は、25である。新しい値が最も古い値を上書きするので、実行中合計は、最も古い値を減算しかつ新しい値を加算することによって維持させることができる。直ちに参照ように、このようにして実行中合計を維持する計算の複雑性は、メモリの長さから独立している。メモリ長に関係なく、1つの減算と1つの加算しか必要とされない。
図11Bと図11Cは、本発明のいくつかの実施態様に従って更新された循環待ち行列メモリを示す。より詳しくは、図11Bおよび図11Cは、次の2つの時間ステップの間続く更新プロセスを示す。メモリのさまざまな下位区分にわたる値の多数の実行中合計を維持するために、循環待ち行列は、それぞれがインデックスIoから固定されたオフセットを有する追加インデックスを用いて、区分化される。各下位区分の実行中合計は、正に移動しようとする値を下位区分から減算して、下位区分の部分になろうとする値を加算することによって維持される。
図12は、本発明のいくつかの実施態様による2つの実行中合計を維持するための区分化された循環待ち行列を示す。区分化された循環待ち行列は、一方は、循環待ち行列(すなわち下位区分A)の値の最も古い半分に対して計算された合計、そして他方は、循環待ち行列(すなわち下位区分B)の値のごく最近の半分に対して計算された合計の2つの実行中合計の保守を容易にするように調整される。これらの合計は、それぞれ、ΣA及びΣBと呼ばれる。現在、率(I0)からメモリの長さの半分1つにオフセットされた同等に維持される第二率I1が、ある。各時間ステップで、I0とインデックスされた値(すなわち、メモリ全体における最も古い値)がΣAから減算され、かつI1とインデックスされた値がΣAに加算される。他方、I1とインデックスされた値がΣBから減算され、かつメモリに書き込まれるべき新しい値がΣBに加算される。新しい値が、インデックスI0で位置に書き込まれる、そして、インデックスI0およびI1の両方が、次いで、メモリの長さを法としてインクリメントされる。この例では、メモリの下位区分は、サイズが等しく、互いに素な集合を形成して、一緒にメモリ全体をカバーする。これらの条件はいずれも、この方法によって必要とされない。
図13は、本発明のいくつかの実施態様に従う区分化された循環待ち行列を示す。図13において、下位区分「A」は、それが完全に下位区分「B」に納まるように、構成される。メモリ全体のサイズ及び各下位区分のサイズ並びに下位区分の時間的配列は、合計を維持する目的に従って決定される。
本発明のいくつかの実施態様において、循環待ち行列が、突然の変化の位置を検出するために使われる。いくつかの重要な音声イベント(例えば発生、閉止、停止爆発等)は、信号のいくつかの特性のレベルの突然の準単調変化に関係している。図13に示されるように一般的に構成された区分化された循環待ち行列は、突然の準単調変化を検出するために用いることができる。適切に設定された下位区分AとBの長さにより、下位区分AおよびBの実行中合計の知覚の違いが、各時間ステップごとに計算される。知覚の違いが最大に達しかつその大きさがその知覚の閾値を超える時間は、候補分節化のポイントになる。更なる限定が、検出されたイベント間に最小の時間分離を実施することによって、より密接な模倣の人間の知覚特性に適用される。すでにこの段階で、イベントの変化の方向に基づいて、大雑把にイベントのカテゴリ化を開始することができる。例えば、閉止によるイベントは、移行時のエネルギ変化の方向による発生および爆発とは識別される。
本発明のいくつかの他の実施態様において、循環待ち行列は、音声信号のインパルスとギャップの検出に使われる。いくつかの重要な音声イベントは、時間の位置に関係している。信号のいくつかの特性が、非常に短い期間に急に変化し、次いで、それが変化する前の状態と同程度のレベルに戻る。短い変化がより高い値に向かう場合、この変化は「インパルス」と呼ばれる。短い変化が低い値に向かう場合、この変化は「ギャップ」と呼ばれる。図5に示されるように一般的に構成された区分化された循環待ち行列は、インパルスおよび/またはギャップを検出するために用いることができる。下位区分Aの平均値が、知覚的に適応性閾値分下位区分Bの平均値を越える時には、適切に設定された下位区分AおよびBの長さによって、インパルス(ギャップ)が、位置決めされる。以前に説明したように、閾値関数は経験的に決定される。下位区分「A」および「B」の長さは、検出されるべき信号アスペクトの人間の知覚および時間的特性の性質に従って決定される。
声門パルス検出
このアプローチの使用を示す重要なケースは、声門パルス・イベントの検出である。声門パルス・イベントは、以下の手順によって位置決めされる。先ず、信号は、第一のフォルマントの範囲で帯域フィルタ処理される。次に、Teagerエネルギが、帯域フィルタの出力について計算される。このTeagerエネルギは、以下のように計算される:
Teager (t) = x(t) * x(t) - x(t-1) * x(t+1);
ここで、x(t)は時刻tの入力値である。
Teagerエネルギは、振幅および周波数の機能であるので、エネルギおよび高周波成分の局所極大に関連する声門パルスの位置を強調する。最後に、この信号は、図13に一般的に構成されているインパルス検出器を使用して分節化される。検出器は、Teagerエネルギの絶対値の実行中合計に基づく。好ましい実施態様では、下位区分AおよびBの長さは、それぞれ、2 msおよび10 msに設定される。この検出器は、下位区分「A」における平均Teagerエネルギが、下位区分「B」の平均Teagerエネルギが乗算された知覚のしきい値Kより大きい場合には常に、ハイステートにある。Kの値は、1.3に選択された。下位区分「A」と「B」の長さ及び乗算器Kの値が、声門パルス位置を検出するために有用であることが見いだされた。ここで記載されているもの以外の値も、本発明の範囲内で使用することができる。
上述した声門パルス検出器は、声門パルスごとに、パルスの立ち上がりエッジの位置とパルスの立下りエッジの位置の、2つのイベント位置を作成する。ピッチ周期は、2つの順次立ち上がりエッジのイベント間の期間として規定される。パルスの持続時間は、立ち上がりエッジと次の立下りエッジの間に時間によって評価される。全体のピッチ周期に対するパルス持続時間の比率は、「開放された商」(いくつかの音声処理アプリケーションで有用でもよい有声音の特徴)に関係する。さらに、ピッチ周期の開放された部分の間、下位声門の空腔は、音響的に、この部分の間に、閉部分のパターンと比較していくらか異なるフォルマント・パターンを作成する口腔に連結される。この事実は、これらのイベントに関して特徴抽出を調整することによって、有効に利用することができる。
図14は、本発明のいくつかの実施態様による有声音の小さい分節についての声門パルス検出器の出力を示す。図14において、声門パルス検出器の出力は、信号を「高い」分節と「低い」分節に分ける。高い分節は、関連した特徴(この場合Teagerエネルギ)が、知覚的に基準より上にある時間を表示する。これにより、パルスまたはギャップの持続期間に対する分節が作成される。いくつかのアプリケーションに対しては、分節よりもむしろパルスまたはギャップをマークする方が、好ましいかもしれない。そのような場合、特定のイベント時間の選択は、以下を含むがこれに限られないいくつかの選択される方法の1つにより測定することができる:
・立上り(立下り)と立下り(立上り)の中間点を選択すること;
・分節の立上りエッジを選択すること;
・分節の立下りエッジを選択すること;
・分節の中で最大(最小限の)特徴値を選択すること;そして、
・分節の中で最も大きく知覚されるコントラストのポイントを選択すること。
中央に配置されたウィンドウ内の特定の信号特性(例えば、Teagerエネルギ)の平均値が、より長い期間にわたって平均化された同じ特性から著しく逸脱するときに、上述した声門パルス検出は、検出に依存する。図13のように一般的に構成されている区分化された循環待ち行列は、選択された音声特性(例えば、エネルギまたはフォルマント周波数)が知覚できるほどにそのより長い期間基準から逸脱する領域を識別することによっていかなる変調信号も分節化するために用いることができる。検出器が使用する実行中合計を維持する計算コストが、下位区分の長さには依存しないので、大規模変調と短いインパルスを分節化するために使用することが出来る。
音節核検出
このポイントを示すために、下位区分「A」の長さが60 msに設定されかつ下位区分「B」の長さが100 msに設定される場合を除き、声門パルス検出器に関して正確に計算されたTeagerエネルギの実行中合計を維持するように、音節核検出器は、図13のように一般的に構成されている区分化された循環待ち行列を使用して、構成された。
図15は、本発明のいくつかの実施態様に従って波形出力を示す。図15は、一回目が通常で、かつ二回目がささやきで話されたワード"Once"の波形及び検出器出力を示す。理解することができるように、この検出器は、一般に、音節の中心を括弧に入れる。
本発明のいくつかの実施態様は、フォルマント抽出を用いた音声パターンを認識する方法に関わる。音声が発せられると、調音器官(すなわち舌、顎、リップ)の構成が、フォルマントと呼ばれる周波数スペクトル内の共振と反共振の動的なパターンを作成する。有声音の場合、音は、発散する「空気音」と強く組織化された倍音構造とによって生成される。拡散および倍音の成分は、音声理解に貢献し、かつ両者とも、ノイズ条件が異なると、変化する。拡散「空気音」はフォルマントと対話し、そしてそれらが相対的に滑らかとなるようにフォルマントによって成形される。強く分解された倍音は、スペクトル内にかなり鋭いピークをつくるが、適切に処理されない場合には、近くのフォルマントを正確に位置決めすることが困難になる。ピッチ周期周波数自体が信号から失われているときでも、倍音の配列はピッチを決定する優れた手段を提供する。実験によると、振幅変調された倍音は、ノイズを無視する理解できる音声を再現するために用いることができることが判明した。無声音の場合、知覚可能な変化は、信号を時間的に準同種の分節に分ける。
フォルマント抽出
本発明のいくつかの実施態様において、フォルマント抽出のプロセスは、図16で説明するように、実行される。図16は、本発明のいくつかの実施態様によるフォルマント抽出を実行するためのワークフロー1600を示す。
ワークフロー1600は、分節のサンプルが、分節長と同じウィンドウ長で、Hammingウィンドウ化されているときに開始する1601。ここで、分節は、有声音の間の1つのピッチ周期に対応する。ウィンドウ化されたサンプルは、次いで、広い帯域フィルタのフィルタバンクによって処理される1602。いくつかの実施形態では、これらの帯域フィルタは、400 Hzのバンド幅を有し、隣同士のフィルタの中心が50 Hzの間隔を有し、450 Hzから4000 Hzまでの範囲をカバーする。次に、ワークフローは瞬時の振幅を計算し、そして、各フィルタの周波数は、DESA-1テクニックを使用して計算される1603。これらの数値的特性に基づいて、計算された値は、ステップ1604で「有効」または「無効」が判断される。次に、カウントし、そして一時バッファに「有効な」評価を格納する。
次に、そのビンが周波数範囲を表示するヒストグラムを初期化する1606。ここでは、有効な評価ごとに、評価された瞬時の周波数を表示するヒストグラム・ビンが、対応するログ圧縮評価された瞬時の振幅によってインクリメントされる。次に、滑らかにされたヒストグラムのピークはフォルマント候補から選択され1607、フォルマント周波数、バンド幅(シグマ)および振幅は、特徴として保持され1608、そして、δ特徴が、ライン・フィッティングによりフォルマント・トラックに計算される1609。最後に、フォルマント・パターンの認知可能な変化の位置において、イベントが、生成される1610。
12オクターブのフィルタ・バンク処理
本発明のいくつかの他の実施態様では、12オクターブのフィルタ・バンク処理のプロセスが、低い周波数で狭い帯域を使用し、かつ高周波数で広い帯域を使用して、人間の聴覚に見出される周波数分解能傾向を模倣して、区分化されている信号に実行される。図17は、本発明のいくつかの実施態様のフォルマント抽出を実行するためのワークフローを例示する1700。
ワークフロー1700は、分節のサンプルが、分節長のウィンドウ長でHammingウィンドウ化された信号と同期すると、開始する。ここで、分節は、1つのピッチ周期に対応する。次に、ウィンドウ化されたサンプルは、12番目のオクターブ間隔をあけたフィルタバンクにより処理され1702、そして瞬時の振幅と各フィルタの周波数が、DESA-1テクニックを使用して計算される1703。これらの数値的特性に基づいて、計算された値について、「有効である」か「有効でない」が判断され1704、ここで、「有効」である評価はカウントされ、そして間隔に対し一時バッファに格納される1705。
次に、そのビンが12番目のオクターブ・フィルタ・バンクの各フィルタの中心周波数に対応するヒストグラムが、構成され1706、ここで、有効な評価ごとに、その領域が評価された瞬時の周波数を含むヒストグラム・ビンが、対応するログ圧縮評価された瞬時の振幅によってインクリメントされる。次に、ヒストグラム重みには、異なる周波数での耳の感度に基づいて、重み関数が乗算される。ヒストグラムを計算した後に、ヒストグラム・ビン・エネルギ・パターンは、最も強いエネルギを持つ最も強い倍音シーケンスを検出するために倍音の組合せで合計される1708。ここで、最も強い倍音シーケンスの基本的なものがピッチの評価として使われる。アプリケーションがより正確な評価を必要とする場合、狭帯域フィルタが、評価された倍音周波数中心に置かれて、再計算される1709。このプロセスは、瞬時に非常に正確な評価に収束する。最後に、総エネルギに対する倍音エネルギの比率が、発声の尺度として計算される1710、ここで、倍音の振幅比パターンが、特徴として保たれ、ここで、この比率が、自動音声認識に使用される。
ピッチ周期の使用
本発明のいくつかの実施態様では、倍音トラックの発生および偏りは、ピッチ周期ごとの相対振幅により測定することができる。倍音トラックの振幅における突然の変化は、倍音のフォルマントとのインタラクションに関係している、そして、ピッチの変化またはフォルマントの変化による突然の変化は、インタラクションの変化を示す。この種の変化は、移行位置を表示している。イベントは、前述したフィルタ方法を使用して、これらの変化に応答して生成させることができる。これらのイベントは、それらが発生するときに、声門のパルスタイミングと同期するであろうことに注意されたい。
声道正規化及び柔らかい音素分節素の認識
本発明のいくつかの実施態様では、声道の正規化のプロセスと柔らかい音素分節の認識が、特徴としてフォルマント・パターンを使用することに固有の複雑化を解決するために用いられる。話者によって生成されるフォルマント・パターンは、発生しつつ確かな音声音および話者の声道長についての情報を同時にコード化する。これは、特徴としてフォルマント・パターンの使用を難しくする。
これは、ワタナベ他による、「共通ワードのフォルマント軌跡から相対的な声道長を評価する信頼できる方法」(IEEE transactions on audio, speech, and language processing、2006年、第14巻、1193-1204頁)に記載され、同じ音声音を発する2人の話者のフォルマントが、彼らの声道長の比率に反比例する関係:
LA/LB=FnB/FnA
を持つことが示されている。
生成される音声音は異なるので、話者の声道長は、調音器官の動的再構成によって連続的に修正される。所定の話者に対して、各音が発生する際、フォルマントは、それらが声道長を修正しているので、上または下に移動する。ワタナベの公式を、特定の音声音を発音する話者「A」のフォルマント・パターンと、同じ音を発音する話者Bのフォルマント・パターンとに適用することは、測定された各フォルマントに対し、それらの相対的な声道長の1つの評価Idを提供する。 いくつかの本発明の態様は、以下の知見に基づく。先ず、話者Aおよび話者Bが同じ音を発音している場合、測定されたさまざまなフォルマントの各々に基づく相対的な声道評価は、真値に接近するので、それらは互いに類似するようになるであろう。次に、話者「A」および話者「B」が異なる音を発音している場合、測定されたさまざまなフォルマントの各々に基づく相対的な声道長の評価は、異なるであろう。加えて、確かな音声音からの移行が、話者Aによって話されるときに声道長を長くする(短くする)ことに関わる場合、それは、話者「B」の声道長を長くする(短くする)ことにも関わるが、それらの量は、彼らの生理機能に基づいて異なる。
いくつかの実施形態では、参照となる話者が話す各音声音に対するフォルマント値は、記録される。参照話者のフォルマント測定は、一人以上の話者に基づくことができるが、多くの話者の測定値からの平均として取得されることが好ましい。認識時間で、各分節は、前述したようにフォルマント値を生成するために処理される。各音声音(すなわち音素または部分音素)は、次々に、話されているものであるとみなされ、そして現在の分節のフォルマント値は、参照となる話者の声道長に対する現在の話者の相対的な声道長の評価を計算するために使用される。評価の整合性は、音ごとに記録される。整合性のリストに基づいて、各音声音の相対的な可能性を、確立することができる。音声の軌跡が各標準的なフォルマント・パターンのターゲットコンフィギュレーションに接近するにつれて、評価の整合性は増加し、そして、このような目標で、時間が、認められた音声音に対して最大となる傾向がある。このような知覚に適用することができる信頼性は、音声音とノイズ条件に依存する。音声音が高い信頼性で決定されるときに、それらは、より少ない信頼性で領域内の可能なパターンを限定することに有用な信号の基準点になる
タンデム並列自動音声認識エンジン
本発明のいくつかの実施態様は、呼び出し時間を減らしかつ精度を改善するために時間的に重なっているバースト・モードで、複数のタンデム並列自動音声認識(ASR)エンジンを使用することに関わる。各ASRエンジンは、類似または非類似の設計および出所とすることができるが、全ては、最小限の分節化時間フレームの範囲内の分節の中心部において目的言語の受け入れ可能な結果を生成しなければならない。始めと終わりでワードより高い各分節の中心部で生成されたワードを重み付けし、かつ最適合致によってこれらの分節を同期させることによって、タンデム・プロセッサの結果が分析され、そしてより高い重みを有するワードが出力のために選択される。
これらの実施態様は、呼び出し時間を減らしかつ精度を改善するために、重なり合うオーディオ音声分節に多数のASR(ASR)エンジンを使用することに関わる。タンデム並列アプローチは、精度を増加させ、かつ呼び出し時間を減らす。
例えば、1つのASRが、入って来る音声信号をx秒で任意に分節化する場合、前向きと後向きの両方において最も高いコンテクストは、中央位置に見出されるので、出力は、x/2の位置で最も正確となり、かつこの分節の始めと終わりで正確性が最も低くなる傾向となる。この観察された挙動によると、バッチモードでASRエンジンのn個のインスタンスを実行し、入力信号をx/n秒重なっているx秒のバーストに分節化し、そして各エンジンの間にこれらの分節のルーティングを交替させることによって、この情報は、簡単に使用することが出来なければならない。n = 2である場合、エンジンBがその分節を認識している間に、エンジンAからの出力は、エンジンAからのワードを統計学的にブーストし、修正し、かつ出力するために、以前に出力されたワードストリームと共に、分析される。次いで、n秒入力境界で、出力アナライザおよび処理タスクは、エンジン間のデューティを切り替える。
タンデムの構成において有用な典型的ASRエンジンを観察すると、3000ワードのWSJ英語モデルを使用する際、xは、3秒周辺に設定されるとき、最も良く機能するように、我々には、見える。これは、必要な呼び出し時間が低い環境で使用されるように適合化された、長い発語に機能するように設計されかつ最適化されているエンジンを使用することを可能にする。
他のワードの場合、x=3であるとすると、0.0-3.0秒の最初の音声分節が、エンジンAにレンダリングするために提示されるであろう。次いで、1.5-4.5の分節が、エンジンB等に提示されるであろう。
図18は、本発明のいくつかの実施態様による、一連の発語に作動する、時間で重なっている、2台のタンデム処理エンジンを示す。図18に示されるように、ワード"is falling from the sky"は、エンジンAからの出力であり、かつ"done the sky today at"は、エンジンBからの出力である。それらのワードのための信頼性ファクターを考慮する各々の分節の末端で各々のワードに対する重みを差し引いている統計的方法を利用することによって、我々は、3秒の固定された待ち時間を有する「今日、〜で空から落下している"is falling from the sky today at"」のような明確に連続するワード・ストリームで終わらせることができた。
分析の重みづけかつエンジンの出力は、決定する他と同様に以下のカテゴリにおいて一つ以上のアルゴリズム、ワードは、最終の出力ストリームに追加されるだろう。を含むことができる例えば、アルゴリズムは、分節の端のワードより高い値を有する分節の中央ワードの単純な重みづけ、元の音声信号から得られる音響かつ韻律法の気配、より可能性がある出力の重みをブーストする出力となるべきワードの統計的分析、より可能性がある出力を選択する構文規則、または他の機械学習かつ統計的方法に関係することができる。
自動句読点挿入器
本発明のいくつかの実施態様は、句読点のないテキストに句読点記号を自動的に挿入することに関する。自動句読点挿入器は、句読点のないテキストに句読点記号(期間、カンマ、質問マーク、感嘆符、アポストロフィ、引用マーク、ブラケット、省略記号、セミコロンかつコロン)を挿入するシステムである。
図19は、本発明のいくつかの実施態様による自動句読点挿入器を含む音声−テキスト・システム1900を示す。本発明のいくつかの実施態様では、句読点のないテキストは、次いで、自動音声認識システム1903によってテキストに転写される、テキスト1901として、または音声1902とすることができる。
複写されたテキストまたは1901からの次のオリジナルは、自動句読点挿入器1905に送信される。自動句読点挿入器1905は、句読点記号の適切な配置により、より容易に読み込むことができかつより曖昧さが無いテキストを作成する。
本発明のいくつかの実施態様では、自動の句読点挿入器1905は、訓練データを含むデータベース1904に連結される。自動句読点挿入器は、正しく句読点がつけられた大量の訓練テキストに向けられる一つ以上のBayesianのアルゴリズムを使用する。訓練データの句読点パターンは、テキストの句読点パターンを記述するルールの組を作成するために分析される。
一旦句読点挿入器が、充分な量のテキストで訓練されると、そのルールは、どこに句読点記号が挿入さるべきかを予測するために、新規なテキストに適用させることができる。
本発明のいくつかの実施態様では、自動句読点挿入器1905は、複数の処理モジュールを備える。図示されるように、自動句読点挿入器は、第一統計プロセッサ1906、第二統計プロセッサ1907、及び第三統計プロセッサ1908を含む。
いくつかの実施形態では、第一統計プロセッサ1906は、統計ルールに基づいて句読点がどこに挿入さるべきかを特定する。訓練プロセスは、これらのルールを改良するために実行される。訓練処理する大量の適切に句読点をつけられたテキストの特定のワードと句読点記号間の相関の分析を関係する。一組のルールは、この分析から導出される。ルールの組を、次いで、句読点記号のための可能性がある位置を予測するために、新規な、句読点のないテキストに、適用させることができる。このプロセスの出力は、どこに句読点記号が挿入されなければならないかに関する一連の判断である。
いくつかの実施形態では、第二統計プロセッサ1907が、句読点記号を有する品詞の相関を訓練する。このプロセスは、訓練データの文の構造を分析しかつ各々のワードに品詞タグを割り当てる品詞タグ付け機に依存する。品詞タグの例は、名詞、動詞、形容詞、前置詞等である。
このプロセスは、次いで、ある品詞がどのように句読点記号と相関するかというその観察に基づくルールの組を構築する。次いで、ルールの組を、新規なテキストに適用することができる。このプロセスの出力は、句読点がテキストのどの範囲内の挿入されるべきかについての一連の判断である。
いくつかの実施形態では、第三の統計プロセッサ1908は、平均文の長さに基づく重みづけを利用する。統計句読点挿入器の第三のコンポーネントは、典型的には特定のテキストの文を占めるワードの数に基づく。他のプロセスのように、それは、正しく句読点をつけられた大量のテキストを訓練する。ルールは、句読点に制限するテキストを単位にして発生するn字列の数字に基づいて行われる。
本発明のいくつかの実施態様では、第一統計プロセッサ1906と第二統計プロセッサ1907からの結果は、句読点がテキストのどこに挿入されるべきかに関する2組の判断である。第三の統計プロセッサ1908からの結果は、次いで、決定が対立するときに、状況を解決するための一種のタイ・ブレーカーとして使用される。例えば、もし、第一統計プロセッサ1906が、期間がストリングの第五ワードの後に、必要であることを、予測し、かつ第二統計プロセッサ1907が、第三のワードの後に期間が必要であることを、予測すると、2ワードの文が形成されるであろうから、両者が正しい可能性は低いので、第三統計プロセッサ1908からの結果が、決定を作成するために呼ばれるであろう。
いくつかの実施形態では、第三統計プロセッサ1908は、文献のこのタイプの典型的な文の長さのその知識に基づいて、第一統計プロセッサ1906または第二統計プロセッサ1907の何れからの結果に、より高い重みを割り当てる。もし文献タイプの文が典型的に非常に短いならば、第三の統計プロセッサ1908は、第二統計プロセッサ1907の出力に、より大きい重みを割り当てるかもしれない。一方で、もし文献タイプの文が、通常、5ワード以上であるならば、それは第一統計プロセッサ1906によって生成される判断により大きい重みを割り当てるであろう。
一旦意思決定ステップが完了されると、この結果は、ルールに基づく句読点モジュール1910とピッチ/休止モジュール1911からの情報と共に、どこに句読点を挿入すべきかを最終決定するであろう決定モジュール1909に、渡される。
いくつかの実施形態では、ルールに基づく句読点モジュール1910は、言語構造についてのルールの組を使用して、句読記号がテキストのどこに挿入されなければならないかを決定する。ルールに基づく句読点モジュール1910は、語彙データベース1916と結合する。
ルールに基づく句読点モジュール1910は、人称代名詞、オブジェクト代名詞、相対的な代名詞、法助動詞、結合、定冠詞、日付かつ動詞のあるカテゴリを含む、ワードのいくつかの機能分類を特定することができる。いくつかの実施形態では、語彙データベース1916は、音声−部分情報を含む。
一旦、プログラムが、機能カテゴリの一部を特定すると、それは、特定された項目と、先行しかつ後に続く2つのワードからなるテキストのウィンドウを見ながら、近くのコンテクストを検索し続ける。コンテクスト・ウィンドウにおいて発生するワードまたは品詞の特定のカテゴリは、ストリング内のいくつかのポイントで、カンマのための必要性を示すであろう。言語ルールは、カンマがどこに挿入されなければならないかについてのインストラクション・リストとして機能する。一例として、プログラムが人称代名詞(私、彼、彼女、我々、彼ら)を特定すると、それは他のカテゴリでの発生についてコンテクスト・ウィンドウをチェックする。例えば、もし人称代名詞が、(予測されるある動詞分詞を有する)副詞または分詞の後にあるならば、プログラムは、特定されたワードの前のワードの後にカンマがあるべきと予測するであろう。ルールに基づく句読点挿入器は、テキストまたは既存のテキストファイルのストリームを処理することができる。ルールに基づく句読点挿入器の出力は、どこにカンマが挿入されなければならないかに関する一連の判断である。
いくつかの実施形態では、ピッチ/休止モジュール1911は、その入力がオーディオ・ファイルを含む人間の音声であるという点で、他の構成要素とは異なる。このテキストは、元の音声データから転写されたものではあるが、他の構成要素がテキストに動作する。ピッチ/休止モジュール1911は、人間の音声において、時間の短い期間に生じかつ無音の期間と相関している有意なピッチ変化が、通常、句読点の必要性を示す観察に、動作する。例のために、もしオーディオ・ファイルにおける所定のポイントが、短い時間間隔(275 ms)で発生するピッチの急峻なドロップ(30 %以上)を示すならば、これは、話者が文の末端に到達した可能性があることを示す。
このパターンに続く休止の存在は、句読点記号のための位置が、特定されたことを確認する傾向がある。ピッチ/休止句読点挿入器は、正しい条件が句読点を示すために満たされた時のオーディオ・ファイルと信号のピッチを追尾する。ピッチ/休止句読点挿入器は、どこに句読点記号が挿入されなければならないかについての判断を出力する。
いくつかの実施形態では、決定モジュール1909は、自動句読点挿入器1905、ルールに基づく句読点挿入器1910およびピッチ/休止モジュール1911からの入力を用いる。テキストのタイプの既知の特性に基づいて、決定モジュール1909は、句読点がテキストの所定のポイントに挿入されなければならないか否かについて最終決定をするために、より高いまたはより下部の重みをこれらの結果の各々に割り当てる。
(関連出願についてのクロス・リファレンス)
この特許出願は、2009年11月11日に出願された米国特許出願、シリアル番号12/616,723「自動音声テキスト変換のためのシステムと方法」、及び2008年11月12日に出願された米国仮特許出願、シリアル番号61/113,910「自動化された音声プロセッサおよび自動化された句読点挿入器」の優先権を主張する。これらの出願は、全体がこの参照によって本願明細書に組み込まれている。

Claims (20)

  1. 音声コード化信号を受信しかつデジタル化する音響分析器と、
    音声認識において非常に関連している、当該イベントまたはイベントのパターンが、当該音声信号からイベントを抽出するイベント抽出器と、
    当該イベント抽出器に結合させた音声認識モジュールであって、当該イベントを使用して、検出コンテンツに応答して少なくとも1個のアクションを開始する、音声認識モジュールと、
    を備える音声認識エンジン。
  2. 当該開始されたアクションが、当該信号の前記音声コンテンツの少なくとも一つのテキスト・ストリームへの変換である、請求項1に記載の音声認識エンジン。
  3. 確かなワードが検出されると、当該開始されたアクションが、システムのオーディオ出力を抑制する、請求項1に記載の音声認識エンジン。
  4. 当該開始されたアクションが、検出された命令に応答する、請求項1に記載の音声認識エンジン。
  5. 当該イベント抽出器が、更に、
    既知の分類デジタル化された音声発語の訓練コーパスと、
    各弱い検出器が、イベントの存在を決定する方法を備える、複数の弱い検出器と、
    アンサンブル検出器を組み立てる手段であって、当該アンサンブル検出器が、イベントの存在を決定する上で、共にアクションを取ることが、前記構成する弱い検出器の何れよりも、より良い結果をもたらす弱い検出器の一群を備えている、アンサンブル検出器を組み立てる手段と
    を備える、請求項1に記載の音声認識エンジン。
  6. 当該アンサンブル検出器が、ブースト・アルゴリズムを使用して反復して、形成され、それによって、ブーストされたアンサンブル検出器が形成される、請求項5に記載の音声認識エンジン。
  7. 当該イベント抽出器が、当該ブーストされたアンサンブル検出器を簡略化するための手段を含み、これにより簡略アンサンブル検出器が形成される、請求項6に記載の音声認識エンジン。
  8. 当該イベント抽出器が、当該簡略アンサンブル検出器をカスケーディング検出器に自動的に変換する手段を含む、請求項7に記載の音声認識エンジン。
  9. 当該イベント抽出器が、音声を知覚クラスタに分類し、かつ選択される知覚の間の曖昧さをなくす手段を更に備える、請求項1に記載の音声認識エンジン。
  10. 当該イベント抽出器が、イベントを含まずかつ頑強な検出器が得られる結果をもたらす可能性がないデジタル化された音声信号の領域を拒絶する弱い領域拒絶器を、更に、備える、請求項1に記載の音声認識エンジン。
  11. 当該イベント抽出器が、イベントのシーケンスを検出するイベント・シーケンス認識器を、更に備える、請求項1に記載の音声認識エンジン。
  12. 当該イベント抽出器が、例えば、前記音声信号のアスペクトが損なわれるとき、認識を強化するために選択される音声キューを認識するように構成されている選択されるキュー検出器を、更に備える、請求項1に記載の音声認識エンジン。
  13. 特徴の計算を同期させるために用いられる間隔を規定するプレ分節化フィルタと、
    前記間隔の知覚差に基づいて当該ディジタル化信号を分節化し、これにより区分化された信号を形成する手段と、
    当該分節された信号からイベントに対する特徴を抽出する特徴抽出器と、
    を備える信号同期エンジンを、
    更に、備える、請求項1に記載の音声認識エンジン。
  14. 句読点を少なくとも一つのテキスト・ストリームに自動的に挿入する自動句読点挿入器を、更に、備える、請求項1に記載の音声認識エンジン。
  15. 訓練例に基づいて弱い分級器の訓練を確立するステップと、
    検出器のアンサンブルを構築するステップと、
    音声信号を受信するステップと、
    当該音声信号をデジタル化するステップと、
    弱い検出器の当該アンサンブルを使用して当該音声信号を処理し、これにより、少なくとも一つのイベントの存在を認識するステップであって、当該イベントが、音声認識において非常に関連している当該音声信号内のパターンを備える、ステップと、
    音声を認識するために当該イベントを処理するステップと
    を備える音声認識の方法。
  16. 検出器のアンサンブルを構築する前記ステップが、
    ・自動音声認識システムに格納されている訓練例を備える複数の音声信号を、格納するステップと、
    ・当該音声信号の特有な特性位置を備えるイベント・パターンを、当該複数の音声信号から抽出するステップと、
    ・マッチングするイベント・パターンを有する当該複数の音声信号のサンプルにアクセスするステップと、
    ・前記サンプルの中からの個々の音声信号からのイベントを整列配置するステップであって、当該整列配置が、当該マッチングしたイベント・パターンに基づいて当該個々の音声信号から当該イベントを時間的に整列させるステップと
    を備え、
    ・オプションとして、当該個々の信号を共通の時間的持続時間に拡大・縮小するステップと、
    ・当該イベント・パターンを検出するために複数の弱い検出器の効果を評価するステップと、
    ・当該弱い検出器の前記相対的効果に基づいて、前記最も有効な弱い検出器が、最高に重みづけされるように、重み付け方式を当該複数の弱い検出器に適用するステップと、
    少なくとも一つの弱い検出器を当該複数の弱い検出器に追加するステップと、
    ・下記ステップを繰り返すステップであって、
    マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスするステップと、
    前記サンプルの中からの個々の音声信号からのイベントを整列配置するステップと、
    オプションとして、当該個々の信号を共通の時間的持続時間に拡大・縮小するステップと、
    当該イベント・パターンを検出するために複数の弱い検出器の前記効果を評価するステップと、
    当該弱い検出器の前記相対的効果に基づいて、当該複数の弱い検出器に重み付け方式を適用し、かつ少なくとも一つの弱い検出器を当該複数の弱い検出器に追加するステップと、
    を繰り返すステップと
    を備え、
    当該重み付け方式の当該効果が、当該イベント・パターンを検出する効率の設定された標準に実行されるまで、反復の当該ステップが、反復される、
    請求項15に記載の音声認識の方法。
  17. マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスする前記ステップが、更に、当該イベント・パターンを含む当該複数の音声信号の領域を、自動的に、識別するステップを備え、このステップが、
    ・共通の時間軸に対して当該複数の音声信号を整列配置するステップと、
    ・オプションとして、個々の音声信号の前記持続時間を前記複数の音声信号から1に拡大・縮小するステップと、
    ・投影された音節中心および投影されたイベント位置の形態で当該時間軸に、当該個々の音声信号の音節センターおよび/または他のイベント位置を投影するステップと、
    ・当該イベント・パターンを含む当該複数の音声信号の領域の形態で音節中心または他のイベント位置の集中を有する当該時間軸上の領域を識別するステップと
    を備える、請求項16に記載の音声認識の方法。
  18. マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスする前記ステップが、当該イベント・パターンを含む当該複数の音声信号の領域を自動的に識別するステップを、更に、備え、このステップが、
    ・訓練集合にアクセスするステップと、
    ・当該音声信号を、正の訓練例からすべての前記イベントを含む時間―軌跡空間領域に変換するステップと、
    ・すべての当該領域に対して負の例の前記カウントを計算するステップと、
    ・負の訓練例から最少の前記イベントを有する前記時間―軌跡空間の領域を選択するステップと、
    ・前記選択された領域内のイベントが無い負の例を更なる考慮から削除するステップと、
    ・完全に当該訓練集合に作動するカスケードが作成されるまで、次のステップ、
    各領域の残りの負の例からイベントの前記カウントを計算するステップと、
    負の訓練例から最少の前記イベントを有する前記時間―軌跡空間の領域を選択するステップと、
    前記選択された領域内のイベントが無い負の例を、更なる考慮から削除するステップと、
    を繰り返すステップと
    を備える、請求項15に記載の音声認識の方法。
  19. タンデムの二個以上の音声認識システムを作動させる方法であって、当該二個以上の音声認識システムが、重なる時間間隔で音声信号の検出および分析を実行し、当該方法が、
    再構成可能である前記時間間隔を各音声認識エンジンで使えるように構成するステップと、
    前記間隔上の前記重なりを構成するステップであって、前記重なりが、再構成可能であり、かつ前記重なりが、当該音声信号の最も情報の豊富な前記部分を反映するように設定されているステップと、
    当該音声認識エンジン間の検出と分析を割振るステップと、
    当該音声認識エンジンの前記結果を重みづけするステップであって、より大きな重みが、前記間隔の前記中央から取り出される結果に与えられ、かつ単一の時間間隔内でワードの前記アイデンティティに関して少なくとも2つの意見を生成するステップと、
    前記少なくとも2つの意見の内どの意見が、より良く当該音声信号のテキスト表示を判断するかを決定するステップと
    を備える音声認識の方法。
  20. デジタル発語の形態で音声信号を受信しかつそれをデジタル化する音響分析器と、
    当該デジタル発語を少なくとも一つのテキスト・ストリームに変換する、当該音響解析器に連結されている音声認識モジュールと、
    訓練データを含むデータベースに結合されている自動句読点エンジンであって、当該自動句読点エンジンが、統計に基づいて句読点がつけられたテキストの形態の当該訓練データを用いて、当該テキスト・ストリームに句読点を追加する少なくとも一つの統計プロセッサを含む、自動句読点エンジンと、
    語彙ルール・データベースに連結されている、ルールに基づく句読点挿入器であって、当該ルールに基づく句読点挿入器が、ルールに基づいて句読点が入れられたテキストの形態の当該語彙ルール・データベースから、ルールを使用して当該テキスト・ストリームに句読点を追加する、句読点挿入器と、
    当該句読点をつけられたテキストまたは当該統計に基づく句読点がつけられたテキストの何れが、より良好な句読点がつけられた結果をもたらすかどうかを決定する決定モジュールと、
    を備える音声認識エンジン。
JP2011536467A 2008-11-12 2009-11-12 自動音声−テキスト変換のためのシステムと方法 Active JP5850747B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11391008P 2008-11-12 2008-11-12
US61/113,910 2008-11-12
US12/616,723 US8566088B2 (en) 2008-11-12 2009-11-11 System and method for automatic speech to text conversion
US12/616,723 2009-11-11
PCT/US2009/064214 WO2010056868A1 (en) 2008-11-12 2009-11-12 System and method for automatic speach to text conversion

Publications (3)

Publication Number Publication Date
JP2012508903A true JP2012508903A (ja) 2012-04-12
JP2012508903A5 JP2012508903A5 (ja) 2013-11-14
JP5850747B2 JP5850747B2 (ja) 2016-02-03

Family

ID=42166012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011536467A Active JP5850747B2 (ja) 2008-11-12 2009-11-12 自動音声−テキスト変換のためのシステムと方法

Country Status (7)

Country Link
US (1) US8566088B2 (ja)
EP (1) EP2347408A4 (ja)
JP (1) JP5850747B2 (ja)
KR (1) KR101688240B1 (ja)
CN (1) CN102227767B (ja)
BR (1) BRPI0922035B1 (ja)
WO (1) WO2010056868A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016517023A (ja) * 2013-07-18 2016-06-09 三菱電機株式会社 音響信号を処理する方法
KR20220046771A (ko) * 2020-10-08 2022-04-15 (주)에어사운드 문장 구두점 제공 시스템 및 방법
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
US8712774B2 (en) * 2009-03-30 2014-04-29 Nuance Communications, Inc. Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US10224036B2 (en) * 2010-10-05 2019-03-05 Infraware, Inc. Automated identification of verbal records using boosted classifiers to improve a textual transcript
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US9031839B2 (en) * 2010-12-01 2015-05-12 Cisco Technology, Inc. Conference transcription based on conference data
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
WO2012134877A2 (en) * 2011-03-25 2012-10-04 Educational Testing Service Computer-implemented systems and methods evaluating prosodic features of speech
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US9176957B2 (en) 2011-06-10 2015-11-03 Linkedin Corporation Selective fact checking method and system
US9087048B2 (en) 2011-06-10 2015-07-21 Linkedin Corporation Method of and system for validating a fact checking system
US8185448B1 (en) 2011-06-10 2012-05-22 Myslinski Lucas J Fact checking method and system
US9015037B2 (en) 2011-06-10 2015-04-21 Linkedin Corporation Interactive fact checking system
US9053750B2 (en) 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
US8719031B2 (en) * 2011-06-17 2014-05-06 At&T Intellectual Property I, L.P. Dynamic access to external media content based on speaker content
US20130094567A1 (en) * 2011-10-18 2013-04-18 Lsi Corporation Apparatus and methods for performing block matching on a video stream
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
CN102682766A (zh) * 2012-05-12 2012-09-19 黄莹 可自学习的情侣声音对换机
US9529793B1 (en) 2012-06-01 2016-12-27 Google Inc. Resolving pronoun ambiguity in voice queries
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US8484022B1 (en) 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
CN102903361A (zh) * 2012-10-15 2013-01-30 Itp创新科技有限公司 一种通话即时翻译系统和方法
US9557818B2 (en) * 2012-10-16 2017-01-31 Google Inc. Contextually-specific automatic separators
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
US9240184B1 (en) 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9483159B2 (en) 2012-12-12 2016-11-01 Linkedin Corporation Fact checking graphical user interface including fact checking icons
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
EP2973427B1 (en) 2013-03-15 2020-09-09 Intel Corporation Continuous interaction learning and detection in real-time
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104143331B (zh) * 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9728202B2 (en) 2013-08-07 2017-08-08 Vonage America Inc. Method and apparatus for voice modification during a call
US9299358B2 (en) * 2013-08-07 2016-03-29 Vonage America Inc. Method and apparatus for voice modification during a call
US20150095320A1 (en) 2013-09-27 2015-04-02 Trooclick France Apparatus, systems and methods for scoring the reliability of online information
US10169424B2 (en) 2013-09-27 2019-01-01 Lucas J. Myslinski Apparatus, systems and methods for scoring and distributing the reliability of online information
WO2015057661A1 (en) * 2013-10-14 2015-04-23 The Penn State Research Foundation System and method for automated speech recognition
US8943405B1 (en) * 2013-11-27 2015-01-27 Google Inc. Assisted punctuation of character strings
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN103761064A (zh) * 2013-12-27 2014-04-30 圆展科技股份有限公司 自动语音输入系统及其方法
US9269045B2 (en) * 2014-02-14 2016-02-23 Qualcomm Incorporated Auditory source separation in a spiking neural network
US9643722B1 (en) 2014-02-28 2017-05-09 Lucas J. Myslinski Drone device security system
US9972055B2 (en) 2014-02-28 2018-05-15 Lucas J. Myslinski Fact checking method and system utilizing social networking information
US8990234B1 (en) 2014-02-28 2015-03-24 Lucas J. Myslinski Efficient fact checking method and system
US9189514B1 (en) 2014-09-04 2015-11-17 Lucas J. Myslinski Optimized fact checking method and system
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US9659259B2 (en) * 2014-12-20 2017-05-23 Microsoft Corporation Latency-efficient multi-stage tagging mechanism
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
US9640177B2 (en) 2015-06-01 2017-05-02 Quest Software Inc. Method and apparatus to extrapolate sarcasm and irony using multi-dimensional machine learning based linguistic analysis
US10529328B2 (en) 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
KR101862337B1 (ko) * 2016-03-24 2018-05-31 주식회사 닷 정보 출력 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN107886951B (zh) * 2016-09-29 2021-07-23 百度在线网络技术(北京)有限公司 一种语音检测方法、装置及设备
KR102476897B1 (ko) 2016-10-05 2022-12-12 삼성전자주식회사 객체 추적 방법 및 장치, 및 이를 이용한 3d 디스플레이 장치
CN107943405A (zh) * 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
KR101818980B1 (ko) 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템
CN107424612B (zh) * 2017-07-28 2021-07-06 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
JP6891073B2 (ja) * 2017-08-22 2021-06-18 キヤノン株式会社 スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN108108357B (zh) * 2018-01-12 2022-08-09 京东方科技集团股份有限公司 口音转换方法及装置、电子设备
CN108600773B (zh) * 2018-04-25 2021-08-10 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
RU2711153C2 (ru) 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя
CN108831458A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的语音到命令变换方法和系统
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
US11094326B2 (en) * 2018-08-06 2021-08-17 Cisco Technology, Inc. Ensemble modeling of automatic speech recognition output
CN109192217B (zh) * 2018-08-06 2023-03-31 中国科学院声学研究所 面向多类低速率压缩语音隐写的通用信息隐藏检测方法
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN111858861B (zh) * 2019-04-28 2022-07-19 华为技术有限公司 一种基于绘本的问答交互方法及电子设备
CN112036174B (zh) * 2019-05-15 2023-11-07 南京大学 一种标点标注方法及装置
CN110287156B (zh) * 2019-06-28 2021-12-21 维沃移动通信有限公司 文件处理方法及移动终端
US11961511B2 (en) * 2019-11-08 2024-04-16 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
CN111369981B (zh) * 2020-03-02 2024-02-23 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111931508B (zh) * 2020-08-24 2023-05-12 上海携旅信息技术有限公司 数字转换方法及系统、文本处理方法及系统、设备和介质
CN112331178A (zh) * 2020-10-26 2021-02-05 昆明理工大学 一种用于低信噪比环境下的语种识别特征融合方法
EP4181120A4 (en) * 2020-11-25 2024-01-10 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE FOR GENERATING A RESPONSE TO A USER INPUTION AND OPERATING METHOD THEREFOR
CN112966561B (zh) * 2021-02-03 2024-01-30 成都职业技术学院 一种便携式大学生创新创业多功能记录方法及装置
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds
CN113744368A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 动画合成方法、装置、电子设备及存储介质
KR20230102506A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 이의 제어 방법
TWI812070B (zh) * 2022-03-15 2023-08-11 宏碁股份有限公司 錄音檔轉文字稿方法及系統
CN114758645B (zh) * 2022-04-29 2024-08-06 建信金融科技有限责任公司 语音合成模型的训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156997A (ja) * 2000-11-21 2002-05-31 Sharp Corp 音声検出制御装置
JP2003177776A (ja) * 2001-12-12 2003-06-27 Seiko Instruments Inc 議事録記録システム
JP2008009120A (ja) * 2006-06-29 2008-01-17 Mitsubishi Electric Corp リモートコントローラ並びに家電機器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6611802B2 (en) 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156997A (ja) * 2000-11-21 2002-05-31 Sharp Corp 音声検出制御装置
JP2003177776A (ja) * 2001-12-12 2003-06-27 Seiko Instruments Inc 議事録記録システム
JP2008009120A (ja) * 2006-06-29 2008-01-17 Mitsubishi Electric Corp リモートコントローラ並びに家電機器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016517023A (ja) * 2013-07-18 2016-06-09 三菱電機株式会社 音響信号を処理する方法
US9601130B2 (en) 2013-07-18 2017-03-21 Mitsubishi Electric Research Laboratories, Inc. Method for processing speech signals using an ensemble of speech enhancement procedures
KR20220046771A (ko) * 2020-10-08 2022-04-15 (주)에어사운드 문장 구두점 제공 시스템 및 방법
KR102562692B1 (ko) * 2020-10-08 2023-08-02 (주)에어사운드 문장 구두점 제공 시스템 및 방법
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置

Also Published As

Publication number Publication date
CN102227767B (zh) 2014-10-15
WO2010056868A1 (en) 2010-05-20
EP2347408A4 (en) 2012-05-02
BRPI0922035A2 (pt) 2021-08-31
US8566088B2 (en) 2013-10-22
KR101688240B1 (ko) 2016-12-20
EP2347408A1 (en) 2011-07-27
US20100121638A1 (en) 2010-05-13
CN102227767A (zh) 2011-10-26
JP5850747B2 (ja) 2016-02-03
KR20110095314A (ko) 2011-08-24
BRPI0922035B1 (pt) 2023-01-24

Similar Documents

Publication Publication Date Title
JP5850747B2 (ja) 自動音声−テキスト変換のためのシステムと方法
Hu et al. A tandem algorithm for pitch estimation and voiced speech segregation
US7917361B2 (en) Spoken language identification system and methods for training and operating same
Wang et al. An acoustic measure for word prominence in spontaneous speech
US6553342B1 (en) Tone based speech recognition
Howell et al. Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: II. ANN recognition of repetitions and prolongations with supplied word segment markers
KR20130133858A (ko) 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
Karpov An automatic multimodal speech recognition system with audio and video information
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Gupta et al. Implicit language identification system based on random forest and support vector machine for speech
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Ziółko et al. Phoneme segmentation based on wavelet spectra analysis
Ishi Perceptually-related F0 parameters for automatic classification of phrase final tones
Rao et al. Language identification using excitation source features
CN116543750A (zh) 一种语音识别用精度提升系统
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Dharmani et al. Performance evaluation of ASR for isolated words in Sindhi Language
Mahar et al. Superposition of Functional Contours Based Prosodic Feature Extraction for Speech Processing.
Sethu Automatic emotion recognition: an investigation of acoustic and prosodic parameters
Reddy et al. Automatic pitch accent contour transcription for Indian languages
Shi Processing methods for the detection of landmark acoustic cues
Anupam et al. Detection of phonation events for feature-cue-based analysis using Gaussian mixture models
Ramakrishna Vowel Region based Speech Analysis and Applications
Genette et al. Determining spectral stability in vowels: A comparison and assessment of different metrics

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130515

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130919

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20130919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140314

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150612

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151201

R150 Certificate of patent or registration of utility model

Ref document number: 5850747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250