JP2012508903A - 自動音声テキスト変換のためのシステムと方法 - Google Patents
自動音声テキスト変換のためのシステムと方法 Download PDFInfo
- Publication number
- JP2012508903A JP2012508903A JP2011536467A JP2011536467A JP2012508903A JP 2012508903 A JP2012508903 A JP 2012508903A JP 2011536467 A JP2011536467 A JP 2011536467A JP 2011536467 A JP2011536467 A JP 2011536467A JP 2012508903 A JP2012508903 A JP 2012508903A
- Authority
- JP
- Japan
- Prior art keywords
- event
- speech recognition
- events
- speech
- detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000006243 chemical reaction Methods 0.000 title claims description 14
- 230000005236 sound signal Effects 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 50
- 230000008447 perception Effects 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 230000001010 compromised effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000002123 temporal effect Effects 0.000 description 44
- 230000015654 memory Effects 0.000 description 39
- 230000008569 process Effects 0.000 description 33
- 238000000605 extraction Methods 0.000 description 25
- 230000008859 change Effects 0.000 description 24
- 238000013459 approach Methods 0.000 description 19
- 230000001755 vocal effect Effects 0.000 description 18
- 239000013598 vector Substances 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 241000282412 Homo Species 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000630 rising effect Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000638 stimulation Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000002265 sensory receptor cell Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Document Processing Apparatus (AREA)
Abstract
【選択図】図8B
Description
本願において、「分類器」という用語は、特徴ベクトル、イベントおよび/またはイベントのシーケンスに分類ラベルを割り当てる方法と装置を意味する。検出器は、「存在」または「不存在」の分類ラベルを、各特徴ベクトル、イベントおよび/またはイベントのシーケンスに割り当てる分類器である。
本発明のいくつかの実施態様では、イベント統合化マッピングのプロセスは、有用な弱い検出器をもたらすことになりそうにない領域を拒絶するために用いられる。
本発明のいくつかの他の実施態様の場合、イベント密度制約のアプリケーションが、有用な弱い検出器をもたらしそうにない領域を排除するために用いられる。例えば、特定量以下のイベント密度を有する領域を排除するために、オプションとして、最小の密度制約を適用させることができる。
本発明のいくつかの他の実施態様の場合、結果として有用な弱い検出器をもたらしそうにない冗長な領域は、排除される。他の領域を含むが、含まれている領域内に含まれるイベント以上の更なる正のイベントを追加しない領域は、領域のリストには追加されない。
イベントのシーケンスは、一般に、自動音声認識では、シーケンスを構成する個々のイベントより強力な弁別手段となる。本発明のいくつかの実施態様は、個々のイベントを検出する代わりに、またはそれに加えて、イベントの検出イベント・シーケンスを含む。
本発明のいくつかの実施態様の場合、適応性ブースティング・アルゴリズムが、認識パフォーマンスを増加させるために用いられる。適応性ブースティング・アルゴリズムは、弱い分類器を順次コールし、これらの分類器をテストし、かつテスト結果にあうように重みづけ係数を調整することを、反復するプロセスに関する。順応性ブースティング・アルゴリズムは、先読みおよび以前の重みの修正なしで繰返しごとに1つの弱い検出器を追加することによって、アンサンブルを作成する。その結果、最終的なアンサンブルは、必要以上に複雑になる可能性がある。
人間の音声知覚は、音声信号のいくつかのアスペクトが損なわれる時には、別に選択されるキューに依存することができる。同様に、選択されるキューは、音声サンプルにおいて見いだすこともでき、かつ自動音声認識システムで検出することもできる。
アンサンブル全体の決定は、個々の検出器の重み付けされた総和である。アンサンブルの標準形では、弱い分類器の全てが、音声の決定をするために評価されなければならない。本発明のいくつかの実施態様の場合、検出器のアンサンブルは、評価されなければならない弱い検出器の数を、平均で、減らすカスケーディング検出器に変換される。弱い検出器を最も強いものから最も弱いものに順序づけ、そして、各段階の合計と最終結果の関係を分析することにより、早期(early out)閾値を確立させて、アンサンブルを検出器カスケードに変換することができる。
非常にアンバランスな訓練集合のためのイベント・ベースのカスケード
本発明のいくつかの実施態様において、イベントに基づく検出器カスケードを自動的に作成する方法は、非常にアンバランスな訓練集合からの学習またはまれなオブジェクトを検出することを学習することの問題を解決する。結果として得られる検出器カスケードは、初期段階において大多数の負の例を消去することによって、まれなオブジェクトを効率的に検出する。
時間−軌跡平面の領域を識別するために使用される方法は、領域に含まれる正の訓練例イベント周辺と密接してフィットする境界と言う結果になる。検出器として使われるときに、この種の密接してフィットした境界は、領域の外側の境界で訓練例イベントとわずかしか異ならない値を有する場合を拒絶する。境界が、追加される負の例イベントを囲まずに可能な限り拡大される場合、検出器は、この領域内の正の訓練例の何れかの値の領域と同程度であるがその領域以上の値を有する場合を検出することが出来るであろう。しかしながら、これらの最大限にゆるい境界は、境界を制限する負の例イベントの値とわずかしか異ならない値を有する場合を誤って検出する原因になり得る。
典型的自動音声認識システムは、詳細(例えば、音素または下位音素分類)を認識することにより、かつより高いレベル・パターン(例えば、ワード)を決定するためにそれらの詳細を使用することによって、機能する。これらの低レベルの詳細は、確定的に区別されない;その代わりに、確率評価は、特徴値の観察ベクトルを与えられる分類の各々に対してなされる。隠れたマルコフ・モデル(HMM)は、意図された音声音の最有望なシーケンスを計算するために、推移確率とともに分類確率評価を使用する。「詳細から作り上げる(building up from the details)」アプローチは普及していてかつかなり効果的であるが、これは、人間性能に対抗出来る自動音声認識システムにはならない。このアプローチの欠点の1つは、詳細な分類化の信頼性が高くなく、かつより高いレベルのコンテクストを適用することによって詳細な分類化を固定しなければならないという事実である。さらにまた、詳細な分類化は、コンテクストに大きく依存するが、音声分類のアイデンティティを決定するときには、このコンテクストは、知られていない。加えて、このコンテクストは、正確に表示されず、またはその信頼性も低い。さらに、めったに発生しないコンテクストの詳細を評価するための正確な統計は、困難である。音響の条件における変化またはモデルの統計的分布に表示されなかった音声の態様は、統計評価を非常に不正確にする原因となる。最後に、選択される解決法のサーチ領域が大きいことは、計算機処理を困難にさせる。典型的に、検索は、最有望な“n”だけを保持するような任意の手段によって減少させる。本発明の目的は、共通のアプローチの固有の課題および限界を解決することである。
・大いに、広い音声カテゴリのシーケンス・パターンは、可能な知覚選択肢を制限することができる。知覚選択肢は、知覚クラスタを形成する。
・広い音声カテゴリのシーケンスは、それ自身、知覚選択肢のリストに直接アクセスするために用いることができる。
・更なる計算は、知覚されたクラスタの中の残留する選択物の間の曖昧さをなくす必要がある場合のみ行われる。
・クラスタ内の選択肢が訓練時に知られているので、知覚されたクラスタごとに、曖昧性除去のプロセスは、最大の信頼性または最小の計算の労力に対し最適化することができる。従って、いかなる状況においても最も信頼性が高い差異を、適用することができる。
これは、さまざまなソースからの、ワード統計、韻律、文法等を含む情報を適用することができることを意味する。
・選択される知覚の間の曖昧さをなくす際には、選択される音声およびワード・コンテクストは知られている。このことにより、区別する特徴の計算が、関連しかつ最も信頼性が高い特徴に制限される。さらに、コンテクストに特有の検出器および分類器を、より高い信頼性のために用いることができる。
本発明の好ましい本実施態様では、本発明の全てのアスペクトを実行するための装置が、設けられている。本発明の好ましい本実施態様では、自動音声認識システムが、実時間テレビジョン字幕使用およびワード・スポッティング環境において用いられる。
本発明の好ましい本実施態様では、イベント抽出器804が、イベント認識および抽出のために前述したプロセスおよび方法を採用している。イベント抽出器804は、抽出された音声イベントを格納するための短期イベント・メモリ805に連結されている。短期イベント・メモリ805は、結果的に得られるテキスト・ストリームを出力するために、抽出されたイベントを使用するための複数のイベント−テキスト・ストリーム処理モジュールに連結されている。本発明の好ましい本実施態様では、イベント−テキスト・ストリーム処理モジュールは、音節核検出器806、音節カテゴリ化器807、音節シーケンス知覚インデクシング・モジュール808および下位音節細部カテゴリ化モジュール809を備える。イベント−テキスト・ストリーム処理モジュールは、そこに埋め込まれている、追加された韻律情報811を有するテキスト・ストリームを出力する。
区分化された循環待ち行列メモリ
イベント検出器のいくつかのコンポーネントは、さまざまな長さの分析ウィンドウを使用して計算されて、各々に関して特定の時間的関係において整列配置される特徴値の合計の比較に関わる。イベント検出器の計算の負担を最小化するために、これらの合計は、区分化された循環待ち行列メモリを使用して維持される。循環待ち行列は、新しい情報が、メモリ内の最も古い情報のインデックスであるIoでメモリに書き込まれる、先入先出方式(FIFO)メモリ構造である。メモリに新しい情報が書込まれた後、インデックスIoは、メモリの長さを法として前進する(すなわち、それがメモリの終端に至ると、インデックスIoがゼロに戻る)。メモリ内の値の実行中合計は、以下に記載されるプロセスに従って、維持させることができる。
このアプローチの使用を示す重要なケースは、声門パルス・イベントの検出である。声門パルス・イベントは、以下の手順によって位置決めされる。先ず、信号は、第一のフォルマントの範囲で帯域フィルタ処理される。次に、Teagerエネルギが、帯域フィルタの出力について計算される。このTeagerエネルギは、以下のように計算される:
Teager (t) = x(t) * x(t) - x(t-1) * x(t+1);
ここで、x(t)は時刻tの入力値である。
・立上り(立下り)と立下り(立上り)の中間点を選択すること;
・分節の立上りエッジを選択すること;
・分節の立下りエッジを選択すること;
・分節の中で最大(最小限の)特徴値を選択すること;そして、
・分節の中で最も大きく知覚されるコントラストのポイントを選択すること。
このポイントを示すために、下位区分「A」の長さが60 msに設定されかつ下位区分「B」の長さが100 msに設定される場合を除き、声門パルス検出器に関して正確に計算されたTeagerエネルギの実行中合計を維持するように、音節核検出器は、図13のように一般的に構成されている区分化された循環待ち行列を使用して、構成された。
本発明のいくつかの実施態様において、フォルマント抽出のプロセスは、図16で説明するように、実行される。図16は、本発明のいくつかの実施態様によるフォルマント抽出を実行するためのワークフロー1600を示す。
本発明のいくつかの他の実施態様では、12オクターブのフィルタ・バンク処理のプロセスが、低い周波数で狭い帯域を使用し、かつ高周波数で広い帯域を使用して、人間の聴覚に見出される周波数分解能傾向を模倣して、区分化されている信号に実行される。図17は、本発明のいくつかの実施態様のフォルマント抽出を実行するためのワークフローを例示する1700。
本発明のいくつかの実施態様では、倍音トラックの発生および偏りは、ピッチ周期ごとの相対振幅により測定することができる。倍音トラックの振幅における突然の変化は、倍音のフォルマントとのインタラクションに関係している、そして、ピッチの変化またはフォルマントの変化による突然の変化は、インタラクションの変化を示す。この種の変化は、移行位置を表示している。イベントは、前述したフィルタ方法を使用して、これらの変化に応答して生成させることができる。これらのイベントは、それらが発生するときに、声門のパルスタイミングと同期するであろうことに注意されたい。
本発明のいくつかの実施態様では、声道の正規化のプロセスと柔らかい音素分節の認識が、特徴としてフォルマント・パターンを使用することに固有の複雑化を解決するために用いられる。話者によって生成されるフォルマント・パターンは、発生しつつ確かな音声音および話者の声道長についての情報を同時にコード化する。これは、特徴としてフォルマント・パターンの使用を難しくする。
LA/LB=FnB/FnA
を持つことが示されている。
本発明のいくつかの実施態様は、呼び出し時間を減らしかつ精度を改善するために時間的に重なっているバースト・モードで、複数のタンデム並列自動音声認識(ASR)エンジンを使用することに関わる。各ASRエンジンは、類似または非類似の設計および出所とすることができるが、全ては、最小限の分節化時間フレームの範囲内の分節の中心部において目的言語の受け入れ可能な結果を生成しなければならない。始めと終わりでワードより高い各分節の中心部で生成されたワードを重み付けし、かつ最適合致によってこれらの分節を同期させることによって、タンデム・プロセッサの結果が分析され、そしてより高い重みを有するワードが出力のために選択される。
本発明のいくつかの実施態様は、句読点のないテキストに句読点記号を自動的に挿入することに関する。自動句読点挿入器は、句読点のないテキストに句読点記号(期間、カンマ、質問マーク、感嘆符、アポストロフィ、引用マーク、ブラケット、省略記号、セミコロンかつコロン)を挿入するシステムである。
この特許出願は、2009年11月11日に出願された米国特許出願、シリアル番号12/616,723「自動音声テキスト変換のためのシステムと方法」、及び2008年11月12日に出願された米国仮特許出願、シリアル番号61/113,910「自動化された音声プロセッサおよび自動化された句読点挿入器」の優先権を主張する。これらの出願は、全体がこの参照によって本願明細書に組み込まれている。
Claims (20)
- 音声コード化信号を受信しかつデジタル化する音響分析器と、
音声認識において非常に関連している、当該イベントまたはイベントのパターンが、当該音声信号からイベントを抽出するイベント抽出器と、
当該イベント抽出器に結合させた音声認識モジュールであって、当該イベントを使用して、検出コンテンツに応答して少なくとも1個のアクションを開始する、音声認識モジュールと、
を備える音声認識エンジン。 - 当該開始されたアクションが、当該信号の前記音声コンテンツの少なくとも一つのテキスト・ストリームへの変換である、請求項1に記載の音声認識エンジン。
- 確かなワードが検出されると、当該開始されたアクションが、システムのオーディオ出力を抑制する、請求項1に記載の音声認識エンジン。
- 当該開始されたアクションが、検出された命令に応答する、請求項1に記載の音声認識エンジン。
- 当該イベント抽出器が、更に、
既知の分類デジタル化された音声発語の訓練コーパスと、
各弱い検出器が、イベントの存在を決定する方法を備える、複数の弱い検出器と、
アンサンブル検出器を組み立てる手段であって、当該アンサンブル検出器が、イベントの存在を決定する上で、共にアクションを取ることが、前記構成する弱い検出器の何れよりも、より良い結果をもたらす弱い検出器の一群を備えている、アンサンブル検出器を組み立てる手段と
を備える、請求項1に記載の音声認識エンジン。 - 当該アンサンブル検出器が、ブースト・アルゴリズムを使用して反復して、形成され、それによって、ブーストされたアンサンブル検出器が形成される、請求項5に記載の音声認識エンジン。
- 当該イベント抽出器が、当該ブーストされたアンサンブル検出器を簡略化するための手段を含み、これにより簡略アンサンブル検出器が形成される、請求項6に記載の音声認識エンジン。
- 当該イベント抽出器が、当該簡略アンサンブル検出器をカスケーディング検出器に自動的に変換する手段を含む、請求項7に記載の音声認識エンジン。
- 当該イベント抽出器が、音声を知覚クラスタに分類し、かつ選択される知覚の間の曖昧さをなくす手段を更に備える、請求項1に記載の音声認識エンジン。
- 当該イベント抽出器が、イベントを含まずかつ頑強な検出器が得られる結果をもたらす可能性がないデジタル化された音声信号の領域を拒絶する弱い領域拒絶器を、更に、備える、請求項1に記載の音声認識エンジン。
- 当該イベント抽出器が、イベントのシーケンスを検出するイベント・シーケンス認識器を、更に備える、請求項1に記載の音声認識エンジン。
- 当該イベント抽出器が、例えば、前記音声信号のアスペクトが損なわれるとき、認識を強化するために選択される音声キューを認識するように構成されている選択されるキュー検出器を、更に備える、請求項1に記載の音声認識エンジン。
- 特徴の計算を同期させるために用いられる間隔を規定するプレ分節化フィルタと、
前記間隔の知覚差に基づいて当該ディジタル化信号を分節化し、これにより区分化された信号を形成する手段と、
当該分節された信号からイベントに対する特徴を抽出する特徴抽出器と、
を備える信号同期エンジンを、
更に、備える、請求項1に記載の音声認識エンジン。 - 句読点を少なくとも一つのテキスト・ストリームに自動的に挿入する自動句読点挿入器を、更に、備える、請求項1に記載の音声認識エンジン。
- 訓練例に基づいて弱い分級器の訓練を確立するステップと、
検出器のアンサンブルを構築するステップと、
音声信号を受信するステップと、
当該音声信号をデジタル化するステップと、
弱い検出器の当該アンサンブルを使用して当該音声信号を処理し、これにより、少なくとも一つのイベントの存在を認識するステップであって、当該イベントが、音声認識において非常に関連している当該音声信号内のパターンを備える、ステップと、
音声を認識するために当該イベントを処理するステップと
を備える音声認識の方法。 - 検出器のアンサンブルを構築する前記ステップが、
・自動音声認識システムに格納されている訓練例を備える複数の音声信号を、格納するステップと、
・当該音声信号の特有な特性位置を備えるイベント・パターンを、当該複数の音声信号から抽出するステップと、
・マッチングするイベント・パターンを有する当該複数の音声信号のサンプルにアクセスするステップと、
・前記サンプルの中からの個々の音声信号からのイベントを整列配置するステップであって、当該整列配置が、当該マッチングしたイベント・パターンに基づいて当該個々の音声信号から当該イベントを時間的に整列させるステップと
を備え、
・オプションとして、当該個々の信号を共通の時間的持続時間に拡大・縮小するステップと、
・当該イベント・パターンを検出するために複数の弱い検出器の効果を評価するステップと、
・当該弱い検出器の前記相対的効果に基づいて、前記最も有効な弱い検出器が、最高に重みづけされるように、重み付け方式を当該複数の弱い検出器に適用するステップと、
少なくとも一つの弱い検出器を当該複数の弱い検出器に追加するステップと、
・下記ステップを繰り返すステップであって、
マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスするステップと、
前記サンプルの中からの個々の音声信号からのイベントを整列配置するステップと、
オプションとして、当該個々の信号を共通の時間的持続時間に拡大・縮小するステップと、
当該イベント・パターンを検出するために複数の弱い検出器の前記効果を評価するステップと、
当該弱い検出器の前記相対的効果に基づいて、当該複数の弱い検出器に重み付け方式を適用し、かつ少なくとも一つの弱い検出器を当該複数の弱い検出器に追加するステップと、
を繰り返すステップと
を備え、
当該重み付け方式の当該効果が、当該イベント・パターンを検出する効率の設定された標準に実行されるまで、反復の当該ステップが、反復される、
請求項15に記載の音声認識の方法。 - マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスする前記ステップが、更に、当該イベント・パターンを含む当該複数の音声信号の領域を、自動的に、識別するステップを備え、このステップが、
・共通の時間軸に対して当該複数の音声信号を整列配置するステップと、
・オプションとして、個々の音声信号の前記持続時間を前記複数の音声信号から1に拡大・縮小するステップと、
・投影された音節中心および投影されたイベント位置の形態で当該時間軸に、当該個々の音声信号の音節センターおよび/または他のイベント位置を投影するステップと、
・当該イベント・パターンを含む当該複数の音声信号の領域の形態で音節中心または他のイベント位置の集中を有する当該時間軸上の領域を識別するステップと
を備える、請求項16に記載の音声認識の方法。 - マッチングしているイベント・パターンを有する当該複数の音声信号のサンプルにアクセスする前記ステップが、当該イベント・パターンを含む当該複数の音声信号の領域を自動的に識別するステップを、更に、備え、このステップが、
・訓練集合にアクセスするステップと、
・当該音声信号を、正の訓練例からすべての前記イベントを含む時間―軌跡空間領域に変換するステップと、
・すべての当該領域に対して負の例の前記カウントを計算するステップと、
・負の訓練例から最少の前記イベントを有する前記時間―軌跡空間の領域を選択するステップと、
・前記選択された領域内のイベントが無い負の例を更なる考慮から削除するステップと、
・完全に当該訓練集合に作動するカスケードが作成されるまで、次のステップ、
各領域の残りの負の例からイベントの前記カウントを計算するステップと、
負の訓練例から最少の前記イベントを有する前記時間―軌跡空間の領域を選択するステップと、
前記選択された領域内のイベントが無い負の例を、更なる考慮から削除するステップと、
を繰り返すステップと
を備える、請求項15に記載の音声認識の方法。 - タンデムの二個以上の音声認識システムを作動させる方法であって、当該二個以上の音声認識システムが、重なる時間間隔で音声信号の検出および分析を実行し、当該方法が、
再構成可能である前記時間間隔を各音声認識エンジンで使えるように構成するステップと、
前記間隔上の前記重なりを構成するステップであって、前記重なりが、再構成可能であり、かつ前記重なりが、当該音声信号の最も情報の豊富な前記部分を反映するように設定されているステップと、
当該音声認識エンジン間の検出と分析を割振るステップと、
当該音声認識エンジンの前記結果を重みづけするステップであって、より大きな重みが、前記間隔の前記中央から取り出される結果に与えられ、かつ単一の時間間隔内でワードの前記アイデンティティに関して少なくとも2つの意見を生成するステップと、
前記少なくとも2つの意見の内どの意見が、より良く当該音声信号のテキスト表示を判断するかを決定するステップと
を備える音声認識の方法。 - デジタル発語の形態で音声信号を受信しかつそれをデジタル化する音響分析器と、
当該デジタル発語を少なくとも一つのテキスト・ストリームに変換する、当該音響解析器に連結されている音声認識モジュールと、
訓練データを含むデータベースに結合されている自動句読点エンジンであって、当該自動句読点エンジンが、統計に基づいて句読点がつけられたテキストの形態の当該訓練データを用いて、当該テキスト・ストリームに句読点を追加する少なくとも一つの統計プロセッサを含む、自動句読点エンジンと、
語彙ルール・データベースに連結されている、ルールに基づく句読点挿入器であって、当該ルールに基づく句読点挿入器が、ルールに基づいて句読点が入れられたテキストの形態の当該語彙ルール・データベースから、ルールを使用して当該テキスト・ストリームに句読点を追加する、句読点挿入器と、
当該句読点をつけられたテキストまたは当該統計に基づく句読点がつけられたテキストの何れが、より良好な句読点がつけられた結果をもたらすかどうかを決定する決定モジュールと、
を備える音声認識エンジン。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11391008P | 2008-11-12 | 2008-11-12 | |
US61/113,910 | 2008-11-12 | ||
US12/616,723 US8566088B2 (en) | 2008-11-12 | 2009-11-11 | System and method for automatic speech to text conversion |
US12/616,723 | 2009-11-11 | ||
PCT/US2009/064214 WO2010056868A1 (en) | 2008-11-12 | 2009-11-12 | System and method for automatic speach to text conversion |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012508903A true JP2012508903A (ja) | 2012-04-12 |
JP2012508903A5 JP2012508903A5 (ja) | 2013-11-14 |
JP5850747B2 JP5850747B2 (ja) | 2016-02-03 |
Family
ID=42166012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011536467A Active JP5850747B2 (ja) | 2008-11-12 | 2009-11-12 | 自動音声−テキスト変換のためのシステムと方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8566088B2 (ja) |
EP (1) | EP2347408A4 (ja) |
JP (1) | JP5850747B2 (ja) |
KR (1) | KR101688240B1 (ja) |
CN (1) | CN102227767B (ja) |
BR (1) | BRPI0922035B1 (ja) |
WO (1) | WO2010056868A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016517023A (ja) * | 2013-07-18 | 2016-06-09 | 三菱電機株式会社 | 音響信号を処理する方法 |
KR20220046771A (ko) * | 2020-10-08 | 2022-04-15 | (주)에어사운드 | 문장 구두점 제공 시스템 및 방법 |
WO2022085296A1 (ja) * | 2020-10-19 | 2022-04-28 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置 |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719004B2 (en) * | 2009-03-19 | 2014-05-06 | Ditech Networks, Inc. | Systems and methods for punctuating voicemail transcriptions |
US8712774B2 (en) * | 2009-03-30 | 2014-04-29 | Nuance Communications, Inc. | Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US10224036B2 (en) * | 2010-10-05 | 2019-03-05 | Infraware, Inc. | Automated identification of verbal records using boosted classifiers to improve a textual transcript |
US8676574B2 (en) | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
US9031839B2 (en) * | 2010-12-01 | 2015-05-12 | Cisco Technology, Inc. | Conference transcription based on conference data |
US9558738B2 (en) * | 2011-03-08 | 2017-01-31 | At&T Intellectual Property I, L.P. | System and method for speech recognition modeling for mobile voice search |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
US20120259638A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US9176957B2 (en) | 2011-06-10 | 2015-11-03 | Linkedin Corporation | Selective fact checking method and system |
US9087048B2 (en) | 2011-06-10 | 2015-07-21 | Linkedin Corporation | Method of and system for validating a fact checking system |
US8185448B1 (en) | 2011-06-10 | 2012-05-22 | Myslinski Lucas J | Fact checking method and system |
US9015037B2 (en) | 2011-06-10 | 2015-04-21 | Linkedin Corporation | Interactive fact checking system |
US9053750B2 (en) | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
US8719031B2 (en) * | 2011-06-17 | 2014-05-06 | At&T Intellectual Property I, L.P. | Dynamic access to external media content based on speaker content |
US20130094567A1 (en) * | 2011-10-18 | 2013-04-18 | Lsi Corporation | Apparatus and methods for performing block matching on a video stream |
US20130132079A1 (en) * | 2011-11-17 | 2013-05-23 | Microsoft Corporation | Interactive speech recognition |
US8849666B2 (en) * | 2012-02-23 | 2014-09-30 | International Business Machines Corporation | Conference call service with speech processing for heavily accented speakers |
CN102682766A (zh) * | 2012-05-12 | 2012-09-19 | 黄莹 | 可自学习的情侣声音对换机 |
US9529793B1 (en) | 2012-06-01 | 2016-12-27 | Google Inc. | Resolving pronoun ambiguity in voice queries |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US8484022B1 (en) | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US8484025B1 (en) * | 2012-10-04 | 2013-07-09 | Google Inc. | Mapping an audio utterance to an action using a classifier |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
US9557818B2 (en) * | 2012-10-16 | 2017-01-31 | Google Inc. | Contextually-specific automatic separators |
US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
US9240184B1 (en) | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US9483159B2 (en) | 2012-12-12 | 2016-11-01 | Linkedin Corporation | Fact checking graphical user interface including fact checking icons |
US8977555B2 (en) * | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
EP2973427B1 (en) | 2013-03-15 | 2020-09-09 | Intel Corporation | Continuous interaction learning and detection in real-time |
CN104142915B (zh) * | 2013-05-24 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN104143331B (zh) * | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
US9728202B2 (en) | 2013-08-07 | 2017-08-08 | Vonage America Inc. | Method and apparatus for voice modification during a call |
US9299358B2 (en) * | 2013-08-07 | 2016-03-29 | Vonage America Inc. | Method and apparatus for voice modification during a call |
US20150095320A1 (en) | 2013-09-27 | 2015-04-02 | Trooclick France | Apparatus, systems and methods for scoring the reliability of online information |
US10169424B2 (en) | 2013-09-27 | 2019-01-01 | Lucas J. Myslinski | Apparatus, systems and methods for scoring and distributing the reliability of online information |
WO2015057661A1 (en) * | 2013-10-14 | 2015-04-23 | The Penn State Research Foundation | System and method for automated speech recognition |
US8943405B1 (en) * | 2013-11-27 | 2015-01-27 | Google Inc. | Assisted punctuation of character strings |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
CN103761064A (zh) * | 2013-12-27 | 2014-04-30 | 圆展科技股份有限公司 | 自动语音输入系统及其方法 |
US9269045B2 (en) * | 2014-02-14 | 2016-02-23 | Qualcomm Incorporated | Auditory source separation in a spiking neural network |
US9643722B1 (en) | 2014-02-28 | 2017-05-09 | Lucas J. Myslinski | Drone device security system |
US9972055B2 (en) | 2014-02-28 | 2018-05-15 | Lucas J. Myslinski | Fact checking method and system utilizing social networking information |
US8990234B1 (en) | 2014-02-28 | 2015-03-24 | Lucas J. Myslinski | Efficient fact checking method and system |
US9189514B1 (en) | 2014-09-04 | 2015-11-17 | Lucas J. Myslinski | Optimized fact checking method and system |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
US9659259B2 (en) * | 2014-12-20 | 2017-05-23 | Microsoft Corporation | Latency-efficient multi-stage tagging mechanism |
US10395555B2 (en) * | 2015-03-30 | 2019-08-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing optimal braille output based on spoken and sign language |
US9640177B2 (en) | 2015-06-01 | 2017-05-02 | Quest Software Inc. | Method and apparatus to extrapolate sarcasm and irony using multi-dimensional machine learning based linguistic analysis |
US10529328B2 (en) | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
US9978370B2 (en) * | 2015-07-31 | 2018-05-22 | Lenovo (Singapore) Pte. Ltd. | Insertion of characters in speech recognition |
CN105741838B (zh) * | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
KR101862337B1 (ko) * | 2016-03-24 | 2018-05-31 | 주식회사 닷 | 정보 출력 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
CN107886951B (zh) * | 2016-09-29 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 一种语音检测方法、装置及设备 |
KR102476897B1 (ko) | 2016-10-05 | 2022-12-12 | 삼성전자주식회사 | 객체 추적 방법 및 장치, 및 이를 이용한 3d 디스플레이 장치 |
CN107943405A (zh) * | 2016-10-13 | 2018-04-20 | 广州市动景计算机科技有限公司 | 语音播报装置、方法、浏览器及用户终端 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
KR101818980B1 (ko) | 2016-12-12 | 2018-01-16 | 주식회사 소리자바 | 다중 화자 음성 인식 수정 시스템 |
CN107424612B (zh) * | 2017-07-28 | 2021-07-06 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
JP6891073B2 (ja) * | 2017-08-22 | 2021-06-18 | キヤノン株式会社 | スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
CN108108357B (zh) * | 2018-01-12 | 2022-08-09 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
CN108600773B (zh) * | 2018-04-25 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
RU2711153C2 (ru) | 2018-05-23 | 2020-01-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя |
CN108831458A (zh) * | 2018-05-29 | 2018-11-16 | 广东声将军科技有限公司 | 一种离线的语音到命令变换方法和系统 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
US11094326B2 (en) * | 2018-08-06 | 2021-08-17 | Cisco Technology, Inc. | Ensemble modeling of automatic speech recognition output |
CN109192217B (zh) * | 2018-08-06 | 2023-03-31 | 中国科学院声学研究所 | 面向多类低速率压缩语音隐写的通用信息隐藏检测方法 |
TWI698857B (zh) * | 2018-11-21 | 2020-07-11 | 財團法人工業技術研究院 | 語音辨識系統及其方法、與電腦程式產品 |
RU2761940C1 (ru) | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
CN111858861B (zh) * | 2019-04-28 | 2022-07-19 | 华为技术有限公司 | 一种基于绘本的问答交互方法及电子设备 |
CN112036174B (zh) * | 2019-05-15 | 2023-11-07 | 南京大学 | 一种标点标注方法及装置 |
CN110287156B (zh) * | 2019-06-28 | 2021-12-21 | 维沃移动通信有限公司 | 文件处理方法及移动终端 |
US11961511B2 (en) * | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
CN111369981B (zh) * | 2020-03-02 | 2024-02-23 | 北京远鉴信息技术有限公司 | 一种方言地域识别方法、装置、电子设备及存储介质 |
CN111931508B (zh) * | 2020-08-24 | 2023-05-12 | 上海携旅信息技术有限公司 | 数字转换方法及系统、文本处理方法及系统、设备和介质 |
CN112331178A (zh) * | 2020-10-26 | 2021-02-05 | 昆明理工大学 | 一种用于低信噪比环境下的语种识别特征融合方法 |
EP4181120A4 (en) * | 2020-11-25 | 2024-01-10 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE FOR GENERATING A RESPONSE TO A USER INPUTION AND OPERATING METHOD THEREFOR |
CN112966561B (zh) * | 2021-02-03 | 2024-01-30 | 成都职业技术学院 | 一种便携式大学生创新创业多功能记录方法及装置 |
US11545143B2 (en) | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
CN113744368A (zh) * | 2021-08-12 | 2021-12-03 | 北京百度网讯科技有限公司 | 动画合成方法、装置、电子设备及存储介质 |
KR20230102506A (ko) * | 2021-12-30 | 2023-07-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
TWI812070B (zh) * | 2022-03-15 | 2023-08-11 | 宏碁股份有限公司 | 錄音檔轉文字稿方法及系統 |
CN114758645B (zh) * | 2022-04-29 | 2024-08-06 | 建信金融科技有限责任公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002156997A (ja) * | 2000-11-21 | 2002-05-31 | Sharp Corp | 音声検出制御装置 |
JP2003177776A (ja) * | 2001-12-12 | 2003-06-27 | Seiko Instruments Inc | 議事録記録システム |
JP2008009120A (ja) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | リモートコントローラ並びに家電機器 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5799276A (en) | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US6611802B2 (en) | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US7668718B2 (en) | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
-
2009
- 2009-11-11 US US12/616,723 patent/US8566088B2/en active Active
- 2009-11-12 BR BRPI0922035-6A patent/BRPI0922035B1/pt not_active IP Right Cessation
- 2009-11-12 JP JP2011536467A patent/JP5850747B2/ja active Active
- 2009-11-12 WO PCT/US2009/064214 patent/WO2010056868A1/en active Application Filing
- 2009-11-12 KR KR1020117013340A patent/KR101688240B1/ko active IP Right Grant
- 2009-11-12 CN CN200980148155.7A patent/CN102227767B/zh active Active
- 2009-11-12 EP EP09826754A patent/EP2347408A4/en not_active Ceased
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002156997A (ja) * | 2000-11-21 | 2002-05-31 | Sharp Corp | 音声検出制御装置 |
JP2003177776A (ja) * | 2001-12-12 | 2003-06-27 | Seiko Instruments Inc | 議事録記録システム |
JP2008009120A (ja) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | リモートコントローラ並びに家電機器 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016517023A (ja) * | 2013-07-18 | 2016-06-09 | 三菱電機株式会社 | 音響信号を処理する方法 |
US9601130B2 (en) | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
KR20220046771A (ko) * | 2020-10-08 | 2022-04-15 | (주)에어사운드 | 문장 구두점 제공 시스템 및 방법 |
KR102562692B1 (ko) * | 2020-10-08 | 2023-08-02 | (주)에어사운드 | 문장 구두점 제공 시스템 및 방법 |
WO2022085296A1 (ja) * | 2020-10-19 | 2022-04-28 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102227767B (zh) | 2014-10-15 |
WO2010056868A1 (en) | 2010-05-20 |
EP2347408A4 (en) | 2012-05-02 |
BRPI0922035A2 (pt) | 2021-08-31 |
US8566088B2 (en) | 2013-10-22 |
KR101688240B1 (ko) | 2016-12-20 |
EP2347408A1 (en) | 2011-07-27 |
US20100121638A1 (en) | 2010-05-13 |
CN102227767A (zh) | 2011-10-26 |
JP5850747B2 (ja) | 2016-02-03 |
KR20110095314A (ko) | 2011-08-24 |
BRPI0922035B1 (pt) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5850747B2 (ja) | 自動音声−テキスト変換のためのシステムと方法 | |
Hu et al. | A tandem algorithm for pitch estimation and voiced speech segregation | |
US7917361B2 (en) | Spoken language identification system and methods for training and operating same | |
Wang et al. | An acoustic measure for word prominence in spontaneous speech | |
US6553342B1 (en) | Tone based speech recognition | |
Howell et al. | Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: II. ANN recognition of repetitions and prolongations with supplied word segment markers | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
Gupta et al. | Implicit language identification system based on random forest and support vector machine for speech | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Ziółko et al. | Phoneme segmentation based on wavelet spectra analysis | |
Ishi | Perceptually-related F0 parameters for automatic classification of phrase final tones | |
Rao et al. | Language identification using excitation source features | |
CN116543750A (zh) | 一种语音识别用精度提升系统 | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
Dharmani et al. | Performance evaluation of ASR for isolated words in Sindhi Language | |
Mahar et al. | Superposition of Functional Contours Based Prosodic Feature Extraction for Speech Processing. | |
Sethu | Automatic emotion recognition: an investigation of acoustic and prosodic parameters | |
Reddy et al. | Automatic pitch accent contour transcription for Indian languages | |
Shi | Processing methods for the detection of landmark acoustic cues | |
Anupam et al. | Detection of phonation events for feature-cue-based analysis using Gaussian mixture models | |
Ramakrishna | Vowel Region based Speech Analysis and Applications | |
Genette et al. | Determining spectral stability in vowels: A comparison and assessment of different metrics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121121 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121129 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121221 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130515 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130919 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20130919 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140218 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140314 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150107 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20150612 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20150724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150930 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5850747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |