JP4725948B2 - テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 - Google Patents
テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 Download PDFInfo
- Publication number
- JP4725948B2 JP4725948B2 JP2004296854A JP2004296854A JP4725948B2 JP 4725948 B2 JP4725948 B2 JP 4725948B2 JP 2004296854 A JP2004296854 A JP 2004296854A JP 2004296854 A JP2004296854 A JP 2004296854A JP 4725948 B2 JP4725948 B2 JP 4725948B2
- Authority
- JP
- Japan
- Prior art keywords
- silence
- audio
- audio file
- piece
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003780 insertion Methods 0.000 claims abstract description 57
- 230000037431 insertion Effects 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 230000001360 synchronised effect Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 27
- 239000003550 marker Substances 0.000 claims description 19
- 230000010354 integration Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 235000015067 sauces Nutrition 0.000 claims 1
- 238000013507 mapping Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
(a)オリジナルオーディオファイルから認識されたテキストピース及び組み合わされたテキストピースを作るための言語認識モジュール;
(b)オーディオピースを統合オーディオファイルに統合するための無音挿入モジュール;
(c)オリジナルオーディオファイル及び統合オーディオファイルを、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するための無音検出モジュール、この場合、無音グループ及び非無音グループは閾値音量を使用して識別され;
(d)前記無音挿入モジュールであって、更に
(i)無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そしてそれぞれのファイル内の非無音グループの位置の差を決定し、
(ii)無音の挿入されたオーディオピースの統合がオリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために(i)において決定された位置の差に従ってオーディオピース内に無音を挿入し;更に
(iii)オリジナルオーディオファイルから認識されたテキストピースのディスプレイと、オリジナルオーディオファイルからの組み合わせられたオーディオピースの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ようにされた前記無音挿入モジュール
を備えたシステムを提供する。
(a)オリジナルオーディオファイル内の話された言語を認識し、そして認識されたテキストピース及び組み合わされたオーディオピースを作り;
(b)オーディオピースを統合オーディオファイルに統合し;
(c)オリジナルオーディオファイル及び統合オーディオファイルを無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルに変換するために無音検出を適用し、この際、無音グループ及び非無音グループは閾値音量を使用して識別され;
(d)無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、そして無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差を決定し、
(e)無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに実質的に相当する統合された無音の挿入されたオーディオピースファイルを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイル内の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入し;更に
(f)オリジナルオーディオファイルから認識されたテキストピのディスプレイと、オリジナルオーディオファイルの再生とを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースの特性を利用する
ことを含んだ前記方法。
100msでのMinit;非無音持続時間=100ms;閾値=6,000
0msでのNinit;非無音持続時間=100ms
50msでのOinit;非無音持続時間=100ms;閾値=7,000
本発明の無音挿入手順に従って、過程(118)で、ポインターM及びOにより指し示される該非無音グループの持続時間と閾値が相互の予め決められたパーセンテージ範囲(例えば80%)内にあるかどうかが決定される。この場合、それらは否なので、過程(140)が実行される。ポインターM及びOにより指し示される該非無音グループの持続時間は等しく(すなわち、両者共100ms)、従って、両ポインターM及びOは次の非無音グループへ進められ、前及び次の非無音グループの各対用の平均持続時間と閾値が各ポインターM及びO用に計算されることは注意すべきである。ポインターM及びOにより指し示される該非無音グループの持続時間が等しくない場合に、該より短い持続時間を有する該非無音グループと組み合わされたポインターM又はOのみが進められることは理解されるべきである。
ポインターM用の次の非無音期間:
100msの無音;非無音持続時間=50ms;閾値=10,000
ポインターO用の次の非無音期間:
80msの無音;非無音持続時間=70ms;閾値=10,000
過程(142)で、該平均結果は次いで下記の様に計算される:
100msに位置付けられたMポインター;持続時間=250ms;閾値=
6000*100/250+0+9500*70/250=5060
50msに位置付けられたOポインター;持続時間=250ms;閾値=
7000*100/250+0+10,000*70/250=4800
従って、過程(142)で、ポインターM及びOにより指し示された該非無音グループの平均持続時間と閾値が今予め決められたパーセンテージ偏差(例えば、80%)内にあるかどうかが決定される。該平均持続時間が同じであり平均閾値がこの様な予め決められたパーセンテージ偏差内にあるので、ポインターM及びOは無音挿入用に適当な位置にあると考えられ、過程(120)は実行される。特に、過程(120)で、ポインターNはそれがポインターMと整合するまで進められる。過程(121)で、ポインターM及びOの位置間の差は50msであると計算され、それはポインターNにより現在指し示されるオーディオピースに付加される必要がある無音の量である。
3 ユーザー
10 オーディオ処理システム
12 言語認識モジュール
14 無音検出モジュール
15 マッピング・ファイル
16 無音挿入モジュール
18 再生装置
25 オリジナルオーディオファイル
27 オーディオピース・ファイル
35 無音が検出されたオリジナルオーディオファイル
36 スライディング・ウインドウ
39 無音が検出された統合オーディオファイル
150、152、154 スクリーン・ディスプレー
N、M、O ポインター
Claims (11)
- 使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイと、前記オリジナルオーディオファイルに再生とを同期させるためのオーディオ処理方法であって、
オリジナルオーディオファイル内の話された言語を認識して言語認識モジュールの手段により、認識されたテキストのピースと組み合わせられたオーディオピースとを作る過程、
無音挿入モジュールを使用してオーディオピースを統合オーディオファイルに統合する過程、
無音及び非無音のグループが閾値音量を使用して識別される、オリジナルオーディオファイルと統合オーディオファイルとの両者をそれぞれ無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルに変換するために無音検出モジュールを使用する過程と、
無音の検出されたオリジナルオーディオファイルと無音の検出された統合オーディオファイルとを比較し、前記無音の検出されたオリジナルオーディオファイル及び前記無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差を決定する過程と、
無音の挿入されたオーディオピースの統合が、オリジナルオーディオファイルに相当する統合された無音の挿入されたオーディオピースを生むように、無音の挿入されたオーディオピースを作るために、無音の検出されたオリジナルオーディオファイル及び無音の検出された統合オーディオファイルの中の対応している非無音グループの位置の差に従ってオーディオピース内に無音を挿入するために前記無音挿入モジュールを使用する過程と、そして
オリジナルオーディオファイルの再生と認識されたテキストのディスプレイとを同期させるために、無音の挿入されたオーディオピース及び組み合わせらたれ認識されたテキストピースを利用する過程と、
を具備する方法。 - 続行する非無音グループを非無音として考えるべきか、或いは無音として再分類するべきかを決定するために、多数の先行非無音グループの平均音量を維持するように、無音検出が、順応できるスライドする平均ウインドウレジスターを利用することを備えている請求項1記載の方法。
- 前記非無音グループの各々が、前記ブロック内のオーディオの平均音量に相当する高さで組み合わせられる請求項1又は2記載の方法。
- オリジナルオーディオファイルが環境内において記録され、無音検出が環境を反映する閾値音量を選択することを備えている請求項1乃至3のいずれか1記載の方法。
- 前記の比較する過程が、
i)オリジナルオーディオマーカーを無音の検出されたオリジナルオーディオファイル内の非無音グループの前方の位置に割り付け、統合されたマーカーを無音の検出された統合オーディオファイル内の非無音グループの前方の位置に割り付け、
ii)それぞれの非無音グループが適合するか否かを決定し、
iii)前記オリジナルオーディオマーカーと前記統合されたマーカーとの間の位置の差を決定し、
iv)該i)乃至iii)の過程を少なくも1回繰り返す、
ことを備えている請求項1乃至4のいずれか1記載の方法。 - 無音の挿入されたオーディオピース及び組み合わせられた統合テキストピースの各々が複数の特性を備え、複数の特性が、オリジナルオーディオファイルの出発点に関するオーディオピース内のテキストピースの出発文字の位置、テキストピース内の文字の数、オーディオピースの持続時間、テキストピースと組み合わせられたテキスト認識の信頼のレベルよりなるグループの少なくも一つを備えている請求項1乃至5のいずれか1記載の方法。
- 無音の挿入されたオーディオピースのタイミング特性の利用により、組み合わせられたオーディオピースの再生と認識されたテキストピースのディスプレイとを同期させる過程を具備する請求項1乃至6のいずれか1記載の方法。
- 認識されたテキストピース及び少なくも1個の隣接した認識されたテキストピースに相当するオーディオピースの再生の間に、前記認識されたテキストピース及び少なくも1個の隣接した認識されたテキストピースを強調する認識されたテキストのディスプレイを同期させる過程を具備する請求項1乃至7のいずれか1記載の方法。
- 前記オリジナルオーディオファイルが、端末装置を使用している使用者から得られる請求項1乃至8のいずれか1記載の方法。
- 認識されたテキストピースがディスプレイされ、そして組み合わせられたオーディオピースが、認識されたテキストピースと同期する方法で、再生装置を使用して再生される請求項1乃至9のいずれか1記載の方法。
- 使用者により話された言語を含むオリジナルオーディオファイルから認識されたテキストのディスプレイを、前記オリジナルオーディオファイルの再生と同期させるようにオーディオ処理するためのコンピューターベースのシステムであって、
言語認識モジュール、
無音挿入モジュール、
無音検出モジュール、
請求項1から10のいずれか1記載の方法を実行するコンピュータープログラム、
を具備するシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/681428 | 2003-10-08 | ||
US10/681,428 US7346506B2 (en) | 2003-10-08 | 2003-10-08 | System and method for synchronized text display and audio playback |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005115391A JP2005115391A (ja) | 2005-04-28 |
JP4725948B2 true JP4725948B2 (ja) | 2011-07-13 |
Family
ID=34314122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004296854A Expired - Fee Related JP4725948B2 (ja) | 2003-10-08 | 2004-10-08 | テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7346506B2 (ja) |
EP (1) | EP1522989A1 (ja) |
JP (1) | JP4725948B2 (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997044780A1 (en) * | 1996-05-20 | 1997-11-27 | International Business Machines Corporation | Shape memory alloy recording medium, storage devices based thereon, and method for using these storage devices |
US7466992B1 (en) | 2001-10-18 | 2008-12-16 | Iwao Fujisaki | Communication device |
US7107081B1 (en) | 2001-10-18 | 2006-09-12 | Iwao Fujisaki | Communication device |
US8090402B1 (en) | 2003-09-26 | 2012-01-03 | Iwao Fujisaki | Communication device |
US8121635B1 (en) | 2003-11-22 | 2012-02-21 | Iwao Fujisaki | Communication device |
DE102004035244A1 (de) * | 2004-07-21 | 2006-02-16 | Givemepower Gmbh | Verfahren zum abrufbaren Speichern von Audiodaten in einer Computervorrichtung |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US8677274B2 (en) * | 2004-11-10 | 2014-03-18 | Apple Inc. | Highlighting items for search results |
US8208954B1 (en) | 2005-04-08 | 2012-06-26 | Iwao Fujisaki | Communication device |
US8738787B2 (en) | 2005-04-20 | 2014-05-27 | Limelight Networks, Inc. | Ad server integration |
US7693717B2 (en) * | 2006-04-12 | 2010-04-06 | Custom Speech Usa, Inc. | Session file modification with annotation using speech recognition or text to speech |
US20070244700A1 (en) * | 2006-04-12 | 2007-10-18 | Jonathan Kahn | Session File Modification with Selective Replacement of Session File Components |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US9870796B2 (en) | 2007-05-25 | 2018-01-16 | Tigerfish | Editing video using a corresponding synchronized written transcript by selection from a text viewer |
WO2008148102A1 (en) | 2007-05-25 | 2008-12-04 | Tigerfish | Method and system for rapid transcription |
US8676273B1 (en) * | 2007-08-24 | 2014-03-18 | Iwao Fujisaki | Communication device |
US8340726B1 (en) | 2008-06-30 | 2012-12-25 | Iwao Fujisaki | Communication device |
US20100017208A1 (en) * | 2008-07-16 | 2010-01-21 | Oki Electric Industry Co., Ltd. | Integrated circuit for processing voice |
KR100998566B1 (ko) * | 2008-08-11 | 2010-12-07 | 엘지전자 주식회사 | 음성인식을 이용한 언어 번역 방법 및 장치 |
ATE449400T1 (de) * | 2008-09-03 | 2009-12-15 | Svox Ag | Sprachsynthese mit dynamischen einschränkungen |
US8954328B2 (en) * | 2009-01-15 | 2015-02-10 | K-Nfb Reading Technology, Inc. | Systems and methods for document narration with multiple characters having multiple moods |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US8392186B2 (en) * | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
CN102314874A (zh) * | 2010-06-29 | 2012-01-11 | 鸿富锦精密工业(深圳)有限公司 | 文本到语音转换系统与方法 |
KR101030777B1 (ko) * | 2010-11-10 | 2011-05-25 | 김인송 | 스크립트 데이터 생성 방법 및 장치 |
US9800941B2 (en) * | 2011-01-03 | 2017-10-24 | Curt Evans | Text-synchronized media utilization and manipulation for transcripts |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US20130002532A1 (en) * | 2011-07-01 | 2013-01-03 | Nokia Corporation | Method, apparatus, and computer program product for shared synchronous viewing of content |
JP5638479B2 (ja) * | 2011-07-26 | 2014-12-10 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9117195B2 (en) * | 2012-02-13 | 2015-08-25 | Google Inc. | Synchronized consumption modes for e-books |
US20140013192A1 (en) * | 2012-07-09 | 2014-01-09 | Sas Institute Inc. | Techniques for touch-based digital document audio and user interface enhancement |
US20140047073A1 (en) * | 2012-08-10 | 2014-02-13 | Marcin Beme | Platform Independent Multimedia Playback Apparatuses, Methods, and Systems |
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
KR20150024650A (ko) * | 2013-08-27 | 2015-03-09 | 삼성전자주식회사 | 전자 장치에서 사운드를 시각적으로 제공하기 위한 방법 및 장치 |
US10748523B2 (en) | 2014-02-28 | 2020-08-18 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10776419B2 (en) | 2014-05-16 | 2020-09-15 | Gracenote Digital Ventures, Llc | Audio file quality and accuracy assessment |
KR20150144031A (ko) * | 2014-06-16 | 2015-12-24 | 삼성전자주식회사 | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 |
JP5943436B2 (ja) * | 2014-06-30 | 2016-07-05 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
CA3004970C (en) * | 2015-03-13 | 2022-05-03 | Trint Limited | Media generating and editing system |
JP6432405B2 (ja) * | 2015-03-18 | 2018-12-05 | 富士通株式会社 | プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム |
DK179496B1 (en) * | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
CN112669814B (zh) * | 2020-12-17 | 2024-06-14 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN112634907B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 用于语音识别的音频数据处理方法及装置 |
CN116030789B (zh) * | 2022-12-28 | 2024-01-26 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6193484A (ja) * | 1984-10-12 | 1986-05-12 | 松下電器産業株式会社 | 発音練習装置 |
JPH01172900A (ja) * | 1987-12-21 | 1989-07-07 | Internatl Business Mach Corp <Ibm> | 音声データ処理装置 |
JPH07182325A (ja) * | 1994-09-16 | 1995-07-21 | Casio Comput Co Ltd | 文書処理装置 |
JP2001228897A (ja) * | 2000-02-18 | 2001-08-24 | Canon Inc | 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体 |
JP2002091472A (ja) * | 2000-09-19 | 2002-03-27 | Nippon Hoso Kyokai <Nhk> | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 |
JP2002165153A (ja) * | 2000-11-27 | 2002-06-07 | Asaka Co Ltd | 映像/音声ずれ補正方法及び装置 |
JP2002351490A (ja) * | 2001-05-29 | 2002-12-06 | Telecommunication Advancement Organization Of Japan | 字幕へのタイミング情報付与方法 |
JP2003131694A (ja) * | 2001-08-04 | 2003-05-09 | Koninkl Philips Electronics Nv | 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法 |
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4449190A (en) * | 1982-01-27 | 1984-05-15 | Bell Telephone Laboratories, Incorporated | Silence editing speech processor |
AT390685B (de) | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US6076059A (en) * | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
US6457031B1 (en) | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US6360237B1 (en) | 1998-10-05 | 2002-03-19 | Lernout & Hauspie Speech Products N.V. | Method and system for performing text edits during audio recording playback |
DE69931783T2 (de) * | 1999-10-18 | 2007-06-14 | Lucent Technologies Inc. | Verbesserung bei digitaler Kommunikationseinrichtung |
US6446041B1 (en) | 1999-10-27 | 2002-09-03 | Microsoft Corporation | Method and system for providing audio playback of a multi-source document |
GB9930731D0 (en) | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
US6260011B1 (en) * | 2000-03-20 | 2001-07-10 | Microsoft Corporation | Methods and apparatus for automatically synchronizing electronic audio files with electronic text files |
WO2002080143A1 (en) | 2001-03-29 | 2002-10-10 | Koninklijke Philips Electronics N.V. | Synchronise an audio cursor and a text cursor during editing |
-
2003
- 2003-10-08 US US10/681,428 patent/US7346506B2/en active Active
-
2004
- 2004-10-07 EP EP04104910A patent/EP1522989A1/en not_active Ceased
- 2004-10-08 JP JP2004296854A patent/JP4725948B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6193484A (ja) * | 1984-10-12 | 1986-05-12 | 松下電器産業株式会社 | 発音練習装置 |
JPH01172900A (ja) * | 1987-12-21 | 1989-07-07 | Internatl Business Mach Corp <Ibm> | 音声データ処理装置 |
JPH07182325A (ja) * | 1994-09-16 | 1995-07-21 | Casio Comput Co Ltd | 文書処理装置 |
JP2001228897A (ja) * | 2000-02-18 | 2001-08-24 | Canon Inc | 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体 |
JP2002091472A (ja) * | 2000-09-19 | 2002-03-27 | Nippon Hoso Kyokai <Nhk> | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 |
JP2002165153A (ja) * | 2000-11-27 | 2002-06-07 | Asaka Co Ltd | 映像/音声ずれ補正方法及び装置 |
JP2002351490A (ja) * | 2001-05-29 | 2002-12-06 | Telecommunication Advancement Organization Of Japan | 字幕へのタイミング情報付与方法 |
JP2003131694A (ja) * | 2001-08-04 | 2003-05-09 | Koninkl Philips Electronics Nv | 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法 |
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
Also Published As
Publication number | Publication date |
---|---|
US7346506B2 (en) | 2008-03-18 |
JP2005115391A (ja) | 2005-04-28 |
EP1522989A1 (en) | 2005-04-13 |
US20050080633A1 (en) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4725948B2 (ja) | テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法 | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
JP5255769B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US7292975B2 (en) | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription | |
US20030004724A1 (en) | Speech recognition program mapping tool to align an audio file to verbatim text | |
US20080255837A1 (en) | Method for locating an audio segment within an audio file | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US7516070B2 (en) | Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method | |
US20020095290A1 (en) | Speech recognition program mapping tool to align an audio file to verbatim text | |
US20060190249A1 (en) | Method for comparing a transcribed text file with a previously created file | |
WO2020224217A1 (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
US20020163533A1 (en) | Synchronizing text/visual information with audio playback | |
US20050131559A1 (en) | Method for locating an audio segment within an audio file | |
Cervera et al. | Acoustical analysis of Spanish vowels produced by laryngectomized subjects | |
US20070106508A1 (en) | Methods and systems for creating a second generation session file | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
WO2013052292A9 (en) | Waveform analysis of speech | |
TWI299855B (en) | Detection method for voice activity endpoint | |
WO2021127975A1 (zh) | 一种声音采集对象声纹检测方法、装置和设备 | |
Veiga et al. | Towards automatic classification of speech styles | |
Fletcher et al. | Comparing lexical cues in listener processing of dysarthria and speech in noise | |
US20140207456A1 (en) | Waveform analysis of speech | |
Fayan et al. | Automatic Speech Recognition with Machine Learning: Techniques and Evaluation of Current Tools | |
Chen et al. | A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems | |
Greibus et al. | Segmentation analysis using synthetic speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071005 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101020 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101025 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101119 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101125 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101217 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110405 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |