JP5313466B2 - 音声の再生に同期して音声の内容を表示させる技術 - Google Patents
音声の再生に同期して音声の内容を表示させる技術 Download PDFInfo
- Publication number
- JP5313466B2 JP5313466B2 JP2007170113A JP2007170113A JP5313466B2 JP 5313466 B2 JP5313466 B2 JP 5313466B2 JP 2007170113 A JP2007170113 A JP 2007170113A JP 2007170113 A JP2007170113 A JP 2007170113A JP 5313466 B2 JP5313466 B2 JP 5313466B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- misrecognized
- recognized
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Description
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施形態に係る情報システム10は、このような音声データの再生とテキストの表示とを同期させる技術において、これまでの技術では発音タイミングの特定が困難だった語句についても、極めて高精度にその発音タイミングを検出することを目的とする。
以下に説明する処理は、それぞれの文についての第1認識テキストについて略同一であるから、以降特に断らない限り、これらを代表して1つの第1認識テキストについて説明する。
なお、本実施の形態に係る表示装置25のハードウェア構成も、図12に示す同期システム20のハードウェア構成と略同一であるから説明を省略する。
12 録音装置
15 データベース
20 同期システム
25 表示装置
50 記録媒体
100 入力テキスト
105 タイムスタンプデータ
110 入力音声データ
200 第1登録部
205 基本辞書データベース
208 第1辞書データベース
210 第1認識部
220 第1検出部
230 第2登録部
235 第2辞書データベース
240 第2認識部
250 第2検出部
260 音声合成部
270 比率算出部
280 出力部
Claims (12)
- 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムであって、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
前記音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部と
を備え、
音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの語句を登録する第2登録部と、
前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する第2検出部と
を更に備え、
前記音声合成部は、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するシステム。 - 前記第2登録部は、前記第1誤認識テキストに含まれる少なくとも1つの語句に、その語句を音声合成した合成音声を対応付けて、音声認識のための辞書に登録する
請求項1に記載のシステム。 - 前記第2検出部は、前記第1誤認識テキストを前記第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストを含む、予め定められた単位の文字列を、前記第2誤認識テキストとして検出し、
前記比率算出部は、その第2誤認識テキストについて生成した合成音声において、その第2誤認識テキストに含まれる語句のうち、その第2認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、音声データのうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付けて出力する
請求項1に記載のシステム。 - 前記第2検出部が前記第2誤認識テキストとして検出する、前記予め定められた単位は、文である、請求項3に記載のシステム。
- 前記出力部は、前記音声データが再生される時間を、前記比率算出部が算出した比率で分割して、分割した各時間の開始時刻および終了時刻の少なくとも一方を、入力したテキストに含まれる複数の語句のそれぞれに対応付けたデータを生成し、出力する、請求項1に記載のシステム。
- 前記出力部は、さらに、前記音声データを再生して音声を順次出力すると共に、再生開始からの経過時間を計測し、その経過時間に対応する語句を他の語句とは識別可能に表示する、請求項1に記載のシステム。
- 前記出力部は、再生される音声の内容を予め記録したテキストに含まれる各語句を、その語句が、前記第2誤認識テキストに含まれるか、その第2誤認識テキストには含まれず前記第1誤認識テキストに含まれるか、または、それらの何れの誤認識テキストにも含まれないかを、識別可能に表示する、請求項1に記載のシステム。
- 再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部と
を備えるシステム。 - 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングをコンピュータにより推定する方法であって、
前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録するステップと、
前記コンピュータにより、前記音声データを再生して生成した音声を、語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成するステップと、
前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出するステップと、
前記コンピュータにより、その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成するステップと、
前記コンピュータにより、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
前記コンピュータにより、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
を備え、
前記コンピュータにより、音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの更なる語句を登録するステップと、
前記コンピュータにより、前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、更なる語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成するステップと、
前記コンピュータにより、その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出するステップと、
前記コンピュータにより、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成するステップと、
前記コンピュータにより、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
前記コンピュータにより、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
を更に備える方法。 - コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録するステップと、
前記コンピュータにより、音声データを再生して生成した音声を、前記登録することにおいて語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出するステップと、
前記コンピュータにより、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外するステップと、
前記コンピュータにより、その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記除外することによって語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力するステップと
を備える方法。 - 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
前記音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部
として機能させ、
更に、前記コンピュータを、
音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの語句を登録する第2登録部と、
前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する第2検出部
として機能させ、
前記音声合成部は、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するプログラム。 - コンピュータを、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部
として機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007170113A JP5313466B2 (ja) | 2007-06-28 | 2007-06-28 | 音声の再生に同期して音声の内容を表示させる技術 |
US12/145,804 US8065142B2 (en) | 2007-06-28 | 2008-06-25 | Synchronization of an input text of a speech with a recording of the speech |
US13/279,479 US8209169B2 (en) | 2007-06-28 | 2011-10-24 | Synchronization of an input text of a speech with a recording of the speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007170113A JP5313466B2 (ja) | 2007-06-28 | 2007-06-28 | 音声の再生に同期して音声の内容を表示させる技術 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012116006A Division JP5608706B2 (ja) | 2012-05-21 | 2012-05-21 | 音声の再生に同期して音声の内容を表示させる技術 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009008884A JP2009008884A (ja) | 2009-01-15 |
JP5313466B2 true JP5313466B2 (ja) | 2013-10-09 |
Family
ID=40161632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007170113A Expired - Fee Related JP5313466B2 (ja) | 2007-06-28 | 2007-06-28 | 音声の再生に同期して音声の内容を表示させる技術 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8065142B2 (ja) |
JP (1) | JP5313466B2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2932920A1 (fr) * | 2008-06-19 | 2009-12-25 | Archean Technologies | Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore |
US10088976B2 (en) | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
US8346557B2 (en) * | 2009-01-15 | 2013-01-01 | K-Nfb Reading Technology, Inc. | Systems and methods document narration |
US8498866B2 (en) * | 2009-01-15 | 2013-07-30 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple language document narration |
US8392186B2 (en) * | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
CN102298582B (zh) * | 2010-06-23 | 2016-09-21 | 商业对象软件有限公司 | 数据搜索和匹配方法和系统 |
CN102314874A (zh) * | 2010-06-29 | 2012-01-11 | 鸿富锦精密工业(深圳)有限公司 | 文本到语音转换系统与方法 |
WO2012025579A1 (en) * | 2010-08-24 | 2012-03-01 | Veovox Sa | System and method for recognizing a user voice command in noisy environment |
FR2966635A1 (fr) * | 2010-10-20 | 2012-04-27 | France Telecom | Procede et dispositif d'affichage de donnees vocales d'un contenu audio |
KR101030777B1 (ko) * | 2010-11-10 | 2011-05-25 | 김인송 | 스크립트 데이터 생성 방법 및 장치 |
CN102541504A (zh) * | 2011-01-04 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 语音文字转换装置及方法 |
KR101326275B1 (ko) | 2011-07-29 | 2013-11-11 | 김희곤 | 문자 및 음성 동기화 출력 장치 |
JP5787780B2 (ja) * | 2012-01-25 | 2015-09-30 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP2013161205A (ja) * | 2012-02-03 | 2013-08-19 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
KR102023157B1 (ko) * | 2012-07-06 | 2019-09-19 | 삼성전자 주식회사 | 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치 |
TW201409259A (zh) * | 2012-08-21 | 2014-03-01 | Hon Hai Prec Ind Co Ltd | 多媒體記錄系統及方法 |
US20140310190A1 (en) | 2013-03-14 | 2014-10-16 | Worldone, Inc. | System and method for concept discovery with online information environments |
KR101493006B1 (ko) * | 2013-03-21 | 2015-02-13 | 디노플러스 (주) | 멀티미디어 콘텐츠 편집장치 및 그 방법 |
JP2014240884A (ja) * | 2013-06-11 | 2014-12-25 | 株式会社東芝 | コンテンツ作成支援装置、方法およびプログラム |
JP5943436B2 (ja) * | 2014-06-30 | 2016-07-05 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
JP2016012098A (ja) * | 2014-06-30 | 2016-01-21 | シナノケンシ株式会社 | 電子図書再生装置及び電子図書再生プログラム |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
JP6128146B2 (ja) * | 2015-02-24 | 2017-05-17 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN105872157A (zh) * | 2016-06-02 | 2016-08-17 | 安徽声讯信息技术有限公司 | 一种带通话、充电功能的语音速记装置 |
US10950235B2 (en) * | 2016-09-29 | 2021-03-16 | Nec Corporation | Information processing device, information processing method and program recording medium |
CN106486119B (zh) * | 2016-10-20 | 2019-09-20 | 海信集团有限公司 | 一种识别语音信息的方法和装置 |
WO2019038573A1 (en) * | 2017-08-25 | 2019-02-28 | Leong David Tuk Wai | APPARATUS FOR RECOGNIZING SOUNDS |
US10657202B2 (en) * | 2017-12-11 | 2020-05-19 | International Business Machines Corporation | Cognitive presentation system and method |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
CN109389969B (zh) * | 2018-10-29 | 2020-05-26 | 百度在线网络技术(北京)有限公司 | 语料库优化方法及装置 |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
US20220130409A1 (en) * | 2020-10-26 | 2022-04-28 | RINGR, Inc. | Systems and methods for multi-party media management |
US11615250B2 (en) * | 2021-02-11 | 2023-03-28 | Dell Products L.P. | Information handling system and method for automatically generating a meeting summary |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9100732D0 (en) | 1991-01-14 | 1991-02-27 | Xerox Corp | A data access system |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
JP3745403B2 (ja) | 1994-04-12 | 2006-02-15 | ゼロックス コーポレイション | オーディオデータセグメントのクラスタリング方法 |
US5606643A (en) | 1994-04-12 | 1997-02-25 | Xerox Corporation | Real-time audio recording system for automatic speaker indexing |
US5655058A (en) | 1994-04-12 | 1997-08-05 | Xerox Corporation | Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications |
US5598507A (en) | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
JPH08160989A (ja) * | 1994-12-09 | 1996-06-21 | Hitachi Ltd | サウンドデータリンク編集方法 |
US20020002562A1 (en) | 1995-11-03 | 2002-01-03 | Thomas P. Moran | Computer controlled display system using a graphical replay device to control playback of temporal data representing collaborative activities |
US5717869A (en) | 1995-11-03 | 1998-02-10 | Xerox Corporation | Computer controlled display system using a timeline to control playback of temporal data representing collaborative activities |
US5850629A (en) | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US6076059A (en) * | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
JPH11162152A (ja) * | 1997-11-26 | 1999-06-18 | Victor Co Of Japan Ltd | 歌詞表示制御情報編集装置 |
US6714909B1 (en) | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
US6434520B1 (en) | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6332122B1 (en) | 1999-06-23 | 2001-12-18 | International Business Machines Corporation | Transcription system for multiple speakers, using and establishing identification |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
US7260771B2 (en) | 2001-04-26 | 2007-08-21 | Fuji Xerox Co., Ltd. | Internet-based system for multimedia meeting minutes |
US20020193895A1 (en) | 2001-06-18 | 2002-12-19 | Ziqiang Qian | Enhanced encoder for synchronizing multimedia files into an audio bit stream |
US7298930B1 (en) | 2002-11-29 | 2007-11-20 | Ricoh Company, Ltd. | Multimodal access of meeting recordings |
JP4127668B2 (ja) * | 2003-08-15 | 2008-07-30 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
JP2005070645A (ja) * | 2003-08-27 | 2005-03-17 | Casio Comput Co Ltd | テキスト音声同期装置およびテキスト音声同期処理プログラム |
US7734996B2 (en) | 2003-09-08 | 2010-06-08 | Nec Corporation | Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
CN1773536A (zh) | 2004-11-11 | 2006-05-17 | 国际商业机器公司 | 生成话音纪要的方法、设备和系统 |
US7809572B2 (en) * | 2005-07-20 | 2010-10-05 | Panasonic Corporation | Voice quality change portion locating apparatus |
JP2007133052A (ja) * | 2005-11-09 | 2007-05-31 | Flash Soft Kk | 学習機器とそのプログラム |
-
2007
- 2007-06-28 JP JP2007170113A patent/JP5313466B2/ja not_active Expired - Fee Related
-
2008
- 2008-06-25 US US12/145,804 patent/US8065142B2/en not_active Expired - Fee Related
-
2011
- 2011-10-24 US US13/279,479 patent/US8209169B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8209169B2 (en) | 2012-06-26 |
US20090006087A1 (en) | 2009-01-01 |
US20120041758A1 (en) | 2012-02-16 |
JP2009008884A (ja) | 2009-01-15 |
US8065142B2 (en) | 2011-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5313466B2 (ja) | 音声の再生に同期して音声の内容を表示させる技術 | |
JP3945778B2 (ja) | 設定装置、プログラム、記録媒体、及び設定方法 | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
US7117231B2 (en) | Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data | |
CN103003875B (zh) | 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统 | |
US8106285B2 (en) | Speech-driven selection of an audio file | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2008216756A (ja) | 語句として新たに認識するべき文字列等を取得する技術 | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
KR101493006B1 (ko) | 멀티미디어 콘텐츠 편집장치 및 그 방법 | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム | |
US5806039A (en) | Data processing method and apparatus for generating sound signals representing music and speech in a multimedia apparatus | |
JP5608706B2 (ja) | 音声の再生に同期して音声の内容を表示させる技術 | |
US20090043568A1 (en) | Accent information extracting apparatus and method thereof | |
JP2008020622A (ja) | オーサリングシステムおよびプログラム | |
KR102546555B1 (ko) | 노래 번역 시스템 | |
JP2686085B2 (ja) | 音声認識システム | |
WO2022196087A1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Lertwongkhanakool et al. | Real-time synchronization of live speech with its transcription | |
JP2647873B2 (ja) | 文章作成システム | |
JP2019095526A (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
JP2647872B2 (ja) | 文章作成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120521 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130514 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130704 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5313466 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |