JP5608706B2 - 音声の再生に同期して音声の内容を表示させる技術 - Google Patents
音声の再生に同期して音声の内容を表示させる技術 Download PDFInfo
- Publication number
- JP5608706B2 JP5608706B2 JP2012116006A JP2012116006A JP5608706B2 JP 5608706 B2 JP5608706 B2 JP 5608706B2 JP 2012116006 A JP2012116006 A JP 2012116006A JP 2012116006 A JP2012116006 A JP 2012116006A JP 5608706 B2 JP5608706 B2 JP 5608706B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- input
- phrase
- dictionary
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
再生される音声の内容を予め記録したテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データが再生される時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部と
を備えるシステム。
再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と
を更に備え、
前記音声合成部は、その第1誤認識テキストの少なくとも一部のテキストを入力して、その入力したテキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、出力する
(1)に記載のシステム。
前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する第2検出部と
を更に備え、
前記音声合成部は、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する
(2)に記載のシステム。
前記第1認識部は、前記音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識する
(3)に記載のシステム。
(3)に記載のシステム。
前記比率算出部は、その第2誤認識テキストについて生成した合成音声において、その第2誤認識テキストに含まれる語句のうち、その第2認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、音声データのうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付けて出力する
(3)に記載のシステム。
音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部と
を備えるシステム。
前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、その入力したテキストを読み上げる合成音声を生成するステップと、
前記コンピュータにより、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
前記コンピュータにより、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データが再生される時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
を備える方法。
前記コンピュータにより、音声データを再生して生成した音声を、前記登録することにおいて語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出するステップと、
前記コンピュータにより、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外するステップと、
前記コンピュータにより、その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記除外することによって語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力するステップと
を備える方法。
前記コンピュータを、
再生される音声の内容を予め記録したテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データが再生される時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部
として機能させるプログラム。
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部
として機能させるプログラム。
12 録音装置
15 データベース
20 同期システム
25 表示装置
50 記録媒体
100 入力テキスト
105 タイムスタンプデータ
110 入力音声データ
200 第1登録部
205 基本辞書データベース
208 第1辞書データベース
210 第1認識部
220 第1検出部
230 第2登録部
235 第2辞書データベース
240 第2認識部
250 第2検出部
260 音声合成部
270 比率算出部
280 出力部
Claims (18)
- 音声の記録と音声の入力テキストの語句を同期させる方法であって、
コンピュータシステムのプロセッサにより、前記入力テキストに対応する発音音声データと入力音声データとを比較することで、前記音声を表す入力音声データの音声認識を実行し、前記入力テキストの認識された語句を有する第1の認識テキストを生成するステップと、
前記コンピュータシステムの前記プロセッサにより、前記第1の認識テキストと前記入力テキストとを比較することで、前記第1の認識テキストの各語句に一致しない前記入力テキストの語句を有する第1の誤認識テキストを判断するステップと、
前記コンピュータシステムの前記プロセッサにより、前記第1の誤認識テキストに対応する前記入力音声データの音声認識を実行し、第2の認識テキストを生成するステップと、
前記コンピュータシステムの前記プロセッサにより、前記第1の誤認識テキストと前記第2の認識テキストとを比較することで、第2の誤認識テキストを判断するステップと、
前記コンピュータシステムの前記プロセッサにより、前記第2の誤認識テキストに対応する合成音声データを生成するステップと、
前記コンピュータシステムの前記プロセッサにより、前記第2の誤認識テキストのそれぞれ他の語句の前記合成音声データにおける発音時間に対する前記第2の誤認識テキストの各語句の前記合成音声データにおける発音時間の比率を有する比率データを算出するステップと、
前記コンピュータシステムの前記プロセッサにより、前記算出された比率データに基づいて、前記第2の誤認識テキストの各語句と前記第2の誤認識テキストの当該各語句に対応する前記入力音声データを再生する時間との対応付けを判断するステップと
を有する方法。 - 第1の辞書データベースに格納された第1の辞書を生成するステップであり、前記第1の辞書は、前記入力テキストの語句と対応する発音音声データとを有するステップを更に有する、請求項1に記載の方法。
- 前記第1の辞書を生成するステップは、
前記コンピュータシステムの基本辞書データベースに格納された基本辞書を提供するステップであり、前記基本辞書は、前記基本辞書の各語句を発声するための前記基本辞書の各語句に対応する発音データ及び語句を有するステップと、
前記基本辞書の語句と前記入力テキストの語句とを比較し、前記基本辞書の同じ語句に一致する前記入力テキストの語句を判断するステップと、
前記基本辞書の同じ語句に一致する前記入力テキストの一致する語句毎に、前記同じ語句及び対応する発音データを前記第1の辞書に入力するステップと
を有し、
前記第1の辞書の語句は、それぞれ入力された同じ語句を有し、
前記第1の辞書の第1の発音音声データは、入力された対応する発音データを有する、請求項2に記載の方法。 - 前記第1の辞書を生成するステップは、
前記基本辞書の語句に一致しない前記入力テキストの一致しない語句毎に、対応する合成音声データを生成し、その対応する合成音声データを有するそれぞれ一致しない語句を前記第1の辞書に入力するステップを更に有し、
前記第1の辞書の語句は、それぞれ入力された一致しない語句を更に有し、
前記第1の辞書の第1の発音音声データは、入力された対応する合成音声データを更に有する、請求項3に記載の方法。 - 前記入力音声データの解析から、前記認識テキストの各語句の発音音声データが話者により発声された前記入力音声データにおける開始時刻及び終了時刻を有するタイムスタンプデータを生成するステップと、
前記生成されたタイムスタンプデータを使用することにより、前記誤認識テキストに対応する入力音声データを生成するステップと
を更に有する、請求項1に記載の方法。 - 記録媒体に前記対応付けを記録するステップ及び/又は表示装置に前記対応付けを表示するステップを更に有する、請求項1に記載の方法。
- コンピュータシステムのプロセッサにより実行された場合、音声の記録と音声の入力テキストの語句を同期させる方法を実施する命令を含む、コンピュータ読み取り可能なコードを格納したコンピュータ読み取り可能な記憶装置を有するコンピュータプログラムであって、
前記方法は、
前記入力テキストに対応する発音音声データと入力音声データとを比較することで、前記音声を表す入力音声データの音声認識を実行し、前記入力テキストの認識された語句を有する第1の認識テキストを生成するステップと、
前記第1の認識テキストと前記入力テキストとを比較することで、前記第1の認識テキストの各語句に一致しない前記入力テキストの語句を有する第1の誤認識テキストを判断するステップと、
前記第1の誤認識テキストに対応する前記入力音声データの音声認識を実行し、第2の認識テキストを生成するステップと、
前記第1の誤認識テキストと前記第2の認識テキストとを比較することで、第2の誤認識テキストを判断するステップと、
前記第2の誤認識テキストに対応する合成音声データを生成するステップと、
前記第2の誤認識テキストのそれぞれ他の語句の前記合成音声データにおける発音時間に対する前記第2の誤認識テキストの各語句の前記合成音声データにおける発音時間の比率を有する比率データを算出するステップと、
前記算出された比率データに基づいて、前記第2の誤認識テキストの各語句と前記第2の誤認識テキストの当該各語句に対応する前記入力音声データを再生する時間との対応付けを判断するステップと
を有するコンピュータプログラム。 - 第1の辞書データベースに格納された第1の辞書を生成するステップであり、前記第1の辞書は、前記入力テキストの語句と対応する発音音声データとを有するステップを更に有する、請求項7に記載のコンピュータプログラム。
- 前記第1の辞書を生成するステップは、
前記コンピュータシステムの基本辞書データベースに格納された基本辞書を提供するステップであり、前記基本辞書は、前記基本辞書の各語句を発声するための前記基本辞書の各語句に対応する発音データ及び語句を有するステップと、
前記基本辞書の語句と前記入力テキストの語句とを比較し、前記基本辞書の同じ語句に一致する前記入力テキストの語句を判断するステップと、
前記基本辞書の同じ語句に一致する前記入力テキストの一致する語句毎に、前記同じ語句及び対応する発音データを前記第1の辞書に入力するステップと
を有し、
前記第1の辞書の語句は、それぞれ入力された同じ語句を有し、
前記第1の辞書の第1の発音音声データは、入力された対応する発音データを有する、請求項8に記載のコンピュータプログラム。 - 前記第1の辞書を生成するステップは、
前記基本辞書の語句に一致しない前記入力テキストの一致しない語句毎に、対応する合成音声データを生成し、その対応する合成音声データを有するそれぞれ一致しない語句を前記第1の辞書に入力するステップを更に有し、
前記第1の辞書の語句は、それぞれ入力された一致しない語句を更に有し、
前記第1の辞書の第1の発音音声データは、入力された対応する合成音声データを更に有する、請求項9に記載のコンピュータプログラム。 - 前記入力音声データの解析から、前記認識テキストの各語句の発音音声データが話者により発声された前記入力音声データにおける開始時刻及び終了時刻を有するタイムスタンプデータを生成するステップと、
前記生成されたタイムスタンプデータを使用することにより、前記誤認識テキストに対応する入力音声データを生成するステップと
を更に有する、請求項7に記載のコンピュータプログラム。 - 記録媒体に前記対応付けを記録するステップ及び/又は表示装置に前記対応付けを表示するステップを更に有する、請求項7に記載のコンピュータプログラム。
- プロセッサと、前記プロセッサに結合されたコンピュータ読み取り可能なメモリユニットとを有するコンピュータシステムであって、
前記メモリユニットは、前記プロセッサにより実行された場合、音声の記録と音声の入力テキストの語句を同期させる方法を実施する命令を含み、
前記方法は、
前記入力テキストに対応する発音音声データと入力音声データとを比較することで、前記音声を表す入力音声データの音声認識を実行し、前記入力テキストの認識された語句を有する第1の認識テキストを生成するステップと、
前記第1の認識テキストと前記入力テキストとを比較することで、前記第1の認識テキストの各語句に一致しない前記入力テキストの語句を有する第1の誤認識テキストを判断するステップと、
前記第1の誤認識テキストに対応する前記入力音声データの音声認識を実行し、第2の認識テキストを生成するステップと、
前記第1の誤認識テキストと前記第2の認識テキストとを比較することで、第2の誤認識テキストを判断するステップと、
前記第2の誤認識テキストに対応する合成音声データを生成するステップと、
前記第2の誤認識テキストのそれぞれ他の語句の前記合成音声データにおける発音時間に対する前記第2の誤認識テキストの各語句の前記合成音声データにおける発音時間の比率を有する比率データを算出するステップと、
前記算出された比率データに基づいて、前記第2の誤認識テキストの各語句と前記第2の誤認識テキストの当該各語句に対応する前記入力音声データを再生する時間との対応付けを判断するステップと
を有するコンピュータシステム。 - 第1の辞書データベースに格納された第1の辞書を生成するステップであり、前記第1の辞書は、前記入力テキストの語句と対応する発音音声データとを有するステップを更に有する、請求項13に記載のコンピュータシステム。
- 前記第1の辞書を生成するステップは、
前記コンピュータシステムの基本辞書データベースに格納された基本辞書を生成するステップであり、前記基本辞書は、前記基本辞書の各語句を発声するための前記基本辞書の各語句に対応する発音データ及び語句を有するステップと、
前記基本辞書の語句と前記入力テキストの語句とを比較し、前記基本辞書の同じ語句に一致する前記入力テキストの語句を判断するステップと、
前記基本辞書の同じ語句に一致する前記入力テキストの一致する語句毎に、前記同じ語句及び対応する発音データを前記第1の辞書に入力するステップと
を有し、
前記第1の辞書の語句は、それぞれ入力された同じ語句を有し、
前記第1の辞書の第1の発音音声データは、入力された対応する発音データを有する、請求項14に記載のコンピュータシステム。 - 前記第1の辞書を生成するステップは、
前記基本辞書の語句に一致しない前記入力テキストの一致しない語句毎に、対応する合成音声データを生成し、その対応する合成音声データを有するそれぞれ一致しない語句を前記第1の辞書に入力するステップを更に有し、
前記第1の辞書の語句は、それぞれ入力された一致しない語句を更に有し、
前記第1の辞書の第1の発音音声データは、入力された対応する合成音声データを更に有する、請求項15に記載のコンピュータシステム。 - 前記入力音声データの解析から、前記認識テキストの各語句の発音音声データが話者により発声された前記入力音声データにおける開始時刻及び終了時刻を有するタイムスタンプデータを生成するステップと、
前記生成されたタイムスタンプデータを使用することにより、前記誤認識テキストに対応する入力音声データを生成するステップと
を更に有する、請求項13に記載のコンピュータシステム。 - 記録媒体に前記対応付けを記録するステップ及び/又は表示装置に前記対応付けを表示するステップを更に有する、請求項13に記載のコンピュータシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116006A JP5608706B2 (ja) | 2012-05-21 | 2012-05-21 | 音声の再生に同期して音声の内容を表示させる技術 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116006A JP5608706B2 (ja) | 2012-05-21 | 2012-05-21 | 音声の再生に同期して音声の内容を表示させる技術 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007170113A Division JP5313466B2 (ja) | 2007-06-28 | 2007-06-28 | 音声の再生に同期して音声の内容を表示させる技術 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012198552A JP2012198552A (ja) | 2012-10-18 |
JP5608706B2 true JP5608706B2 (ja) | 2014-10-15 |
Family
ID=47180761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012116006A Expired - Fee Related JP5608706B2 (ja) | 2012-05-21 | 2012-05-21 | 音声の再生に同期して音声の内容を表示させる技術 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5608706B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
JP2007133052A (ja) * | 2005-11-09 | 2007-05-31 | Flash Soft Kk | 学習機器とそのプログラム |
-
2012
- 2012-05-21 JP JP2012116006A patent/JP5608706B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012198552A (ja) | 2012-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5313466B2 (ja) | 音声の再生に同期して音声の内容を表示させる技術 | |
CN103003875B (zh) | 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统 | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP3945778B2 (ja) | 設定装置、プログラム、記録媒体、及び設定方法 | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2013206253A (ja) | 機械翻訳装置、方法、およびプログラム | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2015201215A (ja) | 機械翻訳装置、方法、およびプログラム | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
KR101493006B1 (ko) | 멀티미디어 콘텐츠 편집장치 및 그 방법 | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム | |
JP5608706B2 (ja) | 音声の再生に同期して音声の内容を表示させる技術 | |
KR20040061070A (ko) | 음성인식시스템에서의 음성인식장치 및 그 방법 | |
US20090043568A1 (en) | Accent information extracting apparatus and method thereof | |
Lertwongkhanakool et al. | Real-time synchronization of live speech with its transcription | |
JP2021043338A (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
KR102546555B1 (ko) | 노래 번역 시스템 | |
WO2022196087A1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP2010157816A (ja) | 字幕情報作成装置、字幕情報作成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5608706 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |