JP5943436B2 - テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム - Google Patents
テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム Download PDFInfo
- Publication number
- JP5943436B2 JP5943436B2 JP2014134915A JP2014134915A JP5943436B2 JP 5943436 B2 JP5943436 B2 JP 5943436B2 JP 2014134915 A JP2014134915 A JP 2014134915A JP 2014134915 A JP2014134915 A JP 2014134915A JP 5943436 B2 JP5943436 B2 JP 5943436B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- divided
- phoneme conversion
- phrase
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001360 synchronised effect Effects 0.000 title claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 306
- 230000001186 cumulative effect Effects 0.000 claims description 198
- 238000000034 method Methods 0.000 claims description 112
- 230000008569 process Effects 0.000 claims description 95
- 238000000605 extraction Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 description 10
- 235000016496 Panda oleosa Nutrition 0.000 description 9
- 240000000220 Panda oleosa Species 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 101000760620 Homo sapiens Cell adhesion molecule 1 Proteins 0.000 description 4
- 108090000237 interleukin-24 Proteins 0.000 description 3
- 238000005192 partition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101100064317 Arabidopsis thaliana DTX41 gene Proteins 0.000 description 1
- 101000661816 Homo sapiens Suppression of tumorigenicity 18 protein Proteins 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
Description
このようなテキストデータと音声データとの同期処理は、テキストデータを画面表示させると共に、音声データをスピーカから出力をしながら手動での同期処理を行う手法が用いられていることが多い。このため、テキストデータと音声データとの同期処理における作業効率が極めて悪く、アクセシブルな電子図書の普及の妨げとなっていた。
第1目的は、音声データの読み上げ速度そのものにばらつきがある場合や、間をあけた読み方が多用されている場合であっても、音声データとテキストデータとの同期を適切に行うことができる音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。
第2目的は、音声データとテキストデータの同期処理を短時間で行うことが可能な音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。
すなわち、本発明は、複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置である。
本実施形態にかかるテキストデータと読み上げ音声データとの同期処理装置10(以下、同期処理装置10という)は、図1に示すような概略構成を有している。すなわち、データ処理を行うためのプログラムPGMがインストールされ、テキストデータTDと読み上げ音声データSDが記憶可能な記憶部20と、プログラムPGMに基づいてテキストデータTDと読み上げ音声データSDとのデータ処理を行うCPU30とを有するパソコンにより実現されている。また、パソコンには、記憶部20に記憶されているデータの音声出力や画面出力を行うデータ出力手段としてのスピーカ42およびディスプレイ44も接続されている。
なお、テキストデータ変換処理S1と読み上げ音声データ変換処理S2とは、処理を行う順番を逆にすることもできる。
まず、CPU30が同期処理装置10の記憶部20に取り込まれているテキストデータTD(図4参照)を、データ入力手段50を介して取得(データ読み込み)する(S11)。通常、テキストデータTD内には複数のフレーズ(本明細書においては、文において読点または句読点により区切られている範囲のことを指している)が存在していると共に、各フレーズには漢字、カタカナ、ひらがな、記号等の複数系統の文字列を有している。テキストデータ変換処理S1においては、このような複雑な手法により表現されているテキストデータTDを簡略化した表現に変換することを主な目的としている。
分割テキストデータDTDのすべてに対するテキストデータ音素変換累計値TNが記憶部20に記憶されれば、テキストデータ変換処理S1は終了となる。
まず、CPU30は、データ入力手段50を介して記憶部20内に取り込まれている読み上げ音声データSDを読み込みする(S21)。
無音区間抽出判断データMJDの具体例としては、音声の出力下限値、音声の出力下限値以下の継続時間等により構成することができる。このような無音区間抽出判断データMJDは、読み上げ音声データ分割部34によって音声データSDの区切れ位置を抽出する処理を行う都度、データ入力手段50により使用者が適宜入力する構成を採用することもできる。
より具体的に説明すると、本実施形態における読み上げ音声データ音素変換部35は、テキストデータ形式に変換された分割読み上げ音声データDSDをカナ変換し、カナ変換して得たカナ数を音声データ音素変換値である音声データ音素数SONとしてカウントするのである。読み上げ音声データ音素変換部35は、カウントした音声データ音素数SONを分割読み上げ音声データDSDに対応させた状態で図7に示すようにして記憶部20に記憶させる。本実施形態における分割読み上げ音声データDSDの音素変換処理は、テキストデータ音素変換部32による分割テキストデータDTDの音素変換処理と同様にして行うことができる。
なお、音声データ音素変換累計値SNは、本実施形態に示したデータ形式に限定されるものではなく、音声データ音素変換累計値SNの合計値に対する百分率を小数点第3位以下まで算出し、算出した値を千倍にする等、他のデータ形式を採用することもできる。このように音声データ音素変換累計値SNの桁数を増やすことにより、より詳細なデータ処理を行うことが可能になる。
まず、CPU30は、記憶部20に記憶されている図5に示すような分割テキストデータDTDに対応させたデータ一式の読み込みを行う(S31)。次に、CPU30は、記憶部20に記憶されている図7に示すような分割読み上げ音声データDSDに対応させたデータ一式を読み込みする(S32)。なお、S31の処理とS32の処理は処理順番を入れ替えしてもよい。
まず、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=1の音声データ音素変換累計値SN1との差を求めて絶対値化し、この絶対値をA1とする。次にフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=2の音声データ音素変換累計値SN2との差を求めて絶対値化し、この絶対値をA2とする。さらにフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=3の音声データ音素変換累計値SN3との差を求めて絶対値化し、この絶対値をA3とする。
ところで、第1実施形態におけるフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1の区切れ位置に対し、分割読み上げ音声データDSDのテーブルにおける通し番号ST=2の区切れ位置を選択した場合、分割テキストデータDTDのテーブルにおける通し番号TT=2に対しては、分割読み上げ音声データDSDのテーブルにおける通し番号ST=3以降のみを比較対象としている。このようなデータ処理方法は効率的なデータ処理を実現するうえで好都合であるが、テキストデータTDと読み上げ音声データSDの構成内容によっては、作成されたフレーズ対応データFDに不具合が生じる場合もある。
再設定処理部39は、これらのフレーズ対応データFD5,FD6に対応付けされている分割読み上げ音声データDSDの通し番号の1つ前と1つ後の通し番号ST=13〜ST=15までを通し番号ST順に結合させ、再設定処理区間における読み上げ音声データとしての再設定用読み上げ音声データSD2を作成する。
つづいて再設定処理部39は、図12(B)のデータに基づいて、再設定区間における分割読み上げ音声データDSDの通し番号STの修正を行う。再設定区間における再設定処理前の通し番号STの増加は2である。これに対して、第2の通し番号SSTは1,2,3の3つである。すなわち今回の再設定処理により分割読み上げ音声データDSD側の区切れ位置が1つ増加したことになる。
第2実施形態で説明した再設定処理を実行した後であっても、再設定処理を実行する際に用いた第2無音区間抽出判断データMJD2の条件によっては、依然として修正フレーズ対応データMFDにおける読み上げ音声データSD側の音声データ音素変換累計値SN(または通し番号ST)の重複が解消されない場合がある。本実施形態では、このような問題を解消するための構成例について説明する。
具体的には、修正フレーズ対応データMFDにおける分割読み上げ音声データDSD側の音声データ音素変換累計値SN(または通し番号ST)の重複部分を対象として、区切れ部分を強制的に設定する強制処理部39Aを有する構成について説明を行う。
第2実施形態において、修正フレーズ対応データMFDが作成された後、重複音素変換累計値抽出部38が、修正フレーズ対応データMFDについて音声データ音素変換累計値SNの重複対応状態の有無状態について再確認処理を実行する。
そして強制処理部39Aは、修正フレーズ対応データMFDにおいて通し番号ST=1〜ST=16までの範囲のデータと、強制処理部39Aにより区切れ位置を増加させた部分の通し番号ST=17以降のデータとを統合して強制修正フレーズ対応データFFDを作成すると共に記憶部20に記憶させて、分割読み上げ音声データDSDの特定通し番号STが付与されている有音区間に区切れ部分を強制的に設定する処理を終了する。
32 テキストデータ音素変換部,33 テキストデータ音素変換累計値算出部,
34 読み上げ音声データ分割部,35 読み上げ音声データ音素変換部,
36 読み上げ音声データ音素変換累計値算出部,37 フレーズ対応データ作成部,
38 重複音素変換累計値抽出部,39 再設定処理部,39A 強制処理部,
42 スピーカ,44ディスプレイ,50 データ入力手段
Claims (8)
- 複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、
前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、
前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、
前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、
前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、
前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、
前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、
前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、
前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、
を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置。 - 前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出部と、
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理部と、をさらに有し、
前記再設定処理部は、
前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、
前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、
前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
をそれぞれ実行することを特徴とする請求項1記載のテキストデータと読み上げ音声データとの同期処理装置。 - 前記重複音素変換累計値抽出部が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
前記重複音素変換累計値抽出部により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
をそれぞれ実行する強制処理部をさらに有していることを特徴とする請求項2記載のテキストデータと読み上げ音声データとの同期処理装置。 - 前記読み上げ音声データ音素変換累計値算出部は、
前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項1〜3のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理装置。 - 複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データを記憶する記憶部と、前記テキストデータと前記読み上げ音声データとを用いて、前記テキストデータと前記読み上げ音声データとの区切れ位置を対応させるためのデータ処理部と、前記テキストデータと前記読み上げ音声データとを出力する出力部と、を有するテキストデータと読み上げ音声データとの同期処理装置にインストールされ、前記データ処理部によって実行されるテキストデータと読み上げ音声データとの同期処理プログラムであって、
前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割機能と、
前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換機能と、
前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出機能と、
前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割機能と、
前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換機能と、
前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出機能と、
前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成機能と、
前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力機能と、
を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理プログラム。 - 前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出機能と、
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理機能と、をさらに有し、
前記再設定処理機能は、
前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、
前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、
前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
をそれぞれ実行することを特徴とする請求項5記載のテキストデータと読み上げ音声データとの同期処理プログラム。 - 前記重複音素変換累計値抽出機能が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
前記重複音素変換累計値抽出機能により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
をそれぞれ実行する強制処理機能をさらに有していることを特徴とする請求項6記載のテキストデータと読み上げ音声データとの同期処理プログラム。 - 前記読み上げ音声データ音素変換累計値算出機能は、
前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項5〜7のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014134915A JP5943436B2 (ja) | 2014-06-30 | 2014-06-30 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
US14/753,429 US9679566B2 (en) | 2014-06-30 | 2015-06-29 | Apparatus for synchronously processing text data and voice data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014134915A JP5943436B2 (ja) | 2014-06-30 | 2014-06-30 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016012099A JP2016012099A (ja) | 2016-01-21 |
JP5943436B2 true JP5943436B2 (ja) | 2016-07-05 |
Family
ID=54931204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014134915A Active JP5943436B2 (ja) | 2014-06-30 | 2014-06-30 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9679566B2 (ja) |
JP (1) | JP5943436B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6459818B2 (ja) * | 2015-07-22 | 2019-01-30 | ブラザー工業株式会社 | テキスト対応付け装置、テキスト対応付け方法、及びプログラム |
JP6373294B2 (ja) * | 2016-03-16 | 2018-08-15 | シナノケンシ株式会社 | データ再生装置およびデータ再生方法 |
US11217266B2 (en) * | 2016-06-21 | 2022-01-04 | Sony Corporation | Information processing device and information processing method |
JP6421167B2 (ja) * | 2016-12-08 | 2018-11-07 | シナノケンシ株式会社 | デジタルコンテンツ再生録音装置 |
CN107527618A (zh) * | 2017-07-13 | 2017-12-29 | 安徽声讯信息技术有限公司 | 一种音频文字同步播放系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
JP3727436B2 (ja) * | 1997-03-10 | 2005-12-14 | 日本放送協会 | 音声原稿最適照合装置および方法 |
CN1300018A (zh) * | 1999-10-05 | 2001-06-20 | 株式会社东芝 | 书籍朗读电子机器,编辑系统,存储媒体,及信息提供系统 |
US6260011B1 (en) * | 2000-03-20 | 2001-07-10 | Microsoft Corporation | Methods and apparatus for automatically synchronizing electronic audio files with electronic text files |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP4277512B2 (ja) | 2002-11-15 | 2009-06-10 | カシオ計算機株式会社 | 電子機器及びプログラム |
AU2003239828A1 (en) * | 2003-04-30 | 2004-11-23 | Loquendo S.P.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
JP5313466B2 (ja) * | 2007-06-28 | 2013-10-09 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声の再生に同期して音声の内容を表示させる技術 |
JP5816085B2 (ja) * | 2008-07-04 | 2015-11-17 | ブックトラック ホールディングス リミテッド | サウンドトラックを作成してプレイする方法及びシステム |
US8392186B2 (en) * | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US9697871B2 (en) * | 2011-03-23 | 2017-07-04 | Audible, Inc. | Synchronizing recorded audio content and companion content |
US8855797B2 (en) * | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
US9317500B2 (en) * | 2012-05-30 | 2016-04-19 | Audible, Inc. | Synchronizing translated digital content |
US10109278B2 (en) * | 2012-08-02 | 2018-10-23 | Audible, Inc. | Aligning body matter across content formats |
JP2014240940A (ja) * | 2013-06-12 | 2014-12-25 | 株式会社東芝 | 書き起こし支援装置、方法、及びプログラム |
-
2014
- 2014-06-30 JP JP2014134915A patent/JP5943436B2/ja active Active
-
2015
- 2015-06-29 US US14/753,429 patent/US9679566B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9679566B2 (en) | 2017-06-13 |
JP2016012099A (ja) | 2016-01-21 |
US20150379996A1 (en) | 2015-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5943436B2 (ja) | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
US8924216B2 (en) | System and method for synchronizing sound and manually transcribed text | |
CN106716466B (zh) | 会议信息储存装置以及方法 | |
US8604327B2 (en) | Apparatus and method for automatic lyric alignment to music playback | |
US20130294746A1 (en) | System and method of generating multimedia content | |
US20200126583A1 (en) | Discovering highlights in transcribed source material for rapid multimedia production | |
US20080079693A1 (en) | Apparatus for displaying presentation information | |
US20200126559A1 (en) | Creating multi-media from transcript-aligned media recordings | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
JP2019148681A (ja) | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム | |
CA2973221A1 (en) | Use of a program schedule to facilitate modifying closed-captioning text | |
US9905221B2 (en) | Automatic generation of a database for speech recognition from video captions | |
WO2015162737A1 (ja) | 音訳作業支援装置、音訳作業支援方法及びプログラム | |
KR101493006B1 (ko) | 멀티미디어 콘텐츠 편집장치 및 그 방법 | |
JP2006260570A (ja) | 画像形成装置 | |
JP4675691B2 (ja) | コンテンツ情報提供装置 | |
JP4270117B2 (ja) | 視聴者間コミュニケーション方法及び装置及びプログラム | |
US20230028897A1 (en) | System and method for caption validation and sync error correction | |
US7921010B2 (en) | Information processing apparatus, recording medium, and data signal | |
JP6499228B2 (ja) | テキスト生成装置、方法、及びプログラム | |
JP4266240B1 (ja) | 項目判定システムおよび項目判定プログラム | |
WO2016151761A1 (ja) | 音訳支援装置、音訳支援方法及び音訳支援プログラム | |
KR102541162B1 (ko) | 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법 | |
JP2010157816A (ja) | 字幕情報作成装置、字幕情報作成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160519 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5943436 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |