JP5943436B2 - テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム - Google Patents

テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム Download PDF

Info

Publication number
JP5943436B2
JP5943436B2 JP2014134915A JP2014134915A JP5943436B2 JP 5943436 B2 JP5943436 B2 JP 5943436B2 JP 2014134915 A JP2014134915 A JP 2014134915A JP 2014134915 A JP2014134915 A JP 2014134915A JP 5943436 B2 JP5943436 B2 JP 5943436B2
Authority
JP
Japan
Prior art keywords
data
divided
phoneme conversion
phrase
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014134915A
Other languages
English (en)
Other versions
JP2016012099A (ja
Inventor
友紀 小平
友紀 小平
西澤 達夫
達夫 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shinano Kenshi Co Ltd
Original Assignee
Shinano Kenshi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shinano Kenshi Co Ltd filed Critical Shinano Kenshi Co Ltd
Priority to JP2014134915A priority Critical patent/JP5943436B2/ja
Priority to US14/753,429 priority patent/US9679566B2/en
Publication of JP2016012099A publication Critical patent/JP2016012099A/ja
Application granted granted Critical
Publication of JP5943436B2 publication Critical patent/JP5943436B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明はテキストデータと読み上げ音声データとに基づいて、テキストデータと読み上げ音声データとの間の同期処理を自動的に行うためのテキストデータと読み上げ音声データとの同期処理装置および同期処理プログラムに関する。
テキストデータと音声データとを互いに対応させた状態でテキストデータの表示および音声データの再生を行ういわゆるアクセシブルな電子図書を作成する際は、テキストデータと音声データとの同期処理をする必要がある。
このようなテキストデータと音声データとの同期処理は、テキストデータを画面表示させると共に、音声データをスピーカから出力をしながら手動での同期処理を行う手法が用いられていることが多い。このため、テキストデータと音声データとの同期処理における作業効率が極めて悪く、アクセシブルな電子図書の普及の妨げとなっていた。
近年においては、特許文献1に開示されているように、テキストデータとこのテキストデータに対応した音声データとの同期処理を自動的に行う技術が提案されている。
公開特許公報特開2004−170444号公報
特許文献1に開示されている技術は、音声データの出力経過時間に基づいて、音声データの内容に合わせてテキストデータの該当箇所の表示を行うものである。したがって、音声データ内において常に一定の読み上げ速度が維持されている場合には、期待通りのテキストデータと音声データとの同期結果を得ることができる。しかしながら、音声データの読み上げ速度そのものにばらつきがある場合や、間をあけた音声データの場合等における同期結果の品質については改善の余地があった。
本発明は上記課題を解決すべくなされたものであり、その目的とするところは、次のとおりである。
第1目的は、音声データの読み上げ速度そのものにばらつきがある場合や、間をあけた読み方が多用されている場合であっても、音声データとテキストデータとの同期を適切に行うことができる音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。
第2目的は、音声データとテキストデータの同期処理を短時間で行うことが可能な音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。
上記課題を解決するため本願発明者が鋭意研究した結果、以下の構成に想到した。
すなわち、本発明は、複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置である。
これにより、テキストデータとテキストデータを読み上げた読み上げ音声データとの同期処理を自動的に行うことができる。また、読み上げ音声データ内の読み上げ速度そのものが一定でない場合や、間をあけた読み方が多く存在する読み上げ音声データであっても、短時間で適切にテキストデータと読み上げ音声データとの同期処理を行うことができる。
また、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出部と、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理部と、をさらに有し、前記再設定処理部は、前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、をそれぞれ実行することが好ましい。
これにより、無音区間抽出判断データの設定値が読み上げ音声データの内容に適合せず、読み上げ音声データ内の無音区間が適切に抽出されなかった場合であっても、読み上げ音声データ内の無音区間があるはずだった部分のみを再設定区間データにすることができる。これにより既に読み上げ音声データが適切に区切られている部分のデータ処理を再度実行する必要がなくなり、テキストデータと読み上げ音声データとの同期処理を従来技術に対して高い精度で且つ短時間で実行することができる。
また、前記重複音素変換累計値抽出部が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、前記重複音素変換累計値抽出部により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、をそれぞれ実行する強制処理部をさらに有していることが好ましい。
これにより、再設定処理を実行してもなお、読み上げ音声データにおいて本来無音区間である部分から無音区間を抽出することができなかった場合には、正データであるテキストデータから得られるフレーズの区切れ部分に基づいて、読み上げ音声データに対して強制的に無音区間を設けることができる。よって、テキストデータと読み上げ音声データとの正確な同期処理を自動的に行うことができる。
また、前記読み上げ音声データ音素変換累計値算出部は、前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することが好ましい。
これにより、読み上げ音声データを一旦テキスト化しているため、読み上げ音声データを正確に音素変換処理することができる。よって、テキストデータと読み上げ音声データとの同期処理の精度をさらに高めることができる。
また、上記発明に関連する他の発明は、複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データを記憶する記憶部と、前記テキストデータと前記読み上げ音声データとを用いて、前記テキストデータと前記読み上げ音声データとの区切れ位置を対応させるためのデータ処理部と、前記テキストデータと前記読み上げ音声データとを出力する出力部と、を有するテキストデータと読み上げ音声データとの同期処理装置にインストールされ、前記データ処理部によって実行されるテキストデータと読み上げ音声データとの同期処理プログラムであって、前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割機能と、前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換機能と、前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出機能と、前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割機能と、前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換機能と、前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出機能と、前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成機能と、前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力機能と、を有していることを特徴とする。
これにより、テキストデータとテキストデータを読み上げた読み上げ音声データとの同期処理を自動的に行うことができる。また、読み上げ音声データ内の読み上げ速度そのものが一定でない場合や、間をあけた読み方が多く存在する読み上げ音声データであっても、短時間で適切にテキストデータと読み上げ音声データとの同期処理を行うことができる。
また、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出機能と、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理機能と、をさらに有し、前記再設定処理機能は、前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、をそれぞれ実行することが好ましい。
これにより、無音区間抽出判断データの設定値が読み上げ音声データの内容(状態)に適合せず、読み上げ音声データ内の無音区間が適切に抽出されなかった場合であっても、読み上げ音声データ内の無音区間があるはずだった部分のみを再設定区間データにすることができる。これにより既に読み上げ音声データが適切に区切られている部分についてのデータ処理を再度実行する必要がなくなり、テキストデータと読み上げ音声データとの同期処理を従来技術に対して高い精度で且つ短時間で実行することができる。
また、前記重複音素変換累計値抽出機能が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、前記重複音素変換累計値抽出機能により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、をそれぞれ実行する強制処理機能をさらに有していることが好ましい。
これにより、再設定処理を実行してもなお、読み上げ音声データにおいて本来無音区間である部分から無音区間を抽出することができなかった場合に、正データであるテキストデータにおけるフレーズの区切れ部分に基づいて読み上げ音声データの有音区間に対して強制的に無音区間を設けることができる。よって、テキストデータと読み上げ音声データとの正確な同期処理を自動的に行うことができる。
また、前記読み上げ音声データ音素変換累計値算出機能は、前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することが好ましい。
これにより、読み上げ音声データを一旦テキスト化しているため、読み上げ音声データを正確に音素変換処理することができる。よって、テキストデータと読み上げ音声データとの同期処理の精度をさらに高めることができる。
本発明にかかるテキストデータと読み上げ音声データとの同期処理装置とテキストデータと読み上げ音声データとの同期処理プログラムの構成を採用することにより、精度の高いテキストデータと読み上げ音声データの同期処理を自動的に行うことができる。また、正規の区切れ位置に関する情報が含まれているテキストデータがあるため、読み上げ速度自体のばらつきや間をあけた読み方が多数含まれている読み上げ音声データであっても、テキストデータと読み上げ音声データとの同期処理を高い精度にて短時間で実行することができる。
第1実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。 第1実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の処理の一例を示すフロー図である。 図2に示すフロー図のテキストデータ変換処理部分の詳細フロー図である。 本実施形態で取り扱うテキストデータの内容を示す説明図である。 図4に示したテキストデータをフレーズごとに分割して得た分割テキストデータの内容を示す説明図である。 図2に示すフロー図の読み上げ音声データ変換処理部分の詳細フロー図である。 読み上げ音声データを無音区間抽出判断データに基づいて分割した分割読み上げ音声データを音声認識処理して得たテキストデータの出力内容を示す説明図である。 図2に示すフロー図の同期処理部分の詳細フロー図である。 図5に示した分割テキストデータの一部と、図7に示した分割読み上げ音声データのテキストデータの一部との比較状態を示す説明図である。 本実施形態におけるフレーズ対応データの内容を示す説明図である。 第2実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。 第2実施形態において同期位置の再設定処理を行う際に用いる分割テキストデータのテーブルと、分割読み上げ音声データのテーブルとの一覧を示す要部抜粋図である。 再設定処理がなされた後の分割テキストデータのテーブルと、分割読み上げ音声データのテーブルとの一覧を示す説明図である。 第3実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。 第3実施形態において強制処理部により強制的に区切れ区間が設定処理される強制修正フレーズ対応データの具体例を示す図である。
以下、本発明にかかるテキストデータと読み上げ音声データとの同期処理装置の実施形態について、それぞれ図面に基づきながら説明を行う。
(第1実施形態)
本実施形態にかかるテキストデータと読み上げ音声データとの同期処理装置10(以下、同期処理装置10という)は、図1に示すような概略構成を有している。すなわち、データ処理を行うためのプログラムPGMがインストールされ、テキストデータTDと読み上げ音声データSDが記憶可能な記憶部20と、プログラムPGMに基づいてテキストデータTDと読み上げ音声データSDとのデータ処理を行うCPU30とを有するパソコンにより実現されている。また、パソコンには、記憶部20に記憶されているデータの音声出力や画面出力を行うデータ出力手段としてのスピーカ42およびディスプレイ44も接続されている。
パソコンのCPU30は、プログラムPGMに基づいてテキストデータTDと読み上げ音声データSDに対する各種のデータ処理を行うための複数種類の機能を有している。本明細書中においては説明の便宜上、データ処理内容に合わせた構成名称およびその番号を付して説明しているが、何れの構成もプログラムPGMに基づいて動作するCPU30が動作実体である。
同期処理装置10には、キーボードおよびマウスの他、データ記憶媒体リーダ等に代表されるデータ入力手段50を用いたユーザ等によって記憶部20にテキストデータTDと読み上げ音声データSDがそれぞれ取り込まれる。ここで、読み上げ音声データSDは、朗読者がテキストデータTDを音読している音声を録音したデータであり、テキストデータTDの記載内容が忠実に読み上げられているものとする。
同期処理装置10の記憶部20にインポートされたテキストデータTDと読み上げ音声データSDは、図2に示すような処理フローによりデータ処理がなされる。具体的には、テキストデータTDに対するテキストデータ変換処理S1と、読み上げ音声データSDに対する読み上げ音声データ変換処理S2と、これらの処理後のデータを用いてテキストデータと読み上げ音声データとの同期位置の紐付け処理を行う同期処理S3が行われる。
なお、テキストデータ変換処理S1と読み上げ音声データ変換処理S2とは、処理を行う順番を逆にすることもできる。
テキストデータTDに対するテキストデータ変換処理S1についてより詳細な説明を行う。図3は、テキストデータ処理の手順を示した処理フロー図である。
まず、CPU30が同期処理装置10の記憶部20に取り込まれているテキストデータTD(図4参照)を、データ入力手段50を介して取得(データ読み込み)する(S11)。通常、テキストデータTD内には複数のフレーズ(本明細書においては、文において読点または句読点により区切られている範囲のことを指している)が存在していると共に、各フレーズには漢字、カタカナ、ひらがな、記号等の複数系統の文字列を有している。テキストデータ変換処理S1においては、このような複雑な手法により表現されているテキストデータTDを簡略化した表現に変換することを主な目的としている。
CPU30によるテキストデータ分割部31は、テキストデータTDに含まれている読点や句読点を検出するごとに、テキストデータTDを分割する(テキストデータTDの区切れ位置とする)処理を実行し(S12)、分割テキストデータDTDを得る(図5参照)。分割テキストデータDTDは、テキストデータTDから分割した順番を示す識別子である通し番号TTを紐付けした(対応させた)状態で記憶部20に記憶される。
つづいてCPU30によるテキストデータ音素変換部32は、分割テキストデータDTDを用いて音素変換処理を実行する(S13)。このように分割テキストデータDTDに対して音素変換処理を行うことにより、分割テキストデータDTDを音素(本明細書においては、テキストデータをカナに変換した場合のカナ1文字のことを指している)という単一の表記方法で表現することができる。
具体的には、本実施形態におけるテキストデータ音素変換部32は、分割テキストデータDTDを音素に変換(カナに変換)し、音素変換して得たテキスト音素変換データである音素数(カナ数)をカウントする。カウントされた音素数は、1フレーズである分割テキストデータDTDに紐付けした(対応させた)状態で記憶部20にテキストデータ音素数TONとして記憶される(図5参照)。ここで、音素変換処理によりカナ変換して得られた拗音、促音、長音については、カナ数としてカウントするか否かについて予め設定しておけばよい。
次に、CPU30によるテキストデータ音素変換累計値算出部33は、テキストデータ音素数TONと分割テキストデータDTD内の通し番号TTに基づいて、分割テキストデータDTD毎のテキストデータ音素変換累計値TNを算出する処理を実行する(S14)。テキストデータ音素変換累計値算出部33はテキストデータ音素変換累計値TNをそれぞれの分割テキストデータDTDに対応させた状態で記憶部20に記憶させる。
本実施形態におけるテキストデータ音素変換累計値算出部33は、テキストデータTD内の最後のフレーズに対するテキストデータ音素変換累計値TNに対し、それぞれのフレーズに対するテキストデータ音素変換累計値TNの百分率を小数点第2位まで算出する処理を行う。そしてテキストデータ音素変換累計値算出部33は、自らが算出した分割テキストデータDTDの各々に対するテキストデータ音素変換累計値TNの百分率を百倍した値を算出すると共に、算出した値をテキストデータ音素変換累計値TN(図5内に示す音素累計)として分割テキストデータDTDの通し番号TTに紐付けした状態で記憶部20に記憶させるのである(図5参照)。
分割テキストデータDTDのすべてに対するテキストデータ音素変換累計値TNが記憶部20に記憶されれば、テキストデータ変換処理S1は終了となる。
次に読み上げ音声データSDに対するデータ処理について説明する。図6は、読み上げ音声データ変換処理の手順を示した処理フロー図である。読み上げ音声データ変換処理S2においては、読み上げ音声データSDの分割位置を抽出(区切れ候補位置で分割)することを目的としている。
まず、CPU30は、データ入力手段50を介して記憶部20内に取り込まれている読み上げ音声データSDを読み込みする(S21)。
CPU30による読み上げ音声データ分割部34は、読み取った読み上げ音声データSDを適宜分割する処理を行う(S22)。本実施形態においては、読み上げ音声データSD内の無音部分を抽出することによって、読み上げ音声データSDをフレーズ毎に分割すべき位置(区切れ位置)を抽出している。
より詳細には、読み上げ音声データ分割部34は、まず、読み上げ音声データSDを音声波形データ化する処理を実行する。つづいて読み上げ音声データ分割部34は、無音区間抽出判断データMJDに基づいて、音声波形データ化した読み上げ音声データSD内における無音部分が無音区間抽出判断データMJDで特定されている条件を満たす部分を無音区間として抽出する。
読み上げ音声データ分割部34は、連続する2つの無音区間によって区切られた範囲で読み上げ音声データSDをそれぞれ分割し、分割読み上げ音声データDSDを作成する。また、読み上げ音声データ分割部34は、分割読み上げ音声データDSDのそれぞれに対して、分割した順番を示す識別子である通し番号STを紐付けした(対応させた)状態で図7に示すようにして記憶部20に記憶させている。
ここで無音区間抽出判断データMJDは、予め使用者等によって設定された数値が記憶部20に記憶されていることが好ましい。無音区間抽出判断データMJDは、読み上げ音声データ分割部34により記憶部20から読み出し可能に設定されている。
無音区間抽出判断データMJDの具体例としては、音声の出力下限値、音声の出力下限値以下の継続時間等により構成することができる。このような無音区間抽出判断データMJDは、読み上げ音声データ分割部34によって音声データSDの区切れ位置を抽出する処理を行う都度、データ入力手段50により使用者が適宜入力する構成を採用することもできる。
続いてCPU30による読み上げ音声データ音素変換部35は、記憶部20に記憶されている分割読み上げ音声データDSDを読み出し、分割読み上げ音声データDSDが紐付けされている通し番号STの順にソートする。続いて読み上げ音声データ音素変換部35は、公知の音声認識処理ソフトを用いて分割読み上げ音声データDSDを音声認識処理する(S23)。音声認識処理によって分割読み上げ音声データDSDは音声データ形式からテキストデータ形式に変換処理(S24)され、非テキストデータ形式であった分割読み上げ音声データDSDをテキストデータ化することができる。
続いて読み上げ音声データ音素変換部35は、テキストデータ形式に変換した分割読み上げ音声データDSDに対して、音素変換処理を実行する(S25)。
より具体的に説明すると、本実施形態における読み上げ音声データ音素変換部35は、テキストデータ形式に変換された分割読み上げ音声データDSDをカナ変換し、カナ変換して得たカナ数を音声データ音素変換値である音声データ音素数SONとしてカウントするのである。読み上げ音声データ音素変換部35は、カウントした音声データ音素数SONを分割読み上げ音声データDSDに対応させた状態で図7に示すようにして記憶部20に記憶させる。本実施形態における分割読み上げ音声データDSDの音素変換処理は、テキストデータ音素変換部32による分割テキストデータDTDの音素変換処理と同様にして行うことができる。
次に、CPU30による読み上げ音声データ音素変換累計値算出部36は、記憶部20に記憶させた音声データ音素数SONに基づいて、分割読み上げ音声データDSDの各々に対する読み上げ音声データ音素変換累計値である音声データ音素変換累計値SNを算出する(S26)。算出した音声データ音素変換累計値SNは、分割読み上げ音声データDSDの通し番号STに対応させた状態で図7に示すようにして記憶部20に記憶される。
本実施形態においては、読み上げ音声データ音素変換累計値算出部36は、音声データ音素変換累計値SNを、音声データ音素変換累計値SNの合計値に対する百分率を小数点第2位まで算出する処理を行い、さらにこの百分率を百倍した値を記憶部20に記憶させている。このように音声データ音素変換累計値SNを最終的に整数データとすることにより、計算機によるデータ処理速度を向上させることができる。
分割読み上げ音声データDSDのすべてに対する音声データ音素変換累計値SNが記憶部20に記憶されれば(すなわち、読み上げ音声データ音素変換累計値算出部36が、音素変換累計値10000に対応する分割読み上げ音声データDSDの処理を終了したとき)、読み上げ音声データ変換処理S2が完了となる。
なお、音声データ音素変換累計値SNは、本実施形態に示したデータ形式に限定されるものではなく、音声データ音素変換累計値SNの合計値に対する百分率を小数点第3位以下まで算出し、算出した値を千倍にする等、他のデータ形式を採用することもできる。このように音声データ音素変換累計値SNの桁数を増やすことにより、より詳細なデータ処理を行うことが可能になる。
以上のようにして得られたテキストデータTDにおけるテキストデータ音素変換累計値TNと、読み上げ音声データSD(分割読み上げ音声データDSD)における音素変換累計値(図7に示す音声データ音素変換累計値SN)は、それぞれ、各フレーズの終端側区切れ位置と、各フレーズの終端側区切れ位置の候補を示す情報である。このようにして、テキストデータTDおよび読み上げ音声データSDとの区切れ位置の大まかな抽出(仮決定)を自動的に行うことができるのである。
このようにして、テキストデータTDと読み上げ音声データSDのそれぞれにおいて、フレーズの区切れ位置とフレーズの区切れ位置候補を得た後、フレーズ対応データ作成部37により、分割テキストデータDTDの各フレーズと、これに対応する分割読み上げ音声データDSD内のフレーズの同期処理(S3)が行われる。
図8は、フレーズ対応データ作成部によるフレーズの同期処理を示すフロー図である。
まず、CPU30は、記憶部20に記憶されている図5に示すような分割テキストデータDTDに対応させたデータ一式の読み込みを行う(S31)。次に、CPU30は、記憶部20に記憶されている図7に示すような分割読み上げ音声データDSDに対応させたデータ一式を読み込みする(S32)。なお、S31の処理とS32の処理は処理順番を入れ替えしてもよい。
CPU30によるフレーズ対応データ作成部37は、図5の分割テキストデータDTDに対応させたデータ一式から分割テキストデータDTDの通し番号TTとテキストデータ音素変換累計値TNを抽出する。また、フレーズ対応データ作成部37は、図7の分割読み上げ音声データDSDに対応するデータ一式から分割読み上げ音声データDSDの通し番号STと音声データ音素変換累計値SNを抽出する。抽出された各データは図9に示すように、分割テキストデータDTDのテーブル(左側2列)と、分割読み上げ音声データDSDのテーブル(右側2列)にそれぞれ分けられる。
これに続いてフレーズ対応データ作成部37は、図9に示す分割テキストデータDTDのテーブルにおける各通し番号TTに対して同期させるべき分割読み上げ音声データDSDの通し番号STを決定する処理を行う。具体的には分割テキストデータDTDのテキストデータ音素変換累計値TNと、分割読み上げ音声データDSDの音声データ音素変換累計値SNの比較を行う(S33)。
より詳細には次のとおりとなる。
まず、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=1の音声データ音素変換累計値SN1との差を求めて絶対値化し、この絶対値をA1とする。次にフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=2の音声データ音素変換累計値SN2との差を求めて絶対値化し、この絶対値をA2とする。さらにフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1のテキストデータ音素変換累計値TN1と、分割読み上げ音声データDSDのテーブルにおける通し番号ST=3の音声データ音素変換累計値SN3との差を求めて絶対値化し、この絶対値をA3とする。
このようにしてフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおけるある通し番号TTにおけるテキストデータ音素変換累計値TNに対して、分割読み上げ音声データDSDのテーブルにおける少なくとも3つの通し番号STに対応する音声データ音素変換累計値SNとの比較を行う。そして、テキストデータ音素変換累計値TNと音声データ音素変換累計値SNの差の絶対値A1,A2,A3において、最も小さい絶対値を得た分割読み上げ音声データDSDのテーブルにおける音声データ音素変換累計値SN(通し番号ST)を、分割読み上げ音声データDSDにおける最初の分割位置として決定している。
図9において、分割テキストデータDTDのテーブルにおける通し番号TT=1について説明すると、A1=絶対値(31−37)=6,A2=絶対値(31−87)=56,A3=絶対値(31−100)=69である。したがって、分割テキストデータDTDの通し番号TT=1に対応する区切れ位置には、分割読み上げ音声データDSDの通し番号ST=1の区切れ位置が対応することになる。ここで、フレーズ対応データ作成部37は、図10に示すように分割テキストデータDTDの通し番号TT=1に対して、分割読み上げ音声データDSDの通し番号ST=1を紐付けして(対応させて)、フレーズ対応データFD1として記憶部20に記憶させている(S34)。
次に、フレーズ対応データ作成部37は、図9における分割テキストデータDTDのテーブルにおける通し番号TT=2のテキストデータ音素変換累計値TN2に対して、分割読み上げ音声データDSDのテーブルにおける通し番号TT=2以降少なくとも3つの音声データ音素変換累計値SN2,SN3,SN4との比較を前述と同様の方法により実行する。なお、分割テキストデータDTDの通し番号TT=2以降については、TT=2に対応する分割テキストデータDTDのテキストデータ音素変換累計値TN2と、少なくとも分割読み上げ音声データDSDの通し番号ST=2,3,4に対応する音声データ音素変換累計値SN2,SN3,SN4との比較を行う。そしてテキストデータ音素変換累計値TN2との差の絶対値の状態に応じてフレーズ対応データFDn(nは2以上の自然数)の決定方法が異なる。具体的には次のような方法である。
先に説明したA1,A2,A3を算出した方法と同様の方法で算出した絶対値A2,A3,A4の大小を比較した結果が、A2<A3<A4となった場合には、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=2に対して、分割読み上げ音声データDSDの通し番号ST=2を対応させて、フレーズ対応データFD2として記憶部20に記憶させる。テキストデータ音素変換累計値TNおよび音声データ音素変換累計値SNどうしが最も近い値(すなわち、算出した絶対値A2が最小)であるということは、分割テキストデータDTDおよび分割読み上げ音声データDSDにおいて共通する区切れ位置である可能性が高いということになるからである。
ここで、絶対値A2,A3,A4の比較結果が、A2>A3<A4となった場合には、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=2における区切れ位置に対しては、分割読み上げ音声データDSDのテーブルにおける通し番号ST=3を対応させている。テキストデータ音素変換累計値TNおよび音声データ音素変換累計値SNどうしが最も近い値(すなわち、算出した絶対値A3が最小)であるということは、分割テキストデータDTDおよび分割読み上げ音声データDSDにおいて共通する区切れ位置である可能性が高いということになるからである。
また、絶対値A2,A3,A4の比較結果が、A2>A3>A4となった場合には、フレーズ対応データ作成部37は、図9の分割読み上げ音声データDSDのテーブルにおける通し番号TT=5以降についても絶対値A5以降を算出し、絶対値Anを追加算出する都度、ひとつ前の絶対値A(n−1)との大小関係を比較し、一つ前の絶対値A(n−1)よりも算出した絶対値Anの方が大きくなるまで繰り返し大小関係を比較する処理を実行する。
このような場合においては、分割テキストデータDTDのテーブルにおける通し番号TT=2の区切れ位置に対して、分割読み上げ音声データDSDのテーブルにおける通し番号ST=(n−1)の区切れ位置においてテキストデータ音素変換累計値TNと音声データ音素変換累計値SNどうしが最も近似値となるので、分割読み上げ音声データDSDのテーブルにおける通し番号ST=(n−1)の位置が最も確からしい区切れ位置ということになる。したがって、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=2に対して、分割読み上げ音声データDSDのテーブルにおける通し番号ST=(n−1)を対応させたフレーズ対応データFD2を作成し、記憶部20に記憶させるのである。
もし、分割テキストデータDTDのテーブルにおける通し番号TT=x(xは自然数)に対する分割読み上げ音声データDSDのテーブルにおける通し番号ST=n(nは自然数)の絶対値Anが0になった場合には、フレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=xに対して、分割読み上げ音声データDSDのテーブルにおける通し番号ST=nを対応付けたフレーズ対応データFDxを作成し、記憶部20に記憶させる処理を実行させてもよい。
フレーズ対応データ作成部37は、以上のようなテキストデータ音素変換累計値TNと音声データ音素変換累計値SNとに基づいたデータ処理を繰り返し行うことにより、基本データである分割テキストデータDTDのテーブルにおける区切れ位置に対して最も適した分割読み上げ音声データDSDの区切れ位置を選択することができる。フレーズ対応データ作成部37は、テキストデータ音素変換累計値TNの値が10000である通し番号TTについてのフレーズ対応データFDを作成した時点で、フレーズ対応データ作成処理を一旦終了させる。
以上のように分割テキストデータDTDの通し番号TTの全てに対するフレーズ対応データFD1〜FDnが作成された後、CPU30は記憶部20から図10に示すフレーズ対応データFD1〜FDnを順次読み出しを行う。つづいて、CPU30はフレーズ対応データFDxに紐付けされた分割テキストデータDTDおよび分割読み上げ音声データDSDを対にした(同期させた)状態でデータ出力部であるディスプレイ44およびスピーカ42から出力させる(S35)。これにより使用者は、ディスプレイ44およびスピーカ42への出力結果の確認を行うことができる。使用者は、必要に応じてテキストデータTDと読み上げ音声データSDとの同期処理を公知の手法を用いた微調整を行うことにより、テキストデータTDと読み上げ音声データSDとの同期処理を完成させることができる。
本実施形態によれば、テキストデータTDと読み上げ音声データSDとにおける両者の区切れ位置の対応付け処理(同期処理)であるフレーズ対応データFDを自動処理によってほとんどの部分を作成することができ、従来技術に対して同期処理を行う際の労力を大幅に軽減させることが可能になる点で好都合である。
(第2実施形態)
ところで、第1実施形態におけるフレーズ対応データ作成部37は、分割テキストデータDTDのテーブルにおける通し番号TT=1の区切れ位置に対し、分割読み上げ音声データDSDのテーブルにおける通し番号ST=2の区切れ位置を選択した場合、分割テキストデータDTDのテーブルにおける通し番号TT=2に対しては、分割読み上げ音声データDSDのテーブルにおける通し番号ST=3以降のみを比較対象としている。このようなデータ処理方法は効率的なデータ処理を実現するうえで好都合であるが、テキストデータTDと読み上げ音声データSDの構成内容によっては、作成されたフレーズ対応データFDに不具合が生じる場合もある。
正確なフレーズ対応データFDの作成を試みる場合、分割テキストデータDTDのテーブルにおける通し番号TTのテキストデータ音素変換累計値TNに対応する分割読み上げ音声データDSDの通し番号STの音声データ音素変換累計値SNの抽出を行う際には、それぞれの通し番号TTに対応するテキストデータ音素変換累計値TNに対して、常に最初の通し番号STに対応する音声データ音素変換累計値SNから比較対象とすることが好ましい。
しかしながら、このようなフレーズ対応データFDの作成形態を採用した場合、無音区間抽出判断データMJDの設定値(特に、音声の出力下限値以下の継続時間の値が大きい場合)によっては、一つの分割読み上げ音声データDSDにおける通し番号STの音声データ音素変換累計値SNに対して、分割テキストデータDTDのテーブルにおける通し番号TTのテキストデータ音素変換累計値TNが紐付け(対応)されることがある。
本実施形態においてはこのような不具合が発生した際において、音声データ音素変換累計値SN(通し番号ST)とテキストデータ音素変換累計値TN(通し番号TT)の重複を解消するための実施形態例について説明を行う。ここで、図11は、第2実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。図12は、本形態において同期処理を行う際に用いる分割テキストデータDTDのテーブルと、分割読み上げ音声データDSDのテーブルとの一覧を示す要部抜粋図である。なお、本実施形態においては、第1実施形態と同様の構成については、第1実施形態において用いた符号と同符号を用いることによりここでの詳細な説明を省略している。
CPU30による重複音素変換累計値抽出部38は、フレーズ対応データFDにおける音声データ音素変換累計値SN(分割読み上げ音声データDSDの通し番号ST)の重複の有無を検出するものである。重複音素変換累計値抽出部38がフレーズ対応データFDから分割テキストデータDTDのテキストデータ音素変換累計値TNの通し番号TTに対して複数の音声データ音素変換累計値SN(分割読み上げ音声データDSDの通し番号ST)が紐付けされていることを検出した場合にのみ、再設定処理部39としての機能がCPU30によって発揮される。
再設定処理について図12を用いて具体的に説明する。CPU30による再設定処理部39は、フレーズ対応データFDにおけるテキストデータ音素変換累計値TN(または通し番号TT)と、音声データ音素変換累計値SN(または通し番号ST)に重複部分を検出した場合、フレーズ対応データFDにおいて、音素変換累計値SN(または通し番号ST)が重複するフレーズ対応データFDを抽出する。
図12(A)に示されているように、フレーズ対応データFD5,FD6が共に分割読み上げ音声データDSDの音声データ音素変換累計値SN=1461(ST=14)に紐付けされているので、ここでは、フレーズ対応データFD5およびFD6について、分割読み上げ音声データDSDの音声データ音素変換累計値SN=1461(ST=14)への重複紐付け状態を解消するための再設定処理が行われることになる。
再設定処理部39は、これらのフレーズ対応データFD5,FD6に対応付けされている分割読み上げ音声データDSDの通し番号の1つ前と1つ後の通し番号ST=13〜ST=15までを通し番号ST順に結合させ、再設定処理区間における読み上げ音声データとしての再設定用読み上げ音声データSD2を作成する。
つづいて再設定処理部39は、記憶部20の無音区間抽出判断データMJDの設定値に対して予め設定されている係数を乗じて第2無音区間抽出判断データMJD2を作成する。これは無音区間抽出判断データよりもさらに限定された条件で無音区間を抽出するためである。この係数の一例としては、音声の出力下限値用係数を1とし、音声の出力下限値以下の継続時間用係数を0.5とすることができる。これにより、音声出力値における条件は等しいながらも、音声の出力下限値以下の継続時間のみを短縮させた条件で無音区間の抽出する条件を得ることができる。
ここでは、再設定処理部39が予め記憶部20に記憶させていた無音区間抽出判断データMJDおよび係数を用いて第2無音区間抽出判断データMJD2を作成しているが、この形態に限定されるものではない。例えば、使用者がデータ入力手段50により、無音区間抽出判断データMJDの各項目に乗じる係数または第2無音区間抽出判断データMJD2を直接設定する形態や、予め第2無音区間抽出判断データMJD2を記憶部20に記憶させておくこともできる。要は、第2無音区間抽出判断データMJD2を用いることにより、無音区間抽出判断データMJDでは抽出することができなかった無音区間を再設定用の読み上げ音声データ2SD2から確実に抽出させるための条件に設定することができればよいのである。
続いて再設定処理部39は、再設定用読み上げ音声データSD2を音声波形データに変換処理をして、第2無音区間抽出判断データMJD2に基づいて、再設定用読み上げ音声データSD2(無音区間抽出判断データMJDに基づいて付与された通し番号ST=13〜15)に相当する読み上げ音声データの抜粋)内から第2無音区間を抽出する。第2無音区間の具体的な抽出方法については、第1実施形態における無音区間抽出判断データMJDを用いた抽出方法と同様にして行うことができるため、ここでの詳細な説明は省略する。
次に再設定処理部39は、第2無音部分によって区切られた第2分割読み上げ音声データDSD2の各々に対し、抽出した順に第2の通し番号SSTを付与すると共に、音素変換処理を行い、第2の通し番号SSTの各々における音素数SON2を算出すると共に音素変換累計値SSNを算出する。本実施形態において算出された各値は、図12(B)に示すようになった。
つづいて再設定処理部39は、図12(B)のデータに基づいて、再設定区間における分割読み上げ音声データDSDの通し番号STの修正を行う。再設定区間における再設定処理前の通し番号STの増加は2である。これに対して、第2の通し番号SSTは1,2,3の3つである。すなわち今回の再設定処理により分割読み上げ音声データDSD側の区切れ位置が1つ増加したことになる。
次に再設定処理部39は、再設定処理前のデータにおける最小の通し番号であるST=13の音声データ音素変換累計値SN=1327に、第2の通し番号SST=1の音声データ音素変換累計値SN2=134を加え、新しい通し番号ST=14の音声データ音素変換累計値SN2=1461を得る。これと同様にして再設定処理部39は第2の通し番号SST=2およびSST=3についても同様の計算を実行し、図12(C)に示すような再設定区間における分割読み上げ音声データDSDの新しい通し番号ST2=13〜16についての音声データ音素変換累計値SN2の対応データを得る。
次に、再設定処理部39はテキストデータ側の通し番号TT=5,TT=6についての修正処理を実行する。テキストデータ側の通し番号TT=5,TT=6のテキストデータ音素変換累計値TNと、図12(C)における再設定用の音声データ音素変換累計値SN2との比較を行う。テキストデータ音素変換累計値TNと再設定用の音声データ音素変換累計値SN2との比較処理については、第1実施形態における音素変換累計値の比較方法で説明した比較方法と同様にして行うことができるので、ここでの詳細な説明は省略する。
本実施形態においては、分割テキストデータDTD側の通し番号TT=5,TN=1435に対しては、図12(C)に示す再設定区間における音声データの新しい通し番号ST2および音声データ音素変換累計値SN2において、ST2=14,SN2=1461が対応し、TT=6,TN=1483に対しては、ST2=15,SN2=1500が対応し、複数の通し番号TTに対する音声データ音素変換累計値SNの重複対応状態が解消されることになる。
このように再設定処理部39によるフレーズ対応データFDの再設定処理が行われることで、音声データ側における区切れ位置が増加(図11から明らかなように、分割読み上げ音声データ側における区切れ位置が新しい通し番号ST2=15,SN=1500の一箇所が増加)し、フレーズ対応データFDの一部(ここでは、分割テキストデータDTDの通し番号TT=7以降の部分)において、分割テキストデータDTDの通し番号TTに対応させる読み上げ音声データDSDの通し番号STに変更が生じることになる。フレーズ対応データFDにおける各通し番号TT,STの変更処理もまた、再設定処理部39により行われる。
再設定処理部39は、再設定区間に直後における分割読み上げ音声データDSDの通し番号ST(本実施形態ではST=15以降)に対して、再設定処理において増加した区切れ位置の数である1を加算し、TT=7以降に対応されている分割読み上げ音声データDSDの通し番号STを修正する。そして、フレーズ対応データFDの再設定区間よりも前の部分(ここでは、分割テキストデータDTDの通し番号TT=1〜4の部分)と、再設定区間で修正した分割テキストデータDTDの通し番号TT=5,TT=6の部分と、フレーズ対応データFDの再設定区間よりも後の部分(ここでは、分割テキストデータDTDの通し番号TT=7以降の部分)とを統合して分割テキストデータDTDにおけるテキストデータ音素変換累計値TN(区切れ位置の通し番号TT)と、分割読み上げ音声データDSDにおける音素変換累計値SN(区切れ位置の通し番号ST)との対応データ(修正フレーズ対応データMFDの元データ)を作成し、対応データを記憶部20に記憶させる。このようにして得られた対応データは図13に示すようになる。再設定処理部39は、図13に示した対応データに基づいて修正フレーズ対応データMFDを作成し、記憶部20に記憶させる。
このように、読み上げ音声データSD内の区切れ位置の変更処理を行うのに最適と考えられる範囲(再設定区間)においてのみ行うことで、読み上げ音声データSD内の区切れ位置の変更処理を、読み上げ音声データSDの全範囲にわたって行う処理に比較して処理時間を大幅に短縮させることができる。そして、信頼性の高い(テキストデータTDと読み上げ音声データSDの区切れ位置の一致率(同期率)が高い)フレーズ対応データFDの作成が可能になる。
(第3実施形態)
第2実施形態で説明した再設定処理を実行した後であっても、再設定処理を実行する際に用いた第2無音区間抽出判断データMJD2の条件によっては、依然として修正フレーズ対応データMFDにおける読み上げ音声データSD側の音声データ音素変換累計値SN(または通し番号ST)の重複が解消されない場合がある。本実施形態では、このような問題を解消するための構成例について説明する。
具体的には、修正フレーズ対応データMFDにおける分割読み上げ音声データDSD側の音声データ音素変換累計値SN(または通し番号ST)の重複部分を対象として、区切れ部分を強制的に設定する強制処理部39Aを有する構成について説明を行う。
本実施形態における強制処理部39Aは、図14に示すようにCPU30により実現されている。以下、強制設定処理について具体的に説明する。
第2実施形態において、修正フレーズ対応データMFDが作成された後、重複音素変換累計値抽出部38が、修正フレーズ対応データMFDについて音声データ音素変換累計値SNの重複対応状態の有無状態について再確認処理を実行する。
この修正フレーズ対応データMFDに対する音素変換累計値重複再確認処理の結果、複数のテキストデータ音素変換累計値TN(通し番号TT)が同一の音声データ音素変換累計値SN(通し番号ST)に対応付けされていること(音声データ音素変換累計値SNの重複対応状態)を検出した場合、CPU30は、修正フレーズ対応データMFD内における条件該当部分を抽出し、抽出した修正フレーズ対応データMFDの抽出区間を第2分割読み上げ音声データDSD2である強制設定用データPFDとして記憶部20に記憶させる処理を実行する。図15は、強制処理部39Aにより強制的に区切れ区間が設定される修正フレーズ対応データMFDの抽出部分におけるデータの内訳を示した説明図である。
図15(A)から明らかなとおり、テキストデータ音素変換累計値TN13,TN14(または通し番号TT13,TT14)は、いずれも音声データ音素変換累計値SN17(または通し番号ST17)に対応されたフレーズ対応データFD13,FD14になっている。また図15においては、通し番号TT12,TT13,TT14に対応するテキストデータ音素変換累計値TN12,TN13,TN14はそれぞれ600,700,800となっている。同じく図15においては、通し番号ST17における累計音素数SN17=798とその直前における通し番号ST16の累計音素数SN16=598との差が200になっている。
このような状態において強制処理部39Aは、テキストデータ音素変換累計値TN13およびTN12の差と、テキストデータ音素変換累計値TN14およびTN13との差をそれぞれ算出し、通し番号ST17における音声データ音素変換累計値SN17と、その直前における通し番号ST16の音声データ音素変換累計値SN16との差である200を比例配分する。ここでは、通し番号ST16の音声データ音素変換累計値SN16=598に100を加えた698を通し番号ST17に対応する音声データ音素変換累計値SNとし、この音声データ音素変換累計値SN=698を強制的に通し番号TN13に対応する読み上げ音声データSDに基づく区切れ位置とする。さらに強制処理部39Aは、TN13に対応する音声データ音素変換累計値SN=698にさらに100を加えた音声データ音素変換累計値SN=798を、通し番号ST18に対応する音声データ音素変換累計値SNとし、この音声データ音素変換累計値SN=798を強制的に通し番号TN14に対応する読み上げ音声データSDに基づく区切れ位置とする。
つづいて強制処理部39Aは、強制的に区切れ位置を追加設定した数(ここでは1)を、通し番号ST=18以降の通し番号STの数に加算する通し番号STの修正処理を実行する。なお、通し番号STの修正方法は、第2実施形態で説明した方法と同様にして行うことができるため、ここでの詳細な説明は省略する。
そして強制処理部39Aは、修正フレーズ対応データMFDにおいて通し番号ST=1〜ST=16までの範囲のデータと、強制処理部39Aにより区切れ位置を増加させた部分の通し番号ST=17以降のデータとを統合して強制修正フレーズ対応データFFDを作成すると共に記憶部20に記憶させて、分割読み上げ音声データDSDの特定通し番号STが付与されている有音区間に区切れ部分を強制的に設定する処理を終了する。
本実施形態においては、基本となるデータ(正データ)である分割テキストデータDTDに基づく区切れ位置に対応する区切れ位置が分割読み上げ音声データDSD側において抽出できない場合に、分割すべきフレーズの音素数(フレーズの長さ)に応じて、分割読み上げ音声データDSD側に区切れ位置を強制的に追加配設し、修正フレーズ対応データMFDにおける分割テキストデータDTDと分割読み上げ音声データDSDとの区切れ位置の重複対応付け部分を強制的に修正する構成を有することが最大の特徴部分である。
そして、CPU30は、強制修正フレーズ対応データFFDによって対応付けされているテキストデータ音素変換累計値TN,音声データ音素変換累計値SNおよび通し番号TT,通し番号STに基づいて、テキストデータTDと読み上げ音声データSDとを同期させた状態でディスプレイ44やスピーカ42に出力し、使用者による同期状態の確認を行うことができる。
本実施形態によれば、複数回にわたって無音区間を抽出する処理を実行してもなお、読み上げ音声データSDから適切な無音区間の抽出ができないような場合においては、無音区間ではないところに音素数に応じた位置に強制的に区切値位置を設けることで、繰り返しの処理を行う手間を省略することができる点で好都合である。
以上に本願発明について実施形態に基づいて詳細に説明をしたが、本願発明の技術的範囲は以上に示した実施形態に限定されるものではない。たとえば、以上に示した第1実施形態〜第3実施形態の他に、本明細書内において説明した各実施形態と各変形例の一部構成を適宜組み合わせた実施形態を採用することも可能である。
より具体的に説明すると、上記各実施形態においては、分割読み上げ音声データDSDを音素変換処理する際において、読み上げ音声データSDを一旦テキストデータ化する処理を行っているが、分割読み上げ音声データDSDをテキストデータ化する処理は必須ではない。分割読み上げ音声データDSD(読み上げ音声データSD)から直接音素変換処理を行うことにより音素変換処理を行う形態を採用することもできる。これにより分割読み上げ音声データDSDのテキストデータ化処理に要する処理時間を短縮させることができる点において好都合である。
10 テキストデータと読み上げ音声データとの同期処理装置(テキスト音声データ同期処理装置),20 記憶部,30 CPU,31 テキストデータ分割部,
32 テキストデータ音素変換部,33 テキストデータ音素変換累計値算出部,
34 読み上げ音声データ分割部,35 読み上げ音声データ音素変換部,
36 読み上げ音声データ音素変換累計値算出部,37 フレーズ対応データ作成部,
38 重複音素変換累計値抽出部,39 再設定処理部,39A 強制処理部,
42 スピーカ,44ディスプレイ,50 データ入力手段

Claims (8)

  1. 複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、
    前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、
    前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、
    前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、
    前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、
    前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、
    前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、
    前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、
    前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、
    を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置。
  2. 前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出部と、
    前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理部と、をさらに有し、
    前記再設定処理部は、
    前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
    前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、
    前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、
    前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
    前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
    前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
    前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
    をそれぞれ実行することを特徴とする請求項1記載のテキストデータと読み上げ音声データとの同期処理装置。
  3. 前記重複音素変換累計値抽出部が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
    前記重複音素変換累計値抽出部により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
    前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
    該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
    前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
    前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
    前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
    をそれぞれ実行する強制処理部をさらに有していることを特徴とする請求項2記載のテキストデータと読み上げ音声データとの同期処理装置。
  4. 前記読み上げ音声データ音素変換累計値算出部は、
    前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項1〜3のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理装置。
  5. 複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データを記憶する記憶部と、前記テキストデータと前記読み上げ音声データとを用いて、前記テキストデータと前記読み上げ音声データとの区切れ位置を対応させるためのデータ処理部と、前記テキストデータと前記読み上げ音声データとを出力する出力部と、を有するテキストデータと読み上げ音声データとの同期処理装置にインストールされ、前記データ処理部によって実行されるテキストデータと読み上げ音声データとの同期処理プログラムであって、
    前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割機能と、
    前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換機能と、
    前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出機能と、
    前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割機能と、
    前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換機能と、
    前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出機能と、
    前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成機能と、
    前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力機能と、
    を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理プログラム。
  6. 前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出機能と、
    前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理機能と、をさらに有し、
    前記再設定処理機能は、
    前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
    前記無音区間抽出判断データよりもさらに制約された条件である第2の無音区間抽出判断データに基づいて、前記再設定区間データから第2の無音部分を抽出する処理と、
    前記第2の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第2分割読み上げ音声データを作成する処理と、
    前記第2分割読み上げ音声データの分割区間の各々について音素変換処理して得た第2音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
    前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
    前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
    前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
    をそれぞれ実行することを特徴とする請求項5記載のテキストデータと読み上げ音声データとの同期処理プログラム。
  7. 前記重複音素変換累計値抽出機能が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
    前記重複音素変換累計値抽出機能により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第2分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
    前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
    該算出したテキストデータ音素変換値の比率に応じて、前記第2分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
    前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
    前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
    前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
    をそれぞれ実行する強制処理機能をさらに有していることを特徴とする請求項6記載のテキストデータと読み上げ音声データとの同期処理プログラム。
  8. 前記読み上げ音声データ音素変換累計値算出機能は、
    前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項5〜7のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理プログラム。
JP2014134915A 2014-06-30 2014-06-30 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム Active JP5943436B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014134915A JP5943436B2 (ja) 2014-06-30 2014-06-30 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
US14/753,429 US9679566B2 (en) 2014-06-30 2015-06-29 Apparatus for synchronously processing text data and voice data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014134915A JP5943436B2 (ja) 2014-06-30 2014-06-30 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム

Publications (2)

Publication Number Publication Date
JP2016012099A JP2016012099A (ja) 2016-01-21
JP5943436B2 true JP5943436B2 (ja) 2016-07-05

Family

ID=54931204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014134915A Active JP5943436B2 (ja) 2014-06-30 2014-06-30 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム

Country Status (2)

Country Link
US (1) US9679566B2 (ja)
JP (1) JP5943436B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6459818B2 (ja) * 2015-07-22 2019-01-30 ブラザー工業株式会社 テキスト対応付け装置、テキスト対応付け方法、及びプログラム
JP6373294B2 (ja) * 2016-03-16 2018-08-15 シナノケンシ株式会社 データ再生装置およびデータ再生方法
US11217266B2 (en) * 2016-06-21 2022-01-04 Sony Corporation Information processing device and information processing method
JP6421167B2 (ja) * 2016-12-08 2018-11-07 シナノケンシ株式会社 デジタルコンテンツ再生録音装置
CN107527618A (zh) * 2017-07-13 2017-12-29 安徽声讯信息技术有限公司 一种音频文字同步播放系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP3727436B2 (ja) * 1997-03-10 2005-12-14 日本放送協会 音声原稿最適照合装置および方法
CN1300018A (zh) * 1999-10-05 2001-06-20 株式会社东芝 书籍朗读电子机器,编辑系统,存储媒体,及信息提供系统
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4277512B2 (ja) 2002-11-15 2009-06-10 カシオ計算機株式会社 電子機器及びプログラム
AU2003239828A1 (en) * 2003-04-30 2004-11-23 Loquendo S.P.A. Grapheme to phoneme alignment method and relative rule-set generating system
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
JP5816085B2 (ja) * 2008-07-04 2015-11-17 ブックトラック ホールディングス リミテッド サウンドトラックを作成してプレイする方法及びシステム
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9697871B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing recorded audio content and companion content
US8855797B2 (en) * 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9317500B2 (en) * 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US10109278B2 (en) * 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム

Also Published As

Publication number Publication date
US9679566B2 (en) 2017-06-13
JP2016012099A (ja) 2016-01-21
US20150379996A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
JP5943436B2 (ja) テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
CN107305541B (zh) 语音识别文本分段方法及装置
US8924216B2 (en) System and method for synchronizing sound and manually transcribed text
CN106716466B (zh) 会议信息储存装置以及方法
US8604327B2 (en) Apparatus and method for automatic lyric alignment to music playback
US20130294746A1 (en) System and method of generating multimedia content
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20080079693A1 (en) Apparatus for displaying presentation information
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
CA2973221A1 (en) Use of a program schedule to facilitate modifying closed-captioning text
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
WO2015162737A1 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
KR101493006B1 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP2006260570A (ja) 画像形成装置
JP4675691B2 (ja) コンテンツ情報提供装置
JP4270117B2 (ja) 視聴者間コミュニケーション方法及び装置及びプログラム
US20230028897A1 (en) System and method for caption validation and sync error correction
US7921010B2 (en) Information processing apparatus, recording medium, and data signal
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
WO2016151761A1 (ja) 音訳支援装置、音訳支援方法及び音訳支援プログラム
KR102541162B1 (ko) 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법
JP2010157816A (ja) 字幕情報作成装置、字幕情報作成方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160519

R150 Certificate of patent or registration of utility model

Ref document number: 5943436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250