JP5943436B2

JP5943436B2 - テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム

Info

Publication number: JP5943436B2
Application number: JP2014134915A
Authority: JP
Inventors: 友紀小平; 西澤　達夫; 達夫西澤
Original assignee: Shinano Kenshi Co Ltd
Current assignee: Shinano Kenshi Co Ltd
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2016-07-05
Anticipated expiration: 2034-06-30
Also published as: US20150379996A1; US9679566B2; JP2016012099A

Description

本発明はテキストデータと読み上げ音声データとに基づいて、テキストデータと読み上げ音声データとの間の同期処理を自動的に行うためのテキストデータと読み上げ音声データとの同期処理装置および同期処理プログラムに関する。

テキストデータと音声データとを互いに対応させた状態でテキストデータの表示および音声データの再生を行ういわゆるアクセシブルな電子図書を作成する際は、テキストデータと音声データとの同期処理をする必要がある。
このようなテキストデータと音声データとの同期処理は、テキストデータを画面表示させると共に、音声データをスピーカから出力をしながら手動での同期処理を行う手法が用いられていることが多い。このため、テキストデータと音声データとの同期処理における作業効率が極めて悪く、アクセシブルな電子図書の普及の妨げとなっていた。

近年においては、特許文献１に開示されているように、テキストデータとこのテキストデータに対応した音声データとの同期処理を自動的に行う技術が提案されている。

公開特許公報特開２００４−１７０４４４号公報

特許文献１に開示されている技術は、音声データの出力経過時間に基づいて、音声データの内容に合わせてテキストデータの該当箇所の表示を行うものである。したがって、音声データ内において常に一定の読み上げ速度が維持されている場合には、期待通りのテキストデータと音声データとの同期結果を得ることができる。しかしながら、音声データの読み上げ速度そのものにばらつきがある場合や、間をあけた音声データの場合等における同期結果の品質については改善の余地があった。

本発明は上記課題を解決すべくなされたものであり、その目的とするところは、次のとおりである。
第１目的は、音声データの読み上げ速度そのものにばらつきがある場合や、間をあけた読み方が多用されている場合であっても、音声データとテキストデータとの同期を適切に行うことができる音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。
第２目的は、音声データとテキストデータの同期処理を短時間で行うことが可能な音声データとテキストデータの同期処理装置およびその同期処理プログラムを提供することにある。

上記課題を解決するため本願発明者が鋭意研究した結果、以下の構成に想到した。
すなわち、本発明は、複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置である。

これにより、テキストデータとテキストデータを読み上げた読み上げ音声データとの同期処理を自動的に行うことができる。また、読み上げ音声データ内の読み上げ速度そのものが一定でない場合や、間をあけた読み方が多く存在する読み上げ音声データであっても、短時間で適切にテキストデータと読み上げ音声データとの同期処理を行うことができる。

また、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出部と、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理部と、をさらに有し、前記再設定処理部は、前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、前記無音区間抽出判断データよりもさらに制約された条件である第２の無音区間抽出判断データに基づいて、前記再設定区間データから第２の無音部分を抽出する処理と、前記第２の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第２分割読み上げ音声データを作成する処理と、前記第２分割読み上げ音声データの分割区間の各々について音素変換処理して得た第２音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、をそれぞれ実行することが好ましい。

これにより、無音区間抽出判断データの設定値が読み上げ音声データの内容に適合せず、読み上げ音声データ内の無音区間が適切に抽出されなかった場合であっても、読み上げ音声データ内の無音区間があるはずだった部分のみを再設定区間データにすることができる。これにより既に読み上げ音声データが適切に区切られている部分のデータ処理を再度実行する必要がなくなり、テキストデータと読み上げ音声データとの同期処理を従来技術に対して高い精度で且つ短時間で実行することができる。

また、前記重複音素変換累計値抽出部が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、前記重複音素変換累計値抽出部により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第２分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、該算出したテキストデータ音素変換値の比率に応じて、前記第２分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、をそれぞれ実行する強制処理部をさらに有していることが好ましい。

これにより、再設定処理を実行してもなお、読み上げ音声データにおいて本来無音区間である部分から無音区間を抽出することができなかった場合には、正データであるテキストデータから得られるフレーズの区切れ部分に基づいて、読み上げ音声データに対して強制的に無音区間を設けることができる。よって、テキストデータと読み上げ音声データとの正確な同期処理を自動的に行うことができる。

また、前記読み上げ音声データ音素変換累計値算出部は、前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することが好ましい。

これにより、読み上げ音声データを一旦テキスト化しているため、読み上げ音声データを正確に音素変換処理することができる。よって、テキストデータと読み上げ音声データとの同期処理の精度をさらに高めることができる。

また、上記発明に関連する他の発明は、複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データを記憶する記憶部と、前記テキストデータと前記読み上げ音声データとを用いて、前記テキストデータと前記読み上げ音声データとの区切れ位置を対応させるためのデータ処理部と、前記テキストデータと前記読み上げ音声データとを出力する出力部と、を有するテキストデータと読み上げ音声データとの同期処理装置にインストールされ、前記データ処理部によって実行されるテキストデータと読み上げ音声データとの同期処理プログラムであって、前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割機能と、前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換機能と、前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出機能と、前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割機能と、前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換機能と、前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出機能と、前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成機能と、前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力機能と、を有していることを特徴とする。

また、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出機能と、前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理機能と、をさらに有し、前記再設定処理機能は、前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、前記無音区間抽出判断データよりもさらに制約された条件である第２の無音区間抽出判断データに基づいて、前記再設定区間データから第２の無音部分を抽出する処理と、前記第２の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第２分割読み上げ音声データを作成する処理と、前記第２分割読み上げ音声データの分割区間の各々について音素変換処理して得た第２音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、をそれぞれ実行することが好ましい。

これにより、無音区間抽出判断データの設定値が読み上げ音声データの内容（状態）に適合せず、読み上げ音声データ内の無音区間が適切に抽出されなかった場合であっても、読み上げ音声データ内の無音区間があるはずだった部分のみを再設定区間データにすることができる。これにより既に読み上げ音声データが適切に区切られている部分についてのデータ処理を再度実行する必要がなくなり、テキストデータと読み上げ音声データとの同期処理を従来技術に対して高い精度で且つ短時間で実行することができる。

また、前記重複音素変換累計値抽出機能が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、前記重複音素変換累計値抽出機能により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第２分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、該算出したテキストデータ音素変換値の比率に応じて、前記第２分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、をそれぞれ実行する強制処理機能をさらに有していることが好ましい。

これにより、再設定処理を実行してもなお、読み上げ音声データにおいて本来無音区間である部分から無音区間を抽出することができなかった場合に、正データであるテキストデータにおけるフレーズの区切れ部分に基づいて読み上げ音声データの有音区間に対して強制的に無音区間を設けることができる。よって、テキストデータと読み上げ音声データとの正確な同期処理を自動的に行うことができる。

また、前記読み上げ音声データ音素変換累計値算出機能は、前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することが好ましい。

本発明にかかるテキストデータと読み上げ音声データとの同期処理装置とテキストデータと読み上げ音声データとの同期処理プログラムの構成を採用することにより、精度の高いテキストデータと読み上げ音声データの同期処理を自動的に行うことができる。また、正規の区切れ位置に関する情報が含まれているテキストデータがあるため、読み上げ速度自体のばらつきや間をあけた読み方が多数含まれている読み上げ音声データであっても、テキストデータと読み上げ音声データとの同期処理を高い精度にて短時間で実行することができる。

第１実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。第１実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の処理の一例を示すフロー図である。図２に示すフロー図のテキストデータ変換処理部分の詳細フロー図である。本実施形態で取り扱うテキストデータの内容を示す説明図である。図４に示したテキストデータをフレーズごとに分割して得た分割テキストデータの内容を示す説明図である。図２に示すフロー図の読み上げ音声データ変換処理部分の詳細フロー図である。読み上げ音声データを無音区間抽出判断データに基づいて分割した分割読み上げ音声データを音声認識処理して得たテキストデータの出力内容を示す説明図である。図２に示すフロー図の同期処理部分の詳細フロー図である。図５に示した分割テキストデータの一部と、図７に示した分割読み上げ音声データのテキストデータの一部との比較状態を示す説明図である。本実施形態におけるフレーズ対応データの内容を示す説明図である。第２実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。第２実施形態において同期位置の再設定処理を行う際に用いる分割テキストデータのテーブルと、分割読み上げ音声データのテーブルとの一覧を示す要部抜粋図である。再設定処理がなされた後の分割テキストデータのテーブルと、分割読み上げ音声データのテーブルとの一覧を示す説明図である。第３実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。第３実施形態において強制処理部により強制的に区切れ区間が設定処理される強制修正フレーズ対応データの具体例を示す図である。

以下、本発明にかかるテキストデータと読み上げ音声データとの同期処理装置の実施形態について、それぞれ図面に基づきながら説明を行う。

（第１実施形態）
本実施形態にかかるテキストデータと読み上げ音声データとの同期処理装置１０（以下、同期処理装置１０という）は、図１に示すような概略構成を有している。すなわち、データ処理を行うためのプログラムＰＧＭがインストールされ、テキストデータＴＤと読み上げ音声データＳＤが記憶可能な記憶部２０と、プログラムＰＧＭに基づいてテキストデータＴＤと読み上げ音声データＳＤとのデータ処理を行うＣＰＵ３０とを有するパソコンにより実現されている。また、パソコンには、記憶部２０に記憶されているデータの音声出力や画面出力を行うデータ出力手段としてのスピーカ４２およびディスプレイ４４も接続されている。

パソコンのＣＰＵ３０は、プログラムＰＧＭに基づいてテキストデータＴＤと読み上げ音声データＳＤに対する各種のデータ処理を行うための複数種類の機能を有している。本明細書中においては説明の便宜上、データ処理内容に合わせた構成名称およびその番号を付して説明しているが、何れの構成もプログラムＰＧＭに基づいて動作するＣＰＵ３０が動作実体である。

同期処理装置１０には、キーボードおよびマウスの他、データ記憶媒体リーダ等に代表されるデータ入力手段５０を用いたユーザ等によって記憶部２０にテキストデータＴＤと読み上げ音声データＳＤがそれぞれ取り込まれる。ここで、読み上げ音声データＳＤは、朗読者がテキストデータＴＤを音読している音声を録音したデータであり、テキストデータＴＤの記載内容が忠実に読み上げられているものとする。

同期処理装置１０の記憶部２０にインポートされたテキストデータＴＤと読み上げ音声データＳＤは、図２に示すような処理フローによりデータ処理がなされる。具体的には、テキストデータＴＤに対するテキストデータ変換処理Ｓ１と、読み上げ音声データＳＤに対する読み上げ音声データ変換処理Ｓ２と、これらの処理後のデータを用いてテキストデータと読み上げ音声データとの同期位置の紐付け処理を行う同期処理Ｓ３が行われる。
なお、テキストデータ変換処理Ｓ１と読み上げ音声データ変換処理Ｓ２とは、処理を行う順番を逆にすることもできる。

テキストデータＴＤに対するテキストデータ変換処理Ｓ１についてより詳細な説明を行う。図３は、テキストデータ処理の手順を示した処理フロー図である。
まず、ＣＰＵ３０が同期処理装置１０の記憶部２０に取り込まれているテキストデータＴＤ（図４参照）を、データ入力手段５０を介して取得（データ読み込み）する（Ｓ１１）。通常、テキストデータＴＤ内には複数のフレーズ（本明細書においては、文において読点または句読点により区切られている範囲のことを指している）が存在していると共に、各フレーズには漢字、カタカナ、ひらがな、記号等の複数系統の文字列を有している。テキストデータ変換処理Ｓ１においては、このような複雑な手法により表現されているテキストデータＴＤを簡略化した表現に変換することを主な目的としている。

ＣＰＵ３０によるテキストデータ分割部３１は、テキストデータＴＤに含まれている読点や句読点を検出するごとに、テキストデータＴＤを分割する（テキストデータＴＤの区切れ位置とする）処理を実行し（Ｓ１２）、分割テキストデータＤＴＤを得る（図５参照）。分割テキストデータＤＴＤは、テキストデータＴＤから分割した順番を示す識別子である通し番号ＴＴを紐付けした（対応させた）状態で記憶部２０に記憶される。

つづいてＣＰＵ３０によるテキストデータ音素変換部３２は、分割テキストデータＤＴＤを用いて音素変換処理を実行する（Ｓ１３）。このように分割テキストデータＤＴＤに対して音素変換処理を行うことにより、分割テキストデータＤＴＤを音素（本明細書においては、テキストデータをカナに変換した場合のカナ１文字のことを指している）という単一の表記方法で表現することができる。

具体的には、本実施形態におけるテキストデータ音素変換部３２は、分割テキストデータＤＴＤを音素に変換（カナに変換）し、音素変換して得たテキスト音素変換データである音素数（カナ数）をカウントする。カウントされた音素数は、１フレーズである分割テキストデータＤＴＤに紐付けした（対応させた）状態で記憶部２０にテキストデータ音素数ＴＯＮとして記憶される（図５参照）。ここで、音素変換処理によりカナ変換して得られた拗音、促音、長音については、カナ数としてカウントするか否かについて予め設定しておけばよい。

次に、ＣＰＵ３０によるテキストデータ音素変換累計値算出部３３は、テキストデータ音素数ＴＯＮと分割テキストデータＤＴＤ内の通し番号ＴＴに基づいて、分割テキストデータＤＴＤ毎のテキストデータ音素変換累計値ＴＮを算出する処理を実行する（Ｓ１４）。テキストデータ音素変換累計値算出部３３はテキストデータ音素変換累計値ＴＮをそれぞれの分割テキストデータＤＴＤに対応させた状態で記憶部２０に記憶させる。

本実施形態におけるテキストデータ音素変換累計値算出部３３は、テキストデータＴＤ内の最後のフレーズに対するテキストデータ音素変換累計値ＴＮに対し、それぞれのフレーズに対するテキストデータ音素変換累計値ＴＮの百分率を小数点第２位まで算出する処理を行う。そしてテキストデータ音素変換累計値算出部３３は、自らが算出した分割テキストデータＤＴＤの各々に対するテキストデータ音素変換累計値ＴＮの百分率を百倍した値を算出すると共に、算出した値をテキストデータ音素変換累計値ＴＮ（図５内に示す音素累計）として分割テキストデータＤＴＤの通し番号ＴＴに紐付けした状態で記憶部２０に記憶させるのである（図５参照）。
分割テキストデータＤＴＤのすべてに対するテキストデータ音素変換累計値ＴＮが記憶部２０に記憶されれば、テキストデータ変換処理Ｓ１は終了となる。

次に読み上げ音声データＳＤに対するデータ処理について説明する。図６は、読み上げ音声データ変換処理の手順を示した処理フロー図である。読み上げ音声データ変換処理Ｓ２においては、読み上げ音声データＳＤの分割位置を抽出（区切れ候補位置で分割）することを目的としている。
まず、ＣＰＵ３０は、データ入力手段５０を介して記憶部２０内に取り込まれている読み上げ音声データＳＤを読み込みする（Ｓ２１）。

ＣＰＵ３０による読み上げ音声データ分割部３４は、読み取った読み上げ音声データＳＤを適宜分割する処理を行う（Ｓ２２）。本実施形態においては、読み上げ音声データＳＤ内の無音部分を抽出することによって、読み上げ音声データＳＤをフレーズ毎に分割すべき位置（区切れ位置）を抽出している。

より詳細には、読み上げ音声データ分割部３４は、まず、読み上げ音声データＳＤを音声波形データ化する処理を実行する。つづいて読み上げ音声データ分割部３４は、無音区間抽出判断データＭＪＤに基づいて、音声波形データ化した読み上げ音声データＳＤ内における無音部分が無音区間抽出判断データＭＪＤで特定されている条件を満たす部分を無音区間として抽出する。

読み上げ音声データ分割部３４は、連続する２つの無音区間によって区切られた範囲で読み上げ音声データＳＤをそれぞれ分割し、分割読み上げ音声データＤＳＤを作成する。また、読み上げ音声データ分割部３４は、分割読み上げ音声データＤＳＤのそれぞれに対して、分割した順番を示す識別子である通し番号ＳＴを紐付けした（対応させた）状態で図７に示すようにして記憶部２０に記憶させている。

ここで無音区間抽出判断データＭＪＤは、予め使用者等によって設定された数値が記憶部２０に記憶されていることが好ましい。無音区間抽出判断データＭＪＤは、読み上げ音声データ分割部３４により記憶部２０から読み出し可能に設定されている。
無音区間抽出判断データＭＪＤの具体例としては、音声の出力下限値、音声の出力下限値以下の継続時間等により構成することができる。このような無音区間抽出判断データＭＪＤは、読み上げ音声データ分割部３４によって音声データＳＤの区切れ位置を抽出する処理を行う都度、データ入力手段５０により使用者が適宜入力する構成を採用することもできる。

続いてＣＰＵ３０による読み上げ音声データ音素変換部３５は、記憶部２０に記憶されている分割読み上げ音声データＤＳＤを読み出し、分割読み上げ音声データＤＳＤが紐付けされている通し番号ＳＴの順にソートする。続いて読み上げ音声データ音素変換部３５は、公知の音声認識処理ソフトを用いて分割読み上げ音声データＤＳＤを音声認識処理する（Ｓ２３）。音声認識処理によって分割読み上げ音声データＤＳＤは音声データ形式からテキストデータ形式に変換処理（Ｓ２４）され、非テキストデータ形式であった分割読み上げ音声データＤＳＤをテキストデータ化することができる。

続いて読み上げ音声データ音素変換部３５は、テキストデータ形式に変換した分割読み上げ音声データＤＳＤに対して、音素変換処理を実行する（Ｓ２５）。
より具体的に説明すると、本実施形態における読み上げ音声データ音素変換部３５は、テキストデータ形式に変換された分割読み上げ音声データＤＳＤをカナ変換し、カナ変換して得たカナ数を音声データ音素変換値である音声データ音素数ＳＯＮとしてカウントするのである。読み上げ音声データ音素変換部３５は、カウントした音声データ音素数ＳＯＮを分割読み上げ音声データＤＳＤに対応させた状態で図７に示すようにして記憶部２０に記憶させる。本実施形態における分割読み上げ音声データＤＳＤの音素変換処理は、テキストデータ音素変換部３２による分割テキストデータＤＴＤの音素変換処理と同様にして行うことができる。

次に、ＣＰＵ３０による読み上げ音声データ音素変換累計値算出部３６は、記憶部２０に記憶させた音声データ音素数ＳＯＮに基づいて、分割読み上げ音声データＤＳＤの各々に対する読み上げ音声データ音素変換累計値である音声データ音素変換累計値ＳＮを算出する（Ｓ２６）。算出した音声データ音素変換累計値ＳＮは、分割読み上げ音声データＤＳＤの通し番号ＳＴに対応させた状態で図７に示すようにして記憶部２０に記憶される。

本実施形態においては、読み上げ音声データ音素変換累計値算出部３６は、音声データ音素変換累計値ＳＮを、音声データ音素変換累計値ＳＮの合計値に対する百分率を小数点第２位まで算出する処理を行い、さらにこの百分率を百倍した値を記憶部２０に記憶させている。このように音声データ音素変換累計値ＳＮを最終的に整数データとすることにより、計算機によるデータ処理速度を向上させることができる。

分割読み上げ音声データＤＳＤのすべてに対する音声データ音素変換累計値ＳＮが記憶部２０に記憶されれば（すなわち、読み上げ音声データ音素変換累計値算出部３６が、音素変換累計値１００００に対応する分割読み上げ音声データＤＳＤの処理を終了したとき）、読み上げ音声データ変換処理Ｓ２が完了となる。
なお、音声データ音素変換累計値ＳＮは、本実施形態に示したデータ形式に限定されるものではなく、音声データ音素変換累計値ＳＮの合計値に対する百分率を小数点第３位以下まで算出し、算出した値を千倍にする等、他のデータ形式を採用することもできる。このように音声データ音素変換累計値ＳＮの桁数を増やすことにより、より詳細なデータ処理を行うことが可能になる。

以上のようにして得られたテキストデータＴＤにおけるテキストデータ音素変換累計値ＴＮと、読み上げ音声データＳＤ（分割読み上げ音声データＤＳＤ）における音素変換累計値（図７に示す音声データ音素変換累計値ＳＮ）は、それぞれ、各フレーズの終端側区切れ位置と、各フレーズの終端側区切れ位置の候補を示す情報である。このようにして、テキストデータＴＤおよび読み上げ音声データＳＤとの区切れ位置の大まかな抽出（仮決定）を自動的に行うことができるのである。

このようにして、テキストデータＴＤと読み上げ音声データＳＤのそれぞれにおいて、フレーズの区切れ位置とフレーズの区切れ位置候補を得た後、フレーズ対応データ作成部３７により、分割テキストデータＤＴＤの各フレーズと、これに対応する分割読み上げ音声データＤＳＤ内のフレーズの同期処理（Ｓ３）が行われる。

図８は、フレーズ対応データ作成部によるフレーズの同期処理を示すフロー図である。
まず、ＣＰＵ３０は、記憶部２０に記憶されている図５に示すような分割テキストデータＤＴＤに対応させたデータ一式の読み込みを行う（Ｓ３１）。次に、ＣＰＵ３０は、記憶部２０に記憶されている図７に示すような分割読み上げ音声データＤＳＤに対応させたデータ一式を読み込みする（Ｓ３２）。なお、Ｓ３１の処理とＳ３２の処理は処理順番を入れ替えしてもよい。

ＣＰＵ３０によるフレーズ対応データ作成部３７は、図５の分割テキストデータＤＴＤに対応させたデータ一式から分割テキストデータＤＴＤの通し番号ＴＴとテキストデータ音素変換累計値ＴＮを抽出する。また、フレーズ対応データ作成部３７は、図７の分割読み上げ音声データＤＳＤに対応するデータ一式から分割読み上げ音声データＤＳＤの通し番号ＳＴと音声データ音素変換累計値ＳＮを抽出する。抽出された各データは図９に示すように、分割テキストデータＤＴＤのテーブル（左側２列）と、分割読み上げ音声データＤＳＤのテーブル（右側２列）にそれぞれ分けられる。

これに続いてフレーズ対応データ作成部３７は、図９に示す分割テキストデータＤＴＤのテーブルにおける各通し番号ＴＴに対して同期させるべき分割読み上げ音声データＤＳＤの通し番号ＳＴを決定する処理を行う。具体的には分割テキストデータＤＴＤのテキストデータ音素変換累計値ＴＮと、分割読み上げ音声データＤＳＤの音声データ音素変換累計値ＳＮの比較を行う（Ｓ３３）。

より詳細には次のとおりとなる。
まず、フレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝１のテキストデータ音素変換累計値ＴＮ１と、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝１の音声データ音素変換累計値ＳＮ１との差を求めて絶対値化し、この絶対値をＡ１とする。次にフレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝１のテキストデータ音素変換累計値ＴＮ１と、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝２の音声データ音素変換累計値ＳＮ２との差を求めて絶対値化し、この絶対値をＡ２とする。さらにフレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝１のテキストデータ音素変換累計値ＴＮ１と、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝３の音声データ音素変換累計値ＳＮ３との差を求めて絶対値化し、この絶対値をＡ３とする。

このようにしてフレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおけるある通し番号ＴＴにおけるテキストデータ音素変換累計値ＴＮに対して、分割読み上げ音声データＤＳＤのテーブルにおける少なくとも３つの通し番号ＳＴに対応する音声データ音素変換累計値ＳＮとの比較を行う。そして、テキストデータ音素変換累計値ＴＮと音声データ音素変換累計値ＳＮの差の絶対値Ａ１，Ａ２，Ａ３において、最も小さい絶対値を得た分割読み上げ音声データＤＳＤのテーブルにおける音声データ音素変換累計値ＳＮ（通し番号ＳＴ）を、分割読み上げ音声データＤＳＤにおける最初の分割位置として決定している。

図９において、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝１について説明すると、Ａ１＝絶対値（３１−３７）＝６，Ａ２＝絶対値（３１−８７）＝５６，Ａ３＝絶対値（３１−１００）＝６９である。したがって、分割テキストデータＤＴＤの通し番号ＴＴ＝１に対応する区切れ位置には、分割読み上げ音声データＤＳＤの通し番号ＳＴ＝１の区切れ位置が対応することになる。ここで、フレーズ対応データ作成部３７は、図１０に示すように分割テキストデータＤＴＤの通し番号ＴＴ＝１に対して、分割読み上げ音声データＤＳＤの通し番号ＳＴ＝１を紐付けして（対応させて）、フレーズ対応データＦＤ１として記憶部２０に記憶させている（Ｓ３４）。

次に、フレーズ対応データ作成部３７は、図９における分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２のテキストデータ音素変換累計値ＴＮ２に対して、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＴＴ＝２以降少なくとも３つの音声データ音素変換累計値ＳＮ２，ＳＮ３，ＳＮ４との比較を前述と同様の方法により実行する。なお、分割テキストデータＤＴＤの通し番号ＴＴ＝２以降については、ＴＴ＝２に対応する分割テキストデータＤＴＤのテキストデータ音素変換累計値ＴＮ２と、少なくとも分割読み上げ音声データＤＳＤの通し番号ＳＴ＝２，３，４に対応する音声データ音素変換累計値ＳＮ２，ＳＮ３，ＳＮ４との比較を行う。そしてテキストデータ音素変換累計値ＴＮ２との差の絶対値の状態に応じてフレーズ対応データＦＤｎ（ｎは２以上の自然数）の決定方法が異なる。具体的には次のような方法である。

先に説明したＡ１，Ａ２，Ａ３を算出した方法と同様の方法で算出した絶対値Ａ２，Ａ３，Ａ４の大小を比較した結果が、Ａ２＜Ａ３＜Ａ４となった場合には、フレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２に対して、分割読み上げ音声データＤＳＤの通し番号ＳＴ＝２を対応させて、フレーズ対応データＦＤ２として記憶部２０に記憶させる。テキストデータ音素変換累計値ＴＮおよび音声データ音素変換累計値ＳＮどうしが最も近い値（すなわち、算出した絶対値Ａ２が最小）であるということは、分割テキストデータＤＴＤおよび分割読み上げ音声データＤＳＤにおいて共通する区切れ位置である可能性が高いということになるからである。

ここで、絶対値Ａ２，Ａ３，Ａ４の比較結果が、Ａ２＞Ａ３＜Ａ４となった場合には、フレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２における区切れ位置に対しては、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝３を対応させている。テキストデータ音素変換累計値ＴＮおよび音声データ音素変換累計値ＳＮどうしが最も近い値（すなわち、算出した絶対値Ａ３が最小）であるということは、分割テキストデータＤＴＤおよび分割読み上げ音声データＤＳＤにおいて共通する区切れ位置である可能性が高いということになるからである。

また、絶対値Ａ２，Ａ３，Ａ４の比較結果が、Ａ２＞Ａ３＞Ａ４となった場合には、フレーズ対応データ作成部３７は、図９の分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＴＴ＝５以降についても絶対値Ａ５以降を算出し、絶対値Ａｎを追加算出する都度、ひとつ前の絶対値Ａ（ｎ−１）との大小関係を比較し、一つ前の絶対値Ａ（ｎ−１）よりも算出した絶対値Ａｎの方が大きくなるまで繰り返し大小関係を比較する処理を実行する。

このような場合においては、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２の区切れ位置に対して、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝（ｎ−１）の区切れ位置においてテキストデータ音素変換累計値ＴＮと音声データ音素変換累計値ＳＮどうしが最も近似値となるので、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝（ｎ−１）の位置が最も確からしい区切れ位置ということになる。したがって、フレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２に対して、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝（ｎ−１）を対応させたフレーズ対応データＦＤ２を作成し、記憶部２０に記憶させるのである。

もし、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝ｘ（ｘは自然数）に対する分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝ｎ（ｎは自然数）の絶対値Ａｎが０になった場合には、フレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝ｘに対して、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝ｎを対応付けたフレーズ対応データＦＤｘを作成し、記憶部２０に記憶させる処理を実行させてもよい。

フレーズ対応データ作成部３７は、以上のようなテキストデータ音素変換累計値ＴＮと音声データ音素変換累計値ＳＮとに基づいたデータ処理を繰り返し行うことにより、基本データである分割テキストデータＤＴＤのテーブルにおける区切れ位置に対して最も適した分割読み上げ音声データＤＳＤの区切れ位置を選択することができる。フレーズ対応データ作成部３７は、テキストデータ音素変換累計値ＴＮの値が１００００である通し番号ＴＴについてのフレーズ対応データＦＤを作成した時点で、フレーズ対応データ作成処理を一旦終了させる。

以上のように分割テキストデータＤＴＤの通し番号ＴＴの全てに対するフレーズ対応データＦＤ１〜ＦＤｎが作成された後、ＣＰＵ３０は記憶部２０から図１０に示すフレーズ対応データＦＤ１〜ＦＤｎを順次読み出しを行う。つづいて、ＣＰＵ３０はフレーズ対応データＦＤｘに紐付けされた分割テキストデータＤＴＤおよび分割読み上げ音声データＤＳＤを対にした（同期させた）状態でデータ出力部であるディスプレイ４４およびスピーカ４２から出力させる（Ｓ３５）。これにより使用者は、ディスプレイ４４およびスピーカ４２への出力結果の確認を行うことができる。使用者は、必要に応じてテキストデータＴＤと読み上げ音声データＳＤとの同期処理を公知の手法を用いた微調整を行うことにより、テキストデータＴＤと読み上げ音声データＳＤとの同期処理を完成させることができる。

本実施形態によれば、テキストデータＴＤと読み上げ音声データＳＤとにおける両者の区切れ位置の対応付け処理（同期処理）であるフレーズ対応データＦＤを自動処理によってほとんどの部分を作成することができ、従来技術に対して同期処理を行う際の労力を大幅に軽減させることが可能になる点で好都合である。

（第２実施形態）
ところで、第１実施形態におけるフレーズ対応データ作成部３７は、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝１の区切れ位置に対し、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝２の区切れ位置を選択した場合、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴ＝２に対しては、分割読み上げ音声データＤＳＤのテーブルにおける通し番号ＳＴ＝３以降のみを比較対象としている。このようなデータ処理方法は効率的なデータ処理を実現するうえで好都合であるが、テキストデータＴＤと読み上げ音声データＳＤの構成内容によっては、作成されたフレーズ対応データＦＤに不具合が生じる場合もある。

正確なフレーズ対応データＦＤの作成を試みる場合、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴのテキストデータ音素変換累計値ＴＮに対応する分割読み上げ音声データＤＳＤの通し番号ＳＴの音声データ音素変換累計値ＳＮの抽出を行う際には、それぞれの通し番号ＴＴに対応するテキストデータ音素変換累計値ＴＮに対して、常に最初の通し番号ＳＴに対応する音声データ音素変換累計値ＳＮから比較対象とすることが好ましい。

しかしながら、このようなフレーズ対応データＦＤの作成形態を採用した場合、無音区間抽出判断データＭＪＤの設定値（特に、音声の出力下限値以下の継続時間の値が大きい場合）によっては、一つの分割読み上げ音声データＤＳＤにおける通し番号ＳＴの音声データ音素変換累計値ＳＮに対して、分割テキストデータＤＴＤのテーブルにおける通し番号ＴＴのテキストデータ音素変換累計値ＴＮが紐付け（対応）されることがある。

本実施形態においてはこのような不具合が発生した際において、音声データ音素変換累計値ＳＮ（通し番号ＳＴ）とテキストデータ音素変換累計値ＴＮ（通し番号ＴＴ）の重複を解消するための実施形態例について説明を行う。ここで、図１１は、第２実施形態におけるテキストデータと読み上げ音声データとの同期処理装置の概略構成を示すブロック図である。図１２は、本形態において同期処理を行う際に用いる分割テキストデータＤＴＤのテーブルと、分割読み上げ音声データＤＳＤのテーブルとの一覧を示す要部抜粋図である。なお、本実施形態においては、第１実施形態と同様の構成については、第１実施形態において用いた符号と同符号を用いることによりここでの詳細な説明を省略している。

ＣＰＵ３０による重複音素変換累計値抽出部３８は、フレーズ対応データＦＤにおける音声データ音素変換累計値ＳＮ（分割読み上げ音声データＤＳＤの通し番号ＳＴ）の重複の有無を検出するものである。重複音素変換累計値抽出部３８がフレーズ対応データＦＤから分割テキストデータＤＴＤのテキストデータ音素変換累計値ＴＮの通し番号ＴＴに対して複数の音声データ音素変換累計値ＳＮ（分割読み上げ音声データＤＳＤの通し番号ＳＴ）が紐付けされていることを検出した場合にのみ、再設定処理部３９としての機能がＣＰＵ３０によって発揮される。

再設定処理について図１２を用いて具体的に説明する。ＣＰＵ３０による再設定処理部３９は、フレーズ対応データＦＤにおけるテキストデータ音素変換累計値ＴＮ（または通し番号ＴＴ）と、音声データ音素変換累計値ＳＮ（または通し番号ＳＴ）に重複部分を検出した場合、フレーズ対応データＦＤにおいて、音素変換累計値ＳＮ（または通し番号ＳＴ）が重複するフレーズ対応データＦＤを抽出する。

図１２（Ａ）に示されているように、フレーズ対応データＦＤ５，ＦＤ６が共に分割読み上げ音声データＤＳＤの音声データ音素変換累計値ＳＮ＝１４６１（ＳＴ＝１４）に紐付けされているので、ここでは、フレーズ対応データＦＤ５およびＦＤ６について、分割読み上げ音声データＤＳＤの音声データ音素変換累計値ＳＮ＝１４６１（ＳＴ＝１４）への重複紐付け状態を解消するための再設定処理が行われることになる。
再設定処理部３９は、これらのフレーズ対応データＦＤ５，ＦＤ６に対応付けされている分割読み上げ音声データＤＳＤの通し番号の１つ前と１つ後の通し番号ＳＴ＝１３〜ＳＴ＝１５までを通し番号ＳＴ順に結合させ、再設定処理区間における読み上げ音声データとしての再設定用読み上げ音声データＳＤ２を作成する。

つづいて再設定処理部３９は、記憶部２０の無音区間抽出判断データＭＪＤの設定値に対して予め設定されている係数を乗じて第２無音区間抽出判断データＭＪＤ２を作成する。これは無音区間抽出判断データよりもさらに限定された条件で無音区間を抽出するためである。この係数の一例としては、音声の出力下限値用係数を１とし、音声の出力下限値以下の継続時間用係数を０．５とすることができる。これにより、音声出力値における条件は等しいながらも、音声の出力下限値以下の継続時間のみを短縮させた条件で無音区間の抽出する条件を得ることができる。

ここでは、再設定処理部３９が予め記憶部２０に記憶させていた無音区間抽出判断データＭＪＤおよび係数を用いて第２無音区間抽出判断データＭＪＤ２を作成しているが、この形態に限定されるものではない。例えば、使用者がデータ入力手段５０により、無音区間抽出判断データＭＪＤの各項目に乗じる係数または第２無音区間抽出判断データＭＪＤ２を直接設定する形態や、予め第２無音区間抽出判断データＭＪＤ２を記憶部２０に記憶させておくこともできる。要は、第２無音区間抽出判断データＭＪＤ２を用いることにより、無音区間抽出判断データＭＪＤでは抽出することができなかった無音区間を再設定用の読み上げ音声データ２ＳＤ２から確実に抽出させるための条件に設定することができればよいのである。

続いて再設定処理部３９は、再設定用読み上げ音声データＳＤ２を音声波形データに変換処理をして、第２無音区間抽出判断データＭＪＤ２に基づいて、再設定用読み上げ音声データＳＤ２（無音区間抽出判断データＭＪＤに基づいて付与された通し番号ＳＴ＝１３〜１５）に相当する読み上げ音声データの抜粋）内から第２無音区間を抽出する。第２無音区間の具体的な抽出方法については、第１実施形態における無音区間抽出判断データＭＪＤを用いた抽出方法と同様にして行うことができるため、ここでの詳細な説明は省略する。

次に再設定処理部３９は、第２無音部分によって区切られた第２分割読み上げ音声データＤＳＤ２の各々に対し、抽出した順に第２の通し番号ＳＳＴを付与すると共に、音素変換処理を行い、第２の通し番号ＳＳＴの各々における音素数ＳＯＮ２を算出すると共に音素変換累計値ＳＳＮを算出する。本実施形態において算出された各値は、図１２（Ｂ）に示すようになった。
つづいて再設定処理部３９は、図１２（Ｂ）のデータに基づいて、再設定区間における分割読み上げ音声データＤＳＤの通し番号ＳＴの修正を行う。再設定区間における再設定処理前の通し番号ＳＴの増加は２である。これに対して、第２の通し番号ＳＳＴは１，２，３の３つである。すなわち今回の再設定処理により分割読み上げ音声データＤＳＤ側の区切れ位置が１つ増加したことになる。

次に再設定処理部３９は、再設定処理前のデータにおける最小の通し番号であるＳＴ＝１３の音声データ音素変換累計値ＳＮ＝１３２７に、第２の通し番号ＳＳＴ＝１の音声データ音素変換累計値ＳＮ２＝１３４を加え、新しい通し番号ＳＴ＝１４の音声データ音素変換累計値ＳＮ２＝１４６１を得る。これと同様にして再設定処理部３９は第２の通し番号ＳＳＴ＝２およびＳＳＴ＝３についても同様の計算を実行し、図１２（Ｃ）に示すような再設定区間における分割読み上げ音声データＤＳＤの新しい通し番号ＳＴ２＝１３〜１６についての音声データ音素変換累計値ＳＮ２の対応データを得る。

次に、再設定処理部３９はテキストデータ側の通し番号ＴＴ＝５，ＴＴ＝６についての修正処理を実行する。テキストデータ側の通し番号ＴＴ＝５，ＴＴ＝６のテキストデータ音素変換累計値ＴＮと、図１２（Ｃ）における再設定用の音声データ音素変換累計値ＳＮ２との比較を行う。テキストデータ音素変換累計値ＴＮと再設定用の音声データ音素変換累計値ＳＮ２との比較処理については、第１実施形態における音素変換累計値の比較方法で説明した比較方法と同様にして行うことができるので、ここでの詳細な説明は省略する。

本実施形態においては、分割テキストデータＤＴＤ側の通し番号ＴＴ＝５，ＴＮ＝１４３５に対しては、図１２（Ｃ）に示す再設定区間における音声データの新しい通し番号ＳＴ２および音声データ音素変換累計値ＳＮ２において、ＳＴ２＝１４，ＳＮ２＝１４６１が対応し、ＴＴ＝６，ＴＮ＝１４８３に対しては、ＳＴ２＝１５，ＳＮ２＝１５００が対応し、複数の通し番号ＴＴに対する音声データ音素変換累計値ＳＮの重複対応状態が解消されることになる。

このように再設定処理部３９によるフレーズ対応データＦＤの再設定処理が行われることで、音声データ側における区切れ位置が増加（図１１から明らかなように、分割読み上げ音声データ側における区切れ位置が新しい通し番号ＳＴ２＝１５，ＳＮ＝１５００の一箇所が増加）し、フレーズ対応データＦＤの一部（ここでは、分割テキストデータＤＴＤの通し番号ＴＴ＝７以降の部分）において、分割テキストデータＤＴＤの通し番号ＴＴに対応させる読み上げ音声データＤＳＤの通し番号ＳＴに変更が生じることになる。フレーズ対応データＦＤにおける各通し番号ＴＴ，ＳＴの変更処理もまた、再設定処理部３９により行われる。

再設定処理部３９は、再設定区間に直後における分割読み上げ音声データＤＳＤの通し番号ＳＴ（本実施形態ではＳＴ＝１５以降）に対して、再設定処理において増加した区切れ位置の数である１を加算し、ＴＴ＝７以降に対応されている分割読み上げ音声データＤＳＤの通し番号ＳＴを修正する。そして、フレーズ対応データＦＤの再設定区間よりも前の部分（ここでは、分割テキストデータＤＴＤの通し番号ＴＴ＝１〜４の部分）と、再設定区間で修正した分割テキストデータＤＴＤの通し番号ＴＴ＝５，ＴＴ＝６の部分と、フレーズ対応データＦＤの再設定区間よりも後の部分（ここでは、分割テキストデータＤＴＤの通し番号ＴＴ＝７以降の部分）とを統合して分割テキストデータＤＴＤにおけるテキストデータ音素変換累計値ＴＮ（区切れ位置の通し番号ＴＴ）と、分割読み上げ音声データＤＳＤにおける音素変換累計値ＳＮ（区切れ位置の通し番号ＳＴ）との対応データ（修正フレーズ対応データＭＦＤの元データ）を作成し、対応データを記憶部２０に記憶させる。このようにして得られた対応データは図１３に示すようになる。再設定処理部３９は、図１３に示した対応データに基づいて修正フレーズ対応データＭＦＤを作成し、記憶部２０に記憶させる。

このように、読み上げ音声データＳＤ内の区切れ位置の変更処理を行うのに最適と考えられる範囲（再設定区間）においてのみ行うことで、読み上げ音声データＳＤ内の区切れ位置の変更処理を、読み上げ音声データＳＤの全範囲にわたって行う処理に比較して処理時間を大幅に短縮させることができる。そして、信頼性の高い（テキストデータＴＤと読み上げ音声データＳＤの区切れ位置の一致率（同期率）が高い）フレーズ対応データＦＤの作成が可能になる。

（第３実施形態）
第２実施形態で説明した再設定処理を実行した後であっても、再設定処理を実行する際に用いた第２無音区間抽出判断データＭＪＤ２の条件によっては、依然として修正フレーズ対応データＭＦＤにおける読み上げ音声データＳＤ側の音声データ音素変換累計値ＳＮ（または通し番号ＳＴ）の重複が解消されない場合がある。本実施形態では、このような問題を解消するための構成例について説明する。
具体的には、修正フレーズ対応データＭＦＤにおける分割読み上げ音声データＤＳＤ側の音声データ音素変換累計値ＳＮ（または通し番号ＳＴ）の重複部分を対象として、区切れ部分を強制的に設定する強制処理部３９Ａを有する構成について説明を行う。

本実施形態における強制処理部３９Ａは、図１４に示すようにＣＰＵ３０により実現されている。以下、強制設定処理について具体的に説明する。
第２実施形態において、修正フレーズ対応データＭＦＤが作成された後、重複音素変換累計値抽出部３８が、修正フレーズ対応データＭＦＤについて音声データ音素変換累計値ＳＮの重複対応状態の有無状態について再確認処理を実行する。

この修正フレーズ対応データＭＦＤに対する音素変換累計値重複再確認処理の結果、複数のテキストデータ音素変換累計値ＴＮ（通し番号ＴＴ）が同一の音声データ音素変換累計値ＳＮ（通し番号ＳＴ）に対応付けされていること（音声データ音素変換累計値ＳＮの重複対応状態）を検出した場合、ＣＰＵ３０は、修正フレーズ対応データＭＦＤ内における条件該当部分を抽出し、抽出した修正フレーズ対応データＭＦＤの抽出区間を第２分割読み上げ音声データＤＳＤ２である強制設定用データＰＦＤとして記憶部２０に記憶させる処理を実行する。図１５は、強制処理部３９Ａにより強制的に区切れ区間が設定される修正フレーズ対応データＭＦＤの抽出部分におけるデータの内訳を示した説明図である。

図１５（Ａ）から明らかなとおり、テキストデータ音素変換累計値ＴＮ１３，ＴＮ１４（または通し番号ＴＴ１３，ＴＴ１４）は、いずれも音声データ音素変換累計値ＳＮ１７（または通し番号ＳＴ１７）に対応されたフレーズ対応データＦＤ１３，ＦＤ１４になっている。また図１５においては、通し番号ＴＴ１２，ＴＴ１３，ＴＴ１４に対応するテキストデータ音素変換累計値ＴＮ１２，ＴＮ１３，ＴＮ１４はそれぞれ６００，７００，８００となっている。同じく図１５においては、通し番号ＳＴ１７における累計音素数ＳＮ１７＝７９８とその直前における通し番号ＳＴ１６の累計音素数ＳＮ１６＝５９８との差が２００になっている。

このような状態において強制処理部３９Ａは、テキストデータ音素変換累計値ＴＮ１３およびＴＮ１２の差と、テキストデータ音素変換累計値ＴＮ１４およびＴＮ１３との差をそれぞれ算出し、通し番号ＳＴ１７における音声データ音素変換累計値ＳＮ１７と、その直前における通し番号ＳＴ１６の音声データ音素変換累計値ＳＮ１６との差である２００を比例配分する。ここでは、通し番号ＳＴ１６の音声データ音素変換累計値ＳＮ１６＝５９８に１００を加えた６９８を通し番号ＳＴ１７に対応する音声データ音素変換累計値ＳＮとし、この音声データ音素変換累計値ＳＮ＝６９８を強制的に通し番号ＴＮ１３に対応する読み上げ音声データＳＤに基づく区切れ位置とする。さらに強制処理部３９Ａは、ＴＮ１３に対応する音声データ音素変換累計値ＳＮ＝６９８にさらに１００を加えた音声データ音素変換累計値ＳＮ＝７９８を、通し番号ＳＴ１８に対応する音声データ音素変換累計値ＳＮとし、この音声データ音素変換累計値ＳＮ＝７９８を強制的に通し番号ＴＮ１４に対応する読み上げ音声データＳＤに基づく区切れ位置とする。

つづいて強制処理部３９Ａは、強制的に区切れ位置を追加設定した数（ここでは１）を、通し番号ＳＴ＝１８以降の通し番号ＳＴの数に加算する通し番号ＳＴの修正処理を実行する。なお、通し番号ＳＴの修正方法は、第２実施形態で説明した方法と同様にして行うことができるため、ここでの詳細な説明は省略する。
そして強制処理部３９Ａは、修正フレーズ対応データＭＦＤにおいて通し番号ＳＴ＝１〜ＳＴ＝１６までの範囲のデータと、強制処理部３９Ａにより区切れ位置を増加させた部分の通し番号ＳＴ＝１７以降のデータとを統合して強制修正フレーズ対応データＦＦＤを作成すると共に記憶部２０に記憶させて、分割読み上げ音声データＤＳＤの特定通し番号ＳＴが付与されている有音区間に区切れ部分を強制的に設定する処理を終了する。

本実施形態においては、基本となるデータ（正データ）である分割テキストデータＤＴＤに基づく区切れ位置に対応する区切れ位置が分割読み上げ音声データＤＳＤ側において抽出できない場合に、分割すべきフレーズの音素数（フレーズの長さ）に応じて、分割読み上げ音声データＤＳＤ側に区切れ位置を強制的に追加配設し、修正フレーズ対応データＭＦＤにおける分割テキストデータＤＴＤと分割読み上げ音声データＤＳＤとの区切れ位置の重複対応付け部分を強制的に修正する構成を有することが最大の特徴部分である。

そして、ＣＰＵ３０は、強制修正フレーズ対応データＦＦＤによって対応付けされているテキストデータ音素変換累計値ＴＮ，音声データ音素変換累計値ＳＮおよび通し番号ＴＴ，通し番号ＳＴに基づいて、テキストデータＴＤと読み上げ音声データＳＤとを同期させた状態でディスプレイ４４やスピーカ４２に出力し、使用者による同期状態の確認を行うことができる。

本実施形態によれば、複数回にわたって無音区間を抽出する処理を実行してもなお、読み上げ音声データＳＤから適切な無音区間の抽出ができないような場合においては、無音区間ではないところに音素数に応じた位置に強制的に区切値位置を設けることで、繰り返しの処理を行う手間を省略することができる点で好都合である。

以上に本願発明について実施形態に基づいて詳細に説明をしたが、本願発明の技術的範囲は以上に示した実施形態に限定されるものではない。たとえば、以上に示した第１実施形態〜第３実施形態の他に、本明細書内において説明した各実施形態と各変形例の一部構成を適宜組み合わせた実施形態を採用することも可能である。

より具体的に説明すると、上記各実施形態においては、分割読み上げ音声データＤＳＤを音素変換処理する際において、読み上げ音声データＳＤを一旦テキストデータ化する処理を行っているが、分割読み上げ音声データＤＳＤをテキストデータ化する処理は必須ではない。分割読み上げ音声データＤＳＤ（読み上げ音声データＳＤ）から直接音素変換処理を行うことにより音素変換処理を行う形態を採用することもできる。これにより分割読み上げ音声データＤＳＤのテキストデータ化処理に要する処理時間を短縮させることができる点において好都合である。

１０テキストデータと読み上げ音声データとの同期処理装置（テキスト音声データ同期処理装置），２０記憶部，３０ＣＰＵ，３１テキストデータ分割部，
３２テキストデータ音素変換部，３３テキストデータ音素変換累計値算出部，
３４読み上げ音声データ分割部，３５読み上げ音声データ音素変換部，
３６読み上げ音声データ音素変換累計値算出部，３７フレーズ対応データ作成部，
３８重複音素変換累計値抽出部，３９再設定処理部，３９Ａ強制処理部，
４２スピーカ，４４ディスプレイ，５０データ入力手段

Claims

複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データのそれぞれを記憶可能な記憶部と、
前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割部と、
前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換部と、
前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出部と、
前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割部と、
前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換部と、
前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出部と、
前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成部と、
前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力部と、
を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理装置。
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出部と、
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理部と、をさらに有し、
前記再設定処理部は、
前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
前記無音区間抽出判断データよりもさらに制約された条件である第２の無音区間抽出判断データに基づいて、前記再設定区間データから第２の無音部分を抽出する処理と、
前記第２の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第２分割読み上げ音声データを作成する処理と、
前記第２分割読み上げ音声データの分割区間の各々について音素変換処理して得た第２音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
をそれぞれ実行することを特徴とする請求項１記載のテキストデータと読み上げ音声データとの同期処理装置。
前記重複音素変換累計値抽出部が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
前記重複音素変換累計値抽出部により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第２分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
該算出したテキストデータ音素変換値の比率に応じて、前記第２分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
をそれぞれ実行する強制処理部をさらに有していることを特徴とする請求項２記載のテキストデータと読み上げ音声データとの同期処理装置。
前記読み上げ音声データ音素変換累計値算出部は、
前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項１〜３のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理装置。
複数のフレーズからなるテキストデータと該テキストデータの読み上げ音声データを記憶する記憶部と、前記テキストデータと前記読み上げ音声データとを用いて、前記テキストデータと前記読み上げ音声データとの区切れ位置を対応させるためのデータ処理部と、前記テキストデータと前記読み上げ音声データとを出力する出力部と、を有するテキストデータと読み上げ音声データとの同期処理装置にインストールされ、前記データ処理部によって実行されるテキストデータと読み上げ音声データとの同期処理プログラムであって、
前記記憶部に記憶されている前記テキストデータを前記フレーズ毎に分割し、分割順を示す識別子と対応させた分割テキストデータを前記記憶部に記憶させるテキストデータ分割機能と、
前記分割テキストデータを前記フレーズ毎に音素変換処理をして得たテキストデータ音素変換値を、前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換機能と、
前記分割テキストデータの前記フレーズ毎における前記テキストデータ音素変換値の累計値を算出し、該算出して得たテキストデータ音素変換累計値を、前記分割テキストデータの前記フレーズ毎に対応させた状態で前記記憶部に記憶させるテキストデータ音素変換累計値算出機能と、
前記読み上げ音声データから、予め設定された無音区間抽出判断データに基づいて無音部分を抽出し、該抽出した無音部分において前記読み上げ音声データを分割し、分割順を示す識別子と対応させた分割読み上げ音声データを前記記憶部に記憶させる読み上げ音声データ分割機能と、
前記分割読み上げ音声データの分割範囲毎に音素変換処理をして得た読み上げ音声データ音素変換値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換機能と、
前記分割読み上げ音声データの分割範囲毎における前記読み上げ音声データ音素変換値の累計値を算出し、該算出した読み上げ音声データ音素変換値の累計値を、前記分割読み上げ音声データの分割範囲毎に対応させた状態で前記記憶部に記憶させる読み上げ音声データ音素変換累計値算出機能と、
前記分割テキストデータにおいて前記フレーズ毎に対応させた前記テキストデータ音素変換累計値に対して、前記読み上げ音声データ音素変換累計値の最近似値を抽出し、前記分割テキストデータ内における前記フレーズ毎に対応する前記読み上げ音声データ音素変換累計値を、前記分割テキストデータにおける前記フレーズの再生順序を指定する識別子に紐付けしたフレーズ対応データを作成するフレーズ対応データ作成機能と、
前記フレーズ対応データに基づいて、対応する前記テキストデータのフレーズと前記分割読み上げ音声データをそれぞれ対応させた状態で出力する出力機能と、
を有していることを特徴とするテキストデータと読み上げ音声データとの同期処理プログラム。
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複の有無を検出する重複音素変換累計値抽出機能と、
前記フレーズ対応データ内における前記読み上げ音声データ音素変換累計値の重複を解消するためのフレーズ対応データの再設定処理を実行する再設定処理機能と、をさらに有し、
前記再設定処理機能は、
前記読み上げ音声データ音素変換累計値の重複が検出されると、前記読み上げ音声データ音素変換累計値が重複している前記分割読み上げ音声データのすべてを再設定区間データとし、
前記無音区間抽出判断データよりもさらに制約された条件である第２の無音区間抽出判断データに基づいて、前記再設定区間データから第２の無音部分を抽出する処理と、
前記第２の無音部分の抽出結果に基づいて、前記再設定区間データを分割して得た第２分割読み上げ音声データを作成する処理と、
前記第２分割読み上げ音声データの分割区間の各々について音素変換処理して得た第２音素変換値を算出し、前記再設定区間データ内において前記再設定区間データ内における分割順に累計した再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記再設定区間データ内読み上げ音声データ音素変換累計値を抽出し、前記再設定区間データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記再設定区間データ内における前記分割テキストデータの各フレーズに対応する前記再設定区間データ内における前記分割読み上げ音声データの累計値を紐付けした再設定区間内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、修正フレーズ対応データを作成する処理と、
をそれぞれ実行することを特徴とする請求項５記載のテキストデータと読み上げ音声データとの同期処理プログラム。
前記重複音素変換累計値抽出機能が、前記修正フレーズ対応データにおける前記再設定区間データ内読み上げ音声データ音素変換累計値の重複を検出した場合、
前記重複音素変換累計値抽出機能により重複が検出された前記再設定区間データ内読み上げ音声データ音素変換累計値およびこれに対応付けされている前記第２分割読み上げ音声データと前記分割テキストデータとによる強制処理対象データを作成する処理と、
前記強制処理対象データにおける前記分割テキストデータの前記テキストデータ音素変換値の合計値を算出すると共に、該合計値に対する前記強制処理対象データにおける前記分割テキストデータのそれぞれにおける前記テキストデータ音素変換値の比率を算出する処理と、
該算出したテキストデータ音素変換値の比率に応じて、前記第２分割読み上げ音声データに強制分割部を形成すると共に当該強制分割部における前記再設定区間データ内読み上げ音声データ音素変換累計値を算出する処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズにおける前記テキストデータ音素変換累計値に対して、最も近い値の前記強制処理対象データ内の読み上げ音声データ音素変換累計値を抽出し、前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応させる処理と、
前記強制処理対象データ内における前記分割テキストデータの各フレーズに対応する前記強制処理対象データ内の前記読み上げ音声データ音素変換累計値を紐付けした強制処理対象データ内フレーズ対応データを作成する処理と、
前記フレーズ対応データと前記再設定区間内フレーズ対応データと、前記強制処理対象データ内フレーズ対応データとを、前記分割テキストデータ内の識別子を基準として統合し、強制修正フレーズ対応データを作成する処理と、
をそれぞれ実行する強制処理機能をさらに有していることを特徴とする請求項６記載のテキストデータと読み上げ音声データとの同期処理プログラム。
前記読み上げ音声データ音素変換累計値算出機能は、
前記読み上げ音声データを音声認識処理によって一旦テキストデータに変換すると共に、前記読み上げ音声データのテキストデータに対して音素変換処理を実行することを特徴とする請求項５〜７のうちのいずれか一項に記載のテキストデータと読み上げ音声データとの同期処理プログラム。