JP5184234B2

JP5184234B2 - データ生成装置及びデータ生成プログラム、並びに、再生装置

Info

Publication number: JP5184234B2
Application number: JP2008176844A
Authority: JP
Inventors: 有一塚本; 功進藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-07-07
Filing date: 2008-07-07
Publication date: 2013-04-17
Anticipated expiration: 2028-07-07
Also published as: JP2010015088A

Description

本発明は、音声の再生に合わせてテキストを所定のタイミングで表示するための連動表示用データを生成するデータ生成装置及びデータ生成プログラム、並びに、再生装置に関する。

音楽に合わせて画面に表示される歌詞を見ながら歌を歌うためのカラオケ機器が広く普及している。多くのカラオケ機器は、音楽の再生に合わせて歌詞を画面に表示し、歌われる部分の歌詞の表示色を適当なタイミングで滑らかに変えていく。例えば、グレーから白に歌詞の表示色を変えていく。このようなカラオケ機器は、音楽データ及び歌詞データの他に、音楽の再生に合わせて歌詞の表示色を変えるための連動表示用データを用いる。特許文献１及び２は、連動表示用データを作成するための技術について説明する。

特許文献１には、音声コンテンツと歌詞等のテキストデータとの間の同期タイミングを設定するリンクテーブルを作成するファイル作成装置が開示されている。当該ファイル作成装置はリンク作成部を備え、リンク作成部は、図１８に示すように、周波数弁別部２０１と、特徴抽出部２０２と、言語作成部２０３と、言語モデルデータベース２０４と、言語モデルメモリ部２０５と、フレームカウント部２０６と、経過時間算出部２０７と、テキスト分割部２０８と、テキストメモリ部２０９と、テーブル作成部２１１とを有する。

周波数弁別部２０１は、フレームデータとして供給された音楽データの周波数スペクトルを解析し、人の音声帯域のスペクトル成分を抽出する。特徴抽出部２０２は、抽出されたスペクトル成分を音響分析して特徴パラメータを抽出する。言語作成部２０３は、特徴抽出部２０２で抽出された特徴パラメータと、音声モデルデータベース２０４に格納された各基準言語の特徴パラメータとを比較して言語列を生成する。音声モデルデータベース２０４は、五十音や濁音などの各言語モデルの特徴パラメータを言語モデル毎に記憶している。言語モデルメモリ部２０５は、言語作成部２０３で生成された言語列をテキストデータに変換して記憶する。

フレームカウント部２０６は、供給されたフレーム数を供給開始から累積し、その累積フレーム数を経過時間算出部２０７に供給する。経過時間算出部２０７は、累積フレーム数に基づいて、再生開始時からの経過時間を算出する。テキスト分割部２０８は、テキストデータを複数のブロックに区分けする。テキストメモリ部２０９は、ブロック毎に区分けされたテキストデータを記憶する。

マッチング部２１０は、テキストメモリ部２０９に記憶されたブロック毎のテキストデータと、言語モデルメモリ部２０５に記憶された言語列のテキストデータとを比較し、両者が整合したタイミングで識別信号をテーブル作成部２１１に送る。リンク作成部２１１は、マッチング部２１０から識別信号が供給されたタイミングで経過時間算出部２０７から経過時間データを取得し、この経過時間データを当該テキストブロックの再生タイミングとしてリンクテーブルに設定する。

また、特許文献２には、図１９に示すように、漢字仮名混じりの文字列で構成された歌詞情報を変換辞書部１６を用いて読みに変換し、当該変換した読みを音符等の楽譜情報に割り当てる歌詞割当装置が開示されている。変換辞書部１６は、所定の単語とその読み情報を対応して記憶する。

特開２００３−２８０６７０号公報特開２００２−８２６６５号公報

特許文献１のファイル作成装置は、上述のように、人の音声帯域のスペクトル成分を音響分析して特徴パラメータを抽出し、この特徴パラメータを音声モデルデータベース２０４に格納された各基準言語の特徴パラメータと比較して言語列を生成している。このため、言語列には句読点やクエスチョンマーク等の無音記号が含まれない。その結果、テキストメモリ部２０９に記憶されたテキストデータに無音記号が含まれていても、無音記号は言語作成部２０３によって生成された言語列とは整合しないため、当該無音記号を含む区分けされたテキストブロックには適した同期タイミングが設定されない可能性がある。また、特許文献１のファイル作成装置では、テキストブロックの先頭文字に対応する言語情報が抽出言語列の言語情報にマッチングした時点を比較開始時点とする事により、前記無音記号が含まれる場合の不一致をテキストブロック単位で抑制・回避しているが、テキストブロックが無音記号だけで構成されている場合、又は著しく多くの無音記号で構成されている場合には、適した同期タイミングが設定されない可能性がある。

また、特許文献２の歌詞割当装置は、上述のように、変換辞書部１６を用いて歌詞情報を読みに変換する。しかし、当該歌詞割当装置は、読みを持たない句読点やクエスチョンマーク等の無音記号は変換辞書部１６には登録されていないため、変換できない。このため、無音記号を楽譜情報に割り当てることができない。

また、当該歌詞割当装置は、変換辞書部１６に記録されていない固有名詞等の文字列を正確な読みに変換できない可能性がある。本来とは異なる読みを楽譜情報に割り当てると、適切なタイミングで歌詞が表示されない可能性があるため好ましくない。なお、ユーザは、変換辞書の内容を追加及び削除できる。このため、上述の固有名詞等の文字列とその読みを新たに追加できるが、この作業は、変換辞書の内容を変更するための操作方法を知るユーザが時間と手間をかけて行わなければならない。

本発明の目的は、読みが付与されない文字列又は正確な読みが付与されなかった文字列を含むテキストを音声の再生に合わせた所定のタイミングで表示するための連動表示用データを生成するデータ生成装置及びデータ生成プログラム、並びに、再生装置を提供することである。

本発明は、音声の再生に合わせてテキストを所定のタイミングで表示するための連動表示用データを生成するデータ生成装置であって、音源データから特徴パラメータを抽出し、当該抽出した特徴パラメータを所定の言語の特徴パラメータと比較する言語列生成部と、前記テキストを１つ以上の文字列に区分けして、各文字列に読みを付与するテキスト処理部と、読みが付与された各文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて、対象とされている文字列が再生されるタイミングを前記音源データの再生経過時間によって示すタイムスタンプ情報を含む連動表示用データを生成する第１データ処理部と、読みが付与されなかった文字列の前後の文字列のタイムスタンプ情報に基づいて、前記読みが付与されなかった文字列に所定長の時間帯を割り当てて、当該読みが付与されなかった文字列と、この文字列に割り当てた時間帯を示すタイムスタンプ情報とを前記連動表示用データに含める第２データ処理部と、を備えたデータ生成装置を提供する。

上記データ生成装置は、前記テキスト処理部によって読みが付与されなかった文字列と、当該文字列のテキスト内位置を示す情報とを記憶する位置管理部を備え、前記第２データ処理部は、前記第１データ処理部が、前記テキストに含まれる読みが付与された文字列の全てと、読みが付与された各文字列のタイムスタンプ情報とを含む連動表示用データを生成した後、前記位置管理部に記録された各文字列に所定長の時間帯を割り当てる。

上記データ生成装置では、前記第２データ処理部は、前記位置管理部が記憶する対象とされた文字列の直前の文字列のタイムスタンプ情報が示す終了時間から直後の文字列のタイムスタンプ情報が示す開始時間までの時間長を算出し、前記時間長が所定時間以上であれば、前記終了時間から前記開始時間までの時間内の所定長の時間帯を、前記対象とされた文字列に割り当て、前記時間長が所定時間未満であれば、前記直前の文字列に割り当てられた時間帯又は前記直後の文字列に割り当てられた時間帯の少なくともいずれか一方を短縮し、当該短縮した時間帯を、前記対象とされた文字列に割り当てる。

上記データ生成装置では、前記第２データ処理部は、前記直前の文字列に割り当てられた時間帯又は前記直後の文字列に割り当てられた時間帯のいずれか一方を前記所定長の時間、短縮する。

上記データ生成装置では、前記第２データ処理部は、前記終了時間から前記開始時間までの時間帯及び前記短縮した時間帯を、前記読みが付与されなかった文字列に割り当てる。

上記データ生成装置では、前記位置管理部に記録される文字列のテキスト内位置を示す情報は、当該文字列の前記テキストの先頭からの文字数を含む。

上記データ生成装置では、前記位置管理部に記録される文字列のテキスト内位置を示す情報は、前記テキストを所定の表示形態で表示したときの表示領域における行番号及び列番号を含む。

上記データ生成装置では、前記位置管理部に記録される文字列のテキスト内位置を示す情報は、当該文字列の前記テキストの先頭の文字列からの文字列番号を含む。

上記データ生成装置では、前記位置管理部に記録される文字列のテキスト内位置を示す情報は、前記テキストに含まれる前記テキスト処理部で区分けされた各文字列同士の順序関係を含む。

本発明は、音声の再生に合わせてテキストを所定のタイミングで表示するための連動表示用データを生成するデータ生成装置であって、音源データから特徴パラメータを抽出し、当該抽出した特徴パラメータを所定の言語の特徴パラメータと比較する言語列生成部と、前記テキストを１つ以上の文字列に区分けして、各文字列に読みを付与するテキスト処理部と、読みが付与された各文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて、対象とされている文字列が再生されるタイミングを前記音源データの再生経過時間によって示すタイムスタンプ情報を含む連動表示用データを生成するデータ処理部と、読みが付与されなかった文字列に特別な読みを付与する特別読み付与部と、前記データ処理部は、前記特別な読みが付与された文字列の直前の文字列のタイムスタンプ情報に基づいて、前記特別な読みが付与された文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて得られる前記再生されるタイミングを、当該特別な読みが付与された文字列に割り当てて、当該特別な読みが付与された文字列と、この文字列に割り当てた時間帯を示すタイムスタンプ情報とを前記連動表示用データに含めるデータ生成装置を提供する。

上記データ生成装置では、読みが付与されなかった文字列に含まれるいずれかの文字に対し、読みを推測する読み推測部を備える。
また、上記データ生成装置では、前記特別読み付与部は、前記読み推測部が読みを推測できなかった文字列に前記特別な読みを付与する。

上記データ生成装置では、前記データ処理部は、前記特別な読みが付与された文字列の直前の文字列のタイムスタンプ情報が示す終了時間から所定長の時間帯を、前記特別な読みが付与された文字列に割り当てる。

本発明は、コンピュータを、上記データ生成装置が備える各部として機能させるためのデータ生成プログラムを提供する。

本発明は、上記データ生成装置又は上記データ生成プログラムで作成した連動表示用データに基づき、音声の再生に合わせてテキスト内の読みを付与できない文字列を所定のタイミングで表示する再生装置を提供する。

本発明は、上記データ生成装置又は上記データ生成プログラムで作成した連動表示用データに基づき、音声の再生に合わせてテキスト内の読みを付与できない文字列を所定のタイミングで表示し、その表示部分を利用してユーザの選択箇所を取得する事により、読みの付与できない文字列から再生を開始する再生装置を提供する。

本発明に係るデータ生成装置及びデータ生成プログラム、並びに、再生装置によれば、読みが付与されない文字列又は正確な読みが付与されなかった文字列を含むテキストを音声の再生に合わせた所定のタイミングで表示するための連動表示用データを生成ことができる。

以下、本発明の実施形態について、図面を参照して説明する。以下説明する実施形態のデータ生成装置は、音源データ及びテキストデータに基づいて、音源データの再生に合わせた所定のタイミングでテキストを表示するための連動表示用データを生成する。なお、テキストは、句読点や特殊文字を含む日本語又は外国語の文章、歌詞等である。また、テキストを表示するとは、例えば、テキストの表示色の透過率を５０％から０％に変更したり、テキストの表示色を別の見やすい色に変更することや、テキストが全く表示されていない状態から表示することである。

データ生成装置が連動表示用データを生成する際、テキストは１文字以上の文字で構成される文字列に分けられる。この文字列は、形態素（言語で意味を持つ最小単位）でも文字１つでも音素（言語の持つ音の最小単位）でも構わない。生成された連動表示用データは、テキストデータと、テキストを細分化した各文字列に割り当てられた固有の時間情報であるタイムスタンプ情報とを含む。タイムスタンプ情報は、各文字列を表示する開始時間と、その文字列を表示し終えるまでの時間長又は終了時間とを含む。これら開始時間及び終了時間は、音声の所定の再生経過時間によって示される。

（第１の実施形態）
図１は、第１の実施形態のデータ生成装置を示すブロック図である。図１に示すように、第１の実施形態のデータ生成装置１００は、入力部１０１と、データ生成部１０３と、位置管理部１０５と、データ加工部１０７と、データ記憶部１０９とを備える。なお、データ生成部１０３、位置管理部１０５及びデータ加工部１０７はプログラムを実行することによって動作する。

入力部１０１は、音源データ及びテキストデータをデータ生成装置１００に入力するためのインタフェースである。データ生成部１０３は、入力部１０１を介して入力された音源データとテキストデータのマッチングを行い、連動表示用データを生成する。なお、データ生成部１０３による音源データとテキストデータのマッチングの詳細については後述する。位置管理部１０５は、データ生成部１０３における処理の過程で読みが付与されなかった文字列や音源データに基づくテキストとマッチングしない文字列とそのテキスト内位置を示す情報を記憶する。なお、音源データに基づくテキストとマッチングしない文字列は、データ生成部１０３による処理の過程で、当該文字列に正確な読みが付与されなかった結果、音源データに基づくテキストとマッチングしないことが考えられる。

データ加工部１０７は、読みが付与されなかった文字列や音源データに基づくテキストとマッチングしない文字列にタイムスタンプ情報を割り当てて、データ生成部１０３によって生成された連動表示用データを更新する。データ記憶部１０９は、データ生成部１０３によって生成され、データ加工部１０７によって更新された連動表示用データを記憶する。

なお、位置管理部１０５に記録されるテキスト内位置を示す情報は、複数の形態の中のいずれか１つの形態によって示される。複数の形態とは、（１）テキストデータが示すテキストの先頭からの文字数、（２）テキストデータが示すテキストを所定の表示形態で表示したときの表示領域における行番号及び列番号、（３）テキストデータが示すテキストを形態素解析処理等を行うことによって複数の文字列に区分けした際の先頭の文字列からの文字列番号、（４）テキストデータが示すテキストを形態素解析処理等を行うことによって複数の文字列に区分けした際の区分けされた各文字列同士の順序関係（例えば音声対話記述言語であるVoiceXML等のデータ構造が理解しやすい形式で記述されるのが好ましい。）に基づく記述情報である。

図２は、第１の実施形態のデータ生成装置１００の動作を示すフローチャートである。図２に示すように、ステップＳ１０１では、入力部１０１を介して入力された音源データ及びテキストデータがデータ生成部１０３に送られる。次に、ステップＳ１０３では、データ生成部１０３が音源データとテキストデータのマッチングを行い、連動表示用データを生成する。次に、ステップＳ１０５では、データ加工部１０７が、読みを付与できなかった文字列にタイムスタンプ情報を割り当てて、ステップＳ１０３で生成された連動表示用データを更新する。次に、ステップＳ１０７では、データ加工部１０７が、ステップＳ１０５で更新した連動表示用データをデータ記憶部１０９に格納する。

図３及び図４は、第１の実施形態のデータ生成装置１００が行うステップＳ１０３の詳細を示すフローチャートである。図３に示すように、データ生成部１０３は、図２のステップＳ１０１で入力された音源データの周波数スペクトルを解析し、人の音声帯域のスペクトル成分を抽出する（ステップＳ２０１）。次に、データ生成部１０３は、ステップＳ２０１で抽出したスペクトル成分を音響分析して特徴パラメータを抽出する（ステップＳ２０３）。次に、データ生成部１０３は、ステップＳ２０３で抽出した特徴パラメータを所定の言語の特徴パラメータと比較して言語列を生成する（ステップＳ２０５）。次に、データ生成部１０３は、ステップＳ２０５で生成した言語列をテキストデータに変換する（ステップＳ２０７）。なお、ステップＳ２０５で用いられる所定の言語の特徴パラメータが日本語の特徴パラメータの場合、ステップＳ２０７で得られる言語列のテキストデータはひらがな又はカタカナである。

次に、データ生成部１０３は、図２のステップＳ１０１で入力されたテキストデータが示すテキストを、形態素解析等の構造解析処理を行うことによって複数の文字列に区分けする（ステップＳ２０９）。図２のステップＳ１０１で入力されたテキストデータが日本語の場合、当該テキストには漢字や句読点等が含まれている可能性が高い。一方、ステップＳ２０７で得られた言語列のテキストデータはひらがな又はカタカナである。このため、図４に示すように、データ生成部１０３は、図示しない読み変換辞書を用いて、ステップＳ２０９で区分けされた各文字列に読みを付与する（ステップＳ２１１）。

次に、データ生成部１０３は、ステップＳ２１１で読みが付与されたか否かを文字列毎に判断する（ステップＳ２１３）。データ生成部１０３は、ステップ２１３で読みが付与されなかったと判断された文字列とそのテキスト内位置を示す情報を位置管理部１０５に登録する（ステップＳ２１５）。一方、データ生成部１０３は、ステップ２１３で読みが付与されたと判断された文字列をステップＳ２０７で得られた言語列のテキストデータと比較して（ステップＳ２１７）、言語列のテキストデータが示すテキスト内に対象とされている文字列と読みの一致する文字列があるか否かを判断する（ステップＳ２１９）。

ステップＳ２１９で、対象とされている文字列が言語列のテキスト内にあればステップＳ２２１に進み、言語列のテキスト内になければステップＳ２１５に進み、当該対象とされている文字列とそのテキスト内位置を示す情報を位置管理部１０５に記録する。ステップＳ２２１では、データ生成部１０３が、対象とされている文字列及びこの文字列に対応するタイムスタンプ情報を連動表示用データに書き出す。なお、各文字列のタイムスタンプ情報は、音源データを再生した際に、対象とされている文字列が発声されるタイミングに応じて決定される。

ステップＳ２２１を行った後、データ生成部１０３は、ステップＳ２１７で文字列と比較する言語列のテキストデータの解析対象位置を時間情報に基づき更新する（ステップＳ２２３）。データ生成部１０３は、ステップＳ２０９で区分けされた文字列の全てに対して、ステップＳ２１５における位置管理部１０５への記録又はステップＳ２２１における連動表示用データへの書き出しが行われたかを判断し（ステップＳ２２５）、全ての文字列に対して当該処理が行われた場合はこのサブファンクションを終了し、そうでなければステップＳ２１１に戻る。

図５は、第１の実施形態のデータ生成装置１００が行うステップＳ１０５の詳細を示すフローチャートである。図５に示すように、データ加工部１０７は、位置管理部１０５から文字列とそのテキスト内位置を示す情報を読み込む（ステップＳ３０１）。次に、データ加工部１０７は、ステップＳ１０３で生成した連動表示用データに基づいて、ステップＳ３０１で読み込んだ文字列の前後の文字列を特定し、前の文字列の終了時間から後の文字列の開始時間までの時間長を計算する（ステップＳ３０３）。

次に、データ加工部１０７は、ステップＳ３０３で算出した時間長が例えば１０ｍ秒といった所定時間以上であるかを判断し（ステップＳ３０５）、時間長が所定時間以上であればステップＳ３０７に進み、所定時間未満であればステップＳ３０９に進む。ステップＳ３０７で、データ加工部１０７は、ステップＳ３０１で読み込んだ文字列に、前の文字列の終了時間から後の文字列の開始時間までの時間内の所定長の時間帯を割り当てて、連動表示用データを更新する。すなわち、ステップＳ３０７では、ステップＳ３０１で読み込んだ文字列及びこの文字列に割り当てた時間帯を示すタイムスタンプ情報を連動表示用データに書き出す。

一方、ステップＳ３０９で、データ加工部１０７は、ステップＳ３０１で読み込んだ文字列に所定長の時間帯を割り当てるよう、当該文字列の前後の文字列に割り当てられた２つの時間帯の少なくともいずれか一方を短縮し、その短縮した時間帯を当該文字列に割り当てた上で、連動表示用データを更新する。データ加工部１０７は、当該文字列の前の文字列に割り当てられた時間帯を短縮する場合、当該文字列の前の文字列の時間帯の終了時間を所定時間長早め、当該設定変更によって空いた時間帯を当該文字列に割り当てる。また、データ加工部１０７は、当該文字列の後の文字列に割り当てられた時間帯を短縮する場合、当該文字列の後の文字列の時間帯の開始時間を所定時間長遅らせ、当該設定変更によって空いた時間帯を当該文字列に割り当てる。
尚、当該文字列の前後の文字列に割り当てられた時間帯を短縮する場合、当該文字列の特徴（開始文字、終了文字等）に応じて前後のどちらの文字列に割り当てられた時間帯を短縮するか判断してもよい。

なお、データ加工部１０７は、当該文字列の前の文字列に割り当てられた時間帯の終了時間を早め、かつ、当該文字列の後の文字列に割り当てられた時間帯の開始時間を遅らせることによって、当該設定変更によって空いた時間帯を当該文字列に割り当てても良い。さらに、当該文字列の前後の文字列から短縮する時間長は、ステップＳ３０３で算出した時間長に応じて調整しても良い。すなわち、ステップＳ３０３で算出した時間長と、当該文字列の前後の文字列から短縮して得られた時間長との和が所定長となるよう、当該文字列の前後の文字列の時間帯を短縮しても良い。

ステップＳ３０７又はステップＳ３０９が行われた後、データ加工部１０７は、位置管理部１０５に登録された全ての文字列に対して上記処理が行われたかを判断し（ステップＳ３１１）、全ての文字列に対して当該処理が行われた場合はこのサブファンクションを終了し、そうでなければステップＳ３０１に戻る。

本実施形態のデータ生成装置１００には、図６に示すように、ユーザからの指示に応じて音源データの再生や連動表示用データに基づくテキストの表示等を行う再生装置５０を接続しても良い。再生装置５０には、操作受付部５１、再生制御部５３、再生部５５及び表示部５７が設けられている。操作受付部５１はユーザによる再生装置５０の操作を受け付け、再生制御部５３は操作内容に応じた処理を行う。当該処理によって、再生部５５は音源データを再生し、表示部５７はテキストを表示する。このとき、再生制御部５３は、データ生成装置１００のデータ記憶部１０９に格納されている連動表示用データに基づいて、音源データの再生に合わせて読みが付与できないまたは読みが正確でない文字列を含むテキストを所定のタイミングで表示するよう処理する。図７は、表示部５７に表示されるテキストの一例を示す図である。

また、操作受付部５１の一形態として、表示部５７上にタッチパネルが設けられている場合、ユーザは表示部５７に表示された読みが付与できないまたは読みが正確でない文字列を含むテキスト中の所望の文字列を選択することができる。再生制御部５３は、当該操作に応じて、選択された文字列に対応する再生時間から音源データを再生し、かつ、テキストを表示するよう処理する。尚、選択対象となる文字列の単位は形態素で区切られた各文字列でも、表示部５７における表示上の行でも問題ない。また、選択対象となる各文字列に読みが付与されない文字列のみで構成されている文字列がある場合、前後の読みが付与されている文字列に含める事で、選択対象となる文字列には必ず読みを持つ文字列が含まれるようにしても良い。

以上説明したように、本実施形態のデータ生成装置１００によれば、読みが付与されない文字列又は正確な読みが付与されなかった文字列に、所定長の時間帯が割り当てられる。したがって、本実施形態のデータ生成装置１００によって生成及び更新された連動表示用データに基づくテキストの表示では、句読点やクエスチョンマーク等の無音記号で表される文字列、又は固有名詞や略字等の正確な読みが付与されにくい文字列を含むテキストが、音源の再生に合わせて実際に近いタイミングで表示される。さらに、ユーザは、このような文字列を再生開始点として指定することができる。

（第２の実施形態）
図８は、第２の実施形態のデータ生成装置を示すブロック図である。図８に示すように、第２の実施形態のデータ生成装置１１０は、入力部１１１と、データ生成部１１３と、特別読み付与部１１５と、データ記憶部１１７とを備える。なお、データ生成部１１３及び特別読み付与部１１５はプログラムを実行することによって動作する。

入力部１１１は、音源データ及びテキストデータをデータ生成装置１１０に入力するためのインタフェースである。データ生成部１１３は、入力部１１１を介して入力された音源データとテキストデータのマッチングを第１の実施形態と同様に行い、連動表示用データを生成する。特別読み付与部１１５は、データ生成部１１３における処理の過程で読みが付与されなかった文字列に特別な読みを付与する。なお、「特別な読み」とは、全ての前記言語列に相当する「＊（Linux（登録商標）等のオペレーティングシステムにおけるワイルドカードに相当する）」等である。データ記憶部１１７は、データ生成部１１３によって生成された連動表示用データを記憶する。

図９は、第２の実施形態のデータ生成装置１１０の動作を示すフローチャートである。図９に示すように、ステップＳ１１１では、入力部１１１を介して入力された音源データ及びテキストデータがデータ生成部１１３に送られる。次に、ステップＳ１１３では、データ生成部１１３が音源データとテキストデータのマッチングを行い、連動表示用データを生成する。次に、ステップＳ１１５では、データ生成部１１３が、ステップＳ１１３で生成した連動表示用データをデータ記憶部１１７に格納する。

図１０及び図１１は、第２の実施形態のデータ生成装置１１０が行うステップＳ１１３の詳細を示すフローチャートである。図１０及び図１１に示すように、データ生成部１１３は、図３及び図４を参照して説明したステップＳ２０１〜Ｓ２１３及びステップＳ２１７〜Ｓ２２５を第１の実施形態と同様に行う。本実施形態では、図１１に示すステップＳ２１３が行われた後、特別読み付与部１１５は、読みが付与されなかった文字列に特別な読みを付与する（ステップＳ２５１）。次に、データ生成部１１３は、特別な読みが付与された文字列に、当該文字列の直前の文字列の終了時間以降の該当する言語列と特別な読みを比較して（ステップＳ２５３）、読みの一致する言語列が存在するか否かを判断する（ステップＳ２５５）。その後、該当する言語列と特別な読みが一致した場合はステップＳ２５７へ進み、一致しなかった場合はステップＳ２５９へ進む。ステップＳ２５７では、特別な読みが付与された文字列へ該当する言語列の時間情報を割り当てて、ステップＳ２２１へ進む。一方、ステップＳ２５９では、特別な読みが付与された文字列の直前の文字列の終了時間から始まる所定長の時間帯を割り当てた後、ステップＳ２２１に進む。また、本実施形態では、ステップＳ２１９で、対象とされている文字列が言語列のテキスト内にないと判断されたときにもステップＳ２５３に進み、データ生成部１１３は同様の処理を行う。

以上説明したように、本実施形態のデータ生成装置１１０によれば、読みが付与されない文字列には特別な読みが付与されるため、連動表示用データの更新を行わずに、句読点やクエスチョンマーク等の無音記号で表される文字列を含むテキストの連動表示用データを生成することができる。なお、本実施形態のデータ生成装置１１０にも、第１の実施形態と同様に、再生装置５０を接続しても良い。

（第３の実施形態）
図１２は、第３の実施形態のデータ生成装置を示すブロック図である。図１２に示すように、第３の実施形態のデータ生成装置１２０は、入力部１２１と、データ生成部１２３と、読み推測部１２５と、特別読み付与部１２７と、データ記憶部１２９とを備える。なお、データ生成部１２３及び読み推測部１２５はプログラムを実行することによって動作する。

入力部１２１は、音源データ及びテキストデータをデータ生成装置１２０に入力するためのインタフェースである。データ生成部１２３は、入力部１２１を介して入力された音源データとテキストデータのマッチングを第１の実施形態と同様に行い、連動表示用データを生成する。読み推測部１２５は、データ生成部１２３における処理の過程で読みが付与されなかった文字列の読みを推測する。特別読み付与部１２７は、読み推測部１２５で読みを推測できなかった文字列に特別な読みを付与する。なお、「特別な読み」とは、第２の実施形態と同様、全ての前記言語列に相当する「＊（Linux（登録商標）等のオペレーティングシステムにおけるワイルドカードに相当する）」等である。データ記憶部１２９は、データ生成部１２３によって生成された連動表示用データを記憶する。

図１３は、第３の実施形態のデータ生成装置１２０の動作を示すフローチャートである。図１３に示すように、ステップＳ１２１では、入力部１２１を介して入力された音源データ及びテキストデータがデータ生成部１２３に送られる。次に、ステップＳ１２３では、データ生成部１２３が音源データとテキストデータのマッチングを行い、連動表示用データを生成する。次に、ステップＳ１２５では、データ生成部１２３が、ステップＳ１２３で生成した連動表示用データをデータ記憶部１２９に格納する。

図１４及び図１５は、第３の実施形態のデータ生成装置１２０が行うステップＳ１２３の詳細を示すフローチャートである。図１４及び図１５に示すように、データ生成部１２３は、図３及び図４を参照して説明したステップＳ２０１〜Ｓ２１３及びステップＳ２１７〜Ｓ２２５を第１の実施形態と同様に行う。本実施形態では、図１５に示すステップＳ２１３が行われた後、読み推測部１２５は、読みが付与されなかった文字列の読みを推測する（ステップＳ２７１）。ステップＳ２７３では、ステップＳ２７１で読み推測部１２５が読みを推測できたか否かを判断し、読みを推測できた場合はステップＳ２１７に進み、推測できなかった場合はステップＳ２７５に進む。

ステップＳ２７５では、特別読み付与部１２７は、読み推測部１２５が読みを推測できなかった文字列に特別な読みを付与する。次に、データ生成部１２３は、特別な読みが付与された文字列に、当該文字列の直前の文字列の終了時間から始まる所定長の時間帯を割り当て（ステップＳ２５３）た後、ステップＳ２２１に進む。また、本実施形態では、第２の実施形態と同様、ステップＳ２１９で、対象とされている文字列が言語列のテキスト内にないと判断されたときにもステップＳ２５３に進み、データ生成部１２３は同様の処理を行う。

図１６は、第３の実施形態で読み推測部１２５が行うステップＳ２７１の詳細を示すフローチャートである。図１６に示すように、読み推測部１２５は、読みが付与されなかった文字列に含まれる文字毎に読みとして登録されている音素が含まれているかを解析する（ステップＳ４０１）。なお、読み推測部１２５は、図１７に一例が示される音素リストを用いて前記解析を行う。次に、読み推測部１２５は、文字列に含まれる文字毎に、各文字に対応する音素が音素リスト中に含まれるかを判断し（ステップＳ４０３）、含まれる場合はステップＳ４０５に進み、含まれない場合はステップＳ４０７に進む。

ステップＳ４０５では、読み推測部１２５は、対象とされた文字に対応する音素を読みとして設定する。一方、ステップＳ４０７では、読み推測部１２５は、対象とされた文字に読みを設定しない。ステップＳ４０５又はステップＳ４０７が行われた後、読み推測部１２５は、対象とされている文字列に含まれる全ての文字に対して上記処理を行ったかを判断し（ステップＳ４０９）、全ての文字に対して当該処理が行われた場合はこのサブファンクションを終了し、そうでなければステップＳ４０１に戻る。

以上説明したように、本実施形態のデータ生成装置１２０によれば、読みが付与されない文字列に対しては読みを推測した上で言語列のテキストデータと比較するため、新語や固有名詞等の文字列を含むテキストの連動表示用データをより適切に生成することができる。また、読みを推測できない文字列には特別な読みが付与されるため、第２の実施形態と同様、句読点やクエスチョンマーク等の無音記号で表される文字列を含むテキストの連動表示用データを生成することができる。なお、本実施形態のデータ生成装置１２０にも、第１の実施形態と同様に、再生装置５０を接続しても良い。

本発明に係るデータ生成装置は、読みが付与されない文字列又は正確な読みが付与されなかった文字列を含むテキストを音声の再生に合わせた所定のタイミングで表示するための連動表示用データを生成する装置等として有用である。

第１の実施形態のデータ生成装置を示すブロック図第１の実施形態のデータ生成装置の動作を示すフローチャート第１の実施形態のデータ生成装置が行うステップＳ１０３の詳細を示すフローチャート第１の実施形態のデータ生成装置が行うステップＳ１０３の詳細を示すフローチャート第１の実施形態のデータ生成装置が行うステップＳ１０５の詳細を示すフローチャート第１の実施形態のデータ生成装置に再生装置が接続された構成を示すブロック図再生装置の表示部に表示されるテキストの一例を示す図第２の実施形態のデータ生成装置を示すブロック図第２の実施形態のデータ生成装置の動作を示すフローチャート第２の実施形態のデータ生成装置が行うステップＳ１１３の詳細を示すフローチャート第２の実施形態のデータ生成装置が行うステップＳ１１３の詳細を示すフローチャート第３の実施形態のデータ生成装置を示すブロック図第３の実施形態のデータ生成装置の動作を示すフローチャート第３の実施形態のデータ生成装置が行うステップＳ１２３の詳細を示すフローチャート第３の実施形態のデータ生成装置が行うステップＳ１２３の詳細を示すフローチャート第３の実施形態で読み推測部が行うステップＳ２７１の詳細を示すフローチャート音素リストの一例を示す図特許文献１に開示されたファイル作成装置が備えるリンク作成部の内部構成を示すブロック図特許文献２に開示された歌詞割当装置の内部構成を示すブロック図

符号の説明

１００，１１０，１２０データ生成装置
１０１，１１１，１２１入力部
１０３，１１３，１２３データ生成部
１０５位置管理部
１０７データ加工部
１０９，１１７，１２９データ記憶部
１１５，１２７特別読み付与部
１２５読み推測部
５０再生装置
５１操作受付部
５３再生制御部
５５再生部
５７表示部

Claims

音声の再生に合わせてテキストを所定のタイミングで表示するための連動表示用データを生成するデータ生成装置であって、
音源データから特徴パラメータを抽出し、当該抽出した特徴パラメータを所定の言語の特徴パラメータと比較する言語列生成部と、
前記テキストを１つ以上の文字列に区分けして、各文字列に読みを付与するテキスト処理部と、
読みが付与された各文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて、対象とされている文字列が再生されるタイミングを前記音源データの再生経過時間によって示すタイムスタンプ情報を含む連動表示用データを生成する第１データ処理部と、
読みが付与されなかった文字列の前後の文字列のタイムスタンプ情報に基づいて、前記読みが付与されなかった文字列に所定長の時間帯を割り当てて、当該読みが付与されなかった文字列と、この文字列に割り当てた時間帯を示すタイムスタンプ情報とを前記連動表示用データに含める第２データ処理部と、
を備えたことを特徴とするデータ生成装置。
請求項１に記載のデータ生成装置であって、
前記テキスト処理部によって読みが付与されなかった文字列と、当該文字列のテキスト内位置を示す情報とを記憶する位置管理部を備え、
前記第２データ処理部は、前記第１データ処理部が、前記テキストに含まれる読みが付与された文字列の全てと、読みが付与された各文字列のタイムスタンプ情報とを含む連動表示用データを生成した後、前記位置管理部に記録された各文字列に所定長の時間帯を割り当てることを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記第２データ処理部は、
前記位置管理部が記憶する対象とされた文字列の直前の文字列のタイムスタンプ情報が示す終了時間から直後の文字列のタイムスタンプ情報が示す開始時間までの時間長を算出し、
前記時間長が所定時間以上であれば、前記終了時間から前記開始時間までの時間内の所定長の時間帯を、前記対象とされた文字列に割り当て、
前記時間長が所定時間未満であれば、前記直前の文字列に割り当てられた時間帯又は前記直後の文字列に割り当てられた時間帯の少なくともいずれか一方を短縮し、当該短縮した時間帯を、前記対象とされた文字列に割り当てることを特徴とするデータ生成装置。
請求項３に記載のデータ生成装置であって、
前記第２データ処理部は、前記直前の文字列に割り当てられた時間帯又は前記直後の文字列に割り当てられた時間帯のいずれか一方を前記所定長の時間、短縮することを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記第２データ処理部は、読みの付与できない文字列の特徴に応じて、前記位置管理部が記憶する当該文字列の直前の文字列に割り当てられた時間帯を前記所定長の時間、短縮するか、前記直後の文字列に割り当てられた時間帯を前記所定長の時間、短縮するかを判断することを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記位置管理部に記録される文字列のテキスト内位置を示す情報は、当該文字列の前記テキストの先頭からの文字数を含むことを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記位置管理部に記録される文字列のテキスト内位置を示す情報は、前記テキストを所定の表示形態で表示したときの表示領域における行番号及び列番号を含むことを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記位置管理部に記録される文字列のテキスト内位置を示す情報は、当該文字列の前記テキストの先頭の文字列からの文字列番号を含むことを特徴とするデータ生成装置。
請求項２に記載のデータ生成装置であって、
前記位置管理部に記録される文字列のテキスト内位置を示す情報は、前記テキストに含まれる前記テキスト処理部で区分けされた各文字列同士の順序関係を含むことを特徴とするデータ生成装置。
音声の再生に合わせてテキストを所定のタイミングで表示するための連動表示用データを生成するデータ生成装置であって、
音源データから特徴パラメータを抽出し、当該抽出した特徴パラメータを所定の言語の特徴パラメータと比較する言語列生成部と、
前記テキストを１つ以上の文字列に区分けして、各文字列に読みを付与するテキスト処理部と、
読みが付与された各文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて、対象とされている文字列が再生されるタイミングを前記音源データの再生経過時間によって示すタイムスタンプ情報を含む連動表示用データを生成するデータ処理部と、
読みが付与されなかった文字列に特別な読みを付与する特別読み付与部と、
前記データ処理部は、前記特別な読みが付与された文字列の直前の文字列のタイムスタンプ情報に基づいて、前記特別な読みが付与された文字列と前記音源データから抽出した特徴パラメータと前記所定の言語の特徴パラメータとに基づいて得られる前記再生されるタイミングを、当該特別な読みが付与された文字列に割り当てて、当該特別な読みが付与された文字列と、この文字列に割り当てた時間帯を示すタイムスタンプ情報とを前記連動表示用データに含めることを特徴とするデータ生成装置。
請求項１又は１０に記載のデータ生成装置であって、
読みが付与されなかった文字列に含まれるいずれかの文字に対し、読みを推測する読み推測部を備えることを特徴とするデータ生成装置。
請求項１１に記載のデータ生成装置であって、
前記特別読み付与部は、前記読み推測部が読みを推測できなかった文字列に前記特別な読みを付与することを特徴とするデータ生成装置。
請求項１０又は１２に記載のデータ生成装置であって、
前記データ処理部は、前記特別な読みが付与された文字列の直前の文字列のタイムスタンプ情報が示す終了時間から所定長の時間帯を、前記特別な読みが付与された文字列に割り当てることを特徴とするデータ生成装置。
請求項１〜１３のいずれか１項に記載のデータ生成装置であって、
前記データ処理部は、前記所定長の時間帯が割り当てられた文字列を前後の文字列に含め、当該文字列のタイムスタンプ情報も結合することを特徴とするデータ生成装置。
コンピュータを、請求項１〜１４のいずれか１項に記載のデータ生成装置が備える各部として機能させるためのデータ生成プログラム。
テキストを表示させながら音声を再生する再生装置であって、
請求項１〜１４のいずれか１項に記載のデータ生成装置又は請求項１５に記載のデータ生成プログラムにより作成した連動表示用データに基づき、音声の再生に合わせてテキスト内の読みを付与できない文字列を所定のタイミングで表示することを特徴とする再生装置。
テキストを表示させながら音声を再生する再生装置であって、
請求項１〜１４のいずれか１項に記載のデータ生成装置又は請求項１５に記載のデータ生成プログラムにより作成した連動表示用データに基づき、音声の再生に合わせてテキスト内の読みを付与できない文字列を所定のタイミングで表示し、その表示部分を利用してユーザの選択箇所を取得する事により、読みの付与されなかった文字列から再生を開始することを特徴とする再生装置。
請求項１〜１４のいずれか１項に記載のデータ生成装置又は請求項１５に記載のデータ生成プログラムにより作成した連動表示用データに基づき、音声の再生に合わせてテキスト内の読みを付与できない文字列を所定のタイミングで表示し、その表示部分を利用してユーザの選択箇所を取得する事により、ユーザの選択した所定単位の文字列の先頭から再生を開始する再生装置であって、
ユーザが読みの付与されなかった文字列を選択した際に、前記読みの付与されなかった文字列の前後の読みの付与された文字列から再生を開始することを特徴とする再生装置。