JP2003280670A

JP2003280670A - データ作成装置およびデータ作成方法

Info

Publication number: JP2003280670A
Application number: JP2002087705A
Authority: JP
Inventors: Keiji Horiuchi; 啓次堀内; Masuo Kondo; 益生近藤; Tetsuo Takeyama; 哲夫竹山; Nagakatsu Nakazato; 酉克中里; Koji Takemura; 浩司武村; Yoshizo Sato; 義三佐藤
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2002-03-27
Filing date: 2002-03-27
Publication date: 2003-10-02

Abstract

(57)【要約】【課題】簡便な操作によって画一的に、音声データと
テキストデータとの間の同期タイミング設定を行い得る
ようにすること。【解決手段】フレームデータの音響特徴を抽出し、こ
れを基準音声モデルと比較して言語列を作成する。この
言語列をテキストデータに変換し言語メモリ部に格納す
る。これと並行して、フレームデータのフレーム数に基
づいて再生経過時間を算出する。他方、テキストデータ
をテキストブロックに分割し、ブロック毎にテキストメ
モリ部に格納する。そして、当該テキストデータと、上
記言語メモリ部中のテキストデータとを比較し、両者が
一致したタイミングで識別信号を出力する。テーブル作
成部は、識別信号の受信に応じて経過時間算出部から経
過時間データを取得し、これを当該テキストブロックに
対応させてリンクテーブル上にストアする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ作成装置お
よびデータ再生方法に関し、特に、音楽データ等のコン
テンツデータと、それに付された歌詞等のテキストデー
タとを同期再生する装置およびシステムに用いて好適な
ものである。

【０００２】

【従来の技術】携帯端末の普及に伴い、音楽コンテンツ
等のコンテンツデータをネットワーク経由で携帯端末に
配信するコンテンツ配信サービスが普及しつつある。ユ
ーザは、かかる配信を受けることにより、携帯端末によ
って、何時でも何処でも所望のコンテンツを視聴するこ
とができる。

【０００３】配信されるコンテンツとしては、音楽コン
テンツの他、動画や静止画などの映像コンテンツ、およ
び歌詞等のテキストコンテンツ等がある。これらのコン
テンツは、通常、単独では配信されず、たとえば、音楽
コンテンツとその歌詞テキストが、リンクデータと共に
配信される。リンクデータは、音楽コンテンツと歌詞テ
キストとをリンクするためのもので、たとえば、音楽コ
ンテンツの再生時間軸上におけるテキストの表示タイミ
ングを規定するリンクテーブルによって構成される。か
かるリンクデータは、配信サーバ側において作成され、
送信ファイルに含められる。すなわち、ファイル編集者
が、再生音楽を聞きながら、テキストデータの再生タイ
ミングを逐次設定していくことによって、ファイル作成
装置に再生タイミングが取り込まれ、これにより、ファ
イル作成装置内でリンクデータが作成される。

【０００４】図７に、ファイル作成装置の構成例を示
す。

【０００５】ファイル作成装置１００は、入力部１０１
と、リンク作成部１０２と、音楽再生部１０３と、ＣＰ
Ｕ１０４と、ディスプレイドライバ１０５と、ディスプ
レイ１０６と、音楽コンテンツデータベース１０７と、
テキストデータベース１０８と、ファイル記憶部１０９
とから構成されている。

【０００６】入力部１０１は、キーボード１０１ａやマ
ウス１０１ｂを備え、テキスト入力や指令入力を行う際
に用いられる。リンク作成部１０２は、音楽コンテンツ
の再生時間軸に対するテキストブロックの再生開始タイ
ミングを規定するリンクテーブルを生成する。

【０００７】音楽再生部１０３は、圧縮コード化された
音楽コンテンツを再生して音声信号を生成する。かかる
音楽再生部１０３は、圧縮コード化された音楽コンテン
ツを伸長復号するデータ復号部１０３ａと、復号された
音楽コンテンツをアナログ音声信号に変換するＤＡ変換
部１０３ｂとを有する。

【０００８】ＣＰＵ１０４は内蔵プログラムに従って各
種データを処理すると共に各部を制御する。ディスプレ
イドライバ１０５は、ＣＰＵ１０４の制御に従って、音
楽コンテンツにテキストをリンクさせるための画面や、
音楽再生とテキスト表示の同期確認をするための画面な
どを表示すべく、ディスプレイ１０６を制御する。ディ
スプレイ１０６は、ディプレイドライバ１０５の制御に
従って、所定の画面を表示する。

【０００９】音楽コンテンツデータベース１０７は、音
楽コンテンツをファイルに区分して記憶している。ここ
で、音楽コンテンツは所定の圧縮方式で圧縮コード化さ
れている。テキストデータベース１０８は、たとえばユ
ーザによって手入力された歌詞テキストに関するデータ
をファイルに区分して記憶している。ファイル記憶部１
０９は、音楽コンテンツに対しテキストデータをリンク
付けして生成されたファイルデータを記憶する。かかる
ファイルデータは、音楽コンテンツとテキストデータの
他、リンク作成部１０２で生成された当該テキストデー
タのリンクテーブルを含む。

【００１０】所定の音楽コンテンツに対して歌詞テキス
トをリンク付けする場合、ユーザは、まず当該歌詞テキ
ストを、ブロック毎（たとえば歌詞フレーズ毎）に区分
して、入力部１０１から入力する。かかるテキストは、
ブロック毎に区分された状態で、順次ディスプレイ１０
６に表示される。ここで、歌詞テキストが予めテキスト
データベースに存在する場合には、対応する歌詞テキス
トファイルを読み出してディスプレイ１０６上に表示せ
しめる。

【００１１】歌詞テキストの表示が終了すると、ユーザ
は、当該歌詞テキストに対応した音楽コンテンツの再生
指令を入力部１０１から入力する。かかる再生指令に応
じて、当該音楽コンテンツが音楽コンテンツデータベー
ス１０７から読み出され、音楽再生部１０３によって再
生出力される。

【００１２】音楽再生が開始されると、ユーザは、再生
音楽を聞きながら、入力部１０１を操作して、音楽コン
テンツに対するテキストブロックのリンク付けを行う。
すなわち、テキストブロックを再生出力させたいタイミ
ングで当該テキストブロックを指定する。これにより、
当該テキストブロックが音楽再生時間軸上の当該再生時
刻にリンク付けされる。かかるリンク付けは、リンク作
成部１０２にて行われる。リンク作成部１０２は、かか
るリンク付け、すなわち各テキストブロックの再生時間
軸上の再生時刻をテーブル上に順次ストアする。これに
より、リンクテーブルを生成する。

【００１３】しかして、全ての音楽コンテンツの再生が
終了し、テキストブロックのリンク付けが終了すると、
当該音楽コンテンツとテキストデータおよびリンク作成
部１０２にて作成されたリンクテーブルが１つのファイ
ルに格納されて、ファイル記憶部１０８に記憶される。

【００１４】図８を参照して、上記テキストブロックの
リンク付けについてさらに説明する。図中、ｔ１、ｔ
２、…、ｔｎは、音楽コンテンツの再生開始からの経過
時間である。ブロック１、ブロック２、…、ブロックｎ
は、上記各テキストブロックである。音楽コンテンツが
再生出力された後、時刻ｔ１にてブロック１を上記の通
り指定すると、再生時間軸上における当該ブロック１の
再生出力時刻がｔ１にセットされる。同様にして、ブロ
ック２、ブロック３、…、ブロックｎを順次指定する
と、各ブロックの再生出力時刻がｔ２、ｔ３、…、ｔｎ
にセットされる。そして、各ブロックとその開始時刻が
リンクテーブル上に対応付けられる。しかして、リンク
テーブルが生成される。

【００１５】

【発明が解決しようとする課題】しかしながら、上記従
来手法によれば、リンクテーブルの作成時に、テキスト
ブロックを繰り返し指定するといった煩雑な作業が必要
となる。また、当該作業に先立って、予め、テキストデ
ータを適当な単位に区分しておかなければならず、かか
る区分の設定時にも、所定の手作業が必要となる。さら
に、かかる作業は、編集者を媒介としてなされるもので
あるから、作業結果の適否は全て編集者の感性に任さ
れ、画一的処理には一定の限界が生ずる。このため、た
とえばテキスト表示のタイミングずれ等ユーザに違和感
を与える場合が生じ、その結果、配信ファイルの品質劣
化を引き起こす場合があり得る。

【００１６】そこで、本発明は、かかる問題を解消し、
簡便な操作によって画一的に同期タイミングの設定を行
い得るデータ作成装置およびデータ作成方法を提供する
ものである。

【００１７】

【課題を解決するための手段】上記課題に鑑み、本発明
はそれぞれ以下の特徴を有する。

【００１８】請求項１の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語を抽出する言語抽出手段と、抽出さ
れた言語と前記テキストデータの言語とを比較する比較
手段とを備え、前記両言語が整合したタイミングに応じ
て当該整合したテキストデータの再生タイミングを規定
することを特徴とする。

【００１９】請求項２の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語を抽出する言語抽出手段と、抽出さ
れた言語の文字数をカウントする言語カウント手段と、
当該カウント値と前記テキストデータの文字数とを比較
する比較手段とを備え、前記両文字数が整合したタイミ
ングにて当該整合したテキストデータの再生タイミング
を規定することを特徴とする。

【００２０】請求項３の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語情報を抽出する言語情報抽出手段
と、抽出された言語情報と前記テキストデータの言語情
報とを比較する比較手段とを備え、前記両言語情報が整
合したタイミングにて当該整合したテキストデータの再
生タイミングを規定することを特徴とする。

【００２１】請求項４の発明は、請求項１から３の何れ
かに記載のデータ作成装置において、前記テキストデー
タを所定のブロックに区分するブロック区分手段をさら
に備え、当該区分されたブロック毎に前記比較手段にて
比較を行うことを特徴とする。

【００２２】請求項５の発明は、請求項４に記載のデー
タ作成装置において、前記ブロック区分手段は、テキス
ト内の区切りを示すデータおよび／若しくはテキストの
文字数に基づいて、テキストデータをブロックに区分す
ることを特徴とする。

【００２３】請求項６の発明は、請求項１から５の何れ
かに記載のデータ作成装置において、音声データのデー
タ量に基づいて再生時間を算出する再生時間算出手段を
更に備え、当該算出された再生時間に基づいて音声デー
タの再生時間軸を設定することを特徴とする。

【００２４】請求項７の発明は、テキストデータ中の区
切りを示すデータおよび／若しくはテキストの文字数に
基づいて、テキストデータをブロックに区分するブロッ
ク区分手段を有することを特徴とするデータ作成装置で
ある。

【００２５】請求項８の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成方法において、前記
音声データから言語情報を抽出する言語情報抽出ステッ
プと、抽出された言語情報と前記テキストデータの言語
情報とを比較する比較ステップと、前記比較結果に基づ
いてリンクデータを生成するリンクデータ生成ステップ
とを備え、前記リンクデータ生成ステップは、前記両言
語情報が整合したタイミングにて当該整合したテキスト
データの再生タイミングを規定することを特徴とする。

【００２６】請求項９の発明は、請求項８に記載のデー
タ作成方法において、前記テキストデータを所定のブロ
ックに区分するブロック区分ステップをさらに備え、当
該区分されたブロック毎に前記比較ステップにて比較を
行うことを特徴とする。

【００２７】請求項１０の発明は、請求項９に記載のデ
ータ作成方法において、前記ブロック区分ステップは、
テキスト内の区切りを示すデータおよび／若しくはテキ
ストの文字数に基づいて、テキストデータをブロックに
区分することを特徴とする。

【００２８】請求項１１の発明は、請求項８から１０の
何れかに記載のデータ作成方法において、音声データの
データ量に基づいて再生時間を算出する再生時間算出ス
テップを更に備え、当該算出された再生時間に基づいて
音声データの再生時間軸を設定することを特徴とする。

【００２９】なお、上記請求項において、「言語情報」
とは、当該言語のテキストデータや当該言語の音響分析
データ等の他、当該言語列の文字数を含む、言語および
言語列に関する全ての情報のことである。また、「区切
りを示すデータ」とは、句読点の他、疑問符や感嘆符
等、テキストの区切りとなり得る全てのデータを含むも
のである。さらに、「音声データのデータ量」とは、以
下の実施の形態ではフレーム数が対応し、これ以外にも
データビット数等、何らかの形で音声データの量を表示
し得るものを広く含むものである。

【００３０】本発明の特徴は、以下に示す実施の形態の
説明により更に明らかとなろう。

【００３１】ただし、以下の実施の形態は、あくまで
も、本発明の一つの実施形態であって、本発明ないし各
構成要件の用語の意義は、以下の実施の形態に記載され
たものに制限されるものではない。

【００３２】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。

【００３３】まず、図１に実施の形態に係るファイル作
成装置の構成を示す。なお、上記従来の技術において示
した図５と同一構成部分には同一符号を付し、説明を省
略する。

【００３４】図１のファイル作成装置は、上記従来のフ
ァイル作成装置に比べ、リンク作成部２００の構成が相
違している。また、圧縮音楽データ復号部１０３ａから
の復号音楽データがデータバスを介して、リンク作成部
２００に供給される。リンク作成部２００は、かかる復
号音楽データとテキストデータベース１０８からのテキ
ストデータとに基づいて、リンクテーブルを作成する。
この際、上記従来例のようなテキストブロックの区分作
業や、各ブロックのリンク付け作業は必要ない。リンク
テーブルの作成は、全て、リンク作成部２００内におい
て自動的に行われる。

【００３５】図２に、リンク作成部２００の機能ブロッ
クを示す。

【００３６】図示の如く、リンク作成部２００は、周波
数弁別部２０１と、特徴抽出部２０２と、言語作成部２
０３と、言語モデルデータベース部２０４と、言語メモ
リ部２０５と、フレームカウント部２０６と、経過時間
算出部２０７と、テキスト分割部２０８と、テキストメ
モリ部２０９と、テーブル作成部２１１とから構成され
ている。

【００３７】周波数弁別部２０１は、所定フレーム分
（図６に示された所定個数のフレーム）の復号音楽デー
タの周波数スペクトルを解析し、この中から、人の音声
帯域のスペクトル成分を抽出する。特徴抽出部２０２
は、抽出されたスペクトル成分を音響分析し、当該フレ
ームデータの特徴パラメータを抽出する。

【００３８】言語作成部２０３は、特徴抽出部２０２で
抽出された特徴パラメータと、音声モデルデータベース
２０４に格納された各基準言語の特徴パラメータとを比
較し、当該フレームデータ中に含まれる基準言語を順番
に繋ぎ合わせて言語列を生成する。ここで、言語列は、
近似度の高いものから順番に複数種類生成される。音声
モデルデータベース２０４は、五十音や濁音などの各言
語モデルの特徴パラメータを言語モデル毎に記憶してい
る。言語モデルメモリ部２０５は、言語作成部２０３で
生成された言語列をテキストデータに変換して記憶す
る。

【００３９】フレームカウント部２０６は、供給された
フレーム数を供給開始から累積し、その累積フレーム数
を経過時間算出部２０７に供給する。経過時間算出部２
０７は、かかる累積フレーム数に基づいて、再生開始時
からの経過時間を算出する。

【００４０】テキスト分割部２０８は、テキストデータ
中に句読点がないか、および、テキストの文字数が所定
値に達したかを判別し、当該判別結果に応じて、後述の
如く、テキストデータをブロックに区分する。テキスト
メモリ部２０９は、テキストデータをブロック毎に区分
して記憶する。

【００４１】マッチング部２１０は、テキストメモリ部
２０９に記憶されたブロック毎のテキストデータと、言
語メモリに記憶された言語列のテキストデータとを比較
し、両者が整合したタイミングで識別信号をテーブル作
成部２１１に送る。リンク作成部２１１は、マッチング
部２１０から識別信号が供給されたタイミングで経過時
間算出部２０７から経過時間データを取得し、かかる経
過時間データを当該テキストブロックの再生タイミング
としてリンクテーブルに設定する。

【００４２】次に、リンク作成時の動作について、図１
および図２を参照して説明する。

【００４３】図１の入力部１０１を操作してリンク作成
の開始指令が入力されると、該当する音楽コンテンツが
音楽コンテンツデータベース１０７から所定フレーム分
ずつ先頭から順番に読み出される。かかるフレームデー
タは、圧縮音楽データ復号部１０３ａにて復号された
後、リンク作成部２００に供給される。これと同時に、
テキストデータベース１０８から、該当するテキストデ
ータが先頭から順に読み出され、これがリンク作成部２
００に供給される。

【００４４】テキストデータベース１０８から読み出さ
れたテキストデータは、図２のテキスト分割部２０８に
供給され、ここでテキストブロックに区分（区分処理の
方法は後述）される。かかるテキストブロックは、テキ
ストメモリ部２０９に供給され、ここにブロック毎に順
次格納される。テキストメモリ部２０９に格納された各
テキストブロックは、マッチング部２１０によって参照
され、後述の如く、言語メモリ部２０５に格納された言
語列テキストデータと比較される。

【００４５】一方、圧縮音楽データ復号部１０３ａで復
号された所定フレーム分のフレームデータは、図２のフ
レームカウント部２０６に供給され、累積フレーム数が
計数されて保持される。かかる累積フレーム数は経過時
間算出部２０７に供給され、ここで経過時間データに変
換される。また、当該フレームデータは、周波数弁別部
２０１から言語作成部２０３にて上記の如く処理され、
当該フレームデータに対する言語列が、上記の如くし
て、数種類生成される。そして、かかる言語列に応じた
テキストデータがそれぞれ言語メモリ部２０５に格納さ
れる。

【００４６】図３に、言語メモリ部２０５およびテキス
トメモリ部２０９に対するテキストデータの格納状態を
概念的に示す。ここで、Ｗａｔｎ、ＷｂｔｎおよびＷｃ
ｔｎは、上記所定フレーム分のフレームデータから抽出
された１つの言語列のテキストデータで、Ｗａｔｎは近
似度の最も高い基準音声モデルから生成された言語列の
テキストデータ、Ｗｂｔｎは次に近似度の高い言語列の
テキストデータ、Ｗｃｔｎはその次に近似度の高い言語
列のテキストデータである。また、Ｔｂｎは、テキスト
分割部２０８にて分割された各テキストブロックのテキ
ストデータである。

【００４７】言語メモリ部２０５は、他段のシフトレジ
スタによって構成されており、格納された各言語列のテ
キストデータは、次の言語列のテキストデータ格納時
に、順次末端へシフトされる。すなわち、同図の如く、
テキストデータＷａｔ３、Ｗｂｔ３およびＷｃｔ３が言
語メモリ部２０５に格納される際には、３ステップ前に
格納されたテキストデータＷａｔ０、Ｗｂｔ０およびＷ
ｃｔ０が言語メモリ部２０５から押し出される。

【００４８】テキストメモリ部２０９は、ＲＡＭによっ
て構成されており、上記分割された各ブロックのテキス
トデータを、ブロック毎に区分して順次格納する。ここ
で、上記言語メモリ部２０５中の格段のシフトレジスタ
は、テキストメモリ部２０９に格納される各テキストブ
ロックのテキストデータよりも数言語列分多くのテキス
トデータを格納できるよう構成されている。

【００４９】このようにして、言語メモリ部２０５とテ
キストメモリ部２０９にテキストデータが格納される
と、次に、マッチング部２１０によってマッチング度合
が判別される。かかるマッチング度合は、テキストデー
タメモリ部２０９に格納された各ブロックのテキストデ
ータと、言語メモリ部２０５に格納された各言語列のテ
キストデータとを比較して行われる。かかる比較は、言
語メモリ部２０５のテキストデータ（Ｗａｔ１〜Ｗａｔ
３、Ｗｂｔ１〜Ｗｂｔ３、Ｗｃｔ１〜Ｗｃｔ３）と、テ
キストメモリ部２０９のテキストデータ（Ｔｂ０、Ｔｂ
１、Ｔｂ２、…）とを、数文字分の範囲で相対的にスラ
イドさせながら行われる。

【００５０】そして、テキストメモリ部２０９内の何れ
かのブロックのテキストデータ（Ｔｂ０、Ｔｂ１、Ｔｂ
２、…）と、言語メモリ部２０５内の何れかの言語列の
テキストデータ（Ｗａｔ１〜Ｗａｔ３、Ｗｂｔ１〜Ｗｂ
ｔ３、Ｗｃｔ１〜Ｗｃｔ３）との間のマッチング度合
（たとえば一致文字数）が所定の閾値を超えたことがマ
ッチング部２１０で判別されると、マッチング部２１０
からテーブル作成部２１１に対し、識別信号が出力され
る。この際、識別信号には、何れのテキストブロックの
テキストデータとマッチングが取れたかを示すデータが
含まれる。

【００５１】しかして、識別信号がテーブル作成部２１
１に供給されると、これを受けたテーブル作成部２１１
は、経過時間算出部２０７から経過時間データを取得
し、かかる経過時間を、当該マッチングのあったテキス
トブロックの再生開始時刻として、リンクテーブル上に
格納する。かかる処理は、音楽コンテンツデータベース
１０７から全てのフレームデータを読み出すまで行われ
る。これにより、各ブロックに対応する再生開始時刻デ
ータがリンクテーブルに順番に格納される。しかして、
全てのフレームデータの読み出しが終了すると、全ての
ブロックに対する再生開始時刻データがリンクテーブル
に格納され、これによりリンクテーブルの作成が完了す
る。

【００５２】図４に、上記リンクテーブル作成時の処理
フローチャートを示す。

【００５３】このうち、ステップＳ２０１〜Ｓ２０２
は、テキストデータをブロック毎に区分する処理を示す
フローチャートである。

【００５４】リンクテーブルの作成が開始されると、ス
テップＳ２０１にて、テキストデータの読み込みが開始
される。しかる後、読み込まれたテキストデータの文字
数がＮ１を越えると（ステップＳ２０２）、次に句読点
を示すテキストデータが到来したかが判別される（ステ
ップＳ２０３）。ここで、句読点の到来が判別される
と、かかる句読点位置でテキストデータが分割され、テ
キストブロックが構成される（ステップＳ２０５）。他
方、句読点が到来しなければ、読み込んだテキストデー
タの文字数がＮ２（Ｎ２＞Ｎ１）を越えたかが判別され
る（ステップＳ２０４）。ここで、文字数Ｎ２を越えた
と判別されると、文字数Ｎ２の位置でテキストデータが
分割され、テキストブロックが構成される（ステップＳ
２０５）。かかるテキストブロックのテキストデータ
は、順次、テキストメモリ部２０９に格納される。

【００５５】以上の処理は、全てのテキストデータの読
み出しが終了するまで実行される（ステップＳ２０
６）。かかる処理により、テキストデータは、その文字
数ＮがＮ１＜Ｎ≦Ｎ２で、且つ、末尾が句読点のテキス
トブロックか、あるいは、Ｎ＝Ｎ２の文字数のテキスト
ブロックかの何れかに区分され、それぞれテキストメモ
リ部２０９に格納される。

【００５６】かかるテキストブロック構成処理と並行し
て、ステップＳ１０１〜Ｓ１０６にて音楽コンテンツの
読み出しおよびリンクテーブルの作成処理が実行され
る。

【００５７】リンクテーブルの作成が開始されると、ま
ず、音楽コンテンツの開始位置から順番にフレームデー
タが読み出される。この際、読み出されたフレーム数が
累積カウントされ、かかるカウント値に基づいて、音楽
コンテンツの再生経過時間が算出される。かかる算出処
理と並行して、フレームデータは、上記の如く、スペク
トル解析、特徴抽出および言語列生成に供され、さらに
生成された言語列がテキストデータに変換されて言語メ
モリ部２０５に格納される（ステップＳ１０２からＳ１
０３）。

【００５８】このようにして生成された言語列のテキス
トデータは、テキストメモリ部２０９のテキストデータ
と比較される。そして、両者のマッチング度合が閾値以
上であると判別されたタイミング（ステップＳ１０４）
で、当該テキストブロックが、上記算出された再生経過
時間にリンク付けされる（ステップＳ１０５）。

【００５９】以上の処理は、全てのテキストデータが読
み出されるまで実行される。これにより、各テキストブ
ロックが、上記算出された再生経過時間に逐次リンク付
けされる。そして、全てのフレームデータの読み出しが
終了すると、テキストブロックに対するリンク付けが終
了し、リンクテーブルの作成が完了する。

【００６０】図５に、上記リンクテーブル作成部２００
の他の構成例を示す。かかる構成例では、上記言語列の
文字数とテキストブロックの文字数とが比較され、その
比較結果に応じて上記識別信号が出力される。すなわ
ち、フレームデータから言語列を抽出した後その文字数
がカウントし、かかるカウント数がテキストブロックの
文字数に達したタイミングで、マッチング部２２２から
識別信号を出力するものである。したがって、図５の構
成例は、上記図２の構成例に比べ、言語カウンタ部２２
０と、テキストカウンタ部２２１と、マッチング部２２
２の構成が相違している。

【００６１】言語カウンタ２２２は、言語作成部２０３
にて生成された言語列の文字数をカウントする。テキス
トカウンタ部２２１は、テキスト分割部２０８にて分割
構成された各テキストブロックの文字数をカウントす
る。マッチング部２２２は、言語カウンタ部２２０のカ
ウント数が、テキストカウンタ部２２１のカウント数に
達したタイミングで、識別信号を出力する。

【００６２】ここで、テキストカウンタ部２２１には、
テキストデータのうち、まず、最初のテキストブロック
Ｔｂ０の文字数Ｎｔ０が保持される。しかる後、言語カ
ウンタ部２２０の文字カウント数ＮｗがＮｔ０に達した
タイミングで、マッチング部２２２は識別信号を出力す
る。かかる識別信号を受けて、テーブル作成部２２１
は、経過時間算出部２０７から経過時間データを取得
し、これを当該テキストブロックの再生開始時刻として
リンクテーブルに格納する。

【００６３】しかして、マッチング部２２２から識別信
号が出力されると、言語カウンタ部２２０とテキストカ
ウンタ部２２１がリセットされ、テキストカウンタ部２
２１には、次のテキストブロックＴｂ１中の文字数Ｎｔ
１がセットされる。同時に、言語カウンタ部２２０はそ
の後に到来した言語列（上記リセットが先の言語列の途
中で出力された場合には、当該先の言語列の途中以降の
言語列）の文字数をカウントする。そして、言語カウン
タ部２２０のカウント値が、テキストカウンタ部２２１
のカウント値に達したタイミングで、識別信号が出力さ
れ、上記と同様にして、テキストブロックＴｂ１の開始
時刻データがリンクテーブルに格納される。

【００６４】以後、同様の処理が、３番目以降のテキス
トブロックおよびその後のフレームデータについて繰り
返され、これにより、各テキストブロックの再生開始時
刻がリンクテーブルに順次格納されて行く。そして、最
後のテキストブロックまで上記処理が繰り返されると、
リンクテーブル上の全てのテキストブロックに対する再
生開始時刻が格納され、これによりリンクテーブルの作
成が完了する。

【００６５】かかるリンクテーブル作成時の処理フロー
を図６に示す。かかるフローチャートは、上記図４のフ
ローチャートに比べ、ステップＳ１１０の処理のみ相違
している。すなわち、ステップＳ１１０では、言語列の
文字数がテキストブロックの文字数に達したかが判別さ
れる。そして、テキストブロックの文字数に達したタイ
ミングで、上記の如く、再生経過時間に対する当該テキ
ストブロックのリンク付けが行われる。

【００６６】なお、上記マッチング動作において、文字
数の判別に加え、テキストブロックの文字数内の適当な
言語列について、上記図２および図４に示す言語列のマ
ッチング判別を行うようにしても良い。たとえば、テキ
ストブロックの先頭文字に対応する言語情報が抽出言語
列の言語情報にマッチングした時点を、上記文字数カウ
ントの開始時点とする。これにより、無発音な言語や雑
音などによる言語カウンタとテキストカウンタのカウン
ト数の不一致をブロック単位で抑制・回避することが可
能となる。

【００６７】上記の如くしてリンクテーブルを作成した
後、当該リンクテーブルの検証を行うようにしても良
い。たとえば、作成したリンクテーブルに従って音楽コ
ンテンツとテキストデータを実際に再生し、スピーカか
らの再生出力とディスプレイ１０６からのテキスト表示
との間の同期状態を確認する。そして、テキスト表示の
漏れ等を発見した場合には、周波数弁別部２０１の周波
数帯を調整する等して、再度、上記リンク作成処理を実
行する。しかして、適正なリンクテーブルが作成される
と、当該リンクテーブルを音楽コンテンツおよびテキス
トデータと共にファイルに格納し、ファイル記憶部１０
９に記憶せしめる。

【００６８】以上、本発明に係る実施の形態について種
々説明したが、本発明はこれら実施の形態に限定される
ものではなく、他に、種々の変更が可能であることは言
うまでもない。

【００６９】たとえば、上記図２の実施形態では、言語
列をテキストデータに変換した後、テキストブロックの
テキストデータと比較するようにしたが、逆に、テキス
トブロックのテキストデータを言語列に変換し、言語列
レベルで両者を比較するようにしても良い。また、単語
単位で両者を比較するようにしても良い。

【００７０】また、上記実施の形態では、音楽コンテン
ツと歌詞テキストとをリンク付けするようにしたが、人
の音声とその言葉とをリンク付けするようにすることも
できる。また、音声とテキストの他に画像データをさら
にリンク付けするようにしても良い。さらに、上記実施
の形態では、コンテンツとして圧縮音楽コンテンツを用
いたが、コンテンツデータは必ずしも圧縮されている必
要はない。かかる場合、上記図１および図７の圧縮音楽
データ複合部１０３ａは不要となる。

【００７１】その他、テキストデータの区分の手法は、
上記句読点や文字数の他、疑問符号や感嘆符など、特殊
文字の出現にて行うようにすることもできる。

【００７２】このように、本発明の実施の形態は、本発
明の技術的思想の範囲内において、適宜、種々の変更が
可能である。

【００７３】

【発明の効果】以上、本発明によれば、音声データから
言語情報を抽出し、当該言語情報とテキストデータとを
対比してテキストデータの再生開始時刻を自動設定する
ものであるから、従来例のように、再生音楽を聴きなが
らテキストブロックを逐一指定するといった煩雑な作業
が不要となり、もって、リンクデータ作成時の操作の簡
便化を図ることができる。

【００７４】また、テキストデータの区分も、テキスト
データ上の特殊文字および／若しくは文字数に着目して
自動的に区切るものであるから、テキストブロック区分
時の煩雑な作業が不要となり、もって、さらなる操作の
簡便化を図ることができる。

【００７５】さらに、上記処理は、人を媒介とせずに所
定の処理規則に従って行われるものであるから、リンク
設定の画一化を図ることができ、もって、リンクデータ
の品質の向上に寄与することができる。

【００７６】このように、本発明によれば、操作の簡便
性と、データ品質の向上を同時に達成することができ
る。

【図面の簡単な説明】

【図１】実施の形態に係るファイル作成装置の構成例
を示す図

【図２】実施の形態に係るリンク作成部の構成例を示
す図

【図３】メモリに対するテキストデータの格納状態を
示す図

【図４】リンク作成時における処理フローチャート

【図５】実施の形態に係るリンク作成部の他の構成例
を示す図

【図６】リンク作成時における他の処理フローチャー
ト

【図７】従来例に係るファイル作成装置の構成例を示
す図

【図８】リンク付け動作を説明するための図

【符号の説明】

２００リンク作成部２０１周波数弁別部２０２特徴抽出部２０３言語作成部２０４言語モデルデータベース２０５言語メモリ部２０６フレームカウント部２０７経過時間算出部２０８テキスト分割部２０９テキストメモリ部２１０マッチング部２１１テーブル作成部２２０言語カウンタ部２２１テキストカウンタ部２２２マッチング部

───────────────────────────────────────────────────── フロントページの続き (72)発明者竹山哲夫大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内 (72)発明者中里酉克大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内 (72)発明者武村浩司大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内 (72)発明者佐藤義三大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内Ｆターム(参考） 5D378 MM13 MM37 MM38 MM94 MM96 QQ01

Claims

【特許請求の範囲】

【請求項１】音声データの再生時間軸に対するテキス
トデータの再生タイミングを規定するリンクデータを作
成するデータ作成装置において、前記音声データから言語を抽出する言語抽出手段と、抽出された言語と前記テキストデータの言語とを比較す
る比較手段とを備え、前記両言語が整合したタイミングに応じて当該整合した
テキストデータの再生タイミングを規定する、ことを特徴とするデータ作成装置。
【請求項２】音声データの再生時間軸に対するテキス
トデータの再生タイミングを規定するリンクデータを作
成するデータ作成装置において、前記音声データから言語を抽出する言語抽出手段と、抽出された言語の文字数をカウントする言語カウント手
段と、当該カウント値と前記テキストデータの文字数とを比較
する比較手段とを備え、前記両文字数が整合したタイミングにて当該整合したテ
キストデータの再生タイミングを規定する、ことを特徴とするデータ作成装置。
【請求項３】音声データの再生時間軸に対するテキス
トデータの再生タイミングを規定するリンクデータを作
成するデータ作成装置において、前記音声データから言語情報を抽出する言語情報抽出手
段と、抽出された言語情報と前記テキストデータの言語情報と
を比較する比較手段とを備え、前記両言語情報が整合したタイミングにて当該整合した
テキストデータの再生タイミングを規定する、ことを特徴とするデータ作成装置。
【請求項４】請求項１から３の何れかにおいて、前記テキストデータを所定のブロックに区分するブロッ
ク区分手段をさらに備え、当該区分されたブロック毎に
前記比較手段にて比較を行う、ことを特徴とするデータ作成装置。
【請求項５】請求項４において、前記ブロック区分手段は、テキスト内の区切りを示すデ
ータおよび／若しくはテキストの文字数に基づいて、テ
キストデータをブロックに区分する、ことを特徴とするデータ作成装置。
【請求項６】請求項１から５の何れかにおいて、音声データのデータ量に基づいて再生時間を算出する再
生時間算出手段を更に備え、当該算出された再生時間に
基づいて音声データの再生時間軸を設定する、ことを特徴とするデータ作成装置。
【請求項７】テキストデータ中の区切りを示すデータ
および／若しくはテキストの文字数に基づいて、テキス
トデータをブロックに区分するブロック区分手段を有す
ることを特徴とするデータ作成装置。
【請求項８】音声データの再生時間軸に対するテキス
トデータの再生タイミングを規定するリンクデータを作
成するデータ作成方法において、前記音声データから言語情報を抽出する言語情報抽出ス
テップと、抽出された言語情報と前記テキストデータの言語情報と
を比較する比較ステップと、前記比較結果に基づいてリンクデータを生成するリンク
データ生成ステップとを備え、前記リンクデータ生成ステップは、前記両言語情報が整
合したタイミングにて当該整合したテキストデータの再
生タイミングを規定する、ことを特徴とするデータ作成方法。
【請求項９】請求項８において、前記テキストデータを所定のブロックに区分するブロッ
ク区分ステップをさらに備え、当該区分されたブロック
毎に前記比較ステップにて比較を行う、ことを特徴とするデータ作成方法。
【請求項１０】請求項９において、前記ブロック区分ステップは、テキスト内の区切りを示
すデータおよび／若しくはテキストの文字数に基づい
て、テキストデータをブロックに区分する、ことを特徴とするデータ作成方法。
【請求項１１】請求項８から１０の何れかにおいて、音声データのデータ量に基づいて再生時間を算出する再
生時間算出ステップを更に備え、当該算出された再生時
間に基づいて音声データの再生時間軸を設定する、ことを特徴とするデータ作成方法。