JP2003280670A - データ作成装置およびデータ作成方法 - Google Patents

データ作成装置およびデータ作成方法

Info

Publication number
JP2003280670A
JP2003280670A JP2002087705A JP2002087705A JP2003280670A JP 2003280670 A JP2003280670 A JP 2003280670A JP 2002087705 A JP2002087705 A JP 2002087705A JP 2002087705 A JP2002087705 A JP 2002087705A JP 2003280670 A JP2003280670 A JP 2003280670A
Authority
JP
Japan
Prior art keywords
data
text
language
reproduction
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002087705A
Other languages
English (en)
Inventor
Keiji Horiuchi
啓次 堀内
Masuo Kondo
益生 近藤
Tetsuo Takeyama
哲夫 竹山
Nagakatsu Nakazato
酉克 中里
Koji Takemura
浩司 武村
Yoshizo Sato
義三 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2002087705A priority Critical patent/JP2003280670A/ja
Publication of JP2003280670A publication Critical patent/JP2003280670A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】 簡便な操作によって画一的に、音声データと
テキストデータとの間の同期タイミング設定を行い得る
ようにすること。 【解決手段】 フレームデータの音響特徴を抽出し、こ
れを基準音声モデルと比較して言語列を作成する。この
言語列をテキストデータに変換し言語メモリ部に格納す
る。これと並行して、フレームデータのフレーム数に基
づいて再生経過時間を算出する。他方、テキストデータ
をテキストブロックに分割し、ブロック毎にテキストメ
モリ部に格納する。そして、当該テキストデータと、上
記言語メモリ部中のテキストデータとを比較し、両者が
一致したタイミングで識別信号を出力する。テーブル作
成部は、識別信号の受信に応じて経過時間算出部から経
過時間データを取得し、これを当該テキストブロックに
対応させてリンクテーブル上にストアする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ作成装置お
よびデータ再生方法に関し、特に、音楽データ等のコン
テンツデータと、それに付された歌詞等のテキストデー
タとを同期再生する装置およびシステムに用いて好適な
ものである。
【0002】
【従来の技術】携帯端末の普及に伴い、音楽コンテンツ
等のコンテンツデータをネットワーク経由で携帯端末に
配信するコンテンツ配信サービスが普及しつつある。ユ
ーザは、かかる配信を受けることにより、携帯端末によ
って、何時でも何処でも所望のコンテンツを視聴するこ
とができる。
【0003】配信されるコンテンツとしては、音楽コン
テンツの他、動画や静止画などの映像コンテンツ、およ
び歌詞等のテキストコンテンツ等がある。これらのコン
テンツは、通常、単独では配信されず、たとえば、音楽
コンテンツとその歌詞テキストが、リンクデータと共に
配信される。リンクデータは、音楽コンテンツと歌詞テ
キストとをリンクするためのもので、たとえば、音楽コ
ンテンツの再生時間軸上におけるテキストの表示タイミ
ングを規定するリンクテーブルによって構成される。か
かるリンクデータは、配信サーバ側において作成され、
送信ファイルに含められる。すなわち、ファイル編集者
が、再生音楽を聞きながら、テキストデータの再生タイ
ミングを逐次設定していくことによって、ファイル作成
装置に再生タイミングが取り込まれ、これにより、ファ
イル作成装置内でリンクデータが作成される。
【0004】図7に、ファイル作成装置の構成例を示
す。
【0005】ファイル作成装置100は、入力部101
と、リンク作成部102と、音楽再生部103と、CP
U104と、ディスプレイドライバ105と、ディスプ
レイ106と、音楽コンテンツデータベース107と、
テキストデータベース108と、ファイル記憶部109
とから構成されている。
【0006】入力部101は、キーボード101aやマ
ウス101bを備え、テキスト入力や指令入力を行う際
に用いられる。リンク作成部102は、音楽コンテンツ
の再生時間軸に対するテキストブロックの再生開始タイ
ミングを規定するリンクテーブルを生成する。
【0007】音楽再生部103は、圧縮コード化された
音楽コンテンツを再生して音声信号を生成する。かかる
音楽再生部103は、圧縮コード化された音楽コンテン
ツを伸長復号するデータ復号部103aと、復号された
音楽コンテンツをアナログ音声信号に変換するDA変換
部103bとを有する。
【0008】CPU104は内蔵プログラムに従って各
種データを処理すると共に各部を制御する。ディスプレ
イドライバ105は、CPU104の制御に従って、音
楽コンテンツにテキストをリンクさせるための画面や、
音楽再生とテキスト表示の同期確認をするための画面な
どを表示すべく、ディスプレイ106を制御する。ディ
スプレイ106は、ディプレイドライバ105の制御に
従って、所定の画面を表示する。
【0009】音楽コンテンツデータベース107は、音
楽コンテンツをファイルに区分して記憶している。ここ
で、音楽コンテンツは所定の圧縮方式で圧縮コード化さ
れている。テキストデータベース108は、たとえばユ
ーザによって手入力された歌詞テキストに関するデータ
をファイルに区分して記憶している。ファイル記憶部1
09は、音楽コンテンツに対しテキストデータをリンク
付けして生成されたファイルデータを記憶する。かかる
ファイルデータは、音楽コンテンツとテキストデータの
他、リンク作成部102で生成された当該テキストデー
タのリンクテーブルを含む。
【0010】所定の音楽コンテンツに対して歌詞テキス
トをリンク付けする場合、ユーザは、まず当該歌詞テキ
ストを、ブロック毎(たとえば歌詞フレーズ毎)に区分
して、入力部101から入力する。かかるテキストは、
ブロック毎に区分された状態で、順次ディスプレイ10
6に表示される。ここで、歌詞テキストが予めテキスト
データベースに存在する場合には、対応する歌詞テキス
トファイルを読み出してディスプレイ106上に表示せ
しめる。
【0011】歌詞テキストの表示が終了すると、ユーザ
は、当該歌詞テキストに対応した音楽コンテンツの再生
指令を入力部101から入力する。かかる再生指令に応
じて、当該音楽コンテンツが音楽コンテンツデータベー
ス107から読み出され、音楽再生部103によって再
生出力される。
【0012】音楽再生が開始されると、ユーザは、再生
音楽を聞きながら、入力部101を操作して、音楽コン
テンツに対するテキストブロックのリンク付けを行う。
すなわち、テキストブロックを再生出力させたいタイミ
ングで当該テキストブロックを指定する。これにより、
当該テキストブロックが音楽再生時間軸上の当該再生時
刻にリンク付けされる。かかるリンク付けは、リンク作
成部102にて行われる。リンク作成部102は、かか
るリンク付け、すなわち各テキストブロックの再生時間
軸上の再生時刻をテーブル上に順次ストアする。これに
より、リンクテーブルを生成する。
【0013】しかして、全ての音楽コンテンツの再生が
終了し、テキストブロックのリンク付けが終了すると、
当該音楽コンテンツとテキストデータおよびリンク作成
部102にて作成されたリンクテーブルが1つのファイ
ルに格納されて、ファイル記憶部108に記憶される。
【0014】図8を参照して、上記テキストブロックの
リンク付けについてさらに説明する。図中、t1、t
2、…、tnは、音楽コンテンツの再生開始からの経過
時間である。ブロック1、ブロック2、…、ブロックn
は、上記各テキストブロックである。音楽コンテンツが
再生出力された後、時刻t1にてブロック1を上記の通
り指定すると、再生時間軸上における当該ブロック1の
再生出力時刻がt1にセットされる。同様にして、ブロ
ック2、ブロック3、…、ブロックnを順次指定する
と、各ブロックの再生出力時刻がt2、t3、…、tn
にセットされる。そして、各ブロックとその開始時刻が
リンクテーブル上に対応付けられる。しかして、リンク
テーブルが生成される。
【0015】
【発明が解決しようとする課題】しかしながら、上記従
来手法によれば、リンクテーブルの作成時に、テキスト
ブロックを繰り返し指定するといった煩雑な作業が必要
となる。また、当該作業に先立って、予め、テキストデ
ータを適当な単位に区分しておかなければならず、かか
る区分の設定時にも、所定の手作業が必要となる。さら
に、かかる作業は、編集者を媒介としてなされるもので
あるから、作業結果の適否は全て編集者の感性に任さ
れ、画一的処理には一定の限界が生ずる。このため、た
とえばテキスト表示のタイミングずれ等ユーザに違和感
を与える場合が生じ、その結果、配信ファイルの品質劣
化を引き起こす場合があり得る。
【0016】そこで、本発明は、かかる問題を解消し、
簡便な操作によって画一的に同期タイミングの設定を行
い得るデータ作成装置およびデータ作成方法を提供する
ものである。
【0017】
【課題を解決するための手段】上記課題に鑑み、本発明
はそれぞれ以下の特徴を有する。
【0018】請求項1の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語を抽出する言語抽出手段と、抽出さ
れた言語と前記テキストデータの言語とを比較する比較
手段とを備え、前記両言語が整合したタイミングに応じ
て当該整合したテキストデータの再生タイミングを規定
することを特徴とする。
【0019】請求項2の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語を抽出する言語抽出手段と、抽出さ
れた言語の文字数をカウントする言語カウント手段と、
当該カウント値と前記テキストデータの文字数とを比較
する比較手段とを備え、前記両文字数が整合したタイミ
ングにて当該整合したテキストデータの再生タイミング
を規定することを特徴とする。
【0020】請求項3の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成装置において、前記
音声データから言語情報を抽出する言語情報抽出手段
と、抽出された言語情報と前記テキストデータの言語情
報とを比較する比較手段とを備え、前記両言語情報が整
合したタイミングにて当該整合したテキストデータの再
生タイミングを規定することを特徴とする。
【0021】請求項4の発明は、請求項1から3の何れ
かに記載のデータ作成装置において、前記テキストデー
タを所定のブロックに区分するブロック区分手段をさら
に備え、当該区分されたブロック毎に前記比較手段にて
比較を行うことを特徴とする。
【0022】請求項5の発明は、請求項4に記載のデー
タ作成装置において、前記ブロック区分手段は、テキス
ト内の区切りを示すデータおよび/若しくはテキストの
文字数に基づいて、テキストデータをブロックに区分す
ることを特徴とする。
【0023】請求項6の発明は、請求項1から5の何れ
かに記載のデータ作成装置において、音声データのデー
タ量に基づいて再生時間を算出する再生時間算出手段を
更に備え、当該算出された再生時間に基づいて音声デー
タの再生時間軸を設定することを特徴とする。
【0024】請求項7の発明は、テキストデータ中の区
切りを示すデータおよび/若しくはテキストの文字数に
基づいて、テキストデータをブロックに区分するブロッ
ク区分手段を有することを特徴とするデータ作成装置で
ある。
【0025】請求項8の発明は、音声データの再生時間
軸に対するテキストデータの再生タイミングを規定する
リンクデータを作成するデータ作成方法において、前記
音声データから言語情報を抽出する言語情報抽出ステッ
プと、抽出された言語情報と前記テキストデータの言語
情報とを比較する比較ステップと、前記比較結果に基づ
いてリンクデータを生成するリンクデータ生成ステップ
とを備え、前記リンクデータ生成ステップは、前記両言
語情報が整合したタイミングにて当該整合したテキスト
データの再生タイミングを規定することを特徴とする。
【0026】請求項9の発明は、請求項8に記載のデー
タ作成方法において、前記テキストデータを所定のブロ
ックに区分するブロック区分ステップをさらに備え、当
該区分されたブロック毎に前記比較ステップにて比較を
行うことを特徴とする。
【0027】請求項10の発明は、請求項9に記載のデ
ータ作成方法において、前記ブロック区分ステップは、
テキスト内の区切りを示すデータおよび/若しくはテキ
ストの文字数に基づいて、テキストデータをブロックに
区分することを特徴とする。
【0028】請求項11の発明は、請求項8から10の
何れかに記載のデータ作成方法において、音声データの
データ量に基づいて再生時間を算出する再生時間算出ス
テップを更に備え、当該算出された再生時間に基づいて
音声データの再生時間軸を設定することを特徴とする。
【0029】なお、上記請求項において、「言語情報」
とは、当該言語のテキストデータや当該言語の音響分析
データ等の他、当該言語列の文字数を含む、言語および
言語列に関する全ての情報のことである。また、「区切
りを示すデータ」とは、句読点の他、疑問符や感嘆符
等、テキストの区切りとなり得る全てのデータを含むも
のである。さらに、「音声データのデータ量」とは、以
下の実施の形態ではフレーム数が対応し、これ以外にも
データビット数等、何らかの形で音声データの量を表示
し得るものを広く含むものである。
【0030】本発明の特徴は、以下に示す実施の形態の
説明により更に明らかとなろう。
【0031】ただし、以下の実施の形態は、あくまで
も、本発明の一つの実施形態であって、本発明ないし各
構成要件の用語の意義は、以下の実施の形態に記載され
たものに制限されるものではない。
【0032】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。
【0033】まず、図1に実施の形態に係るファイル作
成装置の構成を示す。なお、上記従来の技術において示
した図5と同一構成部分には同一符号を付し、説明を省
略する。
【0034】図1のファイル作成装置は、上記従来のフ
ァイル作成装置に比べ、リンク作成部200の構成が相
違している。また、圧縮音楽データ復号部103aから
の復号音楽データがデータバスを介して、リンク作成部
200に供給される。リンク作成部200は、かかる復
号音楽データとテキストデータベース108からのテキ
ストデータとに基づいて、リンクテーブルを作成する。
この際、上記従来例のようなテキストブロックの区分作
業や、各ブロックのリンク付け作業は必要ない。リンク
テーブルの作成は、全て、リンク作成部200内におい
て自動的に行われる。
【0035】図2に、リンク作成部200の機能ブロッ
クを示す。
【0036】図示の如く、リンク作成部200は、周波
数弁別部201と、特徴抽出部202と、言語作成部2
03と、言語モデルデータベース部204と、言語メモ
リ部205と、フレームカウント部206と、経過時間
算出部207と、テキスト分割部208と、テキストメ
モリ部209と、テーブル作成部211とから構成され
ている。
【0037】周波数弁別部201は、所定フレーム分
(図6に示された所定個数のフレーム)の復号音楽デー
タの周波数スペクトルを解析し、この中から、人の音声
帯域のスペクトル成分を抽出する。特徴抽出部202
は、抽出されたスペクトル成分を音響分析し、当該フレ
ームデータの特徴パラメータを抽出する。
【0038】言語作成部203は、特徴抽出部202で
抽出された特徴パラメータと、音声モデルデータベース
204に格納された各基準言語の特徴パラメータとを比
較し、当該フレームデータ中に含まれる基準言語を順番
に繋ぎ合わせて言語列を生成する。ここで、言語列は、
近似度の高いものから順番に複数種類生成される。音声
モデルデータベース204は、五十音や濁音などの各言
語モデルの特徴パラメータを言語モデル毎に記憶してい
る。言語モデルメモリ部205は、言語作成部203で
生成された言語列をテキストデータに変換して記憶す
る。
【0039】フレームカウント部206は、供給された
フレーム数を供給開始から累積し、その累積フレーム数
を経過時間算出部207に供給する。経過時間算出部2
07は、かかる累積フレーム数に基づいて、再生開始時
からの経過時間を算出する。
【0040】テキスト分割部208は、テキストデータ
中に句読点がないか、および、テキストの文字数が所定
値に達したかを判別し、当該判別結果に応じて、後述の
如く、テキストデータをブロックに区分する。テキスト
メモリ部209は、テキストデータをブロック毎に区分
して記憶する。
【0041】マッチング部210は、テキストメモリ部
209に記憶されたブロック毎のテキストデータと、言
語メモリに記憶された言語列のテキストデータとを比較
し、両者が整合したタイミングで識別信号をテーブル作
成部211に送る。リンク作成部211は、マッチング
部210から識別信号が供給されたタイミングで経過時
間算出部207から経過時間データを取得し、かかる経
過時間データを当該テキストブロックの再生タイミング
としてリンクテーブルに設定する。
【0042】次に、リンク作成時の動作について、図1
および図2を参照して説明する。
【0043】図1の入力部101を操作してリンク作成
の開始指令が入力されると、該当する音楽コンテンツが
音楽コンテンツデータベース107から所定フレーム分
ずつ先頭から順番に読み出される。かかるフレームデー
タは、圧縮音楽データ復号部103aにて復号された
後、リンク作成部200に供給される。これと同時に、
テキストデータベース108から、該当するテキストデ
ータが先頭から順に読み出され、これがリンク作成部2
00に供給される。
【0044】テキストデータベース108から読み出さ
れたテキストデータは、図2のテキスト分割部208に
供給され、ここでテキストブロックに区分(区分処理の
方法は後述)される。かかるテキストブロックは、テキ
ストメモリ部209に供給され、ここにブロック毎に順
次格納される。テキストメモリ部209に格納された各
テキストブロックは、マッチング部210によって参照
され、後述の如く、言語メモリ部205に格納された言
語列テキストデータと比較される。
【0045】一方、圧縮音楽データ復号部103aで復
号された所定フレーム分のフレームデータは、図2のフ
レームカウント部206に供給され、累積フレーム数が
計数されて保持される。かかる累積フレーム数は経過時
間算出部207に供給され、ここで経過時間データに変
換される。また、当該フレームデータは、周波数弁別部
201から言語作成部203にて上記の如く処理され、
当該フレームデータに対する言語列が、上記の如くし
て、数種類生成される。そして、かかる言語列に応じた
テキストデータがそれぞれ言語メモリ部205に格納さ
れる。
【0046】図3に、言語メモリ部205およびテキス
トメモリ部209に対するテキストデータの格納状態を
概念的に示す。ここで、Watn、WbtnおよびWc
tnは、上記所定フレーム分のフレームデータから抽出
された1つの言語列のテキストデータで、Watnは近
似度の最も高い基準音声モデルから生成された言語列の
テキストデータ、Wbtnは次に近似度の高い言語列の
テキストデータ、Wctnはその次に近似度の高い言語
列のテキストデータである。また、Tbnは、テキスト
分割部208にて分割された各テキストブロックのテキ
ストデータである。
【0047】言語メモリ部205は、他段のシフトレジ
スタによって構成されており、格納された各言語列のテ
キストデータは、次の言語列のテキストデータ格納時
に、順次末端へシフトされる。すなわち、同図の如く、
テキストデータWat3、Wbt3およびWct3が言
語メモリ部205に格納される際には、3ステップ前に
格納されたテキストデータWat0、Wbt0およびW
ct0が言語メモリ部205から押し出される。
【0048】テキストメモリ部209は、RAMによっ
て構成されており、上記分割された各ブロックのテキス
トデータを、ブロック毎に区分して順次格納する。ここ
で、上記言語メモリ部205中の格段のシフトレジスタ
は、テキストメモリ部209に格納される各テキストブ
ロックのテキストデータよりも数言語列分多くのテキス
トデータを格納できるよう構成されている。
【0049】このようにして、言語メモリ部205とテ
キストメモリ部209にテキストデータが格納される
と、次に、マッチング部210によってマッチング度合
が判別される。かかるマッチング度合は、テキストデー
タメモリ部209に格納された各ブロックのテキストデ
ータと、言語メモリ部205に格納された各言語列のテ
キストデータとを比較して行われる。かかる比較は、言
語メモリ部205のテキストデータ(Wat1〜Wat
3、Wbt1〜Wbt3、Wct1〜Wct3)と、テ
キストメモリ部209のテキストデータ(Tb0、Tb
1、Tb2、…)とを、数文字分の範囲で相対的にスラ
イドさせながら行われる。
【0050】そして、テキストメモリ部209内の何れ
かのブロックのテキストデータ(Tb0、Tb1、Tb
2、…)と、言語メモリ部205内の何れかの言語列の
テキストデータ(Wat1〜Wat3、Wbt1〜Wb
t3、Wct1〜Wct3)との間のマッチング度合
(たとえば一致文字数)が所定の閾値を超えたことがマ
ッチング部210で判別されると、マッチング部210
からテーブル作成部211に対し、識別信号が出力され
る。この際、識別信号には、何れのテキストブロックの
テキストデータとマッチングが取れたかを示すデータが
含まれる。
【0051】しかして、識別信号がテーブル作成部21
1に供給されると、これを受けたテーブル作成部211
は、経過時間算出部207から経過時間データを取得
し、かかる経過時間を、当該マッチングのあったテキス
トブロックの再生開始時刻として、リンクテーブル上に
格納する。かかる処理は、音楽コンテンツデータベース
107から全てのフレームデータを読み出すまで行われ
る。これにより、各ブロックに対応する再生開始時刻デ
ータがリンクテーブルに順番に格納される。しかして、
全てのフレームデータの読み出しが終了すると、全ての
ブロックに対する再生開始時刻データがリンクテーブル
に格納され、これによりリンクテーブルの作成が完了す
る。
【0052】図4に、上記リンクテーブル作成時の処理
フローチャートを示す。
【0053】このうち、ステップS201〜S202
は、テキストデータをブロック毎に区分する処理を示す
フローチャートである。
【0054】リンクテーブルの作成が開始されると、ス
テップS201にて、テキストデータの読み込みが開始
される。しかる後、読み込まれたテキストデータの文字
数がN1を越えると(ステップS202)、次に句読点
を示すテキストデータが到来したかが判別される(ステ
ップS203)。ここで、句読点の到来が判別される
と、かかる句読点位置でテキストデータが分割され、テ
キストブロックが構成される(ステップS205)。他
方、句読点が到来しなければ、読み込んだテキストデー
タの文字数がN2(N2>N1)を越えたかが判別され
る(ステップS204)。ここで、文字数N2を越えた
と判別されると、文字数N2の位置でテキストデータが
分割され、テキストブロックが構成される(ステップS
205)。かかるテキストブロックのテキストデータ
は、順次、テキストメモリ部209に格納される。
【0055】以上の処理は、全てのテキストデータの読
み出しが終了するまで実行される(ステップS20
6)。かかる処理により、テキストデータは、その文字
数NがN1<N≦N2で、且つ、末尾が句読点のテキス
トブロックか、あるいは、N=N2の文字数のテキスト
ブロックかの何れかに区分され、それぞれテキストメモ
リ部209に格納される。
【0056】かかるテキストブロック構成処理と並行し
て、ステップS101〜S106にて音楽コンテンツの
読み出しおよびリンクテーブルの作成処理が実行され
る。
【0057】リンクテーブルの作成が開始されると、ま
ず、音楽コンテンツの開始位置から順番にフレームデー
タが読み出される。この際、読み出されたフレーム数が
累積カウントされ、かかるカウント値に基づいて、音楽
コンテンツの再生経過時間が算出される。かかる算出処
理と並行して、フレームデータは、上記の如く、スペク
トル解析、特徴抽出および言語列生成に供され、さらに
生成された言語列がテキストデータに変換されて言語メ
モリ部205に格納される(ステップS102からS1
03)。
【0058】このようにして生成された言語列のテキス
トデータは、テキストメモリ部209のテキストデータ
と比較される。そして、両者のマッチング度合が閾値以
上であると判別されたタイミング(ステップS104)
で、当該テキストブロックが、上記算出された再生経過
時間にリンク付けされる(ステップS105)。
【0059】以上の処理は、全てのテキストデータが読
み出されるまで実行される。これにより、各テキストブ
ロックが、上記算出された再生経過時間に逐次リンク付
けされる。そして、全てのフレームデータの読み出しが
終了すると、テキストブロックに対するリンク付けが終
了し、リンクテーブルの作成が完了する。
【0060】図5に、上記リンクテーブル作成部200
の他の構成例を示す。かかる構成例では、上記言語列の
文字数とテキストブロックの文字数とが比較され、その
比較結果に応じて上記識別信号が出力される。すなわ
ち、フレームデータから言語列を抽出した後その文字数
がカウントし、かかるカウント数がテキストブロックの
文字数に達したタイミングで、マッチング部222から
識別信号を出力するものである。したがって、図5の構
成例は、上記図2の構成例に比べ、言語カウンタ部22
0と、テキストカウンタ部221と、マッチング部22
2の構成が相違している。
【0061】言語カウンタ222は、言語作成部203
にて生成された言語列の文字数をカウントする。テキス
トカウンタ部221は、テキスト分割部208にて分割
構成された各テキストブロックの文字数をカウントす
る。マッチング部222は、言語カウンタ部220のカ
ウント数が、テキストカウンタ部221のカウント数に
達したタイミングで、識別信号を出力する。
【0062】ここで、テキストカウンタ部221には、
テキストデータのうち、まず、最初のテキストブロック
Tb0の文字数Nt0が保持される。しかる後、言語カ
ウンタ部220の文字カウント数NwがNt0に達した
タイミングで、マッチング部222は識別信号を出力す
る。かかる識別信号を受けて、テーブル作成部221
は、経過時間算出部207から経過時間データを取得
し、これを当該テキストブロックの再生開始時刻として
リンクテーブルに格納する。
【0063】しかして、マッチング部222から識別信
号が出力されると、言語カウンタ部220とテキストカ
ウンタ部221がリセットされ、テキストカウンタ部2
21には、次のテキストブロックTb1中の文字数Nt
1がセットされる。同時に、言語カウンタ部220はそ
の後に到来した言語列(上記リセットが先の言語列の途
中で出力された場合には、当該先の言語列の途中以降の
言語列)の文字数をカウントする。そして、言語カウン
タ部220のカウント値が、テキストカウンタ部221
のカウント値に達したタイミングで、識別信号が出力さ
れ、上記と同様にして、テキストブロックTb1の開始
時刻データがリンクテーブルに格納される。
【0064】以後、同様の処理が、3番目以降のテキス
トブロックおよびその後のフレームデータについて繰り
返され、これにより、各テキストブロックの再生開始時
刻がリンクテーブルに順次格納されて行く。そして、最
後のテキストブロックまで上記処理が繰り返されると、
リンクテーブル上の全てのテキストブロックに対する再
生開始時刻が格納され、これによりリンクテーブルの作
成が完了する。
【0065】かかるリンクテーブル作成時の処理フロー
を図6に示す。かかるフローチャートは、上記図4のフ
ローチャートに比べ、ステップS110の処理のみ相違
している。すなわち、ステップS110では、言語列の
文字数がテキストブロックの文字数に達したかが判別さ
れる。そして、テキストブロックの文字数に達したタイ
ミングで、上記の如く、再生経過時間に対する当該テキ
ストブロックのリンク付けが行われる。
【0066】なお、上記マッチング動作において、文字
数の判別に加え、テキストブロックの文字数内の適当な
言語列について、上記図2および図4に示す言語列のマ
ッチング判別を行うようにしても良い。たとえば、テキ
ストブロックの先頭文字に対応する言語情報が抽出言語
列の言語情報にマッチングした時点を、上記文字数カウ
ントの開始時点とする。これにより、無発音な言語や雑
音などによる言語カウンタとテキストカウンタのカウン
ト数の不一致をブロック単位で抑制・回避することが可
能となる。
【0067】上記の如くしてリンクテーブルを作成した
後、当該リンクテーブルの検証を行うようにしても良
い。たとえば、作成したリンクテーブルに従って音楽コ
ンテンツとテキストデータを実際に再生し、スピーカか
らの再生出力とディスプレイ106からのテキスト表示
との間の同期状態を確認する。そして、テキスト表示の
漏れ等を発見した場合には、周波数弁別部201の周波
数帯を調整する等して、再度、上記リンク作成処理を実
行する。しかして、適正なリンクテーブルが作成される
と、当該リンクテーブルを音楽コンテンツおよびテキス
トデータと共にファイルに格納し、ファイル記憶部10
9に記憶せしめる。
【0068】以上、本発明に係る実施の形態について種
々説明したが、本発明はこれら実施の形態に限定される
ものではなく、他に、種々の変更が可能であることは言
うまでもない。
【0069】たとえば、上記図2の実施形態では、言語
列をテキストデータに変換した後、テキストブロックの
テキストデータと比較するようにしたが、逆に、テキス
トブロックのテキストデータを言語列に変換し、言語列
レベルで両者を比較するようにしても良い。また、単語
単位で両者を比較するようにしても良い。
【0070】また、上記実施の形態では、音楽コンテン
ツと歌詞テキストとをリンク付けするようにしたが、人
の音声とその言葉とをリンク付けするようにすることも
できる。また、音声とテキストの他に画像データをさら
にリンク付けするようにしても良い。さらに、上記実施
の形態では、コンテンツとして圧縮音楽コンテンツを用
いたが、コンテンツデータは必ずしも圧縮されている必
要はない。かかる場合、上記図1および図7の圧縮音楽
データ複合部103aは不要となる。
【0071】その他、テキストデータの区分の手法は、
上記句読点や文字数の他、疑問符号や感嘆符など、特殊
文字の出現にて行うようにすることもできる。
【0072】このように、本発明の実施の形態は、本発
明の技術的思想の範囲内において、適宜、種々の変更が
可能である。
【0073】
【発明の効果】以上、本発明によれば、音声データから
言語情報を抽出し、当該言語情報とテキストデータとを
対比してテキストデータの再生開始時刻を自動設定する
ものであるから、従来例のように、再生音楽を聴きなが
らテキストブロックを逐一指定するといった煩雑な作業
が不要となり、もって、リンクデータ作成時の操作の簡
便化を図ることができる。
【0074】また、テキストデータの区分も、テキスト
データ上の特殊文字および/若しくは文字数に着目して
自動的に区切るものであるから、テキストブロック区分
時の煩雑な作業が不要となり、もって、さらなる操作の
簡便化を図ることができる。
【0075】さらに、上記処理は、人を媒介とせずに所
定の処理規則に従って行われるものであるから、リンク
設定の画一化を図ることができ、もって、リンクデータ
の品質の向上に寄与することができる。
【0076】このように、本発明によれば、操作の簡便
性と、データ品質の向上を同時に達成することができ
る。
【図面の簡単な説明】
【図1】 実施の形態に係るファイル作成装置の構成例
を示す図
【図2】 実施の形態に係るリンク作成部の構成例を示
す図
【図3】 メモリに対するテキストデータの格納状態を
示す図
【図4】 リンク作成時における処理フローチャート
【図5】 実施の形態に係るリンク作成部の他の構成例
を示す図
【図6】 リンク作成時における他の処理フローチャー
【図7】 従来例に係るファイル作成装置の構成例を示
す図
【図8】 リンク付け動作を説明するための図
【符号の説明】
200 リンク作成部 201 周波数弁別部 202 特徴抽出部 203 言語作成部 204 言語モデルデータベース 205 言語メモリ部 206 フレームカウント部 207 経過時間算出部 208 テキスト分割部 209 テキストメモリ部 210 マッチング部 211 テーブル作成部 220 言語カウンタ部 221 テキストカウンタ部 222 マッチング部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 竹山 哲夫 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 (72)発明者 中里 酉克 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 (72)発明者 武村 浩司 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 (72)発明者 佐藤 義三 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 Fターム(参考) 5D378 MM13 MM37 MM38 MM94 MM96 QQ01

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声データの再生時間軸に対するテキス
    トデータの再生タイミングを規定するリンクデータを作
    成するデータ作成装置において、 前記音声データから言語を抽出する言語抽出手段と、 抽出された言語と前記テキストデータの言語とを比較す
    る比較手段とを備え、 前記両言語が整合したタイミングに応じて当該整合した
    テキストデータの再生タイミングを規定する、 ことを特徴とするデータ作成装置。
  2. 【請求項2】 音声データの再生時間軸に対するテキス
    トデータの再生タイミングを規定するリンクデータを作
    成するデータ作成装置において、 前記音声データから言語を抽出する言語抽出手段と、 抽出された言語の文字数をカウントする言語カウント手
    段と、 当該カウント値と前記テキストデータの文字数とを比較
    する比較手段とを備え、 前記両文字数が整合したタイミングにて当該整合したテ
    キストデータの再生タイミングを規定する、 ことを特徴とするデータ作成装置。
  3. 【請求項3】 音声データの再生時間軸に対するテキス
    トデータの再生タイミングを規定するリンクデータを作
    成するデータ作成装置において、 前記音声データから言語情報を抽出する言語情報抽出手
    段と、 抽出された言語情報と前記テキストデータの言語情報と
    を比較する比較手段とを備え、 前記両言語情報が整合したタイミングにて当該整合した
    テキストデータの再生タイミングを規定する、 ことを特徴とするデータ作成装置。
  4. 【請求項4】 請求項1から3の何れかにおいて、 前記テキストデータを所定のブロックに区分するブロッ
    ク区分手段をさらに備え、当該区分されたブロック毎に
    前記比較手段にて比較を行う、 ことを特徴とするデータ作成装置。
  5. 【請求項5】 請求項4において、 前記ブロック区分手段は、テキスト内の区切りを示すデ
    ータおよび/若しくはテキストの文字数に基づいて、テ
    キストデータをブロックに区分する、 ことを特徴とするデータ作成装置。
  6. 【請求項6】 請求項1から5の何れかにおいて、 音声データのデータ量に基づいて再生時間を算出する再
    生時間算出手段を更に備え、当該算出された再生時間に
    基づいて音声データの再生時間軸を設定する、 ことを特徴とするデータ作成装置。
  7. 【請求項7】 テキストデータ中の区切りを示すデータ
    および/若しくはテキストの文字数に基づいて、テキス
    トデータをブロックに区分するブロック区分手段を有す
    ることを特徴とするデータ作成装置。
  8. 【請求項8】 音声データの再生時間軸に対するテキス
    トデータの再生タイミングを規定するリンクデータを作
    成するデータ作成方法において、 前記音声データから言語情報を抽出する言語情報抽出ス
    テップと、 抽出された言語情報と前記テキストデータの言語情報と
    を比較する比較ステップと、 前記比較結果に基づいてリンクデータを生成するリンク
    データ生成ステップとを備え、 前記リンクデータ生成ステップは、前記両言語情報が整
    合したタイミングにて当該整合したテキストデータの再
    生タイミングを規定する、 ことを特徴とするデータ作成方法。
  9. 【請求項9】 請求項8において、 前記テキストデータを所定のブロックに区分するブロッ
    ク区分ステップをさらに備え、当該区分されたブロック
    毎に前記比較ステップにて比較を行う、 ことを特徴とするデータ作成方法。
  10. 【請求項10】 請求項9において、 前記ブロック区分ステップは、テキスト内の区切りを示
    すデータおよび/若しくはテキストの文字数に基づい
    て、テキストデータをブロックに区分する、 ことを特徴とするデータ作成方法。
  11. 【請求項11】 請求項8から10の何れかにおいて、 音声データのデータ量に基づいて再生時間を算出する再
    生時間算出ステップを更に備え、当該算出された再生時
    間に基づいて音声データの再生時間軸を設定する、 ことを特徴とするデータ作成方法。
JP2002087705A 2002-03-27 2002-03-27 データ作成装置およびデータ作成方法 Pending JP2003280670A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002087705A JP2003280670A (ja) 2002-03-27 2002-03-27 データ作成装置およびデータ作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002087705A JP2003280670A (ja) 2002-03-27 2002-03-27 データ作成装置およびデータ作成方法

Publications (1)

Publication Number Publication Date
JP2003280670A true JP2003280670A (ja) 2003-10-02

Family

ID=29233801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002087705A Pending JP2003280670A (ja) 2002-03-27 2002-03-27 データ作成装置およびデータ作成方法

Country Status (1)

Country Link
JP (1) JP2003280670A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100643451B1 (ko) 2004-09-10 2006-11-10 주식회사 팬택 화상 데이터와 텍스트 데이터의 동기화 출력 기능을가지는 화상 단말기 및 그 방법
JP2009536368A (ja) * 2006-05-08 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 歌曲を歌詞と並べる方法及び電気デバイス
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100643451B1 (ko) 2004-09-10 2006-11-10 주식회사 팬택 화상 데이터와 텍스트 데이터의 동기화 출력 기능을가지는 화상 단말기 및 그 방법
JP2009536368A (ja) * 2006-05-08 2009-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 歌曲を歌詞と並べる方法及び電気デバイス
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Similar Documents

Publication Publication Date Title
US7487093B2 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
US20080275700A1 (en) Method of and System for Modifying Messages
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
US8838594B2 (en) Automatic method to synchronize the time-line of video with audio feature quantity
JP3599549B2 (ja) 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2008001500A1 (fr) Système de génération de contenus audio, système d'échange d'informations, programme, procédé de génération de contenus audio et procédé d'échange d'informations
US7418393B2 (en) Data reproduction device, method thereof and storage medium
CN108924583B (zh) 视频文件生成方法及其设备、系统、存储介质
US20140019137A1 (en) Method, system and server for speech synthesis
EP2117212A1 (en) Prompting message forming method and device for mobile terminal
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP2003280670A (ja) データ作成装置およびデータ作成方法
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
CN110992984A (zh) 音频处理方法及装置、存储介质
JP2000206987A (ja) 音声認識装置
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
JP4149370B2 (ja) オーダー処理装置、オーダー処理方法、オーダー処理プログラム、オーダー処理プログラム記録媒体及びオーダー処理システム
JP4407119B2 (ja) 命令コード作成装置
JP2001013982A (ja) 音声合成装置
JP2004336606A (ja) 字幕制作システム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体