JP2008242082A - 音声処理装置、音声処理方法、ならびに、プログラム - Google Patents

音声処理装置、音声処理方法、ならびに、プログラム Download PDF

Info

Publication number
JP2008242082A
JP2008242082A JP2007082677A JP2007082677A JP2008242082A JP 2008242082 A JP2008242082 A JP 2008242082A JP 2007082677 A JP2007082677 A JP 2007082677A JP 2007082677 A JP2007082677 A JP 2007082677A JP 2008242082 A JP2008242082 A JP 2008242082A
Authority
JP
Japan
Prior art keywords
section
sound
voiced
time
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007082677A
Other languages
English (en)
Other versions
JP4563418B2 (ja
Inventor
Tsutomu Watanabe
勉 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Digital Entertainment Co Ltd
Original Assignee
Konami Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Digital Entertainment Co Ltd filed Critical Konami Digital Entertainment Co Ltd
Priority to JP2007082677A priority Critical patent/JP4563418B2/ja
Publication of JP2008242082A publication Critical patent/JP2008242082A/ja
Application granted granted Critical
Publication of JP4563418B2 publication Critical patent/JP4563418B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声データから所望の部分を効率よく取り出す。
【解決手段】記憶部201は文字列を発音する音声を表す波形データ251を記憶する。決定部202は文字列の長さに基づいて閾時間を決定する。保持部203は波形データ251から有音区間を抽出して保持する。更新部204は保持された有音区間の時間長が決定部202により決定された閾時間より短い場合、その有音区間と、その有音区間の近くの他の有音区間と、これら2つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間に更新して保持部203に保持させる。出力部205は文字列と保持部203に保持された有音区間とを対応付けて出力する。
【選択図】図2

Description

本発明は、音声データから所望の部分を効率よく取り出すために好適な音声処理装置、音声処理方法、ならびに、プログラムに関する。
音声データを制作する過程では、例えばスタジオを借りて声優に様々なセリフをしゃべらせたり、効果音や楽曲などを演奏させたりして、まとめて収録することがよくある。例えば、キャラクタオブジェクト(以下、単に「キャラクタ」と呼ぶ)のセリフが多いテレビゲームの場合、複数のセリフを声優らに続けてしゃべってもらいまとめて録音して1つの音声データファイルを得た後、各々のセリフに対応する部分を抜き出し、編集して、セリフごとに別々の音声データを作成する、という一連の工程を踏むことになる。これらの作業の負担を軽減するために様々な工夫がなされている。
例えば、特許文献1には、音声データの編集効率を向上させる装置が開示されている。これによれば、所定サイズ(例えばデータを記憶するROM(Read Only Memory)サイズ)より音声データが大きければこの所定サイズを超える部分が削除され、音声データのサイズが大きくなりすぎなくするため、編集作業の負担を軽減できる。
例えば、特許文献2には、データ管理の仕方を工夫することにより音声データの編集を支援する装置が開示されている。これによれば、音声データは、編集前と編集後の独立したトラックデータとして記憶されるため、音声データの編集のアンドゥ(ユーザの直前の操作を取り消して元に戻すこと)ができる。また、編集後に微少量の音声データしか格納されないクラスタ(記憶装置がデータを記憶する領域の単位)がないように記憶されるので、安定した再生も行える。
例えば、特許文献3には、多彩な音色を生成できる装置が開示されている。これによれば、例えばMIDI(Musical Instrument Digital Interface)において、複数の音色データをセットにして記録した音色セットを1つだけでなく複数個用いて音声データを編集することができる。
このように従来技術では、抽出された音声データを編集する作業の手間を省くための工夫がなされてきた。
特開2006−201666号公報 特開2002−124022号公報 特開2001−100744号公報
従来の音声処理装置によれば、音声データの波形のアタック部分(鳴り始め、立ち上がり)やリリース部分(鳴り終わり、立ち下がり)の大きさや比率、無音区間の長さ等に基づいて音声データの中から有音区間を判別することによって、音声データから有音区間を抽出している。例えば、様々なセリフを収録した音声データの中から、あるセリフ部分だけを抜き出して1つのセリフ音声データを作成したいとする。もし、一連のセリフ「○○、△△」の中に「、」のような“間”をおくところや“つなぎ”の部分があると、その“間”や“つなぎ”の長さや音量によっては、それが無音区間であると判断され、本来1つの音声データであるべきものが分断されて2つの音声データとして抽出されてしまったり、不要な部分として削除されてしまったりするという問題があった。あるいは逆に、収録された2つのセリフ「○○」と「△△」の間隔が短いと、本来それぞれ別の音声データとして抽出されるべきものが1つの音声データとして抽出されてしまうという問題があった。そうすると、編集者は、音声データが正しく抽出されたかを1つずつ確認し、正しくなければ抽出をやり直したりデータをマニュアルで結合・分割させたりしなければならず面倒であった。また、編集者は、各セリフの音声データが大体どの程度の大きさになるかを経験などから推測して所望の音声データを抽出させる必要があり、編集作業の大きな負担を強いられていた。
本発明はこのような課題を解決するものであり、音声データから所望の部分を効率よく取り出すために好適な音声処理装置、音声処理方法、ならびに、プログラムを提供することを目的とする。
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
本発明の第1の観点に係る音声処理装置は、記憶部、決定部、保持部、更新部を備える。
記憶部は、文字列を発音する音声を含む波形データを記憶する。
決定部は、当該文字列に基づいて、閾時間を決定する。
保持部は、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新部は、保持部により保持された有音区間のそれぞれについて、当該有音区間の時間長が、決定部により決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持部に保持させるように更新する。
この結果、音声処理装置は、音声波形データの中から有音区間の部分を容易に抽出できる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声の全部あるいは一部が含まれる。また、音声処理装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がってしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
音声処理装置は、保持部に保持された有音区間のうちユーザによって選択された有音区間を当該文字列に対応付けて出力する出力部を更に備えてもよい。
この結果、音声処理装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出して出力する。これにより、本来一連の繋がったセリフであるべき音声が分断されて出力されてしまったり、違うセリフの音声が繋がって出力されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。また、音声波形データの中に複数のセリフが含まれていても、抽出したセリフ部分の音声波形データと音声内容を表す文字列とを対応付けて出力するので、どのデータがどの音声のものなのかが明確になり、ユーザは抽出後の音声を管理しやすくなる。
決定部は、当該文字列の長さに対して単調増加させて当該閾時間を決定することができる。
この結果、音声処理装置は、文字列の長さに応じて、音声を抽出する際の最小時間長を調節できる。すなわち、セリフの長さに応じて最適の時間長の音声を抽出する。例えば、編集対象の音声波形データの中に長いセリフが含まれていれば、そのセリフが分断されてしまわないように、最小時間長を長くして抽出できる。例えば、短いセリフが含まれていれば、そのセリフが他のセリフと一緒になってしまわないように、最小時間長を短くして抽出できる。
決定部は、文字の種類に応じて予め定められたゼロ以上の定数の総和を求めることにより当該閾時間を決定することができる。
例えば、この定数は、文字の種類に応じて決められた発音時間にすることができる。ここで用いる発音時間は、必ずしも人間が発音するときの厳密な数値である必要はなく、抽出したい音声の長さをおおよそ推定できる数値であればよい。
この結果、音声処理装置は、文字の種類に応じて決められた発音時間の合計を最小時間長にし、この最小時間長に満たない時間長にならないように音声を抽出できる。例えば、文字の種類とは、ひらがな、カタカナ、漢字、数字、アルファベット、その他の言語を表す文字、句読点などのことである。あるいは、ユーザが任意に設定した、記号と発音時間長との関連付けに基づいて、この最小時間長を計算してもよい。
更新部は、
(a)当該有音区間と、当該有音区間より時系列的に前に存在する前方有音区間と、に挟まれる第1区間、
(b)当該有音区間と、当該有音区間より時系列的に後に存在する後方有音区間と、に挟まれる第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間に対応する当該前方有音区間又は当該後方有音区間のいずれかと、から構成される区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち時間的に近い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
更新部は、
(c)当該有音区間より時系列的に前に存在する前方有音区間と、当該前方有音区間と当該有音区間に挟まれる区間と、から構成される第1区間、
(d)当該有音区間より時系列的に後に存在する後方有音区間と、当該後方有音区間と当該有音区間に挟まれる区間と、から構成される第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と当該有音区間とから構成される区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち結合後の長さが短い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
更新部は、
(e)当該有音区間より時系列的に前に存在する前方有音区間、
(f)当該有音区間より時系列的に後に存在する後方有音区間、
のそれぞれの時間長を求め、当該前方有音区間と当該後方有音区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間と当該有音区間に挟まれる区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち時間長が短い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
保持部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間と、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間とを更に抽出して保持してもよい。
また、出力部は、抽出された2つのオフセット区間をさらに再生し、保持された有音区間の中からいずれかをユーザに選択させ、選択された有音区間と抽出された2つのオフセット区間を、当該文字列に対応付けて出力してもよい。
この結果、音声処理装置は、有音区間の前後の音声も合わせて抽出して出力できる。これにより、ユーザの編集作業の負担を軽減し、且つ、音声の前後にエフェクトをかけることができる。例えば、音量のフェードイン、フェードアウト、エコー、ローパスフィルタ、ハイパスフィルタ、再生スピードの変更、などのエフェクトをかけることができる。
出力部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間の音量をゼロから単調増加させ、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間の音量を単調減少させてゼロにしてもよい。
この結果、音声処理装置は、抽出した音声の始めにフェードインさせ、終わりにフェードアウトさせる。これにより、ユーザの編集作業の負担を軽減し、且つ、音声の前後がスムーズに聞こえるようにエフェクトをかけることができる。
本発明のその他の観点に係る音声処理方法は、記憶部、決定部、保持部、更新部を有する装置にて実行される音声処理方法であって、決定ステップ、保持ステップ、更新ステップを備える。
記憶部には、文字列を発音する音声を含む波形データが記憶される。
決定ステップは、決定部が、当該文字列に基づいて、閾時間を決定する。
保持ステップは、保持部が、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新ステップは、保持ステップにより保持された有音区間のそれぞれについて、当該有音区間の時間長が決定された閾時間より短い場合、更新部が、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持ステップに保持させるように更新する。
この結果、この音声処理方法を用いた装置は、音声波形データの中から有音区間の部分を容易に抽出できる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声が含まれる。また、この装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がって抽出されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
本発明のその他の観点に係るプログラムは、コンピュータを、記憶部、決定部、保持部、更新部として機能させる。
記憶部は、文字列を発音する音声を含む波形データを記憶する。
決定部は、当該文字列に基づいて、閾時間を決定する。
保持部は、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新部は、保持部により保持された有音区間のそれぞれについて、当該有音区間の時間長が、決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持部に保持させるように更新する。
この結果、プログラムは、コンピュータを、音声波形データの中から有音区間の部分を容易に抽出できる装置として機能させる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声が含まれる。また、コンピュータは、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がって抽出されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記憶媒体に記録することができる。
上記プログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記憶媒体は、コンピュータとは独立して配布・販売することができる。
本発明によれば、音声データから所望の部分を効率よく取り出すために好適な音声処理装置、音声処理方法、ならびに、プログラムを提供することができる。
以下、本発明に係る音声処理装置の実施形態を説明する。
(実施例1)
図1は、本実施形態の音声処理装置100の構成を示す図である。本図に示すように、音声処理装置100は、入力部101、画像処理部102、音声処理部103、通信処理部104、DVD−ROM(Digital Versatile Disk-Read Only Memory)ドライブ105、記憶装置106、ROM(Read Only Memory)107、RAM(Random Access Memory)108、制御部109、システムバス110を備える。
入力部101は、キーボード121やマウス122と接続され、これらを用いてユーザから入力される指示入力やデータ入力に基づいて入力信号を生成して、制御部109に入力する。ユーザは、キーボード121やマウス122を用いて、音声処理装置100に所望の操作を指示することができる。入力部101は、タッチパネル等の他の入力デバイスと接続されていてもよい。
画像処理部102は、記憶装置106やDVD−ROM等から読み出されたデータを制御部109や画像処理部102が備える画像演算プロセッサ(図示せず)によって加工処理した後、これを画像処理部102が備えるフレームメモリ(図示せず)に記録する。フレームメモリに記録された画像情報は、所定の同期タイミングでビデオ信号に変換され画像処理部102に接続されるモニター123へ出力される。これにより、各種の画像表示が可能となる。
画像演算プロセッサは、2次元の画像の重ね合わせ演算やαブレンディング等の透過演算、各種の飽和演算を高速に実行できる。また、仮想空間が3次元にて構成される場合には、当該3次元空間内に配置され、各種のテクスチャ情報が付加されたポリゴン情報を、Zバッファ法によりレンダリングして、所定の視点位置から仮想空間に配置されたポリゴンを所定の視線の方向へ俯瞰したレンダリング画像を得る演算の高速実行も可能である。さらに、制御部109と画像演算プロセッサが協調動作することにより、文字の形状を定義するフォント情報にしたがって、文字列を2次元画像としてフレームメモリへ描画したり、各ポリゴン表面へ描画することが可能である。
音声処理部103は、音声データをD/A(Digital/Analog)コンバータでアナログ音声信号に変換し、音声をスピーカー124から出力させる。また、制御部109の制御の下、様々な効果音や楽曲データを生成し、これに対応した音声をスピーカー124から出力させる。音声データがMIDIデータである場合には、これが有する音源データを参照して、MIDIデータをPCMデータに変換する。また、ADPCM形式やOgg Vorbis形式等の圧縮済みの音声データである場合には、これを展開してPCMデータに変換する。PCMデータは、そのサンプリング周波数に応じたタイミングでD/A変換を行って、スピーカー124に出力することにより、音声出力が可能となる。
また、音声処理部103は、マイク125で集音した音声信号をA/D(Analog/Digital)コンバータでデジタル音声信号に変換し、音声信号を制御部109に入力する。音声処理部103は、ADPCM、Ogg Vorbis、AAC(Advanced Audio Coding)、MP3(Moving Picture Experts Group-1 Audio Layer-3)などの圧縮方式により、任意の音声信号を圧縮することができる。圧縮方式は本発明によって限定されない。
通信処理部104は、音声処理装置100をインターネット等のネットワークに接続するためのNIC(Network Interface Card)を備える。NICは、LAN(Local Area Network)を構成する際に用いられる10BASE−T/100BASE−T規格にしたがうものや、電話回線を用いてインターネットに接続するためのアナログモデム、ISDN(Integrated Services Digital Network)モデム、ADSL(Asymmetric Digital Subscriber Line)モデム、ケーブルテレビジョン回線を用いてインターネットに接続するためのケーブルモデム等と、これらと制御部109との仲立ちを行うインターフェイス(図示せず)により構成される。制御部109は、通信処理部104と協働して、インターネット等のネットワークに接続された他のコンピュータとの間でデータを送受信することができる。
DVD−ROMドライブ105は、例えばゲーム用のプログラム、画像データ、音声データなどが記録されたDVD−ROMから読み出し処理を行って、必要なプログラムやデータを読み出す。これらはRAM 108等に一時的に記憶される。なお、CD−ROM(Compact Disc-Read Only Memory)など他の情報記録媒体からデータを読み出したり、あるいは情報記録媒体にデータを書き込んだりするドライブ装置であってもよい。
記憶装置106は、ハードディスクドライブなどから構成され、制御部109により実行されるオペレーティングシステム(OS)や各種の制御プログラムなどを記憶する。また、音声データ、静止画像データ、動画像データなど様々なデータを記憶することができる。
ROM 107は、制御部109が所定の処理を実行するためのプログラム等を予め格納する不揮発性メモリである。制御部109は、ROM 107から必要に応じてプログラム等を読み出してRAM 108に展開し、このプログラム等に基づいて所定の処理を実行する。
RAM 108は、データやプログラムを一時的に記憶するためのもので、記憶装置106やDVD−ROMから読み出したデータなどが一時的に保持される。また、制御部109は、RAM 108に変数領域を設け、この変数に格納された値に対して演算を行ったり、RAM 108に格納された値を一旦レジスタに格納してからレジスタに対して演算を行い、演算結果をメモリに書き戻す、などの処理を行う。
制御部109は、CPU(Central Processing Unit)などから構成され、音声処理装置100全体の動作を制御し、上述の各構成要素と接続され制御信号やデータをやりとりする。また、制御部109は、レジスタ(図示せず)という高速アクセスが可能な記憶域に対してALU(Arithmetic Logic Unit)(図示せず)を用いて加減乗除等の算術演算や、論理和、論理積、論理否定等の論理演算、ビット和、ビット積、ビット反転、ビットシフト、ビット回転等のビット演算などを行うことができる。さらに、マルチメディア処理対応のための加減乗除等の飽和演算や、三角関数等、ベクトル演算などを高速に行えるように、制御部109自身が構成されているものや、コプロセッサを備えて実現するものがある。
システムバス110は、上述した各部の間で命令やデータを転送するための伝送経路である。
このような音声処理装置100として、一般に広く普及しているようないわゆるパーソナルコンピュータ等の情報処理装置を用いることができる。
次に、本実施形態の音声処理装置100の各部が行う処理について説明する。
図2は、本実施形態の音声処理装置100の構成を説明するための図である。本図に示すように、音声処理装置100は、記憶部201、決定部202、保持部203、更新部204、出力部205を備える。
記憶部201は、音声の波形データ251を記憶する。波形データ251には、例えばゲームに使われるセリフなどの文字列を読み上げる音声が含まれる。波形データ251のフォーマットは自由であり、出力部205がデコードして再生できる形式であればよい。波形データ251は、1つのセリフの音声データ(以下、「セリフデータ」と呼ぶ)だけでなく、複数のセリフデータを含むことができる。なお、波形データ251は、セリフ以外の音楽、歌、効果音などの音声データを含んでいてもよい。制御部109と記憶装置106が協働して動作することにより、記憶部201として機能する。
図3は、波形データ251の例を示す図である。波形データ251は、典型的には、縦軸に音声のパワー値(音の強さ)、横軸に経過時間をとったスペクトルで表される。1つの波形データ251は、1つの音声データファイルとして記憶装置106に記憶される。波形データ251は有音区間310と無音区間320とを含むが、詳細については後述する。
例えば、映画の吹き替えの音声、ゲーム、アニメーション等のキャラクターの音声、音声案内システムのガイダンスの音声などを録音する場合、多くの声優達を一同にスタジオに集めることは各人のスケジュールの関係で容易ではなかったり、必要なセリフのバリエーションがとても多かったりする。そのため、制作現場では、多くのセリフをまとめて収録して1つの音声データにしたり、声優ごと別々の音声データを作成したりすることがよくある。本実施形態が扱う音声の波形データ251は、例えばこのように複数のセリフデータをまとめて記録した音声データである。
また、記憶部201は、波形データ251がセリフなどの音声を含む場合、波形データ251に対応付けて、セリフに相当する文字列データを記憶する。
図4(a)は、波形データ251に対応付けてセリフの文字列を記憶したセリフテーブル400の構成例である。セリフテーブル400は、波形データ名410とセリフ番号420と文字列データ430を対応付ける。波形データ名410は、波形データ251を識別するための情報であり、例えばデータファイル名が用いられる。セリフ番号420は、1つの波形データ251内で各セリフを識別するための情報であり、例えば記録されたセリフの順番を示す数字が用いられる。波形データ名410とセリフ番号420によって、1つのセリフデータを特定できる。文字列データ430は、セリフを表す文字列の情報であり、例えばひらがな、カタカナ、漢字、数字、アルファベット、その他の言語を表す文字、句読点などを用いて表される。なお、本図に示したセリフテーブル400の構成は一例に過ぎず、これらの情報のうちの一部のみを含む構成や、これらの情報に加えて他の情報も記憶する構成を採用することもできる。
例えば、制御部109は、波形データ251の波形データ名410と、波形データ251に含まれるセリフを表す文字列データ430とが例えば図4(b)に示すような形式で予め対応付けて記載されたデータファイルを読み出し、セリフテーブル400を作成して記憶装置106に記憶させる。制御部109は、データファイルに記録された文字列の順にセリフ番号を割り当てればよい。また、文字列の数をカウントすれば、波形データ251に含まれるセリフデータの数を特定できる。このデータファイルは、ユーザによって予め作成された電子ファイルであり、典型的にはCSV(Comma Separated Values)形式やXML(Extensible Markup Language)形式などで作成される。なお、データ形式はこれらに限定されない。また、入力部101が波形データ251ごとに記録されているセリフの文字列の入力をユーザから受け付けて制御部109に入力することにより、制御部109がセリフテーブル400を作成してもよい。
なお、波形データ251は、記憶装置106に記憶されてもよいし、DVD−ROM、CD−ROM、磁気テープなどの情報記録媒体や、インターネットやLANなどのネットワークに繋がった他のコンピュータに記憶されていてもよい。情報記録媒体に記憶される場合には、制御部109は、その情報記録媒体に対応したドライブ装置を用いて波形データ251を取得すればよい。ネットワーク上の他のコンピュータに記憶される場合には、制御部109は、通信処理部104を制御して、ネットワークアドレス等を用いて保存先のコンピュータに接続し、データ通信で波形データ251を取得すればよい。
決定部202は、文字列データ430に基づいて、波形データ251からセリフ部分を判別するために用いられる閾時間TSを決定する。制御部109と記憶装置106が協働して動作することにより、決定部202として機能する。
詳細には、制御部109は、セリフに対応する文字列データ430の長さに対して単調増加するように閾時間TSを決定する。例えば[数1]に示すように、セリフを表す文字列データ430を構成する文字1つにつき所定発音時間Tp(Tpは正の定数)を決めておき、所定発音時間Tpに文字数cntを乗じた時間を閾時間TSとする。この[数1]によれば、閾時間TSは文字数に比例して増加する。
TS = cnt × Tp ・・・[数1]
また、[数2]に示すように、文字の種類kに応じて予め決められた発音時間Tkに、その種類に属する文字数cnt(k)を乗じ、すべての種類kについての総和の時間を閾時間TSとしてもよい。
TS = Σ(cnt(k)×Tk) ・・・[数2]
文字の種類とは、例えば図5(a)に示すように、ひらがな、カタカナ、漢字、数字、アルファベット、その他の言語を表す文字、句読点、などの分類のことである。すなわち、ひらがなは1文字あたり何秒、などと予め決めておき、記憶装置106に記憶しておく。制御部109は、文字列データ430中のひらがなの数に所定発音時間Thを乗じて、ひらがなに相当する発音時間の和を計算する。同様に制御部109は、他の種類の文字や記号についても和を計算し、それらの総和を閾時間TSとする。全角文字か半角文字か、大文字か小文字かによって所定発音時間を変えてもよい。
あるいは、図5(b)に示すように、文字の種類は1つ1つの文字の分類でもよい。すなわち、ひらがなの“あ”はTa秒、“い”はTb秒、漢字の“六”はTc秒、アルファベットの“Z”はTd秒、読点“、”はTe秒、などと文字や記号ごとに所定発音時間を決めておき、記憶装置106に記憶していてもよい。制御部109は、文字列データ430中の1つの文字“あ”の合計数に所定発音時間Taを乗じて、“あ”に相当する時間の和を計算する。同様に制御部109は、他の文字や記号についても発音時間の和を計算し、それらの総和を閾時間TSとする。ここに記載した文字以外のその他の文字についても同様である。
一般に、ひらがなは1文字あたりの発音時間の差が比較的小さいが、漢字は1文字あたりの発音時間の差が大きい傾向にある。例えば、同じ種類“漢字”であっても、“木”はひらがなに直せば“き”の1文字であるが、“閾”はひらがなに直せば“しきい”の3文字である。このように、特に文字列データ430に漢字を含む場合には[数2]のように閾時間TSを求めると良い。
ここで、例えば文字列“こんにちは”はTf秒、“六本木”はTg秒、といったように、所定の文字列について発音時間を予め決めておいてもよい。すなわち、繰り返し用いられる単語や文などの文字列、頻繁に用いられると予想される単語や文などの文字列、同じ文字でも組み合わせによって発音時間が異なってくる文字を含む単語や文などの文字列、などに関連付けて、文字列全体の所定発音時間を決めておき、記憶装置106に記憶させ、制御部109は記憶部201記憶された文字列の所定発音時間に基づいて文字列データ430の発音時間を計算してもよい。
例えば、単独の文字“六”(ひらがなで表すと“ろく”)の発音時間と、文字列“六本木”に含まれる文字“六”に相当する部分(ひらがなで表すと“ろっ”)の発音時間は異なってくる。また、例えば単独の文字“木”の発音時間は、“き”(あるいは“ぎ”)と発音する場合と“もく”と発音する場合とで大きく異なってくる。このような場合、所定の文字列(ここでは“六本木”)について発音時間を予め決めて記憶装置106に記憶しておくのが望ましい。
また、文字列データ430に、“。”や“、”といった句読点や、“・・・”のような“間”を示す記号を含めることによって、制御部109は、現実に人間が発音したときにより近い発音時間を計算することができる。
例えば、文字列“今日は、いい天気です。”のように句読点が含まれている場合、制御部109は、言葉の微妙な“つなぎ”も含めて発音時間を計算できるので、全体を一つのセリフとして抽出することが容易になる。すなわち、1つ1つの文字・記号だけでなく、文字列全体に所定発音時間を関連付けることによって、前半部分“今日は”と後半部分“いい天気です”が別々のセリフの音声データに分割されてしまったり、最後の部分“す”が中途半端に途切れて抽出されてしまったりすることを避けることができる。これらの関連付けは予め記憶装置106の所定記憶領域に記憶され、制御部109は適宜この関連付けを参照して閾時間TSを計算する。
文字列データ430の中に含めることができる記号は句読点に限られない。制御部109は、ユーザが任意に設定して予め記憶装置106に記憶させた、記号と発音時間との関連付けに基づいて、発音時間を計算することができる。例えば、「記号“○”は1秒の間をおく」「文字列の先頭に記号“▲”があれば、全体の発音時間をn倍する」「スペース(空白)は0秒とする」などのように、ユーザは自由に発音時間を決めることができる。
そして、制御部109は、各々の文字列データ430について計算した発音時間に基づいて閾時間TSを決定する。例えば、ある波形データ251に複数のセリフデータが含まれ、各々のセリフを表す文字列データ430の長さが、計算された発音時間にしてそれぞれTa、Tb、・・・、Tnであるとする。このとき、制御部109は、Ta、Tb、・・・、Tnの中で最小の値を閾時間TSに決定する。
それぞれの発音時間Tk、Th、Ta〜Tgはいずれも予め決められたゼロ以上の定数である。例えば、文字列データ430の中に、図5に示す関連付けに含まれていない文字・記号や、制御部109が正しく読み取れない文字・記号(機種依存文字など、いわゆる文字化けしてしまうようなもの)が存在する場合には、制御部109は、それらを無視して、それらの文字や記号に相当する発音時間をゼロにして閾時間TSを計算してもよい。なお、ここに記載した文字や文字列は一例に過ぎず、任意の文字や文字列でもよいことは言うまでもない。図5の関連付けには文字又は文字列が書かれているが、所定のキャラクターコード又はこれの組み合わせによって表現されてもよい。
保持部203は、記憶部201に記憶された波形データ251の有音区間310と無音区間320を判別し、波形データ251から有音区間310を抽出して記憶部201に記憶させる。制御部109と記憶装置106が協働して動作することにより、保持部203として機能する。ここで、保持部203が有音区間310と無音区間320を判別するための手法には様々な手法がある。
例えば図6に示すように、制御部109は、ある時刻T(i)において波形データ251の表すスペクトルのパワー値(あるいは振幅、音の強度)が基準値Pbase以上であり、且つ、その時刻T(i)以前の波形データ251のパワー値が所定時間TX以上続いて基準値Pbase未満である場合、その時刻T(i)を有音区間310の開始点(あるいは無音区間320の終了点)610とする。
また、制御部109は、ある時刻T(j)において波形データ251のパワー値が基準値Qbase未満であり、且つ、その時刻T(j)以前の波形データ251のパワー値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。すなわち、波形データ251の振幅がゼロでない区間があっても、それがノイズによるものであると判断し無音区間320とする場合がある。
また、制御部109は、例えば図7(a)に示すように、波形データ251の表すスペクトルのアタック比率(あるいはリリース比率)を単位時間ごとに計算し、計算されたアタック比率あるいはリリース比率に基づいて有音区間310と無音区間320を判別してもよい。アタック比率(あるいはリリース比率)は、波形データ251のパワー値の変化量を表す数値である。例えば、ある時刻T(1)においてパワー値がF(1)であり、その後の時刻T(2)においてパワー値がF(2)であったとすると、その間の増減比率はF(2)/F(1)となる。この増減比率が1以上であればアタック(波形の立ち上がり)であり、1未満であればリリース(波形の立ち下がり、減衰)である。
例えば図7(b)に示すように、制御部109は、ある時刻T(i)において波形データ251の表すスペクトルのアタック比率(あるいはリリース比率)が基準値Pbase以上であり、且つ、その時刻T(i)以前の波形データ251のパワー値が所定時間TX以上続いて基準値Pbase未満である場合、その時刻T(i)を有音区間310の開始点(あるいは無音区間320の終了点)610とする。
また、制御部109は、ある時刻T(j)においてアタック比率(あるいはリリース比率)が基準値Qbase未満であり、且つ、その時刻T(j)以前の波形データ251のパワー値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。
なお、制御部109は、ある時刻T(i)より後の所定時間分のパワー値の平均値に対する、その時刻T(i)より前の所定時間分のパワー値の平均値の比率を、アタック比率(あるいはリリース比率)として計算してもよい。また、制御部109は、所定時間分の分散、標準偏差など、他の統計的演算によって比率を計算してもよい。
また、制御部109は、例えば図8に示すように、公知の高速フーリエ変換などの手法を用いて波形データ251(または波形データ251の絶対値をとったもの)を表す近似曲線810を求め、この近似曲線810に基づいて有音区間310と無音区間320を判別してもよい。すなわち、制御部109は、近似曲線810が基準値Pbaseとなるところ(言い換えれば、直線P=Pbaseとクロスする交点)で波形データ251を区間に分け、ある時刻T(i)の交点より以前の近似曲線810の値が所定時間TX以上続いて基準値Pbase未満である場合、その時刻T(i)を有音区間310の開始点(あるいは無音区間320の終了点)610とする。
また、制御部109は、ある時刻T(j)の交点より以前の近似曲線810の値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。
なお、有音区間310の開始点610を判別するときの基準値Pbaseと、有音区間310の終了点620を判別するときの基準値Qbaseを同じ値にしてもよいし、別の値にしてもよい。
図9は、このような手法によって判別された波形データ251の有音区間310と無音区間320を簡略化して表した図である。制御部109は、セリフ等の音声が記録されていると推定される有音区間310の音声データを抽出して、記憶装置106に記憶させる。なお、制御部109は、抽出した音声の部分波形データそのものを記憶装置106に記憶させてもよいし、抽出した有音区間を示す情報(例えば、有音区間の開始時刻と終了時刻等)のみを記憶させてもよい。制御部109は、有音区間310を示す情報をRAM 108に記憶するようにしてもよい。
更新部204は、保持部203に保持された有音区間310のそれぞれについて、有音区間310の時間長が、決定部202により決定された閾時間TSより短い場合、その有音区間310と、その有音区間310の近くに存在する他の有音区間310と、これら二つの有音区間310に挟まれる無音区間320と、から構成される区間を、新たな有音区間310として保持部203に保持させる。制御部109と記憶装置106が協働して動作することにより、更新部204として機能する。
具体的には、図10(a)に示すように、ある有音区間1011の時間長が閾時間TS以上の場合、制御部109は、有音区間1011を更新せずにそのまま記憶装置106に記憶させる。
一方、図10(b)に示すように、有音区間1011の時間長が閾時間TSより短い場合、制御部109は、有音区間1011と、他の有音区間1012と、2つの有音区間1011,1012に挟まれる無音区間1021と、から構成される区間を、新たな有音区間とする。すなわち、図10(c)に示すように、制御部109は、有音区間1011,1012及び無音区間1021から構成される区間を、新たな有音区間1030として記憶装置106に記憶させる。ここで、他の有音区間1012とは、例えば、1つの無音区間を挟んで隣り合わせに存在する有音区間のことである。
制御部109は、新たな有音区間の時間長が閾時間TS以上になるまで繰り返し更新する。例えば、図10(d)に示すように、有音区間1011の時間長が閾時間TSより短い場合、制御部109は、有音区間1011と、他の有音区間1012と、2つの有音区間1011,1012に挟まれる無音区間1021と、から構成される時間長T1の区間を、新たな有音区間とする。しかし、時間長T1は閾時間TSより短いため、制御部109は、有音区間1013と、挟まれる無音区間1022とをさらに含む時間長T2の区間を、図10(e)に示すように新たな有音区間1030とする。ここで、時間長T2は閾時間TSより長いため、制御部109は有音区間1030の更新を終了する。もし時間長T2が閾時間TSより短ければ、制御部109は再び有音区間1030を更新すればよく、何回繰り返してもよい。
このように、制御部109が有音区間310を更新することにより、計算された閾時間TS以上の時間長の有音区間が記憶装置106に記憶されることとなる。ここで、閾時間TSは文字列データ430に基づいて計算されるため、編集者はいちいち閾時間TSをマニュアルで指定する必要はない。また、制御部109によって更新された有音区間310には、計算された閾時間TSに満たない時間長の有音区間がないので、本来1つであるべき音声データが分割されてしまったため結合し直す、といった余計な手間を省くことができる。
本実施形態では、更新部204は、ある有音区間310と、その有音区間310と1つの無音区間320を挟んで隣り合わせに存在する他の有音区間とをまとめて1つの新たな有音区間にする。ただし、2つ以上の無音区間320を挟んでいてもよい。すなわち、更新部204は、時間長が閾時間TS未満の有音区間310が存在すると、その有音区間310より時系列的に後に存在する他の有音区間のうち、その有音区間310の開始点から閾時間TS以上離れ、且つ、最も近いものを選択する。そして、更新部204は、その有音区間310の開始点から、選択した他の有音区間の終了点までを新たな有音区間にする。このようにすれば、更新部204は、有音区間310を繰り返し更新しなくて済み、制御部109が行う処理の負荷を軽減できる。
あるいは、更新部204は、時間長が閾時間TS未満の有音区間310が存在すると、その有音区間310より時系列的に前に存在する他の有音区間のうち、その有音区間310の終了点から閾時間TS以上離れ、且つ、最も近いものを選択してもよい。そして、更新部204は、その有音区間310の終了点から、選択した他の有音区間の開始点までを新たな有音区間にしてもよい。
さらには、更新部204は、時間長が閾時間TS未満の有音区間310が存在すると、
(1)その有音区間310より時系列的に後に存在する他の有音区間のうち、その有音区間310の開始点から閾時間TS以上離れ、且つ、最も近いもの
(2)その有音区間310より時系列的に前に存在する他の有音区間のうち、その有音区間310の終了点から閾時間TS以上離れ、且つ、最も近いもの
の両方を特定し、いずれか近い方を選択して、新たな有音区間を生成してもよい。
制御部109が有音区間310を更新する手法はこれに限られず、他の手法もある。
例えば図11(a)に示すように、制御部109は、
(1)有音区間1111と、有音区間1111より時系列的に前に存在する前方有音区間1112と、に挟まれる前方無音区間(第1区間)1121の時間長Tfwd、
(2)有音区間1111と、有音区間1111より時系列的に後に存在する後方有音区間1113と、に挟まれる後方無音区間(第2区間)1122の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)前方無音区間1121と後方無音区間1122のうち選択した方の無音区間、(ロ)有音区間1111、(ハ)選択した方の無音区間に対応する前方有音区間1112又は後方有音区間1113のどちらか、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方無音区間1121と後方無音区間1122のどちらを選択してもよい。
あるいは、例えば図11(d)に示すように、制御部109は、
(1)有音区間1111に時系列的に前に存在する前方有音区間1112と、前方有音区間1112と有音区間1111に挟まれる前方無音区間1121と、から構成される第1区間の時間長Tfwd、
(2)有音区間1111に時系列的に後に存在する後方有音区間1113と、後方有音区間1113と有音区間1111に挟まれる後方無音区間1122と、から構成される第2区間の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)第1区間と第2区間のうち選択した方の区間、(ロ)有音区間1111、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方無音区間1121と後方無音区間1122のどちらを選択してもよい。
あるいは、例えば図11(e)に示すように、制御部109は、
(1)有音区間1111に時系列的に前に存在する前方有音区間1112の時間長Tfwd、
(2)有音区間1111に時系列的に後に存在する後方有音区間1113の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)前方有音区間1112と後方有音区間1113のうち選択した方の有音区間、(ロ)有音区間1111、(ハ)選択した方の有音区間と有音区間1111とに挟まれる無音区間、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方有音区間1112と後方有音区間1113のどちらを選択してもよい。
図11(a)、(d)、(e)に示すいずれの手法においても、制御部109は、計算したTfwdとTbwdを比較して、時間長の短い方ではなく、時間長の長い方を選択してもよい。時間長の短い方を選択する場合、閾時間より短い時間長の有音区間が近くに複数個存在すると、更新後の有音区間の数がなるべく多くなるような特性で有音区間を更新する。一方、時間長の長い方を選択する場合、閾時間より短い時間長の有音区間が近くに複数個存在すると、更新後の有音区間の数がなるべく少なくなるような特性で有音区間を更新する。どちらを採用するかは自由であり、状況によって使い分ければよい。
出力部205は、保持部204によって保持された(記憶された)有音区間310のそれぞれを再生して、保持された有音区間310の中からいずれかをユーザに選択させる。さらに、出力部205は、選択された有音区間310を文字列データ430に対応付けて出力する。制御部109、記憶装置106、音声処理部103、入力部101、画像処理部102が協働して動作することにより、出力部205として機能する。
具体的には、まず、制御部109は、記憶装置106に記憶された有音区間310を示す情報を取得する。記憶装置106には、上述のように更新された有音区間310と更新されていない有音区間310とが記憶される。次に、制御部109は、取得した有音区間310を示す情報から、波形データ251の中で有音区間310に相当する部分波形データを記憶装置106から読み出す。そして、音声処理部103は、制御部109の制御により、読み出された部分波形データを所定のアルゴリズムに基づいてデコードして再生する。これにより、有音区間310に相当する音声がスピーカー124から出力され、ユーザは抽出された音声を聴くことができる。有音区間310の更新後、複数の有音区間310が記憶装置106に記憶されている場合、制御部109は各々の有音区間310の部分波形データを読み出して、音声処理部103は各々の部分波形データを再生する。この部分波形データが、音声処理装置100により抽出されユーザに提供される音声データである。
ここで、制御部109は、有音区間310のリストをモニター123に表示させ、ユーザにより選択された有音区間310の音声をスピーカー124から出力させるようにしてもよい。
例えば、図12は、モニター123に表示される画面の構成例である。制御部109は、記憶装置106から取得した有音区間310の一覧を作成し、画像処理部102を制御して音声リスト1201を含む画面を表示させる。この画面には、例えば再生開始ボタン1202、再生一時停止ボタン1203、再生終了ボタン1204、文字列入力ボタン1205、波形画像1206、文字列候補リスト1207などが含まれる。
音声リスト1201は、有音区間310を識別するための番号と、有音区間310の開始位置・終了位置と、文字列データ430とを対応付けたリストである。有音区間310と文字列データ430との対応付けがまだなされていない場合には、文字列データ430の表示欄に文字列は表示されない。
文字列候補リスト1207は、セリフテーブル400に含まれる文字列データ430のリストである。ユーザは文字列候補リスト1207の中から自由に選択してそれぞれの有音区間310に文字列データ430を対応付けることができる。
ユーザによって音声リスト1201の中からいずれかの有音区間310が選択されて再生開始ボタン1202が押下されると、制御部109は、選択された有音区間310に対応する部分波形データを読み出して音声処理部103に再生させる。また、ユーザによって音声リスト1201の中からいずれかの有音区間310が選択され、且つ、文字列候補リスト1207の中からいずれかの文字列データ430が選択されると、制御部109は、選択された有音区間310と選択された文字列データ430とを対応付けて記憶装置106に記憶させ、音声リスト1201を更新して表示させる。
なお、制御部109は、ユーザの指示に基づいて有音区間310の開始位置と終了位置を変更できるようにしてもよい。この場合、入力部101は、キーボード121やマウス122などの入力装置を用いたユーザからの指示を受け付け、対応する指示信号を制御部109に入力し、制御部109は入力された指示信号に応じて開始位置と終了位置を変更する。これにより、ユーザによる音声の抽出領域の調整が可能になる。
また、制御部109は、選択された有音区間310と選択された文字列データ430とを対応付けて任意の形式の電子ファイルとして出力してもよい。例えば、制御部109は、選択された有音区間310に対応する部分波形データを波形データ251の中から抽出して電子ファイルを作成し、選択された文字列データ430をファイル名にする。これにより、ユーザは、どのファイルがどのセリフの音声データを格納しているのか容易に判別でき、各セリフの音声データを管理しやすくなる。
次に、音声処理装置100の上述した各部が行う音声抽出処理について図13のフローチャートを用いて説明する。音声処理装置100は、複数のセリフデータを格納する波形データ251の中から、セリフに対応する部分を抽出する。波形データ251は予め記憶部201に記憶されているものとする。
まず、決定部202は、波形データ251に含まれるセリフの文字列が記録されたデータファイルを読み出して、文字列データ430を取得する(ステップS1301)。上述したように、決定部202は、波形データ251に含まれるセリフの文字列の入力をユーザから受け付けて、文字列データ430を取得してもよい。決定部202は、取得した文字列データ430に基づいてセリフテーブル400を作成して記憶部201に記憶させる。
決定部202は、セリフテーブル400に記憶された各々の文字列データ430の発音時間に基づいて閾時間TSを計算する(ステップS1302)。具体的には、決定部202は、上述の[数1]や[数2]を用いた発音時間の計算方法によって、文字列データ430ごとに発音時間を計算する。ここで計算される発音時間は、人間による正確な発音時間とは限らず、人間が発音すればおおよそこの程度であろうと推測される目安値でよい。そして、決定部202は、計算された発音時間の中の最小値を閾時間TSに決定する。
次に、保持部203は、記憶部201に記憶された波形データ251を取得して有音区間310を抽出する(ステップS1303)。具体的には、保持部203は、上述したいずれかの判別方法により有音区間310を判別して抽出する。ここでは、波形データ251の中からN個(Nは1以上の整数)の有音区間310が抽出されたとする。
そして、更新部204は、抽出されたN個の有音区間310のそれぞれについて、時間長がステップS1302で計算された閾時間TSより短いか否かを判別する(ステップS1304)。
N個の有音区間310の中に時間長が閾時間TSより短いものがあると判別された場合(ステップS1304;YES)、更新部204は、各々の有音区間310の時間長が閾時間TS以上になるように、有音区間310を更新する(ステップS1305)。具体的には、図10や図11に示した方法を用いて、時間長が閾時間TSより短いと判別された有音区間と、他の有音区間と、これら2つの有音区間に挟まれた区間と、から構成される区間を、新たな有音区間とする。更新部204は、波形データ251に含まれるすべての有音区間310の時間長が閾時間TS以上になるように更新する。
時間長が閾時間TSより短いものがないと判別された場合(ステップS1304;NO)、出力部205は、更新された有音区間310と、それに対応する文字列データ430とを対応付けて出力する(ステップS1306)。具体的には、出力部205は、図12に示すような音声リスト1201と文字列候補リスト1207を含む画面をモニター123に表示させる。出力部205は、ユーザから任意の有音区間310を再生する指示入力を受け付けて、再生する旨の指示入力があった有音区間310に相当する部分波形データを再生する。また、出力部205は、有音区間310と文字列データ430とを対応付ける選択指示入力をユーザから受け付けて、この選択指示入力に基づいて音声リスト1201を更新して表示させる。出力部205は、有音区間310のそれぞれと文字列データ430とを対応付ける指示入力をユーザから受け付けて、この指示入力に基づいて有音区間310に相当する部分波形データを波形データ251から抽出してデータファイルとして出力してもよい。
このように、本実施形態によれば、音声処理装置100は、波形データ251からセリフ部分の音声データを容易に抽出することができる。その際、抽出される音声データの最小の長さは、予め用意されたセリフに相当する文字列データ430の長さに基づいて最適になるように決定されるので、本来1つの音声データであるべきものが複数の音声データに分割されて抽出されてしまったり、逆に複数の音声データに分割されるべきものが1つの音声データに結合されて抽出されてしまったりすることはない。また、ユーザは音声データの抽出サイズをいちいち指定する必要はない。
(実施例2)
次に、本発明の他の実施形態について説明する。本実施形態は、音声処理装置100に波形データ251から音声データを抽出させるための詳細な設定ができるようにしたものである。
本実施形態では、ユーザは次に示す基本パラメータと補助パラメータのそれぞれを任意の値に設定することができる。
基本パラメータには次の4つがある。
(A)無音時間パラメータ・・・時間長を示す数値(例えばミリ秒単位など)で設定される。保持部203はこれより短い時間の発音があっても無音とみなす。これにより、ノイズ等による瞬間的な波形変化を無視できる。上述の実施形態における所定時間TX,TYに相当する。
(B)最低発音時間パラメータ・・・時間長を示す数値で設定される。保持部203はこれより短い時間長の有音区間310を作成しない。すなわち、決定部202が計算した閾時間TSがこれより短い場合、保持部203はこの最低発音時間パラメータを優先する。
(C)アタック音量パラメータ・・・音量を示す数値(例えばデシベル単位など)で設定される。保持部203はこれより大きい音量のときにアタック(発音の開始)とみなす。上述の実施形態における基準値Pbaseに相当する。
(D)リリース音量パラメータ・・・音量を示す数値(例えばデシベル単位など)で設定される。保持部203はこれより小さい音量のときにリリース(発音の終了)とみなす。上述の実施形態における基準値Qbaseに相当する。
保持部203は、これらのパラメータに基づいて有音区間310の開始位置と終了位置を判別する。
補助パラメータには次の2つがある。図14を用いて説明する。
(X)前オフセット時間パラメータ・・・時間長を示す数値で設定される。更新部204は、有音区間310の開始点610からこのパラメータで指定された時間長だけ前までの区間を前オフセット区間1410として抽出する。例えば、出力部205は、前オフセット区間1410では音量をゼロから単調増加させてだんだんと大きくしていき、有音区間310の開始点610の音量に滑らかに繋げて再生する(いわゆるフェードイン再生)。
(Y)後ろオフセット時間パラメータ・・・時間長を示す数値で設定される。更新部204は、有音区間310の終了点620からこのパラメータで指定された時間長だけ後ろまでの区間を後ろオフセット区間1420として抽出する。例えば、出力部205は、後ろオフセット区間1420では音量を有音区間310の終了点620の音量から単調減少させてだんだんと小さくしていき、後ろオフセット区間1420の最後で音量をゼロにする(いわゆるフェードアウト再生)。
なお、本実施形態では、出力部205は、前オフセット区間1410を音量のフェードイン区間としてフェードインさせ、後ろオフセット区間1420を音量のフェードアウト区間としてフェードアウトさせているが、これらの区間1410,1420で波形データ251に他のエフェクトをかけて再生するようにしてもよい。例えば、エコーをかける(反響させる)、所定周波数帯域のみ透過させる(ローパスフィルタやハイパスフィルタ)、再生スピードを変える、など様々なエフェクトをかけることができる。出力部205は、有音区間310にも同様なエフェクトをかけることができる。
出力部205は、有音区間310と、その前オフセット区間1410と、その後ろオフセット区間1420とに相当する部分波形データを再生する代わりに、もしくは、再生するのに加えて、電子ファイルに出力して記憶部201に記憶するようにしてもよい。その際、出力部205は、前オフセット区間1410と後ろオフセット区間1420にフェードイン・フェードアウトなどのエフェクトをかけた後の部分波形データを出力してもよい。これにより、音声データの編集作業を効率化できる。出力部205は、有音区間310にも同様なエフェクトをかけて部分波形データを出力することができる。
このほか、上述の基本パラメータのそれぞれを別々に指定する代わりに、まとめてセットにして変化させることができるパラメータ(以下、「感度パラメータ」と呼ぶ)も用意されている。
(Z)感度パラメータ・・・段階を示す数値やセットの固有番号等で設定される。ユーザは、図15に示すように、予め記憶部201に記憶された強感度用、弱感度用といったセットを用いたり、よく使う設定として任意に編集した各パラメータをセットにして記憶部201に記憶させて用いたりすることができる。ユーザは、感度パラメータを設定すれば、各基本パラメータを一つ一つ設定する必要はないので、編集作業を効率化できる。なお、各セットに含まれるパラメータはこれらに限定されず、補助パラメータ等の他のパラメータも含まれていてもよい。
このように、本実施形態によれば、音声処理装置100は、波形データ251からユーザの好みに合わせて音声データを抽出することができる。また、音声処理装置100は、ユーザに大きな作業負担を強いることなく、抽出した音声データにユーザの好みに合わせてエフェクトをかけることができる。
本発明は、上述した実施形態に限定されず、種々の変形及び応用が可能である。また、上述した実施形態の各構成要素を自由に組み合わせることも可能である。
音声処理装置100を装置の全部又は一部として動作させるためのプログラムを、メモリカード、CD−ROM、DVD、MO(Magneto Optical disk)などのコンピュータ読み取り可能な記録媒体に格納して配布し、これを別のコンピュータにインストールし、上述の手段として動作させ、あるいは、上述の工程を実行させてもよい。
さらに、インターネット上のサーバ装置が有するディスク装置等にプログラムを格納しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するものとしてもよい。
以上説明したように、本発明によれば、音声データから所望の部分を効率よく取り出すために好適な音声処理装置、音声処理方法、ならびに、プログラムを提供することができる。
本発明の音声処理装置の構成を示す図である。 音声処理装置の各部が行う処理を説明するための図である。 波形データの構成例を示す図である。 (a)セリフテーブルの構成例を示す図である。(b)波形データと、波形データに含まれるセリフの文字列とを対応付ける手法の一例である。 (a)文字の種類と発音時間との関連付けの例を示す図である。(b)文字または文字列と、発音時間との対応付けの例を示す図である。 波形データの有音区間と無音区間を説明するための図である。 (a)パワー値と、保持部によって計算されるアタック比率を説明するための図である。(b)波形データの有音区間と無音区間を説明するための図である。 近似曲線と、波形データの有音区間と無音区間を説明するための図である。 波形データの有音区間と無音区間を簡略化して表す図である。 (a)〜(e)は、更新部が有音区間を更新する処理を説明するための図である。 (a)〜(e)は、更新部が有音区間を更新する処理を説明するための図である。 音声リストと文字列候補リストを含む画面の構成例である。 音声抽出処理を説明するためのフローチャートである。 前オフセット区間と後ろオフセット区間を説明するための図である。 基本パラメータと補助パラメータを説明するための図である。
符号の説明
100 音声処理装置
101 入力部
102 画像処理部
103 音声処理部
104 通信処理部
105 DVD−ROMドライブ
106 記憶装置
107 ROM
108 RAM
109 制御部
110 システムバス
121 キーボード
122 マウス
123 モニタ
124 スピーカー
125 マイク
201 記憶部
202 決定部
203 保持部
204 更新部
205 出力部
251 波形データ
310 有音区間
320 無音区間
400 セリフテーブル
410 波形データ名
420 セリフ番号
430 文字列データ
610 有音区間の開始点(あるいは無音区間の終了点)
620 有音区間の終了点(あるいは無音区間の開始点)
810 近似曲線
1410 前オフセット区間
1420 後ろオフセット区間

Claims (11)

  1. 文字列を発音する音声を含む波形データを記憶する記憶部と、
    当該文字列に基づいて、閾時間を決定する決定部と、
    前記記憶された波形データから有音区間を抽出して保持する保持部と、
    前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持部に保持させるように更新する更新部と、
    を備えることを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置であって、
    前記保持された有音区間のうちユーザによって選択された有音区間を当該文字列に対応付けて出力する出力部を更に備える
    ことを特徴とする音声処理装置。
  3. 請求項1又は2に記載の音声処理装置であって、
    前記決定部は、当該文字列の長さに対して単調増加させて当該閾時間を決定する
    ことを特徴とする音声処理装置。
  4. 請求項1又は2に記載の音声処理装置であって、
    前記決定部は、文字の種類に応じて予め定められたゼロ以上の定数の総和を求めることにより当該閾時間を決定する
    ことを特徴とする音声処理装置。
  5. 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
    前記更新部は、
    (a)当該有音区間と、当該有音区間より時系列的に前に存在する前方有音区間と、に挟まれる第1区間、
    (b)当該有音区間と、当該有音区間より時系列的に後に存在する後方有音区間と、に挟まれる第2区間、
    のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間に対応する当該前方有音区間又は当該後方有音区間のいずれかと、から構成される区間を、当該新たな有音区間として前記保持部に保持させるように更新する
    ことを特徴とする音声処理装置。
  6. 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
    前記更新部は、
    (c)当該有音区間より時系列的に前に存在する前方有音区間と、当該前方有音区間と当該有音区間に挟まれる区間と、から構成される第1区間、
    (d)当該有音区間より時系列的に後に存在する後方有音区間と、当該後方有音区間と当該有音区間に挟まれる区間と、から構成される第2区間、
    のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と当該有音区間とから構成される区間を、当該新たな有音区間として前記保持部に保持させるように更新する
    ことを特徴とする音声処理装置。
  7. 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
    前記更新部は、
    (e)当該有音区間より時系列的に前に存在する前方有音区間、
    (f)当該有音区間より時系列的に後に存在する後方有音区間、
    のそれぞれの時間長を求め、当該前方有音区間と当該後方有音区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間と当該有音区間に挟まれる区間を、当該新たな有音区間として前記保持部に保持させるように更新する
    ことを特徴とする音声処理装置。
  8. 請求項2に記載の音声処理装置であって、
    前記保持部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間と、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間とを更に抽出して保持し、
    前記出力部は、前記抽出された2つのオフセット区間をさらに再生し、前記保持された有音区間の中からいずれかをユーザに選択させ、前記選択された有音区間と前記抽出された2つのオフセット区間を、当該文字列に対応付けて出力する
    ことを特徴とする音声処理装置。
  9. 請求項8に記載の音声処理装置であって、
    前記出力部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間の音量をゼロから単調増加させ、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間の音量を単調減少させてゼロにする
    ことを特徴とする音声処理装置。
  10. 記憶部、決定部、保持部、更新部を有する装置にて実行される音声処理方法であって、
    前記記憶部には、文字列を発音する音声を含む波形データが記憶され、
    前記決定部が、当該文字列に基づいて、閾時間を決定する決定ステップと、
    前記保持部が、前記記憶された波形データから有音区間を抽出して保持する保持ステップと、
    前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、前記更新部が、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持ステップに保持させるように更新する更新ステップと、
    を備えることを特徴とする音声処理方法。
  11. コンピュータを、
    文字列を発音する音声を含む波形データを記憶する記憶部、
    当該文字列に基づいて、閾時間を決定する決定部、
    前記記憶された波形データから有音区間を抽出して保持する保持部、
    前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持部に保持させるように更新する更新部、
    として機能させることを特徴とするプログラム。
JP2007082677A 2007-03-27 2007-03-27 音声処理装置、音声処理方法、ならびに、プログラム Active JP4563418B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007082677A JP4563418B2 (ja) 2007-03-27 2007-03-27 音声処理装置、音声処理方法、ならびに、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007082677A JP4563418B2 (ja) 2007-03-27 2007-03-27 音声処理装置、音声処理方法、ならびに、プログラム

Publications (2)

Publication Number Publication Date
JP2008242082A true JP2008242082A (ja) 2008-10-09
JP4563418B2 JP4563418B2 (ja) 2010-10-13

Family

ID=39913524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007082677A Active JP4563418B2 (ja) 2007-03-27 2007-03-27 音声処理装置、音声処理方法、ならびに、プログラム

Country Status (1)

Country Link
JP (1) JP4563418B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299436B2 (ja) * 2008-12-17 2013-09-25 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6147999A (ja) * 1984-08-14 1986-03-08 シャープ株式会社 音声認識装置
JPS61285570A (ja) * 1985-06-12 1986-12-16 Hitachi Ltd 音声入力装置
JPS6315294A (ja) * 1986-07-08 1988-01-22 株式会社日立製作所 音声分析装置
JPH0289098A (ja) * 1988-09-26 1990-03-29 Sharp Corp 音節パターン切り出し装置
JPH04338800A (ja) * 1991-05-15 1992-11-26 Fujitsu Ltd 単語区間検出方法および装置
JPH07199991A (ja) * 1994-01-07 1995-08-04 Sanyo Electric Works Ltd 音声合成用データ作成装置
JPH07261779A (ja) * 1994-03-25 1995-10-13 Toppan Printing Co Ltd 音節認識装置
JPH07272447A (ja) * 1994-03-25 1995-10-20 Toppan Printing Co Ltd 音声データ編集システム
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JP2003309814A (ja) * 2002-04-16 2003-10-31 Canon Inc 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2005136634A (ja) * 2003-10-29 2005-05-26 Sony Corp 符号化制御装置および符号化システム
JP2006227363A (ja) * 2005-02-18 2006-08-31 Nhk Computer Service:Kk 放送音声用辞書作成装置および放送音声用辞書作成プログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6147999A (ja) * 1984-08-14 1986-03-08 シャープ株式会社 音声認識装置
JPS61285570A (ja) * 1985-06-12 1986-12-16 Hitachi Ltd 音声入力装置
JPS6315294A (ja) * 1986-07-08 1988-01-22 株式会社日立製作所 音声分析装置
JPH0289098A (ja) * 1988-09-26 1990-03-29 Sharp Corp 音節パターン切り出し装置
JPH04338800A (ja) * 1991-05-15 1992-11-26 Fujitsu Ltd 単語区間検出方法および装置
JPH07199991A (ja) * 1994-01-07 1995-08-04 Sanyo Electric Works Ltd 音声合成用データ作成装置
JPH07261779A (ja) * 1994-03-25 1995-10-13 Toppan Printing Co Ltd 音節認識装置
JPH07272447A (ja) * 1994-03-25 1995-10-20 Toppan Printing Co Ltd 音声データ編集システム
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JPH08212190A (ja) * 1995-02-06 1996-08-20 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ作成支援装置
JP2003309814A (ja) * 2002-04-16 2003-10-31 Canon Inc 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2005136634A (ja) * 2003-10-29 2005-05-26 Sony Corp 符号化制御装置および符号化システム
JP2006227363A (ja) * 2005-02-18 2006-08-31 Nhk Computer Service:Kk 放送音声用辞書作成装置および放送音声用辞書作成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299436B2 (ja) * 2008-12-17 2013-09-25 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US8812313B2 (en) 2008-12-17 2014-08-19 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method

Also Published As

Publication number Publication date
JP4563418B2 (ja) 2010-10-13

Similar Documents

Publication Publication Date Title
US20190196666A1 (en) Systems and Methods Document Narration
US9478219B2 (en) Audio synchronization for document narration with user-selected playback
US8793133B2 (en) Systems and methods document narration
US8352269B2 (en) Systems and methods for processing indicia for document narration
JP4344658B2 (ja) 音声合成機
US20080027726A1 (en) Text to audio mapping, and animation of the text
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
JP2013231999A (ja) 音声録音における音声特性を変換するための装置および方法
KR20210019534A (ko) 객체 기반 오디오 콘텐츠 생성 방법 및 시스템
US20180122346A1 (en) Signal processing method and signal processing apparatus
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
CN111105776A (zh) 有声播放装置及其播放方法
EP3975167A1 (en) Electronic musical instrument, control method for electronic musical instrument, and storage medium
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP2005215888A (ja) テキスト文の表示装置
JP2006349787A (ja) 音声合成方法および装置
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JP2001013982A (ja) 音声合成装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
KR102585031B1 (ko) 실시간 외국어 발음 평가시스템 및 방법
WO2023112534A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体
CN117475991A (zh) 文本转换音频的方法、装置及计算机设备
JP3292218B2 (ja) 音声メッセージ作成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100728

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4563418

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140806

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250