JP2006227363A - 放送音声用辞書作成装置および放送音声用辞書作成プログラム - Google Patents

放送音声用辞書作成装置および放送音声用辞書作成プログラム Download PDF

Info

Publication number
JP2006227363A
JP2006227363A JP2005042039A JP2005042039A JP2006227363A JP 2006227363 A JP2006227363 A JP 2006227363A JP 2005042039 A JP2005042039 A JP 2005042039A JP 2005042039 A JP2005042039 A JP 2005042039A JP 2006227363 A JP2006227363 A JP 2006227363A
Authority
JP
Japan
Prior art keywords
sound
audio
read
cutout
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005042039A
Other languages
English (en)
Inventor
Masao Ito
正朗 伊藤
Kazuya Sato
和也 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHK COMP SERVICE KK
NHK COMPUTER SERVICE KK
Original Assignee
NHK COMP SERVICE KK
NHK COMPUTER SERVICE KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHK COMP SERVICE KK, NHK COMPUTER SERVICE KK filed Critical NHK COMP SERVICE KK
Priority to JP2005042039A priority Critical patent/JP2006227363A/ja
Publication of JP2006227363A publication Critical patent/JP2006227363A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】 読み上げられた音声を収録した後、再利用できるように部品化(音声ファイルに分ける)することができる放送音声用辞書作成装置および放送音声用辞書作成プログラムを提供する。
【解決手段】 部品音声切り出し装置1は、テキストを読み上げた読み上げ音声データに基づいて、放送される番組の音声を制作する際に参照される放送音声用辞書を作成するものであって、読み上げ音声データ蓄積手段3と、切り出しポイント設定手段5と、切出手段7と、部品音声ファイル蓄積手段9と、を備えた。
【選択図】 図1

Description

本発明は、放送される番組の音声を制作する際に参照する放送音声用辞書を作成する放送音声用辞書作成装置および放送音声用辞書作成プログラムに関する。
従来、ニュース、天気予報等の番組において、当該番組に出演しているアナウンサ等によって読み上げられる音声には、予め決められている定型文の言い回しが多く含まれている。つまり、こういった定型文を多く含む原稿(テキスト)を、アナウンサ等は読み上げている。
このアナウンサ等が読み上げた音声を、次に制作する番組、例えば、天気予報等の予め定型文を読み上げることが前提となっている番組に利用することが検討されている。例えば、天気予報の番組において、アナウンサ等が読み上げる音声には、「○○地方の明日の天気は××です。」といった定型文に、予報する地域ごとに、“○○”に場所を示す固有名詞が入り、“××”に天気を示す“晴れ”、“くもり”、“雨”、“晴れのちくもり”“雪”等の名詞が入るものがある。また、アナウンサ等が読み上げる音声には、「明日の降水確率は△△%です。」といった定型文に、予報する地域ごとに、“△△”に“30”、“50”、“90”等の数字が入るものがある。
つまり、これらは、アナウンサ等が読み上げた音声を音声合成することで、再利用とするものである。ちなみに、数字を読み上げた音声を音声合成するものが開示されている(例えば、特許文献1参照)。
特開2001−312291号公報
しかしながら、アナウンサ等が読み上げた音声を収録した後、この音声を効率よく処理、すなわち、再利用できるように部品化(音声ファイルに分ける)する仕方が確立されていないという問題がある。
アナウンサ等が読み上げた音声は、発話の訓練がなされた人たちが発した音声であり、定型文が読み上げられたものであれば、読み上げられた文を構成している語句ごとに切り出して(分離して)、それらを再構成しても(繋ぎあわせても)、繋ぎあわせた音声群は、一般的な音声合成装置による手法によらずとも、ある程度、自然に聞こえるはずである。
つまり、アナウンサ等が読み上げた音声は、一定の話速であるので、切り出した音声同士を繋ぎあわせる際に、問題となるのは、繋ぎ目となる無音部分の時間をどのように調整するのかといったことになり、そのために、当該音声をどのように処理して、どのように有音部分を切り出すのか(部品化するのか)ということになる。
しかし、部品化した音声(音声ファイル)を繋いで使う場合、部品化する際に一定の無音時間を付加して処理したとしても、音声ファイルを繋ぎあわせた箇所が不自然に聞こえてしまうという問題がある。すなわち、部品化した音声を聴取した人が感じる音の立ち上がり、つまり、実際に部品化した音声が再生されたときから(再生開始時刻)と、音が聞こえてくるときまで(有感開始時刻)とのずれや、部品化した音声を聴取した人が感じる音の余韻、つまり、音が聞こえなくなるとき(有感終了時刻)と、実際に部品化した音声の再生が終わったとき(再生終了時刻)とのずれによって、部品化した音声同士を繋ぎあわせた際にぎこちなさが生じる場合がある。
別の言い方をすると、従来、音の余韻まで分析して、読み上げた音声から有音部分を手動で丁寧に切り出して部品化していく場合、切り出した音声(部品化した音声)を聴取した人が感じる音(人の耳に聞こえる音)の終わりと切り出した音声の終わりまでの距離(無音らしく聞こえる範囲)の長さが切り出した音声ごとに異なってしまい、連結した際に切り出した音声によっては、“聞こえ方としての間”が変動しすぎてしまうという問題がある。
そこで、本発明では、前記した問題を解決し、読み上げられた音声を収録した後、再利用できるように部品化(音声ファイルに分ける)することができ、また、部品化した音声同士を繋ぎ合わせた際に自然に聞こえることができる放送音声用辞書作成装置および放送音声用辞書作成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1記載の放送音声用辞書作成装置は、テキストを読み上げた読み上げ音声データに基づいて、放送される番組の音声を制作する際に参照される放送音声用辞書を作成する放送音声用辞書作成装置であって、読み上げ音声データ蓄積手段と、切り出しポイント設定手段と、切出手段と、部品音声ファイル蓄積手段とを備え、前記予め設定した条件は、所定レベル以下の前記音声データが第一所定時間以上連続した場合に無音と判定し、所定レベルより大きい前記音声データが第二所定時間以上連続した場合に有音と判定すると共に、無音から有音に切り替わるポイントから第三所定時間前を切り出し開始ポイントとし、有音から無音に切り替わるポイントから第四所定時間後を切り出し終了ポイントとする構成とした。
かかる構成によれば、放送音声用辞書作成装置は、読み上げ音声データ蓄積手段によって、例えば、放送される番組に出演するアナウンサによりテキスト(アナウンサ読み上げテキスト、)が読み上げられた読み上げ音声データを蓄積する。なお、このテキストには、予めファイル名が設定されている。例えば、テキスト(原稿文字列)とファイル名とを組み合わせたCSV(Comma Separated Value)形式のファイル(CSVファイル)を用意しておき、このCSVファイルに書かれている順に音読することで、読み上げ音声データを蓄積(収録)する。続いて、放送音声用辞書作成装置は、切り出しポイント設定手段によって、蓄積した読み上げ音声データについて、予め設定した条件に従って無音と有音とを判定し、判定した結果に基づいて、当該読み上げ音声データに、放送音声用辞書に収める部品音声ファイルを取得するための切り出し開始ポイントおよび切り出し終了ポイントを設定する。
予め設定した条件とは、所定レベル以下、例えば、音声データの電圧レベルが設定した閾値以下で、第一所定時間(例えば、2000ms)以上連続した場合に無音と判定するといったものであり、所定レベルより大きい、例えば、音声データの電圧レベルが閾値を超えていて、第二所定時間(例えば、1000ms)以上連続した場合に有音と判定するものである。そして、これらの条件をいずれも満たさない場合、雑音と判定することになる。無音の部分(無音部分という)と有音の部分(有音部分という)とを判定してから、1つの部品音声ファイルを切り出すのに、この部品音声ファイルに対応する有音部分の直前の無音部分から当該有音部分に切り替わるポイントから第三所定時間(例えば、数十ms)前を切り出し開始ポイントとし、当該有音部分から直後の無音部分に切り替わるポイントから第四所定時間(例えば、数十ms)後を切り出し終了ポイントとする。なお、所定レベル、第一所定時間、第二所定時間、第三所定時間および第四所定時間は、当該装置の操作者が任意に設定することができる。
そして、放送音声用辞書作成装置は、切出手段によって、切り出しポイント設定手段で切り出し開始ポイントおよび切り出し終了ポイントが設定された読み上げ音声データから、部品音声ファイルを切り出し、この切出手段で切り出された部品音声ファイルを、部品音声ファイル蓄積手段に蓄積することで、放送音声用辞書とする。
請求項2記載の放送音声用辞書作成装置は、請求項1に記載の放送音声用辞書作成装置において、テキスト・切り出し音声対応付手段とを備える構成とした。
かかる構成によれば、放送音声用辞書作成装置は、テキスト・切り出し音声対応付手段によって、テキストと、読み上げ音声データから切り出される部品音声ファイルとを対応付ける。例えば、読み上げるテキスト中に「明日の天気は、○○です。」という文章(定型文)が存在した場合、“明日の天気は、”という音声データと部品音声ファイル(文章とファイル名)とが対応付けられ、“○○です。”という音声データと部品音声ファイル(文章とファイル名)とが対応付けられる。
請求項3記載の放送音声用辞書作成プログラムは、テキストを読み上げた読み上げ音声データに基づいて、放送される番組の音声を制作する際に参照される放送音声用辞書を作成するために、コンピュータを、切り出しポイント設定手段、切出手段、放送音声用辞書生成手段として機能させ、前記予め設定した条件は、所定レベル以下の前記音声データが第一所定時間以上連続した場合に無音と判定し、所定レベルより大きい前記音声データが第二所定時間以上連続した場合に有音と判定すると共に、無音から有音に切り替わるポイントから第三所定時間前を切り出し開始ポイントとし、有音から無音に切り替わるポイントから第四所定時間後を切り出し終了ポイントする構成とした。
かかる構成によれば、放送音声用辞書作成プログラムは、切り出しポイント設定手段によって、読み上げられた読み上げ音声データについて、予め設定した条件に従って無音と有音とを判定し、判定した結果に基づいて、当該読み上げ音声データに、放送音声用辞書に収める部品音声ファイルを取得するための切り出し開始ポイントおよび切り出し終了ポイントを設定する。そして、放送音声用辞書作成プログラムは、切出手段によって、切り出しポイント設定手段で切り出し開始終了ポイントが設定された読み上げ音声データから、部品音声ファイルを切り出し、放送音声用辞書生成手段によって、切出手段で切り出された部品音声ファイルを、記憶装置に蓄積させることで、放送音声用辞書を生成する。
請求項1または3に記載の発明によれば、読み上げられた音声を収録した後、予め設定した条件に従って、無音と有音とを判定して、判定した結果に基づいて、切り出しポイントを設定してから、部品音声ファイルに切り出している。そして、この部品音声ファイルを蓄積することで放送音声用辞書を生成しているので、この放送音声用辞書を次に制作される番組に用いることで、読み上げられた音声を再利用することができる。特に、定型文のテキストが多数読み上げられるニュースや天気予報等の番組の音声を制作する際に利用価値が高くなる。
また、請求項1または3に記載の発明によれば、部品音声ファイルを繋ぎあわせる文章に定型文が多く含まれている場合、つまり、同じ箇所に適用される複数のバリエーションをもった文章が多くある場合、これらの文章の音声データ(文章音声データ)は、所定レベル以下の余韻の長さに引きずられることなく、文章音声データを聴取した人が感じる音の終わり(有感終了時刻)のタイミングから部品音声ファイルの終わり(無音に成る時刻、再生終了時刻)までの長さが一定になることで、部品音声ファイルを繋ぎあわせた文章音声データの無音の間隔が自然に聞こえるように調整することができる(聞こえ方としての間を適正にすることができる)。
請求項2記載の発明によれば、テキストと切り出される部品音声ファイルとを対応付けることで、放送音声用辞書を再利用する際に利便性を高めることができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(部品音声切り出し装置の構成)
図1は部品音声切り出し装置(放送音声用辞書作成装置)のブロック図である。この図1に示すように、部品音声切り出し装置1は、アナウンサが予め用意しておいた読み上げテキストを読み上げた音声(読み上げ音声データ)から、放送される番組で利用することができるように切り出して(分離して)蓄積することで、放送音声用辞書を作成するもので、読み上げ音声データ蓄積手段3と、切り出しポイント設定手段5と、切出手段7と、部品音声ファイル蓄積手段9とを備えている。
なお、この部品音声切り出し装置1には、アナウンサ読み上げテキストのテキストデータを表示したり、このテキストに含まれている文章に、切り出しポイント設定手段5による切り出し開始ポイントおよび切り出し終了ポイント(詳細は後記する)を表示したりする表示装置2が接続されている。
また、この実施形態では、アナウンサが読み上げテキストを読み上げているが、当該読み上げテキストの読み手は、標準日本語の発声および発話の訓練を受けた者であればよい。また、読み上げテキストは、天気予報で読み上げられる複数の文章、例えば、“今日の天気は、○○です。”、“明日の降水確率は、××%です。”、“明日の最高気温は、△△です。”等を主に含むものである。
読み上げ音声データ蓄積手段3は、一般的なハードディスク等によって構成されており、アナウンサが読み上げた読み上げ音声データを蓄積するものである。読み上げ音声データは、読み上げテキストを読み上げた音声であり、標準日本語(日本語の標準語)である。
ただし、この部品音声切り出し装置1で取り扱うアナウンサ読み上げテキストは、日本語に限定されず、英語、ドイツ語、フランス語、イタリア語等どのような言語でもよく、それぞれの言語が持つ文法等に左右されずに、当該テキストを読み上げた読み上げ音声データにおいて、無音と有音との所定のレベル差が生じていれば、部品音声ファイルとして切り出すことができる。
この読み上げ音声データ蓄積手段3には、例えば、“今日の天気は、○○です。”、“明日の降水確率は、××です。”、“来週一週間の気候は、△△です。”といった複数の文章が連続した状態で蓄積されている。つまり、読み上げ音声データは、1つずつの文章が一定の時間間隔を明確にとって、蓄積されているのではなく、文章間の時間間隔はそれぞれ異なっている。また、これらの文章には、いわゆる定型文(決まった言い回し)が多く含まれている。なお、この読み上げ音声データ蓄積手段3に蓄積されている読み上げ音声データを、録音音声データ(予め録音されている音声)またはWAVEファイルと呼称する場合もある。
そして、この読み上げ音声データ蓄積手段3に蓄積されている読み上げ音声データは、当該装置1の操作者が操作手段(図示せず)を操作することで出力される操作信号に従って、切り出しポイント設定手段5に出力される。
切り出しポイント設定手段5は、読み上げ音声データ蓄積手段3から出力された読み上げ音声データに、当該読み上げ音声データを分離する(切り出す)ポイントとなる切り出し開始ポイントおよび終了ポイントをマーキングする(設定する)もので、無音・有音判定手段5aと、切り出し開始・終了ポイントマーキング手段5bと、コード・テキスト対応付手段5cと、テキスト・切り出し音声対応付手段5dとを備えている。
すなわち、この切り出しポイント設定手段5は、読み上げ音声データ蓄積手段3から出力された読み上げ音声データについて、無音の箇所、つまり、無音部分を検出して、有音の部分、つまり、有音部分を切り出す(抜き出す)際に、読み上げ音声データ(アナウンサが発声した音声)に自然な余韻を含め、有音部分の前後の無音部分を的確に(一定で、且つ、自然に)切り出すために、切り出す箇所(ポイント)を設定するものである。
無音・有音判定手段5aは、読み上げ音声データ蓄積手段3から出力された読み上げ音声データ(収録された音声)について、無音(無音部分)と有音(有音部分)とを、予め設定した条件に従って判定するものである。
予め設定した条件とは、所定レベル以下(振幅が閾値以下)の読み上げ音声データ(収録された音声)が所定時間(第一所定時間、数千ミリ秒)以上連続する部分を無音(無音部分)とし、所定レベルより大きい読み上げ音声データ(収録された音声)が所定時間(第二所定時間、数千ミリ秒)以上連続する部分を有音(有音部分)とするものであり、切り出す対象となる有音部分の直前の無音部分から当該有音部分に切り替わるポイントから所定時間(第三所定時間、数十ミリ秒)前を切り出し開始ポイントとし、当該有音部分から直後の無音部分に切り替わるポイントから所定時間(第四所定時間、数十ミリ秒)後を切り出し終了ポイントとするものである。
例えば、無音を検出する所定レベルを1000(量子化の値、ちなみに、16ビット量子化の場合、−32768〜+32767までの値となる)未満とし、所定時間を2000ms(ミリ秒)とする。逆に、有音を検出する所定レベルを1000以上とする。
また、切り出した対象となる有音の直前の無音から当該有音に切り替わるポイントから所定時間前と、当該有音から直後の無音に切り替わるポイントから所定時間後との双方の所定時間は、当該装置1の操作者によって任意に設定することができる。
部品音声切り出し装置1では、この条件(予め設定した条件)を、読み上げテキストの内容に応じて、或いは、読み上げるアナウンサに合わせて、適宜、変更することで、より自然な部品音声(部品音声ファイル)を切り出すことができる。
切り出し開始・終了ポイントマーキング手段5bは、無音・有音判定手段5aで無音または有音が判定された結果に基づいて、部品音声を切り出す基準となる切り出し開始終了ポイントをマーキングするものである。この切り出し開始・終了ポイントマーキング手段5bによって、切り出し開始終了ポイントがマーキングされた部分、つまり、読み上げ音声データの有音部分が切出手段7で切り出される(部品音声ファイル化される)。なお、この切り出し開始終了ポイントは、当該装置1の利用者が操作手段(図示せず)を操作することによって、任意の箇所に移動させることができる。
コード・テキスト対応付手段5cは、予め定型文を定義したコードと、読み上げテキスト中の各文章とを対応付けるものである。例えば、定型文を、3桁または4桁のコード(例えば、2進数の数列)、“001”、“0011”等で定義し、読み上げテキスト中の文章を、“今日の天気は、○○です。”、“明日の降水確率は、××%です。”等とした場合、このコード・テキスト対応付手段5cによって、「001:今日の天気は○○です。」、「0011:明日の降水確率は、××%です。」となる(実施の形態では残しておきました。)。
このコード・テキスト対応付手段5cによって、コードと読み上げテキストの各文章とが対応付けられることで、例えば、ネットワークを介して、外部の装置から送信された、当該コードを含むデータを受信することで、当該コードに対応した読み上げテキストの各文章を読み出すことができる。
テキスト・切り出し音声対応付手段5dは、アナウンサ読み上げテキストのテキストデータと、切り出し開始・終了ポイントマーキング手段5bで読み上げ音声データにマーキングされた切り出し開始終了ポイントに従って切出手段7で切り出される部品音声(部品音声ファイル)とを対応付けるものである。
例えば、アナウンサ読み上げテキストのテキストデータが“今日の天気は、○○です。”の場合では、“今日の天気は、”と“○○です。”とが部品音声(部品音声ファイル)として切り出され、この場合に、テキストデータの“今日の天気は、”と音声信号である“今日の天気は、”とが対応付けられ、テキストデータの“○○です。”と音声信号である“○○です。”とが対応付けられる。
切出手段7は、切り出しポイント設定手段5の切り出し開始・終了ポイントマーキング手段5bで読み上げ音声データにマーキングされた切り出し開始終了ポイントに基づいて、当該読み上げ音声データから有音部分を切り出すものである。この切出手段7で切り出された有音部分は、部品音声(部品音声ファイル)として、部品音声ファイル蓄積手段9に出力される。部品音声ファイルには、読み上げ音声データの一部である音声信号と、切り出しポイント設定手段5で対応付けられたテキストデータおよびコードとが含まれている。なお、この切出手段7では、有音部分を切り出す際に、当該有音部分の前後に任意の長さの無音部分を設定することも可能である。
部品音声ファイル蓄積手段9は、切出手段7で切り出された有音部分(音声信号)と、切り出しポイント設定手段5で対応付けられたテキストデータおよびコードとを部品音声ファイルとして蓄積するものである。また、この部品音声ファイル蓄積手段9は、部品音声ファイルを表示装置2に出力している。この部品音声ファイル蓄積手段9は一般的なハードディスク等によって構成されている。そして、この部品音声ファイル蓄積手段9は、複数の部品音声ファイル(例えば、数千個から数万個の部品音声ファイル)を、番組を制作する際に用いる音声を集約した放送音声用辞書として外部(例えば、番組の音声を制作する番組音声制作装置)に出力するものである。
(部品音声切り出し装置の動作)
次に、図2に示すフローチャートを参照して、部品音声切り出し装置1の動作について説明する(適宜、図1参照)。
まず、部品音声切り出し装置1は、アナウンサ等がアナウンサ読み上げテキストを読み上げた読み上げ音声データを入力し、読み上げ音声データ蓄積手段3に蓄積する(ステップS1)。
続いて、部品音声切り出し装置1は、当該装置1の利用者が操作手段(図示せず)を操作することによって、読み上げ音声データ蓄積手段3に蓄積されている読み上げ音声データを切り出しポイント設定手段5に入力する(ステップS2)。また、部品音声切り出し装置1は、コードとアナウンサ読み上げテキストのテキストデータとを切り出しポイント設定手段5に入力する(ステップS3)。
そうすると、部品音声切り出し装置1は、切り出しポイント設定手段5の無音・有音判定手段5aによって、読み上げ音声データの無音部分と有音部分とを、予め設定した条件に従って判定する(ステップS4)。続いて、部品音声切り出し装置1は、切り出しポイント設定手段5の切り出し開始・終了ポイントマーキング手段5bによって、切り出し開始終了ポイントを、無音・有音判定手段5aによる判定結果に従って設定する(ステップS5)。
そして、部品音声切り出し装置1は、切り出しポイント設定手段5のコード・テキスト対応付手段5cによって、コードとアナウンサ読み上げテキストのテキストデータとを対応付け(ステップS6)、切り出しポイント設定手段5のテキスト・切り出し音声対応付手段5dによって、テキストデータと切り出し音声(有音部分)とを対応付ける(ステップS7)。
そして、部品音声切り出し装置1は、切出手段7によって、切り出しポイント設定手段5で設定された切り出し開始終了ポイントに基づいて、読み上げ音声データから有音部分を切り出して、コードおよびテキストデータとを含めた部品音声ファイルとして部品音声ファイル蓄積手段9に出力する(ステップS8)。そして、部品音声切り出し装置1は、部品音声ファイル蓄積手段9に部品音声ファイルを蓄積し、複数の部品音声ファイルを放送音声用辞書として外部に出力する(ステップS9)。
この部品音声切り出し装置1によれば、読み上げられた音声を、読み上げ音声データ蓄積手段3に蓄積(収録)した後、無音・有音判定手段5aによって、予め設定した条件に従って、無音と有音とを判定して、判定した結果に基づいて、切り出し開始・終了ポイントマーキング手段5bによって、切り出しポイントを設定してから、切出手段7によって、部品音声ファイルに切り出している。そして、この部品音声ファイルを部品音声ファイル蓄積手段9に複数蓄積することで放送音声用辞書を生成しているので、この放送音声用辞書を次に制作される番組に用いることで、読み上げられた音声を再利用することができる。特に、定型文のテキストが多数読み上げられるニュースや天気予報等の番組の音声を制作する際に利用価値が高くなる。
また、この部品音声切り出し装置1によれば、無音・有音判定手段5aによって、無音部分と有音部分とを判定した後、切り出し開始・終了ポイントマーキング手段5bによって、切り出し開始ポイントおよび切り出し終了ポイントをマーキングする際に、切り出す部品音声の前後の無音区間が一定となり、読み上げ音声データを自動編集した際に、適切な間の調整を行うことができる。つまり、切り出される有音部分では、無音部分から有音部分に変わるポイントと、当該有音部分から次の無音部分に変わるポイントとが判定され、されに、これらのポイントから任意の時間の無音部分が前後に付加された切り出し開始ポイントと、切り出し終了ポイントとが設定されている。部品音声切り出し装置1では、これら4つのポイントにより、部品音声を切り出すことによって、当該部品音声の有音部分の前後の無音時間が調整されているので、切り出した部品音声同士を結合する際に、非常に自然な音声を得ることができる。
さらに、この部品音声切り出し装置1によれば、コード・テキスト対応付手段5cおよびテキスト・切り出し音声対応付手段5dによって、定型文を定義したコードと読み上げるテキストとを対応付けて、テキストと切り出される部品音声ファイルとを対応付けることで、放送音声用辞書を再利用する際に利便性を高めることができる。
(部品音声切り出し装置の具体的な例)
これより、図3〜図7を参照して、部品音声切り出し装置1の具体的な例(音声切り出しツール)について説明する(適宜、図1参照)。まず、これまで説明してきた部品音声切り出し装置1に入力されるデータと、部品音声切り出し装置1から出力されるデータとについて、図3を参照して説明する。
この図3では、部品音声切り出し装置1に、アナウンサが読み上げた読み上げ音声データではなく、予め録音された音声である録音音声データ(WAVE;WAVEファイル)が外部の蓄積装置から入力された場合を示している。この場合、録音音声データの元となった原稿、つまり、アナウンサ読み上げテキストに当たるWAVE情報リスト(表計算スタイルの文章のリスト)とが部品音声切り出し装置1に外部の蓄積装置から入力されている。
また、部品音声切り出し装置1には、当該装置1の利用者が操作手段(図示せず)を操作することで、任意の箇所に移動される切り出し開始終了ポイントに関する情報が、WAVE切り出し情報として外部の蓄積装置から入力されていると共に、部品音声切り出し装置1は切り出し開始・終了ポイントマーキング手段5bで設定した結果を外部の蓄積装置に出力している。
そして、部品音声切り出し装置1は、複数の部品音声ファイルを、放送音声用辞書として出力しており、図3に示した各部品音声ファイルには、部品音声WAVEファイル(有音部分の音声信号)と、部品音声TEXTファイル(アナウンサ読み上げテキストのテキストデータ)とが出力(表示)されている。
また、部品音声切り出し装置1によって表示装置2に表示されるメイン画面について、図4を参照して説明する。
図4(a)に示したメイン画面には、ウインドウタイトル(1)と、メニュー(2)と、WAVE情報リスト(3)と、WAVE切り出しリスト(4)と、リスト操作(5)と、WAVE操作ボタン群(6)と、再生インジケータ(7)と、マーク(8)と、再生ボタン群(9)とが表示されている。
ウインドウタイトル(1)は、ウインドウタイトルの元となる録音音声データ(WAVE;WAVEファイル)のパス名が表示される箇所である。
メニュー(2)は、各種の作業のメニューが表示される箇所であり、「ファイル」、「編集」および「切り出し」の3つの作業を選択可能である。図4(b)に、「ファイル」の作業を選択した際、つまり、メニュー(2)の「ファイル」の上に操作手段(図示せず)の一つであるマウス等のポインティングデバイスのポインタが位置し、マウスのボタンが押下された際に表示される「ファイル」のメニュー画面を示す。
この図4(b)に示した「ファイル」のメニュー画面には、「元WAVEファイルを開く」と、「WAVE情報ファイルを開く」と、「切り出しWAVE情報を開く」と、「切り出しWAVE情報の保存」と、「切り出しWAVE情報を別名で保存」と、「切り出しWAVEファイルの保存」と、「切り出しWAVEファイルを全て保存」と「終了」とが表示されている。なお、これらの操作は、ウインドウズ(登録商標)におけるファイル操作とほぼ同様であるので、概略の説明だけに止めることにする。
「元WAVEファイルを開く」は切り出し対象のWAVEファイルを開くものであり、「WAVE情報ファイルを開く」はWAVE情報リスト(3)に表示するWAVE情報ファイルを開くものである。
また、「切り出しWAVE情報を開く」はWAVE切り出し情報ファイルを開くものであり、「切り出しWAVE情報の保存」はWAVE切り出しリスト(4)に表示されている内容を保存するものであり、「切り出しWAVE情報を別名で保存」はWAVE切り出しリスト(4)に表示されている内容を、別名で(ファイル名を変えて)保存するものである。
また、「切り出しWAVEファイルの保存」は、WAVE切り出しリスト(4)で選択された切り出し情報に従って、部品音声ファイル(部品音声WAVEファイルと部品音声TEXTファイル)を作成するものである。この場合に、図4(c)に示した音声切り出しツールの保存形式選択ダイアログが表示され、部品音声WAVEファイルの保存形式が
“ステレオ”、“モノラル Lチャンネル”、“モノラル Rチャンネル”および“モノ ラルL,Rチャンネルのミックス”の4つの中から選択される。
「切り出しWAVEファイルを全て保存」は、「切り出しWAVEファイルの保存」と同様の処理を、WAVE切り出しリスト(4)に表示されている内容全てに対して行うものである。
WAVE情報リスト(3)は、WAVE情報ファイルを読み込んだ場合に、その内容を表示する箇所である。このWAVE情報リスト(3)には、WAVE情報ファイルのファイル名と、自動的に付与されるレコード番号であるナンバー(No.)と、WAVE情報ファイルに含まれている音声テキスト(文章)と、これら音声テキストごとの名前である音声ファイル名とが表示されている。例えば、「No6:“続いて 周辺各県の警報・注意報です。”:02KECH_02Kakuken_01Ari.wa(v)」と表示されている。
WAVE切り出しリスト(4)は、元のWAVEファイルの無音部分を自動検出し、切り出した有音部分の一覧を表示する箇所である。このWAVE切り出しリスト(4)において、各行がWAVE情報ファイルの音声テキスト(文章)に対応している。また、このWAVE切り出しリスト(4)には、WAVE情報がある状態で音の無い行を示す「無音」行と、WAVE情報に対応する切り出しWAVEを無いとする「WAVE無」行とが挿入可能である。
このWAVE切り出しリスト(4)には、WAVE情報リスト(3)と同様に、切り出した順に自動的に付与されるレコード番号であるナンバー(No.)と、切り出した音声の開始位置を、元WAVEファイルの先頭からの時間で示す開始時間と、切り出した音声の終了位置を、元WAVEファイルの先頭からの時間で示す終了時間と、切り出した音声の再生時間とが表示されている。
リスト操作(5)は、WAVE情報リスト(3)とWAVE切り出しリスト(4)との対応を調整するために、WAVE切り出しリスト(4)を操作するボタン群を表示する箇所である。このリスト操作(5)には、選択された行を1行上に移動させる「↑上へ」と、選択された行を1行下に移動させる「↓下へ」と、選択された行を削除する「削除」と、選択されている行に“無音”を挿入する「無音」と、選択されている行に“WAVE無の行”を挿入する「WAVE無」とが表示されている。
WAVE操作ボタン群(6)は、WAVE切り出しリスト(4)に表示されている各行が選択された場合、この選択された行のWAVEデータを操作するボタン群を表示している箇所である。このWAVE操作ボタン群(6)には、「結合」ボタンと、「マーク」ボタンと、「マーク解除」ボタンと、「マークで分割」ボタンと、「マークまで削除」ボタンと、「マークから削除」ボタンと、「前無音追加」ボタンと、「後無音追加」ボタンとが表示されている。これらのボタンについて、さらに図5を参照して説明する(適宜、図4参照)。
「結合」ボタンは、図5(a)に示すように、WAVE切り出しリスト(4)において、選択された行の切り出し情報(選択切出情報)と一つ上の行の切り出し情報(前切出情報)とを結合して結合後切出情報とするものである。なお、選択された行の切り出し情報と一つ上の行の切り出し情報との間に無音があった場合にはこの無音も合わせて結合される。
「マーク」ボタンは、再生インジケータ(7)のスライドバーに“マーク”を表示させるものである。再生インジケータ(7)のスライドバーに表示される“マーク”は1箇所のみであり、“マーク”が再生インジケータ(7)のスライドバーに表示されている状態で、再度「マーク」ボタンが押下されると、当該表示されている“マーク”が消されて、新たな“マーク”が再生インジケータ(7)のスライドバーに表示されることになる。
「マーク解除」ボタンは、現在、選択された行の切り出し情報(選択切出情報)についている“マーク”を解除するものである。この「マーク解除」ボタンは、切り出し情報に“マーク”がなされているときにのみ有効となるものである。
「マークで分割」ボタンは、図5(b)に示すように、選択された行の切り出し情報(選択切出情報)を、“マーク”がなされた箇所で分割して、二つの切り出し情報(分割切出情報aおよび分割切出情報b)にするものである。
「マークまで削除」ボタンは、図5(c)に示すように、選択された行の切り出し情報(選択切出情報)について、“マーク”がなされた箇所より前を削除し、無音エリア扱いにするものである。
「マークから削除」ボタンは、図5(d)に示すように、選択された行の切り出し情報(選択切出情報)について、“マーク”がなされた箇所より後を削除し、無音エリア扱いにするものである。
「前無音追加」ボタンは、図5(e)に示すように、選択出力情報に選択された行の切り出し情報(選択切出情報)の前にある無音エリアを付け足して、前無音追加後切出情報にするものである。
「後無音追加」ボタンは、図5(f)に示すように、選択出力情報に選択された行の切り出し情報(選択切出情報)の後にある無音エリアを付け足して、後無音追加後切出情報にするものである。
図4に戻って、部品音声切り出し装置1によって表示装置2に表示されるメイン画面の説明を続ける。
再生インジケータ(7)は、インジケータ上にスライドバーを表示させており、このスライドバーが操作されることで、WAVE切り出しリスト(4)で選択された行の再生コントロールを行うものである。この再生インジケータ(7)では、切り出し情報の再生の状況(再生中または停止中)に対応して表示が変動するものである。
再生中では、切り出し情報の再生進行に合わせてスライドバーが移動しており、このスライドバーをドラッグして移動させると、移動させた動きに合わせて切り出し情報(音声信号)の再生が行われる。停止中では、最後に再生した位置(インジケータ上の位置、初期値は先頭)でスライドバーが停止しており、このスライドバーをドラッグして移動させると、移動させた動きに合わせて切り出し情報(音声信号)の再生が行われる。
マーク(8)は、再生インジケータ(7)直下の任意の箇所に表示されるもので、WAVE操作ボタン群(6)の「マーク」ボタンが最後に押下された際に、押下時の再生位置に表示される箇所が決定されるものである。
再生ボタン群(9)は、WAVE切り出しリスト(4)で選択された行の再生操作を行うものである。この再生ボタン群(9)には、「再生」ボタンと、「停止」ボタンと、「マークまで再生」と、「マークから再生」とがある。
「再生」ボタンは、WAVE切り出しリスト(4)で選択された行の再生を行うものである。「停止」ボタンは、WAVE切り出しリスト(4)で選択された行の再生が行われている際に停止させるものである。
「マークまで再生」は、、WAVE切り出しリスト(4)で選択された行の再生を、先頭から“マーク”がなされている箇所まで行うものである。「マークから再生」は、WAVE切り出しリスト(4)で選択された行の再生を、“マーク”がなされている箇所から末尾まで行うものである。
また、ここで、図6にWAVE情報リストが無い場合の表示装置2の表示画面を示す。この図6に示すように、WAVE情報リスト(2)、つまり、アナウンサ読み上げテキストのテキストデータが表示される箇所が空欄になっている。
さらに、図4(a)に示したメイン画面のメニュー(2)に表示されている「切り出し」が選択された場合、図7に示した切り出し設定ダイアログ(音声切り出しツール 切り出し設定)が表示される。この切り出し設定ダイアログでは、無音レベル(1)と、無音時間(2)と、有効音声時間(3)と、切り出し余白(4)とが設定可能であり、OK(5)と、キャンセル(6)とが表示されている。
「無音レベル」は、無音と判定するレベルを設定する箇所であり、「無音時間」はどれくらいの間、無音が続いたら区切れ目と判定するのか、その時間(ms)を設定する箇所である。
「有効音声時間」は、どれくらいの間、無音でない状態が続いたら有効な音声データ(有音部分)と判定するのか、その時間(ms)を設定する箇所である。「切り出し余白」は、切り出す箇所の前後にどの程度を余白として残すのか、その前後の時間(ms)を各々設定する箇所である。
OK(5)は、入力した内容で設定を更新し、切り出し設定ダイアログを閉じるものであり、キャンセル(6)は、設定を更新せずに、切り出し設定ダイアログを閉じるものである。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、部品音声切り出し装置1として説明したが、当該装置1の各構成の処理を実現可能にした部品音声切り出しプログラムとして、汎用的または特殊なコンピュータ言語を使って構成することも可能である。この場合、部品音声切り出し装置1と同様の効果を得ることができる。
本発明の実施形態に係る部品音声切り出し装置(放送音声用辞書作成装置)のブロック図である。 図1に示した部品音声切り出し装置(放送音声用辞書作成装置)の動作を説明したフローチャートである。 部品音声切り出し装置に入力されるデータと、部品音声切り出し装置から出力されるデータとについて、説明した図である。 部品音声切り出し装置の具体的な例である音声切り出しツールによって表示される表示画面を説明した図である。 図4に示した表示画面に表示されているWAVE操作ボタン群が操作された場合の切り出し情報について説明した図である。 部品音声切り出し装置の具体的な例である音声切り出しツールによって表示される表示画面(WAVE情報リストが入力されていない画面)を説明した図である。 切り出し設定ダイアログについて説明した図である。
符号の説明
1 部品音声切り出し装置(放送音声用辞書作成装置)
2 表示装置
3 読み上げ音声データ蓄積手段
5 切り出しポイント設定手段
5a 無音・有音判定手段
5b 切り出し開始・終了ポイントマーキング手段
5c コード・テキスト対応付手段
5d テキスト・切り出し音声対応付手段
7 切出手段
9 部品音声ファイル蓄積手段

Claims (3)

  1. テキストを読み上げた読み上げ音声データに基づいて、放送される番組の音声を制作する際に参照される放送音声用辞書を作成する放送音声用辞書作成装置であって、
    前記読み上げ音声データを蓄積する読み上げ音声データ蓄積手段と、
    この読み上げ音声データ蓄積手段に蓄積されている読み上げ音声データにおいて、予め設定した条件に従って無音と有音とを判定し、判定した結果に基づいて、当該読み上げ音声データに、前記放送音声用辞書に収める部品音声ファイルを取得するための切り出し開始終了ポイントを設定する切り出しポイント設定手段と、
    この切り出しポイント設定手段で切り出し開始終了ポイントが設定された読み上げ音声データから、前記部品音声ファイルを切り出す切出手段と、
    この切出手段で切り出された部品音声ファイルを蓄積することで、前記放送音声用辞書とする部品音声ファイル蓄積手段とを備え、
    前記予め設定した条件は、所定レベル以下の前記音声データが第一所定時間以上連続した場合に無音と判定し、所定レベルより大きい前記音声データが第二所定時間以上連続した場合に有音と判定すると共に、無音から有音に切り替わるポイントから第三所定時間前を切り出し開始ポイントとし、有音から無音に切り替わるポイントから第四所定時間後を切り出し終了ポイントとすることを特徴とする放送音声用辞書作成装置。
  2. 前記切り出しポイント設定手段は、
    前記テキストと、前記読み上げ音声データから切り出される部品音声ファイルとを対応付けるテキスト・切り出し音声対応付手段と、
    を備えることを特徴とする請求項1に記載の放送音声用辞書作成装置。
  3. テキストを読み上げた読み上げ音声データに基づいて、放送される番組の音声を制作する際に参照される放送音声用辞書を作成するために、コンピュータを、
    前記読み上げ音声データにおいて、予め設定した条件に従って無音と有音とを判定し、判定した結果に基づいて、当該読み上げ音声データに、前記放送音声用辞書に収める部品音声ファイルを取得するための切り出し開始ポイントおよび切り出し終了ポイントを設定する切り出しポイント設定手段、
    この切り出しポイント設定手段で切り出し開始ポイントおよび切り出し終了ポイントが設定された読み上げ音声データから、前記部品音声ファイルを切り出す切出手段、
    この切出手段で切り出された部品音声ファイルを記憶装置に蓄積させることで、前記放送音声用辞書とする放送音声用辞書生成手段として機能させ、
    前記予め設定した条件は、所定レベル以下の前記音声データが第一所定時間以上連続した場合に無音と判定し、所定レベルより大きい前記音声データが第二所定時間以上連続した場合に有音と判定すると共に、無音から有音に切り替わるポイントから第三所定時間前を切り出し開始ポイントとし、有音から無音に切り替わるポイントから第四所定時間後を切り出し終了ポイントとすることを特徴とする放送音声用辞書作成プログラム。
JP2005042039A 2005-02-18 2005-02-18 放送音声用辞書作成装置および放送音声用辞書作成プログラム Pending JP2006227363A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005042039A JP2006227363A (ja) 2005-02-18 2005-02-18 放送音声用辞書作成装置および放送音声用辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005042039A JP2006227363A (ja) 2005-02-18 2005-02-18 放送音声用辞書作成装置および放送音声用辞書作成プログラム

Publications (1)

Publication Number Publication Date
JP2006227363A true JP2006227363A (ja) 2006-08-31

Family

ID=36988780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005042039A Pending JP2006227363A (ja) 2005-02-18 2005-02-18 放送音声用辞書作成装置および放送音声用辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP2006227363A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN113490025A (zh) * 2021-08-03 2021-10-08 Vidaa美国公司 显示设备及电子节目指南显示方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58205196A (ja) * 1982-05-25 1983-11-30 東芝エンジニアリング株式会社 音声処理装置における音声情報の自動編集方法
JPS6287998A (ja) * 1985-10-14 1987-04-22 株式会社リコー 音声認識装置
JPS6315294A (ja) * 1986-07-08 1988-01-22 株式会社日立製作所 音声分析装置
JPH01112567A (ja) * 1987-10-26 1989-05-01 Matsushita Electric Ind Co Ltd 録音装置
JPH03278098A (ja) * 1990-03-28 1991-12-09 Oki Electric Ind Co Ltd 蓄音装置
JPH06259832A (ja) * 1993-03-03 1994-09-16 Olympus Optical Co Ltd 情報再生装置
JPH0744187A (ja) * 1993-08-02 1995-02-14 Hitachi Ltd 音声データ自動編集作成装置
JPH0756597A (ja) * 1993-08-11 1995-03-03 Nippon Telegr & Teleph Corp <Ntt> 編集型音声合成装置
JPH0792938A (ja) * 1993-09-22 1995-04-07 Hitachi Ltd 案内装置
JPH08160985A (ja) * 1994-12-09 1996-06-21 Dainippon Printing Co Ltd 音声処理システム
JP2004287193A (ja) * 2003-03-24 2004-10-14 Equos Research Co Ltd データ作成装置、データ作成プログラム、及び車載装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58205196A (ja) * 1982-05-25 1983-11-30 東芝エンジニアリング株式会社 音声処理装置における音声情報の自動編集方法
JPS6287998A (ja) * 1985-10-14 1987-04-22 株式会社リコー 音声認識装置
JPS6315294A (ja) * 1986-07-08 1988-01-22 株式会社日立製作所 音声分析装置
JPH01112567A (ja) * 1987-10-26 1989-05-01 Matsushita Electric Ind Co Ltd 録音装置
JPH03278098A (ja) * 1990-03-28 1991-12-09 Oki Electric Ind Co Ltd 蓄音装置
JPH06259832A (ja) * 1993-03-03 1994-09-16 Olympus Optical Co Ltd 情報再生装置
JPH0744187A (ja) * 1993-08-02 1995-02-14 Hitachi Ltd 音声データ自動編集作成装置
JPH0756597A (ja) * 1993-08-11 1995-03-03 Nippon Telegr & Teleph Corp <Ntt> 編集型音声合成装置
JPH0792938A (ja) * 1993-09-22 1995-04-07 Hitachi Ltd 案内装置
JPH08160985A (ja) * 1994-12-09 1996-06-21 Dainippon Printing Co Ltd 音声処理システム
JP2004287193A (ja) * 2003-03-24 2004-10-14 Equos Research Co Ltd データ作成装置、データ作成プログラム、及び車載装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242082A (ja) * 2007-03-27 2008-10-09 Konami Digital Entertainment:Kk 音声処理装置、音声処理方法、ならびに、プログラム
JP4563418B2 (ja) * 2007-03-27 2010-10-13 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
CN113490025A (zh) * 2021-08-03 2021-10-08 Vidaa美国公司 显示设备及电子节目指南显示方法

Similar Documents

Publication Publication Date Title
CN108259965B (zh) 一种视频剪辑方法和剪辑系统
US8504368B2 (en) Synthetic speech text-input device and program
US6161087A (en) Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US20180286459A1 (en) Audio processing
JP6824399B2 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
JPWO2009025155A1 (ja) 音声再生方法、音声再生装置およびコンピュータ・プログラム
CN108449629B (zh) 一种音频的语音与文字同步方法及剪辑方法和剪辑系统
US20140058734A1 (en) System for tuning synthesized speech
CN105244022A (zh) 音视频字幕生成方法及装置
CN110740275B (zh) 一种非线性编辑系统
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2003186379A (ja) 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
CN110781649A (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
JP2006227363A (ja) 放送音声用辞書作成装置および放送音声用辞書作成プログラム
JPH06161704A (ja) 音声インタフェース・ビルダ・システム
JP4210723B2 (ja) 自動字幕番組制作システム
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
KR100357241B1 (ko) 디지털 오디오 플레이어에서의 반복재생구간 설정제어방법 및 이것을 이용한 파일재생장치 및 저장매체
JP4314376B2 (ja) 書起し支援装置
JP2005215888A (ja) テキスト文の表示装置
JP2003216200A (ja) 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
JP7288530B1 (ja) システムおよびプログラム
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP2006050045A (ja) 動画像データ編集装置及び動画像データ編集方法
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070911

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20090410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110301