JP6181920B2

JP6181920B2 - 音声再生装置およびそのプログラム

Info

Publication number: JP6181920B2
Application number: JP2012254291A
Authority: JP
Inventors: 世木　寛之; 寛之世木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-11-20
Filing date: 2012-11-20
Publication date: 2017-08-16
Anticipated expiration: 2032-11-20
Also published as: JP2014102378A

Description

本発明は、入力信号に信号処理を行って音声を再生する音声再生装置およびそのプログラムに関するものである。

従来、音声データの自動放送方法として、複数の音声データの話速変換を行い、かつ、音声データ間に無音を接続することで、複数の音声データを予め定められた指定時間長に収める技術が提案されている（特許文献１参照）。なお、前記した「指定時間長」とは、例えば放送番組における一番組分の長さのことを示している。

特許４７４０７９０号公報（特開２００７−２９８６２１号公報）

しかしながら、特許文献１で提案された技術は、以下に示すような改善すべき点が残されていた。例えば、図１３（ａ）に示すように、特許文献１で提案された技術を利用して、２０秒の音声データＡと、２秒の音声データＢとにそれぞれ１秒の無音を接続し、話速変換によってこれらを指定時間長「１１秒」に収める場合を考える。この場合、特許文献１で提案された技術では、以下の式（１）によって、音声データＡの目標時間長「１１×２０／２２＝１０秒」と、音声データＢの目標時間長「１１×２／２２＝１秒」とを算出する。

目標時間長＝指定時間長×話速変換前の音声データの長さ／話速変換前の音声データの長さの総和・・・式（１）

次に、特許文献１で提案された技術では、以下の式（２）によって、音声データＡ，Ｂの話速変換を行う際の伸縮率「１１／２４≒０．４５８３」を算出し、図１３（ｂ）に示すように、当該伸縮率に基づいて話速変換を行う。なお、以下の式（２）における「基準無音長」とは、無音接続前における基準となる無音の長さ（ここでは各１秒）のことを示している。

伸縮率＝指定時間長／（話速変換前の音声データの長さの総和＋基準無音長の総和）・・・式（２）

以上のような処理を行うと、図１３（ｂ）に示すように、話速変換後の音声データＡの長さはおよそ９．１７秒、音声データＡに接続される無音の長さはおよそ０．８３秒、音声データＢの長さはおよそ０．９１７秒、音声データＢに接続される無音の長さはおよそ０．０８３秒、となる。

このように、特許文献１で提案された技術を利用すると、図１３（ｂ）に示すように、音声データの長さに応じて無音の長さが調整されるため、例えば短い音声データＢに接続される無音の長さが「０．０８３秒」と極端に短くなり、音声データＢの後ろにはほとんど間が含まれない結果となる。従って、特許文献１で提案された技術は、話速変換する音声データの構成によっては、話速変換後の音声が不自然で聞き取りにくくなる場合があった。

本発明はかかる点に鑑みてなされたものであって、音声データの構成によらず、聞き取りやすい話速と自然な音声の間を実現することができる音声再生装置およびそのプログラムを提供することを課題とする。

前記課題を解決するために請求項１に係る音声再生装置は、話速変換によって、複数の音声データの再生時間長を予め定められた指定時間長に収めて再生する音声再生装置であって、伸縮率算出手段と、話速変換手段と、目標時間長算出手段と、時間長差分算出手段と、無音接続手段と、音声バッファリング手段と、音声再生手段と、を備える構成とした。

このような構成を備える音声再生装置は、伸縮率算出手段によって、指定時間長から音声バッファリング手段に保存されている無音付音声データの長さの総和を減算した残放送時間と、話速変換前の音声データの長さの総和に予め定められた無音の長さの総和を加算した残コンテンツ時間との比を、音声データの話速変換を行う際の伸縮率として算出する。また、音声再生装置は、話速変換手段によって、伸縮率算出手段において算出された伸縮率に従って、音声データの話速変換を行う。また、音声再生装置は、目標時間長算出手段によって、話速変換前の音声データの長さに当該音声データ間の間を示す無音の長さを加算し、当該加算した値に伸縮率を乗算することで、目標時間長を算出する。また、音声再生装置は、時間長差分算出手段によって、目標時間長から話速変換後の音声データの長さを減算することで両者の差分を算出し、無音接続手段によって、時間長差分算出手段において算出された差分に相当する長さの無音を話速変換後の音声データに接続して無音付音声データを生成する。そして、音声再生装置は、音声バッファリング手段によって、無音接続手段において生成された無音付音声データを保存し、音声再生手段によって、音声バッファリング手段において保存された無音付音声データを再生する。

これにより、音声再生装置は、目標時間算出手段によって、話速変換前の音声データの長さのみならず、当該音声データに接続される無音の長さも考慮して話速変換後の目標時間長を算出するため、当該目標時間長内に無音を割り当てるための時間を確保することができる。そのため、音声再生装置は、無音接続手段によって話速変換後の音声データに無音を接続する際に、当該無音の長さが極端に短くなることがない。また、音声再生装置は、無音接続手段によって、予め算出した目標時間長から話速変換後の実際の音声データの長さを差し引いた無音を、話速変換後の音声データに接続するため、例えば話速変換の際に音声の基本周期の単位で誤差が生じた場合であっても、無音によってその誤差を吸収することができる。

請求項２に係る音声再生装置は、請求項１に係る音声再生装置において、伸縮率置換手段と、無音割当時間算出手段と、無音長算出手段と、をさらに備える構成とした。

このような構成を備える音声再生装置は、伸縮率置換手段によって、伸縮率算出手段において算出された伸縮率が１を超え、かつ、予め定められた最大伸縮率を超える場合に、当該伸縮率の値を最大伸縮率に置き換える。また、音声再生装置は、無音割当時間算出手段によって、残放送時間から、話速変換前の音声データの長さの総和に伸縮率を乗算した値を減算することで、無音割当時間を算出する。そして、音声再生装置は、無音長算出手段によって、話速変換後の音声データに接続される無音の長さがそれぞれ同じである場合は、無音割当時間を話速変換後の音声データに接続される無音の数で除算することで、個々の無音の長さを算出し、話速変換後の音声データに接続される無音の長さが接続される位置によって異なる場合は、無音の長さの総和に対するそれぞれの無音の長さの比に応じて無音割当時間を案分することで、個々の無音の長さを算出する。このように、無音長算出手段は、無音の長さが場所により異なる場合には、その比で無音割当時間の総和を案分することで各無音割当時間を決めることができる。

さらに、音声再生装置は、目標時間長算出手段が、話速変換前の音声データの長さに伸縮率を乗算し、当該乗算した値に無音長算出手段によって算出された無音の長さを加算することで、目標時間長を算出する。これにより、音声再生装置は、伸縮率置換手段によって、音声データの話速変換を行う際の伸縮率を、予め実験的および経験的に求めた最大伸縮率以下に制限することができる。

請求項３に係る音声再生装置は、請求項１に係る音声再生装置において、伸縮率置換手段と、除外時間算出手段と、無音割当時間算出手段と、無音長算出手段と、をさらに備える構成とした。

このような構成を備える音声再生装置は、伸縮率置換手段によって、伸縮率算出手段において算出された伸縮率が１未満であり、かつ、予め定められた最小伸縮率未満である場合に、伸縮率の値を最小伸縮率に置き換える。また、音声再生装置は、除外時間算出手段によって、伸縮率が１未満である場合に、話速変換前の音声データの長さの総和に伸縮率を乗算し、当該乗算した値に予め定められた無音の長さの最小値を加算し、当該加算した値から残放送時間を減算することで、除外時間を算出する。また、音声再生装置は、無音割当時間算出手段によって、除外時間が負の値である場合に、残放送時間から、話速変換前の音声データの長さの総和に伸縮率を乗算した値を減算することで、無音割当時間を算出する。そして、音声再生装置は、無音長算出手段によって、話速変換後の音声データに接続される無音の長さがそれぞれ同じである場合は、無音割当時間を話速変換後の音声データに接続される無音の数で除算することで、個々の無音の長さを算出し、話速変換後の音声データに接続される無音の長さが接続される位置によって異なる場合は、無音の長さの総和に対するそれぞれの無音の長さの比に応じて無音割当時間を案分することで、個々の無音の長さを算出する。このように、無音長算出手段は、無音の長さが場所により異なる場合には、その比で無音割当時間の総和を案分することで各無音割当時間を決めることができる。

さらに、音声再生装置は、目標時間長算出手段が、話速変換前の音声データの長さに伸縮率を乗算し、当該乗算した値に無音長算出手段によって算出された無音の長さを加算することで、目標時間長を算出する。これにより、音声再生装置は、伸縮率置換手段によって、音声データの話速変換を行う際の伸縮率を、予め実験的および経験的に求めた最小伸縮率以上とすることができる。また、音声再生装置は、除外時間算出手段によって、話速変換後の音声データおよび無音の長さが指定時間長を超えるか否かを予め算出することができる。

請求項４に係る音声再生装置は、請求項１から請求項３のいずれか一項に係る音声再生装置において、伸縮率算出手段が、複数の音声データのうち、予め定められた数の音声データごとに伸縮率を算出し、話速変換手段が、複数の音声データのうち、予め定められた数の音声データごとに、伸縮率に従って話速変換を行う構成とした。これにより、音声再生装置は、入力された複数の音声データのうち、一部の音声データごとに話速変換を行い、音声再生手段によって、無音付音声データを逐次再生することができる。

前記課題を解決するために請求項５に係る音声再生プログラムは、コンピュータを、請求項１から請求項４のいずれか一項に記載の音声再生装置として機能させる構成とした。

請求項１および請求項５に係る発明によれば、話速変換後の音声データに接続される無音が極端に短くなることがないため、音声データの構成によらず、聞き取りやすい話速と自然な音声の間を実現することができる。また、請求項１および請求項５に係る発明によれば、話速変換の際に発生した誤差を無音によって吸収することができるため、複数の音声データを例えば一番組分の指定時間長ちょうどに収めて再生することができる。

請求項２に係る発明によれば、話速変換前の音声データおよび無音の長さよりも指定時間長のほうが長い場合において、音声データの長さが伸長されすぎて必要以上に遅い音声となることを防止し、聞きやすい音声で自動放送を行うことができる。

請求項３に係る発明によれば、話速変換前の音声データおよび無音の長さよりも指定時間長のほうが短い場合において、音声データの長さが短縮されすぎて必要以上に速い音声となることを防止し、聞きやすい音声で自動放送を行うことができる。

請求項４に係る発明によれば、音声の再生前に全ての音声データの話速変換を行うのではなく、音声の再生中にその都度伸縮率や無音の長さを調整しながら一部ずつ話速変換を行うため、再生時に何らかの不具合が生じたり、もしくは終了時間の変更が行われて指定時間長が変動した場合であっても、音声データを指定時間長ちょうどに収めて再生することができる。

本発明の第１実施形態に係る音声再生装置の全体構成を示すブロック図である。本発明の第１実施形態に係る音声再生装置が備える伸縮率決定手段の具体的構成を示すブロック図である。（ａ）、（ｂ）は、本発明の第１実施形態に係る音声再生装置の話速変換処理の概要を説明するための概略図である。（ａ）〜（ｃ）は、本発明の第１実施形態に係る音声再生装置の話速変換処理の一例を示す概略図である。本発明の第１実施形態に係る音声再生装置の処理手順を示すフローチャートである。本発明の第２実施形態に係る音声再生装置の全体構成を示すブロック図である。本発明の第２実施形態に係る音声再生装置が備える伸縮率決定手段の具体的構成を示すブロック図である。（ａ）、（ｂ）は、本発明の第２実施形態に係る音声再生装置の無音割当時間の算出処理の一例を示す概略図である。（ａ）〜（ｃ）は、本発明の第２実施形態に係る音声再生装置の話速変換処理の一例を示す概略図である。（ａ）〜（ｄ）は、本発明の第２実施形態に係る音声再生装置の除外時間の算出処理の一例と無音割当時間の算出処理の一例とを示す概略図である。（ａ）〜（ｃ）は、本発明の第２実施形態に係る音声再生装置の話速変換処理の一例を示す概略図である。本発明の第２実施形態に係る音声再生装置の処理手順を示すフローチャートである。（ａ）、（ｂ）は、従来技術に係る話速変換処理の一例を説明するための概略図である。

本発明の実施形態に係る音声再生装置およびそのプログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。

＜第１実施形態＞
［音声再生装置の構成］
本発明の第１実施形態に係る音声再生装置の構成について、図１〜図４を参照しながら説明する。音声再生装置１は、入力信号に信号処理を行って音声を再生するものであり、具体的には図１に示すように、外部から入力される音声データ再生リストに記載された複数の音声データの話速変換を行い、当該複数の音声データの再生時間長を指定時間長に収めて再生するものである。この音声再生装置１は、例えば人の調整を介することなく、株式市況や天気予報などの任意の複数の音声データを所定の放送番組時間内に収める場合に用いられる。

音声再生装置１は、ここでは図１に示すように、音声入力手段１０と、音声データ記憶手段２０と、伸縮率決定手段３０と、話速変換無音接続手段４０と、音声バッファリング手段５０と、音声再生手段６０と、を備えている。

音声入力手段１０は、音声データを入力するものである。この「音声データ」は、例えばフレーズ単位や単語単位の音声を示すデータのことを示している。音声入力手段１０は、図１に示すように、外部から入力された音声データ再生リストに記載されている音声データを音声データ記憶手段２０から読み込み、図示しないメモリ上に展開する。そして、音声入力手段１０は、図１に示すように、メモリ上に蓄えた音声データのうち、１回の話速変換に必要な分の音声データを話速変換手段４３に対して出力する。また、音声入力手段１０は、図１に示すように、図示しないメモリ上に蓄えている話速変換前の音声データの長さの総和（以下、残音声データの長さという）を伸縮率決定手段３０内の残コンテンツ時間算出手段３２（図２参照）および話速変換無音接続手段４０内の目標時間長算出手段４１に対して出力する。

なお、前記した「音声データ再生リスト」とは、予め用意された、放送番組において再生する音声データの種類および順番が示されたリストのことを示している。また、前記した「１回の話速変換に必要な分の音声データ」とは、音声入力手段１０の図示しないメモリ上に蓄えられた音声データのうちの一部の音声データのことを示しており、具体的には、音声データの話速変換の際の単位となる波形の基本周期を３つ以上有する長さの音声データのことを示している。また、前記した「話速変換前の音声データ」とは、音声入力手段１０の図示しないメモリ上に蓄えられた話速変換されていない音声データのことを示している。

音声データ記憶手段２０は、話速変換前の音声データを記憶するものである。音声データ記憶手段２０は、複数の音声データを識別情報（たとえば番号、ファイルなど）に対応付けて記憶している。ここで、音声データ記憶手段２０は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、音声データ記憶手段２０内の音声データには、当該音声データの長さ（時間長）が付加されているものとする。また、音声データ記憶手段２０は、ここでは図１に示すように、音声再生装置１内に設けられているが、外部に設けられた構成としても構わない。

伸縮率決定手段３０は、音声データの話速変換を行う際の伸縮率を決定するものである。伸縮率決定手段３０は、ここでは図２に示すように、残放送時間算出手段３１と、残コンテンツ時間算出手段３２と、伸縮率算出手段３３と、を備えている。

残放送時間算出手段３１は、指定時間長内における残りの放送時間を示す残放送時間を算出するものである。残放送時間算出手段３１には、図２に示すように、外部から現在時刻と放送番組の終了時刻とが入力されるとともに、後記する音声バッファリング手段５０から当該音声バッファリング手段５０が保存している無音付音声データの長さが入力される。なお、前記した「無音付音声データ」とは、後記する無音接続手段４４において、話速変換後の音声データに、当該音声データ間の間を示す無音が接続されたものを示している。

そして、残放送時間算出手段３１は、以下の式（３）に示すように、指定時間長から音声バッファリング手段５０に保存されている無音付音声データの長さの総和を減算することで残放送時間を算出し、図２に示すように、当該残放送時間を伸縮率算出手段３３に対して出力する。なお、以下の式（３）における「終了時間−現在時刻」は、具体的には指定時間長のことを示している。

残放送時間＝終了時刻−現在時刻−音声バッファリング手段内の無音付音声データの長さの総和・・・式（３）

残コンテンツ時間算出手段３２は、話速変換前の音声データおよび無音の長さを示す残コンテンツ時間を算出するものである。残コンテンツ時間算出手段３２には、図２に示すように、外部から基準無音長が入力されるとともに、音声入力手段１０から残音声データの長さが入力される。そして、残コンテンツ時間算出手段３２は、以下の式（４）に示すように、残音声データの長さ（話速変換前の音声データの長さの総和）に、予め定められた無音の長さである基準無音長の総和を加算することで残コンテンツ時間を算出し、図２に示すように、当該残コンテンツ時間を伸縮率算出手段３３に対して出力する。

残コンテンツ時間＝残音声データの長さ＋基準無音長の総和・・・式（４）

伸縮率算出手段３３は、音声データの話速変換を行う際の伸縮率を算出するものである。伸縮率算出手段３３には、図２に示すように、残放送時間算出手段３１から残放送時間が入力され、残コンテンツ時間算出手段３２から残コンテンツ時間が入力される。そして、伸縮率算出手段３３は、以下の式（５）に示すように、残放送時間と残コンテンツ時間との比を伸縮率として算出し、図２に示すように、当該伸縮率を目標時間長算出手段４１および話速変換手段４３に対して出力する。

伸縮率＝残放送時間／残コンテンツ時間・・・式（５）

話速変換無音接続手段４０は、音声データの話速変換を行うとともに、話速変換後の音声データに無音を接続するものである。話速変換無音接続手段４０は、ここでは図１に示すように、目標時間長算出手段４１と、時間長差分算出手段４２と、話速変換手段４３と、無音接続手段４４と、を備えている。

目標時間長算出手段４１は、個々の音声データの話速変換後の目標時間長を算出するものである。目標時間長算出手段４１には、図１に示すように、音声入力手段１０から残音声データの長さが入力され、伸縮率決定手段３０内の伸縮率算出手段３３（図２参照）から伸縮率が入力される。そして、目標時間長算出手段４１は、以下の式（６）に示すように、話速変換前の音声データの長さに予め定められた無音の長さである基準無音長を加算し、当該加算した値に伸縮率を乗算することで、個々の音声データの目標時間長を算出し、図１に示すように、当該目標時間長を時間長差分算出手段４２に対して出力する。なお、目標時間長算出手段４１は、個々の音声データごとに目標時間長を算出するため、例えば音声データの数が４つの場合は目標時間長も４つ分算出する。

目標時間長＝（話速変換前の音声データの長さ＋基準無音長）×伸縮率・・・式（６）

時間長差分算出手段４２は、目標時間長と話速変換後の音声データの長さの差分を算出するものである。時間長差分算出手段４２には、図１に示すように、目標時間長算出手段４１から目標時間長が入力され、話速変換手段４３から話速変換後の音声データの長さが入力される。そして、時間長差分算出手段４２は、以下の式（７）に示すように、目標時間長から話速変換後の音声データの長さを減算することで、両者の差分である時間長差分を算出し、図１に示すように、当該時間長差分を無音接続手段４４に対して出力する。なお、前記した「話速変換後の音声データ」とは、話速変換手段４３によって話速変換された、また無音が接続されていない音声データのことを示している。

時間長差分＝目標時間長−話速変換後の音声データの長さ・・・式（７）

話速変換手段４３は、音声データの話速変換を行うものである。話速変換手段４３には、図１に示すように、音声入力手段１０から１回の話速変換に必要な分の音声データが入力され、伸縮率決定手段３０内の伸縮率算出手段３３（図２参照）から伸縮率が入力される。そして、話速変換手段４３は、例えば音声データのパワー、零交差数、自己相関関数を用いて音声区間を検出するとともに、音声区間についてピッチ周期の抽出を行い、そのピッチ周期と伸縮率とによって規定される時間長に基づいて、音声波形の間引き／繰り返しを行い、音声波形同士を適切な時間長で重ね合わせて接続することで、話速変換を行う。なお、このような話速変換手法については、公知の技術を用いることができる（例えば、特許第３３２７９３６号、特許第２９５５２４７号）。

話速変換手段４３は、例えば図３（ａ）に示すように、音声データの入力波形を分析して基本周期（例えば５〜１０ミリ秒）を抽出する。そして、話速変換手段４３は、図３（ａ）に示すように、基本周期分の音声波形を間引くことで音声データを短縮して話速を速め、基本周期分の音声波形を繰り返すことで音声データを伸長して話速を遅くする。なお、図３（ａ）では、（３）の音声波形と（８）の音声波形とを間引くあるいは繰り返して話速変換を行っているが、これは一例を示したものである。

ここで、話速を変換する方法としては、例えばテープの遅回しのような方法もあるが、この場合は図３（ｂ）に示すように、音声波形の基本周期の数は変えずに、当該基本周期自体を長くするため、話速変換後の音声が低くなってしまう。一方、話速変換手段４３における話速変換は、図３（ａ）に示すように、音声波形の基本周期を変えずに、当該基本周期を間引く、あるいは繰り返すことで基本周期の数を変化させるため、話速変換後の音声の高さは変化しないという利点がある。

話速変換手段４３は、以上のような処理によって音声データの話速変換を行い、図１に示すように、話速変換後の音声データを無音接続手段４４に対して出力するとともに、話速変換後の音声データの長さを時間長差分算出手段４２に対して出力する。

無音接続手段４４は、話速変換後の音声データに無音を接続するものである。無音接続手段４４には、図１に示すように、時間長差分算出手段４２から時間長差分が入力され、話速変換手段４３から話速変換後の音声データが入力される。そして、無音接続手段４４は、時間長差分に相当する長さの無音を話速変換後の音声データに接続して無音付音声データを生成し、図１に示すように、当該無音付音声データを音声バッファリング手段５０に対して出力する。

音声バッファリング手段５０は、無音付音声を一時的に保存するものである。音声バッファリング手段５０は、図１に示すように、無音接続手段４４から入力された無音付音声データを保存し、音声再生手段６０の要求に応じて、これらを順次出力する。また、音声バッファリング手段５０は、図１に示すように、当該音声バッファリング手段５０内に保存されている無音付音声データの長さを伸縮率決定手段３０内の残放送時間算出手段３１（図２参照）に対して出力する。ここで、音声バッファリング手段５０は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。

音声再生手段６０は、無音付音声データを再生するものである。音声再生手段６０は、図１に示すように、音声バッファリング手段５０内に保存されている無音付音声データを古いものから順番に必要な個数だけ取り出し、スピーカなどの図示しない音声デバイスに対して出力して再生する。

（話速変換・無音接続処理の具体例）
以下、本発明における話速変換・無音接続処理の具体例について、図４（適宜図１および図２を参照）を参照しながら説明する。以下では、図４（ａ）に示すように、２０秒の音声データＡと、２秒の音声データＢとにそれぞれ１秒の無音を接続し、話速変換によってこれらを指定時間長「１１秒」に収める場合を考える。また、以下では、１回の処理で音声データを１つずつ話速変換する例について説明する。そして、以下の説明では、音声データの伸縮率について、小数点以下４桁以降を切り上げて表記するが、実際には小数点以下を切り上げずに計算を行っているため、値を代入した式と当該式によって算出された値とが対応していない場合がある。

まず、音声再生装置１は、音声データＡの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「１１−０＝１１秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２０＋２＋１＋１＝２４秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＡの伸縮率「１１／２４≒０．４５８」を算出する。

次に、目標時間長算出手段４１は、前記した式（６）によって音声データＡの目標時間長「（２０＋１）×０．４５８＝９．６２５秒」を算出する。そして、話速変換手段４３は、図４（ａ）、（ｂ）に示すように、音声データＡの話速変換を行う。ここで、音声データＡの話速変換を行った場合、当該話速変換後の音声データＡの長さが、話速変換前の音声データＡの長さに伸縮率を乗算した長さ「２０×０．４５８＝９．１６７秒」となることが理想的であるが、ここでは図４（ｂ）に示すように、話速変換時の誤差により、話速変換後の音声データＡの長さが「９．１秒」となり、前記した理想的な長さよりも０．０６７秒短くなったものとする。なお、実際の話速変換処理においても、話速変換前の音声データの長さに伸縮率を乗算した長さよりも、話速変換後の音声データのほうが基本周期の単位分だけ短くなることがあるため、ここでは実態に即して説明する。

次に、時間長差分算出手段４２は、前記した式（７）によって音声データＡの時間長差分「９．６２５−９．１＝０．５２５秒」を算出する。次に、無音接続手段４４は、図４（ｂ）に示すように、話速変換後の音声データＡに対して０．５２５秒の無音を接続する。

次に、音声再生装置１は、音声データＢの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「１１−（９．１＋０．５２５）＝１．３７５秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２＋１＝３秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＢの伸縮率「１．３７５／３≒０．４５８」を算出する。

次に、目標時間長算出手段４１は、前記した式（６）によって音声データＢの目標時間長「（２＋１）×０．４５８＝１．３７５秒」を算出する。そして、話速変換手段４３は、図４（ａ）、（ｃ）に示すように、音声データＢの話速変換を行う。ここで、音声データＢの話速変換を行った場合、当該話速変換後の音声データＢの長さが、話速変換前の音声データＢの長さに伸縮率を乗算した長さ「２×０．４５８＝０．９１７秒」となることが理想的であるが、ここでは図４（ｃ）に示すように、話速変換時の誤差により、話速変換後の音声データＢの長さが「０．９秒」となり、前記した理想的な長さよりも０．０１７秒短くなったものとする。

次に、時間長差分算出手段４２は、前記した式（７）によって音声データＢの時間長差分「１．３７５−０．９＝０．４７５秒」を算出する。次に、無音接続手段４４は、図４（ｂ）に示すように、話速変換後の音声データＢに対して０．４７５秒の無音を接続し、無音付音声データを生成する。

ここで、前記した特許文献１で提案された技術では、図１３に示すように、音声データの長さに応じて無音の長さが変動し、短い音声データＢにほとんど無音が含まれない場合がある。一方、本発明は、図４の例からも分かるように、短い音声データＢにも十分な間が含まれる結果となる。

なお、音声再生装置１は、前記したように、伸縮率算出手段３３によって複数の音声データのうち、予め定められた数の音声データごとに伸縮率を算出し、話速変換手段４３によって複数の音声データのうち、予め定められた数の音声データごとに前記した伸縮率に従って話速変換を行う。従って、音声再生装置１によれば、音声の再生前に全ての音声データの話速変換を行うのではなく、音声の再生中にその都度伸縮率や無音の長さを調整しながら一部ずつ話速変換を行うため、再生時に何らかの不具合が生じたり、もしくは終了時間の変更が行われて指定時間長が変動した場合であっても、音声データを指定時間長ちょうどに収めて再生することができる。

以上のような構成を備える音声再生装置１によれば、目標時間算出手段４１によって、話速変換前の音声データの長さのみならず、当該音声データに接続される無音の長さも考慮して話速変換後の目標時間長を算出するため、当該目標時間長内に無音を割り当てるための時間を確保することができる。そのため、音声再生装置１は、無音接続手段４４によって話速変換後の音声データに無音を接続する際に、当該無音の長さが極端に短くなることがない。また、音声再生装置１は、無音接続手段４４によって、予め算出した目標時間長から話速変換後の実際の音声データの長さを差し引いた無音を、話速変換後の音声データに接続するため、例えば話速変換の際に音声の基本周期の単位で誤差が生じた場合であっても、無音によってその誤差を吸収することができる。

従って、音声再生装置１によれば、話速変換後の音声データに接続される無音が極端に短くなることがないため、音声データの構成によらず、聞き取りやすい話速と自然な音声の間を実現することができる。また、音声再生装置１によれば、話速変換の際に発生した誤差を無音によって吸収することができるため、複数の音声データを例えば一番組分の指定時間長ちょうどに収めて再生することができる。

［音声再生装置の処理手順］
第１実施形態に係る音声再生装置１の処理手順について、図５を参照（適宜図１および図２を参照）しながら説明する。

音声再生装置１は、まず音声入力手段１０によって、外部から入力される音声データ再生リストに従って、音声データ記憶手段２０に記憶されている音声データを必要なだけ読み込む（ステップＳ１）。次に、音声再生装置１は、伸縮率算出手段３３によって、前記した式（５）を用いて音声データの伸縮率を算出する（ステップＳ２）。次に、音声再生装置１は、目標時間長算出手段４１によって、前記した式（６）を用いて音声データの目標時間長を算出する（ステップＳ３）。次に、音声再生装置１は、話速変換手段４３によって、音声データの話速変換を行う（ステップＳ４）。

次に、音声再生装置１は、時間長差分算出手段４２によって、前記した式（７）を用いて時間長差分を算出する（ステップＳ５）。次に、音声再生装置１は、無音接続手段４４によって、話速変換後の音声データに時間長差分に相当する長さの無音を接続する（ステップＳ６）。次に、音声再生装置１は、音声バッファリング手段５０によって、無音付音声データを保存する（ステップＳ７）。そして、音声再生装置１は、音声再生手段６０によって、音声デバイスを介して音声バッファリング手段５０に保存されている無音付音声データを再生し（ステップＳ８）、処理を終了する。

＜第２実施形態＞
［音声再生装置の構成］
本発明の第２実施形態に係る音声再生装置１Ａの構成について、図６〜図１１を参照しながら説明する。ここで、音声再生装置１Ａは、図６に示すように、伸縮率決定手段３０の代わりに伸縮率決定手段３０Ａを備え、話速変換無音接続手段４０の代わりに話速変換無音接続手段４０Ａを備え、図７の無音割当時間算出手段７０および無音長算出手段８０を新たに備えること以外は、前記した第１実施形態に係る音声再生装置１と同様の構成を備えている。従って、以下では前記した音声再生装置１と重複する構成については、適宜説明を省略する。

伸縮率決定手段３０Ａは、前記した伸縮率決定手段３０と同様に、音声データの話速変換を行う際の伸縮率を決定するものであるが、伸縮率決定手段３０とは具体的な構成が異なる。すなわち、伸縮率決定手段３０Ａは、図７に示すように、前記した伸縮率決定手段３０を構成する残放送時間算出手段３１、残コンテンツ時間算出手段３２および伸縮率算出手段３３に加えて、伸縮率判定手段３４と、伸縮率置換手段３５と、除外時間算出手段３６と、を備えている。

伸縮率判定手段３４は、伸縮率が１を超えるか否か、すなわち音声データを伸長させるのか短縮させるのかを判定するものである。ここで、伸縮率が１を超える場合は、音声データを伸長させて遅く再生する場合を、伸縮率が１未満である場合は、音声データを短縮させて速く再生する場合と、伸縮率が１である場合は、音声データを等速で再生する場合を示している。伸縮率判定手段３４には、図７に示すように、伸縮率算出手段３３から伸縮率が入力される。そして、伸縮率判定手段３４は、伸縮率が１を超えるか否かを判定し、図７に示すように、当該判定結果を伸縮率置換手段３５および除外時間算出手段３６に対して出力する。

伸縮率置換手段３５は、伸縮率の値を予め定められた最大伸縮率または最小伸縮率に置き換えるものである。伸縮率置換手段３５には、図７に示すように、外部から最大伸縮率および最小伸縮率が入力され、伸縮率判定手段３４から判定結果（伸縮率算出手段３３によって算出された伸縮率の値を含む）が入力される。そして、伸縮率置換手段３５は、伸縮率判定手段３４から伸縮率が１を超えている旨の判定結果が入力され、かつ、当該伸縮率が最大伸縮率を超えている場合は、当該伸縮率を最大伸縮率に置き換え、図７に示すように、置き換えた伸縮率を話速変換手段４３、目標時間長算出手段４１Ａおよび無音割当時間算出手段７０に対して出力する。一方、伸縮率置換手段３５は、伸縮率判定手段３４から伸縮率が１未満である旨の判定結果が入力され、かつ、当該伸縮率が最小伸縮率未満である場合は、当該伸縮率を最小伸縮率に置き換え、図７に示すように、置き換えた伸縮率を話速変換手段４３、目標時間長算出手段４１Ａおよび無音割当時間算出手段７０に対して出力する。なお、伸縮率置換手段３５は、伸縮率算出手段３３によって算出された伸縮率が最大伸縮率以下および最小伸縮率以上である場合は、置換前の伸縮率（伸縮率算出手段３３によって算出された伸縮率）を話速変換手段４３、目標時間長算出手段４１Ａおよび無音割当時間算出手段７０に対して出力する。

ここで、前記した「最大伸縮率」および「最小伸縮率」は、予め実験的および経験的に求めた値であり、例えば放送用途であれば、最大伸縮率は２までの値に設定され、最小伸縮率は０．６５までの値に設定される。

除外時間算出手段３６は、除外時間を算出するものである。ここで、除外時間とは、予め設定された指定時間長から、音声入力手段１０に入力された複数の音声データの話速変換および無音の接続に最低限必要な時間長を差し引いた値のことを示している。除外時間算出手段３６には、図７に示すように、外部から最小伸縮率および無音長最小値が入力され、音声入力手段１０から残音声データの長さ（話速変換前の音声データの長さの総和）が入力され、残放送時間算出手段３１から残放送時間が入力され、伸縮率判定手段３４から判定結果が入力される。なお、前記した「無音長最小値」は、音声データに接続される最小の無音長のことを示しており、予め実験的および経験的に求められる。

そして、除外時間算出手段３６は、伸縮率判定手段３４から伸縮率が１未満である旨の判定結果が入力された場合、以下の式（８）に示すように、残音声データの長さに最小伸縮率を乗算し、当該乗算した値に、無音長最小値に対して話速変換後の音声データに接続される無音の数を乗じた値を加算し、当該加算した値から残放送時間を減算することで、除外時間を算出する。

除外時間＝残音声データの長さ×最小伸縮率＋無音長最小値×無音の数−残放送時間・・・式（８）

ここで、音声データ間に挿入される無音は、例えば文と文との間に挿入される「文間無音」と、フレーズとフレーズの間に挿入される「フレーズ間無音」とに区分することができる。除外時間算出手段３６は、このような２種類の無音を考慮して除外時間を算出することも可能である。この場合、除外時間算出手段３６には、無音長最小値の代わりに、外部から文間無音最小値およびフレーズ間無音最小値が入力される。なお、前記した「文間無音最小値」および「フレーズ間無音最小値」は、それぞれ音声データに接続される最小の文間無音長およびフレーズ間無音長のことを示しており、予め実験的および経験的に求められる。

そして、除外時間算出手段３６は、伸縮率判定手段３４から伸縮率が１未満である旨の判定結果が入力された場合、以下の式（９）に示すように、残音声データの長さに最小伸縮率を乗算し、当該乗算した値に、文間無音長最小値に対して話速変換後の音声データに接続される文間無音の数を乗じた値と、フレーズ間無音長最小値に対して話速変換後の音声データに接続されるフレーズ間無音の数を乗じた値とを加算し、当該加算した値から残放送時間を減算することで、除外時間を算出する。なお、前記した文間無音の数とフレーズ間無音の数は、話速変換前の音声データの種類によって定められ、ここでは音声入力手段１０から残音声データの長さとともに入力される。

除外時間＝残音声データの長さ×最小伸縮率＋文間無音長最小値×文間無音の数＋フレーズ間無音長最小値×フレーズ間無音の数−残放送時間・・・式（９）

除外時間算出手段３６は、前記した式（８）または式（９）によって除外時間を算出した後、当該除外時間が正の値であるか負の値であるかを判定する。ここで、除外時間が正の値であるとは、予め定められた指定時間長よりも、音声入力手段１０に入力された複数の音声データの話速変換および無音の接続に最低限必要な時間長のほうが長く、そのまま話速変換すると指定時間長に収まらないことを示している。一方、除外時間が負の値であるとは、予め定められた指定時間長よりも、音声入力手段１０に入力された複数の音声データの話速変換および無音の接続に最低限必要な時間長のほうが短く、そのまま話速変換しても指定時間長に十分収まることを示している。このように、除外時間算出手段３６は、話速変換手段４３によって話速変換を行う前に、話速変換後かつ無音接続後の音声データが指定時間長に収まるか否かの判定を予め行っている。

そして、除外時間算出手段３６は、算出した除外時間が負の値である場合、すなわち話速変換後かつ無音接続後の音声データが指定時間長に収まる場合は、図７に示すように、無音割当時間算出手段７０に対して無音長割当時間算出指示を出力し、当該無音割当時間算出手段７０に話速変換後の音声データに接続する無音割当時間を算出させる。

一方、除外時間算出手段３６は、算出した除外時間が正の値である場合、すなわち話速変換後かつ無音接続後の音声データが指定時間長に収まりきらない場合は、音声入力手段１０に対して再生リスト削除指示を出力し、当該音声入力手段１０の図示しないメモリ上に蓄えられた話速変換前の複数の音声データのうち、前記した音声データ再生リストの最後に記載された音声データを削除させる。すなわち、除外時間算出手段３６は、指定時間長が複数の音声データの話速変換および無音の接続に最低限必要な時間長よりも短い場合は、音声入力手段１０に入力さえた複数の音声のうち、最後に再生される音声データを削除する。

そして、除外時間算出手段３６は、前記した式（８）または式（９）によって除外時間を再計算する。これにより、最初に除外時間を算出した場合よりも音声データの数が少ない状態、すなわち前記した式（８）または式（９）における「残音声データの長さ（話速変換前の音声データの長さの総和）」が短い状態で除外時間を再計算することになるため、当該除外時間の値が変化することになる（具体的には値が小さくなる）。

除外時間算出手段３６は、除外時間が負の値となるまで音声入力手段１０内の音声データを音声データ再生リストの下から順番に１つずつ削除しながら、前記した式（８）または式（９）により除外時間の算出処理を繰り返す。そして、除外時間算出手段３６は、除外時間が負の値となった場合、除外時間の算出処理を終了し、図７に示すように、無音割当時間算出手段７０に対して無音長割当時間算出指示を出力する。

なお、除外時間算出手段３６によって音声入力手段１０内の音声データを削除していく場合、残音声データの長さ（話速変換前の音声データの長さの総和）がどんどん短くなる。従って、除外時間算出手段３６は、算出した除外時間が正の値である場合、音声入力手段１０に対して再生リスト削除指示を出力すると同時に、図７に示すように、伸縮率算出手段３３に対しても伸縮率再計算指示を出力する。これにより、伸縮率算出手段３３は、最初に伸縮率を算出した場合よりも音声データの数が少ない状態、すなわち前記した式（３）〜式（５）における「残音声データの長さ」が短い状態で伸縮率を再計算することになるため、当該伸縮率の値が変化することになる（具体的には値が大きくなる）。そして、伸縮率算出手段３３は、図７に示すように、算出した伸縮率を伸縮率判定手段３４に対して再度出力する。以上のような処理を行うことで、音声再生装置１Ａは、残音声データの長さが短くなった場合であっても伸縮率を再計算して調整することができる。

また、本発明を実際の放送番組の音声を再生するために利用した場合において、前記した除外時間算出手段３６における処理によって音声データ再生リストの最後に記載された音声データを削除すると、放送番組の最後の音声が再生されないことになるため、この場合は、例えばテレビ画面上にお詫びコメントなどを表示したり、ラジオの場合にはお詫びコメントを最後に挿入したりすることで、音声の不足を視聴者に通知する処理を行う。

無音割当時間算出手段７０は、指定時間長において無音を割り当てる時間を算出するものである。無音割当時間算出手段７０には、図７に示すように、音声入力手段１０から残音声データの長さが入力され、残放送時間算出手段３１から残放送時間が入力され、伸縮率置換手段３５から伸縮率が入力され、除外時間算出手段３６から無音長割当時間算出指示が入力される。なお、伸縮率置換手段３５から入力される伸縮率は、伸縮率算出手段３３によって算出された伸縮率が最大伸縮率以下および最小伸縮率以上である場合は、置換前の伸縮率（伸縮率算出手段３３によって算出された伸縮率）となり、伸縮率算出手段３３によって算出された伸縮率が最大伸縮率を超える場合は最大伸縮率に置換後の伸縮率となり、伸縮率算出手段３３によって算出された伸縮率が最小伸縮率未満である場合は最小伸縮率に置換後の伸縮率となる。

そして、無音割当時間算出手段７０は、以下の式（１０）に示すように、残放送時間から、残音声データの長さ（話速変換前の音声データの長さの総和）に伸縮率（あるいは最大伸縮率、最小伸縮率）を乗算した値を減算することで、無音割当時間を算出し、図７に示すように、当該無音割当時間を無音長算出手段８０に対して出力する。

無音割当時間＝残放送時間−残音声データの長さ×伸縮率・・・式（１０）

無音長算出手段８０は、話速変換後の音声データに接続する個々の無音の長さを算出するものである。無音長算出手段８０には、外部から無音長最大値および無音長最小値が入力され、無音割当時間算出手段７０から無音割当時間が入力される。そして、無音長算出手段８０は、話速変換後の音声データに接続される無音の長さがそれぞれ同じである場合は、以下の式（１１）に示すように、無音割当時間を話速変換後の音声データに接続される無音の数で除算することで、個々の無音の長さを算出し、図７に示すように、当該無音の長さを目標時間長算出手段４１Ａに対して出力する。

無音の長さ＝無音割当時間／無音の数・・・式（１１）

なお、無音長算出手段８０は、前記した式（１１）によって算出した無音の長さが前記した無音長最大値を超える場合、算出した無音の長さの代わりに無音長最大値を目標時間長算出手段４１Ａに対して出力する。一方、無音長算出手段８０は、前記した式（１１）によって算出した無音の長さが前記した無音長最小値未満である場合、算出した無音の長さの代わりに無音長最小値を目標時間長算出手段４１Ａに対して出力する。このような処理により、音声再生装置１Ａは、音声データに対して不自然に長い無音や不自然に短い無音が接続されることを防止することができる。

ここで、音声データ間に挿入される無音は、「文間無音」と「フレーズ間無音」とに区分することができる。無音長算出手段８０は、このような２種類の無音を考慮して文間無音の長さとフレーズ間無音の長さとを算出することも可能である。この場合、無音長算出手段８０には、無音長最大値および無音長最小値の代わりに、外部からフレーズ間無音最大値、フレーズ間無音最小値、文間基準無音長およびフレーズ間基準無音長が入力される。なお、前記した「文間基準無音長」および「フレーズ間基準無音長」は、無音接続前における基準となる文間無音およびフレーズ間無音の長さのことを示している。

そして、無音長算出手段８０は、以下の式（１２）に示すように、無音割当時間に、フレーズ間基準無音長の総和に文間基準無音長の総和を加算した値を乗算し、当該乗算した値をフレーズ間基準無音長の総和で除算することで、フレーズ間無音割当時間を算出する。また、無音長算出手段８０は、以下の式（１３）に示すように、フレーズ間無音割当時間を話速変換後の音声データに接続されるフレーズ間無音の数で除算することで、個々のフレーズ間無音の長さを算出し、当該フレーズ間無音の長さを目標時間長算出手段４１Ａに対して出力する。

フレーズ間無音割当時間＝無音割当時間／（フレーズ間基準無音長の総和＋文間基準無音長の総和）×フレーズ間基準無音長の総和・・・式（１２）
フレーズ間無音の長さ＝フレーズ間無音割当時間／フレーズ間無音の数・・・式（１３）

さらに、無音長算出手段８０は、以下の式（１４）に示すように、無音割当時間から、前記した式（１３）で算出したフレーズ間無音長に話速変換後の音声データに接続されるフレーズ間無音の数を乗算した値を減算することで、文間無音割当時間を算出する。また、無音長算出手段８０は、以下の式（１５）に示すように、文間無音割当時間を話速変換後の音声データに接続される文間無音の数で除算することで、個々の文間無音の長さを算出し、当該文間無音の長さを目標時間長算出手段４１Ａに対して出力する。

文間無音割当時間＝無音割当時間−フレーズ間無音長×フレーズ間無音の数・・・式（１４）
文間無音の長さ＝文間無音割当時間／文間無音の数・・・式（１５）

このように、無音長算出手段８０は、話速変換後の音声データに接続される無音の長さが接続される位置によって異なる場合は、無音の長さの総和に対するそれぞれの無音の長さの比に応じて無音割当時間を案分することで、個々の無音（フレーズ間無音および文間無音）の長さを算出することができる。

目標時間長算出手段４１Ａは、前記した目標時間長算出手段４１と同様に、個々の音声データの話速変換後の目標時間長を算出するものであるが、目標時間長算出手段４１とは具体的な処理内容が異なる。すなわち、目標時間長算出手段４１Ａには、図６に示すように、音声入力手段１０から残音声データの長さが入力され、伸縮率決定手段３０Ａ内の伸縮率置換手段３５（図７参照）から伸縮率が入力され、無音長算出手段８０から無音の長さが入力される。なお、伸縮率決定手段３０Ａ内の伸縮率置換手段３５（図７参照）から入力される伸縮率は、伸縮率算出手段３３によって算出された伸縮率が最大伸縮率以下および最小伸縮率以上である場合は、置換前の伸縮率（伸縮率算出手段３３によって算出された伸縮率）となり、伸縮率算出手段３３によって算出された伸縮率が最大伸縮率を超える場合は置換後の伸縮率（伸縮率置換手段３５によって置き換えられた最大伸縮率）となり、伸縮率算出手段３３によって算出された伸縮率が最小伸縮率未満である場合は置換後の伸縮率（伸縮率置換手段３５によって置き換えられた最小伸縮率）となる。

そして、目標時間長算出手段４１Ａは、以下の式（１６）に示すように、話速変換前の音声データの長さに伸縮率を乗算し、当該乗算した値に無音長算出手段８０によって算出された無音の長さを加算することで、個々の音声データの目標時間長を算出し、図６に示すように、当該目標時間長を時間長差分算出手段４２に対して出力する。なお、目標時間長算出手段４１Ａは、個々の音声データごとに目標時間長を算出するため、例えば音声データの数が４つの場合は目標時間長も４つ分算出する。

目標時間長＝（話速変換前の音声データの長さ×伸縮率）＋無音長算出手段によって算出された無音の長さ・・・式（１６）

なお、前記したように、無音の長さを「文間無音」と「フレーズ間無音」とに区分する場合は、目標時間長算出手段４１Ａは、以下の式（１７）および式（１８）によって、文間無音が接続される音声データの目標時間長と、フレーズ間無音が接続される音声データの目標時間長とをそれぞれ算出し、図６に示すように、これらの目標時間長を時間長差分算出手段４２に対して出力する。

目標時間長（文間無音）＝（話速変換前の音声データの長さ×伸縮率）＋無音長算出手段によって算出された文間無音の長さ・・・式（１７）
目標時間長（フレーズ間無音）＝（話速変換前の音声データの長さ×伸縮率）＋無音長算出手段によって算出されたフレーズ間無音の長さ・・・式（１８）

音声再生装置１Ａは、以上のような処理によって目標時間長を算出した上で、前記した音声再生装置１と同様に、話速変換手段４３によって話速変換を行い、時間長差分算出手段４２によって前記した式（７）を用いて時間長差分を算出し、無音接続手段４４によって無音を接続して無音付音声データを生成する。そして、音声再生装置１Ａは、音声バッファリング手段５０によって無音付音声データを保存し、音声再生手段６０によって、音声デバイスを介して音声バッファリング手段５０に保存されている無音付音声データを再生する。

（話速変換・無音接続処理の具体例）
以下、本発明における話速変換・無音接続処理の具体例について、図８〜図１１（適宜図６および図７を参照）を参照しながら説明する。ここでは、図８〜図１１に示すように、４つの音声データを伸長する場合と短縮する場合とに分けてそれぞれ説明することとする。そして、以下の説明では、音声データの伸縮率について、小数点以下４桁以降を切り上げて表記するが、実際には小数点以下を切り上げずに計算を行っているため、値を代入した式と当該式によって算出された値とが対応していない場合がある。

（１）音声データを伸長する場合
以下では、例えば図８（ａ）に示すように、音声データＡ，Ｂ，Ｃ，Ｄがそれぞれフレーズを構成し、音声データＡ，Ｂと音声データＣ，Ｄとがそれぞれ文を構成する場合において、２．５秒の音声データＡ，Ｃにそれぞれ０．３秒のフレーズ間無音を接続するとともに、２．５秒の音声データＢ，Ｄにそれぞれ０．７秒の文間無音を接続し、話速変換によってこれらを指定時間長「２０秒」に収める場合を考える。また、以下では、音声入力手段１０に入力された４つの音声データＡ，Ｂ，Ｃ，Ｄを２つずつ話速変換するとともに、予め定められた最大伸縮率が１．５である場合について説明する。

まず、音声再生装置１Ａは、音声データＡ，Ｂの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「２０−０＝２０秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２．５＋２．５＋２．５＋２．５＋０．３＋０．３＋０．７＋０．７＝１２秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＡ，Ｂの伸縮率「２０／１２≒１．６６７」を算出する。

次に、伸縮率判定手段３４は、「１．６６７＞１」であるため、伸縮率が１を超える旨を判定する。次に、伸縮率置換手段３５は、「１．６６７＞１．５」であるため、伸縮率「１．６６７」を最大伸縮率「１．５」に置き換える。次に、無音割当時間算出手段７０は、図８（ｂ）に示すように、前記した式（１０）によって無音割当時間「２０−１０×１．５＝５秒」を算出する。なお、図８（ｂ）に示すように、指定時間長から無音割当時間を除いたものが話速変換後の音声データを割り当てる時間を示す音声データ割当時間となる。次に、無音長算出手段８０は、前記した式（１２）および式（１３）によって、フレーズ間無音割当時間「５／（０．６＋１．４）×０．６＝１．５秒」と、フレーズ間無音長「１．５／２＝０．７５秒」とを算出し、前記した式（１４）および式（１５）によって、文間無音割当時間「５−０．７５×２＝３．５秒」と、文間無音長「３．５／２＝１．７５秒」とを算出する。

次に、目標時間長算出手段４１Ａは、前記した式（１８）によって、音声データＡおよび当該音声データＡに接続されるフレーズ間無音の目標時間長「（２．５×１．５）＋０．７５＝４．５秒」を算出し、前記した式（１７）によって、音声データＢおよび当該音声データＢに接続される文間無音の目標時間長「（２．５×１．５）＋１．７５＝５．５秒」を算出する。そして、話速変換手段４３は、図９（ａ）、（ｂ）に示すように、音声データＡ，Ｂの話速変換を行う。ここで、音声データＡ，Ｂの話速変換を行った場合、当該話速変換後の音声データＡ，Ｂの長さが、話速変換前の音声データＡ，Ｂの長さに伸縮率を乗算した長さ「２．５×１．５＝３．７５秒」となることが理想的であるが、ここでは図９（ｂ）に示すように、話速変換時の誤差により、話速変換後の音声データＡ，Ｂの長さが「３．７秒」となり、前記した理想的な長さよりも０．０５秒短くなったものとする。

次に、時間長差分算出手段４２は、前記した式（７）によって、音声データＡの時間長差分「４．５−３．７＝０．８秒」と、音声データＢの時間長差分「５．５−３．７＝１．８秒」とを算出する。次に、無音接続手段４４は、図９（ｂ）に示すように、話速変換後の音声データＡに対して０．８秒の無音を接続し、話速変換後の音声データＢに対して１．８秒の無音を接続する。

次に、音声再生装置１Ａは、音声データＣ，Ｄの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「２０−（３．７＋３．７＋０．８＋１．８）＝１０秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２．５＋２．５＋０．３＋０．７＝６秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＣ，Ｄの伸縮率「１０／６≒１．６６７」を算出する。

次に、伸縮率判定手段３４は、「１．６６７＞１」であるため、伸縮率が１を超える旨を判定する。次に、伸縮率置換手段３５は、「１．６６７＞１．５」であるため、伸縮率「１．６６７」を最大伸縮率「１．５」に置き換える。次に、無音割当時間算出手段７０は、前記した式（１０）によって無音割当時間「１０−５×１．５＝２．５秒」を算出する。次に、無音長算出手段８０は、前記した式（１２）および式（１３）によって、フレーズ間無音割当時間「２．５／（０．３＋０．７）×０．３＝０．７５秒」と、フレーズ間無音長「０．７５／１＝０．７５秒」とを算出し、前記した式（１４）および式（１５）によって、文間無音割当時間「２．５−０．７５×１＝１．７５秒」と、文間無音長「１．７５／１＝１．７５秒」とを算出する。

次に、目標時間長算出手段４１Ａは、前記した式（１７）によって、音声データＣおよび当該音声データＣに接続されるフレーズ間無音の目標時間長「（２．５×１．５）＋０．７５＝４．５秒」を算出し、前記した式（１８）によって、音声データＤおよび当該音声データＤに接続される文間無音の目標時間長「（２．５×１．５）＋１．７５＝５．５秒」を算出する。そして、話速変換手段４３は、図９（ａ）、（ｃ）に示すように、音声データＣ，Ｄの話速変換を行う。ここで、音声データＣ，Ｄの話速変換を行った場合、当該話速変換後の音声データＣ，Ｄの長さが、話速変換前の音声データＣ，Ｄの長さに伸縮率を乗算した長さ「２．５×１．５＝３．７５秒」となることが理想的であるが、ここでは図９（ｃ）に示すように、話速変換時の誤差により、話速変換後の音声データＣ，Ｄの長さが「３．７秒」となり、前記した理想的な長さよりも０．０５秒短くなったものとする。

次に、時間長差分算出手段４２は、前記した式（７）によって、音声データＣの時間長差分「４．５−３．７＝０．８秒」と、音声データＤの時間長差分「５．５−３．７＝１．８秒」とを算出する。次に、無音接続手段４４は、図９（ｃ）に示すように、話速変換後の音声データＣに対して０．８秒の無音を接続し、話速変換後の音声データＤに対して１．８秒の無音を接続する。

ここで、前記した特許文献１で提案された技術では、伸縮率の最大値を設けていないため、音声データの長さが伸長されて不自然な音声が再生される場合がある。一方、本発明は、図９の例からも分かるように、音声データの伸長を一定範囲内に制限することができるため、自然な音声を再生することができる。

（２）音声データを短縮する場合
以下では、例えば図１０（ａ）に示すように、音声データＡ，Ｂ，Ｃ，Ｄがそれぞれフレーズを構成し、音声データＡ，Ｂと音声データＣ，Ｄとがそれぞれ文を構成する場合において、２．５秒の音声データＡ，Ｃにそれぞれ０．３秒のフレーズ間無音を接続するとともに、２．５秒の音声データＢ，Ｄにそれぞれ０．７秒の文間無音を接続し、話速変換によってこれらを指定時間長「６秒」に収める場合を考える。また、以下では、音声入力手段１０に入力された４つの音声データＡ，Ｂ，Ｃ，Ｄを２つずつ話速変換するとともに、予め定められた最小伸縮率が０．６５であり、文間無音長最小値が０．２であり、フレーズ間無音長最小値が０．１である場合について説明する。

まず、音声再生装置１Ａは、音声データＡ，Ｂの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「６−０＝６秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２．５＋２．５＋２．５＋２．５＋０．３＋０．３＋０．７＋０．７＝１２秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＡ，Ｂの伸縮率「６／１２＝０．５」を算出する。

次に、伸縮率判定手段３４は、「０．５＜１」であるため、伸縮率が１未満である旨を判定する。次に、伸縮率置換手段３５は、「０．５＜０．６５」であるため、伸縮率「０．５」を最小伸縮率「０．６５」に置き換える。次に、除外時間算出手段３６は、図１０（ｂ）に示すように、前記した式（９）によって除外時間「（１０×０．６５＋０．２×２＋０．１×２）−６＝１．１秒」を算出する。

次に、除外時間算出手段３６は、算出された除外時間が正の値であるため、音声入力手段１０の図示しないメモリ上に蓄えられた話速変換前の複数の音声データのうち、前記した音声データ再生リストの最後に記載された音声データを削除し、図１０（ｃ）に示すように、前記した式（９）によって再度除外時間「（７．５×０．６５＋０．２×１＋０．１×２）−６＝−０．７２５秒」を算出する。次に、除外時間算出手段３６は、算出された除外時間が負の値であるため、無音割当時間算出手段７０に対して無音長割当時間算出指示を出力する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＡ，Ｂの伸縮率「６／８．８≒０．６８２」を算出する。

次に、無音割当時間算出手段７０は、図１０（ｄ）に示すように、前記した式（１０）によって無音割当時間「６−７．５×０．６８２＝０．８８５秒」を算出する。次に、無音長算出手段８０は、前記した式（１２）および式（１３）によって、フレーズ間無音割当時間「０．８８５／（０．６＋０．７）×０．６＝０．４０８秒」と、フレーズ間無音長「０．４０８／２＝０．２０４秒」とを算出し、前記した式（１４）および式（１５）によって、文間無音割当時間「０．８８５−０．２０４×２＝０．４７７」と、文間無音長「０．４７７／１＝０．４７７秒」とを算出する。

次に、目標時間長算出手段４１Ａは、前記した式（１８）によって、音声データＡおよび当該音声データＡに接続されるフレーズ間無音の目標時間長「（２．５×０．６８２）＋０．２０４＝１．９０９秒」を算出し、前記した式（１７）によって、音声データＢおよび当該音声データＢに接続される文間無音の目標時間長「（２．５×０．６８２）＋０．４７７＝２．１８２秒」を算出する。そして、話速変換手段４３は、図１１（ａ）、（ｂ）に示すように、音声データＡ，Ｂの話速変換を行う。ここで、音声データＡ，Ｂの話速変換を行った場合、当該話速変換後の音声データＡ，Ｂの長さが、話速変換前の音声データＡ，Ｂの長さに伸縮率を乗算した長さ「２．５×０．６８２＝１．７０５秒」となることが理想的であるが、ここでは図９（ｂ）に示すように、話速変換時の誤差により、話速変換後の音声データＡ，Ｂの長さが「１．７秒」となり、前記した理想的な長さよりも０．００５秒短くなったものとする。

次に、時間長差分算出手段４２は、前記した式（７）によって、音声データＡの時間長差分「１．９０９−１．７＝０．２０９秒」と、音声データＢの時間長差分「２．１８２−１．７＝０．４８２秒」とを算出する。次に、無音接続手段４４は、図１１（ｂ）に示すように、話速変換後の音声データＡに対して０．２０９秒の無音を接続し、話速変換後の音声データＢに対して０．４８２秒の無音を接続する。

次に、音声再生装置１Ａは、音声データＣの処理を行う。この場合、残放送時間算出手段３１は、前記した式（３）によって残放送時間「６−（１．７＋１．７＋０．２０９＋０．４８２）＝１．９０９秒」を算出する。また、残コンテンツ時間算出手段３２は、前記した式（４）によって残コンテンツ時間「２．５＋０．３＝２．８秒」を算出する。そして、伸縮率算出手段３３は、前記した式（５）によって音声データＣの伸縮率「１．９０９／２．８＝０．６８２」を算出する。

次に、伸縮率判定手段３４は、「０．６８２＜１」であるため、伸縮率が１未満である旨を判定する。次に、伸縮率置換手段３５は、「０．６８２＞０．６５」であるため、伸縮率「０．６８２」を最小伸縮率「０．６５」に置き換えずにそのままとする。次に、無音割当時間算出手段７０は、前記した式（１０）によって無音割当時間「１．９０９−２．５×０．６８２＝０．２０４秒」を算出する。次に、無音長算出手段８０は、前記した式（１２）および式（１３）によって、フレーズ間無音割当時間「０．２０４／０．３×０．３＝０．２０４秒」と、フレーズ間無音長「０．２０４／１＝０．２０４秒」とを算出する。

次に、目標時間長算出手段４１Ａは、前記した式（１８）によって、音声データＣおよび当該音声データＣに接続されるフレーズ間無音の目標時間長「（２．５×０．６８２）＋０．２０４＝１．９０９秒」を算出する。そして、話速変換手段４３は、図１１（ａ）、（ｃ）に示すように、音声データＣの話速変換を行う。ここで、音声データＣ，Ｄの話速変換を行った場合、当該話速変換後の音声データＣ，Ｄの長さが、話速変換前の音声データＣ，Ｄの長さに伸縮率を乗算した長さ「２．５×０．６８２＝１．７０５秒」となることが理想的であるが、ここでは図９（ｃ）に示すように、話速変換時の誤差により、話速変換後の音声データＣ，Ｄの長さが「１．７秒」となり、前記した理想的な長さよりも０．００５秒短くなったものとする。

次に、時間長差分算出手段４２は、前記した式（７）によって音声データＣの時間長差分「１．９０９−１．７＝０．２０９秒」を算出する。次に、無音接続手段４４は、図１１（ｃ）に示すように、話速変換後の音声データＣに対して０．２０９秒の無音を接続する。

ここで、前記した特許文献１で提案された技術では、音声データに接続される無音（間）に最小値を設ける旨も提案されているが、単に無音の長さを制限するだけでは音声データを指定時間長に収められない場合がある。一方、本発明は、図１１の例からも分かるように、指定時間長よりも、音声入力手段１０に入力された複数の音声データの話速変換および無音の接続に最低限必要な時間長のほうが長い場合は、音声データ自体を削除して時間を確保するため、必ず指定時間長に収めることが可能となる。

以上のような構成を備える音声再生装置１Ａは、伸縮率置換手段３５によって、音声データの話速変換を行う際の伸縮率を、予め実験的および経験的に求めた最大伸縮率以下または最小伸縮率以上とすることができる。また、音声再生装置１Ａは、除外時間算出手段３６によって、話速変換後の音声データおよび無音の長さが指定時間長を超えるか否かを予め算出することができる。

従って、音声再生装置１Ａは、話速変換前の音声データおよび無音の長さよりも指定時間長のほうが長い場合において、音声データの長さが伸長されすぎて必要以上に遅い音声となることを防止するとともに、話速変換前の音声データおよび無音の長さよりも指定時間長のほうが短い場合において、音声データの長さが短縮されすぎて必要以上に速い音声となることを防止し、聞きやすい音声で自動放送を行うことができる。

［音声再生装置の処理手順］
第２実施形態に係る音声再生装置１Ａの処理手順について、図１２を参照（適宜図６および図７を参照）しながら説明する。

音声再生装置１Ａは、まず音声入力手段１０によって、外部から入力される音声データ再生リストに従って、音声データ記憶手段２０に記憶されている音声データを必要なだけ読み込む（ステップＳ１１）。次に、音声再生装置１Ａは、伸縮率算出手段３３によって、前記した式（５）を用いて音声データの伸縮率を算出する（ステップＳ１２）。次に、音声再生装置１Ａは、伸縮率判定手段３４によって、伸縮率が１を超えるか否かを判定する（ステップＳ１３）。

音声再生装置１Ａは、伸縮率が１を超える場合（ステップＳ１３においてＹｅｓ）、伸縮率置換手段３５によって、伸縮率が最大伸縮率を超えるか否かを判定する（ステップＳ１４）。そして、音声再生装置１Ａは、伸縮率が最大伸縮率以下である場合（ステップＳ１４においてＮｏ）、ステップＳ１６に進む。一方、音声再生装置１Ａは、伸縮率が最大伸縮率を超える場合（ステップＳ１４においてＹｅｓ）、伸縮率置換手段３５によって、当該伸縮率を最大伸縮率に置き換え（ステップＳ１５）、ステップＳ１６に進む。

次に、音声再生装置１Ａは、無音割当時間算出手段７０によって、前記した式（１０）（または式（１２）および式（１４））を用いて無音割当時間（またはフレーズ間無音割当時間および文間無音割当時間）を算出する（ステップＳ１６）。次に、音声再生装置１Ａは、無音長算出手段８０によって、前記した式（１１）（または式（１３）および式（１５））を用いて無音の長さ（またはフレーズ間無音の長さおよび文間無音の長さ）を算出する（ステップＳ１７）。次に、音声再生装置１Ａは、目標時間長算出手段４１Ａによって、前記した式（１６）（または式（１７）および式（１８））を用いて音声データの目標時間長を算出する（ステップＳ１８）。次に、音声再生装置１Ａは、話速変換手段４３によって、音声データの話速変換を行う（ステップＳ１９）。

次に、音声再生装置１Ａは、時間長差分算出手段４２によって、前記した式（７）を用いて時間長差分を算出する（ステップＳ２０）。次に、音声再生装置１Ａは、無音接続手段４４によって、話速変換後の音声データに時間長差分に相当する長さの無音を接続する（ステップＳ２１）。次に、音声再生装置１Ａは、音声バッファリング手段５０によって、無音付音声データを保存する（ステップＳ２２）。そして、音声再生装置１Ａは、音声再生手段６０によって、音声デバイスを介して音声バッファリング手段５０に保存されている無音付音声データを再生し（ステップＳ２３）、処理を終了する。

ここで、音声再生装置１Ａは、前記したステップＳ１３において、伸縮率が１未満である場合（ステップＳ１３においてＮｏ）、除外時間算出手段３６によって、前記した式（８）（または式（９））を用いて除外時間を算出する（ステップＳ２４）。次に、音声再生装置１Ａは、除外時間算出手段３６によって、除外時間が負の値であるか否かを判定する（ステップＳ２５）。そして、音声再生装置１Ａは、除外時間が負の値ではない場合（ステップＳ２５においてＮｏ）、除外時間算出手段３６によって、音声入力手段１０の図示しないメモリ上に蓄えられた話速変換前の複数の音声データのうち、音声データ再生リストの最後に記載された音声データを削除し（ステップＳ２６）、ステップＳ１２に戻る。

一方、音声再生装置１Ａは、前記したステップＳ２５において、除外時間が負の値である場合（ステップＳ２５においてＹｅｓ）、伸縮率置換手段３５によって、伸縮率が最小伸縮率未満であるか否かを判定する（ステップＳ２７）。そして、音声再生装置１Ａは、伸縮率が最小伸縮率以上である場合（ステップＳ２７においてＮｏ）、ステップＳ１６に進む。一方、音声再生装置１Ａは、伸縮率が最小伸縮率未満である場合（ステップＳ２７においてＹｅｓ）、伸縮率置換手段３５によって、当該伸縮率を最小伸縮率に置き換え（ステップＳ２８）、ステップＳ１６に進み、ステップＳ１６〜ステップＳ２３の処理を行う。

［音声再生プログラム］
ここで、前記した音声再生装置１，１Ａは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

以上、本発明に係る音声再生装置およびそのプログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。

例えば、前記した音声再生装置１Ａは、最大伸縮率および最小伸縮率の両方を規定して話速変換を行う構成となっていたが、最大伸縮率または最小伸縮率の一方のみを規定して話速変換を行う構成であっても構わない。この場合、最大伸縮率のみを規定する場合は、伸縮率決定手段３０Ａにおける除外時間算出手段３６が不要となり、伸縮率置換手段３５には、外部から最大伸縮率のみが入力されることになる。また、最小伸縮率のみを規定する場合は、伸縮率決定手段３０Ａにおける伸縮率置換手段３５には、外部から最小伸縮率のみが入力されることになる。

１，１Ａ音声再生装置
１０音声入力手段
２０音声データ記憶手段
３０，３０Ａ伸縮率決定手段
３１残放送時間算出手段
３２残コンテンツ時間算出手段
３３伸縮率算出手段
３４伸縮率判定手段
３５伸縮率置換手段
３６除外時間算出手段
４０，４０Ａ話速変換無音接続手段
４１，４１Ａ目標時間長算出手段
４２時間長差分算出手段
４３話速変換手段
４４無音接続手段
５０音声バッファリング手段
６０音声再生手段
７０無音割当時間算出手段
８０無音長算出手段

Claims

話速変換によって、複数の音声データの再生時間長を予め定められた指定時間長に収めて再生する音声再生装置であって、
前記音声データの話速変換を行う際の伸縮率を算出する伸縮率算出手段と、
前記伸縮率算出手段によって算出された伸縮率に従って、前記音声データの話速変換を行う話速変換手段と、
話速変換前の音声データの長さに当該音声データ間の長さを示す無音の長さを加算し、当該加算した値に前記伸縮率を乗算することで、目標時間長を算出する目標時間長算出手段と、
前記目標時間長から話速変換後の音声データの長さを減算することで、両者の差分を算出する時間長差分算出手段と、
前記時間長差分算出手段によって算出された差分に相当する長さの無音を前記話速変換後の音声データに接続することで、無音付音声データを生成する無音接続手段と、
前記無音接続手段によって生成された無音付音声データを保存する音声バッファリング手段と、
前記音声バッファリング手段によって保存された無音付音声データを再生する音声再生手段と、を備え、
前記伸縮率算出手段は、前記指定時間長から前記音声バッファリング手段に保存されている前記無音付音声データの長さの総和を減算した残放送時間と、前記話速変換前の音声データの長さの総和に予め定められた無音の長さの総和を加算した残コンテンツ時間との比を、前記伸縮率として算出することを特徴とする音声再生装置。
前記伸縮率算出手段によって算出された伸縮率が１を超え、かつ、予め定められた最大伸縮率を超える場合に、当該伸縮率の値を前記最大伸縮率に置き換える伸縮率置換手段と、
前記残放送時間から、前記話速変換前の音声データの長さの総和に前記伸縮率を乗算した値を減算することで、無音割当時間を算出する無音割当時間算出手段と、
前記話速変換後の音声データに接続される無音の長さがそれぞれ同じである場合は、前記無音割当時間を前記話速変換後の音声データに接続される無音の数で除算することで、個々の無音の長さを算出し、前記話速変換後の音声データに接続される無音の長さが接続される位置によって異なる場合は、前記無音の長さの総和に対するそれぞれの無音の長さの比に応じて前記無音割当時間を案分することで、個々の無音の長さを算出する無音長算出手段と、をさらに備え、
前記目標時間長算出手段は、前記話速変換前の音声データの長さに伸縮率を乗算し、当該乗算した値に無音長算出手段によって算出された無音の長さを加算することで、前記目標時間長を算出することを特徴とする請求項１に記載の音声再生装置。
前記伸縮率算出手段によって算出された伸縮率が１未満であり、かつ、予め定められた最小伸縮率未満である場合に、前記伸縮率の値を前記最小伸縮率に置き換える伸縮率置換手段と、
前記伸縮率が１未満である場合に、前記話速変換前の音声データの長さの総和に前記最小伸縮率を乗算し、当該乗算した値に予め定められた前記無音の長さの最小値を加算し、当該加算した値から前記残放送時間を減算することで、除外時間を算出する除外時間算出手段と、
前記除外時間が負の値である場合に、前記残放送時間から、前記話速変換前の音声データの長さの総和に前記伸縮率を乗算した値を減算することで、無音割当時間を算出する無音割当時間算出手段と、
前記話速変換後の音声データに接続される無音の長さがそれぞれ同じである場合は、前記無音割当時間を前記話速変換後の音声データに接続される無音の数で除算することで、個々の無音の長さを算出し、前記話速変換後の音声データに接続される無音の長さが接続される位置によって異なる場合は、前記無音の長さの総和に対するそれぞれの無音の長さの比に応じて前記無音割当時間を案分することで、個々の無音の長さを算出する無音長算出手段と、をさらに備え、
前記目標時間長算出手段は、前記話速変換前の音声データの長さに伸縮率を乗算し、当該乗算した値に無音長算出手段によって算出された無音の長さを加算することで、前記目標時間長を算出することを特徴とする請求項１に記載の音声再生装置。
前記伸縮率算出手段は、前記複数の音声データのうち、予め定められた数の音声データごとに前記伸縮率を算出し、
前記話速変換手段は、前記複数の音声データのうち、予め定められた数の音声データごとに、前記伸縮率に従って話速変換を行うことを特徴とする請求項１から請求項３のいずれか一項に記載の音声再生装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の音声再生装置として機能させるための音声再生プログラム。