JP6405653B2

JP6405653B2 - 音声出力装置および音声出力方法

Info

Publication number: JP6405653B2
Application number: JP2014047776A
Authority: JP
Inventors: 孝和松村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2018-10-17
Anticipated expiration: 2034-03-11
Also published as: JP2015172622A

Description

本発明は、音声出力装置等に関し、例えば、市町村防災放送など屋外で拡声放送するシステムに使用されるものに関する。

市町村防災放送などの同報通信システムで使用される拡声放送は、屋外に設置された複数の音声出力装置（受信拡声装置）によって、同時に行われる。その際、拡声放送の聴取者は、複数の音声出力装置から出力された音声（拡声音声）を同時に聞く。このときに聴取者が聞く音声は、複数の音声出力装置各々から聴取者までの距離の違いに基づく伝搬遅延や、建物等により反射などの影響を受けた複数の音声が合成されたものとなる。このため、言葉が重なって聞こえたり、文節ごとの切れ目が不明確になったりするなど、複数の音声出力装置から出力された音声が聴取者にとって聞こえにくい音声になる。

そこで、音声出力装置に音声を入力する話者は、話す速度や、文節の長さや、文節間に無音時間を設けるなど、複数の音声出力装置から出力された音声が聴取者にとって聞きやすくなるように工夫をしている。

なお、本発明の参考技術が、特許文献１および特許文献２に記載されている。

特開２０１０−１５１９６５号公報特開平０４−０６９９９号公報

しかしながら、前述の話者による工夫では、音声の聞きやすさが、放送毎に異なるという問題があった。その原因として、放送内容を話す速度や、文節の長さや、文節間の無音時間の長さが、話者毎に異なる点と、同一の話者であっても毎回同じ速度や間隔で話すことが難しいという点が、挙げられている。

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる音声出力装置等を供することにある。

本発明の音声出力装置は、入力される音声データの話速度を文節毎に認識する音声認識部と、前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えている。

本発明の音声出力方法は、入力される音声データの話速度を文節毎に認識する音声認識ステップと、前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含んでいる。

本発明にかかる音声出力装置等によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

本発明の第１の実施の形態における音声出力装置の構成を示すブロック図である。本発明の第１の実施の形態における音声出力装置の動作の流れを示すフロー図である。音声認識部がメモリに記憶するデータ例を示す図である。本発明の第２の実施の形態における音声出力装置の構成を示すブロック図である。本発明の第２の実施の形態における音声出力装置の動作の流れを示すフロー図である。音声認識部がメモリに記憶するデータ例を示す図である。

＜第１の実施の形態＞
本発明の第１の実施の形態における音声出力装置１００の構成について説明する。

図１は、音声出力装置１００の構成を示すブロック図である。図１に示されるように、音声出力装置１００は、ＭＩＣ（Microphone：マイク）１０１と、Ａ／Ｄ（Analog Digital：アナログデジタル）変換部１０２と、音声認識部１０３と、メモリ１０４と、音声調整部１０５と、音声出力部１０６と、システム値設定部１０７とを備えている。

ＭＩＣ１０１は、Ａ／Ｄ変換部１０２に接続されている。ＭＩＣ１０１は、音声入力手段として機能する。ＭＩＣ１０１は、話者の音声データを集音する。

Ａ／Ｄ変換部１０２は、ＭＩＣ１０１および音声認識部１０３に接続されている。Ａ／Ｄ変換部１０２は、ＭＩＣ１０１に入力される音声データを、アナログ信号からデジタル信号へ変換する。Ａ／Ｄ変換部１０２は、音声データのデジタル信号を音声認識部１０３へ出力する。

音声認識部１０３は、Ａ／Ｄ変換部１０２およびメモリ１０４に接続されている。音声認識部１０３は、入力されるデジタル信号中の音声データの話速度および音声レベル（音声の大きさ）を文節毎に認識する。すなわち、音声認識部１０３は、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部１０３は、音声データ、話速度および音声レベルを、メモリ１０４に文節毎に記憶する。

メモリ１０４は、音声認識部１０３、音声調整部１０５およびシステム値設定部１０７に接続されている。メモリ１０４は、入力される音声データ等を記憶する。メモリ１０４の機能の詳細は、動作説明中で詳しく説明する。

音声調整部１０５は、メモリ１０４および音声出力部１０６に接続されている。音声調整部１０５は、音声認識部１０３により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。ここで、基準話速度は、システム値設定部１０７に予め設定された話速度の基準値である。基準音声レベルは、システム値設定部１０７に予め設定された音声レベルの基準値である。また、併せて、音声調整部１０５は、複数の文節間の無音時間を調整して出力用無音時間を設定する。出力用無音時間は、音声出力部１０６が出力する際の文節間の無音時間である。

音声出力部１０６は、音声調整部１０５に接続されている。音声出力部１０６は、音声調整部１０５により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力（拡声放送）する。

システム値設定部１０７は、メモリ１０４に接続されている。システム値設定部１０７は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部１０７は、基準話速度や基準音声レベルを設定して、メモリ１０４に入力する。

以上、音声出力装置１００の構成について説明した。

次に、音声出力装置１００の動作を説明する。図２は、音声出力装置１００の動作の流れを示すフロー図である。

図２に示されるように、まず、ＭＩＣ１０１が、放送において話者が話す音声データを集音する（Ｓ１）。入力された音声データは、ＭＩＣ１０１によってアナログの電気信号に変換され、Ａ／Ｄ変換部１０２へ出力される。

次に、Ａ／Ｄ変換部１０２は、ＭＩＣ１０１から入力される音声データのアナログ信号を、デジタルアナログ変換する（Ｓ２）。すなわち、Ａ／Ｄ変換部１０３は、ＭＩＣ１０１から入力される音声データのアナログ信号を、音声データのデジタル信号へ変換する。ここで、デジタル信号に変換する際の条件（例えば、ビット数、サンプリング周波数）は、放送システム毎に適したものが採用される。そして、Ａ／Ｄ変換部１０２は、音声データのデジタル信号を音声認識部１０３へ出力する。

音声認識部１０３は、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する（Ｓ３）。より具体的には、音声認識部１０３は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節を認識する。次に、音声認識部１０３は、音声データの話速度および音声レベルを文節毎に測定して分割する。そして、音声認識部１０３は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ１０４に記憶する。

ここで、図３は、音声認識部１０３がメモリ１０４に記憶するデータ例を示す図である。図３に示されるように、音声データ、話速度（話速情報）および音声レベルが、文節毎に、１つのデータとして記憶されている。

図２に戻って、次に、音声調整部１０５は、音声認識部１０３により認識された話速度および音声レベルを、システム値設定部１０７に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する（Ｓ４）。

ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部１０７により予め設定されている。基準話速度および基準音声レベルは、システム値設定部１０７によりメモリ１０４に登録されている。また、システム値設定部１０７は、音声出力部１０６が音声データを出力する際の複数の文節間の無音時間である出力用無音時間も設定し、これをメモリ１０４に登録する。なお、メモリ１０４に登録されている基準話速度、基準音声レベルおよび出力用無音時間は、システム値設定部１０７により、いつでも自由に変更することができる。

次に、音声調整部１０５の具体的な処理を説明する。まず、音声調整部１０５は、メモリ１０４から、基準話速度、基準音声レベルおよび出力用無音時間を読み出す。また、音声調整部１０５は、音声認識部１０３により文節毎に認識された話速度および音声レベルと、文節間の無音時間とをメモリ１０４等から読み出す。

音声調整部１０５は、図３の文節１に対応する各種データ（音声データ、話速情報、音声レベル）を読み出す。

音声調整部１０５は、文節１の話速度と、基準話速度とを比較する。文節１の話速度から基準話速度を引いた差分値が一定範囲内であった場合、音声調整部１０５は、文節１の話速度の調整は不要であると判定し、文節１の話速度の調整を行わず、出力話速度を設定する。この場合、音声調整部１０５は、出力話速度として、元のままの話速度で、そのままの音声データを音声出力部１０６へ出力する。

一方、文節１の話速度から基準話速度を引いた差分値が一定範囲を超えた場合、音声調整部１０５は、文節１の話速度の調整は必要であると判定し、文節１の話速度を基準話速度へ調整して、出力話速度を設定する。この場合、音声調整部１０５は、出力話速度に速度調整を行いながら音声データを音声出力部１０６へ出力する。

同様に、音声調整部１０５は、文節１の音声レベルと、基準音声レベルとを比較する。文節１の音声レベルから基準音声レベルを引いた差分値が一定範囲内であった場合、音声調整部１０５は、文節１の音声レベルの調整は不要であると判定し、文節１の音声レベルの調整を行わず、出力音声レベルを設定する。この場合、音声調整部１０５は、出力音声レベルとして、元のままの音声レベルで、そのままの音声データを音声出力部１０６へ出力する。

一方、文節１の音声レベルから基準音声レベルを引いた差分値が一定範囲を超えた場合、音声調整部１０５は、文節１の音声レベルの調整は必要であると判定し、文節１の音声レベルを基準音声レベルへ調整して、出力音声レベルを設定する。この場合、音声調整部１０５は、出力音声レベルに音量調整を行いながら音声データを音声出力部１０６へ出力する。

なお、音声調整部１０５は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部１０６へ出力する。

同様に、音声調整部１０５は、文節２、３・・・、ｎまで、順次、音声認識部１０３により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定して、音声データを音声出力部１０６へ出力する。

音声調整部１０５から音声出力部１０６への文節２の音声データの出力は、文節１の音声データの出力が終了した時間から、システム値設定部１０７により設定された出力用無音時間が経過した後に、開始される。これにより、文節１の音声再生と、文節２の音声再生の間に所定の無音時間を設けることができる。

最後に、音声出力部１０６が、音声調整部１０５により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する（Ｓ５）。このとき、音声出力部１０６は、音声データを、放送を行うシステムに適した信号形態に変換して出力する。例えば、音声データをシステムにアナログ信号として入力する必要がある場合、音声出力部１０６は、音声データをデジタル信号からアナログ信号へ変換して出力する。

なお、本実施の形態では、音声調整部１０５は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部１０６へ出力すると説明した。一方、音声調整部１０５は、話速度のみを調整しながら、音声データを音声出力部１０６へ出力してもよい。

以上の通り、本発明の第１の実施の形態における音声出力装置１００は、音声認識部１０３と、音声調整部１０５と、音声出力部１０６とを備えている。音声認識部１０３は、入力される音声データの話速度を文節毎に認識する。音声調整部１０５は、音声認識部１０３により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部１０６は、音声調整部１０５により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。

このように、音声調整部１０５は、話速度を基準話速度に基づいて調整しつつ、複数の文節間の無音時間を調整している。これにより、聴取者が複数の音声出力装置１００から音声を聴き取る場合、聴取者に到達する音声の話速度および文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置１００から音声の重なり具合も適切な範囲に調整される。ゆえに、話者（同一話者でも話す状況）に関わらず、適切な話速度および文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第１の実施の形態における音声出力装置１００によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

また、本発明の第１の実施の形態における音声出力装置１００において、音声認識部１０３は、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部１０５は、音声認識部１０３により認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部１０６は、音声調整部１０３により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。

このように、音声調整部１０５は、話速度および無音時間に加えて、音声レベルも調整している。これにより、聴取者が複数の音声出力装置１００から音声を聴き取る場合、聴取者に到達する音声の話速度、音声レベルおよび文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置１００から音声の重なり具合も適切な範囲に調整される。ゆえに、話者（同一話者でも話す状況）に関わらず、適切な話速度、音声レベルおよび文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第１の実施の形態における音声出力装置１００によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

本発明の第１の実施の形態における音声出力方法は、音声認識ステップと、音声調整ステップと、音声出力ステップとを含んでいる。音声認識ステップでは、入力される音声データの話速度を文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置１００と同様の効果を奏することができる。

本発明の第１の実施の形態における音声出力方法において、音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置１００と同様の効果を奏することができる。

＜第２の実施の形態＞
本発明の第２の実施の形態における音声出力装置１００Ａの構成について説明する。

図４は、音声出力装置１００Ａの構成を示すブロック図である。なお、図４では、図１で示した各構成要素と同等の構成要素には、図１に示した符号と同等の符号を付している。

図４に示されるように、音声出力装置１００は、ＭＩＣ１０１と、Ａ／Ｄ変換部１０２と、音声認識部１０３Ａと、メモリ１０４Ａと、音声調整部１０５Ａと、音声出力部１０６Ａと、システム値設定部１０７とを備えている。

ここで、図１と図４を対比する。図１では、メモリ１０４は、音声認識部１０３、音声調整部１０５およびシステム値設定部１０７に接続されていた。これに対して、図４では、メモリ１０４Ａは、音声認識部１０３Ａ、音声調整部１０５Ａ、音声出力部１０６Ａおよびシステム値設定部１０７に接続されている。この点で、図１および図４は互いに相違する。

音声認識部１０３Ａは、Ａ／Ｄ変換部１０２およびメモリ１０４Ａに接続されている。音声認識部１０３Ａは、第１の実施の形態と同様に、入力されるデジタル信号中の音声データの話速度および音声レベル（音声の大きさ）を文節毎に認識する。すなわち、音声認識部１０３Ａは、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部１０３Ａは、音声データ、話速度および音声レベルを、メモリ１０４に文節毎に記憶する。

メモリ１０４Ａは、音声認識部１０３Ａ、音声調整部１０５Ａ、音声出力部１０６Ａおよびシステム値設定部１０７に接続されている。メモリ１０４Ａは、入力される音声データ等を記憶する。また、メモリ１０４は、システム値設定部１０７により予め設定される基準無音時間を記憶する。基準無音時間は、前述の通り、文節間の無音時間の基準値である。メモリ１０４Ａの機能の詳細は、動作説明中で詳しく説明する。

音声調整部１０５Ａは、メモリ１０４Ａに接続されている。音声調整部１０５Ａは、音声認識部１０３により認識された話速度および音声レベルを、システム値設定部１０７に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。

なお、第１の実施の形態では、音声調整部１０５は、音声認識部１０３により認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間をも設定していた。一方、本実施形態では、音声調整部１０５Ａは、音声認識部１０３Ａにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。

音声出力部１０６Ａは、メモリ１０４Ａに接続されている。音声出力部１０６Ａは、音声調整部１０５により設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間（メモリ１０４Ａに記憶）とに基づいて、音声データを出力（拡声放送）する。

システム値設定部１０７は、メモリ１０４に接続されている。システム値設定部１０７は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部１０７は、基準話速度や基準音声レベルや出力用無音時間を設定して、メモリ１０４に入力する。

以上、音声出力装置１００Ａの構成について説明した。

次に、音声出力装置１００Ａの動作を説明する。

図５は、音声出力装置１００Ａの動作の流れを示すフロー図である。

図５に示されるように、まず、ＭＩＣ１０１が、放送において話者が話す音声データを集音する（Ｓ１）。入力された音声データは、ＭＩＣ１０１によってアナログの電気信号に変換され、Ａ／Ｄ変換部１０２へ出力される。

次に、Ａ／Ｄ変換部１０２は、ＭＩＣ１０１から入力される音声データのアナログ信号を、デジタルアナログ変換する（Ｓ２）。そして、Ａ／Ｄ変換部１０２は、音声データのデジタル信号を音声認識部１０３へ出力する。

音声認識部１０３Ａは、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する（Ｓ３Ａ）。より具体的には、音声認識部１０３は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節に分割する。次に、音声認識部１０３は、音声データの話速度および音声レベルを文節毎に測定して認識する。そして、音声認識部１０３は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ１０４に記憶する。

ここで、図６は、音声認識部１０３Ａがメモリ１０４Ａに記憶するデータ例を示す図である。図６に示されるように、音声データ、話速度（話速情報）、音声レベルおよび処理済みフラグが、文節毎に、１つのデータとして記憶されている。なお、音声認識部１０３Ａがメモリ１０４Ａに音声データ、話速度（話速情報）および音声レベルを記憶する時には、処理済みフラグは、未処理状態を示している。

図５に戻って、次に、音声調整部１０５Ａは、音声認識部１０３Ａにより認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する（Ｓ４Ａ）。

ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部１０７により予め設定されている。基準話速度および基準音声レベルは、システム値設定部１０７によりメモリ１０４Ａに登録されている。また、システム値設定部１０７は、複数の文節間の無音時間の基準値である基準無音時間も設定し、これをメモリ１０４Ａに登録する。なお、メモリ１０４Ａに登録されている基準話速度、基準音声レベルおよび基準無音時間は、システム値設定部１０７により、いつでも自由に変更することができる。

次に、音声調整部１０５Ａの具体的な処理を説明する。音声調整部１０５Ａは、システム値での文節間の基準無音時間を考慮しないで、話速度および音声レベルの調整処理のみを行う。

すなわち、まず、音声調整部１０５Ａは、メモリ１０４Ａから、基準話速度および基準音声レベルを読み出す。また、音声調整部１０５Ａは、音声認識部１０３により文節毎に認識された話速度および音声レベルをメモリ１０４等から読み出す。そして、音声調整部１０５Ａは、文節毎に、音声データの話速度および音声レベルを調整して、調整後の出力用話速度および出力用音声レベルを順次、メモリ４上の文節毎のデータ記憶領域に書き戻す。調整後の出力用話速度および出力用音声レベルがメモリ１０４Ａに書き戻されると、メモリ１０４Ａは当該文節に対応する処理済みフラグを処理済み状態に変更する。音声調整部１０５Ａは、メモリ１０４Ａに記憶されている全ての文節について、処理済みフラグを処理済み状態に設定できるまで、この動作を繰り返す。

そして、音声出力部１０６Ａが、音声調整部１０５Ａにより設定された出力用話速度および出力用音声レベルと、予めメモリ１０４Ａに設定された基準無音時間に基づいて、音声データを出力する（Ｓ５Ａ）。このとき、音声出力部１０６Ａは、まず、最初にメモリ１０４Ａに登録されているシステムとして使用する文節と、基準無音時間の値を読み出す。次に、音声出力部１０６Ａは、文節１の処理済みフラグを監視し、処理済みフラグが処理済み状態になるまで待つ。そして、処理済みフラグが処理済み状態になると、音声出力部１０６Ａは、メモリ１０４Ａから、音声データを読み出して出力する。

次に、音声出力部１０６Ａは、文節１の音声データの出力を完了した後、次の文節２の処理済みフラグの状態を確認する。

文節２の処理済みフラグが未処理状態である場合、音声出力部１０６Ａは、文節２の処理済みフラグが処理済み状態になるまで、待機する。文節２の処理済みフラグが処理済み状態になった場合、文節１の音声再生完了後の経過時間が、メモリ１０４Ａから読み出した基準無音時間以上の時間を経過しているとき、そのまま文節２の音声データをメモリ１０４Ａから読み出して出力する。

文節１の音声データの出力が完了した後の経過時間が、メモリ１０４Ａに記憶されている基準無音時間（システムで設定）以下の場合、音声出力部１０６Ａは、基準無音時間が経過するまで待って、文節２の音声データを出力し始める。そして、音声出力部１０６Ａは、全ての文節の音声データを出力し終えるまで、この動作を繰り返す。

なお、本実施の形態では、音声調整部１０５Ａは、話速度および音声レベルの双方をあわせて調整しながら、音声データをメモリ１０４Ａに記憶すると説明した。一方、音声調整部１０５Ａは、話速度のみを調整して、調整後の出力用話速度をメモリ１０４Ａに記憶してもよい。

以上の通り、本発明の第２の実施の形態における音声出力装置１００Ａにおいて、音声認識部１０３Ａは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部１０５Ａは、音声認識部１０３Ａにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部１０６Ａは、音声調整部１０３Ａにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。

このように、音声出力装置１００Ａでは、第１の実施の形態における音声出力装置１００と異なり、音声調整部１０５Ａは、音声認識部１０３Ａにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。このため、音声出力部１０６Ａが、予め設定された基準無音時間に基づいて、音声データを出力する際の文節間の無音時間を調整する。このような構成であっても、音声出力装置１００Ａによれば、第１の実施の形態における音声出力装置１００と同様に、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

本発明の第２の実施の形態における音声出力装置１００Ａにおいて、音声認識部１０３Ａは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部１０５Ａは、音声認識部１０３Ａにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部１０５Ａは、音声調整部１０３Ａにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。

このように、音声調整部１０５Ａは、話速度に加えて、音声レベルも調整している。これにより、音声レベルの点においても、適切な音声レベルで音声を聴取者へ提供することができる。したがって、本発明の第２の実施の形態における音声出力装置１００Ａによれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、上述各実施の形態に対して、さまざまな変更、増減、組合せを加えてもよい。これらの変更、増減、組合せが加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。

１００、１００Ａ音声出力装置
１０１ＭＩＣ
１０２Ａ／Ｄ変換部
１０３、１０３Ａ音声認識部
１０４メモリ
１０５、１０５Ａ音声調整部
１０６、１０６Ａ音声出力部
１０７システム値設定部

Claims

入力される音声データの話速度を文節毎に認識する音声認識部と、
前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、
前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えた音声出力装置。
前記音声認識部は、入力される音声データの話速度および音声レベルを文節毎に認識し、
前記音声調整部は、前記音声認識部により認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
前記音声出力部は、前記音声調整部により設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項１に記載の音声出力装置。
入力される音声データの話速度を文節毎に認識する音声認識ステップと、
前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、
前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含む音声出力方法。
前記音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識し、
前記音声調整ステップでは、前記音声認識ステップにより認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
前記音声出力ステップでは、前記音声調整ステップにより設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項３に記載の音声出力方法。