JP6405653B2 - 音声出力装置および音声出力方法 - Google Patents

音声出力装置および音声出力方法 Download PDF

Info

Publication number
JP6405653B2
JP6405653B2 JP2014047776A JP2014047776A JP6405653B2 JP 6405653 B2 JP6405653 B2 JP 6405653B2 JP 2014047776 A JP2014047776 A JP 2014047776A JP 2014047776 A JP2014047776 A JP 2014047776A JP 6405653 B2 JP6405653 B2 JP 6405653B2
Authority
JP
Japan
Prior art keywords
output
speech
voice
audio
speech speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014047776A
Other languages
English (en)
Other versions
JP2015172622A (ja
Inventor
孝和 松村
孝和 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014047776A priority Critical patent/JP6405653B2/ja
Publication of JP2015172622A publication Critical patent/JP2015172622A/ja
Application granted granted Critical
Publication of JP6405653B2 publication Critical patent/JP6405653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声出力装置等に関し、例えば、市町村防災放送など屋外で拡声放送するシステムに使用されるものに関する。
市町村防災放送などの同報通信システムで使用される拡声放送は、屋外に設置された複数の音声出力装置(受信拡声装置)によって、同時に行われる。その際、拡声放送の聴取者は、複数の音声出力装置から出力された音声(拡声音声)を同時に聞く。このときに聴取者が聞く音声は、複数の音声出力装置各々から聴取者までの距離の違いに基づく伝搬遅延や、建物等により反射などの影響を受けた複数の音声が合成されたものとなる。このため、言葉が重なって聞こえたり、文節ごとの切れ目が不明確になったりするなど、複数の音声出力装置から出力された音声が聴取者にとって聞こえにくい音声になる。
そこで、音声出力装置に音声を入力する話者は、話す速度や、文節の長さや、文節間に無音時間を設けるなど、複数の音声出力装置から出力された音声が聴取者にとって聞きやすくなるように工夫をしている。
なお、本発明の参考技術が、特許文献1および特許文献2に記載されている。
特開2010−151965号公報 特開平04−06999号公報
しかしながら、前述の話者による工夫では、音声の聞きやすさが、放送毎に異なるという問題があった。その原因として、放送内容を話す速度や、文節の長さや、文節間の無音時間の長さが、話者毎に異なる点と、同一の話者であっても毎回同じ速度や間隔で話すことが難しいという点が、挙げられている。
本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる音声出力装置等を供することにある。
本発明の音声出力装置は、入力される音声データの話速度を文節毎に認識する音声認識部と、前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えている。
本発明の音声出力方法は、入力される音声データの話速度を文節毎に認識する音声認識ステップと、前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含んでいる。
本発明にかかる音声出力装置等によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
本発明の第1の実施の形態における音声出力装置の構成を示すブロック図である。 本発明の第1の実施の形態における音声出力装置の動作の流れを示すフロー図である。 音声認識部がメモリに記憶するデータ例を示す図である。 本発明の第2の実施の形態における音声出力装置の構成を示すブロック図である。 本発明の第2の実施の形態における音声出力装置の動作の流れを示すフロー図である。 音声認識部がメモリに記憶するデータ例を示す図である。
<第1の実施の形態>
本発明の第1の実施の形態における音声出力装置100の構成について説明する。
図1は、音声出力装置100の構成を示すブロック図である。図1に示されるように、音声出力装置100は、MIC(Microphone:マイク)101と、A/D(Analog Digital:アナログデジタル)変換部102と、音声認識部103と、メモリ104と、音声調整部105と、音声出力部106と、システム値設定部107とを備えている。
MIC101は、A/D変換部102に接続されている。MIC101は、音声入力手段として機能する。MIC101は、話者の音声データを集音する。
A/D変換部102は、MIC101および音声認識部103に接続されている。A/D変換部102は、MIC101に入力される音声データを、アナログ信号からデジタル信号へ変換する。A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
音声認識部103は、A/D変換部102およびメモリ104に接続されている。音声認識部103は、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103は、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103は、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。
メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されている。メモリ104は、入力される音声データ等を記憶する。メモリ104の機能の詳細は、動作説明中で詳しく説明する。
音声調整部105は、メモリ104および音声出力部106に接続されている。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。ここで、基準話速度は、システム値設定部107に予め設定された話速度の基準値である。基準音声レベルは、システム値設定部107に予め設定された音声レベルの基準値である。また、併せて、音声調整部105は、複数の文節間の無音時間を調整して出力用無音時間を設定する。出力用無音時間は、音声出力部106が出力する際の文節間の無音時間である。
音声出力部106は、音声調整部105に接続されている。音声出力部106は、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力(拡声放送)する。
システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルを設定して、メモリ104に入力する。
以上、音声出力装置100の構成について説明した。
次に、音声出力装置100の動作を説明する。図2は、音声出力装置100の動作の流れを示すフロー図である。
図2に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。
次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。すなわち、A/D変換部103は、MIC101から入力される音声データのアナログ信号を、音声データのデジタル信号へ変換する。ここで、デジタル信号に変換する際の条件(例えば、ビット数、サンプリング周波数)は、放送システム毎に適したものが採用される。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
音声認識部103は、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節を認識する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して分割する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。
ここで、図3は、音声認識部103がメモリ104に記憶するデータ例を示す図である。図3に示されるように、音声データ、話速度(話速情報)および音声レベルが、文節毎に、1つのデータとして記憶されている。
図2に戻って、次に、音声調整部105は、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4)。
ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104に登録されている。また、システム値設定部107は、音声出力部106が音声データを出力する際の複数の文節間の無音時間である出力用無音時間も設定し、これをメモリ104に登録する。なお、メモリ104に登録されている基準話速度、基準音声レベルおよび出力用無音時間は、システム値設定部107により、いつでも自由に変更することができる。
次に、音声調整部105の具体的な処理を説明する。まず、音声調整部105は、メモリ104から、基準話速度、基準音声レベルおよび出力用無音時間を読み出す。また、音声調整部105は、音声認識部103により文節毎に認識された話速度および音声レベルと、文節間の無音時間とをメモリ104等から読み出す。
音声調整部105は、図3の文節1に対応する各種データ(音声データ、話速情報、音声レベル)を読み出す。
音声調整部105は、文節1の話速度と、基準話速度とを比較する。文節1の話速度から基準話速度を引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の話速度の調整は不要であると判定し、文節1の話速度の調整を行わず、出力話速度を設定する。この場合、音声調整部105は、出力話速度として、元のままの話速度で、そのままの音声データを音声出力部106へ出力する。
一方、文節1の話速度から基準話速度を引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の話速度の調整は必要であると判定し、文節1の話速度を基準話速度へ調整して、出力話速度を設定する。この場合、音声調整部105は、出力話速度に速度調整を行いながら音声データを音声出力部106へ出力する。
同様に、音声調整部105は、文節1の音声レベルと、基準音声レベルとを比較する。文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の音声レベルの調整は不要であると判定し、文節1の音声レベルの調整を行わず、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルとして、元のままの音声レベルで、そのままの音声データを音声出力部106へ出力する。
一方、文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の音声レベルの調整は必要であると判定し、文節1の音声レベルを基準音声レベルへ調整して、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルに音量調整を行いながら音声データを音声出力部106へ出力する。
なお、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力する。
同様に、音声調整部105は、文節2、3・・・、nまで、順次、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定して、音声データを音声出力部106へ出力する。
音声調整部105から音声出力部106への文節2の音声データの出力は、文節1の音声データの出力が終了した時間から、システム値設定部107により設定された出力用無音時間が経過した後に、開始される。これにより、文節1の音声再生と、文節2の音声再生の間に所定の無音時間を設けることができる。
最後に、音声出力部106が、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する(S5)。このとき、音声出力部106は、音声データを、放送を行うシステムに適した信号形態に変換して出力する。例えば、音声データをシステムにアナログ信号として入力する必要がある場合、音声出力部106は、音声データをデジタル信号からアナログ信号へ変換して出力する。
なお、本実施の形態では、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力すると説明した。一方、音声調整部105は、話速度のみを調整しながら、音声データを音声出力部106へ出力してもよい。
以上の通り、本発明の第1の実施の形態における音声出力装置100は、音声認識部103と、音声調整部105と、音声出力部106とを備えている。音声認識部103は、入力される音声データの話速度を文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部105により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。
このように、音声調整部105は、話速度を基準話速度に基づいて調整しつつ、複数の文節間の無音時間を調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度および文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度および文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
また、本発明の第1の実施の形態における音声出力装置100において、音声認識部103は、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部103により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。
このように、音声調整部105は、話速度および無音時間に加えて、音声レベルも調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度、音声レベルおよび文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度、音声レベルおよび文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
本発明の第1の実施の形態における音声出力方法は、音声認識ステップと、音声調整ステップと、音声出力ステップとを含んでいる。音声認識ステップでは、入力される音声データの話速度を文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。
本発明の第1の実施の形態における音声出力方法において、音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。
<第2の実施の形態>
本発明の第2の実施の形態における音声出力装置100Aの構成について説明する。
図4は、音声出力装置100Aの構成を示すブロック図である。なお、図4では、図1で示した各構成要素と同等の構成要素には、図1に示した符号と同等の符号を付している。
図4に示されるように、音声出力装置100は、MIC101と、A/D変換部102と、音声認識部103Aと、メモリ104Aと、音声調整部105Aと、音声出力部106Aと、システム値設定部107とを備えている。
ここで、図1と図4を対比する。図1では、メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されていた。これに対して、図4では、メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。この点で、図1および図4は互いに相違する。
音声認識部103Aは、A/D変換部102およびメモリ104Aに接続されている。音声認識部103Aは、第1の実施の形態と同様に、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103Aは、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103Aは、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。
メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。メモリ104Aは、入力される音声データ等を記憶する。また、メモリ104は、システム値設定部107により予め設定される基準無音時間を記憶する。基準無音時間は、前述の通り、文節間の無音時間の基準値である。メモリ104Aの機能の詳細は、動作説明中で詳しく説明する。
音声調整部105Aは、メモリ104Aに接続されている。音声調整部105Aは、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。
なお、第1の実施の形態では、音声調整部105は、音声認識部103により認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間をも設定していた。一方、本実施形態では、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。
音声出力部106Aは、メモリ104Aに接続されている。音声出力部106Aは、音声調整部105により設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間(メモリ104Aに記憶)とに基づいて、音声データを出力(拡声放送)する。
システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルや出力用無音時間を設定して、メモリ104に入力する。
以上、音声出力装置100Aの構成について説明した。
次に、音声出力装置100Aの動作を説明する。
図5は、音声出力装置100Aの動作の流れを示すフロー図である。
図5に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。
次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
音声認識部103Aは、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3A)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節に分割する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して認識する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。
ここで、図6は、音声認識部103Aがメモリ104Aに記憶するデータ例を示す図である。図6に示されるように、音声データ、話速度(話速情報)、音声レベルおよび処理済みフラグが、文節毎に、1つのデータとして記憶されている。なお、音声認識部103Aがメモリ104Aに音声データ、話速度(話速情報)および音声レベルを記憶する時には、処理済みフラグは、未処理状態を示している。
図5に戻って、次に、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4A)。
ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104Aに登録されている。また、システム値設定部107は、複数の文節間の無音時間の基準値である基準無音時間も設定し、これをメモリ104Aに登録する。なお、メモリ104Aに登録されている基準話速度、基準音声レベルおよび基準無音時間は、システム値設定部107により、いつでも自由に変更することができる。
次に、音声調整部105Aの具体的な処理を説明する。音声調整部105Aは、システム値での文節間の基準無音時間を考慮しないで、話速度および音声レベルの調整処理のみを行う。
すなわち、まず、音声調整部105Aは、メモリ104Aから、基準話速度および基準音声レベルを読み出す。また、音声調整部105Aは、音声認識部103により文節毎に認識された話速度および音声レベルをメモリ104等から読み出す。そして、音声調整部105Aは、文節毎に、音声データの話速度および音声レベルを調整して、調整後の出力用話速度および出力用音声レベルを順次、メモリ4上の文節毎のデータ記憶領域に書き戻す。調整後の出力用話速度および出力用音声レベルがメモリ104Aに書き戻されると、メモリ104Aは当該文節に対応する処理済みフラグを処理済み状態に変更する。音声調整部105Aは、メモリ104Aに記憶されている全ての文節について、処理済みフラグを処理済み状態に設定できるまで、この動作を繰り返す。
そして、音声出力部106Aが、音声調整部105Aにより設定された出力用話速度および出力用音声レベルと、予めメモリ104Aに設定された基準無音時間に基づいて、音声データを出力する(S5A)。このとき、音声出力部106Aは、まず、最初にメモリ104Aに登録されているシステムとして使用する文節と、基準無音時間の値を読み出す。次に、音声出力部106Aは、文節1の処理済みフラグを監視し、処理済みフラグが処理済み状態になるまで待つ。そして、処理済みフラグが処理済み状態になると、音声出力部106Aは、メモリ104Aから、音声データを読み出して出力する。
次に、音声出力部106Aは、文節1の音声データの出力を完了した後、次の文節2の処理済みフラグの状態を確認する。
文節2の処理済みフラグが未処理状態である場合、音声出力部106Aは、文節2の処理済みフラグが処理済み状態になるまで、待機する。文節2の処理済みフラグが処理済み状態になった場合、文節1の音声再生完了後の経過時間が、メモリ104Aから読み出した基準無音時間以上の時間を経過しているとき、そのまま文節2の音声データをメモリ104Aから読み出して出力する。
文節1の音声データの出力が完了した後の経過時間が、メモリ104Aに記憶されている基準無音時間(システムで設定)以下の場合、音声出力部106Aは、基準無音時間が経過するまで待って、文節2の音声データを出力し始める。そして、音声出力部106Aは、全ての文節の音声データを出力し終えるまで、この動作を繰り返す。
なお、本実施の形態では、音声調整部105Aは、話速度および音声レベルの双方をあわせて調整しながら、音声データをメモリ104Aに記憶すると説明した。一方、音声調整部105Aは、話速度のみを調整して、調整後の出力用話速度をメモリ104Aに記憶してもよい。
以上の通り、本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部106Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。
このように、音声出力装置100Aでは、第1の実施の形態における音声出力装置100と異なり、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。このため、音声出力部106Aが、予め設定された基準無音時間に基づいて、音声データを出力する際の文節間の無音時間を調整する。このような構成であっても、音声出力装置100Aによれば、第1の実施の形態における音声出力装置100と同様に、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部105Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。
このように、音声調整部105Aは、話速度に加えて、音声レベルも調整している。これにより、音声レベルの点においても、適切な音声レベルで音声を聴取者へ提供することができる。したがって、本発明の第2の実施の形態における音声出力装置100Aによれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、上述各実施の形態に対して、さまざまな変更、増減、組合せを加えてもよい。これらの変更、増減、組合せが加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。
100、100A 音声出力装置
101 MIC
102 A/D変換部
103、103A 音声認識部
104 メモリ
105、105A 音声調整部
106、106A 音声出力部
107 システム値設定部

Claims (4)

  1. 入力される音声データの話速度を文節毎に認識する音声認識部と、
    前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、
    前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えた音声出力装置。
  2. 前記音声認識部は、入力される音声データの話速度および音声レベルを文節毎に認識し、
    前記音声調整部は、前記音声認識部により認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
    前記音声出力部は、前記音声調整部により設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項1に記載の音声出力装置。
  3. 入力される音声データの話速度を文節毎に認識する音声認識ステップと、
    前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、
    前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含む音声出力方法。
  4. 前記音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識し、
    前記音声調整ステップでは、前記音声認識ステップにより認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
    前記音声出力ステップでは、前記音声調整ステップにより設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項3に記載の音声出力方法。
JP2014047776A 2014-03-11 2014-03-11 音声出力装置および音声出力方法 Active JP6405653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014047776A JP6405653B2 (ja) 2014-03-11 2014-03-11 音声出力装置および音声出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014047776A JP6405653B2 (ja) 2014-03-11 2014-03-11 音声出力装置および音声出力方法

Publications (2)

Publication Number Publication Date
JP2015172622A JP2015172622A (ja) 2015-10-01
JP6405653B2 true JP6405653B2 (ja) 2018-10-17

Family

ID=54260000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014047776A Active JP6405653B2 (ja) 2014-03-11 2014-03-11 音声出力装置および音声出力方法

Country Status (1)

Country Link
JP (1) JP6405653B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6733990B2 (ja) * 2016-05-10 2020-08-05 日本放送協会 解説音声再生装置、解説音声生成装置及び解説音声再生プログラム
US10157607B2 (en) 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
JP6927726B2 (ja) * 2017-03-28 2021-09-01 株式会社日立国際電気 同報放送システム及び子局装置
JP7153305B2 (ja) * 2018-04-02 2022-10-14 株式会社パロマ ガスコンロ
CN108922540B (zh) * 2018-07-27 2023-01-24 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
JP6821747B2 (ja) * 2019-06-28 2021-01-27 株式会社第一興商 カラオケ装置
CN112599148A (zh) * 2020-12-31 2021-04-02 北京声智科技有限公司 一种语音识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266157B2 (ja) * 1991-07-22 2002-03-18 日本電信電話株式会社 音声強調装置
JPH08297499A (ja) * 1995-04-26 1996-11-12 Matsushita Electric Ind Co Ltd 音声速度変換制御装置および音声速度変換制御方法
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP3881620B2 (ja) * 2002-12-27 2007-02-14 株式会社東芝 話速可変装置及び話速変換方法
JP2006317768A (ja) * 2005-05-13 2006-11-24 Toshiba Corp 話速変換装置、及びこの話速変換装置を制御する話速変換プログラム
JP2009053581A (ja) * 2007-08-29 2009-03-12 Oki Electric Ind Co Ltd 音声出力装置
JP5326533B2 (ja) * 2008-12-09 2013-10-30 富士通株式会社 音声加工装置及び音声加工方法

Also Published As

Publication number Publication date
JP2015172622A (ja) 2015-10-01

Similar Documents

Publication Publication Date Title
JP6405653B2 (ja) 音声出力装置および音声出力方法
US9984703B2 (en) Sound verification
US20170236507A1 (en) Active noise control and customized audio system
JP2017538341A (ja) 音量調節方法、システム、デバイス及びプログラム
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
EP2808868A1 (en) Method of processing a voice segment and hearing aid
JP2006139307A (ja) 声音効果処理と騒音制御を有する装置及びその方法
WO2017045453A1 (zh) 基于耳机的监听方法及装置
US20140365212A1 (en) Receiver Intelligibility Enhancement System
CN104469587A (zh) 耳机
US20150049879A1 (en) Method of audio processing and audio-playing device
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
WO2014194273A2 (en) Systems and methods for enhancing targeted audibility
US9787824B2 (en) Method of processing telephone signals and electronic device thereof
JP4752516B2 (ja) 音声対話装置および音声対話方法
US20120134499A1 (en) Audio Processing Devices, Multi-Channel Audio Application System, and Method Thereof
CN111385780A (zh) 一种蓝牙音频信号传输方法和装置
JP2007097006A (ja) 複数人用イヤフォン並びにヘッドフォン
JP2007158526A (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
TWI664627B (zh) 可優化外部的語音信號裝置
JP2015002386A (ja) 通話装置、音声変更方法、及び音声変更プログラム
US20180192193A1 (en) Sound adjustment device for hearing protection and sound adjustment method thereof
JP5321687B2 (ja) 音声通話装置
TWM560746U (zh) 可優化外部的語音信號裝置
CN112399004B (zh) 声音输出的调整方法及执行该调整方法的电子装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180903

R150 Certificate of patent or registration of utility model

Ref document number: 6405653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150