JP6695069B2

JP6695069B2 - 電話装置

Info

Publication number: JP6695069B2
Application number: JP2016109561A
Authority: JP
Inventors: 徳田　肇道; 肇道徳田
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2020-05-20
Anticipated expiration: 2036-05-31
Also published as: US20170345444A1; US10127924B2; JP2017216603A; WO2017208689A1

Description

本発明は、通話相手の電話装置から送信された通話の音声信号を受信し、音声信号の音声区間の話速を変換して出力する電話装置に関する。

話速変換装置は、例えば通話相手の電話装置から送信された通話の音声信号（つまり、受話側の音声信号）を時間方向に一定の割合で伸張させることにより、通話相手がゆっくりと話して聴者が聞き易くなる音声に変換する機能を有する。

この話速変換装置は電話装置に限定されて使用されるものではない。話速変換装置を用いた先行技術として、例えばインターホンに搭載された話速変換装置が知られている（特許文献１参照）。特許文献１の話速変換装置は、入力信号に音声が含まれている音声区間と音声が含まれていない非音声区間とを判別し、音声区間と判別されているときに伸張処理を行い、非音声区間と判別されているときに圧縮処理を行う。また、この話速変換装置は、非音声区間と判別している場合であっても、入力信号に含まれる騒音レベルが所定のしきい値以上であるときには圧縮処理を行わない。これにより、話速変換装置は、入力音声が誤って圧縮されることによって出力音声が途切れるのを防ぐことができる。

特許第５３４６２３０号公報

しかしながら、特許文献１に記載の話速変換装置の構成を留守録機能付きの電話装置に適用すると、次のような問題が考えられた。話速変換は、入力した音声信号（入力信号）を一旦、信号メモリに蓄積し、過去の信号を入力信号よりもゆっくりとした速度で読み出すことで行われる。

留守録機能付きの電話機に話速変換装置を搭載した場合、留守録として蓄積された留守番電話メッセージをゆっくりとした速度で再生する場合、留守番電話メッセージが長いと、話速変換部の信号メモリ（音声バッファ）の空き容量が無くなってしまう。つまり、話速変換が長時間継続すると、入出力間の遅延が増大して、信号メモリの空き容量が無くなってしまう。

この結果、信号メモリの空き容量が増えるまで話速変換が行えなくなり、話速変換の効果が低減する。このような場合、例えば、ユーザは、途中から話速変換されずに、通常の再生速度で受話を聞くようになり、聞きづらくなる上、受話の音声速度の変化に違和感を覚えてしまう。特に、留守録を音声で聞く場合、用件によっては留守録の音声が長時間である場合もあり、信号メモリの空き容量が減少することが想定され、上記の状況が発生し易い。一方、信号メモリの容量を増やした場合には、コストが上昇する。

本発明は、上述した従来の状況に鑑みてなされたものであり、信号メモリが小容量であっても、長時間の留守録の音声を話速変換できる電話装置を提供することを目的とする。

本発明は、電話交換網を介して他電話装置との間で通話する電話装置であって、前記他電話装置から送信された通話音声を圧縮する圧縮部と、前記圧縮部により圧縮された前記通話音声を留守番電話メッセージとして保存する留守番電話メッセージ保存部と、前記留守番電話メッセージ保存部に保存された前記通話音声を読み出して伸張する伸張部と、前記伸張部により伸張された前記通話音声を一時的に保持する音声バッファを有し、前記音声バッファから読み出した前記通話音声を話速変換してスピーカから出力する話速変換部と、前記音声バッファの空き容量が既定下限値に近付いたと判断すると、前記伸張部に対し、前記留守番電話メッセージ保存部に保存された前記通話音声の読み出しを一時的に停止させ、前記音声バッファの空き容量が既定上限値に近付いたと判断すると、前記伸張部に対し、前記留守番電話メッセージ保存部に保存された前記通話音声の読み出しを再開させる監視部と、を備え、前記話速変換部は、前記伸張部による前記留守番電話メッセージ保存部からの前記通話音声の読み出しが停止している間も、話速変換を行い、話速変換後の前記通話音声を出力する、電話装置を提供する。

本発明によれば、信号メモリが小容量であっても、長時間の留守録の音声を話速変換することができる。

第１の実施形態における電話機間の接続を示す図２線４線変換回路に接続される電話機の話速変換に係わる部分の内部構成の一例を詳細に示す図話速変換部の内部構成の一例を詳細に示すブロック図（Ａ），（Ｂ）話速変換前後の音声信号を示すタイミングチャート（Ａ）音声区間の検出結果を示すタイミングチャート、（Ｂ）信号波形の時間平均値を示すタイミングチャート、（Ｃ）音声波形のタイミングチャート第１の実施形態の通話動作手順の一例を詳細に説明するフローチャート（Ａ），（Ｂ）ボイススイッチのオン前後の受話音声の変化を示すタイミングチャート（Ａ），（Ｂ）母音及び子音を含む音声に対する話速変換の仕方を説明する図（Ａ），（Ｂ）ＡＭＤＦ値の時間変化を示すタイミングチャート第２の実施形態の電話機における話速変換に係わる部分の内部構成の一例を詳細に示す図電話機の各部における状態の変化の一例を示すタイミングチャート第２の実施形態の通話・再生動作手順の一例を説明するフローチャート

以下、本発明に係る電話装置の各実施形態について、図面を参照して説明する。

（第１の実施形態に至る経緯・課題）
話速変換装置は、受話側の音声信号を時間方向に伸張させることで、元の音声を話者がゆっくりと話した場合と似たような音声に変換する機能を有する。特許文献１に記載の話速変換装置の構成をリアルタイムの通話に使用される電話装置に適用すると、次のような問題が考えられる。リアルタイムの通話では、ユーザ自身の電話装置と通話相手の電話装置との間で、会話が時分割に行われることが一般的である。つまり、ユーザ自身が会話している時には通話相手はその会話内容を聞いており、通話相手が会話している時にはユーザ自身はその会話内容を聞いている。このようなリアルタイムの通話時における電話装置間の通話音声の送受信では、一般的に電話機内に設けられる２線４線変換回路に基づく回線エコーが生じる。このため、例えばユーザ自身が通話した声（つまり、送話音声）の回線エコー成分が電話装置の受話側回路に進入し、その回線エコー成分が受話側回路内に設けられるスピーカから聞こえることがあり得、回線エコー成分が雑音となって通話時の支障になることが考えられる。

また、回線エコー成分による雑音の発生を抑制するために、電話装置に対し、例えばボイススイッチが搭載されると、電話装置のユーザが送話する時に音声や雑音の信号を含む受話信号を低減させることが可能である。ところが、ボイススイッチのオン／オフによって受話音声に含まれる雑音信号のレベルが変動してしまう。この結果、電話装置内に設けられる話速変換装置は、雑音信号のレベルの変動を音声と誤検出することがある。例えば、ボイススイッチはユーザの送話が終了すると受話信号の減衰を止めるので、話速変換装置は、ボイススイッチのオフによって回線エコー成分による雑音のレベルが増加したことで、その信号を受話の音声信号であると判断して、音声区間を正常に検出できなくなる（図７（Ｂ）参照）。

従って、話速変換装置は、音声区間を誤検出してしまうと、受話信号に含まれる音声区間の話速変換を適正に行うことができず、非音声区間における雑音も話速変換することになる。この結果、話速変換に不要な時間が存在する上に、受話が聞き取り難くなり、話速変換の効果が低減する。また、音声が途切れてしまうという影響もあった。

そこで、第１の実施形態では、受話信号に含まれる音声区間の誤検出を抑制し、ユーザにとって聞き取り易い話速変換を効率的に行うことができる電話装置の例について説明する。

以下、適宜図面を参照しながら、本発明に係る振り込め電話装置を具体的に開示した各実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（第１の実施形態）
図１は、第１の実施形態における電話機１０Ａ，１０Ｂ間の接続を示す図である。本発明に係る電話装置の一例としての電話機１０Ａと電話機１０Ｂは、公衆アナログ回線５０を含む電話交換網７を介して、互いに通話可能に接続される。

電話機１０Ａは、交換機としての役割を持つ２線４線変換回路３０Ａを有する。２線４線変換回路３０Ａは、電話機１０Ａ内のマイク及びスピーカ（後述参照）に対してそれぞれプラス、マイナスで２線毎の計４線の信号を、アースと信号線の２線の信号に変換する。２線４線変換回路３０Ａは、公衆アナログ回線５０に接続される。

同様に、電話機１０Ｂは、交換機としての役割を持つ２線４線変換回路３０Ｂを有する。２線４線変換回路３０Ｂは、電話機１０Ｂ内のマイク及びスピーカ（後述参照）に対してそれぞれプラス、マイナスで２線毎の計４線の信号を、アースと信号線の２線の信号に変換する。２線４線変換回路３０Ｂは、公衆アナログ回線５０に接続される。２線４線変換回路３０Ａ，３０Ｂは、公衆アナログ回線５０に２線で接続される。

本実施形態の電話機１０Ａ，１０Ｂは、一般に普及している公衆アナログ回線５０に接続される固定電話機である。

なお、電話機１０Ａ，１０Ｂを特に区別する必要が無い場合、単に電話機１０と称することもある。また、２線４線変換回路３０Ａ，３０Ｂを特に区別する必要が無い場合、単に２線４線変換回路３０と称することもある。

また、上述した交換機は、例えば会社のオフィス等に設置され、内線電話と外線電話とを交換する構内交換機（ＰＢＸ：Private Branch eXchange）であってもよい。この場合、電話機には、構内交換機に接続されるビジネスホンが用いられる。本実施形態では、公衆アナログ回線を使って通話を行う場合を想定しているが、デジタル回線を使って通話を行う場合も、本発明は同様に適用可能である。

図２は、２線４線変換回路３０に接続される電話機１０の話速変換に係わる部分の内部構成の一例を詳細に示す図である。図２に示す電話機１０は、マイク１１、スピーカ１２、受話ゲイン制御部１５、区間検出補正部１７、スロートーク用ボタン１６、及び話速変換部２０を含む構成である。

マイク１１は、電話機１０を使用するユーザの音声（つまり、送話側の音声）を収音して入力する。

スピーカ１２は、通話相手の電話機１０からの送信信号に含まれる音声（つまり、受話側の音声）を音声出力する。

受話ゲイン制御部１５は、例えばボイススイッチ、センタークリッパ及びＡＧＣ（Auto Gain Control：自動利得制御器）のうちいずれかを用いて、ユーザの音声の送話時における電話機１０の受話信号のレベルの減衰を制御する。受話信号には、２線４線変換回路３０に基づく回線エコー成分の信号、更に、音声や雑音の信号が含まれている。

例えばボイススイッチは、電話機１０における送話の有無を判定するととともに、送受話のスイッチングを行い、送話があると判定した時には受話信号のレベルを減衰する。

センタークリッパは、電話機１０における送話時に受話信号のレベルをほぼ値０にする。

ＡＧＣは、電話機１０における送話側の音声が大きいと、その音量に応じて受話信号のレベルを下げる。

受話ゲイン制御部１５は、受話側の減衰量を随時、区間検出補正部１７に出力する。

閾値補正部の一例としての区間検出補正部１７は、受話ゲイン制御部１５から得られた受話信号の減衰量に関する情報を基に、話速変換部２０による音声の区間検出に用いる閾値を補正する。音声の区間検出に用いる閾値の補正には、例えば３通りの方法がある。閾値は、例えば受話信号の長時間平均ＡｖＬ（図５（Ｂ）参照）である雑音レベルを用いて設定される。この受話信号の長時間平均ＡｖＬは、雑音レベル推定部２１ｚにより導出されて得られる。

第１の補正方法では、区間検出補正部１７は、雑音レベル推定部２１ｚにより推定された雑音レベルの長時間平均ＡｖＬに、受話ゲイン制御部１５から得られた受話の減衰量（ゲイン）を掛け合わせることで、閾値を設定する。即ち、第１の補正方法によると、受話信号の減衰分に応じて閾値が下がる。

第２の補正方法では、区間検出補正部１７は、受話ゲイン制御部１５により受話信号が減衰されている間、その減衰分に応じて受話信号の増幅を行う旨の制御信号を音声区間検出部２１に指示する。音声区間検出部２１の信号増幅部２１ｘは、区間検出補正部１７からの制御信号に応じて、入力された受話信号を増幅し、その増幅後の受話信号から雑音レベルを推定する。即ち、第２の補正方法によると、増幅された受話信号に含まれる、推定された雑音レベルにより閾値が設定される。

第３の補正方法では、区間検出補正部１７は、受話ゲイン制御部１５により受話信号が減衰されている間、音声区間検出部２１の雑音レベル推定部２１ｚにより雑音レベルの推定を行わない。即ち、第３の補正方法によると、閾値は、既定の雑音レベル（つまり、図５（Ｂ）に示す受話信号の長時間平均ＡｖＬ）に設定される。但し、既定という意味は、固定という意味ではなく、受話環境によっては、雑音レベルが変動することもあり得るため、都度導出される雑音レベルという意味である。

第１、第２の各補正方法は、受話ゲイン制御部１５が例えばセンタークリッパかＡＧＣを用いて構成される場合に行われる。

第３の補正方法は、受話ゲイン制御部１５が例えばボイススイッチを用いて構成される場合に行われる。

区間検出補正部１７は、第１の補正方法で補正する場合、雑音レベルの長時間平均ＡｖＬに受話の減衰量（ゲイン）を掛け合わせた、変更後の閾値を使用する旨の制御信号を話速変換部２０に出力する。

区間検出補正部１７は、第２の補正方法で補正する場合、受話ゲイン制御部１５による減衰前の受話信号に含まれる雑音レベルを閾値として使用する旨の制御信号を話速変換部２０に出力する。この制御信号には、上述したように、受話ゲイン制御部１５による受話信号の減衰量に応じて、減衰後の信号レベルが減衰前の雑音レベルになるように増幅されるための指示が含まれる。

区間検出補正部１７は、第３の補正方法の場合、既定の閾値（つまり、図５（Ｂ）に示す受話信号の長時間平均ＡｖＬ）の使用を指示するための制御信号を話速変換部２０に出力する。

話速変換部２０は、受話側の音声信号を時間方向に伸張させることで、元の音声を話者がゆっくりと話した場合と似た音声に変換する機能を有する。話速変換を行う場合、一定の変換率で動作させ続けると、実時間に対して際限なく遅延が生じる。この場合、リアルタイムの通話を行う電話機では、会話が成立しなくなるおそれがある。リアルタイムの話速変換処理では、受話の音声区間を検出し、音声区間の話速を遅くする際、非音声区間を短縮して遅延を回復させる。これにより、実時間との遅延が少なく、話速変換による再生（スロー再生）の効果が得られる。

従って、話速変換部２０は、音声区間を伸ばし、非音声区間を短縮することで、遅延を防ぐことが可能である。例えば、「もしもしこんにちは」の音声を再生する場合、「もしもし」と「こんにちは」の音声を長く伸ばし、「もしもし」と「こんにちは」の間である、非音声区間を縮める。

スロートーク用ボタン１６は、話速変換部２０のオン／オフを切り替える、ユーザによって押下自在なスイッチである。また、スロートーク用ボタン１６は、話速変換部２０のオン時に点灯し、オフ時に消灯するインジケータ１６ｚを有しており、押下される度に点灯と消灯を繰り返す。インジケータ１６ｚは、電話機１０の状況を示すために設けられている。

図３は、話速変換部２０の内部構成の一例を詳細に説明するブロック図である。話速変換部２０は、音声区間検出部２１、音声変換部２２、非音声変換部２３、及び信号メモリ２４を含む構成である。

区間検出部の一例としての音声区間検出部２１は、雑音レベル推定部２１ｚ及び信号増幅部２１ｘを有し、受話側の入力信号に含まれる音声の区間を検出する。

雑音レベル推定部２１ｚは、受話側の入力信号に含まれる非音声区間において、ユーザの周囲の雑音信号のレベル（つまり、雑音レベル）を推定する。

信号増幅部２１ｘは、前述した第２の補正方法で用いられ、区間検出補正部１７からの制御信号に従い、受話信号の減衰分に応じて、入力信号に含まれる雑音信号を増幅する。

音声変換部２２は、音声区間を伸ばして音声信号を遅延させる。音声変換部２２は、母音・子音判定部２２ｚ及び遅延付加部２２ｙを有する。

母音・子音判定部２２ｚは、音声信号に含まれる母音と子音を判定する。

遅延付加部２２ｙは、母音の音声信号（図９（Ａ）参照）を遅延させ、子音の音声信号（図９（Ｂ）参照）を遅延させない。

非音声変換部２３は、非音声区間を短縮（圧縮）する。

信号メモリ２４は、入力された音声信号（入力信号）を一時的に記憶し、また、音声変換部２２及び非音声変換部２３から出力される音声信号（出力信号）を一時的に記憶する音声バッファである。信号メモリ２４は、話速変換される音声データの量で既定される、小容量のメモリである。

図４（Ａ），（Ｂ）は、話速変換前後の音声信号を示すタイミングチャートである。図４（Ａ）は、入力された受話側の音声信号（入力信号）を示す。図４（Ｂ）は、話速変換後の音声信号（出力信号）を示す。入力信号は、話速変換前の信号であり、話速は１００％である。一方、出力信号は、話速変換後の信号であり、話速は６５％である。

話速変換の結果、受話側の音声は、話者が早口で話しても、ゆっくりと聞き易く話した場合と似たような音声となる。従って、高齢者や聴覚身障者等が受話側の音声を聴き取り易くなる。

図５（Ａ），（Ｂ），（Ｃ）は、音声区間の検出方法を説明する図である。図５（Ａ）は、音声区間の検出結果を示すタイミングチャートである。図５（Ｂ）は、信号波形の時間平均値を示すタイミングチャートである。図５（Ｃ）は、音声波形のタイミングチャートである。

音声区間検出部２１は、図５（Ｃ）に示す受話側の音声を入力すると、この音声信号の長時間平均ＡｖＬと短時間平均ＡｖＳとを演算して導出する。長時間平均ＡｖＬでは、話者が話している時間と黙っている時間とを含むような、十分に長い時間、例えば３分、５分等が設定される。一方、短時間平均ＡｖＳでは、話者が話している音声の大きさ（音量）を捉えられるような、短い時間、例えば３秒、５秒等が設定される。

音声区間検出部２１は、図５（Ｂ）に示すように、音声信号の長時間平均ＡｖＬを雑音レベルとみなし、音声区間を判定するための閾値に設定する。また、音声区間検出部２１は、音声信号の短時間平均ＡｖＳを音声レベルとみなす。短時間平均ＡｖＳの値は、長時間平均ＡｖＬの値と比べ、話者が話している時に大きな値となって変動する。

音声区間検出部２１は、図５（Ａ）に示すように、音声レベルが雑音レベルより大きい区間を音声区間として検出し、音声レベルが雑音レベル以下である区間を非音声区間として検出する。図５（Ａ）に示すタイミングチャートでは、音声区間を値１で表し、非音声区間を値０で表す。

上述した構成を有する電話機１０の動作について説明する。

図６は、第１の実施形態の通話動作手順の一例を詳細に説明するフローチャートである。電話機１０が、公衆交換電話網（公衆アナログ回線）を介して、通話相手の電話機と接続されると、通話が開始される。

通話中、つまり、リアルタイムで音声が送受信される時、ユーザによってスロートーク用ボタン１６が押下されると、話速変換部２０は、話速変換（スロートーク）を開始する（Ｓ１）。スロートークの開始は、スロートーク用ボタン１６のインジケータ１６ｚが点灯してユーザに知らせる。なお、電話機１０は、予め常にスロートークを行うように設定しておくことも可能である。この場合、スロートーク用ボタンを省くことができる。さらに、この場合、通常トークに戻したい時に押下自在なスロートーク解除用ボタンが設けられてもよい。

受話ゲイン制御部１５は、受話を減衰中であるか否かを判別する（Ｓ２）。受話を減衰中である場合、区間検出補正部１７は、受話ゲイン制御部１５から得られた受話の減衰量（ゲイン）を入力し、受話の減衰量を基に音声区間検出の補正を開始する（Ｓ３）。

区間検出補正部１７は、前述した３通りの補正方法のいずれか又は組み合わせで音声区間検出の補正を行う（Ｓ４）。

第１の補正方法では、区間検出補正部１７は、音声区間を検出するための閾値を受話の減衰量に見合った分だけ下げるように、雑音レベル推定部２１ｚに制御信号を出力する（Ｓ４Ａ）。

第２の補正方法では、区間検出補正部１７は、受話信号を減衰量に見合った分だけ信号増幅部２１ｘで増幅し、雑音レベル推定部２１ｚに対し、増幅後の信号で雑音レベルを推定するように制御信号を出力する（Ｓ４Ｂ）。

第３の補正方法では、区間検出補正部１７は、雑音レベル推定部２１ｚに対し、受話の減衰中、雑音レベルの推定を行わないように制御信号を出力する（Ｓ４Ｃ）。この場合、雑音レベル推定部２１ｚは、雑音レベルの推定を行わず、受信信号と比較される閾値には、既定の閾値が用いられる。

前述したように、第１及び第２の補正方法は、受話ゲイン制御部１５がセンタークリッパあるいはＡＧＣで構成される場合に有効である。第３の補正方法は、受話ゲイン制御部１５がボイススイッチで構成される場合に有効である。

音声区間検出部２１は、受話信号を閾値と比較して、音声区間を検出する（Ｓ５）。この音声区間は、前述したように、図５（Ｂ）に示す音声の長時間平均ＡｖＬが短時間平均ＡｖＳより大きいことによって検出される。音声区間検出部２１は、受話側が音声区間であるか否かを判別する（Ｓ６）。

音声区間である場合、音声変換部２２は、音声区間を伸ばして再生（スロー再生）する（Ｓ７）。一方、非音声区間である場合、非音声変換部２３は、非音声区間を圧縮する（Ｓ８）。ステップＳ７、Ｓ８の処理は、前述したように公知の技術である。

ステップＳ７、Ｓ８の処理後、話速変換部２０は、話速変換（スロートーク）終了であるか否かを判別する（Ｓ９）。スロートークの終了は、スロートーク用ボタン１６が再度押下されることによって行われる。なお、スロートーク用解除ボタンが設けられている場合にこのスロートーク解除用ボタンが押下される、あるいはオンフックにより通話が終了することで、スロートークが終了してもよい。

スロートークが終了でない場合、話速変換部２０はステップＳ２に戻り、同様の処理を繰り返す。一方、スロートークが終了する場合、話速変換部２０は本動作を終了する。スロートークの終了によって、スロートーク用ボタン１６は消灯する。

受話ゲイン制御部１５としてボイススイッチを用いた場合の受話音声について説明する。図７（Ａ），（Ｂ）は、ボイススイッチのオン前後の受話音声の変化を示すタイミングチャートである。図７（Ａ）は、ボイススイッチのオフ時の受話音声の信号波形を示す。受話の音声区間後における送話では、回線エコーによる雑音が生じている。

図７（Ｂ）は、ボイススイッチのオン後の受話音声の信号波形を示す。前述したように、ボイススイッチは、送話の有無を判定し、送受話のスイッチングを行い、送話がある時に受話信号を減衰させる。ボイススイッチがオンであると、受話の後、送話がある期間（図７の期間ｔｂ）では、ボイススイッチがオンとなり、受話側の雑音信号を低減するが、送話の途中あるいは送話が終わってから受話が始まるまでの期間、つまり送話も受話も無い期間（図７の期間ｔａ，ｔｃ）では、ボイススイッチがオフとなる。このボイススイッチのオフによって雑音信号が大きく変動し、音声区間検出部２１は、この雑音信号が急に大きくなった時（立ち上がった時）に雑音を受話側の音声と誤検出してしまう。この結果、音声区間検出部２１は、実際の受話の音声区間よりも長い期間、音声区間として検出してしまう。

本実施形態における区間検出補正部１７は、前述した第１、第２又は第３の補正方法で、期間ｔａ，ｔｃが音声区間に含まれないように、音声区間検出の補正を行い、正確な音声区間（図７の期間ｔｄ）を得る。

次に、母音と子音を含む音声に対し、母音と子音を区別して話速変換を行う場合について説明する。図８（Ａ），（Ｂ）は、母音及び子音を含む音声に対する話速変換の仕方を説明する図である。通常、多くの音声は、母音と子音とで構成される。例えば、「あさ」の音声をゆっくりと話す場合を一例として示す。「あさ」の音声を母音と子音で区別し易いように、アルファベットで示すと「ＡＳＡ」となり、「Ａ」が母音であり、「Ｓ」が子音であり、「Ａ」が母音である。

図８（Ａ）に示すように、普通に話す場合と比べてゆっくりと話す場合には、子音の「Ｓ」はあまり伸ばさずに、母音の「Ａ」が長く伸びる傾向にある。このような話声が自然な肉声である。一方、話速変換部２０は、図８（Ｂ）に示すように、子音も母音も区別することなく、一律に音声を伸張すると、肉声とは異なる違和感が生じる。

本実施形態では、話速変換部２０は、ＡＭＤＦ(Average Magnitude Deference function)値を用いて、音声区間の母音らしさ、子音らしさの度合いを算出し、子音区間よりも母音区間が遅い話速になるように、話速を変換する。ＡＭＤＦ値は、音声の基本周期（繰り返し周期）を求めるために話速変換部２０によって算出される。音声の基本周期の検出では、その波形と時間をずらした波形との相関の度合い（自己相関値）を求めて、相関が最も強くなる間隔（ピッチ）が求められる。自己相関の計算には、信号同士の積算や減算を用いる方法があるが、本実施形態では、比較的減算量が少ない、減算（差分）を用いてＡＭＤＦ値を求める。

図９（Ａ），（Ｂ）は、ＡＭＤＦ値の時間変化を示すタイミングチャートである。縦軸はＡＭＤＦ値を表し、横軸は時間差（Δｔ）を表す。図９（Ａ）は、母音区間におけるＡＭＤＦ値の時間変化を示す。母音区間では、図９（Ａ）に示すように、音声信号の周期性が強く、子音区間では、図９（Ｂ）に示すように、音声信号の周期性が弱い。信号の周期性が強い程、ＡＤＭＦ値の最小値が小さくなってピークとして現れるが、ＡＤＭＦ値の最大値は変化しない。

従って、数式（１）に示すように、母音らしさは、変数Ｘによって表される。話速変換部２０は、変数Ｘが小さくて値０に近い程、その区間は母音らしいと判断する。

Ｘ＝ＡＭＤＦ値の最小値ｍＢ／ＡＭＤＦ値の最大値ｍＡ …… （１）

話速変換部２０は、変数Ｘが小さく区間ほど、ゆっくりとした音声で肉声に近い自然な音声になるように、話速変換を行う。ここでは、話速変換部２０は、変数Ｘの値が小さくなるほど、遅延量が大きくなるように連続して変化させたが、閾値Ｔｈ１を設定し、変数Ｘと閾値Ｔｈ１を比較することで、母音と子音とを区別してもよい。即ち、話速変換部２０は、変数Ｘ＜Ｔｈ１である場合、母音であると判定し、遅延量を大きくし、変数Ｘ ≧ Ｔｈ１である場合、子音であると判定し、遅延量を値０もしくは小さくしてもよい。

また、変数Ｘとして、ＡＭＤＦ値の最小値ｍＢとＡＭＤＦ値の最大値ｍＡとの比率を用いたが、ＡＭＤＦ値の最小値ｍＢとＡＭＤＦ値の最大値ｍＡとの差分の絶対値を用いてもよい。この場合、差分の絶対値で表される変数Ｘを閾値Ｔｈ２と比較することで、母音と子音とを区別してもよい。即ち、話速変換部２０は、変数Ｘ＞Ｔｈ２である場合、母音であると判定し、遅延量を大きくし、変数Ｘ ≦ Ｔｈ２である場合、子音であると判定し、遅延量を値０もしくは小さくしてもよい。

このように、肉声に近い音声になるように、母音及び子音を含む音声に対する話速変換を行うことができる。また、子音に対して話速変換を行わないことで、少ない演算量で話速変換を実現できる。

なお、音声は、母音と子音の組み合わせに限らず、子音だけの音声もあり、例えば「ん」が挙げられる。また、本実施形態では、日本語で音声を話す場合を示したが、英語やドイツ語等の外国語で音声を話す場合においても、本発明は同様に適用可能である。

以上により、第１の実施形態における電話機１０Ａ（電話装置）は、電話交換網７を介して電話機１０Ｂ（他電話装置）との間で通話する。マイク１１は、ユーザの送話音声を収音する。雑音レベル推定部２１ｚは、ユーザの周囲の雑音信号のレベルを推定する。音声区間検出部２１は、電話機１０Ｂからの送信信号に含まれる音声の区間を検出する。受話ゲイン制御部１５は、ユーザの送話音声がマイク１１により収音されている間、電話交換網７に基づく送話信号の回線エコー成分を含む受話信号を減衰する。区間検出補正部１７（閾値補正部）は、受話ゲイン制御部１５による受話信号の減衰量と雑音レベル推定部２１ｚにより推定された雑音信号のレベルとを基に、音声区間検出部２１における音声の区間検出に用いる閾値を補正する。音声変換部２２（話速変換部）は、区間検出補正部１７により補正された後の閾値を基に、電話機１０Ｂからの送信信号に含まれる音声を話速変換してスピーカ１２から出力させる。

これにより、音声区間の誤検出を防止し、ユーザにとって聞き取り易い話速変換を行うことができる。また、話速変換の結果、受話側の音声は、話者が早口で話しても、ゆっくりと聞き易く話した場合と似たような音声となる。従って、高齢者や聴覚身障者等が受話側の音声を聴き取り易くなる。

また、受話ゲイン制御部１５は、センタークリッパである。区間検出補正部１７は、受話ゲイン制御部１５による受話信号の減衰分だけ閾値を下げるように、雑音レベル推定部２１ｚに信号を出力する。音声区間検出部２１は、受話信号が補正された閾値を超える期間を、音声の区間として検出する。

これにより、センタークリッパを用いた場合に、減衰した受信信号のレベルに閾値を合わせることができる。従って、音声の区間の検出が正確になる。

また、受話ゲイン制御部１５は、自動利得制御器（ＡＧＣ）である。区間検出補正部１７は、受話ゲイン制御部１５による受話信号の減衰分だけ閾値を下げるように、雑音レベル推定部２１ｚに信号を出力する。音声区間検出部２１は、受話信号が補正された閾値を超える期間を、音声の区間として検出する。

これにより、自動利得制御器を用いた場合に、減衰した受信信号のレベルに閾値を合わせることができる。従って、音声の区間の検出が正確になる。

また、受話ゲイン制御部１５は、ボイススイッチである。受話ゲイン制御部１５により受話信号が減衰されている間、信号増幅部２１ｘがその減衰分だけ受話信号を増幅し、雑音レベル推定部２１ｚは、増幅後の雑音信号のレベルを推定する。

これにより、ボイススイッチを用いた場合に、減衰した受信信号のレベルを閾値に合わせることができる。従って、音声の区間の検出が正確になる。

また、受話ゲイン制御部１５は、ボイススイッチである。雑音レベル推定部２１ｚは、受話ゲイン制御部１５による受話信号の減衰中、雑音信号のレベルの推定を停止する。音声区間検出部２１は、受話信号が既定の閾値を超える期間を、音声の区間として検出する。これにより、受話信号を散発的に減衰させる場合でも、音声の区間の検出が行える。

また、電話機１０Ａは、話速変換の開始を指示するスロートーク用ボタン１６を有する。話速変換部２０は、スロートーク用ボタン１６によって話速変換の開始が指示されると、電話機１０Ｂからの送信信号に含まれる音声を話速変換する。

これにより、ユーザは、任意のタイミング、例えば通話相手の話声が聴き取り難いと判断した時等に話速変換を開始することができる。

また、スロートーク用ボタン１６は、インジケータ１６ｚを有する。スロートーク用ボタン１６によって話速変換の開始が指示されると、インジケータ１６ｚが点灯する。これにより、ユーザは、話速変換が行われていることを容易に知ることができる。

（第２の実施形態に至る経緯・課題）
話速変換は、入力した音声信号（入力信号）を一旦、信号メモリに蓄積し、過去の信号を入力信号よりもゆっくりとした速度で読み出すことで行われる。

そこで、第２の実施形態では、信号メモリが小容量であっても、長時間の留守録の音声を話速変換できる電話装置の例を説明する。

（第２の実施形態）
第２の実施形態の電話装置は第１の実施形態とほぼ同一の構成を有する。第１の実施形態と同一の構成要素については同一の符号を用いることで、その説明を省略する。

図１０は、第２の実施形態の電話機１０Ｃにおける話速変換に係わる部分の内部構成の一例を詳細に示す図である。電話機１０Ｃは、ユーザの操作によって留守番電話メッセージを再生可能なＴＡＭ（telephone answering machine ：電話応答機）機能付きの電話装置であり、話速変換部２０Ａ、スピーカ１２、信号メモリ１２４、メモリ監視部１２５、デコーダ１２６、留守録音声蓄積部１２７、及びエンコーダ１２８を有する。

信号メモリ１２４は、話速変換部２０Ａに入力された音声信号（入力信号）を一時的に記憶し、また、話速変換部２０Ａから出力される音声信号（出力信号）を一時的に記憶する音声バッファである。信号メモリ１２４は、話速変換される音声データの量で既定される、小容量のメモリである。なお、信号メモリ１２４は、話速変換部２０Ａの内部に設けられてもよいし、本実施形態のように外部に設けられてもよい。

話速変換部２０Ａは、信号メモリ１２４を除き、前記第１の実施形態と同様の構成を有する。スピーカ１２は、再生される留守録音声を出力する。

留守録音声蓄積部１２７は、留守番電話メッセージを蓄積するものであり、ハードディスクやメモリカード等、比較的大容量の記憶領域を有する。エンコーダ１２８は、留守録音声蓄積部１２７に蓄積される留守番電話メッセージを所定の音声圧縮方式で圧縮する。音声圧縮方式として、ＭＰ３（MPEG Audio Layer3），ＡＡＣ（Advanced Audio Coding），ＷＡＶ（Windows Media Audio）等が挙げられる。デコーダ１２６は、留守録音声蓄積部１２７に蓄積された留守番電話メッセージを読み出し、エンコーダ１２８に対応する音声伸張方式で留守番電話メッセージを伸張する。

メモリ監視部１２５は、信号メモリ１２４の空き容量を監視し、信号メモリ１２４の空き容量が少なくなると、つまり信号メモリ１２４の消費率（使用率）が上限の閾値Ｓｈ１を超える場合、デコーダ１２６に対し留守番電話メッセージの読み出しを停止させる指示を行い、信号メモリ１２４の空き容量が増えてくると、つまり信号メモリ１２４の消費率が下限の閾値Ｓｈ２を下回ると、デコーダ１２６に対し音声メッセージの読み出しを再開させる指示を行う。ここで、上限の閾値Ｓｈ１は、信号メモリ１２４の空き容量が既定下限値に近い値に設定される。また、下限の閾値Ｓｈ２は、信号メモリ１２４の空き容量が既定上限値に近い値に設定される。

図１１は、電話機１０Ｃの各部における状態の変化を示すタイミングチャートである。このタイミングチャートでは、デコーダ１２６による読み出し、スロー音声出力、及び信号メモリ１２４の消費率（使用率）の時間変化が示される。

タイミングｔ０において、デコーダ１２６が留守番電話メッセージを読み出し、話速変換部２０Ａが話速変換を行ってスロー音声が出力されると、信号メモリ１２４の消費率が上昇する。タイミングｔ１において、信号メモリ１２４の消費率が上限の閾値Ｓｈ１（例えば最大容量の２０％程度に設定された既定上限値に近い値）を超えると、メモリ監視部１２５は、デコーダ１２６に対し、留守録音声蓄積部１２７に蓄積されている留守番電話メッセージの読み出しを停止させる。留守番電話メッセージの読み出しを停止している間も、話速変換部２０Ａは、話速変換を行い、スロー音声を出力する。

その後、信号メモリ１２４の消費率が徐々に低下し、タイミングｔ２において、下限の閾値Ｓｈ２（例えば最大容量の８０％程度に設定された既定下限値に近い値）を下回ると、メモリ監視部１２５は、デコーダ１２６に対し、留守録音声蓄積部１２７に蓄積されている留守番電話メッセージの読み出しを再開させる。

これにより、スロー音声の出力が途切れることなく、話速変換部２０Ａは、小容量の信号メモリ１２４であっても、留守録音声を長時間に亘って話速変換することができる。また、上限の閾値Ｓｈ１と下限の閾値Ｓｈ２とを設定し、上限の閾値Ｓｈ１に対して下限の閾値Ｓｈ２を広く設定することで、信号メモリ１２４の空き容量が十分に回復してから話速変換を再開させることができ、話速変換の途中で空き容量が著しく少なくなってしまうことを防止できる。従って、話速変換の動作が安定する。また、デコーダ１２６の停止・再開が頻繁に繰り返されることによる処理の負荷を軽減できる。

図１２は、第２の実施形態の通話・再生動作手順の一例を説明するフローチャートである。電話機１０Ｃは、通話中か否かを判別する（Ｓ２１）。通話中である場合、電話機１０Ｃは、受話音声のリアルタイム再生モードを実行し、前記第１の実施形態と同様、話速変換を行う（Ｓ２２）。ステップＳ２２における話速変換においては、前記第１の実施形態で詳述したので、その説明を省略する。

一方、ステップＳ２１で通話中でない場合、電話機１０Ｃは、留守番電話メッセージを再生するか否かを判別する（Ｓ２３）。留守番電話メッセージを再生しない場合、電話機１０ＣはステップＳ２１の処理に戻る。

また、留守番電話メッセージを再生する場合、電話機１０Ｃは、留守録音声の非リアルタイム再生モード、つまり、留守番電話メッセージのスロー再生モードに移行する（Ｓ２４）。なお、第２の実施形態における非リアルタイム再生（留守番電話メッセージの再生）では、非音声区間もスロー再生を行うが、前記第１の実施形態と同様、非音声区間においてはスロー再生を行わないようにしてもよい。非音声区間をスロー再生を行わないようにすることで、信号メモリの消費率を速やかに下げることができる。また、ユーザにとって聞き取り易い話速変換を行うことが可能である。

デコーダ１２６は、留守録音声蓄積部１２７から留守番電話メッセージを読み出し、留守番電話メッセージを伸張し、伸張後の留守番電話メッセージを信号メモリ１２４に記憶する（Ｓ２５）。

話速変換部２０Ａは、信号メモリ１２４内の留守番電話メッセージを話速変換して再生（スロー再生）する（Ｓ２６）。メモリ監視部１２５は、信号メモリ１２４の消費率が上限の閾値Ｓｈ１を超えて空き容量が少なくなったか否かを判別する（Ｓ２７）。上限の閾値Ｓｈ１を超えていない場合、デコーダ１２６は、留守番電話メッセージの読み出しを継続する（Ｓ３０）。

一方、信号メモリ１２４の消費率が上限の閾値Ｓｈ１を超えている場合、メモリ監視部１２５は、デコーダ１２６に対し、留守番電話メッセージの読み出しを停止させる（Ｓ２８）。そして、メモリ監視部１２５は、信号メモリ１２４の消費率が下限の閾値Ｓｈ２を下回って空き容量が増えたか否かを判別する（Ｓ２９）。

下限の閾値Ｓｈ２を下回っていない場合、メモリ監視部１２５は、ステップＳ２８の処理に戻る。一方、信号メモリ１２４の消費率が下限の閾値Ｓｈ２を下回った場合、ステップＳ３０において、デコーダ１２６は、留守番電話メッセージの読み出しを再開する。

そして、電話機１０Ｃは、留守録の再生を終了するか否かを判別する（Ｓ３１）。留守録の再生を終了しない場合、ステップＳ２６に戻り、話速変換部２０Ａは、話速変換を行い再生する。一方、ボタン操作、留守録音声蓄積部１２７の全ての留守番電話メッセージが再生済みとなった場合等により、再生を終了する場合、電話機１０Ｃは本動作を終了する。

以上により、第２の実施形態における電話機１０Ｃ（電話装置）は、電話交換網７を介して電話機１０Ｂ（他電話装置）との間で通話する。エンコーダ１２８（圧縮部）は、電話機１０Ｂから送信された通話音声を圧縮する。留守録音声蓄積部１２７（留守番電話メッセージ保存部）は、エンコーダ１２８により圧縮された通話音声を留守番電話メッセージとして保存する。デコーダ１２６（伸張部）は、留守録音声蓄積部１２７に保存された通話音声を伸張する。信号メモリ１２４（音声バッファ）は、デコーダ１２６により伸張された通話音声を一時的に保持する。話速変換部２０は、信号メモリ１２４から読み出した通話音声を話速変換してスピーカ１２から出力させる。メモリ監視部１２５（監視部）は、信号メモリ１２４の空き容量が既定下限値に近付いたと判断すると、デコーダ１２６における通話音声の伸張を一時的に停止させる。

これにより、信号メモリ１２４が小容量であっても、長時間の留守録の音声に対し、話速変換を行うことができる。

また、メモリ監視部１２５が信号メモリ１２４の空き容量が既定上限値に近付いたと判断すると、デコーダ１２６における通話音声の伸張を再開させる。このように、音声バッファの空き容量が増えると、通話音声の伸張を再開させることで、話速変換を切れ間無く行うことができる。

また、既定下限値は、信号メモリ１２４の最大容量の２０％程度である。最大容量の２０％程度で通話音声の伸張を一時的に停止させることで、音声バッファにマージンを持たせることができ、話速変換の動作が安定する。

また、電話機１０Ｃは、話速変換の開始を指示するスロートーク用ボタン１６を有する。話速変換部２０Ａは、スロートーク用ボタン１６によって話速変換の開始が指示されると、電話機１０Ｂからの送信信号に含まれる音声を話速変換する。

なお、第２の実施形態においても、第１の実施形態と同様、母音と子音を含む音声に対して、母音と子音を区別して話速変換を行うことが可能である。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、電話装置が固定電話機である場合を示したが、無線で通話を行う携帯電話機であってもよい。

本発明は、話速変換を行う際、長時間の音声を話速変換して再生することができる電話装置として有用である。

１０，１０Ａ，１０Ｂ，１０Ｃ電話機
１１マイク
１２スピーカ
１５受話ゲイン制御部
１６スロートーク用ボタン
１７区間検出補正部
２０，２０Ａ話速変換部
２１音声区間検出部
２１ｚ雑音レベル推定部
２２音声変換部
２１ｘ信号増幅部
２２ｙ遅延付加部
２２ｚ母音・子音判定部
２３非音声変換部
２４，１２４信号メモリ
３０，３０Ａ，３０Ｂ２線４線変換回路
５０公衆アナログ回線
１２５メモリ監視部
１２６デコーダ
１２７留守録音声蓄積部
１２８エンコーダ
ＡｖＬ長時間平均
ＡｖＳ短時間平均
Ｓｈ１，Ｓｈ２閾値

Claims

電話交換網を介して他電話装置との間で通話する電話装置であって、
前記他電話装置から送信された通話音声を圧縮する圧縮部と、
前記圧縮部により圧縮された前記通話音声を留守番電話メッセージとして保存する留守番電話メッセージ保存部と、
前記留守番電話メッセージ保存部に保存された前記通話音声を読み出して伸張する伸張部と、
前記伸張部により伸張された前記通話音声を一時的に保持する音声バッファを有し、前記音声バッファから読み出した前記通話音声を話速変換してスピーカから出力する話速変換部と、
前記音声バッファの空き容量が既定下限値に近付いたと判断すると、前記伸張部に対し、前記留守番電話メッセージ保存部に保存された前記通話音声の読み出しを一時的に停止させ、前記音声バッファの空き容量が既定上限値に近付いたと判断すると、前記伸張部に対し、前記留守番電話メッセージ保存部に保存された前記通話音声の読み出しを再開させる監視部と、を備え、
前記話速変換部は、前記伸張部による前記留守番電話メッセージ保存部からの前記通話音声の読み出しが停止している間も、話速変換を行い、話速変換後の前記通話音声を出力する、
電話装置。
請求項１に記載の電話装置であって、
前記既定下限値は、前記音声バッファの最大容量の２０％程度である、
電話装置。
請求項１又は２に記載の電話装置であって、
前記既定上限値は、前記音声バッファの最大容量の８０％程度である、
電話装置。
請求項１〜３のうちいずれか一項に記載の電話装置であって、
話速変換の開始を指示するボタン、を更に有し、
前記話速変換部は、前記ボタンによって話速変換の開始が指示されると、前記他電話装置からの送信信号に含まれる音声を話速変換する、
電話装置。
請求項４に記載の電話装置であって、
前記電話装置の状況を示すインジケータ、を更に有し、
前記ボタンによって話速変換の開始が指示されると、前記インジケータが点灯する、
電話装置。