JP2008292621A - Speech speed conversion device, speaking device and speech speed conversion method - Google Patents
Speech speed conversion device, speaking device and speech speed conversion method Download PDFInfo
- Publication number
- JP2008292621A JP2008292621A JP2007136248A JP2007136248A JP2008292621A JP 2008292621 A JP2008292621 A JP 2008292621A JP 2007136248 A JP2007136248 A JP 2007136248A JP 2007136248 A JP2007136248 A JP 2007136248A JP 2008292621 A JP2008292621 A JP 2008292621A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- speech speed
- conversion
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
本発明は、会議電話など、複数の拠点を接続して音声通話を行う通話装置に利用可能な話速変換装置および話速変換方法に関するものである。また、話速変換装置を有する通話装置にも関するものである。 The present invention relates to a speech speed conversion device and a speech speed conversion method that can be used for a telephone device that connects a plurality of bases and performs a voice call such as a conference phone. The present invention also relates to a call device having a speech speed conversion device.
音声の音程を変えずにそのスピードを遅くまたは速く変換する話速変換の技術は従来から知られており、IC(Integrated Circuit)レコーダなどの音声再生装置を始め、電話機やテレビ、ラジオなどに広く利用されている。話速変換処理の内容は、たとえば(特許文献1)に示されている。 The technology of speech speed conversion that changes the speed of the voice without changing the pitch of the voice is conventionally known, and is widely used for voice reproduction apparatuses such as IC (Integrated Circuit) recorders, telephones, televisions, radios, and the like. It's being used. The content of the speech speed conversion process is shown in, for example, (Patent Document 1).
音声をゆっくりとした話速に変換する場合の一般的な処理構成について説明する。図18は、従来の話速変換装置の構成を模式的に示すブロック図である。図18において、201は音声信号のピッチ(基本周波数)を検出する音声ピッチ検出部、202は音声ピッチの周期単位で音声波形を切り出す挿入波形生成部、203は切り出されたピッチ波形を入力音声信号に定期的に挿入することにより時間軸方向に波形を伸張させる波形接続部である。基本周波数とその倍音で構成される音声の有声信号の波形は、ピッチ単位で周期的に同じ波形が繰り返される傾向があるので、この構成によって音程を変えずにゆっくりとした話速へ変換することが可能である。 A general processing configuration for converting speech into a slow speech speed will be described. FIG. 18 is a block diagram schematically showing a configuration of a conventional speech speed conversion device. In FIG. 18, 201 is an audio pitch detector for detecting the pitch (fundamental frequency) of an audio signal, 202 is an insertion waveform generator for extracting an audio waveform in units of the audio pitch period, and 203 is an input audio signal for the extracted pitch waveform. It is a waveform connection part that expands the waveform in the direction of the time axis by inserting it periodically. The voiced signal waveform composed of the fundamental frequency and its overtones tends to repeat the same waveform periodically in pitch units, so this configuration should be converted to a slower speech speed without changing the pitch. Is possible.
話速変換処理を通話装置のように実時間の(遅延の許されない)音声送受信を行う装置に適用する場合を考える。たとえば、仮に受話音声の話速を一律に遅く変換して再生し続けると、受話音声が実際に発生された時間と話速変換後の再生時間との遅延が時間の経過と共に増大し、会話に著しい不具合を生じてしまう。そこで、このような装置に適用する場合には、従来から特別な工夫がなされている。その概念を、図6を参照しながら説明する。実時間の話速変換処理では、有音区間(受話信号に音声信号が存在する区間)は話速を遅くする変換を行い、無音区間(受話信号に音声信号が存在しない区間)は圧縮することによって、実際の発話時間からの遅延を少なくしている。 Consider a case where speech rate conversion processing is applied to a device that performs real-time (no delay allowed) voice transmission / reception, such as a communication device. For example, if the speech speed of the received voice is converted to a slower rate and played continuously, the delay between the time when the received voice is actually generated and the playback time after the conversion of the speech speed increases over time. It will cause a significant malfunction. Therefore, when applied to such a device, special devices have been conventionally made. The concept will be described with reference to FIG. In real-time speech speed conversion processing, conversion is performed to slow down the speech interval (interval where the speech signal is present in the received signal), and compression is performed during the silent interval (interval where the speech signal is not present in the received signal). Therefore, the delay from the actual speech time is reduced.
また、信号を接続する際は重複する区間を少しずつ設けてスムージングすることによって、歪みの発生を防止する。かかる話速変換処理を実行する装置を電話会議装置に搭載すると、早口で聞き取りにくい話者の音声をゆっくりとした聞き取りやすい話速に変換することが可能となる。また、国際会議などで外国語の会話を行う場合に、外国語の了解度が向上し、会議の円滑な進行に寄与する効果を期待できる。
しかしながら、上記従来の技術によれば、複数の話者が参加する電話会議などの用途で使用される通話装置に話速変換処理を適用すると、全ての話者の話速が遅く変換されてしまう。一般に、話速には個人差があって早口の話者は話速を遅く変換すると会話の了解度が向上するが、元々ゆっくりとした話速で、話速を変換する必要の無い話者の音声も一緒に変換されてしまうので、会話の了解度が損なわれてしまう場合があった。また、複数話者のうちで特定の話者が外国語を話す場合など、その話者の音声を選択的にゆっくりとした話速に変換したいという要望があるが、従来の構成では不可能であった。以上のように、従来の話速変換処理を複数の話者が参加する電話会議などに適用すると、必ずしもよい効果が得られないという問題があった。 However, according to the above-described conventional technology, when the speech speed conversion process is applied to a telephone device used for a teleconference in which a plurality of speakers participate, the speaking speed of all the speakers is converted slowly. . Generally speaking, there is an individual difference in speaking speed, and a fast-speaking speaker improves the intelligibility of the conversation by converting the speaking speed to a slower speed. However, the speaking speed of the speaker who originally has a slow speaking speed and does not need to convert the speaking speed. Since the voice is also converted together, the intelligibility of the conversation may be impaired. In addition, there is a desire to selectively convert a speaker's voice to a slower speaking speed, such as when a specific speaker among multiple speakers speaks a foreign language, but this is not possible with the conventional configuration. there were. As described above, when the conventional speech speed conversion process is applied to a telephone conference in which a plurality of speakers participate, there is a problem that a good effect cannot always be obtained.
このように、複数話者が参加できる通話装置に搭載される話速変換装置および話速変換方法では、話速が早い話者や外国語を話す話者など、特定話者の音声に対して最適な話速の変換率で話速変換を行うことが要求されている。 As described above, in the speech rate conversion device and the speech rate conversion method installed in the communication device in which multiple speakers can participate, the speech of a specific speaker, such as a speaker with a high speech rate or a speaker speaking a foreign language, can be obtained. It is required to perform speech rate conversion at an optimal speech rate conversion rate.
本発明は、上記に鑑みてなされたものであって、受聴者が指定した話者の音声だけを、使用者が最も好ましく感じる変換率で自動的に話速を変換することができる話速変換装置、通話装置および話速変換方法を提供することを目的とする。 The present invention has been made in view of the above, and is capable of automatically converting the speech speed of only the voice of the speaker specified by the listener at a conversion rate that the user feels most desirable. An object is to provide a device, a communication device, and a speech speed conversion method.
上記課題を解決するために本発明は、通話に参加する個々の話者の音声特徴を抽出する音声特徴抽出手段と、受聴者によって指定された話者について抽出された音声特徴を記憶する音声特徴記憶手段と、現在の発話者の音声特徴を前記音声特徴記憶手段に記憶された前記音声特徴と比較することによって前記発話者が、前記受聴者によって指定された話者の一人であるか否かを判定する話者判定手段と、前記話者判定手段で前記受聴者によって指定された話者であると判定された場合に、前記発話者の受話音声の話速を変換する話速変換手段と、を備えたものである。 In order to solve the above-mentioned problems, the present invention provides a voice feature extracting means for extracting voice features of individual speakers participating in a call, and a voice feature for storing voice features extracted for a speaker designated by a listener. Whether the speaker is one of the speakers designated by the listener by comparing the voice features of the current speaker with the voice features stored in the voice feature storage means And a speech speed conversion means for converting the speech speed of the speech received by the speaker when the speaker determination means determines that the speaker is designated by the listener. , With.
また、本発明は、通話に参加する個々の話者の音声特徴を抽出し、受聴者によって指定された話者について抽出された音声特徴を記憶し、現在の発話者の音声特徴を、記憶された音声特徴と比較することによって発話者が、受聴者によって指定された話者の一人であるか否かを判定する。この判定の結果、受聴者によって指定された話者であると判定された場合に、発話者の受話音声の話速を変換する話速変換処理を行うようにしたものである。 The present invention also extracts the voice features of individual speakers participating in the call, stores the voice features extracted for the speaker specified by the listener, and stores the voice features of the current speaker. It is determined whether or not the speaker is one of the speakers specified by the listener by comparing with the voice feature. As a result of this determination, when it is determined that the speaker is designated by the listener, speech speed conversion processing for converting the speech speed of the received voice of the speaker is performed.
本発明によれば、受聴者が指定した話者の音声だけを、使用者が最も好ましく感じる変換率で自動的に話速を変換するようにしたので、複数の話者が参加する通話においても、受聴者による話者の発話内容の了解度を改善することのできる話速変換装置が得られる。また、受聴者が指定していない話者の音声については、話速が変換されることがないので、全体的に受聴者にとって、話者の発話内容の了解度を改善することのできる話速変換装置が得られる。 According to the present invention, only the voice of the speaker designated by the listener is automatically converted at the conversion rate that the user feels most comfortable. Therefore, even in a call in which a plurality of speakers participate, Thus, it is possible to obtain a speech speed conversion device that can improve the intelligibility of the utterance content of the speaker by the listener. In addition, since the speech speed is not converted for the voice of a speaker not specified by the listener, the speech speed can improve the understanding level of the speaker's speech overall for the listener. A conversion device is obtained.
また、本発明によれば、受聴者が指定した話者の音声だけを、使用者が最も好ましく感じる変換率で自動的に話速を変換するようにしたので、複数の話者が参加する通話においても、受聴者による話者の発話内容の了解度を改善することのできる話速変換方法が得られる。また、受聴者が指定していない話者の音声については、話速が変換されることがないので、全体的に受聴者にとって、話者の発話内容の了解度を改善することのできる話速変換方法が得られる。 Also, according to the present invention, only the voice of the speaker specified by the listener is automatically converted at the conversion rate that the user feels most comfortable, so the conversation in which a plurality of speakers participate. The speech speed conversion method that can improve the intelligibility of the content of the speaker's utterance by the listener is also obtained. In addition, since the speech speed is not converted for the voice of a speaker not specified by the listener, the speech speed can improve the understanding level of the speaker's speech overall for the listener. A conversion method is obtained.
第1の発明の話速変換装置は、通話に参加する個々の話者の音声特徴を抽出する音声特徴抽出手段と、受聴者によって指定された話者について抽出された音声特徴を記憶する音声特徴記憶手段と、現在の発話者の音声特徴を音声特徴記憶手段に記憶された音声特徴と比較することによって発話者が、受聴者によって指定された話者の一人であるか否かを判定する話者判定手段と、話者判定手段で受聴者によって指定された話者であると判定された場合に、発話者の受話音声の話速を変換する話速変換手段と、を備えたものであり、通話する話者が複数存在する場合でも、受聴者が指定した話者の音声のみが良好な話速に変換されるという作用を有する。 According to a first aspect of the present invention, there is provided a speech speed conversion device for extracting speech features of individual speakers participating in a call, and a speech feature for storing speech features extracted for a speaker designated by a listener. Talk to determine whether the speaker is one of the speakers specified by the listener by comparing the voice features of the storage means and the current speaker with the voice features stored in the voice feature storage means And a speech speed conversion means for converting the speech speed of the received voice of the speaker when the speaker determination means determines that the speaker is the speaker designated by the listener. Even when there are a plurality of talkers, only the voice of the talker designated by the listener is converted to a good talk speed.
第2の発明の話速変換装置は、第1の発明において、受聴者によって指定された話者のそれぞれに対して設定された最適な話速の変換率を記憶する指定話者変換条件記憶手段と、話者判定手段によって判定された話者に対応する話速の変換率を、指定話者変換条件記憶手段から選択する指定話者変換条件選択手段と、をさらに備え、話速変換手段は、指定話者変換条件選択手段によって選択された話速の変換率を用いて受聴者によって指定された話者の話速を変換するものであり、受聴者が指定した通話する相手の話者ごとに話速の変換率を設定できるという作用を有する。 According to a second aspect of the present invention, there is provided a speech rate conversion device according to the first aspect, wherein the designated speaker conversion condition storage means stores the conversion rate of the optimal speech rate set for each speaker specified by the listener. And a designated speaker conversion condition selecting means for selecting the conversion rate of the speech speed corresponding to the speaker determined by the speaker determining means from the designated speaker conversion condition storage means, and the speech speed converting means is , Converting the speaking speed of the speaker specified by the listener using the conversion rate of the speaking speed selected by the designated speaker conversion condition selecting means, and for each speaker of the other party specified by the listener It has the effect that the conversion rate of speech speed can be set.
第3の発明の話速変換装置は、第2の発明において、指定話者変換条件記憶手段は、受聴者によって指定された話者のそれぞれに対して設定された再生音量の増幅率をさらに記憶し、指定話者変換条件選択手段は、話者判定手段によって判定された話者に対応する話速の変換率と再生音量の増幅率とを、指定話者変換条件記憶手段から選択し、話速変換手段は、指定話者変換条件選択手段によって選択された話速の変換率と再生音量の増幅率とを用いて受聴者によって指定された話者の話速と再生音量とを変換するものであり、受聴者が指定した通話する相手の話者ごとに、話速の変換率とともに再生音量の増幅率を設定できるという作用を有する。 According to a third aspect of the present invention, in the second aspect, the designated speaker conversion condition storage means further stores the amplification factor of the reproduction volume set for each of the speakers designated by the listener. The designated speaker conversion condition selecting means selects the conversion rate of the speech speed and the amplification factor of the reproduction volume corresponding to the speaker determined by the speaker determining means from the specified speaker conversion condition storage means, and The speed conversion means converts the speech speed and reproduction volume of the speaker designated by the listener using the conversion rate of the speech speed selected by the designated speaker conversion condition selection means and the amplification factor of the reproduction volume. Thus, it has an effect that the amplification factor of the reproduction volume can be set together with the conversion rate of the speech speed for each of the other party's speakers designated by the listener.
また、本発明の第4の発明の通話装置は、通信回線を介して他の通話装置と接続し、通信を行う通信手段と、話者の発する声を集音する集音手段と、他の通話装置からの音声を再生出力する音声出力手段と、第1〜第3の発明のいずれか1つに記載の話速変換装置と、を備えたものであり、通話する話者が複数存在する場合でも、受聴者が指定した話者の音声のみが、良好な話速および/または再生音量に変換されるという作用を有する。 The communication device of the fourth invention of the present invention is connected to another communication device via a communication line and communicates, a communication device for collecting communication, a sound collection device for collecting the voice uttered by the speaker, There is provided a voice output means for reproducing and outputting a voice from a call device and a speech speed conversion device according to any one of the first to third inventions, and there are a plurality of talkers. Even in such a case, only the voice of the speaker designated by the listener is converted into a good speech speed and / or reproduction volume.
さらに、本発明の第5の発明の話速変換方法は、通話に参加する個々の話者の音声特徴を抽出する音声抽出処理を行い、受聴者によって指定された話者について抽出された音声特徴を記憶する音声特徴記憶処理を行い、現在の発話者の音声特徴を記憶された音声特徴と比較することによって発話者が、受聴者によって指定された話者の一人であるか否かを判定する話者判定処理を行い、判定の結果、受聴者によって指定された話者であると判定された場合に、発話者の受話音声の話速を変換する話速変換処理を行うものであり、通話する話者が複数存在する場合でも、受聴者が指定した話者の音声のみが良好な話速に変換されるという作用を有する。 Furthermore, the speech speed conversion method according to the fifth aspect of the present invention performs speech extraction processing for extracting the speech features of individual speakers participating in the call, and the speech features extracted for the speakers designated by the listener. To determine whether or not the speaker is one of the speakers specified by the listener by comparing the voice features of the current speaker with the stored voice features. Performs speaker determination processing, and performs speech speed conversion processing to convert the speech speed of the received speech of the speaker when it is determined that the speaker is designated by the listener as a result of the determination. Even when there are a plurality of speakers, only the voice of the speaker designated by the listener is converted to a good speech speed.
第6の発明の話速変換方法は、受聴者によって指定された話者のそれぞれに対して設定された最適な話速の変換率を記憶する指定話者変換条件記憶処理を行い、話速判定処理の前に話者判定処理によって判定された話者に対応する話速の変換率を、指定話者変換条件記憶処理で記憶した内容から選択する指定話者変換条件選択処理を行い、話速変換処理では、指定話者変換条件選択処理で選択された話速の変換率を用いて受聴者によって指定された話者の話速を変換するものであり、受聴者が指定した通話する相手の話者ごとに話速の変換率を設定できるという作用を有する。 According to a sixth aspect of the present invention, there is provided a speech speed conversion method for performing a designated speaker conversion condition storing process for storing a conversion rate of an optimal speech speed set for each of speakers specified by a listener, and determining a speech speed. The designated speaker conversion condition selection process is performed to select the conversion rate of the speech speed corresponding to the speaker determined by the speaker determination process before the process from the contents stored in the designated speaker conversion condition storage process. In the conversion process, the speaker's speech speed specified by the listener is converted using the conversion rate of the speech speed selected in the designated speaker conversion condition selection process. It has the effect that the conversion rate of the speech speed can be set for each speaker.
第7の発明の話速変換方法は、指定話者変換条件記憶処理では、受聴者によって指定された話者のそれぞれに対して設定された再生音量の増幅率をさらに記憶し、指定話者変換条件選択処理では、話者判定処理によって判定された話者に対応する話速の変換率と再生音量の増幅率とを、指定話者変換条件記憶処理で記憶した内容から選択し、話速変換処理では、指定話者変換条件選択処理で選択された話速の変換率と再生音量の増幅率とを用いて受聴者によって指定された話者の話速と再生音量とを変換するものであり、受聴者が指定した通話する相手の話者ごとに、話速の変換率とともに再生音量の増幅率を設定できるという作用を有する。 According to a seventh aspect of the present invention, in the designated speaker conversion condition storing process, the reproduction volume gain set for each of the speakers designated by the listener is further stored, and the designated speaker conversion is stored. In the condition selection process, the conversion rate of the speech speed corresponding to the speaker determined by the speaker determination process and the amplification factor of the reproduction volume are selected from the contents stored in the designated speaker conversion condition storage process, and the speech speed conversion is performed. In the process, the speaker speed specified by the listener and the playback volume are converted using the conversion rate of the speech speed selected in the specified speaker conversion condition selection process and the amplification factor of the playback volume. In addition, it has an effect that the amplification factor of the reproduction volume can be set together with the conversion rate of the speech speed for each speaker of the other party specified by the listener.
以下、本発明の実施の形態について説明する。 Embodiments of the present invention will be described below.
(実施の形態1)
この実施の形態1では、複数の話者が参加する電話会議などにおいて、発話者が誰であるかを判定し、判定結果を話者別に設定された話速変換率と照合して最適な話速変換率を決定し、話速変換部はその結果にしたがって、個々の発話者の話速を受聴者にとって好ましい話速に自動的で変換する話速変換装置、通話装置および話速変換方法について説明する。
(Embodiment 1)
In the first embodiment, in a conference call in which a plurality of speakers participate, it is determined who is the speaker, and the determination result is compared with the speech rate conversion rate set for each speaker. A speech speed conversion device, a speech device, and a speech speed conversion method for determining a speed conversion rate, and a speech speed conversion unit automatically converting a speech speed of an individual speaker into a speech speed preferable for a listener according to the result explain.
図1は、本発明の実施の形態1における話速変換装置を備える通話装置の一例を示す斜視図であり、図2は、図1の通話装置の上面図である。これらの図1〜図2において、601は通話装置、602a〜602dは使用者の音声を集音するマイクロホン、603は受話音声を再生するスピーカ、604は相手側回線と接続する通信ケーブル、605は話速変換を適用する話者を使用者(特許請求の範囲における受聴者に対応する)が指定するための登録ボタン、606は話速変換を開始/終了するためのスロー再生ボタン、607は発信/着信の操作を行う操作ボタン、608は通話の状態などを表示する表示部である。ここで、スピーカは、特許請求の範囲における音声出力手段に対応し、マイクロホン602a〜602dは、同じく集音手段に対応している。
FIG. 1 is a perspective view showing an example of a communication device including the speech speed conversion device according to Embodiment 1 of the present invention, and FIG. 2 is a top view of the communication device of FIG. 1 to 2,
図3は、図1〜図2の通話装置で本発明の実施の形態1による話速変換装置が関係する部品の構成を模式的に示すブロック図である。この図3において、701は各種演算と周辺装置の制御を行うデジタルシグナルプロセッサ(Digital Signal Processor、以下、DSPという)、702は通信路インターフェース、703は操作インターフェース、704はメモリ、705はデジタル/アナログ(以下、D/Aという)コンバータ、706はアナログ/デジタル(以下、A/Dという)コンバータ、707はスピーカ、708はマイクロホン、7011は受話信号入力部、7012は音声信号出力部、7013は通信路、7014は受話信号路である。
FIG. 3 is a block diagram schematically showing the configuration of components related to the speech speed conversion apparatus according to the first embodiment of the present invention in the communication apparatus of FIGS. In FIG. 3, reference numeral 701 denotes a digital signal processor (Digital Signal Processor, hereinafter referred to as DSP) for performing various operations and control of peripheral devices, 702 a communication path interface, 703 an operation interface, 704 a memory, and 705 a digital / analog. (Hereinafter referred to as D / A) converter, 706 is an analog / digital (hereinafter referred to as A / D) converter, 707 is a speaker, 708 is a microphone, 7011 is a received signal input unit, 7012 is an audio signal output unit, and 7013 is communication. A
この図3における通話装置での動作の概要について説明する。通話装置601の通信路インターフェース702は通信路7013の一端に接続されており、その通信路7013の他端に接続された図示しない別の通話装置と通話信号(音声信号)の送受信を行う。上記他端に接続された別の通話装置より送信された音声信号は、通信路7013から通信路インターフェース702および受話信号路7014を介して、受話信号入力部7011よりDSP701へ入力される。DSP701では、受信した音声信号について、本実施の形態1による話速変換などの所定の処理が施される。
An outline of the operation of the call device in FIG. 3 will be described. The communication path interface 702 of the
ここで、たとえば通信路7013で送受信される信号がIP(Internet Protocol)パケットのようなデジタル化された信号である場合、通信路インターフェース702内で処理される信号はたとえばPCM(Pulse−Code Modulation)のようなデジタル信号を用いて全て行われ、受話信号路7014は、通常、シリアルバスやパラレルバスとなる。また、通信路7013がたとえばPSTN(Public Switched Telephone Networks)のようなアナログ信号路である場合は、通信路インターフェース702かDSP701の内部にA/Dコンバータ706が必要となる。通信路インターフェース702にA/Dコンバータ706が含まれる場合、それ以降の処理は先ほどと同じくデジタル信号を用いて全て行われ、受話信号路7014は通常、シリアルバスやパラレルバスとなる。これに対して、DSP701の内部にA/Dコンバータ706が内蔵される場合、受話信号路7014はアナログ信号線となる。
Here, for example, when the signal transmitted / received in the
DSP701で話速変換された受話音声は、D/Aコンバータ705によりアナログ信号に変換され、スピーカ707から再生される。同様に使用者の送話音声はマイクロホン708で集音されてA/Dコンバータ706によってデジタル信号に変換されてDSP701に渡され、送話信号(音声信号)として通信路インターフェース702に送出される。
The received voice whose speech speed has been converted by the DSP 701 is converted into an analog signal by the D /
図4は、本発明の実施の形態1における話速変換装置の機能構成を模式的に示すブロック図である。この図4において、101は通話に参加する個々の話者の音声特徴を抽出する音声特徴抽出部、102は抽出された音声特徴を記憶する音声特徴記憶部、103は現在の発話者の音声を音声特徴記憶部102に記憶された音声特徴と比較することによってその発話者が、受聴者によって指定された話者の一人であるか否かを判定する話者判定部、104は話者判定部103で受聴者によって指定された話者であると判定された場合に、発話者の受話音声の話速を所定の速さに変換する話速変換部である。
FIG. 4 is a block diagram schematically showing a functional configuration of the speech rate conversion apparatus according to Embodiment 1 of the present invention. In FIG. 4, 101 is a voice feature extraction unit that extracts the voice features of individual speakers participating in the call, 102 is a voice feature storage unit that stores the extracted voice features, and 103 is the voice of the current speaker. A speaker determination unit that determines whether the speaker is one of the speakers specified by the listener by comparing with the voice feature stored in the voice
本実施の形態1において、音声特徴記憶部102はメモリ704に対応し、音声特徴抽出部101、話者判定部103、および話速変換部104は、それぞれ図3のメモリ704に格納され、DSP701上で動作するソフトウェアプログラムに対応している。つまり、話者判定部103と話速変換部104は、DSP701が通信路インターフェース702より受信した受話音声を、メモリ704に記憶されているプログラムにしたがって演算して、D/Aコンバータ705に出力することによって実現される。また、音声特徴抽出部101は、DSP701が通信路インターフェース702より受信した受話音声から、メモリ704に記憶されているプログラムにしたがって演算して音声特徴量を取得することによって実現され、音声特徴記憶部102は、音声特徴抽出部101によって取得されたその音声特徴量がメモリ704に記憶されることによって実現される。
In the first embodiment, the speech
このように構成された実施の形態1の通話装置における受話音声の再生処理について説明する。図5は、本発明の実施の形態1における話速変換方法の手順の一例を示すフローチャートである。ここでは、前提として、通話装置は複数の話者が存在する他地点と接続して通話中(たとえば、電話会議中)であるものとする。 A description will be given of a reception voice reproduction process in the communication device of the first embodiment configured as described above. FIG. 5 is a flowchart showing an example of the procedure of the speech speed conversion method according to Embodiment 1 of the present invention. Here, as a premise, it is assumed that the call device is connected to another point where a plurality of speakers exist and is talking (for example, during a conference call).
まず、通話装置601の使用者は、自分が話速変換して聞きたい相手側の話者の音声を指定する必要がある場合(ステップ1でYesの場合)には、そのような話者の発話中に、登録ボタン605を押下して通話装置601に音声特徴の登録を指示する。これにより、音声特徴抽出部101はその時点での受話音声の特徴量を算出し、音声特徴記憶部102に記憶する(ステップ2)。
First, when it is necessary for the user of the
このステップ2で抽出する音声特徴量は、一般に話者の認証に用いられる音声スペクトルやピッチ周波数、音声ホルマントの遷移情報などとする。たとえばスペクトルは音声信号のFFT(Fast Fourier Transform)演算により、ピッチ周波数はケプストラム法や相関関数法により、音声ホルマントの時間遷移はスペクトルの概形を計算することによって抽出される。そして、話者判定処理のマッチング方法に適した形式に変換される。たとえば単語発声のスペクトル距離を計算するDP(Dynamic Programming)マッチング方式ではスペクトル情報の時系列データとして変換され、HMM(Hidden Markov Model)などの確率モデルによるマッチング方式では状態遷移の確率情報として変換される。 The speech feature amount extracted in step 2 is assumed to be speech spectrum, pitch frequency, speech formant transition information, etc., which are generally used for speaker authentication. For example, the spectrum is extracted by FFT (Fast Fourier Transform) calculation of the audio signal, the pitch frequency is extracted by the cepstrum method or the correlation function method, and the time transition of the audio formant is extracted by calculating the outline of the spectrum. Then, it is converted into a format suitable for the matching method of the speaker determination process. For example, the DP (Dynamic Programming) matching method for calculating the spectral distance of word utterance is converted as time-series data of spectrum information, and the matching method based on a probability model such as HMM (Hidden Markov Model) is converted as state transition probability information. .
その後、またはステップ1で発声中の話者を話速変換して聞きたい相手として登録しない場合(ステップ1でNoの場合)で、使用者は、話速変換したい話者の登録を他に行う場合(ステップ3でNoの場合)には、ステップ1へと戻り、上述した処理が、話速変換したい話者をすべて登録するまで、繰り返される。 After that, or in the case where the speaker who is speaking in step 1 is not registered as the other party who wants to hear by converting the speech speed (No in step 1), the user performs another registration of the speaker whose speech speed is to be converted. In the case (No in step 3), the process returns to step 1 and the above-described processing is repeated until all the speakers whose speech speed is to be converted are registered.
使用者による話速変換したい話者の登録が終了し(ステップ3でYesの場合)、通常の会話中に、使用者によってスロー再生ボタン606が押下されたか否かが通話装置601で判定される(ステップ4)。スロー再生ボタン606が押下された場合(ステップ4でYesの場合)には、通話装置601の音声特徴抽出部101は、受話音声の音声特徴量を算出し続ける(ステップ5)。
The registration of the speaker who wants to change the speech speed by the user is completed (Yes in Step 3), and it is determined by the
その後、話者判定部103は、ステップ5で算出した受話音声の音声特徴量について、音声特徴記憶部102に記憶されている音声特徴量との距離を計算し、その結果からステップ2で登録した話者の内の1人であるか否かの判定を行う(ステップ6)。つまり、音声特徴量との距離が閾値よりも小さければ(ステップ6でYesの場合)、現在受信中の受話音声を有する話者は、使用者が指定した話者であると判断し、話速変換部104にその旨のフラグを渡す。また、話者判定部103は、音声特徴量との距離が閾値以上であれば、現在受信中の受話音声を有する話者使用者が指定した話者ではないと判断し、話速変換部104にその旨のフラグを渡す。
After that, the
話速変換部104は、話者判定部103から受け取ったフラグに基づいて、受話音声に対する処理を行う。すなわち、登録した話者の音声特徴に近い場合(ステップ6でYesの場合)には、話速変換部104は、受話音声をゆっくりと聞きやすい話速に変換して再生する(ステップ7)。一方、登録した話者の音声特徴に近くない場合(ステップ6でNoの場合)またはステップ4でスロー再生ボタン606が押下されていない場合(ステップ4でNoの場合)には、話速変換部104は、受話音声に対して話速の変換を行わず、所定の処理を行う。そして、ステップ1〜ステップ7の処理が、通話が終了するまで繰り返し実行される。
The speech
なお、以上の図5に示される処理において、話速変換したい話者を登録し、話速変換を行うか否かを設定するステップ1〜ステップ4の処理は使用者による操作処理が必要であり、ステップ5〜ステップ7の通話中の選択的な話速変換処理は通話装置601が設定内容に基づいて自動的に実行し続ける。
In the process shown in FIG. 5 above, the process from step 1 to step 4 for registering a speaker to be speech speed converted and setting whether to perform the speech speed conversion requires an operation process by the user. The selective speech speed conversion processing during a call in
ここで、本実施の形態1におけるリアルタイム話速変換の概念について説明する。図6は、話速変換処理の動作概念を示す図である。この図6では、スロー再生ボタン606が押下されない「通常速度」モード(話速変換なし=100%)と、スロー再生ボタン606が押下された「ゆっくり」モードと、の2種類のモードが選択可能な場合を示している。
Here, the concept of real-time speech speed conversion in the first embodiment will be described. FIG. 6 is a diagram showing an operation concept of the speech speed conversion process. In FIG. 6, two modes can be selected: a “normal speed” mode in which the
この図6に示されるように、「通常速度」モードに対して、「ゆっくり」モードが通常モード以上の話速変換率となるよう登録されている場合、有音区間は話者別に設定された変換率で音声信号を時間方向に伸張する。しかし、受話音声の話速を一律に遅く変換して再生し続けると、受話音声が実際に発生した時間に対する話速変換後の再生時間の遅延が、時間の経過と共に増大し、会話に著しい不具合を生じてしまう。そこで、無音区間を実際の発話タイミングに合わせて圧縮することによって、話速の変換率が異なる場合でも会話に支障ある大きな遅延を生じること無く話速変換を行うことができる。 As shown in FIG. 6, when the “slow” mode is registered so as to have a speech rate conversion rate higher than the normal mode with respect to the “normal speed” mode, the sound period is set for each speaker. The audio signal is expanded in the time direction at the conversion rate. However, if the speech speed of the received voice is uniformly reduced and played continuously, the delay of the playback time after the speech speed conversion with respect to the time when the received voice was actually generated increases with time, which causes a significant problem with the conversation. Will occur. Therefore, by compressing the silent section in accordance with the actual speech timing, the speech speed can be converted without causing a large delay that hinders the conversation even when the conversion rate of the speech speed is different.
つぎに、話速変換処理の具体的な実現方法について、図7〜図9を用いて説明する。図7は、本発明の実施の形態1における通話装置の使用時の構成の一例を示す図であり、図8は、本発明の実施の形態1における通話装置の使用時の構成の他の例を示す図であり、図9は、図7〜図8での話速変換処理の実際の動作例を示す図である。これらの例では、2台の通話装置が通信回線を介して接続され、音声通話による通話を行う場合を例示している。 Next, a specific method for realizing the speech speed conversion process will be described with reference to FIGS. FIG. 7 is a diagram showing an example of a configuration when using the communication device according to Embodiment 1 of the present invention, and FIG. 8 is another example of a configuration when using the communication device according to Embodiment 1 of the present invention. FIG. 9 is a diagram illustrating an actual operation example of the speech speed conversion processing in FIGS. 7 to 8. In these examples, a case where two call devices are connected via a communication line and a voice call is performed is illustrated.
図7において、601aは話者Aが使用する通話装置、601bは話者Bが使用する通話装置、1201a,1201bはゲートウェイ、1202はインターネットである。この図7に示される構成例では、2台の通話装置601a,601bはそれぞれ、ゲートウェイ1201a,1201bを介してインターネット1202に接続されている。また、この図7の場合では、通話装置601aと通話装置601bとの間で送受信される音声の信号は、デジタル信号がパケット化されたデータである。
In FIG. 7, 601a is a communication device used by speaker A, 601b is a communication device used by speaker B, 1201a and 1201b are gateways, and 1202 is the Internet. In the configuration example shown in FIG. 7, the two
もちろん、実施の形態1における使用時の構成はこの限りではなく、たとえばゲートウェイ1201a,1201bには他の端末装置やハブ、ルータなどの通信機器が接続されていてもよい。また、ゲートウェイ1201aと通話装置601aとの間、またはゲートウェイ1201bと通話装置601bとの間にも他の端末装置やハブ、ルータなどの通信機器が接続されていてもよい。
Of course, the configuration in use in the first embodiment is not limited to this, and other terminal devices, hubs, routers, and other communication devices may be connected to the
図8において、1301a,1301bはそれぞれ通話装置601a,601bに接続される接続線、1302a,1302bはモデム、1303a,1303bは公衆回線網、1304a,1304bはそれぞれ通話装置601a,601bが所属するインターネットサービスプロバイダ(図中、ISPと表記)である。
In FIG. 8, 1301a and 1301b are connection lines connected to the
この図8に示される構成例のように、通話装置601a,601bがそれぞれ、モデム1302a,1302b、公衆回線網1303a,1303b、インターネットサービスプロバイダ1304a,1304bなどを介してインターネット1202に接続されているものであってもよい。この場合、モデム1302aと通話装置601aとの間の接続線1301a上、およびモデム1302bと通話装置601bとの間の接続線1301b上では、アナログ音声信号で送受信が行われ、モデム1302a,1302bにおいて音声信号のデジタル化および変復調が行われるようにしてもよい。また、接続線1301a,1301bがLAN(Local Area Network)ケーブルであって、既に通話装置601a,601bにおいてデジタル化された音声データのパケットが接続線1301a,1301b上を伝送する場合には、モデム1302a,1302bにおいては変復調のみが行われるようにしてもよい。
As shown in the configuration example shown in FIG. 8,
なお、図7や図8の構成は一例であり、図7に示す構成と図8に示す構成とが混在している状態であってもよいし、図8のモデム1302a,1302bとが1つの同じ公衆回線のみを介して接続される構成を有していてもよい。
7 and 8 are examples, and the configuration shown in FIG. 7 and the configuration shown in FIG. 8 may be mixed, or the
また、本実施の形態1における通話装置601a,601bは、その通話装置601a,601bに内蔵されたマイクロホン(図2における通話装置601のマイクロホン602a〜602dに相当)に入力される当該通話装置601a,601bの使用者の音声については、その通話装置601a,601bに内蔵されたスピーカ(図2における通話装置601のスピーカ603に相当)には出力しないようにしている。これは、内蔵マイクロホンに入力された当該通話装置601a,601bの使用者の音声を当該通話装置601a,601bのスピーカから出力するようにした場合、ハウリングを起こしやすいためである。しかしながら、もしハウリングが発生しないような装置を構成することができるのであれば、内蔵マイクロホンに入力された当該通話装置601a,601bの使用者の音声を当該通話装置601a,601bのスピーカから出力するようにしてもよい。
Also, the
以上のような構成における実際の話速変換処理の動作例について図9を参照しながら説明する。ここで、話者Aは図7の通話装置601aを使用し、話者Bは通話装置601bを使用する。また、図9の動作を開始する前に、話者Aは上述したように登録ボタン(図2における通話装置601の登録ボタン605に相当)を押下し、図5のフローチャートにおけるステップ1〜ステップ3にしたがって、通話装置601aに話者Bの音声特徴の登録を行い、さらにスロー再生ボタン(図2における通話装置601のスロー再生ボタン606に相当)を押下し、通話装置601aにおいて話者Bの音声特徴量の算出が行われているものとする。
An operation example of actual speech speed conversion processing in the above configuration will be described with reference to FIG. Here, the speaker A uses the communication device 601a of FIG. 7, and the speaker B uses the
図9において1411と1413に示すように、通話装置601aにおいて話者Aから話者Bへ話しかけている音声の速さと、通話装置601bから話者Bに届く話者Aの音声の速さは同じである。これは、話者B側の通話装置601bにおいて話者Aの音声特徴の登録が行われていないか、または登録されていたとしても話者B側の通話装置601bのスロー再生ボタン606の押下が行われておらず、通話装置601bにおいて音声特徴量の算出が行われていないためである。
As indicated by
前者の場合、話者B側の通話装置601bに搭載された図5のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないので、ステップ1(No)→ステップ3(Yes)→ステップ4へと移行する。そこで、スロー再生ボタン606の押下が行われていればステップ4(Yes)→ステップ5→ステップ6の順に移行する。しかし、ステップ6において図4の話者判定部103が音声特徴抽出部101からの信号により「No」と判定する。すなわち、音声特徴が音声特徴記憶部102に登録されていないので、話者判定部103は、登録した話者の音声特徴に近いとは判定しない。そのため、判定結果を受けた図4の話速変換部104は通話装置601aから送られてくる音声信号の話速変換を行わない。その後、通話装置601bに搭載された図5のフローチャートを実行するプログラムの処理状態は、ステップ6(No)からステップ1へと移行する。
In the former case, since the processing state of the program shown in the flowchart of FIG. 5 installed in the talking
また後者の場合、話者B側の通話装置601bに搭載された図5のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録が行われているので、まずはステップ1(Yes)→ステップ2→ステップ3(Yes)→ステップ4へと移行する。しかしながら、スロー再生ボタン606の押下が行われていないので、ステップ4で「No」と判定されてステップ1へと移行する。以上に示す状態遷移を、通話装置601bに搭載された図5のフローチャートに示すプログラムは繰り返し行っている。
In the latter case, since the processing state of the program shown in the flowchart of FIG. 5 installed in the
これに対し、通話装置601aから話者Aに聞こえている音声1412a,1414aは、通話装置601bにおいて話者Bが話者Aへ話しかけている音声1412b,1414bよりもゆっくりとした速さとなる。これは、話者A側の通話装置601aにおいて話者Bの音声特徴の登録が行われ、話者A側の通話装置601aのスロー再生ボタン606の押下が行われ、通話装置601aにおいて音声特徴量の算出が行われているためである。
On the other hand, the
この処理状態を図5に示すフローチャートを用いて説明すると以下のようになる。話者Bから話者Aへ話しかけていないとき、すなわち区間1401,1403で示される状態にあるとき、通話装置601aに搭載された図5のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないのでステップ1(No)→ステップ4へと移行する。また、スロー再生ボタン606の押下が行われているのでステップ4(Yes)→ステップ5→ステップ6の順に移行する。ステップ6において図4の話者判定部103が音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果「No」と判定するので、その判定結果を受けた話速変換部104は通話装置601bから送られてくる音声信号の話速変換を行わない。その後、通話装置601aに搭載された図5のフローチャートに示すプログラムの処理状態は、ステップ6(No)からステップ1へと移行する。以上に示す状態遷移を、通話装置601aに搭載された図5のフローチャートに示すプログラムは繰り返し行っている。
This processing state will be described with reference to the flowchart shown in FIG. When the speaker B is not speaking to the speaker A, that is, in the state shown in the
ついで、話者Bから話者Aへ話しかけるとき(区間1402,1404で示される状態にあるとき)、すなわち図9における音声1412bまたは1414bが通話装置601bから通話装置601aへ伝達されているとき、通話装置601aに搭載された図5のフローチャートに示すプログラムの処理状態は、先程と同様にステップ1(No)→ステップ3(Yes)→ステップ4(Yes)→ステップ5→ステップ6の順に移行する。そして、ステップ6で図4の話者判定部103が音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果、「話者Bである」、すなわちステップ6で「Yes」と判定し、ステップ7へと状態が遷移する。その判定結果を受けた図4の話速変換部104は通話装置601bから送られてくる話者Bの音声信号1412bまたは1414bの話速変換を行い、それぞれ1412aまたは1414aとする。その後、通話装置601aに搭載された図5のフローチャートに示すプログラムの処理状態は、ステップ6からステップ1へと移行する。
Next, when talking from the speaker B to the speaker A (when in the state shown by the
通話装置601aにおいて、通話装置601bから送られてくる話者Bの音声信号の話速変換速度をどれくらいにするかについては、通話装置601aの使用者がメニュー画面などでの設定において予め決められるようにしてもよいし、通話装置601aの設計段階で装置の製造者が予め所定の話速変換速度に決めてもよい。
In the communication device 601a, the user of the communication device 601a can determine in advance the setting on the menu screen or the like as to how much the speech speed conversion speed of the voice signal of the speaker B sent from the
なお、本実施の形態1においては、話者Aのみが話者Bの音声特徴の登録を行った後スロー再生ボタン606を押下している場合について説明したが、以上のような音声特徴の登録とスロー再生ボタン606の押下は話者Aに限らず話者Bも実施してよい。また、上述した例では、通話装置601が2台接続された場合を例に挙げたが、通話装置601を3台以上用いてもよいし、ある通話装置601において複数の話者が話す場合においても、他の通話装置601がその複数のうちの任意の話者の音声特徴を登録し、話速変換を行うことも可能である。
In the first embodiment, the case where only the speaker A registers the voice feature of the speaker B and then presses the
以上のように本実施の形態1では、受話音声の音声信号から音声特徴を抽出する音声特徴抽出部101と、音声特徴抽出部101で抽出した音声特徴が登録された話者のものか否かを判定する話者判定部103と、登録された話者のものである場合にその音声信号の話速を所定の話速に変換する話速変換部104と、を設けることにより、複数の話者が参加する通話において、早口の話者や外国語を話す話者など、受聴者が指定する話者の音声のみが適当な速さに変換される。その結果、受聴者によるそれら話者の発話内容の了解度が改善されるという効果を有する。一方で、受聴者が指定していない話者の音声は話速変換が適用されないため、変換が逆効果となって、つまり遅い話者の音声がさらに遅くなるなど、会話の了解度が低下することを回避することができるという効果も有する。
As described above, in the first embodiment, the speech
(実施の形態2)
図10は、本発明の実施の形態2における話速変換装置が関係する部分の構成を模式的に示すブロック図である。この図10において、実施の形態1と同様に、101は通話に参加する個々の話者の音声特徴を抽出する音声特徴抽出部、102は抽出された音声特徴を記憶する音声特徴記憶部、103は現在の発話者の音声を音声特徴記憶部102に記憶された音声特徴と比較することによってその発話者が、受聴者によって指定された話者の一人であるか否かを判定する話者判定部、104は話者判定部103の判定結果を受けて受話音声の話速を変換する話速変換部である。
(Embodiment 2)
FIG. 10 is a block diagram schematically showing a configuration of a portion related to the speech speed conversion apparatus according to the second embodiment of the present invention. In FIG. 10, as in the first embodiment, 101 is a voice feature extraction unit that extracts voice features of individual speakers participating in a call, 102 is a voice feature storage unit that stores the extracted voice features, 103 Determines whether the speaker is one of the speakers designated by the listener by comparing the voice of the current speaker with the voice features stored in the voice
また、105は個々の話者に対して設定された最適な話速の変換率を記憶する話者・話速対応記憶部、106は話者判定部103によって判定された話者に対応する話速の変換率を、話者・話速対応記憶部105から選択する話速選択部である。ここで、音声特徴記憶部102に記憶された音声特徴と、話者・話速対応記憶部105に記憶された話速の変換率とは、たとえば音声特徴の対象となる話者に対して付される話者識別情報などによって関連付けされている。また、話速変換部104は、話速選択部106によって選択された話速変換率に基づいて対応する話者の話速を変換する。なお、特許請求の範囲における指定話者変換条件記憶手段は話者・話速対応記憶部105に相当し、同じく指定話者変換条件選択手段は、話速選択部106に相当する。なお、本実施の形態2による話速変換装置を備える通話装置の構成については、実施の形態1の図1〜図3に示したものと同様であるので、その説明を省略する。
本実施の形態2において、音声特徴記憶部102と話者・話速対応記憶部105は、図3におけるメモリ704に対応する。また、話者判定部103、話速変換部104、話速選択部106は、それぞれ図3のDSP701上で動作するソフトウェアプログラムとして、メモリ704に格納されている。つまり、話者判定部103と話速変換部104と話速選択部106は、DSP701が通信路インターフェース702より受信した受話音声をメモリ704に記憶されているプログラムにしたがって演算してD/Aコンバータ705に出力することにより実現される。また、音声特徴抽出部101は、DSP701が通信路インターフェース702より受信した受話音声から、メモリ704に記録されているプログラムにしたがって演算して音声特徴量を取得することによって実現され、音声特徴記憶部102は、音声特徴抽出部101によって取得されたその音声特徴量がメモリ704に記憶されることによって実現される。さらに、話者・話速対応記憶部105は、話速変換率を登録した音声特徴に対応付けてメモリ704に記憶することで実現される。
In the second embodiment, the voice
このように構成された本発明の実施の形態2の話速変換装置を有する通話装置における動作を説明する。図11は、本発明の実施の形態2における話速変換方法の手順の一例を示すフローチャートである。ここでは、図5と同様に、前提として、通話装置は複数の話者が存在する他地点と接続して通話中であるものとする。 The operation of the communication apparatus having the speech speed conversion apparatus according to Embodiment 2 of the present invention configured as described above will be described. FIG. 11 is a flowchart showing an example of the procedure of the speech speed conversion method according to Embodiment 2 of the present invention. Here, as in FIG. 5, it is assumed that the call device is connected to another point where a plurality of speakers exist and is talking.
まず、通話装置の使用者は、自分が話速変換して聞きたい相手側の話者の音声を指定する必要がある場合(ステップ21でYesの場合)には、そのような話者の発話中に、使用者は登録ボタン605を押下して通話装置601に音声特徴の登録を指示する。
First, when it is necessary for the user of the call device to specify the voice of the other party's speaker that he / she wants to hear by converting his / her speech speed (Yes in step 21), the speech of such speaker Meanwhile, the user presses the
続いて、使用者は適当な話速の変換率をたとえば操作ボタン607などの入力部を介して指定すると(ステップ22)、話速変換部104は指定された変換率で話速を変換する(ステップ23)。使用者は変換された音声を聞き、話速が適当であるかを判断し(ステップ24)、適当でない場合(ステップ24でNoの場合)には、再びステップ22へと戻り、話速が適当となるまで、話速の変換率を変えて上述した処理を繰り返し実行する。
Subsequently, when the user designates an appropriate speech rate conversion rate via an input unit such as the operation button 607 (step 22), the speech
その後、または話速が適当である場合(ステップ24でYesの場合)には、音声特徴抽出部101は、現在の音声特徴量を算出し、音声特徴記憶部102に記憶するとともに、設定された話速変換率をその音声特徴量に対応付けして話者・話速対応記憶部105に記憶する(ステップ25)。この音声特徴量の実現形態は実施の形態1で説明したものと同様である。
After that, or when the speech speed is appropriate (Yes in step 24), the speech
その後、またはステップ21で発声中の話者を話速変換して聞きたい相手として登録しない場合(ステップ21でNoの場合)で、使用者は、話速変換したい話者の登録を他に行う場合(ステップ26でNoの場合)には、ステップ21へと戻り、上述した処理が、話速変換したい話者をすべて登録するまで、繰り返される。 After that, or in the case where the speaker who is speaking at step 21 is not registered as the other party who wants to hear by converting the speech speed (in the case of No at step 21), the user performs another registration of the speaker whose speech speed is to be converted. In the case (No in Step 26), the process returns to Step 21 and the above-described processing is repeated until all the speakers whose speech speed is to be converted are registered.
使用者によって、話速変換したい話者の登録が終了し(ステップ26でYesの場合)、通常の会話中に、使用者によってスロー再生ボタン606が押下されたか否かが通話装置601で判定される(ステップ27)。スロー再生ボタン606が押下された場合(ステップ27でYesの場合)には、通話装置601の音声特徴抽出部101は、受話音声の音声特徴量を算出し続ける(ステップ28)。
Registration of the speaker whose speech speed is to be converted is completed by the user (Yes in step 26), and it is determined by the
その後、話者判定部103は、ステップ28で算出した受話音声の音声特徴量について、音声特徴記憶部102に記憶されている全ての話者の音声特徴量との距離を計算し、その結果からステップ25で登録した話者の内の1人であるか否かの判定を行う(ステップ29)。つまり、音声特徴量との距離が閾値よりも小さければ(ステップ29でYesの場合)、話者判定部103は、話者がステップ25で登録した話者に一致すると判定し、話速選択部106は、一致した話者に関連付けて登録してある話者・話速対応記憶部105中の話速変換率をロードする(ステップ30)。そして、話速変換部104は、話速選択部106によってロードされた話速変換率で受話音声を変換して再生する(ステップ31)。
Thereafter, the
一方、音声特徴量との距離が閾値以上である場合(ステップ29でNoの場合)、またはスロー再生ボタン606が押下されていない場合(ステップ27でNoの場合)には、話者判定部103は、使用者が指定した話者ではないと判断し、話速選択部106は、通常の速度で受話音声を再生することを話速変換部104に指示する。そして、話速変換部104は、受話音声に対して話速の変換を行わず、所定の処理を行う。そして、ステップ21〜ステップ31の処理が、通話が終了するまで繰り返し実行される。このような処理を行うことにより、通話する相手側のどの話者が発声しても使用者が話者別に設定した変換率で常に良好な話速変換を適用できる効果作用を有している。
On the other hand, when the distance from the voice feature amount is equal to or greater than the threshold (No in Step 29), or when the
図12は、本発明の実施の形態2における複数の話者の話速設定によるリアルタイム話速変換の概念図である。この図12では、ある話者の話速について、話者1は110%、話者2は120%、話者3は130%、・・・、という具合に受聴者(話者1、話者2、話者3、・・・)で異なる話速が登録される場合を示している。この図に示されるように、有音区間は受聴者別に設定された変換率で音声信号を時間方向に伸張し、無音区間を実際の発話タイミングに合わせて圧縮することによって、話速の変換率が異なる場合でも会話に支障のある大きな遅延を生じること無く話速変換を行うことができる。
FIG. 12 is a conceptual diagram of real-time speech speed conversion by speaking speed settings of a plurality of speakers in Embodiment 2 of the present invention. In FIG. 12, with respect to the speaking speed of a certain speaker, the listener (speaker 1, speaker) is 110% for
つぎに、本実施の形態2における話速変換処理の具体的な実現方法について、図13〜図14を用いて説明する。図13は、本発明の実施の形態2における通話装置の使用時の構成の一例を示す図であり、図14は、図13での話速変換処理の実際の動作例を示す図である。図13において、601c〜601fは、それぞれ話者C〜Fが使用する通話装置、1201c〜1201fは、それぞれ通話装置601c〜601fとインターネット1202とを接続するゲートウェイである。なお、実施の形態1の図7と図8で用いたものと同一の構成要素には同一の符号を付してその説明を省略している。 Next, a specific method for realizing the speech speed conversion process according to the second embodiment will be described with reference to FIGS. FIG. 13 is a diagram showing an example of a configuration when using the communication device according to the second embodiment of the present invention, and FIG. 14 is a diagram showing an actual operation example of the speech speed conversion processing in FIG. In FIG. 13, 601 c to 601 f are call devices used by the speakers C to F, respectively, and 1201 c to 1201 f are gateways that connect the call devices 601 c to 601 f and the Internet 1202, respectively. In addition, the same code | symbol is attached | subjected to the component same as what was used in FIG. 7 and FIG. 8 of Embodiment 1, and the description is abbreviate | omitted.
この図13の例では、4台の通話装置601c〜601fの間で通話する場合を想定している。また、図13の構成の場合には、通話装置601c〜601fの間で送受信される音声の信号は、デジタル信号がパケット化されたデータである。 In the example of FIG. 13, it is assumed that a call is made between the four call devices 601c to 601f. In the case of the configuration of FIG. 13, the audio signal transmitted / received between the communication devices 601c to 601f is data in which a digital signal is packetized.
もちろん、実施の形態2における使用時の構成はこの限りではなく、実施の形態1に示したように、任意の方法で通話装置601c〜601f間を接続することが可能である。その方法は、既に実施の形態1で説明したので、ここでは省略する。また、本実施の形態2における通話装置601c〜601fのマイクロホン708とスピーカ707においても、ハウリングが発生しないような構造とされるのは、実施の形態1に示したのと同様である。
Of course, the configuration at the time of use in the second embodiment is not limited to this, and as shown in the first embodiment, the communication devices 601c to 601f can be connected by an arbitrary method. Since this method has already been described in Embodiment 1, it is omitted here. In addition, the
以上のような構成における実際の話速変換処理の動作例について図14を参照しながら説明する。ここで、話者Cは図13の通話装置601cを使用し、話者Dは通話装置601dを使用し、話者Eは通話装置601eを使用し、話者Fは通話装置601fを使用する。また、図14の動作を開始する前に、話者Fのみが上述したように登録ボタン(図2における通話装置601の登録ボタン605に相当)を押下し、図11のフローチャートにおけるステップ21〜ステップ26にしたがって、通話装置601fに対し話者C〜Eの話速変換率と音声特徴の登録を行い、さらにスロー再生ボタン(図2における通話装置601のスロー再生ボタン606に相当)を押下し、通話装置601fにおいて音声特徴量の算出と、話者の特定と、話速の選択が行われているものとする。
An example of actual speech speed conversion processing in the above configuration will be described with reference to FIG. Here, the speaker C uses the communication device 601c of FIG. 13, the speaker D uses the communication device 601d, the speaker E uses the communication device 601e, and the speaker F uses the communication device 601f. Further, before starting the operation of FIG. 14, only the speaker F presses the registration button (corresponding to the
図14では省略しているが、通話装置601fにおいて話者Fから話者C〜Eへ話しかけている音声の速さと、通話装置601c〜601eからそれぞれ話者C〜Eに聞こえている話者Fの音声の速さはそれぞれ同じである。これは実施の形態1の図9における1411と1413と同様に、話者C〜E側の通話装置601c〜601eにおいて話者Fの話速変換率と音声特徴の登録が行われていないか、または登録されていても話者C〜E側の通話装置601c〜601eのスロー再生ボタン606の押下が行われておらず、通話装置601c〜601eにおいて音声特徴量の算出と話者の特定と話速の選択が行われていないためである。
Although omitted in FIG. 14, the speed of the voice spoken from the speaker F to the speakers C to E in the call device 601 f and the speaker F heard by the speakers C to E from the call devices 601 c to 601 e, respectively. The voice speeds are the same. As in 1411 and 1413 in FIG. 9 of the first embodiment, whether or not the speech rate conversion rate and the voice feature of the speaker F are registered in the communication devices 601c to 601e on the speaker C to E side. Or, even if registered, the
前者の場合、通話装置601c〜601eに搭載された図11のフローチャートに示す各プログラムの処理状態は、判定時点では音声特徴の登録を行っていないのでステップ21(Yes)→ステップ26(Yes)→ステップ27へと移行する。そこで、スロー再生ボタン606の押下が行われていれば、ステップ27(Yes)→ステップ28→ステップ29の順に移行する。ステップ29において、通話装置601c〜601eの各話者判定部103が各音声特徴抽出部101からの信号により「No」と判定するので、各話速選択部106を介して、その判定結果を受けた通話装置601c〜601eの各話速変換部104は、通話装置601fから送られてくる音声信号の話速変換を行わない。その後、通話装置601c〜601eに搭載された図11のフローチャートを実行する各プログラムの処理状態は、それぞれステップ29(No)からステップ21へと移行する。
In the former case, the processing state of each program shown in the flowchart of FIG. 11 installed in the communication devices 601c to 601e has not registered voice characteristics at the time of determination, so step 21 (Yes) → step 26 (Yes) → Control goes to step 27. Therefore, if the
また後者の場合、通話装置601c〜601eに搭載された図11のフローチャートに示す各プログラムの処理状態は、判定時点では音声特徴の登録が行われているので、まずはステップ21(No)→ステップ26(Yes)→ステップ27へと移行する。しかしながら、スロー再生ボタン606の押下が行われていないので、ステップ27において「No」と判定されてステップ21へと移行する。以上に示す状態遷移を、通話装置601c〜601eに搭載された図11のフローチャートに示す各プログラムは、それぞれ繰り返し行っている。なお、通話装置601c〜601eにおいて、それぞれに搭載された図11のフローチャートに示す各プログラムの各ステップを互いに同期させて動作させる必要は無い。
In the latter case, since the voice feature is registered at the time of determination, the processing state of each program shown in the flowchart of FIG. 11 installed in the communication devices 601c to 601e is first step 21 (No) →
これに対し、通話装置601fから話者Fに聞こえている話者C〜Eのそれぞれの音声1621〜1623は、通話装置601c〜601eにおいてそれぞれの話者C〜Eから話者Fへ話しかけている各音声1611〜1613よりもゆっくりとした速さとなる。この各話者C〜Eの音声速度は、話者(受聴者)Fの登録段階(ステップ21〜ステップ26)においてそれぞれ設定されたものとなる。これは、話者F側の通話装置601fにおいて話者C〜Eの音声速度および音声特徴の登録が行われ、話者F側の通話装置601fのスロー再生ボタン606の押下が行われて、通話装置601fにおいて音声特徴量の算出と、話者の特定と、話速の選択が行われているためである。
On the other hand, the
この処理状態を図11に示すフローチャートを用いて説明すると以下のようになる。話者C〜Eのいずれもが話者Fへ話しかけていないとき、通話装置601fに搭載された図11のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないので、ステップ21(Yes)→ステップ26(Yes)→ステップ27へと移行する。また、スロー再生ボタン606の押下が行われているので、ステップ27(Yes)→ステップ29の順に移行する。ステップ29で図4の話者判定部103が音声特徴抽出部101からの信号と音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果「No」と判定するので、その判定結果を受けた話速変換部104は通話装置601c〜601eから送られてくる音声信号の話速変換を行わない。
This processing state will be described with reference to the flowchart shown in FIG. When none of the speakers C to E is speaking to the speaker F, the processing state of the program shown in the flowchart of FIG. 11 installed in the communication device 601f is not registered as a voice feature at the time of determination. The process proceeds from step 21 (Yes) → step 26 (Yes) → step 27. Further, since the
その後、通話装置601fに搭載された図11のフローチャートに示すプログラムの処理状態は、ステップ29(No)からステップ21へと移行する。以上に示す状態遷移を、通話装置601fに搭載された図11のフローチャートに示すプログラムは繰り返し行っている。 Thereafter, the processing state of the program shown in the flowchart of FIG. 11 installed in the communication device 601f shifts from step 29 (No) to step 21. The state transition shown above is repeatedly performed by the program shown in the flowchart of FIG. 11 installed in the communication device 601f.
これに対して、たとえば話者Cが話者Fへ話しかけているとき(図14の区間1601で示される状態にあるとき)、すなわち図14における音声1611が通話装置601cから通話装置601fへ伝達されているとき、通話装置601fに搭載された図11のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないので、ステップ21(Yes)→ステップ26(Yes)→ステップ27へと移行する。
On the other hand, for example, when speaker C is talking to speaker F (when in a state shown by
また、スロー再生ボタン606の押下が行われているので、通話装置601fに搭載された図11のフローチャートに示すプログラムの処理状態は、ステップ27において「Yes」と判定し、ステップ28→ステップ29の順に移行する。ステップ29において通話装置601fの話者判定部103が音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果、「話者Cである」、すなわちステップ29で「Yes」と判定し、ステップ30→ステップ31の順に状態が遷移する。つまり、ステップ29で「Yes」の判定結果を受けた通話装置601fの話速変換部104は、ステップ30において、話者・話速対応記憶部105から話速選択部106を介して話者Cに対応する話速変換率(110%)をロードし、ステップ31において通話装置601cから送られてくる話者Cの音声信号1611の話速変換を行って1621とする。その後、通話装置601fに搭載された図11のフローチャートに示すプログラムの処理状態は、ステップ31からステップ21へと移行する。以上に述べた処理は、話者D,Eの音声1612,1613についても同様に行われ、話者Fにはそれぞれ120%に変換された再生音声1622、130%に変換された再生音声1623のように聞こえるようになる。
Further, since the
なお、本実施の形態2においては、話者Fのみが他の話者C〜Eの話速変換率と音声特徴の登録を行った後に、スロー再生ボタン606を押下している場合について説明したが、以上のような話速変換率と音声特徴の登録とスロー再生ボタン606の押下は話者Fに限らず他の話者C〜Eが実施してもよいし、複数の話者が同時に実施してもよい。また、通話装置601を2〜3台用いても、5台以上用いてもよいし、ある通話装置601において複数の話者が話す場合においても、他の通話装置601がその複数の話者の音声特徴と話速変換率を登録し、それぞれの話者に適した話速変換を行うことも可能である。
In the second embodiment, the case where only the speaker F presses the
以上のように本実施の形態2では、音声特徴を記憶した話者に対応して設定した話速変換率を話者・話速対応記憶部105に記憶し、話速選択部106が話者判定部103によって判定された話者に対応する話速変換率を抽出し、これに基づいて話速変換部104が受話音声を変換するようにしたので、複数の話者が参加する通話において、受話者の感覚に応じた速さで他の話者の発話内容を聞くことができ、その了解度が改善される。一方で、受聴者が指定していない話者の音声は話速変換が適用されないため、変換が逆効果となって会話の了解度が低下することを回避することもできる。
As described above, in the second embodiment, the speech rate conversion rate set corresponding to the speaker storing the voice feature is stored in the speaker / speech rate
(実施の形態3)
図15は、本発明の実施の形態3における話速変換装置が関係する部分の構成を模式的に示すブロック図である。この図15において、実施の形態1と同様に、101は通話に参加する個々の話者の音声特徴を抽出する音声特徴抽出部、102は抽出された音声特徴を記憶する音声特徴記憶部、103は現在の発話者の音声を音声特徴記憶部102に記憶された音声特徴と比較することによってその発話者が、受聴者によって指定された話者の一人であるか否かを判定する話者判定部、104は話者判定部103の判定結果を受けて受話音声の話速を変換する話速変換部である。
(Embodiment 3)
FIG. 15 is a block diagram schematically showing a configuration of a portion related to the speech rate conversion apparatus according to Embodiment 3 of the present invention. In FIG. 15, as in the first embodiment, 101 is a voice feature extraction unit that extracts voice features of individual speakers participating in a call, 102 is a voice feature storage unit that stores the extracted voice features, and 103. Determines whether the speaker is one of the speakers designated by the listener by comparing the voice of the current speaker with the voice features stored in the voice
また、107は個々の話者に対して設定された最適な話速の変換率と再生音量の増幅率とを記憶する話者・話速・音量対応記憶部、108は話者判定部103によって判定された話者に対応する話速の変換率と再生音量の増幅率を、話者・話速・音量対応記憶部107から選択する話速・音量選択部である。ここで、音声特徴記憶部102に記憶された音声特徴と、話者・話速・音量対応記憶部107に記憶された話速の変換率と再生音量の増幅率とは、たとえば音声特徴の対象となる話者に対して付される話者識別情報などによって関連付けされている。また、話速変換部104は、話速・音量選択部108によって選択された話速変換率と再生音量の増幅率に基づいて対応する話者の話速と再生音量を変換する。なお、特許請求の範囲における指定話者変換条件記憶手段は話者・話速・音量対応記憶部107に相当し、同じく指定話者変換条件選択手段は、話速・音量選択部108に相当する。
このような構成によって、話速変換部104が、話速・音量選択部108から受け取った変換率で話速を変換すると同時に音量も変換することによって、話者の発話距離や声の大きさによらず、個々の話者の音声が受聴者の好みの音量と話速に自動的に変換される。なお、本実施の形態3による話速変換装置を備える通話装置の構成については、実施の形態1の図1〜図3に示したものと同様であるので、その説明を省略する。
With such a configuration, the speech
本実施の形態3において、音声特徴記憶部102と話者・話速・音量対応記憶部107は、図3におけるメモリ704に対応する。また、話者判定部103、話速変換部104、話速・音量選択部108は、それぞれ図3のDSP701上で動作するソフトウェアプログラムとして、メモリ704に格納されている。つまり、話者判定部103と話速変換部104と話速・音量選択部108は、DSP701が通信路インターフェース702より受信した受話音声をメモリ704に記憶されているプログラムにしたがって演算してD/Aコンバータ705に出力することにより実現される。また、音声特徴抽出部101は、DSP701が通信路インターフェース702より受信した受話音声から、メモリ704に記録されているプログラムにしたがって演算して音声特徴量を取得することによって実現され、音声特徴記憶部102は、音声特徴抽出部101によって取得されたその音声特徴量がメモリ704に記憶されることによって実現される。さらに、話者・話速・音量対応記憶部107は、話速変換部104によって変換される話速変換率と再生音量の増幅率を、登録した音声特徴に対応付けてメモリ704に記憶することで実現される。
In the third embodiment, the voice
このように構成された本発明の実施の形態3の話速変換装置を有する通話装置における動作を説明する。図16は、本発明の実施の形態3における話速変換方法の手順の一例を示すフローチャートである。ここでも、実施の形態1の図5や実施の形態2の図11と同様に、前提として、通話装置は複数の話者が存在する他地点と接続して通話中であるものとする。 The operation of the communication apparatus having the speech rate conversion apparatus according to Embodiment 3 of the present invention configured as described above will be described. FIG. 16 is a flowchart showing an example of the procedure of the speech speed conversion method according to Embodiment 3 of the present invention. Here, similarly to FIG. 5 of the first embodiment and FIG. 11 of the second embodiment, it is assumed that the call device is connected to another point where a plurality of speakers exist and is in a call.
実施の形態2の図11のステップ21〜ステップ24と同様に、通話装置601の使用者は、自分が話速変換して聞きたい相手側の話者の音声の話速変換率を指定する(ステップ41〜ステップ44)。その後、使用者は適当な音量を指定すると(ステップ45)、話速変換部104は指定された音量に増幅する。使用者は、増幅された音声を聞き、音量が適当であるかを判断し(ステップ46)、適当でない場合(ステップ46でNoの場合)には、再びステップ45へと戻り、音量が適当となるまで、受話音量を変えて上述した処理を繰り返し実行する。
Similar to steps 21 to 24 in FIG. 11 of the second embodiment, the user of the
音量が適当である場合(ステップ46でYesの場合)には、音声特徴抽出部101は、現在の音声特徴量を算出し、音声特徴記憶部102に記憶するとともに、設定された話速変換率と音量をその音声特徴量に対応付けして話者・話速・音量対応記憶部107に記憶する(ステップ47)。この音声特徴量の実現形態は実施の形態1で説明したものと同様である。
If the sound volume is appropriate (Yes in step 46), the speech
その後、またはステップ41で発声中の話者を話速変換および/または音量変換して聞きたい相手として登録しない場合(ステップ41でNoの場合)で、使用者は、話速変換および/または音量変換したい話者の登録を他に行う場合(ステップ48でNoの場合)には、ステップ41へと戻り、上述した処理が、話速変換および/または音量変換したい話者をすべて登録するまで、繰り返される。 After that, or when the speaker who is speaking in step 41 is not registered as the other party who wants to hear by converting the speech speed and / or volume (if No in step 41), the user can change the speech speed and / or volume. If the speaker to be converted is registered elsewhere (No in step 48), the process returns to step 41 until the above-described processing registers all the speakers for which the speech speed conversion and / or volume conversion is to be performed. Repeated.
使用者によって、話速変換および/または音量変換したい話者の登録が終了し(ステップ48でYesの場合)、通常の会話中に、使用者によってスロー再生ボタン606が押下されたか否かが判定される(ステップ49)。スロー再生ボタン606が押下された場合(ステップ49でYesの場合)には、通話装置601の音声特徴抽出部101は、受話音声の音声特徴量を算出し続ける(ステップ50)。
Determination of whether or not the
その後、話者判定部103は、音声特徴記憶部102に記憶されている全ての話者の音声特徴量との距離を計算し、その結果からステップ47で登録した話者の内の1人であるか否かの判定を行う(ステップ51)。つまり、音声特徴量との距離が閾値よりも小さければ(ステップ51でYesの場合)、話速・音量選択部108は、一致した話者に関連付けしてある話者・話速・音量対応記憶部107中の話速変換率と再生音量の増幅率をロードする(ステップ52)。そして、話速変換部104は、話速・音量選択部108によってロードされた話速変換率と再生音量の増幅率で受話音声を変換して再生する(ステップ53)。
Thereafter, the
一方、音声特徴量との距離が閾値以上であれば(ステップ51でNoの場合)またはスロー再生ボタン606が押下されていない場合(ステップ49でNoの場合)には、話者判定部103は、使用者が指定した話者ではないと判断し、話速・音量選択部108は、通常の速度と音量で受話音声を再生することを話速変換部104に指示する。そして、話速変換部104は、受話音声に対して話速や音量の変換を行わず、所定の処理を行う。そして、ステップ41〜ステップ53の処理が、通話が終了するまで繰り返し実行される。このような処理を行うことにより、通話する相手側のどの話者が発声しても使用者が話者別に設定した変換率と再生音量の変換率で、常に良好な話速変換と再生処理を行うことができる。
On the other hand, if the distance from the voice feature amount is equal to or greater than the threshold (No in Step 51) or if the
つぎに、本実施の形態3における話速変換処理の具体的な実現方法について、図13と図17説明する。図17は、図13での話速変換処理の実際の動作例を示す図である。ここでは、実施の形態2における図13と同じ構成を有する場合を想定している。すなわち、4台の通話装置601c〜601fの間で通話する場合である。通話装置601c〜601fはそれぞれ、ゲートウェイ1201c〜1201fを介してインターネット1202に接続されている。また、通話装置601c〜601fの間で送受信される音声の信号は、デジタル信号がパケット化されたデータであるとする。なお、実施の形態3における使用時の構成はこの限りではなく、実施の形態1,2で説明したものと同様のバリエーションが存在する。
Next, a specific method of realizing the speech speed conversion process in the third embodiment will be described with reference to FIGS. FIG. 17 is a diagram showing an actual operation example of the speech speed conversion process in FIG. Here, the case where it has the same structure as FIG. 13 in Embodiment 2 is assumed. That is, it is a case where a call is made between the four call devices 601c to 601f. The communication devices 601c to 601f are connected to the Internet 1202 via
以上のような構成における実際の話速変換処理の動作例について図17を参照しながら説明する。ここで、実施の形態2の図14と同様に、話者Cは図13の通話装置601cを使用し、話者Dは通話装置601dを使用し、話者Eは通話装置601eを使用し、話者Fは通話装置601fを使用する。また、図17の動作を開始する前に、話者Fのみが前述のように登録ボタン(図2における通話装置601の登録ボタン605に相当)を押下し、図16のフローチャートにおけるステップ41〜ステップ48にしたがって、通話装置601fに対し話者C〜Eの話速変換率と再生音量の増幅率および音声特徴の登録を行い、さらにスロー再生ボタン(図2における通話装置601のスロー再生ボタン606に相当)を押下し、通話装置601fにおいて音声特徴量の算出および話者の特定と話速および受話音量の選択が行われているものとする。
An example of actual speech speed conversion processing in the above configuration will be described with reference to FIG. Here, as in FIG. 14 of the second embodiment, the speaker C uses the communication device 601c of FIG. 13, the speaker D uses the communication device 601d, the speaker E uses the communication device 601e, The speaker F uses the communication device 601f. Also, before starting the operation of FIG. 17, only the speaker F presses the registration button (corresponding to the
図17では省略しているが、通話装置601fにおいて話者Fから話者C〜Eへ話しかけている音声の速さおよび音量と、通話装置601c〜601eからそれぞれ話者C〜Eに聞こえている話者Fの音声の速さおよび音量とはそれぞれ同じである。これは実施の形態1の図9における1411と1413と同様に、話者C〜E側の通話装置601c〜601eにおいて話者Fの話速変換率、音量および音声特徴の登録が行われていないか、または登録されていても話者C〜E側の通話装置601c〜601eのスロー再生ボタン606の押下が行われておらず、通話装置601c〜601eにおいて音声特徴量の算出、話者の特定、音量および話速の選択が行われていないためである。
Although omitted in FIG. 17, the speed and volume of the voice talking from the speaker F to the speakers C to E in the call device 601 f and the speakers C to E are heard from the call devices 601 c to 601 e, respectively. The speed and volume of the voice of the speaker F are the same. Similarly to 1411 and 1413 in FIG. 9 of the first embodiment, the speech rate conversion rate, volume, and voice characteristics of speaker F are not registered in the communication devices 601c to 601e on the speakers C to E side. Or, even if registered, the
前者の場合、通話装置601c〜601eに搭載された図16のフローチャートに示す各プログラムの処理状態は、判定時点では音声特徴の登録を行っていないのでステップ41(Yes)→ステップ48(Yes)→ステップ49へと移行する。そこで、スロー再生ボタン606の押下が行われていれば、ステップ49(Yes)→ステップ50→ステップ51の順に移行する。ステップ51において、通話装置601c〜601eの各話者判定部103が各音声特徴抽出部101からの信号により「No」と判定するので、各話速・音量選択部108を介して、その判定結果を受けた通話装置601c〜601eの各話速変換部104は、通話装置601fから送られてくる音声信号の話速変換を行わない。その後、通話装置601c〜601eに搭載された図16のフローチャートに示す各プログラムの処理状態は、それぞれステップ51(No)からステップ41へと移行する。
In the former case, the processing state of each program shown in the flowchart of FIG. 16 installed in the communication devices 601c to 601e has not registered voice characteristics at the time of determination, so step 41 (Yes) → step 48 (Yes) → Control goes to step 49. Therefore, if the
また後者の場合、通話装置601c〜601eに搭載された図16のフローチャートに示す各プログラムの処理状態は、判定時点では音声特徴の登録が行われているので、まずはステップ41(No)→ステップ48(Yes)→ステップ49へと移行する。しかしながら、スロー再生ボタン606の押下が行われていないので、ステップ49において「No」と判定されてステップ41へと移行する。以上に示す状態遷移を、通話装置601c〜601eに搭載された図11のフローチャートに示す各プログラムは、それぞれ繰り返し行っている。なお、通話装置601c〜601eにおいて、それぞれに搭載された図16のフローチャートに示す各プログラムの各ステップを互いに同期させて動作させる必要は無い。
In the latter case, since the voice feature is registered at the time of determination, the processing state of each program shown in the flowchart of FIG. 16 installed in the communication devices 601c to 601e is first step 41 (No) → step 48. (Yes) → Transition to step 49. However, since the
これに対し、通話装置601fから話者Fに聞こえている話者C〜Eのそれぞれの音声1721〜1723は、通話装置601c〜601eにおいて話者C〜Eから話者Fへ話しかけている各音声1711〜1713よりもゆっくりとした速さとなり、それぞれの音量も最適なものとなる。この各話者C〜Eの音声速度と音量は、話者(受聴者)Fの登録段階(ステップ41〜ステップ48)においてそれぞれ設定されたものとなる。これは、話者F側の通話装置601fにおいて話者C〜Eの音声速度、音量および音声特徴の登録が行われ、話者F側の通話装置601fのスロー再生ボタン606の押下が行われ、通話装置601fにおいて音声特徴量の算出、話者の特定、話速および音量の選択が行われているためである。なお、図17の略矩形の音声信号の横方向(図中の左右方向)のサイズは話速の速さを示し、長いほど話速は遅いことを示している。また、略矩形の音声信号の縦方向(図中の上下方向)のサイズは音量の大きさを示し、長いほど音量は大きいことを示している。
On the other hand, the
この処理状態を図16に示すフローチャートを用いて説明すると以下のようになる。話者C〜Eのいずれもが話者Fへ話しかけていないとき、通話装置601fに搭載された図16のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないので、ステップ41(Yes)→ステップ48(Yes)→ステップ49へと移行する。また、スロー再生ボタン606の押下が行われているので、通話装置601fに搭載された図16のフローチャートに示すプログラムの処理状態は、ステップ49で「Yes」と判定され、ステップ50→ステップ51の順に移行する。ステップ51において通話装置601fの話者判定部103が音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果「No」と判定するので、その判定結果を受けた話速変換部104は通話装置601c〜601eから送られてくる音声信号の話速変換および音量変換を行わない。
This processing state will be described with reference to the flowchart shown in FIG. When none of the speakers C to E is speaking to the speaker F, the processing state of the program shown in the flowchart of FIG. The process proceeds from step 41 (Yes) to step 48 (Yes) to step 49. Since the
その後、通話装置601fに搭載された図16のフローチャートに示すプログラムの処理状態は、ステップ51(No)からステップ41へと移行する。以上に示す状態遷移を、通話装置601fに搭載された図16のフローチャートに示すプログラムは繰り返し行っている。 Thereafter, the processing state of the program shown in the flowchart of FIG. 16 installed in the communication device 601f shifts from step 51 (No) to step 41. The state transition shown above is repeatedly performed by the program shown in the flowchart of FIG. 16 installed in the communication device 601f.
これに対して、たとえば話者Cが話者Fへ話しかけているとき(図17の区間1601で示される状態にあるとき)、すなわち図17における音声1711が通話装置601cから通話装置601fへ伝達されているとき、通話装置601fに搭載された図16のフローチャートに示すプログラムの処理状態は、判定時点では音声特徴の登録を行っていないのでステップ41(Yes)→ステップ48(Yes)→ステップ49(Yes)へと移行する。
On the other hand, for example, when speaker C is speaking to speaker F (when in a state shown by
また、スロー再生ボタン606の押下が行われているので、通話装置601fに搭載された図16のフローチャートに示すプログラムの処理状態は、ステップ49において「Yes」と判定し、ステップ50→ステップ51の順に移行する。ステップ51において通話装置601fの話者判定部103が音声特徴抽出部101からの信号と音声特徴記憶部102のデータを比較した結果、「話者Cである」、すなわちステップ51で「Yes」と判定し、ステップ52〜ステップ53の順に状態が遷移する。つまり、ステップ51で「Yes」の判定結果を受けた通話装置601fの話速変換部104は、ステップ52において、話者・話速・音量対応記憶部107から話速・音量選択部108を介して話者Cの話速変換率と再生音量の増幅率をロードし、ステップ53において通話装置601cから送られてくる話者Cの音声信号1711の話速と再生音量変換を行って、1721とする。以上に述べた処理は、話者D,Eの音声1712,1713についても同様に行われ、話者Fにはそれぞれ再生音声1722,1723のように聞こえるようになる。
Since the
なお、本実施の形態3においては、話者Fのみが他の話者C〜Eの話速変換率と音声特徴の登録を行った後に、スロー再生ボタン606を押下している場合について説明したが、以上のような話速変換率、再生音量の増幅率、音声特徴の登録およびスロー再生ボタン606の押下は話者Fに限らず他の話者C〜Eが実施してもよいし、複数の話者が同時に実施しても構わない。また、通話装置601を2〜3台用いても、5台以上用いてもよいし、ある通話装置601において複数の話者が話す場合においても、他の通話装置601がその複数の話者の音声特徴と話速変換率と再生音量の増幅率とを登録し、それぞれの話者に適した話速変換と再生音量の変換を行うことも可能である。
In the third embodiment, the case where only the speaker F presses the
以上のように本実施の形態3では、音声特徴を記憶した話者に対応して設定した話速変換率と音声の増幅率を話者・話速・音量対応記憶部107に記憶し、話速・音量選択部108が話者判定部103によって判定された話者に対応する話速変換率と音声の増幅率を抽出し、これに基づいて話速変換部104が受話音声を変換するようにしたので、複数の話者が参加する通話において、受話者の感覚に応じた速さと音量で他の話者の発話内容を聞くことができ、その了解度が改善される。一方で、受聴者が指定していない話者の音声は話速変換が適用されないため、変換が逆効果となって音量のさらなる増大/減少、会話の了解度が低下することを回避することもできる。
As described above, in the third embodiment, the speech rate conversion rate and the speech amplification rate set for the speaker storing the speech features are stored in the speaker / speech rate / volume
以上のように、本発明にかかる話速変換装置、通話装置および話速変換方法は、複数の話者を相手に通話する電話会議などの電話会議システムに有用である。 As described above, the speech rate conversion device, the speech device, and the speech rate conversion method according to the present invention are useful for a conference call system such as a conference call in which a plurality of speakers are talked to each other.
101 音声特徴抽出部
102 音声特徴記憶部
103 話者判定部
104 話速変換部
105 話者・話速対応記憶部
106 話速選択部
107 話者・話速・音量対応記憶部
108 話速・音量選択部
601,601a〜601f 通話装置
602a〜602d,708 マイクロホン
603,707 スピーカ
605 登録ボタン
606 スロー再生ボタン
607 操作ボタン
702 通信路インターフェース
704 メモリ
705 D/Aコンバータ
706 A/Dコンバータ
1201a〜1201f ゲートウェイ
1202 インターネット
1301a,1301b 接続線
1302a,1302b モデム
1303a,1303b 公衆回線網
1304a,1304b インターネットサービスプロバイダ
DESCRIPTION OF
Claims (7)
受聴者によって指定された話者について抽出された音声特徴を記憶する音声特徴記憶手段と、
現在の発話者の音声特徴を前記音声特徴記憶手段に記憶された前記音声特徴と比較することによって前記発話者が、前記受聴者によって指定された話者の一人であるか否かを判定する話者判定手段と、
前記話者判定手段で前記受聴者によって指定された話者であると判定された場合に、前記発話者の受話音声の話速を変換する話速変換手段と、
を備えることを特徴とする話速変換装置。 Voice feature extraction means for extracting voice features of individual speakers participating in the call;
Voice feature storage means for storing voice features extracted for a speaker designated by the listener;
Talk to determine whether the speaker is one of the speakers specified by the listener by comparing the voice features of the current speaker with the voice features stored in the voice feature storage means Person determination means;
A speech speed converting means for converting the speech speed of the received voice of the speaker when the speaker determining means determines that the speaker is designated by the listener;
A speech speed conversion device comprising:
前記話者判定手段によって判定された話者に対応する話速の変換率を、前記指定話者変換条件記憶手段から選択する指定話者変換条件選択手段と、
をさらに備え、前記話速変換手段は、前記指定話者変換条件選択手段によって選択された話速の変換率を用いて前記受聴者によって指定された話者の話速を変換することを特徴とする請求項1に記載の話速変換装置。 Designated speaker conversion condition storage means for storing a conversion rate of the optimum speech speed set for each of the speakers specified by the listener;
A designated speaker conversion condition selecting means for selecting a conversion rate of the speech speed corresponding to the speaker determined by the speaker determining means from the specified speaker conversion condition storage means;
The speech speed conversion means converts the speech speed of the speaker specified by the listener using the conversion rate of the speech speed selected by the designated speaker conversion condition selection means. The speech speed conversion apparatus according to claim 1.
前記指定話者変換条件選択手段は、前記話者判定手段によって判定された話者に対応する話速の変換率と再生音量の増幅率とを、前記指定話者変換条件記憶手段から選択し、
前記話速変換手段は、前記指定話者変換条件選択手段によって選択された前記話速の変換率と前記再生音量の増幅率とを用いて前記受聴者によって指定された話者の話速と再生音量とを変換することを特徴とする請求項2に記載の話速変換装置。 The designated speaker conversion condition storage means further stores a reproduction volume amplification factor set for each of the speakers designated by the listener,
The designated speaker conversion condition selection means selects, from the designated speaker conversion condition storage means, the conversion rate of the speech speed and the amplification factor of the reproduction volume corresponding to the speaker determined by the speaker determination means,
The speaking speed conversion means uses the speaking speed conversion rate selected by the designated speaker conversion condition selection means and the reproduction volume amplification factor, and the speaking speed and reproduction of the speaker specified by the listener. The speech rate conversion apparatus according to claim 2, wherein the speech rate conversion unit converts the volume.
話者の発する声を集音する集音手段と、
前記他の通話装置からの音声を再生出力する音声出力手段と、
請求項1〜3のいずれか1つに記載の話速変換装置と、
を備えることを特徴とする通話装置。 A communication means for communicating with another communication device via a communication line;
A sound collection means for collecting the voice of the speaker;
Audio output means for reproducing and outputting audio from the other call device;
The speech rate conversion device according to any one of claims 1 to 3,
A call device comprising:
前記話速判定処理の前に前記話者判定処理によって判定された話者に対応する話速の変換率を、前記指定話者変換条件記憶処理で記憶した内容から選択する指定話者変換条件選択処理を行い、
前記話速変換処理では、前記指定話者変換条件選択処理で選択された前記話速の変換率を用いて前記受聴者によって指定された話者の話速を変換することを特徴とする請求項5に記載の話速変換方法。 Performing designated speaker conversion condition storage processing for storing the conversion rate of the optimum speech speed set for each of the speakers designated by the listener,
Specified speaker conversion condition selection for selecting the conversion rate of the speech speed corresponding to the speaker determined by the speaker determination process before the speech speed determination process from the contents stored in the specified speaker conversion condition storage process Process
The speech speed conversion process converts the speech speed of the speaker specified by the listener using the conversion rate of the speech speed selected in the designated speaker conversion condition selection process. 5. The speech speed conversion method according to 5.
前記指定話者変換条件選択処理では、前記話者判定処理によって判定された話者に対応する話速の変換率と再生音量の増幅率とを、前記指定話者変換条件記憶処理で記憶した内容から選択し、
前記話速変換処理では、前記指定話者変換条件選択処理で選択された前記話速の変換率と前記再生音量の増幅率とを用いて前記受聴者によって指定された話者の話速と再生音量とを変換することを特徴とする請求項6に記載の話速変換方法。 In the designated speaker conversion condition storage process, the reproduction volume amplification factor set for each of the speakers designated by the listener is further stored,
In the designated speaker conversion condition selection process, the content stored in the designated speaker conversion condition storage process, the conversion rate of the speech speed and the amplification factor of the reproduction volume corresponding to the speaker determined by the speaker determination process Select from
In the speech speed conversion process, the speech speed and playback of the speaker specified by the listener using the conversion rate of the speech speed selected in the designated speaker conversion condition selection process and the amplification factor of the playback volume. The speech speed converting method according to claim 6, wherein the sound volume is converted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007136248A JP2008292621A (en) | 2007-05-23 | 2007-05-23 | Speech speed conversion device, speaking device and speech speed conversion method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007136248A JP2008292621A (en) | 2007-05-23 | 2007-05-23 | Speech speed conversion device, speaking device and speech speed conversion method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008292621A true JP2008292621A (en) | 2008-12-04 |
Family
ID=40167419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007136248A Pending JP2008292621A (en) | 2007-05-23 | 2007-05-23 | Speech speed conversion device, speaking device and speech speed conversion method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008292621A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011199550A (en) * | 2010-03-19 | 2011-10-06 | Fujitsu Ltd | Call speech processor and call speech controller and method |
JP2017216603A (en) * | 2016-05-31 | 2017-12-07 | パナソニックIpマネジメント株式会社 | Telephone |
CN109102810A (en) * | 2017-06-21 | 2018-12-28 | 北京搜狗科技发展有限公司 | Method for recognizing sound-groove and device |
WO2023233754A1 (en) * | 2022-05-30 | 2023-12-07 | パナソニックIpマネジメント株式会社 | Voice authentication device and voice authentication method |
-
2007
- 2007-05-23 JP JP2007136248A patent/JP2008292621A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011199550A (en) * | 2010-03-19 | 2011-10-06 | Fujitsu Ltd | Call speech processor and call speech controller and method |
JP2017216603A (en) * | 2016-05-31 | 2017-12-07 | パナソニックIpマネジメント株式会社 | Telephone |
CN109102810A (en) * | 2017-06-21 | 2018-12-28 | 北京搜狗科技发展有限公司 | Method for recognizing sound-groove and device |
WO2023233754A1 (en) * | 2022-05-30 | 2023-12-07 | パナソニックIpマネジメント株式会社 | Voice authentication device and voice authentication method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7822050B2 (en) | Buffering, pausing and condensing a live phone call | |
JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
CN101510917B (en) | Silent call method for mobile terminal | |
US20160267925A1 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
WO2012151771A1 (en) | Method for reducing calling power consumption of mobile terminal and mobile terminal | |
JP2008292621A (en) | Speech speed conversion device, speaking device and speech speed conversion method | |
US8768406B2 (en) | Background sound removal for privacy and personalization use | |
TWI811692B (en) | Method and apparatus and telephony system for acoustic scene conversion | |
JP2007274480A (en) | Telephone system, and telephone terminal device | |
JPH10215331A (en) | Voice conference system and its information terminal equipment | |
JP2005039461A (en) | Voice communication system, method, and program, and voice reproducing device | |
JP2009258529A (en) | Telephone call device and telephone call method | |
JP6392161B2 (en) | Audio conference system, audio conference apparatus, method and program thereof | |
JP5321687B2 (en) | Voice communication device | |
JP5210788B2 (en) | Speech signal communication system, speech synthesizer, speech synthesis processing method, speech synthesis processing program, and recording medium storing the program | |
JP4819642B2 (en) | Communication apparatus and communication method | |
JP6822540B2 (en) | Terminal device, communication method and communication program | |
JP3773917B2 (en) | Mobile communication device and communication method | |
JP3706506B2 (en) | Communication device with speech speed conversion device | |
JP5391175B2 (en) | Remote conference method, remote conference system, and remote conference program | |
RU66103U1 (en) | DEVICE FOR PROCESSING SPEECH INFORMATION FOR MODULATION OF INPUT VOICE SIGNAL BY ITS TRANSFORMATION INTO OUTPUT VOICE SIGNAL | |
JP5853540B2 (en) | Voice communication apparatus and program | |
JP2013207508A (en) | Automatic voice response device | |
JP4918118B2 (en) | Call section detection device, method and program | |
JP4047820B2 (en) | Telecommunications equipment |