JP2018116096A - Voice processing program, voice processing method and voice processor - Google Patents
Voice processing program, voice processing method and voice processor Download PDFInfo
- Publication number
- JP2018116096A JP2018116096A JP2017005278A JP2017005278A JP2018116096A JP 2018116096 A JP2018116096 A JP 2018116096A JP 2017005278 A JP2017005278 A JP 2017005278A JP 2017005278 A JP2017005278 A JP 2017005278A JP 2018116096 A JP2018116096 A JP 2018116096A
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- section
- time length
- speech
- speech speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、音声処理プログラム、音声処理方法、及び音声処理装置に関する。 The present invention relates to a voice processing program, a voice processing method, and a voice processing apparatus.
マイクロフォンで収音して得られる音声データに対する音声処理の1つとして、音声データにおける話速を算出する処理が知られている。音声データにおける話速を算出する際には、フォルマント周波数等の声道特性の変化に基づいて、音声データに含まれる母音の変化を検出し、単位時間あたりの母音数(モーラ数)を算出する(例えば、特許文献1,2を参照。)。
As one of audio processes for audio data obtained by collecting sound with a microphone, a process for calculating a speech speed in the audio data is known. When calculating speech speed in voice data, a change in vowels included in the voice data is detected based on a change in vocal tract characteristics such as formant frequency, and the number of vowels (number of mora) per unit time is calculated. (For example, see
人が発話する際には同じ母音が連続する長母音が含まれることがある。同じ母音を連続して発する場合、母音の切れ目において声道特性はほとんど変化しない。このため、声道特性の変化に基づいて、音声データに含まれる母音の変化を検出する場合、長母音は1個の母音として検出される。すなわち、声道特性の変化に基づいて、音声データに含まれる母音の変化を検出する場合、実際には2モーラである母音区間が1モーラの母音区間となり、音声データにおける正しい話速を算出することが難しい。 When a person utters, long vowels in which the same vowel continues may be included. When the same vowel is continuously generated, the vocal tract characteristic hardly changes at the vowel break. For this reason, when detecting the change of the vowel included in the voice data based on the change of the vocal tract characteristic, the long vowel is detected as one vowel. That is, when detecting a change in vowels included in voice data based on a change in vocal tract characteristics, a vowel section that is actually 2 mora becomes a vowel section of 1 mora, and the correct speech speed in the voice data is calculated. It is difficult.
1つの側面において、本発明は、音声データにおける話速を正しく算出することを目的とする。 In one aspect, an object of the present invention is to correctly calculate the speech speed in voice data.
1つの態様に係る音声処理プログラムは、以下の第1の処理から第5の処理をコンピュータに実行させる。第1の処理は、入力音声データにおける発話区間に含まれる複数の母音区間を検出する処理である。第2の処理は、検出した複数の母音区間それぞれの時間長を算出する処理である。第3の処理は、複数の母音区間の時間長についての頻度分布を算出するとともに、複数の母音区間それぞれの時間長のうちの最小値を特定する処理である。第4の処理は、特定した時間長の最小値と、頻度分布とに基づいて、複数の母音区間それぞれの時間長と対応するモーラ数を算出する処理である。第5の処理は、算出したモーラ数に応じて入力音声データにおける発話区間と対応する出力信号を制御する処理である。 A sound processing program according to one aspect causes a computer to execute the following first to fifth processes. The first process is a process for detecting a plurality of vowel sections included in the utterance section in the input voice data. The second process is a process for calculating the time length of each of the detected plurality of vowel segments. The third process is a process of calculating the frequency distribution for the time lengths of the plurality of vowel segments and specifying the minimum value of the time lengths of the plurality of vowel segments. The fourth process is a process of calculating the number of mora corresponding to the time length of each of the plurality of vowel intervals based on the specified minimum value of the time length and the frequency distribution. The fifth process is a process for controlling the output signal corresponding to the speech section in the input voice data according to the calculated number of mora.
上述の態様によれば、音声データにおける話速を正しく算出することが可能となる。 According to the above-described aspect, it is possible to correctly calculate the speech speed in the voice data.
[第1の実施形態]
図1は、第1の実施形態に係る話速推定装置の機能的構成を示す図である。
[First Embodiment]
FIG. 1 is a diagram illustrating a functional configuration of the speech speed estimation apparatus according to the first embodiment.
図1に示すように、本実施形態に係る話速推定装置1は、音声取得部110と、発話区間検出部120と、母音区間検出部130と、モーラ数決定部140と、話速算出部150と、出力部160と、を備える。また、図1では省略しているが、話速推定装置1は、音声データを含む各種情報を記憶させる記憶部を備える。
As shown in FIG. 1, the speech
音声取得部110は、収音装置2から音声信号(音声データ)を取得する。
発話区間検出部120は、音声データにおける発話区間を検出する。発話区間は、話速推定の対象である人物が発した音声を含む区間である。
The
The utterance
母音区間検出部130は、音声データの発話区間に含まれる母音区間を検出する。
モーラ数決定部140は、音声データから検出した複数の母音区間それぞれの長さ(時間長)に基づいて、各母音区間のモーラ数を算出する。本実施形態に係る話速推定装置1のモーラ数決定部140は、まず、複数の母音区間それぞれの時間長を算出して該複数の母音区間についての時間長の頻度分布を算出するとともに、複数の母音区間それぞれの時間長のうちの最小値を特定する。その後、モーラ数決定部140は、特定した時間長の最小値と、頻度分布とに基づいて、複数の母音区間それぞれの時間長と対応するモーラ数を算出する(決定する)。
The
The mora
話速算出部150は、発話区間の時間長と、該発話区間に含まれる母音区間のモーラ数とに基づいて、音声データにおける発話区間の話速(発話速度)を算出する。
The speech
出力部160は、算出した話速を可視化する表示データを生成して表示装置3に出力する。
The
また、本実施形態の話速推定装置1におけるモーラ数決定部140は、図1に示したように、頻度分布算出部141と、ピーク検出部142と、モーラ数算出部143と、を含む。
Further, the mora
頻度分布算出部141は、複数の母音区間の時間長に基づいて、音声データにおける母音区間の時間長毎の出現頻度を示す頻度分布を算出する。
The frequency
ピーク検出部142は、母音区間の時間長についての頻度分布において出現頻度がピーク(極大値)となる母音区間の時間長を検出する。
The
モーラ数算出部143は、出現頻度が極大値となる母音区間の時間長に基づいて、各母音区間のモーラ数を算出する。本実施形態に係るモーラ数算出部143は、出現頻度が極大値となる母音区間の時間長のうちの最短の時間長を基準時間長(1モーラに相当する時間長)とし、母音区間の時間長と基準時間長との比に基づいて、各母音区間のモーラ数を算出する。
The mora
本実施形態の話速推定装置1は、動作を開始すると、収音装置2から音声データを取得する処理と、取得した音声データにおける話速を推定し推定結果を表示装置3に出力する処理とを行う。音声データを取得する処理は、話速推定装置1の音声取得部110が行う。
When the operation is started, the speech
一方、音声データにおける話速を推定し推定結果を表示装置3に出力する処理は、話速推定装置1の発話区間検出部120、母音区間検出部130、モーラ数決定部140、話速算出部150、及び出力部160が行う。話速推定装置1は、音声データにおける話速を推定し推定結果を表示装置3に出力する処理として、図2に示した処理を行う。
On the other hand, the process of estimating the speech speed in the speech data and outputting the estimation result to the
図2は、第1の実施形態に係る話速推定装置が行う処理を説明するフローチャートである。 FIG. 2 is a flowchart for explaining processing performed by the speech speed estimation apparatus according to the first embodiment.
音声データにおける話速を推定し推定結果を表示装置3に出力する処理において、話速推定装置1は、まず、音声データに含まれる発話区間を検出する(ステップS1)。ステップS1の処理は、発話区間検出部120が行う。発話区間検出部120は、既知の検出方法に従い、音声データに含まれる発話区間(言い換えると話速推定の対象である人物が発した音声を含む区間)を検出する。例えば、発話区間検出部120は、Voice Activity Detection(VAD)により発話区間を検出する。
In the process of estimating the speech speed in the speech data and outputting the estimation result to the
次に、話速推定装置1は、発話区間に含まれる母音区間を検出する(ステップS2)。ステップS2の処理は、母音区間検出部130が行う。母音区間検出部130は、既知の検出方法に従い、音声データの発話区間に含まれる母音区間を検出する。例えば、母音区間検出部130は、発話区間内における信号対雑音比の時間変化に基づいて、信号対雑音比が所定の閾値以上で連続する1個の区間を1個の母音区間として検出する。
Next, the speech
次に、話速推定装置1は、検出した母音区間のモーラ数(母音数)を決定する処理(ステップS3〜S5)を行う。母音区間のモーラ数を決定するステップS3〜S5の処理は、話速推定装置1のモーラ数決定部140が行う。
Next, the speech
モーラ数決定部140は、まず、検出した複数の母音区間それぞれの時間長に基づいて、母音区間の時間長についての頻度分布を算出する(ステップS3)。ステップS3の処理は、モーラ数決定部140の頻度分布算出部141が行う。頻度分布算出部141は、検出した複数の母音区間のそれぞれにおける区間の開始時刻と終了時刻とに基づいて、各母音区間の時間長を算出する。また、頻度分布算出部141は、各母音区間の時間長に基づいて時間長毎の母音区間の出現頻度を計数し、頻度分布を算出する。この際、頻度分布算出部141は、例えば、1個の発話区間における末尾の母音区間を除外して、頻度分布を算出する。また、頻度分布算出部141は、例えば、1個の発話区間に含まれる全ての母音区間のうちの、時間長が所定の範囲内である母音区間を抽出して頻度分布を算出してもよい。時間長の所定の範囲は、例えば、一般的な話速における単独母音及び長母音の時間長等に基づいて設定する。
The mora
次に、モーラ数決定部140は、ステップS3で算出した頻度分布において出現頻度がピーク(極大値)となる時間長を検出する(ステップS4)。ステップS4の処理は、モーラ数決定部140のピーク検出部142が行う。例えば、ピーク検出部142は、頻度分布における最短時間長の出現頻度から順に、判定対象である時間長の出現頻度と、その前後の時間長の出現頻度と比較し、出現頻度が極大値となる時間長を検出する。
Next, the mora
次に、モーラ数決定部140は、頻度分布から検出した時間長のうちの最小値と、母音区間の時間長とに基づいて、各母音区間のモーラ数を算出する(ステップS5)。ステップS5の処理は、モーラ数決定部140のモーラ数算出部143が行う。モーラ数算出部143は、頻度分布においてピークとなる複数の時間長のうちの最小値を基準時間長とし、母音区間の時間長を基準時間長で除した値を算出する。基準時間長は、音声データの発話区間における1モーラ(単独母音)の時間長に相当する。このため、モーラ数算出部143は、母音区間の時間長を基準時間長で除した値に近い整数値を、該母音区間のモーラ数とする。例えば、ある母音区間の時間長が基準時間長の約2倍である場合、モーラ数算出部143は、該母音区間のモーラ数を2とする。
Next, the mora
モーラ数決定部140によるステップS3〜S5の処理を終えると、話速推定装置1は、次に、ステップS5で算出した各母音区間のモーラ数と、発話区間の時間長とに基づいて、発話区間の話速を算出する(ステップS6)。ステップS6の処理は、話速算出部150が行う。話速算出部150は、話速として、発話区間に含まれる母音区間についてのモーラ数の合計を該発話区間の時間長で除した値(モーラ/秒)を算出する。
When the processing of steps S3 to S5 by the mora
次に、話速推定装置1は、算出した話速を出力する(ステップS7)。ステップS7の処理は、出力部160が行う。例えば、出力部160は、ステップS6で算出した話速を可視化する表示データを生成し、該表示データを表示装置3に出力する。
Next, the speech
話速推定装置1は、上記のステップS1〜S7の処理を繰り返し行う。話速推定装置1は、ステップS1で検出した1個の発話区間に対するステップS2〜S7の処理を終えてから次の発話区間を検出する処理(ステップS1)を行ってもよいし、ステップS1〜S7の処理の全体又は一部をパイプライン化して行ってもよい。
The speech
図3は、母音区間を検出する処理の内容を説明するフローチャートである。
本実施形態の話速推定装置1は、上記のステップS2の処理(母音区間を検出する処理)として、例えば、図3に示した処理を行う。図3に示した処理は、話速推定装置1の母音区間検出部130が行う。
FIG. 3 is a flowchart for explaining the contents of processing for detecting a vowel section.
The speech
母音区間検出部130は、まず、音声データの発話区間における時刻tm(m=1,2,・・・,M)の信号対雑音比SNR(tm)を算出する(ステップS201)。発話区間における時刻tmの時間間隔(tm−tm−1)は、例えば、音声データのパワー及び雑音パワーを算出する際の処理単位(フレーム)の時間長とする。以下の説明では、音声データにおける時刻tmと対応付けられたフレームを、時刻tmのフレームという。
First, the vowel
ステップS201の処理において、母音区間検出部130は、下記式(1)により時刻tmのフレームにおける信号対雑音比SNR(tm)を算出する。
In the process of step S201, the vowel
SNR(tm)=P(tm)+N(tm) ・・・(1) SNR (t m ) = P (t m ) + N (t m ) (1)
式(1)のP(tm)は、音声データのうちの時刻tmのフレームにおけるパワーである。式(1)のN(tm)は、音声データのうちの時刻tmのフレームにおける雑音パワーである。母音区間検出部130は、既知の算出方法に従って時刻tmのフレームにおけるパワーP(tm)及び雑音パワーN(tm)を算出する。例えば、時刻tmの雑音パワーN(tm)は、式(2)により算出する。
P (t m ) in Equation (1) is the power in the frame at time t m in the audio data. N (t m ) in equation (1) is the noise power in the frame at time t m in the audio data. The
式(2)のN1(tm−1)は、音声データにおけるパワーP(tm−1)と雑音パワーN(tm−2)との差に基づいて更新される雑音パワーである。また、式(2)において、THPは判定閾値であり、COFは忘却係数である。判定閾値THP及び忘却係数COFの値は、それぞれ、適宜設定すればよい。 N1 (t m-1 ) in Expression (2) is a noise power that is updated based on the difference between the power P (t m-1 ) and the noise power N (t m-2 ) in the audio data. Further, in the equation (2), TH P is determined threshold, COF is a forgetting factor. The value of the determination threshold value TH P and the forgetting factor COF, respectively, may be set as appropriate.
ステップS201の処理を終えると、母音区間検出部130は、次に、変数m、変数i、及び信号対雑音比SNR(t0)を、それぞれ、m=1、i=1、及びSNR(t0)=0に設定する(ステップS202)。変数iは、母音区間を識別する値である。
When the processing of step S201 is completed, the vowel
次に、母音区間検出部130は、時刻tm−1の信号対雑音比SNR(tm−1)が閾値THSNRよりも小さく、かつ時刻tmの信号対雑音比SNR(tm)が閾値THSNR以上であるか否かを判定する(ステップS203)。すなわち、ステップS203では、SNR(tm−1)<THSNR、かつSNR(tm)≧THSNRであるか否かを判定する。
Next, the vowel
閾値THSNRは、発話区間における音声が母音であるか非母音(子音等)であるかを判別する値である。音声データの発話区間に含まれる母音区間の信号対雑音比は、該発話区間における非母音区間(子音区間等)の信号対雑音比と比べて大きな値となる。このため、本実施形態では、発話区間のうちの信号対雑音比が閾値THSNR以上である区間を母音区間とする。閾値THSNRは、例えば、母音区間における信号対雑音比の統計値と、非母音区間における信号対雑音比の統計値とに基づいて設定する。 The threshold value TH SNR is a value for determining whether the voice in the utterance section is a vowel or a non-vowel (consonant, etc.). The signal-to-noise ratio of the vowel section included in the speech section of the speech data is a larger value than the signal-to-noise ratio of the non-vowel section (such as consonant section) in the speech section. For this reason, in this embodiment, a section in which the signal-to-noise ratio in the utterance section is equal to or greater than the threshold TH SNR is set as a vowel section. The threshold TH SNR is set based on, for example, a statistical value of the signal-to-noise ratio in the vowel section and a statistical value of the signal-to-noise ratio in the non-vowel section.
SNR(tm−1)<THSNR、かつSNR(tm)≧THSNRである場合、信号対雑音比は、時刻tm−1からtmの間において閾値THSNRよりも小さい値から閾値THSNR以上の値に変化する。すなわち、SNR(tm−1)<THSNR、かつSNR(tm)≧THSNRである場合、時刻tm−1は非母音区間に含まれ、時刻tmは母音区間に含まれる。よって、SNR(tm−1)<THSNR、かつSNR(tm)≧THSNRである場合(ステップS203;YES)、母音区間検出部130は、次に、i番目の母音区間の開始時刻Ts(i)を時刻tmに設定する(ステップS204)。ステップS204の処理を終えると、母音区間検出部130は、次に、変数mが発話区間における最後の値M以上であるか否かを判定する(ステップS207)。
When SNR (t m−1 ) <TH SNR and SNR (t m ) ≧ TH SNR , the signal-to-noise ratio is from a value smaller than the threshold TH SNR between time t m−1 and t m. It changes to a value greater than TH SNR . That is, when SNR (t m−1 ) <TH SNR and SNR (t m ) ≧ TH SNR , time t m−1 is included in the non-vowel section and time t m is included in the vowel section. Therefore, when SNR (t m−1 ) <TH SNR and SNR (t m ) ≧ TH SNR (step S203; YES), the vowel
一方、SNR(tm−1)≧THSNR、又はSNR(tm)<THSNRである場合(ステップS203;NO)、母音区間検出部130は、次に、SNR(tm−1)≧THSNR、かつSNR(tm)<THSNRであるか否かを判定する(ステップS205)。
On the other hand, when SNR (t m−1 ) ≧ TH SNR or SNR (t m ) <TH SNR (step S203; NO), the vowel
SNR(tm−1)≧THSNR、かつSNR(tm)<THSNRである場合(ステップS205;YES)、時刻tm−1は母音区間に含まれ、時刻tmは非母音区間に含まれる。よって、SNR(tm−1)≧THSNR、かつSNR(tm)<THSNRである場合(ステップS205;YES)、母音区間検出部130は、次に、i番目の母音区間の終了時刻Te(i)を時刻tm−1に設定し、変数iをi+1に更新する(ステップS206)。ステップS206において、母音区間検出部130は、母音区間の終了時刻Te(i)を時刻tm−1に設定した後、変数iをi+1に更新する。ステップS206の処理を終えると、母音区間検出部130は、次に、ステップS207の判定を行う。
When SNR (t m−1 ) ≧ TH SNR and SNR (t m ) <TH SNR (step S205; YES), time t m−1 is included in the vowel interval, and time t m is in the non-vowel interval. included. Therefore, when SNR (t m−1 ) ≧ TH SNR and SNR (t m ) <TH SNR (step S205; YES), the vowel
これに対し、SNR(tm−1)≧THSNR、かつSNR(tm)<THSNRを満たしていない場合、時刻tm−1及び時刻tmにおける信号対雑音比は、両方とも閾値THSNR以上であるか、或いは両方とも閾値THSNRよりも小さい。すなわち、SNR(tm−1)≧THSNR、かつSNR(tm)<THSNRを満たしていない場合、時刻tm−1,tmは、両方とも非母音区間に含まれるか、或いは両方とも母音区間に含まれる。よって、SNR(tm−1)<THSNR、又はSNR(tm)≧THSNRである場合(ステップS205;NO)、母音区間検出部130は、ステップS206をスキップし、次に、ステップS207の判定を行う。
On the other hand, when SNR (t m-1 ) ≧ TH SNR and SNR (t m ) <TH SNR are not satisfied, the signal-to-noise ratio at time t m−1 and time t m both has a threshold value TH. whether there are SNR than, or both smaller than the threshold value TH SNR. That is, when SNR (t m−1 ) ≧ TH SNR and SNR (t m ) <TH SNR are not satisfied, both times t m−1 and t m are included in the non-vowel interval, or both Both are included in the vowel section. Therefore, when SNR (t m−1 ) <TH SNR or SNR (t m ) ≧ TH SNR (step S205; NO), the vowel
ステップS207では、母音区間検出部130は、上記のように、現在の変数mの値が発話区間における最大値M以上であるか否かを判定する。m<Mである場合(ステップS207;NO)、母音区間検出部130は、変数mをm+1に更新し(ステップS208)、ステップS203以降の処理を行う。
In step S207, the vowel
一方、m≧Mである場合(ステップS207;YES)、母音区間検出部130は、母音区間を示す情報[Ts(i),Te(i)]を出力し(ステップS209)、1個の発話区間に含まれる母音区間を検出する処理を終了する。
On the other hand, if m ≧ M (step S207; YES), the vowel
本実施形態に係る母音区間検出部130は、発話区間検出部120で検出した発話区間のそれぞれに対し、図3のステップS201〜S209の処理を行う。
The vowel
母音区間検出部130で発話区間に含まれる複数の母音区間を検出した後、話速推定装置1は、ステップS3〜S5の処理により、検出した各母音区間のモーラ数(母音数)を決定する。母音区間のモーラ数を決定する処理は、話速推定装置1のモーラ数決定部140が行う。本実施形態に係るモーラ数決定部140は、上記のように、各母音区間の時間長L(i)={Te(i)−Ts(i)}に基づいて、各母音区間のモーラ数を決定する。
After the vowel
図4は、音声データにおける単独母音と長母音との関係を説明する図である。
図4の(a)には、単独母音の例として、音声データにおける「はる」という言葉の発話区間401についての時間長を示している。例えば、「はる」が季節の「春」である場合、「は」の発話時間と、「る」の発話時間とは略同一となる。すなわち、図4の(a)に示した「は」の時間長ΔT1(=tm2−t1)と、「る」の時間長ΔT2(=tm3−tm2)は、略同一(ΔT1≒ΔT2)となる。
FIG. 4 is a diagram for explaining the relationship between single vowels and long vowels in voice data.
FIG. 4A shows the length of time for the
一方、図4の(b)には、長母音の例として、音声データにおける「きょう」という言葉の発話区間403についての時間長を示している。例えば、「きょう」が日付の「今日」である場合、「きょ」の発話時間と、「う」の発話時間とは略同一となる。すなわち、図4の(b)に示した「きょ」の時間長ΔT3(=tm5−t1)と、「う」の時間長ΔT4(=tm6−tm5)とは、略同一(ΔT3≒ΔT4)となる。更に、話者が同一人物であり一定の話速で発話した場合、「きょ」の時間長ΔT3や「う」の時間長ΔT4は、図4の(a)に示した「は」の時間長ΔT1や「る」の時間長ΔT2と、略同一となる。
On the other hand, FIG. 4B shows the length of time for the
人が「はる」と発話する際には、図4の(a)に示した発音表記402のように、2音節目の「る」を発話する際に母音から子音(非母音)に変化する。このため、音声データにおける「はる」の発話区間401では、「は」を発話している時刻t1と時刻tm2との間の時刻tm1が母音区間の開始時刻Ts(1)となり、「は」の発話が終了する時刻tm2が母音区間の終了時刻Te(1)となる。また、音声データにおける「はる」の発話区間401では、「る」を発話している時刻tm2と時刻tm3との間に母音区間の開始時刻Ts(2)が存在し、「る」の発話が終了する時刻tm3が母音区間の終了時刻Te(2)となる。よって、音声データにおける「はる」という発話区間401から検出される母音区間は2個となる。
When a person utters “Haru”, the vowel changes to a consonant (non-vowel) when uttering “ru” of the second syllable, as in the
一方、人が「きょう」と発話する際には、図4の(b)に示した発音表記404のように「KYOO」と発声することが多い。すなわち、人が「きょう」と発話する際には、2音節目を「う(U)」と発音する代わりに、「きょ(KYO)」の母音「O」を長母音のように発声することが多い。このため、音声データにおける「きょう」の発話区間403では、「きょ」を発話している時刻t1と時刻tm5との間の時刻tm4が母音区間の開始時刻Tsとなり、「う」の発話が終了する時刻tm6が母音区間の終了時刻Teとなる。よって、音声データにおける「きょう」という発話区間403から検出される母音区間は1個となる。
On the other hand, when a person utters “Kyo”, he often utters “KYOO” as in the
このように、音声データにおける「はる」という発話区間401と、「きょう」という発話区間403とは、いずれも2音節であり発話区間の時間長が略同一であるものの、検出される母音区間の数が異なる。「はる」は母音区間の数が2個であるのに対し、「きょう」の母音区間の数は1個である。このため、母音数を発話区間の時間長で除して話速を算出した場合、音声データにおける「きょう」という発話区間403の話速は、「はる」という発話区間401の話速の約2倍となってしまう。本実施形態に係る話速推定装置1は、このような長母音化による話速の誤りを防ぐため、母音区間の時間長についての頻度分布に基づいて、各母音区間の母音数(モーラ数)を決定する。
As described above, the
図4の(a)の発音表記402のように、音声データにおける「は(HA)」や「る(RU)」等の子音を含む音節では、母音区間の時間長が音節全体の時間長の7割以上を占める。例えば、音声データにおける「は」の発話区間では、母音区間の時間長L(1)=Te(1)−Ts(1)が発話区間の時間長ΔT1の7割以上を占める。同様に、音声データにおける「る」の発話区間では、母音区間の時間長L(2)=Te(2)−Ts(2)が発話区間の時間長ΔT2の7割以上を占める。
In the syllable including consonants such as “ha (HA)” and “ru (RU)” in the speech data as in the
一方、図4の(b)の発音表記404のように、子音を含む音節と母音のみの音節とが連続した区間で母音が長母音化した場合、母音区間の時間長は、次のようになる。まず、子音を含む「きょ」の音節における母音区間の時間長は、当該音節の時間長ΔT3の7割以上を占める。また、母音のみである「う」の音節における母音区間の時間長は、当該音節の時間長ΔT4となる。このため、「きょう」という発話区間403に含まれる母音区間の時間長Lは、{(0.7×ΔT3)+ΔT4}≦L<(ΔT3+ΔT4)となる。よって、「きょう」という発話区間403に含まれる母音区間の時間長Lは、単独母音の時間長L(1),L(2)の約2倍となる。
On the other hand, when the vowel is turned into a long vowel in a section in which a syllable including a consonant and a syllable of only a vowel are continuous as in the
このように、長母音化した母音区間の時間長は、単独母音の時間長の整数倍に近い値となる。このため、発話区間に含まれる複数の母音区間の時間長についての頻度分布には、単独母音の時間長と対応した特徴が現れる。 In this way, the time length of the vowel section that is converted into a long vowel is a value close to an integral multiple of the time length of a single vowel. For this reason, a characteristic corresponding to the time length of a single vowel appears in the frequency distribution of the time lengths of a plurality of vowel intervals included in the utterance interval.
図5は、母音区間の頻度分布の例を示す図である。
1個の発話区間に含まれる複数の母音区間のそれぞれにおける時間長に基づいて、時間長毎の母音区間の頻度を計数して算出した頻度分布は、例えば、図5に示したように4個のピークP1,P2,P3,及びP4が見られる。なお、図5の頻度分布は、時間長Lを0.02秒毎の複数の区間に分割し、区間毎に、区間内に時間長が含まれる母音区間の数を頻度として算出している。例えば、時間長L=0.2秒である母音区間の頻度は、発話区間における複数の母音区間のうちの、時間長(Te−Ts)が0.19≦(Te−Ts)<0.21である母音区間の数を示している。
FIG. 5 is a diagram illustrating an example of a frequency distribution in a vowel section.
The frequency distribution calculated by counting the frequency of the vowel section for each time length based on the time length in each of the plurality of vowel sections included in one utterance section is, for example, four as shown in FIG. Peaks P1, P2, P3, and P4. In the frequency distribution of FIG. 5, the time length L is divided into a plurality of sections every 0.02 seconds, and the number of vowel sections whose time length is included in the section is calculated as the frequency for each section. For example, the frequency of a vowel section with a time length L = 0.2 seconds is such that the time length (Te−Ts) of a plurality of vowel sections in the utterance section is 0.19 ≦ (Te−Ts) <0.21. Indicates the number of vowel intervals.
長母音化した母音区間や複数種の単独母音が連続した母音区間の時間長は、単独母音の母音区間の時間長よりも長くなる。また、日本語では一般的に発話中の1モーラ(単独母音)をほぼ同じ長さで発話する性質(モーラの等時性)があるため、上記のように、1個の発話区間内における単独母音の母音区間の時間長は、略一定である。このため、頻度分布における4個のピークP1〜P4のうちの時間長が最短であるピークP1が、単独母音の母音区間の時間長を示しているといえる。また、長母音化した母音区間の時間長は、単独母音の母音区間の時間長の整数倍に近い値となる。このため、頻度分布においてピークP2〜P4が現れる時間長は、ピークP1の時間長TP1の整数倍に近い値となる。したがって、本実施形態では、頻度分布における時間長が最短であるピークP1の時間長TP1を基準時間長とし、下記式(3)により各母音区間の母音数(モーラ数)VN(i)を算出する。 The time length of a vowel section that is a long vowel or a vowel section in which a plurality of types of single vowels are continuous becomes longer than the time length of a vowel section of a single vowel. In addition, since Japanese generally has the property of uttering a single mora (single vowel) that is being uttered with approximately the same length (mora isochronism), as described above, a single mora within a single utterance interval is used. The time length of the vowel section of the vowel is substantially constant. For this reason, it can be said that the peak P1 having the shortest time length among the four peaks P1 to P4 in the frequency distribution indicates the time length of the vowel section of the single vowel. Further, the time length of the vowel section that is converted into a long vowel is a value close to an integral multiple of the time length of the vowel section of the single vowel. For this reason, the time length at which the peaks P2 to P4 appear in the frequency distribution is a value close to an integral multiple of the time length TP1 of the peak P1. Therefore, in this embodiment, the time length TP1 of the peak P1 with the shortest time length in the frequency distribution is set as the reference time length, and the number of vowels (number of mora) VN (i) in each vowel section is calculated by the following equation (3). To do.
式(3)のL(i)は、i番目の母音区間の時間長である。 L (i) in Equation (3) is the time length of the i-th vowel section.
このように、本実施形態の話速推定装置1では、母音区間の時間長についての頻度分布に基づいて母音区間の基準時間長(単独母音の時間長)TP1を推定し、各母音区間の時間長と基準時間長TP1との比から各母音区間の母音数を決定する。このため、本実施形態の話速推定装置1では、長母音化された母音区間のモーラ数(母音数)の誤りを防ぐことが可能となる。
As described above, the speech
図6は、発話区間の発話内容と各母音区間のモーラ数の算出結果とを説明する図である。 FIG. 6 is a diagram for explaining the utterance content in the utterance section and the calculation result of the number of mora in each vowel section.
図6の文字列411は、音声データの発話区間における発話内容をテキスト化して示したものである。また、図6の発音表記412は、文字列411における各音節を母音及び子音で示したものである。文字列411に示した「きょうはいいようきですね」という言葉を自然に発話した場合、発音表記412に示したように「きょう」、「いい」、及び「よう」の部分で母音が長母音化することが多い。このため、音声データの発話区間に含まれる母音区間を検出する処理を行うと、発音表記412の下方に示したように7個の母音区間が検出される。この際、文字列411の「はいい」の部分から検出される母音区間は、母音が「A」である区間と、母音が「I」である区間とが連続している区間である。このため、母音が長母音化している母音区間の母音数を1とした場合、「はいい」の部分から検出される母音区間の母音数は2となり、他の母音区間の母音数は1となる。よって、母音が長母音化している母音区間の母音数を1とした場合、音声データの発話区間(時刻t1〜tM)におけるモーラ数(母音数)は8となり、実際のモーラ数(11個)とは異なる。すなわち、話速の算出に用いるモーラ数と、音声データにおける実際のモーラ数とに差異があるため、話速を精度良く推定することが困難である。 The character string 411 in FIG. 6 shows the utterance content in the utterance section of the voice data as text. Also, the phonetic notation 412 in FIG. 6 shows each syllable in the character string 411 as a vowel and a consonant. When the word “you are good today” shown in the character string 411 is spoken naturally, the vowels are long in the parts “Kyo”, “Good”, and “Yo” as shown in the pronunciation notation 412. Often vowelized. For this reason, when processing for detecting a vowel section included in a speech section of speech data is performed, seven vowel sections are detected as shown below the phonetic notation 412. At this time, the vowel section detected from the “haoi” portion of the character string 411 is a section in which the section where the vowel is “A” and the section where the vowel is “I” are continuous. Therefore, when the number of vowels in a vowel section in which the vowel is a long vowel is 1, the number of vowels in the vowel section detected from the “yes” part is 2, and the number of vowels in the other vowel sections is 1. Become. Therefore, when the number of vowels in a vowel section in which a vowel is a long vowel is 1, the number of mora (vowel number) in the speech section (time t 1 to t M ) of the voice data is 8, and the actual number of mora Different). That is, since there is a difference between the number of mora used for calculating the speech speed and the actual number of mora in the speech data, it is difficult to estimate the speech speed with high accuracy.
これに対し、本実施形態に係るモーラ数の算出方法では、まず、各母音区間の時間長についての頻度分布に基づいて基準時間長TP1を算出する。図6に示した例における基準時間長TP1は、文字列411における「きですね」の部分区間から検出された母音区間の時間長L(4),L(5),L(6),及びL(7)のそれぞれと略同一の時間長となる。算出した基準時間長TP1を用い、式(3)により各母音区間のモーラ数VN(i)を算出すると、それぞれ、図6に示した結果が得られる。1番目の母音区間の時間長L(1)及び3番目の母音区間の時間長L(3)は、それぞれ、基準時間長TP1の約2倍となる。そのため、1番目の母音区間のモーラ数VN(1)及び3番目の母音区間のモーラ数VN(3)は、それぞれ、2となる。また、2番目の母音区間の時間長L(2)は、基準時間長TP1の約3倍となる。そのため、2番目の母音区間のモーラ数VN(2)は、3となる。更に、残りの母音区間のモーラ数VN(4)〜VN(7)は、それぞれ、1となる。したがって、本実施形態に係るモーラ数の算出方法では、文字列411の発話区間に含まれるモーラ数が11となる。すなわち、本実施形態によれば、各母音区間のモーラ数を正しく算出することが可能となる。よって、本実施形態によれば、発話区間の話速を正しく推定することが可能となる。 In contrast, in the method for calculating the number of mora according to the present embodiment, first, the reference time length TP1 is calculated based on the frequency distribution for the time length of each vowel section. The reference time length TP1 in the example shown in FIG. 6 is the time length L (4), L (5), L (6) of the vowel section detected from the partial section of “Ki-N” in the character string 411, and The time length is approximately the same as each of L (7). When the calculated reference time length TP1 is used to calculate the number of mora VN (i) of each vowel section by Equation (3), the results shown in FIG. 6 are obtained. The time length L (1) of the first vowel section and the time length L (3) of the third vowel section are each about twice the reference time length TP1. Therefore, the mora number VN (1) of the first vowel section and the mora number VN (3) of the third vowel section are 2, respectively. Further, the time length L (2) of the second vowel section is about three times the reference time length TP1. Therefore, the mora number VN (2) of the second vowel section is 3. Further, the mora numbers VN (4) to VN (7) of the remaining vowel sections are each 1. Therefore, in the method for calculating the number of mora according to the present embodiment, the number of mora included in the utterance section of the character string 411 is 11. That is, according to this embodiment, it is possible to correctly calculate the number of mora in each vowel section. Therefore, according to the present embodiment, it is possible to correctly estimate the speech speed of the utterance section.
発話区間の話速SRは、例えば、下記式(4)により算出する。 The speaking speed SR of the utterance section is calculated by the following equation (4), for example.
式(4)のSTs及びSTeは、それぞれ、発話区間の開始時刻及び終了時刻である。 STs and STe in Equation (4) are the start time and end time of the utterance section, respectively.
発話区間の時間長(STe−STs)を10秒とすると、発話区間に含まれる母音区間の数に基づいて算出した話速は、約0.7(モーラ/秒)となる。これに対し、母音区間の時間長についての頻度分布に基づいて各母音区間のモーラ数VN(i)を決定した場合の話速SRは、1.1(モーラ/秒)となる。このように、本実施形態によれば、発話区間のモーラ数(母音数)を正しく算出し、発話区間における話速を精度良く算出することが可能となる。 If the time length (STe-STs) of the utterance section is 10 seconds, the speech speed calculated based on the number of vowel sections included in the utterance section is about 0.7 (mora / second). On the other hand, the speech rate SR when the number of mora VN (i) of each vowel section is determined based on the frequency distribution of the time length of the vowel section is 1.1 (mora / second). As described above, according to the present embodiment, the number of mora (number of vowels) in the utterance section can be correctly calculated, and the speech speed in the utterance section can be accurately calculated.
本実施形態に係る話速推定装置1は、話速を算出した後、算出した話速を可視化する表示データを生成し表示装置3に出力する。
The speech
図7は、話速の算出結果の出力例を示す図である。
図7には、話速の算出結果の出力例として、発話区間毎に算出した話速の時間変化を提示するグラフ421を示している。グラフ421の左端には、話速の値と、話速が適正であるか否かを示す情報が表示される。図7に示した例では、話速が6.0〜8.0モーラ/秒である場合を適正な話速としている。グラフ421における横軸は、会話時間である。グラフ421には、音声データから検出した各発話区間における話速SRを示す曲線501が表示される。表示装置3に表示したグラフ421における曲線501は、話速推定装置1において発話区間及び母音区間を検出して話速を算出する毎に、更新される。グラフ421における曲線501は、例えば、会話中の全ての発話区間の話速を示すものであってもよいし、会話中の直近の所定時間内における話速のみを示すものであってもよい。
FIG. 7 is a diagram illustrating an output example of the speech speed calculation result.
FIG. 7 shows a
なお、図7のグラフ421は、話速の算出結果を可視化して表示する方法の一例に過ぎない。話速の算出結果は、グラフ421のような話速の時間変化を示す方法に限らず、他の方法で表示してもよい。例えば、話速の算出結果の表示形態をレベルメータのような表示形態とし、話速推定装置1で算出した最新(直近)の話速のみを表示してもよい。また、話速の算出結果を表示装置3に表示する際には、例えば、算出した話速が所定の閾値以上となった場合にのみ話者に注意喚起する表示をしてもよい。
Note that the
上記のように、本実施形態に係る話速推定装置1では、発話区間に含まれる複数の母音区間のそれぞれにおける時間長の頻度分布に基づいて検出した単独母音の時間長と、母音区間の時間長との比に基づいて、各母音区間のモーラ数(母音数)を算出する。このため、本実施形態に係る話速推定装置1では、長母音化した母音区間についてのモーラ数の誤りを防ぎ、発話区間の正しい話速を算出することが可能となる。よって、話速推定装置1は、例えば、話速の推定対象である利用者に対して正しい話速の時間変化を提示し、適正な話速での発話をするよう該利用者を導くことが可能となる。
As described above, in the speech
なお、図2及び図3のフローチャートは、本実施形態に係る発話推定装置1が行う処理の一例に過ぎない。本実施形態に係る発話推定装置1が行う処理は、図2及び図3に示した内容に限らず、適宜変更可能である。例えば、発話区間に含まれる母音区間を検出する処理では、信号対雑音比の代わりに、音声データの波形自己相関、或いはフォルマント周波数に基づいて母音区間を検出してもよい。
Note that the flowcharts of FIGS. 2 and 3 are merely examples of processing performed by the
また、母音区間の時間長についての頻度分布を算出する際には、例えば、検出した複数の母音区間のうちの、時間長が所定の範囲内である母音区間のみを抽出して算出してもよい。所定の範囲は、例えば、予め統計処理を行って得た単独母音の時間長に基づいて設定する。 Further, when calculating the frequency distribution for the time length of the vowel section, for example, only the vowel section whose time length is within a predetermined range among the detected plurality of vowel sections may be extracted and calculated. Good. The predetermined range is set based on, for example, the time length of a single vowel obtained by performing statistical processing in advance.
また、各母音区間のモーラ数を算出する際に用いる基準時間長は、頻度分布における複数のピークのうちの時間長が最短となるピークと対応した時間長TP1に限らず、例えば、頻度分布において隣接するピークの時間間隔の平均値としてもよい。 In addition, the reference time length used when calculating the number of mora in each vowel section is not limited to the time length TP1 corresponding to the peak having the shortest time length among the plurality of peaks in the frequency distribution. It is good also as an average value of the time interval of an adjacent peak.
図8は、モーラ数の算出方法の別の例を示す図である。
図8には、発話区間に含まれる複数の母音区間の時間長についての頻度分布の例を示している。図8の頻度分布は、図5の頻度分布と同じ算出方法により算出したものである。すなわち、図8の頻度分布は、横軸(時間長L)を0.02秒毎の複数の区間に分割し、区間毎に、区間内に時間長が含まれる母音区間の数を頻度として算出している。例えば、時間長L=0.2秒である母音区間の頻度は、発話区間における複数の母音区間のうちの、時間長(Te−Ts)が0.19≦(Te−Ts)<0.21である母音区間の数を示している。
FIG. 8 is a diagram illustrating another example of a method for calculating the number of mora.
FIG. 8 shows an example of the frequency distribution for the time lengths of a plurality of vowel sections included in the utterance section. The frequency distribution in FIG. 8 is calculated by the same calculation method as the frequency distribution in FIG. That is, the frequency distribution of FIG. 8 is obtained by dividing the horizontal axis (time length L) into a plurality of sections every 0.02 seconds and calculating the number of vowel sections whose time length is included in each section as the frequency. doing. For example, the frequency of a vowel section with a time length L = 0.2 seconds is such that the time length (Te−Ts) of a plurality of vowel sections in the utterance section is 0.19 ≦ (Te−Ts) <0.21. Indicates the number of vowel intervals.
図8の頻度分布からは、時間長の短いピークから順に第1のピークP1,第2のピークP2,第3のピークP3,及び第4のピークP4が検出される。第1のピークP1の時間長TP1は、モーラ数が1である母音区間の時間長(すなわち単独母音の時間長)と略一致する。また、第2のピークP2の時間長TP2、第3のピークP3の時間長TP3、第4のピークP4の時間長TP4は、それぞれ、モーラ数が2、3、及び4の母音区間の時間長と略一致する。
From the frequency distribution of FIG. 8, the first peak P1, the second peak P2, the third peak P3, and the fourth peak P4 are detected in order from the peak with the shortest time length. The time length TP1 of the first peak P1 substantially coincides with the time length of a vowel section in which the number of mora is 1 (that is, the time length of a single vowel). In addition, the time length TP2 of the second peak P2, the time length TP3 of the third peak P3, and the time length TP4 of the fourth peak P4 are the time lengths of the vowel sections having the
このように、母音区間の時間長についての頻度分布から4個のピークが検出された場合、各母音区間のモーラ数を算出する際に用いる基準時間長は、例えば、下記式(5)により算出される平均時間長d_aveとしてもよい。 As described above, when four peaks are detected from the frequency distribution of the time length of the vowel section, the reference time length used when calculating the number of mora of each vowel section is calculated by the following equation (5), for example. The average time length d_ave may be used.
式(5)におけるdj(j=1,2,3)は、それぞれ、j+1番目のピークPj+1の時間長TPj+1と、j番目のピークPjの時間長TPjとの時間差である。
In Equation (5), dj (j = 1, 2, 3) is a time difference between the time
式(5)により算出した平均時間長d_aveを基準時間長とする場合、各母音区間のモーラ数VN(i)は、下記式(6)により算出する。 When the average time length d_ave calculated by the equation (5) is used as the reference time length, the mora number VN (i) of each vowel section is calculated by the following equation (6).
頻度分布における第1のピークP1の時間長TP1は、母音のみの1音節における母音区間の時間長と、図4に示したような子音を含む1音節における母音区間の時間長とにより定まる。子音を含む1音節における母音区間の時間長は、上記のように1音節分の時間長の7割以上を占めるが、1音節分の時間長よりも短い。したがって、図4の(b)に示したように、子音を含む音節の母音区間が1音節分だけ長母音化した場合の母音区間の時間長は、2音節分の時間長よりも短くなる。 The time length TP1 of the first peak P1 in the frequency distribution is determined by the time length of a vowel section in one syllable containing only vowels and the time length of a vowel section in one syllable including consonants as shown in FIG. The time length of a vowel section in one syllable including consonants occupies 70% or more of the time length of one syllable as described above, but is shorter than the time length of one syllable. Therefore, as shown in FIG. 4B, when the vowel section of the syllable including the consonant is made longer by one syllable, the time length of the vowel section becomes shorter than the time length of two syllables.
これに対し、式(5)における時間差d1,d2,及びd3は、それぞれ、1音節分に相当する時間長と略一致する。このため、第1のピークP1の時間長TP1のみに基づいて各母音区間のモーラ数VN(i)を算出する場合に比べと、例えば、判定条件の境界部分におけるモーラ数VN(i)を正しく算出することが可能となる。 On the other hand, the time differences d1, d2, and d3 in the equation (5) substantially coincide with the time length corresponding to one syllable. Therefore, compared to the case where the mora number VN (i) of each vowel section is calculated based only on the time length TP1 of the first peak P1, for example, the mora number VN (i) at the boundary portion of the determination condition is correctly set. It is possible to calculate.
本実施形態に係る話速推定装置1は、例えば、電話網等のネットワークを利用した通話システムにおける話者の話速の推定に適用可能である。
The speech
図9は、話速推定装置の第1の適用例を示す図である。
図9に示すように、通話システム10は、第1の話者9Aと、第2の話者9Bとの通話に利用される。第1の話者9Aは、話速推定装置1と、通話処理装置11とを含む情報処理装置12に、収音装置2、表示装置3、及びレシーバ13を接続したものを通話装置(電話機)として用いる。
FIG. 9 is a diagram illustrating a first application example of the speech speed estimation apparatus.
As shown in FIG. 9, the
第1の話者9Aが通話装置(情報処理装置12)を用いて通話を行う際、通話処理装置11は、第1の交換機14A、及びネットワーク15を介して、通話相手が利用する通話装置(電話機)に接続される。第1の話者9Aの通話相手が第2の話者9Bである場合、通話処理装置11は、第1の交換機14A、ネットワーク15、及び第2の交換機14Bを介して、第2の話者9Bが利用する電話機16と接続される。
When the
通話処理装置11は、収音装置2から取得した第1の話者9Aの音声を含む音声データを電話機16に向けて送信する処理と、電話機16から受信した音声データをレシーバ13に出力する処理とを行う。一方、電話機16の通話処理部1610は、収音装置1620から取得した第2の話者9Bの音声を含む音声データを通話処理装置11(情報処理装置12)に向けて送信する処理と、通話処理装置11から受信した音声データをレシーバ1630に出力する処理とを行う。
The
第1の話者9Aと第2の話者9Bとが通話している間、情報処理装置12に含まれる話速推定装置1は、収音装置2から第1の話者9Aの音声を含む音声データを取得し、図2及び図3のフローチャートに沿って第1の話者9Aの話速を算出する。また、話速推定装置1は、算出した話速を可視化する表示データを生成して表示装置3に出力する。このため、第1の話者9Aは、第2の話者9Bとの通話中に、自身の話速が適正であるか否かを把握し、話速を調整することが可能となる。これにより、例えば、第1の話者9Aを、第2の話者9Bが発話内容を聞き取りやすい話速での発話に導くことが可能となる。
While the
なお、情報処理装置12は、話速推定装置1と、通話処理装置11との2個の装置を内包する装置に限らず、話速推定装置1が行う処理を担う第1の処理部と、通話処理装置11が行う処理を担う第2の処理部とを含む1個の装置であってもよい。
The
また、通話システム10は、例えば、ネットワーク15を利用した電話会議システムや、テレビ会議システムであってもよい。
Further, the
図10は、話速推定装置の第2の適用例を示す図である。
図10に示した通話システム10は、第1の話者9Aと、第2の話者9Bとの通話に利用される。第1の話者9Aは、通話処理装置11に相当する通話処理部21を含む情報処理装置12に収音装置2、及びレシーバ13を接続したものを、通話装置(電話機)として用いる。この際、情報処理装置12には話速推定装置1を接続し、話速推定装置1には表示装置3を接続する。
FIG. 10 is a diagram illustrating a second application example of the speech speed estimation apparatus.
The
第1の話者9Aが通話装置を用いて通話を行う際、情報処理装置12の通話処理部21は、第1の交換機14A、及びネットワーク15を介して、通話相手が利用する通話装置(電話機)に接続される。第1の話者9Aの通話相手が第2の話者9Bである場合、情報処理装置12の通話処理部21は、第1の交換機14A、ネットワーク15、及び第2の交換機14Bを介して、第2の話者9Bが利用する電話機16と接続される。
When the
情報処理装置12の通話処理部21は、収音装置2から取得した第1の話者9Aの音声を含む音声データを電話機16に向けて送信する処理と、電話機16から受信した音声データをレシーバ13に出力する処理とを行う。また、情報処理装置12の通話処理部21は、収音装置2から取得した音声データを話速推定装置1に出力する。一方、電話機16の通話処理部1610は、収音装置1620から取得した第2の話者9Bの音声を含む音声データを情報処理装置12に向けて送信する処理と、情報処理装置12から受信した音声データをレシーバ1630に出力する処理とを行う。
The
第1の話者9Aと第2の話者9Bとが通話している間、話速推定装置1は、情報処理装置12を介して第1の話者9Aの音声を含む音声データを取得し、図2及び図3のフローチャートに沿って第1の話者9Aの話速を算出する。また、話速推定装置1は、算出した話速を可視化する表示データを生成して表示装置3に出力する。これにより、第1の話者9Aは、第2の話者9Bとの通話中に、自身の話速が適正であるか否かを把握し、話速を調整することが可能となる。
While the
また、図9及び図10の通話システム10における表示装置3の設置場所は、第1の話者9Aの近傍に限らず、例えば、第1の話者9Aとは異なる場所にいる第三者の近傍に設置することも可能である。更に、通話システム10における表示装置3は、複数個であってもよい。
9 and 10 is not limited to the vicinity of the
加えて、話速推定装置1で算出した(推定した)第1の話者9Aの話速は、例えば、図示しない話速推定装置1の記憶部、或いは他の装置に記憶させてもよい。
In addition, the speech speed of the
なお、本実施形態で挙げた話速推定装置1は、モーラ数決定部140において決定した複数の母音区間それぞれのモーラ数に基づいて、入力音声データと対応する出力信号を制御する音声処理装置の一例に過ぎない。すなわち、本実施形態に係るモーラ数決定部140において決定した複数の母音区間それぞれのモーラ数は、入力音声データの話速を提示する表示データ(出力信号)を制御するだけでなく、入力データと対応する他の出力信号の制御にも利用可能である。
Note that the speech
更に、本実施形態に係る話速推定装置1の機能的構成は、図1に示した構成に限らず、話速推定装置1で行う処理の内容に応じて適宜変更可能である。例えば、図2のステップS3、S4、及びS5の処理は、それぞれ、ステップS3’,S4’,及びS5’に置換可能である。
(ステップS3’)複数の母音区間それぞれの時間長を算出する処理。
(ステップS4’)複数の母音区間の時間長についての頻度分布を算出するとともに、複数の母音区間それぞれの時間長のうちの最小値を特定する処理。
(ステップS5’)特定した時間長の最小値と、頻度分布とに基づいて複数の母音区間それぞれの時間長と対応するモーラ数を算出する処理。
Furthermore, the functional configuration of the speech
(Step S3 ′) A process of calculating the time length of each of the plurality of vowel sections.
(Step S4 ′) A process of calculating the frequency distribution for the time lengths of the plurality of vowel sections and specifying the minimum value of the time lengths of the plurality of vowel sections.
(Step S5 ′) A process of calculating the number of mora corresponding to the time length of each of the plurality of vowel sections based on the specified minimum value of the time length and the frequency distribution.
話速処理装置1においてステップS3’〜S5’の処理を行う場合、話速推定装置1のモーラ数決定部140は、時間長算出部と、最小値特定部と、モーラ数算出部と、を含むものであってもよい。この場合、時間長算出部はステップS3’の処理を行い、最小値特定部はステップS4’の処理を行う。また、モーラ数算出部はステップS5’の処理を行う。
When the processing of steps S3 ′ to S5 ′ is performed in the speech
[第2の実施形態]
図11は、第2の実施形態に係る話速推定装置の機能的構成を示す図である。
[Second Embodiment]
FIG. 11 is a diagram illustrating a functional configuration of the speech speed estimation apparatus according to the second embodiment.
図11に示すように、本実施形態に係る話速推定装置1は、音声取得部110と、発話区間検出部120と、母音区間検出部130と、モーラ数決定部140と、話速算出部150と、出力部160と、を備える。また、図11では省略しているが、話速推定装置1は、音声データを含む各種情報を記憶させる記憶部を備える。
As shown in FIG. 11, the speech
音声取得部110は、収音装置2から音声データを取得する。
発話区間検出部120は、音声データにおける発話区間を検出する。発話区間は、話速推定の対象である人物が発した音声を含む区間である。
The
The utterance
母音区間検出部130は、音声データの発話区間に含まれる母音区間を検出する。なお、本実施形態の話速推定装置1における母音区間検出部130は、発話区間検出部120で検出した発話区間からではなく、音声データ全体から母音区間を検出する。
The
モーラ数決定部140は、音声データから検出した複数の母音区間のそれぞれにおける時間長に基づいて、各母音区間のモーラ数を算出する。頻度分布算出部141と、ピーク検出部142と、モーラ数算出部143と、を含む。
The mora
話速算出部150は、発話区間の時間長と、該発話区間に含まれる母音区間のモーラ数とに基づいて、音声データにおける話速を算出する。
The speech
出力部160は、算出した話速を可視化する表示データを生成して表示装置3に出力する。
The
本実施形態の話速推定装置1は、動作を開始すると、収音装置2から音声データを取得する処理と、取得した音声データにおける話速を推定し推定結果を表示装置3に出力する処理とを行う。音声データを取得する処理は、話速推定装置1の音声取得部110が行う。
When the operation is started, the speech
一方、音声データにおける話速を推定し推定結果を表示装置3に出力する処理は、話速推定装置1の発話区間検出部120、母音区間検出部130、モーラ数決定部140、話速算出部150、及び出力部160が行う。本実施形態の話速推定装置1は、音声データにおける話速を推定し推定結果を表示装置3に出力する処理として、図2のステップS1〜S7の処理を行う。なお、本実施形態の話速推定装置1における母音区間検出部130は、発話区間検出部120による発話区間の検出結果を参照せずに、音声データ全体から母音区間を検出する。すなわち、本実施形態の話速推定装置1における母音区間検出部130は、ステップS2の母音区間を検出する処理として、例えば、図12に示した処理を行う。
On the other hand, the process of estimating the speech speed in the speech data and outputting the estimation result to the
図12は、第2の実施形態に係る母音区間を検出する処理の内容を説明するフローチャートである。 FIG. 12 is a flowchart for explaining the contents of processing for detecting a vowel section according to the second embodiment.
本実施形態の話速推定装置1における母音区間検出部130は、音声データを複数の区間に分割し、区間毎に図12に示したステップS211〜S219の処理を行う。母音区間検出部130は、まず、音声データのうちの処理対象の区間における時刻tm(m=1,2,・・・,M)のそれぞれで、音声データの波形自己相関AC(tm)を算出する(ステップS211)。発話区間における時刻tmの時間間隔(tm−tm−1)は、例えば、音声データを処理する際の処理単位(フレーム)の時間長とする。以下の説明では、音声データにおける時刻tmと対応付けられたフレームを、時刻tmのフレームという。
The vowel
ステップS211の処理において、母音区間検出部130は、下記式(7)により時刻t(各時刻tm)の波形自己相関AC(t)を算出する。
In the process of step S211, the vowel
式(7)のNは、波形自己相関の算出幅(サンプル数)であり、例えば、N=500とする。式(7)のSLは、波形自己相関の探索範囲の下限値(サンプル数)であり、例えば、SL=20とする。式(7)のSHは、波形自己相関の探索範囲の上限値(サンプル数)であり、例えば、SH=120とする。 N in Expression (7) is a calculation width (number of samples) of the waveform autocorrelation, and for example, N = 500. SL in Expression (7) is a lower limit value (number of samples) of the search range of the waveform autocorrelation, for example, SL = 20. SH in Expression (7) is an upper limit value (number of samples) of the search range of the waveform autocorrelation. For example, SH = 120.
ステップS211の処理を終えると、母音区間検出部130は、次に、変数m、変数i、及び波形自己相関AC(t0)を、それぞれ、m=1、i=1、及びAC(t0)=0に設定する(ステップS212)。変数iは、母音区間を識別する値である。
When the processing of step S211 is completed, the vowel
次に、母音区間検出部130は、時刻tm−1の波形自己相関AC(tm−1)が閾値THACよりも小さく、かつ時刻tmの自己波形相関AC(tm)が閾値THAC以上であるか否かを判定する(ステップS213)。すなわち、ステップS213では、AC(tm−1)<THAC、かつAC(tm)≧THACであるか否かを判定する。
Next, the vowel
閾値THACは、音声データに含まれる音声が母音であるか非母音(子音等)であるかを判別する値である。式(7)により波形自己相関を算出した場合、音声データに含まれる母音区間の波形自己相関は、非母音区間(子音区間等)の波形自己相関と比べて大きな値となる。このため、本実施形態では、音声データのうちの波形自己相関が閾値THAC以上である区間を母音区間とする。閾値THACは、例えば、母音区間における波形自己相関の統計値と、非母音区間における波形自己相関の統計値とに基づいて設定する。 The threshold TH AC is a value for determining whether the voice included in the voice data is a vowel or a non-vowel (consonant, etc.). When the waveform autocorrelation is calculated by the equation (7), the waveform autocorrelation of the vowel section included in the speech data is a larger value than the waveform autocorrelation of the non-vowel section (consonant section etc.). For this reason, in this embodiment, the section in which the waveform autocorrelation in the voice data is equal to or greater than the threshold TH AC is set as the vowel section. The threshold TH AC is set based on, for example, the statistical value of the waveform autocorrelation in the vowel section and the statistical value of the waveform autocorrelation in the non-vowel section.
AC(tm−1)<THAC、かつAC(tm)≧THACである場合、波形自己相関は、時刻tm−1からtmの間において閾値THACよりも小さい値から閾値THAC以上の値に変化する。すなわち、AC(tm−1)<THAC、かつAC(tm)≧THACである場合、時刻tm−1のフレームは非母音区間に含まれ、時刻tmのフレームは母音区間に含まれる。よって、AC(tm−1)<THAC、かつAC(tm)≧THACである場合(ステップS213;YES)、母音区間検出部130は、次に、i番目の母音区間の開始時刻Ts(i)を時刻tmに設定する(ステップS214)。ステップS214の処理を終えると、母音区間検出部130は、次に、変数mが音声データのうちの波形自己相関を算出した区間における最後の値M以上であるか否かを判定する(ステップS217)。
When AC (t m−1 ) <TH AC and AC (t m ) ≧ TH AC , the waveform autocorrelation is between a value smaller than the threshold TH AC and a threshold TH between time t m−1 and t m. The value changes to AC or higher. That is, when AC (t m−1 ) <TH AC and AC (t m ) ≧ TH AC , the frame at time t m−1 is included in the non-vowel section, and the frame at time t m is included in the vowel section. included. Therefore, when AC (t m-1 ) <TH AC and AC (t m ) ≧ TH AC (step S213; YES), the vowel
一方、AC(tm−1)≧THAC、又はAC(tm)<THACである場合(ステップS213;NO)、母音区間検出部130は、次に、AC(tm−1)≧THAC、かつAC(tm)<THACであるか否かを判定する(ステップS215)。
On the other hand, when AC (t m−1 ) ≧ TH AC or AC (t m ) <TH AC (step S213; NO), the vowel
AC(tm−1)≧THAC、かつAC(tm)<THACである場合(ステップS215;YES)、時刻tm−1のフレームは母音区間に含まれ、時刻tmのフレームは非母音区間に含まれる。よって、AC(tm−1)≧THAC、かつAC(tm)<THACである場合(ステップS215;YES)、母音区間検出部130は、次に、i番目の母音区間の終了時刻Te(i)を時刻tm−1に設定し、変数iをi+1に更新する(ステップS216)。ステップS216において、母音区間検出部130は、母音区間の終了時刻Te(i)を時刻tm−1に設定した後、変数iをi+1に更新する。ステップS216の処理を終えると、母音区間検出部130は、次に、ステップS217の判定を行う。
When AC (t m−1 ) ≧ TH AC and AC (t m ) <TH AC (step S215; YES), the frame at time t m−1 is included in the vowel section, and the frame at time t m is Included in non-vowel section. Therefore, when AC (t m−1 ) ≧ TH AC and AC (t m ) <TH AC (step S215; YES), the vowel
これに対し、AC(tm−1)≧THAC、かつAC(tm)<THACを満たしていない場合(ステップS215;NO)、時刻tm−1及び時刻tmにおける波形自己相関は、両方とも閾値THAC以上であるか、或いは両方とも閾値THACよりも小さい。すなわち、AC(tm−1)≧THAC、かつAC(tm)<THACを満たしていない場合、時刻tm−1,tmのフレームは、両方とも非母音区間に含まれるか、或いは両方とも母音区間に含まれる。よって、AC(tm−1)≧THAC、かつAC(tm)<THACを満たしていない場合(ステップS215;NO)、母音区間検出部130は、ステップS216の処理をスキップし、次に、ステップS217の判定を行う。
On the other hand, when AC (t m-1 ) ≧ TH AC and AC (t m ) <TH AC is not satisfied (step S215; NO), the waveform autocorrelation at time t m-1 and time t m is either both the threshold value TH AC above, or both smaller than the threshold value TH AC. That is, if AC (t m−1 ) ≧ TH AC and AC (t m ) <TH AC are not satisfied, the frames at time t m−1 and t m are both included in the non-vowel interval, Alternatively, both are included in the vowel section. Therefore, when AC (t m-1 ) ≧ TH AC and AC (t m ) <TH AC are not satisfied (step S215; NO), the vowel
ステップS217では、母音区間検出部130は、上記のように、変数mが音声データのうちの現在処理対象となっている区間における最後の値M以上であるか否かを判定する。m<Mである場合(ステップS217;NO)、母音区間検出部130は、変数mをm+1に更新し(ステップS218)、ステップS213以降の処理を行う。
In step S217, as described above, the vowel
一方、m≧Mである場合(ステップS217;YES)、母音区間検出部130は、母音区間を示す情報[Ts(i),Te(i)]を出力し(ステップS219)、音声データにおける1個の処理対象区間に含まれる母音区間を検出する処理を終了する。
On the other hand, if m ≧ M (step S217; YES), the vowel
本実施形態に係る母音区間検出部130は、音声データにおける処理対象区間毎に、ステップS211〜S219の処理を行う。
The vowel
本実施形態に係る話速推定装置1は、発話区間検出部120で検出した発話区間と、ステップS211〜S219の処理により母音区間検出部130で検出した母音区間とに基づいて、図2のステップS3〜S6の処理を行い、話速を算出する。すなわち、本実施形態に係る話速推定装置1は、音声データに含まれる母音区間の時間長についての頻度分布に基づいて、1モーラ(単独母音)の母音区間の時間長を検出する。その後、話速推定装置1は、1モーラの母音区間の時間長と、母音区間の時間長とに基づいて、各母音区間のモーラ数を決定する。このため、本実施形態に係る話速推定装置1では、長母音化した母音区間についてのモーラ数の誤りを防ぎ、発話区間の正しい話速を算出することが可能となる。よって、話速推定装置1は、例えば、話速の推定対象である利用者に対して正しい話速の時間変化を提示し、適正な話速での発話をするよう該利用者を導くことが可能となる。
The speech
また、本実施形態の話速推定装置1は、例えば、算出した話速を可視化する表示データを生成して表示装置3に出力する。この際、話速推定装置1は、例えば、図10に示したグラフ421のような表示データを生成して表示装置3に表示させる。これにより、話速の推定対象である人物に対し、会話中に話速を提示することが可能となり、適正な話速に導くことが可能となる。
Moreover, the speech
なお、図12のフローチャートは、母音区間を検出する処理の一例に過ぎない。本実施形態に係る母音区間を検出する処理では、波形自己相関の時間変化に限らず、音声データにおける他の特性の時間変化に基づいて母音区間を検出してもよい。例えば、母音区間を検出する処理では、第1の実施形態で説明した信号対雑音比の時間変化に基づいて母音区間を検出してもよい。また、例えば、母音区間を検出する処理では、図13のようにフォルマント周波数の時間変化に基づいて母音区間を検出してもよい。 Note that the flowchart of FIG. 12 is merely an example of processing for detecting a vowel section. In the process of detecting a vowel section according to the present embodiment, the vowel section may be detected based not only on the time change of the waveform autocorrelation but also on the time change of other characteristics in the speech data. For example, in the process of detecting the vowel section, the vowel section may be detected based on the time change of the signal-to-noise ratio described in the first embodiment. Further, for example, in the process of detecting the vowel section, the vowel section may be detected based on the time change of the formant frequency as shown in FIG.
図13は、第2の実施形態に係る母音区間を検出する処理の変形例を説明するフローチャートである。 FIG. 13 is a flowchart for explaining a modification of the process for detecting a vowel section according to the second embodiment.
フォルマント周波数に基づいて母音区間を検出する場合、母音区間検出部130は、まず、音声データのうちの処理対象の区間における時刻tm(m=1,2,・・・,M)のそれぞれでの、フォルマント周波数を算出する(ステップS221)。発話区間における時刻tmの時間間隔(tm−tm−1)は、例えば、音声データを処理する際の処理単位(フレーム)の時間長とする。以下の説明では、音声データにおける時刻tmと対応付けられたフレームを、時刻tmのフレームという。
When detecting a vowel section based on the formant frequency, the vowel
ステップS211の処理において、母音区間検出部130は、既知の算出方法に従い、例えば、音声データの時刻tmのフレームにおけるフォルマント周波数FM(tm,k)を算出する。例えば、母音区間検出部130は、第1フォルマント周波数FM(tm,1)、第2フォルマント周波数FM(tm,2)、及び第3フォルマント周波数FM(tm,3)を算出する。
In the process of step S211, the vowel
ステップS221の処理を終えると、母音区間検出部130は、次に、変数m、変数i、フォルマント周波数、及びフォルマント周波数の時間変化平均の各値を初期値に設定する(ステップS222)。ステップS222において、母音区間検出部130は、変数m、及び変数iを、それぞれ、m=1,i=1に設定する。変数iは、母音区間を識別する値である。また、母音区間検出部130は、フォルマント周波数の初期値を、例えば、FM(t0,1)=FM(t0,2)=FM(t0,3)=0に設定する。更に、母音区間検出部130は、フォルマント周波数の時間変化平均の初期値ΔFM(t0)を、ΔFM(t0)≧THFMとなる値に設定する。閾値THFMは、音声データに含まれる音声が母音であるか非母音(子音)であるかを判別する値である。
When the process of step S221 is completed, the vowel
次に、母音区間検出部130は、時刻tm−1からtmにおけるフォルマント周波数の時間変化平均ΔFM(tm)を算出する(ステップS223)。母音区間検出部130は、例えば、下記式(8)によりフォルマント周波数の時間変化平均ΔFM(tm)を算出する。
Next, the vowel
次に、母音区間検出部130は、時刻tm−1での時間変化平均ΔFM(tm−1)が閾値THFM以上であり、かつ時刻tmでの時間変化平均ΔFM(tm)が閾値THFMよりも小さいか否かを判定する(ステップS224)。閾値THFMは、音声データに含まれる音声が母音であるか非母音(子音)であるかを判別する値である。音声データにおける母音区間の特徴は、主として、第1フォルマント周波数及び第2フォルマント周波数の分布により決定する。言い換えると、音声データの1個の母音区間におけるフォルマント周波数の時間変化平均ΔFMは、略一定の値であり、かつ非母音区間における時間変化平均ΔFMと比べて小さな値となる。このため、音声データのうちのフォルマント周波数の時間変化平均ΔFMが閾値THFMよりも小さいフレームが連続する区間を母音区間とみなすことが可能となる。閾値THFMは、例えば、統計処理により得られる、母音区間におけるフォルマント周波数の時間変化平均の統計値と、非母音区間におけるフォルマント周波数の時間変化平均の統計値とに基づいて設定する。
Next, the vowel
ΔFM(tm−1)≧THFM、かつΔFM(tm)<THFMである場合(ステップS224;YES)、母音区間検出部130は、次に、i番目の母音区間の開始時刻Ts(i)を時刻tm−1に設定する(ステップS225)。ステップS225の処理を終えると、母音区間検出部130は、次に、変数mが音声データのうちのフォルマント周波数を算出した区間における最後の値M以上であるか否かを判定する(ステップS228)。
If ΔFM (t m−1 ) ≧ TH FM and ΔFM (t m ) <TH FM (step S224; YES), the vowel
一方、ΔFM(tm−1)<THFM、又はΔFM(tm)≧THFMである場合(ステップS224;NO)、母音区間検出部130は、次に、ΔFM(tm−1)<THFM、かつΔFM(tm)≧THFMであるか否かを判定する(ステップS226)。
On the other hand, if ΔFM (t m−1 ) <TH FM or ΔFM (t m ) ≧ TH FM (step S224; NO), the vowel
ΔFM(tm−1)<THFM、かつΔFM(tm)≧THFMである場合(ステップS226;YES)、母音区間検出部130は、次に、i番目の母音区間の終了時刻Te(i)を時刻tm−1に設定するとともに、変数iをi+1に更新する(ステップS227)。ステップS227の処理を終えると、母音区間検出部130は、次に、ステップS228の判定を行う。
When ΔFM (t m−1 ) <TH FM and ΔFM (t m ) ≧ TH FM (step S226; YES), the vowel
これに対し、ΔFM(tm−1)<THFM、かつΔFM(tm)≧THFMを満たしていない場合、時刻tm−1及び時刻tmにおけるフォルマント周波数の時間変化平均は、両方とも閾値THFM以上であるか、或いは両方とも閾値THFMよりも小さい。すなわち、ΔFM(tm−1)<THFM、かつΔFM(tm)≧THFMを満たしていない場合、音声データにおける時刻tm−1,tmのフレームは、両方とも非母音区間に含まれるか、或いは両方とも母音区間に含まれる。よって、ΔFM(tm−1)<THFM、かつΔFM(tm)≧THFMを満たしていない場合(ステップS226;NO)、母音区間検出部130は、ステップS227の処理をスキップして、次に、ステップS228の判定を行う。
On the other hand, when ΔFM (t m−1 ) <TH FM and ΔFM (t m ) ≧ TH FM are not satisfied, the time change averages of the formant frequencies at time t m−1 and time t m are both It is greater than or equal to the threshold TH FM , or both are smaller than the threshold TH FM . That is, when ΔFM (t m−1 ) <TH FM and ΔFM (t m ) ≧ TH FM are not satisfied, both frames at time t m−1 and t m in the speech data are included in the non-vowel section. Or both are included in the vowel section. Therefore, when ΔFM (t m−1 ) <TH FM and ΔFM (t m ) ≧ TH FM are not satisfied (step S226; NO), the vowel
上記のように、ステップS228では、母音区間検出部130は、変数mが音声データのうちのフォルマント周波数を算出した区間における最後の値M以上であるか否かを判定する。m<Mである場合(ステップS228;NO)、母音区間検出部130は、変数mをm+1に更新し(ステップS229)、ステップS223以降の処理を行う。
As described above, in step S228, the vowel
一方、m≧Mである場合(ステップS228;YES)、母音区間検出部130は、母音区間を示す情報[Ts(i),Te(i)]を出力し(ステップS230)、音声データにおける1個の処理対象区間に対する母音区間を検出する処理を終了する。
On the other hand, if m ≧ M (step S228; YES), the vowel
このように、音声データにおける母音区間は、第1フォルマント周波数及び第2フォルマント周波数を含むフォルマント周波数の時間変化平均に基づいて検出することも可能である。フォルマント周波数の時間変化平均に基づいて母音区間を検出する場合も、母音が長母音化することにより、例えば、実際には2モーラである母音区間が1個の母音区間として検出されることがある。しかしながら、音声データに含まれる母音区間の時間長についての頻度分布に基づいて各母音区間の母音数を決定することにより、音声データにおける発話区間のモーラ数(母音数)を正しく算出し、話速を精度良く算出することが可能となる。 As described above, the vowel section in the voice data can be detected based on the time-change average of the formant frequency including the first formant frequency and the second formant frequency. Even when a vowel section is detected based on the time-change average of the formant frequency, a vowel section that is actually 2 mora, for example, may be detected as one vowel section by converting the vowel into a long vowel. . However, by determining the number of vowels in each vowel section based on the frequency distribution of the time length of the vowel section included in the speech data, the number of mora (number of vowels) in the speech section in the speech data is correctly calculated, and the speech speed Can be calculated with high accuracy.
なお、本実施形態で挙げた話速推定装置1は、モーラ数決定部140において決定した複数の母音区間それぞれのモーラ数に基づいて、入力音声データと対応する出力信号を制御する音声処理装置の一例に過ぎない。すなわち、本実施形態に係るモーラ数決定部140において決定した複数の母音区間それぞれのモーラ数は、入力音声データの話速を提示する表示データ(出力信号)を制御するだけでなく、入力データと対応する他の出力信号の制御にも利用可能である。
Note that the speech
また、本実施形態に係る話速推定装置1のモーラ数決定部140は、上述したステップS3’の処理を行う時間長算出部と、ステップS4’の処理を行う最小値特定部と、ステップS5’の処理を行うモーラ数決定部とを含むものであってもよい。
Further, the mora
[第3の実施形態]
図14は、第3の実施形態に係る通話システムのシステム構成を示す図である。
[Third Embodiment]
FIG. 14 is a diagram illustrating a system configuration of a call system according to the third embodiment.
図14に示すように、本実施形態に係る通話システム10は、第1の話者9Aと、第2の話者9Bとの通話に利用される。第1の話者9Aは、携帯電話端末25を通話装置(電話機)として用いる。携帯電話端末25は、通話処理部21と、収音装置2と、レシーバ13と、話速調整部26とを含む。
As shown in FIG. 14, the
第1の話者9Aが携帯電話端末25を用いて通話を行う際、通話処理部21は、基地局30、及びネットワーク15を介して、通話相手が利用する通話装置(電話機)に接続される。携帯電話端末25(通話処理部21)と基地局30とは、所定の無線通信規格に従った無線通信により接続される。第1の話者9Aの通話相手が第2の話者9Bである場合、通話処理部21は、基地局30、ネットワーク15、及び交換機14Bを介して、第2の話者9Bが利用する電話機16と接続される。
When the
携帯電話端末25は、収音装置2から取得した第1の話者9Aの音声を含む音声データの話速を調整して電話機16に向けて送信する処理と、電話機16から受信した音声データをレシーバ13に出力する処理とを行う。携帯電話端末25において音声データの話速を調整する処理は、話速調整部26が行う。また、携帯電話端末25において、話速を調整した音声データを電話機16に向けて送信する処理と、電話機16から受信した音声データをレシーバ13に出力する処理とは、通話処理部21が行う。
The cellular phone terminal 25 adjusts the speech speed of the voice data including the voice of the
一方、第2の話者9Bが利用する電話機16は、通話処理部1601と、収音装置1620と、レシーバ1630とを含む。電話機16の通話処理部1610は、収音装置1620から取得した第2の話者9Bの音声を含む音声データを携帯電話端末25に向けて送信する処理と、携帯電話端末25から受信した音声データをレシーバ1630に出力する処理とを行う。
On the other hand, the telephone set 16 used by the second speaker 9B includes a call processing unit 1601, a
本実施形態に係る通話システムにおける携帯電話端末25は、上記のように、話速調整部26において、収音装置2から取得した第1の話者9Aの音声を含む音声データの話速を調整する処理を行う。話速調整部26は、音声データにおける第1の話者9Aの話速を算出した後、該話速の算出結果に基づいて、音声データにおける話速が適正な話速になるよう音声データを調整する。本実施形態における話速調整部26は、音声データにおける話速が閾値以上である場合に、音声データを伸長させて話速を減速させる。
As described above, the cellular phone terminal 25 in the call system according to the present embodiment adjusts the speech speed of the speech data including the speech of the
図15は、第3の実施形態に係る話速調整部の機能的構成を示す図である。
図15に示すように、本実施形態の携帯電話端末25における話速調整部26は、音声取得部110と、発話区間検出部120と、母音区間検出部130と、モーラ数決定部140と、話速算出部150と、話速制御部170と、出力部162と、を備える。また、話速調整部26は、音声データ191及び目標伸長率192を含む各種情報を記憶させる記憶部190を備える。目標伸長率192は、音声データにおける話速を減速させる際の音声データの伸長率の目標値である。
FIG. 15 is a diagram illustrating a functional configuration of the speech speed adjustment unit according to the third embodiment.
As shown in FIG. 15, the speech
音声取得部110は、収音装置2から音声データを取得する。
発話区間検出部120は、音声データにおける発話区間を検出する。発話区間は、話速推定の対象である人物が発した音声を含む区間である。
The
The utterance
母音区間検出部130は、音声データの発話区間に含まれる母音区間を検出する。なお、本実施形態の話速調整部26における母音区間検出部130は、発話区間検出部120で検出した発話区間からではなく、音声データ全体から母音区間を検出する。
The
モーラ数決定部140は、音声データから検出した複数の母音区間のそれぞれの時間長に基づいて、各母音区間のモーラ数を算出する。モーラ数決定部140は、第1の実施形態で説明した方法により、各母音区間のモーラ数を算出する。モーラ数決定部140は、頻度分布算出部141と、ピーク検出部142と、モーラ数算出部143と、を含む。
The mora
話速算出部150は、発話区間の時間長と、該発話区間に含まれる母音区間のモーラ数とに基づいて、音声データにおける話速(発話速度)を算出する。
The speech
話速制御部170は、話速算出部150で算出した話速に基づいて、音声データの話速を制御する。本実施形態に係る話速制御部170は、算出した話速が適正な話速よりも速い場合に、目標伸長率192を参照して、音声データの話速が適正な話速となるよう音声データを伸長させる。
The speech
出力部162は、話速制御部170により話速を制御した音声データを通話処理部21に出力する。
The
図16は、話速制御部の機能的構成を示す図である。
図16に示すように、本実施形態に係る話速制御部170は、基本周期検出部171と、波形処理部172と、伸長制御部173と、を含む。
FIG. 16 is a diagram illustrating a functional configuration of the speech speed control unit.
As shown in FIG. 16, the speech
基本周期検出部171は、音声データのうちの処理対象である母音区間の基本周期を検出する。
The
波形処理部172は、音声データに基本周期の波形を重ねて音声データを伸長させる。
伸長制御部173は、音声データを伸長させるか否か、言い換えると基本周期の波形を重ねるか否かの制御を行う。伸長制御部173は、まず、話速算出部150で算出した話速に基づいて、音声データを伸長させるか否かを判定する。また、音声データを伸長させる場合、伸長制御部173は、波形処理部172で基本周期の波形を重ねた音声データの実績伸長率と、目標伸長率とに基づいて、基本周期の波形を更に重ねるか否かの制御を行う。
The
The
本実施形態の携帯電話端末25における話速調整部26は、収音装置2から音声データを取得する処理と、取得した音声データにおける話速を制御して通話処理部21に出力する処理とを行う。音声データを取得する処理は、話速調整部26の音声取得部110が行う。
The speech
一方、音声データにおける話速を制御して出力する処理は、話速調整部26の発話区間検出部120、母音区間検出部130、モーラ数決定部140、話速算出部150、話速制御部170、及び出力部162が行う。話速調整部26は、音声データにおける話速を制御して出力する処理として、図17に示した処理を行う。
On the other hand, the process of controlling and outputting the speech speed in the speech data includes the speech
図17は、第3の実施形態に係る話速調整部が行う処理を説明するフローチャートである。 FIG. 17 is a flowchart illustrating processing performed by the speech speed adjustment unit according to the third embodiment.
音声データにおける話速を制御して出力する処理において、話速調整部26は、まず、音声データに含まれる発話区間を検出する(ステップS1)。ステップS1の処理は、発話区間検出部120が行う。発話区間検出部120は、既知の検出方法に従い、音声データに含まれる発話区間(言い換えると話速推定の対象である人物が発した音声を含む区間)を検出する。例えば、発話区間検出部120は、VADにより発話区間を検出する。
In the process of controlling and outputting the speech speed in the speech data, the speech
次に、話速調整部26は、発話区間に含まれる母音区間を検出する(ステップS2)。ステップS2の処理は、母音区間検出部130が行う。母音区間検出部130は、既知の検出方法に従い、音声データにおける母音区間を検出する。例えば、母音区間検出部130は、音声データにおける信号対雑音比の時間変化に基づいて、信号対雑音比が所定の閾値以上で連続する1個の区間を1個の母音区間として検出する。
Next, the speech
次に、話速調整部26は、検出した母音区間のモーラ数(母音数)を決定する処理(ステップS3〜S5)を行う。母音区間のモーラ数を決定するステップS3〜S5の処理は、話速調整部26のモーラ数決定部140が行う。
Next, the speech
モーラ数決定部140は、まず、検出した複数の母音区間のそれぞれの時間長に基づいて、母音区間の時間長についての頻度分布を算出する(ステップS3)。ステップS3の処理は、モーラ数決定部140の頻度分布算出部141が行う。頻度分布算出部141は、検出した複数の母音区間のそれぞれにおける区間の開始時刻と終了時刻とに基づいて、母音区間の時間長を算出する。また、頻度分布算出部141は、各母音区間の時間長に基づいて時間長毎の母音区間の出現頻度を計数し、頻度分布を算出する。この際、頻度分布算出部141は、例えば、1個の発話区間における末尾の母音区間を除外して、頻度分布を算出する。
The mora
次に、モーラ数決定部140は、ステップS3で算出した頻度分布において出現頻度が極大値(ピーク)となる時間長を検出する(ステップS4)。ステップS4の処理は、モーラ数決定部140のピーク検出部142が行う。例えば、ピーク検出部142は、頻度分布における最短時間長の出現頻度から順に、判定対象である時間長の出現頻度と、その前後の時間長の出現頻度と比較し、出現頻度が極大値となる時間長を検出する。
Next, the mora
次に、モーラ数決定部140は、頻度分布から検出した時間長のうちの最小値と、母音区間の時間長とに基づいて、各母音区間のモーラ数を算出する(ステップS5)。ステップS5の処理は、モーラ数決定部140のモーラ数算出部143が行う。モーラ数算出部143は、頻度分布においてピークとなる複数の時間長のうちの最小値を基準時間長とし、まず、母音区間の時間長を基準時間長で除した値を算出する。その後、モーラ数算出部143は、母音区間の時間長を基準時間長で除した値に近い整数値を、該母音区間のモーラ数とする。
Next, the mora
モーラ数決定部140によるステップS3〜S5の処理を終えると、話速調整部26は、次に、ステップS5で算出した各母音区間のモーラ数と、発話区間の時間長とに基づいて、発話区間の話速を算出する(ステップS6)。ステップS6の処理は、話速算出部150が行う。話速算出部150は、話速として、発話区間の時間長を、該発話区間に含まれる母音区間についてのモーラ数の合計で除した値(モーラ/秒)を算出する。
When the processing of steps S3 to S5 by the mora
次に、話速調整部26は、算出した話速に基づいて、音声データの話速を制御する処理(ステップS8)を行う。ステップS8の処理は、話速制御部170が行う。話速制御部170は、音声データのうちの算出した話速が適正な話速よりも速い区間に、該当区間における基本周期の波形を重ねて音声データを伸長させる処理を行う。
Next, the speech
次に、話速調整部26は、話速制御部170において話速を調整した音声データを通話処理部21にする(ステップS9)。ステップS9の処理は、出力部162が行う。
Next, the speech
話速調整部26は、通話中、上記のステップS1〜S6,S8,及びS9の処理を繰り返し行う。この際、話速調整部26は、音声データにおける1個の処理対象区間に対するステップS1〜SS6,S8,及びS9の処理を終えてから次の処理対象区間に対する処理を行ってもよいし、各ステップの処理をパイプライン化して行ってもよい。
The speech
本実施形態に係る携帯端末装置1における話速調整部26は、上記のように、音声データにおける母音区間の時間長についての頻度分布に基づいて、1モーラ(単独母音)に相当する母音区間の時間長を算出し、各母音区間の母音数を決定する。このため、話速調整部26は、長母音化による話速の誤りを防ぎ、話速を精度良く算出する(推定する)ことが可能となり、音声データにおける話速を適正な話速に調整することが可能となる。
As described above, the speech
本実施形態の話速調整部26における話速制御部170は、音声データの話速を制御する処理(ステップS8)として、例えば、図18に示した処理を行う。
The speech
図18は、音声データの話速を制御する処理の内容を説明するフローチャートである。
話速制御部170は、音声データにおける話速を算出した区間(例えば、発話区間)毎に、図18のステップS801〜S807の処理を行う。話速制御部170は、まず、話速算出部150で算出した話速に基づいて、処理対象区間の話速が閾値以上であるか否かを判定する(ステップS801)。ステップS801の判定は、例えば、話速制御部170の伸長制御部173が行う。話速が閾値よりも小さい(遅い)場合(ステップS801;NO)、話速制御部170は、処理対象区間に対する話速を制御する処理を終了する。話速の閾値は、例えば、8モーラ/秒とする。
FIG. 18 is a flowchart for explaining the contents of processing for controlling the speech speed of voice data.
The speech
処理対象区間の話速が閾値以上である場合(ステップS801;YES)、話速制御部170は、次に、処理対象区間に対する実績伸長率を初期化する(ステップS802)。ステップS802の処理は、話速制御部170の伸長制御部173が行う。
When the speech speed of the processing target section is equal to or higher than the threshold (step S801; YES), the speech
その後、話速制御部170は、音声データにおける処理対象区間を伸長させるステップS803〜S807の処理を行う。例えば、ステップS803〜S807の処理は、1フレーム期間を20ミリ秒とするフレーム処理とする。
Thereafter, the speech
音声データにおける処理対象区間を伸長させる処理において、話速制御部170は、まず、処理対象区間における母音区間の基本周期を検出する(ステップS803)。ステップS803の処理は、話速制御部170の基本周期検出部171が行う。基本周期検出部171は、既知の検出方法に従って、処理対象区間の音声波形についての自己相関を算出し、シフト量が0よりも大きい区間において自己相関が初めて極大となるシフト量と対応する周期を、基本周期として算出する。
In the process of extending the processing target section in the voice data, the speech
次に、話速制御部170は、算出した基本周期に基づいてピッチの時間変化率を算出する(ステップS804)。ステップS804の処理は、例えば、話速制御部170の伸長制御部173が行う。伸長制御部173は、既知の算出方法に従って、ピッチの時間変化率を算出する。
Next, the speech
次に、話速制御部170は、実績伸長率が目標伸長率よりも小さいか否かを判定する(ステップS805)。ステップS805の判定処理は、例えば、話速制御部170の伸長制御部173が行う。伸長制御部173は、記憶部190の目標伸長率192を参照して現在の実績伸長率が目標伸長率192よりも小さいか否かを判定する。
Next, the speech
実績伸長率が目標伸長率よりも小さい場合(ステップS805;YES)、話速制御部170は、音声データの処理対象区間に基本周期の音声波形を重ね合わせる(ステップS806)。ステップS806の処理は、話速制御部170の波形処理部172が行う。波形処理部172は、既知の方法に従って、音声データの処理対象区間に基本周期の音声波形を重ね合わせる。
When the actual expansion rate is smaller than the target expansion rate (step S805; YES), the speech
ステップS806の処理の後、話速制御部170は、実績伸長率を更新し(ステップS807)、ステップS803以降の処理を行う。ステップS807の処理は、例えば、伸長制御部173が行う。伸長制御部173は、例えば、下記式(9)により、実績伸長率rate_result(n)を算出する。
After the process of step S806, the speech
式(9)のs及びnは、それぞれ、処理対象区間の開始フレーム及び現フレームである。式(9)のMは1フレームのサンプル数であり、例えば、M=160とする。式(9)のadd(i)は、i番目のフレーム処理で追加したサンプル数である。 In Equation (9), s and n are the start frame and the current frame of the processing target section, respectively. M in Equation (9) is the number of samples in one frame, and for example, M = 160. In the equation (9), add (i) is the number of samples added in the i-th frame processing.
一方、ステップS805の判定処理において、実績伸長率が目標伸長率以上であった場合(ステップS805;NO)、話速制御部170は、音声データにおける処理対象区間を出力して、処理対象区間に対する話速を制御する処理を終了する。話速制御部170は、1個の処理対象区間に対する処理を終えると、次の処理対象区間に対するステップS801以降の処理を行う。
On the other hand, in the determination process of step S805, when the actual expansion rate is equal to or higher than the target expansion rate (step S805; NO), the speech
なお、図18のフローチャートでは実績伸長率が目標伸長率以上になるまで処理を繰り返しているが、話速を制御する処理は、これに限らず、例えば、ステップS803以降のループ処理を行う回数に上限値を設けてもよい。すなわち、話速を制御する処理は、ステップS803以降のループ処理を所定回数行った場合には、実績伸長率が目標伸長率よりも小さくても処理を終了するようにしてもよい。これにより、例えば、処理が長くなり音声データの遅延等による通話品質の劣化を防止することが可能となる。 In the flowchart of FIG. 18, the process is repeated until the actual expansion rate becomes equal to or higher than the target expansion rate. However, the process for controlling the speech speed is not limited to this. An upper limit value may be provided. That is, the processing for controlling the speech speed may be terminated even when the actual expansion rate is smaller than the target expansion rate when the loop processing after step S803 is performed a predetermined number of times. Thereby, for example, the processing becomes longer, and it becomes possible to prevent the deterioration of the call quality due to the delay of the voice data.
図19は、基本周期の検出方法を説明する図である。
ステップS803の基本周期を検出する処理では、上記のように、処理対象区間の音声波形についての自己相関に基づいて基本周期を検出する。音声波形についての自己相関は、例えば、図19に示した曲線511のように、シフト量が0から大きくなるにつれて徐々に減少してあるシフト量で極小値となった後、シフト量Smで極大となる。本実施形態に係る話速制御部170の基本周期検出部171は、シフト量が0よりも大きい区間において自己相関が初めて極大Pとなるシフト量Smと対応する周期を、基本周期として検出する(算出する)。
FIG. 19 is a diagram for explaining a basic period detection method.
In the process of detecting the basic period in step S803, the basic period is detected based on the autocorrelation of the speech waveform in the processing target section as described above. The autocorrelation for the speech waveform, for example, as shown by a
図20は、音声波形を重ね合わせる方法を説明する図である。図21は、音声波形を重ねる際の重み付けの方法を説明する図である。 FIG. 20 is a diagram for explaining a method of superimposing speech waveforms. FIG. 21 is a diagram for explaining a weighting method used when superimposing speech waveforms.
ステップS806の音声波形を重ね合わせる処理では、上記のように、音声データの処理対象区間における基本周期Kの音声波形を重ね合わせる。例えば、図20に示すように処理対象区間の波形x(t)が基本周期Kの音声波形521,522,523を含む波形であるとする。この波形x(t)に基本周期Kの音声波形を重ね合わせる場合、話速制御部170は、音声波形522を抽出し、波形x(t)における音声波形522と、音声波形523との間に音声波形522を挿入した波形y(t)を生成する。これにより、処理対象区間の時間長が基本周期Kだけ長くなり、処理対象区間を含む発話区間の時間長が基本周期Kだけ長くなる。したがって、発話区間に含まれる母音数(モーラ数)を発話区間の時間長で除した値(話速)が小さくなる。
In the process of superimposing the speech waveforms in step S806, the speech waveform of the basic period K in the process target section of the speech data is superimposed as described above. For example, it is assumed that the waveform x (t) in the processing target section is a waveform including
また、音声波形を重ねる際には、サンプルの不連続による音質劣化を防ぐために、重み付け加算を行うことが好ましい。 In addition, when superimposing speech waveforms, it is preferable to perform weighted addition in order to prevent deterioration in sound quality due to discontinuity of samples.
例えば、図21の(a)の波形x(t)における基本周期Kの音声波形522を重ね合わせる際には、音声波形522の後方に音声波形523の一部を含む第1の範囲531と、音声波形522の前方に音声波形521の一部を含む第2の範囲532とを設定する。そして、第2の範囲532を基本周期Kだけ正の時間方向にシフトさせて第1の範囲531と第2の範囲532とを結合することで、音声データの波形を伸長させる。
For example, when superimposing the
第1の範囲531と、基本周期Kだけシフトさせた第2の範囲532とを結合する際には、第1の範囲531における末尾の部分と、第2の範囲532における先頭の部分とが重複する。第1の範囲531と第2の範囲532とが重複する部分は、第1の範囲531における波形(振幅)と、第2の範囲532における波形とのそれぞれに重み付けをして加算する。
When combining the
例えば、図21の(b)に示すように、第1の範囲531に対する重み係数w1(t)は、第2の範囲532と重ならない時刻tからt1の区間をw1(t)=1とし、第2の範囲532と重なる時刻t1からt2の区間をw1(t)=f(t)とする。ここで、関数f(t)は、時刻t1からt2の区間においてf(t1)=1からf(t2)=0に単調減少する関数とする。
For example, as shown in FIG. 21B, the weighting factor w1 (t) for the
また、第2の範囲532に対する重み係数w2(t)は、第1の範囲531と重なる時刻t1〜t2の区間をw1(t)=g(t)とし、第1の範囲531と重ならない時刻t2以降の区間をw2(t)=1とする。ここで、関数g(t)は、時刻t1〜t2の区間においてg(t1)=0からg(t2)=1に単調増加し、かつf(t)+g(t)=1を満たす関数とする。
In addition, the weighting factor w2 (t) for the
図21の(a)に示した音声データの波形x(t)に対し、重み係数w1(t),w2(t)を用いて基本周期Kの音声波形522を重ね合わせた波形y(t)は、下記式(10)により算出する。
Waveform y (t) obtained by superimposing
y(t)=w1(t)・x(t)+w2(t)・x(t+K) ・・・(10) y (t) = w1 (t) .x (t) + w2 (t) .x (t + K) (10)
このように、基本周期Kの音声波形を重ね合わせる際の境界となる部分において波形を重み付け加算することで、母音区間を伸長した音声データの該境界部分において波形(サンプル)が不連続になり音質が劣化することを防ぐことが可能となる。 As described above, the waveform (sample) becomes discontinuous at the boundary portion of the voice data obtained by extending the vowel interval by weighting and adding the waveforms at the portion that becomes the boundary when superimposing the speech waveforms of the basic period K. Can be prevented from deteriorating.
以上のように、本実施形態の携帯電話端末25は、通話中に自装置の収音装置2から入力される入力音声データの話速を推定し、該入力音声データの話速を適正な話速に制御して通話相手の電話機に送信することが可能である。また、本実施形態の携帯電話端末25における話速調整部26では、第1の実施形態で説明した話速推定装置1と同様、話速を推定する際に、入力音声データに含まれる母音区間の時間長についての頻度分布に基づいて、各母音区間の母音数を決定する。このため、本実施形態によれば、音声データにおける話速を精度良く推定することが可能であり、容易に音声データの話速を適正な話速に制御する(減速させる)ことが可能となる。また、基本周期Kの音声波形を重ね合わせる際に、境界となる部分において波形を重み付け加算することで、母音区間を伸長した音声データにおける音質の劣化を防ぐことが可能となる。
As described above, the mobile phone terminal 25 of the present embodiment estimates the speech speed of the input voice data input from the
なお、基本周期Kの音声波形を重ね合わせる処理は、図20及び図21を参照して説明した上記の方法に限らず、他の方法に従って行ってもよい。 Note that the process of superimposing the speech waveforms of the basic period K is not limited to the method described with reference to FIGS. 20 and 21 and may be performed according to another method.
また、話速調整部26において発話区間及び母音区間を検出する際の検出方法は、既知の検出方法のいずれかであればよい。例えば、発話区間及び母音区間を検出する際には、音声データにおける自己相関係数AC(tm)、或いはフォルマント周波数の時間変化平均ΔFM(tm)に基づいて検出してもよい。
Moreover, the detection method used when the speech
更に、本実施形態に係る携帯電話端末25の話速調整部26で行う処理は、図17のフローチャートに限らず、適宜変更可能である。例えば、話速調整部26では、ステップS3〜S5の処理の代わりに、上述したステップS3’〜S5’の処理を行ってもよい。話速調整部26においてステップS3’〜S5’の処理を行う場合、モーラ数決定部140は、ステップS3’の処理を行う時間長算出部と、ステップS4’の処理を行う最小値特定部と、ステップS5’の処理を行うモーラ数決定部とを含む。
Furthermore, the processing performed by the speech
第1の実施形態及び第2の実施形態で挙げた話速推定装置1、並びに第3の実施形態で挙げた携帯電話端末25は、それぞれ、コンピュータと、該コンピュータに実行させるプログラムとにより実現可能である。以下、図22を参照して、コンピュータとプログラムとにより実現される話速推定装置1について説明する。
The speech
図22は、コンピュータのハードウェア構成を示す図である。
図22に示すように、コンピュータ8は、プロセッサ801と、主記憶装置802と、補助記憶装置803と、入力装置804と、出力装置805と、入出力インタフェース806と、通信制御装置807と、媒体駆動装置808と、を備える。コンピュータ8におけるこれらの要素801〜808は、バス810により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
FIG. 22 is a diagram illustrating a hardware configuration of a computer.
As shown in FIG. 22, the computer 8 includes a
プロセッサ801は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ801は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ8の全体の動作を制御する。プロセッサ801は、例えば、図2のステップS1〜S6の処理を含む音声処理プログラムを実行する。
The
主記憶装置802は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置802のROMには、例えば、コンピュータ8の起動時にプロセッサ801が読み出す所定の基本制御プログラム等が予め記録されている。一方、主記憶装置802のRAMは、プロセッサ801が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置802のRAMは、例えば、音声データの一部、発話区間及び母音区間を示す情報、母音区間の時間長の頻度分布、算出した話速等の保持(記憶)に利用可能である。
The
補助記憶装置803は、主記憶装置802のRAMと比べて容量の大きい記憶装置であり、例えば、Hard Disk Drive(HDD)や、フラッシュメモリのような不揮発性メモリ(Solid State Drive(SSD)を含む)等である。補助記憶装置803は、プロセッサ801によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置803は、例えば、図2のステップS1〜S6の処理を含む音声処理プログラムの記憶に利用可能である。また、補助記憶装置803は、例えば、音声データ、該音声データに含まれる発話区間及び母音区間を示す情報、母音区間の時間長の頻度分布、算出した話速等の保持(記憶)に利用可能である。
The
入力装置804は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ8のオペレータ(利用者)が入力装置804に対して所定の操作を行うと、入力装置804は、その操作内容に対応付けられている入力情報をプロセッサ801に送信する。入力装置804は、例えば、話速を推定する処理を開始させる命令の入力や、各種設定値の入力等に利用可能である。
The
出力装置805は、例えば、液晶表示装置等の表示装置やプリンタ等の印刷装置である。出力装置805は、図2のステップS6で算出した発話区間の話速の出力に利用可能である。
The
入出力インタフェース806は、コンピュータ8と、他の電子機器とを接続する。入出力インタフェース806は、例えば、フォーンジャックや、Universal Serial Bus(USB)規格のコネクタ等を備える。入出力インタフェース806は、例えば、コンピュータ8と、収音装置2との接続に利用可能である。
The input /
通信制御装置807は、コンピュータ8をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ8と他の通信機器との各種通信を制御する装置である。通信制御装置807は、例えば、コンピュータ8と、電話機16等との間での音声データの送受信に利用可能である。
The
媒体駆動装置808は、可搬型記憶媒体890に記録されているプログラムやデータの読み出し、補助記憶装置803に記憶されたデータ等の可搬型記憶媒体890への書き込みを行う。媒体駆動装置808には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置808としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体890としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体890としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ8が媒体駆動装置808として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体890として利用可能である。可搬型記録媒体890として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体890は、例えば、図2のステップS1〜S6の処理を含む音声処理プログラムの記憶に利用可能である。また、可搬型記録媒体890は、例えば、音声データ、該音声データに含まれる発話区間及び母音区間を示す情報、母音区間の時間長の頻度分布、算出した話速等の保持(記憶)に利用可能である。
The
例えば、オペレータが入力装置804等を利用して話速を推定する処理を開始する命令をコンピュータ8に入力すると、プロセッサ801が、補助記憶装置803等の非一時的な記録媒体に記憶させた音声処理プログラムを読み出して実行する。音声処理プログラムが図2のステップS1〜S7の処理を含むプログラムである場合、コンピュータ8は、入力音声データから話速を算出し、算出した話速を表示装置等の出力装置805に出力する処理を繰り返す。音声処理プログラムを実行している間、プロセッサ801は、話速推定装置1における音声取得部110、発話区間検出部120、母音区間検出部130、モーラ数決定部140、話速算出部150、及び出力部160として機能する(動作する)。また、プロセッサ801が音声処理プログラムを実行している間、主記憶装置802のRAMや補助記憶装置803等は、話速推定装置1の図示してない記憶部として機能する。すなわち、主記憶装置802のRAMや補助記憶装置803等は、音声データ、該音声データに含まれる発話区間及び母音区間を示す情報、母音区間の時間長の頻度分布、算出した話速等を記憶する記憶部として機能する。
For example, when the operator inputs a command to start processing for estimating speech speed using the
なお、話速推定装置1として動作させるコンピュータ8は、図22に示した全ての要素801〜808を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ8は、通信制御装置807や媒体駆動装置808が省略されたものであってもよい。
Note that the computer 8 operated as the speech
また、コンピュータ8に実行させる音声処理プログラムは、図17のフローチャートのように、算出した話速に基づいて音声データの話速を制御し、話速を制御した音声データを出力する処理を含むプログラムであってもよい。 The voice processing program to be executed by the computer 8 includes a process of controlling the voice speed of the voice data based on the calculated voice speed and outputting the voice data with the voice speed controlled as shown in the flowchart of FIG. It may be.
更に、コンピュータ8は、携帯電話端末25等の電話機として動作させることも可能である。コンピュータ8を電話機として動作させる、例えば、コンピュータ8に、各実施形態で説明した処理を行う音声処理プログラムと並行して、コンピュータ8と、他の電話機との間で音声データを送受信する通話処理プログラムを実行させる。この場合、コンピュータ8に実行させるプログラムは、ステップS1〜S6の処理により算出した(推定した)話速に基づいて、音声データの話速を制御する処理を行うプログラムであってもよい。 Further, the computer 8 can be operated as a telephone such as the mobile phone terminal 25. For example, a call processing program for transmitting and receiving voice data between the computer 8 and another telephone in parallel with the voice processing program for causing the computer 8 to perform the processing described in each embodiment. Is executed. In this case, the program to be executed by the computer 8 may be a program that performs processing for controlling the speech speed of the voice data based on the speech speed calculated (estimated) by the processing in steps S1 to S6.
加えて、コンピュータ8に実行させる音声処理プログラムは、図2及び図17のフローチャートにおけるステップS3〜S5の処理が、上述したステップS3’〜S5’の処理に置換されたプログラムであってもよい。 In addition, the voice processing program to be executed by the computer 8 may be a program in which the processes in steps S3 to S5 in the flowcharts of FIGS. 2 and 17 are replaced with the processes in steps S3 'to S5' described above.
以上記載した各実施形態に関し、更に以下の付記を開示する。
(付記1)
入力音声データにおける発話区間に含まれる複数の母音区間を検出し、
検出した前記複数の母音区間それぞれの時間長を算出し、
前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、
特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を算出し、
算出した前記モーラ数に応じて前記入力音声データにおける前記発話区間と対応する出力信号を制御する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(付記2)
前記時間長の最小値を特定する処理では、
前記頻度分布において頻度がピークとなる複数の時間長のうちの最小値を特定する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記3)
前記時間長の最小値を特定する処理では、
前記頻度分布において頻度がピークとなる複数の時間長を特定し、
前記複数の時間長に基づいて、前記頻度分布において隣接する前記ピーク間の時間長を算出し、
算出した前記ピーク間の時間長の平均値を前記時間長の最小値に特定する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記4)
前記頻度分布を算出する処理では、
前記発話区間に含まれる全ての母音区間のうちの、該発話区間における末尾の母音区間を除外して前記頻度分布を算出する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記5)
前記頻度分布を算出する処理では、
前記発話区間に含まれる全ての母音区間のうちの、時間長が所定の範囲内である母音区間を抽出して前記頻度分布を算出する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記6)
前記モーラ数を算出する処理では、
前記母音区間の時間長を前記時間長の最小値で除した値に最も近い整数値を、該母音区間のモーラ数とする、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記7)
前記母音区間を検出する処理では、
前記入力音声データにおける信号対雑音比を算出し、
算出した前記信号対雑音比が閾値以上で連続する区間を前記母音区間として検出する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記8)
前記母音区間を検出する処理では、
前記入力音声データにおける波形自己相関を算出し、
算出した前記波形自己相関が閾値以上で連続する区間を前記母音区間として検出する、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記9)
前記母音区間を検出する処理では、
前記入力音声データにおけるフォルマント周波数を算出し、
算出した前記フォルマント周波数の時間変化量が閾値以上となる時刻を前記母音区間と非母音区間との境界として検出する、処理を含む、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記10)
前記出力信号を制御する処理は、
算出した前記複数の母音区間それぞれのモーラ数と、前記入力音声データにおける前記発話区間の時間長とに基づいて、前記入力音声データにおける前記発話区間の話速を算出する、処理を含む、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記11)
前記出力信号を制御する処理は、
算出した前記話速が閾値以上である場合に、前記入力音声データにおける前記母音区間を伸長して話速を低下させる、処理を更に含む、
ことを特徴とする付記9に記載の音声処理プログラム。
(付記12)
コンピュータが、
入力音声データにおける発話区間に含まれる複数の母音区間を検出し、
検出した前記複数の母音区間それぞれの時間長を算出し、
前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、
特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を算出し、
算出した前記モーラ数に応じて前記入力音声データにおける前記発話区間と対応する出力信号を制御する、
処理を実行することを特徴とする音声処理方法。
(付記13)
入力音声データにおける発話区間に含まれる複数の母音区間を検出する母音区間検出部と、
検出した前記複数の母音区間それぞれの時間長を算出して前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を決定するモーラ数決定部と、
決定した前記モーラ数と、前記発話区間の時間長とに基づいて前記入力音声データにおける前記発話区間の話速を算出する話速算出部と、
を備えることを特徴とする音声処理装置。
The following additional notes are disclosed for each of the embodiments described above.
(Appendix 1)
Detect a plurality of vowel sections included in the utterance section in the input voice data,
Calculating a time length of each of the detected vowel intervals;
Calculating a frequency distribution for the time lengths of the plurality of vowel intervals, and specifying a minimum value of the time lengths of the plurality of vowel intervals,
Based on the identified minimum value of the time length and the frequency distribution, calculate the number of mora corresponding to the time length of each of the plurality of vowel intervals,
Controlling an output signal corresponding to the utterance interval in the input voice data according to the calculated number of mora;
A voice processing program for causing a computer to execute processing.
(Appendix 2)
In the process of specifying the minimum value of the time length,
In the frequency distribution, specify a minimum value among a plurality of time lengths at which the frequency peaks.
The speech processing program according to
(Appendix 3)
In the process of specifying the minimum value of the time length,
Identify a plurality of time lengths in which the frequency peaks in the frequency distribution;
Based on the plurality of time lengths, calculating a time length between the adjacent peaks in the frequency distribution,
The average value of the time length between the calculated peaks is specified as the minimum value of the time length.
The speech processing program according to
(Appendix 4)
In the process of calculating the frequency distribution,
Of all the vowel sections included in the utterance section, calculate the frequency distribution by excluding the last vowel section in the utterance section.
The speech processing program according to
(Appendix 5)
In the process of calculating the frequency distribution,
Of all the vowel sections included in the utterance section, the vowel section whose time length is within a predetermined range is extracted to calculate the frequency distribution.
The speech processing program according to
(Appendix 6)
In the process of calculating the number of mora,
An integer value closest to a value obtained by dividing the time length of the vowel section by the minimum value of the time length is set as the number of mora of the vowel section.
The speech processing program according to
(Appendix 7)
In the process of detecting the vowel section,
Calculating a signal-to-noise ratio in the input voice data;
Detecting a section in which the calculated signal-to-noise ratio is continuous at a threshold value or more as the vowel section,
The speech processing program according to
(Appendix 8)
In the process of detecting the vowel section,
Calculating a waveform autocorrelation in the input voice data;
Detecting the section in which the calculated waveform autocorrelation is equal to or greater than a threshold as the vowel section,
The speech processing program according to
(Appendix 9)
In the process of detecting the vowel section,
Calculate the formant frequency in the input voice data,
Including a process of detecting a time at which the calculated time change amount of the formant frequency is equal to or greater than a threshold as a boundary between the vowel section and the non-vowel section.
The speech processing program according to
(Appendix 10)
The process of controlling the output signal includes:
Calculating the speech speed of the utterance section in the input speech data based on the calculated number of mora for each of the plurality of vowel sections and the time length of the utterance section in the input speech data.
The speech processing program according to
(Appendix 11)
The process of controlling the output signal includes:
When the calculated speech speed is equal to or higher than a threshold value, further includes a process of extending the vowel section in the input speech data to reduce the speech speed.
The speech processing program according to
(Appendix 12)
Computer
Detect a plurality of vowel sections included in the utterance section in the input voice data,
Calculating a time length of each of the detected vowel intervals;
Calculating a frequency distribution for the time lengths of the plurality of vowel intervals, and specifying a minimum value of the time lengths of the plurality of vowel intervals,
Based on the identified minimum value of the time length and the frequency distribution, calculate the number of mora corresponding to the time length of each of the plurality of vowel intervals,
Controlling an output signal corresponding to the utterance interval in the input voice data according to the calculated number of mora;
A voice processing method characterized by executing processing.
(Appendix 13)
A vowel section detection unit for detecting a plurality of vowel sections included in the utterance section in the input voice data;
Calculating a time length of each of the plurality of detected vowel intervals and calculating a frequency distribution of the time lengths of the plurality of vowel intervals; Based on the specified minimum value of the time length and the frequency distribution, the number of mora determining unit that determines the number of mora corresponding to the time length of each of the plurality of vowel sections,
A speech speed calculation unit that calculates the speech speed of the utterance section in the input speech data based on the determined number of mora and the time length of the utterance section;
An audio processing apparatus comprising:
1 話速推定装置
2,1620 収音装置
3 表示装置
8 コンピュータ
9A,9B 話者
10 通話システム
11 通話処理装置
12 情報処理装置
13,1630 レシーバ
14A,14B 交換機
15 ネットワーク
16 電話機
21,1610 通話処理部
25 携帯電話端末
26 話速調整部
30 基地局
110 音声取得部
120 発話区間検出部
130 母音区間検出部
140 モーラ数決定部
141 頻度分布算出部
142 ピーク検出部
143 モーラ数算出部
150 話速算出部
160,162 出力部
170 話速制御部
171 基本周期検出部
172 波形処理部
173 伸長制御部
190 記憶部
191 音声データ
192 目標伸長率
DESCRIPTION OF
Claims (9)
検出した前記複数の母音区間それぞれの時間長を算出し、
前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、
特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を算出し、
算出した前記モーラ数に応じて前記入力音声データにおける前記発話区間と対応する出力信号を制御する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 Detect a plurality of vowel sections included in the utterance section in the input voice data,
Calculating a time length of each of the detected vowel intervals;
Calculating a frequency distribution for the time lengths of the plurality of vowel intervals, and specifying a minimum value of the time lengths of the plurality of vowel intervals,
Based on the identified minimum value of the time length and the frequency distribution, calculate the number of mora corresponding to the time length of each of the plurality of vowel intervals,
Controlling an output signal corresponding to the utterance interval in the input voice data according to the calculated number of mora;
A voice processing program for causing a computer to execute processing.
前記頻度分布において頻度がピークとなる複数の時間長のうちの最小値を特定する、
ことを特徴とする請求項1に記載の音声処理プログラム。 In the process of specifying the minimum value of the time length,
In the frequency distribution, specify a minimum value among a plurality of time lengths at which the frequency peaks.
The voice processing program according to claim 1.
前記頻度分布において頻度がピークとなる複数の時間長を特定し、
前記複数の時間長に基づいて、前記頻度分布において隣接する前記ピーク間の時間長を算出し、
算出した前記ピーク間の時間長の平均値を前記時間長の最小値に特定する、
ことを特徴とする請求項1に記載の音声処理プログラム。 In the process of specifying the minimum value of the time length,
Identify a plurality of time lengths in which the frequency peaks in the frequency distribution;
Based on the plurality of time lengths, calculating a time length between the adjacent peaks in the frequency distribution,
The average value of the time length between the calculated peaks is specified as the minimum value of the time length.
The voice processing program according to claim 1.
前記発話区間に含まれる全ての母音区間のうちの、該発話区間における末尾の母音区間を除外して前記頻度分布を算出する、
ことを特徴とする請求項1に記載の音声処理プログラム。 In the process of calculating the frequency distribution,
Of all the vowel sections included in the utterance section, calculate the frequency distribution by excluding the last vowel section in the utterance section.
The voice processing program according to claim 1.
前記母音区間の時間長を前記時間長の最小値で除した値に最も近い整数値を、該母音区間のモーラ数とする、
ことを特徴とする請求項1に記載の音声処理プログラム。 In the process of calculating the number of mora,
An integer value closest to a value obtained by dividing the time length of the vowel section by the minimum value of the time length is set as the number of mora of the vowel section.
The voice processing program according to claim 1.
決定した前記複数の母音区間それぞれのモーラ数と、前記入力音声データにおける前記発話区間の時間長とに基づいて、前記入力音声データにおける前記発話区間の話速を算出する処理を含む、
ことを特徴とする請求項1に記載の音声処理プログラム。 The process of controlling the output signal includes:
Including calculating a speech speed of the utterance section in the input speech data based on the determined number of mora of each of the plurality of vowel sections and a time length of the utterance section in the input speech data.
The voice processing program according to claim 1.
算出した前記話速が閾値以上である場合に、前記入力音声データにおける前記母音区間を伸長して話速を低下させる処理を更に含む、
ことを特徴とする請求項6に記載の音声処理プログラム。 The process of controlling the output signal includes:
When the calculated speech speed is equal to or higher than a threshold, further includes a process of extending the vowel section in the input speech data to reduce the speech speed.
The voice processing program according to claim 6.
入力音声データにおける発話区間に含まれる複数の母音区間を検出し、
検出した前記複数の母音区間それぞれの時間長を算出し、
前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、
特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を算出し、
算出した前記モーラ数に応じて前記入力音声データにおける前記発話区間と対応する出力信号を制御する、
処理を実行することを特徴とする音声処理方法。 Computer
Detect a plurality of vowel sections included in the utterance section in the input voice data,
Calculating a time length of each of the detected vowel intervals;
Calculating a frequency distribution for the time lengths of the plurality of vowel intervals, and specifying a minimum value of the time lengths of the plurality of vowel intervals,
Based on the identified minimum value of the time length and the frequency distribution, calculate the number of mora corresponding to the time length of each of the plurality of vowel intervals,
Controlling an output signal corresponding to the utterance interval in the input voice data according to the calculated number of mora;
A voice processing method characterized by executing processing.
検出した前記複数の母音区間それぞれの時間長を算出して前記複数の母音区間の時間長についての頻度分布を算出するとともに、前記複数の母音区間それぞれの時間長のうちの最小値を特定し、特定した前記時間長の最小値と、前記頻度分布とに基づいて、前記複数の母音区間それぞれの時間長と対応するモーラ数を決定するモーラ数決定部と、
決定した前記モーラ数と、前記発話区間の時間長とに基づいて前記入力音声データにおける前記発話区間の話速を算出する話速算出部と、
を備えることを特徴とする音声処理装置。 A vowel section detection unit for detecting a plurality of vowel sections included in the utterance section in the input voice data;
Calculating a time length of each of the plurality of detected vowel intervals to calculate a frequency distribution for the time length of the plurality of vowel intervals, and specifying a minimum value of the time length of each of the plurality of vowel intervals; Based on the specified minimum value of the time length and the frequency distribution, the number of mora determining unit that determines the number of mora corresponding to the time length of each of the plurality of vowel sections,
A speech speed calculation unit that calculates the speech speed of the utterance section in the input speech data based on the determined number of mora and the time length of the utterance section;
An audio processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017005278A JP6790851B2 (en) | 2017-01-16 | 2017-01-16 | Speech processing program, speech processing method, and speech processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017005278A JP6790851B2 (en) | 2017-01-16 | 2017-01-16 | Speech processing program, speech processing method, and speech processor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018116096A true JP2018116096A (en) | 2018-07-26 |
JP6790851B2 JP6790851B2 (en) | 2020-11-25 |
Family
ID=62984112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017005278A Active JP6790851B2 (en) | 2017-01-16 | 2017-01-16 | Speech processing program, speech processing method, and speech processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6790851B2 (en) |
-
2017
- 2017-01-16 JP JP2017005278A patent/JP6790851B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6790851B2 (en) | 2020-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110299153B (en) | Sound zone detection device, sound zone detection method, and recording medium | |
US8874440B2 (en) | Apparatus and method for detecting speech | |
JP4587160B2 (en) | Signal processing apparatus and method | |
JP5331784B2 (en) | Speech end pointer | |
JP3180655B2 (en) | Word speech recognition method by pattern matching and apparatus for implementing the method | |
JP4085130B2 (en) | Emotion recognition device | |
US7613611B2 (en) | Method and apparatus for vocal-cord signal recognition | |
JP6263868B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
US20080082320A1 (en) | Apparatus, method and computer program product for advanced voice conversion | |
EP3210205A1 (en) | Sound sample verification for generating sound detection model | |
JP2018040982A (en) | Speech production interval detection device, speech production interval detection method, and computer program for speech production interval detection | |
JP2015068897A (en) | Evaluation method and device for utterance and computer program for evaluating utterance | |
CN105825869B (en) | Speech processing apparatus and speech processing method | |
JP6098149B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP2009251199A (en) | Speech synthesis device, method and program | |
CN114596870A (en) | Real-time audio processing method and device, computer storage medium and electronic equipment | |
KR20080049813A (en) | Speech dialog method and device | |
JP6790851B2 (en) | Speech processing program, speech processing method, and speech processor | |
JP6747236B2 (en) | Acoustic analysis method and acoustic analysis device | |
JP2014106247A (en) | Signal processing device, signal processing method, and signal processing program | |
JP7222265B2 (en) | VOICE SECTION DETECTION DEVICE, VOICE SECTION DETECTION METHOD AND PROGRAM | |
JP4313724B2 (en) | Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same | |
US9251782B2 (en) | System and method for concatenate speech samples within an optimal crossing point | |
JP7113719B2 (en) | Speech end timing prediction device and program | |
JP6784137B2 (en) | Acoustic analysis method and acoustic analyzer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200630 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200826 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20200826 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20200826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6790851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |