JP2010212783A - Speaking speed conversion device - Google Patents

Speaking speed conversion device Download PDF

Info

Publication number
JP2010212783A
JP2010212783A JP2009053903A JP2009053903A JP2010212783A JP 2010212783 A JP2010212783 A JP 2010212783A JP 2009053903 A JP2009053903 A JP 2009053903A JP 2009053903 A JP2009053903 A JP 2009053903A JP 2010212783 A JP2010212783 A JP 2010212783A
Authority
JP
Japan
Prior art keywords
speech
parameter
term
activity
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009053903A
Other languages
Japanese (ja)
Other versions
JP5169918B2 (en
Inventor
Kimio Miseki
公生 三関
Chikashi Sugiura
千加志 杉浦
Takashi Sudo
隆 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009053903A priority Critical patent/JP5169918B2/en
Publication of JP2010212783A publication Critical patent/JP2010212783A/en
Application granted granted Critical
Publication of JP5169918B2 publication Critical patent/JP5169918B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speaking speed conversion device that suitably performs speaking speed conversion of a received speech even when a conversation is too short to measure the speaking speed of a transmission-side user or even when a transmitted speech instantaneously changes in speaking speed. <P>SOLUTION: Conversion processing for making the speaking speed of the received speech slow is performed using a parameter representing a stable basic speaking speed that the user originally has and a parameter representing the speaking speed of the received speech. Further, it is estimated whether the user is speaking in a hurry in the current telephone call using the parameter representing the stable basic speaking speed that the user originally has, and when the user is not in a hurry, conversion processing for making the speaking speed of the received speech slow is carried out. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は音声通話機能を有する情報端末等において、音声の話速を変換する話速変換装置に関する。   The present invention relates to a speech speed conversion device that converts a speech speed of an information terminal or the like having a voice call function.

音声通話機能を有する情報端末等において、音声の話速を変換する従来法として、受話音声の会話話速と、送話音声の会話速度とをそれぞれ測定し、互いの各会話速度の差が、一定値以上となった場合に、受話音声と送話音声との会話速度の差を縮めるよう受話音声の出力速度を調整する方法がある(例えば、特許文献1参照)。この方法では、受話音声と送話音声の会話速度は、音声認識を行なった結果を用いて算出する。   As a conventional method of converting the speech speed of an information terminal or the like having a voice call function, the conversation speech speed of the received voice and the conversation speed of the transmitted voice are each measured, and the difference between the respective conversation speeds is There is a method of adjusting the output speed of the received voice so as to reduce the difference in the conversation speed between the received voice and the transmitted voice when the value exceeds a certain value (see, for example, Patent Document 1). In this method, the conversation speed between the received voice and the transmitted voice is calculated using the result of voice recognition.

特開2008−311754号公報JP 2008-31754 A

特許文献1に記載される発明では、通話中に送話音声の会話速度を測定する。しかしながら、短い発話を測定しても話速に信頼性がなく、信頼性を上げるためには送話側のユーザがある程度まとまった発話量を話さなければならないという課題がある。例えば、着信を受けたユーザは、通話開始直後にまとまった発話量を話すことが稀であり、通話開始後しばらく経ってからまとまった発話量を話す場合が多いと考えられる。そのため、通話開始後、着信を受けたユーザがまとまった発話量を話すようになるまで、信頼性のある話速を測定することができない。   In the invention described in Patent Document 1, the conversation speed of the transmitted voice is measured during a call. However, there is a problem that even if a short utterance is measured, the speaking speed is not reliable, and in order to increase the reliability, the user on the transmitting side must speak a certain amount of utterances. For example, a user who has received an incoming call rarely speaks the amount of utterance immediately after the start of the call, and it is often considered that the user speaks the amount of utterance after a while after the start of the call. For this reason, it is impossible to measure the reliable speech speed until the user who has received the incoming call speaks a collective amount of speech after the call starts.

また、瞬時的な送話音声の話速の変化に影響されるため、受話音声の話速変換が過剰に変動するように行なわれて聞き取りにくくなるという課題がある。   Moreover, since it is influenced by the instantaneous change in the speech speed of the transmitted voice, there is a problem that the speech speed conversion of the received voice is performed so as to fluctuate excessively and becomes difficult to hear.

そこで本発明は、送話側のユーザがまとまった発話量を話さないような通話であっても、ユーザの本来の感覚に基づいて受話の話速が制御され、安定した話速変換を行なうことができ、瞬時的なユーザの発話の活性度や送話音声の話速の変化に影響されて受話音声の話速変換が過剰に変動するように行なわれることによって聞き取りにくくなる悪影響を回避することができる話速変換装置を提供することを目的とする。   Therefore, the present invention is capable of performing stable speech speed conversion by controlling the speech speed of the received speech based on the user's original sense even in a case where the user on the transmitting side does not speak the total speech volume. To avoid adverse effects that are difficult to hear due to excessive fluctuations in the speech speed conversion of the received voice due to the instantaneous user's utterance activity and changes in the speech speed of the transmitted voice. An object of the present invention is to provide a speech speed conversion device capable of

上記目的を達成するために、本発明による話速変換装置は、話速変換手段と、受話音声の活性度に係るパラメータを得る受話活性度パラメータ取得手段と、送話音声の活性度に係るパラメータを得る送話活性度パラメータ取得手段と、送話音声の長期活性度に係るパラメータを得る長期送話活性度パラメータ取得手段と、前記受話活性度パラメータと前記長期送話活性度パラメータの評価にもとづいて前記話速変換の実施に関する選択をし、前記選択結果をもとに前記受話音声信号に対して前記話速変換手段による話速変換を行なう手段と、前期送話活性度パラメータをもとに長期送話活性度パラメータを更新するパラメータ更新手段と、を有することを特徴としている。   In order to achieve the above object, a speech speed conversion apparatus according to the present invention includes a speech speed conversion means, a reception activity parameter acquisition means for obtaining a parameter related to the activity level of the received voice, and a parameter related to the activity level of the transmitted voice. Based on the evaluation of the reception activity parameter and the long-term transmission activity parameter, the long-term transmission activity parameter acquisition unit for obtaining the parameter related to the long-term activity of the transmitted voice, A means for performing speech speed conversion on the basis of the selection result, and means for performing speech speed conversion by the speech speed conversion means on the received voice signal based on the selection result, And a parameter updating means for updating the long-term transmission activity parameter.

本発明によれば、送話側のユーザがまとまった発話量を話さないような通話であっても、ユーザの本来の感覚に基づいて受話の話速が制御され、安定した話速変換を行なうことができ、瞬時的なユーザの発話の活性度や送話音声の話速の変化に影響されて受話音声の話速変換が過剰に変動するように行なわれることによって聞き取りにくくなる悪影響を回避することができる話速変換装置を提供することができる。   According to the present invention, even if the user on the transmitting side does not speak the total amount of speech, the speech speed of the incoming call is controlled based on the user's original sense, and stable speech speed conversion is performed. It is possible to avoid the adverse effect of making it difficult to hear by changing the speech speed of the received voice due to excessive fluctuations due to the instantaneous user's utterance activity and the change in the voice speed of the transmitted voice. It is possible to provide a speech speed conversion device that can

本発明の実施形態に係る話速変換装置の構成を示すブロック図。The block diagram which shows the structure of the speech-speed converter which concerns on embodiment of this invention. 本発明の実施形態に係る話速変換装置の動作を示すフローチャート。The flowchart which shows operation | movement of the speech-speed conversion apparatus which concerns on embodiment of this invention. 長期パラメータと短期パラメータを用いたユーザの急ぎ状態の推定を利用した話速変換方法を示すフローチャート。The flowchart which shows the speech speed conversion method using estimation of the user's rush state using a long-term parameter and a short-term parameter. 本発明の実施形態に係る話速変換装置が長期パラメータと短期パラメータを用いたユーザの急ぎ状態の推定を利用して動作する場合の処理を示すフローチャート。The flowchart which shows a process in case the speech-speed converter which concerns on embodiment of this invention operate | moves using the estimation of a user's rush state using a long-term parameter and a short-term parameter.

以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明の実施形態に係る話速変換装置の構成を示すブロック図である。図1において、話速変換装置10は、通話機能を持つ端末装置、例えば、携帯電話において、通話での話速変換に使用される例について示している。図1の話速変換装置10は、送話側活性度推定部120、受話側活性度推定部230、話速変換選択部270、話速変換部280を備えて構成されている。通話において、送話側から入力された音声信号は、送話音声信号100として話速変換装置10に入力され、符号化部110と送話側活性度推定部120に入力される。符号化部110は、送話音声信号100を入力して音声符号化を行い、符号化された音声データを通話相手の端末に通信機能(図示しない)を用いて送信する。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a speech speed conversion apparatus according to an embodiment of the present invention. In FIG. 1, a speech speed conversion device 10 is shown as an example used for speech speed conversion in a call in a terminal device having a call function, for example, a mobile phone. The speech speed conversion apparatus 10 of FIG. 1 includes a transmission side activity estimation unit 120, a reception side activity estimation unit 230, a speech speed conversion selection unit 270, and a speech speed conversion unit 280. In a call, a voice signal input from the transmission side is input to the speech speed conversion apparatus 10 as a transmission voice signal 100 and input to the encoding unit 110 and the transmission side activity level estimation unit 120. The encoding unit 110 receives the transmission voice signal 100 and performs voice encoding, and transmits the encoded voice data to the terminal of the other party using a communication function (not shown).

一方、復号化部210は通信機能を用いて通話相手から受信した符号化音声データを復号化して受話音声信号200を生成する。この受話音声信号200は、話速変換部280の話速変換機能を介して受話出力音声信号290として出力される。   On the other hand, the decoding unit 210 generates the received voice signal 200 by decoding the encoded voice data received from the other party using the communication function. This reception voice signal 200 is output as a reception output voice signal 290 via the speech speed conversion function of the speech speed conversion unit 280.

まず、送話側について説明する。図1において、符号化部110および送話側活性度推定部120は、送話音声信号100が入力される。符号化部110は、送話音声信号100を入力として音声符号化を行い、符号化された音声データを通話相手の端末に送信する。   First, the transmission side will be described. In FIG. 1, a transmission voice signal 100 is input to an encoding unit 110 and a transmission side activity estimation unit 120. Encoding section 110 performs voice encoding with transmission voice signal 100 as an input, and transmits the encoded voice data to the other party's terminal.

送話側活性度推定部120は、通話が始まってから入力された送話音声信号100の通話内における発話に関連する短期的な活性度に係わるパラメータと、後述するユーザ状態を取得し、後述する話速変換の選択に用いる。ここでは、送話側活性度推定部120が、送話活性度取得部130、長期活性度更新部140、長期活性度取得部150、ユーザ状態推定部160、から構成される例について説明する。   The transmitting side activity estimation unit 120 acquires parameters related to short-term activity related to utterances in the call of the transmitted voice signal 100 input after the call starts, and a user state to be described later. Used to select speech speed conversion. Here, an example in which the transmission side activity estimation unit 120 includes a transmission activity acquisition unit 130, a long-term activity update unit 140, a long-term activity acquisition unit 150, and a user state estimation unit 160 will be described.

送話活性度取得部130は、入力した送話音声信号100を分析することにより、送話活性度に関連するパラメータを取得し、これを話速変換選択部270および長期活性度更新部140に出力する。送話活性度に関連するパラメータとして、ここでは、音声のスペクトルの概形を現すパラメータ情報(P)を用いる。音声のスペクトルの概形を現すパラメータ情報Pの典型例としては、LSF(Line Spectral Frequency)パラメータを用いるこ
とができるが、他にも、LSPパラメータ、ISFパラメータなど、パラメータの時間方向の補間特性がよいパラメータであれば、使用することが可能である。
The transmission activity level acquisition unit 130 analyzes the input transmission voice signal 100 to acquire parameters related to the transmission activity level, and sends them to the speech rate conversion selection unit 270 and the long-term activity level update unit 140. Output. Here, parameter information (P) representing the outline of the speech spectrum is used as a parameter related to the transmission activity. As a typical example of parameter information P that represents the outline of the speech spectrum, LSF (Line Spectral Frequency) parameters can be used, but there are other interpolation characteristics in the time direction of parameters such as LSP parameters and ISF parameters. Any good parameter can be used.

送話活性度取得部130は、この送話活性度に関連するパラメータを用いて、パラメータ毎に加重付けたパラメータの時間変動量を得る。パラメータ毎に加重付けたパラメータの時間変動量をここでは活性度パラメータAと名づける。活性度パラメータAを得るための方法の一例について説明する。

Figure 2010212783

ここで、Pi(m)は、第mフレームにおけるi番目のパラメータPを表す。JはパラメータPの次数を表す。また、Gmは第mフレームについての重み、Wはパラメータ毎の重みを表し、Wiはi番目のパラメータの重みを表す。Kは典型的には、K=1、または1〜2の値を用いることができるが、これに限定されるものではない。 The transmission activity level acquisition unit 130 uses parameters related to the transmission activity level to obtain a time variation amount of the parameter weighted for each parameter. Here, the time variation of the parameter weighted for each parameter is referred to as an activity parameter A. An example of a method for obtaining the activity parameter A will be described.
Figure 2010212783

Here, Pi (m) represents the i-th parameter P in the m-th frame. J represents the order of the parameter P. Gm represents the weight for the mth frame, W represents the weight for each parameter, and Wi represents the weight of the i-th parameter. K may typically be K = 1, or a value of 1 to 2, but is not limited thereto.

Gmは音声フレームでないときは重みを0または小さい値を使用し、音声フレームのときは大きい重みを用いる。別の方法としては、第mフレームかその部分フレーム、もしくはその近傍フレームについての予測ゲインを用いてGmを設定することができる。予測ゲインは、フレームをLPC予測分析等の予測分析を行なうことにより得られる。予測ゲインの一
例としては、予測前の音声信号エネルギと予測残差信号エネルギの比、もしくは、比の対数値や比のデシベル値に基づく値を用いることができる。音声区間の予測ゲインは無音区間の予測ゲインよりも大きな値となることが知られており、さらに、音声区間でも、母音性の高い音声区間の予測ゲインは子音性の高い音声区間の予測ゲインよりも大きな値となる傾向がある。
Gm uses a weight of 0 or a small value when it is not a voice frame, and uses a large weight when it is a voice frame. As another method, Gm can be set using a prediction gain for the m-th frame, its partial frame, or its neighboring frames. The prediction gain is obtained by performing prediction analysis such as LPC prediction analysis on the frame. As an example of the prediction gain, it is possible to use a ratio between the speech signal energy before prediction and the prediction residual signal energy, or a value based on a logarithmic value of the ratio or a decibel value of the ratio. It is known that the prediction gain of the speech section is larger than the prediction gain of the silent section. Furthermore, even in the speech section, the prediction gain of the speech section with high vowel property is higher than the prediction gain of the speech section with high consonant nature. Tend to be large.

一例として、Gm=Q(予測ゲイン)のように、第mフレームに関連する区間の予測ゲイ
ンを所定の方法で量子化もしくは写像することによりGmを設定することができる。ここで、Q( )は括弧内の値に対する量子化もしくは写像を表す。例えば、所定のしきい値Th1,Th2(Th1<Th2)を用いて、予測ゲイン<Th1 のときにはGm=g1とし、Th1≦予測ゲイ
ン<Th2 のときにはGm=g2とし、Th2<予測ゲイン のときにはGm=g3とする。ここでg1<g2<g3 もしくは g1<g2≦g3とする方法がある。しきい値Th1,Th2を適切に設定することにより、予測ゲインの値が低いフレーム、予測ゲインが中程度のフレーム、予測ゲインが高いフレーム、の3カテゴリに分けることができ、この3カテゴリを、例えば、無音区間、子音性の高い音声区間、母音性の高い音声区間に、それぞれ対応させることが可能である。また、g1、g2、g3の値を適切に設定することで、3カテゴリと対応付けられたGmが得られる。予測ゲインの値が低いフレームを除外して活性度を求めるには、予測ゲインが高いフレームに対してはGmが正の値となるようにし、予測ゲインの値が低いフレームに対してはGmが0または負の値となるようにする。
As an example, Gm can be set by quantizing or mapping the prediction gain of the section related to the m-th frame by a predetermined method, such as Gm = Q (prediction gain). Here, Q () represents quantization or mapping for the value in parentheses. For example, using a predetermined threshold Th1, Th2 (Th1 <Th2), Gm = g1 when the prediction gain <Th1, Gm = g2 when Th1 ≦ the prediction gain <Th2, and Gm when Th2 <the prediction gain. = G3. Here, there is a method of satisfying g1 <g2 <g3 or g1 <g2 ≦ g3. By appropriately setting the thresholds Th1 and Th2, it can be divided into three categories: a frame with a low prediction gain value, a frame with a medium prediction gain, and a frame with a high prediction gain. For example, it is possible to correspond to a silent section, a speech section with high consonant property, and a speech section with high vowel property, respectively. Also, Gm associated with the three categories can be obtained by appropriately setting the values of g1, g2, and g3. To determine the activity by excluding frames with low prediction gain values, Gm should be positive for frames with high prediction gain, and Gm for frames with low prediction gain. Set to 0 or a negative value.

ただし、しきい値の設定は3段階に限定されるものではない。重みGmは、要は、活性度を得る対象の音声と無関係な区間の活性度がポジティブに反映されないようにするための重みGmであれば、他の方法であってもよい。 However, the threshold setting is not limited to three stages. The weight Gm may be any other method as long as it is a weight Gm for preventing the activity of a section unrelated to the voice for which the activity is obtained from being positively reflected.

また、活性度パラメータAを算出するときに、パラメータ毎の重みWiを用いることによ
り、活性度により有効なパラメータを重要視した加重付けのパラメータの時間変動量を求めることができる。例えば、LSFパラメータは、電話帯域の音声信号については、典型的
には、(q1、q2、q3、・・・、q10)と10個程度の周波数軸上のパラメータで表され、この情報を基にスペクトルの概形を表すことができるが、スペクトルの概形を表すための各パラメータの主観的な影響度は一様ではない。すなわち、q8、q9、q10といった高次側のパラメータは、主観的な影響が小さく、低次側のパラメータは主観的な影響がやや大きく、中間の次数のパラメータは主観的な影響が非常に大きいという特徴がある。このようなパラメータ毎の重要度を重みに反映させることにより、より高い精度で活性度パラメータAを得ることが可能となる効果がある。また、主観的な影響が小さい高次側のパラメータの重みWiを0とすることも可能である。但しこれは一例であって、主観的な影響の大きい、数個のパラメータにパラメータ数を減らす方法であれば、本発明に含まれる。こうすることにより、実質的にパラメータの次数を削減することができるため、精度計算に影響を与えずに計算量を大幅に削減することができる効果がある。
Further, when the activity parameter A is calculated, by using the weight Wi for each parameter, it is possible to obtain the time variation amount of the weighted parameter that places importance on the effective parameter based on the activity. For example, the LSF parameter is typically expressed as (q1, q2, q3,..., Q10) and about 10 parameters on the frequency axis for a voice signal in a telephone band. The outline of the spectrum can be expressed as follows, but the subjective influence of each parameter for expressing the outline of the spectrum is not uniform. That is, the higher-order parameters such as q8, q9, and q10 have a small subjective influence, the lower-order parameters have a slightly larger subjective influence, and the intermediate-order parameters have a significantly larger subjective influence. There is a feature. By reflecting the importance for each parameter in the weight, there is an effect that the activity parameter A can be obtained with higher accuracy. It is also possible to set the weight Wi of the higher-order parameter that has a small subjective influence to zero. However, this is only an example, and any method that reduces the number of parameters to several parameters that have a large subjective influence is included in the present invention. By doing so, the order of the parameters can be substantially reduced, so that the calculation amount can be greatly reduced without affecting the accuracy calculation.

なお、LSPパラメータ、ISFパラメータなどのパラメータについてもLSFと同様の性質を
持つため、パラメータ毎の加重付けや計算量の削減についても同様の効果がある。
Since parameters such as LSP parameters and ISF parameters have the same characteristics as LSF, the same effects can be obtained for weighting of each parameter and reduction of calculation amount.

また、活性度パラメータを得るには、上述の方法に限られるものでないことは言うまでもない。要は、音声の発話量や音韻変化の情報量に関係する音響特性の時間的な変化に関する活性の度合いを推定することに使用できる情報であれば、その情報を得るために有効な手段を用いることで本発明の実施形態として活用することができる。   Needless to say, the activity parameter is not limited to the above-described method. In short, if it is information that can be used to estimate the degree of activity related to temporal changes in acoustic characteristics related to the amount of speech utterance and the amount of phonological change, use effective means to obtain that information. Thus, it can be utilized as an embodiment of the present invention.

なお、送話活性度取得に用いる情報としては、送話音声に由来する信号であればよく、その場合でも同様の効果が得られる。要は送話側のユーザの発話の活性度に関連する情報が得られる構成であれば、同様の効果が得られる。   The information used to acquire the transmission activity level may be a signal derived from the transmission voice, and the same effect can be obtained even in that case. In short, the same effect can be obtained as long as information relating to the activity level of the user on the transmitting side can be obtained.

長期活性度取得部150は、過去の呼の送話音声をもとに得た長期送話活性度パラメータをメモリに記憶しており、これを長期活性度更新部140、ユーザ状態推定部160、話速変換選択部270、に出力する。ここでは、後述する長期活性度更新部140において、過去の呼の通話を通じて得られた長期送話活性度パラメータが長期活性度取得部150においてメモリに記憶されている構成として説明するが、これ限られるものではなく、過去の呼での送話音声をもとに長期送話活性度パラメータを得ることができる構成であればどのような構成であっても本発明の骨子とするところに含まれることは言うまでもない。   The long-term activity acquisition unit 150 stores a long-term speech activity parameter obtained based on the transmitted voice of a past call in a memory, and stores this in a long-term activity update unit 140, a user state estimation unit 160, To the speech speed conversion selection unit 270. Here, the long-term activity update unit 140, which will be described later, will be described as a configuration in which a long-term transmission activity parameter obtained through a call of a past call is stored in a memory in the long-term activity acquisition unit 150. However, any configuration that can obtain the long-term transmission activity parameter based on the transmitted voice of the past call is included in the gist of the present invention. Needless to say.

長期活性度更新部140は、送話活性度所得部130から出力される活性度パラメータ(送話活性度パラメータ)と、長期活性度取得部150からの長期送話活性度パラメータを用いて、長期送話活性度パラメータを更新する。更新方法の一例は、まず通話の呼の開始の際に、過去の呼の通話を通じて得られた長期送話活性度パラメータを用いて
LA=LA_past
とする。LA_pastは長期活性度取得部150に記憶された過去の呼の通話を通じて得られ
た長期送話活性度パラメータ、LAは通話内で所定の条件下で適宜更新される長期送話活性度パラメータを表す。そして、下記に示すような所定の更新条件を満たすときに次のような更新を行なう。
The long-term activity update unit 140 uses the activity parameter (transmission activity parameter) output from the transmission activity income unit 130 and the long-term activity activity parameter from the long-term activity acquisition unit 150, and Update the transmission activity parameter. An example of an update method is to first use the long-term transmission activity parameter obtained through the call of the past call at the start of the call of the call.
LA = LA_past
And LA_past is a long-term transmission activity parameter obtained through a call of a past call stored in the long-term activity acquisition unit 150, and LA represents a long-term transmission activity parameter that is appropriately updated under a predetermined condition within the call. . Then, the following update is performed when a predetermined update condition as described below is satisfied.

LA=αSA+(1−α)LA
また、LA_pastは
LA_past=LA*
として更新する。
LA = αSA + (1-α) LA
LA_past is
LA_past = LA *
Update as.

ここで、SAは送話活性度パラメータを表す。また、LA*は通話終了時までに求められたLAの更新値のうち、長期送話活性度パラメータLA_pastの更新に用いるべきLA値である。例えば、LA*としては、現在の通話の中で求められたLAの平均値や、LAの中央値、通話終了
時より所定時間前の時点のLA値、もしくは、現在の通話の中で求められたSAの平均値や、SAの中央値などを用いることができる。LA_pastは、通話終了後、もしくは、通話中にLA*が定まった時点で更新される。
Here, SA represents a transmission activity parameter. LA * is an LA value to be used for updating the long-term transmission activity parameter LA_past among the updated values of LA obtained until the end of the call. For example, LA * is the average value of LA obtained during the current call, the median value of LA, the LA value at a predetermined time before the end of the call, or obtained during the current call. The average value of SA and the median value of SA can be used. LA_past is updated after the call ends or when LA * is determined during the call.

αはLAの更新速度を調整する係数で、0<α<1であり、典型例としては0.1程度の値を用いることができるが、SAの値の信頼性が高いときは、αはより1に近い値を用いることができる。αの値はフレーム長にも依存するため、上記の典型例の値に限られるものではない。逆に、発話時間が短い音声や、音声に含まれる背景雑音が多い環境で入力される場合など、取得した活性度の信頼性が低い場合には、αは0とするか、もしくは、更新を行なわないようにする。こうすることで、長期送話活性度パラメータの更新が信頼性の高いものになり、結果、話者が本来もつ通常の話し方での活性度をより正確に反映したパラメータの取得が可能となるという効果がある。また、後述するユーザ状態推定部160において、ユーザ状態が、過去の通常の話し方に比べて活性度が逸脱している状態であると推定されたときは、長期送話活性度パラメータを更新しないようにするために、αは0とするか、もしくは、長期送話活性度パラメータの更新を行なわないようにする。こうすることで、長期活性度更新部140における長期送話活性度パラメータの更新が信頼性の高いものになり、結果、話者が本来もつ通常の話し方をしたときの活性度を反映したパラメータの取得が可能となるという効果がある。   α is a coefficient for adjusting the update rate of LA, and 0 <α <1. As a typical example, a value of about 0.1 can be used, but when the reliability of the SA value is high, α is 1 A value close to can be used. Since the value of α also depends on the frame length, it is not limited to the value of the above typical example. On the other hand, when the reliability of the acquired activity is low, such as when the speech is short and the input is performed in an environment with a lot of background noise included in the speech, α is set to 0 or update is performed. Do not do it. By doing this, updating the long-term transmission activity parameter becomes highly reliable, and as a result, it is possible to obtain a parameter that more accurately reflects the activity of the speaker in the normal way of speaking. effective. In addition, when the user state estimation unit 160 described later estimates that the user state is a state in which the activity is deviating from the normal way of speaking in the past, the long-term transmission activity parameter is not updated. Therefore, α is set to 0, or the long-term transmission activity parameter is not updated. By doing so, the long-term activity update unit 140 updates the long-term transmission activity parameter with high reliability. As a result, the parameter that reflects the activity when the speaker originally speaks normally is updated. There is an effect that acquisition is possible.

ユーザ状態推定部160は、送話活性度所得部130からの送話活性度パラメータと、長期活性度取得部150からの長期送話活性度パラメータを用いて、現通話でのユーザ状態を推定する。ここでは、特に、現通話でのユーザが通常の話し方のユーザ状態なのか、急ぎ状況のユーザ状態なのかを推定する。推定結果は話速変換部280、および、ユーザ状態通知部161に出力される。   The user state estimation unit 160 estimates the user state in the current call using the transmission activity parameter from the transmission activity income unit 130 and the long-term transmission activity parameter from the long-term activity acquisition unit 150. . Here, in particular, it is estimated whether the user in the current call is in a normal speaking user state or a rushed user state. The estimation result is output to the speech speed conversion unit 280 and the user state notification unit 161.

ユーザ状態推定部160は、現在の通話の中で取得した短期的情報と、過去の通話の中で取得した長期的情報(本来のユーザの通話状態を反映する情報)を比較することにより、現通話でのユーザ状態としてユーザが急いでいる状況かどうかを推定する。これによって、もともと早口の人が本来の通常の話し方で話したときの音声信号と、もともと早口でない人が急いでいるときに話した音声信号とを区別する。   The user state estimation unit 160 compares the short-term information acquired in the current call with the long-term information acquired in the past call (information reflecting the original user's call state), thereby It is estimated whether or not the user is in a hurry as the user state in a call. This distinguishes a voice signal that is originally spoken by a person who speaks in a normal manner and a voice signal that is spoken by a person who is originally not in a hurry.

また、現在の通話の中で取得した短期的情報として、短期活性度パラメータ(送話音声を対象とするときは送話活性度パラメータ)をさらに、準短期的に変動を安定化させた準短期活性度パラメータを用いると、より安定的にユーザ状態を推定することができる効果がある。準短期活性度パラメータを得る方法としては、例えば、SA(短期)活性度パラメータに対する準短期活性度パラメータをSSAとすると、係数β(α<β<1なる関係を有
する)を用いて
SSA=βSA+(1−β)SSA
により求めることができる。ここで、βはSSAの更新速度を調整する係数である。
In addition, as short-term information acquired during the current call, the short-term activity parameter (transmission activity parameter when sending speech is targeted) is further sub-short-term, with fluctuations stabilized in the near-short term. Use of the activity parameter has an effect that the user state can be estimated more stably. As a method for obtaining the quasi-short-term activity parameter, for example, when the quasi-short-term activity parameter with respect to the SA (short-term) activity parameter is SSA, a coefficient β (having a relationship of α <β <1) is used.
SSA = βSA + (1-β) SSA
It can ask for. Here, β is a coefficient for adjusting the SSA update rate.

ここでは、長期的情報と短期的情報として、ユーザの活性度パラメータを用いる例で説明するが、発明の主旨とするところは、話者Sの本来の状態を反映するパラメータ(長期パラメータ)と、同じ話者Sが現在の通話の中で発話したときの音声から取得したパラメータ(短期パラメータ)とであれば、長期と短期のパラメータを比較することにより、話者Sの現在の通話における話者Sの状態を推定することが可能となる。   Here, as an example of using user activity parameters as long-term information and short-term information, the gist of the invention is a parameter (long-term parameter) reflecting the original state of the speaker S, If the same speaker S is a parameter (short-term parameter) obtained from the speech when speaking in the current call, the speaker in the current call of the speaker S is compared by comparing the long-term and short-term parameters. It is possible to estimate the state of S.

このため、上記原理に基づけば、長期的情報と短期的情報として、話速情報であっても同様の方法を用いることにより、ユーザ(話者)の状態を推定し、ユーザが急いでいる状況かどうかを推定することが可能である。すなわち、過去の呼での通話におけるユーザの話速に関する長期的パラメータはユーザの本来の話し方に基づいているから、これを基準として、現在の呼の通話の中で取得されたユーザの短期的な話速に関するパラメータと比較することにより、現在の呼の通話において、ユーザの話速が本来の状態における長期話速よりも有意に早いかを判断することができる。これの結果により、現在の呼の通話において、ユーザが急いでいるかどうかを推定可能となる。   For this reason, based on the above principle, the user (speaker) state is estimated by using the same method for long-term information and short-term information, even for speech speed information, and the user is in a hurry It is possible to estimate whether or not. That is, since the long-term parameter related to the user's speaking speed in the call in the past call is based on the user's original way of speaking, the short-term of the user acquired in the call of the current call is based on this parameter. By comparing with the parameter related to the speech speed, it can be determined whether the speech speed of the user is significantly faster than the long-term speech speed in the original state in the current call. As a result, it is possible to estimate whether the user is in a hurry in the current call.

パラメータとして活性度に関係するパラメータを用いる場合は、長期パラメータの表す活性度に対して短期パラメータの表す活性度が有意に上回る場合、話者Sは通常よりも活性度が高い状態で発話していることが推測されるため、話者Sは急いでいる状態であると推定することができる。この実施例では、送話側のユーザについてユーザ状態推定する例を示したが、これに限られるものではなく、この方法を受話音声に対して用いることも可能であることは言うまでも無い。要は、同じ性質のパラメータであれば、長期パラメータと短期パラメータを用いた比較や評価を行なうことにより、短期的に通常の状態から逸脱した状態で話者が話しをしていることを検出することが可能となり、その主旨に沿っているものであれば、本発明に含まれる。   When a parameter related to activity is used as a parameter, if the activity represented by the short-term parameter is significantly higher than the activity represented by the long-term parameter, the speaker S speaks in a state where the activity is higher than usual. Therefore, it can be estimated that the speaker S is in a hurry. In this embodiment, an example is shown in which the user state is estimated for the user on the transmission side, but the present invention is not limited to this, and it goes without saying that this method can also be used for the received voice. In short, if parameters of the same nature are used, comparisons and evaluations using long-term and short-term parameters will detect that the speaker is speaking in a state that deviates from the normal state in the short term. If it is possible and is in line with the gist, it is included in the present invention.

話速変換部280は、ユーザ状態推定部160によってユーザが急いでいる状態であることが推定されたときは、話速変換において、話速を遅くする機能が使われないようにする。こうすることで、ユーザが話を急いでいるときに、話速を遅くする話速変換機能で受話音声が遅く再生されることによる、ユーザのストレスを防止することができる効果がある。   When the user state estimation unit 160 estimates that the user is in a hurry state, the speech speed conversion unit 280 prevents the function for reducing the speech speed from being used in the speech speed conversion. In this way, when the user is in a hurry, the user can be prevented from being stressed by the received voice being played back slowly with the speech speed conversion function that slows down the speech speed.

ユーザ状態通知部161は、ユーザ状態推定部160で推定されたユーザ状態を、文字、画像、動画、色表示、音、振動、などにより、装置外部に通知する機能を有する。本発明の話速変換装置を例えば携帯電話に組み込む場合には、視覚、聴覚、触覚、味覚、嗅覚、のほか、通知情報の着信などの情報伝達手段を媒介して携帯電話のユーザに感知できるような形態で通知する。こうすることで、自分がどのような状態で通話しているかを通話時や通話終了後に確認することができる効果がある。   The user state notification unit 161 has a function of notifying the user state estimated by the user state estimation unit 160 to the outside of the apparatus by characters, images, moving images, color display, sound, vibration, and the like. When the speech rate conversion device of the present invention is incorporated into, for example, a mobile phone, it can be sensed by the user of the mobile phone through information transmission means such as incoming notification information in addition to visual, auditory, tactile, taste, and olfactory senses. Notify in such a form. By doing so, there is an effect that it is possible to confirm in what state the user is talking during or after the call.

次に、受話側について説明する。
受話活性度推定部230は、復号化部210で復号化された受話音声信号200を入力して分析することにより、通話が始まってから入力された受話側の音声信号の通話内における発話についての短期的な活性度に関連するパラメータを取得し、これを話速変換選択部270に出力すると共に、受話状態通知部231に出力する。受話活性度に関連するパラメータとして、ここでは、送話側と同様の方法で求めることにし、受話活性度パラメータBと呼ぶことにする。
Next, the receiving side will be described.
The reception activity level estimation unit 230 inputs and analyzes the reception voice signal 200 decoded by the decoding unit 210, so that the reception side voice signal input from the start of the call is about the utterance in the call. A parameter related to short-term activity is acquired, and this is output to the speech speed conversion selection unit 270 and also to the reception state notification unit 231. Here, as a parameter related to the reception activity level, it is determined by a method similar to that on the transmission side, and is referred to as a reception activity level parameter B.

受話状態通知部231は、受話活性度推定部230で推定されたユーザ状態を、文字、画像、動画、色表示、音、振動、などにより、装置外部に通知する機能を有する。本発明の話速変換装置を例えば携帯電話に組み込む場合、視覚、聴覚、触覚、味覚、嗅覚、のほか、通知情報の着信などの情報伝達手段を媒介して携帯電話のユーザに感知できるような形態で通知する。こうすることで、通話相手がどの程度の活性度の状態で通話しているかを通話時や通話終了後に確認することができる効果がある。   The reception state notification unit 231 has a function of notifying the user state estimated by the reception activity estimation unit 230 to the outside of the apparatus by characters, images, moving images, color displays, sounds, vibrations, and the like. When the speech rate conversion device of the present invention is incorporated into, for example, a mobile phone, it can be sensed by the user of the mobile phone through information transmission means such as visual, auditory, tactile, gustatory, olfactory, and incoming notification information. Notify in form. By doing so, there is an effect that it is possible to check at what level of activity the other party is talking at the time of the call or after the call ends.

話速変換選択部270は、受話側活性度推定部230からの受話活性度パラメータBと
、長期活性度取得部150からの長期送話活性度パラメータLA_past (場合により、LAも利用可)を入力して、受話活性度パラメータと長期送話活性度パラメータの評価にもとづいて話速変換部280における話速変換処理の実施に関する選択を行なう。つまり、受話活性度パラメータと長期送話活性度パラメータを比較し、受話の活性度が送話の長期送話活性度よりも高いと判断されたときに、話速を遅くするよう話速変換処理の実施(話速変換率や話速に関連する制御情報)を選択する。この際、ユーザ状態推定部160を用いる構成のときは、ユーザ状態の推定結果も加味する。すなわち、ユーザが急いでいる状態であることが推定されたときは、受話の活性度が送話の長期送話活性度よりも高いと判断されたときであっても、話速変換において、話速を遅くする機能が使われないようにする。
話速を遅くする機能が使われないようにする方法の一例として、ユーザが急いでいる状態であることが推定されたときは、受話音声に対して話速変換を行なわないようにすることも有効である。また、通話中に録音した通話内容(音声データ)を通話終了後に再生する場合は、一例として、ユーザが急いでいる状態であることが推定されたときは、受話音声の話速を早くして再生する方法や受話音声に対して無音区間を短くして再生する方法も有効である。
The speech rate conversion selection unit 270 inputs the reception activity parameter B from the reception side activity estimation unit 230 and the long-term transmission activity parameter LA_past (LA may be used in some cases) from the long-term activity acquisition unit 150. Then, based on the evaluation of the reception activity level parameter and the long-term transmission activity level parameter, selection regarding the execution of the speech rate conversion process in the speech rate conversion unit 280 is performed. That is, the speech activity conversion process is performed so that the speech speed is reduced when the activity level of the received speech is higher than the long-term speech activity of the transmitted speech by comparing the received speech activity parameter and the long-term speech activity parameter. (Control information related to the speech rate conversion rate and speech rate) is selected. At this time, in the case of the configuration using the user state estimation unit 160, the estimation result of the user state is also taken into consideration. That is, when it is estimated that the user is in a hurry state, even when it is determined that the activity level of the received call is higher than the long-term activity level of transmitting the speech, Avoid using the function to slow down.
As an example of a method for preventing the use of the function for slowing down the speech speed, when it is estimated that the user is in a hurry state, the speech speed conversion may not be performed on the received voice. It is valid. Also, when playing back the recorded call contents (voice data) during a call after the call is finished, for example, when it is estimated that the user is in a hurry state, the speed of the received voice is increased. A method of reproducing and a method of reproducing by shortening the silent section with respect to the received voice are also effective.

こうすることで、ユーザが話を急いでいるときに、話速を遅くする話速変換機能で受話音声が遅く再生されることによる、ユーザのストレスを防止することができる効果がある。 In this way, when the user is in a hurry, the user can be prevented from being stressed by the received voice being played back slowly with the speech speed conversion function that slows down the speech speed.

話速変換部280は、話速変換選択部270からの選択情報にもとづいて選択される話速変換率、もしくは、話速に関連する制御情報を用いて、受話音声信号に対して話速変換を行い、受話出力音声信号290を出力する。この際、話速変換を行なわないことも、話速変換部280の選択肢の一つとして有している。   The speech speed conversion unit 280 converts the speech speed of the received speech signal using the speech speed conversion rate selected based on the selection information from the speech speed conversion selection unit 270 or control information related to the speech speed. And the received output audio signal 290 is output. At this time, one of the options of the speech speed conversion unit 280 is not to perform the speech speed conversion.

図2は、話速変換装置10の動作を示すフローチャートである。話速変換装置10は、まず、ステップS20で過去の呼の送話音声をもとに得た長期送話活性度パラメータを取得し、ステップS22において、現在の呼における復号化部210で復号化された受話音声信号200から受話活性度に関連するパラメータを取得する。同様に、ステップS23では、現在の呼における送話音声信号100から送話活性度に関連するパラメータを取得すると共に、ステップS24において、送話活性度パラメータと長期送話活性度パラメータを用いて長期送話活性度パラメータを更新する。なお、ステップS23とステップS24の送話側の処理と、ステップS22の受話側の処理の順番はどちらを先に行なってもよい。次に、ステップS25において、受話活性度に関連するパラメータと、長期送話活性度パラメータを用いた評価にもとづいて、話速変換処理の実施に関する選択情報を生成する。ステップS26において、ステップS25からの選択情報にもとづいて選択される話速変換率、もしくは、話速に関連する制御情報を用いて、受話音声信号に対して話速変換を行ない、その結果を受話出力音声信号290として出力する。この際、話速変換を行なわないことも、話速変換の選択結果の一つである。ステップS27において、通話が終了していない場合は次の時間区間について以上の処理を繰り返す。また、通話が終了する場合は、ステップS28で長期送話活性度の情報を保持して次回の呼の通話の際にステップS20で使用できるようにする。   FIG. 2 is a flowchart showing the operation of the speech speed conversion apparatus 10. The speech speed converting apparatus 10 first acquires the long-term transmission activity parameter obtained based on the transmitted voice of the past call in step S20, and in step S22, the decoding unit 210 in the current call decodes it. The parameter related to the reception activity level is acquired from the received reception voice signal 200. Similarly, in step S23, parameters related to transmission activity are acquired from the transmission voice signal 100 in the current call, and in step S24, long-term transmission activity parameters and long-term transmission activity parameters are used. Update the transmission activity parameter. Note that the order of the processing on the transmitting side in steps S23 and S24 and the processing on the receiving side in step S22 may be performed first. Next, in step S25, selection information relating to the implementation of the speech rate conversion process is generated based on the parameter related to the reception activity level and the evaluation using the long-term transmission activity level parameter. In step S26, speech speed conversion is performed on the received speech signal using the speech speed conversion rate selected based on the selection information from step S25 or control information related to the speech speed, and the result is received. The output audio signal 290 is output. In this case, not performing the speech speed conversion is one of the selection results of the speech speed conversion. If the call has not ended in step S27, the above processing is repeated for the next time interval. When the call ends, the long-term transmission activity information is retained in step S28 so that it can be used in step S20 during the next call.

次に、図3のフローチャートを用いて、長期パラメータと短期パラメータを用いたユーザの急ぎ状態の推定を利用した話速変換方法について説明する。ステップS30において、話者に対する長期送話活性度パラメータと、最新の通話において得られる所定区間での同じ話者に対する活性度(短期活性度)を取得する。ステップS31において、長期活性度と短期活性度に関連する情報の評価により、対象とする話者(ユーザ)が急ぎ状態かどうかを推定する。ステップS32で急ぎ状態ではないと判定された場合は、ステップS34で受話音声に対して話速を遅くする変換を行なう。また、ステップS32で急ぎ状態であると判定された場合は、ステップS33で受話音声に対して話速を遅くする変換を行なわないようにする。   Next, a speech speed conversion method using estimation of the user's rush state using the long-term parameter and the short-term parameter will be described using the flowchart of FIG. In step S30, a long-term transmission activity parameter for the speaker and an activity (short-term activity) for the same speaker in a predetermined section obtained in the latest call are acquired. In step S31, it is estimated whether or not the target speaker (user) is in a hurry state by evaluating information related to the long-term activity and the short-term activity. If it is determined in step S32 that the state is not in a rush state, in step S34, conversion is performed to reduce the speech speed for the received voice. If it is determined in step S32 that the state is in a hurry state, in step S33, conversion for reducing the speech speed is not performed on the received voice.

図4のフローチャートは、長期パラメータと短期パラメータを用いたユーザの急ぎ状態の推定を利用した話速変換装置10の動作を示すフローチャートである。ステップS40で過去の呼の送話音声をもとに得た長期送話活性度パラメータ(長期パラメータ)を取得し、ステップS42において、現在の呼における復号化部210で復号化された受話音声信号200から受話活性度に関連するパラメータを取得する。同様に、ステップS43では、現在の呼における送話音声信号から送話活性度に関連するパラメータ(短期パラメータ)を取得すると共に、ステップS44において、送話活性度パラメータと長期送話活性度パラメータを用いて長期送話活性度パラメータを更新する。なお、ステップS43とステップS44の送話側の処理と、ステップS42の受話側の処理の順番はどちらを先に行なってもよい。   The flowchart of FIG. 4 is a flowchart showing the operation of the speech speed conversion apparatus 10 using the estimation of the user's rush state using the long-term parameter and the short-term parameter. In step S40, a long-term transmission activity parameter (long-term parameter) obtained based on the transmitted voice of the past call is acquired. In step S42, the received voice signal decoded by the decoding unit 210 in the current call. From 200, a parameter related to the reception activity level is acquired. Similarly, in step S43, a parameter (short-term parameter) related to transmission activity is acquired from the transmission voice signal in the current call, and in step S44, the transmission activity parameter and long-term transmission activity parameter are obtained. Use to update the long-term transmission activity parameter. Note that the order of the processing on the transmitting side in steps S43 and S44 and the processing on the receiving side in step S42 may be performed first.

次に、ステップS49aにおいて、長期活性度と短期活性度に関連する情報の評価により、対象とするユーザが急ぎ状態かどうかを推定する。ステップS49bで急ぎ状態であると判定された場合は、ステップS46で受話音声に対して話速を遅くする変換を行なわないようにする。ステップS49bで急ぎ状態ではないと判定された場合は、ステップS45において、受話活性度に関連するパラメータと、長期送話活性度パラメータを用いた評価にもとづいて、話速変換処理の実施に関する選択情報を生成する。ステップS46において、ステップS45からの選択情報にもとづいて選択される話速変換率、もしくは、話速に関連する制御情報を用いて、受話音声信号に対して話速変換を行ない、その結果を受話出力音声信号として出力する。この際、話速変換を行なわないことも、話速変換の選択結果の一つである。ステップS47において、通話が終了していない場合は次の時間区間について以上の処理を繰り返す。また、通話が終了する場合は、ステップS48で長期活性度の情報を保持して次回の呼の通話の際にステップS40で使用できるようにする。   Next, in step S49a, it is estimated whether the target user is in a rush state by evaluating information related to the long-term activity and the short-term activity. If it is determined in step S49b that the state is in a hurry state, in step S46, conversion for reducing the speech speed is not performed on the received voice. If it is determined in step S49b that it is not in a rush state, in step S45, selection information related to the implementation of the speech rate conversion process based on the parameter related to the reception activity level and the evaluation using the long-term transmission activity parameter. Is generated. In step S46, speech rate conversion is performed on the received speech signal using the speech rate conversion rate selected based on the selection information from step S45 or control information related to the speech rate, and the result is received. Output as output audio signal. In this case, not performing the speech speed conversion is one of the selection results of the speech speed conversion. If the call has not ended in step S47, the above processing is repeated for the next time interval. If the call ends, the long-term activity information is retained in step S48 so that it can be used in step S40 during the next call.

このような実施形態の構成をとることで、ユーザの本来の安定した基本話速(長期活性度に関連)に基づいて、受話の話速が制御されるので、安定した話速変換を行なうことができる。また、瞬時的なユーザの発話の活性度や話速の変化に影響されて受話の話速変換が過剰に変動するように行なわれて聞き取りにくくなる悪影響を回避することができる。   By adopting the configuration of such an embodiment, since the speech speed of the incoming call is controlled based on the user's original stable basic speech speed (related to long-term activity), stable speech speed conversion is performed. Can do. In addition, it is possible to avoid the adverse effect that the speech speed conversion of the received speech is excessively fluctuated due to the instantaneous user speech activity and the change in speech speed, and is difficult to hear.

なお、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。   In addition, it is not limited to the said embodiment, You may change suitably in the range which does not deviate from the summary of this invention.

10 話速変換装置、110 符号化部、120 送話側活性度推定部、130 送話活性度取得部、140 長期活性度更新部、150 長期活性度取得部、160 ユーザ状態推定部、161 ユーザ状態通知部、210 符号化部、230 受話側活性度推定部、231 受話状態通知部、270 話速変換選択部、280 話速変換部 DESCRIPTION OF SYMBOLS 10 Speech speed converter, 110 encoding part, 120 transmission side activity estimation part, 130 transmission activity acquisition part, 140 long-term activity update part, 150 long-term activity acquisition part, 160 user state estimation part, 161 user State notifying unit, 210 encoding unit, 230 receiving side activity estimating unit, 231 receiving state notifying unit, 270 speaking rate conversion selecting unit, 280 speaking rate converting unit

Claims (5)

話速変換手段と、
受話音声の活性度に係るパラメータを得る受話活性度パラメータ取得手段と、
送話音声の活性度に係るパラメータを得る送話活性度パラメータ取得手段と、
送話音声の長期活性度に係るパラメータを得る長期送話活性度パラメータ取得手段と、
前記受話活性度パラメータと前記長期送話活性度パラメータの評価にもとづいて前記話速変換の実施に関する選択をし、前記選択結果をもとに前記受話音声信号に対して前記話速変換手段による話速変換を行なう手段と、
前期送話活性度パラメータをもとに長期送話活性度パラメータを更新するパラメータ更新手段と、
を有することを特徴とする話速変換装置。
Speaking speed conversion means,
A reception activity parameter acquisition means for obtaining a parameter related to the activity of the received voice;
Transmission activity parameter acquisition means for obtaining a parameter related to the activity of the transmitted voice;
Long-term transmission activity parameter acquisition means for obtaining a parameter related to the long-term activity of the transmitted voice;
Based on the evaluation of the reception activity parameter and the long-term transmission activity parameter, a selection is made regarding the implementation of the speech rate conversion, and the speech rate conversion means performs a speech on the received speech signal based on the selection result. Means for speed conversion;
Parameter updating means for updating the long-term speech activity parameter based on the previous speech activity parameter;
A speech rate conversion device characterized by comprising:
話速変換手段と、
送話音声の活性度に係るパラメータを得る送話活性度パラメータ取得手段と、
送話音声の長期活性度に係るパラメータを得る長期送話活性度パラメータ取得手段と、
受話音声信号に対して前記話速変換手段による話速変換を行なう手段と、
前記長期送話活性度パラメータと前記送話活性度パラメータとを用いて送話側のユーザの急ぎ状況を推定する状態推定手段と、
送話ユーザが急ぎ状態でないと推定されたときは受話音声を遅くする話速変換の選択を可能とし、送話ユーザが急ぎ状態であると推定されたときは受話音声を遅くする話速変換を選択しないようにする話速選択手段と
を有することを特徴とする話速変換装置。
Speaking speed conversion means,
Transmission activity parameter acquisition means for obtaining a parameter related to the activity of the transmitted voice;
Long-term transmission activity parameter acquisition means for obtaining a parameter related to the long-term activity of the transmitted voice;
Means for performing speech speed conversion by the speech speed conversion means on the received voice signal;
State estimation means for estimating the rush situation of the user on the transmission side using the long-term transmission activity parameter and the transmission activity parameter;
When it is estimated that the transmitting user is not in a rushing state, it is possible to select a speech speed conversion that slows down the received voice. A speech speed conversion device comprising speech speed selection means for preventing selection.
話速変換手段と、
受話音声の話速に係る短期パラメータを得る短期受話パラメータ取得手段と、
送話音声の話速に係る短期パラメータを得る短期送話パラメータ取得手段と、
送話音声の話速に係る長期パラメータを得る長期送話パラメータ取得手段と、
前記短期受話パラメータと前記長期送話パラメータの評価にもとづいて前記話速変換の実施に関する選択をし、前記選択結果をもとに前記受話音声信号に対して前記話速変換手段による話速変換を行なう手段と、
前記長期送話パラメータを更新するパラメータ更新手段と、
を有することを特徴とする話速変換装置。
Speaking speed conversion means,
Short-term reception parameter obtaining means for obtaining short-term parameters related to the speech speed of the received speech;
Short-term transmission parameter acquisition means for obtaining short-term parameters related to the speech speed of the transmitted voice;
Long-term transmission parameter acquisition means for obtaining long-term parameters related to the speech speed of the transmitted voice;
Based on the evaluation of the short-term reception parameter and the long-term transmission parameter, the selection relating to the implementation of the speech rate conversion is performed, and the speech rate conversion by the speech rate conversion unit is performed on the received speech signal based on the selection result. Means to do,
Parameter updating means for updating the long-term transmission parameter;
A speech rate conversion device characterized by comprising:
話速変換手段と
送話音声の話速に係る短期パラメータを得る短期送話パラメータ取得手段と、
送話音声の話速に係る長期パラメータを得る長期送話パラメータ取得手段と、
受話音声信号に対して前記話速変換手段による話速変換を行なう手段と、
前記長期パラメータと前記短期パラメータとを用いて送話側のユーザの急ぎ状況を推定する状態推定手段と、
送話ユーザが急ぎ状態でないと推定されたときは受話音声を遅くする話速変換の選択を可能とし、送話ユーザが急ぎ状態であると推定されたときは受話音声を遅くする話速変換を選択しないようにする話速選択手段と
を有することを特徴とする話速変換装置。
A short-term transmission parameter obtaining means for obtaining a short-term parameter relating to the speech speed of the speech speed conversion means and the speech speed;
Long-term transmission parameter acquisition means for obtaining long-term parameters related to the speech speed of the transmitted voice;
Means for performing speech speed conversion by the speech speed conversion means on the received voice signal;
A state estimating means for estimating a rush situation of the user on the transmission side using the long-term parameter and the short-term parameter;
When it is estimated that the transmitting user is not in a rushing state, it is possible to select a speech speed conversion that slows down the received voice. A speech speed conversion device comprising speech speed selection means for preventing selection.
受話音声に対し話速を遅くする処理の有無を選択可能な話速変換手段と、
送話ユーザが急ぎ状態であるか推定するユーザ状態推定手段と、
送話ユーザが急ぎ状態でないと推定されたときは受話音声を遅くする話速変換の選択を可能とし、
送話ユーザが急ぎ状態であると推定されたときは受話音声を遅くする話速変換を選択しないようにする話速変換選択手段と
を有することを特徴とする話速変換装置。
A speech speed conversion means capable of selecting the presence or absence of processing for slowing the speech speed for the received speech;
User state estimating means for estimating whether the transmitting user is in a hurry state;
When it is estimated that the sending user is not in a rush state, it is possible to select a speech speed conversion that slows down the received voice,
A speech speed conversion device comprising speech speed conversion selection means for not selecting a speech speed conversion that slows down a received voice when it is estimated that a transmitting user is in a rush state.
JP2009053903A 2009-03-06 2009-03-06 Speaking speed converter Expired - Fee Related JP5169918B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009053903A JP5169918B2 (en) 2009-03-06 2009-03-06 Speaking speed converter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009053903A JP5169918B2 (en) 2009-03-06 2009-03-06 Speaking speed converter

Publications (2)

Publication Number Publication Date
JP2010212783A true JP2010212783A (en) 2010-09-24
JP5169918B2 JP5169918B2 (en) 2013-03-27

Family

ID=42972559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009053903A Expired - Fee Related JP5169918B2 (en) 2009-03-06 2009-03-06 Speaking speed converter

Country Status (1)

Country Link
JP (1) JP5169918B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014095753A (en) * 2012-11-07 2014-05-22 Hitachi Systems Ltd Automatic voice recognition/voice conversion system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000312247A (en) * 1999-04-27 2000-11-07 Sanyo Electric Co Ltd Telephone set
JP2008311754A (en) * 2007-06-12 2008-12-25 Nec Corp Telephone apparatus with function for converting conversation speed and method for converting conversation speed

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000312247A (en) * 1999-04-27 2000-11-07 Sanyo Electric Co Ltd Telephone set
JP2008311754A (en) * 2007-06-12 2008-12-25 Nec Corp Telephone apparatus with function for converting conversation speed and method for converting conversation speed

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014095753A (en) * 2012-11-07 2014-05-22 Hitachi Systems Ltd Automatic voice recognition/voice conversion system

Also Published As

Publication number Publication date
JP5169918B2 (en) 2013-03-27

Similar Documents

Publication Publication Date Title
RU2469419C2 (en) Method and apparatus for controlling smoothing of stationary background noise
KR100675126B1 (en) Speech coding with comfort noise variability feature for increased fidelity
JP5293817B2 (en) Audio signal processing apparatus and audio signal processing method
US7246057B1 (en) System for handling variations in the reception of a speech signal consisting of packets
JP4836720B2 (en) Noise suppressor
JP5153886B2 (en) Noise suppression device and speech decoding device
JP4018571B2 (en) Speech enhancement device
JP2008058983A (en) Method for robust classification of acoustic noise in voice or speech coding
JP2006085176A (en) Band enlargement of band-limited audio signal
KR102317686B1 (en) Speech signal processing method and apparatus adaptive to noise environment
KR101648290B1 (en) Generation of comfort noise
KR20040005860A (en) Method and system for comfort noise generation in speech communication
JP2002237785A (en) Method for detecting sid frame by compensation of human audibility
JP2010503325A (en) Packet-based echo cancellation and suppression
JPH09152894A (en) Sound and silence discriminator
JP5326533B2 (en) Voice processing apparatus and voice processing method
JP2004133403A (en) Sound signal processing apparatus
JP3307875B2 (en) Encoded audio playback device and encoded audio playback method
US7231348B1 (en) Tone detection algorithm for a voice activity detector
CN108133712B (en) Method and device for processing audio data
US6424942B1 (en) Methods and arrangements in a telecommunications system
JP2011248025A (en) Channel integration method, channel integration device, and program
JP6098149B2 (en) Audio processing apparatus, audio processing method, and audio processing program
JP2008309955A (en) Noise suppresser
JP5169918B2 (en) Speaking speed converter

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100922

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101028

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121217

LAPS Cancellation because of no payment of annual fees