JP2012159540A - Speaking speed conversion magnification determination device, speaking speed conversion device, program, and recording medium - Google Patents

Speaking speed conversion magnification determination device, speaking speed conversion device, program, and recording medium Download PDF

Info

Publication number
JP2012159540A
JP2012159540A JP2011017232A JP2011017232A JP2012159540A JP 2012159540 A JP2012159540 A JP 2012159540A JP 2011017232 A JP2011017232 A JP 2011017232A JP 2011017232 A JP2011017232 A JP 2011017232A JP 2012159540 A JP2012159540 A JP 2012159540A
Authority
JP
Japan
Prior art keywords
speech speed
speed conversion
fundamental frequency
conversion magnification
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011017232A
Other languages
Japanese (ja)
Other versions
JP5593244B2 (en
Inventor
Toru Tsugi
徹 都木
Atsushi Imai
篤 今井
Nobumasa Seiyama
信正 清山
Reiko Saito
礼子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2011017232A priority Critical patent/JP5593244B2/en
Priority to US13/981,950 priority patent/US9129609B2/en
Priority to PCT/JP2012/000537 priority patent/WO2012102056A1/en
Publication of JP2012159540A publication Critical patent/JP2012159540A/en
Application granted granted Critical
Publication of JP5593244B2 publication Critical patent/JP5593244B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To determine a speaking speed conversion magnification which is stable and adaptive even when a background sound and a voice are mixed.SOLUTION: A speaking speed conversion magnification determination device 1a comprises: a physical index calculation section 2 having a sound/soundless determination part 102 for determining a sound section and a soundless section of an input signal, a fundamental frequency calculation part 104 for calculating the fundamental frequency of the input signal and determining a stable section and an unstable section in the sound section, a frequency smoothing part 106 for smoothing the time change of the fundamental frequency in the stable section, a pseudo fundamental frequency calculation part 108 for calculating a pseudo fundamental frequency in which the fundamental frequency is interpolated in the unstable section and in the soundless section, and a fundamental frequency contour connection part 110 for connecting the smoothed fundamental frequency and the pseudo fundamental frequency to obtain a sample value of the fundamental frequency, and outputting the sample value of the fundamental frequency as a physical index; and a speaking speed conversion magnification specification part 120 for calculating a speaking speed conversion magnification based on the physical index.

Description

本発明は、入力信号の話速(話す速さ)の適応的な変換倍率を決定する話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体に関するものである。   The present invention relates to a speech speed conversion magnification determination device, a speech speed conversion device, a program, and a recording medium that determine an adaptive conversion magnification of a speech speed (speaking speed) of an input signal.

従来の適応的に話速変換を行う技術では、1倍速(実時間で再生)や2倍速(実時間の半分の時間で再生)といった任意の再生速度が与えられた場合に、入力信号全体に渡って一様な倍率αで速度を変えるのではなく、各部分によって倍率αより大きい倍率や小さい倍率で速度を変えることで、全体としては一様な倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせながら、聞く人にとっては、一様な倍率αで話速変換した場合よりも「ゆっくりと聞き取りやすい」話速変換音声の生成を行うことを目的としている。   In the conventional technology for adaptively converting the speech speed, when an arbitrary playback speed such as 1 × speed (playback in real time) or 2 × speed (playback in half the real time) is given, the entire input signal is applied. Rather than changing the speed at a uniform magnification α, the speed is changed at a magnification that is larger or smaller than the magnification α according to each part, so that the entire time is the same as when the speech speed is converted at a uniform magnification α. The purpose is to generate speech speed converted speech that is “slowly easier to hear” than the case where the speech speed is converted at a uniform magnification α for the listener who adjusts the bottom of the book so that it is played back.

そのために、(1)基本周波数の高いところは話速を緩め、基本周波数の低いところでは話速を速めること、(2)一息で発声する区間を単位として、その開始部分では話速を緩め、終了点に向かって基本周波数の変化に応じて徐々に話速を速めること、(3)一息で発声する区間同士の間にある無音区間を聴感上違和感のない範囲で短縮すること、などを行う技術が知られている(例えば、特許文献1参照)。   To that end, (1) slow the speech speed at a high fundamental frequency, speed up the speech speed at a low fundamental frequency, and (2) slow the speech speed at the start of the speech utterance as a unit. The speed of speech is gradually increased toward the end point according to the change of the fundamental frequency, and (3) the silent section between the sections uttered at a breath is shortened within a range in which there is no sense of incongruity. A technique is known (see, for example, Patent Document 1).

また、一定以上長い無音区間をポーズ区間とし、ポーズ区間に挟まれた音声区間において、その開始点で話速を緩めるとともに一定時間Tにわたり所定の減少関数に基づき話速を速くしていき、一定時間Tの経過後は、各有声区間における最大基本周波数の大小関係を考慮して話速を緩める率を変える技術が知られている(例えば、特許文献2参照)。   In addition, a silent section longer than a certain length is set as a pause section, and in a voice section sandwiched between pause sections, the speech speed is reduced at the start point, and the speech speed is increased based on a predetermined decrease function over a predetermined time T. A technique is known in which after the time T has elapsed, the rate at which the speech speed is relaxed is changed in consideration of the magnitude relationship of the maximum fundamental frequency in each voiced section (see, for example, Patent Document 2).

また、特許文献1や特許文献2に開示された話速制御において、ポーズ区間に挟まれた音声区間内の短い無音区間に対しても聴感上違和感のない範囲で短縮することを許すとともに、話速変換音声の各部分が、一様な倍率αで話速変換した場合に想定される時刻に対して合っているかほとんど遅れていない場合はその後の話速をできるだけ緩めるように設定し、一様な倍率αで話速変換した場合に想定される時刻に対して遅れている程度が大きい程、その後の話速を緩める度合いをより控えるように設定することで、話速変換音声の各部分が、一様な倍率αで話速変換した場合に想定される時刻に対してできるだけずれを少なくする技術が知られている(例えば、特許文献3参照)。   Further, in the speech speed control disclosed in Patent Document 1 and Patent Document 2, it is allowed to shorten a short silent section within a speech section sandwiched between pause sections within a range in which there is no sense of incongruity in hearing. If each part of the fast-converted speech matches the expected time when the speech speed is converted at a uniform magnification α, or if it is not very late, the subsequent speech speed is set to be as slow as possible. The greater the degree of delay with respect to the time assumed when the speech speed is converted with a large magnification α, the more the degree of slowing down the subsequent speech speed is set, so that each part of the speech speed converted speech is There is known a technique for reducing the deviation as much as possible with respect to the time assumed when the speech speed is converted at a uniform magnification α (see, for example, Patent Document 3).

さらに、入力信号を音声区間と無音区間に分けるとともに、音声区間の話速は緩め、無音区間は短縮することを基本とするが、音声区間の話速を緩めたことにより単位時間当たりの入力信号長に対して出力音声長が延びるため、一時的にメモリに話速変換後の音声を蓄積する必要が生じるが、メモリ量に上限があるため、メモリ量の残量に応じて、音声区間の話速を徐々に速めたり無音区間の削除量を増やしたりする技術が知られている(例えば、特許文献4及び5参照)。   Furthermore, the input signal is divided into a voice interval and a silence interval, and the speech speed of the voice interval is slowed down and the silence interval is shortened. However, the input signal per unit time is reduced by reducing the speech speed of the voice interval. Since the output voice length is longer than the length, it is necessary to temporarily store the voice after speech speed conversion in the memory, but since there is an upper limit on the amount of memory, depending on the remaining amount of memory, Techniques for gradually increasing the speech speed or increasing the amount of silent section deletion are known (see, for example, Patent Documents 4 and 5).

その他、入力信号の大きさ(パワー)や高さ(基本周波数)の増減と話速が反比例する係数か、又は、入力信号の大きさや高さの数値のn乗に話速が反比例する係数によって各部分の話速を決定する技術も知られている(例えば、特許文献6参照)。   In addition, the coefficient is such that the increase / decrease in the magnitude (power) or height (fundamental frequency) of the input signal is inversely proportional to the speech speed, or the coefficient that the speech speed is inversely proportional to the nth power of the magnitude or height of the input signal. A technique for determining the speech speed of each part is also known (see, for example, Patent Document 6).

特許第3249567号公報Japanese Patent No. 3249567 特許第3219892号公報Japanese Patent No. 3219892 特許第3220043号公報Japanese Patent No. 3220043 特許第3357742号公報Japanese Patent No. 3357742 特許第3373933号公報Japanese Patent No. 3373933 特許第3619946号公報Japanese Patent No. 3619946

特許文献1〜5に記載の技術に共通していることは、入力信号を音声のある音声区間と音声のない無音区間とに分け、音声区間では、何らかの情報に基づいてその継続時間を部分ごとに伸縮し、無音区間は短縮して、総合的に全体の音声時間長を調整することである。しかし、入力信号が人の声だけの場合は、これらの方式に問題はないが、放送番組など、背景音と音声が混合している場合に、音声のない背景音だけの区間が、“無音区間”と判定されるか“音声区間”と判定されるかは保証の限りではなく、誤判定が生じた場合には正しい動作は期待できず、話速変換音声は聞きづらいものとなるおそれがある。   What is common to the techniques described in Patent Documents 1 to 5 is that the input signal is divided into a voice section with voice and a silent section without voice. In the voice section, the duration is divided into parts based on some information. The silence period is shortened and the overall voice time length is adjusted comprehensively. However, when the input signal is only a human voice, there is no problem with these methods. However, when the background sound and sound are mixed, such as in a broadcast program, the section with only the background sound without sound is “silent. Whether it is determined to be “section” or “voice section” is not guaranteed, and if an erroneous determination occurs, correct operation cannot be expected, and the speech speed converted speech may be difficult to hear. .

特許文献6に関しては、入力音声の大きさ(パワー)は入力音声の全ての区間で求めることができるが、入力音声の高さ(基本周波数)は、声のあるところであってしかも声帯が振動している“有声音区間”でしか正しく求めることができない。したがって特許文献6に関しても、背景音と音声が混合している場合には、音声のない背景音だけの区間においてはパワーが大きく基本周波数は正しく求められないため、本来音声ではない区間なので話速を速めなければならないにも関わらず、パワーが大きいことからむしろ話速を緩めてしまうことが考えられる。   With respect to Patent Document 6, the magnitude (power) of the input voice can be obtained in all sections of the input voice, but the height (fundamental frequency) of the input voice is where there is a voice and the vocal cords vibrate. It can be obtained correctly only in the “voiced sound section”. Therefore, also in Patent Document 6, when the background sound and the sound are mixed, since the power is large and the fundamental frequency cannot be obtained correctly in the section of only the background sound without the sound, the speech speed is originally a section that is not a sound. Although it is necessary to speed up, it is possible that the speed of the speech will be relaxed because of the high power.

このように、従来の話速変換方法においては、背景音と音声が混合している場合には、音声のある音声区間と、音声のない無音区間の判定が正しく行われない状態になると、適応的な話速変換が期待通りに動作しないという問題があった。   As described above, in the conventional speech speed conversion method, when background sound and voice are mixed, if the determination of the voice section with voice and the silent section without voice is not performed correctly, There was a problem that typical speech speed conversion did not work as expected.

本発明の目的は、上記問題を解決するため、背景音と音声が混合している場合でも、安定して適応的な話速変換倍率を決定可能な話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体を提供することにある。   In order to solve the above problem, an object of the present invention is to provide a speech speed conversion magnification determination device and a speech speed conversion device capable of stably determining an adaptive speech speed conversion magnification even when background sound and sound are mixed. It is to provide a program and a recording medium.

上記課題を解決するために、本発明に係る話速変換倍率決定装置は、入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置であって、入力信号の有音区間と無音区間とを判別する有音無音判定部と、前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間、及び該基本周波数の値が所定の変化幅を超えて変化する不安定区間を決定する基本周波数算出部と、前記安定区間において、前記基本周波数の時間変化を平滑化する周波数平滑化部と、前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部と、前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得る基本周波数概形連結部と、を有し、前記基本周波数の概形の標本値を物理指標として出力する物理指標算出部と、前記物理指標に基づいて、入力信号に指定すべき話速変換倍率を算出する話速変換倍率指定部と、を備えることを特徴とする。   In order to solve the above problems, a speech speed conversion magnification determination device according to the present invention is a speech speed conversion magnification determination device that determines an adaptive conversion magnification of a speech speed of an input signal, and is a voiced interval of an input signal. A stable section in which the fundamental frequency of the input signal is calculated at regular time intervals in the voiced section, and the value of the fundamental frequency changes within a predetermined variation range And a fundamental frequency calculation unit that determines an unstable interval in which the value of the fundamental frequency changes beyond a predetermined change width, and a frequency smoothing unit that smoothes a temporal change in the fundamental frequency in the stable interval; In the unstable section and the silent section, a pseudo fundamental frequency calculator that calculates a pseudo fundamental frequency by interpolating a fundamental frequency with reference to a value of a fundamental frequency in the smoothed stable section, and the smoothed A basic frequency outline connecting unit that connects the fundamental frequency and the pseudo fundamental frequency and obtains a sample value of a series of basic frequencies, and using the sample value of the outline of the basic frequency as a physical index A physical index calculating unit for outputting; and a speech speed conversion magnification specifying unit for calculating a speech speed conversion magnification to be specified for an input signal based on the physical index.

さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、一定の時間間隔で入力信号のパワーを算出するパワー算出部と、前記パワーの時間変化を平滑化してパワーの概形の標本値を得るパワー平滑化部と、を備え、前記基本周波数の概形の標本値及び前記パワーの概形の標本値を前記物理指標として出力することを特徴とする。   Furthermore, in the speech speed conversion magnification determination apparatus according to the present invention, the physical index calculation unit includes a power calculation unit that calculates the power of the input signal at a constant time interval, and smoothes the temporal change of the power so as to approximate the power. A power smoothing unit that obtains a sample value of the shape, and outputs the approximate sample value of the fundamental frequency and the approximate sample value of the power as the physical index.

さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、入力信号波形から有声度を求める有声度算出部と、前記有声度の時間変化を平滑化して有声度の概形の標本値を得る有声度平滑化部と、を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記有声度の概形の標本値を前記物理指標として出力することを特徴とする。   Further, in the speech rate conversion magnification determination apparatus according to the present invention, the physical index calculation unit includes a voicing degree calculation unit that obtains voicing degree from an input signal waveform, and an outline of voicing degree by smoothing a temporal change of the voicing degree A voiciness smoothing unit for obtaining a sample value of the basic frequency, and outputting the sample value of the approximate shape of the fundamental frequency, the sample value of the approximate shape of the power, and the sample value of the approximate shape of the voicing degree as the physical index It is characterized by doing.

さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、前記基本周波数の概形の変化傾向を表す、基本周波数の概形の凹凸度を算出する基本周波数凹凸度算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記基本周波数の概形の凹凸度を前記物理指標として出力することを特徴とする。   Further, in the speech speed conversion magnification determination apparatus according to the present invention, the physical index calculation unit calculates a rough degree of irregularities of the basic frequency representing a change tendency of the rough shapes of the fundamental frequency. And a sample value of the approximate shape of the fundamental frequency, a sample value of the approximate shape of the power, and a degree of unevenness of the approximate shape of the fundamental frequency are output as the physical index.

さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、前記パワーの概形の変化傾向を表す、パワーの概形の凹凸度を算出するパワー凹凸度算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記パワーの概形の凹凸度を前記物理指標として出力することを特徴とする。   Furthermore, in the speech rate conversion magnification determination apparatus according to the present invention, the physical index calculation unit includes a power unevenness degree calculation unit that calculates a degree of unevenness of the power outline, which represents a change tendency of the power outline, The rough sampling value of the fundamental frequency, the rough sampling value of the power, and the roughness of the rough shape of the power are output as the physical index.

さらに、本発明に係る話速変換倍率決定装置において、前記物理指標算出部は、入力信号のパワースペクトルを算出し、第1の周波数帯域における正規化パワー、及び第1の周波数帯域よりも高い第2の周波数帯域における正規化パワーを算出する周波数帯域分割・パワー演算部と、前記第1の周波数帯域及び前記第2の周波数帯域における正規化パワーの比を算出する分割帯域パワー比算出部を備え、前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記第1の周波数帯域及び第2の周波数帯域における正規化パワーの比を前記物理指標として出力することを特徴とする。   Furthermore, in the speech rate conversion magnification determination apparatus according to the present invention, the physical index calculation unit calculates a power spectrum of the input signal, and the normalized power in the first frequency band and the first power higher than the first frequency band. A frequency band division / power calculation unit that calculates normalized power in two frequency bands; and a divided band power ratio calculation unit that calculates a ratio of normalized power in the first frequency band and the second frequency band. Output the approximate sample value of the fundamental frequency, the approximate sample value of the power, and the ratio of normalized power in the first frequency band and the second frequency band as the physical index, To do.

さらに、本発明に係る話速変換倍率決定装置において、前記話速変換倍率指定部は、前記物理指標、及び前記物理指標それぞれの話速に対する寄与率に基づいて、前記話速変換倍率を算出することを特徴とする。   Furthermore, in the speech speed conversion magnification determination apparatus according to the present invention, the speech speed conversion magnification designation unit calculates the speech speed conversion magnification based on the physical index and a contribution rate of each physical index to the speech speed. It is characterized by that.

さらに、本発明に係る話速変換倍率決定装置において、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、入力信号の全体又は各部分の時間長が前記再生すべき時間長に適合するように前記話速変換倍率を微調整して最終話速変換倍率を決定する話速変換倍率微調整部を更に備えることを特徴とする。   Furthermore, in the speech rate conversion magnification determination apparatus according to the present invention, when the time length to be reproduced for each part of the entire input signal or the divided input signal is given, the time length of the whole input signal or each part is determined. It further comprises a speech speed conversion magnification fine adjustment unit that finely adjusts the speech speed conversion magnification to match the time length to be reproduced to determine the final speech speed conversion magnification.

また、上記課題を解決するために、本発明に係る話速変換装置は、入力信号の適応的な話速変換を行う話速変換倍率決定装置であって、上述の話速変換倍率決定装置と、前記話速変換倍率に従って入力信号を話速変換する話速変換部と、を備え、前記話速変換部は、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を前記話速変換倍率により変換した変換信号とを、信号の時系列上で比較して時間的なずれ量を算出し、前記話速変換倍率微調整部は、前記時間的なずれ量に応じて、その後の話速変換倍率を再調整することを特徴とする。   In order to solve the above problem, a speech speed conversion device according to the present invention is a speech speed conversion magnification determination device that performs adaptive speech speed conversion of an input signal, and includes the above-described speech speed conversion magnification determination device and A speech speed conversion unit that converts the input signal according to the speech speed conversion magnification, and the speech speed conversion unit is a time length to be reproduced for each part of the input signal as a whole or in the divided input signal. Is given at a certain time interval, the target signal to be output when it is expanded or contracted at a uniform magnification, and the converted signal obtained by converting the input signal by the speech speed conversion magnification on the time series of the signal. And the speech speed conversion magnification fine adjustment unit re-adjusts the subsequent speech speed conversion magnification according to the temporal displacement.

また、上記課題を解決するために、本発明は、入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置として構成するコンピュータに、入力信号の有音区間と無音区間とを判別するステップと、前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間と、該基本周波数の値が所定の変化幅を超えて変化する不安定区間とを決定するステップと、前記安定区間において、前記基本周波数の時間変化を平滑化するステップと、前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、周波数を内挿した擬似基本周波数を算出するステップと、前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得るステップと、前記基本周波数の概形の標本値に応じて、入力信号に指定すべき話速変換倍率を算出するステップと、を実行させるためのプログラム、及びこのプログラムを記録した記録媒体としても特徴付けられる。   In order to solve the above problems, the present invention provides a computer configured as a speech speed conversion magnification determination device that determines an adaptive conversion magnification of a speech speed of an input signal, and includes a voiced section and a silent section of the input signal. And calculating a fundamental frequency of the input signal at a constant time interval in the sounded section, a stable section in which the value of the fundamental frequency changes within a predetermined change width, and the value of the fundamental frequency is Determining an unstable section that changes beyond a predetermined change width; smoothing a temporal change in the fundamental frequency in the stable section; and smoothing in the unstable section and the silent section. A step of calculating a pseudo fundamental frequency by interpolating the frequency with reference to a value of the fundamental frequency in the stable interval, and the smoothed fundamental frequency and the pseudo fundamental frequency Subsequently, obtaining a sample value of the approximate shape of the fundamental frequency, and calculating a speech rate conversion magnification to be specified for the input signal according to the sample value of the approximate shape of the fundamental frequency, It is also characterized as a program for execution and a recording medium on which the program is recorded.

本発明の提案する入力信号の基本周波数やパワーなどの物理的な特徴量に基づき行う適応的な話速変換よれば、従来、背景音と音声が混合している場合、“音声区間”と“無音区間”の判定が正しく行われない状態になると、適応的な話速変換が期待通りに動作しないという欠点を回避でき、背景音と音声が混合している場合でも、安定して、ゆっくり感を与える効果が高く自然な聞こえとなる、適応的な話速変換が可能となる。   According to the adaptive speech speed conversion performed based on physical features such as the fundamental frequency and power of the input signal proposed by the present invention, conventionally, when background sound and sound are mixed, “speech interval” and “ If the “silence interval” is not correctly judged, the disadvantage that adaptive speech speed conversion does not work as expected can be avoided, and even when background sound and audio are mixed, a stable and slow feeling can be avoided. This makes it possible to perform adaptive speech speed conversion with a high sounding effect and natural sound.

本発明による実施例1の話速変換倍率決定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech-speed conversion magnification determination apparatus of Example 1 by this invention. 基本周波数の概形の算出と仮の伸縮率の決定の例を示す図である。It is a figure which shows the example of calculation of the rough form of a fundamental frequency, and determination of a temporary expansion / contraction rate. 本発明による実施例1の話速変換倍率決定装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the speech-speed conversion magnification determination apparatus of Example 1 by this invention. 本発明による実施例1の話速変換装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech-speed converter of Example 1 by this invention. 本発明による実施例2の話速変換倍率決定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech-speed conversion magnification determination apparatus of Example 2 by this invention. パワーの概形の算出と仮の伸縮率の決定の例を示す図である。It is a figure which shows the example of calculation of the outline of power, and determination of the temporary expansion-contraction rate. 本発明による実施例2の話速変換倍率決定装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the speech-speed conversion magnification determination apparatus of Example 2 by this invention. 本発明による実施例3の構成を示すブロック図である。It is a block diagram which shows the structure of Example 3 by this invention. 自己相関関数の算出を説明する図である。It is a figure explaining calculation of an autocorrelation function. 本発明による実施例3の話速変換倍率決定装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the speech-speed conversion magnification determination apparatus of Example 3 by this invention.

以下、本発明の実施の形態について、図面を参照して詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明による実施例1の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置1aは、物理指標算出部2と、話速変換倍率決定部3とを備え、これにより、入力信号の適応的話速変換を行う。物理指標算出部2は、入力信号の物理指標を算出する。話速変換倍率決定部3は、物理指標算出部2から入力される物理指標に基づいて、入力信号の各セグメント(区間)に指定すべき話速変換倍率αを決定する。ここで、添え字nは、入力信号を冒頭から単位時間(一定の時間間隔、例えば5ms)ごとに区切った場合の何番目の位置かを示す整数値である。以後、単位時間あたりのセグメントの一例として、この区切り間隔を5msとして説明する。 FIG. 1 is a block diagram showing the configuration of the speech speed conversion magnification determining apparatus according to the first embodiment of the present invention. The speech speed conversion magnification determination apparatus 1a of the present embodiment includes a physical index calculation unit 2 and a speech speed conversion magnification determination unit 3, thereby performing adaptive speech speed conversion of an input signal. The physical index calculation unit 2 calculates a physical index of the input signal. The speech speed conversion magnification determination unit 3 determines the speech speed conversion magnification α n to be specified for each segment (section) of the input signal based on the physical index input from the physical index calculation unit 2. Here, the subscript n is an integer value indicating the position of the input signal when the input signal is divided every unit time (fixed time interval, for example, 5 ms) from the beginning. Hereinafter, as an example of the segment per unit time, this separation interval will be described as 5 ms.

物理指標算出部2は、基本周波数概形算出部100を備え、基本周波数概形算出部100は、有音/無音判定部102と、基本周波数算出部104と、平滑化部106と、擬似基本周波数算出部108と、基本周波数概形連結部110とを有する。話速変換倍率決定部3は、第1の話速変換倍率指定部(話速変換倍率指定部a)120と、話速変換倍率微調整部140とを備える。   The physical index calculation unit 2 includes a basic frequency outline calculation unit 100. The basic frequency outline calculation unit 100 includes a sound / silence determination unit 102, a basic frequency calculation unit 104, a smoothing unit 106, and a pseudo basic. The frequency calculation unit 108 and the basic frequency outline connecting unit 110 are included. The speech speed conversion magnification determination unit 3 includes a first speech speed conversion magnification designation unit (speech speed conversion magnification designation unit a) 120 and a speech speed conversion magnification fine adjustment unit 140.

本実施例の話速変換倍率決定装置1aは、包括的には、入力信号における単位時間(5ms)ごとの基本周波数及び擬似基本周波数の変化の概形を表すFを「物理指標」として用いて、入力信号の各セグメントに指定すべき話速変換倍率αを決定する。 Speech speed conversion magnification determining device 1a of this embodiment, the comprehensive, with F n representing the envelope of the variation of the fundamental frequency and pseudo fundamental frequency of each unit in the input signal time (5 ms) as "physical index" Thus, the speech speed conversion magnification α n to be specified for each segment of the input signal is determined.

以下、物理指標Fに基づく入力信号に対する各区間の話速変換倍率の決定について順に説明する。ここで、話速変換倍率とは、入力信号の再生速度の変換倍率のことであり、単位時間当たりの信号区間に対する時間的な伸縮率の逆数に相当する。 Hereinafter, the determination of the speech speed conversion ratio for each of the intervals for the input signal based on a physical index F n will be described in order. Here, the speech rate conversion magnification refers to the conversion rate of the reproduction speed of the input signal, and corresponds to the reciprocal of the temporal expansion / contraction rate for the signal interval per unit time.

(物理指標Fの算出)
まず、物理指標Fの算出について図1及び図2を参照して説明する。図2は、基本周波数の概形の算出と仮の伸縮率の決定の例を示す図である。
(Calculation of physical indicators F n)
First, it will be described with reference to FIGS. 1 and 2 for the calculation of physical indicators F n. FIG. 2 is a diagram illustrating an example of calculation of a rough shape of a fundamental frequency and determination of a temporary expansion / contraction rate.

有音/無音判定部102は、入力信号からその振幅やパワーを算出し、その大きさに基づいて、“声”又は“背景音”(音楽や雑音)、あるいはその両方が同時に存在する部分である「有音区間」と、音が無い「無音区間」とを判別する。例えば、入力信号の振幅又はパワーが所定の閾値を超える場合には有音区間と判別し、所定の閾値未満である場合には無音区間と判別する。   The voice / silence determination unit 102 calculates the amplitude and power from the input signal and, based on the magnitude, “voice” and / or “background sound” (music and noise), or a portion where both exist simultaneously. A certain “sound section” is distinguished from a “silent section” without sound. For example, when the amplitude or power of the input signal exceeds a predetermined threshold, it is determined as a voiced section, and when it is less than the predetermined threshold, it is determined as a silent section.

ここで、パワーの閾値を用いる簡単な具体例を説明する。n番目のセグメントの中心と窓幅20msに相当するハミング窓h(k)の中心を合わせて入力信号x(k)を切り出し、その標本点数がK個であり、入力信号の量子化精度が16bitであったとすると、そのセグメントのパワーを、次式(1)で定義する。   Here, a simple specific example using the power threshold will be described. The input signal x (k) is cut out by aligning the center of the nth segment and the center of the Hamming window h (k) corresponding to the window width of 20 ms, the number of sampling points is K, and the quantization accuracy of the input signal is 16 bits. If so, the power of the segment is defined by the following equation (1).

そして、有音/無音判定部102は、有音区間の信号を基本周波数算出部104に出力し、無音区間の信号を擬似基本周波数算出部108に出力する。図2(a)は有音/無音判定部102により有音区間と判別された、入力信号波形の例を示す図である。   Then, the sound / silence determination unit 102 outputs the signal of the sound period to the fundamental frequency calculation unit 104 and outputs the signal of the sound period to the pseudo fundamental frequency calculation unit 108. FIG. 2A is a diagram illustrating an example of an input signal waveform that is determined as a sound section by the sound / silence determination unit 102.

基本周波数算出部104は、有音/無音判定部102から入力される、有音区間と判別された入力信号に対して、単位時間(一定の時間間隔、例えば5ms)ごとに基本周波数を算出し、算出した基本周波数の値が所定の変化幅内で安定してほぼ連続的な変化をする区間を「安定区間」として決定し、算出される基本周波数の値が安定せず不連続で変化が激しい区間を「不安定区間」として決定する。そして、基本周波数算出部104は、各安定区間内の基本周波数を特定し、特定した各安定区間内の基本周波数を平滑化部106に出力し、不安定区間の信号を擬似基本周波数算出部108に出力する。基本周波数算出部104は、「不安定区間」の各基本周波数の値は全て棄却する。なお、単位時間ごとの基本周波数は、任意の既知の技術を用いて算出することができる(例えば、特許第3219868号公報参照)。図2(b)は、図2(a)に示される入力信号の単位時間ごとの基本周波数をプロットで示している。また、図2(b)は、「安定区間」を四角の枠で囲って示しており、それ以外の区間は「不安定区間」であることを示している。   The fundamental frequency calculation unit 104 calculates a fundamental frequency for each unit time (a constant time interval, for example, 5 ms) for the input signal that is input from the sound / silence determination unit 102 and is determined to be a sound section. , The section where the calculated fundamental frequency value is stable and almost continuously changing within a predetermined change width is determined as the “stable section”, and the calculated fundamental frequency value is not stable and changes discontinuously. A severe section is determined as an “unstable section”. Then, the fundamental frequency calculation unit 104 identifies the fundamental frequency in each stable interval, outputs the identified fundamental frequency in each stable interval to the smoothing unit 106, and outputs the signal in the unstable interval to the pseudo fundamental frequency calculation unit 108. Output to. The fundamental frequency calculation unit 104 rejects all fundamental frequency values in the “unstable section”. Note that the fundamental frequency for each unit time can be calculated using any known technique (for example, see Japanese Patent No. 3219868). FIG. 2B shows the fundamental frequency for each unit time of the input signal shown in FIG. FIG. 2B shows a “stable section” surrounded by a square frame, and the other sections are “unstable sections”.

平滑化部106は、基本周波数算出部104から入力される各安定区間の基本周波数がより滑らかな軌跡となるように、各安定区間の基本周波数からなる軌跡の平滑化を行う。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いるのが好適である。また、平滑化部106は、安定区間の平滑化した軌跡の基本周波数の値を擬似基本周波数算出部108及び基本周波数概形連結部110に出力する。図2(b)は、平滑化した基本周波数の軌跡を太い線で示している。   The smoothing unit 106 smoothes the trajectory composed of the fundamental frequency of each stable section so that the fundamental frequency of each stable section input from the fundamental frequency calculation unit 104 becomes a smoother trajectory. For this smoothing, it is preferable to use a low-pass filter having a cutoff frequency of about 3 to 6 Hz. Further, the smoothing unit 106 outputs the value of the fundamental frequency of the smoothed locus in the stable section to the pseudo fundamental frequency calculation unit 108 and the fundamental frequency outline connecting unit 110. FIG. 2B shows the locus of the smoothed fundamental frequency with a thick line.

擬似基本周波数算出部108は、平滑化部106から供給される安定区間の平滑化した軌跡の基本周波数の各値を用いて、補間関数(例えばスプライン関数)により補間することにより、無音区間及び不安定区間における擬似的な基本周波数(擬似基本周波数)を算出し、算出した擬似基本周波数を基本周波数概形連結部110に出力する。図2(b)は、擬似的な基本周波数の基本周波数を細い線で示している。   The pseudo fundamental frequency calculation unit 108 uses each value of the fundamental frequency of the smoothed trajectory of the stable section supplied from the smoothing unit 106, and interpolates with an interpolation function (for example, a spline function), thereby generating a silent section and a non-interval. A pseudo fundamental frequency (pseudo fundamental frequency) in the stable section is calculated, and the calculated pseudo fundamental frequency is output to the fundamental frequency outline connecting unit 110. FIG. 2B shows the fundamental frequency of the pseudo fundamental frequency with a thin line.

基本周波数概形連結部110は、平滑化部106から供給される安定区間の平滑化した軌跡の基本周波数の値と、擬似基本周波数算出部108から供給される無音区間及び不安定区間の擬似基本周波数の値とを連結して、処理対象の入力信号の全ての区間(単位時間ごと)にわたる、基本周波数及び擬似基本周波数からなる連続な軌跡(以下、「基本周波数の概形」と称する)を求め、基本周波数の概形を単位時間ごとに標本化した値(以下、「基本周波数の概形の標本値」と称する)Fを話速変換倍率決定部3の第1の話速変換倍率指定部(話速変換倍率指定部a)120に出力する。 The fundamental frequency outline linking unit 110 includes the value of the fundamental frequency of the smoothed trajectory of the stable section supplied from the smoothing unit 106, and the pseudo fundamental of the silent section and the unstable section supplied from the pseudo fundamental frequency calculation unit 108. A continuous trajectory composed of the fundamental frequency and the pseudo fundamental frequency (hereinafter referred to as “general shape of the fundamental frequency”) over the entire interval (unit time) of the input signal to be processed by connecting the frequency value. A value obtained by sampling the outline of the fundamental frequency per unit time (hereinafter referred to as “sample value of the outline of the fundamental frequency”) Fn is the first speech speed conversion magnification of the speech speed conversion magnification determining unit 3 The data is output to the designation unit (speech speed conversion magnification designation unit a) 120.

(話速変換倍率の決定)
次に、話速変換倍率の決定について、図1及び図2を参照して説明する。第1の話速変換倍率指定部(話速変換倍率指定部a)120は、基本周波数の概形の標本値Fの値が大きい部分では、単位時間ごとの話速変換倍率(以下、単に「話速変換倍率」と称する)αaを相対的に小さく(ゆっくりな話速に)し、基本周波数の概形の標本値Fの値が小さい部分では、話速変換倍率αaを相対的に大きく(速い話速に)することを基本とする。すなわち、声(基本周波数)の高い部分では話速変換倍率αaを相対的に小さくし、声の低い部分では話速変換倍率αaを相対的に大きくする。これは、声の高い部分は意味が強調され、文の中で重要な内容である可能性があるためであり、相対的に話速をゆっくりにすることで、話速変換された言葉の内容の理解に有利に働くと考えられる。
(Determination of speech rate conversion magnification)
Next, determination of the speech speed conversion magnification will be described with reference to FIGS. The first speech speed conversion magnification designation unit (speech speed conversion magnification designation unit a) 120 has a speech speed conversion magnification for each unit time (hereinafter simply referred to as “speech speed conversion magnification designation unit a”) in a portion where the sample value F n of the approximate shape of the fundamental frequency is large. referred to as "speech speed conversion ratio") of .alpha.a n relatively small and (slowly speech speed), the sample value F n value is less part of the envelope of the fundamental frequency, relative to the speech speed conversion ratio .alpha.a n Basically, it should be large (fast speaking speed). That is, relatively small speech speed conversion ratio .alpha.a n is portion with high voice (fundamental frequency), the lower part of the voice relatively large speech speed conversion ratio .alpha.a n. This is because the high voice part is emphasized in meaning and may be an important content in the sentence. It seems to work in favor of understanding.

また、前述のように、無音区間及び不安定区間は音声ではない可能性が高いため、相対的に話速を速めても内容の理解に対する悪影響が少ないと考えられる。擬似基本周波数算出部108においては、その前後の安定区間の基本周波数を使って、その区間の擬似基本周波数をスプライン補間等で算出しているが、一般的な人の発声の物理的特徴として、図2(b)の時刻150msからの話し始めの部分では、基本周波数の変化が右上がりになり、ポーズの直前、すなわち図2の時刻1500ms付近では、基本周波数の変化が右下がりになる。したがって、図2には示されていないが、ある一つのポーズ区間(背景音だけの区間を含む)の擬似基本周波数としては、下に凸の谷状に補間されることが多い。すなわち、その部分の基本周波数の概形の標本値Fの値は相対的に小さくなり、結果的に話速変換倍率αaが高くなり話速が速まるように動作する。 Further, as described above, since there is a high possibility that the silent section and the unstable section are not voices, it is considered that there is little adverse effect on the understanding of the content even if the speech speed is relatively increased. In the pseudo fundamental frequency calculation unit 108, the pseudo fundamental frequency of the stable section before and after the pseudo fundamental frequency is calculated by spline interpolation or the like, but as a physical characteristic of general human speech, 2B, the change in the fundamental frequency rises to the right at the beginning of the talk from time 150ms, and the change in the fundamental frequency falls to the right immediately before the pause, that is, in the vicinity of time 1500ms in FIG. Therefore, although not shown in FIG. 2, the pseudo fundamental frequency of a certain pause section (including a section of only background sound) is often interpolated in a downwardly convex valley shape. That is, the value of envelope sample value F n of the fundamental frequency of that portion becomes relatively small, resulting in the speech speed conversion ratio .alpha.a n becomes high speech rate operates to quickened.

次に、基本周波数の概形の標本値Fを用いた具体的な話速倍率の決定方法について、いくつかの例を説明する。第1の話速変換倍率指定部(話速変換倍率指定部a)120は、基本周波数の概形の標本値Fの数が有限の場合は、その中央値を用いて全体を正規化する。例えば、中央値の値を1.0とみなし、最大値と最小値のうち、最大値のほうが中央値との差が大きい場合は、最大値を2.0とみなして、全ての基本周波数の概形の標本値Fについて比例配分で0〜2の間の値を新たに割り当て、その値を単位時間(5ms)ごとの仮の伸縮率F'と定める。最大値と最小値のうち、最小値のほうが中央値との差が大きい場合は、最小値を0.0とみなして同様の操作を行う。基本周波数の概形の標本値Fの対数logFを求めた後に同様の操作を行ってもよい。さらに、中央値の代わりに、全ての基本周波数の概形の標本値Fの平均値や、最大値と最小値の平均値を用いてもよい。図2(c)は、図2(b)に示される基本周波数の概形の標本値Fに対応する仮の伸縮率F'を示している。この例では、周波数(縦軸)を対数スケールとしているため、logFによる基本周波数の概形を基にF'を算出している。 Next, a specific method of determining the speech speed ratio using the sample value F n of envelope of the fundamental frequency, illustrating a few examples. When the number of sample values F n of the approximate shape of the fundamental frequency is finite, the first speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit a) 120 normalizes the whole using the median value. . For example, when the median value is regarded as 1.0 and the difference between the maximum value and the median value is larger between the maximum value and the minimum value, the maximum value is regarded as 2.0 and all the fundamental frequencies are A value between 0 and 2 is newly assigned to the approximate sample value F n by proportional distribution, and the value is determined as a temporary expansion / contraction rate F ′ n per unit time (5 ms). When the difference between the minimum value and the median value is larger among the maximum value and the minimum value, the same operation is performed with the minimum value regarded as 0.0. Or by performing the same operations after obtaining the logarithm logF n sample values F n of envelope of the fundamental frequency. Further, instead of the median, the mean value and the sample value F n of envelope of all of the fundamental frequency may be used an average value of the maximum and minimum values. FIG. 2C shows a temporary expansion / contraction rate F ′ n corresponding to the approximate sample value F n of the fundamental frequency shown in FIG. In this example, since the frequency (vertical axis) is a logarithmic scale, F ′ n is calculated based on the outline of the fundamental frequency by logF n .

話速変換倍率決定装置1aがリアルタイムで動作して、逐次的に入力信号を話速変換していく必要がある場合には、基本周波数の概形の標本値Fの数が決まらない。そこで、例えば過去3秒以内の基本周波数の概形の標本値Fの値を保持しておき、その最大値、最小値、又は中央値等を用いて、現在の時刻の基本周波数の概形の標本値Fの値を正規化し、これを仮の伸縮率F'としてもよい。但し、この場合、物理指標算出部2において、平滑部106では、過去と現在の基本周波数の算出結果だけを用いて、平滑化の計算を行う。擬似基本周波数算出部108においても、過去の平滑部106の出力を用いてスプライン関数等による補間値の算出を行う。但し、上述したように、話し終わりでは基本周波数の変化が右下がりになるため、その後ろの擬似基本周波数を過去の平滑部106の出力のみを用いて補間していると、どんどん値が下がっていくので、擬似基本周波数に下限値(例えば過去3秒以内の基本周波数の概形の標本値Fの値の平均値の1/2の値など)を設けるなどして対処する。 Speech speed conversion-magnification determining device 1a operates in real time, when the sequentially input signals it is necessary to convert the speech speed is not determined that the number of sampled values F n of envelope of the fundamental frequency. Therefore, for example, it holds the value of the sample value F n of envelope of the fundamental frequency within the past 3 seconds, the maximum, minimum, or by using a central value, etc., envelope of the fundamental frequency of the current time It is also possible to normalize the value of the sample value F n and to set it as the provisional expansion / contraction rate F ′ n . However, in this case, in the physical index calculation unit 2, the smoothing unit 106 performs smoothing calculation using only the calculation results of the past and current fundamental frequencies. The pseudo fundamental frequency calculation unit 108 also calculates an interpolation value using a spline function or the like using the output of the past smoothing unit 106. However, as described above, since the change in the fundamental frequency decreases to the right at the end of the talk, if the pseudo fundamental frequency after that is interpolated using only the output of the past smoothing unit 106, the value decreases more and more. since going to deal with such provision lower limit to the pseudo fundamental frequency (e.g., 1/2 of the average value of sampled values F n of envelope of the fundamental frequency within the past 3 seconds).

次に、仮の伸縮率F'の値に応じた話速変換倍率αaの算出について説明する。上述したように、仮の伸縮率F'の値は0〜2の間で正規化されているので、第1の話速変換倍率指定部(話速変換倍率指定部a)120は、例えば次式(2),(3)により、話速変換倍率αaを算出する。 Next, describing calculation of speech speed conversion ratio .alpha.a n corresponding to the value of the scaling factor F 'n provisional. As described above, the value of the scaling factor F 'n tentative are normalized between 0 to 2, the first speech speed conversion magnification specifying unit (speech speed conversion ratio specifying section a) 120, for example following formula (2) and (3), calculates the speech speed conversion ratio .alpha.a n.

最後に、話速変換倍率微調整部140おける動作を説明する。入力信号の先頭から単位時間(5ms)おきに数えてn番目に与える話速αは、式(2)、(3)により求まる。 Finally, the operation in the speech speed conversion magnification fine adjustment unit 140 will be described. The speech speed α n given to the n-th counting unit time (5 ms) from the beginning of the input signal is obtained by equations (2) and (3).

入力信号全体に対する話速変換倍率α(倍速α)(以下、「再生速度変換倍率」と称する)が与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、0.5〜5.0などの任意の値を設定できる。再生速度変換倍率αが与えられた場合、入力信号全体の長さをL(単位は秒)とすると、変換後の信号全体の長さはL/αにならなければいけない。そこで、まず話速変換倍率微調整部140は、全ての入力信号区間を話速変換し、全体として接続後の変換音声の長さLを先に算出する。 When a speech speed conversion magnification α (double speed α) (hereinafter referred to as “reproduction speed conversion magnification”) is given to the entire input signal, this is finely adjusted by the following procedure. As the reproduction speed conversion magnification α, an arbitrary value such as 0.5 to 5.0 can be set. When the reproduction speed conversion magnification α is given, if the length of the entire input signal is L (unit is second), the length of the entire converted signal must be L / α. Therefore, first, the speech speed conversion magnification fine adjustment unit 140 performs speech speed conversion on all input signal sections, and first calculates the length L 0 of the converted speech after connection as a whole.

次に、次式(4)によって、話速変換倍率αaを微調整して最終的な話速変換倍率αを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
α=αa×L/(L/α) (4)
Then, the following equation (4), the speech speed conversion ratio αa by n a fine adjustment to determine the final speech speed conversion ratio alpha n, the time length to be reproduced the entire length of the converted signal Can be adapted to
α n = αa n × L 0 / (L / α) (4)

できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込む場合には、入力信号全体の長さLではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うように話速変換倍率αを修正する。例えば、L=L+L+・・・+LのようにM個に分割できる場合には、L、L、・・・、Lの区間ごとに入力波形を分割し、それぞれの分割区間において、m番目の区間では、まずその区間の話速変換倍率αaを用いてこのm番目の区間を話速変換して、接続済みの変換音声の部分長Lmを先に算出し、式(4)のLの代わりにLmを、Lの代わりにLmを設定して各話速変換倍率αを求め、再度話速変換することで微調整を行う。 When adjusting to the same timing as the voice converted uniformly at the playback speed conversion magnification α as frequently as possible, not the length L of the entire input signal but the length of the voice divided into shorter units. Thus, the speech speed conversion magnification α n is corrected so as to perform fine adjustment. For example, if it can be divided into M as L = L 1 + L 2 + ··· + L M is, L 1, L 2, · · ·, divides the input waveform on each section of the L M, respectively in divided section, the m th interval, first the speech speed conversion ratio .alpha.a n of the section of this m-th section by converting speech rate using the partial length Lm 0 of connected converter voice calculated above In the equation (4), Lm is set in place of L and Lm 0 is set in place of L 0 to obtain each speech speed conversion magnification α n and fine adjustment is performed by converting the speech speed again.

なお、話速変換倍率αを実現するための話速変換(波形の伸縮)方法は、様々な方法がすでに提案されているが、声の高さを保つ方法として、PICOLA(Pointer Interval Controlled OverLap and Add)法、TDHS(Time Domain Harmonic Scaling)法、PSOLA(Pitch Synchronous OverLap Add)法などがあり、これ以外にも特許第2612868号公報、特許第3083830号公報、特許第2955247号公報等に開示される波形伸縮法があり、いずれの波形伸縮法を用いてもよい。 Various methods of speech speed conversion (waveform expansion / contraction) for realizing the speech speed conversion magnification α n have already been proposed. However, as a method for maintaining voice pitch, PICOLA (Pointer Interval Controlled OverLap) and Add) method, TDHS (Time Domain Harmonic Scaling) method, PSOLA (Pitch Synchronous OverLap Add) method, and the like. Other than this, it is disclosed in Japanese Patent No. 2612868, Japanese Patent No. 3083830, Japanese Patent No. 2955247, etc. There is a waveform expansion / contraction method, and any waveform expansion / contraction method may be used.

図3は、実施例1の話速変換倍率決定装置1aの動作を示すフローチャートである。話速変換倍率決定装置1aは、話速変換する信号を入力する(ステップS101)。話速変換する信号が入力されると、話速変換倍率決定装置1aは、有音/無音判定部102により、入力信号の有音区間と無音区間とを判別する(ステップS102)。ステップS102により有音区間と判別された場合には、話速変換倍率決定装置1aは、基本周波数算出部104により、単位時間ごとに基本周波数を算出し(ステップS103)、基本周波数の変化度合いに基づいて安定区間であるか不安定区間であるかを判別する(ステップS104)。ステップS104により安定区間であると判別された場合には、話速変換倍率決定装置1aは、平滑化部106により、各安定区間の基本周波数からなる軌跡の平滑化を行う(ステップS105)。   FIG. 3 is a flowchart illustrating the operation of the speech speed conversion magnification determination apparatus 1a according to the first embodiment. The speech speed conversion magnification determination apparatus 1a inputs a signal for speech speed conversion (step S101). When a signal for speech speed conversion is input, the speech speed conversion magnification determination apparatus 1a determines a sound section and a silence section of the input signal by the sound / silence determination unit 102 (step S102). When it is determined in step S102 that the voice section is present, the speech rate conversion magnification determination apparatus 1a calculates the fundamental frequency for each unit time by the fundamental frequency calculation unit 104 (step S103), and determines the degree of change in the fundamental frequency. Based on this, it is determined whether it is a stable section or an unstable section (step S104). If it is determined in step S104 that it is a stable section, the speech rate conversion magnification determination apparatus 1a smoothes the trajectory composed of the fundamental frequency of each stable section by the smoothing unit 106 (step S105).

一方、ステップS102により無音区間と判別された場合、又はステップS104により不安定区間であると判別された場合には、話速変換倍率決定装置1aは、擬似基本周波数算出部108により、安定区間の平滑化した軌跡の基本周波数の各値を用いて、補間関数により補間することにより、無音区間及び不安定区間における擬似基本周波数を算出する(ステップS106)。一般に、雑音や音楽などの背景音だけの部分では、基本周波数を安定的に算出することができないので、この擬似基本周波数の算出を行うことになる。また、入力信号に雑音や背景音が存在しない部分があった場合には、その部分において検出された「無音区間」では基本周波数を算出せず、基本周波数が安定的に求まった区間の値を参照して内挿し、擬似基本周波数を求める。   On the other hand, if it is determined in step S102 that it is a silent section, or if it is determined in step S104 that it is an unstable section, the speech speed conversion magnification determination apparatus 1a uses the pseudo fundamental frequency calculation unit 108 to determine the stable section. By using each value of the smoothed fundamental frequency of the trajectory and interpolating with an interpolation function, a pseudo fundamental frequency in a silent section and an unstable section is calculated (step S106). In general, since the fundamental frequency cannot be stably calculated only for the background sound such as noise and music, the pseudo fundamental frequency is calculated. In addition, if there is a part where no noise or background sound exists in the input signal, the fundamental frequency is not calculated in the “silent period” detected in that part, and the value of the period in which the fundamental frequency is stably obtained is calculated. Interpolate with reference to determine the pseudo fundamental frequency.

そして、話速変換倍率決定装置1aは、基本周波数概形連結部110により、ステップS105にて平滑化された安定区間の軌跡の基本周波数の値と、ステップS106にて算出された無音区間及び不安定区間の擬似基本周波数の値とを連結して、基本周波数の概形の標本値Fを導出する(ステップS107)。次に、話速変換倍率決定装置1aは、第1の話速変換倍率指定部(話速変換倍率指定部a)120により、基本周波数の概形の標本値Fの値に基づいて話速変換倍率αaを算出する(ステップS108)。基本周波数の概形の標本値F値が大きい部分ではその程度に応じて話速を緩め、値が小さい部分ではその程度に応じて話速を速める。これにより、入力信号に雑音や背景音が混在する場合でも、安定的に、全体として目的の時間長に合わせながら、適応的な話速変換が可能となる。最後に、話速変換倍率決定装置1aは、話速変換倍率微調整部140により、再生速度変換倍率αが与えられると、最終話速変換倍率αを決定する(ステップS109)。 Then, the speech speed conversion magnification determination device 1a uses the fundamental frequency outline linking unit 110 to calculate the fundamental frequency value of the stable section trajectory smoothed in step S105, the silent section and the non-interval calculated in step S106. The value of the pseudo fundamental frequency in the stable interval is connected to derive a sample value F n of the basic shape of the fundamental frequency (step S107). Then, the speech speed conversion ratio determination apparatus 1a, the first speech speed conversion magnification specifying unit (speech speed conversion ratio specifying section a) 120, speech rate based on the value of the sampled values F n of envelope of the fundamental frequency calculating the conversion ratio .alpha.a n (step S108). The envelope sample value F n value is large portion of the fundamental frequency loosen the speech speed according to the degree that, in the partial value is smaller accelerate speech speed depending on the degree thereof. As a result, even when noise and background sound are mixed in the input signal, adaptive speech speed conversion can be stably performed while adjusting to the target time length as a whole. Finally, when the playback speed conversion magnification α is given by the speech speed conversion magnification fine adjustment unit 140, the speech speed conversion magnification determination device 1a determines the final speech speed conversion magnification α n (step S109).

このように、本実施例の話速変換倍率決定装置1aによれば、背景音と音声が混合している場合でも、適応的な話速変換が可能となる。また、話速変換倍率微調整部140を備えることにより、1倍速(元の時間長で再生)や2倍速(実時間の半分の時間長で再生)といった任意の再生速度変換倍率αが与えられた場合に、各部分によって再生速度変換倍率αより大きい倍率や小さい倍率で速度を変える際、全体としては一様な再生速度変換倍率αで話速変換したのと同じ時間で再生するように帳尻を合わせるよう、逐次話速を微調整して、結果的に、一様な再生速度変換倍率αで話速変換した場合と同じ時間長で、話速変換音声の生成を行うことが可能となる。所定の規則によりN個に分割した各部分に対して、それぞれ所定の時間長が設定された場合においては、分割した各部分、W,W,W,・・・,Wに与えられた各時間長に適合させるための一様な再生速度変換倍率α,α,α,・・・,αで話速変換したのと同じ時間で再生するように帳尻を合わせるよう、逐次話速を微調整する。 Thus, according to the speech speed conversion magnification determination device 1a of the present embodiment, adaptive speech speed conversion is possible even when background sound and sound are mixed. Further, by providing the speech speed conversion magnification fine adjustment unit 140, an arbitrary reproduction speed conversion magnification α such as 1 × speed (reproduction with the original time length) or 2 × speed (reproduction with a time length that is half the real time) is given. When changing the speed at a magnification larger or smaller than the playback speed conversion magnification α depending on each part, the whole book is played back at the same time as the speech speed conversion at the uniform playback speed conversion magnification α. As a result, it is possible to finely adjust the speech speed so that the speech speed is converted, and as a result, the speech speed converted speech can be generated with the same time length as when the speech speed is converted with the uniform playback speed conversion magnification α. . When a predetermined time length is set for each of the parts divided into N parts according to a predetermined rule, the divided parts are given to W 1 , W 2 , W 3 ,..., W N. uniform reproduction speed conversion ratio alpha 1 for adapting to the length of time is, α 2, α 3, ··· , to adjust the balance out to play at the same time as that speech speed conversion alpha N Fine-tune the speaking speed sequentially.

(話速変換装置)
次に、話速変換装置について、図4を参照して説明する。図4は、本発明による実施例1の話速変換装置の構成を示すブロック図である。話速変換装置10aは、上述の話速変換倍率決定装置1aと、話速変換部4とを備える。話速変換部4は、話速変換倍率決定装置1aにより決定された話速変換倍率に従って入力信号を話速変換する。
(Speaking speed converter)
Next, the speech speed conversion device will be described with reference to FIG. FIG. 4 is a block diagram showing the configuration of the speech speed conversion apparatus according to the first embodiment of the present invention. The speech speed conversion device 10 a includes the above-described speech speed conversion magnification determination device 1 a and the speech speed conversion unit 4. The speech speed conversion unit 4 converts the input signal according to the speech speed conversion magnification determined by the speech speed conversion magnification determination device 1a.

話速変換部4は、リアルタイムで動作して、逐次的に入力信号を話速変換して出力していく必要がある場合においては、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を話速変換倍率により変換した変換信号とを、信号の時系列上で比較し、その時間的なずれの情報を話速変換倍率決定装置1aに戻し、話速変換倍率決定装置1aの話速変換倍率微調整部140において、ずれ量に応じて、その後の話速変換倍率を再調整する。   The speech speed conversion unit 4 operates in real time, and when it is necessary to sequentially convert and output the input signal, the speech speed conversion unit 4 applies to the entire input signal or each part of the divided input signal. Given the length of time to be played back, the target signal to be output when it is expanded or contracted at a uniform magnification at a certain time interval, and the converted signal obtained by converting the input signal by the speech speed conversion magnification, Are compared with each other on the time series, and the information on the temporal shift is returned to the speech speed conversion magnification determination device 1a. In the speech speed conversion magnification fine adjustment unit 140 of the speech speed conversion magnification determination device 1a, according to the shift amount, Readjust the subsequent speech speed conversion magnification.

つまり、話速変換部4では、再生速度変換倍率αによって、過去の入力信号のどの部分も一様な倍率で伸縮させたとした場合に出力されるべき信号と、実際に話速変換倍率決定装置1aから出力されたαに応じて適応的な話速変換倍率で話速変換されて出力される信号とを、信号の時系列上でLmの時間間隔で比較する。そして、その時点における、適応的な話速変換の出力信号が、仮想的な一様伸縮の話速変換の出力信号よりも時間的に前の音声内容であるとき(再生速度変換倍率αが1より小さい場合に生じる)は、その時間的なずれ量の情報を話速変換倍率決定装置1aの話速変換倍率微調整部140に戻し、話速変換倍率微調整部140ではそのずれ量に応じて、その後の各音声区間に与える話速変換倍率αを高速度側に僅かにシフトする微調整を付加する。 That is, in the speech speed conversion unit 4, a signal to be output when any part of the past input signal is expanded / contracted at a uniform magnification by the reproduction speed conversion magnification α, and the speech speed conversion magnification determination device. The signal output after the speech speed conversion is performed at an adaptive speech speed conversion magnification according to α n output from 1a is compared at a time interval of Lm on the signal time series. Then, when the output signal of the adaptive speech speed conversion at that time is the audio content temporally before the output signal of the virtual uniform expansion / contraction speech speed conversion (reproduction speed conversion magnification α is 1). Is smaller), the information on the amount of temporal deviation is returned to the speech speed conversion magnification fine adjustment unit 140 of the speech speed conversion magnification determination device 1a, and the speech speed conversion magnification fine adjustment unit 140 responds to the amount of deviation. Thus, a fine adjustment for slightly shifting the speech speed conversion magnification α n given to each subsequent speech section to the high speed side is added.

また、話速変換部4で、実際に話速変換倍率決定装置1aから出力されたαに応じて適応的な話速変換倍率で話速変換されて出力される信号が、仮想的な一様伸縮の話速変換の出力信号よりも時間的に後の音声内容であるとき(再生速度変換倍率αは1より小さくても大きくてもあり得る)は、その時間的なずれ量の情報を話速変換倍率決定装置1aの話速変換倍率微調整部140に戻し、話速変換倍率微調整部140ではそのずれ量に応じて、その後の各音声区間に与える話速変換倍率αを低速度側に僅かにシフトする微調整を付加する。 In addition, a signal that is converted by the speech speed conversion unit 4 at an adaptive speech speed conversion magnification according to α n that is actually output from the speech speed conversion magnification determination device 1a is output as a virtual one. When the audio content is temporally later than the output signal of the speech rate conversion of the expansion and contraction (the playback speed conversion magnification α may be smaller or larger than 1), information on the temporal deviation amount is obtained. The speech speed conversion magnification fine adjustment unit 140 of the speech speed conversion magnification determination apparatus 1a returns to the speech speed conversion magnification fine adjustment unit 140. The speech speed conversion magnification fine adjustment unit 140 reduces the speech speed conversion magnification α n to be given to each subsequent speech interval according to the deviation amount. A fine adjustment that shifts slightly to the speed side is added.

このようにして、適応的な話速変換倍率で話速変換されて出力される信号と、仮想的に再生速度変換倍率αで一様に変換した音声との間の時間的なずれ量を、できるだけ小さく留めるようにする。その結果として、話速変換倍率決定装置1aと話速変換部4のリアルタイム動作における逐次的な信号の入出力関係を保つことができる。したがって、話速変換装置10aに逐次入力される信号に対して即座に話速変換した信号を出力する必要がある場合、リアルタイムのシステムとして当該話速変換装置を構成することが可能となる。   In this way, the amount of temporal deviation between the signal that is output after being converted at the adaptive speed conversion magnification and the voice that is virtually converted at the playback speed conversion magnification α is obtained as follows: Try to keep it as small as possible. As a result, the sequential signal input / output relationship in the real-time operation of the speech speed conversion magnification determination device 1a and the speech speed conversion unit 4 can be maintained. Therefore, when it is necessary to immediately output a signal obtained by converting the speech speed with respect to a signal sequentially input to the speech speed converter 10a, the speech speed converter can be configured as a real-time system.

ここで、話速変換倍率決定装置1a又は話速変換装置10aとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置1aの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。   Here, in order to function as the speech speed conversion magnification determination device 1a or the speech speed conversion device 10a, a computer can be preferably used, and such a computer realizes each function of the speech speed conversion magnification determination device 1a. It can be realized by storing a program describing the processing contents in a storage unit of the computer, and reading and executing the program by a central processing unit (CPU) of the computer.

これにより、話速変換倍率決定装置1a又は話速変換装置10aを、パーソナルコンピュータのプログラムとしてや、携帯音楽プレイヤーやスマートフォンなどのモバイル機器で動作するアプリケーションとして動作させることができる。   Thereby, the speech speed conversion magnification determination device 1a or the speech speed conversion device 10a can be operated as a program for a personal computer or an application that operates on a mobile device such as a portable music player or a smartphone.

また、処理内容を記述したプログラムを、DVD又はCD−ROMなどのコンピュータ読み取り可能な記録媒体に記録し、この記録媒体を販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばIPなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。   In addition, the program describing the processing contents can be recorded on a computer-readable recording medium such as a DVD or CD-ROM, and the recording medium can be distributed by selling, transferring, renting, etc. For example, the program can be distributed by storing the program in a storage unit of a server on a network such as an IP and transferring the program from the server to another computer via the network.

また、そのようなプログラムを実行するコンピュータは、例えば、記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。   In addition, a computer that executes such a program can temporarily store, for example, a program recorded in a recording medium or a program transferred from a server in its storage unit. As another embodiment of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and each time the program is transferred from the server to the computer. In addition, the processing according to the received program may be executed sequentially.

次に、本発明による実施例2の話速変換倍率決定装置について説明する。なお、実施例1と同じ構成要素には同一の参照番号を付して説明を省略する。   Next, the speech speed conversion magnification determining apparatus according to the second embodiment of the present invention will be described. In addition, the same reference number is attached | subjected to the same component as Example 1, and description is abbreviate | omitted.

図5は、本発明による実施例2の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置1bは、実施例1の話速変換倍率決定装置1aと同様に、入力信号を単位時間ごとに分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2から入力される物理指標に基づいて入力信号の各セグメントに指定すべき話速変換倍率αを決定する話速変換倍率決定部3とを備える。 FIG. 5 is a block diagram showing the configuration of the speech speed conversion magnification determining apparatus according to the second embodiment of the present invention. Similar to the speech speed conversion magnification determining apparatus 1a of the first embodiment, the speech speed conversion magnification determining apparatus 1b of the present embodiment calculates the physical index of the input signal for each segment obtained by dividing the input signal for each unit time. The index calculation unit 2 and the speech speed conversion magnification determination unit 3 that determines the speech speed conversion magnification α n to be specified for each segment of the input signal based on the physical index input from the physical index calculation unit 2.

実施例2の話速変換倍率決定装置1bは、実施例1の話速変換倍率決定装置1a(図1参照)と比較して、物理指標算出部2が更に、パワー概形算出部200を備え、話速変換倍率決定部3が更に、第2の話速変換倍率指定部(話速変換倍率指定部b)220を備える点が相違する。パワー概形算出部200は、パワー算出部202と、平滑化部204とを有する。   Compared with the speech speed conversion magnification determination device 1a (see FIG. 1) of the first embodiment, the physical index calculation unit 2 further includes a power outline calculation unit 200 in the speech speed conversion magnification determination device 1b of the second embodiment. The speech speed conversion magnification determination unit 3 further includes a second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b) 220. The power outline calculating unit 200 includes a power calculating unit 202 and a smoothing unit 204.

本実施例の話速変換倍率決定装置1bは、包括的には、入力信号における単位時間ごとの基本周波数の概形を表すFと、入力信号における単位時間ごとのパワーの値の変化の概形を表すPの2つの「物理指標」を用いて、入力信号の各セグメントに指定すべき話速変換倍率αを決定して話速変換を行い、話速変換した出力信号を生成して出力する。 Speech speed conversion magnification determining device 1b of this embodiment, the comprehensive, and F n representing the envelope of the fundamental frequency per unit time in the input signal, approximate the change in the value of power per unit time in the input signal Using two “physical indices” of P n representing the shape, the speech speed conversion magnification α n to be specified for each segment of the input signal is determined and the speech speed conversion is performed to generate an output signal subjected to the speech speed conversion. Output.

実施例2の話速変換倍率決定装置1bでは、2つの物理指標を用いるため、実施例2の第1の話速変換倍率指定部(話速変換倍率指定部a)120では、基本周波数の概形の標本値Fの話速に対する寄与率を考慮し、例えば次式(5)〜(7)により、話速変換倍率αaを算出する。 Since the speech speed conversion magnification determination apparatus 1b according to the second embodiment uses two physical indexes, the first speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit a) 120 according to the second embodiment provides an overview of the basic frequency. considering contribution to the speech speed in the form of sampled values F n, for example, by the following equation (5) to (7), calculates a speech speed conversion ratio .alpha.a n.

ここで、Raは基本周波数の概形の標本値Fによって指定される、話速に対する寄与率であり、0≦Ra≦1とする。また、Kは、仮の伸縮率F'の正規化値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 Here, Ra is a contribution rate to the speech speed specified by the sample value F n of the basic shape of the fundamental frequency, and 0 ≦ Ra ≦ 1. Also, K is, together with the normalized value of the temporary scaling factor F 'n, is a constant for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

(物理指標Pの算出)
次に、物理指標Pの算出について図5及び図6を参照して説明する。図5は、パワーの概形の算出と仮の伸縮率の決定の例を示す図である。
(Calculation of physical index Pn )
Next, the calculation of the physical index Pn will be described with reference to FIGS. FIG. 5 is a diagram illustrating an example of calculation of a power outline and determination of a provisional expansion / contraction rate.

パワー算出部202は、単位時間(5ms)ごとに、入力信号のパワーを算出し、平滑化部204に出力する。パワーは、一般的な方法のひとつとして、入力信号波形に20ms程度の時間幅のハミング窓などの窓関数による重み付けを施した後の各標本値の二乗和で求めることができる。具体的な算出方法の例としては、式(1)を用いて説明した方法が挙げられる。図6(a)は、入力信号波形の例を示す図である。図6(b)は、図6(a)に示される入力信号の単位時間ごとのパワーをプロットで示している。   The power calculation unit 202 calculates the power of the input signal every unit time (5 ms) and outputs it to the smoothing unit 204. As a general method, the power can be obtained by the sum of squares of each sample value after weighting the input signal waveform by a window function such as a Hamming window having a time width of about 20 ms. As an example of a specific calculation method, the method described using Equation (1) can be given. FIG. 6A is a diagram illustrating an example of an input signal waveform. FIG. 6B shows the power for each unit time of the input signal shown in FIG.

平滑化部204は、パワー算出部202から入力されるパワーがより滑らかな軌跡となるように、単位時間ごとに算出されたパワーの軌跡の平滑化を行って、パワーの概形を単位時間ごとに標本化した値P(以下、「パワーの概形の標本値」と称する)を算出し、第2の話速変換倍率指定部(話速変換倍率指定部b)220に出力する。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いるのが好適である。 The smoothing unit 204 smoothes the power trajectory calculated for each unit time so that the power input from the power calculation unit 202 becomes a smoother trajectory. The sampled value P n (hereinafter referred to as “sample value of power outline”) is calculated and output to the second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b) 220. For this smoothing, it is preferable to use a low-pass filter having a cutoff frequency of about 3 to 6 Hz.

(話速変換倍率の決定)
次に、話速変換倍率の決定について、図5及び図6を参照して説明する。第2の話速変換倍率指定部(話速変換倍率指定部b)220は、パワーの概形の標本値Pの値が大きい部分では、相対的に話速変換倍率を小さく(ゆっくりな話速に)し、パワーの概形の標本値Pの値が小さい部分では、相対的に話速変換倍率を大きく(速い話速に)することを基本とする。すなわち、声(パワー)の大きい部分では相対的な話速変換倍率が小さくなり、声の小さい部分では相対的な話速変換倍率が大きくなる。これは、声の大きい部分は意味が強調され、文の中で重要な内容である可能性があるためであり、相対的に話速をゆっくりにすることで、話速変換された言葉の内容の理解に有利に働くと予想できる。また、無音区間は、相対的に話速を速めても内容の理解に対する悪影響が少ないと考えられる。
(Determination of speech rate conversion magnification)
Next, determination of the speech speed conversion magnification will be described with reference to FIGS. The second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b) 220 relatively reduces the speech speed conversion magnification (slowly speaking) in the portion where the sample value P n of the power outline is large. In the portion where the sample value Pn of the outline of the power is small, the speech speed conversion magnification is basically increased (to make the speech speed faster). That is, the relative speech speed conversion magnification decreases in a portion where the voice (power) is high, and the relative speech speed conversion magnification increases in a portion where the voice is low. This is because the meaning of the loud part of the voice is emphasized and it may be important content in the sentence. It can be expected to work in favor of understanding. In addition, it is considered that the silent section has little adverse effect on the understanding of the content even if the speech speed is relatively increased.

次に、パワーの概形の標本値Pを用いた具体的な話速倍率の決定方法について、いくつかの例を説明する。パワーの概形の標本値Pの数が有限の場合は、その中央値を用いて全体を正規化する。例えば、中央値の値を1.0とみなし、最大値と最小値のうち、最大値のほうが中央値との差が大きい場合は、最大値を2.0とみなして、全てのパワーの概形の標本値Pについて比例配分で0〜2の間の値を新たに割り当て、その値を単位時間(5ms)ごとの仮の伸縮率P'と定める。最大値と最小値のうち、最小値のほうが中央値との差が大きい場合は、最小値を0.0とみなして同様の操作を行う。全てのパワーの概形の標本値Pに対してその対数logPを求めた後に同様の操作を行ってもよい。さらに、中央値の代わりに、全てのパワーの概形の標本値Pの平均値や、最大値と最小値の平均値を用いてもよい。図6(c)は、図6(b)に示されるパワーの概形の標本値Pに対応する仮の伸縮率P'を示している。この例では、パワー(縦軸)をデシベル化しているため、logPによるパワーの概形を基にP'を算出している。 Next, some examples of a specific method for determining the speech rate magnification using the sample value P n of the power outline will be described. When the number of sample values Pn of the outline of power is finite, the whole is normalized using the median value. For example, if the median value is assumed to be 1.0 and the difference between the maximum value and the maximum value is greater than the median value, the maximum value is assumed to be 2.0, and all powers are approximated. For the sample value P n of the shape, a value between 0 and 2 is newly assigned by proportional distribution, and the value is determined as a temporary expansion / contraction rate P ′ n per unit time (5 ms). When the difference between the minimum value and the median value is larger among the maximum value and the minimum value, the same operation is performed with the minimum value regarded as 0.0. Or by performing the same operations after obtaining the logarithm logP n relative sampled value P n envelope of all power. Furthermore, instead of the median value, an average value of the sample values Pn of the outlines of all powers or an average value of the maximum value and the minimum value may be used. FIG. 6C shows a provisional expansion / contraction rate P ′ n corresponding to the approximate sample value P n of the power shown in FIG. 6B. In this example, since the power (vertical axis) is decibeled, P ′ n is calculated based on the outline of power by log P n .

話速変換倍率決定装置1bがリアルタイムで動作して、逐次的に入力信号を話速変換して出力していく必要がある場合においては、パワーの概形の標本値Pの数が決まらない。そこで、例えば過去3秒以内のパワーの概形の標本値Pの値を保持しておき、その最大値、最小値、又は中央値等を用いて、現在の時刻のパワーの概形の標本値Pの値を正規化し、これを仮の伸縮率P'としてもよい。但し、この場合、物理指標算出部2において、平滑部204では、過去と現在のパワーの算出結果だけを用いて、平滑化の計算を行う。 When the speech speed conversion magnification determination device 1b operates in real time and needs to sequentially convert and output the input signal, the number of sample values P n of the power outline is not determined. . Therefore, for example, a sample value P n of the approximate shape of the power within the past 3 seconds is held, and a sample of the approximate shape of the power at the current time is used by using the maximum value, minimum value, median value, etc. The value P n may be normalized, and this may be used as the temporary expansion / contraction rate P ′ n . However, in this case, in the physical index calculation unit 2, the smoothing unit 204 performs smoothing calculation using only the past and current power calculation results.

次に、仮の伸縮率P'の値に応じた話速変換倍率αbの算出について説明する。上述したように仮の伸縮率P'の値は0〜2の間で正規化されているので、第2の話速変換倍率指定部(話速変換倍率指定部b)220は、例えば次式(8)〜(10)により、話速変換倍率αbを算出する。 Next, calculation of the speech rate conversion magnification αb n according to the value of the temporary expansion / contraction rate P ′ n will be described. As described above, since the value of the provisional expansion / contraction rate P ′ n is normalized between 0 and 2, the second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b) 220 is, for example, The speech speed conversion magnification αb n is calculated from the equations (8) to (10).

ここで、Rbはパワーの概形の標本値Pによって指定される、話速に対する寄与率であり、0≦Rb≦1とする。また、Kは、仮の伸縮率P'の正規化値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 Here, Rb is a contribution rate to the speech speed specified by the sample value P n of the power outline, and 0 ≦ Rb ≦ 1. Also, K is, together with the normalized value of the temporary scaling factor P 'n, is a constant for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

式(5)〜(7)の寄与率Ra、式(8)〜(10)の寄与率Rbの各値は、例えば入力信号が放送の場合、番組のジャンル(ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才など)が分かる場合には、それに応じて、値の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。例えば、ニュースならば、Ra=0.7、Rb=0.3、ドキュメンタリー、ドラマならば、Ra=0.5、Rb=0.5、落語・漫才ならば、Ra=0.3、Rb=0.7などである。また、話速変換の対象とする言語の違いによって、寄与率Ra,Rbの値を調整することにより、それぞれの言語においてより自然な聞こえ方の変換音声とすることができる。   For example, when the input signal is broadcast, each value of the contribution rate Ra of the equations (5) to (7) and the contribution rate Rb of the equations (8) to (10) is the program genre (news, documentary, drama, variety, If you know rakugo, comic story, etc.), adaptive speech speed conversion with higher ease of hearing and higher naturalness is possible by optimizing the value distribution ratio accordingly. For example, Ra = 0.7, Rb = 0.3 for news, Ra = 0.5, Rb = 0.5 for documentary and drama, Ra = 0.3, Rb = 0.7 or the like. Also, by adjusting the values of the contribution ratios Ra and Rb depending on the language used for the speech speed conversion, it is possible to obtain converted speech with a more natural way of listening in each language.

最後に、話速変換倍率微調整部140おける動作の一例を説明する。入力信号の先頭から単位時間(5ms)おきに数えてn番目に与える話速変換倍率αは、基本的には、式(5),(6),(8),(9)を用いる場合にはα=αa×αbとし、式(7),(10)を用いる場合にはα=αa+αbとする。しかし、再生速度変換倍率αが与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、0.5〜5.0などの任意の値を設定できる。 Finally, an example of the operation in the speech speed conversion magnification fine adjustment unit 140 will be described. The speech speed conversion magnification α n given to the nth counting from the head of the input signal every unit time (5 ms) basically uses the equations (5), (6), (8), (9). and α n = αa n × αb n in the formula (7), is set to α n = αa n + αb n the case of using (10). However, when the reproduction speed conversion magnification α is given, this is finely adjusted according to the following procedure. As the reproduction speed conversion magnification α, an arbitrary value such as 0.5 to 5.0 can be set.

再生速度変換倍率αが与えられた場合、入力信号全体の長さをL(単位は秒)とすると、変換後の信号全体の長さはL/αにならなければいけない。まず、話速変換倍率微調整部140は、話速変換倍率αa及びαbに基づく、話速変換倍率αabを算出する。式(5),(6),(8),(9)を用いる場合には、αab=αa×αbとし、式(7),(10)を用いる場合にはαab=αa+αbとして、全ての入力信号区間を話速変換し、全体として接続後の変換音声の長さLを先に算出する。 When the reproduction speed conversion magnification α is given, if the length of the entire input signal is L (unit is second), the length of the entire converted signal must be L / α. First, the speech speed conversion ratio fine adjustment section 140, based on speech speed conversion ratio .alpha.a n and .alpha.b n, calculates the speech speed conversion ratio αab n. Equation (5), (6), in the case of using the (8), (9), and αab n = αa n × αb n , equation (7), αab n = αa n in the case of using the (10) As + αb n , speech speed conversion is performed for all input signal sections, and the length L 0 of the converted speech after connection is calculated first as a whole.

次に、次式(11)によって、話速変換倍率αabを微調整して最終的な話速変換倍率αを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
α=αab×L/(L/α) (11)
Then, by the following equation (11), the speech speed conversion ratio αab by n a fine adjustment to determine the final speech speed conversion ratio alpha n, the time length to be reproduced the entire length of the converted signal Can be adapted to
α n = αab n × L 0 / (L / α) (11)

できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込みたい場合は、実施例1と同様に、入力信号全体の長さLではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うようにαを修正すればよい。例えば、L=L+L+・・・+LのようにM個に分割できる場合には、L、L、・・・、Lの区間ごとに入力信号波形を分割し、それぞれの分割区間において、m番目の区間では、まずその区間の単位時間(5ms)ごとの各部分の話速変換倍率αab(αa×αb又はαa+αb)を用いてこのm番目の区間を話速変換して、接続済みの変換音声の部分長Lmを先に算出し、式(11)のLの代わりにLmを、Lの代わりにLmを設定して話速変換倍率αを求め、再度話速変換することで微調整を行う。なお、話速変換倍率αを実現するための話速変換(波形の伸縮)方法は、実施例1と同様のものを利用できる。 If you want to synchronize with the same timing as the voice converted uniformly with the playback speed conversion magnification α as often as possible, as in the first embodiment, divide this into shorter units instead of the length L of the entire input signal. It is only necessary to correct α n so as to finely adjust the length of the voice. For example, if it can be divided into M as L = L 1 + L 2 + ··· + L M is, L 1, L 2, · · ·, divides the input signal waveform in each section of the L M, respectively of the divided section, the m th interval, first the interval unit of time (5 ms) of each portion of each speech speed conversion ratio αab n (αa n × αb n or αa n + αb n) the m-th using Convert the speech speed of the section, calculate the partial length Lm 0 of the connected converted speech first, set Lm instead of L in Equation (11), and set Lm 0 instead of L 0 to speak speed conversion Fine adjustment is performed by obtaining the magnification α n and converting the speech speed again. Note that the speech speed conversion (waveform expansion / contraction) method for realizing the speech speed conversion magnification α n can be the same as in the first embodiment.

図7は、実施例2の話速変換倍率決定装置1bの動作を示すフローチャートである。ステップS201〜208は、図3に示す実施例1の話速変換倍率決定装置1aの動作のステップS101〜108と同様であるため、説明を省略する。話速変換する信号が入力されると、話速変換倍率決定装置1bは、パワー算出部202により、入力信号のパワーを算出する(ステップS209)。そして、話速変換倍率決定装置1bは、平滑化部204により、算出したパワーの軌跡の平滑化を行い、パワーの概形の標本値Pを導出する(ステップS210)。次に、話速変換倍率決定装置1bは、第2の話速変換倍率指定部(話速変換倍率指定部b)220により、パワーの概形の標本値Pの値に基づいて話速変換倍率αbを算出する(ステップS211)。最後に、話速変換倍率決定装置1bは、話速変換倍率微調整部140により、話速変換倍率αa及びαbから話速変換倍率αを求める。再生速度変換倍率αが与えられた場合には、最終的な話速変換倍率としてαを微調整する(ステップS212)。 FIG. 7 is a flowchart illustrating the operation of the speech speed conversion magnification determination apparatus 1b according to the second embodiment. Steps S201 to S208 are the same as steps S101 to S108 of the operation of the speech speed conversion magnification determination apparatus 1a according to the first embodiment illustrated in FIG. When a signal for speech speed conversion is input, the speech speed conversion magnification determination apparatus 1b calculates the power of the input signal by the power calculation unit 202 (step S209). Then, the speech speed conversion magnification determining apparatus 1b smoothes the calculated power trajectory by the smoothing unit 204, and derives a sample value P n of the approximate power shape (step S210). Next, the speech speed conversion magnification determination apparatus 1b uses the second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b) 220 to convert the speech speed based on the value of the sample value P n of the power outline. The magnification αb n is calculated (step S211). Finally, the speech speed conversion ratio determination device 1b, the speech speed conversion ratio fine adjustment section 140, obtains the speech speed conversion ratio alpha n from the speech speed conversion ratio .alpha.a n and .alpha.b n. When the reproduction speed conversion magnification α is given, α n is finely adjusted as the final speech speed conversion magnification (step S212).

このように、本実施例の話速変換倍率決定装置1bによれば、基本周波数とパワーに基づいて話速変換倍率αを求めることにより、例えば、背景音(BGMなど)だけの部分で、パワーが大きい場合でも擬似基本周波数が小さな値を示す部分においては、話速を速めるといった判断が可能となる。 Thus, according to the speech speed conversion magnification determination device 1b of the present embodiment, by determining the speech speed conversion magnification α n based on the fundamental frequency and power, for example, only in the background sound (such as BGM), Even when the power is high, it is possible to determine that the speech speed is increased in a portion where the pseudo fundamental frequency shows a small value.

さらに、話速の制御にパワーの値も加味することで以下の利点がある。通常、声の高さと大きさには正の相関があり、基本周波数が高い部分ではパワーも大きい。このような部分は母音部であることが多く、母音部では基本周波数は安定して算出される。したがって、基本周波数とパワーの値が大きいところで話速を緩めると、母音部を中心に話速を緩める確率が高い。実際の人の発声において、話速が遅い場合と速い場合とを比較した場合、主に母音部が伸縮することが分かっている(例えば、148th Meeting of Acoustical Society of America, 4pSC3. そのアブストラクトは "Journal of the Acoustical Society of America, Vol.116, No.4, Pt.2 of 2. p2628に掲載されているので参照されたい)。したがって、この方式により自然な聞こえの適応的話速変換が可能となる。   Furthermore, the following advantages can be obtained by adding the power value to the speech speed control. Usually, there is a positive correlation between the pitch and loudness of the voice, and the power is high at the part where the fundamental frequency is high. Such a part is often a vowel part, and the fundamental frequency is stably calculated in the vowel part. Therefore, if the speech speed is relaxed at a large fundamental frequency and power value, the probability of slowing the speech speed around the vowel part is high. It is known that the vowel part expands and contracts mainly when the actual speech rate is slow and fast (for example, 148th Meeting of Acoustical Society of America, 4pSC3. (See Journal of the Acoustical Society of America, Vol.116, No.4, Pt.2 of 2. p2628.) Therefore, this method enables adaptive speech speed conversion with natural sound. Become.

もうひとつのメリットとして、以下のことがある。日本語や中国語は「ピッチ・アクセント」であり、同音異義語の違いや意味の強調を声の高さの変化で制御する傾向が強い。一方、欧米の言語は「ストレス・アクセント」であり、声の大きさの変化で、各単語のリズム感や意味の強調を制御していると言われている。したがって、適応的な話速の制御において、声の高さと大きさの両方の値を加味することで、様々な言語への最適化が可能となる。   Another advantage is as follows. Japanese and Chinese are “pitch accents”, and tend to control differences in homonyms and emphasis on meaning by changing the pitch of the voice. Western languages, on the other hand, are “stress / accent”, and it is said that the rhythm and meaning of each word are controlled by changing the volume of the voice. Therefore, in adaptive speech speed control, it is possible to optimize to various languages by taking into account both voice pitch and loudness values.

また、話速変換する対象音声が放送の音声である場合、近年開発が盛んなメタ情報として番組のジャンル(ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才)が付与されていれば、それに応じて、話速変換倍率に対して掛け算値や冪指数値(寄与率)の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。   Also, if the target voice to be converted to speech speed is broadcast voice, if the genre of the program (news, documentary, drama, variety, rakugo / comic) is given as meta information that has been developed in recent years, Further, by optimizing the distribution rate of the multiplication value and the exponent value (contribution rate) to the speech rate conversion magnification, adaptive speech rate conversion with higher ease of listening and higher naturalness becomes possible.

ここで、実施例1の話速変換装置10aと同様に、実施例2の話速変換装置10bは、上述の話速変換倍率決定装置1bと、話速変換倍率決定装置1bにより決定された話速変換倍率に従って入力信号を話速変換する話速変換部4とを備える。話速変換装置4がリアルタイムの動作をする必要がある場合の動作も、実施例1と同様である。   Here, similarly to the speech speed conversion device 10a of the first embodiment, the speech speed conversion device 10b of the second embodiment is a speech determined by the above-described speech speed conversion magnification determination device 1b and the speech speed conversion magnification determination device 1b. And a speech speed conversion unit 4 for converting the speech speed of the input signal according to the speed conversion magnification. The operation when the speech speed conversion device 4 needs to operate in real time is the same as that of the first embodiment.

また、実施例1と同様に、話速変換倍率決定装置1b又は話速変換装置10bとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置1bの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。   Similarly to the first embodiment, a computer can be suitably used to function as the speech speed conversion magnification determination device 1b or the speech speed conversion device 10b. Such a computer can be used as the speech speed conversion magnification determination device 1b. It can be realized by storing a program describing the processing contents for realizing each function in the storage unit of the computer, and reading and executing the program by a central processing unit (CPU) of the computer. .

また、処理内容を記述したプログラムを、DVD又はCD−ROMなどのコンピュータ読み取り可能な記録媒体に記録し、この記録媒体を販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばIPなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。   In addition, the program describing the processing contents can be recorded on a computer-readable recording medium such as a DVD or CD-ROM, and the recording medium can be distributed by selling, transferring, renting, etc. For example, the program can be distributed by storing the program in a storage unit of a server on a network such as an IP and transferring the program from the server to another computer via the network.

また、そのようなプログラムを実行するコンピュータは、例えば、記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。   In addition, a computer that executes such a program can temporarily store, for example, a program recorded in a recording medium or a program transferred from a server in its storage unit. As another embodiment of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and each time the program is transferred from the server to the computer. In addition, the processing according to the received program may be executed sequentially.

次に、本発明における適応的な話速変換の効果をさらに安定させるための補助的な手段を加えた実施例3の話速変換倍率決定装置について説明する。なお、実施例2と同じ構成要素には同一の参照番号を付して説明を省略する。   Next, a speech speed conversion magnification determination apparatus according to a third embodiment to which auxiliary means for further stabilizing the effect of adaptive speech speed conversion in the present invention is described. In addition, the same reference number is attached | subjected to the same component as Example 2, and description is abbreviate | omitted.

図8は、本発明による実施例3の話速変換倍率決定装置の構成を示すブロック図である。本実施例の話速変換倍率決定装置1cは、実施例1の話速変換倍率決定装置1a及び実施例2の話速変換倍率決定装置1bと同様に、入力信号を単位時間ごとに分割した各セグメントについて当該入力信号の物理指標を算出する物理指標算出部2と、物理指標算出部2から入力される物理指標に基づいて入力信号の各セグメントに指定すべき話速変換倍率αを決定する話速変換倍率決定部3とを備える。 FIG. 8 is a block diagram showing the configuration of the speech speed conversion magnification determination apparatus according to the third embodiment of the present invention. The speech speed conversion magnification determination device 1c according to the present embodiment is similar to the speech speed conversion magnification determination device 1a according to the first embodiment and the speech speed conversion magnification determination device 1b according to the second embodiment. The physical index calculation unit 2 that calculates the physical index of the input signal for the segment, and the speech speed conversion magnification α n to be specified for each segment of the input signal are determined based on the physical index input from the physical index calculation unit 2. And a speech speed conversion magnification determination unit 3.

実施例3の話速変換倍率決定装置1cは、実施例2の話速変換倍率決定装置1b(図5参照)と比較して、物理指標算出部2が更に、補助的な物理指標の算出部である、有声度概形算出部300と、基本周波数概形算出部400と、凹凸度算出部410と、パワー概形算出部500と、凹凸度算出部510と、周波数帯域分割・パワー演算部600と、分割帯域パワー比算出部610とを備え、話速変換倍率決定部3が更に、補助的な物理指標に基づく話速変換倍率指定部である、第3の話速変換倍率指定部(話速変換倍率指定部c)320と、第4の話速変換倍率指定部(話速変換倍率指定部d)420と、第5の話速変換倍率指定部(話速変換倍率指定部e)520と、第6の話速変換倍率指定部(話速変換倍率指定部f)620とを備える点が相違する。パワー概形算出部200は、パワー算出部202と、平滑化部204とを有する。有声度概形算出部300は、有声度算出部302と、平滑化部304とを有する。周波数帯域分割・パワー演算部600は、スペクトル算出部602と、帯域分割部604と、パワー演算部606とを有する。基本周波数概形算出部400の内部構成は、基本周波数概形算出部100と同一であり、パワー概形算出部500の内部構成は、パワー概形算出部200と同一である。   Compared to the speech speed conversion magnification determination device 1b (see FIG. 5) of the second embodiment, the physical index calculation unit 2 further includes an auxiliary physical index calculation unit in the speech speed conversion magnification determination device 1c of the third embodiment. The voiced outline calculation unit 300, the fundamental frequency outline calculation unit 400, the unevenness calculation unit 410, the power outline calculation unit 500, the unevenness calculation unit 510, and the frequency band division / power calculation unit. 600 and a divided band power ratio calculation unit 610, and the speech speed conversion magnification determination unit 3 is a speech speed conversion magnification specification unit (speech speed conversion magnification specification unit based on an auxiliary physical index). Speaking speed conversion magnification designation unit c) 320, fourth speech speed conversion magnification designation unit (speech speed conversion magnification designation unit d) 420, and fifth speech speed conversion magnification designation unit (speech speed conversion magnification designation unit e). 520 and a sixth speech speed conversion magnification designation section (speech speed conversion magnification designation section f) 620 That point is different. The power outline calculating unit 200 includes a power calculating unit 202 and a smoothing unit 204. The voiced outline calculation unit 300 includes a voiced calculation unit 302 and a smoothing unit 304. The frequency band division / power calculation unit 600 includes a spectrum calculation unit 602, a band division unit 604, and a power calculation unit 606. The internal configuration of the basic frequency outline calculator 400 is the same as that of the basic frequency outline calculator 100, and the internal configuration of the power outline calculator 500 is the same as that of the power outline calculator 200.

(有声度を用いた補助的な話速変換倍率制御)
有声度算出部302は、放送の音声など背景音などの混入も含めた、入力信号波形から自己相関関数R(τ)を求め、自己相関関数R(τ)を用いて有声度を求める。自己相関関数R(τ)は次式(12)により導出され、有声度uは次式(13)により導出される。
(Subsidiary speed conversion magnification control using voicedness)
The voicing degree calculation unit 302 obtains an autocorrelation function R (τ) from the input signal waveform including background sound such as broadcast sound, and obtains the voicing degree using the autocorrelation function R (τ). The autocorrelation function R (τ) is derived from the following equation (12), and the voicing degree u is derived from the following equation (13).

u=W(τ)・R(τ)max/R(0) (13)
ここで、R(τ)maxは、図9(b)に示すように、τ>0における最大値である。τは時間遅れ量であり、W(τ)はR(τ)maxを与えるτの値に応じた重みである。あるいは、別の算出方法として、単位時間(5ms)における入力信号波形のゼロ交差の回数をカウントし、このカウント値の逆数とすることもできる。
u = W (τ) · R (τ) max / R (0) (13)
Here, R (τ) max is the maximum value at τ> 0, as shown in FIG. 9B. τ is a time delay amount, and W (τ) is a weight according to the value of τ giving R (τ) max . Alternatively, as another calculation method, the number of zero crossings of the input signal waveform per unit time (5 ms) can be counted, and the reciprocal of this count value can be obtained.

有声度uは入力信号のどの部分でも確実に単位時間(5ms)ごとに算出されるが、その値は必ずしも滑らかな時間変化をするとは限らない。そこで、平滑化部304は、有声度算出部302から入力される単位時間ごとの有声度の軌跡を平滑化したU(以下、「有声度の概形の標本値」と称する)を算出し、第3の話速変換倍率指定部(話速変換倍率指定部c)320に出力する。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いるのが好適である。 The voicing degree u is reliably calculated every unit time (5 ms) in any part of the input signal, but the value does not always change smoothly. Therefore, the smoothing unit 304 calculates U n (hereinafter referred to as “sample value of outline of voicedness”) obtained by smoothing the locus of voicedness for each unit time input from the voicedness calculating unit 302. The third speech speed conversion magnification designation unit (speech speed conversion magnification designation unit c) 320 outputs the result. For this smoothing, it is preferable to use a low-pass filter having a cutoff frequency of about 3 to 6 Hz.

第3の話速変換倍率指定部(話速変換倍率指定部c)320は、有声度の概形の標本値Uの値に応じて、話速変換倍率αcを算出する。自己相関関数を用いる場合を説明する。一般的に、有声度の概形の標本値Uは、−0.2〜1.2程度の範囲の値をとる。そこで、有声度の概形の標本値Uが0.5より大きい場合は話速を緩め(αc<1.0)、Uが0.5以下であれば話速を速める(αc>1.0)こととし、例えば次式(14)〜(16)により話速変換倍率αcを算出する。 Third speech speed conversion magnification specification unit (speech speed conversion ratio specifying section c) 320, depending on the value of the sample value U n of the envelope of Yukoedo calculates the speech speed conversion ratio .alpha.c n. A case where an autocorrelation function is used will be described. Generally, the sample value U n of the envelope of Yukoedo takes a value in the range of about -0.2~1.2. Therefore, if the sample value U n of the envelope of Yukoedo is greater than 0.5 loosen the speech speed (αc n <1.0), U n is accelerating the speech speed if 0.5 or less (.alpha.c n > 1.0) and that, for example, calculates the speech speed conversion ratio .alpha.c n by the following equation (14) to (16).

但し、式(14)では、U<−0.2の場合には、U=−0.2として計算する。ここで、Rcは有声度の概形によって指定される話速変換倍率に対する寄与率であり、0≦Rc≦1とする。また、Kは、有声度の概形の標本値Uの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 However, in Formula (14), when U n <−0.2, the calculation is performed as U n = −0.2. Here, Rc is the contribution rate to the speech rate conversion magnification specified by the outline of the voicedness, and 0 ≦ Rc ≦ 1. Also, K is, together with the value of the sample value U n of the envelope of Yukoedo is a constant for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

(基本周波数の概形の凹凸度を用いた補助的な話速変換倍率制御)
次に、基本周波数の概形の凹凸度を利用する動作の一例について説明する。基本周波数の概形算出部400の動作は、実施例1で説明した基本周波数の概形算出部100と同じであり、単位時間ごとに基本周波数の概形の標本値Fを出力する。
(Auxiliary speech rate conversion magnification control using the rough shape of the fundamental frequency)
Next, an example of an operation using the rough shape of the fundamental frequency will be described. The basic frequency outline calculation unit 400 operates in the same manner as the basic frequency outline calculation unit 100 described in the first embodiment, and outputs a sample value F n of the basic frequency outline for each unit time.

凹凸度算出部(基本周波数凹凸度算出部)410は、基本周波数の概形の標本値Fの変化傾向を表す凹凸度(以下、「基本周波数の概形の凹凸度」と称する)Sを算出する。例えば、基本周波数の概形の標本値Fに対して、それぞれ前側30msの値Fbと、後ろ側30msの値Faとを使って、(F−Fb)と(F−Fa)の平均値を基本周波数の概形の凹凸度Sとし、極大又は極小の程度を算出する。この場合、軌跡が平坦、又は単調増加や単調減少の区間では、極大又は極小の程度は0に近い値となる。なお、基本周波数の概形の凹凸度Sのうち、その絶対値が最も大きな値を使って、全ての基本周波数の概形の凹凸度Sを除して正規化する。従って、極大又は極小の程度である基本周波数の概形の凹凸度Sの値は−1〜1となる。 Uneven calculator (fundamental frequency unevenness degree calculation unit) 410, asperity representing a change trend of the sampled values F n envelope of the fundamental frequency (hereinafter, referred to as "irregularity of the envelope of the fundamental frequency") S n Is calculated. For example, with respect to the sample value F n envelope of the fundamental frequency, by using the value Fb n front 30ms, respectively, and a value Fa n of rear 30ms, and (F n -Fb n) (F n -Fa The average value of n ) is defined as the rough shape S n of the rough shape of the fundamental frequency, and the degree of maximum or minimum is calculated. In this case, in a section where the trajectory is flat or monotonously increases or decreases, the maximum or minimum is a value close to zero. It should be noted that out of the irregularities S n of the rough shape of the fundamental frequency, the values having the largest absolute values are used to normalize the irregularities S n of the rough shapes of all the fundamental frequencies. Therefore, the value of irregularity level S n of envelope of the fundamental frequency of the order of maximum or minimum becomes -1 to 1.

この方法は、基本周波数の概形の標本値Fの前後5ms(1サンプル)の値を使うようにすれば、基本周波数の概形の標本値Fの2階差分を算出することと等価である。すなわち、まず基本周波数の概形の標本値Fの全体に対して2階差分F”=(F−Fn−1)−(Fn−1−Fn−2)を算出し、次に、その絶対値が最も大きな値を使って、全てのF”を正規化し、同時に符号を反転して基本周波数の概形の凹凸度Sとする。その結果、基本周波数の概形の凹凸度Sの値はやはり−1〜1となる。よく知られているように、関数の2階微分は、関数が極小の部分では正の値をとり、極大の部分では負の値をとる。またその絶対値が大きいほど、極大・極小の度合いが強い(凹凸がより先鋭になっている)。任意の連続な曲線に対する2階差分は2階微分と等価と考えられるので、このSを基本周波数の概形の凹凸度として扱うことができる。 This method is equivalent to calculating the second-order difference of the sample value F n of the approximate shape of the fundamental frequency if a value of 5 ms (1 sample) before and after the sample value F n of the approximate shape of the fundamental frequency is used. It is. That is, first, a second-order difference F ″ n = (F n −F n−1 ) − (F n−1 −F n−2 ) is calculated for the entire sample value F n of the basic frequency. then use the largest value that is an absolute value, all F "n normalized, the asperity S n of envelope of the fundamental frequency by reversing the sign at the same time. As a result, the value of irregularity level S n of envelope of the fundamental frequency also becomes -1 to 1. As is well known, the second-order differentiation of a function takes a positive value when the function is a minimum and takes a negative value when the function is a maximum. In addition, the larger the absolute value, the stronger the maximum / minimum degree (the unevenness is sharper). Since the second difference for any continuous curve is considered to second derivative equivalent, you can treat this S n as envelope of the unevenness of the fundamental frequency.

第4の話速変換倍率指定部(話速変換倍率指定部d)420は、単位時間(5ms)ごとの基本周波数の概形の凹凸度Sの値に応じて、Sの値が正の時は話速を緩め、負の時は話速を速めることとし、例えば次式(17)〜(19)により、話速変換倍率αdを算出する。 Fourth speech speed conversion magnification specification unit (speech speed conversion ratio specifying section d) 420, depending on the value of the irregularity degree S n of envelope of the fundamental frequency of each unit time (5 ms), the value of S n is a positive the loosening the speech speed when, when the negative and to speed up the speech rate, for example, by the following equation (17) to (19), calculates the speech speed conversion ratio .alpha.d n.

ここで、Rdは基本周波数の概形の凹凸度によって指定される話速変換倍率に対する寄与率であり、0≦Rd≦1とする。また、Kは、基本周波数の概形の凹凸度Sの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 Here, Rd is a contribution rate to the speech rate conversion magnification specified by the rough shape of the fundamental frequency, and 0 ≦ Rd ≦ 1. Also, K is, together with the value of the unevenness of S n of envelope of the fundamental frequency is a constant for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

(パワーの概形の凹凸度を用いた補助的な話速変換倍率制御)
次に、パワーの概形の凹凸度を利用する動作の一例について説明する。基本的な方法は、基本周波数の概形の凹凸度を利用する場合と同様である。入力信号に対して、パワーの概形算出部500の出力について、凹凸度算出部510において、その山谷の凹凸度を算出する。基本周波数の概形算出部500の動作は、既に説明したパワーの概形算出部200と同じであり、単位時間(5ms)ごとにパワーの概形の標本値Pが出力される。
(Auxiliary speech speed conversion magnification control using unevenness of power outline)
Next, an example of the operation using the rough shape of the power shape will be described. The basic method is the same as the case of using the rough shape of the basic frequency. With respect to the input signal, the unevenness calculation unit 510 calculates the unevenness of the peaks and valleys for the output of the power outline calculation unit 500. The basic frequency outline calculation unit 500 operates in the same manner as the power outline calculation unit 200 described above, and a power outline sample value P n is output every unit time (5 ms).

凹凸度算出部(パワー凹凸度算出部)510は、パワーの概形の標本値Pの変化傾向を表す凹凸度(以下、「パワーの概形の凹凸度」と称する)Qを算出する。例えば、パワーの概形の標本値Pに対して、それぞれ前側30msの値Pbと、後ろ側30msの値Paとを使って、(P−Pb)と(P−Pa)の平均値をパワーの概形の凹凸度Qとし、極大又は極小の程度を算出する。この場合、軌跡が平坦、又は単調増加や単調減少の区間では、極大又は極小の程度は0に近い値となる。なお、パワーの概形の凹凸度Qのうち、その絶対値が最も大きな値を使って、全てのパワーの概形の凹凸度Qを除して正規化する。したがって、極大又は極小の程度であるパワーの概形の凹凸度Sの値は−1〜1となる。 The unevenness degree calculation unit (power unevenness degree calculation unit) 510 calculates an unevenness degree (hereinafter referred to as “power outline shape unevenness degree”) Q n representing a change tendency of the sample value P n of the power outline. . For example, with respect to the sample value P n envelope of the power, with the value Pb n front 30ms, respectively, the value Pa n of rear 30ms, (P n -Pb n) and (P n -Pa n ) Is the degree of unevenness Q n of the approximate shape of power, and the degree of maximum or minimum is calculated. In this case, in a section where the trajectory is flat or monotonously increases or decreases, the maximum or minimum is a value close to zero. Among the asperity Q n of envelope power, the absolute value with the largest value, normalized by dividing the degree of unevenness Q n of envelope of all power. Therefore, the value of irregularity level S n of envelope power of the order of maximum or minimum becomes -1 to 1.

この方法は、パワーの概形の標本値Pの前後5ms(1サンプル)の値を使うようにすれば、パワーの概形の標本値Pの2階差分を算出することと等価であることは、基本周波数の概形の標本値と同様である。すなわち、パワーの概形の標本値Pの全体に対して2階差分P”=(P−Pn−1)−(Pn−1−Pn−2)を算出し、次に、その絶対値が最も大きな値を使って、全てのP”を正規化し、同時に符号を反転してパワーの概形の凹凸度Qとする。その結果、パワーの概形の凹凸度Qの値はやはり−1〜1となる。 This method is equivalent to calculating the second-order difference of the sample value P n of the power outline if a value of 5 ms (1 sample) before and after the sample value P n of the outline of power is used. This is the same as the approximate sample value of the fundamental frequency. That is, the second-order difference P ″ n = (P n −P n−1 ) − (P n−1 −P n−2 ) is calculated for the entire sample value P n of the power outline, Then, using the value whose absolute value is the largest, all P ″ n are normalized, and at the same time, the sign is inverted to obtain the rough shape of the power Q n . As a result, the value of irregularity level Q n of envelope power is also an -1 to 1.

第5の話速変換倍率指定部(話速変換倍率指定部e)520は、単位時間(5ms)ごとのパワーの概形の凹凸度Qの値に応じて、Qの値が正の時は話速を緩め、負の時は話速を速めることとし、例えば次式(20)〜(22)により、話速変換倍率αeを算出する。 The fifth speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit e) 520 has a positive Q n value according to the rough roughness Q n value of the power shape per unit time (5 ms). time loosening the speech speed, when the negative and to speed up the speech rate, for example, by the following equation (20) to (22), calculates the speech speed conversion ratio .alpha.e n.

ここで、Reはパワーの概形の凹凸度によって指定される話速変換倍率に対する寄与率であり、0≦Re≦1とする。また、Kは、パワーの概形の凹凸度Qの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 Here, Re is a contribution rate to the speech rate conversion magnification specified by the rough shape of the power, and 0 ≦ Re ≦ 1. Also, K is, together with the value of the unevenness of Q n of envelope power, is a constant for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

(分割した周波数帯域のパワー比を用いた補助的な話速変換倍率制御)
次に、分割した周波数帯域のパワー比を利用する動作の一例について説明する。周波数帯域分割・パワー演算部600は、入力信号のパワースペクトルを算出し、第1の周波数帯域における正規化パワー、及び第1の周波数帯域よりも高い周波数帯域における正規化パワーを算出する。
(Subsidiary speed conversion magnification control using power ratio of divided frequency bands)
Next, an example of an operation using the power ratio of the divided frequency band will be described. The frequency band division / power calculation unit 600 calculates the power spectrum of the input signal, and calculates the normalized power in the first frequency band and the normalized power in the frequency band higher than the first frequency band.

スペクトル算出部602は、入力信号に対して単位時間(5ms)ごとに、高速フーリエ変換(Fast Fourier Transform, FFT)などによって時間領域の波形を周波数領域に変換し、各周波数の対数化パワースペクトル(単位はdB)を算出する。   The spectrum calculation unit 602 converts a time-domain waveform into a frequency domain by a fast Fourier transform (FFT) or the like every unit time (5 ms) with respect to an input signal, and a logarithmic power spectrum ( The unit is dB).

帯域分割部604は、スペクトル算出部602から入力されるパワースペクトルを複数の周波数帯域に分割する。例えば、周波数帯域B1:0〜300Hz、周波数帯域B2:300〜1500Hz、周波数帯域B3:1500〜3000Hz、周波数帯域B4:3000〜8000Hz、周波数帯域B5:8000Hz以上といった具合に分割する。   The band dividing unit 604 divides the power spectrum input from the spectrum calculating unit 602 into a plurality of frequency bands. For example, the frequency band B1: 0 to 300 Hz, the frequency band B2: 300 to 1500 Hz, the frequency band B3: 1500 to 3000 Hz, the frequency band B4: 3000 to 8000 Hz, and the frequency band B5: 8000 Hz or more are divided.

パワー演算部606は、低い側の周波数帯域と高い側の周波数帯域について、それぞれ正規化パワーを算出する。例えば、ここでは、低い側の周波数帯域として周波数帯域B2、高い側の周波数帯域として周波数帯域B4を選択する。正規化パワーは、各周波数帯域に含まれるパワースペクトルの本数分だけ各値を合計し、その後その本数で除することで算出する。パワー演算部606は、算出した周波数帯域B2及び周波数帯域B4の正規化パワーを、分割帯域パワー比算出部610に出力する。   The power calculation unit 606 calculates normalized power for the lower frequency band and the higher frequency band, respectively. For example, here, the frequency band B2 is selected as the lower frequency band, and the frequency band B4 is selected as the higher frequency band. The normalized power is calculated by summing each value by the number of power spectra included in each frequency band and then dividing by the number. The power calculation unit 606 outputs the calculated normalized power of the frequency band B2 and the frequency band B4 to the divided band power ratio calculation unit 610.

分割帯域パワー比算出部610は、パワー演算部606から入力される低域側の正規化パワーと高域側の正規化パワーがすでに対数化されていることから、その差として、低域側の正規化パワーから高域側の正規化パワーを減ずる(すなわち、正規化パワーの比を求める)。通常その差は、10dB〜40dB程度である。そして、単位時間(5ms)ごとに算出されたこの値の軌跡を平滑化して、分割した周波数帯域の正規化パワーの比(以下、分割帯域パワー比と称する)Eを算出し、第6の話速変換倍率指定部(話速変換倍率指定部f)620に出力する。この平滑化のために、カットオフ周波数3〜6Hz程度のローパスフィルタを用いるのが好適である。 The divided band power ratio calculation unit 610 has a logarithmized difference between the normalized power on the low frequency side and the normalized power on the high frequency side input from the power calculation unit 606. As a difference, The normalized power on the high frequency side is subtracted from the normalized power (that is, the ratio of the normalized power is obtained). Usually, the difference is about 10 dB to 40 dB. Then, the locus of the calculated the value for each unit time (5 ms) smoothes the ratio of the normalized power of the divided frequency bands (hereinafter, referred to as split band power ratio) is calculated E n, the sixth The data is output to the speech speed conversion magnification designation unit (speech speed conversion magnification designation unit f) 620. For this smoothing, it is preferable to use a low-pass filter having a cutoff frequency of about 3 to 6 Hz.

第6の話速変換倍率指定部(話速変換倍率指定部f)620は、分割帯域パワー比Eが25dBより大きい場合は話速を緩め、分割帯域パワー比Eが25dB以下であれば話速を速めることとし、例えば次式(23)〜(25)により、話速変換倍率αfを算出する。 Sixth speech speed conversion magnification specification unit (speech speed conversion ratio specifying section f) 620, if the subband power ratio E n is greater than 25dB will loosen the speech speed, if 25dB less split-band power ratio E n For example, the speech speed conversion magnification αf n is calculated by the following equations (23) to (25).

但し、式(23)では、E<10(単位はdB)の場合には、E=10として計算する。ここで、Rfは分割した分割帯域パワー比によって指定される話速変換倍率に対する寄与率であり、0≦Rf≦1とする。また、Kは、分割帯域パワー比Eの値とともに、話速を緩めたり速めたりする幅を調整する定数であり、例えばK=1.4〜2.0とする。 However, in Formula (23), when E n <10 (the unit is dB), calculation is performed with E n = 10. Here, Rf is a contribution rate to the speech rate conversion magnification specified by the divided band power ratio, and 0 ≦ Rf ≦ 1. Also, K is, together with the values of the divided band power ratio E n, are constants for adjusting the width or faster loosen speech rate, for example, K = 1.4 to 2.0.

式(14)〜(16)のRc、式(17)〜(19)のRd、式(20)〜(22)のRe、式(23)〜(25)のRfの各値は、式(5)〜(7)のRa、式(8)〜(10)のRbと同列に値を調整して用いる。例えば入力信号が放送の場合、番組のジャンル(ニュース、ドキュメンタリー、ドラマ、バラエティ、落語・漫才)が分かる場合には、それに応じて、値の分配率を最適化することにより、より聞きやすさや自然性の高い適応的話速変換が可能となる。例えば、ニュースならば、Ra=0.3、Rb=0.1、Rc=0.1、Rd=0.3、Re=0.1、Rf=0.1、ドキュメンタリー、ドラマならば、Ra=0.2、Rb=0.2、Rc=0.1、Rd=0.2、Re=0.2、Rf=0.1、落語・漫才ならば、Ra=0.1、Rb=0.1、Rc=0.3、Rd=0.2、Re=0.2、Rf=0.1などである。   Each value of Rc in Formulas (14) to (16), Rd in Formulas (17) to (19), Re in Formulas (20) to (22), and Rf in Formulas (23) to (25) The values are adjusted in the same row as Ra of 5) to (7) and Rb of formulas (8) to (10). For example, when the input signal is broadcast, if the genre of the program (news, documentary, drama, variety, rakugo / comic) is known, the distribution ratio of the values is optimized accordingly, making it easier to hear and more natural. Highly adaptive adaptive speech speed conversion is possible. For example, for news, Ra = 0.3, Rb = 0.1, Rc = 0.1, Rd = 0.3, Re = 0.1, Rf = 0.1, for documentary, drama, Ra = 0.2, Rb = 0.2, Rc = 0.1, Rd = 0.2, Re = 0.2, Rf = 0.1, if rakugo / comic, Ra = 0.1, Rb = 0. 1, Rc = 0.3, Rd = 0.2, Re = 0.2, Rf = 0.1, and the like.

また、話速変換の対象とする言語の違いによって、Ra,Rb,Rc,Rd,Re,Rfの値を調整することにより、それぞれの言語においてより自然な聞こえ方の変換音声とすることができる。   Also, by adjusting the values of Ra, Rb, Rc, Rd, Re, and Rf according to the language used for speech speed conversion, it is possible to obtain a converted speech that sounds more natural in each language. .

(話速変換倍率の微調整)
最後に、話速変換倍率微調整部140おける動作の一例を説明する。入力信号の先頭から単位時間(5ms)おきに数えてn番目に与える話速変換倍率αは、基本的には、式(5),(6),(8),(9),(14),(15),(17),(18),(20),(21),(23),(24)を用いる場合にはα=αa×αb×αc×αd×αe×αfとし、式(7),(10),(16),(19),(22),(25)を用いる場合にはα=αa+αb+αc+αd+αe+αfとする。しかし、再生速度変換倍率αが与えられた場合には、以下の手順でこれを微調整する。再生速度変換倍率αとしては、0.5〜5.0などの任意の値を設定できる。
(Fine adjustment of speech speed conversion magnification)
Finally, an example of the operation in the speech speed conversion magnification fine adjustment unit 140 will be described. The speech speed conversion magnification α n given to the n-th counting unit time (5 ms) from the beginning of the input signal is basically the expressions (5), (6), (8), (9), (14 ), (15), (17), (18), (20), (21), (23), (in the case of using a 24) α n = αa n × αb n × αc n × αd n × αe and n × .alpha.f n, equation (7), (10), (16), (19), (22), in the case of using (25) α n = αa n + αb n + αc n + αd n + αe n + αf n And However, when the reproduction speed conversion magnification α is given, this is finely adjusted according to the following procedure. As the reproduction speed conversion magnification α, an arbitrary value such as 0.5 to 5.0 can be set.

再生速度変換倍率αが与えられた場合、入力信号全体の長さをL(単位は秒)とすると、変換後の信号全体の長さはL/αにならなければいけない。まず、話速変換倍率微調整部140は、式(5),(6),(8),(9),(14),(15),(17),(18),(20),(21),(23),(24)を用いる場合にはαaf=αa×αb×αc×αd×αe×αfとして全ての入力信号区間を話速変換し、式(7),(10),(16),(19),(22),(25)を用いる場合にはαaf=αa+αb+αc+αd+αe+αfとして全ての入力信号区間を話速変換した結果、全体として接続後の変換音声の長さLを先に算出する。 When the reproduction speed conversion magnification α is given, if the length of the entire input signal is L (unit is second), the length of the entire converted signal must be L / α. First, the speech speed conversion magnification fine adjustment unit 140 performs the expressions (5), (6), (8), (9), (14), (15), (17), (18), (20), ( 21), (23), (all input signal segment to convert the speech speed as αaf n = αa n × αb n × αc n × αd n × αe n × αf n in the case of using the 24), equation (7 ), (10), (16), (19), (22), speech rate all input signal segment as αaf n = αa n + αb n + αc n + αd n + αe n + αf n in the case of using the (25) As a result of the conversion, the length L 0 of the converted speech after connection is calculated first as a whole.

次に、次式(26)によって、各部分の話速変換倍率αafを微調整して最終話速変換倍率αを決定することにより、変換後の信号全体の長さを再生すべき時間長に合わせることができる。
α=αaf×L/(L/α) (26)
Next, by the following equation (26), the speech speed conversion magnification αaf n of each part is finely adjusted to determine the final speech speed conversion magnification α n , so that the length of the entire converted signal is to be reproduced. Can be adjusted to the length.
α n = αaf n × L 0 / (L / α) (26)

できるだけ頻繁に、再生速度変換倍率αで一様に変換した音声と同じタイミングに合わせ込む場合には、入力信号全体の長さLではなく、これをより短い単位に分割した音声の長さに対して、微調整を行うようにαを修正すればよい。例えば、L=L+L+・・・+LのようにM個に分割できる場合には、L,L,・・・,Lの区間ごとに入力波形を分割し、それぞれの分割区間において、m番目の区間では、まずその区間の単位時間(5ms)ごとの各部分の話速変換倍率αaf(αa×αb×αc×αd×αe×αf又はαa+αb+αc+αd+αe+αf)を用いてこのm番目の区間を話速変換して、接続済みの変換音声の部分長Lmを先に算出し、式(26)のLの代わりにLmを、LのLの代わりにLmを設定して各話速変換倍率αを求め、再度話速変換することで微調整を行う。なお、話速変換倍率αを実現するための話速変換(波形の伸縮)方法は、実施例1と同様のものを利用できる。 When adjusting to the same timing as the voice converted uniformly at the playback speed conversion magnification α as frequently as possible, not the length L of the entire input signal but the length of the voice divided into shorter units. Then, α n may be corrected so that fine adjustment is performed. For example, if it can be divided into M as L = L 1 + L 2 + ··· + L M is, L 1, L 2, · · ·, divides the input waveform on each section of the L M, respectively in divided section, m-th in the intervals is first speech speed conversion ratio of each part per unit time of the interval (5ms) αaf n (αa n × αb n × αc n × αd n × αe n × αf n or .alpha.a n + αb n + αc n + αd n + αe n + αf n ) is used to perform speech speed conversion of the m-th interval, and the partial length Lm 0 of the connected converted speech is first calculated. the Lm instead, by setting Lm 0 instead of L in L 0 seek the speech speed conversion ratio alpha n, a fine adjustment by converting again speech speed. Note that the speech speed conversion (waveform expansion / contraction) method for realizing the speech speed conversion magnification α n can be the same as in the first embodiment.

図10は、実施例3の話速変換倍率決定装置1cの動作を示すフローチャートである。話速変換倍率決定装置1cは、話速変換する信号を入力する(ステップS301)。話速変換する信号が入力されると、話速変換倍率決定装置1cは、基本周波数概形算出部100により、基本周波数の概形の標本値Fを導出し(ステップS302)、パワー概形算出部200により、パワーの概形の標本値Pを導出し(ステップS303)、有声度概形算出部300により、有声度概形の標本値Uを導出し(ステップS304)、基本周波数概形算出部400及び凹凸度算出部410により、基本周波数の概形の凹凸度Sを導出し(ステップS305)、パワー概形算出部500及び凹凸度算出部510により、パワーの概形の凹凸度Qを導出し(ステップS306)、周波数帯域分割・パワー演算部600及び分割帯域パワー比算出部610により、分割帯域パワー比Eを導出する(ステップS307)。 FIG. 10 is a flowchart illustrating the operation of the speech speed conversion magnification determination apparatus 1c according to the third embodiment. The speech speed conversion magnification determination apparatus 1c inputs a signal for speech speed conversion (step S301). When the signal to be converted speech speed is input, the speech speed conversion ratio determination device 1c, the fundamental frequency envelope calculator 100 derives a sample value F n of envelope of the fundamental frequency (step S302), the power envelope the calculation unit 200 derives a sample value P n of the envelope power (step S303), the Yukoedo envelope calculator 300 derives a sample value U n of Yukoedo outline (step S304), the fundamental frequency the envelope calculation section 400 and the uneven degree calculation unit 410 derives the degree of unevenness S n of envelope of the fundamental frequency (step S305), the power envelope calculation unit 500 and the uneven calculator 510, the outline of the power derives asperity Q n (step S306), the frequency band dividing power calculating unit 600 and the divided band power ratio calculation section 610 derives a split band power ratio E n (step S307)

ステップS302にて基本周波数の概形の標本値Fが導出されると、話速変換倍率決定装置1cは、第1の話速変換倍率指定部(話速変換倍率指定部a)120により、話速変換倍率αaを算出する(ステップS308)。ステップS303にてパワーの概形の標本値Pが導出されると、話速変換倍率決定装置1cは、第2の話速変換倍率指定部(話速変換倍率指定部b)220により、話速変換倍率αbを算出する(ステップS309)。ステップS304にて有声度概形の標本値Uが導出されると、話速変換倍率決定装置1cは、第3の話速変換倍率指定部(話速変換倍率指定部c)320により、話速変換倍率αcを算出する(ステップS310)。ステップS305にて基本周波数の概形の凹凸度Sが導出されると、話速変換倍率決定装置1cは、第4の話速変換倍率指定部(話速変換倍率指定部d)420により、話速変換倍率αdを算出する(ステップS311)。ステップS306にてパワーの概形の凹凸度Qが導出されると、話速変換倍率決定装置1cは、第5の話速変換倍率指定部(話速変換倍率指定部e)520により、話速変換倍率αeを算出する(ステップS312)。ステップS307にて分割帯域パワー比Eが導出されると、話速変換倍率決定装置1cは、第6の話速変換倍率指定部(話速変換倍率指定部f)620により、話速変換倍率αfを算出する(ステップS313)。そして、最後に、話速変換倍率決定装置1cは、話速変換倍率微調整部140により、話速変換倍率αa〜αfから話速変換倍率αを求める。再生速度変換倍率αが与えられた場合には、最終的な話速変換倍率としてαを微調整する(ステップS314)。 When the approximate sample value F n of the fundamental frequency is derived in step S302, the speech speed conversion magnification determining apparatus 1c is operated by the first speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit a) 120. calculating a speech speed conversion ratio .alpha.a n (step S308). When the sample value P n of the outline of power is derived in step S303, the speech speed conversion magnification determining apparatus 1c uses the second speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit b) 220 to speak. The speed conversion magnification αb n is calculated (step S309). If sample value U n of the chromatic Koedo envelope is derived in step S304, speech speed conversion-magnification determining device 1c, the third speech speed conversion magnification specification unit (speech speed conversion ratio specifying section c) 320, Talk calculating the speed conversion ratio .alpha.c n (step S310). When asperity S n of envelope of the fundamental frequency is derived in step S305, speech speed conversion-magnification determining device 1c, the fourth speech speed conversion magnification specification unit (speech speed conversion ratio specifying section d) 420, calculating a speech speed conversion ratio .alpha.d n (step S311). When the irregularity degree Q n of the approximate shape of the power is derived in step S306, the speech speed conversion magnification determining apparatus 1c uses the fifth speech speed conversion magnification specifying unit (speech speed conversion magnification specifying unit e) 520 to speak. calculating the speed conversion ratio .alpha.e n (step S312). When split-band power ratio E n at step S307 is derived, the speech speed conversion ratio determination device 1c, the sixth speech speed conversion magnification specification unit (speech speed conversion ratio specifying section f) 620, the speech speed conversion ratio αf n is calculated (step S313). And, finally, speech speed conversion-magnification determining device 1c, the speech speed conversion ratio fine adjustment section 140, obtains the speech speed conversion ratio alpha n from the speech speed conversion ratio αa n ~αf n. When the reproduction speed conversion magnification α is given, α n is finely adjusted as the final speech speed conversion magnification (step S314).

なお、ここでは話速変換倍率αa〜αf全てを用いる例を示したが、話速変換倍率αc〜αfについては少なくとも1つを使用する構成とすることができる。 Here, although an example of using the speed conversion factor αa n ~αf n all talk, for speech speed conversion ratio αc n ~αf n may be configured to use at least one.

有声度の概形の標本値U(話速変換倍率αc)を併用した場合には、以下の利点がある。この物理指標は先に説明したように、入力信号の全ての位置で求めることが可能である。また背景音(音楽や雑音)が混入している場合にも必ず算出可能である。通常、母音部は有声度が高い。また、完全な無音部や、一般的に色々な音の周波数成分が混じっている音楽や雑音などの背景音は有声度が低い。したがって、有声度の高いところで話速を緩め、有声度の低いところで話速を速めることで、背景音が混入している場合においても、音声の重要な部分である母音部では話速が緩められ、完全な無音部や背景音だけの部分は話速が速められるので、基本周波数の概形の標本値Fに加え、有声度も加味することで、入力信号全体として、より安定した効果的な適応的話速変換が可能となる。 When the sampled value U n (speech rate conversion magnification αc n ) of the outline of voicedness is used in combination, there are the following advantages. As described above, this physical index can be obtained at all positions of the input signal. It can also be calculated even when background sounds (music and noise) are mixed. Usually, the vowel part is highly voiced. In addition, a completely silent part or a background sound such as music or noise in which various sound frequency components are generally mixed has low voicedness. Therefore, by slowing the speech speed at high voiced levels and increasing the speech speed at low voiced levels, even when background sounds are mixed, the speech speed is reduced at the vowel part, which is an important part of speech. , the portion of only complete silence and background sound voice speed is accelerated, in addition to the sample value F n of envelope of the fundamental frequency, voicing rate also by adding, as an entire input signal, more stable effective Adaptive speech speed conversion becomes possible.

また、基本周波数の概形の凹凸度S(話速変換倍率αd)を併用した場合には、以下の利点がある。これは、特許文献1で、「基本周波数の高いところは話速を緩め、低いところでは話速を速める」としていることとは異なる。例えば、男女のコンビによる漫才などを考えると、男女の声がほとんどポーズのない状態で激しく入れ替わる。このような入力信号に対して、特許文献1に記載の技術により、「基本周波数の高いところは話速を緩め、低いところでは話速を速める」と、女性の声は高いためいつも緩めるが、男性の声は低いためいつも速くなるという傾向が生じる。声のある区間とない区間とを正しく判別しなければいけない特許文献1の技術に比べて、実施例1,2の話速変換倍率決定装置1a,1bにおいては、雑音や背景音が混在する部分も含めた連続な基本周波数の概形を用いる点で安定的に動作するという利点はあるものの、男女の声が混合している場合には、基本周波数の概形の値に比例して話速変換倍率を設定する点で動作が不安定になることがある。 Further, when the rough shape S n (speech rate conversion magnification αd n ) of the rough shape of the fundamental frequency is used together, there are the following advantages. This is different from Patent Document 1 in which “the speaking speed is slowed down when the fundamental frequency is high and the speaking speed is increased when the fundamental frequency is low”. For example, when thinking about comics such as a combination of men and women, the voices of men and women change violently with almost no pause. With respect to such an input signal, the technique described in Patent Document 1 “slows the speech speed when the fundamental frequency is high, and accelerates the speech speed when the fundamental frequency is low”. There is a tendency for male voices to always be faster because they are low. Compared with the technique of Patent Document 1 in which a voiced section and a voiceless section have to be correctly distinguished, in the speech speed conversion magnification determination apparatuses 1a and 1b according to the first and second embodiments, noise and background sound are mixed. Although there is an advantage that it operates stably in terms of using an outline of the continuous fundamental frequency including the voice, when the voices of men and women are mixed, the speech rate is proportional to the approximate value of the fundamental frequency. Operation may become unstable in terms of setting the conversion magnification.

そこで、基本周波数の概形の凹凸度Sを併用することにより、基本周波数の概形において、言葉のアクセントなどに付随して、女性の声の部分でも、男性の声の部分でも、必ず凹凸が生じるため、男女それぞれ、凸の部分は話速を緩め、凹の部分は話速を速めることができ、男女両者に公平な配分で、話速の適応的な制御が可能である。 Thus, by a combination of uneven degree S n of the envelope of the fundamental frequency, in the approximate shape of the fundamental frequency, in association such as the words of the accent, even in parts of the female voice, even in parts of the voice of the man, always uneven Therefore, for both men and women, the convex part can slow down the speech speed, and the concave part can speed up the speech speed, and it is possible to adaptively control the speech speed with fair distribution to both men and women.

また、パワーの概形の凹凸度Q(話速変換倍率αe)を併用した場合には以下の利点がある。例えば、ドラマや講談などを考えると、演出よって、ある1センテンスは大きな声で発声し、次の1センテンスは急に小さい声で発声するといったことがよく行われる。このような入力信号に対して、実施例2の話速変換倍率決定装置1bにおいては、声の大きいセンテンスは相対的に話速を緩め、声の小さいセンテンスでは相対的に速めるという傾向が否めない。 Further, when the unevenness Q n (speaking speed conversion magnification αe n ) of the rough shape of the power is used together, there are the following advantages. For example, when considering a drama or a lecture, it is often the case that one sentence is uttered with a loud voice and the next one sentence is suddenly uttered with a small voice. With respect to such an input signal, in the speech speed conversion magnification determination apparatus 1b according to the second embodiment, there is a tendency that a sentence with a loud voice relatively slows down and a sentence with a low voice relatively accelerates. .

そこで、パワーの概形の凹凸度Qを併用することにより、大きな声のセンテンスでも、声の小さいセンテンスでも、単語単位のアクセントなどに付随して、必ず凹凸が生じるため、それぞれ、凸の部分は話速を緩め、凹の部分は話速を速めることができ、声の大きさの大小に関係なく公平な配分で、話速の適応的な制御が可能となる。 Therefore, by using the rough shape Q n of the power outline together, even in a sentence with a loud voice or a sentence with a low voice, an irregularity always accompanies the accent of each word. Can slow the speech speed, and the concave portion can speed up the speech speed, and adaptive control of the speech speed is possible with a fair distribution regardless of the size of the voice.

また、分割帯域パワー比E(話速変換倍率αf)を併用した場合には以下の利点がある。特許文献4及び5には、定常状態における周波数スペクトルの複数の帯域と入力信号の周波数スペクトルの対応する各帯域のパワーを比較することにより、入力信号が“音声区間”か“無音区間”かを判別することが述べられているが、本発明の“周波数スペクトルを複数の帯域に分割した場合のある2つの帯域の低い側と高い側のパワー比”は、定常状態におけるスペクトルのパワーと比較するのではなく、入力信号のある瞬間の周波数スペクトルだけを対象として、それを帯域分割し、そのうちのある2つの帯域の低い側と高い側のパワー比を求めるものであり、特許文献4及び5の技術とは本質的に全く異なる物理量である。特許文献4又は5に記載の技術で、“音声区間”か“無音区間”かの判別を行った場合、先に述べたように、ある程度大きな音量の音楽などが背景音として混入している場合、正しく“音声区間”と“無音区間”を判別することは困難であり、したがって正しく適応的な話速変換を行うことができない。 Further, when the divided band power ratio E n (speech rate conversion magnification αf n ) is used in combination, the following advantages are obtained. In Patent Documents 4 and 5, by comparing the powers of a plurality of bands of the frequency spectrum in the steady state and the corresponding bands of the frequency spectrum of the input signal, it is determined whether the input signal is a “voice section” or “silent section”. Although it is stated that the frequency spectrum is divided into a plurality of bands, the “power ratio between the lower side and the higher side of two bands when the frequency spectrum is divided into a plurality of bands” of the present invention is compared with the power of the spectrum in the steady state. Instead, only the frequency spectrum at a certain moment of the input signal is subjected to band division, and the power ratio between the lower side and the higher side of two of those bands is obtained. It is a physical quantity that is essentially different from technology. When the technology described in Patent Document 4 or 5 is used to determine whether it is a “voice section” or “silent section”, as described above, music with a certain level of volume is mixed as background sound. Therefore, it is difficult to correctly distinguish between “voice section” and “silent section”, and therefore adaptive speech speed conversion cannot be performed correctly.

そこで、分割帯域パワー比Eを併用することにより、入力信号のある瞬間の周波数スペクトルだけを対象として、そのうちのある2つの帯域の低い側と高い側のパワー比に基づき話速を決定するため、本質的に判定誤りというものは存在せず、安定して話速の制御が可能である。例えば、低い側のパワーに対して高い側のパワーが小さいときは話速を緩め、低い側のパワーに対して高い側のパワーが大きいときは話速を速めるといった制御が可能となる。この“2つの帯域の低い側と高い側のパワー比”は入力信号が、音声区間、音楽、雑音、無音など種類によって値が変わるものであるので、このパワー比の値により話速制御することにより、音声区間では話速を緩め、音楽、雑音、無音などの区間では話速を速めることが可能となる。 Therefore, the combined use of the subband power ratio E n, targeting only the frequency spectrum of a certain moment the input signal in order to determine the speech rate on the basis of the two bands of the low side and high side power ratio of certain of its There is essentially no judgment error, and the speech speed can be controlled stably. For example, it is possible to perform control such as slowing the speech speed when the power on the high side is small relative to the power on the low side, and increasing the speech speed when the power on the high side is large relative to the power on the low side. This “power ratio between the low side and the high side of the two bands” varies depending on the type of the input signal, such as voice interval, music, noise, and silence. As a result, the speech speed can be reduced in the voice section, and the speech speed can be increased in the music, noise, and silence sections.

ここで、実施例1の話速変換装置10aと同様に、実施例3の話速変換装置10cは、上述の話速変換倍率決定装置1cと、話速変換倍率決定装置1cにより決定された話速変換倍率に従って入力信号を話速変換する話速変換部4とを備える。話速変換装置4がリアルタイムの動作をする必要がある場合の動作も、実施例1と同様である。   Here, similarly to the speech speed conversion device 10a of the first embodiment, the speech speed conversion device 10c of the third embodiment is a speech determined by the above-described speech speed conversion magnification determination device 1c and the speech speed conversion magnification determination device 1c. And a speech speed conversion unit 4 for converting the speech speed of the input signal according to the speed conversion magnification. The operation when the speech speed conversion device 4 needs to operate in real time is the same as that of the first embodiment.

また、実施例1と同様に、話速変換倍率決定装置1c又は話速変換装置10cとして機能させるために、コンピュータを好適に用いることができ、そのようなコンピュータは、話速変換倍率決定装置1cの各機能を実現する処理内容を記述したプログラムを、当該コンピュータの記憶部に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。   Similarly to the first embodiment, a computer can be suitably used to function as the speech speed conversion magnification determination device 1c or the speech speed conversion device 10c. Such a computer can be used as the speech speed conversion magnification determination device 1c. It can be realized by storing a program describing the processing contents for realizing each function in the storage unit of the computer, and reading and executing the program by a central processing unit (CPU) of the computer. .

また、処理内容を記述したプログラムを、DVD又はCD−ROMなどのコンピュータ読み取り可能な記録媒体に記録し、この記録媒体を販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばIPなどのネットワーク上にあるサーバの記憶部に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。   In addition, the program describing the processing contents can be recorded on a computer-readable recording medium such as a DVD or CD-ROM, and the recording medium can be distributed by selling, transferring, renting, etc. For example, the program can be distributed by storing the program in a storage unit of a server on a network such as an IP and transferring the program from the server to another computer via the network.

また、そのようなプログラムを実行するコンピュータは、例えば、記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶部に記憶することができる。また、このプログラムの別の実施態様として、コンピュータが記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。   In addition, a computer that executes such a program can temporarily store, for example, a program recorded in a recording medium or a program transferred from a server in its storage unit. Further, as another embodiment of the program, the computer may read the program directly from the recording medium and execute processing according to the program, and each time the program is transferred from the server to the computer, The processing according to the received program may be executed sequentially.

上述の各実施例は、個々に代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。   Each of the above embodiments has been described as a representative example, but it will be apparent to those skilled in the art that many changes and substitutions can be made within the spirit and scope of the invention. Therefore, the present invention should not be construed as being limited by the above-described embodiments, and various modifications and changes can be made without departing from the scope of the claims.

本発明は、話速変換を要する任意の用途に有用である。例えば、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダーなどに一度記録して、ゆっくり又は速く視聴したりすることができる。また、視覚障害者からは音声情報を効率的に聴取したいという要望があり、本発明を用いれば、視覚障害者用の録音図書などを高速に再生して聞くこともできる。さらには、語学学習や発声訓練システムにおいて、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりすることもできる。   The present invention is useful for any application that requires speech speed conversion. For example, it is possible to listen to television or radio sound slowly in real time, or to record it once on a hard disk recorder or the like for viewing slowly or quickly. In addition, there is a demand from a visually impaired person to efficiently listen to audio information. By using the present invention, it is possible to reproduce and listen to a recording book for a visually impaired person at high speed. Furthermore, in a language learning or utterance training system, it can be used when creating the teaching material, or it can be used for learning by converting the speech speed of the voice according to the learner's progress.

1a,1b,1c 話速変換倍率決定装置
2 物理指標算出部
3 話速変換倍率決定部
4 話速変換部
10a,10b,10c 話速変換装置
100 基本周波数概形算出部
102 有音/無音判定部
104 基本周波数算出部
106 平滑化部
108 擬似基本周波数算出部
110 基本周波数概形連結部
120 第1の話速変換倍率指定部(話速変換倍率指定部a)
140 話速変換倍率微調整部
200 パワー概形算出部
202 パワー算出部
204 平滑化部
220 第2の話速変換倍率指定部(話速変換倍率指定部b)
300 有声度概形算出部
302 有声度算出部
304 平滑化部
320 第3の話速変換倍率指定部(話速変換倍率指定部c)
400 基本周波数概形算出部
410 凹凸度算出部
420 第4の話速変換倍率指定部(話速変換倍率指定部d)
500 パワー概形算出部
510 凹凸度算出部
520 第5の話速変換倍率指定部(話速変換倍率指定部e)
600 周波数帯域分割・パワー演算部
602 スペクトル算出部
604 帯域分割部
606 パワー演算部
610 分割帯域パワー比算出部
620 第6の話速変換倍率指定部(話速変換倍率指定部f)
DESCRIPTION OF SYMBOLS 1a, 1b, 1c Speech speed conversion magnification determination apparatus 2 Physical index calculation part 3 Speech speed conversion magnification determination part 4 Speech speed conversion part 10a, 10b, 10c Speech speed conversion apparatus 100 Fundamental frequency outline calculation part 102 Sound / silence determination Unit 104 Fundamental frequency calculation unit 106 Smoothing unit 108 Pseudo fundamental frequency calculation unit 110 Fundamental frequency outline concatenation unit 120 First speech speed conversion magnification designation unit (speech speed conversion magnification designation unit a)
140 Spoken speed conversion magnification fine adjustment unit 200 Power outline calculation unit 202 Power calculation unit 204 Smoothing unit 220 Second speech speed conversion magnification designation unit (speech speed conversion magnification designation unit b)
300 voiced outline calculation unit 302 voiced calculation unit 304 smoothing unit 320 third speech speed conversion magnification designation unit (speech speed conversion magnification designation unit c)
400 Fundamental frequency outline calculation unit 410 Concavity and convexity calculation unit 420 Fourth speech speed conversion magnification designation unit (speech speed conversion magnification designation unit d)
500 Power outline calculation unit 510 Concavity and convexity calculation unit 520 Fifth speech speed conversion magnification designation unit (speech speed conversion magnification designation unit e)
600 Frequency band division / power calculation unit 602 Spectrum calculation unit 604 Band division unit 606 Power calculation unit 610 Division band power ratio calculation unit 620 Sixth speech rate conversion magnification designation unit (speech rate conversion magnification designation unit f)

Claims (11)

入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置であって、
入力信号の有音区間と無音区間とを判別する有音無音判定部と、
前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間、及び該基本周波数の値が所定の変化幅を超えて変化する不安定区間を決定する基本周波数算出部と、
前記安定区間において、前記基本周波数の時間変化を平滑化する周波数平滑化部と、
前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部と、
前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得る基本周波数概形連結部と、を有し、
前記基本周波数の概形の標本値を物理指標として出力する物理指標算出部と、
前記物理指標に基づいて、入力信号に指定すべき話速変換倍率を算出する話速変換倍率指定部と、
を備えることを特徴とする話速変換倍率決定装置。
A speech speed conversion magnification determination device for determining an adaptive conversion ratio of a speech speed of an input signal,
A sound / silence determination unit for determining a sound section and a silence section of the input signal;
The fundamental frequency of the input signal is calculated at a certain time interval in the sound interval, the stable interval in which the fundamental frequency value changes within a predetermined variation range, and the fundamental frequency value exceeds the predetermined variation range. A fundamental frequency calculation unit for determining an unstable interval that changes with
A frequency smoothing unit that smoothes a temporal change in the fundamental frequency in the stable section;
In the unstable section and the silent section, a pseudo fundamental frequency calculation unit that calculates a pseudo fundamental frequency by interpolating the fundamental frequency with reference to a value of the fundamental frequency in the smoothed stable section;
A fundamental frequency outline linking unit that connects the smoothed fundamental frequency and the pseudo fundamental frequency to obtain a sample value of a series of fundamental frequencies;
A physical index calculation unit for outputting a sample value of a rough shape of the fundamental frequency as a physical index;
Based on the physical index, a speech speed conversion magnification specifying unit that calculates a speech speed conversion ratio to be specified in the input signal;
A speech speed conversion magnification determination apparatus comprising:
前記物理指標算出部は、一定の時間間隔で入力信号のパワーを算出するパワー算出部と、前記パワーの時間変化を平滑化してパワーの概形の標本値を得るパワー平滑化部と、を備え、
前記基本周波数の概形の標本値及び前記パワーの概形の標本値を前記物理指標として出力することを特徴とする、請求項1に記載の話速変換倍率決定装置。
The physical index calculation unit includes a power calculation unit that calculates the power of an input signal at a constant time interval, and a power smoothing unit that smoothes the time change of the power and obtains a sample value of an outline of the power. ,
The speech rate conversion magnification determination apparatus according to claim 1, wherein the approximate sample value of the fundamental frequency and the approximate sample value of the power are output as the physical index.
前記物理指標算出部は、入力信号波形から有声度を求める有声度算出部と、前記有声度の時間変化を平滑化して有声度の概形の標本値を得る有声度平滑化部と、を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記有声度の概形の標本値を前記物理指標として出力することを特徴とする、請求項2に記載の話速変換倍率決定装置。
The physical index calculation unit includes: a voicing degree calculation unit that obtains voicing degree from an input signal waveform; and a voicing degree smoothing unit that obtains a sample value of the voicing degree by smoothing a temporal change of the voicing degree. ,
The speech rate according to claim 2, wherein the sample value of the approximate shape of the fundamental frequency, the sample value of the approximate shape of the power, and the sample value of the approximate shape of the voicedness are output as the physical index. Conversion magnification determination device.
前記物理指標算出部は、前記基本周波数の概形の変化傾向を表す、基本周波数の概形の凹凸度を算出する基本周波数凹凸度算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記基本周波数の概形の凹凸度を前記物理指標として出力することを特徴とする、請求項2に記載の話速変換倍率決定装置。
The physical index calculation unit includes a fundamental frequency unevenness degree calculation unit that calculates an approximate shape unevenness degree of the fundamental frequency, which represents a change tendency of the approximate shape of the fundamental frequency,
The speech rate according to claim 2, wherein the sample value of the approximate shape of the fundamental frequency, the sample value of the approximate shape of the power, and the degree of irregularity of the approximate shape of the fundamental frequency are output as the physical index. Conversion magnification determination device.
前記物理指標算出部は、前記パワーの概形の変化傾向を表す、パワーの概形の凹凸度を算出するパワー凹凸度算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記パワーの概形の凹凸度を前記物理指標として出力することを特徴とする、請求項2に記載の話速変換倍率決定装置。
The physical index calculation unit includes a power irregularity degree calculating unit that calculates a degree of irregularity of the power outline, which represents a change tendency of the power outline.
The speech rate conversion according to claim 2, wherein the sample value of the rough shape of the fundamental frequency, the sample value of the rough shape of the power, and the degree of unevenness of the rough shape of the power are output as the physical index. Magnification determination device.
前記物理指標算出部は、入力信号のパワースペクトルを算出し、第1の周波数帯域における正規化パワー、及び第1の周波数帯域よりも高い第2の周波数帯域における正規化パワーを算出する周波数帯域分割・パワー演算部と、前記第1の周波数帯域及び前記第2の周波数帯域における正規化パワーの比を算出する分割帯域パワー比算出部を備え、
前記基本周波数の概形の標本値、前記パワーの概形の標本値、及び前記第1の周波数帯域及び第2の周波数帯域における正規化パワーの比を前記物理指標として出力することを特徴とする、請求項2に記載の話速変換倍率決定装置。
The physical index calculation unit calculates a power spectrum of an input signal, and calculates a normalized power in a first frequency band and a normalized power in a second frequency band higher than the first frequency band. A power calculation unit and a divided band power ratio calculation unit that calculates a ratio of normalized power in the first frequency band and the second frequency band;
The approximate sample value of the fundamental frequency, the approximate sample value of the power, and the ratio of the normalized power in the first frequency band and the second frequency band are output as the physical index. The speech speed conversion magnification determining apparatus according to claim 2.
前記話速変換倍率指定部は、前記物理指標、及び前記物理指標それぞれの話速に対する寄与率に基づいて、前記話速変換倍率を算出することを特徴とする、請求項2〜6のいずれか一項に記載の話速変換倍率決定装置。   The speech rate conversion magnification specifying unit calculates the speech rate conversion rate based on the physical index and a contribution rate of each physical index to the speech rate. The speech speed conversion magnification determination apparatus according to one item. 入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、入力信号の全体又は各部分の時間長が前記再生すべき時間長に適合するように前記話速変換倍率を微調整して最終話速変換倍率を決定する話速変換倍率微調整部を更に備えることを特徴とする、請求項7に記載の話速変換倍率決定装置。   Given the length of time to be reproduced for each part of the input signal or the divided input signal, the speech speed is adjusted so that the time length of the whole input signal or each part matches the time length to be reproduced. The speech speed conversion magnification determination apparatus according to claim 7, further comprising a speech speed conversion magnification fine adjustment unit that finely adjusts the conversion magnification to determine a final speech speed conversion magnification. 入力信号の適応的な話速変換を行う話速変換装置であって、
請求項8に記載の話速変換倍率決定装置と、前記話速変換倍率に従って入力信号を話速変換する話速変換部と、を備え、
前記話速変換部は、入力信号の全体、又は分割された入力信号における各部分に対する再生すべき時間長が与えられると、一定の時間間隔ごとに、一様な倍率で伸縮させた時に出力されるべき目標信号と、入力信号を前記話速変換倍率により変換した変換信号とを、信号の時系列上で比較して時間的なずれ量を算出し、
前記話速変換倍率微調整部は、前記時間的なずれ量に応じてその後の話速変換倍率を再調整することを特徴とする話速変換装置。
A speech speed conversion device that performs adaptive speech speed conversion of an input signal,
A speech speed conversion magnification determination device according to claim 8, and a speech speed conversion unit that converts an input signal according to the speech speed conversion magnification.
The speech speed conversion unit is output when the entire input signal or the length of time to be reproduced for each part of the divided input signal is given and expanded at a uniform magnification at regular time intervals. The target signal to be calculated and the converted signal obtained by converting the input signal by the speech speed conversion magnification are compared on the time series of the signal to calculate a temporal shift amount,
The speech speed conversion magnification fine adjustment unit re-adjusts the subsequent speech speed conversion magnification according to the temporal shift amount.
入力信号の話速の適応的な変換倍率を決定する話速変換倍率決定装置として構成するコンピュータに、
入力信号の有音区間と無音区間とを判別するステップと、
前記有音区間において一定の時間間隔で入力信号の基本周波数を算出するとともに、該基本周波数の値が所定の変化幅内で変化する安定区間と、該基本周波数の値が所定の変化幅を超えて変化する不安定区間とを決定するステップと、
前記安定区間において、前記基本周波数の時間変化を平滑化するステップと、
前記不安定区間及び前記無音区間において、前記平滑化された安定区間における基本周波数の値を参照して、基本周波数を内挿した擬似基本周波数を算出するステップと、
前記平滑化された基本周波数及び前記擬似基本周波数を接続して、一続きの基本周波数の概形の標本値を得るステップと、
前記基本周波数の概形の標本値に応じて、入力信号に指定すべき話速変換倍率を算出するステップと、
を実行させるためのプログラム。
In a computer configured as a speech speed conversion magnification determination device that determines an adaptive conversion magnification of the speech speed of an input signal,
Discriminating between a voiced section and a silent section of the input signal;
The fundamental frequency of the input signal is calculated at a certain time interval in the sound interval, the stable interval in which the fundamental frequency value changes within a predetermined variation range, and the fundamental frequency value exceeds the predetermined variation range. Determining an unstable interval that varies with
Smoothing a time change of the fundamental frequency in the stable interval;
In the unstable section and the silent section, referring to the value of the fundamental frequency in the smoothed stable section, calculating a pseudo fundamental frequency by interpolating the fundamental frequency;
Connecting the smoothed fundamental frequency and the pseudo fundamental frequency to obtain a sample value of a series of fundamental frequencies;
Calculating a speech rate conversion magnification to be specified in the input signal according to a sample value of the outline of the fundamental frequency;
A program for running
請求項10に記載のプログラムを記録した記録媒体。   A recording medium on which the program according to claim 10 is recorded.
JP2011017232A 2011-01-28 2011-01-28 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium Active JP5593244B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011017232A JP5593244B2 (en) 2011-01-28 2011-01-28 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium
US13/981,950 US9129609B2 (en) 2011-01-28 2012-01-27 Speech speed conversion factor determining device, speech speed conversion device, program, and storage medium
PCT/JP2012/000537 WO2012102056A1 (en) 2011-01-28 2012-01-27 Device for determination of speech-speed conversion factor, speech-speed conversion device, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011017232A JP5593244B2 (en) 2011-01-28 2011-01-28 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2012159540A true JP2012159540A (en) 2012-08-23
JP5593244B2 JP5593244B2 (en) 2014-09-17

Family

ID=46580630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011017232A Active JP5593244B2 (en) 2011-01-28 2011-01-28 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium

Country Status (3)

Country Link
US (1) US9129609B2 (en)
JP (1) JP5593244B2 (en)
WO (1) WO2012102056A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106337A (en) * 2012-11-27 2014-06-09 Oki Electric Ind Co Ltd Voice band extension device and program and voice featured value calculation device and program
JP2019133685A (en) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593244B2 (en) * 2011-01-28 2014-09-17 日本放送協会 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium
JP2012194417A (en) * 2011-03-17 2012-10-11 Sony Corp Sound processing device, method and program
US9652945B2 (en) 2013-09-06 2017-05-16 Immersion Corporation Method and system for providing haptic effects based on information complementary to multimedia content
US9619980B2 (en) 2013-09-06 2017-04-11 Immersion Corporation Systems and methods for generating haptic effects associated with audio signals
US9576445B2 (en) 2013-09-06 2017-02-21 Immersion Corp. Systems and methods for generating haptic effects associated with an envelope in audio signals
CN107731243B (en) * 2016-08-12 2020-08-07 电信科学技术研究院 Voice real-time variable-speed playing method and device
US10157607B2 (en) 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
US10276185B1 (en) * 2017-08-15 2019-04-30 Amazon Technologies, Inc. Adjusting speed of human speech playback
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
CN110675861B (en) * 2019-09-26 2022-11-01 深圳追一科技有限公司 Method, device and equipment for speech sentence interruption and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091189A (en) * 1996-09-17 1998-04-10 Nec Corp Vocalization speed transformation device
JP2011033789A (en) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> Adaptive speech-rate conversion device and program

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JP3249567B2 (en) 1992-03-10 2002-01-21 日本放送協会 Method and apparatus for converting speech speed
JP3219892B2 (en) 1993-04-05 2001-10-15 日本放送協会 Real-time speech speed converter
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
JP3357742B2 (en) 1993-09-18 2002-12-16 三洋電機株式会社 Speech speed converter
JP3373933B2 (en) 1993-11-17 2003-02-04 三洋電機株式会社 Speech speed converter
JP3266819B2 (en) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 Periodic signal conversion method, sound conversion method, and signal analysis method
JP2955247B2 (en) * 1997-03-14 1999-10-04 日本放送協会 Speech speed conversion method and apparatus
JP3619946B2 (en) 1997-03-19 2005-02-16 富士通株式会社 Speaking speed conversion device, speaking speed conversion method, and recording medium
JP3220043B2 (en) 1997-04-30 2001-10-22 日本放送協会 Speech rate conversion method and apparatus
KR100302370B1 (en) * 1997-04-30 2001-09-29 닛폰 호소 교카이 Speech interval detection method and system, and speech speed converting method and system using the speech interval detection method and system
JP3834169B2 (en) * 1999-09-22 2006-10-18 日本放送協会 Continuous speech recognition apparatus and recording medium
DE60006995T2 (en) * 1999-11-08 2004-10-28 British Telecommunications P.L.C. NON-INFLUENCING ASSESSMENT OF LANGUAGE QUALITY
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
JP5119700B2 (en) * 2007-03-20 2013-01-16 富士通株式会社 Prosody modification device, prosody modification method, and prosody modification program
JP5593244B2 (en) * 2011-01-28 2014-09-17 日本放送協会 Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091189A (en) * 1996-09-17 1998-04-10 Nec Corp Vocalization speed transformation device
JP2011033789A (en) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> Adaptive speech-rate conversion device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106337A (en) * 2012-11-27 2014-06-09 Oki Electric Ind Co Ltd Voice band extension device and program and voice featured value calculation device and program
JP2019133685A (en) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals

Also Published As

Publication number Publication date
US20130325456A1 (en) 2013-12-05
WO2012102056A1 (en) 2012-08-02
US9129609B2 (en) 2015-09-08
JP5593244B2 (en) 2014-09-17

Similar Documents

Publication Publication Date Title
JP5593244B2 (en) Spoken speed conversion magnification determination device, spoken speed conversion device, program, and recording medium
JP7150939B2 (en) Volume leveler controller and control method
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US5828994A (en) Non-uniform time scale modification of recorded audio
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP6821970B2 (en) Speech synthesizer and speech synthesizer
Obin et al. On the generalization of Shannon entropy for speech recognition
JP5412204B2 (en) Adaptive speech speed converter and program
JP2017106988A (en) Voice interactive device and program
JP2017106989A (en) Voice interactive device and program
JP2016164628A (en) Read-aloud evaluation device, read-aloud evaluation method, and program
JP4313724B2 (en) Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same
JPH07191695A (en) Speaking speed conversion device
US11380345B2 (en) Real-time voice timbre style transform
JP2005524118A (en) Synthesized speech
JP6784137B2 (en) Acoustic analysis method and acoustic analyzer
CN116072152A (en) Speech synthesis method and device and electronic equipment
JP5679451B2 (en) Speech processing apparatus and program thereof
WO2019059094A1 (en) Speech processing method and speech processing device
JPH07129194A (en) Method and device for sound synthesization

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140804

R150 Certificate of patent or registration of utility model

Ref document number: 5593244

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250