JP3553828B2 - Voice storage and playback method and voice storage and playback device - Google Patents

Voice storage and playback method and voice storage and playback device Download PDF

Info

Publication number
JP3553828B2
JP3553828B2 JP23097299A JP23097299A JP3553828B2 JP 3553828 B2 JP3553828 B2 JP 3553828B2 JP 23097299 A JP23097299 A JP 23097299A JP 23097299 A JP23097299 A JP 23097299A JP 3553828 B2 JP3553828 B2 JP 3553828B2
Authority
JP
Japan
Prior art keywords
voice
speed
stored
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23097299A
Other languages
Japanese (ja)
Other versions
JP2001056696A (en
Inventor
享邦 西田
昌洋 渡辺
みづほ 井上
義武 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23097299A priority Critical patent/JP3553828B2/en
Publication of JP2001056696A publication Critical patent/JP2001056696A/en
Application granted granted Critical
Publication of JP3553828B2 publication Critical patent/JP3553828B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,音声通信システム等において,自然な通話の実現を可能とした音声蓄積再生方法および音声蓄積再生装置に関する。
【0002】
【従来の技術】
音声通信を半2重通信路やネットワーク上で行うときなど効率的に音声を伝送するために,いわゆるボイス(音声)スイッチを用い,音声を送るときには音声回線を開いて音声を送り,無音時には音声回線を閉じて他のユーザが音声を送信できるようにしたり,他のデータを送受できるようにしたシステムがある。このシステムでは,送信側において,音声パワー計測によって音声パワーがある閾値を越えたときに,語頭と判断して音声回線を開くようにしたり,音素認識技術を用いることにより語頭検出精度を高め,語頭(話頭)切断を防止していた。
【0003】
しかしながら,背景雑音が大きなときには,語頭における音声パワーは背景雑音に対し小さく,また,音声認識率も低くなることから,語頭検出誤りによる欠落が生じやすくなり,音声通話は非常に不自然かつ不明瞭になり易いという問題点があった。
【0004】
図5に「北見」と発声したときの波形と音声パワー,および音声スイッチがONしている期間の例を示す。図5の例から明らかなように,語頭の「k」の部分は音声パワーが閾値に達していないため,音声スイッチのONが遅れ,これにより話頭の「き」の「k」の部分が欠落することがわかる。このように,話頭切断は,話頭が子音部のような音声パワーの小さいときに生じ易く,母音など音声パワーの大きなときには生じにくい。日本語を考えると,通常,音声は子音+母音の組合せが多い。そこで,上記問題点を解決するために,常に音声を一旦蓄積しておき,音声パワーの大きな母音部等で語頭が検出されたときに,ある一定期間さかのぼった時点から音声を再生し語頭欠落を防止する方法がある。
【0005】
【発明が解決しようとする課題】
しかしながら,音声の蓄積により,音声遅延が生じ通話は非常に不自然なものになってしまう。通常人間が会話するときには,相手の発言が終ってから発声することが多いと考えられる。例えば,100msecの音声蓄積を行うことを考えると,発声者が,発声し終ってから相手に発声の終了がわかるまでに,回線遅延がなかったとして100msecかかり,その後,相手が発声し最初の発声が相手の発声開始を知るまでに100msecかかることになる。そのため,会話間の無音部分は,合計200msecとなり,スムーズな会話が阻害される。
【0006】
本発明は,以上のような音声スイッチを実現するときに問題となる話頭切断を防止し,かつ音声遅延を生じさせないで自然な通話を可能とすることを目的とする。
【0007】
【課題を解決するための手段】
本発明は,上記課題を解決するため,話頭部分では,音声蓄積部から過去の音声を話速変換することにより速く再生し,音声蓄積部に過去の音声データがなくなったところで,入力されている音声データを等速度で再生し,語尾において音声遅延が生じないようにする。上記方法により,先に示した音声を蓄積しておいて話頭切断を防止するだけのシステムを用いたときの会話間の無音部分は,多くても100msecとなり,スムーズに会話することが可能となる。
【0008】
これにより,話頭切断による会話の不明瞭さを防止し,音声遅延による会話の不自然さを防止することができる。
【0009】
ところで,話速を変換する装置として,特開平8−83095号公報「話速変換方法および装置」や,特開平8−202391号公報「話速変換装置」に記載されているものがある。これらは,受聴者の聞き取り能力に合った話速度で入力音声信号を出力する装置であり,主に話速度を下げる制御を行う。また,話速度は,音素や音声処理フレームに対しては変動するが,一つの文といった大枠で,話速度が設定されるので,本発明のように,話頭部分で速く再生し,途中から等速再生し語尾において遅延をなくすことはできない。
【0010】
【発明の実施の形態】
図1は,本発明の構成例を示すブロック図である。図1において,1は音声を入力し,入力音声が音声区間かどうかを判別する音声検出部,2は入力された音声を蓄積する音声蓄積部であるリングバッファ,3は入力音声をリングバッファ2に格納し入力ポインタおよび出力ポインタを更新する制御を行うリングバッファ制御部,4は音声検出部1において音声が検出されたときに,どのくらい時間をさかのぼった時点の蓄積された音声から再生するかを決め,リングバッファ2に蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで等速度再生する制御を行う話速制御部,5は話速制御部4の制御のもとにリングバッファ2に蓄積された音声の話速を変換する話速変換器を表す。
【0011】
図1の装置に入力された音声は,音声検出部1において音声パワー等が計測され,リングバッファ2に蓄えられる。また,音声検出部1は,常に背景雑音パワーを計測し,音声区間検出のための閾値を動的に変化させる。
【0012】
発声者が発声しないときには,入力音声は常に過去のデータを保持しながら次々とリングバッファ2に蓄えられる。音声検出部1で音声が検出されると通知がリングバッファ制御部3および話速制御部4へ送られる。リングバッファ制御部3では,今現在書き込まれている音声データの格納されているポインタ,および過去の音声データが書き込まれているポインタを把握しているので,過去の音声データが存在していること,またどのくらい過去のデータが蓄えられているかを話速制御部4に通知する。
【0013】
話速制御部4では,リングバッファ制御部3から受け取ったデータにより,話速変換器5に話速度を通知し,ある特定の時間内に過去のデータを全て再生し,今現在書き込まれている入力音声データのポインタに過去の入力音声データのポインタが追いつくようにする。
【0014】
例えば,蓄積されている過去のデータが,100msec分あり,100msecで追いつくようにしようと考えると,再生速度は2倍ということになり,この情報を話速変換器5に通知する。逆に,目標とする時間を設定せず,話速変換器5に通知する話速度は,常に2倍とすることも考えられる。
【0015】
ところで,通常人間が話速を調整するとき,無音部や母音部の長さが大きく変化するが,子音部の速度は変化しない。逆に子音部の速度を変化させずにポーズ部や母音部の速度を変化させても,聞き取りに大きな劣化は生じない。つまり,音素により認知できる最小の継続時間が違うので,音声検出部1に音素認識を用いたときには,再生データの音素によって細かく動的に話速度を変化させることで,さらに違和感のない通話が可能となる。
【0016】
そこで,音素認識を用いたときには,蓄積されている音声データのどこからどこまでがどの音素なのかという情報も蓄積されているので,それぞれの区間における音素に対する最小継続時間が保証される再生速度を話速変換器5に通知する。ただし,あまりにも大きな速度になると違和感が増大するので,もし,あらかじめ定められた最大速度を越えるようなときには,最大速度を話速変換器5に通知する。例えば,「おーがき」と発声したときに,「おがき」と再生されることを防ぐ役割を持たせる。
【0017】
加えて,先に説明した認知できる最小の継続時間は,ポーズ部,無音摩擦音,破裂音,母音等,ある似通った音素間での違いは小さいので,厳密に,処理量が大きな音素認識をせず,ポーズ部,無声摩擦音,破裂音,母音等といった処理量の小さな音素の大分類を用いて,再生速度を決定することも考えられる。
【0018】
話速変換器5は,リングバッファ2から音声フレームデータを取り出し,話速制御部4から指定された速度に応じてフレームデータを圧縮することで,フレームデータ数を減少させる。音声出力では,定期的な周期でフレームデータの1サンプル毎に再生されるので,フレームデータの削減により,話速度が大きくなる。入力音声データに追いついたところで,話速度を入力音声と同じとする。
【0019】
図2に「北見」と発声したときの話速の変化再生される音声の例を示す。図2(a)は,音素認識せずにパワーのみで音声を検出し,一定速度で現在の音声データに追いつくように再生をしたとき,図2(b)は,音素認識を行い,音素の種類によって再生速度を変化させる可変速度で再生をしたときの様子を示している。便宜上,音声データの単位をフレームと呼ぶ。また,簡単のため速度変化を音声フレーム数を間引くことにより表現している。「*」は無音部を表す。
【0020】
図2(a)のとき,15フレームの「a」で入力音声に再生音声が到達するが,そこに到達するまで,再生速度を2倍にして再生し,その後は,入力音声に対し等速度で再生する。図2(b)のとき,1〜2フレーム目の「*」は,破裂音に先行する無音部なので,フレームを1つ飛ばした速度で再生する。3〜4フレームの「k」は,子音部なので,そのまま再生する。5〜8フレームの「i」は,人間が母音を認知するのに必要なフレーム数を確保するために,例えば3フレームにして再生する。9〜10フレームの「*」は,1フレームにする。11〜12フレームの「t」は,子音部なのでそのまま再生する。13〜17フレームの「a」は,「i」と同様の理由により5フレームを3フレームにして再生する。これ以降過去の音声データはなくなるので,そのまま再生する。
【0021】
図2からわかるように,語尾において入力音声フレームと再生音声フレームとは一致しているので,語尾において音声遅延はなくなる。また,語尾においては,音声区間終端が検出されたときには,リングバッファ制御部3は,出力音声データのポインタ(以下,出力ポインタという)を停止させる。入力音声データのポインタ(以下,入力ポインタという)が,出力ポインタに追いついた時点で,出力ポインタを進ませる。これにより,音声終端が検出され再生が終った後に,すぐに音声区間が検出されたときに,2重に音声が再生されることを防ぐ。
【0022】
音素認識せずにパワーのみで音声検出をする場合の制御例を図3に,音素認識をして,音素の種類により再生速度を変化させる場合の制御例を図4に示す。
【0023】
音素認識をせずに,音声(音響)パワーのみで音声検出をする場合,まず,音声検出部1では,音声区間を音声パワーと閾値との大小比較により検出する(S1)。リングバッファ2には,リングバッファ制御部3によって常時入力音声が蓄積される。話速制御部4は,音声検出部1から通知を受け,話速変換器5が参照する話速レジスタ(図示省略)に目標話速度を設定する(S2)。
【0024】
話速変換器5は,話速制御部4の制御のもとにリングバッファ2から音声フレームデータを取り込み(S3),話速レジスタ値に準じた話速変換を行う(S4)。その変換した音声フレームデータを出力バッファ(図示省略)へ書き出し(S5),リングバッファ2の出力ポインタをインクリメントする(S6)。
【0025】
リングバッファ2の入力ポインタが出力ポインタに追いついたかどうかをチェックし(S7),追いついていない場合,ステップS3へ戻って,同様に目標話速度の速い速度による音声再生出力を繰り返す。入力ポインタが出力ポインタに追いついた場合には,話速レジスタに等速度を設定して(S8),ステップS3へ戻り,入力音声の速度と同じ速度で音声を再生する。以上の処理を音声区間が終了するまで繰り返す。
【0026】
音素認識を行い,音素の種類により再生速度を変化させる場合の制御は,図4に示すように行われる。この方法では,あらかじめ音素に対する最小継続時間が格納されたテーブル10を用意しておく。
【0027】
まず,音声検出部1では,入力音声について音素認識を行い,その認識結果によって音声区間を検出する(S10)。このとき音声パワーも考慮し,音声パワーによる音声区間の検出を併用してもよい。リングバッファ2には,リングバッファ制御部3によって,常時入力音声が蓄積され,入力ポインタがその都度更新される。また,音声検出部1による音素認識の結果も併せてリングバッファ2に蓄積される。
【0028】
音声区間が検出されると,リングバッファ2から音声フレームデータを取り込み(S11),それに対応する音素認識結果を話速制御部4に取り込む。話速制御部4は,先に処理していた音声フレームデータの音素と今から処理しようとしている音声フレームデータの音素は同じかどうかを判定する(S12)。同じ場合には,ステップS14へ進む。違う音素であれば,ステップS13へ進み,音素の継続時間を調べ,音素に対する最小継続時間テーブル10から最小継続時間を読み出し,所定の最高話速度を越えないように求められた話速度を話速レジスタに設定する(S13)。その後,ステップS14へ進む。
【0029】
話速変換器5は,リングバッファ2から取り込まれた音声フレームデータについて,話速レジスタ値に準じた話速変換を行う(S14)。その変換した音声フレームデータを出力バッファ(図示省略)へ書き出し(S15),リングバッファ2の出力ポインタをインクリメントする(S16)。
【0030】
リングバッファ2の入力ポインタが出力ポインタに追いついたかどうかをチェックし(S17),追いついていない場合,ステップS11へ戻って,同様に可変速度による音声再生出力を繰り返す。入力ポインタが出力ポインタに追いついた場合には,話速レジスタに等速度を設定して(S18),リングバッファ2から次の音声フレームデータを取り込み,ステップS14へ戻って,入力音声の速度と同じ速度で音声を再生する。以上の処理を音声区間が終了するまで繰り返す。
【0031】
【発明の効果】
以上のとおり,本発明により,音声スイッチを実現するときの問題となる話頭切断を防止し,なおかつ音声遅延を生じさせず,自然な通話を実現することができるようになる。
【図面の簡単な説明】
【図1】本発明の構成例を示すブロック図である。
【図2】話速変換の様子を示す図である。
【図3】音素認識せずにパワーのみで音声検出をする場合の制御フローを示す図である。
【図4】音素の種類により再生速度を変化させる場合の制御フローを示す図である。
【図5】音声波形と音声パワー,および音声スイッチの動作の関係を説明する図である。
【符号の説明】
1 音声検出部
2 リングバッファ
3 リングバッファ制御部
4 話速制御部
5 話速変換器
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice storage / reproduction method and a voice storage / reproduction device that enable natural communication in a voice communication system or the like.
[0002]
[Prior art]
In order to transmit voice efficiently, such as when performing voice communication on a half-duplex communication path or a network, a so-called voice (voice) switch is used. When transmitting voice, open a voice line and transmit voice. There are systems in which a line is closed to allow another user to transmit voice or to transmit / receive other data. In this system, when the voice power exceeds a certain threshold by voice power measurement, the transmitting side determines the beginning of the word and opens the voice line. (Talk head) The disconnection was prevented.
[0003]
However, when the background noise is large, the speech power at the beginning of the word is lower than that of the background noise, and the speech recognition rate is low. There was a problem that it was easy to become.
[0004]
FIG. 5 shows an example of a waveform when "Kitami" is uttered, voice power, and a period in which the voice switch is ON. As is apparent from the example of FIG. 5, since the voice power does not reach the threshold at the beginning of the word "k", the ON of the voice switch is delayed, and the "k" portion of the voice at the beginning of the word is missing. You can see that As described above, the beginning of the speech is likely to occur when the speech head has a low sound power such as a consonant part, and is unlikely to occur when the speech power is high such as a vowel. Considering Japanese, speech usually has many combinations of consonants + vowels. Therefore, in order to solve the above problem, speech is always stored once, and when the beginning of a word is detected in a vowel part or the like having a large speech power, the speech is reproduced from a point in time when a certain period of time has passed, and the beginning of the speech is deleted. There are ways to prevent it.
[0005]
[Problems to be solved by the invention]
However, the accumulation of voices causes voice delays and makes the call very unnatural. Usually, when a human talks, it is considered that the utterance is often made after the speech of the other party ends. For example, considering that voice storage is performed for 100 msec, it takes 100 msec after the speaker finishes uttering until there is no line delay before the other party knows that the utterance has ended. It takes 100 msec for the user to know the utterance start of the other party. Therefore, a silent portion between conversations is 200 msec in total, and a smooth conversation is hindered.
[0006]
SUMMARY OF THE INVENTION It is an object of the present invention to prevent a disconnection of a head of speech which is a problem when realizing the above-described voice switch, and to enable a natural telephone call without causing a voice delay.
[0007]
[Means for Solving the Problems]
According to the present invention, in order to solve the above-mentioned problem, in the beginning part of the speech, the past speech is quickly reproduced from the speech accumulation unit by converting the speech speed, and the speech is input when the speech accumulation unit has no more past speech data. The audio data is reproduced at a constant speed so that no audio delay occurs at the end. According to the above-mentioned method, the silent part between conversations is at most 100 msec when the system shown above is used to store the voices and only to prevent the beginning of the conversation, and the conversations can be smoothly conducted. .
[0008]
As a result, it is possible to prevent the conversation from being unclear due to the start of the conversation, and to prevent the conversation from being unnatural due to a voice delay.
[0009]
By the way, as a device for converting the speech speed, there are devices described in JP-A-8-83095 "Method and device for speech speed conversion" and JP-A-8-202391 "Device for speech speed conversion". These are devices that output an input voice signal at a speaking speed that matches the listening ability of the listener, and mainly performs control to reduce the speaking speed. Although the speech speed varies for phonemes and speech processing frames, the speech speed is set in a large frame such as one sentence. It is not possible to play fast and eliminate the delay at the end.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 is a block diagram showing a configuration example of the present invention. In FIG. 1, reference numeral 1 denotes a voice detection unit for inputting voice and discriminating whether the input voice is a voice section, 2 a ring buffer as a voice storage unit for storing the input voice, and 3 a ring buffer 2 for input voice. A ring buffer control unit 4 for controlling the updating of the input pointer and the output pointer to store the input pointer and the output pointer, and when the voice is detected by the voice detection unit 1, determines how far back the audio is reproduced from the stored voice. The voice speed control unit 5 controls the voice speed control unit 4 to reproduce the head portion of the voice stored in the ring buffer 2 at a high speed and to reproduce the voice at a constant speed when catching up with the input voice. The speech speed converter converts the speech speed of the voice stored in the ring buffer 2.
[0011]
The sound input to the apparatus shown in FIG. 1 is measured for sound power and the like by a sound detection unit 1 and stored in a ring buffer 2. Further, the voice detection unit 1 always measures the background noise power, and dynamically changes a threshold for voice section detection.
[0012]
When the speaker does not speak, the input speech is stored in the ring buffer 2 one after another while always retaining past data. When the voice is detected by the voice detector 1, a notification is sent to the ring buffer controller 3 and the voice speed controller 4. Since the ring buffer control unit 3 knows the pointer where the audio data currently being written is stored and the pointer where the past audio data is written, the past audio data must exist. , And notifies the speech speed control unit 4 of how much past data is stored.
[0013]
The voice speed control unit 4 notifies the voice speed converter 5 of the voice speed based on the data received from the ring buffer control unit 3, reproduces all the past data within a specific time, and writes the current data. The pointer of the past input voice data is made to catch up with the pointer of the input voice data.
[0014]
For example, there is 100 msec of accumulated past data, and if one tries to catch up in 100 msec, the reproduction speed is doubled, and this information is notified to the speech speed converter 5. Conversely, it is conceivable that the speech speed notified to the speech speed converter 5 is always doubled without setting the target time.
[0015]
By the way, when a human usually adjusts the speech speed, the length of a silent portion or a vowel portion changes greatly, but the speed of a consonant portion does not change. Conversely, even if the speed of the pause portion or the vowel portion is changed without changing the speed of the consonant portion, no significant deterioration occurs in listening. In other words, since the minimum duration that can be perceived differs depending on the phoneme, when using phoneme recognition for the voice detection unit 1, it is possible to change the speech speed finely and dynamically according to the phoneme of the reproduced data, so that a call with even more uncomfortable feeling is possible. It becomes.
[0016]
Therefore, when phoneme recognition is used, information on where and how much of the stored speech data is from which phoneme is also stored, so the playback speed that guarantees the minimum duration for the phoneme in each section is set as the speech speed. The converter 5 is notified. However, if the speed is too high, the sense of incongruity increases. If the speed exceeds a predetermined maximum speed, the maximum speed is notified to the speech speed converter 5. For example, when "Ogaki" is uttered, a role of preventing "Ogaki" from being reproduced is provided.
[0017]
In addition, the minimum perceivable duration described above is small because there is little difference between certain similar phonemes, such as pauses, silence fricatives, plosives, and vowels. Instead, it is conceivable to determine the playback speed using a large classification of phonemes with a small processing amount such as a pause portion, unvoiced fricatives, plosives, vowels, and the like.
[0018]
The voice speed converter 5 extracts the audio frame data from the ring buffer 2 and compresses the frame data according to the speed specified by the voice speed control unit 4 to reduce the number of frame data. In the audio output, since the frame data is reproduced at regular intervals for each sample of the frame data, the reduction of the frame data increases the speech speed. After catching up with the input voice data, the speech speed is assumed to be the same as the input voice.
[0019]
FIG. 2 shows an example of a voice reproduced with a change in speech speed when "Kitami" is uttered. FIG. 2A shows a case where speech is detected only with power without phoneme recognition and reproduced so as to catch up with the current speech data at a constant speed. FIG. 2B shows a case where phoneme recognition is performed and phoneme recognition is performed. The state when the reproduction is performed at a variable speed that changes the reproduction speed depending on the type is shown. For convenience, a unit of audio data is called a frame. For simplicity, the speed change is expressed by thinning out the number of audio frames. “*” Represents a silent part.
[0020]
In the case of FIG. 2 (a), the reproduced sound reaches the input sound at "a" of 15 frames, and the reproduction speed is doubled until reaching the input sound. To play. In the case of FIG. 2B, since “*” in the first and second frames is a silent part preceding the plosive, the frame is reproduced at a speed skipping one frame. Since "k" of 3 to 4 frames is a consonant part, it is reproduced as it is. The “i” of 5 to 8 frames is reproduced as, for example, 3 frames in order to secure the number of frames necessary for a human to recognize a vowel. “*” Of 9 to 10 frames is 1 frame. Since “t” of the 11 to 12 frames is a consonant part, it is reproduced as it is. “A” of 13 to 17 frames is reproduced by changing 5 frames into 3 frames for the same reason as “i”. Since the past audio data will be lost thereafter, it is reproduced as it is.
[0021]
As can be seen from FIG. 2, since the input speech frame and the reproduced speech frame coincide with each other at the end, there is no speech delay at the end. When the end of the voice section is detected at the end, the ring buffer control unit 3 stops the pointer of the output voice data (hereinafter, referred to as the output pointer). When the pointer of the input voice data (hereinafter referred to as the input pointer) catches up with the output pointer, the output pointer is advanced. As a result, when an audio section is detected immediately after the end of the audio is detected and the reproduction is completed, the audio is prevented from being reproduced twice.
[0022]
FIG. 3 shows an example of control in the case where voice detection is performed only with power without phoneme recognition, and FIG. 4 shows an example of control in the case where phoneme recognition is performed and the reproduction speed is changed depending on the type of phoneme.
[0023]
When voice detection is performed only with voice (sound) power without performing phoneme recognition, first, the voice detection unit 1 detects a voice section by comparing the voice power with a threshold (S1). In the ring buffer 2, the input voice is always stored by the ring buffer control unit 3. The voice speed controller 4 receives the notification from the voice detector 1 and sets a target voice speed in a voice speed register (not shown) referred to by the voice speed converter 5 (S2).
[0024]
The voice speed converter 5 fetches voice frame data from the ring buffer 2 under the control of the voice speed controller 4 (S3), and performs voice speed conversion according to the voice speed register value (S4). The converted audio frame data is written to an output buffer (not shown) (S5), and the output pointer of the ring buffer 2 is incremented (S6).
[0025]
It is checked whether or not the input pointer of the ring buffer 2 has caught up with the output pointer (S7). If it has not caught up, the process returns to step S3, and the sound reproduction and output at the high target speech speed is repeated. If the input pointer has caught up with the output pointer, a constant speed is set in the speech speed register (S8), and the process returns to step S3 to reproduce the voice at the same speed as the input voice. The above processing is repeated until the voice section ends.
[0026]
Control for performing phoneme recognition and changing the reproduction speed according to the type of phoneme is performed as shown in FIG. In this method, a table 10 in which the minimum duration for a phoneme is stored in advance is prepared.
[0027]
First, the voice detection unit 1 performs phoneme recognition on an input voice, and detects a voice section based on the recognition result (S10). At this time, the sound power may be considered, and the detection of the sound section based on the sound power may be used together. The ring buffer 2 constantly stores input voices in the ring buffer 2, and updates the input pointer each time. The result of the phoneme recognition by the voice detection unit 1 is also stored in the ring buffer 2 together.
[0028]
When a voice section is detected, voice frame data is fetched from the ring buffer 2 (S11), and the corresponding phoneme recognition result is fetched into the speech speed control unit 4. The speech speed control unit 4 determines whether the phoneme of the voice frame data that has been processed previously is the same as the phoneme of the voice frame data that is about to be processed (S12). If they are the same, proceed to step S14. If the phoneme is a different phoneme, the process proceeds to step S13, where the duration of the phoneme is checked, the minimum duration is read from the minimum duration table 10 for the phoneme, and the speech speed determined so as not to exceed the predetermined maximum speech speed is calculated. It is set in a register (S13). Thereafter, the process proceeds to step S14.
[0029]
The voice speed converter 5 performs voice speed conversion on the voice frame data fetched from the ring buffer 2 according to the voice speed register value (S14). The converted audio frame data is written to an output buffer (not shown) (S15), and the output pointer of the ring buffer 2 is incremented (S16).
[0030]
It is checked whether or not the input pointer of the ring buffer 2 has caught up with the output pointer (S17). If it has not caught up, the process returns to step S11, and the sound reproduction output at the variable speed is similarly repeated. If the input pointer has caught up with the output pointer, a constant speed is set in the speech speed register (S18), the next voice frame data is fetched from the ring buffer 2, and the process returns to step S14 to be the same as the speed of the input voice. Play sound at speed. The above processing is repeated until the voice section ends.
[0031]
【The invention's effect】
As described above, according to the present invention, it is possible to realize a natural telephone call without causing a speech head disconnection, which is a problem when implementing a voice switch, and without causing a voice delay.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of the present invention.
FIG. 2 is a diagram showing a state of speech speed conversion.
FIG. 3 is a diagram illustrating a control flow in a case where voice detection is performed using only power without performing phoneme recognition.
FIG. 4 is a diagram showing a control flow when the reproduction speed is changed depending on the type of phoneme.
FIG. 5 is a diagram illustrating a relationship between a sound waveform, a sound power, and an operation of a sound switch.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Voice detection part 2 Ring buffer 3 Ring buffer control part 4 Voice speed control part 5 Voice speed converter

Claims (4)

音声を入力する過程と,
入力された音声が音声区間かどうかを判別する過程と,
入力された音声を音声蓄積手段に蓄積する過程と,
音声区間が検出されたとき,前記音声蓄積手段の出力ポインタが示す位置から蓄積された音声の再生を開始し,出力ポインタを進めながら蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで等速度再生する過程と
音声区間終端が検出されたとき,あらかじめ決められた時間分の音声が蓄積されるまで前記出力ポインタを停止させ,蓄積された時点で出力ポインタを進ませる過程とを有する
ことを特徴とする音声蓄積再生方法。
The process of inputting voice,
Determining whether the input voice is a voice section,
Storing the input voice in the voice storage means ;
When a voice section is detected, the reproduction of the stored voice is started from the position indicated by the output pointer of the voice storage means, and while the output pointer is advanced , the beginning of the stored voice is quickly reproduced, and the input voice is reproduced. The process of playing back at a constant speed after catching up ,
When the end of the voice section is detected, the output pointer is stopped until voice for a predetermined time is stored, and the output pointer is advanced when the voice is stored. Playback method.
音声を入力し,入力音声が音声区間かどうかを判別する音声検出手段と,
入力された音声を蓄積する音声蓄積手段と,
前記音声蓄積手段への入力音声の蓄積を制御し,前記音声検出手段において音声区間終端が検出されたとき,あらかじめ決められた時間分の音声が蓄積されるまで出力ポインタを停止させ,蓄積された時点で出力ポインタを進ませる音声蓄積制御手段と,
前記音声検出手段において音声が検出されたときに,前記出力ポインタが示す位置から蓄積された音声の再生を開始し,出力ポインタを進めながら前記音声蓄積手段に蓄積された音声のうち話頭部分を速く再生し,入力音声に追いついたところで,等速度再生する制御を行う話速変換制御手段と,
前記話速変換制御手段の制御のもとに前記音声蓄積手段に蓄積された音声の話速を変換する話速変換手段とを備える
ことを特徴とする音声蓄積再生装置。
Voice detection means for inputting voice and determining whether the input voice is a voice section,
Voice storage means for storing input voice;
The storage of the input voice to the voice storage means is controlled, and when the voice section end is detected by the voice detection means, the output pointer is stopped until voice for a predetermined time is stored, and the stored voice is stopped. A voice accumulation control means for advancing an output pointer at a time ;
When a voice is detected by the voice detecting means, the reproduction of the stored voice is started from the position indicated by the output pointer, and the leading part of the voice stored in the voice storing means is quickly moved while the output pointer is advanced. Speech speed conversion control means for controlling reproduction at a constant speed when reproduced and catching up with the input voice;
A voice storage / reproduction device comprising: a voice speed conversion unit configured to convert a voice speed of voice stored in the voice storage unit under the control of the voice speed conversion control unit.
前記音声区間の検出を音声パワーに基づいて行い,
蓄積された音声のうち話頭部分の再生を,入力音声の速度より速い一定の速度で行う
ことを特徴とする請求項1記載の音声蓄積再生方法。
Detecting the voice section based on voice power,
2. The voice storage / reproduction method according to claim 1, wherein reproduction of a speech start part of the stored voice is performed at a constant speed higher than the speed of the input voice.
入力された音声の音素認識を行い,
蓄積された音声のうち話頭部分の再生を,前記音素認識結果に基づいて決められた速度で行う
ことを特徴とする請求項1記載の音声蓄積再生方法。
Performs phoneme recognition of the input speech,
2. The voice storage / reproduction method according to claim 1, wherein reproduction of a head portion of the stored voice is performed at a speed determined based on the phoneme recognition result.
JP23097299A 1999-08-18 1999-08-18 Voice storage and playback method and voice storage and playback device Expired - Fee Related JP3553828B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23097299A JP3553828B2 (en) 1999-08-18 1999-08-18 Voice storage and playback method and voice storage and playback device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23097299A JP3553828B2 (en) 1999-08-18 1999-08-18 Voice storage and playback method and voice storage and playback device

Publications (2)

Publication Number Publication Date
JP2001056696A JP2001056696A (en) 2001-02-27
JP3553828B2 true JP3553828B2 (en) 2004-08-11

Family

ID=16916219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23097299A Expired - Fee Related JP3553828B2 (en) 1999-08-18 1999-08-18 Voice storage and playback method and voice storage and playback device

Country Status (1)

Country Link
JP (1) JP3553828B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292720A (en) * 2007-05-24 2008-12-04 Yamaha Corp Speech transmission apparatus

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509255B2 (en) 2003-10-03 2009-03-24 Victor Company Of Japan, Limited Apparatuses for adaptively controlling processing of speech signal and adaptively communicating speech in accordance with conditions of transmitting apparatus side and radio wave and methods thereof
US7292564B2 (en) * 2003-11-24 2007-11-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for use in real-time, interactive radio communications
WO2006077626A1 (en) * 2005-01-18 2006-07-27 Fujitsu Limited Speech speed changing method, and speech speed changing device
JP2009021923A (en) * 2007-07-13 2009-01-29 Yamaha Corp Voice communication apparatus
JP2009122598A (en) * 2007-11-19 2009-06-04 Pioneer Electronic Corp Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program
JP6476768B2 (en) * 2014-11-07 2019-03-06 沖電気工業株式会社 Voice processing apparatus, program and method
CA3055167C (en) 2017-12-05 2021-12-28 Nec Platforms, Ltd. Communication apparatus, communication data recording system, communication method, and program
EP3803867B1 (en) 2018-05-31 2024-01-10 Shure Acquisition Holdings, Inc. Systems and methods for intelligent voice activation for auto-mixing
JP7379965B2 (en) * 2019-09-05 2023-11-15 ヤマハ株式会社 Conversation support device and conversation support system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008292720A (en) * 2007-05-24 2008-12-04 Yamaha Corp Speech transmission apparatus

Also Published As

Publication number Publication date
JP2001056696A (en) 2001-02-27

Similar Documents

Publication Publication Date Title
EP0910065B1 (en) Speaking speed changing method and device
JP4630876B2 (en) Speech speed conversion method and speech speed converter
WO2016063879A1 (en) Speech synthesis device and method
JP4523257B2 (en) Audio data processing method, program, and audio signal processing system
WO1998049673A1 (en) Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
JP3553828B2 (en) Voice storage and playback method and voice storage and playback device
US6999922B2 (en) Synchronization and overlap method and system for single buffer speech compression and expansion
JP4752516B2 (en) Voice dialogue apparatus and voice dialogue method
JPS60247697A (en) Voice recognition responder
JPH08106296A (en) Word recognition system
US20040267524A1 (en) Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
JP2001184100A (en) Speaking speed converting device
JP4127155B2 (en) Hearing aids
JPH0950288A (en) Device and method for recognizing voice
JPH06289895A (en) Real-time speaking speed converting method
JP3081469B2 (en) Speech speed converter
JP3187242B2 (en) Speech speed converter
JPH0772896A (en) Device for compressing/expanding sound
JP2001154684A (en) Speech speed converter
JP7113719B2 (en) Speech end timing prediction device and program
JPH02103599A (en) Voice recognizing device
KR100533217B1 (en) A headphone apparatus with gentle function using signal processing for prosody control of speech signals
JP2005064744A (en) Hearing aid device
JP2007212967A (en) Speaking speed converting device
KR100542976B1 (en) A headphone apparatus with soft-sound funtion using prosody control of speech signal

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees