JPH07210192A - 出力データ制御方法及び装置 - Google Patents

出力データ制御方法及び装置

Info

Publication number
JPH07210192A
JPH07210192A JP6014945A JP1494594A JPH07210192A JP H07210192 A JPH07210192 A JP H07210192A JP 6014945 A JP6014945 A JP 6014945A JP 1494594 A JP1494594 A JP 1494594A JP H07210192 A JPH07210192 A JP H07210192A
Authority
JP
Japan
Prior art keywords
voice
section
speech
information
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6014945A
Other languages
English (en)
Inventor
Tomosato Yamagoshi
知里 山腰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP6014945A priority Critical patent/JPH07210192A/ja
Publication of JPH07210192A publication Critical patent/JPH07210192A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【構成】 入力端子10の話音声入力データを該属性に
基づく分析手段による区間分割処理部11,ピッチ周期
抽出処理部12,ピッチ区間分割処理部13と,話音声
入力データ分析情報格納手段たる原音声データ・区間情
報バッファ部14と,受聴者の操作による話速度制御情
報生成手段である話速度設定部17と,先に形成した話
速度の変換音声データを一時格納し,格納容量が所定量
以下の話速度変更音声格納手段である出力バッファ部1
9と,該残記憶容量に応じて原音声データ・区間情報格
納バッファ部14から分析情報を読み出し延長比率の情
報に基づき当該分析情報に合成処理を施し発話者の話速
度変更音声信号形成手段としての無音区間延長処理部1
5,ピッチ区間延長処理部16及び話速度変換音声デー
タ合成部18とを有する。 【効果】 出力音声の話速度変更を,受聴者の操作に瞬
時に追従可能と成す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テレビジョン、ラジ
オ、テープレコーダ、ビデオテープレコーダ、ビデオデ
ィスクプレーヤ、パーソナルコンピュータなどのマルチ
メディア等の映像,音響機器や、医療機器などにおい
て、発話者の音声を加工して、受聴者の受聴能力に音声
スピードをフィットさせた音声を得るための出力データ
制御方法及び出力データ制御装置に関する。
【0002】
【従来の技術】一般に、例えば発話者の話を他の受聴者
が聞く場合において、例えば加齢や何らかの障害などに
よって受聴者の音声識別臨界速度(すなわち音声を正確
に識別できる最大の話速)などの受聴能力が低下する
と、当該受聴者は通常の早さの音声や早口で話される音
声を識別することが困難になることが多い。この場合、
通常はいわゆる補聴器などによって受聴者の受聴能力を
補うようにすることがある。
【0003】しかし、上述の如き受聴能力が低下したり
聴力障害を持つような人のための補聴器は、単に周波数
特性の改善、利得制御などによって聴覚系の外耳,中耳
の伝達特性のみを補償するものであるために、主として
聴覚中枢の劣化が関与する音声の識別能力の低下を補償
することは不可能である。
【0004】したがって、近年は、発話者の音声を加工
して、ほぼリアルタイムで受聴者の受聴能力に音声スピ
ードをフィットさせて、補聴を行う話速度制御型の補聴
装置が考えられている。この話速度制御型の補聴装置
は、発話者の話速を変化(遅く)させることで、受聴者
の受聴能力の低下を補償するものである。すなわち、こ
の話速度制御型の補聴装置は、発話者の話速を伸張する
処理を行い、この伸張処理した音声(話)を出力バッフ
ァメモリを介して逐次蓄積及び出力する。
【0005】
【発明が解決しようとする課題】ところが、上記受聴者
の受聴能力に音声スピードをフィットさせる上記話速度
制御型の補聴装置では、上述したように伸張処理した後
に当該伸張分を出力バッファメモリに逐次蓄積してから
出力するようにしているので、例えば、受聴途中で話速
を元に戻したいようなことがあっても、当該出力バッフ
ァメモリに蓄積されている蓄積分が出力されてしまうま
では話速が元に戻らない。
【0006】すなわち、上記従来の話速度制御型の補聴
装置では、受聴途中で話速を元に戻すようにしても、当
該話速がもとの速度に戻るまでにかなり長いタイムディ
レーが発生する。
【0007】また、上記話速度制御型の補聴装置は、上
述したような受聴能力の低下した受聴者のみならず、通
常の受聴能力を有する受聴者が例えば外国語を聴取する
ような場合においても、その受聴能力を補うために話速
を変化(遅く)させる用途にも使用することのできるも
のであるが、この場合も上述同様に受聴途中で話速を元
の速度に戻す際にタイムディレーが発生する問題があ
る。
【0008】そこで、本発明は、上述のような実情に鑑
みて提案されたものであり、受聴者の操作に瞬時に追従
させた話速度の出力音声を得ることができる出力データ
制御方法及びこの方法を実現する出力データ制御装置を
提供することを目的とするものである。
【0009】
【課題を解決するための手段】本発明の出力データ制御
方法は、上述の目的を達成するために提案されたもので
あり、発話者の話音声に対応する話音声入力信号をその
話音声の属性に基づいて分析処理し、上記話音声入力信
号の分析情報を一時格納し、受聴者による操作に基づい
て所望の話速度に対応する話速度制御情報を生成し、先
に形成した話速度の変更された音声情報を所定量以下だ
け一時格納し、上記話速度が変更されて格納された音声
情報の残格納容量に応じて、上記格納している上記分析
情報を取り出すと共に、上記話速度制御情報に基づいて
当該取り出した分析情報に合成処理を施すことにより、
上記発話者の個人性と音韻性を保持したままで話速度を
変更した音声信号を形成することを特徴とするものであ
る。
【0010】また、本発明の出力データ制御装置は、発
話者の話音声に対応する話音声入力信号をその話音声の
属性に基づいて分析処理する分析手段と、上記話音声入
力信号の分析情報を一時格納する分析情報格納手段と、
受聴者による操作に基づいて所望の話速度に対応する話
速度制御情報を生成する話速度制御情報生成手段と、先
に形成した話速度の変更された音声情報を一時格納する
と共に格納容量が所定量以下の話速度変更音声情報格納
手段と、上記話速度変更音声情報格納手段の残格納容量
に応じて、上記分析情報格納手段から上記分析情報を取
り出すと共に、上記話速度制御情報に基づいて当該取り
出した分析情報に合成処理を施すことにより、上記発話
者の個人性と音韻性を保持したままで話速度を変更した
音声信号を形成する話速度変更音声信号形成手段とを有
することを特徴とするものである。
【0011】すなわち、本発明の出力データ制御方法及
び装置において、上記話音声の属性に基づく分析処理で
は、発話者からの話音声入力を、例えば、無音区間と無
声区間と有声区間に分割し、上記有声区間のピッチ周期
を抽出し、この有声区間をピッチ区間に分割することに
よって、無音区間と無声区間と有声区間のピッチ区間及
びピッチ周期情報に分析する。このため、上記分析情報
格納処理工程及び手段では、上記無音区間と無声区間と
有声区間のピッチ区間の情報及びピッチ周期情報を一時
格納する。
【0012】また、上記受聴者自身の手動操作に応じた
任意の話速に対応する話速度制御情報としては、上記無
音区間とピッチ区間をそれぞれ例えば延長する延長比率
情報を用いる。
【0013】さらに、話速度変更音声情報格納処理工程
及び手段では、先に形成された話速度の変更された音声
情報を一時格納すると共に、所定量以下の格納容量とし
て当該話速度変更音声情報格納処理工程及び手段より取
り出される音声情報が受聴者において時間遅れとして認
識されない十分小さい格納容量を有する。
【0014】またさらに、上記話速度変更音声信号形成
処理及び手段では、上記話速度変更音声情報格納処理工
程及び手段の残格納容量に応じて上記分析情報格納処理
工程及び手段の上記分析情報を取り出すと共に、上記話
速度制御情報としての各延長比率情報に応じて、上記ピ
ッチ区間の延長処理及び上記無音区間の延長処理を行
い、当該延長されたピッチ区間及び無音区間と延長処理
がなされない上記無声区間とを用いて合成処理を行う。
これにより、当該話速度変更音声信号形成処理及び手段
では、上記発話者の個人性と音韻性を保持したままで高
品質の話速度変更音声信号を形成する。
【0015】
【作用】本発明の出力データ制御方法及び装置によれ
ば、発話者の話音声に対応する話音声入力を分析し、受
聴者による操作に応じた所望の話速度に対応する話速度
制御情報に基づいて、その分析情報に合成処理を施すこ
とにより、話速度が変更された音声信号を合成する。し
たがって、受聴者は発話者の個人性と音韻性を保持した
まま所望の話速度に変更された音声を得ることができ
る。
【0016】また、話速度変更音声情報格納処理工程及
び手段での所定の格納容量を充分小さい容量としてお
り、これによって、この話速度変更音声情報格納処理工
程及び手段では短時間に情報が書き換えられるようにな
り、受聴者が手動操作で話速を可変したときにも話速度
変更音声情報格納処理工程及び手段での格納された内容
が即座に書き換えられる。このため、話速度を途中で変
えても受聴者は時間遅れを感ずることがない。
【0017】
【実施例】以下、本発明の実施例を図面を参照しながら
説明する。図1は本発明の出力データ制御方法が適用さ
れる本実施例の出力データ制御装置の概略構成を示すブ
ロック回路図である。以下、この図1のブロック回路図
にそって説明する。
【0018】本発明実施例の出力データ制御装置は、図
1に示すように、入力端子10から供給された発話者の
話音声に対応する話音声入力データをその話音声の属性
に基づいて分析処理(無音区間と無声区間と有声区間の
ピッチ区間及びピッチ周期情報に分析する処理)を施す
分析手段としての区間分割処理部11,ピッチ周期抽出
処理部12及びピッチ区間分割処理部13と、上記話音
声入力データの分析情報を一時格納(すなわち記憶)す
る分析情報格納手段である原音声データ・区間情報格納
バッファ部14と、受聴者による操作に基づいて所望の
話速度に対応する話速度制御情報(延長比率を示す情
報)を生成する話速度制御情報生成手段である話速設定
部17と、先に形成した話速度の変更された音声データ
(以下話速変換音声データと呼ぶ)を一時格納(すなわ
ち記憶する)と共に格納容量(記憶容量)が所定量以下
(例えば30msec程度の非常に小さい容量)の話速
度変更音声情報格納手段である出力バッファ部19と、
上記出力バッファ部19の残記憶容量(例えば10%)
に応じて上記原音声データ・区間情報格納バッファ部1
4から上記分析情報を読み出すと共に、上記延長比率の
情報に基づいて当該分析情報に合成処理を施すことによ
り、上記発話者の個人性と音韻性を保持した話速変換音
声データを形成する話速度変更音声信号形成手段として
の無音区間延長処理部15,ピッチ区間延長処理部16
及び話速変換音声データ合成部18とを有することを特
徴とするものである。
【0019】すなわち、本発明の出力データ制御方法に
係る話速度変更音声のリアルタイム可変方法が適用され
る本発明実施例の出力データ制御装置は、先ず、入力音
声を無音区間,無声区間及び有声区間に分割する区間分
割処理を施し、前記有声区間に対してはピッチ周期を抽
出し、ピッチ区間ごとに分割し、合成部18の前段に設
けた原音声データ・区間情報格納バッファ部14に前記
無音区間,無声区間,有声区間及び有声区間のピッチ周
期などの情報と、それらに対応した原音声データをバッ
ファリングする。合成部18の次段(最終段)に設けて
いる出力バッファ部19は、合成部18で合成された話
速変換音声データをバッファリングすると同時に、逐
次、出力しているが、このバッファリング容量を非常に
小さくし(例えば30msecであり、16kHzサン
プリングでA/D変換すると、当該30msecの容量
は480サンプルとなり、1サンプル2バイトとすると
この容量は960バイトになる)、この出力バッファ部
19に蓄えられている話速変換音声データ量が、この容
量の10%にまで低下した時に、合成部18へリクエス
トをかける。このリクエストにしたがって、上記合成部
18は、前記の原音声データ・区間情報格納バッファ部
14から無音区間,無声区間,有声区間及び有声区間の
ピッチ周期などの情報と、それらに対応した原音声デー
タなどを読み出し、それらをもとに話速変換音声データ
を合成し、出力バッファ部19に書き出す。これによ
り、話速を可変した場合、その出力音声が受聴者の操作
に即応して、可変されることになる。
【0020】以下図1について説明する。この図1にお
いて、入力端子10には、発話者の発した話音声に対応
する入力音声データが供給される。この入力音声データ
は、例えばマイクロホンで集音した発話者の音声のみな
らず、テレビジョン、ラジオ、テープレコーダ、ビデオ
テープレコーダ、ビデオディスクプレーヤなどの映像,
音響機器や医療機器などからの人の発話音声信号をディ
ジタル変換した音声データを用いることができる。この
入力音声データは、次段の区間分割処理部11に送られ
る。
【0021】この区間分割処理部11は、入力音声を無
音区間と無声区間と有声区間とに分割し、これら各区間
のデータを出力する。上記無音区間及び無声区間のデー
タは後述する原音声データ・区間情報格納バッファ部1
4に送られ、上記有声区間のデータはピッチ周期抽出処
理部12に送られる。
【0022】上記ピッチ周期抽出処理部12では、上記
有声区間のデータから音声のピッチ周期を抽出し、この
ピッチ周期抽出処理部12で抽出したピッチ周期の情報
と上記有声区間のデータがピッチ区間分割処理部13に
送られる。
【0023】当該ピッチ区間分割処理部13では、上記
ピッチ周期抽出処理部12で抽出した各ピッチ周期に基
づいて上記有声区間をピッチ区間に分割し、当該各ピッ
チ区間のデータと上記ピッチ周期情報を出力する。上記
各ピッチ区間のデータとピッチ周期情報は、原音声デー
タ・区間情報格納バッファ部14に送られる。
【0024】したがって、上記原音声データ・区間情報
格納バッファ部14には、上記区間分割処理部11から
の無音区間のデータ及び無声区間のデータと、上記ピッ
チ区間分割処理部13からの有声区間をピッチ周期で分
割したピッチ区間のデータと、上記ピッチ周期情報とが
記憶される(バッファリングされる)。
【0025】この原音声データ・区間情報格納バッファ
部14からは、後述する出力バッファ部19からのリク
エストに基づいて合成部18から供給される制御信号に
よって、上記記憶しているデータが読み出される。当該
原音声データ・区間情報格納バッファ部14から読み出
された上記無音区間のデータは無音区間延長処理部15
に送られ、上記ピッチ区間のデータ(すなわち有声区間
のデータ)及びピッチ周期情報はピッチ区間延長処理部
16に送られる。
【0026】一方、話速設定部17では、発話者の話す
速さと受聴者の受聴能力に応じた無音区間の延長比率及
びピッチ区間の延長比率の設定や、受聴者の手動操作に
応じた無音区間の延長比率及びピッチ区間の延長比率の
設定を行う。すなわち、当該話速設定部17では、上記
無音区間の延長比率として原音の無音区間を例えば1.
0倍〜6.0倍に延長する比率が設定され、上記ピッチ
区間の延長比率として原音のピッチ区間を例えば1.0
倍〜1.8倍に延長する比率が設定される。
【0027】上記話速設定部17からの上記無音区間の
延長比率を示す情報が上記無音区間延長処理部15に送
られ、上記ピッチ区間の延長比率を示す情報が上記ピッ
チ区間延長処理部16に送られる。
【0028】上記無音区間延長処理部15は、上記話速
設定部17からの無音区間の延長比率を示す情報に基づ
いて、例えば当該無音区間の延長処理を行う。すなわ
ち、この無音区間延長処理部15によって上記無音区間
を延長することは、発話者の話しの間を長くすることに
他ならない。
【0029】また、上記ピッチ区間延長処理部16にお
いては、上記話速設定部17からの上記有声区間のピッ
チ区間の延長比率を示す情報に基づいて、上記有声区間
を延長する処理を行う。すなわち例えば、当該ピッチ区
間延長処理部16では、上記話速設定部17からのピッ
チ区間の延長比率を示す情報に基づいて上記ピッチ区間
分割処理部13で分割した各ピッチ区間を繰り返すこと
によって、各ピッチ区間長を延長させる。
【0030】上記無音区間延長処理部15によって延長
処理が施された無音区間のデータと、上記ピッチ区間延
長処理部16によってピッチ区間長が延長された有声区
間のデータ、及び上記ピッチ周期情報と、上記原音声デ
ータ・区間情報格納バッファ部14から出力された無声
区間(無声区間については延長処理がなされていない)
の情報とが、それぞれ合成部18に送られる。
【0031】なお、上述のように無音区間及びピッチ区
間を延長するということは、発話者の話しの速さを遅く
する(すなわち発話者がゆっくり話す)ことに略等し
く、このように発話者の話しの速さを遅くする処理を施
した音声を形成することで、前述した受聴者の受聴能力
を補うことが可能となる。また、前述したように、話速
設定部17においては、受聴者の手動操作によって上記
延長比率を任意に変え得るものともなされている。この
ように、受聴者の手動操作によって話速設定部17の延
長比率を変えることにより、話速を自由に変更すること
が可能となり、例えば話速を元の速さに戻す(前記延長
比率を1.0倍とする)ことも可能となる。
【0032】上記原音声データ・区間情報格納バッファ
部14からの無声区間のデータと、上記無音区間延長処
理部15及びピッチ区間延長処理部16からの各出力デ
ータとが送られる上記合成部18では、上記延長処理が
施された無音区間のデータと、ピッチ区間の延長処理が
施された有声区間のデータと、何も処理の施されていな
い無声区間のデータと、これらに対応する原音声データ
とを用いて、入力音声と同じ順序の音声データを生成す
る。このときの合成音声データは、上記話速設定部17
における前記延長比率の設定(すなわち話速の設定)に
対応しており、例えば、上記話速設定部17での設定が
発話者の話す速度よりも遅いものに設定されているとき
には遅く、上記話速設定部17での設定が元の話速と同
じもの(延長比率が原音の1.0倍のとき)には発話者
の話す速度と同じものとなる。また、この合成部18で
は、上記原音声データを用いて音声を合成するようにし
ているため、発話者の個人性及び音韻性を保持した高品
質の合成音声を得ることができる。
【0033】この合成部18からの合成音声データすな
わち話速変換音声データは、出力バッファ部19に送ら
れてバッファリングされると同時に、逐次出力される。
この出力バッファ部19は、バッファリング容量が非常
に小さい(例えば30msec程度)のものであり、ま
た、蓄積している話速変換音声データ量が、当該バッフ
ァリング容量の10%(例えば容量を960バイトとす
ると96バイト)までに低下した時に、前段の合成部1
8に対してリクエスト(容量が960バイトの出力バッ
ファ部19に蓄えられている話速変換音声データ量がこ
の容量の10%にまで低下した時に合成部へ行うデータ
要求)を発するものである。
【0034】したがって、上記合成部18では、上記出
力バッファ部19から上記容量が10%に低下したこと
に対応するリクエストが供給されると、前記原音声デー
タ・区間情報格納バッファ部14に対して、当該バッフ
ァ部14がバッファリングしている前記無音区間,無声
区間,有声区間(ピッチ区間)の各データと、前記ピッ
チ周期情報を読み出させる制御を行い、これらをもとに
上記話速変換音声データを合成して、上記出力バッファ
部19に送る。
【0035】当該出力バッファ部19から読み出された
音声データは、出力端子20を介して出力される。
【0036】次に、図2には、本発明の出力データ制御
装置の他の実施例の概略的なハードウェア構成を示す。
【0037】この図2の出力データ制御装置は、アナロ
グの入力音声信号をA/D変換するA/D変換部30
と、このA/D変換部30からの入力音声のディジタル
データに対して前述同様の区間分割処理,ピッチ周期抽
出処理及びピッチ区間分割処理を施す分析モジュール部
31と、この分析モジュール部31からのデータをバッ
ファリングする原音声データ・区間情報格納バッファ部
32と、受聴者の受聴能力や受聴者自身の操作に応じた
話速に対応する話速パラメータを生成するディジタルボ
リューム34と、上記話速パラメータと上記原音声デー
タ・区間情報格納バッファ部32からの情報を用いて話
速変換音声データを合成する合成モジュール部33と、
合成モジュール部33からの音声データをバッファリン
グする出力バッファ部35と、当該出力バッファ部35
からの出力音声データをD/A変換してアナログ出力音
声信号に変換するD/A変換部36とを有するものであ
る。なお、上記分析モジュール部31と合成モジュール
部33は、それぞれDSP(ディジタル・シグナル・プ
ロセッサ)により実現されるものである。
【0038】この図2において、A/D変換部30は、
発話者からのアナログの入力音声信号を16kHzサン
プリングして16ビット量子化することによってA/D
変換する。このA/D変換部30からのディジタルデー
タは、上記分析モジュール部31に送られる。
【0039】上記区間分割処理,ピッチ周期抽出処理及
びピッチ区間分割処理を担当する分析モジュール部31
は、上記A/D変換部30から供給されたディジタルデ
ータを用いて平均パワー,零交差数,自己相関関数を算
出すると共に、これら算出結果と予め設定しているしき
い値とによって、前記無音区間,無声区間,有声区間及
びピッチ周波数を算出し、ピッチ周期の区間分割を行
う。
【0040】この分析処理モジュール部31ついて、以
下、より詳細に説明する。先ず、区間分割処理として、
上記分析処理モジュール部31では、入力された波形に
対し、数msec毎に短時間の平均パワー、零交差数、
及び必要な場合には自己相関関数を算出し、それぞれに
ついて、しきい値を設定し、無音区間、無声区間、及び
有声区間の分割処理を行う。具体的には以下のような優
先順位で区間分割の判別を行う。
【0041】優先順位の第1番目として、平均パワーが
しきい値Pminよりも小さいときには無音区間とす
る。第2番目として、平均パワーがしきい値Pmaxよ
りも大きいときには有声区間とする。第3番目として、
零交差数がしきい値Smaxよりも多いときには無声区
間とする。
【0042】第4番目として、零交差数がしきい値Sm
inよりも少ないときには有声区間とする。第5番目と
して、自己相関関数R(τ)を求め、τ>0における最
大値をR(τ)maxとし、有声度R(τ)max/R
(0)の値がしきい値Vmaxより大きいときには有声
区間とする。
【0043】第6番目として、上記第1〜第5番目以外
のときには無声区間とする。
【0044】以上のようにして区分された有声区間につ
いて、その区間の中でパワーの大きい部分の波形につい
て、複数の異なる分析窓により自己相関関数を計算し、
それぞれについて上述の有声度Vとそのときの時間遅れ
τの値を求めていき、上記有声度Vの大きさと上記時間
遅れτの値のばらつきを考慮して、最も信頼できるτの
値をその有声区間の仮のピッチ周期とし、以下の分析に
おいてこれを使用する。
【0045】次に、高速化処理として、有声区間の波形
に対して、ピッチ抽出のための演算量を軽減するための
デシメーションを行い、処理時間の高速化を図る。例え
ば、デシメーションの倍率をm=3とすると、先ず、本
来のサンプリング周波数fsの1/2mのカットオフ周
波数にて低域濾波を行い、次に、その結果の波形からm
ポイントおきに1ポイントを抜き出し、デシメーション
波形(サンプリング周波数はfs/m)とする。これに
より、時間的にも周波数的にも情報量が1/mになる。
【0046】次に、ピッチ抽出処理として、デシメーシ
ョンを施した波形に対し、数msec毎の各分析フレー
ムで自己相関関数R(τ)を求め、上記区間分割処理で
求めた仮のピッチ周期に近いτの近辺における極大点を
2候補づつ求め、それぞれのτをそのフレームのピッチ
周期の候補とする。これを有声区間全体について行い、
全体としての連続性を考慮しながら、各フレームの2候
補のτのうちのどちらかを採用して、ピッチ周波数(ピ
ッチ周期の逆数)の時間軌跡を決定する。
【0047】次に、ピッチ区間分割処理として、有声区
間の開始点から逐次ピッチ周期を求め、入力音声波形を
1ピッチ区間毎に分割する。先ず、上記ピッチ抽出処理
で求めたピッチ周波数の時間軌跡を平滑化する。フレー
ム毎に平滑化されたピッチ周波数より若干高いカットオ
フ周波数でデシメーション波形を低域濾波し、直前のフ
レームで得られたローパス波形と適宜接続し、有声区間
全体として連続な正弦波状の波形を得る。この波形の開
始点から逐次ピークピッキングを行い、ピッチ周期のス
ケールを構成する。
【0048】また、対応する入力音声波形の有声区間の
中央部の波形の周期性やパワーが安定した部分から、時
間的に直前に、1ピッチ周期内の波形の最大振幅の直前
の零交差がピッチ区間の開始点となるように、ピッチ周
期のスケールに合わせて最適なピッチ開始点を求める。
【0049】最後に、最終修正処理として、上記区間分
割処理で既に求められている無音区間、無声区間、有声
区間の開始点/終了点に対して、上記ピッチ区間分割処
理で最終的に得られたある有声区間の第1ピッチ区間の
開始点が有声区間の開始点、終了ピッチ区間の終了点が
有声区間の終了点となるような修正を施して、最終的な
無音,無声,有声の各区間の開始点/終了点を決定す
る。
【0050】次に、これら開始点/終了点やピッチ区間
分割の情報、1有声区間内のピッチ区間数などと共に原
音声データ・区間情報格納バッファ部32へ転送する。
【0051】上述した分析モジュール部31で算出した
上記無音区間,無声区間,有声区間の情報及び当該有声
区間のピッチ周波数情報や原音声データは、原音声デー
タ・区間情報格納バッファ部32に送られ、当該区間情
報格納バッファ部32でバッファリングされる。この原
音声データ・区間情報格納バッファ部32のバッファリ
ング容量は、例えば8Mバイトである。上記区間情報格
納バッファ部32からの出力データは、合成モジュール
部33に送られる。
【0052】当該合成モジュール部33は、後段の出力
バッファ部35からのリクエスト(出力バッファ部35
に蓄えられている話速変換音声データ量がこの容量の1
0%にまで低下した時に合成モジュール部33へ行うデ
ータ要求)により、上記原音声データ・区間情報格納バ
ッファ部32にバッファリングされている前記無音区
間,無声区間,有声区間の情報及び当該有声区間のピッ
チ周期情報と原音声データを読み出す。
【0053】また、上記ディジタルボリューム34は、
受聴者の手動操作に対応する話速度の変更に必要なパラ
メータ(無音,有声区間の延長比率)を8ビット量子化
し、当該ディジタルボリューム34からの話速パラメー
タの情報(上記延長比率を示す情報)が上記合成モジュ
ール部33に送られる。
【0054】これにより、当該合成モジュール部33で
は、上記原音声データ・区間情報格納バッファ部32に
バッファリングされている前記無音区間、無声区間、有
声区間情報、有声区間のピッチ周期情報及び原音声デー
タを用いて、上記ディジタルボリューム34から得られ
た上記無音区間,有声区間の延長比率に合うように話速
を変換して話速変換音声データを合成する。
【0055】ここで、上記ディジタルボリューム34に
ついて説明する。
【0056】先ず、ディジタルボリューム34は、手動
操作により与えられる話速度の変更に必要な変換パラメ
ータ(有声区間と無声区間の延長比率、有声区間の可変
範囲:1.0(オリジナル)〜1.8、無音区間の可変
範囲:1.0(オリジナル)〜6.0、これらの範囲は
評定試験により決定する)を入力するため、2個設けて
いる。このディジタルボリュームは、8ビット(0〜2
55の値)の量子化精度を有し、ボリュームの回転に応
じて0〜255までの整数値を出力する。この得られた
整数値xをソフトウエアで必要とされる範囲の倍率に変
換して話速パラメータを得る。
【0057】一例として、有声区間を1.0〜1.6の
範囲、無声区間を1.0〜3.0の範囲で可変するに
は、以下のような変換式によって可能となる。
【0058】有声区間の倍率=(0.8/255)*x
+1.0(倍)
【0059】無声区間の倍率=(5.0/255)*x
+1.0(倍)
【0060】次に、上記合成モジュール部33での話速
度変更音声の合成について以下に説明する。
【0061】合成モジュール部33は、原音声データ・
区間情報格納バッファ部32(分析モジュール部から得
られた情報)から無音区間S1の開始点/終了点、有声
区間S3のピッチ区間情報、及びディジタルボリューム
34から得られた無音区間,有声区間の延長比率を用い
て話速を変換して音声を合成する。無音区間、有声区間
Sにおける話速の変換は以下の通りである。
【0062】無音区間の伸張(延長)として、時間長i
の無音区間を例えばm(m>1)倍する場合には、無音
区間の中心点において(m−1)*iの時間長にわた
り、値0を挿入する。
【0063】また、有声区間の伸張(延長)としては、
図3に示すように、原音声の有声区間W(,,,
,,・・・、各,,・・・は1ピッチ区間の時
間長を表している)を、話速を遅くするために一様に伸
張(延長)すると、W′(′,′,′,′,
′,・・・)となる。このように原音声を時間軸に沿
って一様に引き延ばした場合、1ピッチ毎の周期が長く
なり、声の高さが低くなる。これは、テープレコーダを
遅回しした時に相当する。そこで、声の高さを保ため、
波形を一様に引き延ばすのではなく、各々のピッチの区
間長は保ったまま、適宜1ピッチ区間の波形を繰り返す
ことによって、有声区間全体の時間長を伸張する。
【0064】原音声の有声区間Wを時間軸に一様に引き
延ばした波形W′(′,′,・・・)を求め、以下
に述べる規則に従ってW″を求める。
【0065】先ず、最初のピッチ区間S1 には、区間
をそのままあてはめる。
【0066】次の区間S2 には、区間かのいずれか
をあてはめることにする。ここで、区間を候補として
あてはめた場合、と′の重複率α=″/を計算
する。この例では、″=′−である。区間を候
補としてあてはめた場合、と′との重複率β=″
/を計算する。この例では、″=(+)−′
となる。
【0067】α≧βからS2 の波形として上記区間
を、α<βなら上記区間をあてはめることにする。図
3の例では、α≧βであるから、S2 として区間を採
用する。
【0068】次の区間S3 には、区間かのいずれか
を選ぶことにする。この場合、と′は全く重複しな
いので、明らかにα>βが成り立つので、S3 として区
間を採用する。
【0069】以下同様にして、次々に区間S4 ,S5
・・・を決定していく。以上のようにして、各々のピッ
チの区間長はそのままにして、1ピッチ区間の波形を適
宜繰り返せば、ピッチを変えることなく、有声区間を引
き延ばすことが可能となる。
【0070】上記合成モジュール部33にて合成された
話速変換音声データは出力バッファ部35に送られてバ
ッファリングされる。
【0071】当該出力バッファ部35は図1の出力バッ
ファ部19同様にバッファリング容量が非常に小さい
(30msec)ものである。この図2の例では上記A
/D変換部30において16kHzのサンプリングを行
っているので、上記30msecという容量は480サ
ンプルに相当する。また、1サンプルを2バイトとする
と、当該出力バッファ部35の容量は960バイトとな
る。
【0072】当該出力バッファ部35では、逐次、話速
変換音声データを出力すると共に、この出力バッファ部
35に蓄えられている話速変換音声データ量が、そのバ
ッファリング容量の10%にまで低下したがどうかをチ
ェックし、この容量が10%まで低下したときに上記合
成モジュール部33へリクエストをかける。
【0073】最後に、上記出力バッファ部35からの音
声データが供給されるD/A変換部36では、当該出力
バッファ部35からの音声データをアナログ音声信号に
変換する。
【0074】この図2に示す他の実施例の装置において
も、図1の実施例装置同様に、受聴者の手動操作に即応
して話速を変更することができ、例えば遅くしていた話
速を元の速度に戻すことが可能となる。
【0075】すなわち、本発明の各実施例の出力データ
制御方法及び装置によれば、例えば、テレビジョン、ラ
ジオ、テープレコーダ、ビデオテープレコーダ、ビデオ
ディスクプレーヤ、パーソナルコンピュータなどのマル
チメディア等の映像,音響機器や、医療機器などにおい
て、発話者の音声を加工して、受聴者の受聴能力に音声
スピードをフィットさせ、話速度変更音声の出力が受聴
者の操作に即応し、話速を可変することが可能となる。
【0076】
【発明の効果】上述のように、本発明の出力データ制御
方法及び装置においては、話速度変更音声信号形成処理
工程及び手段で、受聴者の操作に応じた所望の話速度に
対応する話速度制御情報に基づいて分析情報に合成処理
を施すことによって、話速度変更音声を合成するしてい
るため、受聴者は発話者の個人性と音韻性を保持したま
ま所望の話速の話速度変更音声を得ることが可能とな
る。
【0077】また、話速度変更音声情報格納処理工程及
び手段での所定の格納容量を充分小さい容量とすること
で、この工程及び手段では短時間で情報の書き換えが可
能となり、受聴者が手動操作で話速度を可変したときに
もこの工程及び手段での格納内容が即座に書き換えられ
る。したがって、話速度を途中で変えても受聴者は時間
遅れを感ずることがない。
【0078】すなわち、本発明の出力データ制御方法及
び装置を用いれば、例えば、テレビジョン、ラジオ、テ
ープレコーダ、ビデオテープレコーダ、ビデオディスク
プレーヤ、パーソナルコンピュータなどのマルチメディ
ア等の映像,音響機器や、医療機器などにおいて、発話
者の音声を加工して、受聴者の受聴能力に音声スピード
をフィットさせ、話速速度変換音声の出力が受聴者の操
作に即応し、話速度を可変することが可能となる。
【図面の簡単な説明】
【図1】本発明実施例の出力データ制御方法を実現する
本実施例の出力データ制御装置の概略構成を示すブロッ
ク回路図である。
【図2】他の実施例の出力データ制御装置の概略構成を
示すブロック回路図である。
【図3】有声区間の伸張方法について説明するための図
である。
【符号の説明】
11 区間分割処理部 12 ピッチ周期抽出処理部 13 ピッチ区間分割処理部 14,32 音声データ・区間情報格納バッファ部 15 無音区間延長処理部 16 ピッチ区間延長処理部 17 話速設定部 18 話速変換音声データ合成部 19,35 出力バッファ部 30 A/D変換部 31 分析モジュール部 33 合成モジュール部 34 ディジタルボリューム 36 D/A変換部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 発話者の話音声に対応する話音声入力信
    号をその話音声の属性に基づいて分析処理する分析処理
    工程と、 上記話音声入力信号の分析情報を一時格納する分析情報
    格納処理工程と、 受聴者による操作に基づいて、所望の話速度に対応する
    話速度制御情報を生成する話速度制御情報生成処理工程
    と、 先に形成した話速度の変更された音声情報を所定量以下
    だけ一時格納する話速度変更音声情報格納処理工程と、 上記話速度の変更された音声情報の上記話速度変更音声
    情報格納処理工程の残格納容量に応じて、上記分析情報
    格納処理工程で格納している上記分析情報を取り出すと
    共に、上記話速度制御情報に基づいて当該取り出した分
    析情報に合成処理を施すことにより、上記発話者の個人
    性と音韻性を保持したままで話速度を変更した音声信号
    を形成する話速度変更音声信号形成処理工程とからなる
    ことを特徴とする出力データ制御方法。
  2. 【請求項2】 発話者の話音声に対応する話音声入力信
    号をその話音声の属性に基づいて分析処理する分析手段
    と、 上記話音声入力信号の分析情報を一時格納する分析情報
    格納手段と、 受聴者による操作に基づいて、所望の話速度に対応する
    話速度制御情報を生成する話速度制御情報生成手段と、 先に形成した話速度の変更された音声情報を一時格納す
    ると共に、格納容量が所定量以下の話速度変更音声情報
    格納手段と、 上記話速度変更音声情報格納手段の残格納容量に応じ
    て、上記分析情報格納手段から上記分析情報を取り出す
    と共に、上記話速度制御情報に基づいて当該取り出した
    分析情報に合成処理を施すことにより、上記発話者の個
    人性と音韻性を保持したままで話速度を変更した音声信
    号を形成する話速度変更音声信号形成手段とを有するこ
    とを特徴とする出力データ制御装置。
JP6014945A 1994-01-14 1994-01-14 出力データ制御方法及び装置 Pending JPH07210192A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6014945A JPH07210192A (ja) 1994-01-14 1994-01-14 出力データ制御方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6014945A JPH07210192A (ja) 1994-01-14 1994-01-14 出力データ制御方法及び装置

Publications (1)

Publication Number Publication Date
JPH07210192A true JPH07210192A (ja) 1995-08-11

Family

ID=11875114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6014945A Pending JPH07210192A (ja) 1994-01-14 1994-01-14 出力データ制御方法及び装置

Country Status (1)

Country Link
JP (1) JPH07210192A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997026647A1 (fr) * 1996-01-19 1997-07-24 Matsushita Electric Industrial Co., Ltd. Changeur de vitesse de lecture
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997026647A1 (fr) * 1996-01-19 1997-07-24 Matsushita Electric Industrial Co., Ltd. Changeur de vitesse de lecture
US6085157A (en) * 1996-01-19 2000-07-04 Matsushita Electric Industrial Co., Ltd. Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Similar Documents

Publication Publication Date Title
JP2955247B2 (ja) 話速変換方法およびその装置
JP2612868B2 (ja) 音声の発声速度変換方法
JP3439307B2 (ja) 発声速度変換装置
KR20050010927A (ko) 오디오 신호 처리 장치
JP3220043B2 (ja) 話速変換方法およびその装置
JP3327936B2 (ja) 話速制御型補聴装置
JP3961616B2 (ja) 話速変換方法および話速変換機能付補聴器
JPH07210192A (ja) 出力データ制御方法及び装置
JP3378672B2 (ja) 話速変換装置
JPH05307395A (ja) 音声合成装置
JP3373933B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JP3432443B2 (ja) 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
JP3219892B2 (ja) リアルタイム話速変換装置
JP3357742B2 (ja) 話速変換装置
JP3102553B2 (ja) 音声信号処理装置
JP2905112B2 (ja) 環境音分析装置
JP3185363B2 (ja) 補聴器
JP3457393B2 (ja) 話速変換方法
JPH10224898A (ja) 補聴器
JPH08254992A (ja) 話速変換装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JP3302075B2 (ja) 合成パラメータ変換方法および装置
JPH07281691A (ja) 話速変換方法
JP3083830B2 (ja) 音声の発声時間長制御方法および装置