JP2658068B2

JP2658068B2 - ボイスプロセツサ

Info

Publication number: JP2658068B2
Application number: JP62206711A
Authority: JP
Inventors: 清志佐々木
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-08-20
Filing date: 1987-08-20
Publication date: 1997-09-30
Anticipated expiration: 2012-09-30
Also published as: JPS6449100A

Description

【発明の詳細な説明】産業上の利用分野本発明は、ユーザーが入力した音声を、理想的な音声
に変換して出力するボイスプロセッサに関するものであ
る。

従来の技術近年OA化の傾向が進みオフィスでの文書作成はワード
プロセッサの使用が一般的になっている。これには悪筆
の人も印刷ような美しい文書が作成できるという大きな
特徴があるため、その価値は万人の認めるところであ
る。

一方、音声に関しては美しい声の正しいアクセントの
アナウンスを得ようとすれば、アナウンサーなどの専門
家によらなければならない。素人がテープに吹き込んだ
アナウンスなどは聞くに耐えないものである。しかし、
ちょっとした言葉を吹き込んでもらうためにその様な専
門家の手をわずらわすことはできない。したがって、コ
マーシャルなどのようにコストがかかってもよい用途以
外では一般の人がアナウンスを吹き込んでいるのが実状
である。また、技術的に容易に考えられるものとして、
キーボードなどを使って文字列を入力し、よく知られた
音声合成技術を用いて音声に変換する方法がある。ある
いはまた、キーボードによる文字列入力の代わりに、音
声を入力して音声認識技術により、いったん文字列に変
換し、再度音声合成技術により音声に変換する方法も考
えられる。

発明が解決しようとする問題点以上のように現状では、美しい声の、正しい抑揚、ア
クセントのアナウンスを得ようとすれば、アナウンサー
などの専門家によらなければならない。音声合成技術に
よる方法では、声がどうしても不自然になる問題があ
る。本発明はかかる点に鑑み、一般の人にも専門家のよ
うなアナウンスができるボイスプロセッサを提供しよう
とするものである。

問題点を解決するための手段本発明は上記問題点を解決するために、入力された音声から抑揚情報と、音声の強弱を表す振
幅情報と、音韻性に対応する声道情報とに分離する音声
情報分離回路（12）と、音韻性に対応しない音源情報を予め記憶している音源
メモリ（14）と、音声情報分離回路（12）で分離した抑揚情報、振幅情
報、声道情報を記憶する音声情報メモリ（17）と、音源メモリ（14）の出力信号の振幅を制御する第１の
可変利得アンプ（３）と、雑音源（２）と、雑音源（２）の出力信号の振幅を制御する第２の可変
利得アンプ（４）と、第１及び第２の可変利得アンプ（３、４）の出力信号
を加算する加算回路（５）と、加算回路（５）の出力信号に周波数特性を付与し音声
を出力する周波数特性付与回路（６、７、８）とを有す
るボイスプロセッサであって、音声情報メモリ（17）からの抑揚情報により音源メモ
リ（14）に記憶された音源情報のピッチを変えて出力信
号を出力し、音声情報メモリ（17）からの振幅情報により第１及び
第２の可変利得アンプ（３、４）の利得を制御し、音声情報メモリ（17）からの声道情報により周波数特
性付与回路（６、７、８）の周波数特性を制御すること
により新たな音声を生成するボイスプロセッサである。

作用本発明は上記した構成により、入力された音声から音
源情報と強弱アクセント（以下、振幅情報）、抑揚情報
に分解し、入力された音声から抽出された音源情報を予
め記憶された温源情報に置換し、置換された音源情報
と、抽出した振幅情報、抑揚情報を組み合わせ新たな音
声を作成し、この新たな音声を出力することによって、
いわゆる素人が入力した音声もあたかも専門家が入力し
たかのような美しいアナウンスとすることができる。

実施例音声生成プロセスは音源の発生、調音、放射の３段階
からなる。音源においては母音、子音を発生する。前者
は声帯の振動、後者は舌によって声道に狭い部分を作っ
たり声道を遮断したりして発生させられる。調音は様々
な言語音を発生するために声道の形を変化させること
で、声道の共鳴作用により周波数的にエネルギーの強弱
をつける。母音などの音声は声道の共振周波数によって
特徴づけられる。この共振周波数をホルマント周波数と
呼ぶ。たとえば、アの音は第２図のようなパワースペク
トル特性を示す。ここで、ピッチ周波数は音の高低を特
徴づけ、F1,F2,F3はホルマント周波数である。調音され
音声としての情報を担った音声波は口唇、鼻孔から空間
に放射され音波として拡がっていく。

このような音声の生成機構を電気的にシミュレートす
るものが音声合成回路である。第３図に音声合成回路の
１例を示す。１は音源発生部、２は雑音源、３、４はそ
れぞれ第１、第２の可変増幅器、５は加算回路、６、
７、８はそれぞれ第１ホルマント、第２ホルマント、第
３ホルマント周波数のゲインを可変する回路、９はスピ
ーカである。このほか、鼻音、摩擦音の共鳴回路、適当
な増幅器などが必要であるがここでは省略する。この回
路において、音源のピッチ周波数、第１、第２の可変増
幅器のゲイン、各ホルマントのゲインを操作することに
よってさまざまな音声が合成できる。

第１図に本発明の１実施例を示す。これは、上記の音
声合成回路を応用したもので、10はマイクロホン、11は
AD変換器、12は音源情報と振幅情報、抑揚情報を分離す
る音声情報分離回路、13は第１の音源メモリ、14は第２
の音源メモリ、15は音源切り換えスイッチ、16は音源フ
ァイル、17は音声情報メモリ、18はキーボード、19はCR
T、20はマイクロコンピュータ、21はアナウンスファイ
ル、22はDA変換器である。すべての回路はデータパスを
介してマイクロコンピュータと接続されているが、ここ
では接続線を省略する。

以下に、この装置の動作を説明する。全体の動作はマ
イクロコンピュータ20によって制御されている。入力さ
れた音声はAD変換器11によってディジタル化され以下の
処理はすべてディジタル的におこなわれる。音声情報分
離回路12は入力された音声から音源情報と振幅情報、抑
揚情報などを分離する。音声情報メモリ17は、時間の経
過とともに変化するアナウンスのピッチ、振幅情報、抑
揚情報、ホルマント周波数、ホルマント帯域幅を検出
し、時間情報と共に逐一記憶していく。一方、第１の音
源メモリ13は同時に、分類された音源情報を音素片の形
で記憶する。ここでは「ア」「イ」「ウ」のなどの音韻
性はない。音源は、音源情報に対しホルマント周波数を
加工するなどの調音段階に相当する音声情報によって決
定される。このようにして入力された音声を、あたかも
専門家のアナウンスであるかのように加工することがこ
の装置の目的である。まず操作者は、どのような声のア
ナウンスにしたいかによって、音源ファイル16から適当
な音質の音源を選択し、第２の音源メモリ14に転送す
る。スイッチ15を第２の音源メモリ側に接続し、音声情
報メモリ17の情報に従って、先に検出されたホルマント
周波数、ホルマント帯域幅情報によって制御される第１
ホルマント、第２ホルマント、第３ホルマント周波数の
ゲインを可変する回路６、７、８を介することによっ
て、音源ファイル16から選択され第２の音源メモリ14に
蓄えられた新しい音源に対し、先に入力した音声と同じ
音韻に対する発音に加工する。さらに音源の読み出し速
度を変化させピッチを変えることによって抑揚を、可変
利得アンプ３のゲインをダイナミックに変化させること
によって振幅情報を付加する。このように加工された音
声はDA変換器22によってアナログ信号に変換され、音声
信号として出力される。この音声をモニターにした結
果、満足できるものであればこの情報をアナウンスファ
イル21に登録する。不都合があれば適当なパラメータを
変更し、ふたたびモニターを繰り返す。これらの操作
は、CRT19を見ながら、キーボード18からコマンドを入
力することによって行われる。アナウンスファイルに記
憶されている情報は必要なときには常によびだしてアナ
ウンスとして使うことが可能である。

以上の実施例では、声道パラメータはホルマント周波
数によって表されたが、いわするPARCORパラメータによ
ってもよい。この場合には、17はPARCORパラメータメモ
リ、６、７、８はPARCOR音声合成器とすればよい。

以上のように本実施例によれば、入力された音声の認
識をすることなく、音源情報のみを標準のものと置換す
ることで、素人のアナウンスを専門家のそれに生まれ変
わらせることができる。音声合成技術を利用する場合に
は、音声合成への入力とするために一旦文字列に変換す
る過程が必須であり、文字からの音声合成ではどうして
も不自然な音声となる。本実施例は音声合成過程を経
ず、入力された音声のアクセント、抑揚などは若干の変
更を加えるにしろ、基本的に入力音声を活かして、声の
みを変化させるものであるため、合成音声に特有の不自
然さはなく、自然な美しいアナウンスを得ることができ
る。

発明の効果以上説明したように、本発明によれば、入力された音
声のうち音源情報のみを置換することによって、いわゆ
る素人が入力したアナウンス（音声）を、文字入力手段
や音声認識手段を使用すること無しに、好みの声で、望
ましいアクセントの美しいアナウンスに変換することが
でき、その実用的効果は大きい。

【図面の簡単な説明】

第１図は本発明の一実施例のブロック図、第２図は音声
信号のパワースペクトルの一例を示す特性図、第３図は
音声合成回路の一例を示すブロック図である。 10……マイクロホン、11……AD変換器、12……音声情報
分離回路、13……第１の音源メモリ、14……第２の音源
メモリ、15……音源切り換えスイッチ、16……音源ファ
イル、17……音声情報メモリ、22……DA変換器。

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声から抑揚情報と、音声の強
弱を表す振幅情報と、音韻性に対応する声道情報とに分
離する音声情報分離回路（12）と、音韻性に対応しない音源情報を予め記憶している音源メ
モリ（14）と、音声情報分離回路（12）で分離した抑揚情報、振幅情
報、声道情報を記憶する音声情報メモリ（17）と、音源メモリ（14）の出力信号の振幅を制御する第１の可
変利得アンプ（３）と、雑音源（２）と、雑音源（２）の出力信号の振幅を制御する第２の可変利
得アンプ（４）と、第１及び第２の可変利得アンプ（３、４）の出力信号を
加算する加算回路（５）と、加算回路（５）の出力信号に周波数特性を付与し音声を
出力する周波数特性付与回路（６、７、８）とを有する
ボイスプロセッサであって、音声情報メモリ（17）からの抑揚情報により音源メモリ
（14）に記憶された音源情報のピッチを変えて出力信号
を出力し、音声情報メモリ（17）からの振幅情報により第１及び第
２の可変利得アンプ（３、４）の利得を制御し、音声情報メモリ（17）からの声道情報により周波数特性
付与回路（６、７、８）の周波数特性を制御することに
より新たな音声を生成するボイスプロセッサ。
【請求項２】入力された音声から抽出された振幅情報、
抑揚情報を加工する手段を具備したことを特徴とする特
許請求の範囲第１項記載のボイスプロセッサ。
【請求項３】音源情報は、時間軸上の波形であることを
特徴とする特許請求の範囲第１項記載のボイスプロセッ
サ。