JPH1115488A

JPH1115488A - 合成音声評価・合成装置

Info

Publication number: JPH1115488A
Application number: JP9166848A
Authority: JP
Inventors: Haru Andou; ハル安藤; Yoshinori Kitahara; 義典北原
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-06-24
Filing date: 1997-06-24
Publication date: 1999-01-22

Abstract

(57)【要約】【課題】使用環境に適合した合成音声あるいは合成音を
自動生成する。【解決手段】使用環境における環境音を生成された合成
音声に重畳する手段と、上記環境音重畳再生音について
評価実験を行う手段から、ユーザの求める使用環境に適
合した合成音声あるいは合成音を自動生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、合成音声の生成お
よび評価を行う装置に関する。

【０００２】

【従来の技術】近年、マルチメディア化が進み、音の利
用という場合、電話のような通信ばかりではなく、音声
や警告音で情報を伝達する機会が急増してきている。例
えば、昨今、音声合成装置は、さまざまな市場で製品化
されてきており、カーナビゲーションの音声出力用など
に用いられるようになってきている。また、視覚障害者
用などに文章読み上げ機能として製品化されている。し
かしながら、録音再生方式を用いた場合、出力される可
能性のある単語あるいは文章等をあらかじめ同一の話者
によって録音しておく必要がある。また、カーナビゲー
ションに搭載されている音声認識技術において、音声認
識を行う時間帯を設定すると、設定された時間内ではス
テレオの音量を小さくするという技術は存在するが、現
状のテキスト音声合成装置においては、出力される環境
に適合した合成音声を生成する機能はなく、ユーザが音
量やピッチ等の音声の特徴量を調整する必要があった。

【０００３】

【発明が解決しようとする課題】前述した製品に搭載さ
れている音声合成装置を利用すれば、ある程度簡便に音
声合成を行うことができるが、現状、ユーザが必要とす
る音声を生成しようとする場合、音の高さ，音圧などを
入力し、再合成して、さらに試聴して調整するというこ
とが必要であった。従って、使用環境で騒音があったり
する場合などには、上記環境に適合するようにユーザが
微調整することが必須であったため、上記環境で利用で
きるようにするまでに時間を要した。

【０００４】本発明では、ユーザがすべての合成変数を
調整するといった必要がなく、合成音声を使用する場所
の環境音等を入力することで、使用環境に適合した合成
音声を自動生成する機能を提供することを目的としてい
る。また、本発明では、合成音声の生成だけでなく、環
境音や画像等に対しても利用が可能である。

【０００５】

【課題を解決するための手段】上記目的を達成するため
の本発明の一態様によれば、少なくとも音声等を出力す
る音響出力手段，文字列や画像及び図形等を表示する情
報表示手段，データ等を蓄積するデータ蓄積手段等を持
つ情報処理装置において、評価すべき音声に上記合成音
声を利用する環境にて生じる環境音等を重畳させた再生
音を作成し、ユーザが上記音響出力手段により出力され
た上記再生音を聴取し、聴取した上記再生音を評価する
ことを可能にした聴取評価機能と、上記評価結果を用い
てデータを集計し、統計処理を行い、さらに上記処理結
果を画面表示する機能と、上記処理結果を用いて発声速
度，発声音圧，発声基本周波数等を変更し、上記変更さ
れた変数によって再合成された音声等を出力する機能が
提供される。

【０００６】また、合成音声等の時間長に応じて環境音
を上記音声に重畳する機能が提供される。また、ユーザ
が重畳すべき環境音の音圧等を複数段階変更し、音声等
に重畳する機能が提供される。また、評価項目名をキー
ボード等を用いて入力し、ユーザの評価項目を簡便に登
録する機能が提供される。

【０００７】また、前記データ蓄積手段によって蓄積さ
れた評価結果値等を、評価項目別あるいは評価者別に編
集する機能が提供される。また、前記評価結果値を統計
解析し、上記解析結果から、例えば発声速度等のパラメ
ータを評価値の最適値に変更し、上記最適値を用いて合
成音声を再合成し、出力する機能が提供される。

【０００８】また、音声波形表示及び文字列表示を発声
時間長に合わせて行い、さらに上記表示の時間軸に合わ
せて現状のピッチを０として直線を表示し、ユーザがマ
ウス等で音声波形表示位置上あるいは文字列表示位置上
で、ピッチの変更個所を指定し、さらに上記直線をピッ
クして直線の形状を変化させることによって上記指定個
所のピッチを変更する機能が提供される。

【０００９】また、変更された値と元の値との差分を数
値表示あるいは図形表示する機能が提供される。また、
音声波形表示及び文字列表示を発声時間長に合わせて行
い、さらに上記表示の時間軸に合わせて現状のピッチ幅
を例えば３cmとして表示し、ユーザがマウス等で音声波
形表示位置上あるいは文字列表示位置上でピッチ幅の変
更個所を指定し、さらに上記ピッチ幅を変更することに
よって上記指定個所のピッチ幅を変更する機能が提供さ
れる。

【００１０】また、音声波形表示及び文字列表示を発声
時間長に合わせて行い、ユーザがマウス等で音声波形表
示位置上あるいは文字列表示位置上で変更個所を指定
し、さらに、例えば変更個所に下部に表示されている文
字列入力ボックスに、「ささやき声」などの音声表現語
を入力することにより、上記指定個所の声質を変更する
機能が提供される。また、例えば、自動車内等に設置
し、車内の環境音を前記音声及び音響入力手段により入
力し、入力された音情報を分析して、上記環境音下でも
明瞭に聴取できる音声を再生する機能が提供される。

【００１１】そして、評価すべき音声に環境音等を重畳
させた再生音を作成し、ユーザが、上記音響出力手段に
より出力された上記再生音を聴取し、聴取した上記再生
音を評価することを可能にした聴取評価機能と、上記評
価結果を用いてデータを集計し、統計処理を行い、さら
に上記処理結果を画面表示する機能と、上記処理結果を
用いて発声速度，発声音圧，発声基本周波数等を変更
し、上記変更された変数によって再合成された音声等を
出力する機能が提供される。

【００１２】

【発明の実施の形態】以下、本発明の一実施形態につい
て図面を参照しながら説明する。本システムは、合成音
声を取り扱うシステムであり、ユーザが用いる環境に適
合した合成音声を生成するシステムである。

【００１３】図９及び図１０において、本発明における
システムの動作フローを示している。

【００１４】本システムは、図１に示すように、後述す
る各種プログラムを記憶する記憶ディスク１００と、前
記各種プログラムを読み出して実行するための情報処理
装置１及び主記憶装置２と、編集に当たってユーザが取
得あるいは入力する情報を表示するためのディスプレイ
３及び表示制御装置４と、ユーザが情報を入力するため
のキーボード５及びマウス６と、生成された楽曲等を音
響で伝える音響出力制御装置７及びスピーカ８、及び環
境音を入力するマイクロフォン９を有する。

【００１５】ディスク１００には、システムプログラム
１００１，音響出力プログラム1002，画像表示プログラ
ム１００３，合成音声制御プログラム１００４，音声評
価プログラム１００５，統計処理プログラム１００６，
評価用再生音生成プログラム１００７，合成音声編集プ
ログラム１００８，音響入力プログラム１００９，入力
音響分析プログラム１０１０が格納されている。これら
のプログラムやデータは、システムの立ち上げ時に、あ
るいは、必要に応じて主記憶装置２等にロードされ、以
下の機能を実現すべく情報処理装置１等のＣＰＵで実行
される。

【００１６】システムプログラム１００１は、システム
を構成するハードウエアと、この上で稼働する前述した
各種プログラムとの間に介在して動作する、いわゆるオ
ペレーティングシステムとして機能する。音響出力プロ
グラム１００２は、生成された合成音声や環境音等を出
力するプログラムである。画像表示プログラム1003は、
ユーザの入力用画面表示や評価結果表示，音声編集画面
表示を行うプログラムである。合成音声制御プログラム
１００４は、生成した合成音声の速度，ピッチ，音圧等
を変更するプログラムである。

【００１７】音声評価プログラム１００５は、ユーザ
（被験者）が、提示された評価用合成音声を評価する
際、評価を対話的に行うプログラムである。統計処理プ
ログラム１００６は、評価結果の平均値等を、被験者ご
とに或いは各種合成音声ごとに算出するプログラムであ
る。評価用再生音生成プログラム１００７は、生成され
た合成音声と環境音の特徴量（パラメータ）、例えば音
圧やピッチ幅(周波数帯域)等を比較し、比較結果から候
補として挙げられた特徴量に元の合成音声の特徴量を変
換した合成音声を生成し、生成された上記音声に環境音
を重畳するプログラムである。

【００１８】合成音声編集プログラム１００８は、ユー
ザが直接、音声の出力速度，ピッチ，周波数帯域（ピッ
チ幅）等を変更するためのエディタを提供するプログラ
ムである。音響入力プログラム１００９は、或る環境に
おける環境音を収集し、Ａ／Ｄ変換によりデジタル信号
に変換するプログラムである。音響分析プログラム１０
１０は、入力された環境音等の特徴量を抽出するプログ
ラムである。

【００１９】以上の構成を有する合成音声評価及び合成
装置では、ユーザは、提示された再生音を設定された評
価項目に準拠して評価する。上記評価結果が上記装置に
入力された後、上記評価結果として最適値を得た合成音
声を生成，出力する。

【００２０】以下、本システムの動作の詳細を具体的に
説明する。最初に、評価用データを作成する。図２に評
価用データ作成画面の一例を示す。本画面においては、
評価すべき合成音声と環境音を選択し、さらに環境音の
音圧（ボリューム）を選択する（ｓ１００）。音圧は、
音量調節スケール２０３で変更が可能であるが、変更し
なければ環境音録音時のデフォルト値となる。

【００２１】評価用合成音声ボタン２０１を押すと、上
記ボタンの下で選択した音声ファイルの音が音響出力プ
ログラム１００２を通じてスピーカ８より出力される。
同様に、環境音ボタン２０２を押すと、上記ボタンの下
で選択した環境音ファイルの音がスピーカ８より出力さ
れる。合成音声及び環境音を選択した後、確定ボタン２
０４を押すと、選択された上記合成音声のファイル名、
ここではSpeech１が選択合成音声名格納メモリＳＦに格
納され、さらに選択された環境音名、ここではCir１が
選択環境音名格納メモリＣＦに格納され、音量値である
音圧値が、環境音音圧メモリＳＶに格納される。

【００２２】その後、画面は図３に切り替わる。本画面
は、評価項目を選択する画面である（ｓ１０１）。評価
項目選択ボックス３０１から、マウス６で、例えば評価
項目「明瞭度」を選択し、確定ボタン３０２を押すと、
選択した上記評価項目名が、選択評価項目名格納メモリ
ＥＶに格納される。また、ＥＶは配列になっており、複
数の評価項目を選択することが可能である。さらに、評
価用再生音生成プログラム１００７及び音響分析プログ
ラム１０１０，合成音声制御プログラム1004が起動され
る。音響分析プログラム１０１０により、ＳＦ，ＣＦに
格納されているファイル名の合成音声及び環境音の波形
から、例えば、合成音声では、平均ピッチ（周波数），
平均ピッチ幅，平均速度，平均音圧を抽出し、図４に示
すような合成音声特徴量記憶テーブルに記憶する（ｓ１
０２）。

【００２３】また、環境音では、平均ピッチ，平均ピッ
チ幅，平均音圧等を抽出し、図５に示すような環境音認
識結果記憶テーブルに記憶する（ｓ１０３）。

【００２４】次に上記２種のテーブルの各項目を比較す
る。例えば、平均ピッチ及び平均ピッチ幅を比較する
（ｓ１０４）。その結果、上記環境音における平均ピッ
チと上記合成音声の平均ピッチの差異が小さく、上記合
成音声の平均ピッチが上記環境音における平均ピッチを
中心とした平均ピッチ幅内に含まれる場合には、上記平
均ピッチ幅内に含まれない平均ピッチ値を複数個設定す
る。ここでは、２種の平均ピッチ値を設定することにす
る。また、音圧を比較し、上記合成音声の平均音圧が、
上記環境音の平均音圧よりも低い場合には、評価用とし
て生成する複数の合成音声における音圧は、環境音の平
均音圧より高く設定する。ここでは、３種の平均音圧を
設定することにする。また、発声速度も複数個設定す
る。ここでは、デフォルト値も含め、２種の速度を設定
する。

【００２５】次に、上記合成音声における平均ピッチ
値，平均音圧，平均速度を、前記設定種：平均ピッチ値
３種×平均音圧値２種×平均速度値２種＝１２種の組み
合わせとして交換する。例えば、音声ファイルSpeech
１.wavの平均ピッチを３６.２から４４.５に変更し、
平均速度を１６.５mora／ｓに変更した値で、前記合成
音声制御プログラムにより、音声を再合成し、例えば、
Speech１＿１というファイルに上記再合成音声の波形を
格納する。

【００２６】このような方法で評価用合成音声を生成す
る。ここでは、Speech１_１， Speech１_２，Speech
１_３，Speech１_４，Speech１_５，Speech１_６， Sp
eech１_７，Speech１_８，Speech１_９，Speech１_１
０，Speech１_１１，Speech１_１２が生成されたとす
る。上記生成ファイル名を評価用音声ファイル名格納フ
ァイルに書き込む。画面は、図３から図６の評価画面に
切り替わる（ｓ１０５）。

【００２７】次に、上記評価用合成音声に、前記環境音
を重畳させる（ｓ１０６）。前記環境音圧ＳＶを環境音
認識結果記憶テーブルの平均値に書き込み、各フレーム
における音圧は、環境音選択時の音圧とＳＶの差分値を
プラスする。さらに、前記合成音声の時間長分の環境音
を波形上で足しあわせることによって、前記合成音声に
環境音を重畳し、生成された再生音ファイルをSpeech１
＿１＿ｎ，Speech１＿２＿ｎといった名称とし、上記再
生音ファイルを評価用再生音とする。

【００２８】次に、音声評価プログラム１００５が起動
され、上記プログラムによって再生音評価画面が表示さ
れる。ユーザ（被験者）は、図６の再生音評価画面にお
いて、出力される評価用再生音を評価する（ｓ１０
７）。図６では、選択評価項目名格納メモリＥＶに格納
されている評価項目名、ここでは「明瞭度」が評価用ス
ケールの上に表示される。ユーザは、音声出力ボタン６
０１を押すことによって評価用音声を聴取することがで
きる。評価結果は、表示されているスケールで、例えば
５段階評価を行う。入力された評価値は、評価順に評価
値格納ファイルに書き込まれる。「次へ」ボタンを押す
と、次の評価用音声が準備され、「音声出力」ボタンを押
すと、上記音声が出力される。全ての評価が終了する
と、次に、統計処理プログラムが起動され、評価値が最
も高い評価用音声を、ユーザ数（被験者数）による平均
値として抽出し（ｓ１０８）、評価最高音声名格納メモ
リHestに格納される（ｓ１０９）。

【００２９】上記音声は、合成音声編集プログラム１０
０８によって、図７のような編集画面上に、音声波形７
０２，発声文字列７０３の形で表示され、再合成音声出
力ボタン７０１を押すことによって出力される（ｓ１１
０）。また、ピッチ編集用としてピッチライン７０４，
速度編集として、速度入力ボックス７０５が表示され
る。ピッチラインは、マウス等でまず、編集個所の始点
から終点を発声文字列表示画面で指定し、さらに上記ラ
インを上記文字列に合わせて上下させ、再合成音声出力
ボタン７０１を押すことによって、指定された個所のピ
ッチ値を用いて前記音声が再合成され、再合成音声が出
力される。速度入力ボックスにおいては、マウスで編集
個所の始点から終点を発声文字列表示画面で指定し、上
記ボックス内に表示されている速度ラインの上下の高さ
をマウスで調整することにより、指定個所の速度を上下
させることができる。また、ピッチ幅入力スケール７０
７のスケール幅を変動させることにより、全体のピッチ
幅を変更することが可能である。

【００３０】また、平均ピッチ入力表示ボックス７０
８，平均速度入力表示ボックス７０９に、現在表示され
ている音声の平均ピッチ，平均速度が表示されている
が、上記ボックス内の数値を変え、さらに再合成音声出
力ボタンを押すことによって、上記数値に書き換えられ
た値による音声が再合成され、出力される（ｓ１１
１）。また、マウスで編集個所の始点から終点を発声文
字列表示画面で指定し、表現語選択ボタン７１０を押す
ことにより表示される表現語メニューから「ささやき
声」，「怒った声」などの表現語を選択し、再合成音声
出力ボタン７０１を押すことにより、指定個所の音声が
表現語として選択された音声に再合成され出力される。
また、詳細設定ボタン７０６を押すことにより、画面は
図８の画面に切り替わる。

【００３１】図８の表示画面では、編集中の合成音声と
最適音声として抽出されたHest中に登録されている音声
が表示される。再合成音声出力ボタンを押すと、編集中
の音声が出力される。最適音声出力ボタンを押すと、He
stに登録されている音声が出力される。さらに、波形表
示ボックスには、編集中の合成音声の波形が表示され、
さらにWav ファイル名表示ボックス８０５には、編集中
の合成音声の名称が表示される。また、文字列表示ボッ
クス８０７には、編集中の合成音声の文字列が、発声速
度に合わせて表示されている。つまり、横軸長が、発声
長に対応している。また、８０９には平均ピッチ幅が表
示されている。

【００３２】また、文字列表示ボックス８０８には、図
７で編集する以前のHest中に登録されている音声が表示
され、本表示も、編集中の合成音声の文字列が、発声速
度に合わせて表示されている。Wav ファイル名８０６に
は、Hest中に登録されている音声名称が表示される。さ
らに、平均ピッチ差分値表示ボックス８１０には、２種
の表示音声の平均ピッチ差分値が表示され、平均速度差
分値表示ボックス813には、２種の表示音声の平均速度
差分値が表示される。ピッチ入力表示ボックス８１２に
表示されている平均ピッチ値を変動させると、前記ボッ
クス８１０の値が連動し、速度入力表示ボックス８１５
に表示されている平均速度値を変動させると、前記ボッ
クス８１３の値が連動する。設定が終了したら、再合成
音声出力ボタン８０１を押すと、設定内容に書き換えら
れたパラメータによって、音声が再合成され、出力され
る。

【００３３】さらに、波形表示画面８０４の表示内容も
設定内容に書き換えられたパラメータによって書き換え
られる。また、任意音声出力ボタンを押すことによっ
て、複数の音声ファイルが、例えばメニュー形式で表示
され、上記メニューからユーザがマウスで音声ファイル
を選択すると、選択された音声が出力され、Wav ファイ
ル名８０６には、上記音声の名称が表示され、文字列表
示ボックス８０８には、上記音声が表示される。

【００３４】また、評価結果がすでに存在する場合に
は、図９におけるフローのＳ１０７から操作が始まる。
さらに、実環境に適合させる場合、例えば、自動車内
に、上記装置を設置して、上記自動車内の環境音に適合
した合成音声を即出力させる場合には、音響入力プログ
ラム１００９によってマイクロフォン９から環境音を入
力及びＡ／Ｄ変換し（ｓ２０１）、上記変換されたデジ
タル波形を、前記音響分析プログラムにより、平均ピッ
チ，平均ピッチ幅，平均音圧等を抽出し、図５に示すよ
うな環境音認識結果記憶テーブルに記憶する。

【００３５】さらに、登録されている複数の合成音声生
成用パラメータセットにおける平均ピッチ及び平均ピッ
チ幅と、上記環境音における抽出された平均ピッチ及び
平均ピッチ幅とを比較する。その結果として、上記環境
音における平均ピッチと上記合成音声の平均ピッチの差
異が最も大きく、上記合成音声の平均ピッチが上記環境
音における平均ピッチを中心とした平均ピッチ幅内に含
まれないパラメータセットを選択し、上記パラメータセ
ットを最適パラメータセットとして、最適パラメータセ
ット名称格納メモリＳＰに登録する。

【００３６】ただし、前述した登録されている複数の合
成音声生成用パラメータセットにおいて、上記合成音声
の平均ピッチが上記環境音における平均ピッチを中心と
した平均ピッチ幅内に含まれる場合には、上記平均ピッ
チ幅内に含まれない平均ピッチ値を複数設定し、上記平
均ピッチ値を前述した合成音声生成用パラメータセット
の平均ピッチ値とし、再合成した音声を出力する。この
場合、複数の平均ピッチを設定しているため、選択ボタ
ン等を表示画面に設定し、ユーザが選択可能にしてお
く。

【００３７】

【発明の効果】このように本発明によれば、使用する場
所や状況における環境音を入力することで、ユーザが合
成音声生成変数を個別に調整することがなくとも、ユー
ザが希望する使用環境に適合した合成音声あるいは合成
音を生成することが可能になる。

【図面の簡単な説明】

【図１】本発明の一実施形態のシステム構成を示すブロ
ック図。

【図２】図１に示したシステムの画面表示の一例を示し
た説明図。

【図３】図１に示したシステムの画面表示の一例を示し
た説明図。

【図４】選択された評価用合成音声の特徴量を登録した
テーブル構造の一例を示した説明図。

【図５】環境音認識結果を登録したテーブル構造の一例
を示した説明図。

【図６】図１に示したシステムの画面表示の一例を示し
た説明図。

【図７】図１に示したシステムの画面表示の一例を示し
た説明図。

【図８】図１に示したシステムの画面表示の一例を示し
た説明図。

【図９】図１に示したプログラムの動作の一部を示した
フローチャート。

【図１０】図１に示したプログラムの動作の一部を示し
たフローチャート。

【符号の説明】

１…情報処理装置、２…主記憶装置、３…ディスプレ
イ、４…表示制御装置、５…キーボード、６…マウス、
７…音響出力制御装置、８…スピーカ、９…マイクロフ
ォン、１００…ディスク、１００１…システムプログラ
ム、１００２…音響出力プログラム、１００３…画像表
示プログラム、１００４…合成音声制御プログラム、１
００５…音声評価プログラム、１００６…統計処理プロ
グラム、１００７…評価用再生音生成プログラム、１０
０８…合成音声編集プログラム、１００９…音響入力プ
ログラム、１０１０…音響分析プログラム。

Claims

【特許請求の範囲】

【請求項１】少なくとも音声等を出力する音響出力手
段，文字列や画像及び図形等を表示する情報表示手段，
データ等を蓄積するデータ蓄積手段等を持つ情報処理装
置において、評価すべき音声に上記合成音声を利用する
環境にて生じる環境音等を重畳させた再生音を作成し、
ユーザが上記音響出力手段により出力された上記再生音
を聴取し、聴取した上記再生音を評価することを可能に
した聴取評価機能と、上記評価結果を集計し、さらに上
記評価結果を画面表示する機能と、上記評価結果を用い
て発声速度，発声音圧，発声基本周波数等を変更し、上
記変更された変数によって再合成された音声等を出力す
る機能を有する音声評価・合成装置。
【請求項２】請求項１に記載されている装置において、
合成音声等の時間長に対して環境音を上記音声に重畳す
る機能を有する音声評価・合成装置。
【請求項３】請求項１に記載されている装置において、
ユーザが重畳すべき環境音の音圧等を複数段階変更し、
音声等に重畳する機能を有する合成音声評価・合成装
置。
【請求項４】請求項１に記載されている装置において、
評価項目名をキーボード等を用いて入力し、ユーザの評
価項目を簡便に登録する機能を有する音声評価・合成装
置。
【請求項５】請求項１に記載されている装置において、
前記データ蓄積手段によって蓄積された評価結果値等
を、評価項目別あるいは評価者別に編集する機能を有す
る音声評価・合成装置。
【請求項６】請求項１に記載されている装置において、
前記評価結果値を統計解析し、上記解析結果から、発声
速度等のパラメータを評価値の最適値に変更し、上記最
適値を用いて合成音声を再合成し、出力する機能を有す
る合成音声評価・合成装置。
【請求項７】音声等を出力する音響出力手段，文字列や
画像及び図形等を表示する情報表示手段，データ等を蓄
積するデータ蓄積手段を持つ情報処理装置において、音
声波形表示及び文字列表示を発声時間長に合わせて行
い、さらに上記表示の時間軸に合わせて現状のピッチ値
を０として直線を表示し、ユーザがマウス等で音声波形
表示位置上あるいは文字列表示位置上で、ピッチの変更
個所を指定し、さらに前記直線の形状を変化させること
によって上記指定個所のピッチを変更する機能を有する
音声評価・合成装置。
【請求項８】請求項７に記載されている装置において、
変更された値と変更前の値との差分を表示する機能を有
する音声評価・合成装置。
【請求項９】請求項７に記載されている装置において、
音声波形表示及び文字列表示を発声時間長に合わせて行
い、さらに上記表示の時間軸に合わせて現状のピッチ幅
を表示し、ユーザがマウス等で音声波形表示位置上ある
いは文字列表示位置上でピッチ幅の変更個所を指定し、
さらに上記ピッチ幅を変更することによって上記指定個
所のピッチ幅を変更する機能を有する音声評価・合成装
置。
【請求項１０】請求項７に記載されている装置におい
て、音声波形表示及び文字列表示を発声時間長に合わせ
て行い、ユーザがマウス等で音声波形表示位置上あるい
は文字列表示位置上で変更個所を指定し、さらに、変更
個所の下部等に表示されている文字列入力ボックスに、
「ささやき声」などの音声表現語を入力することによ
り、上記指定個所の声質を変更する機能を有する音声評
価・合成装置。
【請求項１１】音声等を出力する音響出力手段，文字列
や画像及び図形等を表示する表示手段，データ等を蓄積
するデータ蓄積手段，音声や環境音等を入力する音声及
び音響入力手段，上記音声及び音響入力手段によって入
力された音声あるいは音響情報を蓄積する音情報蓄積手
段を持つ情報処理装置において、自動車内等に設置し
て、車内の環境音を前記音声及び音響入力手段により入
力し、入力された音情報を分析して、上記環境音下でも
明瞭に聴取できる音声を再生する機能を有する音声評価
・合成装置。
【請求項１２】音声等を出力する音響出力手段，文字列
や画像及び図形等を表示する情報表示手段，データ等を
蓄積するデータ蓄積手段を持つ情報処理装置において、
評価すべき音声に環境音等を重畳させた再生音を作成
し、ユーザが、上記音響出力手段により出力された上記
再生音を聴取し、聴取した上記再生音を評価することを
可能にした聴取評価機能と、上記評価結果を用いてデー
タを集計し、統計処理を行い、さらに上記処理結果を画
面表示する機能と、上記処理結果を用いて発声速度，発
声音圧，発声基本周波数等を変更し、上記変更された変
数によって再合成された音声等を出力する機能を有する
音声評価・合成装置。