JPS60144799A

JPS60144799A - 自動通訳装置

Info

Publication number: JPS60144799A
Application number: JP59001645A
Authority: JP
Inventors: 伏木田　勝信
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1984-01-09
Filing date: 1984-01-09
Publication date: 1985-07-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は自動通訳装置に関する。

従来、必る言語の音声の自動認識を行ない文字列に変換
し、前記文字列を同じ意味を持つこれと同一または他の
言語の文字列に変換（通訳）した後、音声合成を行なっ
て音声出力する自動通訳方式が知られている。

しかしながら、前記自動通訳方式においては、前記入力
として与えられる音声の感情的な面や、話者に特有の特
徴を伝えることがほとんど考慮でれておらず、発声者の
感情等の非言語的な情緒情報２話者情報を十分伝達でき
ない欠点があった。

本発明の目的は発声者の感情等の情緒的な情報、話者の
情報等非言語的な情報の伝達も可能な自動通訳装置を提
供することにある。

本第１の発明によるとある言語の音声をこれと同一また
は他の言語の音声に変換する自動通訳装置において、入
力音声から情緒情報を抽出する手段と、通訳された前記
入力音声に対応する音声の合成を前記情緒情報を用いて
行なう手段とを有することを特徴とする自動通訳装置が
得られる。

本第２の発明によるとある言語の音声をこれと同一また
は他の言語の音声に変換する自動通訳装置において、入
力音声から情緒情報および話者の声道形状情報を抽出す
る手段と、通訳された前記入力音声に対応する音声の合
成を前記情緒情報および前記話者の声道形状情報を併用
して行なう手段とを有することを特徴とする自動通訳装
置が得られる。

すなわち本発明は入力音声より抽出された発声速度に関
する情報、ピッチ周波数変化等の抑揚情報等の情緒的な
情報、更には発声者の声道形状に関する情報を翻訳され
た単語、文章等の音声合成の際に制御パラメータとして
用いることにある。

従って、本発明によれば、言語情報のみでなく非言語的
な情報の伝達も可能となるという効果がある。

一般に、音声における情緒情報はピッチ周波数あるいは
振幅の比較的グロスな変化、あるいは発声速度の変化に
主に含まれていることが知られており、この性質は異な
った言語間でもほぼ共通している。

従って、例えば入力音声から周知の方式によりピッチ抽
出、振幅値抽出７発声速度抽出を行ない、翻訳された音
声の合成の際にこれらの情報を用いて音声合成を行なえ
ば、入力音声の感情に比較的近い音声が得られることは
明らかである。

ピッチに関するデータとしては例えば、各単語の平均的
なピッチの値および変化幅を用いることができる。また
、発声速度については、例えば、認識された単語の時間
長を音素数で割ることにより音素の平均的な時間長（発
声速度の逆数）を算出し翻訳された言葉の合成の際に用
いれば良い。

更に、話者に関する情報は前記ピッチ周波数変化および
声道の形状に主に含まれるが、話者の声道形状に関する
情報はホルマント周波数に含まれており、声道長が変わ
るとホルマント周波数が全体的にシフトすることが知ら
れている。従って入力音声のホルマント抽出を用いない
声道長を算出して声道形状情報として用いることができ
る。この際、音素データを用いればより正確に声道形状
情報の抽出を行なうことができることは明らかである。

次に図面を用いて本発明の実施例を詳細に説明する。第
１図は本第１の発明の一実施例を示すブロック図である
。

才ず発声者の音声波形を示す信号が音声波形入力端子１
を介して分析部１０２内のホルマント抽出回路２．有声
無声判別回路３．振幅データ抽出回路４およびピッチ抽
出回路５にそれぞれ入力される。ホルマント抽出回路２
は前記音声波形よりホルマントパラメータ値を抽出し、
音声認識部１０３内のセグメンテーション回路６に出力
する。

音声波形からホルマントパラメータ値を抽出する方式は
例えば下記資料に詳しいのでここでは説明を省略する。

伏木田「自己相関領域での逆フィルタリングを用いたホ
ルマントの多段推定方式」日本音響学会音声研究会資料
、Ｓ　８１−４１（１９８１−１０））また、有声無声判別回路３およびピッチ抽出回路５は
前記音声波形の有声無声の判別およびピッチの抽出を行
ない、有声無声データおよびピッチデータとしてセグメ
ンテーション回路６およびピッチパターンデータ算出回
路１０にそれぞれ出力する。振幅データ抽出回路４は前
記音声波形の瞬時振幅値の短時間区間の平均電力値の平
方根を振幅データとして算出し、セグメンテーション回
路６および平均振幅値算出回路９に出力する。

音声認識部１０３内のセグメンテーション回路６は前記
ホルマントパラメータ値、有声無声データおよび振幅デ
ータに従って入力音声のセグメンテーションを行ない、
各セグメント毎に該当するホルマントパラメータ値、有
声無声データ、振幅データおよびセグメントの時間長デ
ータを単語認識回路７に出力するとともに、セグメント
の時間長データを発声速度算出回路８に出力する。

単語認識回路７は前記セグメント回路６の出力に従って
単語の認識を行ない、認識結果を自動翻訳装置１００に
出力するとともに、単語の境界データを発声速度算出回
路８．平均振幅値算出回路９、およびピッチパターンデ
ータ算出回路１０に出力する。

セグメンテーションの方式および単語認識の方式罠つい
ては例えば下記文献に詳しいのでここでは説明を省略す
る。新美［音声認ＲＪ情報料学構座Ｅ・１９・３．昭和
５５年共立出版株式会社発行、一方、発声速度算出回路８は前記各甚グメントの時間長
データと、前記単語の境界データに従って該単語内にお
ける発声速度データを生成し、自動翻訳装置１００に出
方する。平均娠幅値算出回路９は前記振幅データと、前
記単語の境界データに従って該単語内の平均振幅値を算
出し、平均振幅データとして自動翻訳装置１００に出力
する。

壕だ、ピッチバター／データ算出回路１ｏは前記ビッチ
データと、前記単語の境界データに従って該単語内にお
けるビッチデータの平均値および最大値と最小値の差分
値（変化幅）を算出し、ピッチパターンデータとして自
動翻訳装置１（）ＯＫ出力する。

自動翻訳装置１００はまず音声認識部１０３内の単語認
識回路７より出方される前記単語認識結果を、辞書メモ
リ１０１に格納されている入力された音声の言語（言語
Ａ）と翻訳されるべき言語（言語Ｂ）間の単語辞書を参
照して、言語Ｂの単語列に変換し、単語列を表わす文字
列を合成データ編集回路１２．振幅データ生成回路１３
およびピッチパターン生成回路１４に出方する。

更に自動翻訳装置１００は翻訳された言語Ｂの単語の文
字列の出力に同期でせて、対応する発声速度データを合
成データ編集回路１２．振幅データ生成回路１３．ピッ
チパターン生成回路１４に出力するとともに、対応する
平均振幅データおよびピッチバター／データを振幅デー
タ生成回路１３およびピッチパターン生成回路１４にそ
れぞれ出力する。

次に翻訳でれた言語Ｂの音声合成方式について説明する
。合成データ編集回路１２は前記言語Ｂの文字列に従っ
て合成データメモリ１１に記憶されているホルマント等
の合成データの中から該当する合成データを読み出し、
これらの合成データを前記発声速度データに従って編集
合成し、合成テーク系列として音声合成回路１０４に出
力する。

一方、振幅データ生成回路１３は前記文字列。

前記平均振幅データおよび前記発声速度データに従って
音源波形の振幅パターン値を生成し、音源波形生成回路
１５に出力する。また、ピッチパターン生成回路１４は
前記文字列、前記ピッチバター／データおよび前記発声
速度データに従って前記平均値と変化幅を有するピッチ
パターン値を生成し、音源波形生成回路１５に出力する
。

音源波形生成回路１５は前記振幅パターン値および前記
ピッチパターン値に従って音源波形を生成し、音声合成
回路１０４に出力する。音声合成回路１０４は前記合成
データ系列および前記音源波形に従って音声波形を合成
し、音声波形出力端子１６’ｅ介して出力する。

以上の実施例の説明においては入力音声の話者の声道形
状に関しては考慮されていなかったが、次に話者の声道
形状も考慮に入れ、より正確に話者に関する情報伝達が
可能な本館２の発明の自動通訳装置の実施例を第２図を
用いて説明する。

第２図において、声道データ算出回路１７とホルマント
データ調整回路１８以外の各部の動作は基本的に全く同
様であり、データの入出力が一部変更されているだけで
ある。第２図における実施例においては、まず、声道デ
ータ算出回路１７が音声認識部１０３内のセグメンテー
ンヨ７回路６から出力される前記入力音声に対するホル
マントデータと単語認識回路７から出力される前記単語
認識結果を用いて声道形状データの算出を行ない、自動
翻訳装置１００を介して言語Ｂの対応する単語の音声合
成時に、ホルマントデータ調整回路１８に出力する。ホ
ルマントデータ調整回路１８は前記合成データ系列のう
ちホルマントデータに対して、前記声道形状データに従
ってホルマント周波数の変換（シフト）を行ない音声合
成回路１０４に出力する。

音声合成回路１０４は前記変換されたホルマントデータ
および前記音源波形に従って音声波形を合成し音声波形
出力端子１６を介して出力する。

以上述べた第２図における実施例によれば話者に関する
情報もより正確に伝達されるようになることは明らかで
ある。

以上述べた実施例においては自動翻訳装置によって言語
Ａから言語Ｂに翻訳するものとして説明したが、特殊な
場合として言語Ａと言語Ｂとを一致させて（すなわち翻
訳しないで）用いることも可能であり、単なる音声の情
報量圧縮伝送（低ビツトレート伝送）装置としても有効
に用いることができることは明らかである。

本発明によると、以上説明したように自動通訳装置にお
いて言語情報のみでなく、非言語的な情報の伝達も可能
となる効果がある。

【図面の簡単な説明】

第１図および第２図は本館１および第２の発明の実施例
を示すブロック図である。図において、１・・・・・・
音声波形入力端子、２・・・・・・ホルマント抽出回路
、３・・・・・・有声無声判別回路、４・・川・振幅デ
ータ抽出回路、５・・・・・・ピッチ抽出回路、６・・
・・・・セグメンテーション回路、７・・・・・・単語
認識回路、８・・・・・・発声速度算出回路、９・・・
・・・平均振幅値算出回路、１０・・・・・・ピッチパ
ターンデータ算出回路、１１・・・・・・合成データメ
モリ、１２・・・・・・合成データ編集回路、１３・・
・・・・振幅データ生成回路、１４・・・・・・ピッチ
パターン生成回路、１５・・・・・・音源波形生成回路
、１６・・・・・・音声波形出力端子、１７・・・・・
・声道データ算出回路、１８・・・・・・ホルマントデ
ータ調整回路、１００・・・・・・自動翻訳装置、１０
１・・・・・・・辞書メモリ、１０２・・・・・・分析
部、１０３・・・・・・音声認識部、１０４・・・・・
・音声合成回路。

Claims

【特許請求の範囲】１、ある言語の音声をこれと同一または他の言語の音声
に変換する自動通訳装置において、入力音声から情緒情
報を抽出する手段と、通訳された前記入力音声に対応す
る音声の合成を前記情緒情報を用いて行なう手段とを有
することを特徴とする自動通訳装置。２、ある言語の音声をこれと同一または他の言語の音声
に変換する自動通訳装置において、入力音声から情緒情
報および話者の声道形状情報を抽出する手段と、通訳さ
れた前記入力音声に対応する音声の合成を前記情緒情報
および前記話者の声道形状情報を併用して行なう手段と
を有することを％徴とする自動通訳装置。