JP2004212685A

JP2004212685A - 翻訳モジュールおよびこれを用いた音声翻訳装置

Info

Publication number: JP2004212685A
Application number: JP2002383686A
Authority: JP
Inventors: Toneri Kanehara; 利根里金原; Kimito Sasaki; 公人佐々木; Koichi Naka; 晃一仲
Original assignee: Doshisha Co Ltd
Current assignee: Doshisha Co Ltd
Priority date: 2002-12-26
Filing date: 2002-12-26
Publication date: 2004-07-29

Abstract

【課題】人や犬などの動物が発した音声を異なる言語による音声に変換して発声することにより、初歩的な外国語会話の学習、旅行者の簡単な通訳、ペットとのコミュニケーションなどに供することのできる翻訳モジュールを提供する。
【解決手段】人などによる第一の言語に基づく第一の音声を認識し、前記第一の音声を第二の言語に基づく第二の音声に変換し、ついで当該第二の音声を発声する翻訳モジュール。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声させ、例えば、初歩的な外国語会話の学習、旅行における通訳、および犬などの声（鳴き声および吠える声なども含む）を人の言語による音声に翻訳するための装置などに供することのできる翻訳モジュールに関する。
【０００２】
【従来の技術】
従来から、音声認識、音声翻訳および音声合成に関する研究開発が盛んに行われている。これは、国際化社会のなかにあって、異なる言語間におけるコミュニケーションをより容易かつ簡便な方法で可能とすることが望まれているからである。また、おもちゃ人形などの分野においても、一般的に、子供はおもちゃにより生活教育を学習し、おもちゃとの親密な触れ合いは、実社会へ導く模倣学習を実行することから、子供の発声に対応して発声する人形などが実際に提供されている。
【０００３】
このようなおもちゃ人形のほとんどにおいては、タッチセンサが所定の位置に設けられており、子供がこのタッチセンサを動作させると、磁気記録媒体（磁気テープ）や半導体記録媒体（ＩＣメモリ）に記録させた簡単な文章、例えば「こんにちは。」、「私は○○○です。」、「あなたは誰ですか。」、および「あなたは何が好きですか。」などの音声が発声される。例えば、特許文献１には、子供に興味を持たすことができ、さらには会話に対する興味を持たすことのできる発声人形が開示されている。
【０００４】
【特許文献１】
登録実用新案第２５６２４３９号公報
【０００５】
具体的には、上記特許文献１には、前記目的を達成するため、人形の胴体部に頭部を取り外し可能に取着するとともに、外部からの操作を検出する検出手段、複数の語彙を記憶する記憶手段、複数の語彙から任意の語彙を選択する選択手段、選択された語彙から音声を合成する音声合成手段及び合成された音声を発声させる発声手段を収容した筐体を上記胴体部内に配置するとともに詰め物で安定させ、筐体の上部に突出して形成した電池収容部を胴体部から上方に突出させるとともに、該電池収容部に上記頭部を嵌合させた発声人形が開示されている。
【０００６】
上記特許文献１記載のおもちゃ人形は、単発的で、簡単な文章を話す人形であり、タッチセンサの動作によって、シナリオのない単純な文章が録音された音声を聞かせるため、子供の好奇心を一時的に誘発することはできる。しかし、直ぐに子供は飽きてしまい、実際にこのようなおもちゃ人形と遊ぶ期間が短くなるため、教育的な効果が低いという問題がある。また、従来のおもちゃ人形が話す音声文章は、対話型のシナリオでなく不連続的な文章の羅列であり、現実味に乏しい。
【０００７】
これに対し、例えば特許文献２においては、かかる問題を解決するため、話題に応じた音声出力を可能にし、子供が行う可能性のある行動パターンをシナリオに作成して記録させ、任意に設定された状況に応じて人形と双方向の対話を可能とするおもちゃ人形が開示されている。例えば、子供と対話する状況で、多様なシナリオに導くため、音声圧縮用ソフトウェアで音声を圧縮した後、メモリ部に記録させ、必要時に速やかに取り出し、一つの話題においても、選択可能な状況に応じて直ちに質疑応答が可能であるとされている。具体的に、上記特許文献２には、人と動物の形態が混合した形状に形成された人形本体に、多数の文章のデジタル音声信号ストリームが所定の圧縮率で圧縮された音声圧縮データを記録している第１メモリ部と、外部から入力された使用者の音声信号を認識するための演算エリアが備えられている第２メモリ部とを備えた音声認識対話型人形おもちゃが開示されている。
【０００８】
【特許文献２】
特許第３１６４３４６号明細書
【０００９】
確かに、上記特許文献２記載の人形おもちゃは、使用者の会話に応じて音声を発声するものである。しかし、使用者の発声する音声の言語、ならびに発声人形および人形おもちゃの発声する音声の言語の種類については一切触れられていない。これは、上記特許文献１も同じである。そして、上記特許文献２に係る発明の課題および効果からすると、日本人の幼児が日本語で発声し、それを認識した人形おもちゃが日本語で音声を発声する場合を想定しているものと考えられる。すなわち、上記特許文献１および２記載の技術によっては、異なる言語間におけるコミュニケーションなどは不可能であり、また、これを達成できるものではない。
【００１０】
さらに、現在、音声を認識してパーソナルコンピュータの画面上において文字に表すソフトウェアおよび装置、例えばパターン翻訳または機械翻訳によって所定の言語による文書を他の言語による文書に翻訳するソフトウェアおよび装置、ならびに、文書から音声を合成するソフトウェアおよび装置などが研究・開発されている。しかし、どれも性能に劣り、また、単一の装置で、使用者の第一の言語に基づく音声をリアルタイムで正確に第二の言語に基づく音声にすることのできる技術はなかった。
【００１１】
一方、昨今のペットブームにおいては、例えば飼い主と犬との親近感や信頼性が増すにしたがって、飼い主が犬の鳴き声を聞いてその意味するところを理解できるようになったということが聞かれることもある。確かに、犬の行動パターン、意思表示および嗜好などに基づき、飼い主は犬の鳴き声の意味を理解できるようになるとも考えられる。しかし、それはあくまでも予想の範囲を超えず、微妙に意味が異なる可能性もある。そして、長年連れ添った飼い主と犬との間であるならまだしも、一緒に過ごした時間がまだ短い飼い主と犬との間においては、そのような親近感や信頼性は育まれておらず、飼い主が犬の鳴き声の意味を理解するのはさらに困難になると思われる。
【００１２】
【発明が解決しようとする課題】
そこで、本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、人の遊び心を満足させるだけでなく、外国語会話の学習、異なる言語間におけるコミュニケーション、および翻訳用装置などに供することのできる翻訳モジュールを提供することを目的とする。さらに、本発明の目的は、かかる翻訳モジュールを用い、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することにある。
【００１３】
【課題を解決するための手段】
上記課題を解決すべく、本発明は、人や犬などの動物による第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声（または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声）を発声することを特徴とする翻訳モジュールを提供する。
【００１４】
前記翻訳モジュールは、
前記第一の音声を受信する音声受信手段、
前記第一の音声を前記第二の音声に変換する音声変換手段、および
前記第二の音声を発生する音声発声手段を具備するのが好ましい。
また、前記第一の音声および前記第二の音声が単語であるのが好ましい。
また、前記第一の音声が犬などの動物の鳴き声などであることも好ましい。
【００１５】
本発明に係る翻訳モジュールは、前記音声認識手段が、音声認識トレーニング手段を具備するのが好ましい。
また、本発明に係る翻訳モジュールにおいては、前記音声合成手段が、所望する声に基づいて前記第二の音声を合成する選択的音声合成手段を具備するのが好ましい。これにより、前記第二の音声として、本発明に係る翻訳モジュールの使用者の母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれの声でも採用することができる。
また、前記翻訳モジュールは、さらに前記第二の音声を表示するディスプレイを具備するのが好ましい。
【００１６】
また、前記音声変換手段は、
（ａ）前記第一の音声を認識する音声認識手段、
（ｂ）認識された前記第一の音声を前記第二の言語に翻訳する音声翻訳手段、および
（ｃ）前記翻訳の結果に基づいて前記第二の音声を合成する音声合成手段を具備するのが好ましい。
【００１７】
前記音声認識手段（ａ）は、前記第一の音声を音素列として認識するのが好ましい。
具体的には、前記音声認識手段（ａ）は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ／デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも１つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを含む音声音素識別手段を具備するのが好ましい。
【００１８】
また、前記音声翻訳手段（ｂ）は、認識された前記音素列を第二の言語に基づく語彙列に翻訳するのが好ましい。
また、前記音声翻訳手段（ｂ）が、パターン翻訳法に基づいて音声を翻訳する手段であるのも好ましい。
また、前記音声合成手段（ｃ）は、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが好ましい。
【００１９】
具体的には、前記音声合成手段（ｃ）は、前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換
する音声変換サブシステム、
変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、
所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および
前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【００２０】
さらに、前記翻訳モジュールにおいては、
前記音声受信手段が前記第一の言語に基づくキーワードを受信し、前記音声認識手段（ａ）が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、
その後、前記質問に応じた前記第一の音声を受信して前記第二の音声に変換し、当該第二の音声を発声するのが好ましい。
【００２１】
このような翻訳モジュールにおいては、
前記音声認識手段（ａ）が、前記第一の音声の特定部分を認識し、
前記音声翻訳手段（ｂ）が、前記特定部分を第二の言語に基づく音声に翻訳し、
前記音声合成手段（ｃ）が、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成することもできる。
【００２２】
この場合、前記音声翻訳手段（ｂ）が、
（ｂ−１）前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および
（ｂ−２）前記音声認識手段（ａ）が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、
前記音声合成手段が（ｃ）が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成するのが好ましい。
【００２３】
また、前記翻訳モジュールは、さらに、前記第一の言語および前記第二の言語を特定する言語特定手段（ｄ）を具備するのが好ましい。かかる手段を具備することにより、本発明に係る翻訳モジュールは、種々の異言語間の翻訳を可能とすることができる。例えば、第一の言語として日本語を特定して、第二の言語として英語を特定すること、または第一の言語として犬の声を特定し、第二の言語として日本語を特定することができる。
【００２４】
さらに、前記翻訳モジュールは、外部からの操作を検出して、前記音声認識手段（ａ）、前記音声変換手段（ｂ）、前記音声発声手段（ｃ）および前記言語特定手段（ｄ）よりなる群から選択される少なくとも１種の手段を制御する制御手段（ｅ）を具備するのが好ましい。この制御手段（ｅ）は、例えば他の手段を制御するための各種ボタンなどの操作手段を含んでいてもよいが、前記ディスプレイに組み込まれたタッチパネル式の操作手段であってもよい。もちろん、両者が組み合わされていてもよい。そして、各種のＣＰＵなどを用いることができる。
【００２５】
前記翻訳モジュールにおいては、前記制御手段（ｅ）が、前記音声発声手段（ｃ）に前記第二の音声を複数回発声させる機能を有するのが好ましい。
また、前記制御手段（ｅ）には、前記言語特定手段（ｄ）に前記第二の言語として複数の言語を特定し、前記音声発声手段（ｃ）に前記第二の音声を複数の言語に基づいて連続して発声させる機能を持たせることもできる。
以上のような本発明に係る翻訳モジュールは、音声翻訳装置、翻訳機能付対話式人形、英語学習装置、および旅行用通訳装置などに利用することができる。
【００２６】
【発明の実施の形態】
本発明は、第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声、または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声を発声することを特徴とする翻訳モジュールに関する。さらに、本発明は、かかる翻訳モジュールを用いた動物音声翻訳装置、翻訳機能付対話式人形、翻訳装置、英語学習装置、および旅行用通訳装置にも関する。特に、本発明に係る動物音声翻訳装置によれば、使用者は本発明に係る翻訳モジュールに向かって話すことにより、その言葉を対話式に翻訳または通訳することができる。また、犬などの動物と対話してコミュニケーションを図ることができる。以下に、図面を参照しながら、本発明を説明する。
【００２７】
本発明に係る翻訳モジュール（翻訳システムモジュール）の第一の態様について説明する。図１は、本発明に係る対話式の翻訳モジュールの構成を示す図である。図１に示すように、本発明に係る翻訳モジュールは、音声受信手段２、音声変換手段３および音声発声手段４を含む。そして、音声変換手段３は、音声認識手段３ａ、音声翻訳手段３ｂおよび音声合成手段３ｃを含む。音声変換手段３のみを翻訳モジュールとしてもよいが、当該翻訳モジュールは、音声受信手段２および音声発声手段４を含む概念であってもよい。
【００２８】
例えば、使用者である人による「私の名前は桜です。」との第一の音声が、まず、前記音声受信手段２（例えばマイク、録音機、無線マイクなど）によって受信される。受信された第一の音声は、音声認識変換手段３に送られ、音声認識手段３ａで認識されるとともに、音声翻訳手段３ｂによって「ＭｙｎａｍｅｉｓＳａｋｕｒａ．」に翻訳され、ついで、音声合成手段３ｃにより、「マイネイムイズサクラ。」という第二の音声に合成される。そして、この第二の音声が音声発生手段（例えばスピーカなど）から発声される。
【００２９】
ここで、音声認識、音声翻訳および音声合成については、それぞれ個別に従来から種々の研究開発がなされており、本発明においては、かかる従来技術に基づく音声認識手段、音声翻訳手段および音声合成手段を組み合わせて用いることもできる。もっとも、単一の装置で第一の言語に基づく第一の音声を第二の言語に基づく第二の音声に変換するという本発明のコンセプトは新規なものである。
【００３０】
一例を示すと、「私の名前は桜です。」との第一の音声は、音声受信手段２によって音声信号として受信されて、音声変換手段３に送信される。音声変換手段３においては、音声認識手段３ａが前記音声信号を電気信号に変換し、例えばこれをテキスト（語彙）化する。ついで、テキスト化された第一の音声（第一のテキスト）が、音声翻訳手段３ｂに送信される。
【００３１】
そして、図２に示すように、音声翻訳手段３ｂに記憶手段３ｂ−１よび選択手段３ｂ−２を具備させる。記憶手段３ｂ−１には、メモリーまたは辞書とも言うことができ、前記第一の音声を構成する語彙に対応する第二の言語に基づく語彙（および／または音声）複数個が記憶されている。例えば、英語、ドイツ語、フランス語、スペイン語およびポルトガル語などの複数の言語ごとに、複数の語彙（および／または音声）を記憶させてもよい。
【００３２】
例えば、第一の言語による「私の名前は桜です。」という第一のテキストを構成する語彙である「私の」、「名前は」、「桜」および「です」に対応して、例えば英語のグループとして、「Ｍｙ」、「ｎａｍｅ」、「ｉｓ」および「Ｓａｋｕｒａ」という語彙ならびに／または「マイ」、「ネイム」、「イズ」および「サクラ」という音声を記憶手段３ｂ−１に記憶させる。また、ドイツ語のグループとしては、「Ｍｉｎｅ」、「ｎａｍｅ」、「ｉｓｔ」および「Ｓａｋｕｒａ」という語彙ならびに／または「マイン」、「ナーメ」、「イスト」および「サクラ」という音声を記憶させる。
【００３３】
そして、前記複数の語彙および／または音声から、選択手段３ｂ−２が、前記第一の音声を構成する語彙に対応する前記第二の言語に基づく語彙および／または音声を選択する。上述の例で説明すると、「私の」に対応して「Ｍｙ」を選択し、「名前は」に対応して「ｎａｍｅ」を選択する。そして、「です」に対応して「ｉｓ」を選択し、「桜」に対応して「Ｓａｋｕｒａ」を選択する。
【００３４】
ついで、音声合成手段３ｃが、選択された語彙から前記第二の音声を合成し、個々の語彙に相当する音声をつなぎ合わせて第二の音声を合成し、合成された第二の音声は音声発声手段４から発声される。選択手段３ｂ−１が個々の語彙に相当する音声を選択する場合は、音声合成手段３ｃはその個々の音声をつなぎ合わせて第二の音声を合成し、合成した第二の音声を音声発声手段４から発声させればよい。
【００３５】
本発明に係る翻訳モジュールにおいては、後述するように、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましいが、従来のように、特定の使用者の癖を音声認識手段に覚えさせるトレーニングを必要とする音声認識手段を用いてもよい。そうすると、本発明に係る翻訳モジュールを当該使用者専用の装置としてその性能をアップさせていくことも可能である。例えば、本発明に係る翻訳モジュールを旅行用翻訳装置として用いる場合、空港などの周囲環境のノイズに対する認識特性を向上させることができる。
【００３６】
前記音声認識手段としては種々の技術を採用することができる。本発明に係る翻訳モジュールは、音声認識手段の音声認識率を向上させるため、音声認識トレーニング手段を有するのが好ましい。例えば、本発明に係る翻訳モジュールの使用者が、使用前に、日本語の場合は「あ」から「ん」までの５５音の発音や、英語の場合は「ａ」から「ｚ」のアルファベットの発音などをあらかじめ音声認識手段に入力または記憶させておく。この場合も、使用者に所定の文章やフレーズを読ませてもよい。
【００３７】
一般に、音声認識は、未知発話の特徴を既知の語や句の特徴と比較することによって実行される。そして、既知語句の特徴をトレーニングというプロセスによって決定する。トレーニングによって既知語句のサンプル（トレーニング音声）が検査され、その特徴または特性が、音声認識手段のデータベース内の参照パターンとして記録される。未知発話を認識するために、音声認識トレーニング手段は、その発話を特徴づけるためにその発話から特徴を抽出する。未知発話の特徴をテストパターンという。
【００３８】
次に、音声認識手段は、データベース内の参照パターンの組合せを、未知発話のテストパターンと比較する。参照パターンの各組合わせがテストパターンと一致する度合いの相対的な測度を与えるために、スコアリング技術を使用すればよい。未知発話は、その未知発話と最も良く一致する参照パターンの組合せに対応する語として認識される。
【００３９】
上述したように、本発明においては種々の音声認識手段を用いることができる。例えば、テンプレートベース認識法を用いた音声認識手段は、参照パターンを構築するために既知語サンプルに基づく１次統計量（例えば、サンプルのスペクトル平均）を使用してトレーニングされる。一般的に、スコアリングは、時間登録技術（例えば動的時間ワーピング（ＤＴＷ））によって実現される。ＤＴＷは、参照パターンとテストパターンの間の最適時間整合を与える。
【００４０】
この整合は、一方のパターンが他方のパターンに最適に一致するまで、一方のパターンの時間軸を局所的に伸縮することによってなされる。ＤＴＷスコアリングは、２つの最適に整合された参照パターンおよびテストパターンの間の全体の距離を反映する。最低スコアを有する参照パターン（すなわち、その参照パターンとテストパターンの間の距離が最短）が、テストパターンと同定される。
【００４１】
また、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）認識法を用いた音声認識手段は、既知語サンプルの１次および２次統計量（すなわち、スペクトル平均および分散）を使用してトレーニングされる。ＨＭＭ認識器の各参照パターンは、これらの統計量を反映するＮ状態統計モデル（ＨＭＭ）である。ＨＭＭの各状態はある意味で既知語のサンプルの時間的事象に付随する統計量に対応する。ＨＭＭは、状態遷移行列Ａ（旧状態から新状態に到達する方法の統計的記述を与える）および観測確率行列Ｂ（与えられた状態において観測されやすいスペクトル特徴の記述を与える）によって特徴づけられる。
【００４２】
テストパターンのスコアリングは、特定のモデルが与えられた場合のテストパターンの特徴の列の生起の確率を反映する。すべてのモデルにわたるスコアリングは、効率的な動的プログラミング技術（例えばビタビスコアリング）によって与えられる。そして、テストパターン中の特徴の列の最大生起確率を示すＨＭＭが、そのテストパターンと同定される。
【００４３】
このように、音声認識手段の性能は一般にそれをトレーニングするために使用される音声認識トレーニング手段の効率と密接に対応する。例えばＨＭＭ法を用いた音声認識手段のトレーニングは、特定のＨＭＭが既知語サンプルの統計に一致する頻度を増加させることに関する統計データを当てはめる原理に基づいて行う。ＨＭＭトレーニングは、大量のトレーニング音声サンプルの利用可能性およびＨＭＭの適切な選択によって実現される。
【００４４】
ここで、音声発生手段４による発声については、前記第二の音声として、前記使用者の好みによって自由に設定できるのが好ましい。したがって、前記音声合成手段３ｃは、例えば、使用者が本発明に係る対話式翻訳モジュールを使用する前に、上述のように、第二の音声として声を提供してもらいたい人に、日本語の場合は「あ」から「ん」までの５５音の音声を入力してもらったり、英語の場合は「ａ」から「ｚ」までの音声を入力することができるのが好ましい。もちろん、決まったフレーズや文章を読んでもらってもよい。
【００４５】
すなわち、本発明に係る翻訳モジュールにおける音声合成手段３ｃは、使用者の好みに応じて第二の音声の声を自由に設定できるように、前記音声合成手段の補助的な役割を果たす音声合成補助手段として、選択的音声合成手段を有するのが好ましい。この選択的音声合成手段は、第二の音声として採用したい声の持ち主（特定の人）に、所定の音声を入力してもらい、その声に基づいて第二の音声を合成するものである。
【００４６】
ただし、この場合、音声合成手段に前記特定の人の声をあらかじめ入力または記憶させておく必要がある。かかる技術は従来公知のものであるが、例えば、前記特定の人の声で、日本語の場合は「あ」から「ん」までの５５音の発音や、英語の場合は「ａ」から「ｚ」のアルファベットの発音などをあらかじめ音声合成手段に入力または記憶させておけばよい。これは、第一の音声および第二の音声としてどの言語を用いるかによって変更すればよい。したがって、前記音声合成手段は、前記特定の人の声を構成する音素、音記号列、発音パターン、および発音データなどを格納する音声合成用データ格納手段を有するのが好ましい。
【００４７】
本発明に係る翻訳モジュールによれば、かかる構成により、使用者が好む声によって第二の音声を発声させることができる。前記音声合成手段によって、母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれかの声を機械的に選択して合成できるものであってもよい。このように特定の人の声を採用することによって種々の効果が得られる。例えば、母親の声を採用すると、使用者が小さい子供の場合、子供との仮想的または擬似的なコミュニケーションを取ることができ、母親が喜びを実感できるという効果がある。また、祖父母の声を採用すれば、孫とのコミュニケーションを取ることができ、祖父母が喜びを実感することができる。
【００４８】
また、本発明に係る翻訳モジュールは、さらに前記第二の音声を文字として表示するディスプレイを具備するのが好ましい。これによれば、本発明に係る翻訳モジュールを翻訳用装置として有効に用いることができる。前記ディスプレイは、発光ディスプレイ、液晶ディスプレイ、ブラウン管、プラズマディスプレイなど、いずれの表示装置を用いることもできるが、本発明に係る翻訳モジュールの用途や寸法などに合わせて適宜選択すればよい。
【００４９】
特に、本発明に係る翻訳モジュールを翻訳用装置として用いる場合、使用者が第一の音声を日本語で発声し、第二の音声を英語で発声させたり、また、使用者が第一の音声を英語で発声し、第二の音声を日本語で発声させたりすることができる。さらに、第二の音声を文字にして前記ディスプレイに表示させてもよい。なお、翻訳用装置においては、第一の音声から第二の音声へとできるだけ多くの単語の翻訳ができることが望ましいため、前記音声変換手段にはできるだけ多くの単語を入力または記憶させておくのが好ましい。これはメモリーの容量などによって当業者であれば適宜調整することができる。
【００５０】
以上のように、本発明に係る翻訳モジュールを構成する音声認識手段、音声変換手段、および音声合成手段は、当業者であれば、本願明細書における本発明の技術的意義に鑑み、従来のものを改良して得ることができるが、以下に、より好ましい音声認識手段の一例について説明する。
【００５１】
つぎに、本発明に係る翻訳モジュールにおいては、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましい。従来の音声認識手段によれば、使用者（話者）の音調、話し方およびイントネーションなどの癖が多様であるため、使用者の違いによって音声認識の程度が左右されてその精度が低くなってしまうという問題がある。したがって、従来の音声認識手段では、特定の使用者の癖を音声認識手段に覚えさせるトレーニングが必要とされているものが多い。これに対し、音声を音素の列として認識する方法を採用すれば、使用者が違っても、より精度良くその音声を認識することができる。
【００５２】
具体的には、前記音声認識手段は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ／デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも１つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを具備し、前記音声信号に含まれる音素の種類を識別する音声音素識別手段を含むのが好ましい。
【００５３】
ここで、図３に、前記音声音素識別手段を含む音声認識手段（システム）の構成を示す。
図３に示す音声認識システム１０は、音声受信手段で受信した第一の音声の音声信号を、前記音声信号を対応する電気信号に変換するオーディオプロセッサ回路１４を具備する。そして、前記電気信号をデジタルサンプリングに適した電気的状態にするために、前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ／デジタル変換回路３４を具備する。アナログ／デジタル変換回路３４は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【００５４】
デジタル化された音声信号は、ついで、音声識別回路１６に送信される。音声識別回路１６は、デジタル化された音声信号を、プログラム化して分析し、その音声信号の音声特性を抽出する。そして、必要な音声特性を得た場合に、前記音声信号に含まれる特定の音素を識別することができる。この音素の識別は、個々の使用者（話者）の特徴に依存せずに行うことができ、かつ、使用者が通常の会話速度で話してもリアルタイムで行うことができる。
【００５５】
音声識別回路１６は２つの方法で必要な音声特性を取得する。まず、前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別して、前記音声信号に含まれる音素の種類を識別する。音声信号に含まれる音素の種類を識別するパラメータとしては、例えば音声が“有声音”か、“無声音”か、または“静寂”かなどを含む。
【００５６】
つぎに、音声識別回路１６は、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングする。これにより、複雑な波形を有する第一の音声の音声信号から、細分化された多数の信号であって、前記音声信号の成分である個々の信号の波形を表す多数の信号が生成される。そして、音声識別回路１６は、細分化された各部分を測定し、少なくとも１つの周波数領域特性、例えば、前記信号の周波数および振幅を含む種々の周波数領域データを抽出する。
【００５７】
このようにして得られた周波数領域特性および時間領域特性は、前記音声信号に含まれる音素を識別するために充分な情報を含む。したがって、音声識別回路１６は、最後に、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する。
【００５８】
以上のようにして認識された第一の音声は、ついで、音声識別回路１６に内臓させた音声翻訳手段および音声合成手段によって翻訳し、第二の音声に合成される。この場合、上述のように認識された音素の列を第二の言語に基づく語彙の列に翻訳させればよい。例えば、従来技術による言語処理プログラムを用いることにより、かかる翻訳および音声合成を行うことが可能である。
【００５９】
そして、これらの処理は、例えば、音声識別回路１６に接続され、データの入力、記憶および／または制御をすることのできるホストコンピュータまたはＣＰＵなどの制御デバイス２２によって制御すればよい。かかる制御デバイス２２としては、従来のものを用いることができ、音声識別回路１６に内蔵されているのが好ましい。もっとも、音声識別回路１６の構成によっては省略することもできる。
【００６０】
ここで、図４に、さらに詳細な前記音声音素識別手段（システム）の構成を示す。図４に示す音声認識システム１０では、図３の場合と同様に、音声受信手段１２によって受信された第一の音声が、オーディオプロセッサ回路１４で調整される。オーディオプロセッサ回路１４においては、第一の音声の音声信号を電気信号に変え、つづくアナログ／デジタル変換器３４に送信する。
【００６１】
オーディオプロセッサ回路１４では、まず増幅回路２６などの信号増幅手段によって、電気信号が好適なレベルに増幅され、制限増幅回路２８によって、その出力レベルが制限される。そして、フィルタ回路３０によって、高周波数が除去される。これら、増幅回路２６、制限増幅回路２８およびフィルタ回路３０としては、種々のものを用いることができる。ついで、アナログ／デジタル変換回路３４は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【００６２】
つぎに、図４に示す音声認識システム１０は、デジタル音声プロセッサ回路１８およびホスト音声プロセッサ回路２０を含む。これらは図３に示す音声識別回路１６に含まれるものであり、プログラム化できるデバイスを用いる同等の回路で構成することができる。
【００６３】
まず、デジタル音声プロセッサ回路１８は、デジタル化された音声信号を受信し、プログラムに基づいて操作し、種々の音声特性を抽出する。具体的には、まず時間領域においてデジタル化された音声信号を分析し、その分析結果に基づいて少なくとも１種の時間領域音声特性を抽出する。この特性は、音声信号が“有声的な”、“無声的な”または“静寂な”音素を含むか否かを決定するために有利に役立つ。
【００６４】
また、デジタル音声プロセッサ回路１８は、デジタル化された音声信号をさらに操作し、音声信号に関する種々の周波数領域情報を取得する。これは、音声信号を、無数のフィルタ帯でフィルタリングし、対応する無数のフィルタされた信号を生成することにより行うことができる。デジタル音声プロセッサ回路１８は、個々の波形によって発現される種々の特性を測定し、少なくとも１種の周波数領域音声特性を抽出する。この周波数領域音声特性は、フィルタリング工程によって得られた信号成分の周波数、振幅および勾配などを含む。これらの特性は、蓄積ないし記憶され、音声信号に含まれる音素の種類を決定するために用いられる。
【００６５】
図４に示すように、デジタル音声プロセッサ回路１８は、デジタル音声プロセッサ３６などの、プログラム制御のもとでデジタル化された音声信号を分析するプログラム化可能な手段を含む。このデジタル音声プロセッサ回路３６としては、モトローラＤＳＰ５６００１などのプログラム可能な２４ビット汎用デジタル信号プロセッサを好適に用いることができる。もちろん、他の上市されたデジタル信号プロセッサを用いることもできる。
【００６６】
また、デジタル音声プロセッサ３６は、バスタイプの標準アドレス、データおよび制御配列３８を介して、種々の構成要素と接続される。これら構成要素は、例えば、ＤＳＰプログラムメモリー４０などの、ＤＳＰ３６によって実行される一連のプログラムを記憶するプログラムメモリー手段、ＤＳＰデータメモリー４２などの、ＤＳＰ３６によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック４４を含む。
【００６７】
つぎに、ホスト音声プロセッサ回路２０について説明する。ホスト音声プロセッサ回路２０は、適切なホストインターフェイス５２を介してデジタル音声プロセッサ回路１８に接続される。概して、ホスト音声プロセッサ回路２０が、ホストインターフェイス５２を介して、デジタル音声プロセッサ回路１８で生成された種々の音声信号特性情報を受信する。
【００６８】
このホスト音声プロセッサ回路２０は、この情報を分析し、前記信号特性を代表的な使用者（話者）をテストすることによって集めた音声標準音声データと比較することによって、前記音声信号に含まれる音素の種類を識別する。音素を識別した後、ホスト音声プロセッサ回路２０は、種々の言語処理技術を使用し、音素を第一の言語や第二の言語に基づく語彙やフレーズに翻訳する。
【００６９】
前記ホスト音声プロセッサ回路２０は、好ましくは、ホスト音声プロセッサ５４などの、プログラム制御のもとでデジタル化された音声信号の特性を分析する第二のプログラム化可能な手段を有する。ホスト音声プロセッサ５４は、例えばモトローラ６８ＥＣ０３０などのプログラム化可能な３２ビット汎用性ＣＰＵ素子であればよい。
【００７０】
また、ホスト音声プロセッサ５４は、標準アドレス、データおよび制御バスタイプ配列５６を介して、種々の構成要素と接続される。これら構成要素は、例えば、ホストプログラムメモリー５８などの、ホスト音声プロセッサ５４によって実行される一連のプログラムを記憶するプログラムメモリー手段、ホストデータメモリー６０などの、ホスト音声プロセッサ５４によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック６４を含む。
【００７１】
制御デバイス２２については、図３において説明したものと同様である。制御デバイス２２は、ＲＳ−２３２インターフェイス回路などのインターフェイス手段６６およびケーブル２４を介して、ホスト音声プロセッサ回路２０に接続すればよい。もちろん、デジタル音声プロセッサ回路１８およびホスト音声プロセッサ回路２０の構成によれば、制御デバイス２２を省略することも可能である。なお、ホスト音声プロセッサ回路２０には、さらに辞書機能を有するメモリー６２やディスプレイ６８を接続することも可能である。
【００７２】
以上のように、音声認識手段（ａ）が音素で第一の音声を認識する場合、前記音声翻訳手段（ｂ）が、認識された前記音素列を第二の言語に基づく語彙列に翻訳し、前記音声合成手段（ｃ）が、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが有効である。もっとも、図４および５に示したような音声認識システムを用いれば、音声認識手段（ａ）に音声翻訳手段（ｂ）および音声合成手段（ｃ）の機能を持たせることが可能である。
【００７３】
ここで、音声合成手段（ｃ）としては従来のものを用いることができるが、従来の音声合成手段によれば、電気的および機械的に音声を合成するため、語彙と語彙との間の間隔やイントネーションなどが完全ではなく、発声される第二の音声が人間の発する声に対して違和感が生じる場合がある。そこで、本発明においては、音声合成手段に以下のものを用いるのが好ましい。
【００７４】
すなわち、前記音声合成手段（ｃ）は、前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換する音声変換サブシステム、変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【００７５】
さらに、本発明に係る対話式翻訳モジュールには、前記音声受信手段が前記使用者による第一の言語に基づくキーワードを受信し、前記音声認識手段（ａ）が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、その後、前記使用者による前記第一の音声を前記第二の音声に変換し、当該第二の音声を発声して前記使用者と対話させる機能を持たせることが好ましい。
このような機能は、当業者であれば適宜プログラムを作成して、上記音声認識手段、音声翻訳手段および音声合成手段に組み込ませることが可能である。
【００７６】
また、音声認識手段（ａ）に、前記第一の音声の少なくとも一部の特定部分を認識させ、音声翻訳手段（ｂ）に、前記特定部分を第二の言語に基づく音声に翻訳させ、音声合成手段（ｃ）に、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成させることも有効である。
【００７７】
この構成をとれば、前記音声変換手段は、いわゆるパターン翻訳法に基づいて、第一の言語による第一の音声を構成する第一のテキストを、第二の言語による第二のテキストに変換することができる。パターン翻訳法は、長文を翻訳するためには不充分なものであるが、短文を処理するためには有効である。したがって、初歩的な外国語教育にとって重要な時期である幼少期の子供にとっては、有効である。また、例えば旅行などで所定のフレーズの通訳を希望するお年寄りにとっても有効である。
【００７８】
また、特に、本発明に係る翻訳モジュールを具備する動物音声翻訳装置を実現するためには、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。例えば猫や犬の鳴き声は、音素などに分解することが比較的困難である。そこで、種々の鳴き声をその際の行動パターンとともに収集してデータベースを作製し

そして、前記音声認識手段によってづく音声回答パターンを記憶させておき、前記音声翻訳手段によって、記憶させた音声回答パターンに基づいて前記鳴き声を例えば日本語に変換し、前記第二の音声を合成することが好ましい。もっとも、音声認識手段によって認識した前記鳴き声は、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
【００７９】
ここで、本発明に係る翻訳モジュールは、上述のように、主として音声認識手段（ａ）、音声翻訳手段（ｂ）および音声合成手段（ｃ）の３つの構成要素からなると記載したが、これらのうちの２種または３種が一体化されていて、単一の手段で複数の手段の機能を果たす構成を採っても構わない。
【００８０】
上記パターン翻訳法を用いる場合、音声翻訳手段（ｂ）が、（ｂ−１）前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および（ｂ−２）前記音声認識手段（ａ）が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、音声合成手段が（ｃ）が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成させてもよい。
ここで、以下に、本発明に係る翻訳モジュールの代表的な応用例の実施の形態について説明する。
【００８１】
実施の形態１（翻訳機能付対話式人形）
図５は、本発明に係る翻訳モジュールを内蔵する翻訳機能付対話式人形の概略図である。図５に示すように、本発明に係る翻訳機能付対話式人形１は、使用者の発声する第一の言語に基づく音声、例えば日本語による「私の名前は桜です。」という音声を耳部１ａに設けられた音声受信手段により受信し、人形の一部分に内蔵され、本発明を実現する音声変換手段１ｂを含む対話式翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「マイネームイズサクラ。」またはドイツ語による「マインナーメイストサクラ。」に変換し、この第二の音声を口部分１ｃに設けられた音声発声手段より発声する。
【００８２】
また、図５には示していないが、第一の音声として、例えば「歌。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「ハ〜ッピバ〜スデ〜ィトゥ〜ユ〜。」という歌を第二の音声として発声させてもよい。
もっとも、前記第一の音声および前記第二の音声が単語であることが好ましい。なぜなら、幼少期の子供は文章を話すのではなく単語を羅列して発するだけであり、これに対して本発明に係る翻訳機能付対話式人形がｗｏｒｄｔｏｗｏｒｄで翻訳をすることができれば、初歩的な外国語教育、すなわち外国語教育への導入にとって資するところが大きいからである。
【００８３】
実施の形態２（旅行用通訳装置）
次に、図６は、本発明に係る翻訳モジュールを内蔵する旅行用通訳装置の概略図である。図６に示すように、本発明に係る旅行用通訳装置７０は、使用者の発声する第一の言語に基づく音声、例えば日本語による「○○行きのバスはどこから出ていますか？」という音声を音声受信手段であるマイク７１ａにより受信し、旅行用通訳装置７０に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「ホエアキャンアイテイクアバスフォー ○○？」に変換し、この第二の音声を音声発声手段であるスピーカ７１ｂより発声する。
【００８４】
また、第一の音声として、例えば「タクシー。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「プリーズコールミーアタクシー。」という所定のフレーズを第二の音声として発声させてもよい。
もちろん、ディスプレイ７２にこれらの音声を文字として表示させてもいいし、装置の操作そのものをディスプレイ７２における表示によって誘導させてもよい。かかる表示については従来の技術を用いればよい。
【００８５】
ここで、上述の音声変換手段には、例えばその記憶手段に、旅行の種々の場面において必要とされる会話を、グループ分けして記憶させ、そのグループを選択することによって、その場面に場面に応じた通訳機能を発揮させることも可能である。以下にこのグループ分けの例を示す。
例えば、挨拶、空港、機内、入国、ホテル、レストラン、乗り物、観光、買い物、両替、娯楽、電話、郵便、病気および緊急などのように、母国語と異なる言語で話す必要があると想定される種々の場面ごとにグループ分けすればよい。
【００８６】
そして、各グループにおいては、例えば、以下のように必要と想定されるフレーズを記憶させる。
Ａ．挨拶
おはよう。こんにちは。おやすみなさい。お元気ですか。良い天気ですね。はじめまして。お会いできて嬉しいです。あなたはどこから来ましたか。私は日本から来ました。またお会いしましょう。さようなら。
【００８７】
Ｂ．空港
ＪＡＬのカウンターはどこですか。ＪＡＬ便に予約をお願いします。その便に空席はありますか。片道をお願いします。往復をお願いします。禁煙席で通路側をお願いします。予約の確認をお願いします。
【００８８】
Ｃ．機内
私の席はどこですか。日本語のわかるスチュワーデスはいますか。毛布を貸して下さい。シートを倒してもいいですか。日本語の新聞はありますか。映画を見たいのでイヤホンを貸して下さい。免税品の販売はありますか。
【００８９】
Ｄ．入国
日本から来ました。観光で来ました。タバコを３カートン持っています。これは友人へのプレゼントです。これは私が使うものです。
【００９０】
Ｅ．税関
ツインでバス付きの部屋をお願いします。２泊お願いします。部屋の料金はいくらですか。もっと安い部屋はありませんか。チェックアウトは何時ですか。ここで貴重品を預かってもらえますか。この手紙を投函しておいて下さい。クリーニングをお願いします。お湯が出ません。トイレの水が出ません。部屋を替えて下さい。タクシーを呼んで下さい。
【００９１】
Ｆ．ホテル
コーヒーだけでも注文できますか。ワインリストを下さい。ビールを１本下さい。今日のお勧め料理にします。これはどんな料理ですか。これは注文したのと違います。まだ料理が来ていません。計算が間違っていませんか。
その他のグループについても、用いられるフレーズを適宜選択、収集し、記憶手段などに記憶させればよい。
【００９２】
実施の形態３（翻訳装置および英語学習装置）
また、本発明に係る翻訳モジュールは、翻訳装置および英語学習装置にも有効に応用することができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、この音声が音声受信手段であるマイクにより受信される。そして、翻訳装置および英語学習装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声が第二の言語に基づく音声、例えば英語による「アップル」に変換され、この第二の音声が音声発声手段であるスピーカより発声される。
【００９３】
また、逆に受験生または翻訳者に第一の音声として「アップル」と発声させ、第二の音声として「りんご」と発声させることもできる。
この場合の装置の詳細な構成およびメカニズムについては上述と同様とすればよい。このように、本発明に係る翻訳モジュールは、翻訳者の翻訳作業、および受験生の英語学習にとっても有効である。
【００９４】
実施の形態４（動物音声翻訳装置）
次に、本発明に係る翻訳モジュールは動物音声翻訳装置にも応用することができる。図７は、本発明に係る動物音声翻訳装置を示す図である。この動物音声翻訳装置は、図７の（ａ）の人用本体と図７の（ｂ）の動物用本体とで構成される。人用本体（ａ）は、使用者が手に持つなどして使用する。そして、動物用本体（ｂ）は、例えば犬などの首輪に取りつけることによって、犬などの声を受信し、その声を人用本体（ａ）に送信する。また、その逆も可能である。したがって、人用本体（ａ）および動物用本体（ｂ）は、それぞれ受信手段および送信手段を有する。
【００９５】
この場合の装置の構成およびメカニズムも上述と同様にすればよいが、例えば、犬が、第一の言語である犬語に基づいて第一の音声「ワンワン」を発すると、この音声は動物用本体（ｂ）のマイク８６によって受信され、人用本体（ａ）に送信される。そして、人用本体（ａ）においては、動物音声翻訳装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この第一の音声を第二の言語である、例えば日本語に基づく第二の音声「お腹が空いたよう。」に変換して、スピーカ８２から発声するとともに、ディスプレイ８１に文字で表示する。
【００９６】
また、人用本体（ａ）を用いて、例えば人が第一の言語である日本語に基づいて「散歩に行こうか？」という第一の音声を発声すると、この第一の音声が本体（ａ）のマイク８０に受信されるとともに、第二の言語である犬語に基づく第二の音声「ワンワン」に変換され、この第二の音声は動物用本体（ｂ）に送信され、マイク８６に併設されたスピーカ（図示せず）によって発声される。
このように、本発明に係る動物音声翻訳装置によれば、飼い主とペットのコミュニケーションが可能になる。すなわち、本発明に係る翻訳モジュールは双方向型であるとも言える。
【００９７】
なお、人用本体（ａ）は、筐体８５、送信機（ｂ）からの情報を受信するためのアンテナ８３、操作手段であるボタン８４を具備し、動物用本体（ｂ）も操作手段であるボタン８７を有する。
ここで、本発明に係る動物音声翻訳装置においては、前述の種々の仕様の翻訳モジュールを用いることができるが、なかでも、上述したように、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。犬の種々の鳴き声と、その際の行動パターンと、その行動パターンから想定される第二の言語に基づく文言または文章との組合せを、データベースとして作成しておく。かかるデータベースを前記記憶手段に記憶させておけば、前記音声認識手段によって認識した犬の鳴き声を、前記翻訳手段によって前記データベースに基づいて第二の言語に基づく文言または文章に変換し、この変換に基づいて前記音声合成手段に第二の音声を合成させることができる。
【００９８】
そして、前記記憶手段には、前記音声認識手段によって認識され得る犬の鳴き声に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンそのものを記憶させておいてもよい。この場合、前記音声認識手段によって認識した犬の鳴き声を、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
以下に、本発明に係る翻訳モジュールの一実施例について説明するが、本発明はこれらのみに限定されるものではない。
【００９９】
【実施例】
実施例１
本実施例においては、図８に示す構成を有する翻訳モジュールを作製した。
制御手段であるホストマイクロコントローラ９０およびＣＰＵ９１、マイクを含む音声入力回路９２、スピーカを含む音声出力回路９３、発信器９４、記憶手段ないし格納手段であるＲＯＭ９５およびＤＲＡＭ９６を接続し、本発明に係る翻訳モジュールを構成した。
【０１００】
ここで、図９および１０に、音声入力回路９２をさらに詳細に説明するための図を示した。図９には１１ｋＨｚの音声を認識するためのもの回路を示し、図１０には８ｋＨｚの音声を認識するための回路を示した。図９に示す回路を、増幅回路１０１、フィルタ回路１０２、増幅回路１０３、およびフィルタ回路１０４を接続して組み立てた。また、図１０に示す回路も、同様に、増幅回路１０６、フィルタ回路１０７、増幅回路１０８、およびフィルタ回路１０９を接続して組み立てた。また、図８の音声出力回路９３は、図１１に示すような構成で組み立てた。
【０１０１】
かかる構成を有する本発明に係る翻訳モジュールによれば、第一の言語に基づく第一の音声を電気信号に変え、ＲＯＭ９５およびＤＲＡＭ９６に記憶ないし格納されたデータベースに基づき、前記電気信号に対応させて第一の言語を第二の言語に変換（翻訳）させ、第二の言語に基づく第二の音声を合成させることができた。
【０１０２】
【発明の効果】
本発明によれば、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、使用者の遊び心を満足させるだけでなく、外国語会話の学習、翻訳作業、および異なる言語間における簡単なコミュニケーションなどに供することのできる翻訳モジュールを提供することができる。
【０１０３】
特に、本発明に係る翻訳モジュールは、上記翻訳機能付対話式人形および旅行用通訳装置の他、翻訳装置および英語学習装置としても有効に用いることができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、英語で「アップル」という第二の音声が発声する。また、逆に受験生または翻訳者が第一の音声として「アップル」と発声すると、第二の音声として「りんご」と発声する。このように、本発明に係る翻訳モジュールは、特に受験生の英語学習にとって有効である。
【０１０４】
さらに、本発明に係る翻訳モジュールを用いれば、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することができる。したがって、本願発明は、昨今のペットブームにおいて、飼い主が自分のペットとのコミュニケーションを深めることができるという意味においても、有効である。
【図面の簡単な説明】
【図１】本発明に係る翻訳モジュールの構成を示す図である。
【図２】本発明に係る翻訳モジュールの構成をさらに詳細に示す図である。
【図３】本発明において用いられる音声音素識別手段を含む音声認識手段（システム）の構成を示す図である。
【図４】本発明において用いられる音声音素識別手段を含む音声認識手段（システム）の構成をさらに詳細に示す図である。
【図５】本発明に係る翻訳モジュールを用いた翻訳機能付対話式人形の概略図である。
【図６】本発明に係る翻訳モジュールを用いた旅行用翻訳装置の概略図である。
【図７】本発明に係る翻訳モジュールを用いた動物音声翻訳装置の概略図である。
【図８】本発明に係る動物音声翻訳装置に用いる翻訳モジュールの回路図である。
【図９】図８における音声入力回路９２の一部をより詳細に示した図である。
【図１０】図８における音声入力回路９２の他の一部をより詳細に示した図である。
【図１１】図８における音声出力回路９３をより詳細に示した図である。
【符号の説明】
２音声受信手段
３音声変換手段
３ａ音声認識手段
３ｂ音声翻訳手段
３ｃ音声合成手段
４音声発声手段

Claims

第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声を発声することを特徴とする翻訳モジュール。
請求項１記載の翻訳モジュールであって、
前記第一の音声を受信する音声受信手段、
前記第一の音声を前記第二の音声に変換する音声変換手段、および
前記第二の音声を発生する音声発声手段を具備することを特徴とする翻訳モジュール。
請求項１または２記載の翻訳モジュールであって、
前記第一の音声および前記第二の音声が単語であることを特徴とする翻訳モジュール。
請求項１〜３のいずれかに記載の翻訳モジュールであって、前記第一の音声が動物の声であり、前記第二の音声が人の発する音声であることを特徴とする翻訳モジュール。
請求項１〜４のいずれかに記載の翻訳モジュールであって、さらに前記第二の音声を表示するディスプレイを具備することを特徴とする翻訳モジュール。
請求項２記載の翻訳モジュールであって、
前記音声変換手段が、
（ａ）前記第一の音声を認識する音声認識手段、
（ｂ）認識された前記第一の音声を前記第二の言語に翻訳する音声翻訳手段、および
（ｃ）前記翻訳の結果に基づいて前記第二の音声を合成する音声合成手段を具備することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声認識手段（ａ）が、音声認識トレーニング手段を具備することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声翻訳手段（ｂ）が、パターン翻訳法に基づいて音声を翻訳する手段であることを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声合成手段（ｃ）が、所望する声に基づいて前記第二の音声を合成する選択的音声合成手段を具備することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声認識手段（ａ）が、前記第一の音声を音素列として認識することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声認識手段（ａ）が、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ／デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも１つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを含む音声音素識別手段を具備することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声翻訳手段（ｂ）が、認識された前記音素列を第二の言語に基づく語彙列に翻訳することを特徴とする翻訳モジュール。
請求項６記載の翻訳モジュールであって、
前記音声合成手段（ｃ）が、前記語彙列をコンピュータ処理することにより前記第二の音声を合成することを特徴とする翻訳モジュール。
請求項１２記載の翻訳モジュールであって、
前記音声合成手段（ｃ）が、
前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換する音声変換サブシステム、
変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、
所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および
前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備することを特徴とする翻訳モジュール。
請求項１〜１４のいずれかに記載の翻訳モジュールであって、
前記音声受信手段が前記第一の言語に基づくキーワードを受信し、前記音声認識手段（ａ）が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、
その後、前記質問に応じた前記第一の音声を受信して前記第二の音声に変換し、当該第二の音声を発声することを特徴とする翻訳モジュール。
請求項１〜１４のいずれかに記載の翻訳モジュールであって、
前記音声認識手段（ａ）が、前記第一の音声の特定部分を認識し、
前記音声翻訳手段（ｂ）が、前記特定部分を第二の言語に基づく音声に翻訳し、
前記音声合成手段（ｃ）が、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成することを特徴とする翻訳モジュール。
請求項１６記載の翻訳モジュールであって、
前記音声翻訳手段（ｂ）が、
（ｂ−１）前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および
（ｂ−２）前記音声認識手段（ａ）が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、
前記音声合成手段が（ｃ）が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成することを特徴とする翻訳モジュール。
請求項１〜１７のいずれかに記載の翻訳モジュールを具備することを特徴とする音声翻訳装置。
請求項１〜１７のいずれかに記載の翻訳モジュールを具備することを特徴とする翻訳機能付対話式人形。
請求項１〜１７のいずれかに記載の翻訳モジュールを具備することを特徴とする英語学習装置。
請求項１〜１７のいずれかに記載の翻訳モジュールを具備することを特徴とする旅行用通訳装置。