JP2004212685A - 翻訳モジュールおよびこれを用いた音声翻訳装置 - Google Patents
翻訳モジュールおよびこれを用いた音声翻訳装置 Download PDFInfo
- Publication number
- JP2004212685A JP2004212685A JP2002383686A JP2002383686A JP2004212685A JP 2004212685 A JP2004212685 A JP 2004212685A JP 2002383686 A JP2002383686 A JP 2002383686A JP 2002383686 A JP2002383686 A JP 2002383686A JP 2004212685 A JP2004212685 A JP 2004212685A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- translation module
- translation
- speech
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】人や犬などの動物が発した音声を異なる言語による音声に変換して発声することにより、初歩的な外国語会話の学習、旅行者の簡単な通訳、ペットとのコミュニケーションなどに供することのできる翻訳モジュールを提供する。
【解決手段】人などによる第一の言語に基づく第一の音声を認識し、前記第一の音声を第二の言語に基づく第二の音声に変換し、ついで当該第二の音声を発声する翻訳モジュール。
【選択図】 図1
【解決手段】人などによる第一の言語に基づく第一の音声を認識し、前記第一の音声を第二の言語に基づく第二の音声に変換し、ついで当該第二の音声を発声する翻訳モジュール。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声させ、例えば、初歩的な外国語会話の学習、旅行における通訳、および犬などの声(鳴き声および吠える声なども含む)を人の言語による音声に翻訳するための装置などに供することのできる翻訳モジュールに関する。
【0002】
【従来の技術】
従来から、音声認識、音声翻訳および音声合成に関する研究開発が盛んに行われている。これは、国際化社会のなかにあって、異なる言語間におけるコミュニケーションをより容易かつ簡便な方法で可能とすることが望まれているからである。また、おもちゃ人形などの分野においても、一般的に、子供はおもちゃにより生活教育を学習し、おもちゃとの親密な触れ合いは、実社会へ導く模倣学習を実行することから、子供の発声に対応して発声する人形などが実際に提供されている。
【0003】
このようなおもちゃ人形のほとんどにおいては、タッチセンサが所定の位置に設けられており、子供がこのタッチセンサを動作させると、磁気記録媒体(磁気テープ)や半導体記録媒体(ICメモリ)に記録させた簡単な文章、例えば「こんにちは。」、「私は○○○です。」、「あなたは誰ですか。」、および「あなたは何が好きですか。」などの音声が発声される。例えば、特許文献1には、子供に興味を持たすことができ、さらには会話に対する興味を持たすことのできる発声人形が開示されている。
【0004】
【特許文献1】
登録実用新案第2562439号公報
【0005】
具体的には、上記特許文献1には、前記目的を達成するため、人形の胴体部に頭部を取り外し可能に取着するとともに、外部からの操作を検出する検出手段、複数の語彙を記憶する記憶手段、複数の語彙から任意の語彙を選択する選択手段、選択された語彙から音声を合成する音声合成手段及び合成された音声を発声させる発声手段を収容した筐体を上記胴体部内に配置するとともに詰め物で安定させ、筐体の上部に突出して形成した電池収容部を胴体部から上方に突出させるとともに、該電池収容部に上記頭部を嵌合させた発声人形が開示されている。
【0006】
上記特許文献1記載のおもちゃ人形は、単発的で、簡単な文章を話す人形であり、タッチセンサの動作によって、シナリオのない単純な文章が録音された音声を聞かせるため、子供の好奇心を一時的に誘発することはできる。しかし、直ぐに子供は飽きてしまい、実際にこのようなおもちゃ人形と遊ぶ期間が短くなるため、教育的な効果が低いという問題がある。また、従来のおもちゃ人形が話す音声文章は、対話型のシナリオでなく不連続的な文章の羅列であり、現実味に乏しい。
【0007】
これに対し、例えば特許文献2においては、かかる問題を解決するため、話題に応じた音声出力を可能にし、子供が行う可能性のある行動パターンをシナリオに作成して記録させ、任意に設定された状況に応じて人形と双方向の対話を可能とするおもちゃ人形が開示されている。例えば、子供と対話する状況で、多様なシナリオに導くため、音声圧縮用ソフトウェアで音声を圧縮した後、メモリ部に記録させ、必要時に速やかに取り出し、一つの話題においても、選択可能な状況に応じて直ちに質疑応答が可能であるとされている。具体的に、上記特許文献2には、人と動物の形態が混合した形状に形成された人形本体に、多数の文章のデジタル音声信号ストリームが所定の圧縮率で圧縮された音声圧縮データを記録している第1メモリ部と、外部から入力された使用者の音声信号を認識するための演算エリアが備えられている第2メモリ部とを備えた音声認識対話型人形おもちゃが開示されている。
【0008】
【特許文献2】
特許第3164346号明細書
【0009】
確かに、上記特許文献2記載の人形おもちゃは、使用者の会話に応じて音声を発声するものである。しかし、使用者の発声する音声の言語、ならびに発声人形および人形おもちゃの発声する音声の言語の種類については一切触れられていない。これは、上記特許文献1も同じである。そして、上記特許文献2に係る発明の課題および効果からすると、日本人の幼児が日本語で発声し、それを認識した人形おもちゃが日本語で音声を発声する場合を想定しているものと考えられる。すなわち、上記特許文献1および2記載の技術によっては、異なる言語間におけるコミュニケーションなどは不可能であり、また、これを達成できるものではない。
【0010】
さらに、現在、音声を認識してパーソナルコンピュータの画面上において文字に表すソフトウェアおよび装置、例えばパターン翻訳または機械翻訳によって所定の言語による文書を他の言語による文書に翻訳するソフトウェアおよび装置、ならびに、文書から音声を合成するソフトウェアおよび装置などが研究・開発されている。しかし、どれも性能に劣り、また、単一の装置で、使用者の第一の言語に基づく音声をリアルタイムで正確に第二の言語に基づく音声にすることのできる技術はなかった。
【0011】
一方、昨今のペットブームにおいては、例えば飼い主と犬との親近感や信頼性が増すにしたがって、飼い主が犬の鳴き声を聞いてその意味するところを理解できるようになったということが聞かれることもある。確かに、犬の行動パターン、意思表示および嗜好などに基づき、飼い主は犬の鳴き声の意味を理解できるようになるとも考えられる。しかし、それはあくまでも予想の範囲を超えず、微妙に意味が異なる可能性もある。そして、長年連れ添った飼い主と犬との間であるならまだしも、一緒に過ごした時間がまだ短い飼い主と犬との間においては、そのような親近感や信頼性は育まれておらず、飼い主が犬の鳴き声の意味を理解するのはさらに困難になると思われる。
【0012】
【発明が解決しようとする課題】
そこで、本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、人の遊び心を満足させるだけでなく、外国語会話の学習、異なる言語間におけるコミュニケーション、および翻訳用装置などに供することのできる翻訳モジュールを提供することを目的とする。さらに、本発明の目的は、かかる翻訳モジュールを用い、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することにある。
【0013】
【課題を解決するための手段】
上記課題を解決すべく、本発明は、人や犬などの動物による第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声(または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声)を発声することを特徴とする翻訳モジュールを提供する。
【0014】
前記翻訳モジュールは、
前記第一の音声を受信する音声受信手段、
前記第一の音声を前記第二の音声に変換する音声変換手段、および
前記第二の音声を発生する音声発声手段を具備するのが好ましい。
また、前記第一の音声および前記第二の音声が単語であるのが好ましい。
また、前記第一の音声が犬などの動物の鳴き声などであることも好ましい。
【0015】
本発明に係る翻訳モジュールは、前記音声認識手段が、音声認識トレーニング手段を具備するのが好ましい。
また、本発明に係る翻訳モジュールにおいては、前記音声合成手段が、所望する声に基づいて前記第二の音声を合成する選択的音声合成手段を具備するのが好ましい。これにより、前記第二の音声として、本発明に係る翻訳モジュールの使用者の母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれの声でも採用することができる。
また、前記翻訳モジュールは、さらに前記第二の音声を表示するディスプレイを具備するのが好ましい。
【0016】
また、前記音声変換手段は、
(a)前記第一の音声を認識する音声認識手段、
(b)認識された前記第一の音声を前記第二の言語に翻訳する音声翻訳手段、および
(c)前記翻訳の結果に基づいて前記第二の音声を合成する音声合成手段を具備するのが好ましい。
【0017】
前記音声認識手段(a)は、前記第一の音声を音素列として認識するのが好ましい。
具体的には、前記音声認識手段(a)は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも1つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを含む音声音素識別手段を具備するのが好ましい。
【0018】
また、前記音声翻訳手段(b)は、認識された前記音素列を第二の言語に基づく語彙列に翻訳するのが好ましい。
また、前記音声翻訳手段(b)が、パターン翻訳法に基づいて音声を翻訳する手段であるのも好ましい。
また、前記音声合成手段(c)は、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが好ましい。
【0019】
具体的には、前記音声合成手段(c)は、 前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換
する音声変換サブシステム、
変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、
所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および
前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【0020】
さらに、前記翻訳モジュールにおいては、
前記音声受信手段が前記第一の言語に基づくキーワードを受信し、前記音声認識手段(a)が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、
その後、前記質問に応じた前記第一の音声を受信して前記第二の音声に変換し、当該第二の音声を発声するのが好ましい。
【0021】
このような翻訳モジュールにおいては、
前記音声認識手段(a)が、前記第一の音声の特定部分を認識し、
前記音声翻訳手段(b)が、前記特定部分を第二の言語に基づく音声に翻訳し、
前記音声合成手段(c)が、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成することもできる。
【0022】
この場合、前記音声翻訳手段(b)が、
(b−1)前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および
(b−2)前記音声認識手段(a)が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、
前記音声合成手段が(c)が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成するのが好ましい。
【0023】
また、前記翻訳モジュールは、さらに、前記第一の言語および前記第二の言語を特定する言語特定手段(d)を具備するのが好ましい。かかる手段を具備することにより、本発明に係る翻訳モジュールは、種々の異言語間の翻訳を可能とすることができる。例えば、第一の言語として日本語を特定して、第二の言語として英語を特定すること、または第一の言語として犬の声を特定し、第二の言語として日本語を特定することができる。
【0024】
さらに、前記翻訳モジュールは、外部からの操作を検出して、前記音声認識手段(a)、前記音声変換手段(b)、前記音声発声手段(c)および前記言語特定手段(d)よりなる群から選択される少なくとも1種の手段を制御する制御手段(e)を具備するのが好ましい。この制御手段(e)は、例えば他の手段を制御するための各種ボタンなどの操作手段を含んでいてもよいが、前記ディスプレイに組み込まれたタッチパネル式の操作手段であってもよい。もちろん、両者が組み合わされていてもよい。そして、各種のCPUなどを用いることができる。
【0025】
前記翻訳モジュールにおいては、前記制御手段(e)が、前記音声発声手段(c)に前記第二の音声を複数回発声させる機能を有するのが好ましい。
また、前記制御手段(e)には、前記言語特定手段(d)に前記第二の言語として複数の言語を特定し、前記音声発声手段(c)に前記第二の音声を複数の言語に基づいて連続して発声させる機能を持たせることもできる。
以上のような本発明に係る翻訳モジュールは、音声翻訳装置、翻訳機能付対話式人形、英語学習装置、および旅行用通訳装置などに利用することができる。
【0026】
【発明の実施の形態】
本発明は、第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声、または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声を発声することを特徴とする翻訳モジュールに関する。さらに、本発明は、かかる翻訳モジュールを用いた動物音声翻訳装置、翻訳機能付対話式人形、翻訳装置、英語学習装置、および旅行用通訳装置にも関する。特に、本発明に係る動物音声翻訳装置によれば、使用者は本発明に係る翻訳モジュールに向かって話すことにより、その言葉を対話式に翻訳または通訳することができる。また、犬などの動物と対話してコミュニケーションを図ることができる。以下に、図面を参照しながら、本発明を説明する。
【0027】
本発明に係る翻訳モジュール(翻訳システムモジュール)の第一の態様について説明する。図1は、本発明に係る対話式の翻訳モジュールの構成を示す図である。図1に示すように、本発明に係る翻訳モジュールは、音声受信手段2、音声変換手段3および音声発声手段4を含む。そして、音声変換手段3は、音声認識手段3a、音声翻訳手段3bおよび音声合成手段3cを含む。音声変換手段3のみを翻訳モジュールとしてもよいが、当該翻訳モジュールは、音声受信手段2および音声発声手段4を含む概念であってもよい。
【0028】
例えば、使用者である人による「私の名前は桜です。」との第一の音声が、まず、前記音声受信手段2(例えばマイク、録音機、無線マイクなど)によって受信される。受信された第一の音声は、音声認識変換手段3に送られ、音声認識手段3aで認識されるとともに、音声翻訳手段3bによって「My name is Sakura.」に翻訳され、ついで、音声合成手段3cにより、「マイ ネイム イズ サクラ。」という第二の音声に合成される。そして、この第二の音声が音声発生手段(例えばスピーカなど)から発声される。
【0029】
ここで、音声認識、音声翻訳および音声合成については、それぞれ個別に従来から種々の研究開発がなされており、本発明においては、かかる従来技術に基づく音声認識手段、音声翻訳手段および音声合成手段を組み合わせて用いることもできる。もっとも、単一の装置で第一の言語に基づく第一の音声を第二の言語に基づく第二の音声に変換するという本発明のコンセプトは新規なものである。
【0030】
一例を示すと、「私の名前は桜です。」との第一の音声は、音声受信手段2によって音声信号として受信されて、音声変換手段3に送信される。音声変換手段3においては、音声認識手段3aが前記音声信号を電気信号に変換し、例えばこれをテキスト(語彙)化する。ついで、テキスト化された第一の音声(第一のテキスト)が、音声翻訳手段3bに送信される。
【0031】
そして、図2に示すように、音声翻訳手段3bに記憶手段3b−1よび選択手段3b−2を具備させる。記憶手段3b−1には、メモリーまたは辞書とも言うことができ、前記第一の音声を構成する語彙に対応する第二の言語に基づく語彙(および/または音声)複数個が記憶されている。例えば、英語、ドイツ語、フランス語、スペイン語およびポルトガル語などの複数の言語ごとに、複数の語彙(および/または音声)を記憶させてもよい。
【0032】
例えば、第一の言語による「私の名前は桜です。」という第一のテキストを構成する語彙である「私の」、「名前は」、「桜」および「です」に対応して、例えば英語のグループとして、「My」、「name」、「is」および「Sakura」という語彙ならびに/または「マイ」、「ネイム」、「イズ」および「サクラ」という音声を記憶手段3b−1に記憶させる。また、ドイツ語のグループとしては、「Mine」、「name」、「ist」および「Sakura」という語彙ならびに/または「マイン」、「ナーメ」、「イスト」および「サクラ」という音声を記憶させる。
【0033】
そして、前記複数の語彙および/または音声から、選択手段3b−2が、前記第一の音声を構成する語彙に対応する前記第二の言語に基づく語彙および/または音声を選択する。上述の例で説明すると、「私の」に対応して「My」を選択し、「名前は」に対応して「name」を選択する。そして、「です」に対応して「is」を選択し、「桜」に対応して「Sakura」を選択する。
【0034】
ついで、音声合成手段3cが、選択された語彙から前記第二の音声を合成し、個々の語彙に相当する音声をつなぎ合わせて第二の音声を合成し、合成された第二の音声は音声発声手段4から発声される。選択手段3b−1が個々の語彙に相当する音声を選択する場合は、音声合成手段3cはその個々の音声をつなぎ合わせて第二の音声を合成し、合成した第二の音声を音声発声手段4から発声させればよい。
【0035】
本発明に係る翻訳モジュールにおいては、後述するように、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましいが、従来のように、特定の使用者の癖を音声認識手段に覚えさせるトレーニングを必要とする音声認識手段を用いてもよい。そうすると、本発明に係る翻訳モジュールを当該使用者専用の装置としてその性能をアップさせていくことも可能である。例えば、本発明に係る翻訳モジュールを旅行用翻訳装置として用いる場合、空港などの周囲環境のノイズに対する認識特性を向上させることができる。
【0036】
前記音声認識手段としては種々の技術を採用することができる。本発明に係る翻訳モジュールは、音声認識手段の音声認識率を向上させるため、音声認識トレーニング手段を有するのが好ましい。例えば、本発明に係る翻訳モジュールの使用者が、使用前に、日本語の場合は「あ」から「ん」までの55音の発音や、英語の場合は「a」から「z」のアルファベットの発音などをあらかじめ音声認識手段に入力または記憶させておく。この場合も、使用者に所定の文章やフレーズを読ませてもよい。
【0037】
一般に、音声認識は、未知発話の特徴を既知の語や句の特徴と比較することによって実行される。そして、既知語句の特徴をトレーニングというプロセスによって決定する。トレーニングによって既知語句のサンプル(トレーニング音声)が検査され、その特徴または特性が、音声認識手段のデータベース内の参照パターンとして記録される。未知発話を認識するために、音声認識トレーニング手段は、その発話を特徴づけるためにその発話から特徴を抽出する。未知発話の特徴をテストパターンという。
【0038】
次に、音声認識手段は、データベース内の参照パターンの組合せを、未知発話のテストパターンと比較する。参照パターンの各組合わせがテストパターンと一致する度合いの相対的な測度を与えるために、スコアリング技術を使用すればよい。未知発話は、その未知発話と最も良く一致する参照パターンの組合せに対応する語として認識される。
【0039】
上述したように、本発明においては種々の音声認識手段を用いることができる。例えば、テンプレートベース認識法を用いた音声認識手段は、参照パターンを構築するために既知語サンプルに基づく1次統計量(例えば、サンプルのスペクトル平均)を使用してトレーニングされる。一般的に、スコアリングは、時間登録技術(例えば動的時間ワーピング(DTW))によって実現される。DTWは、参照パターンとテストパターンの間の最適時間整合を与える。
【0040】
この整合は、一方のパターンが他方のパターンに最適に一致するまで、一方のパターンの時間軸を局所的に伸縮することによってなされる。DTWスコアリングは、2つの最適に整合された参照パターンおよびテストパターンの間の全体の距離を反映する。最低スコアを有する参照パターン(すなわち、その参照パターンとテストパターンの間の距離が最短)が、テストパターンと同定される。
【0041】
また、HMM(Hidden Markov Model)認識法を用いた音声認識手段は、既知語サンプルの1次および2次統計量(すなわち、スペクトル平均および分散)を使用してトレーニングされる。HMM認識器の各参照パターンは、これらの統計量を反映するN状態統計モデル(HMM)である。HMMの各状態はある意味で既知語のサンプルの時間的事象に付随する統計量に対応する。HMMは、状態遷移行列A(旧状態から新状態に到達する方法の統計的記述を与える)および観測確率行列B(与えられた状態において観測されやすいスペクトル特徴の記述を与える)によって特徴づけられる。
【0042】
テストパターンのスコアリングは、特定のモデルが与えられた場合のテストパターンの特徴の列の生起の確率を反映する。すべてのモデルにわたるスコアリングは、効率的な動的プログラミング技術(例えばビタビスコアリング)によって与えられる。そして、テストパターン中の特徴の列の最大生起確率を示すHMMが、そのテストパターンと同定される。
【0043】
このように、音声認識手段の性能は一般にそれをトレーニングするために使用される音声認識トレーニング手段の効率と密接に対応する。例えばHMM法を用いた音声認識手段のトレーニングは、特定のHMMが既知語サンプルの統計に一致する頻度を増加させることに関する統計データを当てはめる原理に基づいて行う。HMMトレーニングは、大量のトレーニング音声サンプルの利用可能性およびHMMの適切な選択によって実現される。
【0044】
ここで、音声発生手段4による発声については、前記第二の音声として、前記使用者の好みによって自由に設定できるのが好ましい。したがって、前記音声合成手段3cは、例えば、使用者が本発明に係る対話式翻訳モジュールを使用する前に、上述のように、第二の音声として声を提供してもらいたい人に、日本語の場合は「あ」から「ん」までの55音の音声を入力してもらったり、英語の場合は「a」から「z」までの音声を入力することができるのが好ましい。もちろん、決まったフレーズや文章を読んでもらってもよい。
【0045】
すなわち、本発明に係る翻訳モジュールにおける音声合成手段3cは、使用者の好みに応じて第二の音声の声を自由に設定できるように、前記音声合成手段の補助的な役割を果たす音声合成補助手段として、選択的音声合成手段を有するのが好ましい。この選択的音声合成手段は、第二の音声として採用したい声の持ち主(特定の人)に、所定の音声を入力してもらい、その声に基づいて第二の音声を合成するものである。
【0046】
ただし、この場合、音声合成手段に前記特定の人の声をあらかじめ入力または記憶させておく必要がある。かかる技術は従来公知のものであるが、例えば、前記特定の人の声で、日本語の場合は「あ」から「ん」までの55音の発音や、英語の場合は「a」から「z」のアルファベットの発音などをあらかじめ音声合成手段に入力または記憶させておけばよい。これは、第一の音声および第二の音声としてどの言語を用いるかによって変更すればよい。したがって、前記音声合成手段は、前記特定の人の声を構成する音素、音記号列、発音パターン、および発音データなどを格納する音声合成用データ格納手段を有するのが好ましい。
【0047】
本発明に係る翻訳モジュールによれば、かかる構成により、使用者が好む声によって第二の音声を発声させることができる。前記音声合成手段によって、母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれかの声を機械的に選択して合成できるものであってもよい。このように特定の人の声を採用することによって種々の効果が得られる。例えば、母親の声を採用すると、使用者が小さい子供の場合、子供との仮想的または擬似的なコミュニケーションを取ることができ、母親が喜びを実感できるという効果がある。また、祖父母の声を採用すれば、孫とのコミュニケーションを取ることができ、祖父母が喜びを実感することができる。
【0048】
また、本発明に係る翻訳モジュールは、さらに前記第二の音声を文字として表示するディスプレイを具備するのが好ましい。これによれば、本発明に係る翻訳モジュールを翻訳用装置として有効に用いることができる。前記ディスプレイは、発光ディスプレイ、液晶ディスプレイ、ブラウン管、プラズマディスプレイなど、いずれの表示装置を用いることもできるが、本発明に係る翻訳モジュールの用途や寸法などに合わせて適宜選択すればよい。
【0049】
特に、本発明に係る翻訳モジュールを翻訳用装置として用いる場合、使用者が第一の音声を日本語で発声し、第二の音声を英語で発声させたり、また、使用者が第一の音声を英語で発声し、第二の音声を日本語で発声させたりすることができる。さらに、第二の音声を文字にして前記ディスプレイに表示させてもよい。なお、翻訳用装置においては、第一の音声から第二の音声へとできるだけ多くの単語の翻訳ができることが望ましいため、前記音声変換手段にはできるだけ多くの単語を入力または記憶させておくのが好ましい。これはメモリーの容量などによって当業者であれば適宜調整することができる。
【0050】
以上のように、本発明に係る翻訳モジュールを構成する音声認識手段、音声変換手段、および音声合成手段は、当業者であれば、本願明細書における本発明の技術的意義に鑑み、従来のものを改良して得ることができるが、以下に、より好ましい音声認識手段の一例について説明する。
【0051】
つぎに、本発明に係る翻訳モジュールにおいては、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましい。従来の音声認識手段によれば、使用者(話者)の音調、話し方およびイントネーションなどの癖が多様であるため、使用者の違いによって音声認識の程度が左右されてその精度が低くなってしまうという問題がある。したがって、従来の音声認識手段では、特定の使用者の癖を音声認識手段に覚えさせるトレーニングが必要とされているものが多い。これに対し、音声を音素の列として認識する方法を採用すれば、使用者が違っても、より精度良くその音声を認識することができる。
【0052】
具体的には、前記音声認識手段は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも1つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを具備し、前記音声信号に含まれる音素の種類を識別する音声音素識別手段を含むのが好ましい。
【0053】
ここで、図3に、前記音声音素識別手段を含む音声認識手段(システム)の構成を示す。
図3に示す音声認識システム10は、音声受信手段で受信した第一の音声の音声信号を、前記音声信号を対応する電気信号に変換するオーディオプロセッサ回路14を具備する。そして、前記電気信号をデジタルサンプリングに適した電気的状態にするために、前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換回路34を具備する。アナログ/デジタル変換回路34は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【0054】
デジタル化された音声信号は、ついで、音声識別回路16に送信される。音声識別回路16は、デジタル化された音声信号を、プログラム化して分析し、その音声信号の音声特性を抽出する。そして、必要な音声特性を得た場合に、前記音声信号に含まれる特定の音素を識別することができる。この音素の識別は、個々の使用者(話者)の特徴に依存せずに行うことができ、かつ、使用者が通常の会話速度で話してもリアルタイムで行うことができる。
【0055】
音声識別回路16は2つの方法で必要な音声特性を取得する。まず、前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別して、前記音声信号に含まれる音素の種類を識別する。音声信号に含まれる音素の種類を識別するパラメータとしては、例えば音声が“有声音”か、“無声音”か、または“静寂”かなどを含む。
【0056】
つぎに、音声識別回路16は、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングする。これにより、複雑な波形を有する第一の音声の音声信号から、細分化された多数の信号であって、前記音声信号の成分である個々の信号の波形を表す多数の信号が生成される。そして、音声識別回路16は、細分化された各部分を測定し、少なくとも1つの周波数領域特性、例えば、前記信号の周波数および振幅を含む種々の周波数領域データを抽出する。
【0057】
このようにして得られた周波数領域特性および時間領域特性は、前記音声信号に含まれる音素を識別するために充分な情報を含む。したがって、音声識別回路16は、最後に、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する。
【0058】
以上のようにして認識された第一の音声は、ついで、音声識別回路16に内臓させた音声翻訳手段および音声合成手段によって翻訳し、第二の音声に合成される。この場合、上述のように認識された音素の列を第二の言語に基づく語彙の列に翻訳させればよい。例えば、従来技術による言語処理プログラムを用いることにより、かかる翻訳および音声合成を行うことが可能である。
【0059】
そして、これらの処理は、例えば、音声識別回路16に接続され、データの入力、記憶および/または制御をすることのできるホストコンピュータまたはCPUなどの制御デバイス22によって制御すればよい。かかる制御デバイス22としては、従来のものを用いることができ、音声識別回路16に内蔵されているのが好ましい。もっとも、音声識別回路16の構成によっては省略することもできる。
【0060】
ここで、図4に、さらに詳細な前記音声音素識別手段(システム)の構成を示す。図4に示す音声認識システム10では、図3の場合と同様に、音声受信手段12によって受信された第一の音声が、オーディオプロセッサ回路14で調整される。オーディオプロセッサ回路14においては、第一の音声の音声信号を電気信号に変え、つづくアナログ/デジタル変換器34に送信する。
【0061】
オーディオプロセッサ回路14では、まず増幅回路26などの信号増幅手段によって、電気信号が好適なレベルに増幅され、制限増幅回路28によって、その出力レベルが制限される。そして、フィルタ回路30によって、高周波数が除去される。これら、増幅回路26、制限増幅回路28およびフィルタ回路30としては、種々のものを用いることができる。ついで、アナログ/デジタル変換回路34は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【0062】
つぎに、図4に示す音声認識システム10は、デジタル音声プロセッサ回路18およびホスト音声プロセッサ回路20を含む。これらは図3に示す音声識別回路16に含まれるものであり、プログラム化できるデバイスを用いる同等の回路で構成することができる。
【0063】
まず、デジタル音声プロセッサ回路18は、デジタル化された音声信号を受信し、プログラムに基づいて操作し、種々の音声特性を抽出する。具体的には、まず時間領域においてデジタル化された音声信号を分析し、その分析結果に基づいて少なくとも1種の時間領域音声特性を抽出する。この特性は、音声信号が“有声的な”、“無声的な”または“静寂な”音素を含むか否かを決定するために有利に役立つ。
【0064】
また、デジタル音声プロセッサ回路18は、デジタル化された音声信号をさらに操作し、音声信号に関する種々の周波数領域情報を取得する。これは、音声信号を、無数のフィルタ帯でフィルタリングし、対応する無数のフィルタされた信号を生成することにより行うことができる。デジタル音声プロセッサ回路18は、個々の波形によって発現される種々の特性を測定し、少なくとも1種の周波数領域音声特性を抽出する。この周波数領域音声特性は、フィルタリング工程によって得られた信号成分の周波数、振幅および勾配などを含む。これらの特性は、蓄積ないし記憶され、音声信号に含まれる音素の種類を決定するために用いられる。
【0065】
図4に示すように、デジタル音声プロセッサ回路18は、デジタル音声プロセッサ36などの、プログラム制御のもとでデジタル化された音声信号を分析するプログラム化可能な手段を含む。このデジタル音声プロセッサ回路36としては、モトローラDSP56001などのプログラム可能な24ビット汎用デジタル信号プロセッサを好適に用いることができる。もちろん、他の上市されたデジタル信号プロセッサを用いることもできる。
【0066】
また、デジタル音声プロセッサ36は、バスタイプの標準アドレス、データおよび制御配列38を介して、種々の構成要素と接続される。これら構成要素は、例えば、DSPプログラムメモリー40などの、DSP36によって実行される一連のプログラムを記憶するプログラムメモリー手段、DSPデータメモリー42などの、DSP36によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック44を含む。
【0067】
つぎに、ホスト音声プロセッサ回路20について説明する。ホスト音声プロセッサ回路20は、適切なホストインターフェイス52を介してデジタル音声プロセッサ回路18に接続される。概して、ホスト音声プロセッサ回路20が、ホストインターフェイス52を介して、デジタル音声プロセッサ回路18で生成された種々の音声信号特性情報を受信する。
【0068】
このホスト音声プロセッサ回路20は、この情報を分析し、前記信号特性を代表的な使用者(話者)をテストすることによって集めた音声標準音声データと比較することによって、前記音声信号に含まれる音素の種類を識別する。音素を識別した後、ホスト音声プロセッサ回路20は、種々の言語処理技術を使用し、音素を第一の言語や第二の言語に基づく語彙やフレーズに翻訳する。
【0069】
前記ホスト音声プロセッサ回路20は、好ましくは、ホスト音声プロセッサ54などの、プログラム制御のもとでデジタル化された音声信号の特性を分析する第二のプログラム化可能な手段を有する。ホスト音声プロセッサ54は、例えばモトローラ68EC030などのプログラム化可能な32ビット汎用性CPU素子であればよい。
【0070】
また、ホスト音声プロセッサ54は、標準アドレス、データおよび制御バスタイプ配列56を介して、種々の構成要素と接続される。これら構成要素は、例えば、ホストプログラムメモリー58などの、ホスト音声プロセッサ54によって実行される一連のプログラムを記憶するプログラムメモリー手段、ホストデータメモリー60などの、ホスト音声プロセッサ54によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック64を含む。
【0071】
制御デバイス22については、図3において説明したものと同様である。制御デバイス22は、RS−232インターフェイス回路などのインターフェイス手段66およびケーブル24を介して、ホスト音声プロセッサ回路20に接続すればよい。もちろん、デジタル音声プロセッサ回路18およびホスト音声プロセッサ回路20の構成によれば、制御デバイス22を省略することも可能である。 なお、ホスト音声プロセッサ回路20には、さらに辞書機能を有するメモリー62やディスプレイ68を接続することも可能である。
【0072】
以上のように、音声認識手段(a)が音素で第一の音声を認識する場合、前記音声翻訳手段(b)が、認識された前記音素列を第二の言語に基づく語彙列に翻訳し、前記音声合成手段(c)が、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが有効である。もっとも、図4および5に示したような音声認識システムを用いれば、音声認識手段(a)に音声翻訳手段(b)および音声合成手段(c)の機能を持たせることが可能である。
【0073】
ここで、音声合成手段(c)としては従来のものを用いることができるが、従来の音声合成手段によれば、電気的および機械的に音声を合成するため、語彙と語彙との間の間隔やイントネーションなどが完全ではなく、発声される第二の音声が人間の発する声に対して違和感が生じる場合がある。そこで、本発明においては、音声合成手段に以下のものを用いるのが好ましい。
【0074】
すなわち、前記音声合成手段(c)は、前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換する音声変換サブシステム、変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【0075】
さらに、本発明に係る対話式翻訳モジュールには、前記音声受信手段が前記使用者による第一の言語に基づくキーワードを受信し、前記音声認識手段(a)が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、その後、前記使用者による前記第一の音声を前記第二の音声に変換し、当該第二の音声を発声して前記使用者と対話させる機能を持たせることが好ましい。
このような機能は、当業者であれば適宜プログラムを作成して、上記音声認識手段、音声翻訳手段および音声合成手段に組み込ませることが可能である。
【0076】
また、音声認識手段(a)に、前記第一の音声の少なくとも一部の特定部分を認識させ、音声翻訳手段(b)に、前記特定部分を第二の言語に基づく音声に翻訳させ、音声合成手段(c)に、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成させることも有効である。
【0077】
この構成をとれば、前記音声変換手段は、いわゆるパターン翻訳法に基づいて、第一の言語による第一の音声を構成する第一のテキストを、第二の言語による第二のテキストに変換することができる。パターン翻訳法は、長文を翻訳するためには不充分なものであるが、短文を処理するためには有効である。したがって、初歩的な外国語教育にとって重要な時期である幼少期の子供にとっては、有効である。また、例えば旅行などで所定のフレーズの通訳を希望するお年寄りにとっても有効である。
【0078】
また、特に、本発明に係る翻訳モジュールを具備する動物音声翻訳装置を実現するためには、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。例えば猫や犬の鳴き声は、音素などに分解することが比較的困難である。そこで、種々の鳴き声をその際の行動パターンとともに収集してデータベースを作製し
そして、前記音声認識手段によってづく音声回答パターンを記憶させておき、前記音声翻訳手段によって、記憶させた音声回答パターンに基づいて前記鳴き声を例えば日本語に変換し、前記第二の音声を合成することが好ましい。もっとも、音声認識手段によって認識した前記鳴き声は、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
【0079】
ここで、本発明に係る翻訳モジュールは、上述のように、主として音声認識手段(a)、音声翻訳手段(b)および音声合成手段(c)の3つの構成要素からなると記載したが、これらのうちの2種または3種が一体化されていて、単一の手段で複数の手段の機能を果たす構成を採っても構わない。
【0080】
上記パターン翻訳法を用いる場合、音声翻訳手段(b)が、(b−1)前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および(b−2)前記音声認識手段(a)が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、音声合成手段が(c)が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成させてもよい。
ここで、以下に、本発明に係る翻訳モジュールの代表的な応用例の実施の形態について説明する。
【0081】
実施の形態1(翻訳機能付対話式人形)
図5は、本発明に係る翻訳モジュールを内蔵する翻訳機能付対話式人形の概略図である。図5に示すように、本発明に係る翻訳機能付対話式人形1は、使用者の発声する第一の言語に基づく音声、例えば日本語による「私の名前は桜です。」という音声を耳部1aに設けられた音声受信手段により受信し、人形の一部分に内蔵され、本発明を実現する音声変換手段1bを含む対話式翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「マイ ネーム イズ サクラ。」またはドイツ語による「マイン ナーメ イスト サクラ。」に変換し、この第二の音声を口部分1cに設けられた音声発声手段より発声する。
【0082】
また、図5には示していないが、第一の音声として、例えば「歌。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「ハ〜ッピ バ〜スデ〜ィ トゥ〜 ユ〜。」という歌を第二の音声として発声させてもよい。
もっとも、前記第一の音声および前記第二の音声が単語であることが好ましい。なぜなら、幼少期の子供は文章を話すのではなく単語を羅列して発するだけであり、これに対して本発明に係る翻訳機能付対話式人形がword to wordで翻訳をすることができれば、初歩的な外国語教育、すなわち外国語教育への導入にとって資するところが大きいからである。
【0083】
実施の形態2(旅行用通訳装置)
次に、図6は、本発明に係る翻訳モジュールを内蔵する旅行用通訳装置の概略図である。図6に示すように、本発明に係る旅行用通訳装置70は、使用者の発声する第一の言語に基づく音声、例えば日本語による「○○行きのバスはどこから出ていますか?」という音声を音声受信手段であるマイク71aにより受信し、旅行用通訳装置70に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「ホエア キャン アイ テイク ア バス フォー ○○?」に変換し、この第二の音声を音声発声手段であるスピーカ71bより発声する。
【0084】
また、第一の音声として、例えば「タクシー。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「プリーズ コール ミー ア タクシー。」という所定のフレーズを第二の音声として発声させてもよい。
もちろん、ディスプレイ72にこれらの音声を文字として表示させてもいいし、装置の操作そのものをディスプレイ72における表示によって誘導させてもよい。かかる表示については従来の技術を用いればよい。
【0085】
ここで、上述の音声変換手段には、例えばその記憶手段に、旅行の種々の場面において必要とされる会話を、グループ分けして記憶させ、そのグループを選択することによって、その場面に場面に応じた通訳機能を発揮させることも可能である。以下にこのグループ分けの例を示す。
例えば、挨拶、空港、機内、入国、ホテル、レストラン、乗り物、観光、買い物、両替、娯楽、電話、郵便、病気および緊急などのように、母国語と異なる言語で話す必要があると想定される種々の場面ごとにグループ分けすればよい。
【0086】
そして、各グループにおいては、例えば、以下のように必要と想定されるフレーズを記憶させる。
A.挨拶
おはよう。こんにちは。おやすみなさい。お元気ですか。良い天気ですね。はじめまして。お会いできて嬉しいです。あなたはどこから来ましたか。私は日本から来ました。またお会いしましょう。さようなら。
【0087】
B.空港
JALのカウンターはどこですか。JAL便に予約をお願いします。その便に空席はありますか。片道をお願いします。往復をお願いします。禁煙席で通路側をお願いします。予約の確認をお願いします。
【0088】
C.機内
私の席はどこですか。日本語のわかるスチュワーデスはいますか。毛布を貸して下さい。シートを倒してもいいですか。日本語の新聞はありますか。映画を見たいのでイヤホンを貸して下さい。免税品の販売はありますか。
【0089】
D.入国
日本から来ました。観光で来ました。タバコを3カートン持っています。これは友人へのプレゼントです。これは私が使うものです。
【0090】
E.税関
ツインでバス付きの部屋をお願いします。2泊お願いします。部屋の料金はいくらですか。もっと安い部屋はありませんか。チェックアウトは何時ですか。ここで貴重品を預かってもらえますか。この手紙を投函しておいて下さい。クリーニングをお願いします。お湯が出ません。トイレの水が出ません。部屋を替えて下さい。タクシーを呼んで下さい。
【0091】
F.ホテル
コーヒーだけでも注文できますか。ワインリストを下さい。ビールを1本下さい。今日のお勧め料理にします。これはどんな料理ですか。これは注文したのと違います。まだ料理が来ていません。計算が間違っていませんか。
その他のグループについても、用いられるフレーズを適宜選択、収集し、記憶手段などに記憶させればよい。
【0092】
実施の形態3(翻訳装置および英語学習装置)
また、本発明に係る翻訳モジュールは、翻訳装置および英語学習装置にも有効に応用することができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、この音声が音声受信手段であるマイクにより受信される。そして、翻訳装置および英語学習装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声が第二の言語に基づく音声、例えば英語による「アップル」に変換され、この第二の音声が音声発声手段であるスピーカより発声される。
【0093】
また、逆に受験生または翻訳者に第一の音声として「アップル」と発声させ、第二の音声として「りんご」と発声させることもできる。
この場合の装置の詳細な構成およびメカニズムについては上述と同様とすればよい。このように、本発明に係る翻訳モジュールは、翻訳者の翻訳作業、および受験生の英語学習にとっても有効である。
【0094】
実施の形態4(動物音声翻訳装置)
次に、本発明に係る翻訳モジュールは動物音声翻訳装置にも応用することができる。図7は、本発明に係る動物音声翻訳装置を示す図である。この動物音声翻訳装置は、図7の(a)の人用本体と図7の(b)の動物用本体とで構成される。人用本体(a)は、使用者が手に持つなどして使用する。そして、動物用本体(b)は、例えば犬などの首輪に取りつけることによって、犬などの声を受信し、その声を人用本体(a)に送信する。また、その逆も可能である。したがって、人用本体(a)および動物用本体(b)は、それぞれ受信手段および送信手段を有する。
【0095】
この場合の装置の構成およびメカニズムも上述と同様にすればよいが、例えば、犬が、第一の言語である犬語に基づいて第一の音声「ワンワン」を発すると、この音声は動物用本体(b)のマイク86によって受信され、人用本体(a)に送信される。そして、人用本体(a)においては、動物音声翻訳装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この第一の音声を第二の言語である、例えば日本語に基づく第二の音声「お腹が空いたよう。」に変換して、スピーカ82から発声するとともに、ディスプレイ81に文字で表示する。
【0096】
また、人用本体(a)を用いて、例えば人が第一の言語である日本語に基づいて「散歩に行こうか?」という第一の音声を発声すると、この第一の音声が本体(a)のマイク80に受信されるとともに、第二の言語である犬語に基づく第二の音声「ワンワン」に変換され、この第二の音声は動物用本体(b)に送信され、マイク86に併設されたスピーカ(図示せず)によって発声される。
このように、本発明に係る動物音声翻訳装置によれば、飼い主とペットのコミュニケーションが可能になる。すなわち、本発明に係る翻訳モジュールは双方向型であるとも言える。
【0097】
なお、人用本体(a)は、筐体85、送信機(b)からの情報を受信するためのアンテナ83、操作手段であるボタン84を具備し、動物用本体(b)も操作手段であるボタン87を有する。
ここで、本発明に係る動物音声翻訳装置においては、前述の種々の仕様の翻訳モジュールを用いることができるが、なかでも、上述したように、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。犬の種々の鳴き声と、その際の行動パターンと、その行動パターンから想定される第二の言語に基づく文言または文章との組合せを、データベースとして作成しておく。かかるデータベースを前記記憶手段に記憶させておけば、前記音声認識手段によって認識した犬の鳴き声を、前記翻訳手段によって前記データベースに基づいて第二の言語に基づく文言または文章に変換し、この変換に基づいて前記音声合成手段に第二の音声を合成させることができる。
【0098】
そして、前記記憶手段には、前記音声認識手段によって認識され得る犬の鳴き声に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンそのものを記憶させておいてもよい。この場合、前記音声認識手段によって認識した犬の鳴き声を、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
以下に、本発明に係る翻訳モジュールの一実施例について説明するが、本発明はこれらのみに限定されるものではない。
【0099】
【実施例】
実施例1
本実施例においては、図8に示す構成を有する翻訳モジュールを作製した。
制御手段であるホストマイクロコントローラ90およびCPU91、マイクを含む音声入力回路92、スピーカを含む音声出力回路93、発信器94、記憶手段ないし格納手段であるROM95およびDRAM96を接続し、本発明に係る翻訳モジュールを構成した。
【0100】
ここで、図9および10に、音声入力回路92をさらに詳細に説明するための図を示した。図9には11kHzの音声を認識するためのもの回路を示し、図10には8kHzの音声を認識するための回路を示した。図9に示す回路を、増幅回路101、フィルタ回路102、増幅回路103、およびフィルタ回路104を接続して組み立てた。また、図10に示す回路も、同様に、増幅回路106、フィルタ回路107、増幅回路108、およびフィルタ回路109を接続して組み立てた。また、図8の音声出力回路93は、図11に示すような構成で組み立てた。
【0101】
かかる構成を有する本発明に係る翻訳モジュールによれば、第一の言語に基づく第一の音声を電気信号に変え、ROM95およびDRAM96に記憶ないし格納されたデータベースに基づき、前記電気信号に対応させて第一の言語を第二の言語に変換(翻訳)させ、第二の言語に基づく第二の音声を合成させることができた。
【0102】
【発明の効果】
本発明によれば、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、使用者の遊び心を満足させるだけでなく、外国語会話の学習、翻訳作業、および異なる言語間における簡単なコミュニケーションなどに供することのできる翻訳モジュールを提供することができる。
【0103】
特に、本発明に係る翻訳モジュールは、上記翻訳機能付対話式人形および旅行用通訳装置の他、翻訳装置および英語学習装置としても有効に用いることができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、英語で「アップル」という第二の音声が発声する。また、逆に受験生または翻訳者が第一の音声として「アップル」と発声すると、第二の音声として「りんご」と発声する。このように、本発明に係る翻訳モジュールは、特に受験生の英語学習にとって有効である。
【0104】
さらに、本発明に係る翻訳モジュールを用いれば、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することができる。したがって、本願発明は、昨今のペットブームにおいて、飼い主が自分のペットとのコミュニケーションを深めることができるという意味においても、有効である。
【図面の簡単な説明】
【図1】本発明に係る翻訳モジュールの構成を示す図である。
【図2】本発明に係る翻訳モジュールの構成をさらに詳細に示す図である。
【図3】本発明において用いられる音声音素識別手段を含む音声認識手段(システム)の構成を示す図である。
【図4】本発明において用いられる音声音素識別手段を含む音声認識手段(システム)の構成をさらに詳細に示す図である。
【図5】本発明に係る翻訳モジュールを用いた翻訳機能付対話式人形の概略図である。
【図6】本発明に係る翻訳モジュールを用いた旅行用翻訳装置の概略図である。
【図7】本発明に係る翻訳モジュールを用いた動物音声翻訳装置の概略図である。
【図8】本発明に係る動物音声翻訳装置に用いる翻訳モジュールの回路図である。
【図9】図8における音声入力回路92の一部をより詳細に示した図である。
【図10】図8における音声入力回路92の他の一部をより詳細に示した図である。
【図11】図8における音声出力回路93をより詳細に示した図である。
【符号の説明】
2 音声受信手段
3 音声変換手段
3a 音声認識手段
3b 音声翻訳手段
3c 音声合成手段
4 音声発声手段
【発明の属する技術分野】
本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声させ、例えば、初歩的な外国語会話の学習、旅行における通訳、および犬などの声(鳴き声および吠える声なども含む)を人の言語による音声に翻訳するための装置などに供することのできる翻訳モジュールに関する。
【0002】
【従来の技術】
従来から、音声認識、音声翻訳および音声合成に関する研究開発が盛んに行われている。これは、国際化社会のなかにあって、異なる言語間におけるコミュニケーションをより容易かつ簡便な方法で可能とすることが望まれているからである。また、おもちゃ人形などの分野においても、一般的に、子供はおもちゃにより生活教育を学習し、おもちゃとの親密な触れ合いは、実社会へ導く模倣学習を実行することから、子供の発声に対応して発声する人形などが実際に提供されている。
【0003】
このようなおもちゃ人形のほとんどにおいては、タッチセンサが所定の位置に設けられており、子供がこのタッチセンサを動作させると、磁気記録媒体(磁気テープ)や半導体記録媒体(ICメモリ)に記録させた簡単な文章、例えば「こんにちは。」、「私は○○○です。」、「あなたは誰ですか。」、および「あなたは何が好きですか。」などの音声が発声される。例えば、特許文献1には、子供に興味を持たすことができ、さらには会話に対する興味を持たすことのできる発声人形が開示されている。
【0004】
【特許文献1】
登録実用新案第2562439号公報
【0005】
具体的には、上記特許文献1には、前記目的を達成するため、人形の胴体部に頭部を取り外し可能に取着するとともに、外部からの操作を検出する検出手段、複数の語彙を記憶する記憶手段、複数の語彙から任意の語彙を選択する選択手段、選択された語彙から音声を合成する音声合成手段及び合成された音声を発声させる発声手段を収容した筐体を上記胴体部内に配置するとともに詰め物で安定させ、筐体の上部に突出して形成した電池収容部を胴体部から上方に突出させるとともに、該電池収容部に上記頭部を嵌合させた発声人形が開示されている。
【0006】
上記特許文献1記載のおもちゃ人形は、単発的で、簡単な文章を話す人形であり、タッチセンサの動作によって、シナリオのない単純な文章が録音された音声を聞かせるため、子供の好奇心を一時的に誘発することはできる。しかし、直ぐに子供は飽きてしまい、実際にこのようなおもちゃ人形と遊ぶ期間が短くなるため、教育的な効果が低いという問題がある。また、従来のおもちゃ人形が話す音声文章は、対話型のシナリオでなく不連続的な文章の羅列であり、現実味に乏しい。
【0007】
これに対し、例えば特許文献2においては、かかる問題を解決するため、話題に応じた音声出力を可能にし、子供が行う可能性のある行動パターンをシナリオに作成して記録させ、任意に設定された状況に応じて人形と双方向の対話を可能とするおもちゃ人形が開示されている。例えば、子供と対話する状況で、多様なシナリオに導くため、音声圧縮用ソフトウェアで音声を圧縮した後、メモリ部に記録させ、必要時に速やかに取り出し、一つの話題においても、選択可能な状況に応じて直ちに質疑応答が可能であるとされている。具体的に、上記特許文献2には、人と動物の形態が混合した形状に形成された人形本体に、多数の文章のデジタル音声信号ストリームが所定の圧縮率で圧縮された音声圧縮データを記録している第1メモリ部と、外部から入力された使用者の音声信号を認識するための演算エリアが備えられている第2メモリ部とを備えた音声認識対話型人形おもちゃが開示されている。
【0008】
【特許文献2】
特許第3164346号明細書
【0009】
確かに、上記特許文献2記載の人形おもちゃは、使用者の会話に応じて音声を発声するものである。しかし、使用者の発声する音声の言語、ならびに発声人形および人形おもちゃの発声する音声の言語の種類については一切触れられていない。これは、上記特許文献1も同じである。そして、上記特許文献2に係る発明の課題および効果からすると、日本人の幼児が日本語で発声し、それを認識した人形おもちゃが日本語で音声を発声する場合を想定しているものと考えられる。すなわち、上記特許文献1および2記載の技術によっては、異なる言語間におけるコミュニケーションなどは不可能であり、また、これを達成できるものではない。
【0010】
さらに、現在、音声を認識してパーソナルコンピュータの画面上において文字に表すソフトウェアおよび装置、例えばパターン翻訳または機械翻訳によって所定の言語による文書を他の言語による文書に翻訳するソフトウェアおよび装置、ならびに、文書から音声を合成するソフトウェアおよび装置などが研究・開発されている。しかし、どれも性能に劣り、また、単一の装置で、使用者の第一の言語に基づく音声をリアルタイムで正確に第二の言語に基づく音声にすることのできる技術はなかった。
【0011】
一方、昨今のペットブームにおいては、例えば飼い主と犬との親近感や信頼性が増すにしたがって、飼い主が犬の鳴き声を聞いてその意味するところを理解できるようになったということが聞かれることもある。確かに、犬の行動パターン、意思表示および嗜好などに基づき、飼い主は犬の鳴き声の意味を理解できるようになるとも考えられる。しかし、それはあくまでも予想の範囲を超えず、微妙に意味が異なる可能性もある。そして、長年連れ添った飼い主と犬との間であるならまだしも、一緒に過ごした時間がまだ短い飼い主と犬との間においては、そのような親近感や信頼性は育まれておらず、飼い主が犬の鳴き声の意味を理解するのはさらに困難になると思われる。
【0012】
【発明が解決しようとする課題】
そこで、本発明は、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、人の遊び心を満足させるだけでなく、外国語会話の学習、異なる言語間におけるコミュニケーション、および翻訳用装置などに供することのできる翻訳モジュールを提供することを目的とする。さらに、本発明の目的は、かかる翻訳モジュールを用い、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することにある。
【0013】
【課題を解決するための手段】
上記課題を解決すべく、本発明は、人や犬などの動物による第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声(または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声)を発声することを特徴とする翻訳モジュールを提供する。
【0014】
前記翻訳モジュールは、
前記第一の音声を受信する音声受信手段、
前記第一の音声を前記第二の音声に変換する音声変換手段、および
前記第二の音声を発生する音声発声手段を具備するのが好ましい。
また、前記第一の音声および前記第二の音声が単語であるのが好ましい。
また、前記第一の音声が犬などの動物の鳴き声などであることも好ましい。
【0015】
本発明に係る翻訳モジュールは、前記音声認識手段が、音声認識トレーニング手段を具備するのが好ましい。
また、本発明に係る翻訳モジュールにおいては、前記音声合成手段が、所望する声に基づいて前記第二の音声を合成する選択的音声合成手段を具備するのが好ましい。これにより、前記第二の音声として、本発明に係る翻訳モジュールの使用者の母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれの声でも採用することができる。
また、前記翻訳モジュールは、さらに前記第二の音声を表示するディスプレイを具備するのが好ましい。
【0016】
また、前記音声変換手段は、
(a)前記第一の音声を認識する音声認識手段、
(b)認識された前記第一の音声を前記第二の言語に翻訳する音声翻訳手段、および
(c)前記翻訳の結果に基づいて前記第二の音声を合成する音声合成手段を具備するのが好ましい。
【0017】
前記音声認識手段(a)は、前記第一の音声を音素列として認識するのが好ましい。
具体的には、前記音声認識手段(a)は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも1つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを含む音声音素識別手段を具備するのが好ましい。
【0018】
また、前記音声翻訳手段(b)は、認識された前記音素列を第二の言語に基づく語彙列に翻訳するのが好ましい。
また、前記音声翻訳手段(b)が、パターン翻訳法に基づいて音声を翻訳する手段であるのも好ましい。
また、前記音声合成手段(c)は、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが好ましい。
【0019】
具体的には、前記音声合成手段(c)は、 前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換
する音声変換サブシステム、
変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、
所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および
前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【0020】
さらに、前記翻訳モジュールにおいては、
前記音声受信手段が前記第一の言語に基づくキーワードを受信し、前記音声認識手段(a)が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、
その後、前記質問に応じた前記第一の音声を受信して前記第二の音声に変換し、当該第二の音声を発声するのが好ましい。
【0021】
このような翻訳モジュールにおいては、
前記音声認識手段(a)が、前記第一の音声の特定部分を認識し、
前記音声翻訳手段(b)が、前記特定部分を第二の言語に基づく音声に翻訳し、
前記音声合成手段(c)が、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成することもできる。
【0022】
この場合、前記音声翻訳手段(b)が、
(b−1)前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および
(b−2)前記音声認識手段(a)が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、
前記音声合成手段が(c)が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成するのが好ましい。
【0023】
また、前記翻訳モジュールは、さらに、前記第一の言語および前記第二の言語を特定する言語特定手段(d)を具備するのが好ましい。かかる手段を具備することにより、本発明に係る翻訳モジュールは、種々の異言語間の翻訳を可能とすることができる。例えば、第一の言語として日本語を特定して、第二の言語として英語を特定すること、または第一の言語として犬の声を特定し、第二の言語として日本語を特定することができる。
【0024】
さらに、前記翻訳モジュールは、外部からの操作を検出して、前記音声認識手段(a)、前記音声変換手段(b)、前記音声発声手段(c)および前記言語特定手段(d)よりなる群から選択される少なくとも1種の手段を制御する制御手段(e)を具備するのが好ましい。この制御手段(e)は、例えば他の手段を制御するための各種ボタンなどの操作手段を含んでいてもよいが、前記ディスプレイに組み込まれたタッチパネル式の操作手段であってもよい。もちろん、両者が組み合わされていてもよい。そして、各種のCPUなどを用いることができる。
【0025】
前記翻訳モジュールにおいては、前記制御手段(e)が、前記音声発声手段(c)に前記第二の音声を複数回発声させる機能を有するのが好ましい。
また、前記制御手段(e)には、前記言語特定手段(d)に前記第二の言語として複数の言語を特定し、前記音声発声手段(c)に前記第二の音声を複数の言語に基づいて連続して発声させる機能を持たせることもできる。
以上のような本発明に係る翻訳モジュールは、音声翻訳装置、翻訳機能付対話式人形、英語学習装置、および旅行用通訳装置などに利用することができる。
【0026】
【発明の実施の形態】
本発明は、第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声、または前記第一の音声に対応してあらかじめ記憶した第二の言語に基づく第二の音声を発声することを特徴とする翻訳モジュールに関する。さらに、本発明は、かかる翻訳モジュールを用いた動物音声翻訳装置、翻訳機能付対話式人形、翻訳装置、英語学習装置、および旅行用通訳装置にも関する。特に、本発明に係る動物音声翻訳装置によれば、使用者は本発明に係る翻訳モジュールに向かって話すことにより、その言葉を対話式に翻訳または通訳することができる。また、犬などの動物と対話してコミュニケーションを図ることができる。以下に、図面を参照しながら、本発明を説明する。
【0027】
本発明に係る翻訳モジュール(翻訳システムモジュール)の第一の態様について説明する。図1は、本発明に係る対話式の翻訳モジュールの構成を示す図である。図1に示すように、本発明に係る翻訳モジュールは、音声受信手段2、音声変換手段3および音声発声手段4を含む。そして、音声変換手段3は、音声認識手段3a、音声翻訳手段3bおよび音声合成手段3cを含む。音声変換手段3のみを翻訳モジュールとしてもよいが、当該翻訳モジュールは、音声受信手段2および音声発声手段4を含む概念であってもよい。
【0028】
例えば、使用者である人による「私の名前は桜です。」との第一の音声が、まず、前記音声受信手段2(例えばマイク、録音機、無線マイクなど)によって受信される。受信された第一の音声は、音声認識変換手段3に送られ、音声認識手段3aで認識されるとともに、音声翻訳手段3bによって「My name is Sakura.」に翻訳され、ついで、音声合成手段3cにより、「マイ ネイム イズ サクラ。」という第二の音声に合成される。そして、この第二の音声が音声発生手段(例えばスピーカなど)から発声される。
【0029】
ここで、音声認識、音声翻訳および音声合成については、それぞれ個別に従来から種々の研究開発がなされており、本発明においては、かかる従来技術に基づく音声認識手段、音声翻訳手段および音声合成手段を組み合わせて用いることもできる。もっとも、単一の装置で第一の言語に基づく第一の音声を第二の言語に基づく第二の音声に変換するという本発明のコンセプトは新規なものである。
【0030】
一例を示すと、「私の名前は桜です。」との第一の音声は、音声受信手段2によって音声信号として受信されて、音声変換手段3に送信される。音声変換手段3においては、音声認識手段3aが前記音声信号を電気信号に変換し、例えばこれをテキスト(語彙)化する。ついで、テキスト化された第一の音声(第一のテキスト)が、音声翻訳手段3bに送信される。
【0031】
そして、図2に示すように、音声翻訳手段3bに記憶手段3b−1よび選択手段3b−2を具備させる。記憶手段3b−1には、メモリーまたは辞書とも言うことができ、前記第一の音声を構成する語彙に対応する第二の言語に基づく語彙(および/または音声)複数個が記憶されている。例えば、英語、ドイツ語、フランス語、スペイン語およびポルトガル語などの複数の言語ごとに、複数の語彙(および/または音声)を記憶させてもよい。
【0032】
例えば、第一の言語による「私の名前は桜です。」という第一のテキストを構成する語彙である「私の」、「名前は」、「桜」および「です」に対応して、例えば英語のグループとして、「My」、「name」、「is」および「Sakura」という語彙ならびに/または「マイ」、「ネイム」、「イズ」および「サクラ」という音声を記憶手段3b−1に記憶させる。また、ドイツ語のグループとしては、「Mine」、「name」、「ist」および「Sakura」という語彙ならびに/または「マイン」、「ナーメ」、「イスト」および「サクラ」という音声を記憶させる。
【0033】
そして、前記複数の語彙および/または音声から、選択手段3b−2が、前記第一の音声を構成する語彙に対応する前記第二の言語に基づく語彙および/または音声を選択する。上述の例で説明すると、「私の」に対応して「My」を選択し、「名前は」に対応して「name」を選択する。そして、「です」に対応して「is」を選択し、「桜」に対応して「Sakura」を選択する。
【0034】
ついで、音声合成手段3cが、選択された語彙から前記第二の音声を合成し、個々の語彙に相当する音声をつなぎ合わせて第二の音声を合成し、合成された第二の音声は音声発声手段4から発声される。選択手段3b−1が個々の語彙に相当する音声を選択する場合は、音声合成手段3cはその個々の音声をつなぎ合わせて第二の音声を合成し、合成した第二の音声を音声発声手段4から発声させればよい。
【0035】
本発明に係る翻訳モジュールにおいては、後述するように、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましいが、従来のように、特定の使用者の癖を音声認識手段に覚えさせるトレーニングを必要とする音声認識手段を用いてもよい。そうすると、本発明に係る翻訳モジュールを当該使用者専用の装置としてその性能をアップさせていくことも可能である。例えば、本発明に係る翻訳モジュールを旅行用翻訳装置として用いる場合、空港などの周囲環境のノイズに対する認識特性を向上させることができる。
【0036】
前記音声認識手段としては種々の技術を採用することができる。本発明に係る翻訳モジュールは、音声認識手段の音声認識率を向上させるため、音声認識トレーニング手段を有するのが好ましい。例えば、本発明に係る翻訳モジュールの使用者が、使用前に、日本語の場合は「あ」から「ん」までの55音の発音や、英語の場合は「a」から「z」のアルファベットの発音などをあらかじめ音声認識手段に入力または記憶させておく。この場合も、使用者に所定の文章やフレーズを読ませてもよい。
【0037】
一般に、音声認識は、未知発話の特徴を既知の語や句の特徴と比較することによって実行される。そして、既知語句の特徴をトレーニングというプロセスによって決定する。トレーニングによって既知語句のサンプル(トレーニング音声)が検査され、その特徴または特性が、音声認識手段のデータベース内の参照パターンとして記録される。未知発話を認識するために、音声認識トレーニング手段は、その発話を特徴づけるためにその発話から特徴を抽出する。未知発話の特徴をテストパターンという。
【0038】
次に、音声認識手段は、データベース内の参照パターンの組合せを、未知発話のテストパターンと比較する。参照パターンの各組合わせがテストパターンと一致する度合いの相対的な測度を与えるために、スコアリング技術を使用すればよい。未知発話は、その未知発話と最も良く一致する参照パターンの組合せに対応する語として認識される。
【0039】
上述したように、本発明においては種々の音声認識手段を用いることができる。例えば、テンプレートベース認識法を用いた音声認識手段は、参照パターンを構築するために既知語サンプルに基づく1次統計量(例えば、サンプルのスペクトル平均)を使用してトレーニングされる。一般的に、スコアリングは、時間登録技術(例えば動的時間ワーピング(DTW))によって実現される。DTWは、参照パターンとテストパターンの間の最適時間整合を与える。
【0040】
この整合は、一方のパターンが他方のパターンに最適に一致するまで、一方のパターンの時間軸を局所的に伸縮することによってなされる。DTWスコアリングは、2つの最適に整合された参照パターンおよびテストパターンの間の全体の距離を反映する。最低スコアを有する参照パターン(すなわち、その参照パターンとテストパターンの間の距離が最短)が、テストパターンと同定される。
【0041】
また、HMM(Hidden Markov Model)認識法を用いた音声認識手段は、既知語サンプルの1次および2次統計量(すなわち、スペクトル平均および分散)を使用してトレーニングされる。HMM認識器の各参照パターンは、これらの統計量を反映するN状態統計モデル(HMM)である。HMMの各状態はある意味で既知語のサンプルの時間的事象に付随する統計量に対応する。HMMは、状態遷移行列A(旧状態から新状態に到達する方法の統計的記述を与える)および観測確率行列B(与えられた状態において観測されやすいスペクトル特徴の記述を与える)によって特徴づけられる。
【0042】
テストパターンのスコアリングは、特定のモデルが与えられた場合のテストパターンの特徴の列の生起の確率を反映する。すべてのモデルにわたるスコアリングは、効率的な動的プログラミング技術(例えばビタビスコアリング)によって与えられる。そして、テストパターン中の特徴の列の最大生起確率を示すHMMが、そのテストパターンと同定される。
【0043】
このように、音声認識手段の性能は一般にそれをトレーニングするために使用される音声認識トレーニング手段の効率と密接に対応する。例えばHMM法を用いた音声認識手段のトレーニングは、特定のHMMが既知語サンプルの統計に一致する頻度を増加させることに関する統計データを当てはめる原理に基づいて行う。HMMトレーニングは、大量のトレーニング音声サンプルの利用可能性およびHMMの適切な選択によって実現される。
【0044】
ここで、音声発生手段4による発声については、前記第二の音声として、前記使用者の好みによって自由に設定できるのが好ましい。したがって、前記音声合成手段3cは、例えば、使用者が本発明に係る対話式翻訳モジュールを使用する前に、上述のように、第二の音声として声を提供してもらいたい人に、日本語の場合は「あ」から「ん」までの55音の音声を入力してもらったり、英語の場合は「a」から「z」までの音声を入力することができるのが好ましい。もちろん、決まったフレーズや文章を読んでもらってもよい。
【0045】
すなわち、本発明に係る翻訳モジュールにおける音声合成手段3cは、使用者の好みに応じて第二の音声の声を自由に設定できるように、前記音声合成手段の補助的な役割を果たす音声合成補助手段として、選択的音声合成手段を有するのが好ましい。この選択的音声合成手段は、第二の音声として採用したい声の持ち主(特定の人)に、所定の音声を入力してもらい、その声に基づいて第二の音声を合成するものである。
【0046】
ただし、この場合、音声合成手段に前記特定の人の声をあらかじめ入力または記憶させておく必要がある。かかる技術は従来公知のものであるが、例えば、前記特定の人の声で、日本語の場合は「あ」から「ん」までの55音の発音や、英語の場合は「a」から「z」のアルファベットの発音などをあらかじめ音声合成手段に入力または記憶させておけばよい。これは、第一の音声および第二の音声としてどの言語を用いるかによって変更すればよい。したがって、前記音声合成手段は、前記特定の人の声を構成する音素、音記号列、発音パターン、および発音データなどを格納する音声合成用データ格納手段を有するのが好ましい。
【0047】
本発明に係る翻訳モジュールによれば、かかる構成により、使用者が好む声によって第二の音声を発声させることができる。前記音声合成手段によって、母親、父親、祖母もしくは祖父、成人女性、成人男性、子供の女の子または男の子のいずれかの声を機械的に選択して合成できるものであってもよい。このように特定の人の声を採用することによって種々の効果が得られる。例えば、母親の声を採用すると、使用者が小さい子供の場合、子供との仮想的または擬似的なコミュニケーションを取ることができ、母親が喜びを実感できるという効果がある。また、祖父母の声を採用すれば、孫とのコミュニケーションを取ることができ、祖父母が喜びを実感することができる。
【0048】
また、本発明に係る翻訳モジュールは、さらに前記第二の音声を文字として表示するディスプレイを具備するのが好ましい。これによれば、本発明に係る翻訳モジュールを翻訳用装置として有効に用いることができる。前記ディスプレイは、発光ディスプレイ、液晶ディスプレイ、ブラウン管、プラズマディスプレイなど、いずれの表示装置を用いることもできるが、本発明に係る翻訳モジュールの用途や寸法などに合わせて適宜選択すればよい。
【0049】
特に、本発明に係る翻訳モジュールを翻訳用装置として用いる場合、使用者が第一の音声を日本語で発声し、第二の音声を英語で発声させたり、また、使用者が第一の音声を英語で発声し、第二の音声を日本語で発声させたりすることができる。さらに、第二の音声を文字にして前記ディスプレイに表示させてもよい。なお、翻訳用装置においては、第一の音声から第二の音声へとできるだけ多くの単語の翻訳ができることが望ましいため、前記音声変換手段にはできるだけ多くの単語を入力または記憶させておくのが好ましい。これはメモリーの容量などによって当業者であれば適宜調整することができる。
【0050】
以上のように、本発明に係る翻訳モジュールを構成する音声認識手段、音声変換手段、および音声合成手段は、当業者であれば、本願明細書における本発明の技術的意義に鑑み、従来のものを改良して得ることができるが、以下に、より好ましい音声認識手段の一例について説明する。
【0051】
つぎに、本発明に係る翻訳モジュールにおいては、前記音声認識手段が、前記第一の音声を音素列として認識するものであるのが好ましい。従来の音声認識手段によれば、使用者(話者)の音調、話し方およびイントネーションなどの癖が多様であるため、使用者の違いによって音声認識の程度が左右されてその精度が低くなってしまうという問題がある。したがって、従来の音声認識手段では、特定の使用者の癖を音声認識手段に覚えさせるトレーニングが必要とされているものが多い。これに対し、音声を音素の列として認識する方法を採用すれば、使用者が違っても、より精度良くその音声を認識することができる。
【0052】
具体的には、前記音声認識手段は、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも1つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを具備し、前記音声信号に含まれる音素の種類を識別する音声音素識別手段を含むのが好ましい。
【0053】
ここで、図3に、前記音声音素識別手段を含む音声認識手段(システム)の構成を示す。
図3に示す音声認識システム10は、音声受信手段で受信した第一の音声の音声信号を、前記音声信号を対応する電気信号に変換するオーディオプロセッサ回路14を具備する。そして、前記電気信号をデジタルサンプリングに適した電気的状態にするために、前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換回路34を具備する。アナログ/デジタル変換回路34は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【0054】
デジタル化された音声信号は、ついで、音声識別回路16に送信される。音声識別回路16は、デジタル化された音声信号を、プログラム化して分析し、その音声信号の音声特性を抽出する。そして、必要な音声特性を得た場合に、前記音声信号に含まれる特定の音素を識別することができる。この音素の識別は、個々の使用者(話者)の特徴に依存せずに行うことができ、かつ、使用者が通常の会話速度で話してもリアルタイムで行うことができる。
【0055】
音声識別回路16は2つの方法で必要な音声特性を取得する。まず、前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別して、前記音声信号に含まれる音素の種類を識別する。音声信号に含まれる音素の種類を識別するパラメータとしては、例えば音声が“有声音”か、“無声音”か、または“静寂”かなどを含む。
【0056】
つぎに、音声識別回路16は、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングする。これにより、複雑な波形を有する第一の音声の音声信号から、細分化された多数の信号であって、前記音声信号の成分である個々の信号の波形を表す多数の信号が生成される。そして、音声識別回路16は、細分化された各部分を測定し、少なくとも1つの周波数領域特性、例えば、前記信号の周波数および振幅を含む種々の周波数領域データを抽出する。
【0057】
このようにして得られた周波数領域特性および時間領域特性は、前記音声信号に含まれる音素を識別するために充分な情報を含む。したがって、音声識別回路16は、最後に、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する。
【0058】
以上のようにして認識された第一の音声は、ついで、音声識別回路16に内臓させた音声翻訳手段および音声合成手段によって翻訳し、第二の音声に合成される。この場合、上述のように認識された音素の列を第二の言語に基づく語彙の列に翻訳させればよい。例えば、従来技術による言語処理プログラムを用いることにより、かかる翻訳および音声合成を行うことが可能である。
【0059】
そして、これらの処理は、例えば、音声識別回路16に接続され、データの入力、記憶および/または制御をすることのできるホストコンピュータまたはCPUなどの制御デバイス22によって制御すればよい。かかる制御デバイス22としては、従来のものを用いることができ、音声識別回路16に内蔵されているのが好ましい。もっとも、音声識別回路16の構成によっては省略することもできる。
【0060】
ここで、図4に、さらに詳細な前記音声音素識別手段(システム)の構成を示す。図4に示す音声認識システム10では、図3の場合と同様に、音声受信手段12によって受信された第一の音声が、オーディオプロセッサ回路14で調整される。オーディオプロセッサ回路14においては、第一の音声の音声信号を電気信号に変え、つづくアナログ/デジタル変換器34に送信する。
【0061】
オーディオプロセッサ回路14では、まず増幅回路26などの信号増幅手段によって、電気信号が好適なレベルに増幅され、制限増幅回路28によって、その出力レベルが制限される。そして、フィルタ回路30によって、高周波数が除去される。これら、増幅回路26、制限増幅回路28およびフィルタ回路30としては、種々のものを用いることができる。ついで、アナログ/デジタル変換回路34は、前記電気信号をアナログ形式で受信し、デジタル形式に変換して送信する。
【0062】
つぎに、図4に示す音声認識システム10は、デジタル音声プロセッサ回路18およびホスト音声プロセッサ回路20を含む。これらは図3に示す音声識別回路16に含まれるものであり、プログラム化できるデバイスを用いる同等の回路で構成することができる。
【0063】
まず、デジタル音声プロセッサ回路18は、デジタル化された音声信号を受信し、プログラムに基づいて操作し、種々の音声特性を抽出する。具体的には、まず時間領域においてデジタル化された音声信号を分析し、その分析結果に基づいて少なくとも1種の時間領域音声特性を抽出する。この特性は、音声信号が“有声的な”、“無声的な”または“静寂な”音素を含むか否かを決定するために有利に役立つ。
【0064】
また、デジタル音声プロセッサ回路18は、デジタル化された音声信号をさらに操作し、音声信号に関する種々の周波数領域情報を取得する。これは、音声信号を、無数のフィルタ帯でフィルタリングし、対応する無数のフィルタされた信号を生成することにより行うことができる。デジタル音声プロセッサ回路18は、個々の波形によって発現される種々の特性を測定し、少なくとも1種の周波数領域音声特性を抽出する。この周波数領域音声特性は、フィルタリング工程によって得られた信号成分の周波数、振幅および勾配などを含む。これらの特性は、蓄積ないし記憶され、音声信号に含まれる音素の種類を決定するために用いられる。
【0065】
図4に示すように、デジタル音声プロセッサ回路18は、デジタル音声プロセッサ36などの、プログラム制御のもとでデジタル化された音声信号を分析するプログラム化可能な手段を含む。このデジタル音声プロセッサ回路36としては、モトローラDSP56001などのプログラム可能な24ビット汎用デジタル信号プロセッサを好適に用いることができる。もちろん、他の上市されたデジタル信号プロセッサを用いることもできる。
【0066】
また、デジタル音声プロセッサ36は、バスタイプの標準アドレス、データおよび制御配列38を介して、種々の構成要素と接続される。これら構成要素は、例えば、DSPプログラムメモリー40などの、DSP36によって実行される一連のプログラムを記憶するプログラムメモリー手段、DSPデータメモリー42などの、DSP36によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック44を含む。
【0067】
つぎに、ホスト音声プロセッサ回路20について説明する。ホスト音声プロセッサ回路20は、適切なホストインターフェイス52を介してデジタル音声プロセッサ回路18に接続される。概して、ホスト音声プロセッサ回路20が、ホストインターフェイス52を介して、デジタル音声プロセッサ回路18で生成された種々の音声信号特性情報を受信する。
【0068】
このホスト音声プロセッサ回路20は、この情報を分析し、前記信号特性を代表的な使用者(話者)をテストすることによって集めた音声標準音声データと比較することによって、前記音声信号に含まれる音素の種類を識別する。音素を識別した後、ホスト音声プロセッサ回路20は、種々の言語処理技術を使用し、音素を第一の言語や第二の言語に基づく語彙やフレーズに翻訳する。
【0069】
前記ホスト音声プロセッサ回路20は、好ましくは、ホスト音声プロセッサ54などの、プログラム制御のもとでデジタル化された音声信号の特性を分析する第二のプログラム化可能な手段を有する。ホスト音声プロセッサ54は、例えばモトローラ68EC030などのプログラム化可能な32ビット汎用性CPU素子であればよい。
【0070】
また、ホスト音声プロセッサ54は、標準アドレス、データおよび制御バスタイプ配列56を介して、種々の構成要素と接続される。これら構成要素は、例えば、ホストプログラムメモリー58などの、ホスト音声プロセッサ54によって実行される一連のプログラムを記憶するプログラムメモリー手段、ホストデータメモリー60などの、ホスト音声プロセッサ54によって用いられるデータを記憶するデータメモリー手段、ならびにアドレスおよびデータのゲーティングおよびマッピングなどの標準時間制御機能を実行する制御ロジック64を含む。
【0071】
制御デバイス22については、図3において説明したものと同様である。制御デバイス22は、RS−232インターフェイス回路などのインターフェイス手段66およびケーブル24を介して、ホスト音声プロセッサ回路20に接続すればよい。もちろん、デジタル音声プロセッサ回路18およびホスト音声プロセッサ回路20の構成によれば、制御デバイス22を省略することも可能である。 なお、ホスト音声プロセッサ回路20には、さらに辞書機能を有するメモリー62やディスプレイ68を接続することも可能である。
【0072】
以上のように、音声認識手段(a)が音素で第一の音声を認識する場合、前記音声翻訳手段(b)が、認識された前記音素列を第二の言語に基づく語彙列に翻訳し、前記音声合成手段(c)が、前記語彙列をコンピュータ処理することにより前記第二の音声を合成するのが有効である。もっとも、図4および5に示したような音声認識システムを用いれば、音声認識手段(a)に音声翻訳手段(b)および音声合成手段(c)の機能を持たせることが可能である。
【0073】
ここで、音声合成手段(c)としては従来のものを用いることができるが、従来の音声合成手段によれば、電気的および機械的に音声を合成するため、語彙と語彙との間の間隔やイントネーションなどが完全ではなく、発声される第二の音声が人間の発する声に対して違和感が生じる場合がある。そこで、本発明においては、音声合成手段に以下のものを用いるのが好ましい。
【0074】
すなわち、前記音声合成手段(c)は、前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換する音声変換サブシステム、変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備するのが好ましい。
【0075】
さらに、本発明に係る対話式翻訳モジュールには、前記音声受信手段が前記使用者による第一の言語に基づくキーワードを受信し、前記音声認識手段(a)が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、その後、前記使用者による前記第一の音声を前記第二の音声に変換し、当該第二の音声を発声して前記使用者と対話させる機能を持たせることが好ましい。
このような機能は、当業者であれば適宜プログラムを作成して、上記音声認識手段、音声翻訳手段および音声合成手段に組み込ませることが可能である。
【0076】
また、音声認識手段(a)に、前記第一の音声の少なくとも一部の特定部分を認識させ、音声翻訳手段(b)に、前記特定部分を第二の言語に基づく音声に翻訳させ、音声合成手段(c)に、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成させることも有効である。
【0077】
この構成をとれば、前記音声変換手段は、いわゆるパターン翻訳法に基づいて、第一の言語による第一の音声を構成する第一のテキストを、第二の言語による第二のテキストに変換することができる。パターン翻訳法は、長文を翻訳するためには不充分なものであるが、短文を処理するためには有効である。したがって、初歩的な外国語教育にとって重要な時期である幼少期の子供にとっては、有効である。また、例えば旅行などで所定のフレーズの通訳を希望するお年寄りにとっても有効である。
【0078】
また、特に、本発明に係る翻訳モジュールを具備する動物音声翻訳装置を実現するためには、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。例えば猫や犬の鳴き声は、音素などに分解することが比較的困難である。そこで、種々の鳴き声をその際の行動パターンとともに収集してデータベースを作製し
そして、前記音声認識手段によってづく音声回答パターンを記憶させておき、前記音声翻訳手段によって、記憶させた音声回答パターンに基づいて前記鳴き声を例えば日本語に変換し、前記第二の音声を合成することが好ましい。もっとも、音声認識手段によって認識した前記鳴き声は、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
【0079】
ここで、本発明に係る翻訳モジュールは、上述のように、主として音声認識手段(a)、音声翻訳手段(b)および音声合成手段(c)の3つの構成要素からなると記載したが、これらのうちの2種または3種が一体化されていて、単一の手段で複数の手段の機能を果たす構成を採っても構わない。
【0080】
上記パターン翻訳法を用いる場合、音声翻訳手段(b)が、(b−1)前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および(b−2)前記音声認識手段(a)が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、音声合成手段が(c)が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成させてもよい。
ここで、以下に、本発明に係る翻訳モジュールの代表的な応用例の実施の形態について説明する。
【0081】
実施の形態1(翻訳機能付対話式人形)
図5は、本発明に係る翻訳モジュールを内蔵する翻訳機能付対話式人形の概略図である。図5に示すように、本発明に係る翻訳機能付対話式人形1は、使用者の発声する第一の言語に基づく音声、例えば日本語による「私の名前は桜です。」という音声を耳部1aに設けられた音声受信手段により受信し、人形の一部分に内蔵され、本発明を実現する音声変換手段1bを含む対話式翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「マイ ネーム イズ サクラ。」またはドイツ語による「マイン ナーメ イスト サクラ。」に変換し、この第二の音声を口部分1cに設けられた音声発声手段より発声する。
【0082】
また、図5には示していないが、第一の音声として、例えば「歌。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「ハ〜ッピ バ〜スデ〜ィ トゥ〜 ユ〜。」という歌を第二の音声として発声させてもよい。
もっとも、前記第一の音声および前記第二の音声が単語であることが好ましい。なぜなら、幼少期の子供は文章を話すのではなく単語を羅列して発するだけであり、これに対して本発明に係る翻訳機能付対話式人形がword to wordで翻訳をすることができれば、初歩的な外国語教育、すなわち外国語教育への導入にとって資するところが大きいからである。
【0083】
実施の形態2(旅行用通訳装置)
次に、図6は、本発明に係る翻訳モジュールを内蔵する旅行用通訳装置の概略図である。図6に示すように、本発明に係る旅行用通訳装置70は、使用者の発声する第一の言語に基づく音声、例えば日本語による「○○行きのバスはどこから出ていますか?」という音声を音声受信手段であるマイク71aにより受信し、旅行用通訳装置70に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声を第二の言語に基づく音声、例えば英語による「ホエア キャン アイ テイク ア バス フォー ○○?」に変換し、この第二の音声を音声発声手段であるスピーカ71bより発声する。
【0084】
また、第一の音声として、例えば「タクシー。」と言った場合には、当該第一の音声に対応してあらかじめ記憶された「プリーズ コール ミー ア タクシー。」という所定のフレーズを第二の音声として発声させてもよい。
もちろん、ディスプレイ72にこれらの音声を文字として表示させてもいいし、装置の操作そのものをディスプレイ72における表示によって誘導させてもよい。かかる表示については従来の技術を用いればよい。
【0085】
ここで、上述の音声変換手段には、例えばその記憶手段に、旅行の種々の場面において必要とされる会話を、グループ分けして記憶させ、そのグループを選択することによって、その場面に場面に応じた通訳機能を発揮させることも可能である。以下にこのグループ分けの例を示す。
例えば、挨拶、空港、機内、入国、ホテル、レストラン、乗り物、観光、買い物、両替、娯楽、電話、郵便、病気および緊急などのように、母国語と異なる言語で話す必要があると想定される種々の場面ごとにグループ分けすればよい。
【0086】
そして、各グループにおいては、例えば、以下のように必要と想定されるフレーズを記憶させる。
A.挨拶
おはよう。こんにちは。おやすみなさい。お元気ですか。良い天気ですね。はじめまして。お会いできて嬉しいです。あなたはどこから来ましたか。私は日本から来ました。またお会いしましょう。さようなら。
【0087】
B.空港
JALのカウンターはどこですか。JAL便に予約をお願いします。その便に空席はありますか。片道をお願いします。往復をお願いします。禁煙席で通路側をお願いします。予約の確認をお願いします。
【0088】
C.機内
私の席はどこですか。日本語のわかるスチュワーデスはいますか。毛布を貸して下さい。シートを倒してもいいですか。日本語の新聞はありますか。映画を見たいのでイヤホンを貸して下さい。免税品の販売はありますか。
【0089】
D.入国
日本から来ました。観光で来ました。タバコを3カートン持っています。これは友人へのプレゼントです。これは私が使うものです。
【0090】
E.税関
ツインでバス付きの部屋をお願いします。2泊お願いします。部屋の料金はいくらですか。もっと安い部屋はありませんか。チェックアウトは何時ですか。ここで貴重品を預かってもらえますか。この手紙を投函しておいて下さい。クリーニングをお願いします。お湯が出ません。トイレの水が出ません。部屋を替えて下さい。タクシーを呼んで下さい。
【0091】
F.ホテル
コーヒーだけでも注文できますか。ワインリストを下さい。ビールを1本下さい。今日のお勧め料理にします。これはどんな料理ですか。これは注文したのと違います。まだ料理が来ていません。計算が間違っていませんか。
その他のグループについても、用いられるフレーズを適宜選択、収集し、記憶手段などに記憶させればよい。
【0092】
実施の形態3(翻訳装置および英語学習装置)
また、本発明に係る翻訳モジュールは、翻訳装置および英語学習装置にも有効に応用することができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、この音声が音声受信手段であるマイクにより受信される。そして、翻訳装置および英語学習装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この音声が第二の言語に基づく音声、例えば英語による「アップル」に変換され、この第二の音声が音声発声手段であるスピーカより発声される。
【0093】
また、逆に受験生または翻訳者に第一の音声として「アップル」と発声させ、第二の音声として「りんご」と発声させることもできる。
この場合の装置の詳細な構成およびメカニズムについては上述と同様とすればよい。このように、本発明に係る翻訳モジュールは、翻訳者の翻訳作業、および受験生の英語学習にとっても有効である。
【0094】
実施の形態4(動物音声翻訳装置)
次に、本発明に係る翻訳モジュールは動物音声翻訳装置にも応用することができる。図7は、本発明に係る動物音声翻訳装置を示す図である。この動物音声翻訳装置は、図7の(a)の人用本体と図7の(b)の動物用本体とで構成される。人用本体(a)は、使用者が手に持つなどして使用する。そして、動物用本体(b)は、例えば犬などの首輪に取りつけることによって、犬などの声を受信し、その声を人用本体(a)に送信する。また、その逆も可能である。したがって、人用本体(a)および動物用本体(b)は、それぞれ受信手段および送信手段を有する。
【0095】
この場合の装置の構成およびメカニズムも上述と同様にすればよいが、例えば、犬が、第一の言語である犬語に基づいて第一の音声「ワンワン」を発すると、この音声は動物用本体(b)のマイク86によって受信され、人用本体(a)に送信される。そして、人用本体(a)においては、動物音声翻訳装置に内蔵され、本発明を実現する音声変換手段を含む翻訳モジュールにより、この第一の音声を第二の言語である、例えば日本語に基づく第二の音声「お腹が空いたよう。」に変換して、スピーカ82から発声するとともに、ディスプレイ81に文字で表示する。
【0096】
また、人用本体(a)を用いて、例えば人が第一の言語である日本語に基づいて「散歩に行こうか?」という第一の音声を発声すると、この第一の音声が本体(a)のマイク80に受信されるとともに、第二の言語である犬語に基づく第二の音声「ワンワン」に変換され、この第二の音声は動物用本体(b)に送信され、マイク86に併設されたスピーカ(図示せず)によって発声される。
このように、本発明に係る動物音声翻訳装置によれば、飼い主とペットのコミュニケーションが可能になる。すなわち、本発明に係る翻訳モジュールは双方向型であるとも言える。
【0097】
なお、人用本体(a)は、筐体85、送信機(b)からの情報を受信するためのアンテナ83、操作手段であるボタン84を具備し、動物用本体(b)も操作手段であるボタン87を有する。
ここで、本発明に係る動物音声翻訳装置においては、前述の種々の仕様の翻訳モジュールを用いることができるが、なかでも、上述したように、パターン翻訳法に基づく音声変換手段を用いるのが好ましい。犬の種々の鳴き声と、その際の行動パターンと、その行動パターンから想定される第二の言語に基づく文言または文章との組合せを、データベースとして作成しておく。かかるデータベースを前記記憶手段に記憶させておけば、前記音声認識手段によって認識した犬の鳴き声を、前記翻訳手段によって前記データベースに基づいて第二の言語に基づく文言または文章に変換し、この変換に基づいて前記音声合成手段に第二の音声を合成させることができる。
【0098】
そして、前記記憶手段には、前記音声認識手段によって認識され得る犬の鳴き声に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンそのものを記憶させておいてもよい。この場合、前記音声認識手段によって認識した犬の鳴き声を、例えば日本語に変換せずに信号として認識させ、この信号に対応させてあらかじめ前記記憶手段に記憶された音声回答パターンに基づいて、第二の音声を発声させてもよい。
以下に、本発明に係る翻訳モジュールの一実施例について説明するが、本発明はこれらのみに限定されるものではない。
【0099】
【実施例】
実施例1
本実施例においては、図8に示す構成を有する翻訳モジュールを作製した。
制御手段であるホストマイクロコントローラ90およびCPU91、マイクを含む音声入力回路92、スピーカを含む音声出力回路93、発信器94、記憶手段ないし格納手段であるROM95およびDRAM96を接続し、本発明に係る翻訳モジュールを構成した。
【0100】
ここで、図9および10に、音声入力回路92をさらに詳細に説明するための図を示した。図9には11kHzの音声を認識するためのもの回路を示し、図10には8kHzの音声を認識するための回路を示した。図9に示す回路を、増幅回路101、フィルタ回路102、増幅回路103、およびフィルタ回路104を接続して組み立てた。また、図10に示す回路も、同様に、増幅回路106、フィルタ回路107、増幅回路108、およびフィルタ回路109を接続して組み立てた。また、図8の音声出力回路93は、図11に示すような構成で組み立てた。
【0101】
かかる構成を有する本発明に係る翻訳モジュールによれば、第一の言語に基づく第一の音声を電気信号に変え、ROM95およびDRAM96に記憶ないし格納されたデータベースに基づき、前記電気信号に対応させて第一の言語を第二の言語に変換(翻訳)させ、第二の言語に基づく第二の音声を合成させることができた。
【0102】
【発明の効果】
本発明によれば、人や犬などの動物の発した音声を異なる言語に基づく音声に変換して発声することにより、使用者の遊び心を満足させるだけでなく、外国語会話の学習、翻訳作業、および異なる言語間における簡単なコミュニケーションなどに供することのできる翻訳モジュールを提供することができる。
【0103】
特に、本発明に係る翻訳モジュールは、上記翻訳機能付対話式人形および旅行用通訳装置の他、翻訳装置および英語学習装置としても有効に用いることができる。例えば、使用者である受験生または翻訳者が日本語で「りんご」と第一の音声を発声すると、英語で「アップル」という第二の音声が発声する。また、逆に受験生または翻訳者が第一の音声として「アップル」と発声すると、第二の音声として「りんご」と発声する。このように、本発明に係る翻訳モジュールは、特に受験生の英語学習にとって有効である。
【0104】
さらに、本発明に係る翻訳モジュールを用いれば、犬などの鳴き声の意味を理解するための動物音声翻訳装置を提供することができる。したがって、本願発明は、昨今のペットブームにおいて、飼い主が自分のペットとのコミュニケーションを深めることができるという意味においても、有効である。
【図面の簡単な説明】
【図1】本発明に係る翻訳モジュールの構成を示す図である。
【図2】本発明に係る翻訳モジュールの構成をさらに詳細に示す図である。
【図3】本発明において用いられる音声音素識別手段を含む音声認識手段(システム)の構成を示す図である。
【図4】本発明において用いられる音声音素識別手段を含む音声認識手段(システム)の構成をさらに詳細に示す図である。
【図5】本発明に係る翻訳モジュールを用いた翻訳機能付対話式人形の概略図である。
【図6】本発明に係る翻訳モジュールを用いた旅行用翻訳装置の概略図である。
【図7】本発明に係る翻訳モジュールを用いた動物音声翻訳装置の概略図である。
【図8】本発明に係る動物音声翻訳装置に用いる翻訳モジュールの回路図である。
【図9】図8における音声入力回路92の一部をより詳細に示した図である。
【図10】図8における音声入力回路92の他の一部をより詳細に示した図である。
【図11】図8における音声出力回路93をより詳細に示した図である。
【符号の説明】
2 音声受信手段
3 音声変換手段
3a 音声認識手段
3b 音声翻訳手段
3c 音声合成手段
4 音声発声手段
Claims (21)
- 第一の言語に基づく第一の音声を受信して第二の言語に基づく第二の音声に変換し、ついで当該変換された第二の音声を発声することを特徴とする翻訳モジュール。
- 請求項1記載の翻訳モジュールであって、
前記第一の音声を受信する音声受信手段、
前記第一の音声を前記第二の音声に変換する音声変換手段、および
前記第二の音声を発生する音声発声手段を具備することを特徴とする翻訳モジュール。 - 請求項1または2記載の翻訳モジュールであって、
前記第一の音声および前記第二の音声が単語であることを特徴とする翻訳モジュール。 - 請求項1〜3のいずれかに記載の翻訳モジュールであって、前記第一の音声が動物の声であり、前記第二の音声が人の発する音声であることを特徴とする翻訳モジュール。
- 請求項1〜4のいずれかに記載の翻訳モジュールであって、さらに前記第二の音声を表示するディスプレイを具備することを特徴とする翻訳モジュール。
- 請求項2記載の翻訳モジュールであって、
前記音声変換手段が、
(a)前記第一の音声を認識する音声認識手段、
(b)認識された前記第一の音声を前記第二の言語に翻訳する音声翻訳手段、および
(c)前記翻訳の結果に基づいて前記第二の音声を合成する音声合成手段を具備することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声認識手段(a)が、音声認識トレーニング手段を具備することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声翻訳手段(b)が、パターン翻訳法に基づいて音声を翻訳する手段であることを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声合成手段(c)が、所望する声に基づいて前記第二の音声を合成する選択的音声合成手段を具備することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声認識手段(a)が、前記第一の音声を音素列として認識することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声認識手段(a)が、
前記第一の音声の音声信号を受信し、前記音声信号を対応する電気信号に変換するオーディオプロセッサ手段、
前記電気信号を所定のサンプリングレートでデジタル化し、デジタル化された音声信号を形成するアナログ/デジタル変換器手段、および
前記デジタル化された音声信号の細分化された複数部分に対する時間領域分析を行い、前記音声信号の複数の時間領域特性を識別する手段と、所定の高域および低域カットオフ周波数を有する複数のフィルタ帯域を用いて、前記細分化された各部分をフィルタリングし、前記細分化された各部分の少なくとも1つの周波数領域特性を識別する手段と、前記時間領域特性および周波数領域特性を処理して前記音声信号に含まれる音素を識別する手段とを含む音声音素識別手段を具備することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声翻訳手段(b)が、認識された前記音素列を第二の言語に基づく語彙列に翻訳することを特徴とする翻訳モジュール。 - 請求項6記載の翻訳モジュールであって、
前記音声合成手段(c)が、前記語彙列をコンピュータ処理することにより前記第二の音声を合成することを特徴とする翻訳モジュール。 - 請求項12記載の翻訳モジュールであって、
前記音声合成手段(c)が、
前記第二の言語に基づく語彙列を受信し、前記語彙列を第一の音素列に変換する音声変換サブシステム、
変形規則を受信して前記第一の音素列に適用し、第二の音素列を形成する音声変形器、
所定の基準に基づいて前記第二の音素列に含まれる音素に順位付けを行う評価器、および
前記第二の音素列を受信し、前記順位付けを用いて前記第二の音素列に含まれる音素を音節に分解する音節分解器を具備することを特徴とする翻訳モジュール。 - 請求項1〜14のいずれかに記載の翻訳モジュールであって、
前記音声受信手段が前記第一の言語に基づくキーワードを受信し、前記音声認識手段(a)が前記キーワードを認識し、前記音声発声手段が前記キーワードに対応してあらかじめ記憶した第二の言語に基づく質問を発声し、
その後、前記質問に応じた前記第一の音声を受信して前記第二の音声に変換し、当該第二の音声を発声することを特徴とする翻訳モジュール。 - 請求項1〜14のいずれかに記載の翻訳モジュールであって、
前記音声認識手段(a)が、前記第一の音声の特定部分を認識し、
前記音声翻訳手段(b)が、前記特定部分を第二の言語に基づく音声に翻訳し、
前記音声合成手段(c)が、前記翻訳の結果を前記質問に対応してあらかじめ記憶した第二の言語に基づく音声回答パターンにあてはめ、前記第二の音声を合成することを特徴とする翻訳モジュール。 - 請求項16記載の翻訳モジュールであって、
前記音声翻訳手段(b)が、
(b−1)前記音声回答パターンと、前記質問に対応して前記特定部分を構成する語彙として予想される第二の言語に基づく語彙複数個とを記憶する記憶手段、および
(b−2)前記音声認識手段(a)が認識した前記特定部分を構成する語彙に対応して、第二の言語に基づく語彙を選択する選択手段を具備し、
前記音声合成手段が(c)が、選択された前記第二の言語に基づく語彙の音声を合成し、前記音声回答パターンにあてはめ、前記第二の音声を合成することを特徴とする翻訳モジュール。 - 請求項1〜17のいずれかに記載の翻訳モジュールを具備することを特徴とする音声翻訳装置。
- 請求項1〜17のいずれかに記載の翻訳モジュールを具備することを特徴とする翻訳機能付対話式人形。
- 請求項1〜17のいずれかに記載の翻訳モジュールを具備することを特徴とする英語学習装置。
- 請求項1〜17のいずれかに記載の翻訳モジュールを具備することを特徴とする旅行用通訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002383686A JP2004212685A (ja) | 2002-12-26 | 2002-12-26 | 翻訳モジュールおよびこれを用いた音声翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002383686A JP2004212685A (ja) | 2002-12-26 | 2002-12-26 | 翻訳モジュールおよびこれを用いた音声翻訳装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004212685A true JP2004212685A (ja) | 2004-07-29 |
Family
ID=32818340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002383686A Pending JP2004212685A (ja) | 2002-12-26 | 2002-12-26 | 翻訳モジュールおよびこれを用いた音声翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004212685A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081383A (ja) * | 2009-10-07 | 2011-04-21 | Sony Corp | 動物−機械間音声相互作用システム |
AU2021229204B2 (en) * | 2020-04-17 | 2023-04-27 | Tomy Company, Ltd. | Sounding device for pet toy and pet toy |
-
2002
- 2002-12-26 JP JP2002383686A patent/JP2004212685A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081383A (ja) * | 2009-10-07 | 2011-04-21 | Sony Corp | 動物−機械間音声相互作用システム |
AU2021229204B2 (en) * | 2020-04-17 | 2023-04-27 | Tomy Company, Ltd. | Sounding device for pet toy and pet toy |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pieraccini | The voice in the machine: building computers that understand speech | |
US5946658A (en) | Cartridge-based, interactive speech recognition method with a response creation capability | |
US5562453A (en) | Adaptive biofeedback speech tutor toy | |
Narayanan et al. | Creating conversational interfaces for children | |
Forsberg | Why is speech recognition difficult | |
Gerosa et al. | A review of ASR technologies for children's speech | |
Arimoto et al. | Naturalistic emotional speech collection paradigm with online game and its psychological and acoustical assessment | |
JP2003517158A (ja) | 分散型リアルタイム音声認識システム | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
Johnson et al. | Lexical viability constraints on speech segmentation by infants | |
US20070003913A1 (en) | Educational verbo-visualizer interface system | |
Mantena et al. | A speech-based conversation system for accessing agriculture commodity prices in Indian languages | |
Claus et al. | A survey about databases of children's speech. | |
JP3164346B2 (ja) | 音声認識対話型人形おもちゃ | |
CN108986785B (zh) | 一种文本改编方法及装置 | |
Ramteke et al. | Nitk kids’ speech corpus | |
BABU PANDIPATI | Speech to text conversion using deep learning neural net methods | |
D’Arcy et al. | Recognition of read and spontaneous children’s speech using two new corpora | |
Hämäläinen et al. | A multimodal educational game for 3-10-year-old children: collecting and automatically recognising european portuguese children’s speech | |
US20220208190A1 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
JP2004212685A (ja) | 翻訳モジュールおよびこれを用いた音声翻訳装置 | |
US20230146945A1 (en) | Method of forming augmented corpus related to articulation disorder, corpus augmenting system, speech recognition platform, and assisting device | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
US20220148570A1 (en) | Speech interpretation device and system | |
JP2004145237A (ja) | 翻訳機能付対話式人形 |