JPH09319393A

JPH09319393A - 音声認識翻訳システム

Info

Publication number: JPH09319393A
Application number: JP8130041A
Authority: JP
Inventors: Shinji Wakizaka; 新路脇坂; Koji Ito; 功二伊東; Hiroko Sato; 裕子佐藤; Kazuyoshi Ishiwatari; 一嘉石渡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-05-24
Filing date: 1996-05-24
Publication date: 1997-12-12

Abstract

(57)【要約】【課題】限られた少ないメモリ容量で常時音声を取り
込み、会話音声を良好に音声認識して翻訳する。【解決手段】メモリ５ａは、先頭アドレスから最終ア
ドレスまでを繰り返して、常時入力データを取り込んで
おり、入力データが音声データであることが検出される
と、書込みを停止し、そのときの書込みアドレスＷＡ１
Ｅを記憶保持するとともに、メモリ５ｂが入力される音
声データの書込みを先頭アドレスから開始する。メモリ
５ｂの最終アドレスまでの書込みが終わると、次に、メ
モリ５ａにおいて、先のアドレスＷＡ１Ｅの次のアドレ
ス（ＷＡ１Ｅ＋１）から一回りしてアドレスＷＡ１Ｅま
での読出しを行ない、これに続いて、メモリ５ｂの読出
しを行なう。メモリ５ａとしては、０．１秒程度の容量
のメモリを、メモリ５ｂとしては、３〜４秒程度の容量
のメモリを用いることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、携帯型音声翻訳機
やＰＤＡに代表される小型情報機器，カーナビゲーショ
ンシステムなどに用いて好適な音声認識翻訳システムに
係り、特に、海外旅行先などで会話に必要な自分側と相
手側の母国語音声を取り込み、音声認識して自分側の母
国語音声を相手側の母国語音声に、また、相手方の母国
語音声を自分側の母国語音声に夫々翻訳する音声認識翻
訳システムに関する。

【０００２】

【従来の技術】海外旅行者数の急激な増加に伴い、言葉
の壁によるコミュニケーションの不自由さを克服するた
めに、音声による定型会話集などの携帯型翻訳機が普及
しつつある。これらの携帯型翻訳機は、予め会話に用い
る文章を音声データとして登録しておき、シチュエーシ
ョンに合わせて必要な会話文を選択して再生する方式を
とっている。従って、この方式では、自分の質問や要求
を相手側の言葉で一方的に聞かせるのみであって、相手
の言葉は翻訳できない。

【０００３】また、特開平５−３５７７６号公報には、
マイクから入力した操作者の音声を認識して翻訳し、翻
訳した言語の音声を出力するようにした携帯用の翻訳装
置が開示されている。

【０００４】図９はこのような従来の音声翻訳装置の一
例を示すブロック図であって、２０１は制御部、２０２
は音声区間切出部、２０３は音声認識部、２０４は表示
部、２０５は音声合成部、２０６は翻訳語データ用メモ
リカード、２０７は音声認識辞書部、２０８はスピー
カ、２０９はマイク、２１０はスピーカアンプ、２１１
は操作信号である。

【０００５】同図において、制御部２０１はマイクロプ
ロセッサなどからなり、この音声翻訳装置の各部を制御
する。音声区間切出部２０２は、マイク２０９から入力
された音声をデジタル信号に変換して切り出し、音声認
識部２０３に送る。音声認識部２０３は、キーボードま
たはスイッチなどによる操作信号２１１を受けた制御部
２０１の指示により、音声区間切出部２０２で切り出さ
れた音声を分析し、その結果を音声認識辞書部２０７に
格納された標準音声パターンと比較することにより、音
声認識を行なう。音声合成部２０５は、音声認識部２０
３により認識された音声に対応した翻訳語を翻訳語デー
タ用メモリカード２０６から読み込んで音声信号に変換
し、スピーカアンプ２１０，スピーカ２０８を介して出
力する。

【０００６】表示部２０４は、音声翻訳装置の使用者へ
の指示や翻訳語の文字による表示などを行なう。翻訳語
データ用メモリカード２０６はＲＯＭカードなどからな
り、翻訳語を音声合成して出力する場合には、音声デー
タを格納している。また、この翻訳語データ用メモリカ
ード２０６から、翻訳語に対応したキャラクタコードを
読み込み、表示部２０４に表示する。そして、この翻訳
語データ用メモリカード２０６を他の言語のものと交換
することにより、複数の言語に翻訳することが可能とな
る。音声認識辞書部２０７はＲＡＭなどからなり、これ
に、操作者の発声に応じた標準音声パターンが予め格納
されている。

【０００７】

【発明が解決しようとする課題】上記した従来の携帯型
音声翻訳装置においては、操作者の発声する音声の認識
はするものの、音声による定型会話集などの定型型翻訳
機と同様に、予め会話に用いる文章を音声データとして
登録しておき、シチュエーションに合わせて必要な会話
文を選択して再生する方式と機能的には変わらない。即
ち、自分の質問や要求を相手にその言葉で一方的に聞か
せることは可能であるが、不特定な相手の自然な会話音
声を認識して翻訳することができない。このため、かか
る音声翻訳装置を用いても、相手の言っていることを理
解することができないという問題がある。携帯型音声翻
訳装置においては、自分の言いたいことを翻訳するより
は、むしろ相手の言っていることを翻訳してもらうこと
の方が重要である。

【０００８】また、会話音声を音声認識するには、音声
がいつ、何時に発生されても、音声を認識しなければな
らないことから、音声翻訳装置としては、常時、音を取
り込んでおく必要があり、かつ、取り込んだ音声に対し
て、その切り出しが重要となる。そこで、常時、音声を
取り込むために、音声認識に必要な音声波形データを格
納するメモリを充分に持たなければならない。ワークス
テーションやパソコンなどで実現している音声認識シス
テムでは、さほど問題にはならないが、携帯型音声認識
翻訳装置やＰＤＡに代表される携帯型情報機器などで
は、限られた少ないメモリ容量で、常時、音を取り込ま
なければならない。

【０００９】さらに、音声認識に必要な音声波形データ
を格納するメモリを充分に持てる音声認識システムで
は、音声の始まりを検出する処理や、音声波形の始端か
ら終端までを確実に取り込むことは容易に行なえるが、
限られた少ない容量のメモリで音声の始まりを検出する
処理や、音声波形の始端から終端までを確実に取り込む
ことは困難であり、音声波形の始端から終端までを確実
に取り込むことができないと、認識率が低下することに
なる。

【００１０】本発明の目的は、かかる問題を解消し、限
られた少ない容量のメモリでも、常時音声を取り込んで
認識して翻訳し、少しでも会話らしい相互の音声認識翻
訳を可能にした携帯型音の音声認識翻訳システムを提供
することにある。

【００１１】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力される単語や文章などの音声データ
を取り込んで記憶保持するメモリ部と、取り込まれた一
連の該音声データを認識処理する音声認識処理部と、音
声認識された単語や文章の結果に対して翻訳したい単語
や文章に翻訳する翻訳処理部とを有し、該メモリ部は、
常時入力データを取り込む第１のメモリと、音声データ
が入力されると該音声データを取り込む第２のメモリと
から構成され、入力データが音声データであることが検
出されると、該第１のメモリの書込みが停止するととも
に、該第２のメモリの書込みが開始し、このようにして
該メモリ部に取り込まれた該音声データを読み出して、
該音声認識部が認識処理を行なうようにする。

【００１２】また、本発明は、上記第１のメモリが、少
なくとも、音声データがない状態と、音声データがない
状態から音声データがある状態に変化する状態との入力
データを格納可能な最低限度の容量をもつようにする。

【００１３】さらに、本発明は、入力データの振幅値が
予め設定された閾値以上になったとき、該入力データを
音声データと判定する。

【００１４】さらに、本発明は、入力データの近接する
２時点での振幅値Ｐ_i-1，Ｐ_iの差分値が予め設定された
閾値以上となったとき、該入力データを音声データと判
定する。

【００１５】さらに、本発明は、入力データの近接する
２時点での振幅値Ｐ_i-1，Ｐ_iの差分値ΔＰ_i を順次積分
して積分値ΣΔＰ_iを得、該積分値ΣΔＰ_iが予め設定さ
れた閾値以上となったとき、該入力データを音声データ
と判定する。

【００１６】さらに、本発明は、入力データの近接する
２時点での振幅値Ｐ_i-1，Ｐ_iの差分値ΔＰ_i を順次得て
予め設定された閾値と比較し、該閾値を越える回数が規
定の回数以上になったとき、該入力データを音声データ
と判定する。

【００１７】かかる構成により、少しでも会話らしい相
互の音声認識翻訳を可能にする携帯型音声認識翻訳機を
実現に向けて、限られた少ないメモリ容量で常時、入力
データを取り込んで音声データを効果的に抽出するよう
にし、抽出された音声データを認識して翻訳する音声認
識翻訳システムを実現する。

【００１８】

【発明の実施の形態】以下、本発明の実施形態を図面に
より説明する。

【００１９】図１は本発明による音声認識翻訳システム
の一実施形態を示すブロック図であって、１はシステム
本体、２は指向性マイクロホン、３はアンプ、４はＡ／
Ｄ（アナログ／ディジタル）変換器、５はＦＰＧＡ（フ
ィールドプログラマブルゲートアレイ）、６はＣＰＵ
（中央処理ユニット）、７はＲＡＭ（ランダムアクセス
メモリ）、８はＲＯＭ（リードオンリメモリ）、９，１
０はシステムバス、１１はバススイッチ、１２はＦＰＧ
Ａ、１３はＣＰＵ、１４はＲＡＭ、１５はＲＯＭ、１６
はＰＣＭＣＩＡメモリ拡張カード、１７はＤ／Ａ（ディ
ジタル／アナログ）変換器、１８はアンプ、１９はスピ
ーカ、２０はディスプレイ装置、２１は音声入力部、２
２は音声認識部、２３は翻訳部、２４は音声出力部であ
る。

【００２０】同図において、システム本体１は、アンプ
３やＡ／Ｄ変換器４，ＦＰＧＡ５からなる音声入力部２
１と、ＣＰＵ６やＲＡＭ７，ＲＯＭ８，システムバス９
からなる音声認識部２２と、ＦＰＧＡ１２やＣＰＵ１
３，ＲＡＭ１４，ＲＯＭ１５，ＰＣＭＣＩＡメモリ拡張
カード１６からなる翻訳部２３と、Ｄ／Ａ変換器１７や
アンプ１８からなる音声出力部２４と、ＦＰＧＡ１２か
らの制御信号ＳＣによってＯＮ／ＯＦＦ制御されるバス
スイッチ１１と、認識結果や翻訳結果などを表示する液
晶のディスプレイ装置２０とから構成されている。

【００２１】音声入力部２１においては、指向性マイク
ロホン２から音声信号が入力し、フィルタを含むアンプ
３で音声帯域外の不要成分が除去されて増幅された後、
Ａ／Ｄ変換器４で、例えば、サンプリング周波数１２ｋ
Ｈｚ，１６ビットのディジタル音声信号（以下、単に、
音声データという）に変換されてＦＰＧＡ５に供給され
る。

【００２２】ここで、このＦＰＧＡ５は、ＣＰＵやメモ
リ装置を備えており、このＣＰＵの制御により、供給さ
れたシリアルの音声データをパラレルデータに変換して
順次このメモリ装置に格納し、１区切りの音声データが
格納されると、これを音声認識部２２で認識させるため
に、割込信号ＳＡを音声認識部２２でのＣＰＵ６に送
る。

【００２３】このとき、バススイッチ１１はＦＰＧＡ１
２からの制御信号によりＯＦＦしており、これにより、
システムバス９，１０は分離されている。

【００２４】音声認識部２２においては、ＣＰＵ６が、
例えば、シンクロナスＤＲＡＭなどから構成されるワー
クメモリとしてのＲＡＭ７に格納されている実行プログ
ラムに基づいて動作し、ＦＰＧＡ５から割込信号ＳＡを
受けると、ＦＰＧＡ５のメモリ装置に格納されている音
声データをシステムバス９を介して読み取ってＲＡＭ７
に順次格納し、ＲＯＭ８に格納されている音声認識プロ
グラムに従い、また、このＲＯＭ８に格納されている音
声認識に必要な音響モデル（例えば、隠れマルコフモデ
ル；ＨＭＭ：Hidden Markov Model）データや辞書デー
タなどを用いて、この音声データの認識処理を行なう。

【００２５】なお、これとともに、音声入力部２１で
は、次の音声データを取り込むことができる。

【００２６】供給された音声データの認識処理が終わる
と、ＣＰＵ６は、この認識結果をディスプレイ装置２０
に供給して表示させるとともに、翻訳部２３でのＦＰＧ
Ａ１２に翻訳処理を指示する制御信号ＳＢを送る。

【００２７】そこで、翻訳部２３においては、制御信号
ＳＢを受けると、ＦＰＧＡ１２が、ＣＰＵ１３を起動さ
せるための制御信号ＳＤを発生するとともに、制御信号
ＳＣを発生する。この制御信号ＳＣにより、音声認識部
２２でのＣＰＵ６がバス占有権を放棄し、かつバススイ
ッチ１１がＯＮしてシステムバス９，１０が接続され
る。

【００２８】かかる状態において、ＦＰＧＡ１２からの
制御信号ＳＤにより、ＣＰＵ１３が起動してＲＡＭ７と
同様の構成のＲＡＭ１４に格納されている実行プログラ
ムに基づいて動作し、まず、音声認識部２２でのＲＡＭ
７から、システムバス９，１０を介して、認識された結
果の音声データ（音声認識データ）を読み取って一旦Ｒ
ＡＭ１４に格納し、次いで、ＲＯＭ１５に格納されてい
る翻訳プログラムや辞書データなどを用いて、この音声
認識データの翻訳処理を行なう。

【００２９】なお、ＲＡＭ７からの音声認識データの読
取りが完了するとともに、ＦＰＧＡ１２がこの完了を示
す制御信号ＳＣを発生し、これにより、バススイッチ１
１がＯＦＦしてバス９，１０が分離されるとともに、Ｃ
ＰＵ６がバス９のバス権を占有し、次に取り込んだ音声
データの認識処理ができるようにする。

【００３０】翻訳処理が終了すると、ＣＰＵ１３はＲＡ
Ｍ１４から認識結果の音声データ（音声翻訳データ）を
読み取り、前に関連する音声翻訳データがあれば、これ
と音声合成処理して、その音声合成データをディスプレ
イ装置２０に供給して表示させるとともに、音声出力部
２４に供給する。この音声出力部２４では、この音声合
成データがＤ／Ａ変換器１７でアナログの音声信号に変
換され、アンプ１８で増幅，フィルタリングされた後、
スピーカ１９に供給されて音声として出力される。な
お、イヤホーンで出力させるようにすることもできる。

【００３１】ここで、音声認識部２２では、その音声認
識結果から、上記の音声認識プログラムや音響モデルな
どにより、この取り込まれた音声データが日本語，英語
などのいずれの母国語であるかも判断する。かかる判断
の結果に応じて、翻訳部２３では、これを他の母国語に
翻訳する。また、翻訳部２３では、音声認識部２２での
かかる母国語の種類の判断結果に基づいて、音声認識デ
ータを他の母国語に翻訳する。例えば、音声認識された
結果が日本語であれば、音声認識データの音声発音記号
のようなテキストデータをかな漢字変換されたテキスト
コードの入力に対して、自然言語処理や事例翻訳などの
翻訳処理を実行する。

【００３２】なお、ＰＣＭＣＩＡメモリ拡張カード１６
は、音声認識／翻訳における機能拡張に用いるものであ
る。

【００３３】かかる構成の実施形態において、音声認識
部２２でのＦＰＧＡ５に設けられた上記のメモリ装置と
しては、小さい容量のメモリを用い、音声データを有効
に抽出して記憶できるようにしている。以下、このメモ
リ装置について説明する。

【００３４】図２（ａ）はかかるメモリ装置の構成を示
す図であって、５ａ，５ｂはメモリである。

【００３５】図２（ａ）において、上記メモリ装置は２
つのメモリ５ａ，５ｂから構成されている。メモリ５ａ
は必要最小限度の小さい容量、例えば、０．１秒程度の
音声データが格納できる容量をもつメモリであって、通
常は書込み状態にあり、書込みは、先頭のアドレスから
最終のアドレスまでを停止指令があるまで繰り返し、こ
の繰返しにより、先頭のアドレスから書込みが再開する
ときには、新たな入力データで既に書き込まれている古
いデータが書き換えられる。この停止指令は、この入力
データが音声データであることが検出されることによ
り、発生される。また、後述するように、このメモリ５
ａの読出しは、読出し指令があると、書込み停止時点で
の書込みアドレスＷＡ１Ｅの次のアドレス（ＷＡ１Ｅ＋
１）からその直前までのアドレスＷＡ１Ｅまで行なわれ
る。この読出し指令は、音声データの入力が終わったこ
とを検出することにより発生される。

【００３６】メモリ５ｂは、上記の停止指令があって、
メモリ５ａの書込みが停止すると、メモリ５ａに代わっ
て入力データの書込みを開始し、例えば、最終アドレス
までこの入力データを順次書き込む。このメモリ５ｂの
容量としては、例えば、単語程度の認識であれば、３〜
５秒の音声データを格納できればよい。

【００３７】次に、図３に示す入力データを例にして、
このメモリ装置の動作を説明する。なお、図３は発明者
が実際に「山田」と発声したときの音声の波形を示すも
のである。かかる音声信号はＡ／Ｄ変換器４でディジタ
ルデータに変換され、このディジタルデータでもって音
声データの入力を検出するものであるが、以下では、動
作を判り易くするために、図３に示すアナログ波形でも
って説明する。

【００３８】図３では、説明の便宜上、ｔ１，ｔ２，ｔ
３の３つの期間に区切っている。また、Ａ１，Ａ２は入
力データのうちの音声データであり、それ以外の期間は
無音状態（音声データが入力されない状態）となってい
る。さらに、Ｔ１は全く音声データが入力されない無音
状態の期間（以下、無音期間という）であり、Ｔ２は無
音状態から音声データが入力されてそれが検出される時
点ｔｐまでの期間、Ｔ３は音声データ入力検出時点ｔｐ
からの音声データ期間である。なお、期間Ｔ１，Ｔ２は
便宜的に示した期間であり、ここでは、（Ｔ１＋Ｔ２）
期間がメモリ５ａの記憶容量に相当するものとする。

【００３９】次に、期間ｔ２，ｔ３でのこのメモリ装置
の動作を図２〜図４を用いて説明する。なお、期間ｔ２
では、無音期間Ｔ１に続いて、音声データＡ２の入力が
あって期間ｔ３の直前でこの音声データの入力を検出す
る期間Ｔ２がある。

【００４０】いま、期間ｔ２での無音期間Ｔ１では、メ
モリ５ａは、書込みアドレスＷＡ１が先頭アドレスから
順にインクリメントし、最終アドレスに達すると、先頭
アドレスに戻って再度書込みを繰り返す動作が行なわれ
る書込み状態にあるが（ステップ１００）、その間、入
力データの振幅Ｐが予め決められた閾値Ｐ_thと比較さ
れ、Ｐ＜Ｐ_thであるかぎり、音声データの入力がないと
して、かかる書込み動作が継続する（ステップ１０
１）。

【００４１】その後、期間Ｔ２に入って音声データＡ２
の入力があり、時刻ｔｐでその振幅Ｐが閾値Ｐ_th以上と
なると（ステップ１０１）、メモリ５ａでの書込み動作
が停止し、これと同時に、そのときの書込みアドレスＷ
Ａ１Ｅが記憶保持される（ステップ１０２）。従って、
メモリ５ａには、図３での期間ｔ２でのＴ２，Ｔ１期間
の入力データが先頭アドレスからその順に記憶されてい
ることになる。

【００４２】そして、このメモリ５ａの書込み停止とと
もに、これに引き続いて、メモリ５ｂが、その先頭アド
レスからのアドレスＷＡ２を順次インクリメントして、
期間Ｔ３での入力音声データＡ２の書込みを開始し（ス
テップ１０３）。その最終アドレスまで書込みを行なっ
て終了する。

【００４３】メモリ５ｂでの書込みが終了すると、ＦＰ
ＧＡ５（図１）が、上記のように、割込み信号ＳＡをＣ
ＰＵ６に送る。

【００４４】そして、メモリ５ａ，５ｂの読出しが行な
われるが、以上の書込み動作により、メモリ５ａでは、
先頭アドレスから上記のアドレスＷＡ１Ｅまで期間Ｔ２
の入力データが記憶され、それに続いて、期間Ｔ２の入
力データよりも前の期間ＴＩの入力データが記憶されて
いることになるから、メモリ５ａにおいて、読出し開始
アドレスＲＡ１を、先に記憶保持した読出しアドレスＷ
Ａ１Ｅから、（ＷＡ１Ｅ＋１）に設定し、このアドレス
（ＷＡ１Ｅ＋１）から１周りしてこの１つ前のアドレス
ＷＡ１Ｅまで読出しを行ない（ステップ１０４）、次い
で、メモリ５ｂにおいて、先頭アドレスから順に読出し
アドレスＲＡ２をインクリメントして最終アドレスまで
読出しを行なう（ステップ１０５）。

【００４５】これにより、これらメモリ５ａ，５ｂから
は、図２（ｂ）に示すように、期間Ｔ１，Ｔ２，Ｔ３の
順に入力データが読み出されることになる。これが、図
１における音声認識部２２に供給される。

【００４６】なお、このメモリ５ｂでの読出しが開始す
ると、メモリ５ａで上記の入力データの書込み動作が開
始し、次の音声データの入力に備える。

【００４７】また、図３における期間ｔ１では、まず、
無音状態から音声データが入力する期間Ｔ２があり、こ
の音声データの検出（時刻ｔｐ）であった直後に音声デ
ータの入力が終わる場合であり、０．１秒に比べて充分
短かい期間とする。

【００４８】このような場合には、図２（ａ）に示すメ
モリ５ａにおいて、まず、先頭アドレスから期間Ｔ２の
入力データが書き込まれ、最終アドレスに達する前に期
間Ｔ２が終了して書込みが停止する。このため、メモリ
５ａでは、この期間Ｔ２の入力データの後に、全く関係
のない古いデータ（Ｔ１の部分）などが残っている場合
もあり、従って、このメモリ５ａの読出し動作を上記の
ようにして行なうと、全く関係ないこの古いデータも期
間Ｔ１の入力データとして読み出されることになる。こ
の古いデータが無音状態での入力データであるときに
は、各別問題とはならないが、音声データであると、音
声認識に誤りが生ずる。

【００４９】そこで、この実施形態では、メモリ５ａの
書込みアドレスＷＡ１を監視し、先頭アドレスから書込
みを開始して最終アドレスに達する前に、音声データの
入力が終わって、メモリ５ａの書込み動作が停止したと
きには、メモリ５ａ，５ｂの読出し動作を禁止させる。
これによって入力音声データが失われても、０．１秒よ
りも短かい期間のものであるから、各別問題とはならな
い。

【００５０】このようにして、小さな容量のメモリでも
って、入力データの中から音声データを効果的に抽出す
ることができる。

【００５１】なお、上記では、メモリ５ｂでの書込みを
先頭アドレスから最終アドレスまでとすることにより、
メモリ５ｂでの古いデータが書き換えられ、これによっ
て誤った音声認識がなされるのを防止することができ
る。しかし、音声データの入力が終わると、メモリ５ｂ
での書込みを終わるようにしてもよい。但し、この場合
には、同様に、古いデータによる誤った認識を防止する
ために、書込み終了したときの書込みアドレスＷＡ２Ｅ
を記憶保持しておき、このメモリ５ｂの読出しとして
は、先頭アドレスからこの書込みの最終アドレスＷＡ２
Ｅまでとする。

【００５２】以上の説明では、音声データの入力の検出
を、この音声データの振幅Ｐと閾値Ｐ_thとを比較するこ
とにより行なったが、これ以外の方法を用いてもよい。

【００５３】図５は音声データの先頭部分の波形Ｗを拡
大して示したものであり、これにより、入力音声データ
の検出方法の他の例について説明する。但し、Ｐ_iは時
刻ｔ_iでのサンプルデータ、Ｐ_i-1は時刻ｔ_i-1でのサン
プルデータとする。

【００５４】同図において、入力データの経過ととも
に、常時、サンプルデータＰ_i，Ｐ_i-1の差分値ΔＰを求
め、これを適宜設定された閾値Ｐ_thと比較し、これを図
４でのステップ１０１としてもよい。音声データではな
い入力データのときには、ΔＰ≒０であり、Ｐ_i＜Ｐ_th
である。

【００５５】さらに他の方法として、この差分値ΔＰの
積分値ΣΔＰを求め、これが適宜設定された閾値Ｐ_thと
比較するようにして、図４におけるステップ１０１の処
理としてもよい。但し、この場合、図２（ａ）に示した
メモリ５ａでの書込みが終了すると、この積分値ΣΔＰ
を０にリセットし、再度差分値ΔＰを積分するようにす
る。

【００５６】さらに他の方法として、予め決められた期
間毎に差分値ΔＰが適宜設定された閾値Ｐ_th以上となる
回数ｋを検出し、この回数ｋが適宜設定された規定の回
数以上のとき、音声データとする判定処理を図４におけ
るステップ１０１の処理としてもよい。

【００５７】以上のように、この実施形態では、図１に
おいて、音声認識部２２と翻訳部２３とをバススイッチ
１１により接続したり、切り離したりすることができる
ので、音声認識部２２での認識処理と翻訳部２３での翻
訳処理とを時間的に重複して行なわせることができる。

【００５８】図６はその様子を示したものであって、
「すみません。婦人靴売場はどこですか？」という言葉
を例にとると、まず、「すみません」という言葉が入力
され、これが音声認識部２２で認識処理１がなされる
と、直ちに、「すみません」という認識結果１が翻訳部
２３で翻訳処理１される。この翻訳処理１と並行して、
「婦人靴」という次の音声データが入力され、これにつ
いて音声認識処理２が実行される。そして、この音声認
識処理２の認識結果２として、「婦人靴」が認識されて
出力されると、翻訳処理１の結果としての「すみませ
ん」が翻訳されて出力され、ディスプレイ装置２０に、
図６（ｂ）に示すように、表示１として、認識結果１の
「すみません」とともに、翻訳結果の「Excuse me.」が
表示される。

【００５９】同様な処理を繰り返し実行し、音声認識処
理２の結果として「婦人靴」という認識結果2が出力さ
れ、その翻訳処理２が実行されると、この翻訳処理２と
並行して、次の「どこですか」という音声データが入力
され、これが音声認識処理３される。そして、音声認識
処理３によって「どこですか」が認識されてその認識結
果３が出力されると、翻訳処理２によって翻訳された
「婦人靴」という翻訳結果が出力されて、これと先の認
識，翻訳結果と合成されて、図６（ｂ）に示すように、
「すみません」，「婦人靴」，「Excuse me.women's sh
oes」という表示２としてディスプレイ装置２０に表示
される。

【００６０】そして、さらに、音声認識処理３の結果と
して出力される「どこですか」という認識結果３に対
し、翻訳処理３が実行され、この翻訳処理３の結果とし
て「どこですか」が翻訳されて出力され、先の認識結果
や翻訳結果と合成されて、図６（ｂ）に示すように、表
示３として、「すみません。婦人靴売場はどこですか
？」という認識結果と、「Excuse me.Where are the wo
men'shoes?」という翻訳結果とがディスプレイ装置２０
に表示され、これと同時に、「Excuse me.Where are th
e women'shoes?」という言葉がスピーカ１９から発声さ
れる。

【００６１】なお、スピーカ１９から音声を出力するよ
うにする代わりに、図６（ｂ）に示すように、「Excuse
me.Where are the women'shoes?」とともに、その読み
方をカタカナで表示するようにし、ユーザは、翻訳結果
の内容をこのカタカナの文章から確認し、自ら発音して
その意図を伝えるようにすることも可能であり、むし
ろ、自ら発音した方が、相手に対して気持ちが伝わる場
合もある。

【００６２】図７は本発明による携帯型翻訳機を海外旅
行者が使用している場面を示している。

【００６３】同図において、ユーザである海外旅行者２
６が、携帯型翻訳機２５のディスプレイ装置及び音声入
出力手段を介して、例えば、店員２７と会話をする際
に、この携帯型翻訳機２５により、自分２６の話す内容
が相手２７のわかる言葉に翻訳されて意図が伝えられ、
逆に、相手２７の言っている言葉が自分２６のわかる言
葉に翻訳され、相手２７の意図が理解できることにな
る。

【００６４】図８はかかる携帯型翻訳機２５の一具体例
を示す外観斜視図であり、２８は携帯型翻訳機２５の本
体、２９は図１での指向性マイクロホン２に相当する指
向性マイクロホン、３０は多方向性マイクロホン、３１
は図１でのスピーカ１９に相当するスピーカ、３２は図
１でのディスプレイ装置に相当するディスプレイ装置の
表示画面、３３，３４は図１でのＰＣＭＣＩＡメモリ拡
張カード１６に相当するＩＣカードである。

【００６５】同図において、かかる携帯型翻訳機２５
を、例えば、海外旅行先の空港や駅構内，飛行機内，ホ
テル内，観光地，レストラン，ショッピングなどで使用
する場合、これらの場所で交わされる会話音声が指向性
マイクロホン２９でアナログ音声信号として取り込ま
れ、これが翻訳されてスピーカ３１から出力される。ま
た、この入力音声信号の認識結果や翻訳結果が表示画面
３２で表示される。

【００６６】なお、多方向性マイクロホン３０は、空港
や駅構内，飛行機内，バスや地下鉄やタクシーなどの乗
物内，観光地建物内などでの会話音声に含まれる各場所
での雑音を除去する目的で使用されるものであって、会
話音声がないとき、これらの場所での全体音を取り込
み、指向性マイクロホン２９からの入力データをキャン
セルするようにする。

【００６７】ＩＣカード３３は、例えば、日本語から英
語に音声認識翻訳するための音響モデルや単語辞書，文
法辞書，翻訳事例辞書などを搭載したものであり、ま
た、ＩＣカード３４は、例えば、英語から日本語に音声
認識翻訳するための音響モデルや単語辞書，文法辞書，
翻訳事例辞書などを搭載している。かかるＩＣカード３
３，３４を本体２８に装着すると、携帯型翻訳機２５で
は、図１において、ＣＰＵ６，１３が夫々これらＩＣカ
ード３３，３４の内容を読み取り、ＲＡＭ７，１４に格
納して音声データの認識や翻訳に使用する。

【００６８】従って、種類の異なるＩＣカード３３，３
４を用いることにより、日本語から英語，英語から日本
語ばかりでなく、日本語からドイツ後，ドイツ後から日
本語など、ユーザの母国語と旅行先の任意の母国語との
翻訳が可能となり、機能が大幅に向上する。

【００６９】

【発明の効果】以上説明したように、本発明によれば、
海外旅行先などで、少しでも会話らしい相互のコミュニ
ケーションをアシストする携帯型音声認識翻訳機を実現
するために、限られた少ないメモリ容量で、常時、音を
取り込んで音声を認識して翻訳するのに好適な音声取り
込み方法及び音声認識翻訳システムが実現できる。

【図面の簡単な説明】

【図１】本発明による音声認識翻訳システムの一実施形
態を示すブロック図である。

【図２】図１の音声入力部でのＦＰＧＡのメモリ装置の
一具体例を示す図である。

【図３】図１での入力データの一例を示す波形図であ
る。

【図４】図２に示したメモリ装置の動作を示すフローチ
ャートである。

【図５】図１の音声入力部でのＦＰＧＡによる音声デー
タの検出方法の一例を示す図である。

【図６】図１に示した実施形態の動作を示す図である。

【図７】本発明による携帯型翻訳機の一使用例を示す図
である。

【図８】本発明による携帯型翻訳機の一例を示す外観斜
視図である。

【図９】従来の携帯型音声翻訳装置の一例を示す図であ
る。

【符号の説明】

１システム本体２指向性マイクロホン４Ａ／Ｄ変換器５フィールドプログラマブルゲートアレイ５ａ，５ｂメモリ６ＣＰＵ９，１０システムバス１１バススイッチ１２フィールドプログラマブルゲートアレイ１３ＣＰＵ１６ＰＣＭＣＩＡメモリ拡張カード１７Ｄ／Ａ変換器１９スピーカ２０ディスプレイ装置２１音声入力部２２音声認識部２３翻訳部２４音声出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｆ 15/38 Ａ (72)発明者石渡一嘉東京都小平市上水本町５丁目20番１号株式会社日立製作所半導体事業部内

Claims

【特許請求の範囲】

【請求項１】音声を認識し、単語や文章に翻訳する音声
認識システムにおいて、音声データを取り込んで記憶するメモリ部と、該メモリ部に取り込まれた一連の音声データに対して認
識処理を行なう音声認識処理部と、該音声認識部で認識された単語や文章の結果に対して、
翻訳したい単語や文章に翻訳する翻訳処理部とを有し、該メモリ部は、常時入力データを取り込む第１のメモリ
と、該入力データが音声データであるときに該入力デー
タを取り込む第２のメモリとから構成され、該入力データが音声データであることが検出されると、
該第１のメモリが書込みを停止し、かつ該第２のメモリ
が書込みを開始し、該第１，第２のメモリから読み出さ
れる該音声データを該音声認識部が認識処理することを
特徴とする音声認識翻訳システム。
【請求項２】請求項１に記載の音声認識翻訳システム
において、前記第１のメモリは、少なくとも、音声データがない状
態と、音声データがない状態から音声データがある状態
に変化する状態での入力データを格納可能な最低限度の
容量を有することを特徴とする音声認識翻訳システム。
【請求項３】請求項１または２に記載の音声認識翻訳
システムにおいて、前記入力データの振幅が予め設定された閾値以上となっ
たとき、該入力データが前記音声データであると判定す
ることを特徴とする音声認識翻訳システム。
【請求項４】請求項１または２に記載の音声認識翻訳
システムにおいて、前記入力データの近接する２時点での振幅値Ｐ_i-1，Ｐ_i
の差分値ΔＰ_iが予め設定された閾値以上になったと
き、該入力データが前記音声データであると判定するこ
とを特徴とする音声認識翻訳システム。
【請求項５】請求項１または２に記載の音声認識翻訳
システムにおいて、前記入力データの近接する２時点での振幅値Ｐ_i-1，Ｐ_i
の差分値ΔＰ_iを順次得て、該差分値ΔＰの積分値ΣΔ
Ｐ_iを演算し、該積分値ΣΔＰ_iが予め設定された閾値以
上となったとき、該入力データが前記音声データである
と判定することを特徴とする音声認識翻訳システム。
【請求項６】請求項１または２に記載の音声認識翻訳
システムにおいて、前記入力データの近接する２時点での振幅値Ｐ_i-1，Ｐ_i
の差分値ΔＰ_iを順次得て、該差分値ΔＰ_iが予め設定さ
れた閾値を越える回数を検出し、該検出回数が規定の回
数を越えたとき、該入力データが前記音声データである
と判定することを特徴とする音声認識翻訳システム。