JPH09319393A - 音声認識翻訳システム - Google Patents

音声認識翻訳システム

Info

Publication number
JPH09319393A
JPH09319393A JP8130041A JP13004196A JPH09319393A JP H09319393 A JPH09319393 A JP H09319393A JP 8130041 A JP8130041 A JP 8130041A JP 13004196 A JP13004196 A JP 13004196A JP H09319393 A JPH09319393 A JP H09319393A
Authority
JP
Japan
Prior art keywords
voice
memory
data
input data
translation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8130041A
Other languages
English (en)
Inventor
Shinji Wakizaka
新路 脇坂
Koji Ito
功二 伊東
Hiroko Sato
裕子 佐藤
Kazuyoshi Ishiwatari
一嘉 石渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8130041A priority Critical patent/JPH09319393A/ja
Publication of JPH09319393A publication Critical patent/JPH09319393A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 限られた少ないメモリ容量で常時音声を取り
込み、会話音声を良好に音声認識して翻訳する。 【解決手段】 メモリ5aは、先頭アドレスから最終ア
ドレスまでを繰り返して、常時入力データを取り込んで
おり、入力データが音声データであることが検出される
と、書込みを停止し、そのときの書込みアドレスWA1
Eを記憶保持するとともに、メモリ5bが入力される音
声データの書込みを先頭アドレスから開始する。メモリ
5bの最終アドレスまでの書込みが終わると、次に、メ
モリ5aにおいて、先のアドレスWA1Eの次のアドレ
ス(WA1E+1)から一回りしてアドレスWA1Eま
での読出しを行ない、これに続いて、メモリ5bの読出
しを行なう。メモリ5aとしては、0.1秒程度の容量
のメモリを、メモリ5bとしては、3〜4秒程度の容量
のメモリを用いることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、携帯型音声翻訳機
やPDAに代表される小型情報機器,カーナビゲーショ
ンシステムなどに用いて好適な音声認識翻訳システムに
係り、特に、海外旅行先などで会話に必要な自分側と相
手側の母国語音声を取り込み、音声認識して自分側の母
国語音声を相手側の母国語音声に、また、相手方の母国
語音声を自分側の母国語音声に夫々翻訳する音声認識翻
訳システムに関する。
【0002】
【従来の技術】海外旅行者数の急激な増加に伴い、言葉
の壁によるコミュニケーションの不自由さを克服するた
めに、音声による定型会話集などの携帯型翻訳機が普及
しつつある。これらの携帯型翻訳機は、予め会話に用い
る文章を音声データとして登録しておき、シチュエーシ
ョンに合わせて必要な会話文を選択して再生する方式を
とっている。従って、この方式では、自分の質問や要求
を相手側の言葉で一方的に聞かせるのみであって、相手
の言葉は翻訳できない。
【0003】また、特開平5−35776号公報には、
マイクから入力した操作者の音声を認識して翻訳し、翻
訳した言語の音声を出力するようにした携帯用の翻訳装
置が開示されている。
【0004】図9はこのような従来の音声翻訳装置の一
例を示すブロック図であって、201は制御部、202
は音声区間切出部、203は音声認識部、204は表示
部、205は音声合成部、206は翻訳語データ用メモ
リカード、207は音声認識辞書部、208はスピー
カ、209はマイク、210はスピーカアンプ、211
は操作信号である。
【0005】同図において、制御部201はマイクロプ
ロセッサなどからなり、この音声翻訳装置の各部を制御
する。音声区間切出部202は、マイク209から入力
された音声をデジタル信号に変換して切り出し、音声認
識部203に送る。音声認識部203は、キーボードま
たはスイッチなどによる操作信号211を受けた制御部
201の指示により、音声区間切出部202で切り出さ
れた音声を分析し、その結果を音声認識辞書部207に
格納された標準音声パターンと比較することにより、音
声認識を行なう。音声合成部205は、音声認識部20
3により認識された音声に対応した翻訳語を翻訳語デー
タ用メモリカード206から読み込んで音声信号に変換
し、スピーカアンプ210,スピーカ208を介して出
力する。
【0006】表示部204は、音声翻訳装置の使用者へ
の指示や翻訳語の文字による表示などを行なう。翻訳語
データ用メモリカード206はROMカードなどからな
り、翻訳語を音声合成して出力する場合には、音声デー
タを格納している。また、この翻訳語データ用メモリカ
ード206から、翻訳語に対応したキャラクタコードを
読み込み、表示部204に表示する。そして、この翻訳
語データ用メモリカード206を他の言語のものと交換
することにより、複数の言語に翻訳することが可能とな
る。音声認識辞書部207はRAMなどからなり、これ
に、操作者の発声に応じた標準音声パターンが予め格納
されている。
【0007】
【発明が解決しようとする課題】上記した従来の携帯型
音声翻訳装置においては、操作者の発声する音声の認識
はするものの、音声による定型会話集などの定型型翻訳
機と同様に、予め会話に用いる文章を音声データとして
登録しておき、シチュエーションに合わせて必要な会話
文を選択して再生する方式と機能的には変わらない。即
ち、自分の質問や要求を相手にその言葉で一方的に聞か
せることは可能であるが、不特定な相手の自然な会話音
声を認識して翻訳することができない。このため、かか
る音声翻訳装置を用いても、相手の言っていることを理
解することができないという問題がある。携帯型音声翻
訳装置においては、自分の言いたいことを翻訳するより
は、むしろ相手の言っていることを翻訳してもらうこと
の方が重要である。
【0008】また、会話音声を音声認識するには、音声
がいつ、何時に発生されても、音声を認識しなければな
らないことから、音声翻訳装置としては、常時、音を取
り込んでおく必要があり、かつ、取り込んだ音声に対し
て、その切り出しが重要となる。そこで、常時、音声を
取り込むために、音声認識に必要な音声波形データを格
納するメモリを充分に持たなければならない。ワークス
テーションやパソコンなどで実現している音声認識シス
テムでは、さほど問題にはならないが、携帯型音声認識
翻訳装置やPDAに代表される携帯型情報機器などで
は、限られた少ないメモリ容量で、常時、音を取り込ま
なければならない。
【0009】さらに、音声認識に必要な音声波形データ
を格納するメモリを充分に持てる音声認識システムで
は、音声の始まりを検出する処理や、音声波形の始端か
ら終端までを確実に取り込むことは容易に行なえるが、
限られた少ない容量のメモリで音声の始まりを検出する
処理や、音声波形の始端から終端までを確実に取り込む
ことは困難であり、音声波形の始端から終端までを確実
に取り込むことができないと、認識率が低下することに
なる。
【0010】本発明の目的は、かかる問題を解消し、限
られた少ない容量のメモリでも、常時音声を取り込んで
認識して翻訳し、少しでも会話らしい相互の音声認識翻
訳を可能にした携帯型音の音声認識翻訳システムを提供
することにある。
【0011】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力される単語や文章などの音声データ
を取り込んで記憶保持するメモリ部と、取り込まれた一
連の該音声データを認識処理する音声認識処理部と、音
声認識された単語や文章の結果に対して翻訳したい単語
や文章に翻訳する翻訳処理部とを有し、該メモリ部は、
常時入力データを取り込む第1のメモリと、音声データ
が入力されると該音声データを取り込む第2のメモリと
から構成され、入力データが音声データであることが検
出されると、該第1のメモリの書込みが停止するととも
に、該第2のメモリの書込みが開始し、このようにして
該メモリ部に取り込まれた該音声データを読み出して、
該音声認識部が認識処理を行なうようにする。
【0012】また、本発明は、上記第1のメモリが、少
なくとも、音声データがない状態と、音声データがない
状態から音声データがある状態に変化する状態との入力
データを格納可能な最低限度の容量をもつようにする。
【0013】さらに、本発明は、入力データの振幅値が
予め設定された閾値以上になったとき、該入力データを
音声データと判定する。
【0014】さらに、本発明は、入力データの近接する
2時点での振幅値Pi-1,Piの差分値が予め設定された
閾値以上となったとき、該入力データを音声データと判
定する。
【0015】さらに、本発明は、入力データの近接する
2時点での振幅値Pi-1,Piの差分値ΔPi を順次積分
して積分値ΣΔPiを得、該積分値ΣΔPiが予め設定さ
れた閾値以上となったとき、該入力データを音声データ
と判定する。
【0016】さらに、本発明は、入力データの近接する
2時点での振幅値Pi-1,Piの差分値ΔPi を順次得て
予め設定された閾値と比較し、該閾値を越える回数が規
定の回数以上になったとき、該入力データを音声データ
と判定する。
【0017】かかる構成により、少しでも会話らしい相
互の音声認識翻訳を可能にする携帯型音声認識翻訳機を
実現に向けて、限られた少ないメモリ容量で常時、入力
データを取り込んで音声データを効果的に抽出するよう
にし、抽出された音声データを認識して翻訳する音声認
識翻訳システムを実現する。
【0018】
【発明の実施の形態】以下、本発明の実施形態を図面に
より説明する。
【0019】図1は本発明による音声認識翻訳システム
の一実施形態を示すブロック図であって、1はシステム
本体、2は指向性マイクロホン、3はアンプ、4はA/
D(アナログ/ディジタル)変換器、5はFPGA(フ
ィールドプログラマブルゲートアレイ)、6はCPU
(中央処理ユニット)、7はRAM(ランダムアクセス
メモリ)、8はROM(リードオンリメモリ)、9,1
0はシステムバス、11はバススイッチ、12はFPG
A、13はCPU、14はRAM、15はROM、16
はPCMCIAメモリ拡張カード、17はD/A(ディ
ジタル/アナログ)変換器、18はアンプ、19はスピ
ーカ、20はディスプレイ装置、21は音声入力部、2
2は音声認識部、23は翻訳部、24は音声出力部であ
る。
【0020】同図において、システム本体1は、アンプ
3やA/D変換器4,FPGA5からなる音声入力部2
1と、CPU6やRAM7,ROM8,システムバス9
からなる音声認識部22と、FPGA12やCPU1
3,RAM14,ROM15,PCMCIAメモリ拡張
カード16からなる翻訳部23と、D/A変換器17や
アンプ18からなる音声出力部24と、FPGA12か
らの制御信号SCによってON/OFF制御されるバス
スイッチ11と、認識結果や翻訳結果などを表示する液
晶のディスプレイ装置20とから構成されている。
【0021】音声入力部21においては、指向性マイク
ロホン2から音声信号が入力し、フィルタを含むアンプ
3で音声帯域外の不要成分が除去されて増幅された後、
A/D変換器4で、例えば、サンプリング周波数12k
Hz,16ビットのディジタル音声信号(以下、単に、
音声データという)に変換されてFPGA5に供給され
る。
【0022】ここで、このFPGA5は、CPUやメモ
リ装置を備えており、このCPUの制御により、供給さ
れたシリアルの音声データをパラレルデータに変換して
順次このメモリ装置に格納し、1区切りの音声データが
格納されると、これを音声認識部22で認識させるため
に、割込信号SAを音声認識部22でのCPU6に送
る。
【0023】このとき、バススイッチ11はFPGA1
2からの制御信号によりOFFしており、これにより、
システムバス9,10は分離されている。
【0024】音声認識部22においては、CPU6が、
例えば、シンクロナスDRAMなどから構成されるワー
クメモリとしてのRAM7に格納されている実行プログ
ラムに基づいて動作し、FPGA5から割込信号SAを
受けると、FPGA5のメモリ装置に格納されている音
声データをシステムバス9を介して読み取ってRAM7
に順次格納し、ROM8に格納されている音声認識プロ
グラムに従い、また、このROM8に格納されている音
声認識に必要な音響モデル(例えば、隠れマルコフモデ
ル;HMM:Hidden Markov Model)データや辞書デー
タなどを用いて、この音声データの認識処理を行なう。
【0025】なお、これとともに、音声入力部21で
は、次の音声データを取り込むことができる。
【0026】供給された音声データの認識処理が終わる
と、CPU6は、この認識結果をディスプレイ装置20
に供給して表示させるとともに、翻訳部23でのFPG
A12に翻訳処理を指示する制御信号SBを送る。
【0027】そこで、翻訳部23においては、制御信号
SBを受けると、FPGA12が、CPU13を起動さ
せるための制御信号SDを発生するとともに、制御信号
SCを発生する。この制御信号SCにより、音声認識部
22でのCPU6がバス占有権を放棄し、かつバススイ
ッチ11がONしてシステムバス9,10が接続され
る。
【0028】かかる状態において、FPGA12からの
制御信号SDにより、CPU13が起動してRAM7と
同様の構成のRAM14に格納されている実行プログラ
ムに基づいて動作し、まず、音声認識部22でのRAM
7から、システムバス9,10を介して、認識された結
果の音声データ(音声認識データ)を読み取って一旦R
AM14に格納し、次いで、ROM15に格納されてい
る翻訳プログラムや辞書データなどを用いて、この音声
認識データの翻訳処理を行なう。
【0029】なお、RAM7からの音声認識データの読
取りが完了するとともに、FPGA12がこの完了を示
す制御信号SCを発生し、これにより、バススイッチ1
1がOFFしてバス9,10が分離されるとともに、C
PU6がバス9のバス権を占有し、次に取り込んだ音声
データの認識処理ができるようにする。
【0030】翻訳処理が終了すると、CPU13はRA
M14から認識結果の音声データ(音声翻訳データ)を
読み取り、前に関連する音声翻訳データがあれば、これ
と音声合成処理して、その音声合成データをディスプレ
イ装置20に供給して表示させるとともに、音声出力部
24に供給する。この音声出力部24では、この音声合
成データがD/A変換器17でアナログの音声信号に変
換され、アンプ18で増幅,フィルタリングされた後、
スピーカ19に供給されて音声として出力される。な
お、イヤホーンで出力させるようにすることもできる。
【0031】ここで、音声認識部22では、その音声認
識結果から、上記の音声認識プログラムや音響モデルな
どにより、この取り込まれた音声データが日本語,英語
などのいずれの母国語であるかも判断する。かかる判断
の結果に応じて、翻訳部23では、これを他の母国語に
翻訳する。また、翻訳部23では、音声認識部22での
かかる母国語の種類の判断結果に基づいて、音声認識デ
ータを他の母国語に翻訳する。例えば、音声認識された
結果が日本語であれば、音声認識データの音声発音記号
のようなテキストデータをかな漢字変換されたテキスト
コードの入力に対して、自然言語処理や事例翻訳などの
翻訳処理を実行する。
【0032】なお、PCMCIAメモリ拡張カード16
は、音声認識/翻訳における機能拡張に用いるものであ
る。
【0033】かかる構成の実施形態において、音声認識
部22でのFPGA5に設けられた上記のメモリ装置と
しては、小さい容量のメモリを用い、音声データを有効
に抽出して記憶できるようにしている。以下、このメモ
リ装置について説明する。
【0034】図2(a)はかかるメモリ装置の構成を示
す図であって、5a,5bはメモリである。
【0035】図2(a)において、上記メモリ装置は2
つのメモリ5a,5bから構成されている。メモリ5a
は必要最小限度の小さい容量、例えば、0.1秒程度の
音声データが格納できる容量をもつメモリであって、通
常は書込み状態にあり、書込みは、先頭のアドレスから
最終のアドレスまでを停止指令があるまで繰り返し、こ
の繰返しにより、先頭のアドレスから書込みが再開する
ときには、新たな入力データで既に書き込まれている古
いデータが書き換えられる。この停止指令は、この入力
データが音声データであることが検出されることによ
り、発生される。また、後述するように、このメモリ5
aの読出しは、読出し指令があると、書込み停止時点で
の書込みアドレスWA1Eの次のアドレス(WA1E+
1)からその直前までのアドレスWA1Eまで行なわれ
る。この読出し指令は、音声データの入力が終わったこ
とを検出することにより発生される。
【0036】メモリ5bは、上記の停止指令があって、
メモリ5aの書込みが停止すると、メモリ5aに代わっ
て入力データの書込みを開始し、例えば、最終アドレス
までこの入力データを順次書き込む。このメモリ5bの
容量としては、例えば、単語程度の認識であれば、3〜
5秒の音声データを格納できればよい。
【0037】次に、図3に示す入力データを例にして、
このメモリ装置の動作を説明する。なお、図3は発明者
が実際に「山田」と発声したときの音声の波形を示すも
のである。かかる音声信号はA/D変換器4でディジタ
ルデータに変換され、このディジタルデータでもって音
声データの入力を検出するものであるが、以下では、動
作を判り易くするために、図3に示すアナログ波形でも
って説明する。
【0038】図3では、説明の便宜上、t1,t2,t
3の3つの期間に区切っている。また、A1,A2は入
力データのうちの音声データであり、それ以外の期間は
無音状態(音声データが入力されない状態)となってい
る。さらに、T1は全く音声データが入力されない無音
状態の期間(以下、無音期間という)であり、T2は無
音状態から音声データが入力されてそれが検出される時
点tpまでの期間、T3は音声データ入力検出時点tp
からの音声データ期間である。なお、期間T1,T2は
便宜的に示した期間であり、ここでは、(T1+T2)
期間がメモリ5aの記憶容量に相当するものとする。
【0039】次に、期間t2,t3でのこのメモリ装置
の動作を図2〜図4を用いて説明する。なお、期間t2
では、無音期間T1に続いて、音声データA2の入力が
あって期間t3の直前でこの音声データの入力を検出す
る期間T2がある。
【0040】いま、期間t2での無音期間T1では、メ
モリ5aは、書込みアドレスWA1が先頭アドレスから
順にインクリメントし、最終アドレスに達すると、先頭
アドレスに戻って再度書込みを繰り返す動作が行なわれ
る書込み状態にあるが(ステップ100)、その間、入
力データの振幅Pが予め決められた閾値Pthと比較さ
れ、P<Pthであるかぎり、音声データの入力がないと
して、かかる書込み動作が継続する(ステップ10
1)。
【0041】その後、期間T2に入って音声データA2
の入力があり、時刻tpでその振幅Pが閾値Pth以上と
なると(ステップ101)、メモリ5aでの書込み動作
が停止し、これと同時に、そのときの書込みアドレスW
A1Eが記憶保持される(ステップ102)。従って、
メモリ5aには、図3での期間t2でのT2,T1期間
の入力データが先頭アドレスからその順に記憶されてい
ることになる。
【0042】そして、このメモリ5aの書込み停止とと
もに、これに引き続いて、メモリ5bが、その先頭アド
レスからのアドレスWA2を順次インクリメントして、
期間T3での入力音声データA2の書込みを開始し(ス
テップ103)。その最終アドレスまで書込みを行なっ
て終了する。
【0043】メモリ5bでの書込みが終了すると、FP
GA5(図1)が、上記のように、割込み信号SAをC
PU6に送る。
【0044】そして、メモリ5a,5bの読出しが行な
われるが、以上の書込み動作により、メモリ5aでは、
先頭アドレスから上記のアドレスWA1Eまで期間T2
の入力データが記憶され、それに続いて、期間T2の入
力データよりも前の期間TIの入力データが記憶されて
いることになるから、メモリ5aにおいて、読出し開始
アドレスRA1を、先に記憶保持した読出しアドレスW
A1Eから、(WA1E+1)に設定し、このアドレス
(WA1E+1)から1周りしてこの1つ前のアドレス
WA1Eまで読出しを行ない(ステップ104)、次い
で、メモリ5bにおいて、先頭アドレスから順に読出し
アドレスRA2をインクリメントして最終アドレスまで
読出しを行なう(ステップ105)。
【0045】これにより、これらメモリ5a,5bから
は、図2(b)に示すように、期間T1,T2,T3の
順に入力データが読み出されることになる。これが、図
1における音声認識部22に供給される。
【0046】なお、このメモリ5bでの読出しが開始す
ると、メモリ5aで上記の入力データの書込み動作が開
始し、次の音声データの入力に備える。
【0047】また、図3における期間t1では、まず、
無音状態から音声データが入力する期間T2があり、こ
の音声データの検出(時刻tp)であった直後に音声デ
ータの入力が終わる場合であり、0.1秒に比べて充分
短かい期間とする。
【0048】このような場合には、図2(a)に示すメ
モリ5aにおいて、まず、先頭アドレスから期間T2の
入力データが書き込まれ、最終アドレスに達する前に期
間T2が終了して書込みが停止する。このため、メモリ
5aでは、この期間T2の入力データの後に、全く関係
のない古いデータ(T1の部分)などが残っている場合
もあり、従って、このメモリ5aの読出し動作を上記の
ようにして行なうと、全く関係ないこの古いデータも期
間T1の入力データとして読み出されることになる。こ
の古いデータが無音状態での入力データであるときに
は、各別問題とはならないが、音声データであると、音
声認識に誤りが生ずる。
【0049】そこで、この実施形態では、メモリ5aの
書込みアドレスWA1を監視し、先頭アドレスから書込
みを開始して最終アドレスに達する前に、音声データの
入力が終わって、メモリ5aの書込み動作が停止したと
きには、メモリ5a,5bの読出し動作を禁止させる。
これによって入力音声データが失われても、0.1秒よ
りも短かい期間のものであるから、各別問題とはならな
い。
【0050】このようにして、小さな容量のメモリでも
って、入力データの中から音声データを効果的に抽出す
ることができる。
【0051】なお、上記では、メモリ5bでの書込みを
先頭アドレスから最終アドレスまでとすることにより、
メモリ5bでの古いデータが書き換えられ、これによっ
て誤った音声認識がなされるのを防止することができ
る。しかし、音声データの入力が終わると、メモリ5b
での書込みを終わるようにしてもよい。但し、この場合
には、同様に、古いデータによる誤った認識を防止する
ために、書込み終了したときの書込みアドレスWA2E
を記憶保持しておき、このメモリ5bの読出しとして
は、先頭アドレスからこの書込みの最終アドレスWA2
Eまでとする。
【0052】以上の説明では、音声データの入力の検出
を、この音声データの振幅Pと閾値Pthとを比較するこ
とにより行なったが、これ以外の方法を用いてもよい。
【0053】図5は音声データの先頭部分の波形Wを拡
大して示したものであり、これにより、入力音声データ
の検出方法の他の例について説明する。但し、Piは時
刻tiでのサンプルデータ、Pi-1は時刻ti-1でのサン
プルデータとする。
【0054】同図において、入力データの経過ととも
に、常時、サンプルデータPi,Pi-1の差分値ΔPを求
め、これを適宜設定された閾値Pthと比較し、これを図
4でのステップ101としてもよい。音声データではな
い入力データのときには、ΔP≒0であり、Pi<Pth
である。
【0055】さらに他の方法として、この差分値ΔPの
積分値ΣΔPを求め、これが適宜設定された閾値Pth
比較するようにして、図4におけるステップ101の処
理としてもよい。但し、この場合、図2(a)に示した
メモリ5aでの書込みが終了すると、この積分値ΣΔP
を0にリセットし、再度差分値ΔPを積分するようにす
る。
【0056】さらに他の方法として、予め決められた期
間毎に差分値ΔPが適宜設定された閾値Pth以上となる
回数kを検出し、この回数kが適宜設定された規定の回
数以上のとき、音声データとする判定処理を図4におけ
るステップ101の処理としてもよい。
【0057】以上のように、この実施形態では、図1に
おいて、音声認識部22と翻訳部23とをバススイッチ
11により接続したり、切り離したりすることができる
ので、音声認識部22での認識処理と翻訳部23での翻
訳処理とを時間的に重複して行なわせることができる。
【0058】図6はその様子を示したものであって、
「すみません。婦人靴売場はどこですか?」という言葉
を例にとると、まず、「すみません」という言葉が入力
され、これが音声認識部22で認識処理1がなされる
と、直ちに、「すみません」という認識結果1が翻訳部
23で翻訳処理1される。この翻訳処理1と並行して、
「婦人靴」という次の音声データが入力され、これにつ
いて音声認識処理2が実行される。そして、この音声認
識処理2の認識結果2として、「婦人靴」が認識されて
出力されると、翻訳処理1の結果としての「すみませ
ん」が翻訳されて出力され、ディスプレイ装置20に、
図6(b)に示すように、表示1として、認識結果1の
「すみません」とともに、翻訳結果の「Excuse me.」が
表示される。
【0059】同様な処理を繰り返し実行し、音声認識処
理2の結果として「婦人靴」という認識結果2が出力さ
れ、その翻訳処理2が実行されると、この翻訳処理2と
並行して、次の「どこですか」という音声データが入力
され、これが音声認識処理3される。そして、音声認識
処理3によって「どこですか」が認識されてその認識結
果3が出力されると、翻訳処理2によって翻訳された
「婦人靴」という翻訳結果が出力されて、これと先の認
識,翻訳結果と合成されて、図6(b)に示すように、
「すみません」,「婦人靴」,「Excuse me.women's sh
oes」という表示2としてディスプレイ装置20に表示
される。
【0060】そして、さらに、音声認識処理3の結果と
して出力される「どこですか」という認識結果3に対
し、翻訳処理3が実行され、この翻訳処理3の結果とし
て「どこですか」が翻訳されて出力され、先の認識結果
や翻訳結果と合成されて、図6(b)に示すように、表
示3として、「すみません。婦人靴売場はどこですか
?」という認識結果と、「Excuse me.Where are the wo
men'shoes?」という翻訳結果とがディスプレイ装置20
に表示され、これと同時に、「Excuse me.Where are th
e women'shoes?」という言葉がスピーカ19から発声さ
れる。
【0061】なお、スピーカ19から音声を出力するよ
うにする代わりに、図6(b)に示すように、「Excuse
me.Where are the women'shoes?」とともに、その読み
方をカタカナで表示するようにし、ユーザは、翻訳結果
の内容をこのカタカナの文章から確認し、自ら発音して
その意図を伝えるようにすることも可能であり、むし
ろ、自ら発音した方が、相手に対して気持ちが伝わる場
合もある。
【0062】図7は本発明による携帯型翻訳機を海外旅
行者が使用している場面を示している。
【0063】同図において、ユーザである海外旅行者2
6が、携帯型翻訳機25のディスプレイ装置及び音声入
出力手段を介して、例えば、店員27と会話をする際
に、この携帯型翻訳機25により、自分26の話す内容
が相手27のわかる言葉に翻訳されて意図が伝えられ、
逆に、相手27の言っている言葉が自分26のわかる言
葉に翻訳され、相手27の意図が理解できることにな
る。
【0064】図8はかかる携帯型翻訳機25の一具体例
を示す外観斜視図であり、28は携帯型翻訳機25の本
体、29は図1での指向性マイクロホン2に相当する指
向性マイクロホン、30は多方向性マイクロホン、31
は図1でのスピーカ19に相当するスピーカ、32は図
1でのディスプレイ装置に相当するディスプレイ装置の
表示画面、33,34は図1でのPCMCIAメモリ拡
張カード16に相当するICカードである。
【0065】同図において、かかる携帯型翻訳機25
を、例えば、海外旅行先の空港や駅構内,飛行機内,ホ
テル内,観光地,レストラン,ショッピングなどで使用
する場合、これらの場所で交わされる会話音声が指向性
マイクロホン29でアナログ音声信号として取り込ま
れ、これが翻訳されてスピーカ31から出力される。ま
た、この入力音声信号の認識結果や翻訳結果が表示画面
32で表示される。
【0066】なお、多方向性マイクロホン30は、空港
や駅構内,飛行機内,バスや地下鉄やタクシーなどの乗
物内,観光地建物内などでの会話音声に含まれる各場所
での雑音を除去する目的で使用されるものであって、会
話音声がないとき、これらの場所での全体音を取り込
み、指向性マイクロホン29からの入力データをキャン
セルするようにする。
【0067】ICカード33は、例えば、日本語から英
語に音声認識翻訳するための音響モデルや単語辞書,文
法辞書,翻訳事例辞書などを搭載したものであり、ま
た、ICカード34は、例えば、英語から日本語に音声
認識翻訳するための音響モデルや単語辞書,文法辞書,
翻訳事例辞書などを搭載している。かかるICカード3
3,34を本体28に装着すると、携帯型翻訳機25で
は、図1において、CPU6,13が夫々これらICカ
ード33,34の内容を読み取り、RAM7,14に格
納して音声データの認識や翻訳に使用する。
【0068】従って、種類の異なるICカード33,3
4を用いることにより、日本語から英語,英語から日本
語ばかりでなく、日本語からドイツ後,ドイツ後から日
本語など、ユーザの母国語と旅行先の任意の母国語との
翻訳が可能となり、機能が大幅に向上する。
【0069】
【発明の効果】以上説明したように、本発明によれば、
海外旅行先などで、少しでも会話らしい相互のコミュニ
ケーションをアシストする携帯型音声認識翻訳機を実現
するために、限られた少ないメモリ容量で、常時、音を
取り込んで音声を認識して翻訳するのに好適な音声取り
込み方法及び音声認識翻訳システムが実現できる。
【図面の簡単な説明】
【図1】本発明による音声認識翻訳システムの一実施形
態を示すブロック図である。
【図2】図1の音声入力部でのFPGAのメモリ装置の
一具体例を示す図である。
【図3】図1での入力データの一例を示す波形図であ
る。
【図4】図2に示したメモリ装置の動作を示すフローチ
ャートである。
【図5】図1の音声入力部でのFPGAによる音声デー
タの検出方法の一例を示す図である。
【図6】図1に示した実施形態の動作を示す図である。
【図7】本発明による携帯型翻訳機の一使用例を示す図
である。
【図8】本発明による携帯型翻訳機の一例を示す外観斜
視図である。
【図9】従来の携帯型音声翻訳装置の一例を示す図であ
る。
【符号の説明】
1 システム本体 2 指向性マイクロホン 4 A/D変換器 5 フィールドプログラマブルゲートアレイ 5a,5b メモリ 6 CPU 9,10 システムバス 11 バススイッチ 12 フィールドプログラマブルゲートアレイ 13 CPU 16 PCMCIAメモリ拡張カード 17 D/A変換器 19 スピーカ 20 ディスプレイ装置 21 音声入力部 22 音声認識部 23 翻訳部 24 音声出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/38 A (72)発明者 石渡 一嘉 東京都小平市上水本町5丁目20番1号 株 式会社日立製作所半導体事業部内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】音声を認識し、単語や文章に翻訳する音声
    認識システムにおいて、 音声データを取り込んで記憶するメモリ部と、 該メモリ部に取り込まれた一連の音声データに対して認
    識処理を行なう音声認識処理部と、 該音声認識部で認識された単語や文章の結果に対して、
    翻訳したい単語や文章に翻訳する翻訳処理部とを有し、 該メモリ部は、常時入力データを取り込む第1のメモリ
    と、該入力データが音声データであるときに該入力デー
    タを取り込む第2のメモリとから構成され、 該入力データが音声データであることが検出されると、
    該第1のメモリが書込みを停止し、かつ該第2のメモリ
    が書込みを開始し、該第1,第2のメモリから読み出さ
    れる該音声データを該音声認識部が認識処理することを
    特徴とする音声認識翻訳システム。
  2. 【請求項2】 請求項1に記載の音声認識翻訳システム
    において、 前記第1のメモリは、少なくとも、音声データがない状
    態と、音声データがない状態から音声データがある状態
    に変化する状態での入力データを格納可能な最低限度の
    容量を有することを特徴とする音声認識翻訳システム。
  3. 【請求項3】 請求項1または2に記載の音声認識翻訳
    システムにおいて、 前記入力データの振幅が予め設定された閾値以上となっ
    たとき、該入力データが前記音声データであると判定す
    ることを特徴とする音声認識翻訳システム。
  4. 【請求項4】 請求項1または2に記載の音声認識翻訳
    システムにおいて、 前記入力データの近接する2時点での振幅値Pi-1,Pi
    の差分値ΔPiが予め設定された閾値以上になったと
    き、該入力データが前記音声データであると判定するこ
    とを特徴とする音声認識翻訳システム。
  5. 【請求項5】 請求項1または2に記載の音声認識翻訳
    システムにおいて、 前記入力データの近接する2時点での振幅値Pi-1,Pi
    の差分値ΔPiを順次得て、該差分値ΔPの積分値ΣΔ
    iを演算し、該積分値ΣΔPiが予め設定された閾値以
    上となったとき、該入力データが前記音声データである
    と判定することを特徴とする音声認識翻訳システム。
  6. 【請求項6】 請求項1または2に記載の音声認識翻訳
    システムにおいて、 前記入力データの近接する2時点での振幅値Pi-1,Pi
    の差分値ΔPiを順次得て、該差分値ΔPiが予め設定さ
    れた閾値を越える回数を検出し、該検出回数が規定の回
    数を越えたとき、該入力データが前記音声データである
    と判定することを特徴とする音声認識翻訳システム。
JP8130041A 1996-05-24 1996-05-24 音声認識翻訳システム Pending JPH09319393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8130041A JPH09319393A (ja) 1996-05-24 1996-05-24 音声認識翻訳システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8130041A JPH09319393A (ja) 1996-05-24 1996-05-24 音声認識翻訳システム

Publications (1)

Publication Number Publication Date
JPH09319393A true JPH09319393A (ja) 1997-12-12

Family

ID=15024673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8130041A Pending JPH09319393A (ja) 1996-05-24 1996-05-24 音声認識翻訳システム

Country Status (1)

Country Link
JP (1) JPH09319393A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050604A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 音響処理装置およびそのプログラム
CN111354337A (zh) * 2018-12-24 2020-06-30 上海新微技术研发中心有限公司 语音识别方法以及用户终端
US10714080B2 (en) 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data
CN115038014A (zh) * 2022-06-02 2022-09-09 深圳市长丰影像器材有限公司 一种音频信号处理方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013050604A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 音響処理装置およびそのプログラム
US10714080B2 (en) 2017-02-10 2020-07-14 Samsung Electronics Co., Ltd. WFST decoding system, speech recognition system including the same and method for storing WFST data
CN111354337A (zh) * 2018-12-24 2020-06-30 上海新微技术研发中心有限公司 语音识别方法以及用户终端
CN115038014A (zh) * 2022-06-02 2022-09-09 深圳市长丰影像器材有限公司 一种音频信号处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3102866B2 (ja) 音声言語翻訳機
JP6080978B2 (ja) 音声認識装置および音声認識方法
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
JPH10507559A (ja) 音声サンプルを音声作動データ処理システムに伝送するための方法及び装置
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
EP0472193A2 (en) Translation device based on voice recognition and voice synthesis
KR102069697B1 (ko) 자동 통역 장치 및 방법
JPH09319393A (ja) 音声認識翻訳システム
JPH09146585A (ja) 音声認識翻訳システム
JPH1097280A (ja) 音声画像認識翻訳装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JPH09319297A (ja) 音声筆談器
JP3277579B2 (ja) 音声認識方法および装置
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP3110025B2 (ja) 発声変形検出装置
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치
JP2001042883A (ja) テキスト音声合成装置
JP3259734B2 (ja) 音声認識装置
JP2000242295A (ja) 音声認識装置および音声対話装置
JPH08110790A (ja) 音声認識装置
JP2001067096A (ja) 音声認識結果評価装置および記録媒体
JPH08297673A (ja) 音声入力翻訳装置
JP2006119377A (ja) 音声入力装置及び方法、並びにプログラム及び記憶媒体
JPS5953900A (ja) 音声認識方法