JP3890326B2

JP3890326B2 - 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Info

Publication number: JP3890326B2
Application number: JP2003378877A
Authority: JP
Inventors: 裕美池田; 津義八木沢; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-07
Filing date: 2003-11-07
Publication date: 2007-03-07
Anticipated expiration: 2023-11-07
Also published as: JP2005141089A; US7421394B2; US20070043552A1; CN1875400B; WO2005045804A1; CN1875400A

Description

本発明は、入力されたデータの認識処理におけるユーザ・インターフェースに関するものである。

近年、音声認識技術や文字認識技術等、認識技術を用いた様々なユーザ・インタフェースが提案されている。例えば、特開平７−１６０２８９号公報では、音声認識装置において、認識結果を特定できない場合、特定できない個所を入力された音声に対応を付けて容易に訂正できるようにするユーザ・インターフェースが提案されている。これにより、ユーザは特定できない認識結果を容易に訂正することができる。

また、特開昭６３−４８０４０号公報では、発呼者が述べた被呼者の名前を認識して自動取次ぎを行う構内交換機において、入力された音声を録音しておき、取次ぎ先の相手に再生して確認を行わせるユーザ・インターフェースが提案されている。これにより、認識結果が誤った場合でも、再生音を聞いて相手先のユーザが確認することができるため、相手先のユーザは認識結果が誤っていることに気付いた場合に、自ら訂正することができる。
特開平７−１６０２８９号公報特開昭６３−４８０４０号公報

しかしながら、上記いずれの従来技術も、認識処理時にエラーが起きた場合や誤認識した場合、あくまでユーザ自身が訂正しなければならず利便性に欠ける。また、認識結果が正しい場合でも、その認識結果を用いた後の処理（例えば、翻訳処理等）を行った際にエラーが起きた場合も、ユーザ自身が訂正しなければならない。

一方、認識するための文法や標準パターンに、固有名詞を含むすべての語句を登録しておくことは困難であり、認識率の向上には限界があることは否めない。そのため、認識処理時あるいは認識結果を用いた後処理においてエラーが生じた場合に、極力、ユーザによる訂正作業の手間を省くことが望まれる。

本発明は、上記課題に鑑みてなされたものであり、入力されたデータを認識し、該認識結果を出力する情報処理装置において、入力データの認識時や認識結果を用いた後処理時にエラーが生じた場合であっても、ユーザ自身による訂正作業の手間を軽減し、ユーザの利便性を向上させることを目的とする。

上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体の認識可否を判断する第１の判断手段と、
前記第１の判断手段において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第２の判断手段と、を備え、
前記音声出力手段は、
前記第１の判断手段において認識不可と判断された場合、または、前記第２の判断手段において翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする。

本発明によれば、入力されたデータを認識し、該認識結果を出力する情報処理装置において、入力データの認識時や認識結果を用いた後処理時にエラーが生じた場合であっても、ユーザ自身による訂正作業の手間を軽減し、ユーザの利便性を向上させることが可能となる。

以下、本発明の各実施形態について、添付図面を参照して説明する。

[第１の実施形態]
以下、本発明に係る情報処理装置の一実施形態について添付図面を参照して説明する。図１は、本発明の一実施形態にかかる情報処理装置の概略構成を示すブロック図である。情報処理装置１０１は、通信部１０２、操作部１０３、記憶部１０４、表示部１０５、ＯＣＲ部１０６、制御部１０７、音声入力部１０８、音声出力部１０９、音声合成部１１０、音声認識部１１１から構成される。

通信部１０２はネットワークに接続され、外部の機器等とデータ通信を行う。操作部１０３はボタンやキーボード、マウス、タッチパネル、ペン、タブレット等から構成され、機器を操作する。記憶部１０４は磁気ディスク、光ディスク、ハードディスク装置等の記憶媒体から構成され、アプリケーションプログラム、入力された文字データや画像データ、音声データ等を記憶する。表示部１０５は液晶ディスプレイ等の表示装置から構成され、絵や文字等を表示する。

ＯＣＲ部１０６は手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する。上記ＯＣＲ部１０６は、スキャナと、読み取った画像から文字を識別して文書に変換するＯＣＲソフトで構成してもよい。制御部１０７はワークメモリやマイクロコンピュータ等から構成され、記憶部１０４に記憶されたプログラムを読み出して実行する。音声入力部１０８はマイクロフォン等から構成され、ユーザが発声した音声を入力する。音声出力部１０９はスピーカやヘッドフォン等から構成され、音声合成部１１０にて合成された音声や、記憶部１０４に記憶された音声等を出力する。音声合成部１１０は記憶部１０４に記憶されたテキストに対して合成音声を生成する。音声認識部１１１は音声入力部１０８より入力された音声に対して音声認識を行う。上記音声認識技術、音声合成技術については既存の技術を利用する。

本発明の第１の実施形態に係る情報処理装置の特徴について説明する。図２は、音声入力部１０８より入力された音声を音声認識部１１１にて認識して、日本語から英語への翻訳を行い、生成された英語の文章を音声合成部１１０にて音声合成し、音声出力部１０９にて出力する場合のユーザ・インターフェースの一例を示した図である。このような場合においては、固有名詞を発声することが多いと考えられるが、音声を認識するための文法にそのすべての語句を登録しておくことは困難である。同様に、翻訳処理においても、すべての語句に対する英訳を登録しておくことは困難である。そこで、本装置ではユーザの入力音声を録音しておき、音声認識のための文法に登録されていない語句が入力された場合や、音声認識処理時にエラーが起きた場合、あるいは音声認識結果の確信度が低い場合、あるいは対応する英訳が登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合等に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。

また、入力したい語句が認識のための文法に登録されていない語句であること、あるいは翻訳等の処理ができない語句であることをユーザがあらかじめ把握している場合は、入力音声を録音し、出力時に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる録音再生モードをユーザが選択できるようにする。上記音声認識技術、音声合成技術、翻訳技術については既存の技術を利用する。

以下、図３〜図６に示す例を用いて、本実施形態にかかる情報処理装置の様々な動作について説明する。

図３は、ユーザの「エッフェル塔」という入力音声を認識することができた場合の例である。この場合、音声認識結果「エッフェル塔」を英語の「ｔｈｅＥｉｆｆｅｌＴｏｗｅｒ」に翻訳する。その結果、生成された文「ＨｏｗｃａｎＩｇｅｔｔｏｔｈｅＥｉｆｆｅｌＴｏｗｅｒ？」を音声合成で出力する。なお、上記出力は音声合成だけでなく、表示画面に文字や画像で表示してもよい。

これに対して、図４は、ユーザが入力した「エイフェルタワー」という語句が音声認識のための文法に登録されていない場合、あるいは認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合（例えば３０％以下である場合等）の例である。この場合、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。図４の例では定型文「ＨｏｗｃａｎＩｇｅｔｔｏ」は音声合成で出力し、続いて、ユーザの入力音声「エイフェルタワー」を再生する。このとき、表示画面には音声認識のための文法にその語句が登録されていないことや認識処理時にエラーが起きたこと、あるいは認識結果の確信度が低かったこと等を表す文字や画像を表示してもよい。

また、図５は、アプリケーションでの処理（翻訳処理）時に、対応する英訳が登録されていない場合やエラーが起きた場合、処理結果の確信度が低い場合の例である。ユーザの「ビッグ・ベン」という入力音声を認識し、続いて音声認識結果「ビッグ・ベン」という単語を日本語から英語へ翻訳する。翻訳処理において、認識結果の「ビッグ・ベン」に対応する英訳がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合（例えば３０％以下である場合等）、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。

図５の例では定型文「ＨｏｗｃａｎＩｇｅｔｔｏ」は音声合成で出力し、続いて、録音していたユーザの入力音声「ビッグ・ベン」を再生する。このとき、表示画面には対応する英訳がなかったことや翻訳処理時にエラーが起きたこと、あるいは翻訳結果の確信度が低かったこと等を表す文字や画像を表示してもよい。ここで、上記翻訳処理において、認識結果の「ビッグ・ベン」に対応する英訳が登録されていない場合、認識結果のテキスト「ビッグ・ベン」を出力し、「ＨｏｗｃａｎＩｇｅｔｔｏビッグ・ベン？」を音声合成で出力してもよい。

また、入力したい語句が音声認識のための文法に登録されていない語句であること、あるいは翻訳処理ができない語句であることをユーザがあらかじめ把握している場合は、入力音声を録音し、出力時に定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる録音再生モードをユーザが選択できるようにする。図６のように、録音再生モードのときには、ユーザの「Ｍｉｋｅ'ｓｈｏｕｓｅ」という入力音声を録音し、音声認識と翻訳処理は行わない。出力する際に定型文「ＨｏｗｃａｎＩｇｅｔｔｏ」は音声合成で出力し、続いて、録音していたユーザの入力音声「Ｍｉｋｅ'ｓｈｏｕｓｅ」を再生する。このとき、表示画面には録音していた入力音声を再生することを表す文字や画像を表示してもよい。

以上の動作を図７のフローチャートを用いて説明する。まず、音声認識モードであるか否かの設定を読み込む（ステップＳ７０２）。音声認識モードでない場合（録音再生モードの場合）、音声が入力される（ステップＳ７０３）と、その音声を録音する（ステップＳ７０４）。出力の際には、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる（ステップＳ７０５、図６）。

一方、音声認識モードの場合、音声が入力されると、入力された音声を認識する（ステップＳ７０７）とともに入力音声を録音する（ステップＳ７０８）。音声認識のための文法にユーザが入力した語句が登録されていない場合や認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合（例えば３０％以下である場合等）は（つまり、ステップＳ７０９の「ＮＯ」の場合は）、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる（ステップＳ７１０、図４）。音声認識のための文法にユーザが入力した語句が登録されている場合や認識結果の確信度が高い場合（例えば３０％以上である場合等）は（つまり、ステップＳ７０９の「ＹＥＳ」の場合は）、続いて、認識した語句の処理（翻訳処理）を行う（ステップＳ７１１）。

翻訳処理において、認識結果に対応する英語の語句が登録されていない場合や翻訳結果の翻訳処理時にエラーが起きた場合、あるいは確信度が低い場合（例えば３０％以下である場合等）は（つまり、ステップＳ７１２の「ＮＯ」の場合は）、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる（ステップＳ７１０、図５）。認識結果に対応する英語の語句がシステムに登録されている場合や翻訳結果の確信度が高い場合（例えば３０％以上である場合等）は（つまり、ステップＳ７１２の「ＹＥＳ」の場合は）、生成した文をすべて音声合成にて出力する（ステップＳ７１３、図３）。上記出力は音声合成だけでなく、表示画面に文字や画像で表示してもよい。

以上説明したように、本実施形態によれば、入力された音声を記録しておき、音声認識のための文法に登録されていない語句が入力された場合や、音声認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合、あるいは対応する英訳がシステムに登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは処理結果の確信度が低い場合に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせて出力することで、誤認識時やエラー発生時にユーザ自身が訂正する回数が軽減し、利便性が向上する。

[第２の実施形態]
続いて、本発明の第２の実施形態に係る情報処理装置について説明する。前述の第１の実施形態では音声を認識する場合の例を示したが、本実施形態では、手書き文字を認識する場合の例を示す。なお、装置構成は図１と同様であるため説明は省略する。また、手書き文字の認識には既存の技術を利用する。ただし、文字は手書き文字でなく、印字された文字をＯＣＲ部１０６にて光学的に読み取り、前もって記憶されたパターンとの照合により特定したものでもよい。

図８は、操作部１０３より入力された文字を制御部１０７にて認識して、英語から日本語への翻訳を行い、生成された日本語の文章をテキストで表示部１０５に表示出力する場合の装置の動作を示した図である。第１の実施形態と同様に、ユーザの入力文字画像を記憶部１０４に記録しておき、文字認識のための標準パターンに登録されていない文字が入力された場合や文字認識時にエラーが起きた場合、あるいは文字認識結果の確信度が低い場合、あるいは対応する日本語訳が登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは翻訳処理結果の確信度が低い場合等に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。

また、入力したい文字（語句）が認識のための標準パターンに登録されていない文字であること、あるいは翻訳等の処理ができない文字（語句）であることをユーザがあらかじめ把握している場合は、入力文字画像を記録し、出力時に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる記録出力モードをユーザが選択できるようにする。上記テキスト出力技術、翻訳技術については既存の技術を利用する。

以下、図９〜図１２に示す例を用いて、本実施形態にかかる情報処理装置の様々な動作について説明する。

図９は、ユーザの「ｔｈｅＴｏｋｙｏＴｏｗｅｒ」という入力文字を認識することができた場合の例である。この場合、文字認識結果「ｔｈｅＴｏｋｙｏＴｏｗｅｒ」を日本語の「東京タワー」に翻訳する。その結果、生成された文「東京タワーへはどう行けばいいですか？」をテキスト出力する。なお、上記出力はテキスト出力だけでなく、テキストを音声合成で出力してもよい。

これに対して、図１０は、ユーザが入力した文字が文字認識のための標準パターンにユーザが入力した文字が登録されていない場合、あるいは文字認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合（例えば３０％以下である場合等）の例である。この場合、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。図１０の例ではユーザの入力文字画像「ｔｈｅＴｏｋｙｏＴｏｗｅｒ」を出力し、定型文「へはどう行けばいいですか？」をテキスト出力する。このとき、文字認識のための標準パターンにユーザが入力した文字が登録されていないことや文字認識時にエラーが起きたこと、あるいは認識結果の確信度が低かったこと等を表す文字や画像、音声を出力してもよい。

図１１は、対応する日本語訳がシステムに登録されていない場合やアプリケーションでの処理（翻訳処理）時にエラーが起きた場合、あるいは処理結果の確信度が低い場合の例である。ユーザの「ｔｈｅＴｏｋｙｏＴｏｗｒ」という入力文字を認識し、続いて文字認識結果「ｔｈｅＴｏｋｙｏＴｏｗｒ」を英語から日本語へ翻訳する。翻訳処理において、認識結果の「ｔｈｅＴｏｋｙｏＴｏｗｒ」に対応する日本語訳がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合（例えば３０％以下である場合等）、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。

図１１の例ではユーザの入力文字画像「ｔｈｅＴｏｋｙｏＴｏｗｒ」を出力し、定型文「へはどう行けばいいですか？」をテキスト出力する。このとき、対応する日本語訳が登録されていないことや翻訳処理時にエラーが起きたこと、あるいは翻訳結果の確信度が低かったこと等を表す文字や画像、音声を出力してもよい。ここで、上記翻訳処理において、認識結果の「ｔｈｅＴｏｋｙｏＴｏｗｒ」に対応する日本語訳がシステムに登録されていない場合、認識結果のテキスト「ｔｈｅＴｏｋｙｏＴｏｗｒ」を出力し、「ｔｈｅＴｏｋｙｏＴｏｗｒへはどう行けばいいですか？」をテキスト出力してもよい。

また、文字認識のための標準パターンに登録されていない文字、あるいは対応する日本語訳が登録されていない語句であることをユーザがあらかじめ把握しているような場合には、入力文字画像を記録し、出力時に定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる記録出力モードをユーザが選択できるようにする。図１２のように、記録出力モードのときには、ユーザの「Ｔａｒｏ'ｓｈｏｕｓｅ」という入力文字画像を記録し、文字認識と翻訳処理は行わない。出力する際にユーザの入力文字画像「Ｔａｒｏ'ｓｈｏｕｓｅ」を出力し、定型文「へはどう行けばいいですか？」をテキスト出力する。このとき、記録した入力文字画像を出力することを表す文字や画像、音声を出力してもよい。

以上の動作を図１３のフローチャートを用いて説明する。まず、文字認識モードであるか否かの設定を読み込む（ステップＳ１３０１）。文字認識モードでない場合（記録出力モードの場合）、文字が入力されると（ステップＳ１３０３）、その文字画像を記録する（ステップＳ１３０４）。出力の際には、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる（ステップＳ１３０５、図１２）。

一方、文字認識モードの場合、文字が入力されると（ステップＳ１３０６）、入力された文字を認識する（ステップＳ１３０７）とともに入力文字画像を記録する（ステップＳ１３０８）。文字認識のための標準パターンにユーザが入力した文字が登録されていない場合や認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合（例えば３０％以下である場合等）は（つまり、ステップＳ１３０９の「ＮＯ」の場合）、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる（ステップＳ１３１０、図１０）。文字認識のための標準パターンにユーザが入力した文字が登録されている場合や認識結果の確信度が高い場合（例えば３０％以上である場合等）は（つまり、ステップＳ１３０９のＹＥＳ」の場合は）、続いて、認識した語句の処理（翻訳処理）を行う（ステップＳ１３１１）。翻訳処理において、認識結果に対応する英語の語句がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合（例えば３０％以下である場合等）は（つまり、ステップＳ１３１２の「ＮＯ」の場合は）、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる（ステップＳ１３１０、図１１）。認識結果に対応する英語の語句がシステムに登録されている場合や翻訳結果の確信度が高い場合（例えば３０％以上である場合等）は（つまり、ステップＳ１３１２の「ＹＥＳ」の場合は）、生成した文をすべてテキストにて出力する（ステップＳ１３１３、図９）。上記出力はテキスト出力だけでなく、テキストを音声合成で出力してもよい。

尚、上記文字認識は既存の画像認識技術を利用した画像認識でもよく、ユーザの入力画像に応じたテキストを翻訳後出力する、あるいは記録しておいた入力画像を出力するようにしてもよい。

以上説明したように、第２の実施形態によれば、入力された文字画像を記録しておき、文字認識のための標準パターンに登録されていない文字が入力された場合や、文字認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合、あるいは対応する日本語訳がシステムに登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは処理結果の確信度が低い場合に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせて表示出力することで、誤認識時やエラー発生時にユーザ自身が訂正する回数が軽減し、利便性が向上する。

[他の実施形態]
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フロッピ（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明の各実施形態にかかる情報処理装置の概略構成を示すブロック図である。本発明の第１の実施形態にかかる情報処理装置のユーザ・インターフェースの一例を示す図である。本発明の第１の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第１の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第１の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第１の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第１の実施形態にかかる情報処理装置の動作を示すフローチャートである。本発明の第２の実施形態にかかる情報処理装置のユーザ・インターフェースの一例を示す図である。本発明の第２の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第２の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第２の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第２の実施形態にかかる情報処理装置の動作の一例を示す図である。本発明の第２の実施形態にかかる情報処理装置の動作を示すフローチャートである。

Claims

文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体の認識可否を判断する第１の判断手段と、
前記第１の判断手段において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第２の判断手段と、を備え、
前記音声出力手段は、
前記第１の判断手段において認識不可と判断された場合、または、前記第２の判断手段において翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
前記第１の判断手段は、前記入力された音声データ全体に対応する語句が音声認識のための文法に登録されていない場合又は音声認識処理時にエラーが発生した場合に、認識不可と判断することを特徴とする請求項１記載の情報処理装置。
前記音声出力手段は、前記第１の判断手段において認識不可と判断された場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力すると共に、認識不可であったことを示す情報を出力することを特徴とする請求項１記載の情報処理装置。
前記音声出力手段は、翻訳不可と判断された場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、翻訳不可であったことを示す情報を出力することを特徴とする請求項１記載の情報処理装置。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体を認識した際の、認識結果の確信度を取得する取得手段と、
前記取得手段で取得した確信度が予め定められた閾値よりも高い場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する判断手段と、を備え、
前記音声出力手段は、
前記取得手段で取得した確信度が予め定められた閾値よりも低い場合、または、前記判断手段において、翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
前記音声出力手段は、前記取得手段で取得した確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、前記認識結果の確信度が低かったことを示す情報を出力することを特徴とする請求項５記載の情報処理装置。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体の認識可否を判断する判断手段と、
前記判断手段において認識可能と判断された場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する取得手段と、を備え、
前記音声出力手段は、
前記判断手段において認識不可と判断された場合、または前記取得手段で取得した確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力すること特徴とする情報処理装置。
前記音声出力手段は、前記翻訳確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、前記翻訳結果の翻訳確信度が低かったことを示す情報を出力することを特徴とする請求項７記載の情報処理装置。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体を音声認識する音声認識手段と、
前記音声認識手段による前記音声データ全体に対する認識結果の確信度を取得する第１の取得手段と、
前記第１の取得手段で取得した確信度が予め定められた閾値よりも高い場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する第２の取得手段と、を備え、
前記音声出力手段は、
前記確信度が予め定められた閾値よりも低い場合、または前記翻訳確信度が予め定められた閾値よりも低い場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
前記入力された音声データ全体の認識可否を判断する第１の判断工程と、
前記第１の判断工程において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第２の判断工程と、
前記第２の判断工程において翻訳可能と判断された場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
前記音声出力工程は、
前記第１の判断工程において認識不可と判断された場合、または、前記第２の判断工程において翻訳不可と判断された場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
前記第１の判断工程は、前記入力された音声データ全体に対応する語句が音声認識のための文法に登録されていない場合又は音声認識処理時にエラーが発生した場合に、認識不可と判断することを特徴とする請求項１０記載の情報処理方法。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
前記入力された音声データ全体を認識した際の、認識結果の確信度を取得する取得工程と、
前記取得工程において取得した確信度が予め定められた閾値よりも高い場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する判断工程と、
前記判断工程において翻訳可能と判断された場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
前記音声出力工程は、
前記取得工程において取得した確信度が予め定められた閾値よりも低い場合、または、前記判断工程において、翻訳不可と判断された場合、前記記録工程で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
前記入力された音声データ全体の認識可否を判断する判断工程と、
前記判断工程において認識可能と判断された場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する取得工程と、
前記取得工程において取得した確信度が予め定められた閾値よりも高い場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
前記音声出力工程は、
前記判断工程において認識不可と判断された場合、または前記取得工程において取得した翻訳確信度が予め定められた閾値よりも低い場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力すること特徴とする情報処理方法。
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
前記入力された音声データ全体を音声認識する音声認識工程と、
前記音声認識工程における前記音声データ全体に対する認識結果の確信度を取得する第１の取得工程と、
前記第１の取得工程において取得した確信度が予め定められた閾値よりも高い場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する第２の取得工程と、
前記第２の取得工程において取得した翻訳確信度が予め定められた閾値よりも高い場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
前記音声出力工程は、
前記確信度が予め定められた閾値よりも低い場合、または前記翻訳確信度が予め定められた閾値よりも低い場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
請求項１０乃至１４のいずれか１つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。