JP3890326B2 - 情報処理装置、情報処理方法ならびに記録媒体、プログラム - Google Patents

情報処理装置、情報処理方法ならびに記録媒体、プログラム Download PDF

Info

Publication number
JP3890326B2
JP3890326B2 JP2003378877A JP2003378877A JP3890326B2 JP 3890326 B2 JP3890326 B2 JP 3890326B2 JP 2003378877 A JP2003378877 A JP 2003378877A JP 2003378877 A JP2003378877 A JP 2003378877A JP 3890326 B2 JP3890326 B2 JP 3890326B2
Authority
JP
Japan
Prior art keywords
data
speech
translation
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003378877A
Other languages
English (en)
Other versions
JP2005141089A (ja
Inventor
裕美 池田
津義 八木沢
誠 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003378877A priority Critical patent/JP3890326B2/ja
Priority to PCT/JP2004/016195 priority patent/WO2005045804A1/en
Priority to US10/577,493 priority patent/US7421394B2/en
Priority to CN2004800322993A priority patent/CN1875400B/zh
Publication of JP2005141089A publication Critical patent/JP2005141089A/ja
Application granted granted Critical
Publication of JP3890326B2 publication Critical patent/JP3890326B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

本発明は、入力されたデータの認識処理におけるユーザ・インターフェースに関するものである。
近年、音声認識技術や文字認識技術等、認識技術を用いた様々なユーザ・インタフェースが提案されている。例えば、特開平7−160289号公報では、音声認識装置において、認識結果を特定できない場合、特定できない個所を入力された音声に対応を付けて容易に訂正できるようにするユーザ・インターフェースが提案されている。これにより、ユーザは特定できない認識結果を容易に訂正することができる。
また、特開昭63−48040号公報では、発呼者が述べた被呼者の名前を認識して自動取次ぎを行う構内交換機において、入力された音声を録音しておき、取次ぎ先の相手に再生して確認を行わせるユーザ・インターフェースが提案されている。これにより、認識結果が誤った場合でも、再生音を聞いて相手先のユーザが確認することができるため、相手先のユーザは認識結果が誤っていることに気付いた場合に、自ら訂正することができる。
特開平7−160289号公報 特開昭63−48040号公報
しかしながら、上記いずれの従来技術も、認識処理時にエラーが起きた場合や誤認識した場合、あくまでユーザ自身が訂正しなければならず利便性に欠ける。また、認識結果が正しい場合でも、その認識結果を用いた後の処理(例えば、翻訳処理等)を行った際にエラーが起きた場合も、ユーザ自身が訂正しなければならない。
一方、認識するための文法や標準パターンに、固有名詞を含むすべての語句を登録しておくことは困難であり、認識率の向上には限界があることは否めない。そのため、認識処理時あるいは認識結果を用いた後処理においてエラーが生じた場合に、極力、ユーザによる訂正作業の手間を省くことが望まれる。
本発明は、上記課題に鑑みてなされたものであり、入力されたデータを認識し、該認識結果を出力する情報処理装置において、入力データの認識時や認識結果を用いた後処理時にエラーが生じた場合であっても、ユーザ自身による訂正作業の手間を軽減し、ユーザの利便性を向上させることを目的とする。
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
前記入力された音声データ全体の認識可否を判断する第1の判断手段と、
前記第1の判断手段において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第2の判断手段と、を備え、
前記音声出力手段は、
前記第1の判断手段において認識不可と判断された場合、または、前記第2の判断手段において翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする
本発明によれば、入力されたデータを認識し、該認識結果を出力する情報処理装置において、入力データの認識時や認識結果を用いた後処理時にエラーが生じた場合であっても、ユーザ自身による訂正作業の手間を軽減し、ユーザの利便性を向上させることが可能となる。
以下、本発明の各実施形態について、添付図面を参照して説明する。
[第1の実施形態]
以下、本発明に係る情報処理装置の一実施形態について添付図面を参照して説明する。図1は、本発明の一実施形態にかかる情報処理装置の概略構成を示すブロック図である。情報処理装置101は、通信部102、操作部103、記憶部104、表示部105、OCR部106、制御部107、音声入力部108、音声出力部109、音声合成部110、音声認識部111から構成される。
通信部102はネットワークに接続され、外部の機器等とデータ通信を行う。操作部103はボタンやキーボード、マウス、タッチパネル、ペン、タブレット等から構成され、機器を操作する。記憶部104は磁気ディスク、光ディスク、ハードディスク装置等の記憶媒体から構成され、アプリケーションプログラム、入力された文字データや画像データ、音声データ等を記憶する。表示部105は液晶ディスプレイ等の表示装置から構成され、絵や文字等を表示する。
OCR部106は手書き文字や印字された文字を光学的に読み取り、前もって記憶されたパターンとの照合により文字を特定し、文字データを入力する。上記OCR部106は、スキャナと、読み取った画像から文字を識別して文書に変換するOCRソフトで構成してもよい。制御部107はワークメモリやマイクロコンピュータ等から構成され、記憶部104に記憶されたプログラムを読み出して実行する。音声入力部108はマイクロフォン等から構成され、ユーザが発声した音声を入力する。音声出力部109はスピーカやヘッドフォン等から構成され、音声合成部110にて合成された音声や、記憶部104に記憶された音声等を出力する。音声合成部110は記憶部104に記憶されたテキストに対して合成音声を生成する。音声認識部111は音声入力部108より入力された音声に対して音声認識を行う。上記音声認識技術、音声合成技術については既存の技術を利用する。
本発明の第1の実施形態に係る情報処理装置の特徴について説明する。図2は、音声入力部108より入力された音声を音声認識部111にて認識して、日本語から英語への翻訳を行い、生成された英語の文章を音声合成部110にて音声合成し、音声出力部109にて出力する場合のユーザ・インターフェースの一例を示した図である。このような場合においては、固有名詞を発声することが多いと考えられるが、音声を認識するための文法にそのすべての語句を登録しておくことは困難である。同様に、翻訳処理においても、すべての語句に対する英訳を登録しておくことは困難である。そこで、本装置ではユーザの入力音声を録音しておき、音声認識のための文法に登録されていない語句が入力された場合や、音声認識処理時にエラーが起きた場合、あるいは音声認識結果の確信度が低い場合、あるいは対応する英訳が登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合等に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。
また、入力したい語句が認識のための文法に登録されていない語句であること、あるいは翻訳等の処理ができない語句であることをユーザがあらかじめ把握している場合は、入力音声を録音し、出力時に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる録音再生モードをユーザが選択できるようにする。上記音声認識技術、音声合成技術、翻訳技術については既存の技術を利用する。
以下、図3〜図6に示す例を用いて、本実施形態にかかる情報処理装置の様々な動作について説明する。
図3は、ユーザの「エッフェル塔」という入力音声を認識することができた場合の例である。この場合、音声認識結果「エッフェル塔」を英語の「the Eiffel Tower」に翻訳する。その結果、生成された文「How can I get to the Eiffel Tower?」を音声合成で出力する。なお、上記出力は音声合成だけでなく、表示画面に文字や画像で表示してもよい。
これに対して、図4は、ユーザが入力した「エイフェルタワー」という語句が音声認識のための文法に登録されていない場合、あるいは認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合(例えば30%以下である場合等)の例である。この場合、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。図4の例では定型文「How can I get to」は音声合成で出力し、続いて、ユーザの入力音声「エイフェルタワー」を再生する。このとき、表示画面には音声認識のための文法にその語句が登録されていないことや認識処理時にエラーが起きたこと、あるいは認識結果の確信度が低かったこと等を表す文字や画像を表示してもよい。
また、図5は、アプリケーションでの処理(翻訳処理)時に、対応する英訳が登録されていない場合やエラーが起きた場合、処理結果の確信度が低い場合の例である。ユーザの「ビッグ・ベン」という入力音声を認識し、続いて音声認識結果「ビッグ・ベン」という単語を日本語から英語へ翻訳する。翻訳処理において、認識結果の「ビッグ・ベン」に対応する英訳がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合(例えば30%以下である場合等)、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる。
図5の例では定型文「How can I get to」は音声合成で出力し、続いて、録音していたユーザの入力音声「ビッグ・ベン」を再生する。このとき、表示画面には対応する英訳がなかったことや翻訳処理時にエラーが起きたこと、あるいは翻訳結果の確信度が低かったこと等を表す文字や画像を表示してもよい。ここで、上記翻訳処理において、認識結果の「ビッグ・ベン」に対応する英訳が登録されていない場合、認識結果のテキスト「ビッグ・ベン」を出力し、「How can I get to ビッグ・ベン?」を音声合成で出力してもよい。
また、入力したい語句が音声認識のための文法に登録されていない語句であること、あるいは翻訳処理ができない語句であることをユーザがあらかじめ把握している場合は、入力音声を録音し、出力時に定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる録音再生モードをユーザが選択できるようにする。図6のように、録音再生モードのときには、ユーザの「Mike's house」という入力音声を録音し、音声認識と翻訳処理は行わない。出力する際に定型文「How can I get to」は音声合成で出力し、続いて、録音していたユーザの入力音声「Mike's house」を再生する。このとき、表示画面には録音していた入力音声を再生することを表す文字や画像を表示してもよい。
以上の動作を図7のフローチャートを用いて説明する。まず、音声認識モードであるか否かの設定を読み込む(ステップS702)。音声認識モードでない場合(録音再生モードの場合)、音声が入力される(ステップS703)と、その音声を録音する(ステップS704)。出力の際には、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる(ステップS705、図6)。
一方、音声認識モードの場合、音声が入力されると、入力された音声を認識する(ステップS707)とともに入力音声を録音する(ステップS708)。音声認識のための文法にユーザが入力した語句が登録されていない場合や認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合(例えば30%以下である場合等)は(つまり、ステップS709の「NO」の場合は)、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる(ステップS710、図4)。音声認識のための文法にユーザが入力した語句が登録されている場合や認識結果の確信度が高い場合(例えば30%以上である場合等)は(つまり、ステップS709の「YES」の場合は)、続いて、認識した語句の処理(翻訳処理)を行う(ステップS711)。
翻訳処理において、認識結果に対応する英語の語句が登録されていない場合や翻訳結果の翻訳処理時にエラーが起きた場合、あるいは確信度が低い場合(例えば30%以下である場合等)は(つまり、ステップS712の「NO」の場合は)、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせる(ステップS710、図5)。認識結果に対応する英語の語句がシステムに登録されている場合や翻訳結果の確信度が高い場合(例えば30%以上である場合等)は(つまり、ステップS712の「YES」の場合は)、生成した文をすべて音声合成にて出力する(ステップS713、図3)。上記出力は音声合成だけでなく、表示画面に文字や画像で表示してもよい。
以上説明したように、本実施形態によれば、入力された音声を記録しておき、音声認識のための文法に登録されていない語句が入力された場合や、音声認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合、あるいは対応する英訳がシステムに登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは処理結果の確信度が低い場合に、定型文から生成される音声合成出力と、録音しておいた入力音声の再生とを組み合わせて出力することで、誤認識時やエラー発生時にユーザ自身が訂正する回数が軽減し、利便性が向上する。
[第2の実施形態]
続いて、本発明の第2の実施形態に係る情報処理装置について説明する。前述の第1の実施形態では音声を認識する場合の例を示したが、本実施形態では、手書き文字を認識する場合の例を示す。なお、装置構成は図1と同様であるため説明は省略する。また、手書き文字の認識には既存の技術を利用する。ただし、文字は手書き文字でなく、印字された文字をOCR部106にて光学的に読み取り、前もって記憶されたパターンとの照合により特定したものでもよい。
図8は、操作部103より入力された文字を制御部107にて認識して、英語から日本語への翻訳を行い、生成された日本語の文章をテキストで表示部105に表示出力する場合の装置の動作を示した図である。第1の実施形態と同様に、ユーザの入力文字画像を記憶部104に記録しておき、文字認識のための標準パターンに登録されていない文字が入力された場合や文字認識時にエラーが起きた場合、あるいは文字認識結果の確信度が低い場合、あるいは対応する日本語訳が登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは翻訳処理結果の確信度が低い場合等に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。
また、入力したい文字(語句)が認識のための標準パターンに登録されていない文字であること、あるいは翻訳等の処理ができない文字(語句)であることをユーザがあらかじめ把握している場合は、入力文字画像を記録し、出力時に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる記録出力モードをユーザが選択できるようにする。上記テキスト出力技術、翻訳技術については既存の技術を利用する。
以下、図9〜図12に示す例を用いて、本実施形態にかかる情報処理装置の様々な動作について説明する。
図9は、ユーザの「the Tokyo Tower」という入力文字を認識することができた場合の例である。この場合、文字認識結果「the Tokyo Tower」を日本語の「東京タワー」に翻訳する。その結果、生成された文「東京タワーへはどう行けばいいですか?」をテキスト出力する。なお、上記出力はテキスト出力だけでなく、テキストを音声合成で出力してもよい。
これに対して、図10は、ユーザが入力した文字が文字認識のための標準パターンにユーザが入力した文字が登録されていない場合、あるいは文字認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合(例えば30%以下である場合等)の例である。この場合、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。図10の例ではユーザの入力文字画像「the Tokyo Tower」を出力し、定型文「へはどう行けばいいですか?」をテキスト出力する。このとき、文字認識のための標準パターンにユーザが入力した文字が登録されていないことや文字認識時にエラーが起きたこと、あるいは認識結果の確信度が低かったこと等を表す文字や画像、音声を出力してもよい。
図11は、対応する日本語訳がシステムに登録されていない場合やアプリケーションでの処理(翻訳処理)時にエラーが起きた場合、あるいは処理結果の確信度が低い場合の例である。ユーザの「the Tokyo Towr」という入力文字を認識し、続いて文字認識結果「the Tokyo Towr」を英語から日本語へ翻訳する。翻訳処理において、認識結果の「the Tokyo Towr」に対応する日本語訳がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合(例えば30%以下である場合等)、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる。
図11の例ではユーザの入力文字画像「the Tokyo Towr」を出力し、定型文「へはどう行けばいいですか?」をテキスト出力する。このとき、対応する日本語訳が登録されていないことや翻訳処理時にエラーが起きたこと、あるいは翻訳結果の確信度が低かったこと等を表す文字や画像、音声を出力してもよい。ここで、上記翻訳処理において、認識結果の「the Tokyo Towr」に対応する日本語訳がシステムに登録されていない場合、認識結果のテキスト「the Tokyo Towr」を出力し、「the Tokyo Towrへはどう行けばいいですか?」をテキスト出力してもよい。
また、文字認識のための標準パターンに登録されていない文字、あるいは対応する日本語訳が登録されていない語句であることをユーザがあらかじめ把握しているような場合には、入力文字画像を記録し、出力時に定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる記録出力モードをユーザが選択できるようにする。図12のように、記録出力モードのときには、ユーザの「Taro's house」という入力文字画像を記録し、文字認識と翻訳処理は行わない。出力する際にユーザの入力文字画像「Taro's house」を出力し、定型文「へはどう行けばいいですか?」をテキスト出力する。このとき、記録した入力文字画像を出力することを表す文字や画像、音声を出力してもよい。
以上の動作を図13のフローチャートを用いて説明する。まず、文字認識モードであるか否かの設定を読み込む(ステップS1301)。文字認識モードでない場合(記録出力モードの場合)、文字が入力されると(ステップS1303)、その文字画像を記録する(ステップS1304)。出力の際には、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる(ステップS1305、図12)。
一方、文字認識モードの場合、文字が入力されると(ステップS1306)、入力された文字を認識する(ステップS1307)とともに入力文字画像を記録する(ステップS1308)。文字認識のための標準パターンにユーザが入力した文字が登録されていない場合や認識処理時にエラーが起きた場合、あるいは認識結果の確信度が低い場合(例えば30%以下である場合等)は(つまり、ステップS1309の「NO」の場合)、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる(ステップS1310、図10)。文字認識のための標準パターンにユーザが入力した文字が登録されている場合や認識結果の確信度が高い場合(例えば30%以上である場合等)は(つまり、ステップS1309のYES」の場合は)、続いて、認識した語句の処理(翻訳処理)を行う(ステップS1311)。翻訳処理において、認識結果に対応する英語の語句がシステムに登録されていない場合や翻訳処理時にエラーが起きた場合、あるいは翻訳結果の確信度が低い場合(例えば30%以下である場合等)は(つまり、ステップS1312の「NO」の場合は)、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせる(ステップS1310、図11)。認識結果に対応する英語の語句がシステムに登録されている場合や翻訳結果の確信度が高い場合(例えば30%以上である場合等)は(つまり、ステップS1312の「YES」の場合は)、生成した文をすべてテキストにて出力する(ステップS1313、図9)。上記出力はテキスト出力だけでなく、テキストを音声合成で出力してもよい。
尚、上記文字認識は既存の画像認識技術を利用した画像認識でもよく、ユーザの入力画像に応じたテキストを翻訳後出力する、あるいは記録しておいた入力画像を出力するようにしてもよい。
以上説明したように、第2の実施形態によれば、入力された文字画像を記録しておき、文字認識のための標準パターンに登録されていない文字が入力された場合や、文字認識時にエラーが起きた場合、あるいは認識結果の確信度が低い場合、あるいは対応する日本語訳がシステムに登録されていない場合、あるいは翻訳処理時にエラーが起きた場合、あるいは処理結果の確信度が低い場合に、定型文のテキスト出力と、記録しておいた入力文字画像の出力とを組み合わせて表示出力することで、誤認識時やエラー発生時にユーザ自身が訂正する回数が軽減し、利便性が向上する。
[他の実施形態]
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の各実施形態にかかる情報処理装置の概略構成を示すブロック図である。 本発明の第1の実施形態にかかる情報処理装置のユーザ・インターフェースの一例を示す図である。 本発明の第1の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第1の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第1の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第1の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第1の実施形態にかかる情報処理装置の動作を示すフローチャートである。 本発明の第2の実施形態にかかる情報処理装置のユーザ・インターフェースの一例を示す図である。 本発明の第2の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第2の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第2の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第2の実施形態にかかる情報処理装置の動作の一例を示す図である。 本発明の第2の実施形態にかかる情報処理装置の動作を示すフローチャートである。

Claims (15)

  1. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
    前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
    前記入力された音声データ全体の認識可否を判断する第1の判断手段と、
    前記第1の判断手段において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第2の判断手段と、を備え、
    前記音声出力手段は、
    前記第1の判断手段において認識不可と判断された場合、または、前記第2の判断手段において翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
  2. 前記第1の判断手段は、前記入力された音声データ全体に対応する語句が音声認識のための文法に登録されていない場合又は音声認識処理時にエラーが発生した場合に、認識不可と判断することを特徴とする請求項1記載の情報処理装置。
  3. 前記音声出力手段は、前記第1の判断手段において認識不可と判断された場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力すると共に、認識不可であったことを示す情報を出力することを特徴とする請求項1記載の情報処理装置。
  4. 前記音声出力手段は、翻訳不可と判断された場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、翻訳不可であったことを示す情報を出力することを特徴とする請求項1記載の情報処理装置。
  5. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
    前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
    前記入力された音声データ全体を認識した際の、認識結果の確信度を取得する取得手段と、
    前記取得手段で取得した確信度が予め定められた閾値よりも高い場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する判断手段と、を備え、
    前記音声出力手段は、
    前記取得手段で取得した確信度が予め定められた閾値よりも低い場合、または、前記判断手段において、翻訳不可と判断された場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
  6. 前記音声出力手段は、前記取得手段で取得した確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、前記認識結果の確信度が低かったことを示す情報を出力することを特徴とする請求項5記載の情報処理装置。
  7. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
    前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
    前記入力された音声データ全体の認識可否を判断する判断手段と、
    前記判断手段において認識可能と判断された場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する取得手段と、を備え、
    前記音声出力手段は、
    前記判断手段において認識不可と判断された場合、または前記取得手段で取得した確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力すること特徴とする情報処理装置。
  8. 前記音声出力手段は、前記翻訳確信度が予め定められた閾値よりも低い場合に、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力するとともに、前記翻訳結果の翻訳確信度が低かったことを示す情報を出力することを特徴とする請求項7記載の情報処理装置。
  9. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、
    前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力手段と、を備える情報処理装置であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録手段と、
    前記入力された音声データ全体を音声認識する音声認識手段と、
    前記音声認識手段による前記音声データ全体に対する認識結果の確信度を取得する第1の取得手段と、
    前記第1の取得手段で取得した確信度が予め定められた閾値よりも高い場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する第2の取得手段と、を備え、
    前記音声出力手段は、
    前記確信度が予め定められた閾値よりも低い場合、または前記翻訳確信度が予め定められた閾値よりも低い場合、前記記録手段で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理装置。
  10. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
    前記入力された音声データ全体の認識可否を判断する第1の判断工程と、
    前記第1の判断工程において認識可能と判断された場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する第2の判断工程と、
    前記第2の判断工程において翻訳可能と判断された場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
    前記音声出力工程は、
    前記第1の判断工程において認識不可と判断された場合、または、前記第2の判断工程において翻訳不可と判断された場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
  11. 前記第1の判断工程は、前記入力された音声データ全体に対応する語句が音声認識のための文法に登録されていない場合又は音声認識処理時にエラーが発生した場合に、認識不可と判断することを特徴とする請求項10記載の情報処理方法。
  12. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
    前記入力された音声データ全体を認識した際の、認識結果の確信度を取得する取得工程と、
    前記取得工程において取得した確信度が予め定められた閾値よりも高い場合に、前記音声データを音声認識した認識結果全体の翻訳可否を判断する判断工程と、
    前記判断工程において翻訳可能と判断された場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
    前記音声出力工程は、
    前記取得工程において取得した確信度が予め定められた閾値よりも低い場合、または、前記判断工程において、翻訳不可と判断された場合、前記記録工程で記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
  13. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
    前記入力された音声データ全体の認識可否を判断する判断工程と、
    前記判断工程において認識可能と判断された場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する取得工程と、
    前記取得工程において取得した確信度が予め定められた閾値よりも高い場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
    前記音声出力工程は、
    前記判断工程において認識不可と判断された場合、または前記取得工程において取得した翻訳確信度が予め定められた閾値よりも低い場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力すること特徴とする情報処理方法。
  14. 文章の一部が欠落してなる定型文に対応する翻訳文を登録する登録手段と、
    前記欠落した部分に対応する音声データが入力された場合に、前記登録手段に登録された翻訳文を音声出力するための音声データである定型文翻訳音声データを生成するとともに、該入力された音声データを認識し、翻訳することで得られた翻訳文に基づいて、音声出力するためのデータである入力翻訳音声データを生成する生成手段と、を備える情報処理装置における情報処理方法であって、
    前記欠落した部分に対応する音声データが入力された場合に、該音声データを記録する記録工程と、
    前記入力された音声データ全体を音声認識する音声認識工程と、
    前記音声認識工程における前記音声データ全体に対する認識結果の確信度を取得する第1の取得工程と、
    前記第1の取得工程において取得した確信度が予め定められた閾値よりも高い場合であって、前記音声データを音声認識した認識結果全体を翻訳した際の、翻訳結果全体の翻訳確信度を取得する第2の取得工程と、
    前記第2の取得工程において取得した翻訳確信度が予め定められた閾値よりも高い場合に、前記定型文翻訳音声データと、前記入力翻訳音声データとを結合し、音声出力する音声出力工程と、を備え、
    前記音声出力工程は、
    前記確信度が予め定められた閾値よりも低い場合、または前記翻訳確信度が予め定められた閾値よりも低い場合、前記記録工程において記録した音声データを前記定型文翻訳音声データに結合して音声出力することを特徴とする情報処理方法。
  15. 請求項10乃至14のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。
JP2003378877A 2003-11-07 2003-11-07 情報処理装置、情報処理方法ならびに記録媒体、プログラム Expired - Fee Related JP3890326B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003378877A JP3890326B2 (ja) 2003-11-07 2003-11-07 情報処理装置、情報処理方法ならびに記録媒体、プログラム
PCT/JP2004/016195 WO2005045804A1 (en) 2003-11-07 2004-10-26 Information processing apparatus, information processing method and recording medium, and program
US10/577,493 US7421394B2 (en) 2003-11-07 2004-10-26 Information processing apparatus, information processing method and recording medium, and program
CN2004800322993A CN1875400B (zh) 2003-11-07 2004-10-26 信息处理设备和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003378877A JP3890326B2 (ja) 2003-11-07 2003-11-07 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Publications (2)

Publication Number Publication Date
JP2005141089A JP2005141089A (ja) 2005-06-02
JP3890326B2 true JP3890326B2 (ja) 2007-03-07

Family

ID=34567193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003378877A Expired - Fee Related JP3890326B2 (ja) 2003-11-07 2003-11-07 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Country Status (4)

Country Link
US (1) US7421394B2 (ja)
JP (1) JP3890326B2 (ja)
CN (1) CN1875400B (ja)
WO (1) WO2005045804A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142280A (ko) * 2012-03-08 2014-12-11 페이스북, 인크. 대화에서 정보를 추출하는 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4574390B2 (ja) * 2005-02-22 2010-11-04 キヤノン株式会社 音声認識方法
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
JP2006277103A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
US7653531B2 (en) * 2005-08-25 2010-01-26 Multiling Corporation Translation quality quantifying apparatus and method
JP4550708B2 (ja) * 2005-09-29 2010-09-22 株式会社東芝 音声翻訳装置及び音声翻訳方法
US20080004858A1 (en) * 2006-06-29 2008-01-03 International Business Machines Corporation Apparatus and method for integrated phrase-based and free-form speech-to-speech translation
JP2008065789A (ja) * 2006-09-11 2008-03-21 Canon Inc 入力操作支援装置およびその制御方法
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
FR2923928B1 (fr) * 2007-11-19 2009-12-04 Bonneton William Systeme d'interpretation simultanee automatique.
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
JP2011221237A (ja) * 2010-04-08 2011-11-04 Nec Corp 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
JP5372110B2 (ja) * 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
CN111833877B (zh) * 2020-07-17 2022-03-29 思必驰科技股份有限公司 语音识别单号的修复方法、装置、电子设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2560696B2 (ja) 1986-08-15 1996-12-04 日本電信電話株式会社 構内交換機の自動取次ぎ方式
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
JPH01293490A (ja) 1988-05-20 1989-11-27 Fujitsu Ltd 認識装置
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
JP3129893B2 (ja) 1993-10-20 2001-01-31 シャープ株式会社 音声入力ワープロ
JPH07160289A (ja) 1993-12-06 1995-06-23 Canon Inc 音声認識方法及び装置
JPH08235182A (ja) 1995-02-28 1996-09-13 Canon Inc 文章処理方法とその装置
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
US5787455A (en) * 1995-12-28 1998-07-28 Motorola, Inc. Method and apparatus for storing corrected words with previous user-corrected recognition results to improve recognition
GB9601925D0 (en) * 1996-01-31 1996-04-03 British Telecomm Database access
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
JP2000029492A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
JP2002014952A (ja) 2000-04-13 2002-01-18 Canon Inc 情報処理装置及び情報処理方法
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
JP4947861B2 (ja) 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
JP4280505B2 (ja) 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142280A (ko) * 2012-03-08 2014-12-11 페이스북, 인크. 대화에서 정보를 추출하는 장치
KR101689290B1 (ko) * 2012-03-08 2016-12-23 페이스북, 인크. 대화에서 정보를 추출하는 장치
US10318623B2 (en) 2012-03-08 2019-06-11 Facebook, Inc. Device for extracting information from a dialog
US10606942B2 (en) 2012-03-08 2020-03-31 Facebook, Inc. Device for extracting information from a dialog

Also Published As

Publication number Publication date
JP2005141089A (ja) 2005-06-02
US7421394B2 (en) 2008-09-02
US20070043552A1 (en) 2007-02-22
CN1875400B (zh) 2010-04-28
WO2005045804A1 (en) 2005-05-19
CN1875400A (zh) 2006-12-06

Similar Documents

Publication Publication Date Title
JP3890326B2 (ja) 情報処理装置、情報処理方法ならびに記録媒体、プログラム
US7047191B2 (en) Method and system for providing automated captioning for AV signals
JP4087400B2 (ja) 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4158937B2 (ja) 字幕修正装置
EP1091346B1 (en) Background system for audio signal recovery
JP3945778B2 (ja) 設定装置、プログラム、記録媒体、及び設定方法
JP2019046468A (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP5025261B2 (ja) 信頼水準の指示により音声認識の結果を訂正するためのシステム
JP4859101B2 (ja) テキストに付与する発音情報の編集を支援するシステム
JP4154015B2 (ja) 情報処理装置およびその方法
JP3682922B2 (ja) リアルタイム文字修正装置およびリアルタイム文字修正プログラム
JP2003029779A (ja) 自動通訳システム及びその方法並びにプログラム
US11606629B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP4235635B2 (ja) データ検索装置及びその制御方法
JP2024509710A (ja) データ処理方法、装置、機器、及びコンピュータプログラム
JP2000076241A (ja) 音声認識装置及び音声入力方法
JP2002123282A (ja) 翻訳装置および記録媒体
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
JPH07146919A (ja) 文書作成補助装置
KR20200124456A (ko) 방송 자막 제작 시스템
JP2004086124A (ja) メタデータ制作装置及び制作方法
JP2000010690A (ja) 情報処理装置及び方法
JP2001222290A (ja) 音声合成装置及びその制御方法並びに記憶媒体
JPS63253994A (ja) 音波情報記録再生方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121208

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131208

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees