JP2007127813A - 音声認識装置およびその設定方法 - Google Patents

音声認識装置およびその設定方法 Download PDF

Info

Publication number
JP2007127813A
JP2007127813A JP2005320009A JP2005320009A JP2007127813A JP 2007127813 A JP2007127813 A JP 2007127813A JP 2005320009 A JP2005320009 A JP 2005320009A JP 2005320009 A JP2005320009 A JP 2005320009A JP 2007127813 A JP2007127813 A JP 2007127813A
Authority
JP
Japan
Prior art keywords
setting
voice
interpretation
instruction input
structured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005320009A
Other languages
English (en)
Other versions
JP4878471B2 (ja
JP2007127813A5 (ja
Inventor
Makoto Hirota
誠 廣田
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005320009A priority Critical patent/JP4878471B2/ja
Priority to US11/554,086 priority patent/US7844458B2/en
Publication of JP2007127813A publication Critical patent/JP2007127813A/ja
Publication of JP2007127813A5 publication Critical patent/JP2007127813A5/ja
Application granted granted Critical
Publication of JP4878471B2 publication Critical patent/JP4878471B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 一発声で複数の項目に対する設定を入力する際に、誤認識を抑制して効率的なマルチモーダル入力を実現する。
【解決手段】 音声入力部101から音声による設定指示を入力し、音声認識・解釈部103で該音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第1の構造化データを生成する。一方、タップ入力部102ではユーザによる設定指示入力を検知し、該設定指示入力の内容を解釈して第2の構造化データを生成する。そして解釈選択部104では、第1の構造化データに含まれる解釈候補のうち、第2の構造化データに含まれる設定項目名に合致する設定項目名を含むものを選択する。
【選択図】 図1

Description

本発明は、グラフィカル・ユーザ・インタフェース(GUI)と音声によるユーザ・インタフェース(UI)を組み合わせたマルチモーダルユーザインタフェースを適用した音声認識装置およびその設定方法に関する。
近年の音声認識技術の発展と機器としてのハードウエア性能の向上により、カーナビゲーションシステムや携帯電話、FAX装置等、パーソナルコンピュータやワークステーション以外の様々なコンピュータ制御機器において音声入力が可能になりつつある。
一般に、音声入力を可能とすることによって以下のようなメリットがある。
(1)ユーザが画面を見ずに、あるいは手を使わずに入力が可能
(2)画面に表示されていない項目に対しても直接設定が可能
(3)ユーザの一発声で複数の項目を設定可能
ここで一例として、複写機におけるコピー設定を行う場合、例えば、ユーザが原稿のコピーをA4サイズの用紙に5部取りたい場合について考える。通常のGUIやボタン入力によるUIであれば、まずテンキーで部数を入力し、さらに画面上の用紙設定ボタンを押下して用紙設定画面に移り、該画面において「A4」のボタンを押下する、といった複数段のステップを踏む必要がある。
これに対し、音声入力を用いた場合、「A4」と発声すれば用紙サイズの設定を行うことができるため、用紙設定画面に移る手間を省くことができる。つまり、上記(2)のメリットを活かすことができる。
さらに、「A4で5部」のような発声により、用紙サイズと部数を一度に設定することも可能である。これはすなわち、上記(3)のメリットを活かしたケースである。
また、GUI単独、あるいは音声単独の入力ではなく、GUIと音声を組み合わせたマルチモーダルな入力により、操作を効率化しようとする技術も考案されてきている(特許文献1、特許文献2参照)。
特登録2993872公報 特開平06−282569号公報
音声入力にはさまざまなメリットがある反面、「誤認識」というデメリットがある。例えば、ユーザが「A4」と発声しても、音声認識が「A3」と誤認識してしまう可能性がある。
また、「A4で5部」との発声を、「A4からB5」のように誤認識する可能性もある。この場合、ユーザは用紙サイズと部数の2項目を一度に設定しようとしたにも関わらず、倍率という1項目の設定に誤認識されたことになる。このように、項目そのものの認識まで誤られてしまうと、発声したユーザの困惑は大きくなり、誤認識の訂正にも手間がかかってしまうという問題があった。
一方で、従来のGUIによる操作では、設定項目をボタンで選択し、その設定項目の具体的な値を設定する、という階層的なステップを踏む方法がよく用いられる。このような操作方法によれば、音声入力のように設定項目そのものが誤認識されるという問題はない。しかしながら上述したように、複数のステップを踏まなければならないことが、ユーザの負担になっていた。
また、GUIと音声を組み合わせたマルチモーダル入力においても、特許文献1のように、自然言語による音声入力に対して自然言語解析を用いる方法は、自然言語解析の精度に影響を受けてしまうという問題があった。
本発明は上述した問題を解決するためになされたものであり、一発声で複数の項目に対する設定を行う際に、誤認識を抑制して効率的なマルチモーダル入力を可能とする音声認識装置およびその設定方法を提供することを目的とする。
上記問題を解決するための一手段として、本発明の音声認識装置は以下の構成を備える。
すなわち、音声による設定を可能とする音声認識装置であって、音声による設定指示を受信する受信手段と、前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第1の構造化データを生成する音声解釈手段と、ユーザによる設定指示入力を検知する指示入力検知手段と、前記設定指示入力の内容を解釈して第2の構造化データを生成する指示入力解釈手段と、前記第2の構造化データに基づいて、前記第1の構造化データに含まれる解釈候補から一つを選択する選択手段と、を備えることを特徴とする。
また、音声による設定を可能とする音声認識装置であって、音声による設定指示を受信する受信手段と、該入力された音声から特徴量系列を抽出する特徴抽出手段と、
所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索手段と、ユーザによる設定指示入力を検知する指示入力検知手段と、を有し、前記探索手段は、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする。
以上の構成からなる本発明の音声認識装置によれば、一発声で複数の項目に対する設定を入力する際に、誤認識を抑制して効率的なマルチモーダル入力が可能となる。
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の各実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
<第1実施形態>
本実施形態では、複写機においてコピー処理を行う際の設定を、音声入力とタッチパネル入力によって行うケースを説明する。
図1は、本実施形態に係る複写機において、マルチモーダル入力処理を行うブロック構成を示す図である。同図において、101は音声入力部、102はタップ入力部、103は音声認識・解釈部、104は解釈選択部である。また105は表示部であり、本実施形態におけるGUIの表示を制御する。
図2は、本実施形態に係る複写機のハードウエア構成を示すブロック図である。同図において、201はCPUであり、本実施形態の複写機における後述する動作手順を実現するプログラムに従って動作する。202はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。203はROMであり、上記プログラムの動作手順を実現するプログラムなどを保持する。204はユーザによるタッチ入力を可能とするLCDである。205はハードディスクである。206はA/Dコンバータであり、入力音声をデジタル信号に変換する。207は音声入力を行うマイク、208はバスである。
ここで図6〜図9に、複写機のLCD204上に表示されるGUI例を示す。各図には、画面左側に「部数」,「用紙」,「両面」,「倍率」という設定項目のボタンが並んでいる。
「部数」ボタンをタップした場合、図6のように、右側に部数を設定するためのテンキー入力パネルが現れる。ここで適当にテンキーをタップすることで、部数を示す数値を入力することができる。入力結果は、部数ボタンの右下位置に表示される。
同様に、図7,図8,図9はそれぞれ、「用紙」,「両面」,「倍率」の各ボタンをそれぞれタップした際に表示される画面例を示す。
本実施形態では、LCD204上におけるタップ入力に対し、音声による入力を併用することによって、複数項目に対する入力を効率化することを特徴とする。以下、図6〜図9のような画面表示を行うLCD204において、ユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら、同時に「エーヨンデサンブ」と発声したケースを例として説明する。
図3は、音声入力部101および音声認識・解釈部103における動作を示すフローチャートである。
まず、音声入力部101は、ユーザからの音声入力があったかどうかをチェックする(S301)。一般に、音声入力の検出は入力音声のパワーなどから判断されるが、これは周知の技術であるため、ここでは詳細な説明を省略する。音声入力があった場合は、受信した音声情報を音声認識し(S302)、さらに音声解釈を行う(S303)。ここで、音声認識とは入力音声を文字列に変換する処理であり、音声解釈とは認識結果を所定の構造化データに変換する処理である。例えば、ユーザが「エーヨンデサンブ」と発声した場合、これを認識して、「A4で3部」を出力するのが音声認識処理(S302)である。さらに、これを、
{用紙:A4;
部数:3;}
というように、項目名と項目値のペアからなる構造化データに変換するのが音声解釈処理(S303)である。
このように、入力音声を認識・解釈し、構造化データとして出力する処理は、既存の技術を用いて実現可能である。例えば、W3C(=World Wide Web Consortium)の音声認識文法仕様SRGSや、音声解釈ルール仕様SISRなどで記述された文法ルールに沿った音声認識・解釈処理を実施すればよい。
一般に音声認識処理においては、一つの結果を出力するのではなく、確信度(認識スコア)の高い上位N個を出力することができる。従って、解釈結果の構造化データもN個出力することができる。
ここで図10に、「エーヨンデサンブ」という入力音声を認識・解釈した結果として得られる構造化データの例を示す。図10において、"START"は入力音声の開始時刻、"END"は入力音声の終了時刻を示し、"音声解釈"のフィールドに解釈結果が含まれる。この例では、解釈結果の上位3個が含まれ、それぞれ、項目名と項目値のペアになっている。なお、各項目は入力音声中の発声時刻順に並んでいるものとする。例えば、図10に示す第1位の解釈は、「エーサンカラエーヨンデサンブ」のように認識した場合の解釈であり、この場合、「倍率」が「部数」よりも先に発声されたと認識していることになり、その順に項目が並ぶ。各解釈候補の順位はその音声認識に係る確信度によって決定され、各解釈候補は、図10において各順位の下部の括弧内に記されるように、それぞれの確信度情報(例えば、第1位で70)を含んでいる。
このような音声解釈の結果は、例えばRAM202に設けられた音声解釈スタックにプッシュされる(S304)。
ここで、図10に示す例において、第1位の解釈結果は誤認識であり、第2位が正しい解釈結果である。従って、音声入力だけを用いると、ユーザの入力は誤って解釈されてしまうことになる。本実施形態では、このような誤認識を防ぐために、さらにLCD204上におけるタップ入力を行う。
図4は、本実施形態におけるタップ入力部102の動作を示すフローチャートである。まず、ユーザからのタップ入力があったかどうかをチェックする(S401)。タップ入力があった場合、それが「部数」,「用紙」,「両面」,「倍率」ボタンのいずれかであれば、タップされたボタンに応じた設定パネルを表示する(S402)。例えば、「用紙」ボタンがタップされた場合は、LCD204上に図7のような用紙設定パネルを表示する。
続いて、タップ入力の解釈を行う(S403)。ここでの解釈とは、上述した音声解釈と同じ構造化データの形式で、「設定項目がXXXである」ことを表現するデータを出力することである。「用紙」ボタンがタップされた場合の解釈データは、図11に示すデータ110のようになる。タップ入力は音声入力のように曖昧性がないため、データ110に示すように解釈データとしては第1位の解釈結果のみが含まれる。また、"START"と"END"のタイムスタンプには、タップされた時刻が記録される。また、データ110の場合、設定項目が「用紙」であるが、その値(すなわち枚数)については、このタップ入力だけでは不明であることを「?」によって示している。
このようなタップ解釈結果は、例えばRAM202に設けられたタップ解釈スタックにプッシュされる(S404)。
ユーザが、「用紙」ボタン、「部数」ボタンを続けてタップした場合は、タップ解釈スタックには、図11に示すようにデータ110に続いてデータ120が保持され、2つの解釈結果データが保持された状態になる。
以上、図3および図4のフローチャートを用いて説明した処理により、ユーザ指示に基づく複数の音声解釈結果およびタップ解釈結果が、それぞれのスタックに保持された状態となる。次に本実施形態では、解釈選択部104において、これら解釈結果から最適なものを選択する。
図5は、解釈選択部104の動作を示すフローチャートである。解釈選択部104は、音声解釈スタックを常時監視し、該スタックに何らかの音声解釈データが保持されているか否かをチェックする(S501)。音声解釈データが保持されていれば、タップ解釈スタックの中に、この音声解釈データに対応するタップ解釈データが保持されているか否かをチェックする(S502)。タップ解釈データが音声解釈データに対応するか否かは、まず、タイムスタンプによって判断する。具体的には、図12に示すように、入力音声の開始時刻よりT1秒前から、終了時刻のT2秒後までの期間をDとし、タップ解釈データのタイムスタンプが期間Dに含まれていれば、そのタップ解釈データは音声解釈データに対応するとみなす。従って、図11に示す2つのタップ解釈データ110,120はともに、図10の音声解釈データに対応するとみなされる。なお、タップ解釈データが音声解釈データに対応するということはすなわち、音声とタップが同時入力されたとみなされることである。
ステップS502において、音声解釈データに対応するタップ解釈データが見つかった場合は、音声解釈データに含まれるN個の解釈候補の中から、タップ解釈データに最も合致するものを選択する(S503)。合致の度合いは、項目の一致度で判断する。例えば図11の場合、タップ解釈データ110,120に含まれる項目を時間順に並べると、「用紙」「部数」の順となるので、図10に示す音声解釈データの3つの候補のうち、「用紙」「部数」の順の項目を有するものは第2位候補と第3位候補である。このうち、順位の高い第2位の解釈候補が選択される。すなわち、「用紙」の値が「A4」で「部数」が3部であると解釈される。
一方、ステップS502において、タップ解釈データの項目に一致するものが音声解釈データの候補の中に無かった場合には、音声解釈データに対応するタップ解釈データが無いものと判断する。この場合、音声解釈データの第1位の候補が選択される(S504)。
ステップS503またはステップS504の処理によって、音声解釈データのN個の候補から一つが選択されると、音声解釈スタックおよびタップ解釈スタックを全てクリアする(S505)。
以上の処理の結果は、GUI(表示部105)上に表示される。
以上説明したように本実施形態によれば、音声入力に対してさらにタップ入力を統合をすることによって、音声の誤認識を適切に補って正しい解釈を得ることができる。すなわち、複数の項目を設定するUIにおいて、一つ以上の項目を一発声で入力するという音声入力のメリットを活かしつつ、かつ、誤認識によって意図しない項目に意図しない値が入力される危険性を回避することができる。
<第1実施形態の変形例>
第1実施形態の解釈選択部104においては、音声解釈データに対応するタップ解釈データが無い場合には、図5のステップS504で音声解釈データの第1位の候補を選択していた。これに対し、このような場合には音声入力とタップ入力の間に矛盾があると考え、入力の受理を拒絶するようにしてもよい。すなわち、音声解釈データに対応するタップ解釈データが無い場合は、「認識できませんでした。もう一度入力してください」のような音声メッセージを発することによって、ユーザに再入力を促しても良い。
<第2実施形態>
以下、本発明に係る第2実施形態について、詳細に説明する。第2実施形態では、上述した第1実施形態と同様に、複写機でコピー処理を行う際の設定を、音声入力とタッチパネル入力を併用して行う。特に、入力された音声の特徴量に基づいて音声認識文法の探索を行う際に、その候補をタップ入力によって制限することを特徴とする。
図13は、第2実施形態に係る複写機において、マルチモーダル入力処理を行うブロック構成を示す図である。同図において、1301は音声入力部、1302はタップ入力部、1307はGUI表示を制御する表示部であり、これらは上述した第1実施形態において図1に示した構成と同様である。また、1303は入力音声から特徴量を抽出する特徴抽出部、1304は音声認識文法保持部、1305は特徴量から音声認識文法に合致する最も適当な音素列パターンを選び出し、認識結果として出力する探索部である。1306は、音声認識結果を構造化データに変換する解釈部である。
なお、第2実施形態に係る複写機のハードウェア構成は、上述した第1実施形態で示した図2と同様であるため、説明を省略する。
以下、上述した第1実施形態と同様に、図6〜図9のようなGUI表示を行うLCD204において、ユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら、同時に「エーヨンデサンブ」と発声したケースを例として説明する。
音声認識文法保持部1304には、コピー処理に対する2設定を同時に発声したパターンを受理するように記述されているものとする。ここで、2設定を同時に発声するパターンとは、
「A4で3部」
「5部、片面から両面」
「B5に両面から両面」
「141%で10部」
・・・
のように、「部数」,「用紙」,「両面」,「倍率」の4つの設定項目のうち、任意の2つの値が一発声で入力されるようなパターンである。
図14は、音声入力部1301および特徴量抽出部1303、探索部1305、解釈部1306における動作を示すフローチャートである。
まず、音声入力部1301は、ユーザからの音声入力があったかどうかをチェックする(S1401)。音声入力があった場合は、特徴抽出部1303において受信した音声情報を特徴量系列に変換する(S1402)。この特徴量系列への変換は、音声認識処理分野における周知の技術によって可能であり、01,02,03,・・・,0nといった特徴量が時系列で出力される。
すると探索部1305は、この特徴量系列に対し、音声認識文法保持部1304に予め保持された音声認識文法に合致する、最も適当な音素列パターンを選び出し、認識結果として出力する(S1403)。例えば、音声認識文法が、「1部」,「2部」,「3部」,・・・といった部数に対する音声入力を受理するパターンとして記述されていた場合、これに対応するものとして、図15に示すような音素系列のデータがRAM202上に展開される。図15示す音素系列において、上段,中段,下段のパスはそれぞれ、「1(I−CH−I)部(B−U)」,「2(N−I)部(B−U)」,「3(S−A−N)部(B−U)」の音素列を示している。そして、特徴抽出部1303が出力した特徴量系列(01,02,03,・・・)が、図15に示す音素系列のどのパスに最も近いかを探索する。例えば、図15に太い矢印で示す中段のパスが、特徴量系列に最も近いパスであると判定された場合、ユーザの入力音声は「2部」であったと認識される。
図15に示すような音素系列の複数を直列および並列に組み合わせることによって、図16に示すように、2つの設定項目の値を発声したパターンを表現した音声系列を作成することができる。図16においては例えば、「部数」に関する音素系列1601と1605は認識される発声順が異なるのみであるため、同じ内容であっても良い。「用紙」,「両面」,「倍率」についても同様である。そして、特徴量系列がこの中のどのパスに最も近いかを算出することによって、一発声による2設定値の認識が可能になる。なお、このような処理は音声認識技術において周知であるため、ここでは詳細な説明を省略する。
さて、ユーザによる発声は、「用紙」ボタン、「部数」ボタンを続けてタップしながらなされている。したがって探索部1305には、抽出された特徴量系列(01,02,03,・・・)に対して図16中の最も近いパスの探索を実行している途中に、タップ入力部1302からタップ情報が入力されてくる。
探索部1305では、パス探索中のある時刻に、ユーザが「用紙」ボタンをタップしたという情報が得られた場合、図16に示す「用紙1」の音素系列1602を通るパスの中に正しいパスがあることが分かる。したがってこの時点で、「部数1」,「両面1」,「倍率1」を示す各音素系列1601,1603,1604を通るパスを、探索の候補から除外することができる。
同様に、2つ目のタップが「部数」ボタンであったという情報が得られた時点で、さらに、「部数2」の音素系列1605を通るパスの中に正しいパスがあることが分かる。したがって、「用紙2」,「両面2」,「倍率2」を示す音素系列1606,1607,1608を通るパスを、探索対象から除外する。
そして解釈部1306において、探索部1305で以上のように探索されたパスすなわち音声認識結果を構造化データに変換する(S1404)。
以上説明したように第2実施形態によれば、音素列パターンの探索処理中にタップ情報が入力されると、該タップ情報に基づいて探索候補を絞る。すなわち、特徴量系列に最も近いパスをタップ情報に合致するパスから選び出すため、上述した第1実施形態と同様に、音声の誤認識によって設定項目を間違うことはなくなる。
<第2実施形態の変形例>
上述した第2実施形態では、コピー処理に対する2項目の設定を同時に発声したパターンを受理する音声認識文法を用意しておき、ユーザが該2設定を同時に発声して、かつ該2項目の設定ボタンをタップする例を示した。
これに対し、任意数の設定を一発声で入力するパターンを受理するように音声認識文法を記述しておき、ユーザが該任意数の設定を同時に発声して、かつ任意回数のタップ入力を行った場合でも、受理できるようにしてもよい。この場合、最初のタップ情報で、図16の先頭ノードHにつながった各組の音素系列の中から、該タップ情報に合致するものを探索候補として残す。次いで2つ目のタップ情報に対しては、その残した音素系列の後方に直接つながった音素系列の中から、該2つ目のタップ情報に合致するものを残す、というふうに、探索候補を制限していけば良い。
<共通変形例>
上述した第1および第2実施形態においては、「部数」,「用紙」,「両面」,「倍率」などの設定項目のボタンをタップした場合、右側にその項目の設定パネルが現れる例を示した。従って、例えばユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら「エーヨンデサンブ」と発声した場合、画面上では、用紙設定のパネルと部数設定のパネルが続けて現れることになる。
しかしながら、ユーザが音声による入力を意図した場合は、こうした画面上のパネルの切り替わりは意味がなく、ユーザに不要な混乱を招く場合がある。このような問題を回避するために、音声入力のオン/オフ設定用のボタンを設け、音声入力がオンの状態では、設定項目ボタンをタップしてもパネル表示が切り替わらない、またはパネル表示がなされないようにすれば良い。なお、音声入力のオン/オフ切り換えは、ボタンによる明示的なものに限らない。例えば音声入力部が入力音声を検知した場合に音声入力をオンに設定しても良い。
また、上述した各実施形態では、音声入力とタップ入力とを併用する例について説明したが、タッチパネルを用いたタップ入力に限らず、音声入力以外のユーザ指示入力手段であれば、適用可能である。例えば、表示画面上でのマウスによるクリック入力や、操作部に設けられた所定ボタンの押下、キーボード上の所定キー押下等の動作を、実施形態で説明したタップ入力に替えて、音声入力と併用することも可能である。
<他の実施形態>
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したプログラムである。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM,DVD-R)などである。
プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。
本発明に係る一実施形態である複写機におけるマルチモーダル入力を行う構成を示すブロック図である。 本実施形態である複写機のハードウエア構成を示すブロック図である。 本実施形態の音声認識・解釈部における動作を示すフローチャートである。 本実施形態のタップ入力部における動作を示すフローチャートである。 本実施形態の解釈選択部における動作を示すフローチャートである。 本実施形態における画面表示例を示す図である。 本実施形態における画面表示例を示す図である。 本実施形態における画面表示例を示す図である。 本実施形態における画面表示例を示す図である。 本実施形態の音声認識・解釈部が出力する構造化データ例を示す図である。 本実施形態のタップ入力部が出力する構造化データ例を示す図である。 本実施形態における入力音声とタップ入力の対応を説明する図である。 第2実施形態の複写機におけるマルチモーダル入力を行う構成を示すブロック図である。 第2実施形態におけるマルチモーダル入力処理を示すフローチャートである。 第2実施形態における「部数」入力用の発声に対応した音声系列例を示す図である。 第2実施形態における2設定同時入力用の発声に対応した音声系列例を示す図である。

Claims (21)

  1. 音声による設定を可能とする音声認識装置であって、
    音声による設定指示を受信する受信手段と、
    前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第1の構造化データを生成する音声解釈手段と、
    ユーザによる設定指示入力を検知する指示入力検知手段と、
    前記設定指示入力の内容を解釈して第2の構造化データを生成する指示入力解釈手段と、
    前記第2の構造化データに基づいて、前記第1の構造化データに含まれる解釈候補から一つを選択する選択手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記指示入力検知手段は、表示画面からの設定指示入力を検知することを特徴とする請求項1記載の音声認識装置。
  3. 前記第1の構造化データに含まれるそれぞれの解釈候補は設定項目名およびその設定値の情報を含み、
    前記第2の構造化データは設定項目名の情報を含む
    ことを特徴とする請求項1または2記載の音声認識装置。
  4. 前記選択手段は、前記第1構造化データに含まれる解釈候補の中から、前記第2の構造化データに含まれる設定項目名に合致する設定項目名を含むものを選択することを特徴とする請求項3記載の音声認識装置。
  5. 前記第1の構造化データに含まれるそれぞれの解釈候補はさらに、解釈結果の確信度情報を含み、
    前記解釈選択手段はさらに、前記第1構造化データにおいて、前記第2の構造化データに含まれる設定項目名に合致する設定項目名を含む解釈候補の中から、前記確信度情報による順位が最も高いものを選択することを特徴とする請求項4記載の音声認識装置。
  6. 前記第1および第2の構造化データは、設定指示入力の開始時刻および終了時刻の情報を含むことを特徴とする請求項1乃至5のいずれかに記載の音声認識装置。
  7. 前記指示入力解釈手段は、生成した前記第2の構造化データの複数を保持し、
    前記解釈選択手段は、前記第1の構造化データに含まれる設定指示入力の開始時刻および終了時刻に基づいて、該第1の構造化データに対応する前記第2の構造化データを選択することを特徴とする請求項6記載の音声認識装置。
  8. 前記選択手段は、前記第2の構造化データに基づいて前記第1の構造化データから解釈候補を選択できない場合に、前記確信度情報による順位が最も高い解釈候補を選択することを特徴とする請求項5記載の音声認識装置。
  9. 前記選択手段は、前記第2の構造化データに基づいて前記第1の構造化データから解釈候補を選択できない場合に、前記音声入力手段による入力を拒否し、その旨を報知することを特徴とする請求項1乃至7のいずれかに記載の音声認識装置。
  10. 前記選択手段により選択された解釈候補に基づいて、該音声認識装置の設定を行う設定手段を更に備えたことを特徴とする請求項1乃至7のいずれかに記載の音声認識装置。
  11. 音声による設定を可能とする音声認識装置であって、
    音声による設定指示を受信する受信手段と、
    前記受信手段で受信した音声情報から特徴量系列を抽出する特徴抽出手段と、
    所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索手段と、
    ユーザによる設定指示入力を検知する指示入力検知手段と、を有し、
    前記探索手段は、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする音声認識装置。
  12. 前記探索手段は、前記設定指示入力によって示される設定項目の情報に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする請求項11記載の音声認識装置。
  13. さらに、音声認識文法を保持する文法保持手段を備え、
    前記音素列パターンの候補は、前記文法保持部に保持された音声認識文法に基づいて生成されることを特徴とする請求項11または12記載の音声認識装置。
  14. 前記指示入力検知手段は、表示画面からの設定指示入力を検知することを特徴とする請求項11乃至13のいずれかに記載の音声認識装置。
  15. 前記指示入力検知手段は、設定項目を意味する特定の画面領域に対する指示入力を前記設定指示入力として検知することを特徴とする請求項14記載の音声認識装置。
  16. さらに、前記探索手段による探索結果を出力する出力手段を備えることを特徴とする請求項11乃至15のいずれかに記載の音声認識装置。
  17. さらに、前記指示入力検知手段によって設定指示入力が検知された場合に、該設定指示入力に応じた設定用画面を表示する設定画面制御手段を有し、
    該設定画面制御手段は、前記音声入力手段による設定指示の入力があった場合には、前記設定用画面を表示しないことを特徴とする請求項1乃至16のいずれかに記載の音声認識装置。
  18. さらに、前記指示入力検知手段によって設定指示入力が検知された場合に、該設定指示入力に応じた設定用画面を表示する設定画面制御手段と、
    前記音声入力手段による設定指示入力の有無を切り替える音声入力切り替え手段と、を有し、
    前記設定画面制御手段は、前記音声入力切り替え手段が音声入力有りを示す場合には、前記設定用画面を表示しないことを特徴とする請求項1乃至16のいずれかに記載の音声認識装置。
  19. 音声による設定を可能とする音声認識装置における設定方法あって、
    音声による設定指示を受信する受信ステップと、
    前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第1の構造化データを生成する音声解釈ステップと、
    ユーザによる設定指示入力を検知する指示入力検知ステップと、
    前記設定指示入力の内容を解釈して第2の構造化データを生成する指示入力解釈ステップと、
    前記第2の構造化データに基づいて、前記第1の構造化データに含まれる解釈候補から一つを選択する選択ステップと、
    を備えることを特徴とする設定方法。
  20. 音声による設定を可能とする音声認識装置における設定方法であって、
    音声による設定指示を受信する受信ステップと、
    前記受信ステップで受信した音声情報から特徴量系列を抽出する特徴抽出ステップと、
    所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索ステップと、
    ユーザによる設定指示入力を検知する指示入力検知ステップと、を有し、
    前記探索ステップにおいては、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする設定方法。
  21. 情報処理装置上で実行されることによって、該情報処理装置を請求項1乃至請求項18の何れかに記載された音声認識装置として動作させることを特徴とするプログラム。
JP2005320009A 2005-11-02 2005-11-02 情報処理装置およびその制御方法 Expired - Fee Related JP4878471B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005320009A JP4878471B2 (ja) 2005-11-02 2005-11-02 情報処理装置およびその制御方法
US11/554,086 US7844458B2 (en) 2005-11-02 2006-10-30 Speech recognition for detecting setting instructions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005320009A JP4878471B2 (ja) 2005-11-02 2005-11-02 情報処理装置およびその制御方法

Publications (3)

Publication Number Publication Date
JP2007127813A true JP2007127813A (ja) 2007-05-24
JP2007127813A5 JP2007127813A5 (ja) 2008-12-11
JP4878471B2 JP4878471B2 (ja) 2012-02-15

Family

ID=37997643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005320009A Expired - Fee Related JP4878471B2 (ja) 2005-11-02 2005-11-02 情報処理装置およびその制御方法

Country Status (2)

Country Link
US (1) US7844458B2 (ja)
JP (1) JP4878471B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205429B2 (en) 2019-04-01 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4702936B2 (ja) * 2005-06-28 2011-06-15 キヤノン株式会社 情報処理装置及び制御方法、プログラム
JP5127201B2 (ja) * 2006-11-08 2013-01-23 キヤノン株式会社 情報処理装置及び方法並びにプログラム
JP5464785B2 (ja) * 2006-12-05 2014-04-09 キヤノン株式会社 情報処理装置および情報処理方法
US8782171B2 (en) * 2007-07-20 2014-07-15 Voice Enabling Systems Technology Inc. Voice-enabled web portal system
US8818816B2 (en) 2008-07-30 2014-08-26 Mitsubishi Electric Corporation Voice recognition device
US20100041479A1 (en) * 2008-08-15 2010-02-18 Wei Hsu Voice command game controlling apparatus and method of the same
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8682661B1 (en) 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9588964B2 (en) 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US10656808B2 (en) * 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US9141335B2 (en) 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US9436382B2 (en) * 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
CN113011164B (zh) * 2021-03-17 2023-10-20 平安科技(深圳)有限公司 数据质量检测方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62209500A (ja) * 1986-03-10 1987-09-14 日本電気株式会社 話者認識装置
JPH10312193A (ja) * 1997-05-12 1998-11-24 Nissan Motor Co Ltd 音声入力装置
JPH1168920A (ja) * 1997-08-26 1999-03-09 Fujitsu Ten Ltd 音声電話番号設定装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07122879B2 (ja) 1993-03-30 1995-12-25 日本電気株式会社 マルチモーダル入力解析装置
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP2993872B2 (ja) 1995-10-16 1999-12-27 株式会社エイ・ティ・アール音声翻訳通信研究所 マルチモーダル情報統合解析装置
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US6253184B1 (en) * 1998-12-14 2001-06-26 Jon Ruppert Interactive voice controlled copier apparatus
JP2000356994A (ja) * 1999-06-15 2000-12-26 Yamaha Corp オーディオシステム、その制御方法および記録媒体
US6633844B1 (en) * 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
GB0003903D0 (en) * 2000-02-18 2000-04-05 Canon Kk Improved speech recognition accuracy in a multimodal input system
US7584427B2 (en) * 2000-03-24 2009-09-01 Fuji Xerox Co., Ltd. Operating method and device, and image processing apparatus using the same
US6654720B1 (en) * 2000-05-09 2003-11-25 International Business Machines Corporation Method and system for voice control enabling device in a service discovery network
WO2002031643A1 (fr) * 2000-10-11 2002-04-18 Canon Kabushiki Kaisha Dispositif de traitement d'information, procede de traitement d'information et support de stockage
JP2003015844A (ja) * 2001-07-04 2003-01-17 Canon Inc 情報処理装置及びその制御方法、プログラム、記憶媒体
US20030020760A1 (en) * 2001-07-06 2003-01-30 Kazunori Takatsu Method for setting a function and a setting item by selectively specifying a position in a tree-structured menu
US7069215B1 (en) * 2001-07-12 2006-06-27 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US20030112277A1 (en) * 2001-12-14 2003-06-19 Koninklijke Philips Electronics N.V. Input of data using a combination of data input systems
US7136909B2 (en) * 2001-12-28 2006-11-14 Motorola, Inc. Multimodal communication method and apparatus with multimodal profile
JP4125089B2 (ja) * 2002-10-22 2008-07-23 キヤノン株式会社 データ入力装置、データ入力方法
WO2004053836A1 (en) * 2002-12-10 2004-06-24 Kirusa, Inc. Techniques for disambiguating speech input using multimodal interfaces
JP2004213111A (ja) * 2002-12-26 2004-07-29 Canon Inc コンピュータプログラム
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
JP3728304B2 (ja) * 2003-07-10 2005-12-21 キヤノン株式会社 情報処理方法、情報処理装置、プログラム、及び記憶媒体
JP3991030B2 (ja) * 2003-12-24 2007-10-17 キヤノン株式会社 画像形成装置、動作履歴記憶方法およびコンピュータプログラム
US7363224B2 (en) * 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
JP4280759B2 (ja) * 2006-07-27 2009-06-17 キヤノン株式会社 情報処理装置およびユーザインタフェース制御方法
JP5247384B2 (ja) * 2008-11-28 2013-07-24 キヤノン株式会社 撮像装置、情報処理方法、プログラムおよび記憶媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62209500A (ja) * 1986-03-10 1987-09-14 日本電気株式会社 話者認識装置
JPH10312193A (ja) * 1997-05-12 1998-11-24 Nissan Motor Co Ltd 音声入力装置
JPH1168920A (ja) * 1997-08-26 1999-03-09 Fujitsu Ten Ltd 音声電話番号設定装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205429B2 (en) 2019-04-01 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP4878471B2 (ja) 2012-02-15
US7844458B2 (en) 2010-11-30
US20070100636A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
JP4878471B2 (ja) 情報処理装置およびその制御方法
JP4416643B2 (ja) マルチモーダル入力方法
JP5653392B2 (ja) 音声翻訳装置、方法およびプログラム
TWI266280B (en) Multimodal disambiguation of speech recognition
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP4667138B2 (ja) 音声認識方法及び音声認識装置
US20170270086A1 (en) Apparatus, method, and computer program product for correcting speech recognition error
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2020118955A (ja) 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング
JP2009116841A (ja) 入力装置
JP2007171809A (ja) 情報処理装置及び情報処理方法
JP2006330576A (ja) 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
CN111385430B (zh) 图像形成系统和图像形成装置
US20060095263A1 (en) Character string input apparatus and method of controlling same
JP2010147624A (ja) 通信装置、検索処理方法および検索処理プログラム
JP2008203516A (ja) 情報処理装置および情報処理方法
JP2013050742A (ja) 音声認識装置および音声認識方法
JPWO2015045039A1 (ja) 方法、電子機器およびプログラム
JP2011193139A (ja) 画像形成装置
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2008146158A (ja) 情報処理装置及び情報処理方法
JP2020201911A (ja) 情報処理システム、情報処理装置、情報処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R151 Written notification of patent or utility model registration

Ref document number: 4878471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees