JP2008096541A - 音声処理装置およびその制御方法 - Google Patents

音声処理装置およびその制御方法 Download PDF

Info

Publication number
JP2008096541A
JP2008096541A JP2006275729A JP2006275729A JP2008096541A JP 2008096541 A JP2008096541 A JP 2008096541A JP 2006275729 A JP2006275729 A JP 2006275729A JP 2006275729 A JP2006275729 A JP 2006275729A JP 2008096541 A JP2008096541 A JP 2008096541A
Authority
JP
Japan
Prior art keywords
speech
speech recognition
shortcut
setting
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006275729A
Other languages
English (en)
Other versions
JP2008096541A5 (ja
Inventor
Makoto Hirota
誠 廣田
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006275729A priority Critical patent/JP2008096541A/ja
Priority to US11/866,604 priority patent/US8046231B2/en
Publication of JP2008096541A publication Critical patent/JP2008096541A/ja
Publication of JP2008096541A5 publication Critical patent/JP2008096541A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】音声ショートカットの利便性を維持しつつ、音声ショートカットに対する音声認識率を向上可能とする技術を提供する。
【解決手段】複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置であって、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定手段と、音声を入力する音声入力手段と、前記音声入力手段で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識手段と、前記音声認識手段の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御手段とを備える。
【選択図】図4

Description

本発明は、音声認識に基づくユーザインタフェース技術に関するものである。
音声認識や音声合成を含んだユーザインタフェースが、カーナビゲーションをはじめとする機器操作に適用されるようになってきている。音声認識を用いたユーザインタフェースの利点の一つとして、目的とする操作画面へのショートカットが可能になることが挙げられる。例えば、グラフィカルユーザインタフェース(GUI)操作のみの場合、通常階層化されたメニューが用いられている。その場合、ユーザが、ある機能を実行するためには、例えば、画面1→画面2→画面3→画面4と順に辿らなければならない場合がある。一方、音声認識を用いたユーザインタフェースを用いると、例えば画面1において、画面4への遷移を指示するための所定の音声コマンドをユーザの発声により入力することで、直ちに画面4に遷移することが可能になる。
ただし、ユーザは、目的とする画面への遷移に対応する音声コマンドをあらかじめ知っておく必要がある。そこで、例えば、特許文献1には、ユーザによる操作の系列を記憶し、記憶された操作の系列に対応する音声ショートカットの存在をユーザに通知する技術が開示されている。この技術により、ユーザはより容易に音声ショートカットを学習することが可能となる。
特開2000−231398号公報
しかしながら、上述の特許文献1に開示された技術においては、当該機器において,あらゆる操作系列に対する多数の音声ショートカットを記憶しておく必要がある。実際に必要とされる音声ショートカットは各々のユーザによって異なるので,ユーザにとって不要な音声ショートカットも登録されることになる。そのため、機器において音声認識を実行する際には、音声ショートカットに対応するより多くの音声を認識する必要が生じ、その結果、音声認識率の低下を招くという問題があった。
本発明は上記問題点に鑑みなされたものであり、音声ショートカットの利便性を維持しつつ、音声ショートカットに対する音声認識率を向上可能とする技術を提供することを目的とする。
上述の問題点を解決するために、本発明の音声処理装置は以下の構成を備える。すなわち、複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置であって、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定手段と、音声を入力する音声入力手段と、前記音声入力手段で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識手段と、前記音声認識手段の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御手段とを備える。
ここで、前記設定手段は、前記音声認識語彙と前記ショートカットデータを対応付けて登録することで設定する。また、前記音声認識対象語彙と前記ショートカットデータとを対応付けて、非アクティブの状態で記憶する記憶手段を更に備え、前記設定手段は、前記ある状態へ遷移するためのショートカットデータに対応付けられている音声認識対象語彙をアクティブにすることで設定する。
また、前記設定手段により前記対応付けが設定された場合に、前記状態への音声入力によるショートカットが可能になったことをユーザに通知する通知部をさらに備えることを特徴とする請求項1に記載の音声処理装置。
そして、前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、前記設定の実行可否をユーザから受け付け、実行不可だった場合には設定を行わない。または、前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、音声認識対象語彙をユーザから受け付け、該音声認識対象語彙と前記ショートカットデータとを対応付けて登録する。あるいは、前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に初めて遷移した際に前記設定を行う。または、前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に、予め設定された回数遷移した際に前記設定を行う。
上述の問題点を解決するために、本発明の音声処理装置の制御方法は以下の構成を備える。すなわち、複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置の制御方法であって、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定工程と、音声を入力する音声入力工程と、前記音声入力工程で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識工程と、前記音声認識工程の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御工程とを備える。
上述の問題点を解決するために、本発明の音声処理装置の制御プログラムは以下の構成を備える。すなわち、複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置の制御方法をコンピュータに実行させるための制御プログラムであって、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定工程を実行するためのプログラムコードと、音声を入力する音声入力工程を実行するためのプログラムコードと、前記音声入力工程で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識工程を実行するためのプログラムコードと、前記音声認識工程の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御工程を実行するためのプログラムコードとを備える。
本発明によれば、音声ショートカットの利便性を維持しつつ、音声ショートカットに対する音声認識率を向上可能とする技術を提供することができる。
以下に、図面を参照して、この発明の好適な実施の形態を詳しく説明する。なお、これらの実施の形態に記載されている構成要素はあくまで例示であり、この発明の範囲はそれらのみに限定されない。
(第1実施形態)
本発明に係る音声処理装置の第1実施形態として、携帯情報端末を例に挙げて以下に説明する。
<概要>
携帯情報端末における、各種機能に対応する操作画面への音声ショートカットを、当該操作画面にユーザが到達した場合に登録するよう構成する。そのため、ユーザが使用しない機能に対応する操作画面へのショートカットは登録されることはない。つまり、このような構成とすることにより、登録される音声ショートカット数が低減可能となる。その結果、ユーザの利便性を維持しつつ、音声ショートカットに対する音声認識率を向上可能とする技術を提供することができる。
<装置構成>
図1は、第1実施形態に係る携帯情報端末の内部構成図である。携帯情報端末100は、ウェブ閲覧、メール、スケジュール管理などの各種アプリケーション機能を有する装置である。
101はCPUであり、ROM103に記憶されている各種アプリケーションプログラムを実行することにより、後述する各種機能を実行する。102はRAMであり、ROM103から読み出したプログラムやデータを一時的に記憶する。また、RAM102は、CPU101が各種のプログラムを実行するための領域としても利用される。103はROMであり、オペレーティングシステム(OS)や各種アプリケーションプログラムや制御プログラムおよびデータなどを記憶する。なお、ここではROM103として、EEPROMやフラッシュメモリなど書き換え可能な素子を想定する。
104は表示制御部であり、画像や文字等を表示部105に表示するための制御処理を行う。105は表示部であり、操作者に対し図形や文字などにより各種情報を表示する部分である。なお、表示部105としては液晶表示画面などが用いられる。
106は操作入力部であり、携帯情報端末100に対するユーザからの手入力による指示を受け付ける。具体的にはハードウェアキー106aやソフトウェアキー106bなどが挙げられる。107は音声入力部であり、携帯情報端末100に対するユーザからの発声(音声)による入力を受け付ける。具体的にはマイクが挙げられる。
108は通信インタフェース(I/F)であり、外部の装置との間で通信を行う。例えば、インターネットにアクセスするための無線LANI/Fなどが挙げられる。
図2は、第1実施形態に係る携帯情報端末の音声入力ユーザインタフェースに関連する内部機能ブロック図である。なお、以下の機能部は、CPU101がROM103に記憶されたプログラムを実行することにより実現される。
203は音声認識部であり、音声入力部107より入力された音声を認識する機能部である。以下では、音声認識部203は、音声入力部107より入力された音声と音声認識対象語彙に基づいて対応する文字列として認識結果を出力することを想定する。ただし、音声入力部107より入力された音声を識別するようなものであればよく、認識結果の出力形式は問わない。なお、音声認識の機能自体は公知のものを利用可能であり、説明は省略する。
204は対話管理部であり、携帯情報端末100のユーザインタフェースの制御を管理する機能部である。つまり、操作入力部106または音声入力部107からの入力に基づいて、表示部105に表示するGUI操作画面を管理する。
205はショートカットコマンド登録部であり、音声入力部107より入力された音声と所定の状態に遷移するためのショートカットデータとを対応付ける機能部である。ショートカットコマンド登録部205の動作の詳細については後述する。
206は音声認識文法保持部であり、ショートカットコマンド登録部205が登録したショートカットを記憶・管理する機能部である。
207は通知部であり、ショートカットコマンド登録部205がショートカットを登録した際、ユーザにその旨を通知するための機能部である。具体的には表示部105への画面表示出力、または、不図示のスピーカによる音声出力により実現される。
図3は、第1実施形態に係る携帯情報端末の外観およびGUIの一例を示す図である。ここでは、表示部105には階層化されたメニューのルートにあたるメインメニューが表示されている例を示している。
携帯情報端末100は、表示部105である液晶画面、操作入力部106であるハードキー、および、音声入力部107であるマイクを備える。図には、ハードキーとして、”メニューキー”、上下左右の”十字キー”、”OKキー”を示している。メニューキーを押すと、表示部105上にメインメニューが表示され、左上のアイコンがフォーカスされた状態になる。
<装置の動作>
図5は、メインメニューから”受信メール”の操作画面までのハードキーによる画面遷移を例示的に示す図である。ユーザは、”十字キー”および”OKキー”を複数回押下することにより”受信メール”の操作画面にたどり着くことが出来る。
具体的には、図3と同じメインメニューが表示された状態(501)において、まず、”十字キー”を右方向に押下することにより、アイコンのフォーカスを右方向に移動する(502,503)。その後、”OKキー”を押下することにより、フォーカスのあるアイコンに対応したサブメニュー画面に移動する(504,505,506)。その結果、”受信メール”の操作画面を表示する状態に到達する。ここでは、状態の例として各操作画面を表示する状態を例に挙げて説明する。
図4は、第1実施形態に係る携帯情報端末の音声入力ユーザインタフェースに関連する動作フローチャートである。なお、以下の各ステップの動作は、CPU101がROM103に記憶されたプログラムを実行することにより実現される。
ステップS401では、ユーザによるハードキーの入力があったか否かをチェックする。また、ステップS402では、システムは、ユーザによる音声入力があったか否かをチェックする。ハードキーの入力があった場合はステップS406に進む。一方、音声の入力があった場合はステップS403に進む。何れの入力も無い場合はステップS401に戻り再び入力のチェックを行う。
ステップS406では、図5を参照して説明したように、”十字キー”による画面上のアイコンフォーカスの移動や、”OKキー”によるアイコンに対応する画面への遷移を実行する。
ステップS407では、ステップS406による結果、所定の操作画面に到達したか否かを判定する。ここで、所定の操作画面とは、前述の”受信メール”などのアプリケーションであり、一般的には、階層化メニューの末端(下層)付近に対応する操作画面である。所定の操作画面に到達した場合はステップS408に進み、到達しなかった場合はステップS401に戻る。なお、所定の操作画面に到達した場合であっても、既に当該操作画面に対応するショートカットが音声認識文法保持部206に登録されている場合はステップS401に戻る。
ステップS408では、ステップS407で到達した操作画面に対応させたショートカット文字列を、音声認識文法保持部206に登録する。例えば、当該操作画面のタイトルバーなどに表示される名称をショートカット文字列として登録し、ここでは、”受信メール”という名称のショートカット文字列を登録する。これにより“受信メール”という名称のショートカット文字列と、“受信メール”の操作画面に遷移するためのショートカットデータとの対応付けが設定される。なお、ここでは、操作画面に到達した際にショートカット文字列を登録する構成として説明しているが、本発明はこれに限らず、ショートカット文字列とショートカットデータとの対応付けは予めしておき、これを非アクティブの状態で保持しておき、操作画面に到達した際に、それをアクティブにするといった構成としても構わない。アクティブになることでショートカット文字列が音声認識の対象となる。
ステップS409では、ステップS408で登録したショートカット文字列を表示部105への画面表示などを用いてユーザに通知する。このことにより、ユーザは、今後、任意の画面で”受信メール”と発声(音声入力)することで、”受信メール”の操作画面に直接移動するショートカット機能が利用可能であることを認識可能となる。なお、ユーザへの通知は、不図示のスピーカからの音声出力でもよい。
ステップS403では、ステップS402での音声入力に対し音声認識部203により音声認識を実行する。そして、音声認識された結果と一致するショートカット文字列を音声認識文法保持部206において検索する。
ステップS404では、ステップS403で一致するショートカット文字列があった場合はステップS405に進む。一方、一致するショートカット文字列が見つからなかった場合は、ステップS401に戻る。あるいは、「そのようなショートカットは登録されていません」というメッセージをユーザに通知した後、ステップS401に戻る。
ステップS405では、ステップS404で見つかったショートカット文字列に対応する操作画面へ遷移する。
以上説明をしたように、第1実施形態に係る携帯情報端末によれば、ユーザがキー入力によって一度訪れた操作画面に対応する音声ショートカットを登録する。そのようにすることにより、当該操作画面に対応するショートカット文字列を発声することにより直接その画面に遷移できるようになり、キー操作回数を減らすことができる。また、ショートカット文字列はショートカットが登録された際にユーザに通知されるので、ユーザは、その画面に直接遷移するために何を発声すればよいか、容易に知ることができる。さらに、音声認識文法保持部206には、ユーザが訪れたことのある画面のショートカット文字列のみが登録されることになるので、ショートカット文字列は必要な語彙に絞られ、誤認識の確率が低くなるという効果がある。
(変形例)
上述の説明においては、ステップS408において、ショートカット文字列を自動的に登録するよう説明を行った。これに対し、ショートカット文字列を登録するか否かをユーザに問い合わせ、ユーザが了承した場合のみ、ショートカット文字列を登録するようにしてもよい。例えば、図6のようなダイアログボックスを画面上に表示し、ユーザが”OK”を選択した場合のみ、ショートカット文字列を登録するようにしてもよい。
また、ユーザが登録するショートカットコマンドに対応する名称を登録できるようにしてもよい。
さらに、図7に示すように、ユーザ自身が覚えやすいショートカット文字列を登録するようにしてもよい。例えば前述の”受信メール”の操作画面に対して”受信メール”という文字列の代わりに”メールチェック”という文字列を関連付けて登録しても良い。そのため、例えば、702のような文字列入力パネルを表示し設定させると良い。このような構成とすることにより、ユーザはメニュー名(操作画面のタイトルバーなどに表示される名称)に限定されないシュートカット文字列を設定可能となる。そのため、ユーザは登録されたショートカットをより簡単に覚えられるという効果がある。
または、登録するショートカット文字列の入力に音声認識を用いた音声入力を利用しても良い。図8は、変形例に係る携帯情報端末の音声入力ユーザインタフェースに関連する内部機能ブロック図である。そのため、例えば、図9の902のような音声入力パネルを表示しショートカット文字列を設定させると良い。
なお、第1実施形態においては、音声認識部203の音声認識結果は文字列として出力されるとして説明をしているが、音声データのまま、あるいはそこから抽出された特徴量データの形で登録してもよい。その後、ショートカットのための発声と登録されたデータとの比較により、最も近い登録データを取り出せればよい。なお、音声認識による文字列入力などの技術については、既存の技術が流用可能であり、ここでは詳しく説明はしない。
さらに、第1実施形態においては、所定の操作画面に最初に到達した場合に、当該操作画面へのショートカットを登録するように説明を行った。しかし、その代わりに、所定の操作画面に到達した回数、あるいは、頻度(ある単位時間あたりの到達回数)をトリガとしてショートカットを登録するよう構成しても良い。このように構成することにより、ユーザがよく訪れる操作画面に対してのみショートカットが登録されるようになる。また、ユーザが操作ミスなどで意図せず到達した操作画面に対するショートカットが誤って登録されることを低減することができる。さらに、登録されるショートカット数をさらに絞り込むことが可能となるため、認識率の低下をさらに抑制することが可能となる。
また、図5の画面506のように、メインメニュー501から3階層下の操作画面56へのショートカットを登録することは、メニューのショートカットに有効である。一方、図10の画面1002のようにトップメニュー1001から1階層下のメニューに対してはもともと少ないキー操作で辿り着けるため、このようなメニューに対してはショートカットを登録する意味が少ない。そのため、少ないキー操作で到達できる画面や階層の浅い画面に対しては、ショートカット登録処理を抑止するよう構成しても良い。
(第2実施形態)
上述の第1実施形態および変形例においては、単一の機器である情報携帯端末について本発明を適用した。しかし、複数の機器から構成されるシステムに適用しても良い。第2実施形態では、コールセンタのシステムとして利用可能な電話による音声対話システムを例にあげて説明する。
<前提となるシステムの動作>
音声対話システムは、ユーザ宅に設置されるトーン信号を送出可能な電話機および、コールセンタ側に設置される情報処理装置により構成される。第2実施形態の前提となるシステムの動作について以下に説明する。
ユーザが電話機を用いて、コールセンタに電話をかけると以下のような階層化メニューにより構成される音声対話がなされる。
[1](センタ):製品に対するお問い合わせは「1」を、故障・修理のお問い合わせは「2」を押してください。
[2](ユーザ):(「1」キーを押下し)「1」に対応するトーン信号音を発生。
[3](センタ):カメラに関するお問い合わせは「1」、プリンタに関するお問い合わせは「2」を押してください。
[4](ユーザ):(「2」キーを押下し)「2」に対応するトーン信号音を発生。
[5](センタ):プリンタの機種名を発声してください。
[6](ユーザ):XXX(機種名を発声)
[7](センタ):担当へおつなぎします。(通話先の転送処理・・・・・)
<第2実施形態のシステムにおける動作>
上述のような音声対話システムにおいて、例えば、対話状態[7]において、
[7](センタ):担当へおつなぎします。なお、ここまでのショートカットを登録する場合は「#」を押してください。登録しない場合は、そのままお待ちください。(転送処理・・・・・)
のようにする。
ユーザによる「#」キーを押下により、「1」に対応するトーン信号音を発生し、センタ側は受信したトーン信号に基づいて、[6]における「XXX」に対応する文字列をショートカット文字列として登録する。そして、その旨を音声でユーザに通知する。その後、ユーザが、ふたたびセンタに電話した際には、以下のような対話を行うことができる。
[1’](センタ):製品に対するお問い合わせは「1」を、故障・修理のお問い合わせは「2」を押してください。
[2’](ユーザ):(発声)XXX
[3’](センタ):XXXの担当へおつなぎします。(転送処理・・・・・)
以上説明したとおり第2実施形態によれば、もともとは7ステップ必要であった対話ステップに対して、ショートカット機能により3ステップに短縮可能となる。
(他の実施形態)
なお、本発明は、前述した実施形態の機能を実現するプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置が、供給されたプログラムコードを読み出して実行することによっても達成される。従って、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラムコード自体も本発明の技術的範囲に含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD、DVD)、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ROMなどがある。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
第1実施形態に係る携帯情報端末の内部構成図である。 第1実施形態に係る携帯情報端末の音声入力ユーザインタフェースに関連する内部機能ブロック図である。 第1実施形態に係る携帯情報端末の外観およびGUIの一例を示す図である。 第1実施形態に係る携帯情報端末の音声入力ユーザインタフェースに関連する動作フローチャートである。 ハードキーによる画面遷移を例示的に示す図である。 登録可否を受け付けるダイアログボックスを例示的に示す図である。 操作入力部によりショートカット文字列を受け付ける文字列入力パネルを例示的に示す図である。 変形例に係る携帯情報端末の音声入力ユーザインタフェースに関連する内部機能ブロック図である。 音声入力部によりショートカット文字列を受け付ける文字列入力パネルを例示的に示す図である。 メニュー階層の浅い操作画面を例示的に示す図である。

Claims (10)

  1. 複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置であって、
    ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定手段と、
    音声を入力する音声入力手段と、
    前記音声入力手段で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識手段と、
    前記音声認識手段の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御手段と、
    を備えたことを特徴とする音声処理装置。
  2. 前記設定手段は、前記音声認識語彙と前記ショートカットデータを対応付けて登録することで設定することを特徴とする請求項1記載の音声処理装置。
  3. 前記音声認識対象語彙と前記ショートカットデータとを対応付けて、非アクティブの状態で記憶する記憶手段を更に備え、
    前記設定手段は、前記ある状態へ遷移するためのショートカットデータに対応付けられている音声認識対象語彙をアクティブにすることで設定することを特徴とする請求項1記載の音声処理装置。
  4. 前記設定手段により前記対応付けが設定された場合に、前記状態への音声入力によるショートカットが可能になったことをユーザに通知する通知部をさらに備えることを特徴とする請求項1に記載の音声処理装置。
  5. 前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、前記設定の実行可否をユーザから受け付け、実行不可だった場合には設定を行わないことを特徴とする請求項1に記載の音声処理装置。
  6. 前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、音声認識対象語彙をユーザから受け付け、該音声認識対象語彙と前記ショートカットデータとを対応付けて登録することを特徴とする請求項2に記載の音声処理装置。
  7. 前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に初めて遷移した際に前記設定を行うことを特徴とする請求項1に記載の音声処理装置。
  8. 前記設定手段は、ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に、予め設定された回数遷移した際に前記設定を行うことを特徴とする請求項1に記載の音声処理装置。
  9. 複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置の制御方法であって、
    ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定工程と、
    音声を入力する音声入力工程と、
    前記音声入力工程で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識工程と、
    前記音声認識工程の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御工程と、
    を備えたことを特徴とする制御方法。
  10. 複数の状態を有し、各状態へショートカットするためのショートカットデータを設定する音声処理装置の制御方法をコンピュータに実行させるための制御プログラムであって、
    ユーザによる操作入力部への操作入力により前記複数の状態のうちのある状態に遷移した際に、該状態へ遷移するためのショートカットデータと音声認識対象語彙との対応付けを設定する設定工程を実行するためのプログラムコードと、
    音声を入力する音声入力工程を実行するためのプログラムコードと、
    前記音声入力工程で入力された音声を、前記音声認識対象語彙を用いて認識する音声認識工程を実行するためのプログラムコードと、
    前記音声認識工程の認識結果である音声認識語彙に対応するショートカットデータを用いて状態を遷移させる制御工程を実行するためのプログラムコードと、
    を備えたことを特徴とする制御プログラム。
JP2006275729A 2006-10-06 2006-10-06 音声処理装置およびその制御方法 Pending JP2008096541A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006275729A JP2008096541A (ja) 2006-10-06 2006-10-06 音声処理装置およびその制御方法
US11/866,604 US8046231B2 (en) 2006-10-06 2007-10-03 Speech processing apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006275729A JP2008096541A (ja) 2006-10-06 2006-10-06 音声処理装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP2008096541A true JP2008096541A (ja) 2008-04-24
JP2008096541A5 JP2008096541A5 (ja) 2009-10-08

Family

ID=39275650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006275729A Pending JP2008096541A (ja) 2006-10-06 2006-10-06 音声処理装置およびその制御方法

Country Status (2)

Country Link
US (1) US8046231B2 (ja)
JP (1) JP2008096541A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010048874A (ja) * 2008-08-19 2010-03-04 Honda Motor Co Ltd 音声認識装置
JP2010224890A (ja) * 2009-03-24 2010-10-07 Konica Minolta Business Technologies Inc 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP2018022033A (ja) * 2016-08-03 2018-02-08 株式会社デンソーテン 音声認識装置及びその方法
JP2020144285A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2196989B1 (en) * 2008-12-10 2012-06-27 Nuance Communications, Inc. Grammar and template-based speech recognition of spoken utterances
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8453058B1 (en) 2012-02-20 2013-05-28 Google Inc. Crowd-sourced audio shortcuts
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
JP6363030B2 (ja) * 2015-02-05 2018-07-25 クラリオン株式会社 情報処理システム、および情報処理装置
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
KR102343084B1 (ko) * 2017-03-27 2021-12-27 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
KR102398649B1 (ko) * 2017-03-28 2022-05-17 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
KR20200027753A (ko) * 2018-09-05 2020-03-13 삼성전자주식회사 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) * 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
CN111399714A (zh) * 2019-05-31 2020-07-10 苹果公司 用户活动快捷方式建议
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
JP7418076B2 (ja) * 2019-07-16 2024-01-19 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231398A (ja) * 1999-01-18 2000-08-22 Thomson Multimedia Sa 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法
JP2001027540A (ja) * 1999-07-14 2001-01-30 Fujitsu Ten Ltd 音声認識機能を用いたナビゲーション方法
JP2001216129A (ja) * 2000-02-02 2001-08-10 Denso Corp コマンド入力装置
JP2002175175A (ja) * 2000-12-07 2002-06-21 Sumitomo Electric Ind Ltd 音声駆動可能なユーザインターフェイス
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム
JP2004287702A (ja) * 2003-03-20 2004-10-14 Kyocera Corp 携帯端末

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370238B1 (en) * 1997-09-19 2002-04-09 Siemens Information And Communication Networks Inc. System and method for improved user interface in prompting systems
US7735021B2 (en) * 2001-02-16 2010-06-08 Microsoft Corporation Shortcut system for use in a mobile electronic device and method thereof
US9374451B2 (en) * 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7292978B2 (en) * 2003-12-04 2007-11-06 Toyota Infotechnology Center Co., Ltd. Shortcut names for use in a speech recognition system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231398A (ja) * 1999-01-18 2000-08-22 Thomson Multimedia Sa 音声・手動ユーザインタフェースを具備した装置、並びに、この装置の音声命令学習支援方法
JP2001027540A (ja) * 1999-07-14 2001-01-30 Fujitsu Ten Ltd 音声認識機能を用いたナビゲーション方法
JP2001216129A (ja) * 2000-02-02 2001-08-10 Denso Corp コマンド入力装置
JP2002175175A (ja) * 2000-12-07 2002-06-21 Sumitomo Electric Ind Ltd 音声駆動可能なユーザインターフェイス
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム
JP2004287702A (ja) * 2003-03-20 2004-10-14 Kyocera Corp 携帯端末

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010048874A (ja) * 2008-08-19 2010-03-04 Honda Motor Co Ltd 音声認識装置
JP2010224890A (ja) * 2009-03-24 2010-10-07 Konica Minolta Business Technologies Inc 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP2018022033A (ja) * 2016-08-03 2018-02-08 株式会社デンソーテン 音声認識装置及びその方法
JP2020144285A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム

Also Published As

Publication number Publication date
US20080086306A1 (en) 2008-04-10
US8046231B2 (en) 2011-10-25

Similar Documents

Publication Publication Date Title
JP2008096541A (ja) 音声処理装置およびその制御方法
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
JP5754368B2 (ja) 車両の統合操作装置による携帯端末の遠隔的な操作方法、および車両の統合操作装置
JP4006338B2 (ja) 情報処理装置及びその方法、プログラム
RU2355045C2 (ru) Последовательный мультимодальный ввод
US9454964B2 (en) Interfacing device and method for supporting speech dialogue service
KR20130082339A (ko) 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
JP2005149484A (ja) 逐次的なマルチモーダル入力
CN108804070B (zh) 音乐播放方法、装置、存储介质及电子设备
EP3422344B1 (en) Electronic device for performing operation corresponding to voice input
JP2007280179A (ja) 携帯端末
EP2682931A1 (en) Method and apparatus for recording and playing user voice in mobile terminal
CN103324409A (zh) 在电子装置中提供快捷服务的设备和方法
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
US11615788B2 (en) Method for executing function based on voice and electronic device supporting the same
JP4796131B2 (ja) 筆記による及び/又は可聴音によるユーザ指示に応える、電子デバイス内のデータ管理のための、方法、電子デバイス、及びコンピュータ読み取り可能な記録媒体
JP2004134942A (ja) 携帯電話装置
KR20090063455A (ko) 터치스크린 동작 인식을 이용한 기능키 설정 방법 및 장치
WO2022251978A1 (en) Speech input to user interface controls
JPH113215A (ja) コンピュータ装置及びそれを用いた通信システム
JP2007219600A (ja) マルチモーダル入力装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110812

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111205