JP6272496B2 - 単語のシーケンスを含む音声を認識するための方法及びシステム - Google Patents

単語のシーケンスを含む音声を認識するための方法及びシステム Download PDF

Info

Publication number
JP6272496B2
JP6272496B2 JP2016554899A JP2016554899A JP6272496B2 JP 6272496 B2 JP6272496 B2 JP 6272496B2 JP 2016554899 A JP2016554899 A JP 2016554899A JP 2016554899 A JP2016554899 A JP 2016554899A JP 6272496 B2 JP6272496 B2 JP 6272496B2
Authority
JP
Japan
Prior art keywords
constraint
speech
gesture
word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016554899A
Other languages
English (en)
Other versions
JP2017511899A (ja
Inventor
ハーシャム、ブレット
ハーシェイ、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/337,472 external-priority patent/US9196246B2/en
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2017511899A publication Critical patent/JP2017511899A/ja
Application granted granted Critical
Publication of JP6272496B2 publication Critical patent/JP6272496B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1985Syntactic analysis, e.g. using a grammatical approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、包括的には、自動音声認識に関し、より詳細には、ユーザーに課す認知的負荷を低くしながら音声認識を提供することに関する。
運転者が行う運転に関連していない作業はいずれも、運転から注意を逸らす可能性があることが一般に知られている。これに起因して、法的手段及び運転者教育の双方によって、運転中の移動電話の使用を減らすことが近年注目されている。また、車両内で運転者が情報、通信及び娯楽機能にアクセスすることへの需要も増大している。
音声に基づくインターフェースは、従来の視覚インターフェース又は手動インターフェースよりも注意を逸らさないことができることが研究により示されている。限られた機能についてのコマンドに基づく音声インターフェースは車両において一般的になっている。一方、豊富な語彙の連続音声の認識は誤りが生じやすいので、SMSとしてのそのような機能について音声を用いてテキストを入力することは困難である。このため、運転中にユーザー側で注意を逸らすことを減らしながら、音声を用いて入力されたテキストを訂正又は他の形で変更することが必要とされている。
制約を受けない音声を訂正するための幾つかの方法は、編集アプリケーション、すなわち、コンピュータディスプレイ及び従来のキーボードを有するワードプロセッサを利用する。例えば、特許文献1に記載されている方法は、認識されたテキスト内の単語を関連する音声でタグ付けし、ワードプロセッシングソフトウェアのユーザーがテキストトランスクリプションを編集するために音声を聴くことを可能にすることによって、音声の誤認識を訂正する。
特許文献2に記載されている別の方法は、編集アプリケーションプログラムにおいて「音声イベントデータベース」をテキストトランスクリプション内の位置と関連付け、コンテキストを広げることによって、編集動作を改善している。そのような方法は、従来のキーボード、マウス及びメニュー選択を含む訂正作業に主に注意を払うことを必要とし、特に、視覚表示に注意を払うには視覚リソースを駆使することが必要である。しかしながら、キーボード、タッチスクリーン及び大きな視覚表示を用いると、運転から注意をそらすことが最小限にならない。
他の方法は、後続の音声を用いて最初の音声の結果として得られるトランスクリプションを編集することによって、インタラクションの複雑性を最小限にする。例えば、特許文献3に記載されている方法は、後続の発話を用いて音声認識の結果を訂正する。同様に、特許文献4に記載されている方法は、再認識されるべき音声認識の部分を選択する。しかしながら、音声の後続の解釈は誤りを生じる可能性があり、結果として、誤り訂正の労力を増大させ、運転者の注意散漫の更なる一因となる。
特許文献5に記載されている別の方法は、ユーザーによって与えられた単一の単語の訂正を用いて、その単一の単語に隣接する単語の代替的な提案を調整する。しかしながら、ユーザーの音声における複数の単語が誤って解釈される場合、ユーザーは音声解釈を複数回訂正しなくてはならない。さらに、この方法の訂正は、より一般的なタイプのインタラクションと対照的に、選択された単語の置換に限定され、これによってユーザーの注意を更に逸らすことにつながる場合がある。したがって、音声の解釈を誘導するのに必要なインタラクション及びユーザーの注意を最小限にする必要がある。
米国特許第5,960,447号 米国特許第5,970,460号 米国特許第6,064,959号 米国特許第7,444,286号 米国特許出願公開第2006/293,889号
本発明の幾つかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の音声認識において生じる誤りは、多くの場合に他の誤りに関連付けられているという認識に基づく。したがって、単に最初の誤りを訂正して追加のユーザー入力を待つのではなく、認識結果に対する訂正を用いて、他の誤りが生じた可能性がある場所を予測し、更なる誤りを訂正することができる。これらの他の誤りは、隣接する単語位置において生じる場合もあるし、又は隣接する単語に対する変更を一切必要とすることなく、より離れた位置において生じる場合もあり、このため、訂正を用いて認識結果を更新するべきである。このため、訂正制約を用いて、ユーザーが発した音声を再解釈することができる。
そのような制約は、個々の単語に対応する音響信号のみを用いる解釈と対照的に、単語のグループを正しく解釈する確率を改善することができる。例えば、代替候補「Wreck a nice beach」及び「Recognize speech」を含む認識結果を所与として、トピックが「pollution」であるという制約を用いて、第1の認識の確率を更新することができる。
例えば、ユーザーに、音声の解釈の1つ又は複数の特定の単語を訂正することを依頼する代わりに、ユーザーからの入力を用いて単語シーケンス制約を確定し、これを用いて音声の全体解釈を更新することができる。この認識によって、ユーザーが音声を訂正する労力を低減することが可能になる。なぜなら、単語の訂正はその単語のみの訂正しかもたらすことができないのに対し、単語シーケンス制約によって、音声の全体解釈の訂正をもたらすことができるためである。
例えば、幾つかの実施形態では、単語シーケンス制約は、音声における単語数、又は音声における特定の単語の欠如等の、音声のメタデータを含む。別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声の初期解釈に関する情報を含むことができ、そのような情報を用いて全体音声の解釈が再評価される。
また、幾つかの実施形態は、システムがユーザーに課す認知的負荷を低くするためには、単語シーケンス制約のエントリの方法が、制約の選択に必要なユーザーのアクションを最小限にするべきであるという認識に基づいている。単語シーケンス制約は、様々な値を有することができるが、様々なタイプも有することができる。例えば、単語シーケンス制約のタイプは、単語の選択又は拒否、単語のシーケンスの選択、タイムスロットの選択、シーケンス内の正しい単語のトレース、単語又は単語の順序の置換等を含むことができる。したがって、ユーザーの注意を運転等の主要な作業から逸らすことを最小限にしながら、制約のタイプ及び値の双方に選択に適合されたインターフェースを提供することが望ましい。
本発明の幾つかの実施形態は、ユーザーの単一のジェスチャーを解析して、単語シーケンス制約のタイプ及び値の双方を確定することができるという認識に基づいている。特に、ジェスチャーの形状を用いて単語シーケンス制約のタイプを確定することができ、インターフェースに対するジェスチャーのロケーション、例えば、ユーザーインターフェースの座標空間にマッピングされるとき(場合によっては、出力デバイス上に表示されるとき)のジェスチャー経路のロケーションを用いて、単語シーケンス制約の値を確定することができる。
例えば、水平方向のジェスチャーは、単語のシーケンスを選択する単語シーケンス制約のタイプにマッピングすることができる。表示デバイスにおけるこのジェスチャーの経路のロケーションを用いて、音声の解釈において存在する単語のシーケンスを確定することができる。同様に、垂直方向のジェスチャーは、単語のタイムスロットを選択するタイプにマッピングすることができ、表示デバイスにおけるこのジェスチャーの経路のロケーションを用いて、特定の単語の発話の時点及び/又は順序を確定することができる。同様にして、フリック、丸で囲む、ドラッグ選択、及び単語経路のトレースのようなジェスチャーの様々な形状を、様々なタイプの制約にマッピングすることができ、表示デバイスにおけるジェスチャーのロケーションを用いて、音声の可能な解釈の後続の再スコアリングのための制約の値を確定することができる。
したがって、本発明の1つの実施形態は、単語のシーケンスを含む音声を認識する方法を開示する。本方法は、
ジェスチャーの形状、及び音声の解釈の組を示す表示デバイスに対するジェスチャーのロケーションを求めることと、
ジェスチャーの形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて単語シーケンス制約のタイプを確定することと、
ジェスチャーのロケーションに基づいて単語シーケンス制約の値を確定することと、
単語シーケンス制約を用いて音声を認識することと、
を含む。本方法のステップはプロセッサによって実行される。
別の実施形態は、単語のシーケンスを含む音声を認識するシステムであって、
表示デバイスであって、音声の解釈の組を表示し、表示に応答して、表示デバイスに対するジェスチャーを受信するための表示デバイスと、
ジェスチャーの形状、及び表示デバイスにおける解釈の組からの要素のロケーションに対するジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、単語シーケンス制約を用いて音声を認識するための少なくとも1つのプロセッサと、
を備える、システムを開示する。
本発明の1つの実施形態による、音声認識のためのシステムの構成要素の概略図である。 本発明の幾つかの実施形態によるシステムを備える車両のインストゥルメンタルパネルの部分前面図である。 本発明の1つの実施形態による、音声認識モジュールの機能を示すブロック図である。 図2Aの方法のステップの一例である。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の様々な実施形態による、音声認識における誤り訂正のための方法によって実行されるステップのフローチャートである。 本発明の1つの実施形態による、強調された単語を有する単語のシーケンスの概略図である。 本発明の1つの実施形態による、2つの強調された単語を有する単語のシーケンスの概略図である。 本発明の1つの実施形態による、単語のシーケンス及び単語候補のソートされた組の概略図である。 本発明の例示的な実施形態の概略図である。 本発明の例示的な実施形態の概略図である。 本発明の例示的な実施形態の概略図である。 本発明の1つの実施形態による単語のシーケンスを含む音声を認識する方法のブロック図である。 入力デバイスの空間内の座標ロケーションのシーケンスによって表されるジェスチャーの例示的な形状の図である。 表示デバイスの座標空間におけるジェスチャーのロケーションによって表される表示デバイスに対するジェスチャーのロケーションの図である。 本発明の幾つかの実施形態による、単語シーケンス制約を表示及び指定するためのヒューマンマシンインターフェースの一例である。 本発明の幾つかの実施形態による、単語シーケンス制約を表示及び指定するためのヒューマンマシンインターフェースの一例である。 本発明の幾つかの実施形態による、ジェスチャーの形状の組と、単語シーケンス制約のタイプの組との間のマッピングの一例である。
図1Aは、本発明の幾つかの実施形態による、音声を発するユーザーに対する認知的負荷を最小限にしながら、音声を認識する方法を実施することが可能なシステム1の一例を示す。
システム1は、全体システムの動作を制御する中央処理装置(CPU)100を備える。システム1は、システムのオペレーティングシステム(OS)1010に関連するソフトウェアと、CPU100によって実行してシステムのユーザーにディクテーション及び誤り訂正等の特定の機能を提供することができるアプリケーションプログラム1011と、音声認識に関連するソフトウェア1012とを備えるメモリ101とインタラクトする。システム1は、音声を受信するオーディオインターフェース(I/F)102を更に備え、この音声は、マイクロフォン103によって記録するか、又は外部システムから取得した音声等の外部入力104から受信することができる。
システム1は、ディスプレイ106の動作を制御するためのディスプレイコントローラー105等の1つ又は幾つかのコントローラーを更に備えることができる。ディスプレイ106は、例えば、液晶ディスプレイ(LCD)又は他のタイプのディスプレイとすることができる。ディスプレイ106は、システム1の視覚ユーザーインターフェースとしての役割を果たし、例えば、単語のシーケンスをシステム1のユーザーに提示することを可能にする。システム1は、オーディオ出力システム112、例えば、1つ又は複数のスピーカーの動作を制御するためのオーディオ出力コントローラー111に更に接続することができる。システム1は、ジョイスティック108から入力を受信するためのジョイスティックコントローラー107、及びキーパッド110から入力を受信するためのキーパッドコントローラー109等の1つ又は複数の入力インターフェースに更に接続することができる。ジョイスティック及び/又はキーパッドの使用は単なる例示であることが容易に理解される。トラックボール又は矢印キーも必要な機能を実施するのに同様に良好に用いることができる。さらに、ディスプレイ106は、ユーザーからの入力を受信するためのインターフェースとしての役割を果たすタッチスクリーンディスプレイとすることができる。さらに、音声認識を実行する機能に起因して、システム1は、音声に関係しないインターフェースを全て全く用いずに済ますことができる。オーディオI/F102、ジョイスティックコントローラー107、キーパッドコントローラー109及びディスプレイコントローラー105は、CPU100が現在実行しているOS1010及び/又はアプリケーションプログラム1011に従ってCPU100によって制御される。
図1Bに示すように、システム1は、車両199のインストゥルメンタルパネル150内に埋め込むことができる。システム1の動作を制御するための様々な制御部131〜133をハンドル130に配置することができる。代替的に又はさらに、制御部125は、制御モジュール120上に設置することができる。システム1は、ユーザーの音声の解釈を改善して、ユーザーインタラクション数を低減するように構成され、それによってユーザーは車両の操作に集中することができる。
図2Aは、本発明の幾つかの実施形態による、誤り訂正機能が改善した音声認識システム200の機能を概略的に示す。音声認識ユニット200は、音声認識モジュール210を備え、音声認識モジュール210は、システム1のCPU100によって、メモリ101内に記憶される音声認識ソフトウェア1012を実行することにより実施することができる。
音声認識モジュール210は、単語のシーケンス(例えば完全な一文)の発話表現である音声230を受信する。様々な実施形態において、音声は、オーディオ信号、音声特徴、又はフレームベースの音響スコアの1つ又は複数の組合せを含む。単語のシーケンスは通常、複数の単語、例えば3つ以上の単語を含む。
音声認識モジュールは、音声230の音声認識を実行して、最適な事例では音声によって表現される単語のシーケンスに類似した、1組の解釈を求めるように構成される。組内の各解釈は単語のシーケンスを含む。音声認識モジュールは、音響モデル201及び言語モデル202を用いることができる。
音響モデル201は、例えば、システム1のメモリ101内に記憶することができ、1つの実施形態では、単語シーケンス仮説を所与とした音響特徴のシーケンス、又は単語の音素特性を表す単位の他のシーケンスの条件付き確率を記述する。音響モデルは、音素又は何らかの他の音単位を含むことができる。幾つかの実施形態では、音響モデルは音素シーケンスモデルと、音素片(sub-phonetic)状態シーケンスのモデルと、各音素片状態を所与とした音響特徴の確率のガウス混合モデルとを含むことができる。他の実施形態では、音響モデルは、例えばニューラルネットワークを用いた、音響特徴から音素状態シーケンス確率への変換を含むことができる。
言語モデル202は、システム1のメモリ101にも記憶することができ、少なくとも1つの単語を含む単語のシーケンスが言語に生じる確率に関する統計を含むことができる。言語モデル202は、例えば、言語において用いられる単一の単語の尤度に関するユニグラム言語モデル、又は言語の2つの単語が互いの後に続く尤度を表すバイグラム言語モデルとすることができる。また、より多くの数の後続の単語を検討する言語モデル、例えば、トリグラム言語モデル等も用いることができる。
幾つかの実施形態では、音声認識モジュール210は、音声を、単一の単語に関係すると想定されるセグメントに分割することによって音声認識を実行し、次に、例えば入力音声シーケンスセグメント内の音素を識別し、これらの音素を言語モデル202の音素対テキストマッピングと比較することによって、この単一の単語を認識する。
音声認識モジュール210は通常、入力音声シーケンスセグメントごとに1組の可能な解釈を特定し、ここで各解釈は単語のシーケンスを含む。解釈は、認識結果としても知られる。各解釈は、認識信頼度値、例えば解釈が単語のシーケンスを表す正確度を表すスコアに関連付けられる。スコアは、音声認識の、認識結果が正しいことの信頼度を表す。入力音声セグメントごとに、音声認識モジュールは、最も大きな認識信頼度値を有する認識結果、例えば単語を求め、入力音声シーケンスを表すとみなされる単語のシーケンスを得ることができる。
したがって、音声の音声認識は、言語モデル201を考慮に入れることによって更に精緻化される。次に、言語モデル及び認識語彙を用いて音声の解釈の組を生成する際に、認識信頼度値に加えて、言語において1つ又は複数の単語の組が生じる確率を考慮に入れる。例えば、バイグラム言語モデルの場合、可能な認識結果、例えば「three」ではなく「free」が、バイグラム言語モデルに起因して、音響空間に関して高い信頼度を有する場合であっても、それにもかかわらず、音声認識モジュール210は、コンテキスト、例えば意図される単語のシーケンス「at three o'clock」における「at」及び「o'clock」を用いて、「three」に有利に判定することができる。
図2Bは、音声240の解釈の組の例を示す。幾つかの実施形態では、解釈の組は、音声のnベストリスト250として又は音声の単語ラティス260として求められるか又は表現される。さらに、様々な実施形態は、組251内の解釈ごとに、スコア、例えば単語シーケンス制約を受ける解釈の正確度を表すスコア255を求める。スコアは、複数の方法によって求めることができる。
例えば、解釈の組の代替的な表現は、ラティス260として知られるグラフであり、このグラフでは、ノード、例えばノード265及び267は、音声の特定の領域により識別され、特定のコンテキストとともに生じる、仮定された各単語を表す。この表現において、nベストリスト内の多くの仮説における同じ場所に生じる単語及び単語シーケンスは、ラティス内の共通部分経路を共有するように低減することができる。単語に加えて、ラティスのアークは、音響モデルスコア及び言語モデルスコアを含むことができ、それによって、単語シーケンスのための全体スコアは、ラティスを通る経路に沿ってスコアから導出することができる。例えば、アーク261、262及び263は、単語「I」に単語「don't」、「want」及び「went」が続く対応する確率によって規定されるスコアを表すことができる。
幾つかの実施形態では、音声認識システムは確率モデルとして定式化され、スコアは、音響特徴の観察されるシーケンスを所与とした解釈又は単語のシーケンスの確率に基づく。解釈は、単語のシーケンスを含むことができ、仮定された単語に対応する発話の概算の時間領域も特定することができる。幾つかの実施形態におけるスコアS(W|X)は、音響データを所与とした単語シーケンスの確率に基づく。例えば、
Figure 0006272496
であり、ここで、∝は比例を示し(すなわち、S(W|X)=pθ(W|X)cであり、ここで、cは正の定数である)、θはモデルのパラメーターであり、pθは、パラメーターθを用いた確率測度を示し、W={w i=1は、解釈における仮定される単語のシーケンスw,w,...,wであり、wは(N個の単語での仮説について)位置iにおいて仮定される単語である。音響特徴は、X={x j=1で表され、ここで、xは(M個の音響特徴ベクトルを有する発話についての)発話の音響特徴のj番目のベクトルである。pθ(W|X)は、Xを所与としたWの事後確率として知られる。別の実施形態では、スコアはこの量の対数として規定することができる。
Figure 0006272496
ここで、kは任意の定数である。
1つの実施形態において、スコアは様々なサブスコアに分離される。
Figure 0006272496
ここで、pθLM(W)は、パラメーターθLMを有する単語言語モデルからのスコアであり、pθAM(X|W)は、パラメーターθAMを有する音響モデルからのスコアである。単純にするために、以後、必要な場合を除いてパラメーターθを省略する。
別の実施形態は、単語シーケンスを、仮定される単語ごとに発話の仮定される時間領域のシーケンス
Figure 0006272496
に関連付ける。ここで、
Figure 0006272496
は単語wについて仮定される位置である。その実施形態において、スコアは、p(W)p(X|W)=maxp(W)p(R|W)p(X|W,R)であるようなアライメント項p(R|W)を用いた拡張モデルに基づくことができる。その実施形態では、
Figure 0006272496
は、全ての可能なアライメントの組Sにわたってスコアを最大にすることによって得られ、
Figure 0006272496
仮定される単語wに関連付けられた領域
Figure 0006272496
に対応する特徴の部分シーケンス
Figure 0006272496
のための音響スコアは、
Figure 0006272496
である。
言語モデルスコアは、離散確率モデル、ニューラルネットワーク、識別的に訓練された条件付き確率場等を用いることを含む多くの方法で計算することができる。例えば、1つの実施形態は、確率モデルを以下のように定式化する。
Figure 0006272496
確率は、コンテキストとして知られる、シーケンス内で以前に現れた単語を条件とする。通常、一般モデルは複雑すぎるので、nグラムモデルとして知られる、より単純なモデルが用いられる。ここで、コンテキストは先行するn−1個の項に制限される。
Figure 0006272496
幾つかの実施形態では、nグラムモデルとともに様々な他のパラメーター化及び推定手順を用いて、訓練データから試験データに一般化する機能を改善する。
音声認識モデルにおける推測は、仮説Wにわたって探索を行い、最も良好なスコアの仮説を見つけることとして特徴付けることができる。
Figure 0006272496
さらに、通常、最も大きなスコアを有するnベスト仮説が求められる。全ての可能なWの評価は大規模な計算となる可能性があり、幾つかの実施形態は、例えば、探索プロセス、例えばビーム探索法のヒューリスティックな低減と組み合わせたビタビアルゴリズムとして、再帰的動的計画法アルゴリズムを用いてnベスト仮説を求める。多くの代替的な探索アルゴリズム及びヒューリスティクスも存在し、様々な実施形態によって用いられる。
幾つかの実施形態では、仮説にわたる探索の出力は、解釈のスコア255、例えば音響モデルのスコア及び言語モデルのスコアのうちの一方又はこれらの組合せとともに単語のシーケンスのn個の解釈を含むnベストリスト250とすることができる。幾つかの実施形態は、音響信号の時間セグメントとともに、単語の最良スコアのアライメントを出力として提供する。
幾つかの実施形態では、仮説にわたる探索の出力は、ラティス260とすることができる。スコアの確定は通常、ラティスにおいて、nベストリストを用いることよりも効率的である。一方、明確にする目的で、幾つかの実施形態はnベスト表現を用いて説明される。
言語モデル及び音響モデルは探索を制約するが、生成される認識は、依然として曖昧さ及び誤差を有する場合がある。例えば、最も高いスコアを有する解釈251が依然として不正確である可能性がある。一方、ユーザーに特定の解釈251を訂正するように要求することは、正しい解釈を含み得る他の解釈を無視する。また、特定の解釈を訂正することの要求は、ユーザーとの複数のインタラクションを必要とする可能性があり、ユーザーの注意を他の作業から逸らす可能性がある。
本発明の幾つかの実施形態は、単語のシーケンスを含む豊富な語彙の連続音声の認識結果の訂正が、全体音声の解釈の制約に基づくべきであるという一般的な認識に基づく。そのような制約は、単一の単語のみを変更する訂正と対照的に、全体音声を正しく解釈する確率を改善することができる。
したがって、音声認識ユニット200は、言語モデル202及び単語シーケンス制約270を考慮に入れることによって認識結果を再解釈する誤り訂正モジュール220も備える。具体的には、幾つかの実施形態では、誤り訂正モジュール220は、解釈と制約270との整合性に基づいて、各解釈のスコアを更新する。更新後、例えば最も高いスコアを有する解釈215を求め、認識された音声として出力することができる。
幾つかの実施形態は、全体音声を解釈するための制約は、例えば、音声を発声するユーザーによって提供される音声の単語シーケンス制約270によって補償することができるという認識に基づく。例えば、単語シーケンス制約は、音声内の単語の数及び順序、音声における特定の時点で発せられる特定の単語、音声における特定の単語の欠如、音声における2つの特定の単語の連結又は分離を含むことができる。単語シーケンス制約は、音声出力のトピック、例えば、音声のトピックがpollutionであることを指定することもできる。
この認識によって、ユーザーが音声を訂正する労力を最小限にすることができる。なぜなら、単語の訂正は単語の訂正しかもたらすことができないのに対し、単語シーケンス制約は、音声の全体解釈の訂正をもたらすことができるためである。特に、制約270を用いて、解釈の全体組のスコアを更新することができる。
このため、幾つかの実施形態では、単語シーケンス制約は、音声の一部分の後続の訂正のために制約を用いることと対照的に、音声の解釈と同時に用いられる。単語シーケンス制約の下で、全体音声の最良スコアの解釈が求められる。最も大きなスコアを有する解釈を、認識された音声として求めることができる。実際に、そのような手法は、音声シーケンスの正しい解釈を求めるのに必要なインタラクション数を最小限にすることができる。
図3Aは、本発明の1つの実施形態による、ユーザーの音声を認識するための方法のフローチャートを示す。本方法300は、上記で説明した幾つかの原理及び認識を用い、プロセッサ301を用いて実施することができる。本方法は、単語のシーケンスを表す音声を受信し(305)、音響モデル及び言語モデルを用いて、音声の解釈の組を生成する(310)。解釈の組は1つ又は複数の解釈を含み、ここで各解釈は、話された可能性がある単語の可能なシーケンスである。様々な実施形態が、解釈のnベストリスト、単語ラティス、又は可能な単語シーケンスの組の他の表現として、解釈を受信又は生成する。
各解釈について、本方法は、その解釈のための正確度スコアを求めて1組のスコアを生成する(315)。例えば、スコアは、音響モデル及び言語モデルによって与えられる確率、及び/又は以下で説明する正確度関数に基づいて求めることができる。幾つかの実施形態では、本方法は、最も大きなスコアを有する解釈を求め(320)、解釈の部分組をユーザーに通信する(325)。1つの実施形態では、最も大きなスコアを有する解釈のみがユーザーに通信される。代替的な実施形態では、複数の解釈が通信される。
様々な実施形態は、ユーザーインターフェースコンポーネントを用いて、ユーザーが必要な場合に解釈の組について制約を提供することを可能にする。本方法は、単語シーケンス制約を用いた訂正が所望されるか否かを、ユーザーインターフェースコンポーネントを通じて与えられるユーザーからの入力に基づいて判定する(330)。ユーザーは、システム1の任意のインターフェース又はその組合せを用いて制約を提供することができる。例えば、ユーザーは、キーパッド110、ジョイスティック108、ディスプレイ106のタッチスクリーン、音声インターフェース103及びそれらの組合せを用いることができる。
訂正が所望されるとき、本方法は、単語シーケンスに対する制約を受信する(335)。様々な実施形態は、選択リスト、ボタン等のユーザーインターフェースコンポーネントを通じたユーザーインターフェース動作に基づいて単語シーケンス制約を受信するか又は求める。システムの幾つかの実施形態では、単語シーケンス制約は、様々な事象の発生確率として表される。
幾つかの実施形態では、単語シーケンス制約は、音声における単語数、又は音声における特定の単語の欠如等の音声のメタデータを含む。音声のメタデータは、単語シーケンスのコンテキストに関連する情報と対照的に、単語シーケンスに関する情報である。そのような単語シーケンス制約は任意の時点に収集することができる。
本方法は、各解釈が制約とどの程度整合しているかに従って音声の解釈の組のスコアを更新する(340)。スコアが更新された後、最も高いスコアが求められ(320)、本方法は、ユーザーがこれ以上訂正を望まなくなるまで反復的に継続する。本方法から解釈の組を出力することができ、例えば後に用いるためにメモリに記憶することができる。
図3Bは、制約を受ける解釈のスコアを更新する方法のフローチャートを示す。単語シーケンス制約がユーザーから受信される(350)。幾つかの実施形態では、単語シーケンス制約は変更され、解釈に適した制約が確定される(360)。例えば、幾つかの実施形態は、ユーザーから受信した単語シーケンス制約に基づいて制約を確定する。
例えば、幾つかの実施形態では、単語シーケンス制約は、解釈の部分組を通信することに応答してユーザーから受信される。実施形態は、単語シーケンス制約に基づいて制約のタイプを確定し(361)、タイプに基づいて制約を確定する(360)。例えば、制約のタイプは、言語タイプ、すなわち言語確率に対する制約、音響タイプ、すなわち仮定された単語を所与とした音響特徴の確率分布に対する制約、及びコンテキストタイプ、すなわち解釈内の単語シーケンスに対する制約、のうちの1つ又はこれらの組合せとすることができる。
図3Cは、幾つかの実施形態による制約の確定の一例を示す。確定される制約のタイプは、更新されるスコアに基づく。これらの実施形態は、言語及び/又は音響モデルのうちの1つ又はこれらの組合せを更新する(365)。幾つかの実施形態は、ユーザーから受信した単語シーケンス制約に基づいて制約のタイプを確定する。例えば、幾つかの実施形態では、単語シーケンス制約は、音声における単語数、音声のトピック、音声の特定の期間内に話された単語数等の音声のメタデータを含む。これらの制約は通常、言語又は音響タイプの制約である。
別の実施形態では、単語シーケンス制約は、音声のコンテキストに、より固有である。例えば、単語シーケンス制約は、音声内の特定の単語の有無に関する情報を含むことができる。これらの制約は通例、コンテキストタイプ制約である。
例えば、単語シーケンス制約がシーケンス内の単語数である場合、1つの実施形態では、スコアの更新は、例えば、p(W|length(W)=6)を用いて言語モデルスコアを再計算することによって行われる。この実施形態の1つの変形形態では、音響モデルスコア、及び各単語に対応する推定領域Rは変更されないままである。
1つの実施形態では、制約のタイプは言語タイプであり、スコアの更新は、変更された言語モデルを用いて言語モデルスコアを再計算することによって行われる。例えば、元の言語モデルpθLM(W)の代わりに、ラティスは、pθ’LM(W)=pθLM(W|length(W)=6)を用いて再スコアリングされる。ここで、θLMは元の言語モデルパラメーターであり、θ’LMは、シーケンス内に6つの単語が存在するという制約の下で条件付けすることによって得られるパラメーターである。このため、スコアは以下の式を評価することによって更新することができ、
Figure 0006272496
ここで、S’(W|X)は変更されたスコアである。
1つの実施形態は、同様にして、トピックが「pollution」であるという制約を課す。実施形態は、「pollution」のトピックにおける単語シーケンスに適したパラメーターθ’LMを有する制約付き言語モデルpθ’LM(W)を用いる。このため、実施形態は、制約付き言語モデルを用いて上記のスコア関数S’(W|X)を更新することができる。
各解釈の更新されたスコアを所与として、再スコアリングによって、nベストリストの各エントリにおいて変更されたスコア関数を用いてスコアが評価されることになる。代替的に、ラティス又はnベストリストに基づいて、変更されたスコア関数を用いた前方−後方アルゴリズム、ビタビ復号又はスタック復号等の様々なアルゴリズムを用いて、可能な単語シーケンスのグラフを効率的に探索することができる。スコアを評価する過程で、変更されたnベストリスト又はラティスが生成される。
制約が単語シーケンスに対してのみである場合、上記の例におけるpθAM(X|W)等の音響モデルスコア、及び各単語に対応する推定領域Rは変更されないままにすることができる。一方、他の実施形態では、制約のタイプは音響タイプであり、音響スコアp(X|W)は制約に依拠して変更される。例えば、単語と音響特徴との間のアライメントが計算される場合、再スコアリングもアライメントに依拠することができる。1つの実施形態はモデルp(W)p(X|W)=maxR∈Sp(W)p(R|W)p(X|W,R)を定義し、Rに対する制約に基づいてスコアを更新する。
Figure 0006272496
ここで、C⊆Sは所望の制約を実施する許可されるアライメントの部分組を表す。例えば、1つのそのような制約は、特定の時間領域内に1つのみの単語が存在することとすることができる。
図3Dは、スコアを更新するための絶対的制約又は相対的制約を確定する方法のフローチャートを示す。幾つかの実施形態では、制約が絶対的である場合、制約に合致しない単語シーケンスの解釈は、可能な限り最も小さなスコアを用いて再スコアリングされる。逆に、制約が相対的である、例えば確率的である場合、制約に合致しない解釈は、制約に合致する解釈よりも小さな重みで再スコアリングされるが、合致しない解釈は、相対的制約に整合する解釈のスコアよりも依然として高い最終スコアを有することができる。
例えば、幾つかの実施形態では、相対的制約は、異なる制約満足度を表す連続値を有する。そのような制約は、制約を表す倍数因子を用いて定式化することができる。1つの実施形態では、制約は制約因子f(X,W,R)369を含み、その出力は、音響シーケンス、単語シーケンス及びアライメントのうちの1つ又は複数についての制約満足度を示す数である。この制約因子を用いて、1つの実施形態は以下の一般再スコアリング関数を定式化する。
Figure 0006272496
制約因子に依拠して、絶対的制約及び相対的制約の場合を含む多くの様々な種類の制約を実施することができる。例えば、幾つかの実施形態では、制約因子は、ユーザーによって指定される単語シーケンス制約を、解釈のスコアを更新するのに適した制約にマッピングする指標関数363、及び(最大で相対的な制約を絶対的にすることまでの)相対的な制約の度合いを示す重みパラメーター367を用いて求めることができる。
例えば、制約因子
Figure 0006272496
である場合、ここで、f(W)という表記は、制約因子がこの場合はX及びRに依存しないことを示し、α及びβは制約満足度を表す非負の重みパラメーターであり、例えば、
Figure 0006272496
は、シーケンス内に6つの単語が存在するという制約についての指標関数である。重みパラメーターαがβに対して大きい場合、制約満足は強く、そうでない場合、制約は弱い。絶対的な制約は、所望されない全ての場合に関数f(W)がゼロ値を有するようにβをゼロに設定することによって達成することができる。
別の実施形態では、アライメントに対する制約は、f(X,W,R)=f(R)=αIR∈C+βを用いて実施することができる。ここで、IR∈Cは、Rが制約集合C内にあるという条件についての指標関数である。
パラメーターθ’LMを有する制約付き言語モデルpθ’LM(W)において具現される制約の場合、制約因子は、
Figure 0006272496
であり、ここで、p(W)は初期認識において用いられる言語モデルである。これは、新たなモデルpθ’LM(W)を古いモデルp(W)と置換することと同じ影響をスコアに対し有する。
再スコアリングの後、fの絶対的なスケールは、様々な単語仮説の相対的なスコアリングに影響を与えず、それによって、別の制約因子に比例する任意の他の制約因子f’(X,W,R)∝f(X,W,R)が結果としてのnベストリスト又はラティスに対し同じ効果を生じることに留意されたい。
さらに又は代替的に、ユーザーから受信した単語シーケンス制約に基づいて解釈のための複数の制約を確定することができる。例えば、単語シーケンス内の単語が正しいことをユーザーが示した場合、幾つかの実施形態は、単語の左又は右にある単語(言語モデルに依拠する)も正しいと判断する。これらの実施形態では、近傍の単語についての追加の制約が生成される。
例えば、1つの実施形態では、スコアリング関数は特定の単語の存在について試験する。例えば、音声の向きは、言語モデルに基づいて求めることができ、スコアリング関数は、音声の向きに従って、ユーザーに通信される解釈における特定の単語に先行及び後続する単語の存在についての試験を用いて更新される。この実施形態では、スコアリング関数は、特定の単語についてのみ試験するのではなく、音声の向きから単語の近傍にある他の単語についても試験する。
解釈のための制約が確定された後、幾つかの解釈のスコアは、特定の解釈と制約との整合性に基づいて更新される(370)。幾つかの実施形態では、各解釈は更新され、それによって各解釈のスコアを増大又は減少させることができる。これは、更新370の後、各解釈のスコアを増大又は減少させることができることを意味する。実施形態の幾つかの変形形態は、幾つかの解釈のスコアが変更されないままであることを可能にする。
スコアが更新された後、最も大きなスコアを有する解釈が求められ(380)、ユーザーへの出力が形成され(390)、ユーザーに通信される。幾つかの実施形態は、ディスプレイに示される単語及び文字等の視覚的手段を用いて解釈を通信する。幾つかの実施形態は、テキスト読み上げ(Text-to-speech)又は記録されたオーティオ波形を用いてスピーカーから生成される音等のオーディオフィードバックを用いて解釈を通信する。様々な実施形態は、最良のスコアを有する1つ又は複数の解釈を通信することができる。
図4、図5及び図6は、音声のユーザーに通信される解釈に基づいて単語シーケンス制約を選択するためのインターフェースの例を示す。解釈は、音声の初期解釈とすることができるか、スコアの更新後に選択される後続の解釈とすることができる。
単語のシーケンス4は、5つの単語を含む文であり、第3の単語(Word3)は、強調されている破線のフレーム40を与えられる。別の実施形態では、Word3は、単語シーケンスのための最も効率的な制約であると判断される。
さらに、図4の例において、破線のフレーム40は強調を意図するのみでなく、セレクターも表し、このセレクターは、誤って認識され、このため訂正を必要とする単語を選択するためにユーザーによって移動することができる。そのような移動は、例えば、ジョイスティック又は矢印キーによって単語ごとに行うことができ、次に、専用ボタン又はキーを押下することによって選択を行うことができる(これは、例えば、上記ジョイスティック又はタッチスクリーンに統合するか又はこれらによって実施することができる)。
図5は、代替的なインターフェースを示し、ユーザーは1つ又は複数の単語、例えばWord3及びWord5を選択することができる。ユーザーは、単語又は単語シーケンスを選択した後、以下の動作、すなわち、選択された単語若しくはシーケンスを正しいとマーク付けすること、選択された単語若しくはシーケンスのうちの1つ若しくは複数を誤りであるとマーク付けすること、選択された単語若しくはシーケンスをスキップすること、選択された単語若しくはシーケンスのための追加の選択肢を要求すること、又は場合によっては、テキストの主題若しくはスタイル等の何らかの他の制約を変更すること、のうちの1つを行うことができる。
1つの実施形態では、単語又は単語シーケンスが選択された後、選択された単語に関連付けられた時間又は時間窓を用いて、その時間又は時間窓において話された可能性がある単語の組を検索することができ、これらのうちの幾つか又は全てがユーザーに表示され、好ましくはスコアの降順でランク付けされる。
図6は、単語のシーケンス6の第3の単語(Word3)についてスクロールダウンリスト60を例示する。スクロールダウンリスト60は、単語3に対応する時間窓に基づいて選択された4つの単語候補を含む。セレクター61は上記スクロールダウンリスト60内の第1のエントリ上に自動的に設置され、これは上記スクロールダウンリスト60から選択されたエントリまで垂直方向に移動させることができる。

図7Aは、本発明の1つの実施形態による、単語シーケンス制約の下で音声710を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、単語数に対する制約714、すなわち、音声が6つの単語を有するという制約を含む。特に、制約714は、解釈の組711全体のスコア712を更新し、解釈の更新されたスコア716を有する更新された組715を生成するのに用いられる。図7Aの例からわかるように、解釈の組全体のスコア716が更新される。
この例示的な実施形態について、一般再スコアリング関数
Figure 0006272496
を、上記で説明したように特定の制約因子f(X,W,R)とともに用いることができる。この制約因子は、以下のように、6つの単語を有するシーケンスに、より高い重みを与える。
Figure 0006272496
他の制約因子及び/又は指標関数も用いることができる。
図7Bは、本発明の1つの実施形態による、単語シーケンス制約の下で音声720を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声のトピックに対する制約724、すなわち、音声がpollutionに関するという制約を含む。制約724は、解釈の組721全体のスコア722を更新し、解釈の更新されたスコア716を有する更新された組725を生成するのに用いられる。
この例示的な実施形態は、「pollution」のトピックにおいて単語シーケンスに適したパラメーターθ’LMを有する制約付き言語モデルpθ’LM(W)を用いる。このため、実施形態は、制約付き言語モデルを用いて上記のスコア関数S’(W|X)を更新することができる。
図7Cは、本発明の1つの実施形態による、単語シーケンス制約の下で音声730を解釈するための例示的な方法の概略図を示す。この例では、単語シーケンス制約は、音声における特定の単語「Carts」の存在に対する制約734を含む。制約734は、解釈の組731全体のスコア732を更新し、解釈の更新されたスコア736を有する更新された組735を生成するのに用いられる。
この例示的な実施形態について、一般再スコアリング関数
Figure 0006272496
を、上記で説明したように特定の関数f(X,W,R)とともに用いることができる。この関数は、以下のように、単語「Carts」を有するシーケンスに、より高い重みを与える。
Figure 0006272496
他の制約因子及び/又は指標関数も用いることができる。
低認知音声認識のための単語シーケンス制約の確定
また、幾つかの実施形態は、システムがユーザーに課す認知的負荷を低くするためには、単語シーケンス制約のエントリの方法が、制約の選択に必要なユーザーのアクションを最小限にするべきであるという認識に基づいている。単語シーケンス制約は、様々な値を有することができるが、様々なタイプも有することができる。例えば、単語シーケンス制約のタイプは、単語の選択又は拒否、単語のシーケンスの選択、タイムスロットの選択、シーケンス内の正しい単語のトレース、単語又は単語の順序の置換等を含むことができる。したがって、ユーザーの注意を運転等の主要な作業から逸らすことを最小限にしながら、制約のタイプ及び値の双方の選択に適合されたインターフェースを提供することが望ましい。
本発明の幾つかの実施形態は、ユーザーの単一のジェスチャーを解析して、単語シーケンス制約のタイプ及び値の双方を確定することができるという認識に基づいている。特に、ジェスチャーのタイプを用いて単語シーケンス制約のタイプを確定することができ、インターフェースに対するジェスチャーの経路、例えば、表示デバイス上の経路のロケーションを用いて、単語シーケンス制約の値を確定することができる。
図8は、本発明の1つの実施形態による、単語のシーケンスを含む音声を認識するための方法のブロック図を示す。実施形態は、ジェスチャーの形状817と、音声の解釈の組を示す表示デバイスに対するジェスチャーのロケーション815を求める(810)。
図9Aは、入力デバイスにおいてユーザーによって行われるジェスチャーの形状901の一例を示す。例えば、入力デバイスは、ジェスチャーの経路を、入力デバイスの座標空間内のロケーション座標904のシーケンスとして表すことができる。
タッチデバイスでは、座標シーケンスは、タッチ面の2D平面内にある。3Dフリーハンドジェスチャーデバイスでは、座標シーケンスはデバイスによって測定される運動の3D空間内にある。ジェスチャーの形状は、互いに対するこれらの座標のロケーションによって形成され、スケーリング及び/又は回転等の変形によって受ける影響が最小限の幾何学的パターンを含むことができる。幾つかの実施形態では、ロケーション座標のシーケンスは順序付けされ、ジェスチャーの形状は、掴むジェスチャー、又はズームイン若しくはズームアウトジェスチャー等におけるジェスチャーの形成のダイナミクスを含む。
図9Bは、表示デバイス902上の形状901を有するジェスチャーのロケーション903を示す。ジェスチャーのロケーションは、絶対的又は相対的とすることができる。例えば、絶対ロケーションは、ジェスチャーの幾何学的中心のロケーション、又はジェスチャーの形状を取り囲む円のロケーションとして求めることができる。代替的な実施形態では、ジェスチャーのロケーションは、UI要素のディスプレイの座標空間内にマッピングすることができ、入力デバイスのUI上に表示される要素に対して求めることができる。例えば、ロケーション903は、デバイス902上に表示される解釈の組に対して求めることができる。図9Bの例では、ジェスチャーのロケーションは、要素905に最も近いと判断される。
幾つかの実施形態では、ジェスチャーのロケーションは、ジェスチャーの方向変化に対応する形状の角等の、ジェスチャーの形状の幾何学的特異点のロケーションの組を含む。さらに又は代替的に、特異点は、特定のUI要素に最も近い点、すなわち、音声の解釈の単語に最も近いジェスチャーの点を含むことができる。
次に、実施形態は、ジェスチャーの形状、ジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピング830に基づいて、単語シーケンス制約860のタイプを確定する(850)。幾つかの実施形態では、マッピング830は事前に確定されており、メモリ101等のメモリに記憶されている。さらに又は代替的に、マッピング830は、音声認識システムの動作中に確定又は更新することができる。
実施形態はまた、ジェスチャーのロケーション815及びジェスチャーの形状817に基づいて単語シーケンス制約860の値845を確定し(840)、単語シーケンス制約860を用いて音声を認識する(820)。例えば、水平方向のジェスチャーは、単語のシーケンスを選択する単語シーケンス制約のタイプにマッピングすることができる。入力デバイスにおけるこのジェスチャーの経路のロケーションは、ユーザーインターフェースの座標空間内のロケーションにマッピングされ、これを用いて、音声の解釈において存在する単語のシーケンスを確定することができる。同様に、垂直方向のジェスチャーは、単語のタイムスロットを選択するタイプにマッピングすることができ、入力デバイスにおけるこのジェスチャーの経路のロケーションは、ユーザーインターフェース空間におけるジェスチャーの対応するロケーションにマッピングすることができ、これを用いて、特定の単語の発話の時点及び/又は順序を求めることができる。
同様にして、フリック、丸で囲む、ドラッグ選択、及び単語経路のトレースのようなジェスチャーの様々な形状を、様々なタイプの制約にマッピングすることができ、UI要素デバイスの空間におけるジェスチャーのロケーションを用いて、音声の可能な解釈の後続の再スコアリングのための制約の値を確定することができる。
ジェスチャーの形状及びロケーションの双方を、単一の最良の選択肢として、又はスコアに関連付けられた形状及びロケーションの可能性の確率リストとして表現することができる。さらに、幾つかの実施形態では、ジェスチャーの形状及びロケーションを、それらの共同コレスポンデンス(joint correspondence)の確率に基づいて更新することができる(816)。例えば、ジェスチャーの形状が、単語の除去又は単語シーケンスの選択として解釈され得るが、ジェスチャーのロケーションが単一の単語のみに関係している場合、単語の除去に対応するジェスチャーの形状の確率を増大させることができる。
図9Cは、本発明の1つの実施形態による、単語シーケンス制約を表示及び指定するための表示デバイス902のために示される例示的なヒューマンマシンインターフェース(HMI)を示す。この実施形態では、音声入力及び現在の単語シーケンス制約に従って相対的に高い現在の正確度スコアを有する単語が、多次元視覚化で示される。示される単語候補ごとに特定の仮想インターフェース要素910が存在する。インターフェース要素910は、単語、文字、音素又は単語シーケンスを表すことができる。この例では、水平次元は時間を表し、垂直次元は、各要素のスコアを表し、要素は視覚化の最上部に向かうにつれ、より高いスコアを有する。
互いの上/下にある要素は、音声発話の同じ部分中に話された可能性があるものの代替的な候補(possibilities)であり、発話の最良の(最も可能性の高い)解釈を、視覚化の最上部にわたって読み取ることができる。図8は、単語シーケンス制約を指定するために行うことができる幾つかの種類の選択を示す。例えば、色、背景シェーディング又は他の視覚情報を用いてインターフェース要素を強調することによって、単語シーケンスにおける単一の単語選択930をユーザーに示すことができる。単語シーケンス選択940は単語のシーケンスを選択する。タイムスライス選択920は、発話の時間で区切られたセクションを選択し、その時間セクション中に話された可能性がある全ての可能性のある単語を参照する。
HMIは、ジェスチャー入力デバイスを有するヘッドアップディスプレイ若しくはウエアラブルディスプレイ、又はタッチスクリーン等の直接タッチを用いた表示スクリーン等の様々な種類の表示デバイス902を用いて実施することができる。視覚的出力及びタッチ入力、マウス入力又はジェスチャー入力の他の組合せが可能である。いずれの場合も、実施形態は、特定のジェスチャー形状を、特定の種類の制約、又は単語830、単語シーケンス840及び/又はタイムスライス820を選択するためのアクションのいずれかにマッピングする。特定の要素が選択された後、更なるインターフェースアクションが、選択された1つ又は複数の要素に対し単語シーケンス制約を課す。
幾つかの実施形態では、幾つかのジェスチャーは、別個のジェスチャーセグメントに分割することができ、これらのジェスチャーセグメントは、形状及びロケーション情報について別個に解析することができる。
図9Dは、ユーザーが発話の1つの特定の解釈を選好し、その解釈のための単語シーケンス制約を提供することを可能にする特定のタイプのアクションの例を示す。表示デバイス902は、正しい単語を表すインターフェース要素を通じて曲線をトレースする機能をユーザーに提供する。図9Dは、2つの異なるトレースの例を示す。トレース950は、解釈「I want to get some rice and beans.」を表し、トレース960は、解釈「I went to get the same jeans.」を表す。
ジェスチャー及びタッチトレースは共に曖昧でありノイズがあるため、タッチ/ジェスチャートレースは確率p(Z│V,W)に変換することができる。ここで、Zはジェスチャーの経路であり、Vは表示デバイスにおける視覚要素のレイアウトであり、Wは解釈における単語シーケンスである。この定式化は、トレースを言語モデル及び音響スコアと組み合わせ、トレース及び言語モデルの双方に整合する解釈のスコアが増大されるように正確度スコアを更新する。
したがって、幾つかの実施形態は、単語シーケンス制約との整合の度合いを示す制約因子を求める。制約因子は、制約因子に基づくスコアリング関数を確定し、スコアリング関数を用いてスコアの組を更新するのに用いることができる。
例えば、トレース960を所与として、単語{nice, my, slice,...}を含むタイムスライスにおける最良の選択肢のための幾つかの可能性が存在する。トレースは、「slice」に最も近いように見えるが、この結果「I went to get the same slice jeans」となり、言語モデルとのマッチが不良である。この場合、トレース制約及び言語モデル制約を組み合わせた後の最高スコアの解釈は「I went to get the jeans」及び「I went to get the nice jeans」であり得る。
図10は、ジェスチャーのタイプの組1020と、単語シーケンス制約のタイプの組1010との間のマッピング830の一例を示す。通常、タッチ/ジェスチャーアクションのロケーションは、何が選択されるか、又はどこに制約が課されるかに関するコンテキストを提供する。例えば、視覚化Vにおける単語の上で「×」ジェスチャーを行うことは、単語を拒否する(そのスコアを非常に低い値に低減する)ことにマッピングされ得る。
幾つかの実施形態では、単語シーケンス制約のタイプによって、制約因子のタイプが決まる。これらの実施形態は、単語シーケンス制約のタイプに基づいて制約因子を求める。例えば、1つの実施形態では、マッピング830は、水平方向の選択のジェスチャーを含み、制約因子に対応して、単語シーケンスとの整合の度合いを示す数を出力する。別の実施形態では、マッピング830は、正しい単語シーケンスのトレースのジェスチャーを含み、制約因子に対応して、トレースとの整合の度合いを示す数を出力する。
例えば、1つの実施形態ではf(X,W,R)=fZ,V(W)であり、ここで、fZ,V(W)は、トレース及び視覚化との単語シーケンスの整合の度合いを示す数を出力する制約因子である。例えば、fZ,V(W)はp(Z│V,W)に比例することができる。
制約にマッピングされるジェスチャーGを所与として、f(X,W,R)=fG,V(W)であり、ここで、fG,V(W)は、ジェスチャー及び視覚化との単語シーケンスの整合の度合いを示す数を出力する制約因子である。例えば、fG,V(W)はp(G│V,W)に比例することができる。
拒否ジェスチャーの例において、wrejを、ユーザーが拒否した単語とする。このとき、
Figure 0006272496
である。
さらに又は代替的に、幾つかの実施形態では、マッピングは、掴むジェスチャーに対応する選択制約、水平方向のジェスチャーに対応するシーケンス制約、丸で囲むジェスチャーに対応する同意語制約、経路トレースジェスチャーに対応するトレース制約、ハットジェスチャーに対応するインターセクション制約、ドラッグトレースジェスチャーに対応する並べ替え制約のうちの1つ又はこれらの組合せを含む。
上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組合せを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ又は複数のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
さらに、コンピューターは、ラックマウント型コンピューター、デスクトップコンピューター、ラップトップコンピューター、ミニコンピューター又はタブレットコンピューター等の複数の形態のいずれにおいても実現できることが理解されるべきである。また、コンピューターは、1つ又は複数の入力システム及び出力システムを有することができる。これらのシステムは、特に、ユーザーインターフェースを提示するのに用いることができる。そのようなコンピューターは、ローカルエリアネットワーク又はワイドエリアネットワークとしてエンタープライズネットワーク又はインターネット等を含む1つ又は複数のネットワークによって任意の適した形態で相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワーク又は光ファイバーネットワークを含むことができる。
また、本明細書において概説される様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意のものを用いる1つ又は複数のプロセッサ上で実行可能なソフトウェアとして符号化することができる。加えて、そのようなソフトウェアは、複数の適切なプログラミング言語及び/又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて書くことができ、フレームワーク又は仮想マシン上で実行される実行可能な機械語コード又は中間コードとしてコンパイルすることもできる。
「プログラム」又は「ソフトウェア」という用語は、本明細書において、一般的な意味で、上記で論考したような本発明の様々な態様を実施するようにコンピューター又は他のプロセッサをプログラムするのに用いることができる任意のタイプのコンピューターコード又はコンピューター実行可能命令のセットを指すように用いられる。
コンピューター実行可能命令は、1つ若しくは複数のコンピューター又は他のシステムによって実行された、プログラムモジュール等の多くの形式をとることができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、及びデータ構造を含む。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることも分散させることもできる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (18)

  1. 単語のシーケンスを含む音声を認識するための方法であって、
    ジェスチャーの形状、及び前記音声の解釈の組を示す表示デバイスに対する前記ジェスチャーのロケーションを求めることと、
    前記ジェスチャーの前記形状、及びジェスチャーの形状の組と単語シーケンス制約のタイプの組との間のマッピングに基づいて前記単語シーケンス制約のタイプを確定することと、
    前記ジェスチャーの前記ロケーションに基づいて前記単語シーケンス制約の値を確定することと、
    前記単語シーケンス制約を用いて前記音声を認識することと、
    音響モデル及び言語モデルを用いて前記音声の前記解釈の組を生成することと、
    解釈ごとに、解釈が前記単語のシーケンスを表す正確度を表すスコアを求めて、スコアの組を生成することと、
    前記音声の前記解釈の組を前記表示デバイス上にレンダリングすることと、
    前記単語シーケンス制約の前記タイプ及び前記値に基づいて前記音声を認識するための制約を確定することと、
    前記制約との各解釈の整合性に基づいて前記スコアの組を更新することと、
    を含み、
    前記方法のステップはプロセッサによって実行される、
    方法。
  2. 前記単語シーケンス制約との整合の度合いを示す制約因子を求めることと、
    前記制約因子に基づいて、スコアリング関数を求めることと、
    前記スコアリング関数を用いて前記スコアの組を更新することと、
    を更に含む、請求項に記載の方法。
  3. 前記単語シーケンス制約の前記タイプに基づいて前記制約因子を求めることを更に含む、
    請求項に記載の方法。
  4. 前記スコアリング関数S’(W|X)は、
    Figure 0006272496
    であり、ここで、∝は比例を表し、W={w i=1は、前記解釈におけるN個の単語のシーケンスw,w,...,wであり、wは位置iにおいて仮定される単語であり、X={x j=1は前記音響モデルの音響特徴を示し、xは音声入力の前記音響特徴のj番目のベクトルであり、Tは音響特徴ベクトルの数であり、関数p(.|..)は確率であり、Sは可能なアライメントの組であり、R={r i=1は、仮定される単語ごとの前記音声の仮定される時間領域の組であり、ここでrは単語wについて仮定される前記位置であり、f(X,W,R)は前記制約因子である、
    請求項に記載の方法。
  5. 前記ジェスチャーは、水平方向の選択を含み、
    前記制約因子は、単語シーケンスとの整合の度合いを示す数を出力する、
    請求項に記載の方法。
  6. 前記ジェスチャーは、正しい単語シーケンスのトレースを含み、
    前記制約因子は、前記トレースとの整合の度合いを示す数を出力する、
    請求項に記載の方法。
  7. 前記マッピングは、掴むジェスチャーに対応する選択制約を含む、
    請求項1に記載の方法。
  8. 前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含む、
    請求項1に記載の方法。
  9. 前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含む、
    請求項1に記載の方法。
  10. 前記マッピングは、フリックジェスチャーに対応する拒否制約を含む、
    請求項1に記載の方法。
  11. 前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含む、
    請求項1に記載の方法。
  12. 前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含む、
    請求項1に記載の方法。
  13. 前記マッピングは、ハットジェスチャーに対応する挿入制約を含む、
    請求項1に記載の方法。
  14. 前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
    請求項1に記載の方法。
  15. 単語のシーケンスを含む音声を認識するためのシステムであって、
    表示デバイスであって、前記音声の解釈の組を表示し、前記表示に応答して、前記表示デバイスに対するジェスチャーを受信するための表示デバイスと、
    前記ジェスチャーの形状、及び前記表示デバイスにおける前記解釈の組からの要素のロケーションに対する前記ジェスチャーのロケーションに基づいて単語シーケンス制約のタイプ及び値を確定し、前記単語シーケンス制約を用いて前記音声を認識するための少なくとも1つのプロセッサと、
    を備え
    少なくとも1つのプロセッサが、音声認識モジュール及び誤り訂正モジュールを実装するプロセッサを備え、
    前記音声認識モジュールは、音響モデル及び言語モデルを用いて音声入力の前記解釈の組を生成し、解釈ごとに、解釈が前記音声を表す正確度を表すスコアを求め、
    前記誤り訂正モジュールは、前記単語シーケンス制約の前記タイプ及び前記値を用いて、前記音声を認識するための制約を確定し、前記制約との前記解釈の整合性に基づいて各解釈の前記スコアを更新する、
    システム。
  16. 前記音声を認識する前記システムは、車両のインストゥルメンタルパネルに埋め込まれる、
    請求項15に記載のシステム。
  17. 少なくとも1つのプロセッサは、前記ジェスチャーの前記タイプ、及びジェスチャーのタイプの組と単語シーケンス制約のタイプの組との間のマッピングに基づいて、前記単語シーケンス制約の前記タイプを確定する、
    請求項15に記載のシステム。
  18. 前記マッピングは、掴むジェスチャーに対応する選択制約を含み、
    前記マッピングは、垂直方向のジェスチャーに対応するタイムスロット制約を含み、
    前記マッピングは、水平方向のジェスチャーに対応するシーケンス制約を含み、
    前記マッピングは、フリックジェスチャーに対応する拒否制約を含み、
    前記マッピングは、丸で囲むジェスチャーに対応する同義語制約を含み、
    前記マッピングは、経路トレースジェスチャーに対応するトレース制約を含み、
    前記マッピングは、ハットジェスチャーに対応する挿入制約を含み、
    前記マッピングは、トレース及びドラッグジェスチャーに対応する並べ替え制約を含む、
    請求項17に記載のシステム。
JP2016554899A 2014-07-22 2015-07-22 単語のシーケンスを含む音声を認識するための方法及びシステム Expired - Fee Related JP6272496B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/337,472 US9196246B2 (en) 2013-06-14 2014-07-22 Determining word sequence constraints for low cognitive speech recognition
US14/337,472 2014-07-22
PCT/JP2015/071426 WO2016013685A1 (en) 2014-07-22 2015-07-22 Method and system for recognizing speech including sequence of words

Publications (2)

Publication Number Publication Date
JP2017511899A JP2017511899A (ja) 2017-04-27
JP6272496B2 true JP6272496B2 (ja) 2018-01-31

Family

ID=54105951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554899A Expired - Fee Related JP6272496B2 (ja) 2014-07-22 2015-07-22 単語のシーケンスを含む音声を認識するための方法及びシステム

Country Status (4)

Country Link
JP (1) JP6272496B2 (ja)
CN (1) CN106537489B (ja)
DE (1) DE112015003357B4 (ja)
WO (1) WO2016013685A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108463848B (zh) 2016-03-23 2019-12-20 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
US10706210B2 (en) 2016-08-31 2020-07-07 Nuance Communications, Inc. User interface for dictation application employing automatic speech recognition
CN108871370A (zh) * 2018-07-03 2018-11-23 北京百度网讯科技有限公司 导航方法、装置、设备和介质
JP7230205B2 (ja) * 2018-12-03 2023-02-28 グーグル エルエルシー 音声入力処理

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960447A (en) 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6064959A (en) 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5970460A (en) 1997-12-05 1999-10-19 Lernout & Hauspie Speech Products N.V. Speech recognition and editing system
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US20060293889A1 (en) 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
JP5430382B2 (ja) * 2009-12-16 2014-02-26 キヤノン株式会社 入力装置及び方法
US20120226498A1 (en) * 2011-03-02 2012-09-06 Microsoft Corporation Motion-based voice activity detection
JP5621681B2 (ja) * 2011-03-29 2014-11-12 株式会社デンソー 車載用情報提示装置
US9092394B2 (en) * 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification
JPWO2014041607A1 (ja) * 2012-09-11 2016-08-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9182826B2 (en) * 2012-11-21 2015-11-10 Intel Corporation Gesture-augmented speech recognition
JP2014149612A (ja) * 2013-01-31 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置およびそのプログラム
CN203366349U (zh) * 2013-07-19 2013-12-25 中国农业银行股份有限公司镇江分行 银行客户的身份识别系统
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置

Also Published As

Publication number Publication date
CN106537489B (zh) 2020-01-17
JP2017511899A (ja) 2017-04-27
CN106537489A (zh) 2017-03-22
DE112015003357B4 (de) 2021-01-14
DE112015003357T5 (de) 2017-04-06
WO2016013685A1 (en) 2016-01-28

Similar Documents

Publication Publication Date Title
JP6203288B2 (ja) 音声を認識するシステムおよび方法
US9196246B2 (en) Determining word sequence constraints for low cognitive speech recognition
JP6743300B2 (ja) ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法
US10551915B2 (en) Gaze based text input systems and methods
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
EP4026119A1 (en) Transcription revision interface for speech recognition system
JP6272496B2 (ja) 単語のシーケンスを含む音声を認識するための方法及びシステム
JP2011503638A (ja) カーナビゲーションシステムのための自由会話命令分類の改良
EP3152754B1 (en) Modification of visual content to facilitate improved speech recognition
KR101819457B1 (ko) 음성 인식 장치 및 시스템
JP4634156B2 (ja) 音声対話方法および音声対話装置
KR20210108557A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
JPWO2020105349A1 (ja) 情報処理装置および情報処理方法
KR20140086302A (ko) 음성과 제스처를 이용한 명령어 인식 장치 및 그 방법
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
KR101399777B1 (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템
JP4702081B2 (ja) 文字入力装置
US11087156B2 (en) Method and device for displaying handwriting-based entry
CN113990351A (zh) 纠音方法、纠音装置及非瞬时性存储介质
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
KR102605774B1 (ko) 스마트 글래스 및 이를 포함하는 음성 인식 시스템
JP2015099335A (ja) 情報処理装置およびその方法
JP2006139789A (ja) 情報入力方法、情報入力装置及び記憶媒体
JPH09258786A (ja) 調整機能を有する音声認識装置
JP4565768B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171228

R150 Certificate of patent or registration of utility model

Ref document number: 6272496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees