JP7337699B2 - 口の画像を入力コマンドと相互に関連付けるシステム及び方法 - Google Patents

口の画像を入力コマンドと相互に関連付けるシステム及び方法 Download PDF

Info

Publication number
JP7337699B2
JP7337699B2 JP2019552263A JP2019552263A JP7337699B2 JP 7337699 B2 JP7337699 B2 JP 7337699B2 JP 2019552263 A JP2019552263 A JP 2019552263A JP 2019552263 A JP2019552263 A JP 2019552263A JP 7337699 B2 JP7337699 B2 JP 7337699B2
Authority
JP
Japan
Prior art keywords
user
voice
mouth
audio
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019552263A
Other languages
English (en)
Other versions
JP2020518844A (ja
Inventor
チェック レナード
リシーマン ジェイソン
Original Assignee
ジョイソン セイフティ システムズ アクイジション エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョイソン セイフティ システムズ アクイジション エルエルシー filed Critical ジョイソン セイフティ システムズ アクイジション エルエルシー
Publication of JP2020518844A publication Critical patent/JP2020518844A/ja
Application granted granted Critical
Publication of JP7337699B2 publication Critical patent/JP7337699B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/04Mounting of cameras operative during drive; Arrangement of controls thereof relative to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R2011/0001Arrangements for holding or mounting articles, not otherwise provided for characterised by position
    • B60R2011/0003Arrangements for holding or mounting articles, not otherwise provided for characterised by position inside the vehicle
    • B60R2011/0005Dashboard
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

関連出願の相互参照
本出願は、「System and Method of Correlating Mouth Images to Input Commands」と題された2017年3月23日に出願された、同時係属中の米国仮特許出願第62/475,510号明細書の優先権を主張するものであり、その全体が参照により組み込まれる。
本開示は、自動音声認識及び音声入力機器からの可聴コマンドの受信の分野に関し、可聴コマンドは、その可聴コマンドの発生源に焦点を合わせたカメラなどの撮像機器又は画像センサからの画像データを用いてクロスチェックされる。話し言葉は、話し手の口から空気を介して伝わる音波を口の動きが調節することにより、生成される。ユーザ向けの車両音声入力システムは、しばしば、音を検出するように配置された1つ又は複数のマイクロホンから構成される。通常、これらのマイクロホンは、音声の機械的周波数の範囲(20kHz未満の周波数の音波)に渡って機械的に共鳴する電気機械アセンブリである。デジタル音声トークン(時間的な音声の断片)を人工音声認識システムに送り、デジタルリクエスト(例えば、車両娯楽報道番組若しくは車両制御システムにおける情報技術のリクエスト、又は無線ネットワークを介して送信される外部のウェブベースサービスのリクエスト)に変換することができる。これらの可聴リクエストの結果、所望の機能が単純化及び/又は自動化されて、ユーザの快適性及び/又は利便性及び/又は安全性-しばしばこれら3点全てが高められる。
人工音声認識システムの性能を高めようとして、多数のデジタル方式でアルゴリズム駆動型の方法が開発されてきた。例えば、可聴コンテンツから特定のユーザの発話特性を学習することに基づくトークンマッチングシステムを、人工音声認識システムの成功率を高めるために使用することが多い。別の典型的な方法は、人工知能技術を使用して、音声入力の発話特性を1つ又は複数の音声的特徴(例えば、言語、発音、等)と照合することである。雑音を減らすためにしばしば使用される更なる方法の1つは、ユーザが大抵の場合ハンドル上にある電気機械的ボタンを押して、音声の取り込みをボタンが押し下げられている時間に限定するよう求めることである。
場合によっては、音検出及び処理システムは1つ又は複数のマイクロホンを使用し、又、その後に続く信号処理を利用して、雑音(道路の雑音、車両娯楽システムからの雑音、及びユーザ以外の可聴入力、を含む)の影響を低減する。マイクロホンを適切に幾何学的に配置することにより、雑音低減を達成し、雑音を低減しながらユーザの音声入力を強めることができる。又、通常運転中に、ユーザの位置に対して複数のマイクロホンを適切に対称的に配置することにより、外部の雑音源の影響が低減される。具体的には、マイクロホンは、目が自然と前方を向いている、例えば、ユーザが車両の運転者である場合には「目が道路を向いている」ときの、自然な口の位置の照準ベクトルに対して対称的に配置される。マイクロホン入力のその後の位相相殺処理により、雑音の影響が実質的に低減されることが示されている。この例では、複数のマイクロホンで検出されるユーザ音声信号の位相は同じである(ユーザの口からの移動距離が同じであるため)が、車両の内外の他の位置からの雑音の位相は、複数のマイクロホンで異なる位相を有することになり、従って、この音は、様々な信号処理技術を通じて除去することができる。
自動音声認識処理におけるエラーにより、意図したユーザの音声を誤って判断することがあり、結果としてユーザの潜在的な苛立ち(及び/又は注意散漫)につながることがある。例えば、音声認識は、音を誤って解釈し、間違ったリクエスト(例えば、間違った人に電話をかける)を行うことがある。又は、音声認識はリクエストを無視することがある。音検出及び測定システムを含む自動音声認識処理の目標の1つは、ユーザの音声入力音(信号)の品質を最大化し、望ましくない音(雑音)を最小化すること、例えば、信号対雑音(SNR)比を最大化することである。
自動音声認識の分野での問題の1つは、先行技術によるシステムには、知覚された音声入力を更なる帯域外の情報(即ち、標準的な音響信号分析以外の情報)を用いてダブルチェックするための信頼できる方法が不足していることにある。当該技術分野において必要なのは、車両の動作及び性能について自動音声認識システムに対して発せられたユーザコマンドが、出所、認証、及び内容の点で確認されるように、自動音声認識システムを構成することにある。
一実施形態では、本開示は、コンピュータメモリと、撮像ソフトウェア及び音響処理ソフトウェアを実行するプロセッサと、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信する上記カメラと、少なくとも1つの音声入力から得られた音響サンプルの音響データストリームを上記の音響処理ソフトウェアに送信する音声入力機器と、少なくとも1つのタイマーによって受け取られたそれぞれのトリガーに応答して測定される経過時間値を上記のコンピュータメモリに送信するように構成された上記少なくとも1つのタイマーと、を備える自動音声認識のためのシステムを提示する。音響処理ソフトウェアは、タイマートリガーをアクティブ及び非アクティブにして、それぞれの音響サンプル時間及び音響サンプル間の合間期間を測定するように構成される。音響処理ソフトウェアは更に、合間期間を、コマンド間の予測合間時間値に対応するコマンド間隔時間値と比較するように構成される。
第2の実施形態では、自動音声認識のためのシステムは、コンピュータメモリと、撮像ソフトウェア、音響処理ソフトウェア、及びコマンド処理ソフトウェアを実行するプロセッサと、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信する上記カメラと、少なくとも1つの音声入力から得られた音響サンプルの音響データストリームを音響処理ソフトウェアに送信する音声入力機器と、を含む。撮像ソフトウェアは、デジタルピクセルデータのフレームから、音声入力の物理的な発生源を表すピクセルの部分集合を分離する。コマンド処理ソフトウェアは、メモリに記憶されたコンピュータ可読命令のサブルーチンであることがあり、時間ベースで、各音響サンプルを、画像データの連続フレームのそれぞれのグループ内の物理的発生源を表すピクセルのそれぞれの部分集合と相互に関連付ける。撮像ソフトウェアは、ピクセルのそれぞれの部分集合から物理的発生源のそれぞれの位置を導出することにより、音声入力の物理的発生源の複数の位置を追跡するように構成される。コマンド処理ソフトウェアは、上記の音声入力機器に対する音声入力の上記の物理的発生源のそれぞれの位置に応じて、音響サンプルをコマンドとして検証する。
更に別の実施形態では、自動音声認識のためのデータ取得システムは、コンピュータメモリと、撮像ソフトウェア、音響処理ソフトウェア、コマンド処理ソフトウェア、及びコーデックソフトウェアを実行するプロセッサと、を含む。このシステムは更に、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数のフレームをメモリに送信する上記カメラを含む。音声入力機器は、それぞれの音声入力から得られるデジタル音響データストリームの組をメモリに送信する。撮像ソフトウェアは、デジタルピクセルデータのフレームから、音声入力の発生源を表すピクセルの部分集合を分離する。プロセッサは、音声入力の発生源を表すピクセルの部分集合に基づいて、デジタル音響サンプルのそれぞれの組に対して音声トークンプロファイルを生成し、プロセッサは、それぞれの音声プロファイルをデータベースに記憶し、個々のユーザに関連付けられた音声プロファイルを識別するためにデータベースをフィルタリングし、識別された音声プロファイルをそれぞれの個人のそれぞれのコーデックとして記憶する。
本明細書で説明する自動音声認識システムの概略図である。 カメラ視野内に第1のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第1のフレームである。 カメラ視野内に第2のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第2のフレームである。 カメラ視野内に第3のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第3のフレームである。 本明細書で説明する自動音声認識システムを使用した車両内の異なるユーザ位置に対する調節可能なカメラ視野の概略図である。 図2Aのカメラからの画像データの第1のフレームであり、カメラ視野内の第1の位置に位置するユーザの口に焦点を合わせている。 図2Aのカメラからの画像データの第2のフレームであり、カメラ視野内の第2の位置に位置するユーザの口に焦点を合わせている。 図1の自動音声認識システムによって取得された音響信号の音声トークンプロファイルのプロットである。 図3Aの音声トークンプロファイルに関連付けられた画像データのフレームであり、ユーザの口が動いていることを示す。 図3Aの音声トークンプロファイルに関連付けられた画像データの第2のフレームであり、ユーザの口が静止していることを示す。 ユーザの頭部がわずかにユーザの右側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。 ユーザの頭部がカメラにまっすぐに向いておりユーザの目が道路を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。 ユーザの頭部がわずかにユーザの左側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。 ユーザの頭部が急角度でユーザのはるか右側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。 図1Aの自動音声認識システムを利用した車両内のユーザの口に焦点を合わせているカメラによって収集された画像データの第1のフレームの概略図である。 図5Aの画像データの解析された部分であり、ユーザの口が第1の位置にある状態で音声トークンを発声しているユーザの口の画像を示す。 図5Aの画像データの解析された部分であり、ユーザの口が第2の位置にある状態で第2の音声トークンを発声しているユーザの口の画像を示す。 図5Aの画像データの解析された部分であり、ユーザの口が第3の位置にある状態で第3の音声トークンを発声しているユーザの口の画像を示す。 図1の自動音声認識システムによって取得され、図5A~5Dの画像データとのマッチングに利用可能な音響信号の音声トークンプロファイルのプロットである。 図1の自動音声認識システムと連携して使用される画像データの第2のフレームであり、カメラ視野内のユーザの口の第2の図を提供する。 図1による自動音声認識システムの概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームへの参照を含む。 図1による自動音声認識システムによって利用される信号処理方法の概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームへの参照を含む。 図1による自動音声認識システムによって利用される信号処理方法の概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームのタイミング特徴への参照を含む。 本明細書で説明する車内全体に渡るデータ収集のために配置された、画像検出機器及び音声入力機器のシステムの斜視図である。
本開示の用語は、その文脈に対する最も広い解釈に照らして読み取られるべきである。例えば、「カメラ」という用語は、例えばRGB、赤外帯域光、並びに、正弦波LED又はVCSEL IRレーザを使用して強度画像及び奥行画像を取得する同期光源、などの異なる波長で動作する、あらゆる種類の機器を含む。更に、「カメラ」という用語は、単に画像フレームを収集する機器の代わりに、3D飛行時間カメラを含むが、これに限定はされない。他の実施形態は、「点群」データフレームを収集する画像センサを含む。これらの点群データフレームは、各ピクセルにおいてセンサからの距離及び強度を含む。本開示の範囲内に含まれるカメラは、「マルチスペクトル」2D又は3Dカメラであることもあり、これらでは、各ピクセルは複数の波長での反射率とカメラから反射面までの距離とを含むことができる。本開示における「カメラ」の使用は、固定の撮像機器と、データ収集のために領域を掃引する機器との両方、並びに固定の又は調節可能な視野での対応する機能、を包含することがある。
本開示における単一の装置又は要素の使用は、本明細書の目標を達成するのに必要な同じ装置及び要素の複数のインスタンスを利用した同等の実施形態も可能にする。従って、本開示の実施形態は、複数の撮像機器、複数の音声入力機器、及び複数のコンピュータ・ハードウェア・コンポーネントが、本明細書で考察する目的のために連携して作用するような構成を含むが、これに限定はされない。
本開示の一実施形態では、個人の口及び舌の動きが声帯から発せられる音波に影響を及ぼすことによって生成される、物理的な又は「機械的な」共鳴運動は、まずアナログ電気信号に変換され、このアナログ電気信号は、アナログ信号処理方法(増幅、周波数フィルタリング)を介して更に処理するか、且つ/又はデジタル信号に変換してデジタル信号処理方法を介して更に処理することができる。結果として得られる信号は、ハンズフリー音声通信、音声制御、又は音声機能要求を含む、様々な自動音声認識アプリケーションで使用することができる。一般的に、説明を何らかの単一の範囲に限定することなく、本開示の実施形態は、マイクロホン、又は音波を感知し音エネルギーをアナログ若しくはデジタルの電気信号などの別の形式に変換するように構成された任意の音声入力機器、によって取得された音響信号の一部を利用する。音響信号は通常、ユーザ視聴覚監視システムAVMS及び本明細書で説明する自動音声認識システムと対話する個人から発せられる。ここでの説明に従って収集され分析される音響信号の部分は、まとめて「音声入力」と呼ばれる。音声入力は、音響信号全体又は単一の音声入力内の単語、句、又は音の部分を表す個々の「音声トークン」に更に分割することができる。言い換えると、本開示の目的のために、「音声トークン」は、音声入力の最小の区別可能な区分とみなすことができ、本明細書で説明するシステムにより更に評価するために音声入力から解析されることがある。
本明細書で説明するシステム及び方法は、視聴覚監視システムの個々のユーザ、常にではないが大抵の場合は車両の運転者、に言及する。しかしながら、ユーザ、運転者、及び他の車両の同乗者への言及は、本明細書で説明する自動音声認識システムの実施形態の範囲を限定することを意図してはいない。
本開示の自動音声認識システム及びアプリケーションは、視聴覚監視システム(AVMS)100全体への電子通信及び送信によって実施され利用可能になり、このAVMS100は、自動音声認識システム200を使用して、AVMS100を使用し対話する者、通常はこれに限定するものではないが車両のユーザ15、に関する多大な空間的/時間的情報を取得する。取得される情報には、特定の個人のユーザ識別、顔の中心位置の検出及び追跡、顔のサイズ、形状、及びユーザの顔の回転方向、並びに目、鼻、唇、及び耳などの顔の特定の特徴が含まれることがあるが、これらに限定はされない。視聴覚監視システム(AVMS)100全体に自動音声認識システム200を取り入れることにより、本開示で説明するコンピュータ化された方法及びシステムは、顔髭、マスク、メガネ、サングラス、及び/又は、飲むこと、呼吸、喫煙、食事、携帯電話での会話、咳、あくび、横目、しかめ面、泣くこと、叫ぶこと、などの活動及び状態を含むがこれらには限定されない、他のユーザ状態又は見た目の特徴を検出し追跡することを可能にする。AVMS100を使用して、読唇パターン、心拍数、呼吸数、皮膚温度、及び、たとえビデオ形式であったとしても単なる画像からは容易に明らかではない他のユーザ属性、などのユーザ15に関する生理学的な情報を取得することも、技術的には可能である。
図1に示す一実施形態では、視聴覚監視システム(AVMS)100は、本明細書で説明する自動音声認識システム200を含むか、又は電子通信を介してアクセスする。自動音声認識システム200は、プロセッサ250と電子通信するカメラ240と、非一時的なコンピュータ可読媒体に記憶されたソフトウェア命令を有するコンピュータ可読メモリ215とを含む。非一時的なコンピュータ可読媒体及びメモリ215は、データベース300に記憶された予め訓練された単語及び句の少なくとも1つの辞書315と、同様に電子通信する。辞書は、1つ又は複数の「キーワード」句、及び1つ又は複数の「コマンド」句を含むことができる。「キーワード」句は、音声認識処理を開始するために使用することができる1つ又は複数の単語、例えば、「コマンド開始」など、から構成される。一旦「キーワード」句が検出されると、これには一般的に、「コマンド」句リクエストが続く(例えば、「目的地に到着するために十分な料金を持っているか?」など)。データベース300は、メモリ215に対してローカルである追加の記憶構造に格納されることがあり、又は、異なる実施形態では、カメラ240、プロセッサ250、及びメモリ215は、ネットワークを介して自動音声認識システムに接続された遠隔サーバメモリ及び動作/アプリケーションへアクセスすることがある。本明細書で説明するコンポーネントを接続するネットワークには、インターネット、電話、携帯電話、衛星、及び、異なる地理的位置に渡って情報を共有する任意の他の有線、無線、又は光ファイバー伝送機構が含まれる。
カメラ240は、レンズからの視野246を含み、このレンズは、そのカメラに関連付けられた視野内で取得された画像から、デジタルピクセルデータの連続的なフレームの形態で画像データを生成する。図1の例では、視野246は、少なくともユーザの頭部及び/又は顔の一部、好ましくはユーザの顔全体を含んで、本明細書で説明する画像解析ソフトウェアで使用される画像を生成する。図1B、図1C、及び図1Dは、異なるユーザQ、R、Sからカメラ240によって取得された画像20、30、40の非限定的な例を示しており、これらのユーザは、車両の内部又は車両の一部の上に配置されることがあるカメラの視野に入ったのである。なお、それぞれのユーザQ-20、R-30、及びS-40として図示されているAVMS100のユーザの各々は、例えば、頭部及び顔の形状、肌の色及び濃さ、目の形、並びに特に、顔及びカメラの視野246に対する各ユーザの口27、37、47の個別の位置、を含む、著しく異なる身体的特徴を有する。従って、カメラ240は、図1の自動音声認識システム200及びAVMS100と連携して、上述したソフトウェア命令にアクセスしてパターン認識及び顔識別処理を完了する。これにより、カメラ240が、ユーザQ-20、R-30、及びS-40の顔の視野パターン22によって示される、ユーザの口に視野246の焦点を合わせることが可能になる。カメラの視野246内のユーザの口27、37、47の位置と共に、撮像ソフトウェア225の一部である顔認識ソフトウェア命令を使用して、自動音声認識システム200は、関連するプロセッサ250を利用して、ユーザ/ユーザQ-20、R-30、S-40のうちのどの選択された人が、車両内にいて、運転しながら又は車両内の同乗者である間にコマンドを発することができる状況にあるかを識別するための十分な情報を有する。カメラ240は、カメラのハードウェアと一体的に取り付けられた、又はカメラ240、AVMS100、及び自動音声認識システム200とデータ通信する複数のマイクロホンのシステムの一部として取り付けられた、マイクロホン239も含むことがある。
上述したように、本開示の実施形態の一態様は、自動音声認識システム200によって使用するためにユーザのプロファイルを含むデータベース300にユーザ関連情報を記憶することを含む。一実施形態では、車両内のユーザ視聴覚監視システム(AVMS)100にコマンドを発することを許可された各ユーザ(Q-20、R-30、S-40)は、データベース300に記憶された、又はそれぞれのユーザに関する情報を記録するための類似のデータ記憶アーキテクチャに記憶された、プロファイルを有する。この実施形態では、自動音声認識システム200は、AVMS100と通信しており、又、自動音声認識システム200を訓練してAVMS100のユーザ15を認識することを可能にする人工知能機能を含む。ユーザを認識することには、身体的な特徴(例えば、身長、横幅、頭部の形状、顔の特徴、ユーザが車両の座席にいるときの口の位置)に関して、及び音声の特徴(例えば、構文、アクセント、コマンド及び方言のタイミング、特定の単語又は句の発音)に関して、個人を識別することが含まれる。一実施形態では、特定のユーザが車両を操作し、その車両に関連付けられたそれぞれのAVMS100及び自動音声認識システム200と対話するとき、データベース300内のそのユーザのプロファイルは、繰り返し使用することで時間の経過とともに継続的に更新される。従って、データベース300内のユーザの記録は、益々多くの単語及び句を含むように内容が膨らみ、これらの単語及び句は、AVMS100が時間の経過と共に学習し成功裏に実施したコマンド及び命令と対にすることができる。言い換えると、ユーザが特定のコマンドを発音すると、その可聴のコマンドは、本明細書で説明する自動音声認識システム200を介してAVMS100に送信される。関連するデータベースエントリが同様に更新され、その結果、それぞれのユーザのデータベースエントリには、コンピュータ使用可能形式でそのコマンドと対にされることになるそれぞれの音響サンプル(例えば、図7、282で音響サンプル282として図示される音響信号)が含まれるようになる。自動音声認識システム200及び接続されたAVMS100には検証技術が組み込まれて、ユーザからの特定の音声入力42がAVMS100の特定のコマンドと関係することを確認する。
従って、本明細書で説明する自動音声認識システム200は、データベース300、及び所与のユーザ又は他のAVMS100のユーザ15に特有のコマンドの関連する辞書315、へアクセスする。このデータベース300は、車両内にローカルに記憶されることがあり、又は、遠隔サーバからアクセス可能であることがある。遠隔アクセスする場合、各車両が遠隔サーバと電子通信するそれぞれのAVMS100を有するなら、データベース300内のユーザのプロファイルを、2台以上の車両と関連付けて使用することがある。この点に関して、本開示の一態様は、自動音声認識システム200を実装し、且つAVMS100が車両内の個々のユーザ又はAVMS100の任意のユーザ(例えば、同乗者)を識別しながら、その個人に対する音声認識処理の態様をカスタマイズすることを可能にする、システム、方法、及びコンピュータプログラム製品である。
上述したように、機械学習技術を使用して、以前に使用した可聴音声トークンをデータベースエントリに入れ、その後、データベース内の各ユーザプロファイル毎に個々の音声コーデックを導出する。コーデックは、音声認識機能をサポートする単純で効率的な方法で、図8の参照符号45A、45B、45Cに示すような音声トークン(例えば、句、音節、文)を表すのに使用することができる、音声要素の数学モデルを表す。各個人は、その個人のコーデック内で認識モデルとして表すことができる、異なるアクセント、トーン、構文の使用法、及び音声パターンを有することができる。従って、コーデックは、所与のAVMS100コマンド又は他の音声入力を表すのに、個人に特有の音及び顔画像の間の数学的にモデル化された関係を表現する。一実施形態では、メモリ215に記憶される個人のコーデックは、テンプレートとして構成されるデータ記憶構造であり、このテンプレートは、関連する自動音声認識システム200が人工知能手順を利用して、長期間の使用に渡って、音声トークン、音響サンプル、及びコマンドデータの音声入力の新たなインスタンスを処理するにつれて、定期的な更新にかけられる。従って、テンプレートは、更新可能なデータ記憶構造の形式でのヒューマン・マシン・インターフェースとして動作する。従って、テンプレートのメモリ構造は、音声認識データを記憶する不揮発性のコンピュータ可読媒体のセクターで確立され、その結果、セクターは記憶目的のために個別に圧縮される。この点に関して、以下で考察する画像と音響との相関技術を使用して、テンプレートは、記憶されるデータの少なくとも1つのセクターをより高速で引き出し解凍することができる態様で、関連するコマンドデータを記憶することができる。自動音声認識システム200は、所与の動作に必要なセクターのみを解凍することができる。データタイプに応じてセクターでコーデックを記憶することによる柔軟性により、クラウドサーバ環境でコーデックの分散記憶が可能になる。
車両のそれぞれのAVMS100の内部に自動音声認識システム200を実装することは、データベースコーデックを選択し、且つ/又は訓練シーケンスを通じて所与の個人に対して使用されることになる新たなコーデックを生成し、且つ個人の音声特性を学習する、のに必要なソフトウェア及びハードウェア属性を自動音声認識システム200に組み込むことを含む。AVMS100は、本明細書で説明する自動音声認識システム200の所与のユーザによる繰り返しの使用に渡って、その個人に対するコーデックを改良し向上させるようにプログラムされる。本明細書で説明するシステムを通じて個々のユーザを識別することにより、個人の音声リクエストに関する統計情報(例えば、音声リクエストの発生頻度、繰り返し回数、及び状態)を分析し、音声認識性能をカスタマイズし且つ/又は最適化することが可能になる。例えば、自動音声認識システム200がコーデックを使用して、最も頻繁に使用される名前(例えば、家族の)、ウェブ検索リクエスト(例えば、天気、チームのスコア、地図、及び交通情報)、又は、個人がよく使う他の用語、並びにAVMS100に向けられた特定のコマンド及びリクエスト、を学習することができる。これらの記憶されたリクエストは、音声認識処理において優先順位付けされることがある。新たな自動音声認識リクエスト中に、以前に記憶された情報を検索し、これを利用して、自動音声認識システム200を介してAVMS100に向けられた追加の言語ベースのコマンドを学習することができる。
図2A、図2B、及び図2Cは、本開示の一態様を示しており、この態様では、自動音声認識システム200は、車両内の音声入力42(即ち、一連の音響サンプル282又は音声トークン45)の発生源として知覚されたターゲットユーザ15に、車両カメラの視野の焦点を合わせる。一実施形態では、自動音声認識システム200は、ユーザがAVMS100に向けてコマンドを発するのを知覚するように構成される。図2Bは、ある個人15の記憶された画像を示しており、この個人15は、以前にAVMS100にアクセスしており、本明細書で説明する自動音声認識システム200の以前の使用を記録した上述のデータベース300内にプロファイルを有する。データベースプロファイル300は、図1でユーザQ-20として示された個人について以前に収集され記憶されたデータを含む。図2Aの例では、ユーザQ-20は、車両内の第1及び第2の位置(n、n+1)から音声入力42として可聴のキーワード又はコマンドを発し、これらの位置はそれぞれ第1の位置「n」及び第2の位置「n+1」としてラベル付けされており、車両のこのユーザは、両方の位置から車両AVMS100にアクセスできる。例えば、位置1は、ユーザがまず車両に乗ったときに車両内で想定される初期位置と一致し、位置2は、ユーザがより快適で利用し易いように調節された第2の位置(即ち、車両の座席をローカルに調節する車両座席システムにおける、好ましい又は以前に記憶された座席位置)と一致することがある。図2Aのカメラ240は、AVMS100と電子通信しており、従って、本明細書で説明する自動音声認識システム200とも電子通信しており、この自動音声認識システム200は、車両内のマイクロホン239からの入力に応じて、カメラ240及び関連する視野246を調節する制御システムを含む。マイクロホン239、又はユーザから少なくとも1つの音声入力42を受け取る任意の音声入力機器は、有線、無線、ファイバー等であり得る信号伝送方式を介して自動音声認識システム200に接続されている。
本開示で説明する自動音声認識システム200は、1つの非限定的な実施形態では、音響処理ソフトウェア275及び撮像ソフトウェア225を含むソフトウェアモジュールとして構成されることがあるソフトウェア(即ち、非一時的なコンピュータ可読媒体に記憶されたコンピュータ可読命令)を含む。自動音声認識システム200に向けられた音声入力42の物理的属性を音響処理ソフトウェアが使用して、マイクロホン239に対する音声入力42の位置及び方向を表すデータを導出することができる。複数のマイクロホン239を車両内の戦略的な位置に取り付けることにより、システムは、音声入力42から得られるそれぞれの受信音響サンプル282の物理的特性を学習してメモリ215に記憶する人工知能機能を、音響処理ソフトウェアの内部に含むことがある。例えば、様々なマイクロホン239から音声トークン45として分割された、それぞれのサンプル282の振幅及び位相は、その車両のシステムに記憶された仮想幾何学マッピングと共に、自動音声認識システム200が、ユーザ又はAVMS100の他のユーザによって音声入力42が発声されたときから、音声入力42が源を発する車両内の方向及び幾何学的位置を分離することを可能にする。
図2B及び図2Cに示すように、AVMS環境で動作する自動音声認識システム200は、音声入力方向及び起点データを利用してカメラ240及びカメラの視野246を、それぞれのユーザ(又は話者)の口27、37、47に向けるように構成されることがある。口の位置のこの決定は、音声入力データの出所の方向、及び利用可能であれば、この特定のユーザ/話者用のデータベース内に記憶された他のプロファイルデータから推定することができる。例えば、自動音声認識システム200は、音声入力の類似の種類の幾何学的出所を持つデータベースプロファイルの最も可能性の高い候補者にアクセスするように構成されることがある。図2B及び図2Cの例では、音響信号282の物理的プロファイル、及び上述したデータベース300内に以前に記憶されたユーザプロファイルデータ、のうちの片方又は両方を使用することにより、自動音声認識システム200は、ユーザ識別情報、車両内のユーザの位置、及び音声認識処理に使用することができる任意の関連する音声コーデック、を識別するのに十分な情報にアクセスできる。このアクセスは、システムが、音声入力機器232として動作する少なくとも1つのマイクロホン239と共に関連するカメラ240からのデータを含むがこれらには限定されない情報を受け取って、ユーザが車両内で位置「n」に座っているか又は位置「n+1」に座っているかに関わりなく、ユーザの顔上のユーザの口の位置を識別することにより、達成される。一旦カメラ240がユーザの口について訓練すると、カメラ240によって収集された画像20、30、40を、自動音声認識システム200にアクセス可能な画像処理ソフトウェア225が比較して、ユーザの口が動いているか又は動いていないかを判断することができる。図5に示すように、画像データのフレーム270A~270D間のピクセルにおける画像の相違により、ユーザの口の動き及び/又は静止状態を判断することができる。口の動きは、ユーザがコマンドを発したかどうか、又は、音声入力はコマンドを許可されていない別の発生源からのものかどうかを評価するための、予備的な識別基準として、撮像ソフトウェアにより使用されることがある。
図3は、ユーザの口の画像シーケンスが、口が動いているか又は静止しているかをどのように示すかを図示している。図3B及び図3Cで図示した画像データのフレーム22A、22Bは、車両内の様々なマイクロホン239によって受信された音響信号302の例示的なプロットなどの、音響データの対応するシーケンスと比較することができる。実施形態によっては、ユーザ/ユーザから自動音声認識システム200への音声入力信号42は、音声入力機器(例えば、マイクロホン239)によって取り込まれた一連の音声入力42の一部として、音声入力機器232へ到達する。従って、本明細書で説明する自動音声認識システム200は、音響処理ソフトウェア275を含み、この音響処理ソフトウェア275は、音声入力機器239によって受信された到来する音データを取得、記憶、操作、解析、及び総じて使用して音声認識アルゴリズムを連動させることを可能にするコンピュータで実施される命令を有する。このソフトウェアは、自動音声認識システムの目的を推進するのに必要な任意のデータ強調技術でフィルタリング、強調、バッファリング、クリップ、又は係合を行うことができる。特に、音響処理ソフトウェア200は、多数の音響信号を利用して、本明細書で説明する音声認識処理への有効な音声入力を判断するように、より具体的には、音声認識を効率的に遂行できるようにする重要な音、単語の一部、又は句に関連した音声トークン45(即ち、音声データの断片)を識別するように、構成される。
図3Aのプロットは、本開示のシステムが、撮像ソフトウェア225による作用を受ける画像データ270であって、口が動いていること、及び音響信号302の振幅が音声入力42を生成するユーザを示す特性を有していること、を認識する画像データ270の対応するフレームと相関付ける、一連の音響信号の一部についての、例示的な音響信号プロファイルを示す。図3Cの画像「n+1」では、ユーザの口は動いておらず、音響信号の対応するプロットが、音声入力が検出されていないことを裏付ける。従って、図3は、フレーム22A、22B毎にアクセスされる、カメラ240からの画像を、AVMSによって受け取られた一連の音声入力42から解析された音響信号302の対応するプロットと対にすることができることを示している。振幅閾値333(ユーザコマンドであり得る最小レベルとみなされる)を満足する音響信号の部分について、本明細書で説明するシステムは、音響信号282のその部分をカメラ240からの対応する画像と対にして、ユーザが音声入力42を発したことを確認する。ユーザの口が同時に動いていると、この音声入力42は、自動音声認識システム200による更なる処理を必要とするユーザからのAVMSコマンドである可能性が高い候補となる。なお、本明細書での様々な実施形態のこの詳細な説明は、音響サンプル部分282を、時間領域プロットにおいて、画像データの対応するフレーム21A、21B、22A、22Bと対にすることを含む。しかしながら、この例は、本明細書で説明するシステム及び方法を、対になった動作をプロットするための任意の特定の座標系に限定はしない。音響信号の特性を対応する画像と比較し、これに応じてそれらを対にするために、多数の他のデジタル信号解析方法が利用可能である。従って、図3の例は、本明細書で説明する画像データと音響データを比較するのに利用可能な信号処理技術を限定するものではない。
図4は、本明細書で説明する装置、方法、及びシステムで有用なデータ収集の更に別の態様を示す。図4に従って、車両に及び/又は車両の内部に取り付けられたカメラ240は、視野246を有し、好ましくは、AVMS100及び/又は自動音声認識システム200によって調節可能な視野246を有する。AVMS100及び/又は音声認識システム200は、シャッター速度、フレームレート、解像度、色制御、焦点及びレンズ設定、視野の奥行、視野角、焦点距離、及び作動距離、を含むがこれらには限定されないカメラ設定を変更するように動作可能である。上述したように、特定のカメラ設定は、カメラ及び/又はAVMSの構成要素部品である非一時的なコンピュータ可読媒体にプログラムされたソフトウェアによって制御され、AVMSは、車両内の上述したマイクロホン構成を利用して、音声入力の発生源の位置及び潜在的な識別情報を識別する。音声入力の発生源の位置及び予想される識別情報を識別した後で、発生源の頭部、顔、特に発生源の口の位置を特定しその画像を提供するための最適なカメラ設定が構成される。
図4では、カメラ設定は、車両内の音響信号282の発生源の画像データ270をフレーム毎に提供するように構成される。図4A~図4Dの各々は、カメラ240が、自動音声認識システム200及びAVMS100が使用する画像データ270を引き出して処理し、関連するマイクロホン239又はマイクロホンの組で受信された音声入力4(即ち、音響信号又は音声トークン)がAVMSのコマンドとして正確に識別されることを確認することを示す。図4の例示的な実施形態では、カメラ240は、音声入力42の発生源として車両ユーザの画像を取得する視野246から画像データ270を生成する。
図4Aは、カメラの視野内でのユーザの頭部、顔、及び口の第1の位置を示す。この例では、カメラ240は、ユーザの顔がわずかにユーザの右側を向いている画像データ270を生成する。一実施形態では、音声入力が、AVMSが車両内に設置された車両システムの車両アレイ内部でアクションを起こすのに使用するものとみなされるべき有効なコマンドであるかどうかを評価するために、ユーザの頭部及び顔がユーザの視点から左又は右を向いている程度が、自動音声認識システム及び/又はAVMSの意思決定工程におけるデータポイントになる。
言い換えると、自動音声認識システムのソフトウェアがユーザの頭部及び顔の位置の画像を使用して、3次元座標系を基準にして頭部、顔、及び/又は口の回転の程度を判断することができる。一例では、3次元座標系は、車両の床に対して水平な平面内にx軸及びy軸を含み、車両の床に対して垂直な平面内にz軸を含む。これらのx軸、y軸及びz軸は、理論的にはユーザの頭部の内部に位置する原点を中心としたデカルト座標系を確立する。データ及び画像処理の意味では、本明細書で説明するソフトウェア及びシステムの内部で、ユーザの頭部がマッピングされている3次元座標系を使用して、図4に示すようにユーザがコマンドデータを発しているかどうかを判断することができる。一例では、コマンドデータを含むような発話又は音声入力42を識別するための最適な頭部位置は、顔がまっすぐに前に向けられ、目がユーザの正面の「道路に向いて」いる位置にある、頭部位置である。図4Bはこの位置を示しており、音声認識システムは、音声入力機器(図示せず)として少なくとも1つのマイクロホンと、ユーザの頭部、顔、及び/又は口の画像データを提供するカメラと、これらのコンポーネントからのデータを取り込む自動音声認識システムと、を利用する。従って、AVMSは、マイクロホンへの音声入力内の潜在的なコマンドデータの内容と有効性との両方を評価することができる。一実施形態では、上述のデカルト座標に対するユーザの顔及び口の角回転の程度を使用して、ユーザの頭部、顔、及び口が、ユーザがAVMSコマンドを発したときに期待される位置にありそうかどうかを判断することができる。比較すると、図4C及び図4Dは、これらの画像と対になっている発話をコマンドデータであるとAVMSがみなす閾値(即ち、頭部の回転の角度又は程度)の外側にある可能性が高い頭部、顔、及び口の回転を示している。システムは、カメラ視野246に対するユーザの頭部、顔、及び口の変化する角度に対して許容範囲を有して構成されることがあり、その結果、頭部、顔、及び口の角度が図4Aに示されたものなどの所定の許容範囲内にあることを画像データの収集されたフレームが示す限り、音声入力信号は、コマンドデータを含む可能性のある候補とみなされることがある。
本開示の装置、システム、及び方法は、更なる分析のために単一フレーム内の部分画像データ270を解析する、追加のハードウェア及びソフトウェアモジュールを含む。図5Aは、画像データ270の例示的なフレームを示しており、車両内に設置されたカメラは、AVMSに対するコマンドであり得る発話の発生源としてユーザの口にその設定の焦点を合わせている。カメラ240によって提供される画像データの各フレームを分析して、ユーザ、より具体的にはAVMSコマンドの発生源としてユーザの口、を表すピクセル構成を判断することができる。図5B、図5C、及び図5Dでは、ユーザの口が、カメラ240によって提供される口のピクセルのそれぞれの組に分離されている。AVMS100にインストールされているか、又はAVMS100に対して遠隔で利用可能な、画像解析及び読唇ソフトウェアが、特定の口の形状から生じる可能性がある音又は音声出力を識別するために、具備されていることがある。これらの口の形状を順番に配置することにより、ユーザが可聴信号として発した可能性のあるコマンドを解読するように、AVMS100を構成できる。上述したように、AVMS100に機械学習技術を実装して、一連の音響信号のデータベース300へのエントリを導出し、それによって、データベース300中の各ユーザプロファイルの個々の音声コーデックをプログラムすることができる。コーデックは、音声認識機能をサポートする単純で効率的な方法で、音響信号282又は音声トークン45(例えば、句、音節、文)を表すのに使用することができる、音声要素の数学モデルを表す。各個人は、その個人のコーデックで表すことができる、異なるアクセント、トーン、構文の使用法、及び音声パターンを有することができる。図5に示すように、このデータベース300及びコーデック実装の一部は、画像データから解析されユーザのプロファイルに保存することができる、それぞれの口の位置、口の形状、及び顔の表情、の集合である。従って、ユーザのコーデックは、それぞれのAVMSユーザが、どのように顔、口、舌、唇、及び関連する頭の筋肉組織を動かしてコマンドを話すか、についてのデータ及びモデルを含むことがある。自動音声認識ソフトウェアが、データベースに益々多くの音声エントリを提供し、各ユーザに対する、次第により詳細で精巧で、呼応してより正確なコーデックをもたらすにつれて、自動音声認識システムは、利用可能な音声入力、頭部の回転分析、及び少なくともユーザの口の画像データから、コマンドデータとして発声された言語を解読するように訓練される。
図6は、本明細書で説明する実施形態による自動音声認識システム200のシステムアーキテクチャの全体的な実装の一例を示す。車両内のユーザ15が、可聴音声信号675の形式の少なくとも1つの音声入力42の目標発生源として、特定されている。本開示のシステムにより考慮される音響サンプル282の部分は、単一のコマンドの有限成分として識別することができる音響信号のストリングからの断片である音声トークン45を含む。図6は、システムの音抽出範囲内の他の音49が、雑音発生源26、36であり得ることを示し、これらの2次的な音響発生源26、36は対応する音声入力信号42に影響を及ぼすが、分析からは除外されることが好ましい、というのも、雑音発生源26、36は、AVMS100又は周辺コンポーネントに有用なコマンドデータを含んでいないからである。
システムは、更なる処理のために、音声入力42をデジタル形式又はアナログ形式の電子信号675に変換するように構成された音声入力機器232を含む。図6の例では、音声入力機器232はマイクロホン239である。他の実施態様は、アレイに配置された、又は車両全体の異なる位置に配置された複数のマイクロホン239を含むことがある。上述したように、各音声入力機器から受信された電子信号675の物理的属性と共に、車両内部の音声入力機器232の地理的位置により、AVMS100が、音響サンプル282が端を発する車両内部の位置及び方向を識別することが可能になる。このようにして、システムは、望ましい目標発生源又は周辺の雑音発生源から発せられる音声入力42の予備的なスクリーニングを可能にする。
図6及び図7によると、一実施形態では、自動音声認識システム200はコンピュータメモリ215にアクセスし、プロセッサ250は、少なくとも撮像ソフトウェア225及び音響処理ソフトウェア275を実行する。プロセッサ250は、それぞれの音声入力機器232及びカメラ240によって収集された、一連の音響信号282の一部を、画像データのフレーム21A、21B、22A、22Bの全体的な集合の一部と対にするように構成される。音響信号及び画像データの両方に対する上述した操作は、AVMSに能力を与え、これには、音声トークン45に分割された音声入力42の発生源の位置を識別することと、所与の音声入力42又は音声トークン45が、認可されたユーザ又は車両のユーザからのキーワード句又はコマンドである可能性が高いと画像データ270A、270Bが立証するかどうかを判断することと、が含まれる。キーワード句又はコマンドデータの存在を決定することは、自動音声認識システム200が、上述したような個々のユーザ/ユーザの発話及び言語パターンの異なる態様のモデルを有するコーデックにアクセスすることによって、更に適応される。所与のユーザ/ユーザの組のプロファイルとしてアクセス可能なコーデック及び他のデータベースエントリを利用して、本明細書で説明する音響信号及び画像データの一方又は両方に対して動作する高度な機械翻訳及び読唇手順を提供することができる。
図7は、上述したデータベース300及び翻訳辞書315にローカルに又はリモートに接続された非一時的なコンピュータ可読メモリ215及びプロセッサ250を介して利用可能な信号処理ステップの例を示す。図7に記載するように、図6のカメラ240からの画像データ270A、270B、270Cの解析されたフレームが、特定の音声入力42の発声中のユーザの唇及び口の個々の形状を識別するように分離されており、特定の音声入力42は、音響サンプル282A、282B、282Cに変換され、更に、単語又は句の一部などの、音声トークン45A、45B、45Cに解析分解されることがある。図3のシステムと同様に、少なくとも1つのマイクロホン239などの音声入力機器232によって取り込まれた全体的な音響サンプル282からの音声トークン45A~45Cは、音響信号から同様に解析され、図示するように時間又は周波数空間のいずれかでプロットされる。本開示のシステム200は、車両AVMS100に関連して、同じ時間又は周波数領域で同様に吟味される対応する音声トークン45と共に、図示するような画像を利用し、このデータを使用して、特定の音及び単語の形の音声入力を確認することができる。
図8は、信号処理手順の1つ又は複数の例を示し、この信号処理手順により、図7の対になった音響データ及び画像データを、音声認識及び読唇プロファイルの上述したデータベース300に記憶されたユーザプロファイルから選択されたコーデックと共に、使用することができる。逐次的な画像データフレーム270A、270B、270Cとして図8に示された口の画像のピクセルデータフレームを、対応する音響サンプル282A、282B、282Cと対にすることに加えて、非限定的な信号処理技術の1つは、画像データフレーム270A、270B、270Cと対になった音響信号282A、282B、282Cを、対応する音声トークン45A、45B、45Cと照合する。本明細書で説明するシステムは、対応する音声トークン45A、45B、45Cを表す連続的な音響サンプル282A、282B、282Cの組の音響サンプル長時間700を利用する能力も含む。これらのデータセットを、音響サンプル282A、282B、282Cの間の合間期間715と共に追跡して、それぞれの音響信号データストリームにおけるキーワード句又はコマンドデータの有無について更に評価する。図7に示すような時間又は周波数空間での音声トークン45A、45B、45Cのプロットは、一連のトリガーポイント750として説明することができ、ここでは、自動音声認識システムが音響サンプル内の一連の音響セグメントの開始点及び停止点を検出することができるのに十分な、生音響から導出された電子信号を音声入力機器が提供する。図7及び図8では、各音響セグメント又は音声トークン45は、音響サンプル282A、282B、282Cがプロット用に選択された領域でゼロ軸と交差することによって決定される、識別可能な開始トリガー750A、750C、750E及び停止トリガー750B、750D、750Fを有する。時間領域では、例えば、関連するクロック290が、所与の音声トークン45の開始トリガーと停止トリガーとの間の時間を測定し、この測定値は、本明細書では音響サンプル長時間700と呼ぶことがある。連続する音声トークンの第1の停止トリガーと後に続く開始トリガーとの間の時間は、合間期間長715A、715B、715Cとみなされる。本開示で説明するシステム、方法、及びコンピュータプログラム製品は、音響サンプル長及び合間期間長を、AVMSへの音声コマンドの全般的な検証及び音声翻訳における追加のデータポイントとして利用するように構成される。
図8の例では、ユーザ/ユーザは、処理のために可聴形式で一連のキーワード句又はコマンドを提供することにより、システムを訓練することができる。この訓練は、電気機械式スイッチを使用して、訓練要求の開始又は停止を示すことを含むこともある。プロセッサ250、メモリ215、及びデータベース300は、これらの例示的なキーワード句又はコマンドを使用して、データベース内のユーザプロファイルを更新し、そのユーザの対応するコーデックは、ユーザの発話パターンモデル及び言語プロファイルと共に利用可能になる。大局的な意味では、所与のユーザ/ユーザからのコマンドデータ信号765である可能性が高いサンプル長700及び予期される合間期間715の長さを識別することにより、非コマンドデータ775である雑音発生源に起因して音声入力機器で受信された音響とは対照的に、少なくともコマンドデータの第1のレベルのスクリーニングが提供される。非限定的な一例で示すように、車両内又は電話での一般的な会話などの雑音発生源26、36は、コマンドデータ765と同じ開始トリガー750A及び停止トリガー750Bを有する可能性は低く、コマンドデータ765なら、ユーザはより意図的に発音を明確にする。既知のキーワード句又はコマンドデータの合間期間及び音響サンプル時間を、システムのユーザのコーデックにおいてモデル化して、ユーザ/ユーザの識別情報と、画像データ270からの読唇及び音響サンプル282からの音声トークン45の新たな機械翻訳を実施するのに必要なプロファイルデータと、をより迅速に評価することができる。
上述の図及び特徴を考慮して、本開示は、非一時的なコンピュータ可読媒体に記憶された一連のコンピュータ実施命令及びモジュールとして、関連する方法及び/又はコンピュータプログラム製品を実装するようにプログラムされたソフトウェアで実施することができる自動音声認識のための全般的なシステムについて説明する。このシステムは、コンピュータメモリ215、プロセッサ250、システムクロック290、及び、ローカルメモリに記憶された又はクライアント及びサーバの分散システムにおいてネットワークを介してリモートでアクセスされる、上述のコンピュータ実施命令、を含む。プロセッサ250は、対応するデータをAVMS又は異なるシステムの別のプロセッサに通信するために撮像ソフトウェア225及び音響処理ソフトウェア275を実行する幾つかのAVMSプロセッサのうちの1つであり得る。本開示の自動音声認識システム200は、カメラ240に関連付けられた視野246内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信するカメラ240を含む。マイクロホン239などの音声入力機器232は、ユーザ/ユーザからの少なくとも1つの音声入力から取得された音声トークン302の音響データストリームを、音響処理ソフトウェア275に送信する。少なくとも1つのクロック/タイマー290は、音響データストリームのセグメントに関連付けられたそれぞれの開始トリガー及び停止トリガーを受信及び/又は識別するのに応答して測定される経過時間値をコンピュータメモリに送信するように構成される。音響処理ソフトウェア275は、ハードウェアであれソフトウェアであれ、適切なスイッチをアクティブ及び非アクティブにして、それぞれの音響サンプル時間700と、音響サンプル間の合間期間715とを測定するタイマー290を提供するようにプログラムされる。実施形態によっては、音響サンプルは、少なくとも1つの音声入力42から解析された上述の音声トークン45である。車両内部からの上述した発話及びキーワード句及びコマンド認識の一部として、音響処理ソフトウェア275は、合間期間715を、有効なコマンドデータセット内のコマンド間の予期される合間時間値に対応するコマンド間隔時間値定数と比較するように更に構成される。既知のコマンド音響信号の送信中の合間期間を追跡することは、音声トークンを、キーワード句若しくはコマンドとして又はキーワード句若しくはコマンドの一部として識別するための、音声認識システムの訓練の一態様である。
上述の画像データ及び音響データの両方の特徴を識別すると、システムは、AVMS100にとって有用なコマンドデータの境界の明らかに外側にある音響及び画像データをスクリーニングするように構成される。潜在的に有効なキーワード句及びコマンドデータは、コンピュータのメモリ及び/又はバッファ構造において更なる処理のために維持され、一方、無効なサンプルは破棄される。1つの構成例では、システムは、音声トークンと以前に対にされた口の画像を分析して、音声入力機器がごく周囲からの音響データを収集している時間の間に、ユーザの口が動いていたかどうかを確認する。ユーザの口が動いていないことを画像データが示す期間については、それらの画像と時間領域で対にされた対応する音響サンプル又は音声トークンは、無効であるとして破棄されることがある。同様に、システムはプロセッサ及びメモリを更に利用して、AVMS100への可能なコマンドであると思われる音響信号の振幅閾値を記憶する。確立された閾値を超える、音響信号及び個々の音声トークンの振幅は、AVMS100へのコマンドとして有用な形式に変換するために更に考慮されることがある。本開示のシステム及び方法として実装されるコンピュータソフトウェアは、多数の異なるモジュールに配置されることがあり、例えば、音響信号処理ソフトウェア275、画像データ処理ソフトウェア225、及び適切な命令が動作するようにAVMSに送信されることを確実にするコマンド処理ソフトウェア、などがそうである。
図8及び図9によって例示される別の実施形態では、本開示によるシステムは、上述のコンポーネント及びコンピュータ化された方法を利用して、認可されたユーザからのコマンドデータを、車両内の異なる個人から発せられた非コマンドデータと区別する。追加の実施形態では、システムは、個人からの音声入力42を、雑音発生源26、36の音声入力と区別するように構成される。上述した音響信号処理技術は、以下を行うシステムを包含する、即ち、物理的な特徴、位置、声紋、及び他の識別基準を記録し、この記録されたデータをメモリ215に記憶し、所与の音声入力42が認可されたユーザ15からのものかどうかを評価し、車両内のそのユーザの位置を評価し、ユーザ15がAVMS100に向けて発するのを許可されたコマンドの種類を評価するシステムを包含する。口の動き、物理的位置、身体測定値、音響信号の方向、異なるマイクロホンでの音響信号の強度、及び本開示の範囲内の他のパラメータを追跡することにより、AVMSは、所与の個人とデータベース300内の特定の記録とを相互に関連付けることができ、各ユーザ15が発することがある有効なコマンドに対する予め設定された適切な認可を追跡することができる。例えば、運転者は車両の動作を制御するコマンドを発することができるが、車両の他の場所にいる他の同乗者が特定されることがあり、車両内のそれぞれの位置に応じて、車両内で利用可能な特定の付属品に関するコマンドを発することができる。子供などの個人は、いかなるコマンドデータを発することも認可されないことがある。これらの認可の各々は、コンピュータ可読メモリに予めプログラムされていることがあり、各ユーザ15が車両に乗った際にアドホックに割り当てられることがある。
AVMS100への複数のユーザアクセスに応じて、本明細書で説明する実施形態は更に、車両内の様々な位置にいるユーザからのコマンド765を追跡し、識別し、制御するように構成可能なシステムコンポーネントを含む。車両の内部全体に配置された複数の音声入力機器232を利用することに加えて、本開示は、車両内部全体、個々の座席、前部座席エリア及び脚収容部、後部座席エリア及び脚収容部など、までをも含む広いエリアをカバーする視野975を有するものとして、図9に図示する画像検出器及びセンサ950の使用を組み込む。他の実施形態では、カメラ910A~910G、及び車両全体に渡る特定の目標物に対するより正確な視野を有する他の画像センサを、戦略的に配置された音声入力機器920A~920F及び/又は記録装置、送受信機などと共に配置することにより、AVMSは、全ての適切な信号伝搬及び信号分析技術を利用して特定の音声入力の起点を見分けるように構成される。これらの技術には、車両内の無線通信システムを構成するハードウェアからのビーム形成技術が含まれるが、これに限定はされない。例えば、アンテナアレイは、適応ビーム形成を使用して、車両内から発せられる適切な音響信号を強調及び拒絶する。アンテナアレイのレイアウトを設計するのに有用な信号処理技術は、音声入力42の起点を特定するために、本明細書で説明するようなAVMSに適用可能である。
開示された方法及びシステムを実施するのに使用することができるコンポーネントが開示されている。これらの及び他のコンポーネントが本明細書で開示されている。これらのコンポーネントの組み合わせ、部分集合、相互作用、グループ等が開示される場合、これらの個々の及び集合的な様々な組み合わせ及び置換の各々についての具体的な言及が明示的に開示されていない可能性があっても、各々は、全ての方法及びシステムについて、具体的に考察され本明細書に説明されていることを、理解されたい。これは、開示する方法のステップを含むがこれに限定はされない、本出願の全ての態様に当てはまる。従って、実施することができる様々な追加のステップがある場合、これらの追加のステップの各々は、開示する方法の任意の特定の実施形態又は実施形態の組み合わせで実施することができることを理解されたい。
当業者には理解されるように、方法及びシステムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェアとハードウェアの態様を組み合わせた実施形態、の形態を取ることができる。更に、方法及びシステムは、コンピュータ可読記憶媒体に組み込まれたコンピュータ可読プログラム命令(例えば、コンピュータソフトウェア)を有する、その記憶媒体上のコンピュータプログラム製品の形態を取ることがある。より具体的には、本方法及びシステムは、ウェブで実施されるコンピュータソフトウェアの形態を取ることがある。ハードディスク、CD-ROM、光学式記憶装置、又は磁気記憶装置を含む、任意の適切なコンピュータ可読記憶媒体を利用することができる。
図6~図9を参照すると、方法及びシステムの実施形態は、本明細書では、方法、システム、装置、及びコンピュータプログラム製品のブロック図及び流れ図を参照して説明される。ブロック図及び流れ図の各ブロックは、コンピュータプログラム命令によって実施することができることを、理解されたい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置にロードして、機械を製造することができ、その結果、コンピュータ又は他のプログラム可能データ処理装置上で実行される命令は、流れ図のブロックで指定された機能を実装するための手段を生成する。
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置を特定の態様で機能させることができるコンピュータ可読メモリに記憶することもでき、その結果、コンピュータ可読メモリに記憶された命令は、流れ図のブロックで指定された機能を実行するためのコンピュータ可読命令を含む製品を製造する。コンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置にロードして、一連の動作ステップをそのコンピュータ又は他のプログラム可能装置上で実行させて、コンピュータ実施プロセスを生成することもでき、その結果、そのコンピュータ又は他のプログラム可能装置上で実行される命令は、流れ図のブロックで指定された機能を実行するためのステップを提供する。
従って、ブロック図及び流れ図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するためのステップの組み合わせ、及び指定された機能を実行するためのプログラム命令手段、をサポートする。ブロック図及び流れ図の各ブロック、及びブロック図及び流れ図のブロックの組み合わせは、指定された機能又はステップを実施する専用ハードウェアベースのコンピュータシステム、又は専用ハードウェアとコンピュータ命令との組み合わせによって、実装することができることも理解されたい。
本明細書には、貯蔵圧予測をサポートするために使用されるコンピュータ可読媒体の実施形態が記載される。図は、本明細書で開示する方法と共に使用するコンピュータ可読媒体の実施形態の概要を提示する。結果は、グラフィカルユーザインターフェース形式でゲートウェイ(インターネット又は衛星を介した遠隔コンピュータ)に届けることができる。説明したシステムは、本明細書に開示したアルゴリズムなどのアルゴリズムを用いて使用することができる。
図から理解されるように、この実施態様では、コンピュータは、他の要素と通信する処理ユニット106を含むことがある。同様にコンピュータ可読媒体には、データを受信及び表示するための出力機器及び入力機器が含まれことがある。この表示機器/入力機器は、例えば、モニターと組み合わせて使用されるキーボード又はポインティングデバイスであり得る。コンピュータシステムは更に、ハードディスク、着脱可能磁気ディスク、又はCD-ROMディスクなどの様々なコンピュータ可読媒体に情報を記憶するために、ハードディスクドライブ、フロッピーディスクドライブ、CD-ROMドライブ、SDディスク、光ディスクドライブ、などの少なくとも1つの記憶装置を含むことがある。当業者に理解されるように、これらの記憶装置の各々は、適切なインターフェースによってシステムバスに接続されることがある。記憶装置及びそれらに関連するコンピュータ可読媒体は、不揮発性の記憶を提供することができる。上述したコンピュータは、当技術分野における任意の他のタイプのコンピュータで置き換えることができることに留意することが重要である。そのような媒体は、例えば、磁気カセット、フラッシュメモリカード、及びデジタルビデオディスクを含む。
システムの実施形態を更に含むのは、ネットワーク・インターフェース・コントローラであり得る。当業者であれば、本明細書で開示するシステム及び方法は、コンピュータ機器又はコンピュータの形態で汎用コンピュータ機器を備えるゲートウェイを介して、実施されることがあることを、理解するであろう。
メモリバス又はメモリコントローラ、周辺機器用バス、アクセラレイティッド・グラフィックス・ポート、及び様々なバスアーキテクチャのいずれかを使用したプロセッサ又はローカルバスを含む、幾つかの可能なタイプのバス構造のうちの1つ又は複数を使用することができる。例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクス標準協会(VESA)ローカルバス、アクセラレイティッド・グラフィックス・ポート(AGP)バス、及び、周辺コンポーネント相互接続(PCI)、PCI-Expressバス、パーソナル・コンピュータ・メモリ・カード産業協会(PCMCIA)、ユニバーサル・シリアル・バス(USB)などを含むことがある。バス、及び本明細書で指定する全てのバスは、有線又は無線のネットワーク接続を介して実装されることがあり、プロセッサ、大容量記憶装置、オペレーティングシステム、ネットワークインターフェースコントローラ、入出力インターフェース、及び表示機器を含むサブシステムの各々は、完全な分散システムを効果的に実現するために、この形式のバスを通じて接続された、物理的に離れた位置にある1台又は複数台の遠隔コンピュータ機器の内部に含まれることがある。
コンピュータは通常、様々なコンピュータ可読媒体を備えている。例示的な可読媒体は、コンピュータがアクセス可能な任意の利用可能な媒体とすることができ、この媒体は、例えば、揮発性及び不揮発性の媒体の両方、着脱可能及び着脱不可能な媒体の両方を含むが、これらに限定することは意図していない。システムメモリは、ランダムアクセスメモリ(RAM)などの揮発性メモリ、及び/又は読み出し専用メモリ(ROM)などの不揮発性メモリの形態のコンピュータ可読媒体を含む。
別の態様では、コンピュータ102は、他の着脱可能/着脱不可能な、揮発性/不揮発性のコンピュータ記憶媒体も含むことがある。例えば、これに限定するものではないが、大容量記憶装置は、ハードディスク、着脱可能磁気ディスク、着脱可能光ディスク、磁気カセット又は他の磁気記憶装置、フラッシュメモリカード、CD-ROM、デジタル多用途ディスク(DVD)又は他の光学記憶装置、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気消去可能プログラマブル読み出し専用メモリ(EERPOM)などであり得る。
任意に、例としてオペレーティングシステム及び計算ソフトウェアを含む、任意の数のプログラムモジュールを、大容量記憶装置に記憶することができる。オペレーティングシステム及び計算ソフトウェア(又はそれらの何らかの組み合わせ)の各々は、プログラミング及び計算ソフトウェアの要素を含むことがある。大容量記憶装置には、データも記憶することができる。データは、当技術分野で既知の1つ又は複数のデータベースのいずれかに記憶することもできる。そのようなデータベースの例としては、DB2(商標)、マイクロソフト(商標)アクセス、マイクロソフト(商標)SQLサーバ、オラクル(商標)、mySQL、PostgreSQLなどが挙げられる。データベースは、集中型であることも、又は複数のシステムにまたがって分散していることもあり得る。
別の態様では、ユーザは、コマンド及び情報を、入力機器を介してコンピュータ102に入力することができる。そのような入力機器の例としては、キーボード、ポインティングデバイス(例えば、「マウス」)、マイクロホン、ジョイスティック、スキャナ、グローブなどの触覚入力デバイス、及び他の身体カバーなどが挙げられるが、これらに限定するものではない。これらの及び他の入力機器は、ネットワーク・インターフェース・コントローラに結合されたヒューマン・マシン・インターフェースを介して処理部に接続されることがあるが、他のインターフェース及びバス構造、例えば、パラレルポート、ゲームポート、IEEE1394ポート(Firewireポートとしても知られる)、シリアルポート、又はユニバーサル・シリアル・バス(USB)などによって接続することもできる。
更に別の態様では、表示機器が、ディスプレイアダプタなどのインターフェースを介してシステムバスに接続されることがある。コンピュータは、2つ以上のディスプレイアダプタを有することがあり、且つ2つ以上の表示機器を有することがあることが企図されている。例えば、表示機器とは、モニター、LCD(液晶ディスプレイ)、又はプロジェクターであり得る。表示機器に加えて、他の出力周辺機器が、入出力インターフェースを介してコンピュータに接続することができるスピーカー及びプリンタなどのコンポーネントを含むことがある。方法の任意のステップ及び/又は結果は、任意の形式で出力機器に出力することができる。そのような出力は、文字、グラフィック、アニメーション、音声、触覚などを含むがこれらには限定されない、任意の形式の視覚表現であり得る。
コンピュータ102は、ネットワーク環境で動作することができる。例として、遠隔コンピュータ機器は、パーソナルコンピュータ、携帯型コンピュータ、サーバ、ルーター、ネットワークコンピュータ、ピアデバイス、センサノード、又は他の一般的なネットワークノード等であり得る。コンピュータと遠隔コンピュータ機器との間の論理接続は、ローカルエリアネットワーク(LAN)、一般的なワイドエリアネットワーク(WAN)、又は任意の他の形式のネットワークを介して確立されることがある。そのようなネットワーク接続は、ネットワークアダプタを介していることがある。ネットワークアダプタは、有線環境及び無線環境の両方で実装されることがある。そのようなネットワーク環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、及びインターネットなどの他のネットワークにおいて、従来からのものであり一般的である。
開示した方法の任意のものを、コンピュータ可読媒体に組み込まれたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータがアクセスすることができる任意の利用可能な媒体とすることができる。限定するものではないが、例として、コンピュータ可読媒体は、「コンピュータ記憶媒体」及び「通信媒体」を含むことができる。「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性の、着脱可能及び着脱不可能な媒体を含む。例示的なコンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、又は所望の情報を記憶するために使用することができ、コンピュータがアクセスすることができる、任意の他の媒体、を含むが、これらに限定はされない。
本明細書で説明する方法及びシステムは、機械学習及び反復学習などの人工知能技術を用いることがある。そのような技術の例としては、エキスパートシステム、事例に基づく推論、ベイジアン・ネットワーク、行動ベースのAI、ニューラルネットワーク、ファジーシステム、進化的計算法(例えば、遺伝的アルゴリズム)、群知能(例えば、蟻アルゴリズム)、及びハイブリッド・インテリジェント・システム(例えば、ニューラルネットワークを通じて生成されたエキスパート推論ルール、又は統計学習からの生成ルール)が挙げられるが、これらに限定はされない。
本明細書で説明する方法、システム、及びコンピュータプログラム製品の実施形態は、以下の特許請求の範囲に更に記載される。

Claims (23)

  1. 車両内のエリアを監視するためのシステムであって、
    コンピュータメモリと、
    撮像ソフトウェア及び音響処理ソフトウェアを実行するプロセッサと、
    撮像機器であって、前記車両内の視野から取得され、前記撮像機器に関連付けられた画像からのピクセルデータの複数のフレームを前記撮像ソフトウェアに送信する、撮像機器と、
    音声入力の音響データストリームを前記音響処理ソフトウェアに送信する音声入力機器と、を含み、
    前記プロセッサは、前記ピクセルデータの前記複数のフレーム及び前記音声入力から前記音響データストリームの発生源としてユーザを識別するように構成され、前記システムは、
    前記音響データストリーム内の音声コマンドの存在を識別するために、前記音声入力及び前記音声入力間の合間期間に対応する経過時間値を前記コンピュータメモリに送信するように構成された少なくとも1つのタイマーを含
    前記音響処理ソフトウェアは更に、音声コマンドデータのスクリーニングを提供するために、前記合間期間に対応する前記時間値を音声コマンド間の予測合間時間値と比較するように構成される、システム。
  2. 前記コンピュータメモリに記憶される振幅閾値を更に含み、前記音響処理ソフトウェアは更に、それぞれの音声入力の振幅を前記振幅閾値と比較して、有効な音声入力、無効な音声入力、及び前記合間期間を区別するように構成される、請求項1に記載のシステム。
  3. (i)時間領域で前記有効な音声入力を追跡し、(ii)無効な音声入力を破棄し、(iii)前記時間領域で前記合間期間を追跡する、ように構成されたコマンド処理ソフトウェアを更に含む、請求項に記載のシステム。
  4. 前記コマンド処理ソフトウェアは、前記時間領域においてピクセルデータの前記フレームも追跡し、又、前記プロセッサ及び前記コンピュータメモリを利用して、前記時間領域において、ピクセルデータの前記フレームを、対応するタイミングにある有効な音声入力及び合間期間とグループ化して、前記音響データストリーム内の前記音声コマンドを有効にする、請求項に記載のシステム。
  5. 前記撮像ソフトウェアは、ピクセルデータの連続フレームを比較し、前記連続フレーム間の画像差を判断するように構成される、請求項1に記載のシステム。
  6. 前記音声入力は、ユーザの口から発せられており、前記画像差は、ユーザの口が動いていること及び/又は動いていないことを決定する前記フレームにおけるピクセル差を含む、請求項に記載のシステム。
  7. 前記プロセッサは、前記コンピュータメモリに記憶されたコマンド処理ソフトウェアにアクセスし、前記ピクセルデータの部分集合によって表わされる前記口の仮想位置から、前記撮像機器の前記視野に対する前記口の物理的位置を計算する、請求項に記載のシステム。
  8. 前記プロセッサは、前記コンピュータメモリに記憶されたコマンド処理ソフトウェアにアクセスし、有効な音声入力の持続期間中の又は合間期間中の前記口の複数の仮想位置を決定する、請求項に記載のシステム。
  9. 前記口の前記仮想位置は、前記音声入力中の音声コマンドデータの存在を検証する、請求項に記載のシステム。
  10. 前記口の前記仮想位置は、前記口が、音声入力の前記音響データストリームの持続期間中は動いており、且つ/又は合間期間中は動いていないことを検証する、請求項9に記載のシステム。
  11. 前記コマンド処理ソフトウェアは、少なくとも1つの有効な音声入力とグループ化された前記口のそれぞれの仮想位置を表すピクセルデータの複数のフレームを識別し、前記複数のフレーム間の前記画像差を比較して、前記ユーザの口の動きから音声コマンドを解読する、請求項9に記載のシステム。
  12. 前記コマンド処理ソフトウェアは、前記音声コマンドを前記コンピュータメモリに送信する、請求項11に記載のシステム。
  13. 前記音声コマンドを認可データと照合して、前記音響データストリームの前記発生源が前記音声コマンドを発する許可を有しているかどうかを判断するための、前記認可データのデータベースを更に含む、請求項12に記載のシステム。
  14. 前記プロセッサは、前記音響データストリームの前記発生源として前記ユーザが前記車両の運転者であるか又は同乗者であるかを判断するように構成される、請求項13に記載のシステム。
  15. 前記運転者か又は前記同乗者のうちの少なくとも一方に対応する音声入力機器及び撮像機器のそれぞれの組を更に含む、請求項13に記載のシステム。
  16. デジタルピクセルデータを更に含み、前記撮像ソフトウェアは、前記フレームから、前記音響データストリームの物理的発生源を表す前記デジタルピクセルデータの部分集合を分離する、請求項1に記載のシステム。
  17. 前記メモリは、前記デジタルピクセルデータの部分集合によって表わされる一連の口の動きと、前記音声入力の部分によって表わされる発声とを照合する翻訳辞書を含む、請求項16に記載のシステム。
  18. 前記プロセッサは、前記車両内の前記音声入力機器の設定位置に対する前記口の仮想位置を計算して、前記音響データストリームの方向を決定する、請求項17に記載のシステム。
  19. 前記プロセッサは、前記音響データストリームの前記方向、前記ピクセルデータの前記フレーム、前記発声を利用して、前記音声入力の発生源を識別する、請求項18に記載のシステム。
  20. 前記プロセッサは、前記音声入力の前記発生源を利用して、前記発声中の音声コマンドを認証する、請求項19に記載のシステム。
  21. 前記音声コマンドは、前記プロセッサが前記時間領域でピクセルデータの前記フレームを追跡し、前記時間領域で、ピクセルデータの前記フレームを対応するタイミングの音声入力とグループ化することにより、更に検証される、請求項3または4に記載のシステム。
  22. 前記音声入力の前記発生源は、前記プロセッサが前記ピクセルデータを評価して、前記音声入力の前記発生源の顔の特徴を識別することにより、更に検証される、請求項20に記載のシステム。
  23. 前記音声入力の部分として記憶された音声トークンのデータベースを更に含んで、識別されたユーザについてやはり前記データベースに記憶された音声コマンドとして音声入力を評価する、請求項20に記載のシステム。
JP2019552263A 2017-03-23 2018-03-23 口の画像を入力コマンドと相互に関連付けるシステム及び方法 Active JP7337699B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762475510P 2017-03-23 2017-03-23
US62/475,510 2017-03-23
PCT/US2018/024136 WO2018175959A1 (en) 2017-03-23 2018-03-23 System and method of correlating mouth images to input commands

Publications (2)

Publication Number Publication Date
JP2020518844A JP2020518844A (ja) 2020-06-25
JP7337699B2 true JP7337699B2 (ja) 2023-09-04

Family

ID=63585792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019552263A Active JP7337699B2 (ja) 2017-03-23 2018-03-23 口の画像を入力コマンドと相互に関連付けるシステム及び方法

Country Status (5)

Country Link
US (2) US10748542B2 (ja)
EP (1) EP3602544A4 (ja)
JP (1) JP7337699B2 (ja)
CN (1) CN111033611A (ja)
WO (1) WO2018175959A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101930462B1 (ko) * 2017-09-25 2018-12-17 엘지전자 주식회사 차량 제어 장치 및 그것을 포함하는 차량
JP2021508870A (ja) 2017-12-21 2021-03-11 サムスン エレクトロニクス カンパニー リミテッド 生体認証によるユーザー認証のためのシステム及び方法
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
US20190236416A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Artificial intelligence system utilizing microphone array and fisheye camera
US11195141B2 (en) 2018-04-11 2021-12-07 Shippingeasy Group, Inc. Fulfilment management implementing physical task interaction
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
JP7117972B2 (ja) * 2018-10-19 2022-08-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP7250547B2 (ja) * 2019-02-05 2023-04-03 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム
US11227610B1 (en) * 2019-04-16 2022-01-18 Wells Fargo Bank, P.A. Computer-based systems for administering patterned passphrases
US10812921B1 (en) 2019-04-30 2020-10-20 Microsoft Technology Licensing, Llc Audio stream processing for distributed device meeting
US11875796B2 (en) 2019-04-30 2024-01-16 Microsoft Technology Licensing, Llc Audio-visual diarization to identify meeting attendees
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
DE102019211584A1 (de) * 2019-08-01 2021-02-04 Robert Bosch Gmbh System und Verfahren zur Kommunikation einer mobilen Arbeitsmaschine
JP7237356B2 (ja) * 2019-08-28 2023-03-13 株式会社トーアエンジニアリング Cad制御支援システム
KR20210035968A (ko) * 2019-09-24 2021-04-02 엘지전자 주식회사 사용자의 표정이나 발화를 고려하여 마사지 동작을 제어하는 인공 지능 마사지 장치 및 그 방법
CN110827823A (zh) * 2019-11-13 2020-02-21 联想(北京)有限公司 语音辅助识别方法、装置、存储介质及电子设备
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
CN111862280A (zh) * 2020-08-26 2020-10-30 网易(杭州)网络有限公司 虚拟角色控制方法、系统、介质及电子设备
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
US20220157333A1 (en) * 2020-11-13 2022-05-19 Arris Enterprises Llc Classification of audio as orignating from a human source or a non-human to avoid false wake-word detection
US20220179615A1 (en) * 2020-12-09 2022-06-09 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
CN113655938B (zh) * 2021-08-17 2022-09-02 北京百度网讯科技有限公司 一种用于智能座舱的交互方法、装置、设备和介质
CN114093354A (zh) * 2021-10-26 2022-02-25 惠州市德赛西威智能交通技术研究院有限公司 一种提高车载语音助手识别准确率的方法及系统
CN114911381B (zh) * 2022-04-15 2023-06-16 青岛海尔科技有限公司 交互的反馈方法和装置、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308079A (ja) 2002-04-15 2003-10-31 Nissan Motor Co Ltd 音声入力装置
JP2007298592A (ja) 2006-04-28 2007-11-15 Fujitsu Ten Ltd 音声処理装置
JP2007329702A (ja) 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2015507219A (ja) 2011-12-26 2015-03-05 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
WO2015029304A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP2017090612A (ja) 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
JPH0728488A (ja) * 1993-06-24 1995-01-31 Canon Inc 情報処理方法及び装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
JP2002091466A (ja) 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
WO2004081850A1 (en) * 2003-03-13 2004-09-23 Intelligent Mechatronic Systems Inc. Visual classification and posture estimation of multiple vehicle occupants
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
CN1947171B (zh) * 2004-04-28 2011-05-04 皇家飞利浦电子股份有限公司 自适应波束形成器、旁瓣抑制器、自动语音通信设备
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US8219387B2 (en) * 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
JP2009225379A (ja) * 2008-03-18 2009-10-01 Fujitsu Ltd 音声処理装置、音声処理方法、音声処理プログラム
US8624962B2 (en) * 2009-02-02 2014-01-07 Ydreams—Informatica, S.A. Ydreams Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images
US20100332229A1 (en) 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
KR101092820B1 (ko) 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
WO2011149558A2 (en) * 2010-05-28 2011-12-01 Abelow Daniel H Reality alternate
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US9396385B2 (en) * 2010-08-26 2016-07-19 Blast Motion Inc. Integrated sensor and video motion analysis method
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
US8863042B2 (en) 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
US9443510B2 (en) * 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US9008641B2 (en) * 2012-12-27 2015-04-14 Intel Corporation Detecting a user-to-wireless device association in a vehicle
KR20140099702A (ko) * 2013-02-04 2014-08-13 한국전자통신연구원 이동통신 단말기 및 그 동작방법
US9747898B2 (en) * 2013-03-15 2017-08-29 Honda Motor Co., Ltd. Interpretation of ambiguous vehicle instructions
US9280972B2 (en) * 2013-05-10 2016-03-08 Microsoft Technology Licensing, Llc Speech to text conversion
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US9680934B2 (en) * 2013-07-17 2017-06-13 Ford Global Technologies, Llc Vehicle communication channel management
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9582246B2 (en) * 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
US20150279364A1 (en) 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
JP6403306B2 (ja) * 2014-05-19 2018-10-10 株式会社 ミックウェア システム
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US20160100092A1 (en) * 2014-10-01 2016-04-07 Fortemedia, Inc. Object tracking device and tracking method thereof
US9881610B2 (en) * 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9533687B2 (en) 2014-12-30 2017-01-03 Tk Holdings Inc. Occupant monitoring systems and methods
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US9764694B2 (en) * 2015-10-27 2017-09-19 Thunder Power Hong Kong Ltd. Intelligent rear-view mirror system
US9832583B2 (en) * 2015-11-10 2017-11-28 Avaya Inc. Enhancement of audio captured by multiple microphones at unspecified positions
EP3414759B1 (en) * 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
ES2713685T3 (es) * 2016-04-26 2019-05-23 Nokia Technologies Oy Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
JP6631445B2 (ja) * 2016-09-09 2020-01-15 トヨタ自動車株式会社 車両用情報提示装置
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
US20190333508A1 (en) * 2016-12-30 2019-10-31 Harman International Industries, Incorporated Voice recognition system
US20180190282A1 (en) * 2016-12-30 2018-07-05 Qualcomm Incorporated In-vehicle voice command control
US10861450B2 (en) * 2017-02-10 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
US20190037363A1 (en) * 2017-07-31 2019-01-31 GM Global Technology Operations LLC Vehicle based acoustic zoning system for smartphones
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308079A (ja) 2002-04-15 2003-10-31 Nissan Motor Co Ltd 音声入力装置
JP2007298592A (ja) 2006-04-28 2007-11-15 Fujitsu Ten Ltd 音声処理装置
JP2007329702A (ja) 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2015507219A (ja) 2011-12-26 2015-03-05 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
WO2015029304A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP2017090612A (ja) 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム

Also Published As

Publication number Publication date
US11031012B2 (en) 2021-06-08
US20180286404A1 (en) 2018-10-04
CN111033611A (zh) 2020-04-17
JP2020518844A (ja) 2020-06-25
US20210035586A1 (en) 2021-02-04
WO2018175959A1 (en) 2018-09-27
EP3602544A1 (en) 2020-02-05
EP3602544A4 (en) 2020-02-05
US10748542B2 (en) 2020-08-18

Similar Documents

Publication Publication Date Title
JP7337699B2 (ja) 口の画像を入力コマンドと相互に関連付けるシステム及び方法
US10635800B2 (en) System, device, and method of voice-based user authentication utilizing a challenge
US10311219B2 (en) Device, system, and method of user authentication utilizing an optical microphone
US11854550B2 (en) Determining input for speech processing engine
EP1083769B1 (en) Speech converting device and method
US20180233129A1 (en) Enhanced automatic speech recognition
KR20190101325A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
JP7419270B2 (ja) ウェアラブルシステム発話処理
JP2010256391A (ja) 音声情報処理装置
US20230129816A1 (en) Speech instruction control method in vehicle cabin and related device
KR20190053001A (ko) 이동이 가능한 전자 장치 및 그 동작 방법
CN111767785A (zh) 人机交互控制方法及装置、智能机器人及存储介质
CN112509598A (zh) 音频检测方法及装置、存储介质
CN114067782A (zh) 音频识别方法及其装置、介质和芯片系统
TW200411627A (en) Robottic vision-audition system
US11715330B2 (en) Liveness detection in an interactive video session
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2004024863A (ja) 口唇認識装置および発生区間認識装置
KR20160025203A (ko) 글라스형 웨어러블 디바이스를 이용한 당구코칭 시스템 및 방법
US20240078731A1 (en) Avatar representation and audio generation
CN116095548A (zh) 一种交互耳机及其系统
WO2023146879A1 (en) User authentication using combination of vocalization and skin vibration
Wu et al. Human Voice Sensing through Radio-Frequency Technologies: A Comprehensive Review
Anderson Lip reading from thermal cameras

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R150 Certificate of patent or registration of utility model

Ref document number: 7337699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150