JP7392827B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP7392827B2 JP7392827B2 JP2022507968A JP2022507968A JP7392827B2 JP 7392827 B2 JP7392827 B2 JP 7392827B2 JP 2022507968 A JP2022507968 A JP 2022507968A JP 2022507968 A JP2022507968 A JP 2022507968A JP 7392827 B2 JP7392827 B2 JP 7392827B2
- Authority
- JP
- Japan
- Prior art keywords
- detection mode
- target device
- operation target
- voice
- control request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000001514 detection method Methods 0.000 claims description 280
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 5
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60H—ARRANGEMENTS OF HEATING, COOLING, VENTILATING OR OTHER AIR-TREATING DEVICES SPECIALLY ADAPTED FOR PASSENGER OR GOODS SPACES OF VEHICLES
- B60H1/00—Heating, cooling or ventilating [HVAC] devices
- B60H1/00642—Control systems or circuits; Control members or indication devices for heating, cooling or ventilating devices
- B60H1/00735—Control systems or circuits characterised by their input, i.e. by the detection, measurement or calculation of particular conditions, e.g. signal treatment, dynamic models
- B60H1/00757—Control systems or circuits characterised by their input, i.e. by the detection, measurement or calculation of particular conditions, e.g. signal treatment, dynamic models by the input of sound, e.g. by using a voice synthesizer
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60Q—ARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
- B60Q3/00—Arrangement of lighting devices for vehicle interiors; Lighting devices specially adapted for vehicle interiors
- B60Q3/80—Circuits; Control arrangements
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R25/00—Fittings or systems for preventing or indicating unauthorised use or theft of vehicles
- B60R25/30—Detection related to theft or to other events relevant to anti-theft systems
- B60R25/31—Detection related to theft or to other events relevant to anti-theft systems of human presence inside or outside the vehicle
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05F—DEVICES FOR MOVING WINGS INTO OPEN OR CLOSED POSITION; CHECKS FOR WINGS; WING FITTINGS NOT OTHERWISE PROVIDED FOR, CONCERNED WITH THE FUNCTIONING OF THE WING
- E05F15/00—Power-operated mechanisms for wings
- E05F15/70—Power-operated mechanisms for wings with automatic actuation
- E05F15/73—Power-operated mechanisms for wings with automatic actuation responsive to movement or presence of persons or objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05Y—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
- E05Y2400/00—Electronic control; Electrical power; Power supply; Power or signal transmission; User interfaces
- E05Y2400/10—Electronic control
- E05Y2400/45—Control modes
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05Y—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
- E05Y2400/00—Electronic control; Electrical power; Power supply; Power or signal transmission; User interfaces
- E05Y2400/80—User interfaces
- E05Y2400/85—User input means
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05Y—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
- E05Y2900/00—Application of doors, windows, wings or fittings thereof
- E05Y2900/50—Application of doors, windows, wings or fittings thereof for vehicles
- E05Y2900/53—Type of wing
- E05Y2900/531—Doors
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05Y—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
- E05Y2900/00—Application of doors, windows, wings or fittings thereof
- E05Y2900/50—Application of doors, windows, wings or fittings thereof for vehicles
- E05Y2900/53—Type of wing
- E05Y2900/548—Trunk lids
-
- E—FIXED CONSTRUCTIONS
- E05—LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
- E05Y—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
- E05Y2900/00—Application of doors, windows, wings or fittings thereof
- E05Y2900/50—Application of doors, windows, wings or fittings thereof for vehicles
- E05Y2900/53—Type of wing
- E05Y2900/55—Windows
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Thermal Sciences (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- User Interface Of Digital Computer (AREA)
Description
《第1実施形態》
第1実施形態に係る音声認識装置100及び音声認識装置100を用いた音声認識方法について、図1~4を参照して説明する。
図1に示すように、移動体である車両1は、車載装置として、室内灯3,エアコン4,ドアウィンドウ制御装置5,ルーフウィンドウ制御装置6,バックドア制御装置7,ディスプレイ12,オーディオ機器13,ナビゲーション機器14,通話装置15,走行制御装置31,ヘッドランプ32,シート制御装置33及びトランク制御装置34を有している。また、車両1は、これらの車載装置を制御する機器制御部11と、ユーザの音声による指示を入力するためのマイクである音声取得部101と、機器制御部11及び音声取得部101に無線又は有線で接続され、車外のサーバ20に対して通信可能な通信部107とを有する。
なお、室内灯3,エアコン4及びオーディオ機器13は、車両1の内部である室内の環境状態を調整する環境調整装置である。すなわち、室内灯3は、光量を含む環境状態を調整する。エアコン4は、温度を含む環境状態を調整する。オーディオ機器13は、音量を含む環境状態を調整する。
なお、ディスプレイ12は、入力機能を備えるタッチパネル式のディスプレイに限定されず、文字情報を含む2D映像又は3D映像を出力する装置であればよい。また、ディスプレイ12は、車両1のダッシュボードに設けられるディスプレイに限らず、フロントガラス投影式のヘッドアップディスプレイやその他の各種ディスプレイであってもよい。
ディスプレイ12及びオーディオ機器13は、情報提供装置を構成する。
まず、ステップS1において、音声認識装置100の車両1側の音声取得部101は、ユーザが発した音声を取得する。具体的には、音声取得部101は、周波数によってユーザが発話したことを検出し、ユーザの発話が検出された場合に、ユーザが発した音声を含む音声情報を音声認識対象として取得する。このように、音声取得部101が、ユーザが発話している間にのみ音声情報を取得することにより、常に音声情報を取得している場合に比べて、音声認識装置100の制御負荷を減らすことができる。また、音声による指示の開始を示す特定のキーワードが予め決められている場合は、音声取得部101は、ユーザが特定のキーワードを発話した直後から、音声認識対象としての音声情報を取得してもよい。
なお、第1検出モード対象装置と第2検出モード対象装置との区別は、各々の車載装置に対して予め設定されているが、操作対象装置特定部104は、第1検出モード対象装置及び第2検出モード対象装置の設定を適宜変更することができる。
なお、ルールベース認識における音声データが制御要求テキストに一致しているか否かの判断は、ステップS1において入力された音声に基づく音声データ(テキストデータ)の全部と、制御要求テキストとを比較することによって実行する。音声データの全部とは、発話開始から発話終了までに入力された音声に基づく音声データである。つまり、制御要求特定部は、発話が開始されてから終了するまでの一連の音声に基づく音声データと制御要求テキストとが一致するか否かを判断する。
ルールベース認識に基づく第2検出モードでは、ユーザの発した音声に基づく音声データが制御要求テキストに一致すると判定した場合に、操作対象装置であるエアコンに対する制御要求を特定する(図2のステップS10参照)。すなわち、図4に示す例では、検出モード設定部105が検出モードを第2検出モードに設定した場合には、ユーザが、定義された制御要求テキストに従って「エアコンかけて」と発話した時にのみ、機器制御部11は、エアコン4の電源をONにする。従って、ユーザが制御要求テキストに一致しない発話をした場合、例えば、「エアコンつけて」、「えーと、エアコンかけたい」又は「エアコンかけると寒くなっちゃうよね」と発話した場合は、機器制御部11は、エアコン4の電源をONにせず、OFFの状態を維持する。
すなわち、各々の制御要求に対応して認識することができる音声データの範囲は、ルールベース認識に基づく第2検出モードの方が、自然言語認識に基づく第1検出モードよりも狭い。すなわち、ルールベース認識に基づく第2検出モードは、制御要求テキストが定義づけられている制御要求のみを特定するので、制御要求の内容を特定することができる音声データの範囲は、定義された制御要求の数に応じて制限される。また、ルールベース認識に基づく第2検出モードは、定義された制御要求テキストと一致する制御要求のみを特定するので、第2検出モードで特定することができる(第2検出モードで入力できる)音声データは制限される。すなわち、検出モードが第2検出モードに設定された場合の音声入力の自由度は、検出モードが第1検出モードに設定された場合よりも低い。従って、第2検出モードの方が第1検出モードよりも、制御要求を特定するための条件が厳しい。
言い換えると、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、自然言語認識に基づく第1検出モードの方が、ルールベース認識に基づく第2検出モードよりも広い。すなわち、第1検出モードの方が第2検出モードよりも、操作対象装置及び制御要求を特定するための条件が緩和されている。
なお、音声認識装置100の制御要求特定部106は、音声データとユーザの実際の指示内容との対応関係のパターンを学習し、辞書データ及び文脈データを定期的に更新することができる。
なお、オーディオ機器13は、車両1の内部の環境状態を調整する環境調整装置であるとともに、情報提供装置でもある。また、情報提供装置は、ディスプレイ12又はオーディオ機器13のみに限定されず、メータパネル(図示せず)等を含んでもよい。
第2実施形態に係る音声認識装置200を含む車両1の構成を図5に示す。なお、以下の説明において、図1~4に記載された符号と同一の符号は、同一又は同様の構成要素又はステップを示すため、詳細な説明は省略する。
図5に示すように、車両1は、音声入力によって、ディスプレイ12,オーディオ機器13,ナビゲーション機器14及び通話装置15のうちのいずれか一つ以上又はこれらの全てを制御するナビゲーションシステム110を有している。ナビゲーションシステム110は、車両1に乗車したユーザの発した音声による指示に基づいて、車両1に搭載される各種の装置に対する制御要求を受け付ける音声認識装置200を有する。音声認識装置200を構成する音声取得部101,音声データ変換部102,操作対象装置特定部104,検出モード設定部105,制御要求特定部106及び通信部107は、全て、車両1に設けられている。検出モード設定部105及び制御要求特定部106は、通信部107を介して、機器制御部11とデータ又は信号のやり取りを行うことができる。
なお、音声認識装置200は、図2に示す音声認識方法と同様の手順によって、操作対象装置に対する制御要求を特定する。
第3実施形態に係る音声認識装置300及び音声認識装置300による音声認識方法について、図6~10を参照して説明する。
図6に示すように、サーバ20は、集音環境判定部108を有する。集音環境判定部108は、音声取得部101が音声を取得するための集音環境が良好か否かを判定する。また、車両1は、車両1の走行速度を検出する車速センサ2を有している。車速センサ2は、例えば、車両1の車輪の回転速度(車輪速)から、車両1の走行速度を検出する。さらに、車両1は、車両1の周囲の風速を検出する風速センサ8を有している。また、車両1には、車両1の状態情報を取得する車両情報取得部103が設けられている。車両情報取得部103は、車速センサ2又は風速センサ8に無線又は有線によって接続する。また、車両情報取得部103は、音声取得部101及び通信部107にも、無線又は有線によって接続する。
なお、車両情報取得部103は、移動体情報取得部を構成する。
図7に示すように、ステップS4において、操作対象装置が第1検出モード対象装置であると判定された場合は、ステップS13において、車両情報取得部103が、移動体の状態情報、すなわち、車両の状態情報を取得する。そして、ステップS14において、集音環境判定部108が車両の状態情報に基づいて、集音環境が良好であるか否かを判定する。
なお、ステップS13の処理は、ステップS1~S4の処理と並行して実行してもよい。ステップS13の処理は、本制御手順のスタート以降、継続的又は周期的に行ってもよい。また、車両情報取得部103は、本制御手順のスタート前から車両の状態情報を継続的又は周期的に取得しており、ステップS13の処理で、予め継続的又は周期的に取得していた状態情報の中から、音声取得後の車両の状態情報を抽出して取得してもよい。
集音環境が良好であるか否かは、車両1の状態情報に応じた誤認識レベルによって判定される。誤認識レベルとは、音声認識装置300がユーザの発した音声を正確に認識することができず、正しい制御要求を特定することができない可能性を示す指標である。図8に示す例では、誤認識レベルを定量的な指標値として表現する。すなわち、誤認識レベルの指標値が高いほど、車両1の室内にノイズが多く、音声データ変換部102が音声を正確に音声データに変換することができないため、ユーザの音声による指示の誤認識の可能性が高くなる。従って、誤認識レベルの指標値が高いほど、集音環境は良好ではない。図8に示す表では、車両1の状態情報に応じた誤認識レベル(指標値)の加算点数が規定されている。なお、図8は、誤認識レベルの算出手法の一例を示すものであり、加算点数や加算の事項は、車両特性、音声認識装置の特性等に応じて予め定義することができる。
なお、車両1のルーフウィンドウW1及びドアウィンドウW2は、車両1の開口部を構成する。車両1の開口部は、ルーフウィンドウW1又はドアウィンドウW2に限定されず、例えば、車両1のドアであってもよい。
ステップS14において、集音環境判定部108は、誤認識レベルの基準レベルを4点と定め、誤認識レベルが基準レベルである4点未満である場合に集音環境が良好であると判定し、誤認識レベルが4点以上である場合に集音環境が良好でないと判定する。なお、基準レベルの点数は、車両特性、音声認識装置の特性等に応じて予め定義することができる。また、基準レベルの点数は、実験又はシミュレーションに基づいて予め定義することもできる。
ステップS14において、集音環境が良好でないと判定された場合は、図9に示すように、操作重要度「1(Low)」の区分に分類されるナビゲーション機器14,通話装置15,オーディオ機器13,ディスプレイ12,室内灯3,エアコン4,シートマッサージ装置33a及びシートヒータ33bは、第2検出モード対象装置として判定され、ルールベース認識に基づく第2検出モードによって制御要求が特定される。また、操作重要度「2(Middle)」の区分に分類されるシート位置調整装置33cも、同様に、第2検出モード対象装置として判定され、ルールベース認識に基づく第2検出モードによって制御要求が特定される。
なお、車両1の開口部は、ルーフウィンドウW1又はドアウィンドウW2に限定されず、その他の窓又はドアであってもよい。
図10に示すように、ステップS3において、操作対象装置が特定された場合は、ステップS23において、車両情報取得部103が、車両の状態情報を取得する。なお、ステップS23の処理は、ステップS1~S4の処理と並行して実行してもよい。そして、ステップS24において、集音環境判定部108が車両の状態情報に基づいて、集音環境が良好であるか否かを判定する。ステップS24において、集音環境が良好でないと判定された場合は、音声認識装置300は、操作対象装置が第1検出モード対象装置か否かを判定せずに、検出モードを、一律に、第2検出モードに設定する。すなわち、集音環境判定部108が集音環境は良好であると判定し、かつ、操作対象装置特定部104が操作対象装置を第2検出モード対象装置と判定している場合、又は、集音環境判定部108が集音環境は良好でないと判定している場合は、検出モード設定部105は、検出モードを第2検出モードに設定する。この場合も、集音環境が良好でないと判定された場合には、図9に示すように、操作対象装置は全て第2検出モード対象装置に設定され、操作対象装置に対する制御要求の特定には、全て、ルールベース認識に基づく第2検出モードが適用される。これにより、音声認識装置300は、音声入力の自由度が高い自然言語認識によって制御要求を特定する場合であっても、集音環境に応じて、誤認識の可能性を低くすることができる。
200…音声認識装置
1…車両(移動体)
3…室内灯(環境調整装置)
4…エアコン(環境調整装置/空調装置)
5a…ドアウィンドウロック装置
5b…ドアウィンドウ開閉装置
6a…ルーフウィンドウロック装置
6b…ルーフウィンドウ開閉装置
7a…バックドアロック装置
7b…バックドア開閉装置
12…ディスプレイ(情報提供装置)
13…オーディオ機器(環境調整装置/情報提供装置)
31…走行制御装置
33…シート制御装置
34a…トランクロック装置
34b…トランク開閉装置
101…音声取得部
102…音声データ変換部
103…車両情報取得部(移動体情報取得部)
104…操作対象装置特定部
105…検出モード設定部
106…制御要求特定部
108…集音環境判定部
W1…ルーフウィンドウ(開口部)
W2…ドアウィンドウ(開口部)
Claims (19)
- ユーザの発した音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置であって、
前記音声を取得する音声取得部と、
前記音声取得部により取得された前記音声を音声データに変換する音声データ変換部と、
前記音声データ変換部により変換された前記音声データを解析して、操作の対象である操作対象装置を特定する操作対象装置特定部と、
前記操作対象装置特定部により特定された前記操作対象装置に応じて、前記音声データに対応する前記制御要求を特定するための検出モードとして、辞書データを参照して自然言語認識に基づき前記音声データを解釈し、前記音声データが前記制御要求と同じ要求を意味する音声データであるかを判断することによって前記音声データを解析する第1検出モード、又は、前記音声データが予め定義された制御要求テキストに一致するか否かを判定することによって前記音声データを解析する第2検出モードを設定する検出モード設定部と、
前記検出モード設定部により設定された前記検出モードに基づいて、前記操作対象装置に対する前記制御要求を特定する制御要求特定部とを備える、音声認識装置。 - 前記検出モード設定部は、
前記特定された操作対象装置が第1検出モード対象装置である場合に、前記検出モードを前記第1検出モードに設定し、
前記特定された操作対象装置が第2検出モード対象装置である場合に、前記検出モードを前記第2検出モードに設定し、
各々の前記制御要求に対応して認識することができる前記音声データの範囲は、前記第2検出モードの方が、前記第1検出モードよりも狭い、請求項1に記載の音声認識装置。 - 前記検出モード設定部が、前記検出モードを前記第2検出モードに設定した場合に、
前記制御要求特定部は、
前記音声データが、予め定義された制御要求テキストに一致するか否かを判定し、
前記音声データが前記制御要求テキストに一致すると判定した場合に、前記制御要求テキストに対応する前記制御要求を特定する、請求項2に記載の音声認識装置。 - 前記検出モードが前記第2検出モードに設定されている場合であって、
前記音声による指示に基づく前記音声データが前記制御要求テキストに一致しない場合に、
前記制御要求特定部は、
前記ユーザに対して、前記音声データが前記制御要求テキストに一致するように前記指示をやり直すことを案内する案内情報を、前記移動体に設けられた情報提供装置に出力する、請求項3に記載の音声認識装置。 - 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の走行を制御するための走行制御装置であると特定した場合に、前記操作対象装置を前記第2検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、前記操作対象装置が前記移動体のトランク、ドア若しくはウィンドウのロック装置、又は、前記トランク、前記ドア若しくは前記ウィンドウの開閉装置であると特定した場合に、前記操作対象装置を前記第2検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の内部の温度、光量又は音量のうち少なくともいずれか1つを含む環境状態を調整する環境調整装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の内部に設けられたシートの状態を制御するシート制御装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、前記操作対象装置が前記ユーザに対して情報の提供を行う情報提供装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
- 前記移動体の状態情報を取得する移動体情報取得部と、
移動体情報取得部が取得した前記移動体の前記状態情報に基づいて、前記音声を取得するための集音環境が良好か否かを判定する集音環境判定部とを備え、
前記集音環境判定部が前記集音環境は良好であると判定し、かつ、前記操作対象装置特定部が前記操作対象装置を前記第1検出モード対象装置と判定している場合には、前記検出モード設定部は、前記検出モードを前記第1検出モードに設定する、請求項2~9のいずれか一項に記載の音声認識装置。 - 前記集音環境判定部が前記集音環境は良好でないと判定している場合は、前記操作対象装置特定部は、予め前記第1検出モード対象装置として設定されていた前記操作対象装置を、前記第2検出モード対象装置に変更して設定し直す、請求項10に記載の音声認識装置。
- 前記移動体情報取得部は、前記移動体に設けられた空調装置から吹き出される空気の風量を前記状態情報として取得する、請求項10又は11に記載の音声認識装置。
- 前記移動体情報取得部は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の走行速度とを前記状態情報として取得する、請求項10~12のいずれか一項に記載の音声認識装置。
- 前記移動体情報取得部は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の周囲の風速を前記状態情報として取得する、請求項10~12のいずれか一項に記載の音声認識装置。
- 前記移動体の状態情報を取得する移動体情報取得部を備え、
前記移動体情報取得部は、前記移動体の走行状態を前記状態情報として取得し、
前記操作対象装置特定部は、前記移動体の前記走行状態に基づいて、前記移動体が停止していると判定した場合に、予め前記第2検出モード対象装置として設定されていた前記操作対象装置を、前記第1検出モード対象装置に変更して設定し直す、請求項2~9のいずれか一項に記載の音声認識装置。 - 前記操作対象装置特定部が、予め前記第1検出モード対象装置として設定されていた前記操作対象装置を、前記第2検出モード対象装置に変更して設定し直した場合、又は、予め前記第2検出モード対象装置として設定されていた前記操作対象装置を、前記第1検出モード対象装置に変更して設定し直した場合は、前記移動体に設けられた情報提供装置に、前記操作対象装置の設定の変更を示す情報を出力する、請求項2~15のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、自然言語認識に基づいて前記音声データを解析し、操作対象装置を特定する、請求項1~16のいずれか一項に記載の音声認識装置。
- 前記操作対象装置特定部は、操作重要度によって分類された操作対象装置の区分に応じて、前記操作対象装置を第1検出モード対象装置又は第2検出モード対象装置と判定し、
前記検出モード設定部は、前記操作対象装置特定部による判定結果に応じて、前記検出モードを設定する請求項1~17のいずれか一項に記載の音声認識装置。 - ユーザの発した音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置を用いた音声認識方法であって、
前記音声認識装置は、
前記音声を取得し、
取得した前記音声を音声データに変換し、
前記音声データを解析して、操作の対象である操作対象装置を特定し、
前記操作対象装置に応じて、前記音声データに対応する前記制御要求を検出するための検出モードとして、辞書データを参照して自然言語認識に基づき前記音声データを解釈し、前記音声データが前記制御要求と同じ要求を意味する音声データであるかを判断することによって前記音声データを解析する第1検出モード、又は、前記音声データが予め定義された制御要求テキストに一致するか否かを判定することによって前記音声データを解析する第2検出モードを設定し、
設定された前記検出モードに基づいて、前記操作対象装置に対する前記制御要求を特定する、音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/012349 WO2021186679A1 (ja) | 2020-03-19 | 2020-03-19 | 音声認識装置及び音声認識方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021186679A1 JPWO2021186679A1 (ja) | 2021-09-23 |
JPWO2021186679A5 JPWO2021186679A5 (ja) | 2022-06-28 |
JP7392827B2 true JP7392827B2 (ja) | 2023-12-06 |
Family
ID=77771984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022507968A Active JP7392827B2 (ja) | 2020-03-19 | 2020-03-19 | 音声認識装置及び音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230139640A1 (ja) |
EP (1) | EP4123640A4 (ja) |
JP (1) | JP7392827B2 (ja) |
CN (1) | CN115298737A (ja) |
WO (1) | WO2021186679A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230139640A1 (en) * | 2020-03-19 | 2023-05-04 | Nissan Motor Co., Ltd. | Voice recognition device and voice recognition method |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006308848A (ja) | 2005-04-28 | 2006-11-09 | Honda Motor Co Ltd | 車両機器制御装置 |
JP2007286136A (ja) | 2006-04-13 | 2007-11-01 | Alpine Electronics Inc | 車載用音声認識装置及び音声認識方法 |
JP2009210956A (ja) | 2008-03-06 | 2009-09-17 | National Institute Of Advanced Industrial & Technology | 操作方法およびそのための操作装置、プログラム |
JP2017009867A (ja) | 2015-06-24 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御装置、その方法及びプログラム |
JP2019073255A (ja) | 2017-10-19 | 2019-05-16 | アイシン精機株式会社 | 運転支援装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10248831A (ja) * | 1997-03-13 | 1998-09-22 | Hitachi Medical Corp | 医用診断装置 |
DE112012006617B4 (de) * | 2012-06-25 | 2023-09-28 | Hyundai Motor Company | Bord-Informationsvorrichtung |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
JP2017146437A (ja) * | 2016-02-17 | 2017-08-24 | 本田技研工業株式会社 | 音声入力処理装置 |
JP6930837B2 (ja) * | 2017-01-23 | 2021-09-01 | Gmoインターネット株式会社 | 環境模擬装置 |
US20230139640A1 (en) * | 2020-03-19 | 2023-05-04 | Nissan Motor Co., Ltd. | Voice recognition device and voice recognition method |
-
2020
- 2020-03-19 US US17/910,378 patent/US20230139640A1/en active Pending
- 2020-03-19 JP JP2022507968A patent/JP7392827B2/ja active Active
- 2020-03-19 CN CN202080098726.7A patent/CN115298737A/zh active Pending
- 2020-03-19 EP EP20926023.1A patent/EP4123640A4/en active Pending
- 2020-03-19 WO PCT/JP2020/012349 patent/WO2021186679A1/ja unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006308848A (ja) | 2005-04-28 | 2006-11-09 | Honda Motor Co Ltd | 車両機器制御装置 |
JP2007286136A (ja) | 2006-04-13 | 2007-11-01 | Alpine Electronics Inc | 車載用音声認識装置及び音声認識方法 |
JP2009210956A (ja) | 2008-03-06 | 2009-09-17 | National Institute Of Advanced Industrial & Technology | 操作方法およびそのための操作装置、プログラム |
JP2017009867A (ja) | 2015-06-24 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御装置、その方法及びプログラム |
JP2019073255A (ja) | 2017-10-19 | 2019-05-16 | アイシン精機株式会社 | 運転支援装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021186679A1 (ja) | 2021-09-23 |
US20230139640A1 (en) | 2023-05-04 |
EP4123640A4 (en) | 2023-04-05 |
JPWO2021186679A1 (ja) | 2021-09-23 |
CN115298737A (zh) | 2022-11-04 |
EP4123640A1 (en) | 2023-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10818297B2 (en) | Dialogue system, vehicle and method for controlling the vehicle | |
KR102426171B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 서비스 처리 방법 | |
KR20200001188A (ko) | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 | |
US20230102157A1 (en) | Contextual utterance resolution in multimodal systems | |
KR20200000604A (ko) | 대화 시스템 및 대화 처리 방법 | |
US11004450B2 (en) | Dialogue system and dialogue processing method | |
KR20190131741A (ko) | 대화 시스템 및 대화 처리 방법 | |
US11532303B2 (en) | Agent apparatus, agent system, and server device | |
JP7392827B2 (ja) | 音声認識装置及び音声認識方法 | |
JP7239359B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
CN110562260A (zh) | 对话系统和对话处理方法 | |
US20220415318A1 (en) | Voice assistant activation system with context determination based on multimodal data | |
US11542744B2 (en) | Agent device, agent device control method, and storage medium | |
CN111798842B (zh) | 对话系统和对话处理方法 | |
JPH08211892A (ja) | 音声認識装置 | |
US20230238020A1 (en) | Speech recognition system and a method for providing a speech recognition service | |
JP2021148971A (ja) | 音声認識方法及び音声認識装置 | |
JP2020142758A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
KR20200000621A (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
JP2020144285A (ja) | エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム | |
JP2020154994A (ja) | エージェントシステム、エージェントサーバ、エージェントサーバの制御方法、およびプログラム | |
JP7274901B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
US20230206918A1 (en) | Speech Recognition System and Method for Providing Speech Recognition Service | |
US20210303263A1 (en) | Dialogue system and vehicle having the same, and method of controlling dialogue system | |
JP7297483B2 (ja) | エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220421 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231106 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7392827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |