JP7392827B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP7392827B2
JP7392827B2 JP2022507968A JP2022507968A JP7392827B2 JP 7392827 B2 JP7392827 B2 JP 7392827B2 JP 2022507968 A JP2022507968 A JP 2022507968A JP 2022507968 A JP2022507968 A JP 2022507968A JP 7392827 B2 JP7392827 B2 JP 7392827B2
Authority
JP
Japan
Prior art keywords
detection mode
target device
operation target
voice
control request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022507968A
Other languages
English (en)
Other versions
JPWO2021186679A1 (ja
JPWO2021186679A5 (ja
Inventor
美香 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Publication of JPWO2021186679A1 publication Critical patent/JPWO2021186679A1/ja
Publication of JPWO2021186679A5 publication Critical patent/JPWO2021186679A5/ja
Application granted granted Critical
Publication of JP7392827B2 publication Critical patent/JP7392827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60HARRANGEMENTS OF HEATING, COOLING, VENTILATING OR OTHER AIR-TREATING DEVICES SPECIALLY ADAPTED FOR PASSENGER OR GOODS SPACES OF VEHICLES
    • B60H1/00Heating, cooling or ventilating [HVAC] devices
    • B60H1/00642Control systems or circuits; Control members or indication devices for heating, cooling or ventilating devices
    • B60H1/00735Control systems or circuits characterised by their input, i.e. by the detection, measurement or calculation of particular conditions, e.g. signal treatment, dynamic models
    • B60H1/00757Control systems or circuits characterised by their input, i.e. by the detection, measurement or calculation of particular conditions, e.g. signal treatment, dynamic models by the input of sound, e.g. by using a voice synthesizer
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q3/00Arrangement of lighting devices for vehicle interiors; Lighting devices specially adapted for vehicle interiors
    • B60Q3/80Circuits; Control arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R25/00Fittings or systems for preventing or indicating unauthorised use or theft of vehicles
    • B60R25/30Detection related to theft or to other events relevant to anti-theft systems
    • B60R25/31Detection related to theft or to other events relevant to anti-theft systems of human presence inside or outside the vehicle
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05FDEVICES FOR MOVING WINGS INTO OPEN OR CLOSED POSITION; CHECKS FOR WINGS; WING FITTINGS NOT OTHERWISE PROVIDED FOR, CONCERNED WITH THE FUNCTIONING OF THE WING
    • E05F15/00Power-operated mechanisms for wings
    • E05F15/70Power-operated mechanisms for wings with automatic actuation
    • E05F15/73Power-operated mechanisms for wings with automatic actuation responsive to movement or presence of persons or objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2400/00Electronic control; Electrical power; Power supply; Power or signal transmission; User interfaces
    • E05Y2400/10Electronic control
    • E05Y2400/45Control modes
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2400/00Electronic control; Electrical power; Power supply; Power or signal transmission; User interfaces
    • E05Y2400/80User interfaces
    • E05Y2400/85User input means
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2900/00Application of doors, windows, wings or fittings thereof
    • E05Y2900/50Application of doors, windows, wings or fittings thereof for vehicles
    • E05Y2900/53Type of wing
    • E05Y2900/531Doors
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2900/00Application of doors, windows, wings or fittings thereof
    • E05Y2900/50Application of doors, windows, wings or fittings thereof for vehicles
    • E05Y2900/53Type of wing
    • E05Y2900/548Trunk lids
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME ASSOCIATED WITH SUBCLASSES E05D AND E05F, RELATING TO CONSTRUCTION ELEMENTS, ELECTRIC CONTROL, POWER SUPPLY, POWER SIGNAL OR TRANSMISSION, USER INTERFACES, MOUNTING OR COUPLING, DETAILS, ACCESSORIES, AUXILIARY OPERATIONS NOT OTHERWISE PROVIDED FOR, APPLICATION THEREOF
    • E05Y2900/00Application of doors, windows, wings or fittings thereof
    • E05Y2900/50Application of doors, windows, wings or fittings thereof for vehicles
    • E05Y2900/53Type of wing
    • E05Y2900/55Windows
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Thermal Sciences (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識装置及び音声認識方法に関するものである。
音声認識装置は、ユーザが発した音声を音声認識し、音声認識結果に基づいて、各種の処理を行う。特許文献1に記載される車両機器制御装置は、曖昧語を含むキーワードを検出するキーワード検出手段を有しており、ユーザが発した音声による指示が不明瞭な場合でも、可能な限りユーザの意図に沿って、音声認識を行うことができる。
特開2006‐308848号公報
しかしながら、特許文献1に記載される車両機器制御装置によって車両などの移動体に搭載された装置を制御する場合は、装置の種類によっては、不明瞭な指示による制御が適さない場合がある。
本発明が解決しようとする課題は、各々の操作対象装置に応じた適切な検出モードで、ユーザの音声による指示に基づく制御要求を特定することができる音声認識装置及び音声認識方法を提供することである。
本発明に係る音声認識装置及び音声認識方法は、操作対象装置に応じて、制御要求を特定するための検出モードを設定し、設定された検出モードに基づいて、制御要求を特定することによって上記課題を解決する。
本発明によれば、操作対象装置に応じて検出モードを設定することができるので、各々の操作対象装置に応じた適切な検出モードで、ユーザの音声による指示に基づく制御要求を特定することができるという効果を奏する。
本発明の第1実施形態に係る音声認識装置を利用する車両の構成を示すブロック図である。 図1に示す音声認識装置を用いた音声認識方法を示すフローチャートである。 図1に示す音声認識装置によって予め設定される第1検出モード対象装置及び第2検出モード対象装置の例を示す図である。 ルールベース認識に基づく第2検出モードと自然言語認識に基づく第1検出モードとの音声の認識範囲の違いを例示する表である。 本発明の第2実施形態に係る音声認識装置を含む車両の構成を示すブロック図である。 本発明の第3実施形態に係る音声認識装置を利用する車両の構成を示すブロック図である。 図6に示す音声認識装置を用いた音声認識方法を示すフローチャートである。 図7に示す音声認識方法において、各々の車両状態に応じて加算される誤認識レベルの点数を示す表である。 図7に示す音声認識方法において、集音環境が良好でないと判断された場合の操作対象装置と検出モードとの対応関係を示す図である。 図6に示す音声認識装置を用いた音声認識方法の別例を示すフローチャートである。
以下、本発明の実施形態を図面に基づいて説明する。
《第1実施形態》
第1実施形態に係る音声認識装置100及び音声認識装置100を用いた音声認識方法について、図1~4を参照して説明する。
図1に示すように、移動体である車両1は、車載装置として、室内灯3,エアコン4,ドアウィンドウ制御装置5,ルーフウィンドウ制御装置6,バックドア制御装置7,ディスプレイ12,オーディオ機器13,ナビゲーション機器14,通話装置15,走行制御装置31,ヘッドランプ32,シート制御装置33及びトランク制御装置34を有している。また、車両1は、これらの車載装置を制御する機器制御部11と、ユーザの音声による指示を入力するためのマイクである音声取得部101と、機器制御部11及び音声取得部101に無線又は有線で接続され、車外のサーバ20に対して通信可能な通信部107とを有する。
なお、室内灯3,エアコン4及びオーディオ機器13は、車両1の内部である室内の環境状態を調整する環境調整装置である。すなわち、室内灯3は、光量を含む環境状態を調整する。エアコン4は、温度を含む環境状態を調整する。オーディオ機器13は、音量を含む環境状態を調整する。
また、車両1の通信部107は、無線によって、サーバ20と通信することができる。なお、サーバ20にも、車両1の通信部107と通信可能なサーバ側通信部(図示せず)が設けられている。サーバ20は、音声データ変換部102、操作対象装置特定部104、検出モード設定部105及び制御要求特定部106を有する。車両1に設けられたディスプレイ12,オーディオ機器13,ナビゲーション機器14,通話装置15,機器制御部11,音声取得部101及び通信部107と、サーバ20の音声データ変換部102、操作対象装置特定部104、検出モード設定部105及び制御要求特定部106とは、ナビゲーションシステム10を構成する。ナビゲーションシステム10は、例えば、IVIシステム等である。また、車両1に設けられた音声取得部101及び通信部107と、サーバ20の音声データ変換部102、操作対象装置特定部104、検出モード設定部105及び制御要求特定部106とは、音声認識装置100を構成する。すなわち、音声認識装置100はナビゲーションシステム10の一部を構成している。また、音声認識装置100は、ユーザの発した音声による指示を受け付け、機器制御部11を介して、車載装置のいずれか一つ以上又は全てを制御する。すなわち、ナビゲーションシステム10は、車両1に乗車したユーザの発した音声による指示に基づいて、車両1に搭載される各種の装置に対する制御要求を受け付ける音声認識装置100を有する。音声認識装置100は、音声認識システムである。
なお、図3に示すように、ドアウィンドウ制御装置5は、ドアウィンドウロック装置5a及びドアウィンドウ開閉装置5bを有する。ルーフウィンドウ制御装置6は、ルーフウィンドウロック装置6a及びルーフウィンドウ開閉装置6bを有する。バックドア制御装置7は、バックドアロック装置7a及びバックドア開閉装置7bを有する。トランク制御装置34は、トランクロック装置34a及びトランク開閉装置34bを有する。
また、シート制御装置33は、車両1の室内に設けられたシートの各種機能を制御する装置であり、シートマッサージ装置33a,シートヒータ33b及びシート位置調整装置33cを有する。シート位置調整装置33cは、シートの高さ、シートの前後方向の位置及びシートの背凭れの角度を調整することができる。
また、図1に示す走行制御装置31は、車両1の走行モードとして自動運転モードが選択されている場合に、車両1の走行を制御する装置である。具体的には、走行制御装置31は、車両1の駆動アクチュエータ、操舵アクチュエータ及び制動アクチュエータを制御する。
ディスプレイ12は、ユーザのタッチ操作によって、オーディオ機器13,ナビゲーション機器14,通話装置15及びその他の車載装置への制御指示を入力することができる入力機能を備えるタッチパネル式のディスプレイである。また、ディスプレイ12は、通話装置15への着信情報、通話装置15を介して会話をしている通話相手の情報、ナビゲーション機器14による案内情報などを、文字情報やアイコンを含む映像として出力することができる。また、オーディオ機器13は、通話装置15に着信があったことを通知する音声、通話装置15を介して会話をしている通話相手の発話音声、ナビゲーション機器による案内情報を示す音声などを出力することができる。
なお、ディスプレイ12は、入力機能を備えるタッチパネル式のディスプレイに限定されず、文字情報を含む2D映像又は3D映像を出力する装置であればよい。また、ディスプレイ12は、車両1のダッシュボードに設けられるディスプレイに限らず、フロントガラス投影式のヘッドアップディスプレイやその他の各種ディスプレイであってもよい。
ディスプレイ12及びオーディオ機器13は、情報提供装置を構成する。
サーバ20の音声データ変換部102は、音声取得部101が取得した音声の情報を、通信部107を介して受信し、音声データに変換する。なお、音声データは、音声に基づくテキストデータである。
また、サーバ20の操作対象装置特定部104は、音声データ変換部102によって変換された音声データを解析し、音声データに含まれるキーワードから、操作の対象となる操作対象装置を特定する。操作対象装置は、例えば、室内灯3,エアコン4,ドアウィンドウ制御装置5,ルーフウィンドウ制御装置6,バックドア制御装置7,ディスプレイ12,オーディオ機器13,ナビゲーション機器14,通話装置15,走行制御装置31,ヘッドランプ32,シート制御装置33及びトランク制御装置34のうちの1つ又は複数の車載装置である。なお、操作対象装置特定部104は、制御要求を特定する際には、サーバ20に格納されている辞書データ及び文脈データを参照する。また、操作対象装置に応じて、操作対象装置特定部104は、各操作対象装置を第1検出モード対象装置又は第2検出モード対象装置に予め設定する。操作対象装置特定部104は、各操作対象装置が第1検出モード対象装置又は第2検出モード対象装置のいずれかであるかが予め設定された対象装置情報を参照して、特定された操作対象装置が第1又は第2検出モード対象装置のいずれであるかを判定する。第1検出モード対象装置は、制御要求の特定の際に、後述する自然言語認識に基づく第1検出モードを用いる対象となる装置である。また、第2検出モード対象装置は、制御要求の特定の際に、後述するルールベース認識に基づく第2検出モードを用いる対象となる装置である。そして、操作対象装置特定部104によって判定された「操作対象装置が第1又は第2検出モード対象装置のいずれであるか」を示す情報(以下、判定情報ともいう)は、車両1側の通信部107及び機器制御部11を介してディスプレイ12及び/又はオーディオ機器13に出力される。すなわち、特定された操作対象装置が第1検出モード対象装置であるか、又は、第2検出モード対象装置であるかを示す判定情報が、ディスプレイ12に映像やテキストを含む画像として表示され、又は、オーディオ機器13により音声によって出力される。また、操作対象装置特定部104によって設定された操作対象装置の判定情報は、検出モード設定部105に出力される。
検出モード設定部105は、音声データ変換部102が変換した音声データに対応する制御要求を特定するための検出モードを、操作対象装置特定部104が判定した操作対象装置の判定情報に応じて、設定する。具体的には、検出モード設定部105は、検出モードを、操作対象装置の判定情報に応じて、後述する自然言語認識に基づく第1検出モード、又は、後述するルールベース認識に基づく第2検出モードのいずれかに設定する。検出モード設定部105によって設定された検出モードの情報は、車両1側の通信部107及び機器制御部11を介してディスプレイ12及び/又はオーディオ機器13に出力される。すなわち、現在の検出モードが、第1検出モード又は第2検出モードのいずれに設定されているかを示す情報(以下、「検出モード設定情報」ともいう)が、ディスプレイ12に映像やテキストを含む画像として表示され、又は、オーディオ機器13により音声によって出力される。また、検出モード設定部105によって設定された検出モードを示す検出モード設定情報は、制御要求特定部106に出力される。
制御要求特定部106は、検出モード設定部105によって設定された検出モードに基づいて、音声データ変換部102が変換した音声データを解析し、操作対象装置に対する制御要求の内容を特定する。なお、制御要求特定部106は、操作対象装置特定部104と同様に、制御要求を特定する際には、サーバ20に格納されている辞書データ及び文脈データを参照する。そして、制御要求特定部106は、特定された操作対象装置に対する制御要求の内容を、車両1側の通信部107を介して、機器制御部11に送信する。機器制御部11は、受信した操作対象装置の情報及び操作対象装置に対する制御要求の内容に基づいて、操作対象装置を制御する。
次に、音声認識装置100による音声認識方法の手順について、図2に示すフローチャートを用いて説明する。
まず、ステップS1において、音声認識装置100の車両1側の音声取得部101は、ユーザが発した音声を取得する。具体的には、音声取得部101は、周波数によってユーザが発話したことを検出し、ユーザの発話が検出された場合に、ユーザが発した音声を含む音声情報を音声認識対象として取得する。このように、音声取得部101が、ユーザが発話している間にのみ音声情報を取得することにより、常に音声情報を取得している場合に比べて、音声認識装置100の制御負荷を減らすことができる。また、音声による指示の開始を示す特定のキーワードが予め決められている場合は、音声取得部101は、ユーザが特定のキーワードを発話した直後から、音声認識対象としての音声情報を取得してもよい。
次に、ステップS2において、音声認識装置100のサーバ20側の音声データ変換部102は、取得した音声を、テキストとして認識可能な音声データに変換する。
さらに次に、ステップS3において、操作対象装置特定部104は、音声データ変換部102によって変換された音声データを解析して、制御の対象である操作対象装置を特定する。操作対象装置特定部104は、自然言語認識により、音声データを解析して、操作対象装置を特定する。具体的には、ユーザが「ルーフウィンドウあけて」と発音した場合は、操作対象装置特定部104は、辞書データ及び文脈データを参照して、操作対象装置をルーフウィンドウ開閉装置6bであると特定する。また、ユーザが「上の窓あけて」、「屋根あけて」等の言い方で音声による指示を発話した場合にも、操作対象装置特定部104は、この場合の「上の窓」又は「屋根」がルーフウィンドウを意味していると判断し、操作対象装置をルーフウィンドウ開閉装置6bであると特定する。すなわち、操作対象装置特定部104は、ユーザが発した音声に基づく音声データが、予め定義された制御要求テキストと一致しない場合であっても、操作対象装置を特定することができる。
次に、ステップS4において、操作対象装置特定部104は、ステップS3で特定された操作対象装置が第1検出モード対象装置か否かを判定する。ここで、操作対象装置が第1検出モード対象装置か、又は、第1検出モード対象装置ではなく第2検出モード対象装置かを判定する方法について、図3を参照して説明する。
図3に示す例では、車両1の車載装置が、操作重要度の高低に応じて、予め3つの区分に分類されている。操作重要度とは、その車載装置の制御が車両1の走行状態又は車両1に乗車しているユーザに及ぼす影響の大きさの度合いである。よって、操作重要度が高い車載装置ほど、車両1の走行に及ぼす影響が大きいため、制御要求の誤認識の可能性を可能な限り0に近づけたいという要請が大きい。すなわち、操作重要度が高い操作対象装置ほど、音声認識装置100が特定する制御要求と、実際のユーザの音声による指示とが正確かつ確実に合致している必要がある。
具体的には、ナビゲーション機器14,通話装置15,オーディオ機器13,ディスプレイ12,室内灯3,エアコン4,シートマッサージ装置33a及びシートヒータ33bは、操作重要度「1(Low)」の区分に分類される。これらのアクセサリ装置は運転に与える影響が低いと考えられるので、最も低い操作重要度に分類される。一方、シート位置調整装置33cは、操作重要度「2(Middle)」の区分に分類される。すなわち、ユーザが着席するシートの位置や高さは、ユーザによる車両1の運転に影響を及ぼし得るため、シート位置調整装置33cは、シートマッサージ装置33a及びシートヒータ33bよりも操作重要度が高い。また、走行制御装置31,ヘッドランプ32,ドアウィンドウロック装置5a,ドアウィンドウ開閉装置5b,ルーフウィンドウロック装置6a,ルーフウィンドウ開閉装置6b,バックドアロック装置7a,バックドア開閉装置7b,トランクロック装置34a及びトランク開閉装置34bは、車両1の走行やユーザに及ぼす影響が特に大きいため、操作重要度「3(High)」の区分に分類される。操作対象装置特定部104は、操作重要度「1(Low)」の区分に分類された車載装置及び操作重要度「2(Middle)」の区分に分類された車載装置を、第1検出モード対象装置として判定する。また、操作対象装置特定部104は、操作重要度「3(High)」の区分に分類された車載装置を、第2検出モード対象装置として判定する。
なお、第1検出モード対象装置と第2検出モード対象装置との区別は、各々の車載装置に対して予め設定されているが、操作対象装置特定部104は、第1検出モード対象装置及び第2検出モード対象装置の設定を適宜変更することができる。
次に、図2に示すように、ステップS4において、操作対象装置が第1検出モード対象装置であると判定された場合は、ステップS5において、検出モード設定部105は、検出モードを第1検出モードに設定する。そして、ステップS6において、制御要求特定部106は、ステップS2で変換された音声データから、自然言語認識によって、ユーザの指示の内容が読み取り可能か否かを判定する。指示の内容が読み取り可能か否かは、音声データ変換部102によって変換された音声データを、制御要求特定部106が、辞書データ及び文脈データを参照して自然言語認識に基づき解釈し、制御要求の内容を特定することができるか否かによって判定する。音声データから指示を読み取ることができない場合は、ステップS12において、音声認識装置100は、ユーザに聞き直しを行う。聞き直しは、ディスプレイ12に文字を含む画像として表示されるか、又は、オーディオ機器13が音声案内を行うことによって、ユーザに提示される。一方、音声データから指示内容が読み取り可能であった場合、ステップS7において、制御要求特定部106は、操作対象装置に対する制御要求を特定する。すなわち、制御要求特定部106は、音声データ変換部102によって変換された音声データを、辞書データ及び文脈データを参照して自然言語認識に基づき解釈し、制御要求の内容を特定する。特定された制御要求は、ステップS11において、操作対象装置を制御するために、車両1の機器制御部11へ送信され、フローは終了する。
ステップS4において、操作対象装置が第1検出モード対象装置でないと判定された場合、すなわち、操作対象装置が第2検出モード対象装置であると判定された場合は、ステップS8において、検出モード設定部105は、検出モードを第2検出モードに設定する。そして、ステップS9において、ステップS2で変換された音声データが、予め定義された制御要求テキストに一致するか否かを判定し、一致していない場合は、ステップS12において、ユーザに聞き直しを行う。ユーザへの聞き直しとは、音声入力(指示の発話)のやり直しを提案又は要求する処理である。このとき、制御要求特定部106は、ユーザに対して、音声データが制御要求テキストに一致するように指示(音声入力/発話)をやり直すことを案内する案内情報を、車両1の通信部107及び機器制御部11を介して、ディスプレイ12又はオーディオ機器13に出力する。
一方、音声データが制御要求テキストに一致している場合、ステップS10において、制御要求特定部106は、ルールベース認識に基づく第2検出モードにより、制御要求テキストに対応する制御要求を特定する。ステップS11において、特定された制御要求は、操作対象装置を制御するために、車両1の通信部107を介して、機器制御部11へ送信され、フローは終了する。
なお、ルールベース認識における音声データが制御要求テキストに一致しているか否かの判断は、ステップS1において入力された音声に基づく音声データ(テキストデータ)の全部と、制御要求テキストとを比較することによって実行する。音声データの全部とは、発話開始から発話終了までに入力された音声に基づく音声データである。つまり、制御要求特定部は、発話が開始されてから終了するまでの一連の音声に基づく音声データと制御要求テキストとが一致するか否かを判断する。
ここで、自然言語認識に基づく第1検出モードと、ルールベース認識に基づく第2検出モードとの違いについて、図4を用いて説明する。図4には、制御対象装置がエアコンであり、制御要求の内容が「エアコンの電源をONにしたい」というものである場合の第1検出モードと第2検出モードとの違いを示す。なお、図3に示す例では、エアコン4は第1検出モード対象装置として規定されているが、図4に示す例においては、説明の便宜上、エアコン4への制御要求の特定に、第1検出モード及び第2検出モードのいずれもが適用され得るものとする。
図4に示すように、制御対象装置がエアコンであり、制御要求の内容が「エアコンの電源をONにしたい」というものである場合、この制御要求の内容に対応する制御要求テキストは、「エアコンかけて」であると予め定義されている。
ルールベース認識に基づく第2検出モードでは、ユーザの発した音声に基づく音声データが制御要求テキストに一致すると判定した場合に、操作対象装置であるエアコンに対する制御要求を特定する(図2のステップS10参照)。すなわち、図4に示す例では、検出モード設定部105が検出モードを第2検出モードに設定した場合には、ユーザが、定義された制御要求テキストに従って「エアコンかけて」と発話した時にのみ、機器制御部11は、エアコン4の電源をONにする。従って、ユーザが制御要求テキストに一致しない発話をした場合、例えば、「エアコンつけて」、「えーと、エアコンかけたい」又は「エアコンかけると寒くなっちゃうよね」と発話した場合は、機器制御部11は、エアコン4の電源をONにせず、OFFの状態を維持する。
自然言語認識に基づく第1検出モードでは、ユーザが、制御要求テキストである「エアコンかけて」を発話する場合以外にも、例えば、「エアコンつけて」又は「えーと、エアコンかけたい」と発話した場合には、機器制御部11は、エアコン4の電源をONにする。具体的には、ユーザが「エアコンつけて」と発話した場合、制御要求特定部106は、音声データを「エアコン」と「つけて」とに分節し、辞書データを参照し、「つけて」が「かけて」の類語であると判断して、「エアコンの電源をONにしたい」という制御要求を特定する。なお、第1検出モードで用いる辞書データは、登録された一の単語と、その単語と意味内容が共通する他の単語とを、類語として対応づけて記憶する。また、ユーザが「えーと、エアコンかけたい」と発話した場合は、制御要求特定部106は、「えーと」が間投詞であり、意味を持たない単語であると判断するとともに、「えーと、エアコンかけたい」は、「エアコンかけて」と同じ要求を意味する音声データであると判断する。これによって、制御要求特定部106は、「えーと、エアコンかけたい」という音声データに基づいて「エアコンの電源をONにしたい」という制御要求を特定する。
すなわち、各々の制御要求に対応して認識することができる音声データの範囲は、ルールベース認識に基づく第2検出モードの方が、自然言語認識に基づく第1検出モードよりも狭い。すなわち、ルールベース認識に基づく第2検出モードは、制御要求テキストが定義づけられている制御要求のみを特定するので、制御要求の内容を特定することができる音声データの範囲は、定義された制御要求の数に応じて制限される。また、ルールベース認識に基づく第2検出モードは、定義された制御要求テキストと一致する制御要求のみを特定するので、第2検出モードで特定することができる(第2検出モードで入力できる)音声データは制限される。すなわち、検出モードが第2検出モードに設定された場合の音声入力の自由度は、検出モードが第1検出モードに設定された場合よりも低い。従って、第2検出モードの方が第1検出モードよりも、制御要求を特定するための条件が厳しい。
言い換えると、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、自然言語認識に基づく第1検出モードの方が、ルールベース認識に基づく第2検出モードよりも広い。すなわち、第1検出モードの方が第2検出モードよりも、操作対象装置及び制御要求を特定するための条件が緩和されている。
一方、ユーザが「エアコンかけると寒くなっちゃうよね」と発話した場合、制御要求特定部106は、単語の組み合わせ及び順序を辞書データ及び文脈データに沿って解析し、ユーザの音声による指示が「エアコンの電源をONにした場合は、車両の室温が適温を下回るため、エアコンの電源をONにしたくない」ということを意味していると推測する。従って、制御要求特定部106は、車両1の機器制御部11に対して、エアコン4の電源をONにする指示を送信しない。すなわち、ユーザが「エアコンかけると寒くなっちゃうよね」と発話した場合は、検出モードが第1検出モード又は第2検出モードのいずれに設定されていても、エアコン4の電源はOFFの状態に維持され、ONにはならない。
なお、音声認識装置100の制御要求特定部106は、音声データとユーザの実際の指示内容との対応関係のパターンを学習し、辞書データ及び文脈データを定期的に更新することができる。
以上より、本実施形態に係る音声認識装置100及び音声認識装置100を用いた音声認識方法は、操作対象装置に応じて、音声データに対応する制御要求を特定するための検出モードを設定し、設定された検出モードに基づいて制御要求を特定する。従って、音声認識装置100は、各々の操作対象装置に応じた適切な検出モードで、ユーザの音声による指示に基づく制御要求を特定することができる。
また、音声認識装置100は、特定された操作対象装置が第1検出モード対象装置である場合に、検出モードを、自然言語認識によって前記音声データを解析する第1検出モードに設定し、特定された操作対象装置が第2検出モード対象装置である場合に、検出モードを、自然言語認識とは異なる手法の音声認識によって音声データを解析する2検出モードに設定する。すなわち、音声認識装置100は、操作対象装置に応じて、検出モードを、自然言語認識を用いた第1検出モード、又は、自然言語認識とは異なる手法の音声認識を用いた第2検出モードのいずれかに設定することができる。また、各々の制御要求に対応して認識することができる音声データの範囲は、第2検出モードの方が、第1検出モードよりも狭く、限定的である。従って、音声認識装置100は、操作対象装置によって、音声による曖昧な指示(自由度の高い指示)を受け付ける自然言語認識に基づく第1検出モードと、自然言語認識よりも自由度が低いものの、確度の高い音声認識に基づく第2検出モードとを使い分けることができる。なお、自然言語認識を用いて音声データを分析する場合は、制御要求特定部106が認識すべき対象の単語の数が増加したり、また、音声データに複数の意味を持つ単語が含まれたりすることがある。そのため、検出モードを第1検出モードに設定した場合は、検出モードを第2検出モードに設定した場合に比べて制御要求の誤認識の可能性が高くなる。よって、音声認識装置100は、例えば、操作重要度が高く、音声による曖昧な指示が適さない操作対象装置に対して制御の指示が出された場合は、検出モードとして、高い確度の音声認識が期待できる第2検出モードを選択することができる。一方、音声認識装置100は、操作重要度があまり高くない操作対象装置に対して制御の指示が出された場合は、音声認識ができる範囲が広く、入力が許容される音声の自由度が高い第1検出モードを選択することができる。
また、検出モードが第2検出モードに設定されている場合に、音声認識装置100は、音声データが、予め定義された制御要求テキストに一致するか否かを判定する。そして、音声認識装置100は、音声データが制御要求テキストに一致すると判定した場合に、制御要求テキストに対応する制御要求を特定する。すなわち、第2検出モードは、ルールベース認識によって音声データを解析する検出モードである。従って、例えば、操作重要度が高く、自然言語認識による音声認識が適していない操作対象装置に対する制御要求を特定する場合は、音声認識装置100は、ルールベース認識によって音声データを解析する第2検出モードを選択することができる。よって、音声認識装置100は、自然言語認識による音声認識が適していない操作対象装置に対する制御要求を特定する場合に、音声認識の確度を向上させ、ユーザの音声による指示の誤認識を防止することができる。
また、検出モードが第2検出モードに設定されている場合であって、音声による指示に基づく音声データが制御要求テキストに一致しない場合に、音声認識装置100は、ユーザに対して、音声による指示をやり直すように案内する。これにより、検出モードが第2検出モードに設定されている場合に、音声認識装置100は、ユーザに対して、ルールベース認識が可能な態様で、音声による指示を出すように促すことができる。
さらに、操作対象装置特定部104は、操作対象装置が、車両1の走行を制御するための走行制御装置31であると特定した場合に、操作対象装置を第2検出モード対象装置と判定する。走行制御装置31による車両1の駆動アクチュエータ、操舵アクチュエータ及び制動アクチュエータの制御は、車両1の走行状態に大きな影響を及ぼすため、走行制御装置31の操作重要度は特に高い。従って、操作対象装置特定部104が、走行制御装置31を第2検出モード対象装置であると判定することによって、制御要求特定部106は、走行制御装置31に対する制御要求を、確実かつ正確に特定することができる。よって、車両1の走行状態の安定性が維持される。
また、操作対象装置特定部104は、操作対象装置が、車両1のトランク、ドア若しくはウィンドウのロック装置、又は、トランク、ドア若しくはウィンドウの開閉装置であると特定した場合に、操作対象装置を第2検出モード対象装置と判定する。すなわち、操作対象装置特定部104は、ドアウィンドウロック装置5a,ドアウィンドウ開閉装置5b,ルーフウィンドウロック装置6a,ルーフウィンドウ開閉装置6b,バックドアロック装置7a,バックドア開閉装置7b,トランクロック装置34a又はトランク開閉装置34bを、予め第2検出モード対象装置として設定する。車両1のトランク、ドア若しくはウィンドウがロックされているか、又は、トランク、ドア若しくはウィンドウが開いているか否かは、車両1の走行状態及び車両1に乗車するユーザに大きな影響を及ぼす。そのため、ドアウィンドウロック装置5a,ドアウィンドウ開閉装置5b,ルーフウィンドウロック装置6a,ルーフウィンドウ開閉装置6b,バックドアロック装置7a,バックドア開閉装置7b,トランクロック装置34a及びトランク開閉装置34bの操作重要度は特に高い。操作対象装置特定部104が、これらのロック装置及び開閉装置を第2検出モード対象装置と判定することによって、制御要求特定部106は、ドアウィンドウ制御装置5,ルーフウィンドウ制御装置6,バックドア制御装置7又はトランク制御装置34に対する制御要求を、確実かつ正確に特定することができる。よって、車両1の走行状態の安定性が維持される。
操作対象装置特定部104は、操作対象装置が、車両1の内部の温度、光量及び音量のうち少なくともいずれか1つを含む環境状態を調整する環境調整装置、すなわち、室内灯3,エアコン4又はオーディオ機器13であると特定した場合に、操作対象装置を第1検出モード対象装置と判定する。室内灯3,エアコン4又はオーディオ機器13は、走行制御装置31又はドア等のロック装置若しくは開閉装置よりも、車両1の走行状態及びユーザに対して与える影響は小さい。そのため、図3に示すように、室内灯3,エアコン4及びオーディオ機器13の操作重要度は「1(Low)」である。従って、操作対象装置特定部104が、室内灯3,エアコン4又はオーディオ機器13を第1検出モード対象装置と判定することにより、制御要求特定部106は、入力が許容される音声の自由度が高い第1検出モードを用いて、これらの装置への制御要求を特定することができる。これにより、ユーザは、様々なパターンの発話によって、より感覚的に、室内灯3,エアコン4若しくはオーディオ機器13のON/OFF、又は、室内灯3の光量,エアコン4の風量若しくはオーディオ機器13の設定音量等を制御する指示を出すことができる。
操作対象装置特定部104は、操作対象装置が、車両1の内部に設けられたシートの状態を制御するシート制御装置33、すなわち、シートマッサージ装置33a,シートヒータ33b又はシート位置調整装置33cであると特定した場合に、操作対象装置を第1検出モード対象装置として判定する。シート制御装置33は、走行制御装置31又はドア等のロック装置若しくは開閉装置よりも、車両1の走行状態及びユーザに対して与える影響は小さい。そのため、図3に示すように、シートマッサージ装置33a及びシートヒータ33bの操作重要度は「1(Low)」であり、シート位置調整装置33cの操作重要度は「2(Middle)」である。従って、操作対象装置特定部104が、シートマッサージ装置33a,シートヒータ33b又はシート位置調整装置33cを第1検出モード対象装置と判定することにより、制御要求特定部106は、入力が許容される音声の自由度が高い第1検出モードを用いて、各々のシート制御装置33への制御要求を特定することができる。これにより、ユーザは、様々なパターンの発話(自由度の高い発話)によって、より感覚的に、シートマッサージ装置33aによるマッサージの強弱の切り替え、シートヒータ33bによって加熱される座面の温度、又は、シート位置調整装置33cによって調整されるシートの高さや位置等を制御する指示を出すことができる。
操作対象装置特定部104は、操作対象装置がユーザに対して情報の提供を行う情報提供装置、すなわち、ディスプレイ12又はオーディオ機器13であると特定した場合に、操作対象装置を第1検出モード対象装置と判定する。ディスプレイ12又はオーディオ機器13は、走行制御装置31又はドア等のロック装置若しくは開閉装置よりも、車両1の走行状態及びユーザに対して与える影響は小さい。そのため、図3に示すように、ディスプレイ12又はオーディオ機器13の操作重要度は「1(Low)」である。従って、操作対象装置特定部104が、ディスプレイ12又はオーディオ機器13を第1検出モード対象装置と判定することにより、制御要求特定部106は、入力が許容される音声の自由度が高い第1検出モードを用いて、制御要求を特定することができる。これにより、ユーザは、様々なパターンの発話によって、より感覚的に、ディスプレイ12若しくはオーディオ機器13のON/OFF、又は、ディスプレイ12の画面の明度や文字の大きさ若しくはオーディオ機器13の設定音量等を制御する指示を出すことができる。
なお、オーディオ機器13は、車両1の内部の環境状態を調整する環境調整装置であるとともに、情報提供装置でもある。また、情報提供装置は、ディスプレイ12又はオーディオ機器13のみに限定されず、メータパネル(図示せず)等を含んでもよい。
また、操作対象装置特定部104は、図2に示すステップS3において、自然言語認識に基づいて音声データを解析し、操作対象装置を特定する。これにより、ユーザが制御要求テキストに一致しない言い方で音声による指示を出した場合であっても、操作対象装置特定部104は、操作対象装置を特定することができる。
なお、本実施形態において、音声データ変換部102,操作対象装置特定部104,検出モード設定部105及び制御要求特定部106は、サーバ20に設けられているが、これらのうち一部の機能は、車両1に設けられていてもよい。
《第2実施形態》
第2実施形態に係る音声認識装置200を含む車両1の構成を図5に示す。なお、以下の説明において、図1~4に記載された符号と同一の符号は、同一又は同様の構成要素又はステップを示すため、詳細な説明は省略する。
図5に示すように、車両1は、音声入力によって、ディスプレイ12,オーディオ機器13,ナビゲーション機器14及び通話装置15のうちのいずれか一つ以上又はこれらの全てを制御するナビゲーションシステム110を有している。ナビゲーションシステム110は、車両1に乗車したユーザの発した音声による指示に基づいて、車両1に搭載される各種の装置に対する制御要求を受け付ける音声認識装置200を有する。音声認識装置200を構成する音声取得部101,音声データ変換部102,操作対象装置特定部104,検出モード設定部105,制御要求特定部106及び通信部107は、全て、車両1に設けられている。検出モード設定部105及び制御要求特定部106は、通信部107を介して、機器制御部11とデータ又は信号のやり取りを行うことができる。
なお、音声認識装置200は、図2に示す音声認識方法と同様の手順によって、操作対象装置に対する制御要求を特定する。
以上より、本実施形態に係る音声認識装置200は、第1実施形態に係る音声認識装置100と同様に、操作対象装置に応じて、音声データに対応する制御要求を特定するための検出モードを設定し、設定された検出モードに基づいて制御要求を特定する。従って、音声認識装置200は、音声認識装置100と同様に、各々の操作対象装置に応じた適切な検出モードで、ユーザの音声による指示に基づく制御要求を特定することができる。また、音声認識装置200は車両1に搭載されているため、通信環境に関わらず、ユーザの音声による指示に基づいて、操作対象装置に対する制御要求を特定することができる。
《第3実施形態》
第3実施形態に係る音声認識装置300及び音声認識装置300による音声認識方法について、図6~10を参照して説明する。
図6に示すように、サーバ20は、集音環境判定部108を有する。集音環境判定部108は、音声取得部101が音声を取得するための集音環境が良好か否かを判定する。また、車両1は、車両1の走行速度を検出する車速センサ2を有している。車速センサ2は、例えば、車両1の車輪の回転速度(車輪速)から、車両1の走行速度を検出する。さらに、車両1は、車両1の周囲の風速を検出する風速センサ8を有している。また、車両1には、車両1の状態情報を取得する車両情報取得部103が設けられている。車両情報取得部103は、車速センサ2又は風速センサ8に無線又は有線によって接続する。また、車両情報取得部103は、音声取得部101及び通信部107にも、無線又は有線によって接続する。
なお、車両情報取得部103は、移動体情報取得部を構成する。
車両1に設けられたディスプレイ12,オーディオ機器13,ナビゲーション機器14,通話装置15,機器制御部11,音声取得部101,車両情報取得部103及び通信部107と、サーバ20の集音環境判定部108,音声データ変換部102,操作対象装置特定部104,検出モード設定部105及び制御要求特定部106とは、ナビゲーションシステム210を構成する。また、車両1に設けられた音声取得部101,車両情報取得部103及び通信部107と、サーバ20の集音環境判定部108,音声データ変換部102、操作対象装置特定部104、検出モード設定部105及び制御要求特定部106とは、音声認識装置300を構成する。すなわち、音声認識装置300はナビゲーションシステム210の一部を構成している。また、音声認識装置300は、ユーザの発した音声による指示を受け付け、機器制御部11を介して、車載装置のいずれか一つ以上又は全てを制御する。すなわち、ナビゲーションシステム210は、車両1に乗車したユーザの発した音声による指示に基づいて、車両1に搭載される各種の装置に対する制御要求を受け付ける音声認識装置300を有する。音声認識装置300は、音声認識システムである。
ここで、車両情報取得部103は、車速センサ2,風速センサ8,音声取得部101及び通信部107を介して、車両1の状態情報を取得する。車両1の状態情報とは、車両1の室内の音環境に影響を与える要素に関する情報である。例えば、車両1の状態情報は、車両1の室内の騒音の大きさ、ドアウィンドウ,ルーフウィンドウ又はバックドア等の開口部の開閉情報、車両1の走行速度、車両1の周囲の風速、オーディオ機器13の設定音量、エアコン4から吹き出される空気の風量等である。車両1の室内の騒音の大きさは、音声取得部101によって検出されるノイズ、すなわち、ユーザの発話による音声以外の音の大きさ(例えば計測値)であり、dB(デシベル)を単位として算出される。また、車両情報取得部103は、通信部107及び機器制御部11を介して、オーディオ機器13の設定音量、エアコン4から吹き出される空気の風量、ドアウィンドウ、ルーフウィンドウ又はバックドアの開閉情報等を、車両1の状態情報として取得する。また、車両情報取得部103は、車両1の室内の騒音の大きさとオーディオ機器13の設定音量とに基づいて、車両1の内部のうち、例えば、室内の騒音レベルを算出し、算出された騒音レベルを車両1の状態情報として取得することもできる。具体的には、車両1の室内の騒音の大きさに応じて割り振られた点数と、オーディオ機器13の設定音量に応じて割り振られた点数とを合計することで、騒音レベルが算出される。騒音レベルは、車両1の車室内に設けられたマイクによる計測値を用いて算出してもよいし、車両1の車体に設けられたマイクや振動センサによる計測値を用いて算出してもよい。
サーバ20に設けられた集音環境判定部108は、車両情報取得部103によって取得された車両1の状態情報に基づいて、車両1の室内の集音環境が良好か否かを判定する。車両1の室内の集音環境とは、音声認識装置300の音声取得部101がユーザの発した音声を取得するための環境である。車両1の室内の集音環境が良好である程、音声取得部101が取得する音声に含まれるノイズ(ユーザの発話による音声以外の音)が少なく、音声認識装置300がユーザの音声による指示を正確に認識できる可能性が高くなる。一方、車両1の室内の集音環境が良好でない程、音声取得部101が取得する音声に含まれるノイズが多く、音声認識装置300がユーザの音声による指示を、誤って特定する、つまり、誤認識してしまう可能性が高くなる。なお、ユーザの音声による指示の認識処理には、制御の対象となる操作対象装置の特定処理及び/又は操作対象装置に対する制御要求の内容の特定処理を含む。
次に、音声認識装置300による音声認識方法の手順について、図7に示すフローチャートを用いて説明する。
図7に示すように、ステップS4において、操作対象装置が第1検出モード対象装置であると判定された場合は、ステップS13において、車両情報取得部103が、移動体の状態情報、すなわち、車両の状態情報を取得する。そして、ステップS14において、集音環境判定部108が車両の状態情報に基づいて、集音環境が良好であるか否かを判定する。
なお、ステップS13の処理は、ステップS1~S4の処理と並行して実行してもよい。ステップS13の処理は、本制御手順のスタート以降、継続的又は周期的に行ってもよい。また、車両情報取得部103は、本制御手順のスタート前から車両の状態情報を継続的又は周期的に取得しており、ステップS13の処理で、予め継続的又は周期的に取得していた状態情報の中から、音声取得後の車両の状態情報を抽出して取得してもよい。
ここで、車両の状態情報に基づいて集音環境が良好であるか否かを判定する基準について、図8を用いて説明する。
集音環境が良好であるか否かは、車両1の状態情報に応じた誤認識レベルによって判定される。誤認識レベルとは、音声認識装置300がユーザの発した音声を正確に認識することができず、正しい制御要求を特定することができない可能性を示す指標である。図8に示す例では、誤認識レベルを定量的な指標値として表現する。すなわち、誤認識レベルの指標値が高いほど、車両1の室内にノイズが多く、音声データ変換部102が音声を正確に音声データに変換することができないため、ユーザの音声による指示の誤認識の可能性が高くなる。従って、誤認識レベルの指標値が高いほど、集音環境は良好ではない。図8に示す表では、車両1の状態情報に応じた誤認識レベル(指標値)の加算点数が規定されている。なお、図8は、誤認識レベルの算出手法の一例を示すものであり、加算点数や加算の事項は、車両特性、音声認識装置の特性等に応じて予め定義することができる。
図8に示すように、車両1のルーフウィンドウW1又はドアウィンドウW2が開状態である場合の誤認識レベルの加算点数は1点である。また、エアコン4の風量が予め定められた基準風量以上である場合の誤認識レベルの加算点数は2点である。また、ルーフウィンドウW1又はドアウィンドウW2が開状態であって、車両1の走行速度が20km/h以上80km/h未満である場合の誤認識レベルの加算点数は2点である。また、ルーフウィンドウW1又はドアウィンドウW2が開状態であって、車両1の走行速度が80km/h以上である場合の誤認識レベルの加算点数は3点である。さらに、車両1の室内の騒音レベルが予め定められた基準騒音レベル以上である場合の誤認識レベルの加算点数は3点である。
なお、車両1のルーフウィンドウW1及びドアウィンドウW2は、車両1の開口部を構成する。車両1の開口部は、ルーフウィンドウW1又はドアウィンドウW2に限定されず、例えば、車両1のドアであってもよい。
集音環境の誤認識レベル(指標値)は、車両1の状態情報に応じて、図8の表の右側に示す点数を加算することにより算出される。例えば、ルーフウィンドウW1が開状態であり、車速が20km/h以上80km/h未満である場合の誤認識レベルを示す点数は、1点と2点とを加算して3点と算出される。また、ルーフウィンドウW1が開状態であり、エアコン風量が基準風量以上であり、車速が80km/h以上である場合の誤認識レベルを示す点数は、1点と2点と3点とを加算して6点と算出される。
ステップS14において、集音環境判定部108は、誤認識レベルの基準レベルを4点と定め、誤認識レベルが基準レベルである4点未満である場合に集音環境が良好であると判定し、誤認識レベルが4点以上である場合に集音環境が良好でないと判定する。なお、基準レベルの点数は、車両特性、音声認識装置の特性等に応じて予め定義することができる。また、基準レベルの点数は、実験又はシミュレーションに基づいて予め定義することもできる。
ステップS14において、集音環境が良好であると判定された場合、ステップS5において、検出モード設定部105は、検出モードを第1検出モードに設定する。すなわち、集音環境判定部108が、集音環境は良好であると判定し、かつ、操作対象装置特定部104が操作対象装置を第1検出モード対象装置と判定している場合は、検出モード設定部105は、検出モードを前記第1検出モードに設定する。
一方、ステップS14において、集音環境が良好でないと判定された場合、ステップS15において、操作対象装置特定部104は、操作対象装置の設定を第1検出モード対象装置から第2検出モード対象装置に変更する。すなわち、集音環境判定部108が集音環境は良好でないと判定している場合は、操作対象装置特定部104は、予め第1検出モード対象装置として設定されていた操作対象装置を、第2検出モード対象装置に変更して設定し直す。サーバ20は、操作対象装置の設定の変更を示す情報、すなわち、操作対象装置の設定が第1検出モード対象装置から第2検出モード対象装置に変更されたことを含む情報を、車両1の通信部107及び機器制御部11を介して、ディスプレイ12又はオーディオ機器13に出力する。そして、ステップS8において、検出モード設定部105は、検出モードを第2検出モードに設定する。
ここで、ステップS15において、操作対象装置特定部104が、操作対象装置の設定を第1検出モード対象装置から第2検出モード対象装置に変更して、設定し直した状態の例を、図9に示す。
ステップS14において、集音環境が良好でないと判定された場合は、図9に示すように、操作重要度「1(Low)」の区分に分類されるナビゲーション機器14,通話装置15,オーディオ機器13,ディスプレイ12,室内灯3,エアコン4,シートマッサージ装置33a及びシートヒータ33bは、第2検出モード対象装置として判定され、ルールベース認識に基づく第2検出モードによって制御要求が特定される。また、操作重要度「2(Middle)」の区分に分類されるシート位置調整装置33cも、同様に、第2検出モード対象装置として判定され、ルールベース認識に基づく第2検出モードによって制御要求が特定される。
なお、操作重要度「3(High)」の区分に分類される走行制御装置31,ヘッドランプ32,ドアウィンドウロック装置5a,ドアウィンドウ開閉装置5b,ルーフウィンドウロック装置6a,ルーフウィンドウ開閉装置6b,バックドアロック装置7a,バックドア開閉装置7b,トランクロック装置34a及びトランク開閉装置34bについては、設定の変更は行われない。従って、ステップS14において、集音環境が良好でないと判定された場合は、操作対象装置は全て第2検出モード対象装置に設定され、操作対象装置に対する制御要求の特定には、全て、ルールベース認識に基づく第2検出モードが適用される。
以上より、本実施の形態に係る音声認識装置300及び音声認識装置300を用いた音声認識方法では、集音環境判定部108が、集音環境は良好であると判定し、かつ、操作対象装置特定部104が操作対象装置を第1検出モード対象装置として判定している場合は、検出モード設定部105は、検出モードを前記第1検出モードに設定する。従って、音声認識装置300は、集音環境が良好である場合、すなわち、集音環境にノイズが少ない場合にのみ、操作重要度があまり高くない第1検出モード対象装置に対して、自然言語認識に基づく第1検出モードを適用し、制御要求を特定する。すなわち、音声認識装置300は、ノイズの多い集音環境では、自然言語認識に基づく第1検出モードの適用を避けるように構成されている。よって、音声認識装置300は、音声入力の自由度が高い自然言語認識によって制御要求を特定する場合であっても、集音環境に応じて、誤認識の可能性を低くすることができるため、操作対象装置に対する制御要求をより確実に特定することができる。
また、集音環境判定部108が集音環境は良好でないと判定している場合は、操作対象装置特定部104は、予め第1検出モード対象装置として設定されていた操作対象装置を、第2検出モード対象装置に変更して設定し直す。ここで、集音環境が良好でない場合、すなわち、ノイズが多い集音環境では、制御要求の特定に誤認識が生じる可能性が高まる。そのため、予め第1検出モード対象装置として設定されていた操作対象装置も第2検出モード対象装置に設定し直して、ルールベース認識に基づく第2検出モードを適用し、制御要求を特定することによって、誤認識を防止することができる。
集音環境判定部108は、空調装置であるエアコン4から吹き出される空気の風量を状態情報として取得する。エアコン4の風量が多い程、音声取得部101が取得する音声にノイズが混じりやすくなるため、エアコン4から吹き出される空気の風量を状態情報として取得することによって、集音環境判定部108は、集音環境が良好か否かをより適切に判定することができる。
また、集音環境判定部108は、車両1に設けられた開口部であるルーフウィンドウW1又はドアウィンドウW2の開閉状態と、ルーフウィンドウW1又はドアウィンドウW2が開状態である場合における車両1の走行速度を状態情報として取得する。ルーフウィンドウW1又はドアウィンドウW2が開けられた状態で車両1が走行している場合、車両1の走行速度が速い程、風音や対向車の走行音等、外から車両1の室内に入ってくるノイズが大きくなるからである。そのため、ルーフウィンドウW1又はドアウィンドウW2の開閉状態と、車両1の走行速度とを状態情報として取得することにより、集音環境判定部108は、集音環境が良好か否かをより適切に判定することができる。
さらに、集音環境判定部108は、車両1に設けられた開口部であるルーフウィンドウW1又はドアウィンドウW2の開閉状態と、ルーフウィンドウW1又はドアウィンドウW2が開状態である場合における車両1の周囲の風速を状態情報として取得する。ルーフウィンドウW1又はドアウィンドウW2が開状態にある場合には、車両1の周囲の風速が速い程、車両1の室内に吹き込む風量が多く、ノイズが大きくなるからである。なお、車両1が走行しておらず停止している場合であっても、ルーフウィンドウW1又はドアウィンドウW2が開状態にあれば、車両1の周囲の風速は、車両1の室内の集音環境に影響を及ぼす。そのため、ルーフウィンドウW1又はドアウィンドウW2の開閉状態と、車両1の周囲の風速とを状態情報として取得することにより、集音環境判定部108は、集音環境が良好か否かをより適切に判定することができる。
なお、車両1の開口部は、ルーフウィンドウW1又はドアウィンドウW2に限定されず、その他の窓又はドアであってもよい。
また、集音環境判定部108は、車両1の室内の騒音レベルを状態情報として取得する。車両1の室内の騒音レベルが高い程、音声取得部101が取得する音声にノイズが混じりやすくなるため、車両1の室内の騒音レベルを状態情報として取得することによって、集音環境判定部108は、集音環境が良好か否かをより適切に判定することができる。
また、操作対象装置特定部104が、予め第1検出モード対象装置として設定されていた操作対象装置を、第2検出モード対象装置に変更して設定し直した場合は、音声認識装置300は、車両1に設けられたディスプレイ12又はオーディオ機器13に、操作対象装置の設定の変更を示す情報を出力する。これにより、操作対象装置の設定が第1検出モード対象装置から第2検出モード対象装置に変更されたことをユーザが確実に確認することができ、ユーザは、操作対象装置の現在の設定に合わせた音声指示を出しやすくなる。
なお、本実施の形態に係る音声認識装置300を用いた音声認識方法は、図7に示すフローに限定されない。音声認識装置300を用いた音声認識方法の別例を、図10に示す。
図10に示すように、ステップS3において、操作対象装置が特定された場合は、ステップS23において、車両情報取得部103が、車両の状態情報を取得する。なお、ステップS23の処理は、ステップS1~S4の処理と並行して実行してもよい。そして、ステップS24において、集音環境判定部108が車両の状態情報に基づいて、集音環境が良好であるか否かを判定する。ステップS24において、集音環境が良好でないと判定された場合は、音声認識装置300は、操作対象装置が第1検出モード対象装置か否かを判定せずに、検出モードを、一律に、第2検出モードに設定する。すなわち、集音環境判定部108が集音環境は良好であると判定し、かつ、操作対象装置特定部104が操作対象装置を第2検出モード対象装置と判定している場合、又は、集音環境判定部108が集音環境は良好でないと判定している場合は、検出モード設定部105は、検出モードを第2検出モードに設定する。この場合も、集音環境が良好でないと判定された場合には、図9に示すように、操作対象装置は全て第2検出モード対象装置に設定され、操作対象装置に対する制御要求の特定には、全て、ルールベース認識に基づく第2検出モードが適用される。これにより、音声認識装置300は、音声入力の自由度が高い自然言語認識によって制御要求を特定する場合であっても、集音環境に応じて、誤認識の可能性を低くすることができる。
また、車両情報取得部103は、車両1の走行状態を車両1の状態情報として取得することができる。この場合、操作対象装置特定部104は、車両1の走行状態に基づいて、車両1が停止していると判定した場合に、予め第2検出モード対象装置として設定されていた操作対象装置を、第1検出モード対象装置に変更して設定し直すことができる。具体的には、図3に示す第2検出モード対象装置であるヘッドランプ32,ドアウィンドウロック装置5a,ドアウィンドウ開閉装置5b,ルーフウィンドウロック装置6a,ルーフウィンドウ開閉装置6b,バックドアロック装置7a,バックドア開閉装置7b,トランクロック装置34a及びトランク開閉装置34bは、車両1が停止している間は、ユーザに及ぼす影響が小さくなる。従って、これらの車載装置の設定を第1検出モード対象装置に変更し、音声入力の自由度が高い自然言語認識に基づく第1検出モードによって制御要求を特定してもよい。すなわち、車両1が停車している間は、操作対象装置は全て第1検出モード対象装置に設定され、操作対象装置に対する制御要求の特定には、全て、自然言語認識に基づく第1検出モードが適用されてもよい。また、操作対象装置特定部104が、予め第2検出モード対象装置として設定されていた操作対象装置を、第1検出モード対象装置に変更して設定し直した場合は、音声認識装置300は、車両1に設けられたディスプレイ12又はオーディオ機器13に、操作対象装置の設定の変更を示す情報を出力してもよい。
また、音声認識装置100,200,300は、音声認識の手法として自然言語認識又はルールベース認識のいずれを用いるかの区別に関わらずに、特定された操作対象装置に応じて、第1検出モード又は第2検出モードを設定してもよい。例えば、第1検出モード及び第2検出モードは、いずれも、自然言語認識に基づく検出モードであってもよい。この場合も、各々の制御要求に対応して認識することができる音声データの範囲は、第2検出モードの方が、第1検出モードよりも狭くなるように設定される。具体的には、第1検出モードをマルチインテント(Multi-intent)式の自然言語認識に基づく検出モードとし、第2検出モードをシングルインテント(Single-intent)式の自然言語認識に基づく検出モードとしてもよい。マルチインテント式の自然言語認識に基づく検出モードでは、制御要求特定部106は、2つ以上の制御要求が含まれる音声指示、例えば「エアコンを消して、窓をあけて」等の指示から、2つの制御対象装置(エアコン4とドアウィンドウW2)と各々の制御対象装置に対する制御要求(「エアコンをOFFにしたい」と「ドアウィンドウを開けたい」)を特定することができる。一方、シングルインテント式の自然言語認識に基づく検出モードでは、制御要求特定部106は、例えば「エアコンを消して」又は「窓をあけて」のように、1回の音声指示につき1つの制御要求が含まれている場合にのみ、制御要求を特定することができる。
また、音声認識装置100,200,300は、図3に示すように、操作重要度「1(Low)」の区分に分類される操作対象装置と、操作重要度「2(Middle)」の区分に分類される操作対象装置とで、自然言語認識の手法を異なるものとしてもよい。具体的には、検出モード設定部105は、操作重要度「1(Low)」の区分に分類される操作対象装置に対して、マルチインテント式の自然言語認識に基づく第1検出モードを設定し、操作重要度「2(Middle)」の区分に分類される操作対象装置に対して、シングルインテント式の自然言語認識に基づく第1検出モードを設定してもよい。また、これに限定されず、検出モード設定部105は、各々の第1検出モード対象装置に応じて、適宜、2種類以上の手法による自然言語認識に基づく検出モードを設定してもよい。
また、移動体は車両に限定されず、電車又は飛行機であってもよい。
上記の車両1は、本発明に係る移動体に相当する。上記の室内灯3は、本発明に係る環境調整装置に相当する。上記のエアコン4は、本発明に係る環境調整装置及び空調装置に相当する。上記のディスプレイ12は、本発明に係る情報提供装置に相当する。上記のオーディオ機器13は、本発明に係る環境調整装置及び情報提供装置に相当する。上記の車両情報取得部103は、本発明の移動体情報取得部に相当する。上記のルーフウィンドウW1及びドアウィンドウW2は、本発明の開口部に相当する。
100,300…音声認識装置(音声認識システム)
200…音声認識装置
1…車両(移動体)
3…室内灯(環境調整装置)
4…エアコン(環境調整装置/空調装置)
5a…ドアウィンドウロック装置
5b…ドアウィンドウ開閉装置
6a…ルーフウィンドウロック装置
6b…ルーフウィンドウ開閉装置
7a…バックドアロック装置
7b…バックドア開閉装置
12…ディスプレイ(情報提供装置)
13…オーディオ機器(環境調整装置/情報提供装置)
31…走行制御装置
33…シート制御装置
34a…トランクロック装置
34b…トランク開閉装置
101…音声取得部
102…音声データ変換部
103…車両情報取得部(移動体情報取得部)
104…操作対象装置特定部
105…検出モード設定部
106…制御要求特定部
108…集音環境判定部
W1…ルーフウィンドウ(開口部)
W2…ドアウィンドウ(開口部)

Claims (19)

  1. ユーザの発した音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置であって、
    前記音声を取得する音声取得部と、
    前記音声取得部により取得された前記音声を音声データに変換する音声データ変換部と、
    前記音声データ変換部により変換された前記音声データを解析して、操作の対象である操作対象装置を特定する操作対象装置特定部と、
    前記操作対象装置特定部により特定された前記操作対象装置に応じて、前記音声データに対応する前記制御要求を特定するための検出モードとして、辞書データを参照して自然言語認識に基づき前記音声データを解釈し、前記音声データが前記制御要求と同じ要求を意味する音声データであるかを判断することによって前記音声データを解析する第1検出モード、又は、前記音声データが予め定義された制御要求テキストに一致するか否かを判定することによって前記音声データを解析する第2検出モードを設定する検出モード設定部と、
    前記検出モード設定部により設定された前記検出モードに基づいて、前記操作対象装置に対する前記制御要求を特定する制御要求特定部とを備える、音声認識装置。
  2. 前記検出モード設定部は、
    前記特定された操作対象装置が第1検出モード対象装置である場合に、前記検出モードを前記第1検出モードに設定し、
    前記特定された操作対象装置が第2検出モード対象装置である場合に、前記検出モードを前記第2検出モードに設定し、
    各々の前記制御要求に対応して認識することができる前記音声データの範囲は、前記第2検出モードの方が、前記第1検出モードよりも狭い、請求項1に記載の音声認識装置。
  3. 前記検出モード設定部が、前記検出モードを前記第2検出モードに設定した場合に、
    前記制御要求特定部は、
    前記音声データが、予め定義された制御要求テキストに一致するか否かを判定し、
    前記音声データが前記制御要求テキストに一致すると判定した場合に、前記制御要求テキストに対応する前記制御要求を特定する、請求項2に記載の音声認識装置。
  4. 前記検出モードが前記第2検出モードに設定されている場合であって、
    前記音声による指示に基づく前記音声データが前記制御要求テキストに一致しない場合に、
    前記制御要求特定部は、
    前記ユーザに対して、前記音声データが前記制御要求テキストに一致するように前記指示をやり直すことを案内する案内情報を、前記移動体に設けられた情報提供装置に出力する、請求項3に記載の音声認識装置。
  5. 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の走行を制御するための走行制御装置であると特定した場合に、前記操作対象装置を前記第2検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
  6. 前記操作対象装置特定部は、前記操作対象装置が前記移動体のトランク、ドア若しくはウィンドウのロック装置、又は、前記トランク、前記ドア若しくは前記ウィンドウの開閉装置であると特定した場合に、前記操作対象装置を前記第2検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
  7. 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の内部の温度、光量又は音量のうち少なくともいずれか1つを含む環境状態を調整する環境調整装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
  8. 前記操作対象装置特定部は、前記操作対象装置が、前記移動体の内部に設けられたシートの状態を制御するシート制御装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
  9. 前記操作対象装置特定部は、前記操作対象装置が前記ユーザに対して情報の提供を行う情報提供装置であると特定した場合に、前記操作対象装置を前記第1検出モード対象装置と判定する、請求項2~4のいずれか一項に記載の音声認識装置。
  10. 前記移動体の状態情報を取得する移動体情報取得部と、
    移動体情報取得部が取得した前記移動体の前記状態情報に基づいて、前記音声を取得するための集音環境が良好か否かを判定する集音環境判定部とを備え、
    前記集音環境判定部が前記集音環境は良好であると判定し、かつ、前記操作対象装置特定部が前記操作対象装置を前記第1検出モード対象装置と判定している場合には、前記検出モード設定部は、前記検出モードを前記第1検出モードに設定する、請求項2~9のいずれか一項に記載の音声認識装置。
  11. 前記集音環境判定部が前記集音環境は良好でないと判定している場合は、前記操作対象装置特定部は、予め前記第1検出モード対象装置として設定されていた前記操作対象装置を、前記第2検出モード対象装置に変更して設定し直す、請求項10に記載の音声認識装置。
  12. 前記移動体情報取得部は、前記移動体に設けられた空調装置から吹き出される空気の風量を前記状態情報として取得する、請求項10又は11に記載の音声認識装置。
  13. 前記移動体情報取得部は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の走行速度とを前記状態情報として取得する、請求項10~12のいずれか一項に記載の音声認識装置。
  14. 前記移動体情報取得部は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の周囲の風速を前記状態情報として取得する、請求項10~12のいずれか一項に記載の音声認識装置。
  15. 前記移動体の状態情報を取得する移動体情報取得部を備え、
    前記移動体情報取得部は、前記移動体の走行状態を前記状態情報として取得し、
    前記操作対象装置特定部は、前記移動体の前記走行状態に基づいて、前記移動体が停止していると判定した場合に、予め前記第2検出モード対象装置として設定されていた前記操作対象装置を、前記第1検出モード対象装置に変更して設定し直す、請求項2~9のいずれか一項に記載の音声認識装置。
  16. 前記操作対象装置特定部が、予め前記第1検出モード対象装置として設定されていた前記操作対象装置を、前記第2検出モード対象装置に変更して設定し直した場合、又は、予め前記第2検出モード対象装置として設定されていた前記操作対象装置を、前記第1検出モード対象装置に変更して設定し直した場合は、前記移動体に設けられた情報提供装置に、前記操作対象装置の設定の変更を示す情報を出力する、請求項2~15のいずれか一項に記載の音声認識装置。
  17. 前記操作対象装置特定部は、自然言語認識に基づいて前記音声データを解析し、操作対象装置を特定する、請求項1~16のいずれか一項に記載の音声認識装置。
  18. 前記操作対象装置特定部は、操作重要度によって分類された操作対象装置の区分に応じて、前記操作対象装置を第1検出モード対象装置又は第2検出モード対象装置と判定し、
    前記検出モード設定部は、前記操作対象装置特定部による判定結果に応じて、前記検出モードを設定する請求項1~17のいずれか一項に記載の音声認識装置。
  19. ユーザの発した音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置を用いた音声認識方法であって、
    前記音声認識装置は、
    前記音声を取得し、
    取得した前記音声を音声データに変換し、
    前記音声データを解析して、操作の対象である操作対象装置を特定し、
    前記操作対象装置に応じて、前記音声データに対応する前記制御要求を検出するための検出モードとして、辞書データを参照して自然言語認識に基づき前記音声データを解釈し、前記音声データが前記制御要求と同じ要求を意味する音声データであるかを判断することによって前記音声データを解析する第1検出モード、又は、前記音声データが予め定義された制御要求テキストに一致するか否かを判定することによって前記音声データを解析する第2検出モードを設定し、
    設定された前記検出モードに基づいて、前記操作対象装置に対する前記制御要求を特定する、音声認識方法。
JP2022507968A 2020-03-19 2020-03-19 音声認識装置及び音声認識方法 Active JP7392827B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/012349 WO2021186679A1 (ja) 2020-03-19 2020-03-19 音声認識装置及び音声認識方法

Publications (3)

Publication Number Publication Date
JPWO2021186679A1 JPWO2021186679A1 (ja) 2021-09-23
JPWO2021186679A5 JPWO2021186679A5 (ja) 2022-06-28
JP7392827B2 true JP7392827B2 (ja) 2023-12-06

Family

ID=77771984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022507968A Active JP7392827B2 (ja) 2020-03-19 2020-03-19 音声認識装置及び音声認識方法

Country Status (5)

Country Link
US (1) US20230139640A1 (ja)
EP (1) EP4123640A4 (ja)
JP (1) JP7392827B2 (ja)
CN (1) CN115298737A (ja)
WO (1) WO2021186679A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230139640A1 (en) * 2020-03-19 2023-05-04 Nissan Motor Co., Ltd. Voice recognition device and voice recognition method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006308848A (ja) 2005-04-28 2006-11-09 Honda Motor Co Ltd 車両機器制御装置
JP2007286136A (ja) 2006-04-13 2007-11-01 Alpine Electronics Inc 車載用音声認識装置及び音声認識方法
JP2009210956A (ja) 2008-03-06 2009-09-17 National Institute Of Advanced Industrial & Technology 操作方法およびそのための操作装置、プログラム
JP2017009867A (ja) 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
JP2019073255A (ja) 2017-10-19 2019-05-16 アイシン精機株式会社 運転支援装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10248831A (ja) * 1997-03-13 1998-09-22 Hitachi Medical Corp 医用診断装置
DE112012006617B4 (de) * 2012-06-25 2023-09-28 Hyundai Motor Company Bord-Informationsvorrichtung
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
JP6930837B2 (ja) * 2017-01-23 2021-09-01 Gmoインターネット株式会社 環境模擬装置
US20230139640A1 (en) * 2020-03-19 2023-05-04 Nissan Motor Co., Ltd. Voice recognition device and voice recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006308848A (ja) 2005-04-28 2006-11-09 Honda Motor Co Ltd 車両機器制御装置
JP2007286136A (ja) 2006-04-13 2007-11-01 Alpine Electronics Inc 車載用音声認識装置及び音声認識方法
JP2009210956A (ja) 2008-03-06 2009-09-17 National Institute Of Advanced Industrial & Technology 操作方法およびそのための操作装置、プログラム
JP2017009867A (ja) 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
JP2019073255A (ja) 2017-10-19 2019-05-16 アイシン精機株式会社 運転支援装置

Also Published As

Publication number Publication date
WO2021186679A1 (ja) 2021-09-23
US20230139640A1 (en) 2023-05-04
EP4123640A4 (en) 2023-04-05
JPWO2021186679A1 (ja) 2021-09-23
CN115298737A (zh) 2022-11-04
EP4123640A1 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
US10818297B2 (en) Dialogue system, vehicle and method for controlling the vehicle
KR102426171B1 (ko) 대화 시스템, 이를 포함하는 차량 및 대화 서비스 처리 방법
KR20200001188A (ko) 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US20230102157A1 (en) Contextual utterance resolution in multimodal systems
KR20200000604A (ko) 대화 시스템 및 대화 처리 방법
US11004450B2 (en) Dialogue system and dialogue processing method
KR20190131741A (ko) 대화 시스템 및 대화 처리 방법
US11532303B2 (en) Agent apparatus, agent system, and server device
JP7392827B2 (ja) 音声認識装置及び音声認識方法
JP7239359B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN110562260A (zh) 对话系统和对话处理方法
US20220415318A1 (en) Voice assistant activation system with context determination based on multimodal data
US11542744B2 (en) Agent device, agent device control method, and storage medium
CN111798842B (zh) 对话系统和对话处理方法
JPH08211892A (ja) 音声認識装置
US20230238020A1 (en) Speech recognition system and a method for providing a speech recognition service
JP2021148971A (ja) 音声認識方法及び音声認識装置
JP2020142758A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
KR20200000621A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
JP2020154994A (ja) エージェントシステム、エージェントサーバ、エージェントサーバの制御方法、およびプログラム
JP7274901B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20230206918A1 (en) Speech Recognition System and Method for Providing Speech Recognition Service
US20210303263A1 (en) Dialogue system and vehicle having the same, and method of controlling dialogue system
JP7297483B2 (ja) エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231106

R151 Written notification of patent or utility model registration

Ref document number: 7392827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151