JP5014662B2 - On-vehicle speech recognition apparatus and speech recognition method - Google Patents
On-vehicle speech recognition apparatus and speech recognition method Download PDFInfo
- Publication number
- JP5014662B2 JP5014662B2 JP2006110379A JP2006110379A JP5014662B2 JP 5014662 B2 JP5014662 B2 JP 5014662B2 JP 2006110379 A JP2006110379 A JP 2006110379A JP 2006110379 A JP2006110379 A JP 2006110379A JP 5014662 B2 JP5014662 B2 JP 5014662B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- speaker
- control
- target device
- control target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000006870 function Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
本発明は、音声認識機能を利用して車載機器等を制御する技術に関し、特に、車室内で乗員が発話した操作指示に対応した音声認識を行うよう適応された車載用音声認識装置及び音声認識方法に関する。 The present invention relates to a technology for controlling an in-vehicle device or the like using a speech recognition function, and more particularly to an in-vehicle speech recognition apparatus and speech recognition adapted to perform speech recognition corresponding to an operation instruction spoken by an occupant in a vehicle interior. Regarding the method.
最近の車両には、運転者や助手席の乗員、リア席の乗員等(以下、便宜上「ユーザ」ともいう。)に対して様々なサービスを提供するための機器や装置などが搭載されている。その代表的な車載機器として、設定した目的地に向けて道路を間違うことなく走行できるように案内する機能(経路誘導機能)を搭載したナビゲーション装置や、各種ソース(ラジオ受信機、CDプレーヤ、TV受信機、DVDプレーヤ等)から出力される音声(オーディオ)情報や映像(ビデオ)情報などの各種エンターテイメントを提供するオーディオ/ビデオ(A/V)機器、エアコン装置などがある。これらの車載機器(装置)は、ユーザがリモコンや操作パネル等を操作して所要の指示を与えることにより、その操作指示に応じてその動作状態が変更される。変更された機器の動作状態は、車室内に設置されたスピーカ(リア席のユーザについてはワイヤレスヘッドホン等)を介して聴くことができ、また車載モニタ等の表示装置の画面を通して見ることができる。 Recent vehicles are equipped with devices and devices for providing various services to drivers, passengers in the passenger seat, passengers in the rear seat, etc. (hereinafter also referred to as “user” for convenience). . Typical in-vehicle devices include a navigation device equipped with a function (route guidance function) for guiding the user to travel to a set destination without making a mistake, and various sources (radio receiver, CD player, TV) There are audio / video (A / V) devices that provide various entertainment such as audio (audio) information and video (video) information output from a receiver, a DVD player, etc., and an air conditioner. These in-vehicle devices (apparatuses) are operated according to the operation instructions when the user gives a necessary instruction by operating the remote controller or the operation panel. The changed operating state of the device can be heard via a speaker (such as wireless headphones for a user at the rear seat) installed in the passenger compartment, or can be viewed through a screen of a display device such as an in-vehicle monitor.
このように各車載機器に対してはリモコン操作等のマニュアル操作に基づいて所要の操作指示を入力することができるが、最近では、操作指示を音声入力(発話)するだけで当該機器の制御を行える機能(音声認識機能)を搭載した装置も出現している。かかる音声認識機能は、ユーザの操作上の便宜を図る点で有利であり、特に、運転者にとっては安全走行の点で非常に有用である。 As described above, a required operation instruction can be input to each in-vehicle device based on a manual operation such as a remote control operation. However, recently, the control of the device can be performed only by voice input (speech) of the operation instruction. Devices equipped with a function that can be performed (voice recognition function) have also appeared. Such a voice recognition function is advantageous in terms of convenience for the user's operation, and is particularly useful for the driver in terms of safe driving.
この音声認識機能を実現するには音声認識辞書を必要とし、この音声認識辞書には、音声認識の対象とする単語や語句などの語彙、すなわち、音声認識に基づいて制御されるべき車載機器(以下、「制御対象機器」ともいう。)の操作指示に関連した語彙があらかじめ登録されている。例えば、ナビゲーション装置であれば、「目的地」、「メニュー」、「周辺検索」などの語彙が登録され、A/V機器であれば、「ラジオ」、「FM」、「AM」、「メニュー」、「再生」、「停止」などの語彙が登録されている。 In order to realize this voice recognition function, a voice recognition dictionary is required. In this voice recognition dictionary, words such as words and phrases to be voice recognition, that is, in-vehicle devices to be controlled based on voice recognition ( Hereinafter, the vocabulary related to the operation instruction of “control target device” is registered in advance. For example, a vocabulary such as “destination”, “menu”, “surrounding search” is registered for a navigation device, and “radio”, “FM”, “AM”, “menu” for an A / V device. Vocabulary such as “,” “play” and “stop” is registered.
上記の従来技術に関連する技術としては、例えば、特許文献1に記載されるように、ユーザが発話した内容を音声認識して制御対象機器の制御を行う音声制御装置において、制御対象機器の動作状態を考慮してユーザの発話を認識することで、制御対象機器の音声による操作を適切に行えるようにしたものがある。
上述したように従来の技術では、制御対象機器に対する操作指示を発話するだけで当該機器の制御を行える機能が実現されているが、従来の方法では音声認識辞書に登録されている全ての語彙に対して音声認識を行っているため、その登録されている語彙の数が多くなってくると、以下に説明するような不都合が起こり得る。 As described above, in the conventional technology, a function that can control the device only by uttering an operation instruction to the device to be controlled is realized, but in the conventional method, all the vocabularies registered in the speech recognition dictionary are stored. On the other hand, since speech recognition is performed, if the number of registered vocabularies increases, inconveniences described below may occur.
すなわち、音声認識エンジンでは、ユーザの発話した内容(音声コマンド)と音声認識辞書に登録されている全ての語彙(コマンド)との合致度を算出し、その算出結果から最も合致度の大きいコマンドをユーザが発した音声コマンドとして決定する(音声認識)。このとき、その最も合致度の大きいコマンドが1つに特定できれば問題はないが、登録されている語彙の数が多くなってくると発音上「読み」の類似した語彙も多くなるため、音声認識エンジンでは必ずしも1つに特定することができず、結果として、マッチングしない語彙を誤認識してしまう場合が起こり得る。つまり、従来の音声認識方法では、使用する音声認識辞書に登録されている語彙の数が多くなってくると、それに応じて誤認識する割合が高くなり、ユーザの発話内容を正確に認識するのが困難になる(音声コマンドに対する認識率が低下する)といった課題があった。 That is, the speech recognition engine calculates the degree of match between the content (speech command) uttered by the user and all vocabularies (commands) registered in the speech recognition dictionary, and the command with the highest degree of match is calculated from the calculation result. It is determined as a voice command issued by the user (voice recognition). At this time, there is no problem as long as the command with the highest degree of matching can be identified, but as the number of registered vocabularies increases, the number of words that are similar to “reading” in pronunciation also increases, so voice recognition In the engine, it is not always possible to specify one, and as a result, a vocabulary that does not match may be erroneously recognized. In other words, in the conventional speech recognition method, when the number of vocabularies registered in the speech recognition dictionary to be used increases, the proportion of erroneous recognition increases accordingly, and the user's utterance content is recognized accurately. Is difficult (recognition rate for voice commands decreases).
本発明は、かかる従来技術における課題に鑑み創作されたもので、発話内容を音声認識して車載機器を制御するに際し、その発話内容に対する認識率を高めることができる車載用音声認識装置及び音声認識方法を提供することを目的とする。 The present invention has been created in view of the problems in the prior art, and when recognizing speech content to control an in-vehicle device, the on-vehicle speech recognition device and speech recognition capable of increasing the recognition rate for the speech content. It aims to provide a method.
上述した従来技術の課題を解決するため、本発明の一形態によれば、車室内でユーザが指示する情報を音声入力する音声入力手段と、前記音声入力手段を介して発話したユーザを特定する発話者特定手段と、複数の制御対象機器の各々の操作指示に関連した語彙が登録されている1つの音声認識辞書を格納すると共に、各制御対象機器毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定した第1のテーブルを格納した辞書格納手段と、ユーザが着座している座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を規定した第2のテーブルを格納したメモリ手段と、前記音声入力手段、発話者特定手段、辞書格納手段及びメモリ手段に動作可能に接続された制御手段とを備え、前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記音声認識辞書及び前記第1、第2の各テーブルを参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする車載用音声認識装置が提供される。 In order to solve the above-described problems of the prior art, according to one aspect of the present invention, voice input means for voice input of information instructed by a user in a vehicle interior and a user who speaks via the voice input means are specified. Stores a speech recognition dictionary in which vocabulary related to operation instructions of each of a plurality of control target devices is registered, and a vocabulary to be recognized for each control target device is set in advance. Stipulates the relationship between the dictionary storage means storing the first table that defines the relationship with the weighting, the seat on which the user is seated, and the control target device that is the source of information viewed by the user of the seat memory means for storing a second table, the voice input unit, speaker identifying means, and a operatively connected to the control means in the dictionary storing means and memory means, said control hand , Upon identifying the speaker identification means cooperating with speaker, the speech recognition dictionary and the first, with reference to the second each table, the source of information which the speaker is viewing A predetermined weight is added to the vocabulary corresponding to the control target device, and the speech content of the speaker is recognized by referring to the weighted vocabulary, and control according to the recognized speech content is performed. An in-vehicle speech recognition apparatus is provided that is performed on the control target device.
この形態に係る車載用音声認識装置によれば、車室内で発話したユーザ(発話者)を特定したときに、第2のテーブルを参照して当該発話者が視聴している情報のソースである制御対象機器を特定し、各ソース(制御対象機器)に共用される音声認識辞書に登録されている語彙のうち、その特定した制御対象機器に対応した語彙のみに、第1のテーブルに規定されている所定の重み付けを付加し、その重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を行うようにしている。 According to the in-vehicle speech recognition device according to this aspect , when a user (speaker) who has spoken in the passenger compartment is specified, the second table is referred to as a source of information viewed by the speaker. identify the control target device, among vocabularies registered in the voice recognition dictionary which is shared to the source (control target device), vocabulary only corresponding to the specified control target device, is defined in the first table The predetermined weighting is added, and speech recognition is performed on the utterance content of the speaker by referring to the vocabulary to which the weighting is added.
これにより、そのユーザが発話した内容を認識するに際し、音声認識辞書に登録されている語彙のうち、第1のテーブルを参照して重み付けが付加された当該語彙(第2のテーブルを参照して特定した当該制御対象機器に対応した語彙)のみを認識すればよいので、従来のように音声認識辞書に登録されている全ての語彙に対して音声認識を行う場合と比べて、マッチングしない語彙を誤認識する割合を減らすことができる。つまり、ユーザが発話した内容(音声コマンド)に対する認識率を向上させることができる。 As a result, when recognizing the content spoken by the user, among the vocabulary registered in the speech recognition dictionary, the vocabulary to which weighting is added by referring to the first table (refer to the second table). The vocabulary that does not match is compared with the case where speech recognition is performed for all vocabularies registered in the speech recognition dictionary as in the past. The rate of misrecognition can be reduced. That is, the recognition rate for the content (voice command) spoken by the user can be improved.
また、本発明の他の形態によれば、車室内でユーザが発話した制御対象機器に対する操作指示に対応した音声認識を行う機能を備えた車載用音声認識装置において、あらかじめ複数の制御対象機器の各々の操作指示に関連した語彙を登録した1つの音声認識辞書と共に、各制御対象機器毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定した第1のテーブルと、ユーザが着座している座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を規定した第2のテーブルとを記憶手段に格納しておき、発話を検出したときに当該発話者を特定し、前記音声認識辞書及び前記第1、第2の各テーブルを参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を実行し、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする音声認識方法が提供される。 According to another aspect of the present invention, in an in-vehicle speech recognition apparatus having a function of performing speech recognition corresponding to an operation instruction for a control target device spoken by a user in a vehicle interior, a plurality of control target devices are preliminarily provided. A first table that defines the relationship between a vocabulary to be recognized for each control target device and a preset weight, together with one speech recognition dictionary in which vocabulary related to each operation instruction is registered, and a user seated A second table that defines the relationship between the seat being seated and the control target device that is the source of information viewed by the user of the seat is stored in the storage means, and the utterance is detected when the utterance is detected. identify who the voice recognition dictionary, and the first, with reference to the second each table, a predetermined vocabulary to which the speaker is corresponding to the control target device is the source of the information being viewed Adding weighting, referring to the weighted vocabulary, performing speech recognition on the utterance content of the speaker, and performing control according to the recognized utterance content on the control target device A speech recognition method is provided.
本発明に係る車載用音声認識装置及び音声認識方法の他の構成上の特徴及びそれに基づく具体的な処理態様等については、後述する発明の実施の形態を参照しながら詳細に説明する。 Other structural features of the in-vehicle speech recognition apparatus and speech recognition method according to the present invention and specific processing modes based on the features will be described in detail with reference to embodiments of the invention to be described later.
以下、本発明の実施の形態について、添付の図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.
図1は、本発明の一実施形態に係る車載用音声認識装置を組み込んだ車載オーディオ/ビデオ(A/V)・ナビゲーションシステムの構成を示したものである。 FIG. 1 shows a configuration of an in-vehicle audio / video (A / V) navigation system incorporating an in-vehicle voice recognition device according to an embodiment of the present invention.
図示のように車載A/V・ナビゲーションシステム40は、本発明の特徴をなす車載用音声認識装置ARと、その音声認識結果に基づいて発話内容(音声コマンド)に対応した制御が行われる対象機器(図示の例では、ラジオ受信機1、CDプレーヤ2、DVDプレーヤ3、TV受信機4、ナビゲーションユニット5及びエアコン6)と、フロント席のユーザが各制御対象機器に対して各種設定操作を行うためのフロント席用操作ユニット(ヘッドユニット(H/U))20と、リア席のユーザが各制御対象機器(ナビゲーションユニット5を除く)に対して各種設定操作を行うためのリア席用操作ユニット30と、フロント席用表示ユニット25と、アンプユニット26と、スピーカ27と、リア席用表示ユニット31と、ワイヤレスヘッドホン32とを備えて構成されている。車載用音声認識装置AR、各ソース(制御対象機器)1〜6、フロント席用操作ユニット20、各表示ユニット25,31及びアンプユニット26は、伝送路として供される光ファイバ等のバス7を介して相互に接続されている。
As shown in the figure, the in-vehicle A / V /
図示の例では、スピーカ27は1個のみ示されているが、実際には車室内の所定の場所に所要の個数、例えば、リア席が1列の場合であれば少なくともリア席の左右の近傍とフロント席の左右の近傍にそれぞれ2個ずつ、計4個のスピーカ27が設置されている。リア席用の操作ユニット30、表示ユニット31及びワイヤレスヘッドホン32についても同様に、それぞれ1台(1個)のみ示されているが、実際にはリア席の搭乗者数に応じて所要の個数、例えば、リア席が1列の場合であればそのリア席の左右の搭乗者用にそれぞれ2台(2個)の操作ユニット30、表示ユニット31及びワイヤレスヘッドホン32がそれぞれ設けられている。
In the example shown in the figure, only one
本発明の特徴をなす車載用音声認識装置ARは、記憶媒体としてのハードディスクドライブ(HDD)8と、マイクロホンアレイ9と、音声認識ユニット10とを備えている。HDD8によって駆動されるディスク(図示せず)には、ナビゲーション機能を実行する際に使用する地図データと共に、音声認識機能を実行する際に使用するデータ(音声認識辞書)がそれぞれ割り当てられた記憶領域に格納されている。地図データは、各縮尺レベル(1/12500、1/25000、1/50000等)に応じて適当な大きさの経度幅及び緯度幅に区切られており、経路探索やマップマッチング等の各種処理に必要な道路ユニットのデータ及び交差点の詳細を表す交差点ユニットのデータ、各種施設(コンビニエンスストア、ガソリンスタンド、スーパー・ディスカウントショップ等)に関するデータ(位置、住所、電話番号、ジャンル等の各種情報)などを含んでいる。HDD8に格納されている音声認識辞書の内容については後で説明する。
The in-vehicle voice recognition device AR that characterizes the present invention includes a hard disk drive (HDD) 8 as a storage medium, a
マイクロホンアレイ9は、複数のマイクロホンを所定の間隔でアレイ状に並置して構成され、例えば、車室内の運転席前方のサンバイザー又はルームミラーの近傍に適宜設置されている。このマイクロホンアレイ9(各マイクロホン)は、ユーザ(運転者、助手席の乗員又はリア席の乗員)が発話する制御対象機器の操作等に係る指示(音声)を検出してその音圧レベルに応じたアナログ音声信号に変換するものである。各マイクロホンで検出された信号は、後述するように、車室内で発話したユーザ(発話者)の居る場所、すなわち、その発話者を特定するのに利用される。この発話者の特定方法については、音声認識ユニット10の内部構成と併せて後で説明する。
The
フロント席用操作ユニット(H/U)20は、運転者と助手席の乗員が共用できるように両座席の中間のセンターコンソール上に「操作パネル」の形態で設置されており、その対応する表示ユニット25は、その操作パネル(H/U)の上方に配置されている。この表示ユニット25は、例えば、デュアル表示タイプのLCDモニタ(便宜上「デュアルディスプレイ」という。)からなり、これは、同じ画面を右方向(運転席の側)から見た場合と左方向(助手席の側)から見た場合とでそれぞれ違う画像を同時に表示することができるものである。このデュアルディスプレイ(表示ユニット25)の画面には、ナビゲーションユニット5から出力された各種の映像情報(自車位置の周囲の地図、自車位置から目的地までの誘導経路、音声認識に基づいた施設検索等の案内情報など)、DVDプレーヤ3やTV受信機4などの映像ソースから出力された映像情報などが表示される。
The front seat operation unit (H / U) 20 is installed in the form of an “operation panel” on the center console between the two seats so that the driver and the passenger in the front passenger seat can share the display. The
一方、リア席用操作ユニット30は、リア席のユーザが操作し易いように「リモコン」の形態で設けられており、これに対応するリア席用表示ユニット31と赤外線通信により接続されている。このリア席用表示ユニット31は、例えば、前の座席のヘッドレストの後部に設置されており、フロント側の表示ユニット25と同様に映像情報をディスプレイ画面に表示するLCDモニタ等を有している。また、この表示ユニット31は、その対応するワイヤレスヘッドホン32と赤外線通信及びRF通信により接続されている。
On the other hand, the rear
各ソース(制御対象機器)1〜6は、基本的な動作として、フロント席用操作ユニット20からバス7に送出された操作指示に係るデータ、又はリア席用操作ユニット(リモコン)30から赤外線通信により表示ユニット31を介してバス7に送出された操作指示に係るデータ、あるいは音声認識ユニット10からバス7に送出された操作指示に係るデータ(後述する「機器制御信号」)を受信し、それぞれ操作指示に係るデータに基づいて自己の動作状態を設定もしくは変更し、その結果(現在の動作状態)を指示するデータを音声/映像信号としてバス7に送出する。例えば、ラジオ受信機1の場合、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に応答して、FM放送やAM放送の信号を受信して復調することにより音声信号を生成し、これをデジタルの音声データに変換して、バス7に送出する。また、DVDプレーヤ3の場合、同様に与えられる操作指示に応答して、ユーザにより選択されたDVDの記録面に記録された信号を読み取り、再生された映像データをバス7に送出する。
Each source (device to be controlled) 1 to 6 has, as a basic operation, data related to an operation instruction sent from the front
フロント席用操作ユニット20は、制御部21と、操作部22と、表示部23と、メモリ部24とを備えている。このうち、操作部22は、各ソース(制御対象機器)1〜6に対して各種設定操作を行うための操作キー、例えば、電源のオン/オフ及び音量調整を行うための電源キー、各ソースを選択するための選択キー、数字キー、所定の機能を行わせるためのプリセットキー、矢印が付されたシフトキー(矢印の部分を操作することでFF/REW動作、シーク・アップ/ダウン動作等の操作を指示する)等を備えている。表示部23は、操作パネル(H/U)上にLCD等の形態で配置されており、制御部21から出力されるデータに基づいて、各種情報、例えば、ラジオ受信機1に関してはFM/AMの種別やその放送局の受信周波数など、CDプレーヤ2に関してはCD演奏時のディスク番号や再生位置(トラック数、経過時間等)などを表示する。
The front
メモリ部24は、フラッシュメモリ等の不揮発性半導体メモリからなり、制御部21からの制御に基づいて必要な情報(データ)を格納しておくためのものである。このメモリ部24には、各操作ユニット20,30あるいは音声認識ユニット10から与えられる操作指示に基づき選択ソース(制御対象機器)からの音声/映像信号の出力動作が停止された時点での当該機器の動作状態を示すデータ(以下、「機器動作状態データ」という。)が格納される。この機器動作状態データは、次の出力動作開始時に必要に応じて参照するために格納される。この機器動作状態データには、例えば、いずれの機器(ソース)を使用していたかを指示する「ソース種別」、オーディオソースであればその音声を聴取していた際の音量や音質の調整値を指示する「音量・音質」、各ソース別の詳細な機器動作状態を指示する「ソース別詳細情報」等が含まれる。ソース別詳細情報には、例えば、ラジオ受信機1を使用していた場合にはFM/AMの種別や放送局(受信周波数)の情報等が含まれ、CDプレーヤ2を使用していた場合には複数枚装填されているCDの中でいずれのCDを再生していたかを示すディスク番号や何曲目の頭からどれくらいの時間が経過した位置を再生していたかを示す再生位置の情報等が含まれる。
The memory unit 24 is composed of a nonvolatile semiconductor memory such as a flash memory, and stores necessary information (data) based on control from the
制御部21はマイクロコンピュータ(マイコン)等により構成され、本システム40全体の制御を行うものである。基本的には、各操作ユニット20,30あるいは音声認識ユニット10から与えられた操作指示に基づき、選択ソース(制御対象機器)からバス7を介して送られてくる音声/映像データを取得して音声/映像情報の再生を行う動作、操作状況や動作状態等を指示する情報を表示部23に表示させる動作、機器動作状態データの格納動作や読み出し動作などの制御を行う。この場合、取得された音声データは、制御部21によりバス7を介してアンプユニット26に送られ、適宜D/A変換され、また音量や音質等の制御が行われ、増幅された後、スピーカ27を通して音声出力される。また、取得された映像データは、制御部21によりバス7を介して表示ユニット25に送られ、そのディスプレイ画面に映像情報として表示される。
The
一方、リア席用操作ユニット(リモコン)30は、特に図示はしないが、フロント側の操作部22と同等の機能を有する操作部と、この操作部から入力された操作指示に応じた信号を赤外線通信により表示ユニット31に向けて送信するための赤外線送信部とを備えている。また、リア席用表示ユニット31は、特に図示はしないが、リモコン30及びワイヤレスヘッドホン32との間で制御信号やデータ等を通信するための赤外線通信部と、フロント側の制御部21と同等の制御を行う制御部と、フロント側の表示ユニット25と同様のLCDモニタ等からなる表示部と、フロント側のメモリ部24と同様のメモリ部とを備えている。
On the other hand, the rear seat operation unit (remote control) 30 is not particularly shown, but an operation unit having the same function as the
<第1の実施形態(図2〜図4参照)>
図2は、第1の実施形態に係る車載用音声認識装置の構成を一部模式的に示したものである。
<First Embodiment (see FIGS. 2 to 4)>
FIG. 2 schematically shows a part of the configuration of the in-vehicle speech recognition apparatus according to the first embodiment.
本実施形態に係る車載用音声認識装置ARは、図示のようにHDD8と、マイクロホンアレイ9と、デジタル信号プロセッサ(DSP)11と、CPU12と、RAM等からなるメモリ部13とを備えている。このうちDSP11、CPU12及びメモリ部13は、音声認識ユニット10(図1)を構成する。DSP11は、その機能ブロックとして、音声入力部11aと、ビームフォーミング部11bと、音源方向特定部11cとを備えている。一方、CPU12は、その機能ブロックとして、認識辞書選択部12aと、音声認識処理部12bと、機器制御信号発生部12cとを備えている。
The in-vehicle speech recognition apparatus AR according to the present embodiment includes an
HDD8には、音声認識に基づいて制御されるべきソース(制御対象機器)に対応させてそれぞれ当該機器の操作指示に関連した専用の語彙(すなわち、当該機器に対し音声コマンドとして発する頻度の高い語彙)をあらかじめ登録した複数の専用認識辞書が格納されている。図示の例では、ナビゲーションユニット5に関連した語彙(「目的地」、「メニュー」、「周辺検索」、「現在地」など)を登録した専用認識辞書D1と、DVDプレーヤ3に関連した語彙(「メニュー」、「再生」、「停止」など)を登録した専用認識辞書D2と、ラジオ受信機1に関連した語彙(「ラジオ」、「FM」、「AM」など)を登録した専用認識辞書D3の3種類の辞書が格納されている。
The
メモリ部13には、ユーザが着座している座席(運転席、助手席、リア席)と当該座席のユーザが視聴している情報のソース(制御対象機器)との関係を示す情報(管理テーブル)が格納される。この管理テーブルは、CPU12とフロント席用操作ユニット20内の制御部21及びリア席用表示ユニット31内の制御部(図示せず)とが協働し、各ユニット内のメモリ部24に格納されている「機器動作状態データ」に基づいて作成される。従って、各ソース(制御対象機器)の動作状態が変更されると、それに応じて管理テーブルの内容も更新される。
The
本実施形態では、マイクロホンアレイ9とその検出信号を処理するDSP11とを用いて、音源の方向(この場合、発話者が着座している座席の方向)を特定している。複数のマイクロホンを用いて音源の方向を特定する方法は知られている。すなわち、個々のマイクロホンは無指向性であるが、複数のマイクロホンをアレイ状に配置して音源からの音を各マイクロホンで検出し、それぞれ検出したデータを加算処理することで指向性をもたせることができる。例えば、図3に示すように、マイクロホンアレイ9の真正面から音が入射する場合(図示の例では、リア席のユーザP3が発話している場合)、マイクロホンアレイ9の各マイクロホンに到達する音圧信号は位相的にほぼ同相となるため、これらを加算するとレベル的に大きな信号となる。これに対し、音が斜めから入射した場合(図示の例では、運転席のユーザP1、助手席のユーザP2が発話している場合)、各マイクロホンに到達する時間に差が生じ、位相的に正方向又は負方向にずれるため、これらを加算するとお互いに打ち消しあってレベル的に小さな信号となる。この原理を利用して、各マイクロホンで検出した信号のレベルと位相差に基づき、音の到来方向(すなわち、発話者の居る方向)を特定することができる。その特定に際し、本実施形態ではビームフォーミング法を用いている。
In this embodiment, the direction of the sound source (in this case, the direction of the seat on which the speaker is seated) is specified using the
すなわち、音声認識ユニット10において、マイクロホンアレイ9の各マイクロホンで検出された信号(アナログ音声信号)は、DSP11の音声入力部11aを通して適宜増幅され、デジタル化された後、ビームフォーミング部11bに入力されると共に、CPU12の音声認識処理部12bに入力される。ビームフォーミング部11bでは、入力された信号に基づき方向推定を行ってビーム信号を生成し(ビームフォーミング)、その生成されたビーム信号に基づいて音源方向特定部11cにより、音圧レベルの大きい信号を受信している方向を音源の方向(発話者の居る方向)として特定する。
That is, in the
CPU12では、認識辞書選択部12aにより、メモリ部13に格納されている管理テーブルを参照して、HDD8に格納されている複数の専用認識辞書D1〜D3の中から、その特定された発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択する。次いで音声認識処理部12bでは、その選択された専用認識辞書を使用して、その発話内容(音声コマンド)とその選択された専用認識辞書に含まれる各語彙(コマンド)とを比較照合し、それぞれ合致度を算出する。そして、その算出結果に基づき最も合致度の大きい「語彙」をユーザの発話したコマンドとして決定する。次いで機器制御信号発生部12cでは、その決定されたコマンドを取得し、そのコマンドの内容に応じた機器制御信号を出力する。出力された機器制御信号は、当該制御対象機器に対する操作指示データとして、CPU12によりバス7に送出される。
The
以下、本実施形態に係る車載用音声認識装置AR(図2)においてCPU12がDSP11と協働して行う発話者の特定及びそれに基づく音声認識辞書の切替選択等に係る処理について、その一例を示す図4を参照しながら説明する。
Hereinafter, an example of processing related to the identification of the speaker and the switching selection of the speech recognition dictionary based on the identification performed by the
先ず初期状態として、各座席(運転席、助手席、リア席)のユーザがそれぞれ所望のソース(制御対象機器)の情報を既に視聴しており、音声認識ユニット10内のCPU12により管理テーブル(ユーザが着座している座席と当該座席で視聴している情報のソースとの関係を示す情報)が作成され、メモリ部13に格納されているものとする。
First, as an initial state, each seat (driver's seat, front passenger seat, rear seat) user has already viewed information on a desired source (control target device), and the
この状態で最初のステップS1では、CPU12において、マイクロホンアレイ9からDSP11(音声入力部11a)を介して発話を検出した(YES)か否(NO)かを判定する。判定結果がYESの場合には次のステップS2に進み、判定結果がNOの場合には発話を検出するまで判定処理を繰り返す。なお、ステップS1の処理内容において括弧書きで記載する「発話操作」については後で説明する。
In the first step S1 in this state, the
次のステップS2では、CPU12からの制御に基づきDSP11において、マイクロホンアレイ9を用いたビームフォーミング法により、その発話を行ったユーザ(発話者)の居る方向(座席)を特定する。つまり、当該発話者を特定する。
In the next step S2, the direction (seat) in which the user (speaker) who made the utterance is present is specified in the
次のステップS3では、CPU12において認識辞書選択部12aにより、メモリ部13に格納されている管理テーブルを参照して、HDD8に格納されている複数の専用の認識辞書D1〜D3の中から、その発話者が視聴している情報のソース(例えば、運転席であればナビゲーションユニット5、助手席であればラジオ受信機1、リア席であればDVDプレーヤ3)に対応した専用の音声認識辞書を選択する。
In the next step S3, the recognition
次のステップS4では、CPU12において音声認識処理部12bにより、その選択された専用認識辞書を使用して、当該発話者の発話内容(音声コマンド)に対する音声認識を実行する。
In the next step S4, the voice
最後のステップS5では、CPU12において機器制御信号発生部12cにより、その認識されたコマンド(発話内容)に応じた機器制御信号を出力し、これに対応する制御を当該制御対象機器に対して実行する。その際、CPU12からの制御に基づき、当該制御対象機器の動作状態に係る映像を表示している表示ユニット25,31に対して当該発話内容に応じた制御(画面の変更など)を行うと共に、当該制御対象機器の動作状態に係る音声を出力しているスピーカ27(ワイヤレスヘッドホン32を含む)に対して当該発話内容に応じた制御(音声の変更など)を行う。
In the final step S5, the device
以上説明したように、第1の実施形態に係る車載用音声認識装置ARによれば、マイクロホンアレイ9を用いたビームフォーミング法(DSP11)により、車室内で発話したユーザ(の居る方向)を特定し、CPU12により、HDD8に格納されている複数の専用認識辞書D1〜D3の中から、その特定した発話者が視聴している情報のソース(制御対象機器)に対応した専用の音声認識辞書を選択するようにしている。つまり、その発話者が当該制御対象機器に対し音声コマンドとして発する頻度の高い語彙を登録した専用認識辞書を選択するようにしている。
As described above, according to the on-vehicle speech recognition apparatus AR according to the first embodiment, the user (direction in which the user is uttered) in the vehicle compartment is specified by the beam forming method (DSP 11) using the
これにより、その発話者の発話内容(音声コマンド)を認識するに際し、その選択した専用認識辞書に登録されている語彙のみを認識すればよいので、従来のように音声認識辞書に登録されている全ての語彙に対して音声認識を行う場合と比べて、マッチングしない語彙を誤認識する割合を減らすことができる。つまり、その発話者に適した音声認識を行うことで、音声コマンドに対する認識率を高めることができる。 Thus, when recognizing the utterance content (voice command) of the speaker, only the vocabulary registered in the selected dedicated recognition dictionary needs to be recognized, so that it is registered in the speech recognition dictionary as in the past. Compared with the case where speech recognition is performed for all vocabularies, the rate of misrecognizing vocabulary that does not match can be reduced. That is, the recognition rate for the voice command can be increased by performing voice recognition suitable for the speaker.
例えば、発話者がリア席に着座していた場合、リア席用表示ユニット31の画面上で再生されているDVD操作のみに対する音声認識辞書D2を使用することで、誤認識の割合を減らすことができる。この場合、フロント席用表示ユニット(デュアルディスプレイ)25の運転席側の画面にナビゲーション情報が表示されていても、リア席での発話操作によりそのナビゲーションの動作に影響を与えることがない。また、発話者が助手席に着座していた場合も、同様である。
For example, when the speaker is seated in the rear seat, the rate of misrecognition can be reduced by using the speech recognition dictionary D2 for only the DVD operation reproduced on the screen of the rear
<第2の実施形態(図5参照)>
上述した第1の実施形態に係る車載用音声認識装置AR(図2)では、発話者を特定する手段としてマイクロホンアレイ9を用いたビームフォーミング法(DSP11)により音源の方向(発話者の居る方向)を特定する場合を例にとって説明したが、発話者を特定する手段がこれに限定されないことはもちろんである。例えば、操作指示を音声入力(発話)する際に何らかのスイッチ等を操作し(発話操作)、この発話操作をCPUで検出してその発話者を特定するようにしてもよい。図5はその場合の実施形態に係る車載用音声認識装置の構成を示したものである。
<Second Embodiment (see FIG. 5)>
In the on-vehicle speech recognition device AR (FIG. 2) according to the first embodiment described above, the direction of the sound source (the direction in which the speaker is present) by the beamforming method (DSP 11) using the
この第2の実施形態に係る車載用音声認識装置AR1(図5)は、第1の実施形態に係る車載用音声認識装置AR(図2)と比べて、フロント席用及びリア席用の各操作ユニット20,30の操作部にそれぞれ発話スイッチ50を設けた点、マイクロホンアレイ9に代えてマイクロホン9aを設けた点、DSP11を省略した点、CPU12の代わりにCPU14を有し、このCPU14が音声入力部14aと、発話者特定部14bと、認識辞書選択部14cと、音声認識処理部14dと、機器制御信号発生部14eとを備えている点で相違する。他の構成及びその機能については、第1の実施形態の場合と同じであるのでその説明は省略する。
The in-vehicle voice recognition device AR1 (FIG. 5) according to the second embodiment is different from the in-vehicle voice recognition device AR (FIG. 2) according to the first embodiment. The point where the
また、この第2の実施形態においてCPU14が行う発話者の特定及びそれに基づく音声認識辞書の切替選択等に係る処理についても、第1の実施形態に係る処理(図4)と基本的に同じであるのでその説明は省略する。
In addition, the processing related to the speaker identification and the voice recognition dictionary switching selection based on the speaker identification performed by the
この第2の実施形態に係る車載用音声認識装置AR1においても、上述した第1の実施形態に係る車載用音声認識装置ARにおいて得られた効果と同様の効果を得ることができる。さらに本実施形態では、発話スイッチ50の操作を検出することで発話者を容易に特定することができるので、マイクロホンアレイ9とDSP11を使用して発話者を特定する場合と比べて、構成の簡素化及びコストの低減化を図ることができる。
In the in-vehicle voice recognition device AR1 according to the second embodiment, the same effects as those obtained in the in-vehicle voice recognition device AR according to the first embodiment described above can be obtained. Furthermore, in this embodiment, since the speaker can be easily identified by detecting the operation of the
<第3の実施形態(図6参照)>
上述した第1、第2の実施形態に係る車載用音声認識装置AR,AR1(図2、図5)では、HDD8に複数の専用の認識辞書D1〜D3を用意し、DSP11の機能又は発話スイッチ50の操作に基づいて特定した座席の発話者が視聴している情報のソース(制御対象機器)に対応させていずれか1つの専用認識辞書を選択する場合を例にとって説明したが、認識辞書を変更する形態は必ずしもこれに限定されない。
<Third Embodiment (see FIG. 6)>
In the on-vehicle speech recognition apparatuses AR and AR1 (FIGS. 2 and 5) according to the first and second embodiments described above, a plurality of dedicated recognition dictionaries D1 to D3 are prepared in the
上記のように複数の専用認識辞書の中から選択するのではなく、例えば、発話内容に対する音声認識を実行する際に、特定した発話者の視聴している情報のソース(制御対象機器)に応じて認識すべき単語を優先させる「重み付け」を付加し、その「重み付け」が付加された認識単語を当該発話者のコマンドとして認識するようにしてもよい。図6はその場合の音声認識方法の一例を示したものである。 Rather than selecting from a plurality of dedicated recognition dictionaries as described above, for example, when performing speech recognition on utterance content, depending on the source of information (control target device) that the specified speaker is viewing It is also possible to add “weighting” to prioritize the word to be recognized and recognize the recognized word to which the “weighting” is added as a command of the speaker. FIG. 6 shows an example of the speech recognition method in that case.
本実施形態に係る車載用音声認識装置は、特に図示はしないが、基本的に第1、第2の実施形態に係る車載用音声認識装置AR,AR1(図2、図5)と同等の構成を有している。構成上相違する点は、CPU12,14において認識辞書選択部12a,14cに相当する機能ブロックを備えていない点(ただし、メモリ部13に格納されている管理テーブルは利用する)、HDD8に複数の専用の認識辞書D1〜D3を用意する代わりに、各ソース(制御対象機器)に共用される1つの音声認識辞書を用意すると共に、各ソース毎にそれぞれ認識すべき語彙(単語)とあらかじめ設定した重み付けとの関係を規定したテーブル(図6のWT1,WT2)を用意している点である。
The in-vehicle speech recognition apparatus according to the present embodiment is not specifically illustrated, but basically has the same configuration as the in-vehicle speech recognition apparatuses AR and AR1 (FIGS. 2 and 5) according to the first and second embodiments. have. The difference in configuration is that the
この第3の実施形態では、CPU12(14)において特定された発話者の発話内容に対する音声認識を実行する際に、メモリ部13に格納されている管理テーブルを参照して当該発話者が視聴している情報のソース(制御対象機器)を特定し、上記のテーブルWT1,WT2を参照して当該制御対象機器に対応した語彙のみに「重み付け」を付加する。例えば、運転席側と助手席側からマイクロホン9(9a)を介してナビゲーション関連の単語「会社」が発話された場合、CPU12(14)では、図6に示すように運転席側の認識単語「会社」にのみ重み付け(+10)を付加することで、運転席側から発話された「会社」を音声コマンドとして認識し、その認識したコマンドに対応する制御をナビゲーションユニット5に対して実行する。また、運転席側と助手席側からマイクロホン9(9a)を介してオーディオ関連の単語「停止」が発話された場合には、助手席側の認識単語「停止」にのみ重み付け(+10)を付加することにより、助手席側から発話された「停止」を音声コマンドとして認識し、その認識したコマンドに対応する制御をオーディオ機器(ラジオ受信機1、DVDプレーヤ3など)に対して実行する。
In the third embodiment, when performing speech recognition on the utterance content of the utterer specified by the CPU 12 (14), the utterer views the utterance by referring to the management table stored in the
上述した各実施形態では、車載用音声認識装置AR(AR1)を車載A/V・ナビゲーションシステム40の一部として組み込んだ場合を例にとって説明したが、本発明の要旨(発話者を特定し、その発話者が視聴している情報のソース(制御対象機器)に対応させて認識辞書を変更(専用の音声認識辞書を選択、又は認識単語の重み付けを変更)し、その変更された辞書を使用して音声認識を実行し、その認識した発話内容に対応する制御を当該制御対象機器に対して行うこと)からも明らかなように、必ずしもA/V機器とナビゲーション装置の両方を含むシステムに組み込んで使用する必要がないことはもちろんである。
In each of the above-described embodiments, the case where the in-vehicle voice recognition device AR (AR1) is incorporated as a part of the in-vehicle A / V /
また、上述した各実施形態では、車室内でユーザが着座している座席と当該座席で視聴している情報のソース(制御対象機器)との関係を示す「管理テーブル」を音声認識ユニット10内のメモリ部13に格納する場合を例にとって説明したが、本発明の要旨からも明らかなように、必ずしも音声認識ユニット10内に保有しておく必要がないことはもちろんである。例えば、その管理テーブルをH/U20内のメモリ部24に格納しておき、音声認識ユニット10内のCPU12(14)が、必要な時にH/U20内の制御部21と協働して、メモリ部24(管理テーブル)を参照するようにしてもよい。
Further, in each of the above-described embodiments, the “management table” indicating the relationship between the seat where the user is seated in the passenger compartment and the source of information (control target device) viewed in the seat is stored in the
また、上述した各実施形態では、リア席用にワイヤレスヘッドホン32を備えた場合を例にとって説明したが、かかる「ワイヤレス」タイプのものに限定されず、ジャック付きのヘッドホンを使用した場合にも本発明は同様に適用することができる。この場合、ヘッドホンは対応する表示ユニット31とジャックを介して有線接続されることになる。
Further, in each of the above-described embodiments, the case where the
また、上述した各実施形態では、地図データ及び音声認識辞書を格納する記憶媒体としてHDD8を使用しているが、これに代えて、DVDドライブ(DVD−ROM)やCDドライブ(CD−ROM)等の他の記憶媒体を使用してもよい。
In each of the above-described embodiments, the
1〜6…発話者が視聴している情報のソース(制御対象機器)、
8…HDD(辞書格納手段)、
9…マイクロホンアレイ(音声入力手段)、
9a…マイクロホン(音声入力手段)、
10…音声認識ユニット、
11…DSP(発話者特定手段)、
12,14…CPU(制御手段)、
13…メモリ部(テーブル格納手段)、
20,30…操作ユニット、
25,31…表示ユニット(表示手段)、
27…スピーカ(音声出力手段)、
32…ヘッドホン(音声出力手段)、
40…車載オーディオ/ビデオ(A/V)・ナビゲーションシステム、
50…発話スイッチ(発話者特定手段)、
AR,AR1…車載用音声認識装置、
D1,D2,D3…(各制御対象機器に対応した)音声認識辞書、
P1,P2,P3…車室内の乗員(ユーザ)、
WT1,WT2…認識単語と重み付けとの関係を規定したテーブル。
1-6 ... Source of information (control target device) that the speaker is watching,
8 HDD (dictionary storage means),
9: Microphone array (voice input means),
9a: Microphone (voice input means),
10 ... Voice recognition unit,
11 ... DSP (speaker identification means),
12, 14 ... CPU (control means),
13: Memory unit (table storage means),
20, 30 ... operation unit,
25, 31 ... display unit (display means),
27 ... Speaker (voice output means),
32. Headphone (sound output means),
40. Car audio / video (A / V) navigation system,
50. Utterance switch (speaker identification means),
AR, AR1 ... Vehicle speech recognition device,
D1, D2, D3 ... speech recognition dictionary (corresponding to each control target device),
P1, P2, P3 ... passengers (users) in the passenger compartment
WT1, WT2 ... A table defining the relationship between recognized words and weights.
Claims (10)
前記音声入力手段を介して発話したユーザを特定する発話者特定手段と、
複数の制御対象機器の各々の操作指示に関連した語彙が登録されている1つの音声認識辞書を格納すると共に、各制御対象機器毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定した第1のテーブルを格納した辞書格納手段と、
ユーザが着座している座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を規定した第2のテーブルを格納したメモリ手段と、
前記音声入力手段、発話者特定手段、辞書格納手段及びメモリ手段に動作可能に接続された制御手段とを備え、
前記制御手段は、前記発話者特定手段と協働して発話者を特定したときに、前記音声認識辞書及び前記第1、第2の各テーブルを参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を行い、該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする車載用音声認識装置。 Voice input means for voice input of information instructed by the user in the passenger compartment;
A speaker identifying means for identifying a user who has spoken via the voice input means;
Stores one speech recognition dictionary in which vocabulary related to each operation instruction of a plurality of control target devices is registered, and the relationship between the vocabulary to be recognized for each control target device and a preset weighting A dictionary storing means for storing the defined first table;
Memory means storing a second table that defines a relationship between a seat on which a user is seated and a control target device that is a source of information viewed by the user of the seat;
Control means operably connected to the voice input means, speaker identification means , dictionary storage means and memory means ;
When the control means specifies a speaker in cooperation with the speaker specifying means, the control means refers to the voice recognition dictionary and the first and second tables, and the speaker is watching Add a predetermined weight to the vocabulary corresponding to the controlled device that is the source of information, perform speech recognition on the utterance content of the speaker by referring to the vocabulary with the weight added, and according to the recognized utterance content A vehicle-mounted speech recognition apparatus, wherein the control target device is controlled.
前記発話者特定手段は、前記マイクロホンアレイの各マイクロホンで検出された信号に基づき方向推定を行ってビーム信号を生成する手段と、該生成されたビーム信号に基づいて音圧レベルの大きい信号を受信している方向を当該発話者の居る方向として特定する手段とを有することを特徴とする請求項1に記載の車載用音声認識装置。 The voice input means is a microphone array installed at a predetermined location in the passenger compartment.
The speaker specifying unit receives a signal having a high sound pressure level based on the direction signal based on the signal detected by each microphone of the microphone array and generating a beam signal. The vehicle-mounted speech recognition apparatus according to claim 1, further comprising: a unit that identifies a direction in which the speaker is speaking as a direction in which the speaker is present.
前記発話者特定手段は、前記マイクロホンを介してユーザが発話する際に操作する発話スイッチであることを特徴とする請求項1に記載の車載用音声認識装置。 The voice input means is a microphone installed at a predetermined location in the vehicle interior,
The in-vehicle speech recognition apparatus according to claim 1, wherein the speaker specifying means is an utterance switch operated when a user utters via the microphone.
前記制御手段は、前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る映像を表示している表示手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項1に記載の車載用音声認識装置。 A plurality of display means provided corresponding to each seat in the passenger compartment,
When the control unit performs control according to the recognized utterance content on the control target device, the control unit applies the utterance content to the display unit displaying an image related to the operation state of the control target device. The vehicle-mounted speech recognition apparatus according to claim 1, wherein control is performed in accordance with the control.
前記制御手段は、前記認識した発話内容に応じた制御を当該制御対象機器に対して行う際に、当該制御対象機器の動作状態に係る音声を出力している音声出力手段に対して当該発話内容に応じた制御を行うことを特徴とする請求項4に記載の車載用音声認識装置。 A plurality of audio output means operably connected to the plurality of display means,
When the control unit performs control according to the recognized utterance content on the control target device, the control unit outputs the utterance content to the voice output unit that outputs the voice related to the operation state of the control target device. The vehicle-mounted speech recognition apparatus according to claim 4 , wherein control is performed according to
あらかじめ複数の制御対象機器の各々の操作指示に関連した語彙を登録した1つの音声認識辞書と共に、各制御対象機器毎にそれぞれ認識すべき語彙とあらかじめ設定された重み付けとの関係を規定した第1のテーブルと、ユーザが着座している座席と当該座席のユーザが視聴している情報のソースである制御対象機器との関係を規定した第2のテーブルとを記憶手段に格納しておき、
発話を検出したときに当該発話者を特定し、
前記音声認識辞書及び前記第1、第2の各テーブルを参照して、当該発話者が視聴している情報のソースである制御対象機器に対応した語彙に所定の重み付けを付加し、
該重み付けの付加された語彙を参照して当該発話者の発話内容に対する音声認識を実行し、
該認識した発話内容に応じた制御を当該制御対象機器に対して行うことを特徴とする音声認識方法。 In a vehicle speech recognition device having a function of performing speech recognition corresponding to an operation instruction for a control target device spoken by a user in a vehicle interior,
A first that defines a relationship between a vocabulary to be recognized for each control target device and a preset weight, together with one speech recognition dictionary in which vocabulary related to each operation instruction of a plurality of control target devices is registered . And a second table that defines a relationship between a seat on which the user is seated and a control target device that is a source of information viewed by the user of the seat, in the storage unit,
Identify the speaker when the utterance is detected,
Referring to the voice recognition dictionary and the first and second tables, a predetermined weight is added to the vocabulary corresponding to the control target device that is the source of the information that the speaker is viewing,
Performing speech recognition on the utterance content of the speaker by referring to the weighted vocabulary;
A speech recognition method, wherein control according to the recognized utterance content is performed on the control target device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006110379A JP5014662B2 (en) | 2006-04-13 | 2006-04-13 | On-vehicle speech recognition apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006110379A JP5014662B2 (en) | 2006-04-13 | 2006-04-13 | On-vehicle speech recognition apparatus and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007286136A JP2007286136A (en) | 2007-11-01 |
JP5014662B2 true JP5014662B2 (en) | 2012-08-29 |
Family
ID=38757991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006110379A Expired - Fee Related JP5014662B2 (en) | 2006-04-13 | 2006-04-13 | On-vehicle speech recognition apparatus and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5014662B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009182769A (en) * | 2008-01-31 | 2009-08-13 | Kenwood Corp | On-vehicle device, program and display control method |
JP2009223170A (en) * | 2008-03-18 | 2009-10-01 | Advanced Telecommunication Research Institute International | Speech recognition system |
JP5696638B2 (en) * | 2011-06-02 | 2015-04-08 | 富士通株式会社 | Dialog control apparatus, dialog control method, and computer program for dialog control |
WO2013153583A1 (en) * | 2012-04-13 | 2013-10-17 | 三菱電機株式会社 | Vehicle-mounted audio input device |
JP6586617B2 (en) * | 2013-09-25 | 2019-10-09 | 株式会社グラモ | Speech recognition apparatus, method, and computer program |
KR101491354B1 (en) | 2013-11-25 | 2015-02-06 | 현대자동차주식회사 | Apparatus and Method for Recognize of Voice |
JP6236303B2 (en) | 2013-11-26 | 2017-11-22 | 株式会社デンソーアイティーラボラトリ | Control device, control method and program |
KR102394510B1 (en) * | 2014-12-02 | 2022-05-06 | 현대모비스 주식회사 | Apparatus and method for recognizing voice in vehicle |
JP2019128374A (en) | 2018-01-22 | 2019-08-01 | トヨタ自動車株式会社 | Information processing device and information processing method |
JP7250547B2 (en) | 2019-02-05 | 2023-04-03 | 本田技研工業株式会社 | Agent system, information processing device, information processing method, and program |
WO2021186679A1 (en) * | 2020-03-19 | 2021-09-23 | 日産自動車株式会社 | Voice recognition apparatus and voice recognition method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3760755B2 (en) * | 2000-10-11 | 2006-03-29 | 日産自動車株式会社 | Voice input device |
JP2003084795A (en) * | 2001-09-10 | 2003-03-19 | Kenwood Corp | On-vehicle voice recognition system |
JP4403050B2 (en) * | 2004-05-07 | 2010-01-20 | 富士通テン株式会社 | I / O management device |
-
2006
- 2006-04-13 JP JP2006110379A patent/JP5014662B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007286136A (en) | 2007-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5014662B2 (en) | On-vehicle speech recognition apparatus and speech recognition method | |
JP4269973B2 (en) | Car audio system | |
US9893697B1 (en) | System and method for selective volume adjustment in a vehicle | |
CN100354606C (en) | Navigation apparatus | |
JP2016161754A (en) | Vehicle-mounted device | |
JP2008042390A (en) | In-vehicle conversation support system | |
JP5413321B2 (en) | Communication system, in-vehicle terminal, and portable terminal | |
JP7049803B2 (en) | In-vehicle device and audio output method | |
JP2007208828A (en) | Vehicular audio input controller | |
JP4285371B2 (en) | Sound field control system | |
US10115392B2 (en) | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system | |
US20220095046A1 (en) | Hybrid in-car speaker and headphone based acoustical augmented reality system | |
JP6741387B2 (en) | Audio output device | |
KR101755308B1 (en) | Sound recognition module, Navigation apparatus having the same and vehicle having the same | |
JP5037041B2 (en) | On-vehicle voice recognition device and voice command registration method | |
JP4829184B2 (en) | In-vehicle device and voice recognition method | |
JP2001296891A (en) | Method and device for voice recognition | |
EP3906706A1 (en) | In-car headphone acoustical augmented reality system | |
JP2000305596A (en) | Speech recognition device and navigator | |
JP2011149852A (en) | Navigation apparatus | |
JP2018087870A (en) | Voice output device | |
JP6567985B2 (en) | In-vehicle device | |
JP2008094218A (en) | Vehicular acoustic system | |
WO2020012636A1 (en) | Operation control device, operation control method, and operation control system | |
JP2021085974A (en) | Speech recognition apparatus, speech recognition processing method and speech recognition processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120606 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150615 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5014662 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |