JP2009086132A

JP2009086132A - 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体

Info

Publication number: JP2009086132A
Application number: JP2007253679A
Authority: JP
Inventors: Koji Shinto; 浩司新戸; Kenji Takeda; 賢司武田; Ryo Oda; 亮小田; Keiichiro Koyama; 馨一郎小山; Kunihiko Mori; 邦彦森; Yoshiko Kato; 淑子加藤
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2009-04-23

Abstract

【課題】利用者の発話以外の音声による誤認識を防止すること。
【解決手段】音声認識装置１００は、登録部１０１と、受付部１０２と、音声認識部１０３と、制御部１０４と、出力部１０５と、を備える。登録部１０１には、利用者の音声情報が予め登録される。受付部１０２は、利用者からの音声を受け付ける。音声認識部１０３は、受付部１０２が受け付けた音声のうち、登録部１０１に登録されている利用者の音声情報を認識する。制御部１０４は、音声認識部１０３によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。出力部１０５は、制御部１０４によって制御された音声情報を出力する。
【選択図】図１

Description

この発明は、音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体に関する。

近年、自動車などの車両には、目的地までの経路を探索して、当該目的地まで誘導するナビゲーション装置が搭載されている。このようなナビゲーション装置において、目的地の設定など各種設定や入力は、タッチパネルなどの操作入力によっておこなわれるものが知られている。また、このほかにも、音声認識機能を具備したものであれば、利用者からの発話により各種設定や入力がおこなわれるものが知られている。

音声認識機能を具備した技術としては、たとえば、音声の誤認識の低減を図るために、利用者からの語彙のジャンルの発話に基づき、語彙のジャンルを指定し、指定されたジャンルの中から音声認識をおこなうようにした技術が提案されている（たとえば、特許文献１参照。）。

特開平１０−９７２８１号公報

しかしながら、上述した特許文献１の技術は、マイクが利用者の発話以外に他人の発話や周囲のノイズなどを全て収集してしまうので、音声認識をおこなう際に誤認識を招くおそれがあるといった問題が一例として挙げられる。また、特許文献１の技術を用いて、携帯電話などで通話する場合には、周囲の音声を全て収集してしまうことにより、当方の発話が相手先に聞き取り難いといった問題が一例として挙げられる。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかる音声認識装置は、利用者の音声情報が予め登録される登録手段と、利用者からの音声を受け付ける受付手段と、前記受付手段が受け付けた音声のうち、前記登録手段に登録されている利用者の音声情報を認識する音声認識手段と、前記音声認識手段によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御手段と、前記制御手段によって制御された音声情報を出力する出力手段と、を備えることを特徴とする。

請求項８に記載のナビゲーション装置は、上記音声認識装置を備えることを特徴とする。

請求項９に記載の電子機器は、上記音声認識装置を備えることを特徴とする。

また、請求項１０の発明にかかる音声認識方法は、利用者の音声情報が予め登録される登録工程と、音声情報を受け付ける受付工程と、前記受付工程にて受け付けた音声情報のうち、前記登録工程にて登録される利用者の音声情報を認識する音声認識工程と、前記音声認識工程によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御工程と、前記制御工程によって制御された音声情報を出力する出力工程と、を含むことを特徴とする。

また、請求項１１の発明にかかる音声認識プログラムは、請求項１０に記載の音声認識方法をコンピュータに実行させることを特徴とする。

また、請求項１２の発明にかかる記録媒体は、請求項１１に記載の音声認識プログラムをコンピュータに読み取り可能に記録したことを特徴とする。

以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。

（実施の形態）
（音声認識装置の機能的構成）
この発明の実施の形態にかかる音声認識装置１００の機能的構成について説明する。図１は、本実施の形態にかかる音声認識装置１００の機能的構成の一例を示すブロック図である。

図１において、音声認識装置１００は、登録部１０１と、受付部１０２と、音声認識部１０３と、制御部１０４と、出力部１０５と、設定部１０６と、変更部１０７と、入力部１０８と、を備えている。

登録部１０１には、利用者の音声情報が予め登録される。登録される音声情報は、具体的には、利用者の音声パターンである。音声情報の登録は、たとえば、音声情報の登録を受け付ける登録モードなどを設け、当該登録モードにて利用者の音声情報を登録するようにしてもよいし、利用者からの発話を学習し、ある一定回数以上の発話があった場合に、当該利用者の音声情報を登録するようにしてもよい。

受付部１０２は、利用者からの音声を受け付ける。受付部１０２は、マイクロフォンからの音声信号を受け付け、代表的には、ハンズフリー・マイクロフォンからの音声信号を受け付ける。また、受付部１０２は、ハンズフリー・マイクロフォンとして、たとえば、ヘッドセットなどに小型のマイクを装着させたものや、携帯電話などの電話機本体に内蔵されたもの、車両などの移動体内に配置されるものなどが挙げられる。

音声認識部１０３は、受付部１０２が受け付けた音声のうち、登録部１０１に登録されている利用者の音声情報を認識する。音声認識部１０３は、登録されている利用者の音声パターンと入力された音声パターンとを照らし合わせ、一致した場合に、言語の認識をおこなう。言語の認識は、予め記録される言語データと、入力された音声情報の特徴とを照らし合わせ、尤もらしい言語を推定することによりおこなわれる。

制御部１０４は、音声認識部１０３によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。音声情報の低減は、音声情報の除去をも含む。制御部１０４は、演算処理部を含み、制御をおこなった音声情報（音声データ）を所定のプログラムにしたがって演算および加工する。なお、所定のプログラムは、たとえば、ナビゲーション装置であれば、経路探索プログラムなどが挙げられ、また、携帯電話であれば、音響制御プログラムなどが挙げられる。

出力部１０５は、制御部１０４によって制御された音声情報を出力する。出力部１０５から出力された音声情報により、たとえば、ナビゲーション装置における各種設定や、携帯電話装置における音声の補正がおこなわれる。

また、本実施の形態において、設定部１０６は、任意の構成要素である。設定部１０６には、複数の利用者の音声情報が登録される登録部１０１の中から、音声認識の対象となる利用者（以下、「認識対象者」という）が設定される。この場合、音声認識部１０３は、受付部１０２が受け付けた音声のうち、設定部１０６に設定されている認識対象者の音声情報を認識する。本構成は、登録部１０１に複数の利用者の音声情報が登録されている場合であっても、設定により認識対象者のみの音声を認識することを可能にした構成である。

また、本実施の形態において、変更部１０７は、任意の構成要素である。変更部１０７は、設定部１０６に設定されている認識対象者を変更する。この場合、音声認識部１０３は、受付部１０２が受け付けた音声のうち、変更部１０７によって変更された認識対象者の音声情報を認識する。変更部１０７は、具体的には、利用者からの操作入力に基づいて、認識対象者を変更するものでもよいし、後述するように、利用者からの音声入力に基づいて、認識対象者を変更するものでもよい。本構成は、音声認識の対象となる認識対象者を変更可能にした具体的な構成である。

上述した、利用者からの音声入力に基づく認識対象者の変更について説明する。この場合、登録部１０１は、利用者の音声情報と、認識対象者を変更するための所定の語彙とを登録する。音声認識部１０３は、受付部１０２が受け付けた音声のうち、登録部１０１に登録される利用者の音声情報と所定の語彙とを音声認識する。また、変更部１０７は、音声認識部１０３によって認識された結果により、設定部１０６に設定されている認識対象者を発話した利用者に変更する。

所定の語彙は、具体的には、たとえば、「利用者変更」、「ドライバー変更」といった語彙である。本構成は、このような語彙を発話した者の音声情報が予め登録部１０１に登録されている場合に、認識対象者を発話者に変更するものである。なお、利用者ごとに固有の語彙を登録しておき、各利用者が固有の語彙を発話した場合に、発話した利用者を認識対象者として変更するようにしてもよい。本構成は、発話によって認識対象者の変更を可能にした具体的な構成である。

また、本実施の形態において、登録部１０１に、複数の利用者の音声情報と、利用者の音声情報に対応付けられ且つ認識対象者を特定するための優先度に関する情報とを登録してもよい。この場合、音声認識部１０３は、受付部１０２が受け付けた音声のうち、登録部１０１に登録されている優先度の高い音声情報を認識する。また、制御部１０４は、音声認識部１０３によって認識された優先度の高い音声情報を抽出するとともに、優先度の高い音声情報以外の音声情報を低減させる。また、出力部１０５は、制御部１０４によって制御された音声情報を出力する。

優先度は、たとえば、１０人の利用者が登録されている場合には、１０段階の値を示すものである。本構成は、優先度が上位の利用者の音声を認識するものであり、たとえば、優先度が５位と８位の利用者の音声を受け付けた場合、優先度５位の利用者の音声を音声認識の対象とするものである。また、優先度５位の利用者が認識対象者として設定されている場合に、優先度１位の利用者の音声を受け付けたときには、優先度１位の利用者の音声を認識するとともに、優先度１位の利用者を、認識対象者として設定を変更するようにしてもよい。

また、音声認識部１０３は、優先度を、利用者が発話した回数の多い利用者ほど高くして、登録部１０１に登録させてもよい。発話した回数の多い利用者は、具体的には、ナビゲーション装置やカーオーディオなど移動体に搭載される電子機器においては運転頻度の高いドライバーとなる傾向にあり、携帯電話、テレビ、パソコンなど他の電子機器においては使用者となる傾向にある。

なお、本実施の形態において、入力部１０８は、任意の構成要素である。入力部１０８は、登録部１０１に未登録の音声情報を認識するための切り替えの入力を受け付ける。具体的には、入力部１０８は、上述した特定の利用者の音声を認識するようにした機能を解除させるための入力を受け付ける。この場合、音声認識部１０３は、入力部１０８が切り替えの入力を受け付けた場合、受付部１０２が受け付けた全ての音声情報を認識すればよい。

切り替えの入力は、利用者からの操作入力に基づくものでもよいし、利用者からの発話に基づくものでもよい。利用者からの発話に基づく切り替えの場合、音声認識部１０３により当該利用者を認識する必要があるため、登録部１０１に登録されている利用者、または設定部１０６に設定される認識対象者からの発話に基づく切り替えとすればよい。

また、本実施の形態においては、音声認識装置１００単体を例に挙げているが、音声認識装置１００を、移動体に搭載されるナビゲーション装置に具備させてもよい。このようなナビゲーション装置において、利用者ごとに経路探索条件などの各種設定情報が格納されている場合には、音声認識装置１００によって認識された利用者の設定情報を読み込み、利用者ごとの設定情報に基づいた経路案内や施設検索などをおこなうことも可能である。

また、音声認識装置１００を携帯電話や、オーディオ機器などの電子機器に具備させてもよい。このような電子機器においては、電子機器に利用者ごとの各種設定情報が格納されている場合には、利用者ごとに設定情報に応じた通話や取り扱いをおこなうことが可能になる。

（音声認識装置の音声認識処理手順）
つぎに、図２を用いて、音声認識装置１００の音声認識処理手順について説明する。図２は、本実施の形態にかかる音声認識装置１００の音声認識処理手順の一例を示すフローチャートである。

図２のフローチャートにおいて、音声認識装置１００は、音声を受け付けるまで待機し（ステップＳ２０１：Ｎｏのループ）、音声を受け付けた場合（ステップＳ２０１：Ｙｅｓ）、受け付けた音声のうち、登録部１０１に登録されている利用者の音声情報を認識する（ステップＳ２０２）。

そして、認識された利用者の音声情報を抽出するとともに（ステップＳ２０３）、当該利用者以外の音声情報を低減させる制御をおこなう（ステップＳ２０４）。このあと、制御された音声情報を出力し（ステップＳ２０５）、一連の処理を終了する。

以上説明したように、本実施の形態にかかる音声認識装置１００は、受け付けた音声のうち、登録されている利用者の音声情報を認識し、認識した利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させるようにした。したがって、利用者の発話以外に、他人の発話や周囲のノイズなどを収集することにより、音声認識における誤認識を防止することができる。また、携帯電話などを用いて通話する場合には、周囲の雑音を低減することにより、クリアな通話が可能になる。

以下に、本発明の実施例について説明する。本実施例では、車両に搭載されるナビゲーション装置によって、本発明の音声認識装置１００を実施した場合の一例について説明する。

（ナビゲーション装置３００のハードウェア構成）
図３を用いて、本実施例にかかるナビゲーション装置３００のハードウェア構成について説明する。図３は、本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。図３において、ナビゲーション装置３００は、車両などの移動体に搭載されており、ＣＰＵ３０１と、ＲＯＭ３０２と、ＲＡＭ３０３と、磁気ディスクドライブ３０４と、磁気ディスク３０５と、光ディスクドライブ３０６と、光ディスク３０７と、音声Ｉ／Ｆ（インターフェース）３０８と、マイク３０９と、スピーカ３１０と、入力デバイス３１１と、映像Ｉ／Ｆ３１２と、ディスプレイ３１３と、通信Ｉ／Ｆ３１４と、ＧＰＳユニット３１５と、各種センサ３１６と、カメラ３１７と、を備えている。また、各構成部３０１〜３１７はバス３２０によってそれぞれ接続されている。

ＣＰＵ３０１は、ナビゲーション装置３００の全体の制御を司る。ＲＯＭ３０２は、ブートプログラム、現在地点算出プログラム、経路探索プログラム、経路誘導プログラム、地図データ表示プログラム、音声認識プログラムなどの各種プログラムを記録している。また、ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。

現在地点算出プログラムは、たとえば、後述するＧＰＳユニット３１５および各種センサ３１６の出力情報に基づいて、車両の現在地点（ナビゲーション装置３００の現在地点）を算出させる。

経路探索プログラムは、後述する磁気ディスク３０５に記録されている地図データなどを利用して、出発地点から目的地点までの最適な経路を探索させる。ここで、最適な経路とは、目的地点までの最短（または最速）経路やユーザが指定した条件に最も合致する経路などである。また、目的地点のみならず、立ち寄り地点や休憩地点までの経路を探索してもよい。探索された誘導経路は、ＣＰＵ３０１を介して音声Ｉ／Ｆ３０８や映像Ｉ／Ｆ３１２へ出力される。

経路誘導プログラムは、経路探索プログラムを実行することによって探索された誘導経路情報、現在地点算出プログラムを実行することによって算出された車両の現在地点情報、磁気ディスク３０５から読み出された地図データに基づいて、リアルタイムな経路誘導情報を生成させる。生成された経路誘導情報は、ＣＰＵ３０１を介して音声Ｉ／Ｆ３０８や映像Ｉ／Ｆ３１２へ出力される。

地図データ表示プログラムは、磁気ディスク３０５や光ディスク３０７に記録されている地図データを映像Ｉ／Ｆ３１２によってディスプレイ３１３に表示させる。

音声認識プログラムは、音声Ｉ／Ｆ３０８を介して受け付けた音声のうち、磁気ディスク３０５や光ディスク３０７に記録される利用者の音声情報を認識し、認識した利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる。

磁気ディスクドライブ３０４は、ＣＰＵ３０１の制御にしたがって磁気ディスク３０５に対するデータの読み取り／書き込みを制御する。磁気ディスク３０５は、磁気ディスクドライブ３０４の制御で書き込まれたデータを記録する。磁気ディスク３０５としては、たとえば、ＨＤ（ハードディスク）やＦＤ（フレキシブルディスク）を用いることができる。

光ディスクドライブ３０６は、ＣＰＵ３０１の制御にしたがって光ディスク３０７に対するデータの読み取り／書き込みを制御する。光ディスク３０７は、光ディスクドライブ３０６の制御にしたがってデータの読み出される着脱自在な記録媒体である。光ディスク３０７は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク３０７のほか、ＭＯ、メモリカードなどであってもよい。

音声Ｉ／Ｆ３０８は、音声入力用のマイク３０９および音声出力用のスピーカ３１０に接続される。マイク３０９は、車室内の音を収集するハンズフリー・マイクロフォンによって構成される。マイク３０９は、たとえば、車両のサンバイザー付近に設置され、その数は単数でも複数でもよい。マイク３０９に受音された音声は、音声Ｉ／Ｆ３０８内でＡ／Ｄ変換される。マイク３０９から入力された音声は、利用者ごとの音声情報として、適宜、磁気ディスク３０５または光ディスク３０７に記録される。スピーカ３１０からは、音声が出力される。

入力デバイス３１１は、文字、数値、各種指示などの入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。

映像Ｉ／Ｆ３１２は、ディスプレイ３１３と接続される。映像Ｉ／Ｆ３１２は、具体的には、たとえば、ディスプレイ３１３全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記録するＶＲＡＭ（ＶｉｄｅｏＲＡＭ）などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ３１３を表示制御する制御ＩＣなどによって構成される。

ディスプレイ３１３には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像などの各種データが表示される。このディスプレイ３１３は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

通信Ｉ／Ｆ３１４は、無線を介してネットワークに接続され、ナビゲーション装置３００とＣＰＵ３０１とのインターフェースとして機能する。通信Ｉ／Ｆ３１４は、さらに、無線を介してインターネットなどの通信網に接続され、この通信網とＣＰＵ３０１とのインターフェースとしても機能する。

通信網には、ＬＡＮ、ＷＡＮ、公衆回線網や携帯電話網などがある。具体的には、通信Ｉ／Ｆ３１４は、たとえば、ＦＭチューナー、ＶＩＣＳ（ＶｅｈｉｃｌｅＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）／ビーコンレシーバ、無線ナビゲーション装置、およびそのほかのナビゲーション装置によって構成され、ＶＩＣＳセンターから配信される渋滞や交通規制などの道路交通情報を取得する。なお、ＶＩＣＳは登録商標である。

また、通信Ｉ／Ｆ３１４は、たとえば、ＤＳＲＣ（ＤｅｄｉｃａｔｅｄＳｈｏｒｔＲａｎｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ）を用いた場合は、路側に設置された無線装置と双方向の無線通信をおこなう車載無線装置によって構成され、交通情報や地図情報などの各種情報を取得する。なお、ＤＳＲＣの具体例としては、ＥＴＣ（ノンストップ自動料金支払いシステム）が挙げられる。

ＧＰＳユニット３１５は、ＧＰＳ衛星からの電波を受信し、車両の現在地点を示す情報を出力する。ＧＰＳユニット３１５の出力情報は、後述する各種センサ３１６の出力値とともに、ＣＰＵ３０１による車両の現在地点の算出に際して利用される。現在地点を示す情報は、たとえば緯度・経度、高度などの、地図情報上の１点を特定する情報である。

各種センサ３１６は、車速センサや加速度センサ、角速度センサなどを含み、車両の位置や挙動を判断することが可能な情報を出力する。各種センサ３１６の出力値は、ＣＰＵ３０１による車両の現在地点の算出や、速度や方位の変化量の測定などに用いられる。

カメラ３１７は、車両内部あるいは外部の映像を撮影する。映像は静止画あるいは動画のどちらでもよい。また、カメラ３１７によって撮影された映像を映像Ｉ／Ｆ３１２を介して磁気ディスク３０５や光ディスク３０７などの記録媒体に出力する。

図１に示した音声認識装置１００が備える登録部１０１と、受付部１０２と、音声認識部１０３と、制御部１０４と、出力部１０５と、設定部１０６と、変更部１０７と、入力部１０８とは、図３に示したナビゲーション装置３００におけるＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などに記録されたプログラムやデータを用いて、ＣＰＵ３０１が所定のプログラムを実行し、ナビゲーション装置３００における各部を制御することによって、その機能を実現する。

すなわち、本実施例のナビゲーション装置３００は、ナビゲーション装置３００における記録媒体としてのＲＯＭ３０２に記録されている音声認識プログラムを実行することにより、図１に示した音声認識装置１００が備える機能を、図２に示した音声認識処理手順で実行することができる。

（ナビゲーション装置の音声認識処理の一例）
つぎに、図４を用いて、本実施例にかかるナビゲーション装置３００がおこなう音声認識処理の一例について説明する。図４は、本実施例にかかるナビゲーション装置３００の音声認識処理の一例を示すフローチャートである。

図４のフローチャートにおいて、ナビゲーション装置３００は、音声Ｉ／Ｆ３０８を介して、ハンズフリー・マイクロフォンが用いられるマイク３０９から、音声を受け付けるまで待機し（ステップＳ４０１：Ｎｏのループ）、音声を受け付けた場合（ステップＳ４０１：Ｙｅｓ）、音声解析をおこなう（ステップＳ４０２）。

そして、複数人の音声情報か否かを判断する（ステップＳ４０３）。ステップＳ４０３において、複数人の音声情報ではないと判断した場合（ステップＳ４０３：Ｎｏ）、音声情報が登録されているものか否かを判断する（ステップＳ４０４）。

ステップＳ４０４において、音声情報が登録されているものと判断した場合（ステップＳ４０４：Ｙｅｓ）、音声情報を演算処理部へ送信し（ステップＳ４０５）、一連の処理を終了する。なお、演算処理部は、音声情報（音声データ）を所定のプログラムにしたがい演算および加工をおこなう。

なお、この後の処理について、具体例を挙げて補足しておくと、たとえば、受け付けた音声が「目的地○○」という音声であった場合、演算処理部の制御に基づき、目的地を設定し、経路探索をおこなう。また、ナビゲーション装置３００に、利用者に応じた経路探索条件や施設検索条件などの設定情報が記録されている場合には、音声情報を基に利用者が特定されることにより、発話した利用者に応じた経路探索条件や施設検索条件などを設定することも可能である。

一方、ステップＳ４０４において、音声情報が登録されていないものと判断した場合（ステップＳ４０４：Ｎｏ）、音声情報を除去し（ステップＳ４０６）、一連の処理を終了する。したがって、この場合、ナビゲーション装置３００の各種設定などはおこなわれない。

また、ステップＳ４０３において、複数人の音声情報であると判断した場合（ステップＳ４０３：Ｙｅｓ）、登録されている音声情報があるか否かを判断する（ステップＳ４０７）。ステップＳ４０７において、登録されている音声情報があると判断した場合（ステップＳ４０７：Ｙｅｓ）、登録されている音声情報以外を除去し（ステップＳ４０８）、ステップＳ４０５に移行する。このように、複数の人が発話した場合であっても、登録されている音声情報のみを認識し、ナビゲーション装置３００の各種設定をおこなうことが可能になっている。

また、ステップＳ４０７において、登録されている音声情報がないと判断した場合（ステップＳ４０７：Ｎｏ）、音声情報を除去し（ステップＳ４０９）、一連の処理を終了する。

上述した処理によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。特に、本実施例では、ハンズフリー・マイクロフォンを用いているため、車室内の全ての音を収集することになるが、このようなハンズフリー・マイクロフォンを用いた場合であっても、登録されている利用者の発話以外の音声による誤認識を防止することができる。

（ナビゲーション装置３００に設定される利用者の変更処理の一例）
つぎに、図５を用いて、本実施例にかかるナビゲーション装置３００に設定される利用者の変更処理の一例について説明する。図５は、本実施例にかかるナビゲーション装置３００に設定される利用者の変更処理の一例を示すフローチャートである。なお、図５に示すフローチャートでは、音声認識の対象となる認識対象者が設定され、当該認識対象者を変更可能にする処理について説明する。

図５のフローチャートにおいて、ナビゲーション装置３００は、認識対象者の設定の入力を受け付けたか否かを判断する（ステップＳ５０１）。認識対象者の設定は、登録される利用者のうち、音声認識を対象とする利用者を特定するための設定であり、利用者からの入力によりおこなわれる。ステップＳ５０１において、認識対象者の設定の入力を受け付けるまで待機状態にあり（ステップＳ５０１：Ｎｏのループ）、認識対象者の設定の入力を受け付けた場合（ステップＳ５０１：Ｙｅｓ）、認識対象者を設定する（ステップＳ５０２）。

このあと、音声Ｉ／Ｆ３０８を介して、ハンズフリー・マイクロフォンが用いられるマイク３０９から、音声を受け付けるまで待機し（ステップＳ５０３：Ｎｏのループ）、音声を受け付けた場合（ステップＳ５０３：Ｙｅｓ）、音声解析をおこなう（ステップＳ５０４）。そして、登録されている音声情報か否かを判断する（ステップＳ５０５）。

ステップＳ５０５において、登録されている音声情報であると判断した場合（ステップＳ５０５：Ｙｅｓ）、音声情報に所定の語彙が含まれるか否かを判断する（ステップＳ５０６）。所定の語彙は、たとえば、「利用者の変更」、「ドライバーの変更」といった語彙である。なお、このような語彙は、磁気ディスク３０５や光ディスク３０７に予め登録されている。

ステップＳ５０６において、音声情報に所定の語彙が含まれると判断した場合（ステップＳ５０６：Ｙｅｓ）、認識対象者を発話者に変更し（ステップＳ５０７）、ステップＳ５０３に移行する。一方、ステップＳ５０６において、音声情報に所定の語彙が含まれないと判断した場合（ステップＳ５０６：Ｎｏ）、当該音声情報が認識対象者の音声情報か否かを判断する（ステップＳ５０８）。

ステップＳ５０８において、当該音声情報が認識対象者の音声情報であると判断した場合（ステップＳ５０８：Ｙｅｓ）、音声情報を演算処理部へ送信し（ステップＳ５０９）一連の処理を終了する。また、ステップＳ５０８において、当該音声情報が認識対象者の音声情報ではないと判断した場合（ステップＳ５０８：Ｎｏ）、一連の処理を終了する。また、ステップＳ５０５において、登録されている音声情報ではないと判断した場合（ステップＳ５０５：Ｎｏ）、音声情報を除去し（ステップＳ５１０）、一連の処理を終了する。

上述した処理によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。

また、設定により認識対象者のみの音声を認識することを可能にしたので、認識対象者の発話以外の音声による誤認識を防止することができ、より誤認識の少ない音声認識を実現できる。また、音声認識の対象となる認識対象者を変更可能にしたので、登録されている利用者の中から、適宜、状況に応じて認識対象者を選択することができる。

また、認識対象者の変更にあっては、利用者からの操作入力に基づくものであってもよいが、上述した処理では、利用者からの発話によって、認識対象者を当該発話者に変更可能にした。したがって、簡単且つ確実に認識対象者を変更することができる。

（ナビゲーション装置３００がおこなう優先度に基づく音声認識処理の一例）
つぎに、図６を用いて、本実施例にかかるナビゲーション装置３００がおこなう優先度に基づく音声認識処理の一例について説明する。図６は、本実施例にかかるナビゲーション装置３００がおこなう優先度に基づく音声認識処理の一例を示すフローチャートである。

図６に示すフローチャートでは、音声認識の対象となる認識対象者（たとえば、Ａさん）が予め設定されているものとし、認識対象者の優先順位を示す優先度に基づいて認識対象者を変更する処理について説明する。また、優先度は、発話される回数の多い利用者ほど高く設定されており、以下の説明では、たとえば、発話される回数の多い利用者として、運転頻度の高いＢさんがＡさんよりも高く設定されているものとする。

図６のフローチャートにおいて、ナビゲーション装置３００は、音声Ｉ／Ｆ３０８を介して、ハンズフリー・マイクロフォンが用いられるマイク３０９から、音声を受け付けるまで待機し（ステップＳ６０１：Ｎｏのループ）、音声を受け付けた場合（ステップＳ６０１：Ｙｅｓ）、音声解析をおこなう（ステップＳ６０２）。なお、ステップＳ６０１において受け付ける音声は、予め登録されている利用者からの発話とする。

そして、認識対象者（Ａさん）よりも優先度の高い音声情報（Ｂさんの音声情報）があるか否かを判断する（ステップＳ６０３）。ステップＳ６０３において、認識対象者よりも優先度の高い音声情報があると判断した場合（ステップＳ６０３：Ｙｅｓ）、優先度の低い音声情報を除去する（ステップＳ６０４）。そして、優先度の高い音声情報の利用者（Ｂさん）に認識対象者を変更する（ステップＳ６０５）。

そして、認識対象者の音声情報を演算処理部へ送信し（ステップＳ６０６）、一連の処理を終了する。一方、ステップＳ６０３において、認識対象者よりも優先度の高い音声情報がないと判断した場合（ステップＳ６０３：Ｎｏ）、ステップＳ６０６に移行する。なお、上述した優先度に基づく音声認識処理は、図４に示すステップＳ４０４、ステップＳ４０７、および図５に示すステップＳ５０８においておこなうことも可能である。

上述した処理によれば、受け付けた音声のうち、優先度の高い利用者の音声情報を認識し、優先度の低い当該利用者以外の音声情報を除去するようにしたので、優先度の高い利用者の発話以外の音声による誤認識を防止することができる。特に、ナビゲーション装置３００においては、発話される回数が多い利用者として、運転頻度の高い利用者を対象とし、当該利用者に対応付けられた経路探索条件や検索条件などの各種設定情報を読み込むことができるので、利用者が自身に対応した各種設定情報を選択するなどといった手間を省くことができる。

（ナビゲーション装置３００がおこなう音声登録処理の一例）
つぎに、図７を用いて、本実施例にかかるナビゲーション装置３００がおこなう音声登録処理の一例について説明する。図７は、本実施例にかかるナビゲーション装置３００がおこなう音声登録処理の一例を示すフローチャートである。

図７のフローチャートにおいて、利用者からの操作入力により、利用者登録画面の選択を受け付けるまで待機し（ステップＳ７０１：Ｎｏのループ）、利用者登録画面の選択を受け付けると（ステップＳ７０１：Ｙｅｓ）、利用者から音声を受け付けたか否かを判断する（ステップＳ７０２）。ステップＳ７０２において、利用者から音声を受け付けるまで待機し（ステップＳ７０２：Ｎｏのループ）、利用者から音声を受け付けると（ステップＳ７０２：Ｙｅｓ）、受け付けた音声情報が未登録の音声情報か否かを判断する（ステップＳ７０３）。

ステップＳ７０３において、受け付けた音声情報が未登録の音声情報であると判断した場合（ステップＳ７０３：Ｙｅｓ）、利用者から「登録」の入力があるか否かを判断する（ステップＳ７０４）。ステップＳ７０４において、「登録」の入力がある場合（ステップＳ７０４：Ｙｅｓ）、利用者の音声情報を登録し（ステップＳ７０５）、一連の処理を終了する。一方、ステップＳ７０３において、受け付けた音声情報が未登録の音声情報ではないと判断した場合（ステップＳ７０３：Ｎｏ）、一連の処理を終了する。また、ステップＳ７０４において、「登録」の入力がない場合（ステップＳ７０４：Ｎｏ）、一連の処理を終了する。

上述した処理により、未登録の利用者を登録することができる。なお、この登録時において、優先度を設定してもよい。

以上説明したように、本実施例にかかるナビゲーション装置３００によれば、受け付けた音声のうち、登録されている利用者の音声情報を認識し、当該利用者以外の音声情報を除去するようにしたので、登録されている利用者の発話以外の音声による誤認識を防止することができる。特に、本実施例では、ハンズフリー・マイクロフォンを用いているため、車室内の全ての音を収集することになるが、このようなハンズフリー・マイクロフォンを用いた場合であっても、登録されている利用者の発話以外の音声による誤認識を防止することができる。

また、設定により認識対象者のみの音声を認識することを可能にしたので、認識対象者の発話以外の音声による誤認識を防止することができ、より誤認識の少ない音声認識を実現できる。さらに、音声認識の対象となる認識対象者を変更可能にしたので、登録されている利用者の中から、適宜、認識対象者を選択することができる。さらに、認識対象者の変更にあっては、利用者からの発話によって、認識対象者を当該発話者に変更可能にしたので、簡単且つ確実に認識対象者を変更することができる。

また、受け付けた音声のうち、優先度の高い利用者の音声情報を認識し、優先度の低い当該利用者以外の音声情報を除去するようにしたので、優先度の高い利用者の発話以外の音声による誤認識を防止することができる。特に、ナビゲーション装置３００においては、発話される回数が多い利用者として、運転頻度の高い利用者を対象とし、当該利用者に対応付けられた経路探索条件や検索条件などの各種設定情報を読み込むことができるので、利用者が自身に対応した各種設定情報を選択するなどといった手間を省くことができる。

また、本実施例においては、図１に示した音声認識装置１００をナビゲーション装置によって実現する構成について説明したが、音声認識装置１００を携帯電話やテレビなど他の電子機器によって実現することも可能である。このような電子機器によれば、電子機器に利用者ごとの各種設定情報が格納されている場合には、利用者ごとの設定に応じた通話や取り扱いをおこなうことが可能になる。

なお、本実施例で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。

本実施の形態にかかる音声認識装置の機能的構成の一例を示すブロック図である。本実施の形態にかかる音声認識装置の音声認識処理手順の一例を示すフローチャートである。本実施例にかかるナビゲーション装置のハードウェア構成の一例を示すブロック図である。本実施例にかかるナビゲーション装置の音声認識処理の一例を示すフローチャートである。本実施例にかかるナビゲーション装置に設定される利用者の変更処理の一例を示すフローチャートである。本実施例にかかるナビゲーション装置がおこなう優先度に基づく音声認識処理の一例を示すフローチャートである。本実施例にかかるナビゲーション装置がおこなう音声登録処理の一例を示すフローチャートである。

符号の説明

１００音声認識装置
１０１登録部
１０２受付部
１０３音声認識部
１０４制御部
１０５出力部
１０６設定部
１０７変更部
１０８入力部
３００ナビゲーション装置

Claims

利用者の音声情報が予め登録される登録手段と、
利用者からの音声を受け付ける受付手段と、
前記受付手段が受け付けた音声のうち、前記登録手段に登録されている利用者の音声情報を認識する音声認識手段と、
前記音声認識手段によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御手段と、
前記制御手段によって制御された音声情報を出力する出力手段と、
を備えることを特徴とする音声認識装置。
複数の利用者の音声情報が登録される前記登録手段の中から、音声認識の対象となる利用者（以下、「認識対象者」という）が設定される設定手段をさらに備え、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記設定手段に設定されている前記認識対象者の音声情報を認識することを特徴とする請求項１に記載の音声認識装置。
前記設定手段に設定されている前記認識対象者を変更する変更手段をさらに備え、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記変更手段によって変更された前記認識対象者の音声情報を認識することを特徴とする請求項２に記載の音声認識装置。
前記登録手段には、利用者の音声情報と、前記認識対象者を変更するための所定の語彙とが登録され、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記登録手段に登録される利用者の音声情報と前記所定の語彙とを認識し、
前記変更手段は、前記音声認識手段によって認識された結果により、前記設定手段に設定されている前記認識対象者を発話した利用者に変更することを特徴とする請求項３に記載の音声認識装置。
前記登録手段には、複数の利用者の音声情報と、利用者の音声情報に対応付けられ且つ音声認識の対象となる認識対象者の優先度に関する情報とが登録され、
前記音声認識手段は、前記受付手段が受け付けた音声のうち、前記登録手段に登録されている優先度の高い音声情報を認識し、
前記制御手段は、前記音声認識手段によって認識された優先度の高い音声情報を抽出するとともに、優先度の高い音声情報以外の音声情報を低減させ、
前記出力手段は、前記制御手段によって制御された音声情報を出力することを特徴とする請求項１〜４のいずれか一つに記載の音声認識装置。
前記音声認識手段は、前記優先度を、利用者が発話した回数の多い利用者ほど高くして、前記登録手段に登録させることを特徴とする請求項５に記載の音声認識装置。
前記受付手段は、ハンズフリー・マイクロフォンからの音声信号を受け付けることを特徴とする請求項１〜６のいずれか一つに記載の音声認識装置。
請求項１〜７のいずれか一つに記載の音声認識装置を備えることを特徴とするナビゲーション装置。
請求項１〜７のいずれか一つに記載の音声認識装置を備えることを特徴とする電子機器。
利用者の音声情報が予め登録される登録工程と、
音声情報を受け付ける受付工程と、
前記受付工程にて受け付けた音声情報のうち、前記登録工程にて登録される利用者の音声情報を認識する音声認識工程と、
前記音声認識工程によって認識された利用者の音声情報を抽出するとともに、当該利用者以外の音声情報を低減させる制御工程と、
前記制御工程によって制御された音声情報を出力する出力工程と、
を含むことを特徴とする音声認識方法。
請求項１０に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
請求項１１に記載の音声認識プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。