JP2006251699A

JP2006251699A - 音声認識装置

Info

Publication number: JP2006251699A
Application number: JP2005071556A
Authority: JP
Inventors: Kazuhisa Minami; 一久南
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2005-03-14
Filing date: 2005-03-14
Publication date: 2006-09-21

Abstract

【課題】ユーザーが発話した音声に含まれるコマンドのみを確実に識別することが可能な音声認識装置を提供すること。
【解決手段】パラメータ算出器Ｂ４は、接続機器Ｂ１が受信した特徴量データと、コマンドデータベースＢ２に記憶されている音声データとから、音声認識エンジンＢ５に設定する識別パラメータを算出する。音声認識エンジンＢ５は、パラメータ算出器Ｂ４が算出した識別パラメータと、コマンドデータベースＢ２に記憶された音声データとから、マイクＢ３から取得した音声信号と対応する音声データを認識するとともに、認識された音声データと対応するコマンドの識別を行う。
【選択図】図１

Description

本発明は、ユーザーの発話した音声に対応するコマンドの識別を行う音声認識装置に関する。

従来、発話された音声に対応するコマンドを識別し、当該コマンドに対応する動作を行う装置が公知である。例えば特許文献１の装置では、当該装置の各動作状態において選択可能なコマンドのみを含むコマンドリストが、それぞれ用意される。そして、ユーザーが発話したコマンドのうち、当該装置の動作状態に対応するコマンドリストに含まれるコマンドのみが識別され、そのコマンドに対応する動作が実行される。そのため、当該コマンドリストに含まれないコマンドをユーザーが発話しても識別されず、そのコマンドに対応する動作も実行されない。
特開２００４−８６１５０号公報

このように、従来装置では、ユーザーが発話したコマンドのうち、当該装置の各動作状態に応じて選択可能なコマンドのみが識別されるため、誤認識の低減を図ることができる。しかしながら、従来装置では、当該装置の各動作状態において選択可能なコマンドをユーザー以外の第三者が発話した場合でも、当該コマンドが識別されて対応する動作が行われるため、ユーザーが予期せぬ動作を行ってしまうことがある。

本発明は、上記の問題に鑑みてなされたものであり、ユーザーが発話した音声に含まれるコマンドのみを確実に識別することが可能な音声認識装置の提供を目的とする。

上記目的を達成するために、請求項１に記載の音声認識装置では、予め用意された所定のコマンドの中から、発話された音声に対応するコマンドを識別する識別手段を備えた音声認識装置であって、ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出する抽出手段と、抽出手段が抽出した音声特徴量を記憶する記憶手段とを設け、識別手段は、ユーザーの発話した音声と、記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドを識別することを特徴とする。

このように、本発明の音声認識装置では、ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出手段によって抽出し、記憶手段に記憶する。識別手段は、ユーザーの発話した音声と、記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドの識別を行う。これにより、ユーザーが発話した音声に含まれるコマンドのみを確実に識別でき、ユーザー以外の第三者の発話した音声に含まれるコマンドが識別されるのを防止できる。すなわち、ユーザーの発話した音声に含まれるコマンドの認識率を向上させ、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを防止できるのである。

請求項２に記載のように、識別手段は、ユーザーが発話したコマンドを識別するための識別用パラメータを有し、記憶手段に記憶された音声特徴量に従って、前期識別手段は、識別用パラメータの設定を行うことが望ましい。記憶手段に記憶された音声特徴量に従って識別用パラメータの設定を行うことで、識別手段は、ユーザーが発話した音声に含まれるコマンドのみを、より確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、より確実に防止できる。

請求項３に記載のように、ユーザーが通信機器を利用して文章を送信した際の通信文に使用されている単語を認識する単語認識手段を設け、識別手段は、単語認識手段が認識した単語にも従って、識別パラメータの設定を行うことが望ましい。単語認識手段が認識した単語にも従って識別パラメータの設定を行うことで、識別手段は、ユーザーが発話した音声に含まれるコマンドのみを、さらに確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、さらに確実に防止できる。

請求項４に記載のように、単語認識手段は、ユーザーが所持する携帯電話に組み込まれることが望ましい。ユーザーが所持する携帯電話に単語認識手段を組み込むことで、ユーザーが携帯電話から送信した通信文に含まれる単語に従って、識別用パラメータの設定を確実に行うことができる。

請求項５に記載のように、抽出手段は、ユーザーが所持する携帯電話に組み込まれることが望ましい。ユーザーが所持する携帯電話に抽出手段を組み込むことで、ユーザーの通話音声から音声特徴量を抽出し、識別パラメータの設定を確実に行うことができる。

請求項６に記載のように、音声認識装置は、車両用のナビゲーション装置を操作するコマンドの識別に利用されることが望ましい。車両用のナビゲーション装置におけるコマンドの識別を行う場合、ユーザーの発話した音声に含まれるコマンドのみを確実に識別するとともに、搭乗者の発話した音声に含まれるコマンドが誤って識別されるのを確実に防止し、ユーザーが予期せぬ動作を行わないようにする必要があるためである。

図１は、本発明の一実施形態における音声認識装置の全体構成を示すブロック図である。本音声認識装置は、携帯電話Ａおよびカーナビゲーション装置Ｂから構成される。

はじめに、携帯電話Ａの各部について説明する。

図１に示すように、マイクＡ１は、例えば小型のディジタルマイクであり、当該マイクに発話された音声をディジタルの音声信号に変換して出力する。

音声特徴量抽出器Ａ２は、公知のコンピュータで構成され、マイクＡ１から出力される音声信号から音声特徴量を抽出し、特徴量データを生成する。音声信号から音声特徴量を抽出して特徴用データを生成する方法に関しては、例えばニューラルネットを用いて音声パターンを検出する方法や、パワースペクトルを用いて周波数特性を検出する方法等が公知であるため、説明を省略する。

音声特徴量データベースＡ３は、例えば不揮発性メモリに構築されるものであり、音声特徴量抽出器Ａ２が抽出した特徴量データをデータベースとして記憶する。特徴量データの記憶に関しては、メモリカード等に記憶することとしても良い。

接続装置Ａ４は、コネクタとハーネスから構成され、音声特徴量データベースＡ３に記憶された特徴量データをカーナビゲーション装置Ｂへと送信する。

次に、カーナビゲーション装置Ｂについて説明する。

接続装置Ｂ１は、コネクタとハーネスから構成され、携帯電話Ａから送信される特徴量データを受信する。

コマンドデータベースＢ２は、例えばハードディスクに記憶され、カーナビゲーション装置Ｂの各種ナビゲーション動作を指示するコマンドの各々に対応する音声データからなる。前述の音声データに関しては、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等に記憶することとしても良い。

マイクＢ３は、例えば小型のディジタルマイクであり、当該マイクに発話された音声をディジタルの音声信号に変換して出力する。

パラメータ算出器Ｂ４は、接続機器Ｂ１が受信した特徴量データと、コマンドデータベースＢ２に記憶されている音声データとから、例えば、適応フィルタのフィルタ係数や周波数特性値等、後述する音声認識エンジンＢ５に設定する識別パラメータを算出する。前述した識別パラメータの算出方法に関しては、公知のインパルス応答やインピーダンス解析といった方法によって算出できるため、説明を省略する。

音声認識エンジンＢ５は、公知のコンピュータから構成され、パラメータ算出器Ｂ４が算出した識別パラメータと、コマンドデータベースＢ２に記憶された音声データとから、マイクＢ３から取得した音声信号と対応する音声データを認識するとともに、認識された音声データと対応するコマンドの識別を行う。なお、例えば携帯電話Ａから特徴データを受信できない場合など、パラメータ算出器Ｂ４から識別パラメータを取得できない場合には、予め用意された所定の識別パラメータに従って、前述の識別動作を行う。

ナビゲーション機能部Ｂ６は、音声認識エンジンＢ５が識別したコマンドに応じて、公知の各種ナビゲーション動作を行う。具体的には、音声認識エンジンＢ５が識別したコマンドに従って、車両の現在位置周辺の地図画像を図示しないディスプレイに表示したり、図示しないスピーカから各種音声案内を行わせたりする。

図２は、本実施形態の音声認識装置において、音声認識エンジンＢ５に識別パラメータを設定する際のフローチャートである。本フローチャートの処理は、カーナビゲーション装置Ａが起動した際に実行される。

ステップ２０１では、パラメータ算出器Ｂ４は、携帯電話Ａが接続装置Ｂ１に接続されているか否か、すなわち、携帯電話Ａから特徴量データを取得できるか否かを判定する。携帯電話Ａが接続装置Ｂ１に接続されている、すなわち、携帯電話Ａから特徴量データを取得できる場合は、ステップ２０２へ進む。そうでない場合は、ステップ２０６へ進む。

ステップ２０２では、携帯電話Ａから特徴量データを取得する。ステップ２０３では、携帯電話Ａから全ての特徴量データを取得できたか否かを判定する。全ての特徴量データを取得できた場合は、ステップ２０４へ進む。未だ全ての特徴量データを取得できていない場合は、ステップ２０２へ戻り、特徴量データの取得を継続する。

ステップ２０４では、ステップ２０２で取得した特徴量データ、および、コマンドデータベースＢ２に記憶されている音声データから、識別パラメータの算出を行い、音声認識エンジンＢ５へ出力する。これにより、音声認識エンジンＢ５は、ユーザーが発話した音声に含まれるコマンドのみを、より確実に識別することができ、また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、より確実に防止できるのである。一方、ステップ２０５では、予め用意された所定の識別パラメータを音声認識エンジンＢ５へ出力する。

ステップ２０６では、音声認識エンジンＢ５は、ステップ２０４またはステップ２０５でパラメータ算出器Ｂ４から出力された識別パラメータを取得してパラメータ設定を行い、音声認識を開始する。これにより、音声認識エンジンＢ５が識別したコマンドに対応する操作が、ナビゲーション装置機能部Ｂ６に対してなされることとなる。

このように、本実施形態の音声認識装置では、ユーザーが携帯電話Ａに発話した音声から当該ユーザーの音声特徴量が抽出され、特徴量データとして記憶される。カーナビゲーション装置Ｂの音声認識エンジンＢ５は、携帯電話Ａに記憶された特徴量データと、コマンドデータベースＢ２に記憶された音声データとから、パラメータ算出器Ｂ４が算出した識別パラメータを利用して、ユーザーが発話した音声に含まれるコマンドを識別する。これにより、ユーザーが発話した音声に含まれるコマンドのみを確実に識別でき、ユーザー以外の第三者の発話した音声に含まれるコマンドが識別されるのを防止できる。すなわち、ユーザーの発話した音声に含まれるコマンドの認識率を向上させ、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを防止できるのである。

次に、本実施形態の変形例について説明する。本変形例の音声認識装置では、ユーザーが携帯電話Ａを利用して文章を送信した際の通信文に使用されている単語を認識するとともに、認識された単語にも従って、識別パラメータの算出を行う。上述した点が、本変形例のポイントである。

図３は、本変形例における音声認識装置の全体構成を示すブロック図である。

図３に示すように、入力キーＡ５は、複数のメカニカルなキーによって構成され、ユーザーが携帯電話Ａから送信する文章の作成に利用される。前述の入力キーＡ５に関しては、ユーザーがタッチした文字を入力可能に構成されたタッチスイッチによって構成しても良い。

文章特徴量抽出器Ａ６は、入力キーＡ５から入力された文章に用いられる単語を認識し、各単語の意味や当該単語の使用頻度を示す単語データを生成して記憶する。

接続装置Ａ４は、前述した実施形態の機能に加え、文章特徴量抽出器Ａ６生成した単語データも、カーナビゲーション装置Ａへと送信する。

パラメータ算出器Ｂ４は、前述の実施形態の機能に加え、接続装置Ｂ１が受信した単語データから、各単語の意味に最も良く該当するコマンドが選択されたり、使用頻度の高い単語が最も優先的に識別されたりするよう、識別パラメータの算出を行う。

その他の構成・動作に関しては、前述の実施形態の場合と同様であるため、説明を省略する。また、本実施形態の音声認識装置において、音声認識エンジンＢ５に識別パラメータを設定する際のフローチャートに関しては、図２のフローチャートの各ステップにおける「特徴量データ」を「特徴量データおよび単語データ」に読み換えれば良いため、説明を省略する。

このように、本変形例の音声認識装置では、ユーザーが携帯電話Ａを利用して文章を送信した際の通信文に使用されている単語を認識するとともに、認識された単語にも従って、識別パラメータの算出を行う。これにより、本音声認識装置は、ユーザーが発話した音声に含まれるコマンドのみを、さらに確実に識別することができる。また、ユーザー以外の第三者の発話した音声に含まれるコマンドが誤認識されるのを、さらに確実に防止できる。

前述した実施形態および変形例では、音声特徴量抽出器Ａ２および文章特徴量抽出器Ａ６は、携帯電話に設けられた。こうすることで、ユーザーの通話音声から音声特徴量を抽出したり、ユーザーが携帯電話から送信した通信文に含まれる各単語の意味や使用頻度に従って、識別用パラメータの設定を確実に行うことができるためである。しかしながら、前述の動作を確実に行うことができるのであれば、携帯電話に設けられることに限定されるものではなく、例えば自動車電話や無線通信機に設けることとしても良い。されども、携帯電話に設けることが最も好適である。

前述した実施形態および変形例では、本音声認識装置は、カーナビゲーション装置Ａを操作するコマンドの識別に利用された。しかしながら、ユーザー以外の搭乗者の発話した音声に含まれるコマンドが誤って識別されるのを確実に防止し、ユーザーが予期せぬ動作を行わないようにするために利用されるのであれば、これに限定されるものではなく、例えば車両用のオーディオなど、ユーザーが音声コマンドによって操作を行う機能を有する機器であれば、好適に用いることができる。しかしながら、最も好適なのは、カーナビゲーション装置Ａを操作するコマンドの識別に利用された場合であることを言及しておく。

本発明の一実施形態における音声認識装置の全体構成を示すブロック図である。本実施形態の音声認識装置において、音声認識エンジンに識別パラメータを設定する際のフローチャートである。本変形例における音声認識装置の全体構成を示すブロック図である。

符号の説明

Ａ…携帯電話
Ａ１…マイク
Ａ２…音声特徴量抽出器
Ａ３…音声特徴量データベース
Ａ４…接続装置
Ａ５…入力キー
Ａ６…文章特徴量抽出器
Ｂ…カーナビゲーション装置
Ｂ１…接続装置
Ｂ２…コマンドデータベース
Ｂ３…マイク
Ｂ４…パラメータ算出器
Ｂ５…音声認識エンジン
Ｂ６…ナビゲーション機能部

Claims

予め用意された所定のコマンドの中から、発話された音声に対応するコマンドを識別する識別手段を備えた音声認識装置であって、
ユーザーが通話機器を利用した際に発話した音声から、当該ユーザーの音声特徴量を抽出する抽出手段と、
前記抽出手段が抽出した音声特徴量を記憶する記憶手段とを設け、
前記識別手段は、前記ユーザーの発話した音声と、前記記憶手段に記憶された音声特徴量とから、当該ユーザーの発話した音声と対応するコマンドを識別することを特徴とする音声認識装置。
前記識別手段は、前記ユーザーが発話したコマンドを識別するための識別用パラメータを有し、前記記憶手段に記憶された音声特徴量に従って、前記識別手段は、前記識別用パラメータの設定を行うことを特徴とする請求項１記載の音声認識装置。
前記ユーザーが通信機器を利用して文章を送信した際の通信文に使用されている単語を認識する単語認識手段を設け、
前記識別手段は、前記単語認識手段が認識した単語にも従って、前記識別パラメータの設定を行うことを特徴とする請求項２記載の音声認識装置。
前記単語認識手段は、前記ユーザーが所持する携帯電話に組み込まれることを特徴とする請求項３記載の音声認識装置。
前記抽出手段は、前記ユーザーが所持する携帯電話に組み込まれることを特徴とする請求項１から請求項４のいずれかに記載の音声認識装置。
前記音声認識装置は、車両用のナビゲーション装置を操作するコマンドの識別に利用されることを特徴とする請求項１から請求項５のいずれかに記載の音声認識装置。