JP2009145755A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2009145755A
JP2009145755A JP2007324853A JP2007324853A JP2009145755A JP 2009145755 A JP2009145755 A JP 2009145755A JP 2007324853 A JP2007324853 A JP 2007324853A JP 2007324853 A JP2007324853 A JP 2007324853A JP 2009145755 A JP2009145755 A JP 2009145755A
Authority
JP
Japan
Prior art keywords
voice
speaker
recognition
voice recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007324853A
Other languages
English (en)
Inventor
Shojiro Takeuchi
彰次郎 竹内
Hiroaki Sekiyama
博昭 関山
Yoshikazu Sekine
由一 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007324853A priority Critical patent/JP2009145755A/ja
Publication of JP2009145755A publication Critical patent/JP2009145755A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】発話者を特定しながら音声認識性能を向上させる音声認識装置を提供すること。
【解決手段】発話者が発する音声を認識する音声認識装置100は、発話者を特定する発話者特定手段11と、特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段12とを備える。音声認識特性調整手段12は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換えるようにする。音声認識装置100は、音声から声紋データを取得する音声認識手段10を備え、発話者特定手段11は、予め登録された声紋データと音声認識手段10が取得した声紋データとを照合して発話者を特定する。
【選択図】図1

Description

本発明は、発話者が発する音声を認識する音声認識装置に関し、特に、発話者を特定した上で音声認識を行う音声認識装置に関する。
従来、マイクを介して入力された音声に基づいて発話者の特定を試み、その発話者が特定できた場合にだけ音声認識による車両制御を許可する車両制御装置が知られている(例えば、特許文献1参照。)。
この車両制御装置は、車室内外に設けられた複数のマイクの何れかに音声信号が入力されると、その音声信号から音声認識の対象となる音声データと発話者特定用の声紋データとを生成し、生成した音声データ及び声紋データを用いて、登録済みの発話者による音声キーワードの発話であるか否かを判定する。
そして、この車両制御装置は、登録済みの発話者による音声キーワードの発話であると判定できた場合だけ、「ドア施錠」、「ドア解錠」、又は、「トランク開放」といった、音声データに含まれる車両制御用の音声コマンドを受け付け、その音声コマンドに対応する制御信号をドアやトランクを開閉させるための各種駆動装置に送信してそれら駆動装置を作動させるようにする。
このように、この車両制御装置は、登録されていない発話者による音声キーワードの発話、又は、音声キーワード以外の音声の発話に反応することなく、登録済みの発話者による音声キーワードの発話のみに反応するので、セキュリティ性を維持しながら音声認識を利用した運転支援を提供できる。
特開2000−80828号公報
しかしながら、特許文献1に記載の車両制御装置は、発話者の特定結果をセキュリティの強化のみに利用しており、その特定結果を音声認識性能の向上に活用していない。
上述の点に鑑み、本発明は、発話者を特定しながら音声認識性能を向上させる音声認識装置を提供することを目的とする。
上述の目的を達成するために、第一の発明に係る音声認識装置は、発話者が発する音声を認識する音声認識装置であって、発話者を特定する発話者特定手段と、特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段と、を備えることを特徴とする。
また、第二の発明は、第一の発明に係る音声認識装置であって、前記音声認識特性調整手段は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換えることを特徴とする。
また、第三の発明は、第一又は第二の発明に係る音声認識装置であって、音声から声紋データを取得する音声認識手段を更に備え、前記発話者特定手段は、予め登録された声紋データと前記音声認識手段が取得した声紋データとを照合して発話者を特定することを特徴とする。
上述の手段により、本発明は、発話者を特定しながら音声認識性能を向上させる音声認識装置を提供することを目的とする。
以下、図面を参照しつつ、本発明を実施するための最良の形態の説明を行う。
図1は、本発明に係る音声認識装置の構成例を示すブロック図であり、音声認識装置100は、制御装置1、マイク2、個人認証装置3、記憶装置4及びスピーカ5から構成される。
また、音声認識装置100は、車載装置であり、運転者が発話する所定の音声コマンドを認識し、認識した音声コマンドに応じて、エンジンの始動、ヘッドライトの点灯、窓の開閉等、各種車載装置を自動的に作動させるようにする。
制御装置1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備えたコンピュータであって、例えば、音声認識手段10、発話者特定手段11、音声認識特性調整手段12及びユーザ情報更新登録手段13のそれぞれに対応するプログラムをROMに記憶しながら、各手段に対応する処理をCPUに実行させる。
マイク2は、発話者が発話する音声を受け付けるための装置であり、例えば、ステアリングホイール上に配置され、運転者が発話する音声をアナログ信号として取得する。なお、マイク2は、例えば、ドアミラーやフロントピラー等の車両外側に配置され、車両に搭乗しようとする搭乗者が発話する音声を取得するようにしてもよい。車両外部から音声認識によりドアの施解錠等を行うためである。
個人認証装置3は、個人を認証するための装置であり、例えば、ドアノブ付近に設置される指紋認証装置や静脈認証装置がある。
また、個人認証装置3は、スマートキー(トランスポンダ)を携帯した運転者が車両に接近した場合に特定小電力無線を利用してその運転者を認証するスマートキーシステムであってもよい。
記憶装置4は、各種情報を記憶するための装置であり、例えば、ハードディスクやDVD(Digital Versatile Disk)等の記憶媒体であって、環境情報データベース40(以下、「環境情報DB40」とする。)、ユーザ情報DB41、標準音声認識辞書DB42、方言認識辞書43及び頻出語彙認識辞書DB44等を記憶する。
環境情報DB40は、雑音等の環境音に関する情報を体系的に格納したデータベースであり、各種環境音の周波数、振幅、波形パターン等を保持する。制御装置1は、例えば、車速センサ等の各種車載装置の出力に基づいてマイク2の周辺環境を判定し、その周辺環境を検索キーとして環境情報DB40を検索し、除去すべき環境音に関する情報(例えば、周波数である。)を抽出して、マイク2が取得するアナログ信号からその環境音を除去する。
ユーザ情報DB41は、車両を利用するユーザに関する情報を体系的に格納したデータベースであり、各ユーザの声紋データ、声の大きさ、声域、方言、頻繁に使用する語彙等に関する情報を保持する。
図2は、ユーザ情報DB41の構成例を示す図であり、ユーザ情報DB41は、例えば、各ユーザの識別番号を記憶する「ユーザID」欄、各ユーザの声紋データのファイル名を記憶する「声紋データ」欄、各ユーザの声の大きさ(例えば、「大」、「中」、「小」の三段階の値で表される。)を記憶する「声量」欄、各ユーザの声の高低(例えば、「大」、「中」、「小」の三段階の値で表される。)を記憶する「声域」欄、及び、各ユーザの方言に対応する識別番号を記憶する「方言」欄を有する。
例えば、ユーザID「1」のユーザは、「File1」のファイル名で特定される声紋データを有し、声量が大きく、声域が高く、方言がないユーザであることを示す。
なお、声紋データは、例えば、ソノグラム分析により音声を視覚化、パターン化したデータであり、制御装置1は、発話者に特定の言葉(音声キーワード)を発話させることで取得した声紋データを予め登録しておき、その後、マイク2を介して新たに取得するその音声キーワードを発話させた場合の声紋データと登録された声紋データとを照合することにより発話者を特定することができる。
標準音声認識辞書DB42は、音声認識装置100が発話者の音声を認識できるよう、音声認識させる標準的な言葉を体系的に格納したデータベースであり、制御装置1は、マイク2を介して取得したアナログデータから隠れマルコフモデル等の確率モデルを用いて単語列の音響特徴を記述する音響モデルを生成し、その音響特徴と標準音声認識辞書DB42に登録された言葉の音響特徴とを比較しながら最も音響特徴が近い言葉を抽出することができる。
音声認識装置100は、起動時に、記憶装置4に記憶された標準音声認識辞書DB42をアクセス速度の速い制御装置1のRAM上にコピーする。検索が高速で行われるようにするためである。但し、音声認識装置100は、標準音声認識辞書DB42の全部又は一部をRAM上にコピーすることなく、記憶装置4にある標準音声認識辞書DB42の全部又は一部を直接参照するようにしてもよい。容量の大きな標準音声認識辞書DB42を利用できるようにするためである。
方言認識辞書DB43は、音声認識装置100が発話者の音声を認識できるよう、音声認識させる言葉、特に、東北弁、関西弁又は九州弁といった方言で用いられる言葉を体系的に格納したデータベースであり、方言毎に用意され、標準音声認識辞書DB42を補完する。
このように、標準音声認識辞書DB42から分離して方言毎に方言認識辞書DB43を用意することで、音声認識装置100は、ある発話者が全く使用しないような方言を比較(検索)対象から除外して無駄な検索を回避しながらも、方言を使う別の発話者に対しては、対応する方言認識辞書DB43を適用することにより、発話の認識精度を向上させることができる。
音声認識装置100は、起動時に、記憶装置4に記憶された方言認識辞書DB43のうち発話者の方言に対応するものをアクセス速度の速い制御装置1のRAM上にコピーし、検索が高速で行われるようにする。
なお、音声認識装置100は、ユーザが新たに登録された当初は、全ての方言に対応する方言認識辞書DB43をRAM上にコピーし、どの方言が発話された場合にもその音声を認識できるようにしておく。
その後、音声認識装置100は、ユーザ情報更新登録手段13(後述)により、各方言に対応する方言認識辞書DB43に対するアクセス回数に基づいてそのユーザの方言を判定し、次回からはその方言に対応する方言認識辞書DB43のみをRAM上にコピーするようにする。
なお、所定期間後も方言認識辞書DB43に対するアクセス回数が所定数に達せず、そのユーザが方言を用いない(標準語のみを話すことを意味する。)と判定した場合、音声認識装置100は、方言認識辞書DB43をRAM上にコピーしないようにする。無駄な検索、照合を省略して処理速度を向上させるためであり、また、別の有用な認識辞書をRAMにコピーできるようにするためである。
頻出語彙認識辞書DB44は、音声認識装置100が発話者の音声を迅速に認識できるよう、音声認識の対象となる言葉のうち、特に、発話者が頻繁に使用する言葉を別途格納したデータベースであり、発話者毎に所定数の頻出語彙を登録する。
このように、発話者が頻繁に使用する言葉を別途記憶しておくことで、標準音声認識辞書DB42に登録されている言葉に先だって頻出語彙の照合を行うことができ、音声認識装置100は、音声認識処理における負荷を低減させながら、音声認識速度を向上させることができる。
図3は、頻出語彙認識辞書DB44の構成例を示す図であり、頻出語彙認識辞書DB44は、ユーザ毎に10個の頻出語彙を登録している。
制御装置1は、例えば、標準音声認識辞書DB42に登録された言葉のそれぞれについて使用頻度(発話者の音声と一致した回数を意味する。)をカウントし、使用頻度の高い所定数(例えば、10個)の言葉をユーザ毎に抽出して頻出語彙認識辞書DB44に別途登録する。
例えば、図3は、「ユーザID」が「1」のユーザが、音声コマンド「エンジン始動」を最も頻繁に発話し、音声コマンド「ライト点灯」を二番目に頻繁に発話し、音声コマンド「冷房」を十番目に頻繁に発話することを示す。
なお、頻出語彙認識辞書DB44に登録される言葉は、リアルタイムで更新されてもよく、一定期間毎に更新されてもよい。
スピーカ5は、各種情報を音声出力するための装置であり、例えば、車載スピーカであって、マイク2との併用により音声認識装置100が発話者とコミュニケーションを取ることができるようにする。また、スピーカ5は、音声認識装置100が認識した音声を確認のために再生出力するようにしてもよい。
次に、制御装置1が有する各種手段について説明する。
音声認識手段10は、発話者が発した音声を認識するための手段であり、各種車載装置が出力する情報と環境情報DB40に記憶される環境音に関する情報とを用いて、マイク2を介して取得されるアナログデータに含まれる環境音を除去する環境適応機能を含む。
音声認識手段10は、例えば、イグニッションスイッチが出力するエンジン始動信号を受信した場合、環境情報DB40に記憶されるエンジン音又は排気音に関する情報(例えば、周波数又は波形パターンである。)を取得して、マイク2が取得したアナログデータからその周波数帯域にある信号やその波形パターンに合致する音声信号(エンジン音又は排気音に関する音声信号)を除去する。
同様に、音声認識手段10は、ワイパースイッチが出力するワイパー始動信号を受信した場合、環境情報DB40に記憶されるワイパー音に関する情報を取得して、マイク2が取得したアナログデータからそのワイパー作動音に関する音声信号を除去する。
また同様に、音声認識手段10は、車速センサが出力する車速情報を受信した場合、環境情報DB40に記憶される風きり音又は振動音に関する情報を取得して、マイク2が取得したアナログデータからその車速に応じた風切り音や振動音に関する音声信号を除去する。
このような環境適応機能を利用して、音声認識手段10は、マイク2が取得したアナログデータに含まれる環境音を除去し、発話者による発話だけがそのアナログデータに含まれるようにして、音声認識における認識精度を向上させるようにする。
また、音声認識手段10は、環境毎に異なる標準音声認識辞書DB42又は頻出語彙認識辞書DB44を用意しておき、各種車載装置が出力する情報に応じてそれらのデータベースを切り換えるようにしてもよい。例えば、車室内の気温が高い場合には、エアコンの操作に関する語彙を頻出語彙としてRAM上にコピーするようにしてもよい。
また、音声認識手段10は、例えば、環境音が除去されたアナログデータのある時点の瞬時スペクトルまたはある区間の平均スペクトルをスペクトル分析により求め、FFT(Fast Fourier Transformation)によるパワースペクトルやLPC(Linear Prediction Coding)によるスペクトル包絡を抽出したり、基本周波数の時間変化をピッチ分析により求めたりして、発話者が発した音声の音響特徴(声紋データを含む。)を取得し、かつ、音素の抽出に利用できるデジタルデータ(以下、「音声データ」とする。)を取得して、それらデータをRAMに一時的に記憶する音声データ整形機能を含む。
このような音声データ整形機能を利用して音声データを取得した音声認識手段10は、RAMに記憶されたその音声データに含まれる音素と標準音声認識辞書DB42に登録された音素とを比較して、その音声データが表す音声コマンドを認識する。
発話者特定手段11は、発話者を特定するための手段であり、例えば、音声認識手段10が取得した声紋データとユーザ情報DB41に登録された声紋データとを照合して発話者を特定し、その声紋データに対応するユーザIDを所得する。
また、発話者特定手段11は、個人認証装置3が出力する指紋パターン、静脈パターン又はスマートキーID等と、ユーザ情報DB41に登録された指紋パターン、静脈パターン又はスマートキーID等とを照合して発話者を特定するようにしてもよい。
音声認識特性調整手段12は、発話者に応じて音声認識装置100の音声認識特性を調整するための手段であり、例えば、発話者特定手段11が取得したユーザIDを用いてユーザ情報DB41を参照しながらそのユーザIDのレコードにおける「声量」欄の値を抽出し、抽出した値に応じてマイク2の感度を調整する。例えば、「声量」欄の値が「大」であればマイク2の感度を下げ、適切な音量でアナログデータを取得できるようにする。
また、音声認識特性調整手段12は、そのユーザIDのレコードにおける「声域」欄の値を抽出し、抽出した値に応じて声域フィルタで除去しようとする周波数帯域を調整する。例えば、「声域」欄の値が「高」であれば低音の周波数帯域を除去できるようにする。
更に、音声認識特性調整手段12は、そのユーザIDのレコードにおける「方言」欄の値を抽出し、抽出した値に応じて参照すべき方言認識辞書DB43を切り換え、或いは、追加するようにする。例えば、「方言」欄の値が「関西弁」を表す識別番号であれば、関西弁に対応する方言認識辞書DB43をRAM上にコピーするようにする。
更に、音声認識特性調整手段12は、頻出語彙認識辞書DB44を参照しながらそのユーザIDに対応する頻出語彙を抽出し、そのユーザ専用の認識辞書として頻出語彙認識辞書DB44の一部をRAMにコピーすることで、RAMに記憶されたその認識辞書と新たに取得した音声データとの照合を音声認識手段10が優先的に実行できるようにする。
なお、音声認識特性調整手段12は、発話者を特定できない場合には、方言認識辞書DB43又は頻出語彙認識辞書DB44の一部をRAM上にコピーしないようにし、或いは、既にRAM上にコピーされていればそれらを消去するようにする。無駄な照合処理を省略し、また、RAMの有効活用を図るようにするためである(例えば、別の認識辞書をコピーできるようにする。)。
また、音声認識特性調整手段12は、単に、RAM上にコピーされた方言認識辞書DB43又は頻出語彙認識辞書DB44に対する参照(照合)を禁止するだけでもよい。無駄な照合処理を省略し、音声認識の処理速度を向上させるためである。
ユーザ情報更新登録手段13は、ユーザ情報DB41の内容を更新したり、ユーザ情報DB41に新たなユーザを登録したりするための手段である。
最初に、ユーザ情報更新登録手段13が、ユーザ情報DB41の内容を更新する処理について説明する。
ユーザ情報更新登録手段13は、例えば、各方言に対応する方言認識辞書DB43に対するアクセス回数を所定期間に亘ってユーザ毎に計数し、アクセス回数が最も高い方言認識辞書DB43であって、そのアクセス回数が所定回数以上となる方言認識辞書DB43に対応する方言識別番号をそのユーザのレコードにおける「方言」欄に記憶する。
また、ユーザ情報更新登録手段13は、所定期間におけるユーザ毎の声量の平均値(例えば、デシベルで表される。)を算出し、その算出された値がそのユーザのレコードにおける「声量」欄の値と異なる場合には、その算出された値で「声量」欄の値を更新するようにする。声域についても同様である。
次に、ユーザ情報更新登録手段13が、新たなユーザをユーザ情報DB41に登録する処理について説明する。
この場合、ユーザ情報更新登録手段13は、個人認証装置3又は声紋データの照合により管理者(例えば、管理権限を有する登録済みのユーザであり、複数人であっても一人であってもよい。)を特定した後、管理者による所定操作(例えば、新規ユーザ登録処理を開始させるためのボタン操作である。)に応じて新規ユーザ登録処理を開始させる。
ユーザ情報更新登録手段13は、新規レコードの「ユーザID」欄に新たなユーザ識別番号を追加した上で、マイク2を介して所定の音声キーワードを音声入力するようスピーカ5から案内メッセージを出力し、その登録を受けようとするユーザがその音声キーワードを発話したときのアナログデータを音声認識手段10に取得させる。
その後、ユーザ情報更新登録手段13は、音声認識手段10により、そのアナログデータから声紋データを抽出させ、その声紋データのファイルを新規レコードの「声紋データ」欄に追加する。
また、ユーザ情報更新登録手段13は、そのアナログデータに基づいて「声量」欄及び「声域」欄の値を決定するようにしてもよく、初期値として「中」の値を記憶してもよい。所定時間に亘って音声認識を行った後にその所定期間における音声認識結果を踏まえて更新すればよいからである。
次に、図4を参照しながら、音声認識装置100が発話者に応じて音声認識特性を調整する処理(以下、「音声認識特性調整処理」とする。)について説明する。なお、図3は、音声認識特性調整処理の流れを示すフローチャートである。
音声認識装置100は、音声認識機能が作動していない場合にマイク2において音声が入力されたときに、音声認識特性調整処理を実行する。
音声認識機能が作動していない場合とは、音声認識を開始させるための音声キーワード(開始キーワード)が未だ認識されていない状態、或いは、音声認識を終了させるための音声キーワード(終了キーワード)が認識された後の状態をいう。
また、音声認識装置100は、音声認識機能を作動させた場合であっても、所定期間に亘って音声が認識されない場合には、音声認識機能を自動的に終了させるようにしてもよい。このような場合も、音声認識機能が作動していない場合に該当することとなる。
最初に、音声認識装置100の制御装置1は、マイク2に対して音声が入力された場合、車速センサ、ワイパースイッチ、イグニッションスイッチ等の各種車載装置の出力に基づいて環境音(エンジン音、風きり音等がある。)の有無を判定する。
その後、制御装置1は、環境音が存在すると判定した場合には、音声認識手段10により環境情報DB40を参照してその環境音の周波数、振幅又は波形パターン等を特定し、入力された音声であるアナログデータからその環境音を除去し(ステップS1)、環境音が除去されたアナログデータから音声データ及び声紋データを生成する(ステップS2)。
環境音が存在しないと判定した場合には、制御装置1は、そのアナログデータから環境音を除去することなく、音声データ及び声紋データを生成する。
その後、制御装置1は、新たに生成された音声データと音声認識機能を開始させるための音声キーワードとを照合し(ステップS3)、その音声データがその音声キーワードに一致しない場合には(ステップS3のNO)、スピーカ5から音声メッセージ「開始キーワードではありません」を出力させて音声認識特性調整処理を終了させる(ステップS4)。不審者が音声認識機能を利用して車両を操作することがないようにするためである。
なお、制御装置1は、開始キーワード以外の音声を所定回数(例えば、3回)連続して認識した場合、或いは、音声データを所定回数連続して認識できなかった(言葉を特定できなかった)場合、音声認識機能の作動を禁止するようにしてもよい。
一方、その音声データがその音声キーワードに一致する場合(ステップS3のYES)、制御装置1は、発話者特定手段11により、新たに生成された声紋データとユーザ情報DB41に登録された声紋データとを照合し(ステップS5)、その音声キーワードを発した発話者がユーザ情報DB41に既に登録されているユーザであるか否かを判定する。
新たに生成された声紋データとユーザ情報DB41に登録された声紋データとが一致せず、発話者を特定できない場合には(ステップS5のNO)、スピーカ5から音声メッセージ「登録ユーザではありません」を出力させて音声認識特性調整処理を終了させる(ステップS4)。未登録の発話者に音声認識機能を使用させないようにするためである。
なお、制御装置1は、登録ユーザ以外の者による開始キーワードの発話を所定回数(例えば、3回)連続して認識した場合にも、音声認識機能の作動を禁止するようにしてもよい。セキュリティ性を高めるためである。
一方、新たに生成された声紋データとユーザ情報DB41に登録された声紋データとが一致し、発話者を特定できた場合(ステップS5のYES)、制御装置1は、音声認識特性調整手段12により、その発話者のユーザIDに応じて、マイク感度、声域フィルタで除去する周波数帯域を調整し、また、方言認識辞書及び頻出語彙認識辞書をそのユーザIDに応じて切り換えるようにする(ステップS6)。その発話者による発話に対する認識精度を向上させるためである。
その後、制御装置1は、音声認識機能を作動させ(ステップS7)、終了キーワードを認識するか、或いは、音声を認識しない状態が所定時間に達するまでは、その発話者が発する音声コマンドを受け付けられるようにする。
以上の構成により、音声認識装置100は、発話者を特定し、その特定した発話者に応じてマイク感度や声域フィルタの特性を調節するので、音声の認識精度を向上させることができる。
また、音声認識装置100は、その特定した発話者に応じて、メモリに常駐させる各種認識辞書を切り換えるので、音声の認識速度を向上させることができる。
また、音声認識装置100は、声紋データに基づいて発話者を特定するので、指紋認証装置や静脈認証装置等の設置を省略することができ、装置の製造コストを抑えると共に、利用者の利便性を向上させることができる。
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。
例えば、上述の実施例では、特定できた発話者に応じて方言認識辞書を切り換えるが、特定できた発話者に応じて標準音声認識辞書DB42の使用言語(日本語又は英語等である。)を切り換えるようにしてもよい。
また、上述の実施例において、音声認識装置100は、登録ユーザとして特定された者による発話(音声コマンド)であれば、分け隔て無くその音声コマンドを受け付けるようにするが、登録ユーザ毎に受け付け可能な音声コマンドを異ならせるようにしてもよい。
例えば、音声認識装置100は、車両外部からドアを解錠するための音声コマンドに関しては、登録ユーザのうちの一部の者が発話した場合にのみ受け付けるようにしてもよい。
本発明に係る音声認識装置の構成例を示すブロック図である。 ユーザ情報DBの構成例を示す図である。 頻出語彙認識辞書DBの構成例を示す図である。 音声認識特性調整処理の流れを示すフローチャートである。
符号の説明
1 制御装置
2 マイク
3 個人認証装置
4 記憶装置
5 スピーカ
10 音声認識手段
11 発話者特定手段
12 音声認識特性調整手段
13 ユーザ情報更新登録手段
40 環境情報データベース
41 ユーザ情報データベース
42 標準音声認識辞書データベース
43 方言認識辞書データベース
44 頻出語彙認識辞書データベース
100 音声認識装置

Claims (3)

  1. 発話者が発する音声を認識する音声認識装置であって、
    発話者を特定する発話者特定手段と、
    特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記音声認識特性調整手段は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換える、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 音声から声紋データを取得する音声認識手段を更に備え、
    前記発話者特定手段は、予め登録された声紋データと前記音声認識手段が取得した声紋データとを照合して発話者を特定する、
    ことを特徴とする請求項1又は2に記載の音声認識装置。
JP2007324853A 2007-12-17 2007-12-17 音声認識装置 Withdrawn JP2009145755A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007324853A JP2009145755A (ja) 2007-12-17 2007-12-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007324853A JP2009145755A (ja) 2007-12-17 2007-12-17 音声認識装置

Publications (1)

Publication Number Publication Date
JP2009145755A true JP2009145755A (ja) 2009-07-02

Family

ID=40916388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007324853A Withdrawn JP2009145755A (ja) 2007-12-17 2007-12-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP2009145755A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170635A (ja) * 2010-02-18 2011-09-01 Nikon Corp 情報処理システム
JP2011217052A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc 端末装置、番組特定システム、番組特定方法及びプログラム
CN103532916A (zh) * 2012-07-05 2014-01-22 百度在线网络技术(北京)有限公司 通过语音获取信息的方法、移动终端和语音信息系统
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁系统及实现方法
WO2017068560A1 (ja) * 2015-10-23 2017-04-27 シャープ株式会社 通信装置
WO2018087967A1 (ja) * 2016-11-08 2018-05-17 ソニー株式会社 情報処理装置および情報処理方法
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
JPWO2019171732A1 (ja) * 2018-03-08 2021-02-18 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP2021028650A (ja) * 2019-08-09 2021-02-25 トヨタ自動車株式会社 音声操作装置
CN112820300A (zh) * 2021-02-25 2021-05-18 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
JP2022088134A (ja) * 2020-12-02 2022-06-14 三菱ロジスネクスト株式会社 荷役車用運転者認識システムおよび当該認識システムを利用した最適動作モード出力システム
WO2022259836A1 (ja) * 2021-06-11 2022-12-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置、及び話者識別プログラム

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170635A (ja) * 2010-02-18 2011-09-01 Nikon Corp 情報処理システム
JP2011217052A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc 端末装置、番組特定システム、番組特定方法及びプログラム
CN103532916A (zh) * 2012-07-05 2014-01-22 百度在线网络技术(北京)有限公司 通过语音获取信息的方法、移动终端和语音信息系统
CN103532916B (zh) * 2012-07-05 2017-04-05 百度在线网络技术(北京)有限公司 通过语音获取信息的方法、移动终端和语音信息系统
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN105408953A (zh) * 2013-06-28 2016-03-16 株式会社ATR-Trek 进行本地语音识别的语音识别客户端设备
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁系统及实现方法
US10650825B2 (en) 2015-10-23 2020-05-12 Sharp Kabushiki Kaisha Communication device
WO2017068560A1 (ja) * 2015-10-23 2017-04-27 シャープ株式会社 通信装置
JP2017083526A (ja) * 2015-10-23 2017-05-18 シャープ株式会社 通信装置
US11289099B2 (en) 2016-11-08 2022-03-29 Sony Corporation Information processing device and information processing method for determining a user type based on performed speech
WO2018087967A1 (ja) * 2016-11-08 2018-05-17 ソニー株式会社 情報処理装置および情報処理方法
JPWO2019171732A1 (ja) * 2018-03-08 2021-02-18 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP2021028650A (ja) * 2019-08-09 2021-02-25 トヨタ自動車株式会社 音声操作装置
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
JP2022088134A (ja) * 2020-12-02 2022-06-14 三菱ロジスネクスト株式会社 荷役車用運転者認識システムおよび当該認識システムを利用した最適動作モード出力システム
JP7131884B2 (ja) 2020-12-02 2022-09-06 三菱ロジスネクスト株式会社 荷役車用運転者認識システムおよび当該認識システムを利用した最適動作モード出力システム
CN112820300A (zh) * 2021-02-25 2021-05-18 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
WO2022259836A1 (ja) * 2021-06-11 2022-12-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置、及び話者識別プログラム

Similar Documents

Publication Publication Date Title
JP2009145755A (ja) 音声認識装置
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US9881616B2 (en) Method and systems having improved speech recognition
US8560313B2 (en) Transient noise rejection for speech recognition
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
US8600741B2 (en) Method of using microphone characteristics to optimize speech recognition performance
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
US8438028B2 (en) Nametag confusability determination
JP3479691B2 (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
US9484027B2 (en) Using pitch during speech recognition post-processing to improve recognition accuracy
US7983916B2 (en) Sampling rate independent speech recognition
US8762151B2 (en) Speech recognition for premature enunciation
US10255913B2 (en) Automatic speech recognition for disfluent speech
US9997155B2 (en) Adapting a speech system to user pronunciation
US9911408B2 (en) Dynamic speech system tuning
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
US20160039356A1 (en) Establishing microphone zones in a vehicle
US20120109649A1 (en) Speech dialect classification for automatic speech recognition
US20130080172A1 (en) Objective evaluation of synthesized speech attributes
US8438030B2 (en) Automated distortion classification
US20090182559A1 (en) Context sensitive multi-stage speech recognition
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
US20160111090A1 (en) Hybridized automatic speech recognition
US9473094B2 (en) Automatically controlling the loudness of voice prompts
US20130211832A1 (en) Speech signal processing responsive to low noise levels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091218

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110322