JP4281369B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4281369B2
JP4281369B2 JP2003030387A JP2003030387A JP4281369B2 JP 4281369 B2 JP4281369 B2 JP 4281369B2 JP 2003030387 A JP2003030387 A JP 2003030387A JP 2003030387 A JP2003030387 A JP 2003030387A JP 4281369 B2 JP4281369 B2 JP 4281369B2
Authority
JP
Japan
Prior art keywords
hierarchy
voice information
word
input
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003030387A
Other languages
English (en)
Other versions
JP2004240244A (ja
Inventor
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2003030387A priority Critical patent/JP4281369B2/ja
Publication of JP2004240244A publication Critical patent/JP2004240244A/ja
Application granted granted Critical
Publication of JP4281369B2 publication Critical patent/JP4281369B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

【0001】
【技術分野】
本発明は、車両に搭載され、ユーザが発話した音声情報を認識する音声認識装置および音声認識装置用プログラムに関する。
【0002】
【背景技術】
ユーザが発話した目的地の住所を認識し、この認識した目的地に対応する経路情報を提供するナビゲーション装置がある(ケンウッド社製 ナビゲーション装置 DVZ−2801M)。このナビゲーション装置によれば、ユーザは住所等を連続的に発話することで目的地等を入力することができる。また、入力した目的地が誤って認識された場合であっても、訂正指示を入力して再度発話することにより目的地を再入力することができる。
【0003】
しかしながら、従来の音声認識の誤認識訂正においては、ユーザが訂正指示を入力すると、先に入力した住所のすべてが取消されてしまい、取消された住所を最初から入力し直さなければならないという不都合があった。すなわち、ユーザが目的地として「神奈川県横浜市神奈川区反町」と発話したにもかかわらず、これを音声認識装置が「神奈川県横浜市神奈川区立町」と誤認識した場合に、ユーザが訂正指示を入力すると、「神奈川県横浜市神奈川区」までは正しく認識されていたにもかかわらず、全てが取消されてしまい、最初から発話し直さなければならないという煩わしさがあった。
【0004】
【発明の開示】
本発明は、音声認識装置を利用するユーザの認識訂正時の負担を軽減することを目的とする。
【0005】
この発明によれば、ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有する音声認識装置及びコンピュータを上記音声認識装置として機能させる音声認識用プログラムを提供することができる。
【0006】
これにより、音声認識装置を利用するユーザの認識訂正時の負担を軽減させる音声認識装置および音声認識用プログラムを提供することができる。
【0007】
【発明の実施の形態】
<第1実施形態>
以下、本発明の第1の実施形態を図面に基づいて説明する。
【0008】
図1に示す音声認識システム1は、車両に搭載され、本発明に係る音声認識装置100と、ユーザからの情報の入力を受け付ける入力装置200と、情報が記憶された記憶装置300と、ナビゲーション装置400と、出力装置500とを有している。
【0009】
入力装置200は、ユーザからの各種情報の入力を受け付ける。入力装置200は、ユーザが発話した音声の入力をマイクで収音し、収音した音声をA/Dコンバータによりアナログ信号からディジタル信号に変換する音声入力手段21と、ユーザが音声入力の受付を命令するための音声入力指令手段22と、ユーザが誤った音声認識結果に対して訂正を命令する訂正命令手段23とを有している。
【0010】
記憶装置300は、少なくとも言語情報を含む音声認識処理に必要な情報を記憶し、読み込み及び書き込みが可能である。音声認識システム1に内蔵されたものであってもよいし、可搬の記憶媒体を用いてもよい。
【0011】
ナビゲーション装置400は、入力された情報に基づいて経路の案内を行う。たとえば、ユーザが発話した目的地の住所に基づいて現在地から目的地までの経路の提示を行うことができる。ちなみに、このナビゲーション装置は、GPS(Global Positioning System)等を用いた一般のナビゲーション機能を備えている。
【0012】
出力装置500は、ナビゲーション装置400が求めた案内情報をスピーカ又はディスプレイを介してユーザが視覚的又は聴覚的に取得できるように出力する。
【0013】
音声認識装置100は、本発明の音声認識処理を行う。本実施形態の音声認識装置100は、受付手段12と、音声入力手段13と、言語情報取得手段14と、誤認識結果訂正手段15とを有している。具体的には、少なくとも音声認識処理及び当該処理結果を訂正するプログラムを格納したROMと、このROMに格納されたプログラムを実行することで、受付手段12と、音声認識手段13と、認識結果訂正手段15として機能するCPUと、情報を取得し、少なくとも一時的に記憶する言語情報取得手段14として機能するRAMとを備えている。
【0014】
受付手段12は、ユーザから入力された情報を受け付ける。すなわち、受付手段12は、音声入力手段21を介して入力された「複数の単語を含む音声情報」、音声入力指令手段22を介して入力された「音声入力の受け付けを命令する音声入力命令」、訂正命令手段23を介して入力された「認識結果の訂正を命令する訂正命令」を少なくとも受け付ける。
【0015】
言語情報取得手段14は、アクセス可能な記憶装置300から少なくとも言語情報を取得する。言語情報には、「単語の音声情報と対比して、単語の内容を認識するための単語の標準パターン」、「複数の単語を含む音声情報の階層構造を定義する階層情報」、「複数の単語を含む音声情報の文法を定義する文法情報」、「任意の階層に含まれる標準パターンの数に関する階層別標準パターン数」、「音声上相互に類似すると判断された単語同士を予め関連づけた類似単語情報」が少なくとも含まれる。
【0016】
音声認識手段13は、まず、取得した言語情報に含まれる階層情報を参照してユーザから入力された音声情報の階層を認識する。この「階層情報」は、複数の単語を含む音声情報の階層を認識するために用いられる「階層構造に関する定義」を含む。「階層構造に関する定義」は、「ある階層に属する音声情報は所定の特徴を有する」といった、音声情報と階層とを対応づけるための特徴を定めたものである。その定義内容は特に限定されないが、本実施形態の「階層情報」は、『第1階層は「ken(県)」に相当する音声情報が含まれている、第2階層は、「shi(市)」に相当する音声情報が含まれている、第3階層は「ku(区)」に相当する音声情報が含まれている、第4階層は「cho又はmachi(町)」に相当する音声情報が含まれている』という定義である。
【0017】
音声情報「神奈川県横浜市神奈川区反町」が入力された場合、音声認識手段13は、「階層情報(定義)」を参照して、「ken(県)」を含む「神奈川県」は第1階層に属すると認識し、「shi(市)」を含む「横浜市」は第2階層に属すると認識し、「ku(区)」を含む「神奈川区」は第3階層に属すると認識し、「machi(町)」を含む「反町」は第4階層に属すると認識する。
【0018】
なお、「階層情報」の態様は特に限定されず、音声情報から検出したポーズ(無音区間)の長さやタイミングに基づいて階層を認識するための定義や、その他の階層を認識するための定義を利用してもよい。
【0019】
音声認識手段13は、認識された各階層に属する単語の音声情報と、予め登録された、その階層を構成する単語の標準パターンとを対比して受け付けた音声情報の内容を認識する。まず、音声認識手段13は、ユーザから入力された単語の音声情報を単語の音声の経時的な短時間スペクトルに変換する。そして、予め登録した単語の標準パターンと階層が認識された単語の音声情報(入力音声情報)とを対比する。対比は入力音声の経時的な短時間スペクトルと標準パターンのパターンマッチングにより一致度(類似度)を算出する。算出した一致度(類似度)に基づいて音声情報の内容を認識する。標準パターンは、スペクトルとともに単語の意味内容を含むことが好ましい。もちろん、単語の意味内容の認識にあたっては別に記憶された辞書情報を参照してもよい。なお、ここでは単語の標準パターンを用いて認識処理を行ったが、音素標準パターンを用いて認識処理を行ってもよい。
【0020】
認識結果訂正手段15は、音声認識手段13が導いた認識結果に対し、ユーザから認識結果を訂正するべき旨の訂正命令を受け付けた場合に起動する。認識結果訂正手段15は、訂正命令受付部151と、誤認単語推測部152と、再入力要求部153と、認識結果訂正部154とを有している。
【0021】
訂正命令受付部151は、入力装置200の訂正命令手段23を介してユーザからの訂正命令を受け付ける。この訂正命令は、音声認識手段13が認識した情報に基づいて出力した結果が誤っている場合、音声の認識結果が誤っているものとして、ユーザが訂正を求めて入力するものである。たとえば、目的地の住所を音声入力したところ、ナビゲーション装置400が異なる場所(目的地)への案内情報を提示した場合、ユーザは認識結果の訂正を求めて訂正命令を入力する。
【0022】
誤認単語推測部152は、訂正命令の入力に呼応して起動し、受け付けた音声情報のうち誤認された単語が属する階層を推測する。第1実施形態に係る誤認単語推測部152は、言語情報取得手段14を介して「任意の階層に含まれる標準パターンの数に関する階層別標準パターン数」を取得し、この「階層別標準パターンの数」が最も多い階層を誤認された階層として推測する。これは、ある階層に対応する標準パターンが多ければ、マッチング処理において対比する標準パターンの候補数が多くなり、誤りが発生する確率が高いと考えるからである。
【0023】
また、他の推測処理として以下の手法を採用することができる。
単語の標準パターンは、その「単語の標準パターン」を互いに誤認識しやすいと判断された「他の単語の標準パターン」に予め関連づけられている。この関連を示す識別子(情報)が、「音声上相互に類似すると判断された単語同士を予め関連づけた類似単語情報」として記憶されている。誤認単語推測部152は、言語情報取得手段14を介して「類似単語情報」を取得し、他の単語の標準パターンと関連づけられている単語が、受け付けた音声情報に含まれている場合には、その単語の音声情報が属する階層を誤認された階層として推測する。これは、他に類似する単語が存在する場合には、マッチング処理において誤りが発生する確率が高いと考えられるからである。
【0024】
再入力要求部153は、誤認単語推測部152が推測した階層から下層の音声情報の再入力をユーザに求める。すなわち、「神奈川県/横浜市/神奈川区/反町」と音声入力したにもかかわらず、第4番目の階層に属する「反町」を「立町」と誤認識してしまった場合には、この第4番目の階層から下層の部分の再入力をユーザに求める。たとえば、再入力要求部153は、「神奈川県/横浜市/神奈川区のどこですか?」というように、第5番目の階層のみの再入力をユーザに求める。この要求に対し、ユーザは「反町」とだけ発話すればよい。
【0025】
認識結果訂正部154は、再入力要求部153の要求に応じて再入力された音声情報に基づいて音声認識を訂正させる命令を音声認識手段13に送出する。この命令に従い、音声認識手段13は、再入力された音声情報に基づいて再度音声認識を行い、その結果を外部装置(ナビゲーション装置400)へ送出する。ナビゲーション装置400は、出力装置500を介して再入力された情報に基づく経路情報を再度ユーザに提示する。
【0026】
以上の構成を有する音声認識装置100の動作を図に基づいて説明する。
図2は、本実施形態に係る音声認識装置100の基本制御手順を説明するためのフローチャート図である。
【0027】
まず、ユーザは発話により情報入力を行うため、発話スイッチ(SW)を押す(101)。ユーザは入力しようとする音声情報を発話する(102)。受付手段12は入力された音声情報を受け付ける(103)。音声情報の受け付けが終了すると(104)、音声認識手段13は音声認識を行う(105)。認識結果はナビゲーション装置400に送出され、ナビゲーション装置400は、認識結果に基づく案内情報を出力手段500(ディスプレイ、スピーカ)を介してユーザに提示する。
【0028】
案内情報を提示されたユーザは、認識結果が正確であったか否かを確認する(106)。認識結果が誤っており、その訂正が必要である場合には、ユーザは訂正命令を入力する。他方、ユーザからの訂正命令が所定時間の間になければ(107)、認識結果を確定し(108)、確定した認識結果は、この認識結果に基づく情報(経路案内、地図情報)として出力装置500を介して出力される(109)。
【0029】
なお、本実施形態では、発話スイッチのオンにより音声情報の受付処理を開始し、発話終了のスイッチのオンにより音声情報の受付処理を終了するようにしたが、以下のようにしてもよい。すなわち、周囲の騒音量を検出する騒音量検出手段11を設け、周囲の音の環境をモニタし、収音した音のデジタルパワーが所定値以上となったときユーザの発話開始を検出して音声情報の受け付けを開始し、所定値以下となったときユーザの発話終了を検出して音声情報の受け付けを終了するようにしてもよい。
【0030】
ステップ107において、ユーザから訂正命令の入力がされた場合、認識結果訂正手段15が起動する(107)。誤認結果訂正手段15は、受け付けた音声情報のうち誤認された単語が属する階層を推測する(110)。この推測処理を、図3に示した。図3のフローチャートは、図2のステップ110のサブルーチンである。
【0031】
説明の便宜のため、状況を仮定してこの推測処理を説明する。ユーザは、目的地となる住所「神奈川県/横浜市/神奈川区/反町」をナビゲーション装置400に向けて発話した。しかし、音声認識手段13は、これを「神奈川県/横浜市/神奈川区/立町」と誤って認識し、その認識結果に基づいてナビゲーション装置400は「立町」を目的地とする経路案内を行った。これに対してユーザは訂正命令を入力し、訂正命令受付部151は、その訂正命令を受け付けた。
【0032】
誤認単語推測部152は、以下の2つの手法を用いて誤って認識した単語を推測する。
【0033】
[第1の処理手法] 誤認単語推測部152は、言語情報取得手段14を介して言語情報に含まれる「階層別標準パターン数」を取得する。この階層別標準パターン数は、図4に示すような「任意の階層に含まれる標準パターンの数」に関する情報である。たとえば、住所に関し、「県」の階層に属する標準パターン数(a)は47個である。神奈川県の下層となる「市」の階層に属する標準パターン数(b)は37個である。横浜市の下層となる「区」の階層に属する標準パターン数(c)は18個である。さらに神奈川区の下層となる「町」等の階層に属する標準パターン数(d)は79個である。
【0034】
誤認単語推測部152は、各階層ごとに登録された単語の標準パターンが最も多い階層を判断し(210)、標準パターンが最も多い階層を誤認された単語が属する階層であると推測する(211)。本例では最も下層の「町」の階層に属する標準パターン数(d)が79個と最も多く、誤認単語推測部152は第4階層(「町」の階層)において誤認識が発生したと推測する。
【0035】
この推測結果に基づいて、再入力要求部153は、推測した第4階層から下層の(「町」からの)入力をユーザに求める(212)。具体的には、「神奈川県/横浜市/神奈川区のどこですか?」といった質問を、スピーカ500を介して行い、「町」の階層からの再入力をユーザに促す。
【0036】
[第2の処理手法] 誤認単語推測部152は、言語情報取得手段14から、少なくとも、「類似単語情報」を取得する。この類似単語情報は、図4に示すように、音声上相互に類似すると判断された単語同士を予め関連づけた情報である。たとえば、同じ階層に属する「立町」と「反町」は音声上類似していると判断され、互いに関連づけられている。
【0037】
誤認単語推測部152は、他の単語の標準パターンと関連づけられている単語が受け付けた音声情報に含まれているか否かを判断し(220)、含まれている場合にはその単語の音声情報が属する階層を、誤認された単語の音声情報が属する階層であると推測する(221)。本例では認識した「立町」に他の単語「反町」が関連づけられているため、誤認単語推測部152は、「立町」の属する第4階層において誤認識が発生したと推測する。
【0038】
この推測結果に基づいて、再入力要求部153は、推測した階層から下層の(「町」から下層の)入力をユーザに求める(222)。具体的には、「神奈川県/横浜市/神奈川区のどこですか?」といった質問を、スピーカ500を介して行い、「立町」の属する階層からの再入力をユーザに促す。
【0039】
ここで、図2のステップ112に戻る。受付手段12は、再入力要求部153の求めに応じて再度入力されたユーザの音声情報を受け付ける(112)。認識結果訂正部154は、音声認識手段13へ向けて、再度入力された音声情報に基づいて認識処理を再度行う旨の命令を送出する(113)。このとき認識結果訂正部154は、入力された音声情報のすべてを取消させることはせず、元の(誤認された)音声情報だけを、再入力された音声情報に更新させる。音声認識手段13は、この命令に従い、再度認識処理を行い、図2のステップ105以降の処理を繰り返す。
【0040】
この第1実施形態によれば、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。ユーザは音声情報を最初から全部入力(発話)する必要がなく、認識結果の訂正を容易に行うことができる。
【0041】
<第2実施形態>
第2実施形態は、基本的な構成および動作については第1実施形態と共通する。ここでは異なる部分を中心に説明する。
【0042】
本実施形態は、訂正履歴に基づいて誤認された単語の音声情報が属する階層を推測する。すなわち、誤認識の経験から「誤認されやすい単語」を学習し、その学習に基づいて推測処理を行う。
【0043】
図1に示すように、本実施形態の認識結果訂正手段15は、認識結果の訂正履歴を取得するとともに、取得した訂正履歴に基づいて誤認されやすい単語を識別する誤認容易単語識別部155をさらに有している。
【0044】
誤認単語推測部152は、誤認容易単語識別部15が識別した「誤認容易な単語」が受け付けられた音声情報に含まれている場合には、その単語の音声情報が属する階層を「誤認された単語の音声情報が属する階層」であると推測する。
【0045】
図5に、本実施形態の処理手順を示した。基本的には図2に示す処理と共通するためここでは異なる処理について説明する。訂正履歴取得機能は、訂正命令を受けた(107)認識結果および訂正結果の履歴を取得し、少なくとも一時的に記憶する(201)。
【0046】
誤認容易単語識別部155は、いわゆる学習機能を有し、訂正履歴に基づいて誤認されやすい単語を識別する。この識別は、訂正前の認識結果と訂正後の認識結果を比較して行う。たとえば、ユーザが「神奈川県/横浜市/神奈川区/反町」と発話したとする。音声認識手段13の第1回目は「神奈川県/横浜市/金沢区/樽町」と認識し、認識結果訂正部154からの命令による第2回目は「神奈川県/横浜市/金沢区/樽町」と認識し、第3回目に「神奈川県/横浜市/神奈川区/反町」と正確に認識したとする。
【0047】
誤認容易単語識別部153は、第1回目乃至第3回目の認識結果を比較する。比較の結果「金沢区」と「神奈川区」とが誤認されやすい単語であることを認識する。そして、この2つの単語を「誤認されやすい単語」として記憶する(202)。
【0048】
誤認単語推測部152は、誤認音声情報の推測処理(110)において、誤認容易単語識別部155の識別した「誤認されやすい単語」が、受け付けた音声情報に含まれているか否かを判断する(230)。そして、「誤認されやすい単語の音声情報が属する階層」を「誤認された単語の音声情報が属する階層」であると推測する(231)。再入力要求部153は、推測された階層から下層の音声情報の入力をユーザに求める(232)。なお、「誤認されやすい単語」が音声情報に含まれていない場合には他の手法を用いて誤認された単語を推測する。
【0049】
本実施形態によれば、第1実施形態と同様に、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。言い換えると、ユーザは音声情報を最初から全部入力(発話)する必要がなく、認識結果の訂正を容易に行うことができる。
【0050】
また、発話の癖といった個人的な原因によって発生する誤認識についても、誤認した階層を推測することができるため、音声認識訂正時のユーザの負担を軽減することができる。
【0051】
<第3実施形態>
第3実施形態は、基本的な構成および動作については第1実施形態と共通する。ここでは異なる部分を中心に説明する。
【0052】
本実施形態は、周囲の騒音量が大きいために誤認された単語の音声情報が属する階層を推測する。図1に示すように、本実施形態は、音声情報の入力時における周囲の騒音量を所定のタイミングで検出する騒音量検出手段11をさらに備えている。
【0053】
また、前記騒音量検出手段はたとえば指向性マイクを保持しており、使用者の声が入らず、騒音のみが入るように配置されている。
【0054】
誤認単語推測部152は、騒音量検出手段11が検出した周囲の騒音量を参照して騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が音声情報に含まれている場合には、その単語の音声情報が属する階層を誤認された単語の音声情報が属する階層であると推測する。騒音量が大きい環境下で受け付けた音声を正しく認識することは困難であり、誤った認識をしてしまう可能性が高いからである。
【0055】
図6に、本実施形態の処理手順を示した。基本的には図2に示す処理と共通するためここでは異なる処理について説明する。騒音量検出手段11は、周囲の騒音量を所定のタイミングで検出し、そのタイミングと騒音量とを関連づける。騒音量の大小を規定する閾値は任意に設定できるが、本実施形態ではユーザの発話が開始される以前の平均的な騒音量を閾値とした。本実施形態における騒音検出は、ユーザの発話開始情報の入力に呼応して開始し(121)、音声情報受付終了とともに終了する(122)。もちろん、発話開始又は終了を検知するために、発話開始前及び発話終了後においても騒音量の検出を行っても良い。検出された騒音量は、時間を基準として、受け付けた音声情報と対応づけて記憶する(123)。本実施形態では、少なくとも、検出された騒音量が所定の値を超えたタイミングにおいて入力された単語の音声情報を記憶する。
【0056】
誤認単語推測部152は、誤認音声情報の推測処理(110)において、騒音量検出手段11が記憶した、騒音量が所定値を超えたタイミングにおいて入力された単語が、受け付けた音声情報に含まれているか否かを判断する(330)。そして、「所定値以上の騒音量があるときに入力された単語の音声情報が属する階層」を「誤認された単語の音声情報が属する階層」であると推測する(331)。再入力要求部153は、推測された階層から下層の音声情報の入力をユーザに求める(332)。なお、所定値以上の騒音量が検出されたタイミングにおいて入力された単語が音声情報に含まれていない場合には他の手法を用いて誤認された単語を推測する。
【0057】
本実施形態によれば、第1実施形態と同様に、音声認識装置を利用するユーザの認識結果の訂正時における負担を軽減することができる。すなわち、階層構造の音声情報の一部において認識結果が誤認された場合に、ユーザは誤認されたと推測された単語が属する階層から下層の音声情報を入力すればよい。言い換えると、ユーザは音声情報を最初から全部入力(発話)する必要がなく、認識結果の訂正を容易に行うことができる。
【0058】
騒音量が大きい場合、通常(騒音がなければ)は誤認識しないような単語であっても誤認識する可能性が大きくなる。本実施形態によれば、周囲の騒音という環境の変化によって誤認された単語、階層を推測することができる。これにより、ユーザは、推測された階層から下層の音声情報を再入力すればよいため、誤認識結果の訂正時におけるユーザの再入力の負担を軽減することができる。
【0059】
第1実施形態〜第3実施形態において説明した、「音声情報のうち誤認された単語が属する階層を推測する」手法は、それぞれ単独で用いることもできるし、1又は2以上の手法を組み合わせて用いてもよい。(1)階層に属する単語数や、単語の称呼などの音声情報に由来する誤認識に対応する第1実施形態、(2)発話の癖などの個人的な要因に由来する誤認識に対応する第2実施形態、(3)騒音などの環境変化に由来する誤認識に対応する第3実施形態、をそれぞれ任意に組み合わせることにより、誤認識された単語が属する階層の推測処理の精度が高まり、実際に誤認識された階層からの再入力をユーザに求めることができ、ユーザの再入力の負担を軽減することができる。
【0060】
ちなみに、複数の手法を組み合わせる場合において、ある手法による推測結果と他の手法の推測結果とが異なる場合には、より上層の階層が「誤認された単語が属する階層」と推測することが好ましい。推測結果のいずれが正しいかをさらに判断することも可能であるが、誤認の可能性のある階層のすべてについて再度入力を求めることにより、より正確な認識結果を導くことができる。
【0061】
第1〜第3の実施形態では音声認識装置100について説明したが、本発明の音声認識装置用プログラムにより動作するコンピュータは、音声認識装置100と同様に作用し、同様の効果を奏する。
【0062】
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
【図面の簡単な説明】
【図1】本実施形態のブロック図である。
ト図である。
【図2】本実施形態の基本的な制御手順を示すフローチャート図である。
【図3】第1実施形態の制御手順を示すフローチャート図である。
【図4】言語情報の一例を示す図である。
【図5】第2実施形態の制御手順を示すフローチャート図である。
【図6】第3実施形態の制御手順を示すフローチャート図である。
【符号の説明】
100…音声認識装置
11…騒音量検出手段
12…受付手段
13…音声認識手段
14…言語情報取得手段
15…認識結果訂正手段
200…入力装置
21…音声入力手段
22…音声入力指令手段
33…訂正命令手段
300…記憶装置
400…ナビゲーション装置
500…出力装置

Claims (8)

  1. ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
    前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
    前記認識結果訂正手段は、前記登録された単語の標準パターンの数が最も多い階層を前記誤認された単語が属する階層であると推測する音声認識装置。
  2. ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
    前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
    前記単語の標準パターンは、前記単語と互いに誤認識しやすいと判断された他の単語の標準パターンと予め関連づけられ、
    前記認識結果訂正手段は、前記他の単語の標準パターンと関連づけられている単語が前記受け付けられた音声情報に含まれている場合には、当該単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識装置。
  3. ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
    前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
    前記認識結果訂正手段は、前記認識結果の訂正履歴を取得するとともに、当該訂正履歴に基づいて誤認されやすい単語を識別し、当該誤認されやすい単語が前記音声情報に含まれている場合、当該誤認されやすい単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識装置。
  4. ユーザから複数の単語を含む音声情報の入力を受け付ける受付手段と、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識する音声認識手段と、
    前記音声認識手段の認識結果を訂正すべき旨の訂正命令が前記ユーザから入力された場合、前記受け付けられた音声情報のうち誤認された単語が属する階層を推測し、当該推測された階層から下層の音声情報の再入力を前記ユーザに求める認識結果訂正手段と、を有し、
    前記音声情報の入力時における周囲の騒音量を所定のタイミングで検出する騒音量検出手段を備え、
    前記認識結果訂正手段は、前記検出された騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が属する階層を前記誤認された単語が属する階層であると推測する音声認識装置
  5. コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
    前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
    前記誤認された単語が属する階層を推測するステップは、前記登録された単語の標準パターンの数が最も多い階層を、前記誤認された単語が属する階層であると推測する音声認識用プログラム。
  6. コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
    前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
    前記単語の標準パターンは、前記単語と互いに誤認識しやすいと判断された他の単語の標準パターンと予め関連づけられ、
    前記誤認された単語が属する階層を推測するステップは、前記他の単語の標準パターンと関連づけられている単語が前記受け付けられた音声情報に含まれている場合には、当該単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識用プログラム。
  7. コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
    前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
    前記誤認された単語が属する階層を推測するステップは、前記認識結果の訂正履歴を取得するとともに、当該訂正履歴に基づいて誤認されやすい単語を識別し、当該誤認されやすい単語が前記音声情報に含まれている場合、当該誤認されやすい単語の音声情報が属する階層を前記誤認された単語の音声情報が属する階層であると推測する音声認識用プログラム
  8. コンピュータに、ユーザから複数の単語を含む音声情報の入力を受け付けるステップと、
    前記受け付けられた音声情報の階層を認識し、この認識された各階層に属する単語の音声情報と予め登録された前記階層を構成する単語の標準パターンとを対比して前記音声情報の内容を認識するステップと、
    前記認識の結果を訂正すべき旨の訂正命令を前記ユーザから受け付けた場合に、前記入力された音声情報のうち誤認された単語が属する階層を推測するステップと、この推測された階層から下層の音声情報の再入力を前記ユーザに求めるステップと、を実行させるための音声認識用プログラムであって、
    前記音声情報の入力時における周囲の騒音量を所定のタイミングで検出させるステップをさらに含み、
    前記誤認された単語が属する階層を推測するステップは、前記検出された騒音量が所定の値よりも大きい値となったタイミングにおいて入力された単語が属する階層を前記誤認された単語が属する階層であると推測する音声認識用プログラム。
JP2003030387A 2003-02-07 2003-02-07 音声認識装置 Expired - Fee Related JP4281369B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003030387A JP4281369B2 (ja) 2003-02-07 2003-02-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003030387A JP4281369B2 (ja) 2003-02-07 2003-02-07 音声認識装置

Publications (2)

Publication Number Publication Date
JP2004240244A JP2004240244A (ja) 2004-08-26
JP4281369B2 true JP4281369B2 (ja) 2009-06-17

Family

ID=32957287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003030387A Expired - Fee Related JP4281369B2 (ja) 2003-02-07 2003-02-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP4281369B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
JP5199391B2 (ja) 2008-11-25 2013-05-15 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム
US9188456B2 (en) 2011-04-25 2015-11-17 Honda Motor Co., Ltd. System and method of fixing mistakes by going back in an electronic device
JP5851740B2 (ja) * 2011-07-05 2016-02-03 クラリオン株式会社 ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラム

Also Published As

Publication number Publication date
JP2004240244A (ja) 2004-08-26

Similar Documents

Publication Publication Date Title
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US7826945B2 (en) Automobile speech-recognition interface
JP4433704B2 (ja) 音声認識装置および音声認識用プログラム
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP1936606A1 (en) Multi-stage speech recognition
US20020013706A1 (en) Key-subword spotting for speech recognition and understanding
JP2002091466A (ja) 音声認識装置
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP5583301B1 (ja) 音声認識装置
WO2002021510A1 (en) Speech recognition method with a replace command
EP1734509A1 (en) Method and system for speech recognition
JP2008009153A (ja) 音声対話システム
JP2009025538A (ja) 音声対話装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4281369B2 (ja) 音声認識装置
JP3876703B2 (ja) 音声認識のための話者学習装置及び方法
JP4293340B2 (ja) 対話理解装置
JP4440502B2 (ja) 話者認証システム及び方法
JP3849283B2 (ja) 音声認識装置
JP4178931B2 (ja) 音声認識装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP3700533B2 (ja) 音声認識装置及び処理システム
US10832675B2 (en) Speech recognition system with interactive spelling function
JP2004046106A (ja) 音声認識装置及び音声認識プログラム
JP2001175276A (ja) 音声認識装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080619

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees