JP2009031328A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2009031328A
JP2009031328A JP2007192048A JP2007192048A JP2009031328A JP 2009031328 A JP2009031328 A JP 2009031328A JP 2007192048 A JP2007192048 A JP 2007192048A JP 2007192048 A JP2007192048 A JP 2007192048A JP 2009031328 A JP2009031328 A JP 2009031328A
Authority
JP
Japan
Prior art keywords
word data
word
recognition
corrected
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007192048A
Other languages
English (en)
Inventor
Takuya Hirai
卓哉 平井
Atsushi Yamashita
敦士 山下
Tomohiro Terada
智裕 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2007192048A priority Critical patent/JP2009031328A/ja
Publication of JP2009031328A publication Critical patent/JP2009031328A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音響的に似通った認識対象単語において、誤認識の誘発を防止できる音声認識装置を提供する。
【解決手段】音声認識装置であって、単語データを記憶する記憶部と、記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識部と、認識部が認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定部と、修正判定部が修正単語データを出力すると判定した場合、認識部が認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正部とを備える。
【選択図】図1

Description

本発明は、音声認識装置、音声認識方法、及び音声認識プログラムに関し、より特定的には、ユーザが発話した単語を機器側が認識しにくかった場合に、ユーザに認識候補を報知し、再入力するときに誤認識を回避する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
従来の音声認識装置は、ユーザの発声した単語が、その他の単語と音響的に似ている場合、誤認識を誘発しやすかった。そこで、カテゴリで序々に認識対象単語の絞り込みを行い、認識する上で照合に用いる認識対象単語数を減らすことで、誤認識を低減する技術が提案されている(例えば、特許文献1参照)。
特開昭59−219788号公報
しかしながら、従来の技術では、たとえ、カテゴリで認識対象単語の絞り込みを行い、認識対象単語数を減らしたとしても、音響的に類似した音素数やモーラ数が少ない単語になると、それらを区別するための情報が少ないため、誤認識が起こってしまう。例えば、カテゴリが数字である認識対象単語まで絞り込みできたとしても、同じカテゴリ内で、「1(いち)」と「7(しち)」のように、非常に音響的に似通った認識対象単語の場合、誤認識を回避することができず、次回以降の認識においても、このような状況下では、誤認識を誘発してしまう。
そこで、本発明は、上記問題に鑑みてなされた。すなわち、音響的に似通った認識対象単語において、誤認識の誘発を防止できる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。
本発明の第1の局面は、音声認識装置に向けられている。本発明は、単語データを記憶する記憶部と、記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識部と、認識部が認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定部と、修正判定部が修正単語データを出力すると判定した場合、認識部が認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正部とを備える。
この構成により、時間的に短い単語をユーザに発話された場合に、機器側が認識しやすい時間的に長い単語をユーザに提示することができ、次回から、時間的に長い単語の発話を誘導できるため、音響的に似通った単語において、誤認識の誘発を防止できる音声認識装置を提供することができる。
また、単語データ修正部は、認識部が認識した単語データの表す単語を言い換えた同義語、狭義語、広義語、及び/又は関連語を表す修正単語データを出力することが好ましい。
この構成により、直感的にユーザが発話した単語がどの単語であるのかわかり易い。
また、単語データ修正部は、認識部が認識した単語データを少なくとも含む複数の修正単語データを出力することが好ましい。
この構成により、次回から同様の単語を発話する際に、どのように発話したらよいのか覚えやすく、発話もし易い。
また、単語データ修正部は、認識部が認識した単語データが、記憶部に記憶された単語データに後方一致した場合に、後方一致した記憶部内の単語データを修正単語データとして出力することが好ましい。
この構成により、機器側が音声を取り込むタイミングと異なるタイミングでユーザが発話した場合、発話した単語の一部(後方部分)の一致不一致を参照することで、発話を意図した本来の単語を出力することができる。
また、単語データ修正部は、認識部が認識した単語データが、記憶部に記憶された単語データに前方一致した場合に、前方一致した記憶部内の単語データを修正単語データとして出力することが好ましい。
この構成により、機器側が音声を取り込むタイミングと異なるタイミングでユーザが発話した場合、発話した単語の一部(前方部分)の一致不一致を参照することで、発話を意図した本来の単語を出力することができる。
また、単語データ修正部は、修正単語データを出力すると共に、当該修正単語データの属性情報を出力することが好ましい。
この構成により、出力された理由が把握しやすくなり、所望する認識結果を得易い。
本発明の第2の局面は、音声認識方法に向けられている。本発明は、単語データが記憶された記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識ステップと、認識ステップで認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定ステップと、修正判定ステップで修正単語データを出力すると判定した場合、認識ステップで認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正ステップとを備える。
この構成により、時間的に短い単語をユーザに発話された場合に、機器側が認識しやすい時間的に長い単語をユーザに提示することができ、次回から、時間的に長い単語の発話を誘導できるため、音響的に似通った単語において、誤認識の誘発を防止できる音声認識方法を提供することができる。
本発明の第3の局面は、音声認識装置のコンピュータで実行される音声認識プログラムに向けられている。本発明は、コンピュータに、単語データが記憶された記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識ステップと、認識ステップで認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定ステップと、修正判定ステップで修正単語データを出力すると判定した場合、前記認識ステップで認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正ステップとを実行させる。
この構成により、時間的に短い単語をユーザに発話された場合に、機器側が認識しやすい時間的に長い単語をユーザに提示することができ、次回から、時間的に長い単語の発話を誘導できるため、音響的に似通った単語において、誤認識の誘発を防止できる音声認識プログラムを提供することができる。
以上説明したように、本発明の各局面によれば、音響的に似通った認識対象単語において、誤認識の誘発を防止できる音声認識装置、音声認識方法、及び音声認識プログラムを提供することができる。
以下、本発明の実施の形態の音声認識装置について、図面を用いて説明する。
図1に本発明の音声認識装置のブロック図を示す。図1において、まず音声入力部100にて、ユーザが発話した音声を音声データとして取り込む。このような手段としては、マイクロフォンなどが一般的である。そして、取り込まれた音声データは音声認識部200にて、単語格納部300に格納されている単語と確率統計処理に基づいた比較を行い、単語格納部300に格納されている単語の中から、確からしい単語を1つ、または複数抽出する。このような処理として、隠れマルコフモデル(HMM)などが一般的であり、本実施の形態においてもこの方式を利用すればよい。
次に音声認識部200は、抽出した単語と、ユーザが発話した時間を認識結果判定部400に通知する。このとき、ユーザが発話した時間とは、認識処理時に使用した音声と認識した信号の入力時間のことを指している。これらの入力を受けて、認識結果判定部400は図2のような処理を行う。
まず、ステップS200にて、ユーザの発話した時間が閾値を超えていたかどうかを判定する。この閾値は、音声データとして短いと考えられる値の上限を設定すればよい。例えば、2モーラの単語である「位置(いち)」という単語は、音声データとしては情報量が少なく、誤認識をしてしまう可能性が非常に高い。そこで、1モーラの発話時間長が平均133msという実験的に求めた値を元に、本実施例では、ステップS200では、入力された時間の閾値を266ms(2モーラ分)として分岐判定を行う。このとき、閾値以上であった場合は、ステップS201に移行し、“認識結果を通知する”というフラグを立てる。また、閾値未満であった場合は、ステップS202に移行し、“認識結果の修正候補を出力する”というフラグを立てる。
ここで、ユーザが「位置(いち)」と「情報(じょうほう)」という単語を連続で発話した場合を例として、修正候補作成部600と表示内容作成部700の詳細な説明をする。
まず、入力された音声データが認識結果判定部400にて、音声データの時間的長さの判定をされる。この際に、「位置」という単語は、2モーラ分の長さであり、音声データの時間的長さも250ms程度が検出されたとすると、このときに発話された単語に関しては、音声認識部200で認識された確からしい単語を全て“認識結果の修正候補を出力する”というフラグを立てる。また、「情報」については、正しく認識された場合、閾値以上であるため、“認識結果を通知する”というフラグを立てる。
次に、これらの単語と上記フラグを入力された修正候補作成部600は、“認識結果の修正候補を出力する”とフラグが立てられた単語の認識結果を参照する。この認識結果が、確からしい順番から「位置(いち)」「1(いち)」「道(みち)」「右(みぎ)」という単語だったとする。このときに、修正候補作成部600は、図4のテーブルT400を参照し、図5の処理を行う。
テーブルT400は、時間的に短い単語を記載している単語列R400と、短い単語を時間的に長い単語で言い換えた単語を記載している言い換え語列R401から構成している。
修正候補作成部600は、まず、認識結果と同じ文字列を単語列R400から抽出する(ステップS500)。今回の場合、「位置(いち)」という単語を最初に抽出する。次にステップS501にて、抽出した単語の言い換え語を言い換え語列R401から抽出し、認識単語と共に一次的に保存する。今回の場合、「位置(いち))」と「ロケーション(ろけーしょん)」が該当する。そして、これらのステップ(ステップS500とステップS501)が全ての認識結果(今回は「1(いち)」「道(みち)」「右(みぎ)」)に関して完了したら(ステップS502)、ステップS503に移行し、一次的に保存した単語セットを表示内容作成部700に通知して終了する。
この通知を受けた表示内容作成部700は、認識結果判定部400にて“認識結果を通知する”単語に関しては、そのまま表示部500に文字列を通知し、“認識結果の修正候補を出力する”というフラグの単語に関しては、通知された単語のセットを組み合わせて表示するGUIを作成して表示部500に通知する。
このときの例を、図6に示す。この図は、「位置(いち)」「情報(じょうほう)」とユーザが発話した際に、「位置」が音声データとして時間的に短い単語と判定した場合の表示例である。ディスプレイD600は、認識結果の単語を表示する領域(D601〜D603)と通知された単語セットを表示する領域D604とで構成する。
このような表示構成の場合、「位置(いち)」という単語は時間的に短い単語として判定されたため、単語の表示領域D601には、認識結果をそのまま表示せず「???」で表示してある。なお、このときの表示方法については、空欄でもよいし、何か特定の文字列(例えば、「認識できませんでした」など)を表示しても良い。そして、吹き出しを用いて修正候補となる類似単語のセットを領域D604に表示する。このように表示することで、次に発話する際には、時間的に長い単語を発話することを促すことができ、時間的に短い単語を認識するときよりも、高い認識率を確保することができる。また、図7の用に領域D604の中に、「次からは、この例のように長い単語を発話して下さい。」等と記載することにより、より教示の効果を強めることができる。
また、別の例として、表示する言い換え語に認識候補単語を含む場合が考えられる。このときは、修正候補作成部600は、図8に記載のテーブルT800を参照する。このテーブルT800は、図4のテーブルT400と比べ、言い換え語の箇所が変更されている。言い換え語列R801には、時間的に短い単語が記載されている単語列R800の単語を含む文字列が記載されている。この文字列に従って図5の処理を同様に実施すると、図9の様な表示をユーザに提示することになる。このようなわざわざ文字数が多く、かつ発話した単語が含まれる時間的に長い単語を表示されることによって、ユーザは時間や、文字数が少ない単語が、機器側にとって認識しにくいことが直感的に分かり、かつ「○○の□□」などの一定の構文を用いることで、文字数の多い単語も覚えやすく、多くの例文も用意できる。
次に、発話のタイミングを間違えたことにより、時間的に短い単語が音声データとして入力されてしまったときの例について説明する。
例えば、ユーザが「経由地(けいゆち)」と発話したのにも関わらず、ユーザの発話したタイミングと、機器側の音声を取り込むタイミングが合わなかったことによって、単語の一部のみしか音声データとして入力できなかったとする。なお、このタイミングが合わないときとは、機器側が音声認識を開始するトリガー(一般的には、ボタン押下が主流)をユーザがセットし、その後、ユーザが発話するという一連の開始操作を行ったときに、トリガーをセットする前にユーザが単語の一部をすでに発話した時などのことを指す。
このような場合、「経由地(けいゆち)」という単語のうち「(ゆち)」という語尾部分しか音声データとして取り込まれなかったとする。このとき、認識結果判定部400は、時間的に短い音声データが入力されたため、“認識結果をそのまま通知しない”というフラグを立てる。そして、このフラグを受け取った修正候補作成部600は、図10に記載のテーブルT1000を参照する。このテーブルT1000は、単語の文字列の一番後ろと、後ろから二番目の母音の組み合わせを、それぞれ列R1000と列R1001に記載しており、後方一致単語として、単語格納部300に格納されている単語が列R1002に関連づけて記載している。例えば、今回の例の場合は、「(ゆち)」という語尾部分しか音声データとして取り込まれなかったとしているため、単語後方部の母音としては、「u(う)」+「i(い)」になる。この「u(う)」と「i(い)」が単語の後方の母音として構成される単語を単語格納部300に格納されている単語から抽出すると、「経由地(けいゆち)」「登録地(とうろくち)」「表示(ひょうじ)」などが存在する。このような母音を元に単語を関連づけることで、音響的に近い単語同士を関連づけることができる。
そして、修正候補作成部600は、このように抽出された後方一致単語を表示内容作成部700に通知し、表示内容作成部700は、通知された単語を図11の様なGUIを作成し表示部500に通知する。このように表示することによって、ユーザは正しい発話タイミングで発話しなかった場合でも、所望する認識結果になることが考えられる。また、図11の領域D604に表示しているように「語尾の母音が「う」と「い」の単語を表示しています」のような表示をすることで、ユーザが発話した単語の一部しか認識されなかったことがわかり、次から入力するときには正しい入力タイミングで発話することが期待できる。また、候補が表示されている理由も分かりやすく、理解することができる。
なお、上記のような後方一致の音声認識を実現するためには、単語格納部300にあらかじめ図10に記載している母音の組み合わせを(列R1000と列R1001)持つことなどが考えられる。
また、時間的に短い単語が音声データとして入力されてしまったときの例として、単語が前方一致した場合について述べる。例えば、ユーザが「道案内」という単語を発話しようとしたときに、ユーザが「道」と「案内」の間を区切って発話してしまい、機器側が「道」という音声データのみを取り込み認識処理を終了した場合について述べる。このとき、機器は音声データを認識した結果として「道」という単語のみを認識したとする。
まず、認識結果判定部400は、時間的に短い音声データが入力されたため、“認識結果をそのまま通知しない”というフラグを立て、修正候補作成部600に通知する。このとき、修正候補作成部600は、図12のテーブルT1200を参照し、単語列R1200を参照する。この単語列R1200に認識された単語が記載されている場合は、該当する単語を前方一致単語列R1201から抽出する。この前方一致単語列R1201に記載されている単語は、認識した単語に更に文字列をつなぐことで、一つの意味を表す単語である。この前方一致単語列R1201に記載されている単語をユーザに提示することで、前方しか一致しなかった場合でも所望する認識結果を得ることができる。なお、後方一致の場合と同様に、母音から単語を推定するようにしてもよい。
次に、入力された単語が時間的に短いと判定された時、認識結果以外の情報と組み合わせて候補を出力するという例を、入力した単語から関連する情報を検索するという情報検索というアプリケーションを例として説明する。この情報検索とは一般的には、入力単語に基づいて単語に関連する1つ、または複数の情報をユーザに提示することを指している。なお、今回もユーザは「位置(いち)」と「情報(じょうほう)」を発話したとして、各処理を説明する。
音声入力部100から入力された音声データに従って、音声認識部200は単語格納部300の中の単語群から、確からしい単語を1つまたは複数抽出する。次に認識結果判定部400は、発話した時間に従って、認識結果を通知するか、修正候補を出力するかを判定し、各単語に対してフラグを立てる(図2の処理フロー参照)。今回の場合、「位置(いち)」については認識結果の修正候補を出力するように、「情報(じょうほう)」については、そのまま通知する旨のフラグを立てる。そして、修正候補作成部600に図13Bに記載の情報を通知し、図13Aの様な処理を行う。
図13Bに記載のテーブルT1300は、「位置(いち)」「情報(じょうほう)」と発話したときを例にしており、それぞれ、発話された順序と、認識した単語候補の順位とその文字列、そして認識した単語が時間的に短い単語であるかどうかのフラグ(“1”が短い単語、“0”が長い単語)を付属情報として持っている。
図13Aの処理では、まず、通知された単語のフラグを確認し、認識結果が通知されていない場合は、時間的に短い単語が検出されたため、ステップS1301に移行し、通知された単語の認識候補を出力して、検索用の単語として一時的に保存する(ステップS1302)。つまり、「位置(いち)」と発話した場合は、上記の処理を行い、検索用の単語として「位置(いち)」「1(いち)」「道(みち)」「右(みぎ)」という単語が一時的に保存される。次に、ステップS1305に移行し、他に認識した単語があるどうかを確認し、全ての単語について検索用の単語を保存する。今回の場合、「情報(じょうほう)」という単語を2番目に発話したため、処理がステップS1300に移行する。
そして、「情報(じょうほう)」という単語は、時間的に長い単語であるため、候補順位が1位の単語を出力し、検索用の単語として一時的に保存する(ステップS1303、ステップS1304)。この場合、検索用の単語として保存されるのは、「情報(じょうほう)」という単語のみである。発話した単語について全て検索用の単語を保存したら、保存している単語の中に、時間的に短い単語が含まれていたかをチェックする(ステップS1306)。このとき、もし長い単語のみであったら、保存した単語を使用して検索処理を行い、結果を表示内容作成部700に通知する(ステップS1311,ステップS1312)。
今回の例の場合は、時間的に短い単語が検索単語として含まれているため、処理をステップS1307に移行する。この処理から、保存した異なる発話順序の検索用単語同士で検索を行い(ステップS1307)、検索結果の一部を保存する(ステップS1308)。
そして、全ての単語同士の組み合わせが終了するまで、この処理を繰り返す。今回の例の場合は、2つの単語を発話しているため、まずはじめは、「位置(いち)」と「情報(じょうほう)」で、それぞれの検索用の単語を組み合わせて検索を実施し、このときの検索結果を保存する。そして次に「1(いち)」と「情報(じょうほう)」、次に「道(みち)」と「情報(じょうほう)」、次に「右(みぎ)」と「情報(じょうほう)」の組み合わせでそれぞれ検索し、各検索結果を保存する。
このように全ての単語について検索が終了したら、ステップS1210に処理を移行する。この処理では、一時的に保存した検索結果をマージして表示内容作成部700に通知する結果を選別する。この選別方法としては、本実施に形態では、各検索結果の上位1位のみをそれぞれ採用することとする。なお、その他にも、各検索結果の上位5位までとか、認識候補の順位によって通知する各検索結果の数を変更したりしてもよい。
次に表示内容作成部700は、通知された検索結果に基づいて、表示内容を作成する。図3は表示内容作成部700が作成した表示内容を、表示部500が表示した例である。領域D605には、それぞれ「位置」、「1」、「道」、「右」のそれぞれと「情報」を組み合わせて検索した結果の第1位候補を表示している。これにより、ユーザは短い単語を発話しても高い確率で検索を成功することができる。また、領域D606のように、領域D605に記載している番号と対応した番号と、認識単語候補を対応付けて表示することで、ユーザは領域D605に表示されている検索結果の理由が理解でき、短い単語を発話したときは、このような検索方法になることが理解しやすい。
本発明は、上述した実施の形態を実現するソフトウェアのプログラム(実施の形態では図に示すフロー図に対応したプログラム)が装置に供給され、その装置のコンピュータが、供給されたプログラムを読出して、実行することによっても達成させる場合を含む。したがって、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラム自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現させるための音声認識プログラムも含む。
このように、本発明によれば、音響的に似通った認識対象単語において、誤認識の誘発を防止できる音声認識装置、音声認識方法、及び音声認識プログラムを提供することができる。
上記実施の形態で説明した構成は、単に具体例を示すものであり、本願発明の技術的範囲を制限するものではない。本願の効果を奏する範囲において、任意の構成を採用することができる。
以上のように、本発明にかかる音声認識装置は、時間的に短い単語をユーザに発話された場合に、機器側が認識しやすい時間的に長い単語をユーザに提示することができ、次回から、時間的に長い単語の発話を誘導することができるという効果を有するため、ユーザが発話した単語を機器側が認識しにくかった場合に、ユーザに認識候補を報知し、再度発話することを促す音声認識装置等として有用である。
本発明の実施の形態に係る音声認識装置のブロック図 本発明の実施の形態に係る認識結果判定部の動作フロー図 本発明の実施の形態に係る表示部が表示する一例 本発明の実施の形態に係る修正候補作成部が参照するテーブル 本発明の実施の形態に係る修正候補作成部の動作フロー図 本発明の実施の形態に係る表示部が表示する一例 本発明の実施の形態に係る表示部が表示する一例 本発明の実施の形態に係る修正候補作成部が参照するテーブル 本発明の実施の形態に係る表示部が表示する一例 本発明の実施の形態に係る修正候補作成部が参照するテーブル 本発明の実施の形態に係る表示部が表示する一例 本発明の実施の形態に係る修正候補作成部が参照するテーブル 本発明の実施の形態に係る修正候補作成部の動作フロー図 本発明の実施の形態に係る修正候補作成部に通知される情報
符号の説明
100 音声入力部
200 音声認識部
300 単語格納部
400 認識結果判定部
500 表示部
600 修正候補作成部
700 表示内容作成部
T400 言い換え語対応テーブル
D600 ディスプレイ
D601 認識結果表示領域
D602 認識結果表示領域
D603 認識結果表示領域
D604 認識候補表示領域
D605 検索結果表示領域
D606 認識結果表示領域
T800 言い換え語対応テーブル
T1000 後方一致対応テーブル
T1200 認識結果の付属情報テーブル

Claims (8)

  1. 音声認識装置であって、
    単語データを記憶する記憶部と、
    前記記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識部と、
    前記認識部が認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定部と、
    前記修正判定部が修正単語データを出力すると判定した場合、前記認識部が認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正部とを備える、音声認識装置。
  2. 前記単語データ修正部は、前記認識部が認識した単語データの表す単語を言い換えた同義語、狭義語、広義語、及び/又は関連語を表す修正単語データを出力することを特徴とする、請求項1に記載の音声認識装置。
  3. 前記単語データ修正部は、前記認識部が認識した単語データを少なくとも含む複数の修正単語データを出力することを特徴とする、請求項1に記載の音声認識装置。
  4. 前記単語データ修正部は、前記認識部が認識した単語データが、前記記憶部に記憶された単語データに後方一致した場合に、後方一致した前記記憶部内の単語データを修正単語データとして出力することを特徴とする、請求項1に記載の音声認識装置。
  5. 前記単語データ修正部は、前記認識部が認識した単語データが、前記記憶部に記憶された単語データに前方一致した場合に、前方一致した前記記憶部内の単語データを修正単語データとして出力することを特徴とする、請求項1に記載の音声認識装置。
  6. 前記単語データ修正部は、修正単語データを出力すると共に、当該修正単語データの属性情報を出力することを特徴とする、請求項1〜5のいずれかに記載の音声認識装置。
  7. 音声認識方法であって、
    単語データが記憶された記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識ステップと、
    前記認識ステップで認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定ステップと、
    前記修正判定ステップで修正単語データを出力すると判定した場合、前記認識ステップで認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正ステップとを備える、音声認識方法。
  8. 音声認識装置のコンピュータで実行される音声認識プログラムであって、
    前記コンピュータに、
    単語データが記憶された記憶部を参照して、ユーザが発話した音声の表す単語データを認識する認識ステップと、
    前記認識ステップで認識した単語データの少なくともモーラ数、音素数、又は発話時間が所定値より小さいか否かを判定することによって、当該単語データを修正した修正単語データを出力するか否かを判定する修正判定ステップと、
    前記修正判定ステップで修正単語データを出力すると判定した場合、前記認識ステップで認識した単語データに、所定のモーラ数、音素数、又は発話時間のデータを付加して作成した修正単語データを出力する単語データ修正ステップとを実行させる、音声認識プログラム。
JP2007192048A 2007-07-24 2007-07-24 音声認識装置 Pending JP2009031328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007192048A JP2009031328A (ja) 2007-07-24 2007-07-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007192048A JP2009031328A (ja) 2007-07-24 2007-07-24 音声認識装置

Publications (1)

Publication Number Publication Date
JP2009031328A true JP2009031328A (ja) 2009-02-12

Family

ID=40401936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007192048A Pending JP2009031328A (ja) 2007-07-24 2007-07-24 音声認識装置

Country Status (1)

Country Link
JP (1) JP2009031328A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011085805A (ja) * 2009-10-16 2011-04-28 Doshisha 音声入力を用いた口腔診査記録システム及びプログラム
WO2016137071A1 (ko) * 2015-02-26 2016-09-01 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2018045123A (ja) * 2016-09-15 2018-03-22 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011085805A (ja) * 2009-10-16 2011-04-28 Doshisha 音声入力を用いた口腔診査記録システム及びプログラム
WO2016137071A1 (ko) * 2015-02-26 2016-09-01 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2018045123A (ja) * 2016-09-15 2018-03-22 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN107833578A (zh) * 2016-09-15 2018-03-23 东芝泰格有限公司 声音识别装置、声音识别方法及计算机可读存储介质
CN107833578B (zh) * 2016-09-15 2021-11-23 东芝泰格有限公司 声音识别装置、声音识别方法及计算机可读存储介质
US11468902B2 (en) 2016-09-15 2022-10-11 Toshiba Tec Kabushiki Kaisha Voice recognition device and voice recognition method
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7298330B2 (ja) 2019-06-24 2023-06-27 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US9953646B2 (en) Method and system for dynamic speech recognition and tracking of prewritten script
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
EP2880652B1 (en) Alignment of corresponding media content portions
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20170116994A1 (en) Voice-awaking method, electronic device and storage medium
JP4784120B2 (ja) 音声書き起こし支援装置及びその方法ならびにプログラム
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US8566091B2 (en) Speech recognition system
JP2009031328A (ja) 音声認識装置
EP3005152A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
KR20150103809A (ko) 유사발음 학습 방법 및 장치
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP2015099253A (ja) 音声認識装置、音声認識方法、音声認識プログラム
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP6527000B2 (ja) 発音誤り検出装置、方法およびプログラム
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム
KR20110119478A (ko) 음성 인식 장치 및 음성 인식 방법
JP5596869B2 (ja) 音声認識装置
JP2012255867A (ja) 音声認識装置
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
Al Hanai et al. Lexical modeling for Arabic ASR: a systematic approach.
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치