JP2009145548A - 音声検索装置 - Google Patents

音声検索装置 Download PDF

Info

Publication number
JP2009145548A
JP2009145548A JP2007321885A JP2007321885A JP2009145548A JP 2009145548 A JP2009145548 A JP 2009145548A JP 2007321885 A JP2007321885 A JP 2007321885A JP 2007321885 A JP2007321885 A JP 2007321885A JP 2009145548 A JP2009145548 A JP 2009145548A
Authority
JP
Japan
Prior art keywords
dictionary
search
notation
keyword
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007321885A
Other languages
English (en)
Other versions
JP5046902B2 (ja
Inventor
Toshiyuki Hanazawa
利行 花沢
Yohei Okato
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007321885A priority Critical patent/JP5046902B2/ja
Publication of JP2009145548A publication Critical patent/JP2009145548A/ja
Application granted granted Critical
Publication of JP5046902B2 publication Critical patent/JP5046902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】従来は、音声認識結果に言語尤度が含まれるので、音節数が少なく、かつ言語尤度が低い検索対象は、第1位の認識結果にされにくく認識率が低下する。また、あらゆる認識誤りを考慮して検索対象とするパターンを事前に作成することは困難で、かつ、事前作成バターン数が多いと演算量と記憶容量が増大する。
【解決手段】入力音声から、音響尤度と言語尤度の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力する音声認識手段と、検索対象を所定キーワード表記の要素として持つキーワード辞書と、前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段を備える。
【選択図】図1

Description

この発明は音声認識を用いて文書等の各種テキストを検索する装置に関するものである。
音声によって文書等の各種テキストを検索する技術は、ディクテーション型音声認識を用いて音声をテキストに変換し、テキスト上で全文検索を行う方法が一般的である。しかし、この方法では、演算量とメモリ量の制約から認識可能な語彙数が数千〜数万に限られる。
対策として特開2005-257954号公報においては、検索対象とする文書中で出現の頻度の高い単語は単語単位で、それ以外は音節単位で認識して認識結果をテキスト化し、テキスト上で照合・検索処理を行う。そして、認識結果には誤りが含まれていることが考えられるので、検索対象とするテキストデータも認識誤りを考慮したバターンを事前に作成しておくという技術を開示されている。
特開2005-257954号公報
前記従来技術では、認識結果には言語尤度が含まれているので、音節数が少なく、かつ言語尤度が低い検索対象は、認識結果の第1位として認識されにくいという課題があった。
またあらゆる認識誤りを考慮して検索対象とするパターンを事前に作成しておくことは困難であるという課題があった。
さらに、前記の事前に作成するバターンの数を多くすると演算量と記憶容量が増大するという課題があった。
この発明は上記課題を解決するためになされたもので、言語尤度が低い検索対象に対する検索率向上を目的とする。
また認識誤りを考慮したバターンを事前に作成することなく、認識誤りやユーザの言い間違えに対処することを目的とする。
また、少ない演算量と記憶容量で検索可能とすることを目的とする。
この発明に係る音声検索装置は、
入力音声から、音響尤度と言語尤度の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力する音声認識手段と、
検索対象を所定キーワード表記の要素として持つキーワード辞書と、
前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段を備える。
また、この発明に係る他の音声検索装置は、
入力音声から、音響尤度と言語尤度の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力する音声認識手段と、
検索対象の表記とID番号を要素として持つ検索対象辞書と、
検索対象を所定キーワード表記の要素として持つキーワード辞書と、
前記検索対象辞書中から所定条件に合致する表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
前記検索対象辞書中から異なる所定条件に合致する要素を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記の長さが所定の長さ以上である場合には前記曖昧検索辞書を参照して検索を行い、前記表記の長さが前記所定の長さ未満である場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備える。
この発明に係る音声検索装置によれば、
音声認識手段が、入力音声から音響尤度と言語尤度の加重和として認識スコアを算出し、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力し、Nベスト候補再構成手段が1個以上の表記を入力し、検索対象を所定キーワード表記の要素として持つキーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するので、言語尤度が低い検索対象に対する検索率向上画は枯れ、認識誤りを考慮したバターンを事前に作成することなく、認識誤りやユーザの言い間違えへの対処も可能となる。
また、この発明に係る他の音声検索装置によれば、
音声認識手段が、入力音声から音響尤度と言語尤度の加重和として認識スコアを算出し、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力し 検索対象の表記とID番号を要素として持つ検索対象辞書から、第2キーワード作成手段が所定条件に合致する表記を抽出して第2キーワード辞書とし、また曖昧検索辞書作成手段が異なる所定条件に合致する要素を抽出して曖昧検索辞書を作成し、
検索対象を所定キーワード表記の要素として持つキーワード辞書と、
前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記がさらに異なる所定条件を満たす場合には前記曖昧検索辞書を参照して検索を行い、前記表記がさらに異なる所定条件を満たさない場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えるので、
表記が異なる所定条件を満たす場合には、検索手段における検索処理は前記曖昧検索辞書を参照して行うので、さらに認識率が向上する。
また、第2キーワード辞書の表記は所定条件に合致するものだけなので検索対象辞書に格納されている表記よりも数が少なくでき、前記のN個の認識結果候補の表記が第2キーワード辞書に存在するか否かを調べる時間を短縮できる効果を有する。また第2キーワード辞書に存在する表記数が少なくなるので記憶領域を削減できる効果を有する。
実施の形態1.
本実施の形態では日本の全国の施設や観光スポットの名称(以後は簡単のため施設と観光スポットを総称して施設という)を、音声認識によって検索する場合を例にとり説明する。
幾つかの単語からなる施設や観光スポットの名称をテキスト文書とみなし、この施設や観光スポットの名称を音声認識によって検索する場合を例にとり説明する。なお施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施する利点は、ユーザが検索対象の施設名を正確に知らなくても一部分がマッチすれば検索可能になることである。
図1はこの発明による音声検索装置の実施の形態1の構成を示すブロック図である。同図において、1は音声の入力端子、2は入力音声、3は音声認識手段、4はNベスト候補再構成手段、5は検索手段、6はキーワード辞書メモリ、7は検索対象辞書メモリ、8は第2キーワード作成手段、9は第2キーワード辞書メモリ、10は曖昧検索辞書作成手段、11は曖昧検索辞書メモリ、12は言語モデルメモリ、13は音響モデルメモリ、14は検索結果である。
言語モデルメモリ12には例えば日本全国の施設の表記の音節列を学習データとして、例えば音節を単位としたトライグラムを学習して格納しておく。なお音節を単位とすることの利点は、学習データとする施設数に関わらず、音節の種類数は数百個以下におさまるので、認識時の演算量増加を抑えた言語モデルを作成できることである。
音響モデルメモリ13には音声の特徴をモデル化した音響モデルが格納されている。本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
検索対象辞書メモリ7には、検索対象とする施設名称のID番号と表記から構成される検索対象辞書が格納されている。検索対象辞書メモリ7の1例を図2に示す。
またキーワード辞書メモリ6には、正式な施設名称ではないが、施設のよく言われる通称や、チェーン店のブランド名などの表記が格納されている。キーワード辞書メモリ6の内容を図3に示す。
音声認識・検索を行う前に、第2キーワード作成手段8によって、第2キーワード辞書を作成し第2キーワード辞書メモリ9に格納しておく。また曖昧検索辞書作成手段10によって曖昧検索辞書を作成し、曖昧検索辞書メモリ11に格納しておく。
まず第2キーワード作成手段8による第2キーワード辞書の作成方法を説明する。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、全ての施設の表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。
次に曖昧検索辞書作成手段10による曖昧検索辞書の作成方法を説明する。曖昧検索辞書作成手段10は、検索対象辞書メモリ7に格納されている施設名称のID番号と表記を入力とし、表記の音節数がM文字以上のものを抽出する。本例ではM=5とする。
「えー」などの長音を含むものも1音節とみなすものとする。例えば検索対象メモリ7の内容が図2に示すものとすると、音節数が5以上のものはID番号が5,6,7,8,9,10などである。これらを抽出し、音節を索引語として例えば転置ファイルを作成し曖昧検索辞書として曖昧検索辞書メモリ11に保持しておく。作成した曖昧検索辞書メモリ11の例を図4に示す。
次に音声認識と検索の動作について説明する。
音声の入力端子1から音声2を入力すると音声認識手段3は言語モデルメモリ12に保存されている言語モデルと音響モデルメモリ13に保存されている音響モデルを用いて音声認識を行い、認識スコアの大きい順に上位N個の認識結果である音節列の表記、音響尤度、言語尤度、および前記認識スコアを出力する。なお前記認識スコアは前記音響尤度と言語尤度の和である。
また本実施の形態では前記音節列の表記は、例えばひらがな表記とする。音声2の発話内容が「やか」である場合の出力例を図5に示す。この時点では正解である「やか」は音響尤度は一番高いものの、言語尤度が「やま」のほうが高いため認識スコアは第2位となっている。これは言語モデルメモリ12に格納されている言語モデルの学習データには音節連鎖「や」+「ま」のほうが「や」+「か」よりも頻度が高いからである。
次にNベスト候補再構成手段4は、前記N個の候補を入力とし、キーワード辞書メモリ6および第2キーワード辞書メモリ7を参照して前記N個の候補の認識スコアを再計算する。そして、前記のN個の認識結果候補のそれぞれに対し、その表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否かを調べ、存在の有無によって新スコアを異なる方法で算出し、前記新スコアの大きい順に出力する。
以下に図6を参照し、Nベスト候補再構成手段4の具体的な処理手順を述べる。
(手順1)
入力されたN個の候補に対し、1個づつ当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否か調べ、存在する場合には、当該候補に対する存在フラグを1にセットする。また音響尤度のみを用いて新スコアを計算する。すなわち1式によって新スコアを計算する。(図6におけるst101〜st105)
S'(k) = Sa(k) ・・・ 1
1式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度である。
一方、前記当該認識候補の表記がキーワード辞書メモリ6と第2キーワード辞書メモリ7のどちらにも存在しない場合には、2式にしたがって音響尤度と言語尤度、およびペナルティ値を用いて新スコアを計算する。
S'(k) = Sa(k) + w * Sl(k) + p ・・・ 2
2式中で、wは言語尤度に対する重み係数、pはペナルティ値である。これらはともに定数であり、事前に実験的に求めた値を用いるものとする。本例ではw=0.7, p=0.1とする。(図6におけるst106)
(手順2)
N個の全て候補に対し、前記新スコアS'を算出後、前記新スコアの大きい順に前記認識候補を並べ換えて出力する。また各候補がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否かを示す存在フラグ値も同時に出力する。(図6におけるst110)
存在フラグ値1は、当該候補がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在することを示し、存在フラグ値0は、当該候補がキーワード辞書メモリ6と第2キーワード辞書メモリ7のどちらにも存在しないことを示すものとする。出力例を図7に示す。正解である発話「やか」が第1位になっていることが判る。以上がNベスト再構成手段4の動作である。
次に検索手段5は、Nベスト候補再構成手段4からの出力を受け取り、第1位の認識結果の表記の長さを参照して、まず検索方法を決定する。ここで表記の長さとは文字数や音節数等が考えられる。本実施の形態では、例えば音節数とする。検索手段5は前記音節数がL個未満の場合と、L個以上の場合で、異なる検索動作を行う。本実施の形態では、前記音節数L=5とする。
次に検索手段5は、決定した検索方法を用いて検索対象辞書メモリ7中の施設名称を検索し出力する。
以下に図8を参照し検索手段5の具体的な処理内容を述べる。
(手順1)
Nベスト候補再構成手段4から出力された第1位の認識結果の表記の長さを、事前に決めた閾値L(本実施の形態では=5)と比較し、閾値L未満の場合と、L以上の場合で処理を分ける。(図8におけるstep202)
(手順2a)
前記音節数がL文字未満の場合、検索手段5は、入力されたN個の候補に対し、存在フラグが1の候補のみをM個を抽出する。(図8におけるstep203)ここでMは0以上N以下の整数である。前記抽出したM個の候補を検索結果として出力する。図の例では、存在フラグが1である「やか」と「やま」を出力する。
施設名などの名称の検索においては、利用者が正式名称以外を発話するのは正式名称の表記が長く名称の記憶が曖昧な場合であり、短い発話は短い施設名称の正式名称である場合がほとんであると考えられるので、Nベスト候補再構成手段4から出力された候補の第1位の表記が短い場合にはキーワード辞書に存在するものと表記が完全に一致するもののみを検索結果とすることにより、曖昧検索の問題点である過剰な検索結果生成を防ぐ効果を有する。
(手順2b)
一方、前記音節数がL文字以上の場合には前記Nベスト候補再構成手段4の認識結果の第1位の表記を用いて、曖昧検索辞書メモリ11に格納されている曖昧検索辞書を用いて曖昧検索を行う。(図8におけるstep204)
この曖昧検索の方法を説明する。前述したとおり、曖昧検索辞書は検索対象の音節を索引語とした転置ファイルとして構成されている。
例えば本装置の利用者が「やたやまどーぶつえん」を検索しようとしたが、名称の記憶が正確でなく、入力音声の発話内容が「やたどーぶつえん」であり、Nベスト候補再構成手段4の出力の第1位の表記が「やまどーぶつえん」であった場合、まず前記表記を音節単位に分割する。すなわち「や」「ま」「どー」「ぶ」「つ」「え」「ん」と分割する。
そして先頭の音節から順に曖昧検索辞書メモリ11に格納している前記転置ファイルを参照し、当該音節を含む施設のスコアに1を加算する。上記処理を前記分割結果の最終音節まで行う。そしてスコアが所定の閾値S以上の施設を検索結果として出力する。
なお前記閾値Sは、例えば認識結果の音節数の0.8倍とする。すなわち本実施の形態の場合、前記音節数7の0.8倍、即ち7*0.8=5.6である。
この結果、前記入力音節列「や」「ま」「どー」「ぶ」「つ」「え」「ん」は、利用者が検索を意図していた「やたやまどーぶつえん」を構成する音節とは7個の音節で一致するためスコアが7になる。上記のスコア算出処理の結果を図9に示す。利用者に意図した検索結果がスコア第11位として検索されていることがわかる。
認識結果の表記の長さが長い場合には、表記に冗長性があるため以上述べたとおり曖昧検索を行うことによって利用者が正式名称を正確に記憶していなくても検索可能となる効果を有する。
また曖昧検索辞書メモリ1に格納している転置ファイルは、検索対象辞書メモリ7に格納されている施設名称のうち表記の音節数がM文字以上のものに限定して作成したので、前記転置ファイルのサイズが小さくなり、記憶領域を小さくできる効果を有する。
しかし曖昧検索辞書メモリ11の記憶容量に問題がなければ、検索対象辞書メモリ7に格納されている施設名称の全てを用いて転置ファイルを作成してもよく、前述した曖昧検索動作により同様の効果を得ることができる。
なお前記新スコアは、当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否か調べ、存在する場合には下記3式、存在しない場合には下記4式で計算することによっても、同様の効果を得ることが出来る。
S'(k) = Sa(k) + w2 * Sl(k) ・・・ 3
3式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度, Sl(k) は言語尤度である。
またw2は予め決めた定数であり、音声認識手段3での言語尤度の重みより小さい値とする。
一方、前記当該認識候補の表記がキーワード辞書メモリ6と第2キーワード辞書メモリ7のどちらにも存在しない場合には、前述のように4式にしたがって音響尤度と言語尤度、およびペナルティ値を用いて新スコアを計算する。
S'(k) = Sa(k) + w3 * Sl(k) + p ・・・ 4
ここで、w3は予め決めた定数でありw3≧w2を満たすものとする。
なお前記新スコアは、当該認識候補の表記がキーワード辞書メモリ6または第2キーワード辞書メモリ7に存在するか否か調べ、存在する場合には下記5式、存在しない場合には下記6式で計算することによっても、同様の効果を得ることが出来る。
S'(k) = Sa(k) + w4 * Slmax + p2 ・・・ 5
S'(k) = Sa(k) + w5 * Sl(k) + p3 ・・・ 6
5,6式中でS'(k)はk番目の認識候補の新スコア、Sa(k)は音響尤度, Sl(k) は言語尤度は、Slmaxは7式で示すとおり前記入力されたN個の候補中の言語尤度の最大値である。
Slmax = MAX(i=1,N)Sl(k) ・・・ 7
また上記w4, w5は予め定めた0以上の定数であり、w4=w5でもw4≠w5でもよい。また前記p2,およびp3は予め定めた定数であり,p2=p3でもp2≠p3でもよい。
実施の形態2.
本実施の形態における音声検索装置と、実施の形態1における音声検索装置との違いは、第2キーワード作成手段8による第2キーワード辞書の作成方法であり、機能構成ブロック図は実施の形態1における音声検索装置と同一である。
本実施の形態では、第2キーワード作成手段8の動作は以下のとおりである。
第2キーワード作成手段8は、検索対象辞書メモリ7に格納されている施設名称の表記を入力とし、表記の音節数がP文字未満のものを抽出し、その表記を第2キーワード辞書として第2キーワード辞書メモリ9に保存する。例えばP=5とする。
例えば、検索対象辞書メモリ7の内容が図2である場合、P(=5)音節未満の表記を抽出した結果である第2キーワード辞書メモリ9の内容は図10のようになる。音声認識と検索の動作は、実施の形態1と同様なので説明は省略する。
以上述べたように本実施の形態2では、第2キーワード辞書メモリ9に格納される表記は音節数がP個以下のものだけなので検索対象辞書メモリ7に格納されている表記よりも数が少なくなっており、前記のN個の認識結果候補の表記が第2キーワード辞書メモリ9中に存在するか否かを調べる時間を短縮できる効果を有する。また第2キーワード辞書メモリ9中に存在する表記数が少なくなるので記憶領域を削減できる効果を有する。
なお、前記のN個の認識結果候補のうち、音節数がP以上の表記で検索対象辞書メモリ7に格納されているものは、実施の形態1では1式で新スコアが計算されるのに対し、本実施に形態では2式で計算されることになり、スコアの改善効果が低減される。しかしPを適切な値に設定すれば、表記に冗長性が生じ音響的にも区別しやすくなるため、スコアの改善効果が低減は、ほとんどの場合問題にならない。
この発明は、音声により文書、例えば、ホテルや旅館、美術館や映画館などの施設或いは観光スポットなどを検索するカーナビゲータなどの音声検索装置の音声認識などで使用される。
この発明による音声検索装置の実施の形態1の構成を示すブロック図である。 検索対象辞書メモリの内容例の説明図である。 キーワード辞書メモリの転置ファイル例の説明図である。 曖昧検索辞書メモリの内容例の説明図である。 音声認識手段に夜認識結果例の説明図である。 Nベスト候補再構成手段の処理手順フロー図である。 Nベスト候補再構成手段による新スコア計算結果例の説明図である。 検索手段の処理手順フロー図である。 検索手段による曖昧検索辞書を用いた曖昧検索結果例の説明図である。 実施の形態2による第2キーワード辞書メモリの内容例の説明図である。
符号の説明
1は音声の入力端、2は入力音声、3は音声認識手段、4はNベスト候補再構成手段、5は検索手段、6はキーワード辞書メモリ、7は検索対象辞書メモリ、8は第2キーワード作成手段、9は第2キーワード辞書メモリ、10は曖昧検索辞書作成手段、11は曖昧検索辞書メモリ、12は言語モデルメモリ、13は音響モデルメモリ、14は検索結果である。

Claims (9)

  1. 入力音声から、音響モデルと言語モデルを参照して音響尤度と言語尤度を算出しこの両者の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力する音声認識手段と、
    検索対象を所定キーワード表記の要素として持つキーワード辞書と、
    前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段を備えたことを特徴とする音声検索装置。
  2. 入力音声から、音響尤度と言語尤度の加重和として認識スコアを算出し、認識結果として、この認識スコアを基準に音響尤度と言語尤度とが付与された1個以上の表記を出力する音声認識手段と、
    検索対象の表記とID番号を要素として持つ検索対象辞書と、
    検索対象を所定キーワード表記の要素として持つキーワード辞書と、
    前記検索対象辞書中から所定条件に合致する表記を抽出して第2キーワード辞書として出力する第2キーワード作成手段と、
    前記検索対象辞書中から異なる所定条件に合致する要素を抽出して曖昧検索辞書を作成する曖昧検索辞書作成手段と、
    前記音声認識手段の音声認識結果である1個以上の表記を入力し、前記キーワード辞書および第2キーワード辞書を参照して前記1個以上の音声認識結果の認識順位を再構成して出力するNベスト候補再構成手段と、
    このNベスト候補再構成手段の出力を入力とし、この入力の第1位の候補の表記が異なる所定条件に合致するる場合には前記曖昧検索辞書を参照して検索を行い、前記表記が異なる所定条件に合致しない場合には前記Nベスト候補再構成手段の出力から検索を行う検索手段を備えたことを特徴とする音声検索装置。
  3. 前記Nベスト候補再構成手段は、前記1個以上の音声認識結果を入力し、入力した各音声認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記音響尤度から算出し、存在しない場合には前記音響尤度と前記言語尤度および所定の定数値を荷重加算して算出し認識順位を再構成することを特徴とする請求項1または2記載の音声検索装置。
  4. 前記Nベスト候補再構成手段は、前記1個以上の音声認識結果を入力し、入力した各音声認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記音声認識手段でのスコア計算時のよりも小さい重みで前記音響尤度と加重和して算出し、存在しない場合には前記音響尤度と前記言語尤度を前記重みとは異なる重みで加重和し、さらに所定の定数値を加算して算出し認識順位を再構成することを特徴とする請求項1または2記載の音声検索装置。
  5. 前記Nベスト候補再構成手段は、前記1個以上の音声認識結果を入力し、入力した音声認識結果のうちで前記言語尤度の最大値を算出し、入力した各音声認識結果のそれぞれに対し表記が前記キーワード辞書中または前記第2キーワード辞書中に存在するかを調べ、存在する場合は当該表記のスコアを前記音響尤度と前記言語尤度の最大値を所定の重みで加重和しさらに所定の定数を加えたものとして算出し、存在しない場合には前記音響尤度と前記言語尤度を所定の重みで加重和しさらに所定の定数値を加えたものとして算出して、認識順位を再構成することを特徴とする請求項1または2記載の音声検索装置。
  6. 前記第2キーワード作成手段は、前記検索対象辞書中から全ての要素を抽出して前記第2キーワード辞書を作成することを特徴とする請求項2〜4の何れか1項に記載の音声検索装置。
  7. 前記第2キーワード作成手段は、前記検索対象辞書中の要素のうち、その表記の長さが所定の閾値未満の要素のみを抽出してその表記を全て前記第2キーワード辞書として作成することを特徴とする請求項2〜5の何れか1項に記載の音声検索装置。
  8. 前記曖昧検索辞書作成手段は、記検索対象辞書中の要素のうち、その表記の長さが所定の閾値以上の要素のみを抽出して曖昧検索辞書を作成することを特徴とする請求項2〜6の何れか1項に記載の音声検索装置。
  9. 前記キーワード辞書に登録する表記は、検索対象の正式呼称ではないが、頻繁に使用される通称や、頻繁に使用される部分表記を含むことを特徴とする請求項1〜8の何れか1項に記載の音声検索装置。
JP2007321885A 2007-12-13 2007-12-13 音声検索装置 Active JP5046902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007321885A JP5046902B2 (ja) 2007-12-13 2007-12-13 音声検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007321885A JP5046902B2 (ja) 2007-12-13 2007-12-13 音声検索装置

Publications (2)

Publication Number Publication Date
JP2009145548A true JP2009145548A (ja) 2009-07-02
JP5046902B2 JP5046902B2 (ja) 2012-10-10

Family

ID=40916224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007321885A Active JP5046902B2 (ja) 2007-12-13 2007-12-13 音声検索装置

Country Status (1)

Country Link
JP (1) JP5046902B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61122781A (ja) * 1984-11-20 1986-06-10 Fujitsu Ltd 音声ワ−ドプロセツサ
JPH1049194A (ja) * 1996-07-30 1998-02-20 Aqueous Res:Kk 音声認識装置
JP2002024212A (ja) * 2000-07-12 2002-01-25 Mitsubishi Electric Corp 音声対話システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
JP2007079122A (ja) * 2005-09-14 2007-03-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61122781A (ja) * 1984-11-20 1986-06-10 Fujitsu Ltd 音声ワ−ドプロセツサ
JPH1049194A (ja) * 1996-07-30 1998-02-20 Aqueous Res:Kk 音声認識装置
JP2002024212A (ja) * 2000-07-12 2002-01-25 Mitsubishi Electric Corp 音声対話システム
JP2005128130A (ja) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
JP2007079122A (ja) * 2005-09-14 2007-03-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech

Also Published As

Publication number Publication date
JP5046902B2 (ja) 2012-10-10

Similar Documents

Publication Publication Date Title
Czech A System for Recognizing Natural Spelling of English Words
CN102725790B (zh) 识别词典制作装置及声音识别装置
JP5072415B2 (ja) 音声検索装置
JP5258959B2 (ja) 音声認識装置
JP2020505650A (ja) 音声認識システム及び音声認識の方法
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US9978364B2 (en) Pronunciation accuracy in speech recognition
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JP2005258439A (ja) 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
US20090299724A1 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US8849668B2 (en) Speech recognition apparatus and method
US11869491B2 (en) Abstract generation device, method, program, and recording medium
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
KR20090063546A (ko) 음성인식 장치 및 방법
JP5046902B2 (ja) 音声検索装置
JP2010277036A (ja) 音声データ検索装置
Vu et al. Vietnamese automatic speech recognition: The flavor approach
JP2950823B1 (ja) 音声認識誤り訂正装置
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP5137588B2 (ja) 言語モデル生成装置及び音声認識装置
JP5404563B2 (ja) 検索装置
Chiang et al. On jointly learning the parameters in a character-synchronous integrated speech and language model
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
Hussein et al. Balanced end-to-end monolingual pre-training for low-resourced indic languages code-switching speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5046902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250