JP2008262279A - 音声検索装置 - Google Patents

音声検索装置 Download PDF

Info

Publication number
JP2008262279A
JP2008262279A JP2007102852A JP2007102852A JP2008262279A JP 2008262279 A JP2008262279 A JP 2008262279A JP 2007102852 A JP2007102852 A JP 2007102852A JP 2007102852 A JP2007102852 A JP 2007102852A JP 2008262279 A JP2008262279 A JP 2008262279A
Authority
JP
Japan
Prior art keywords
language model
text
unit
speech
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007102852A
Other languages
English (en)
Other versions
JP5072415B2 (ja
Inventor
Toshiyuki Hanazawa
利行 花沢
Yohei Okato
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007102852A priority Critical patent/JP5072415B2/ja
Priority to US12/060,583 priority patent/US8126714B2/en
Priority to DE102008017993.0A priority patent/DE102008017993B4/de
Priority to CN2008100917104A priority patent/CN101286170B/zh
Publication of JP2008262279A publication Critical patent/JP2008262279A/ja
Application granted granted Critical
Publication of JP5072415B2 publication Critical patent/JP5072415B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声によるテキストデータの検索は、従来、入力音声中の単語として認識された箇所には単語を索引語として全文検索を行うため単語として認識された箇所に誤認識があると検索精度が低下する。
【解決手段】学習データ分割手段で言語単位に分割された検索対象テキストデータから言語モデル作成手段で作成された言語モデルと音声特徴がモデル化された音響モデルを参照し、音声認識手段が入力音声の音声認識を行って音素表記を出力し、この音素表記を検索対象テキストデータが、言語モデルよりも小単位で分割されたテキスト検索辞書と同じ単位で照合単位変換手段によって分割し、分割結果を用いてテキスト検索手段によってテキスト検索辞書の検索を行う。
【選択図】図1

Description

この発明は、音声認識を用いて文書等の各種テキストを検索する装置に関するものである。
音声によって文書等の各種テキストを検索する技術は、ディクテーション型音声認識を用いて音声をテキストに変換し、テキスト上で全文検索を行う方法が一般的である。しかし、この方法では認識可能な語彙数が数千〜数万に限られるため,それ以上の語彙を含む文書等を検索する場合、未知語の扱いを考慮する必要がある。
対策として特開2003-271629号公報においては、検索対象とする文書中で出現の頻度の高い上位K個の単語のみを単語単位で認識し、それ以外の単語は音節単位で認識する。そして認識結果として抽出された単語を用いて全文検索によって文書を予備選択し、その後音節列として認識された部分の単語を推定し、最終的な検索結果を得るという技術を開示している。
特開2003-271629号公報
前記従来技術では、入力音声中の単語として認識された箇所に対しては単語を索引語として全文検索を行っている。このため単語として認識された箇所に誤認識があると、検索精度が低下するという問題があった。例えば発話が「和歌山の那智大滝」で、認識結果が「岡山の 町 大田区」と全て単語で得られたとしても、「和歌山県の那智大滝」を含む文書は検索できないという課題があった。
この発明は上記課題を解決するためになされたもので、発話の文字表記と音声認識結果の文字表記が一致しない場合でも、音響的に類似していれば検索可能とすることを目的とする。
また未知語を含む文書でも認識率低下を抑える技術を提供することを目的とする。
また発話が短く検索の手ががりが少ない場合でも、検索漏れを少なくする技術を提供することを目的とする。
この発明に係る音声検索装置は、
検索対象とする文書等のテキストデータを所定の言語単位に分割して出力する学習データ分割手段と、
前記分割結果に基づいて音声認識用の言語モデルを作成する言語モデル作成手段と、
前記学習データ分割手段における分割単位よりも小さい単位で前記検索対象とする文書等のテキストデータを分割してテキスト検索辞書を作成するテキスト辞書作成手段と、
前記言語モデルを用いて入力音声を認識し音声認識結果をテキストとして出力する音声認識手段と、
前記音声認識結果を前記テキスト辞書作成手段と同じ分割単位に分割して出力する照合単位変換手段と、
前記照合単位変換手段の出力を入力として前記テキスト検索辞書を用いてテキスト検索を行うテキスト検索手段を備える。
この発明によれば、言語単位に分割された言語モデルと音声の特徴がモデル化された音響モデルを参照し、入力音声の音声認識を行って、音素表記を出力し、前記言語モデルよりも小さい単位で分割されているテキスト検索辞書の分割単位と同じ単位で、照合単位変換手段によって前記音素表記を分割して、その分割結果を用いてテキスト検索手段によってテキスト検索辞書の検索を行うように構成したので、認識結果の単語列に誤認識が含まれている場合でも所望の施設が検索可能になるという効果を有する。
実施の形態1.
図1はこの発明による音声検索装置の実施の形態1の構成を示すブロック図である。
同図において、1は音声の入力端、2は入力音声、3は音声認識手段、4は音声認識結果の照合単位を変換する照合単位変換手段、5はテキスト検索手段、6は言語モデルメモリ、7は音響モデルメモリ、8は言語モデル学習データメモリ、9は学習データ分割手段、10は言語モデル作成手段、11はテキスト検索辞書作成手段、12はテキスト検索辞書メモリ、13は検索結果である。音響モデルメモリ7には音声の特徴をモデル化した音響モデルを格納している。本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。
本実施の形態では日本の全国の施設や観光スポットの名称(以後は簡単のため、施設と観光スポットを総称して施設という)を、幾つかの単語からなるテキスト文書とみなし、施設や観光スポットの名称を音声認識によって検索する場合を例にとり説明する。なお施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施する利点は、ユーザが検索対象の施設名を正確に知らなくても一部分がマッチすれば検索可能になることである。
本実施の形態による音声検索装置の動作について説明する。音声認識・検索を行うまえに事前に言語モデル、およびテキスト検索辞書を作成し、それぞれ言語モデルメモリ6とテキスト検索辞書メモリ12に保存しておく。
まず言語モデルの作成方法を説明する。言語モデル学習データメモリ8には検索対象とする各施設のID番号、かな漢字表記、音素表記を予め格納しておく。言語モデル学習データメモリ8の内容例を図2に示す。
学習データ分割手段9は、言語モデル学習データメモリ8に格納されている各施設の文字表記と音素表記を入力して形態素解析を行い、文字列を例えば単語単位に分割する。
例えば文字表記が「和歌山の那智大滝」、音素表記が「wakayamanonaciootaki」である場合、分割結果は「和歌山(wakayama)/の(no)/那智(naci)/大滝(ootaki)」となる。ここで()内は音素表記を表す。また「/」は分割位置を示す記号であり言語モデルの学習データに含められるものではない。
学習データ分割手段9は上記処理を言語モデル学習データメモリ8に格納されて全施設名称に対して行い、分割結果を言語モデル作成手段10に出力する。
言語モデル作成手段10は全施設の前記分割結果を入力して、言語モデルを作成し、言語モデルメモリ6に保存する。言語モデルとしては、本実施の形態では例えばトライグラムモデルとする。
次にテキスト検索辞書の作成方法を説明する。テキスト検索辞書作成手段11は、言語モデル学習データメモリ8に格納されている各施設の音素表記とID番号を入力して、前記音素表記を分割する。テキスト検索辞書作成手段11における分割単位は、学習データ分割手段9の分割単位である単語より短い単位とする。例えば本実施の形態では音節とする。言語モデル学習データメモリ8に格納されているID番号1番の場合、の音素表記は「wakayamanonaciookaki」であり、分割結果は「wa/ka/ya/ma/no/na/ci/o/o/ta/ki」となる。
テキスト検索辞書作成手段11は上記処理を言語モデル学習データメモリ8に格納されて全施設名称に対して行い、音節を索引語として、例えば転置ファイルを作成しテキスト検索辞書としてテキスト検索辞書メモリ12に保持しておく。ID番号1番と2番の施設から作成したテキスト検索辞書の例を図3に示す。
次に音声認識と検索の動作について説明する。
音声の入力端1から音声2を入力すると音声認識手段3は言語モデルメモリ6に保存されている言語モデルと音響モデルメモリ7に保存されている音響モデルを用いて音声認識を行い、認識結果として単語列の音素表記を出力する。
例えば入力音声の発話内容が「和歌山の那智大滝」で、認識結果が「岡山/の/町/大田区」であった場合、音声認識手段3は前記認識結果の音素表記である「okayama/no/maci/ootaku」を出力する。
照合単位変換手段4は前記音素表記を入力すると、それを単語より短い単位に分割して出力する。この分割単位はテキスト検索辞書作成手段11で使用した分割単位と同一のものとする。すなわち前述の通り、本実施の形態ではテキスト検索辞書作成手段11での分割単位は音節なので、照合単位変換手段4での分割単位も音節とする。従って本実施の形態では照合単位変換手段4の出力は「o/ka/ya/ma/no/ma/ci/o/o/ta/ku」となる。
次にテキスト検索手段5は前記分割結果を入力として、先頭の音節から順にテキスト検索辞書メモリ12に格納している前記転置ファイルを参照し、当該音節を含む施設のスコアに1を加算する。上記処理を前記分割結果の最終音節まで行う。そしてスコアが所定の閾値S以上の施設を検索結果として出力する。なお前記閾値Sは、例えば認識結果の音節数の0.8倍とする。すなわち本実施の形態の場合、入力音節数11の0.8倍、即ち11*0.8=8.8である。
この結果、前記入力音節列「o/ka/ya/ma/no/ma/ci/o/o/ta/ku」は、最終音節「ku」以外は正解発話である「和歌山の那智大滝」の音節列「wa/ka/ya/ma/no/na/ci/o/o/ta/ki」とマッチするため、スコアが10となり「和歌山の那智大滝」を検索結果として出力することが可能となる。
以上の述べたとおり、この発明によれば、照合単位変換手段4によって、音声認識時の単位よりも小さい単位に分割し、その分割結果を用いてテキスト検索手段5によってテキスト検索を行うように構成したので、認識結果の単語列に誤認識が含まれている場合でも所望の施設が検索可能になるという効果を有する。
実施の形態2.
本実施の形態は学習データ分割手段9と言語モデル作成手段10の動作を以下のように変更するものである。
学習データ分割手段9は、言語モデル学習データメモリ8に格納されている各施設の文字表記と音素表記を入力として、形態素解析を解析を行い、文字列を単語単位に分割するが、例えば出現頻度の高い上位K個のみ単語として残し、他は音節列に分解するものとする。
なお単語として残すものは本実施の形態では、出現頻度を基準として選択したが、他の任意の基準を用いて選択してもよい。
また言語モデル作成手段10への出力は音素表記に分割単位が単語か音節かの区別を示すためのフラグを付加したものとする。なお前記出現頻度Kは予め定めた定数であり例えばK=500とする。
例えば図2に示した言語モデル学習データメモリ8に格納されている施設の文字表記が「和歌山の那智大滝」において出現頻度K位以内の単語が「和歌山」「の」「滝」の3個である場合、分割結果は「wakayama[w]/no[w]/na[s]/ci[s]/o[s]/o[s]/taki[w]」となり、これを出力する。ここで[]は分割結果が単語か音節かの区別を示すフラグであり、[w]は単語、[s]は音節を意味するものとする。一方、文字表記が「東京の千代田区役所」では、全て出現頻度K位以内の単語である場合、分割結果は、「tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]」となる。
学習データ分割手段9は上記処理を言語モデル学習データメモリ8に格納されて全施設名称に対して行い、分割結果を言語モデル作成手段10に出力する。
言語モデル作成手段10は前記分割結果を入力して、言語モデルを作成する。但し各施設の学習データに対して下記の方法で重みを付けて学習する。
言語モデル作成手段10による言語モデルを作成手順を図5に示す。言語モデル作成手段10は前記学習データ分割手段9の分割結果が入力されると前記分割結果の音節含有率Rsを(1)式で計算する(ST101)。
Figure 2008262279
ここでNsは前記分割結果において分割結果が音節である個数、Nは全分割数である。例えば「wakayama[w]/no[w]/na[s]/ci[s]/o[s]/o[s]/taki[w]」ではNs=4,N=7なので、Rs=4/7=0.57、「tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]」では、Ns=0,N=4なのでRs=0/4=0となる。
次に言語モデル作成手段10の内部に保持されている前記音節含有率Rsと重み係数との対応関係を記述した重み係数テーブルを参照し、各施設に対する重み係数wを決定する(ST102)。重み係数テーブルの例を図4に示す。
「wakayama[w]/no[w]/na[s]/ci[s]/o[s]/o[s]/taki[w]」ではRs=4/7=0.57なので、重み係数wは4となる。すると言語モデル作成手段10は当該施設が4回出現したとみなす、具体的には当該施設から得られる単語や音節間の連鎖頻度を4倍する(ST103)。
一方、「tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]」では、Rs=0なので、重み係数は1となり、当該施設から得られる単語や音節間の連鎖頻度は1倍のままとする。
以上の処理を言語モデル学習データメモリ8に保持している全施設に対して行い、単語や音節間の連鎖頻度を累積して、言語モデルを作成する(ST105)。言語モデルとしては、例えばトライグラムモデルとする。その他の動作については実施の形態1と同様なので説明を省略する。
以上のように言語モデルを作成することにより、従来技術では音節で表現された部分の多い施設に対しては、言語モデルによって計算される言語尤度が低くなり、認識率が低下する傾向があったが、本実施の形態によれば音節で表現された部分の多い施設に対しては、言語モデル作成時の出現頻度を大きくすることによって言語尤度を上げることが可能になり、認識率低下を抑制する効果を有する。
実施の形態3.
本実施の形態は前記実施の形態2に、中間言語モデルメモリ14と学習データ分割結果メモリ15を新たに付加するものであり、構成例を図6に示す。さらに言語モデル作成手段10の動作を以下のように変更するものである。
言語モデル作成手段10の動作手順を図7に示す。言語モデル作成手段10は、実施の形態2の発明と同様の入力を学習データ分割手段9から受ける。そしてまず各施設のデータの単語や音節間の連鎖頻度の加算重みを全て1にして言語モデルを作成し、これを中間言語モデルとして中間言語モデルメモリ14に保存する。前記中間言語モデルは本実施の形態ではトライグラムとする。また入力された全施設データの分割結果を学習データ分割結果メモリ15に保存しておく(ST201)。
次に学習データ分割結果メモリ15に保存しておいた各施設の分割結果を各施設iごとに取り出し、中間言語モデルメモリ14に保存してある中間言語モデルを用いて言語尤度P(i)を(2)式により計算する(ST202)。
Figure 2008262279
(2)式中でp(wj|wj-2,wj-1)は、分割単位列wj-2,wj-1,wj に対するトライグラム確率、Jは施設iの分割数である。そして施設iに対する重みw(i)を(3)式によって求める(ST204)。
Figure 2008262279
ここでNは検索対象とする全施設の数、f(x)はxの変動を緩やかにする関数であり、
例えば
Figure 2008262279
等を用いる。
上記(3)式からわかるとおり、重み係数w(i)は中間言語モデルに対する尤度P(i)が小さい施設ほど大きな値をとるようになっている。
言語モデル作成手段10は当該施設が求められた重み係数w(i)回出現したとみなす。具体的には当該施設から得られる単語や音節間の連鎖頻度をw(i)倍して連鎖頻度を頻度を累積する(ST204)。
以上の処理を学習データ分割結果メモリ15に保存しておいた各施設の分割結果全てに対して行い、各施設の分割結果がまだあるか否かを判定し(ST205)、単語や音節間の連鎖頻度を累積して言語モデルを作成し、言語モデルを言語モデルメモリ6に保存する(ST206)。言語モデルとしては、例えばトライグラムモデルとする。その他の動作については実施の形態2と同様なので説明を省略する。
従来技術では音節で表現された部分の多い施設等に対しては、言語モデルによって計算される言語尤度が低くなり、認識率が低下する傾向があったが、本実施の形態によれば中間言語モデルにおいて言語尤度が低い施設に対しては、言語モデル作成時の出現頻度を大きくすることによって言語尤度を上げることが可能になり、認識率低下を抑制する効果を有する。
実施の形態4.
本実施の形態は前記実施の形態1〜3のいずれかの発明に、新たに音声認識候補数制御手段16を付加し、さらに音声認識手段3、照合単位変換手段4、テキスト検索手段5の動作を後述のように変更するものである。構成例を図8に示す。
本実施の形態では、実施の形態1の発明に音声認識候補数制御手段16を付加した場合について説明する。音声認識を行うまえに、実施の形態1と同一の方法で事前に言語モデル、およびテキスト検索辞書を作成しておく。
音声認識と検索の動作について説明する。音声の入力端1から音声2を入力すると音声認識手段3は言語モデルメモリ6に保存されている言語モデルと音響モデルメモリ7に保存されている音響モデルを用いて、音声認識を行い認識結果として単語列の音素表記を出力する。但し本実施の形態における前記音声認識の結果として認識スコアの高い順にL個の候補の音素表記を出力するようにする。ここでLは2以上の定数で、本実施の形態では3とする。例えば発話が「尾瀬」で、認識結果の第1位が「利根」、第2位が「尾瀬」、第3位が「戸部(とべ)」とすれば、認識結果の第1位から順番に対応する音素表記である、「tone」、「oze」、「tobe」を出力する。
照合単位変換手段4は前記L個の音声認識結果である音素表記を入力とし、それぞれの音素表記に対して、実施の形態1と同様に認識結果の音素表記を単語より短い単位に分割して出力する。本実施の形態では実施の形態1と同様に分割単位は音節とする。
照合単位変換手段4の動作が実施の形態1と異なる点は、認識スコアの高い順にL個の入力を受け、同じ順番で対応するL個の出力を行うことである。本実施の形態では「to/ne」、「o/ze」、「to/be」を順番に出力する。
音声認識候補数制御手段16は、前記L個の分割結果を入力として1位候補の音節分割結果である「to/ne」の音節数と、音声認識候補数制御手段16の内部に保持する音声認識候補数テーブルを参照し、テキスト検索手段に送出する候補数を制御する。
音声認識候補数テーブルの内容を図9に示す。1位候補の音節分割結果の音節数が少ないほど出力候補数が多くなるように事前に設定しておく。本実施の形態では前記1位の音節数が2なので前記音声認識候補数テーブルを参照して出力候補数を3と決定する。
次にテキスト検索手段5は前記3個の分割結果を入力して、3個の音節分割結果のそれぞれに対し先頭の音節から順に前記テキスト検索辞書メモリ12に保持されたテキスト検索辞書としての転置ファイルを参照し、当該音節を含む施設のスコアに1を加算する動作を前記分割結果の最終音節まで行う。そしてスコアが所定の閾値S以上の施設を検索結果として出力する。なお前記閾値Sは、認識結果の第1位の音節数の0.8倍とする。すなわち本実施の形態では入力音節数が2であるので、2*0.8=1.6である。このように検索することにより、本実施の形態では認識結果の第2位に「o/ze」が含まれているので、正解である「尾瀬」の検索スコアが2となり、検索候補として出力することが可能になる。
上記テキスト検索手段5の動作手順のフロー図である図10を用いて具体的な処理内容を説明する。まず初期化処理として全施設に対するスコアを0にする(ST301)。次に前記3個の分割結果の1個目対し、先頭の音節から順に前記転置ファイルを参照し、当該音節を含む施設のスコアに1を加算する動作を前記分割結果の最終音節まで行う(ST302)。
次に入力される分割結果がまだあるか否かを判定し(ST303)、まだある場合には
同様の処理を次の分割結果を入力として行い、各施設のスコアを累積する(ST302)。一方、残りの分割結果が存在しない場合には、スコア累積処理を終了し、スコアが閾値以上の候補を検索結果として出力する(ST304)。
以上、説明したとおり音声認識候補数制御手段16によって、音声認識結果の音節数が少ない場合ほどテキスト検索手段に入力する候補数を多くするように構成したので、認識結果の音節数が少なく、誤認識した場合に正解音節が含まれる可能性が低い時には認識結果の下位の候補まで検索対象とすることにより、所望の施設の検索漏れを低減する効果を有する。
この発明は、音声により大語彙のテキストデータを検索するシステムに利用可能で、具体的には例えばカーナビゲーションシステムに適用が可能である。
この発明による音声検索装置の実施の形態1の構成を示すブロック図である。 言語モデル学習データメモリ内容例の説明図である。 テキスト検索辞書内容例の説明図である。 実施の形態2における重み係数テーブル内容例の説明図である。 実施の形態2による言語モデルの作成フロー図である。 実施の形態3の構成を示すブロック図である。 実施の形態3による言語モデルの作成フロー図である。 実施の形態4の構成を示すブロック図である。 実施の形態4における音声認識候補数テーブル内容例の説明図である。 実施の形態4によるテキスト検索手段のテキスト検索フロー図である。
符号の説明
1;音声入力端、2;入力音声、3;音声認識手段、4;照合単位変換手段、5;テキスト検索手段、6;言語モデルメモリ、7;音響モデルメモリ、8;言語モデル学習データメモリ、9;学習データ分割手段、10;言語モデル作成手段、11;テキスト検索辞書作成手段、12;テキスト検索辞書メモリ、13;検索結果、14;中間言語モデルメモリ、15;学習データ分割結果メモリ、16;音声認識候補数制御手段。

Claims (5)

  1. 検索対象とする文書等のテキストデータを所定の言語単位に分割して出力する学習データ分割手段と、
    前記分割結果に基づいて音声認識用の言語モデルを作成する言語モデル作成手段と、
    前記学習データ分割手段における分割単位よりも小さい単位で前記検索対象とする文書等のテキストデータを分割してテキスト検索辞書を作成するテキスト辞書作成手段と、
    前記言語モデルを用いて入力音声を認識し音声認識結果をテキストとして出力する音声認識手段と、
    前記音声認識結果を前記テキスト辞書作成手段と同じ分割単位に分割して出力する照合単位変換手段と、
    前記照合単位変換手段の出力を入力として前記テキスト検索辞書を用いてテキスト検索を行うテキスト検索手段を備えたことを特徴とする音声検索装置。
  2. 前記言語モデル作成手段は、前記言語モデルによって計算される各文書間の言語尤度の差が小さくなるように、各文書の統計量の累積頻度に重みをつけて言語モデルを作成する構成としたことを特徴とする請求項1記載の音声検索装置。
  3. 前記学習データ分割手段によるテキストデータの分割単位は長い単位と短い単位を用い、
    前記言語モデル作成手段は、前記各文書の統計量の累積頻度の重みを、分割結果で短い単位が占める割合が多い文書ほど大きな値を与える構成としたことを特徴とする請求項2記載の音声検索装置。
  4. 前記言語モデル作成手段は、前記学習データ分割手段の出力を用いて中間言語モデルを作成し、前記中間言語モデルを用いて、前記検索対象とする各文書に対する言語尤度を算出し、前記各文書の統計量の累積頻度の重みは、前後言語尤度の低い文書ほど大きな値を与える構成としたことを特徴とする請求項2記載の音声検索装置。
  5. 前記音声認識手段は認識結果を上位L(>1)個まで出力するものとし、認識結果の第1位の音節数に応じて、テキスト検索手段に出力する音声認識結果候補を制御する音声認識候補数制御手段を備えたことを特徴とする請求項1または2に記載の音声検索装置。
JP2007102852A 2007-04-10 2007-04-10 音声検索装置 Active JP5072415B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007102852A JP5072415B2 (ja) 2007-04-10 2007-04-10 音声検索装置
US12/060,583 US8126714B2 (en) 2007-04-10 2008-04-01 Voice search device
DE102008017993.0A DE102008017993B4 (de) 2007-04-10 2008-04-07 Sprachsuchvorrichtung
CN2008100917104A CN101286170B (zh) 2007-04-10 2008-04-09 声音检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007102852A JP5072415B2 (ja) 2007-04-10 2007-04-10 音声検索装置

Publications (2)

Publication Number Publication Date
JP2008262279A true JP2008262279A (ja) 2008-10-30
JP5072415B2 JP5072415B2 (ja) 2012-11-14

Family

ID=39809810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007102852A Active JP5072415B2 (ja) 2007-04-10 2007-04-10 音声検索装置

Country Status (4)

Country Link
US (1) US8126714B2 (ja)
JP (1) JP5072415B2 (ja)
CN (1) CN101286170B (ja)
DE (1) DE102008017993B4 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010123005A (ja) * 2008-11-20 2010-06-03 Kddi Corp 文書データ検索装置
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
WO2010116785A1 (ja) 2009-04-06 2010-10-14 三菱電機株式会社 検索装置
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
JP2011175046A (ja) * 2010-02-23 2011-09-08 Toyohashi Univ Of Technology 音声検索装置および音声検索方法
JP2012059126A (ja) * 2010-09-10 2012-03-22 Mitsubishi Electric Corp 検索装置
KR101289085B1 (ko) 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
JP2015171940A (ja) * 2014-03-12 2015-10-01 三菱電機株式会社 エレベータ制御装置
US9373328B2 (en) 2014-04-21 2016-06-21 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
CN112259100A (zh) * 2020-09-15 2021-01-22 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626508B2 (en) 2009-02-26 2014-01-07 National University Corporation Toyohashi University Of Technology Speech search device and speech search method
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US8700594B2 (en) * 2011-05-27 2014-04-15 Microsoft Corporation Enabling multidimensional search on non-PC devices
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
GB201401046D0 (en) * 2014-01-22 2014-03-05 Iedutainments Ltd Searching and content delivery system
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
EP3065131B1 (fr) * 2015-03-06 2020-05-20 ZETES Industries S.A. Méthode et système de post-traitement d'un résultat de reconnaissance vocale
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
CN112530213B (zh) * 2020-12-25 2022-06-03 方湘 一种汉语音调学习方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2004199839A (ja) * 2002-12-20 2004-07-15 Sanyo Electric Co Ltd 光ディスク記録装置
JP2006031385A (ja) * 2004-07-15 2006-02-02 Nec Corp 音声入力による検索システムと方法並びにプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61182100A (ja) 1985-02-07 1986-08-14 株式会社リコー 音声認識後処理方式
JPS63300298A (ja) 1987-05-30 1988-12-07 キヤノン株式会社 音声認識装置
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP2000315095A (ja) 1999-04-28 2000-11-14 Sony Corp 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JP3476008B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US20020120451A1 (en) * 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
JP3639776B2 (ja) 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP3846896B2 (ja) 2000-10-13 2006-11-15 日本電信電話株式会社 音声入力された複合名詞の検索装置、検索方法およびデータベース
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
JP4115723B2 (ja) 2002-03-18 2008-07-09 独立行政法人産業技術総合研究所 音声入力によるテキスト検索装置
US20050256715A1 (en) * 2002-10-08 2005-11-17 Yoshiyuki Okimoto Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method
CN1221937C (zh) * 2002-12-31 2005-10-05 北京天朗语音科技有限公司 语速自适应的语音识别系统
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
JP4802689B2 (ja) 2005-12-08 2011-10-26 株式会社日立製作所 情報認識装置及び情報認識プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2004199839A (ja) * 2002-12-20 2004-07-15 Sanyo Electric Co Ltd 光ディスク記録装置
JP2006031385A (ja) * 2004-07-15 2006-02-02 Nec Corp 音声入力による検索システムと方法並びにプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010123005A (ja) * 2008-11-20 2010-06-03 Kddi Corp 文書データ検索装置
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
JP5258959B2 (ja) * 2009-03-03 2013-08-07 三菱電機株式会社 音声認識装置
WO2010116785A1 (ja) 2009-04-06 2010-10-14 三菱電機株式会社 検索装置
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
JP2011175046A (ja) * 2010-02-23 2011-09-08 Toyohashi Univ Of Technology 音声検索装置および音声検索方法
JP2012059126A (ja) * 2010-09-10 2012-03-22 Mitsubishi Electric Corp 検索装置
WO2014092446A1 (ko) * 2012-12-12 2014-06-19 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
KR101289085B1 (ko) 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
JP5866084B2 (ja) * 2014-01-16 2016-02-17 三菱電機株式会社 検索装置
JP2015171940A (ja) * 2014-03-12 2015-10-01 三菱電機株式会社 エレベータ制御装置
US9373328B2 (en) 2014-04-21 2016-06-21 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US9378736B2 (en) 2014-04-21 2016-06-28 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US9626958B2 (en) 2014-04-21 2017-04-18 Sinoeast Concept Limited Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
CN112259100A (zh) * 2020-09-15 2021-01-22 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置

Also Published As

Publication number Publication date
DE102008017993A1 (de) 2008-11-06
US20080255841A1 (en) 2008-10-16
CN101286170A (zh) 2008-10-15
US8126714B2 (en) 2012-02-28
CN101286170B (zh) 2010-08-11
JP5072415B2 (ja) 2012-11-14
DE102008017993B4 (de) 2014-02-13

Similar Documents

Publication Publication Date Title
JP5072415B2 (ja) 音声検索装置
CN110603583B (zh) 语音识别系统和用于语音识别的方法
US5949961A (en) Word syllabification in speech synthesis system
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP2021501376A (ja) 音声認識システム
AU2010212370B2 (en) Generic spelling mnemonics
US9978364B2 (en) Pronunciation accuracy in speech recognition
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
JP2007041319A (ja) 音声認識装置および音声認識方法
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP3950957B2 (ja) 言語処理装置および方法
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
JP5404563B2 (ja) 検索装置
JP2004294542A (ja) 音声認識装置及びそのプログラム
Sarikaya et al. Maximum entropy modeling for diacritization of arabic text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120821

R150 Certificate of patent or registration of utility model

Ref document number: 5072415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250