JP5409931B2 - 音声認識装置及びナビゲーション装置 - Google Patents

音声認識装置及びナビゲーション装置 Download PDF

Info

Publication number
JP5409931B2
JP5409931B2 JP2012546569A JP2012546569A JP5409931B2 JP 5409931 B2 JP5409931 B2 JP 5409931B2 JP 2012546569 A JP2012546569 A JP 2012546569A JP 2012546569 A JP2012546569 A JP 2012546569A JP 5409931 B2 JP5409931 B2 JP 5409931B2
Authority
JP
Japan
Prior art keywords
unit
speech recognition
word
storage unit
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012546569A
Other languages
English (en)
Other versions
JPWO2012073275A1 (ja
Inventor
裕三 丸田
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5409931B2 publication Critical patent/JP5409931B2/ja
Publication of JPWO2012073275A1 publication Critical patent/JPWO2012073275A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、車載用のナビゲーション装置等に利用される音声認識装置及びこれを備えたナビゲーション装置に関する。
例えば、特許文献1には、大規模な文法に基づく音声認識方法が開示されている。この音声認識方法では、入力音声を音響特徴のシーケンスに変換し、このシーケンスを所定の文法で規定された単語列の音響特徴の集合と比較して、当該文法によって定義される文に最も一致するものが、発話された入力音声であると認識される。
特開平7−219578号公報
日本や中国等では、漢字等が使用されているため文字が多様であり、また住所の音声認識の際に建物に固有なマンション名が住所に使用される場合があるため、全ての住所を認識辞書に含ませると、認識辞書の容量が大きくなり、認識性能の劣化を招く上、認識時間が長時間化するという課題があった。
また、特許文献1に代表される従来の技術においても、使用される文字が多様な場合やマンション名などの固有名詞が認識対象に含まれる場合には、文法記憶手段と単語辞書記憶手段が非常に大きな容量となり、これらの手段に対するアクセス回数が増えて認識時間が長時間化する。
この発明は、上記のような課題を解決するためになされたもので、音声認識辞書の容量削減及びこれに伴う認識処理の高速化を図ることができる音声認識装置及びこれを備えたナビゲーション装置を得ることを目的とする。
この発明に係る音声認識装置は、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、音声認識対象の語彙を記憶する語彙記憶部と、数字からなる音声認識辞書を記憶する辞書記憶部と、音響分析部により得られた入力音声の音響特徴の時系列と辞書記憶部から読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部と、音響データマッチング部に特定された単語列と語彙記憶部が記憶する語彙とを部分一致照合して、語彙記憶部が記憶する語彙のうち、音響データマッチング部に特定された単語列と部分一致した語を音声認識結果とする部分一致照合部とを備えるものである。
この発明によれば、音声認識辞書の容量を削減でき、これに伴って認識処理の高速化を図ることができるという効果を有する。
この発明の実施の形態1による音声認識装置の構成を示すブロック図である。 実施の形態1による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態1による音声認識装置で使用する音声認識辞書の一例を示す図である。 実施の形態1による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。 実施の形態2による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態2による音声認識装置で使用する音声認識辞書の一例を示す図である。 実施の形態2による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態2による音声認識装置での音声認識辞書上のパス探索の一例を説明するための図である。 実施の形態2による音声認識処理の他の例を示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態2による音声認識装置での音声認識辞書上のパス探索の別の一例を説明するための図である。 この発明の実施の形態3による音声認識装置の構成を示すブロック図である。 実施の形態3における音声認識辞書の一例を示す図である。 実施の形態3による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 この発明の実施の形態4による音声認識装置の構成を示すブロック図である。 実施の形態4による音声認識装置で使用する特徴行列の一例を説明する図である。 実施の形態4による音声認識装置で使用する特徴行列の別の一例を説明する図である。 実施の形態4による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態4による音声認識装置での音声認識辞書上のパス探索を説明するための図である。 この発明の実施の形態5による音声認識装置の構成を示すブロック図である。 実施の形態5による音声認識装置で使用する音節からなる音声認識辞書の一例を示す図である。 実施の形態5による音節化した住所データの作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。 実施の形態5による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図であり、ユーザに発話された住所を音声認識する装置を示している。図1において、実施の形態1による音声認識装置1は、音声認識処理部2と音声認識辞書作成部3を備える。音声認識処理部2は、マイク21で取り込まれた音声を音声認識する構成部であり、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24、音声認識辞書記憶部25、住所データ照合部26、住所データ記憶部27及び結果出力部28を備える。
また、音声認識辞書作成部3は、音声認識辞書記憶部25に記憶される音声認識辞書を作成する構成部であり、音声認識処理部2と共通する構成として音声認識辞書記憶部25及び住所データ記憶部27を有し、その他の構成として、単語切り出し部31、出現頻度計算部32及び認識辞書作成部33を備える。
ユーザが発話した住所を示す音声は、マイク21によって取り込まれ、音声取り込み部22によりデジタル信号の音声信号に変換される。音響分析部23では、音声取り込み部22から出力された音声信号を音響分析して、入力音声の音響特徴の時系列に変換する。音響データマッチング部24は、音響分析部23で得られた入力音声の音響特徴の時系列と音声認識辞書記憶部25に記憶される音声認識辞書とを照合して、最も確からしい認識結果を出力する。音声認識辞書記憶部25は、入力音声の音響特徴の時系列と照合される単語のネットワークとして表現された音声認識辞書を格納する記憶部である。住所データ照合部26は、音響データマッチング部24で得られた認識結果と住所データ記憶部27に記憶される住所データとを先頭部分一致照合する。住所データ記憶部27には、音声認識の対象である住所の単語列を示す住所データが記憶される。結果出力部28は、住所データ照合部26による照合で部分一致した住所データを入力して、この住所データが示す住所を最終的な認識結果として出力する。
単語切り出し部31は、語彙記憶部である住所データ記憶部27に記憶されている住所データから単語を切り出す構成部である。出現頻度計算部32は、単語切り出し部31によって切り出された単語の頻度を計算する構成部である。認識辞書作成部33は、単語切り出し部31によって切り出された単語のうち、出現頻度計算部32によって計算された出現頻度が高い(所定の閾値以上)の単語について音声認識辞書を作成し、音声認識辞書記憶部25に格納する。
次に動作について説明する。
(1)音声認識辞書の作成
図2は、実施の形態1による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図2(a)がフローチャートを示し、図2(b)がデータ例を示している。
先ず、単語切り出し部31が、住所データ記憶部27に記憶される住所データから単語を切り出す(ステップST1)。例えば、図2(b)に示すような住所データ27aが、住所データ記憶部27に記憶されている場合、単語切り出し部31は、住所データ27aが示す住所を構成する単語を順次切り出して、図2(b)に示す単語リストデータ31aを生成する。
次に、出現頻度計算部32が、単語切り出し部31によって切り出された単語の出現頻度を計算する。認識辞書作成部33は、単語切り出し部31に切り出された単語のうち、出現頻度計算部32で計算された出現頻度が所定の閾値以上の単語について音声認識辞書を作成する。図2(b)の例では、認識辞書作成部33が、単語切り出し部31によって切り出された単語リストデータ31aの中から出現頻度が所定の閾値“2”以上である、単語“1”、“2”、“3”、“番地”、“号”の単語リストデータ32aを抽出して、抽出した単語による単語ネットワークで表現された音声認識辞書を作成し、音声認識辞書記憶部25に記憶する。ここまでの処理がステップST2に相当する。
図3は、認識辞書作成部33に作成された音声認識辞書の一例を示す図であり、図2(b)に示す単語リストデータ32aから作成した音声認識辞書を示している。図3に示すように、音声認識辞書記憶部25には、出現頻度が所定の閾値以上の単語及びその読みで構成された単語ネットワークが格納される。単語ネットワークにおいて、最も左のノードが音声認識する前の状態を意味し、このノードから出るパスが認識した単語に対応し、パスが入るノードが音声認識後の状態に対応し、最も右にあるノードは音声認識が終了した状態を意味する。単語を音声認識した後に、さらに音声認識すべき発話があれば、最も左のノードに戻り、発話がなければ最も右のノードに移る。パスとして格納される単語は、出現頻度が所定の閾値以上の単語としており、出現頻度が所定の閾値未満の単語、すなわち使用頻度が低い単語は、音声認識辞書に含まれない。例えば、図2(b)の単語リストデータ31aのうち、“日本マンション”等のような建物の固有名詞は、音声認識辞書の作成対象から除外される。
(2)音声認識処理
図4は、実施の形態1による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図4(a)がフローチャートを示し、図4(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1a)。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2a)。図4(b)に示す例では、入力音声である「いちばんち」の音響特徴の時系列として/I,chi,ba,N,chi/が得られる。
次いで、音響データマッチング部24が、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する(ステップST3a)。図4(b)に示す例では、図3に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである/I,chi,ba,N,chi/に最もマッチする、パス(1)→(2)が探索結果として特定される。
この後、音響データマッチング部24は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部26に出力する(ステップST4a)。図4(b)では、単語列“1番地”が住所データ照合部26に出力される。
続いて、住所データ照合部26は、音響データマッチング部24で得られた単語列と、住所データ記憶部27に記憶されている住所データとを先頭部分一致照合する(ステップST5a)。図4(b)では、住所データ記憶部27に記憶されている住所データ27aと、音響データマッチング部24で得られた単語列とが先頭部分一致照合される。
最後に、住所データ照合部26は、住所データ記憶部27に記憶されている住所データの単語列の中から、音響データマッチング部24で得られた単語列と先頭部分一致する単語列を特定して、結果出力部28へ出力する。これにより、結果出力部28は、音響データマッチング部24で得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップST6aに相当する。なお、図4(b)の例では、住所データ27aの単語列の中から“1番地東京メゾン”が特定され、認識結果として出力される。
以上のように、この実施の形態1によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部23と、音声認識対象の語彙である住所データを記憶する住所データ記憶部27と、住所データ記憶部27に記憶される住所データから単語を切り出す単語切り出し部31と、単語切り出し部31に切り出された単語の出現頻度を計算する出現頻度計算部32と、出現頻度計算部32で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部33と、音響分析部23により得られた入力音声の音響特徴の時系列と認識辞書作成部33で作成された音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部24と、音響データマッチング部24に特定された単語列と住所データ記憶部27が記憶する語彙とを部分一致照合して、住所データ記憶部27が記憶する語彙のうち、音響データマッチング部24に特定された単語列と部分一致した語(単語列)を音声認識結果とする住所データ照合部26とを備える。
このように構成することで、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度(使用頻度)に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部27に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。
実施の形態2.
図5は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図5において、実施の形態2による音声認識装置1Aは、音声認識処理部2及び音声認識辞書作成部3Aを備える。音声認識処理部2は、上記実施の形態1と同様の構成である。音声認識辞書作成部3Aは、上記実施の形態1と同様に、音声認識辞書記憶部25、住所データ記憶部27、単語切り出し部31及び出現頻度計算部32を備え、実施の形態2に特有な構成として、認識辞書作成部33A及びガベジモデル記憶部34を備える。
認識辞書作成部33Aは、単語切り出し部31によって切り出された単語のうち、出現頻度計算部32によって計算された出現頻度が高い(所定の閾値以上)単語について音声認識辞書を作成し、さらにガベジモデル記憶部34から読み出したガベジモデルを追加して音声認識辞書記憶部25に格納する。ガベジモデル記憶部34は、ガベジモデルを記憶する記憶部である。ここで、ガベジモデルとは、どんな発話でも一様に認識結果として出力される音響モデルである。
次に動作について説明する。
(1)音声認識辞書の作成
図6は、実施の形態2による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図6(a)がフローチャートを示し、図6(b)がデータ例を示している。
先ず、単語切り出し部31が、住所データ記憶部27に記憶される住所データから単語を切り出す(ステップST1b)。例えば、図6(b)に示すような住所データ27aが住所データ記憶部27に記憶されている場合、単語切り出し部31は、住所データ27aが示す住所を構成する単語を順次切り出して、図6(b)に示す単語リストデータ31aを生成する。
次に、出現頻度計算部32が、単語切り出し部31により切り出された単語の出現頻度を計算する。認識辞書作成部33Aは、単語切り出し部31に切り出された単語のうち、出現頻度計算部32で計算された出現頻度が所定の閾値以上の単語について音声認識辞書を作成する。図6(b)の例では、認識辞書作成部33Aが、単語切り出し部31により切り出された単語リストデータ31aの中から出現頻度が所定の閾値“2”以上である、単語“1”、“2”、“3”、“番地”、“号”の単語リストデータ32aを抽出して、抽出した単語による単語ネットワークで表現された音声認識辞書を作成する。ここまでの処理がステップST2bに相当する。
この後、認識辞書作成部33Aは、ステップST2bで作成した音声認識辞書における単語ネットワークに対して、ガベジモデル記憶部34から読み出したガベジモデルを追加して音声認識辞書記憶部25に記憶する(ステップST3b)。
図7は、認識辞書作成部33Aに作成された音声認識辞書の一例を示す図であり、図6(b)に示す単語リストデータ32aから作成した音声認識辞書を示している。図7に示すように、音声認識辞書記憶部25には、出現頻度が所定の閾値以上の単語及びその読みで構成された単語ネットワークと、この単語ネットワークに追加されたガベジモデルが格納される。これにより、上記実施の形態1と同様に、出現頻度が所定の閾値未満の単語、すなわち使用頻度が低い単語は音声認識辞書に含まれない。例えば、図6(b)の単語リストデータ31aのうち、“日本マンション”等のような建物の固有名詞は、音声認識辞書の作成対象から除外される。なお、参考文献1〜3には、ガベジモデルの詳細が記載されている。この発明は、参考文献1〜3に記載されるようなガベジモデルを利用する。
参考文献1;特開平11−15492号公報
参考文献2;特開2007−17736号公報
参考文献3;特開2009−258369号公報
(2)音声認識処理
(2−1)音声認識辞書に登録されている単語のみを含む発話がなされた場合
図8は、実施の形態2による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図8(a)がフローチャートを示し、図8(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1c)。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2c)。図8(b)に示す例では、入力音声である「いちばんち」の音響特徴の時系列として/I,chi,ba,N,chi/が得られる。
次いで、音響データマッチング部24が、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する(ステップST3c)。
図8(b)に示す例では、図7に示す音声認識辞書に登録されている単語のみを含む発話であるので、図9に示すように、図7に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである/I,chi,ba,N,chi/に最もマッチするパス(1)→(2)→(3)が探索結果として特定される。
この後、音響データマッチング部24は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部26に出力する(ステップST4c)。図8(b)では、単語列“1番地”が住所データ照合部26に出力される。
続いて、住所データ照合部26は、音響データマッチング部24で得られた単語列と、住所データ記憶部27に記憶されている住所データとを先頭部分一致照合する(ステップST5c)。図8(b)では、住所データ記憶部27に記憶されている住所データ27aと、音響データマッチング部24で得られた単語列とが先頭部分一致照合される。
最後に、住所データ照合部26は、住所データ記憶部27に記憶されている住所データの単語列の中から、音響データマッチング部24で得られた単語列と先頭部分一致する単語列を特定して、結果出力部28へ出力する。これにより、結果出力部28は、音響データマッチング部24で得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップST6cに相当する。なお、図8(b)の例では、住所データ27aの単語列の中から“1番地”が特定され、認識結果として出力される。
(2−2)音声認識辞書に登録されていない単語を含む発話がなされた場合
図10は、音声認識辞書に登録されていない単語を含む発話に対する音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図10(a)がフローチャートを示し、図10(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1d)。ここで、例えば、「さんごうにほんまんしょんえいとう」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2d)。図10(b)に示す例では、入力音声である「さんごうにほんまんしょんえいとう」の音響特徴の時系列として/Sa,N,go,u,S(3)/が得られる。ここで、S(n)は、ここにガベジモデルが代入されることを示す表記であり、nは読み方を決定できない文字列の単語数である。
次いで、音響データマッチング部24は、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する(ステップST3d)。
図10(b)に示す例では、図7に示す音声認識辞書に登録されていない単語を含む発話であるので、図11に示すように、図7に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである/Sa,N,go,u/に最もマッチするパス(4)→(5)が探索され、図7に示す音声認識辞書にない単語列についてはガベジモデルをマッチさせて、パス(4)→(5)→(6)が探索結果として特定される。
この後、音響データマッチング部24は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部26に出力する(ステップST4d)。図10(b)では、単語列“3号ガベジ”が住所データ照合部26に出力される。
続いて、住所データ照合部26は、音響データマッチング部24で得られた単語列から“ガベジ”を取り除き、この単語列と住所データ記憶部27に記憶されている住所データとを先頭部分一致照合する(ステップST5d)。図10(b)では、住所データ記憶部27に記憶されている住所データ27aと、音響データマッチング部24で得られた単語列とが先頭部分一致照合される。
最後に、住所データ照合部26は、住所データ記憶部27に記憶されている住所データの単語列の中から、“ガベジ”を取り除いた単語列と先頭部分一致する単語列を特定して結果出力部28へ出力する。これにより、結果出力部28は、この先頭部分一致した単語列を認識結果として出力する。ここまでの処理が、ステップST6dに相当する。なお、図10(b)の例では、住所データ27aの単語列の中から“3号日本マンションA棟”が特定され、認識結果として出力される。
以上のように、この実施の形態2によれば、上記実施の形態1と同様な構成に加えて、ガベジモデルを記憶するガベジモデル記憶部34を備え、認識辞書作成部33Aが、出現頻度計算部32で計算された出現頻度が所定値以上の単語からなる単語ネットワークに対し、ガベジモデル記憶部34から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成し、住所データ照合部26が、音響データマッチング部24に特定された単語列からガベジモデルを取り除いて住所データ記憶部27が記憶する語彙と部分一致照合し、住所データ記憶部27が記憶する語彙のうち、ガベジモデルを取り除いた単語列と部分一致した語(単語列)を音声認識結果とする。
このように構成することで、上記実施の形態1と同様に、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度(使用頻度)に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部27に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。
なお、実施の形態2では、ガベジモデルを追加することから、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できるという利点がある。
実施の形態3.
図12は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。図12において、図1に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。実施の形態3による音声認識装置1Bは、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24A、音声認識辞書記憶部25A、住所データ照合部26A、住所データ記憶部27、及び結果出力部28を備える。
音響データマッチング部24Aは、音響分析部23で得られた入力音声の音響特徴の時系列と、音声認識辞書記憶部25Aに記憶される数字のみの音声認識辞書とを照合して、最も確からしい認識結果を出力する。音声認識辞書記憶部25Aは、入力音声の音響特徴の時系列と照合される単語(数字)のネットワークとして表現された音声認識辞書を格納する記憶部である。なお、あるカテゴリの語彙を構成する数字部分のみの音声認識辞書の作成には、既存の技術を用いることができる。住所データ照合部26Aは、音響データマッチング部24Aで得られた数字列の認識結果と、住所データ記憶部27に記憶される住所データの数字部分とを先頭部分一致照合する構成部である。
図13は、実施の形態3における音声認識辞書の一例を示す図である。音声認識辞書記憶部25Aには、図13に示すように、数字及びその読みで構成された単語ネットワークが格納される。このように、実施の形態3では、住所を示す単語列に含まれるであろう数字のみの音声認識辞書を備えており、住所データに依存した音声認識辞書を作成する必要がない。従って、上記実施の形態1,2のような単語切り出し部31、出現頻度計算部32及び認識辞書作成部33が不要である。
次に動作について説明する。
ここでは、音声認識処理の詳細について述べる。
図14は、実施の形態3による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図14(a)がフローチャートを示し、図14(b)がデータ例を示している。
先ず、ユーザが、住所における数字部分のみを発話する(ステップST1e)。図14(b)の例では、「に」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2e)。図14(b)に示す例では、入力音声である「に」の音響特徴の時系列として/ni/が得られる。
次いで、音響データマッチング部24Aが、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25Aに記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する(ステップST3e)。
図14(b)に示す例では、図13に示すように、音声認識辞書の単語ネットワークの中から、入力音声の音響データである/ni/に最もマッチするパス(1)→(2)が探索結果として特定される。
この後、音響データマッチング部24Aは、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部26Aに出力する(ステップST4e)。図14(b)では、数字“2”が住所データ照合部26Aに出力される。
続いて、住所データ照合部26Aは、音響データマッチング部24Aで得られた単語列(数字列)と、住所データ記憶部27に記憶されている住所データとを先頭部分一致照合する(ステップST5e)。図14(b)では、住所データ記憶部27に記憶されている住所データ27aと、音響データマッチング部24Aで得られた数字“2”とが先頭部分一致照合される。
最後に、住所データ照合部26Aは、住所データ記憶部27に記憶されている住所データの単語列の中から、音響データマッチング部24Aで得られた単語列と先頭部分一致する単語列を特定して、結果出力部28へ出力する。これにより、結果出力部28は、音響データマッチング部24Aで得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップST6eに相当する。なお、図14(b)の例では、住所データ27aの単語列の中から“2番地”が特定され、認識結果として出力される。
以上のように、この実施の形態3によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部23と、音声認識対象の語彙である住所データを記憶する住所データ記憶部27と、所定の種類の単語として数字からなる音声認識辞書を記憶する音声認識辞書記憶部25Aと、音響分析部23により得られた入力音声の音響特徴の時系列と音声認識辞書記憶部25Aから読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部24Aと、音響データマッチング部24Aに特定された単語列と住所データ記憶部27が記憶する語彙とを部分一致照合して、住所データ記憶部27が記憶する語彙のうち、音響データマッチング部24Aに特定された単語列と部分一致した語(単語列)を音声認識結果とする住所データ照合部26Aとを備える。このように構成することで、上記実施の形態1,2と同様な効果が得られ、さらに住所データに依存した音声認識辞書を予め作成しておく必要がないという利点がある。
なお、上記実施の形態3において、数字のみの単語ネットワークから音声認識辞書を作成する場合を示したが、上記実施の形態2と同様に、認識辞書作成部33とガベジモデル記憶部34を設けて、認識辞書作成部33が、数字のみの単語ネットワークにガベジモデルを追加してもよい。この場合、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できる利点がある。
また、上記実施の形態3では、音声認識対象の語彙である住所の数字部分のみからなる音声認識辞書を扱う場合を示したが、数字以外の所定の種類の単語のみからなる音声認識辞書を扱ってもよい。単語の種類としては、音声認識の対象である住所を構成する単語列における、人名、地域・国名、アルファベット、特殊文字などがある。
さらに、上記実施の形態1〜3において、住所データ照合部26が、住所データ記憶部27に記憶される住所データと先頭部分一致照合を行う場合を示したが、この発明は、先頭部分一致に限定されるものではない。部分一致照合であれば、中間一致、後方一致であっても構わない。
実施の形態4.
図15は、この発明の実施の形態4による音声認識装置の構成を示すブロック図である。図15において、実施の形態4による音声認識装置1Cは、音声認識処理部2A及び音声認識辞書作成部3Aを備える。音声認識辞書作成部3Aは、上記実施の形態2と同様の構成である。音声認識処理部2Aは、上記実施の形態1と同様に、マイク21、音声取り込み部22、音響分析部23、音声認識辞書記憶部25、及び住所データ記憶部27を備え、実施の形態4に特有な構成として、音響データマッチング部24B、検索装置40及び検索結果出力部28aを備える。音響データマッチング部24Bは、所定値以上の確からしさを持つ認識結果を単語ラティスとして出力する。単語ラティスとは、発話に対して所定値以上の確からしさを持つと認識された1個以上の単語が同じ音響特徴に照合したものを並列に、発話の順番に直列に連結されたものである。
検索装置40は、インデックス付きデータベース43に登録した住所データの中から、音声認識による誤りを考慮しつつ、音響データマッチング部24Bで得られた認識結果として最も確からしい単語列を検索して検索結果出力部28aへ出力する装置であり、特徴ベクトル抽出部41、低次元射影処理部42,45、インデックス付きデータベース(以下インデックス付きDBと略す)43、確実性ベクトル抽出部44及び検索部46を備える。検索結果出力部28aは、検索装置40による検索結果を出力する構成部である。
特徴ベクトル抽出部41は、住所データ記憶部27に記憶される住所データが示す住所の単語列から、文書特徴ベクトルを抽出する構成部である。文書特徴ベクトルとは、インターネットなどで単語を入力して、その単語に関連するWebページ(文書)を検索する際などに使用されるもので、文書ごとに単語の出現頻度に応じた重みを要素とする特徴ベクトルである。住所データ記憶部27に記憶される住所データを文書として扱い、住所データにおける単語の出現頻度に応じた重みを要素として文書特徴ベクトルを求める。これら文書特徴ベクトルを並べた特徴行列が、住所データdj中の単語riの出現頻度wijを要素とする、(単語数M×住所データ数N)の行列Wである。なお、出現頻度が高い単語ほど重要であると考えられる。
図16に、実施の形態4による音声認識装置で使用する特徴行列の一例を説明する図を示す。ここでは、「1」、「2」、「3」、「号」、「番地」だけを単語として示しているが、実際には住所データに出現する頻度が所定値以上の単語に対して文書特徴ベクトルを定義する。住所データでは、「1番地3号」と「3番地1号」を区別できる方が望ましいので、単語の連鎖に対して文書特徴ベクトルを定義することも考えられる。その場合の特徴行列を説明する図を、図17に示す。この場合には、特徴行列の行数は、単語数Mの2乗となる。
低次元射影処理部42は、特徴ベクトル抽出部41により抽出された文書特徴ベクトルを低次元の文書特徴ベクトルに射影する構成部である。上述した特徴行列Wにおいては、一般的により低い特徴次元に射影することができる。例えば、参考文献4で使用される特異値分解(SVD)を使用して所定の特徴次元まで次元圧縮する。
参考文献4;特開2004−5600号公報
特異値分解(SVD)では、以下のようにして、低次元の特徴ベクトルを求める。
特徴行列Wを、t行d列で、ランクrとする。t次元の正規直交ベクトルをr列並べたt行r列の行列をT、d次元の正規直交ベクトルをr列並べたd行r列の行列をD、対角要素にWの特異値を大きい順に並べたr行r列の対角行列をSとする。
特異値分解定理により、Wは、下記式(1)のように分解できる。
t×d=Tt×rr×rd×r T (1)
T、S、Dのk+1列以降を削除した行列を、それぞれT(k)、S(k)、D(k)とする。行列Wに左からD(k)Tをかけて、k行に変換した行列をW(k)とすると、下記式(2)のようになる。
W(k)k×d=T(k)t×k Tt×d (2)
上記式(2)に上記式(1)を代入すると、T(k)TT(k)が単位行列であることから、下記式(3)を得る。
W(k)k×d=S(k)k×kD(k)d×k T (3)
上記式(2)又は上記式(3)で計算されるW(k)k×dの各列に対応するk次元のベクトルが、各住所データの特徴を現す低次元の特徴ベクトルである。W(k)k×dは、フロベニウスノルムの意味で、Wを最小誤差で近似するk次元の行列となる。k<rとなる次数削減は、単に演算量削減だけではなく、抽象的には単語と文書の対応関係をk個の概念で対応付けるように変換する操作となっており、類似単語や類似文書を集約する効果がある。
また、低次元射影処理部42は、低次元の文書特徴ベクトルに従って、住所データ記憶部27に記憶される住所データに低次元の文書特徴ベクトルをインデックスとするインデックス付けを行い、インデックス付きDB43に登録する。
確実性ベクトル抽出部44は、音響データマッチング部24Bにより得られた単語ラティスから確実性ベクトルを抽出する構成部である。確実性ベクトルとは、発話段階において単語が実際に発話された確率を、文書特徴ベクトルと同じ形式で表すベクトルである。発話段階において単語が発話された確率は、音響データマッチング部24Bで探索されたパスのスコアである。例えば、「はちばんち」と発話した場合、「8番地」という文言が発話された確率が0.8で、「1番地」という文言が発話された確率が0.6と認識された場合には、実際に発話された確率は、「8」が0.8、「1」が「0.6」、「番地」が1となる。
低次元射影処理部45は、確実性ベクトル抽出部44により抽出された確実性ベクトルに対して、文書特徴ベクトルに適用したものと同じ射影処理(T(k)t×k Tを左から掛ける処理)を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
検索部46は、インデックス付きDB43の中から、低次元射影処理部45で得られた低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを検索する構成部である。ここで、低次元の確実性ベクトルと低次元の文書特徴ベクトルとの距離は、各要素の差の二乗和の平方根である。
次に動作について説明する。
ここでは、音声認識処理の詳細について述べる。
図18は、実施の形態4による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図18(a)がフローチャートを示し、図18(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1f)。図18(b)の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2f)。図18(b)に示す例では、入力音声である「いちばんち」の音響特徴の時系列として、誤認識を含む/I,chi,go,ba,N,chi/が得られたものとする。
次いで、音響データマッチング部24Bが、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと所定値以上の確からしさでマッチするパスを探索する(ステップST3f)。
図18(b)の例では、図19に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである“/I,chi,go,ba,N,chi/”に所定値以上の確からしさでマッチするパス(1)→(2)→(3)→(4)が探索結果として特定される。説明を簡単にするために、ここでは、所定値以上の確からしさを持つ認識結果は、1個の単語列だけだったとする。後述する実施の形態5においても同様である。
この後、音響データマッチング部24Bは、探索結果のパスに対応する単語ラティスを音声認識辞書から抽出して、検索装置40に出力する(ステップST4f)。図18(b)では、誤認識を含む単語列“1号番地”が検索装置40に出力される。
検索装置40では、住所データにおける低次元の文書特徴ベクトルに従って、住所データ記憶部27に記憶されている住所データに対してインデックス付けが行われ、その結果がインデックス付きDB43に格納されている。
音響データマッチング部24Bで得られた単語ラティスを入力すると、検索装置40内の確実性ベクトル抽出部44が、入力した単語ラティスからガベジモデルを取り除き、残りの単語ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部45が、確実性ベクトル抽出部44により抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部46が、インデックス付きDB43の中から、低次元射影処理部45で得られた入力音声の低次元の確実性ベクトルに一致する低次元の文書特徴ベクトルを有する住所データの単語列を検索する(ステップST5f)。
検索部46は、インデックス付きDB43に登録される住所データの単語列の中から、入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データの単語列を特定して、検索結果出力部28aへ出力する。これにより、検索結果出力部28aは、入力した検索結果の単語列を認識結果として出力する。ここまでの処理が、ステップST6fに相当する。なお、図18(b)の例では、住所データ27aの単語列の中から“1番地”が特定され、認識結果として出力される。
以上のように、この実施の形態4によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部23と、音声認識対象の語彙である住所データを記憶する住所データ記憶部27と、住所データ記憶部27に記憶される語彙から単語を切り出す単語切り出し部31と、単語切り出し部31に切り出された単語の出現頻度を計算する出現頻度計算部32と、出現頻度計算部32で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部33と、音響分析部23により得られた入力音声の音響特徴の時系列と認識辞書作成部33で作成された音声認識辞書とを照合して、音声認識辞書から前記入力音声として所定値以上の確からしさを持つ単語ラティスを特定する音響データマッチング部24Bと、住所データ記憶部27に記憶されている語彙をその特徴に対応付けて登録したインデックス付きDB43を有し、音響データマッチング部24Bに特定された単語ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語をインデックス付きDB43から検索し音声認識結果として出力する検索装置40とを備える。
このように構成することで、上記実施の形態1,2と同様な効果に加え、誤った単語の誤挿入や正しい単語の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。
なお、上記実施の形態4では、ガベジモデル記憶部34を設けて、音声認識辞書の単語ネットワークにガベジモデルを追加する構成を示したが、上記実施の形態1と同様に、ガベジモデル記憶部34を省略し、音声認識辞書の単語ネットワークにガベジモデルを追加しない構成としてもよい。この構成においては、図19に示す単語ネットワークで“/Garbage/”の部分がないネットワークとなる。この場合、発話できる内容は、音声認識辞書にあるもの(すなわち、出現頻度の高い単語)のみという制限があるが、上記実施の形態1と同様に、住所を示す全ての単語について音声認識辞書を作成する必要がない。これにより、音声認識辞書の容量を軽減でき、その結果として認識処理を速くすることができる。
実施の形態5.
図20は、この発明の実施の形態5による音声認識装置の構成を示すブロック図である。図20において、図1及び図15に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。
実施の形態5による音声認識装置1Dは、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24C、音声認識辞書記憶部25B、検索装置40A、住所データ記憶部27、検索結果出力部28a、及び住所データ音節化部50を備える。
音声認識辞書記憶部25Bは、入力音声の音響特徴の時系列と照合される音節のネットワークとして表現された音声認識辞書を格納する記憶部である。この音声認識辞書には、全ての音節について認識辞書ネットワークを登録しておき、全ての音節を認識できるように構成する。このような辞書は、音節タイプライタとして既知である。
住所データ音節化部50は、住所データ記憶部27に記憶される住所データを、音節系列へ変換する構成部である。
検索装置40Aは、インデックス付きデータベースに登録される住所データの中から、音響データマッチング部24Cで得られた認識結果として所定値以上の確からしさを持つ音節ラティスの特徴に一致する又は距離が最も近い特徴を有する住所データを検索して検索結果出力部28aへ出力する装置であり、特徴ベクトル抽出部41a、低次元射影処理部42a,45a、インデックス付きDB43a、確実性ベクトル抽出部44a、及び検索部46aを備える。検索結果出力部28aは、検索装置40Aによる検索結果を出力する構成部である。
特徴ベクトル抽出部41aは、住所データ音節化部50で得られた住所データの音節系列から、文書特徴ベクトルを抽出する構成部である。なお、ここでいう文書特徴ベクトルとは、住所データ音節化部50で得られた住所データにおける音節の出現頻度に応じた重みを要素とする特徴ベクトルである。なお、詳細は、上記実施の形態4と同様である。
低次元射影処理部42aは、特徴ベクトル抽出部41aにより抽出された文書特徴ベクトルを低次元の文書特徴ベクトルに射影する構成部である。上述した特徴行列Wにおいては、一般的により低い特徴次元に射影することができる。
また、低次元射影処理部42aは、低次元の文書特徴ベクトルをインデックスとして、住所データ音節化部50で得られた住所データとその音節系列にインデックス付けを行い、インデックス付きDB43aに登録する。
確実性ベクトル抽出部44aは、音響データマッチング部24Cで得られた音節ラティスから確実性ベクトルを抽出する構成部である。ここでいう確実性ベクトルとは、発話段階においてその音節が実際に発話された確率を、文書特徴ベクトルと同じ形式で表すベクトルである。音節が発話された確率は、上記実施の形態4と同様に、音響データマッチング部24Cで探索されたパスのスコアである。
低次元射影処理部45aは、確実性ベクトル抽出部44aにより抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
検索部46aは、インデックス付きDB43aから、低次元射影処理部45で得られた低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを検索する構成部である。
図21は、実施の形態5における音声認識辞書の一例を示す図である。音声認識辞書記憶部25Bには、図21に示すように、音節で構成された音節ネットワークが格納される。このように、実施の形態5では音節のみの音声認識辞書を備えており、住所データに依存した音声認識辞書を作成する必要がない。従って、上記実施の形態1,2のような単語切り出し部31、出現頻度計算部32及び認識辞書作成部33が不要である。
次に動作について説明する。
(1)住所データの音節化
図22は、実施の形態5による音節化した住所データの作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図22(a)がフローチャートを示し、図22(b)がデータ例を示している。
先ず、住所データ音節化部50が、住所データ記憶部27から住所データの読み出しを開始する(ステップST1g)。図22(b)に示す例では、住所データ27aが、住所データ記憶部27から読み出され、住所データ音節化部50に取り込まれる。
次に、住所データ音節化部50は、住所データ記憶部27から取り込んだ住所データを全て音節化する(ステップST2g)。図22(b)には、音節化の結果50aとして、音節化された住所データと元の住所データを示している。例えば、“1番地”という単語列は、“/い/ち/ば/ん/ち/”という音節系列に変換される。
住所データ音節化部50で音節化された住所データは、検索装置40Aへ入力される(ステップST3g)。検索装置40Aでは、低次元射影処理部42aが、特徴ベクトル抽出部41aで得られた低次元の文書特徴ベクトルに従って、住所データ音節化部50で得られた住所データとその音節系列にインデックス付けを行い、インデックス付きDB43aに登録する。
(2)音声認識処理
図23は、実施の形態5による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図23(a)がフローチャートを示し、図23(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1h)。図23(b)の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
次に、音響分析部23が、音声取り込み部22でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列(ベクトル列)に変換する(ステップST2h)。図23(b)に示す例では、入力音声である「いちばんち」の音響特徴の時系列として、誤認識を含む/I,chi,i,ba,N,chi/が得られたものとする。
次いで、音響データマッチング部24Cが、音響分析部23による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部25Bに記憶される音節からなる音声認識辞書とを照合して、音声認識辞書に登録された音節ネットワークの中から、入力音声の音響データと所定値以上の確からしさでマッチするパスを探索する(ステップST3h)。
図23(b)の例では、図21に示す音声認識辞書の音節ネットワークの中から、入力音声の音響データである“/I,chi,i,ba,N,chi/”に所定値以上の確からしさでマッチするパスが探索結果として特定される。
この後、音響データマッチング部24Cは、探索結果のパスに対応する音節ラティスを音声認識辞書から抽出して検索装置40Aに出力する(ステップST4h)。図23(b)では、誤認識を含む単語列“/い/ち/い/ば/ん/ち/”が検索装置40Aに出力される。
検索装置40Aでは、図22を用いて説明したように、住所データその音素系列がその音素系列の低次元の特徴ベクトルをインデックスとしてインデックス付けが行われ、インデックス付きDB43aに格納されている。
音響データマッチング部24Cで得られた入力音声の音節ラティスを入力すると、検索装置40A内の確実性ベクトル抽出部44aが、入力した音節ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部45aが、確実性ベクトル抽出部44aにより抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部46aが、インデックス付きDB43aの中から、低次元射影処理部45aで得られた入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データとその音節系列を検索する(ステップST5h)。
検索部46aは、インデックス付きDB43aに登録された住所データの中から、入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを特定して検索結果出力部28aへ出力する。ここまでの処理が、ステップST6hに相当する。なお、図23(b)の例では“いちばんち(1番地)”が特定され、認識結果として出力される。
以上のように、この実施の形態5によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部23と、音声認識対象の語彙である住所データを記憶する住所データ記憶部27と、住所データ記憶部27に記憶される語彙を音節系列に変換する住所データ音節化部50と、音節からなる音声認識辞書を記憶する音声認識辞書記憶部25Bと、音響分析部23により得られた入力音声の音響特徴の時系列と音声認識辞書記憶部25Bから読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として所定値以上の確からしさを持つ音節ラティスを特定する音響データマッチング部24Cと、住所データ音節化部50により変換された住所データの音節系列の低次元の特徴ベクトルをインデックスとして住所データを登録したインデックス付きDB43aを有し、音響データマッチング部24Cに特定された音節ラティスの特徴を抽出して、当該特徴に一致する特徴の語(住所データ)をインデックス付きDB43aから検索する検索装置40Aと、検索装置40Aで検索された語彙の音節系列と住所データ記憶部27に記憶される語彙とを対比して、住所データ記憶部27に記憶される語彙の中から、検索装置40Aで検索された語彙に対応する語彙を音声認識結果として出力する対比出力部51とを備える。
このように構成することで、上記実施の形態1,2と同様な効果に加え、音声認識を音節単位で処理できることから、住所データに依存した音声認識辞書を予め作成しておく必要がないという利点がある。また、誤った音節の誤挿入あるいは正しい音節の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。
また、上記実施の形態5において、音節ネットワークから音声認識辞書を作成する場合を示したが、上記実施の形態2と同様に、認識辞書作成部33とガベジモデル記憶部34を設けて、認識辞書作成部33が、音節単位のネットワークにガベジモデルを追加してもよい。この場合、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できる利点がある。
さらに、上記実施の形態1から上記実施の形態5までの音声認識装置を備えたナビゲーション装置を構成することで、例えばナビゲーション処理における目的地や出発地の入力を音声認識で行う場合において、音声認識辞書の容量を削減でき、これに伴って認識処理の高速化を図ることができる。
上記実施の形態1〜5において、音声認識の対象が住所である場合を示したが、この発明は、これに限定されるものではない。例えば、ナビゲーション処理における他の設定操作あるいはオーディオ機器における曲設定や再生制御等のように、様々な音声認識場面で認識対象となる語彙に適用することが可能である。
なお、本願発明は、発明の範囲内において実施例同士の自由な組み合わせ、変形あるいは各実施の形態の構成要素の削除が可能である。
1,1A,1B,1C,1D 音声認識装置、2 音声認識処理部、3,3A 音声認識辞書作成部、21 マイク、22 音声取り込み部、23 音響分析部、24,24A,24B,24C 音響データマッチング部、25,25A,25B 音声認識辞書記憶部、26,26A 住所データ照合部、27 住所データ記憶部、27a 住所データ、28,28a 検索結果出力部、31 単語切り出し部、31a,32a 単語リストデータ、32 出現頻度計算部、33,33A 認識辞書作成部、34 ガベジモデル記憶部、40,40A 検索装置、41,41a 特徴ベクトル抽出部、42,45,42a,45a 低次元射影処理部、43,43a インデックス付きデータベース(インデックス付きDB)、44,44a 確実性ベクトル抽出部、46,46a 検索部、50 住所データ音節化部、50a 音節化の結果。

Claims (7)

  1. 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
    音声認識対象の語彙を記憶する語彙記憶部と、
    数字からなる音声認識辞書を記憶する辞書記憶部と、
    前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として最も確からしい単語列を特定する音響データマッチング部と、
    前記音響データマッチング部に特定された単語列と前記語彙記憶部が記憶する語彙とを部分一致照合して、前記語彙記憶部が記憶する語彙のうち、前記音響データマッチング部に特定された単語列と部分一致した語を音声認識結果とする部分一致照合部
    とを備えた音声認識装置。
  2. ガベジモデルを記憶するガベジモデル記憶部と、
    前記数字からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
    前記部分一致照合部は、前記音響データマッチング部に特定された単語列から前記ガベジモデルを取り除いて前記語彙記憶部が記憶する語彙と部分一致照合し、前記語彙記憶部が記憶する語彙のうち、前記ガベジモデルを取り除いた単語列と部分一致した語を音声認識結果とする
    ことを特徴とする請求項1記載の音声認識装置。
  3. 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
    音声認識対象の語彙を記憶する語彙記憶部と、
    前記語彙記憶部に記憶される語彙から単語を切り出す単語切り出し部と、
    前記単語切り出し部に切り出された単語の出現頻度を計算する出現頻度計算部と、
    前記出現頻度計算部で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部と、
    前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記認識辞書作成部で作成された前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ単語ラティスを特定する音響データマッチング部と、
    前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部に特定された単語ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
    とを備えた音声認識装置。
  4. ガベジモデルを記憶するガベジモデル記憶部を備え、
    前記認識辞書作成部は、前記出現頻度計算部で計算された出現頻度が所定値以上の単語からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成し、
    前記検索装置は、前記音響データマッチング部に特定された単語ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた単語ラティスの特徴に一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
    ことを特徴とする請求項記載の音声認識装置。
  5. 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
    音声認識対象の語彙を記憶する語彙記憶部と、
    前記語彙記憶部に記憶される語彙を音節系列に変換する音節化部と、
    音節からなる音声認識辞書を記憶する辞書記憶部と、
    前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ音節ラティスを特定する音響データマッチング部と、
    前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部で特定された音節ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
    とを備えた音声認識装置。
  6. ガベジモデルを記憶するガベジモデル記憶部と、
    音節ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した音節ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
    前記検索装置は、前記音響データマッチング部に特定された音節ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた音節ラティスの特徴と一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
    ことを特徴とする請求項記載の音声認識装置。
  7. 請求項1から請求項のうちのいずれか1項記載の音声認識装置を備えたナビゲーション装置。
JP2012546569A 2010-11-30 2010-11-30 音声認識装置及びナビゲーション装置 Active JP5409931B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/006972 WO2012073275A1 (ja) 2010-11-30 2010-11-30 音声認識装置及びナビゲーション装置

Publications (2)

Publication Number Publication Date
JP5409931B2 true JP5409931B2 (ja) 2014-02-05
JPWO2012073275A1 JPWO2012073275A1 (ja) 2014-05-19

Family

ID=46171273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012546569A Active JP5409931B2 (ja) 2010-11-30 2010-11-30 音声認識装置及びナビゲーション装置

Country Status (5)

Country Link
US (1) US20130158999A1 (ja)
JP (1) JP5409931B2 (ja)
CN (1) CN103229232B (ja)
DE (1) DE112010006037B4 (ja)
WO (1) WO2012073275A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101566254B1 (ko) * 2014-09-22 2015-11-05 엠앤서비스 주식회사 경로 안내를 위한 음성인식 지원 장치 및 방법, 그리고 시스템

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019983B2 (en) * 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
AU2015305397A1 (en) * 2014-08-21 2017-03-16 Jobu Productions Lexical dialect analysis system
CN104834376A (zh) * 2015-04-30 2015-08-12 努比亚技术有限公司 电子宠物的控制方法和装置
US10147442B1 (en) * 2015-09-29 2018-12-04 Amazon Technologies, Inc. Robust neural network acoustic model with side task prediction of reference signals
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN105869624B (zh) 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
US10628567B2 (en) * 2016-09-05 2020-04-21 International Business Machines Corporation User authentication using prompted text
JP6711343B2 (ja) * 2017-12-05 2020-06-17 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11379016B2 (en) 2019-05-23 2022-07-05 Intel Corporation Methods and apparatus to operate closed-lid portable computers
US11543873B2 (en) 2019-09-27 2023-01-03 Intel Corporation Wake-on-touch display screen devices and related methods
US11733761B2 (en) 2019-11-11 2023-08-22 Intel Corporation Methods and apparatus to manage power and performance of computing devices based on user presence
US11809535B2 (en) 2019-12-23 2023-11-07 Intel Corporation Systems and methods for multi-modal user device authentication
US11360528B2 (en) 2019-12-27 2022-06-14 Intel Corporation Apparatus and methods for thermal management of electronic user devices based on user activity
US20210109585A1 (en) * 2020-12-21 2021-04-15 Intel Corporation Methods and apparatus to improve user experience on computing devices

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115492A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp 音声認識装置
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2007017736A (ja) * 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置
JP2009258369A (ja) * 2008-04-16 2009-11-05 Mitsubishi Electric Corp 音声認識辞書生成装置及び音声認識処理装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589292A (ja) * 1991-09-27 1993-04-09 Sharp Corp 文字列認識装置
EP0634042B1 (en) 1992-03-06 2001-07-11 Dragon Systems Inc. Speech recognition system for languages with compound words
US5699456A (en) 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JPH0919578A (ja) 1995-07-07 1997-01-21 Matsushita Electric Works Ltd 往復式電気かみそり
JPH09265509A (ja) * 1996-03-28 1997-10-07 Nec Corp 合わせ読み住所認識方式
JP3447521B2 (ja) * 1997-08-25 2003-09-16 Necエレクトロニクス株式会社 音声認識ダイアル装置
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
JP4600706B2 (ja) * 2000-02-28 2010-12-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US6877001B2 (en) 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
KR100679042B1 (ko) 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
EP1734509A1 (en) 2005-06-17 2006-12-20 Harman Becker Automotive Systems GmbH Method and system for speech recognition
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
JP4767754B2 (ja) * 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
JP5266761B2 (ja) * 2008-01-10 2013-08-21 日産自動車株式会社 情報案内システムおよびその認識辞書データベース更新方法
EP2081185B1 (en) 2008-01-16 2014-11-26 Nuance Communications, Inc. Speech recognition on large lists using fragments
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
WO2010013369A1 (ja) * 2008-07-30 2010-02-04 三菱電機株式会社 音声認識装置
CN101350004B (zh) * 2008-09-11 2010-08-11 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法系统
EP2221806B1 (en) 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115492A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp 音声認識装置
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
JP2007017736A (ja) * 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置
JP2009258369A (ja) * 2008-04-16 2009-11-05 Mitsubishi Electric Corp 音声認識辞書生成装置及び音声認識処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101566254B1 (ko) * 2014-09-22 2015-11-05 엠앤서비스 주식회사 경로 안내를 위한 음성인식 지원 장치 및 방법, 그리고 시스템

Also Published As

Publication number Publication date
CN103229232A (zh) 2013-07-31
DE112010006037T5 (de) 2013-09-19
CN103229232B (zh) 2015-02-18
DE112010006037B4 (de) 2019-03-07
JPWO2012073275A1 (ja) 2014-05-19
WO2012073275A1 (ja) 2012-06-07
US20130158999A1 (en) 2013-06-20

Similar Documents

Publication Publication Date Title
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
JP6188831B2 (ja) 音声検索装置および音声検索方法
US9940927B2 (en) Multiple pass automatic speech recognition methods and apparatus
US10170107B1 (en) Extendable label recognition of linguistic input
US20060265222A1 (en) Method and apparatus for indexing speech
WO2004034378A1 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2008532099A (ja) データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JPH08328585A (ja) 自然言語処理装置および自然言語処理方法、並びに音声認識装置および音声認識方法
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
KR102094935B1 (ko) 음성 인식 시스템 및 방법
CN115148211A (zh) 音频敏感内容检测方法、计算机设备和计算机程序产品
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
JP4511274B2 (ja) 音声データ検索装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP3881155B2 (ja) 音声認識方法及び装置
KR102217621B1 (ko) 사용자 발화의 오류를 교정하는 방법 및 장치

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131105

R150 Certificate of patent or registration of utility model

Ref document number: 5409931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250