JP5409931B2 - 音声認識装置及びナビゲーション装置 - Google Patents
音声認識装置及びナビゲーション装置 Download PDFInfo
- Publication number
- JP5409931B2 JP5409931B2 JP2012546569A JP2012546569A JP5409931B2 JP 5409931 B2 JP5409931 B2 JP 5409931B2 JP 2012546569 A JP2012546569 A JP 2012546569A JP 2012546569 A JP2012546569 A JP 2012546569A JP 5409931 B2 JP5409931 B2 JP 5409931B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech recognition
- word
- storage unit
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 claims description 77
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 17
- 239000013598 vector Substances 0.000 description 91
- 238000012545 processing Methods 0.000 description 57
- 238000013500 data storage Methods 0.000 description 53
- 238000000034 method Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 23
- 238000000605 extraction Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 16
- 230000008901 benefit Effects 0.000 description 5
- 238000013524 data verification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図であり、ユーザに発話された住所を音声認識する装置を示している。図1において、実施の形態1による音声認識装置1は、音声認識処理部2と音声認識辞書作成部3を備える。音声認識処理部2は、マイク21で取り込まれた音声を音声認識する構成部であり、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24、音声認識辞書記憶部25、住所データ照合部26、住所データ記憶部27及び結果出力部28を備える。
また、音声認識辞書作成部3は、音声認識辞書記憶部25に記憶される音声認識辞書を作成する構成部であり、音声認識処理部2と共通する構成として音声認識辞書記憶部25及び住所データ記憶部27を有し、その他の構成として、単語切り出し部31、出現頻度計算部32及び認識辞書作成部33を備える。
(1)音声認識辞書の作成
図2は、実施の形態1による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図2(a)がフローチャートを示し、図2(b)がデータ例を示している。
先ず、単語切り出し部31が、住所データ記憶部27に記憶される住所データから単語を切り出す(ステップST1)。例えば、図2(b)に示すような住所データ27aが、住所データ記憶部27に記憶されている場合、単語切り出し部31は、住所データ27aが示す住所を構成する単語を順次切り出して、図2(b)に示す単語リストデータ31aを生成する。
図4は、実施の形態1による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図4(a)がフローチャートを示し、図4(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1a)。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
このように構成することで、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度(使用頻度)に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部27に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。
図5は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図5において、実施の形態2による音声認識装置1Aは、音声認識処理部2及び音声認識辞書作成部3Aを備える。音声認識処理部2は、上記実施の形態1と同様の構成である。音声認識辞書作成部3Aは、上記実施の形態1と同様に、音声認識辞書記憶部25、住所データ記憶部27、単語切り出し部31及び出現頻度計算部32を備え、実施の形態2に特有な構成として、認識辞書作成部33A及びガベジモデル記憶部34を備える。
(1)音声認識辞書の作成
図6は、実施の形態2による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図6(a)がフローチャートを示し、図6(b)がデータ例を示している。
先ず、単語切り出し部31が、住所データ記憶部27に記憶される住所データから単語を切り出す(ステップST1b)。例えば、図6(b)に示すような住所データ27aが住所データ記憶部27に記憶されている場合、単語切り出し部31は、住所データ27aが示す住所を構成する単語を順次切り出して、図6(b)に示す単語リストデータ31aを生成する。
参考文献1;特開平11−15492号公報
参考文献2;特開2007−17736号公報
参考文献3;特開2009−258369号公報
(2−1)音声認識辞書に登録されている単語のみを含む発話がなされた場合
図8は、実施の形態2による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図8(a)がフローチャートを示し、図8(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1c)。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
図8(b)に示す例では、図7に示す音声認識辞書に登録されている単語のみを含む発話であるので、図9に示すように、図7に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである/I,chi,ba,N,chi/に最もマッチするパス(1)→(2)→(3)が探索結果として特定される。
図10は、音声認識辞書に登録されていない単語を含む発話に対する音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図10(a)がフローチャートを示し、図10(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1d)。ここで、例えば、「さんごうにほんまんしょんえいとう」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
図10(b)に示す例では、図7に示す音声認識辞書に登録されていない単語を含む発話であるので、図11に示すように、図7に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである/Sa,N,go,u/に最もマッチするパス(4)→(5)が探索され、図7に示す音声認識辞書にない単語列についてはガベジモデルをマッチさせて、パス(4)→(5)→(6)が探索結果として特定される。
このように構成することで、上記実施の形態1と同様に、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度(使用頻度)に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部27に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。
なお、実施の形態2では、ガベジモデルを追加することから、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できるという利点がある。
図12は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。図12において、図1に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。実施の形態3による音声認識装置1Bは、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24A、音声認識辞書記憶部25A、住所データ照合部26A、住所データ記憶部27、及び結果出力部28を備える。
ここでは、音声認識処理の詳細について述べる。
図14は、実施の形態3による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図14(a)がフローチャートを示し、図14(b)がデータ例を示している。
先ず、ユーザが、住所における数字部分のみを発話する(ステップST1e)。図14(b)の例では、「に」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
図14(b)に示す例では、図13に示すように、音声認識辞書の単語ネットワークの中から、入力音声の音響データである/ni/に最もマッチするパス(1)→(2)が探索結果として特定される。
図15は、この発明の実施の形態4による音声認識装置の構成を示すブロック図である。図15において、実施の形態4による音声認識装置1Cは、音声認識処理部2A及び音声認識辞書作成部3Aを備える。音声認識辞書作成部3Aは、上記実施の形態2と同様の構成である。音声認識処理部2Aは、上記実施の形態1と同様に、マイク21、音声取り込み部22、音響分析部23、音声認識辞書記憶部25、及び住所データ記憶部27を備え、実施の形態4に特有な構成として、音響データマッチング部24B、検索装置40及び検索結果出力部28aを備える。音響データマッチング部24Bは、所定値以上の確からしさを持つ認識結果を単語ラティスとして出力する。単語ラティスとは、発話に対して所定値以上の確からしさを持つと認識された1個以上の単語が同じ音響特徴に照合したものを並列に、発話の順番に直列に連結されたものである。
参考文献4;特開2004−5600号公報
特徴行列Wを、t行d列で、ランクrとする。t次元の正規直交ベクトルをr列並べたt行r列の行列をT、d次元の正規直交ベクトルをr列並べたd行r列の行列をD、対角要素にWの特異値を大きい順に並べたr行r列の対角行列をSとする。
特異値分解定理により、Wは、下記式(1)のように分解できる。
Wt×d=Tt×rSr×rDd×r T (1)
T、S、Dのk+1列以降を削除した行列を、それぞれT(k)、S(k)、D(k)とする。行列Wに左からD(k)Tをかけて、k行に変換した行列をW(k)とすると、下記式(2)のようになる。
W(k)k×d=T(k)t×k TWt×d (2)
上記式(2)に上記式(1)を代入すると、T(k)TT(k)が単位行列であることから、下記式(3)を得る。
W(k)k×d=S(k)k×kD(k)d×k T (3)
上記式(2)又は上記式(3)で計算されるW(k)k×dの各列に対応するk次元のベクトルが、各住所データの特徴を現す低次元の特徴ベクトルである。W(k)k×dは、フロベニウスノルムの意味で、Wを最小誤差で近似するk次元の行列となる。k<rとなる次数削減は、単に演算量削減だけではなく、抽象的には単語と文書の対応関係をk個の概念で対応付けるように変換する操作となっており、類似単語や類似文書を集約する効果がある。
ここでは、音声認識処理の詳細について述べる。
図18は、実施の形態4による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図18(a)がフローチャートを示し、図18(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1f)。図18(b)の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
図18(b)の例では、図19に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである“/I,chi,go,ba,N,chi/”に所定値以上の確からしさでマッチするパス(1)→(2)→(3)→(4)が探索結果として特定される。説明を簡単にするために、ここでは、所定値以上の確からしさを持つ認識結果は、1個の単語列だけだったとする。後述する実施の形態5においても同様である。
音響データマッチング部24Bで得られた単語ラティスを入力すると、検索装置40内の確実性ベクトル抽出部44が、入力した単語ラティスからガベジモデルを取り除き、残りの単語ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部45が、確実性ベクトル抽出部44により抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部46が、インデックス付きDB43の中から、低次元射影処理部45で得られた入力音声の低次元の確実性ベクトルに一致する低次元の文書特徴ベクトルを有する住所データの単語列を検索する(ステップST5f)。
このように構成することで、上記実施の形態1,2と同様な効果に加え、誤った単語の誤挿入や正しい単語の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。
図20は、この発明の実施の形態5による音声認識装置の構成を示すブロック図である。図20において、図1及び図15に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。
実施の形態5による音声認識装置1Dは、マイク21、音声取り込み部22、音響分析部23、音響データマッチング部24C、音声認識辞書記憶部25B、検索装置40A、住所データ記憶部27、検索結果出力部28a、及び住所データ音節化部50を備える。
住所データ音節化部50は、住所データ記憶部27に記憶される住所データを、音節系列へ変換する構成部である。
(1)住所データの音節化
図22は、実施の形態5による音節化した住所データの作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図22(a)がフローチャートを示し、図22(b)がデータ例を示している。
先ず、住所データ音節化部50が、住所データ記憶部27から住所データの読み出しを開始する(ステップST1g)。図22(b)に示す例では、住所データ27aが、住所データ記憶部27から読み出され、住所データ音節化部50に取り込まれる。
図23は、実施の形態5による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図23(a)がフローチャートを示し、図23(b)がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する(ステップST1h)。図23(b)の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク21によって取り込まれ、音声取り込み部22によってデジタル信号に変換される。
図23(b)の例では、図21に示す音声認識辞書の音節ネットワークの中から、入力音声の音響データである“/I,chi,i,ba,N,chi/”に所定値以上の確からしさでマッチするパスが探索結果として特定される。
音響データマッチング部24Cで得られた入力音声の音節ラティスを入力すると、検索装置40A内の確実性ベクトル抽出部44aが、入力した音節ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部45aが、確実性ベクトル抽出部44aにより抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部46aが、インデックス付きDB43aの中から、低次元射影処理部45aで得られた入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データとその音節系列を検索する(ステップST5h)。
このように構成することで、上記実施の形態1,2と同様な効果に加え、音声認識を音節単位で処理できることから、住所データに依存した音声認識辞書を予め作成しておく必要がないという利点がある。また、誤った音節の誤挿入あるいは正しい音節の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。
Claims (7)
- 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
数字からなる音声認識辞書を記憶する辞書記憶部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として最も確からしい単語列を特定する音響データマッチング部と、
前記音響データマッチング部に特定された単語列と前記語彙記憶部が記憶する語彙とを部分一致照合して、前記語彙記憶部が記憶する語彙のうち、前記音響データマッチング部に特定された単語列と部分一致した語を音声認識結果とする部分一致照合部
とを備えた音声認識装置。 - ガベジモデルを記憶するガベジモデル記憶部と、
前記数字からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
前記部分一致照合部は、前記音響データマッチング部に特定された単語列から前記ガベジモデルを取り除いて前記語彙記憶部が記憶する語彙と部分一致照合し、前記語彙記憶部が記憶する語彙のうち、前記ガベジモデルを取り除いた単語列と部分一致した語を音声認識結果とする
ことを特徴とする請求項1記載の音声認識装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
前記語彙記憶部に記憶される語彙から単語を切り出す単語切り出し部と、
前記単語切り出し部に切り出された単語の出現頻度を計算する出現頻度計算部と、
前記出現頻度計算部で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記認識辞書作成部で作成された前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ単語ラティスを特定する音響データマッチング部と、
前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部に特定された単語ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
とを備えた音声認識装置。 - ガベジモデルを記憶するガベジモデル記憶部を備え、
前記認識辞書作成部は、前記出現頻度計算部で計算された出現頻度が所定値以上の単語からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成し、
前記検索装置は、前記音響データマッチング部に特定された単語ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた単語ラティスの特徴に一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
ことを特徴とする請求項3記載の音声認識装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
前記語彙記憶部に記憶される語彙を音節系列に変換する音節化部と、
音節からなる音声認識辞書を記憶する辞書記憶部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ音節ラティスを特定する音響データマッチング部と、
前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部で特定された音節ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
とを備えた音声認識装置。 - ガベジモデルを記憶するガベジモデル記憶部と、
音節ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した音節ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
前記検索装置は、前記音響データマッチング部に特定された音節ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた音節ラティスの特徴と一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
ことを特徴とする請求項5記載の音声認識装置。 - 請求項1から請求項6のうちのいずれか1項記載の音声認識装置を備えたナビゲーション装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/006972 WO2012073275A1 (ja) | 2010-11-30 | 2010-11-30 | 音声認識装置及びナビゲーション装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5409931B2 true JP5409931B2 (ja) | 2014-02-05 |
JPWO2012073275A1 JPWO2012073275A1 (ja) | 2014-05-19 |
Family
ID=46171273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012546569A Active JP5409931B2 (ja) | 2010-11-30 | 2010-11-30 | 音声認識装置及びナビゲーション装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20130158999A1 (ja) |
JP (1) | JP5409931B2 (ja) |
CN (1) | CN103229232B (ja) |
DE (1) | DE112010006037B4 (ja) |
WO (1) | WO2012073275A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101566254B1 (ko) * | 2014-09-22 | 2015-11-05 | 엠앤서비스 주식회사 | 경로 안내를 위한 음성인식 지원 장치 및 방법, 그리고 시스템 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019983B2 (en) * | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
US9317736B1 (en) * | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
DE102014210716A1 (de) * | 2014-06-05 | 2015-12-17 | Continental Automotive Gmbh | Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen |
AU2015305397A1 (en) * | 2014-08-21 | 2017-03-16 | Jobu Productions | Lexical dialect analysis system |
CN104834376A (zh) * | 2015-04-30 | 2015-08-12 | 努比亚技术有限公司 | 电子宠物的控制方法和装置 |
US10147442B1 (en) * | 2015-09-29 | 2018-12-04 | Amazon Technologies, Inc. | Robust neural network acoustic model with side task prediction of reference signals |
CN105741838B (zh) * | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN105869624B (zh) | 2016-03-29 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
US10628567B2 (en) * | 2016-09-05 | 2020-04-21 | International Business Machines Corporation | User authentication using prompted text |
JP6711343B2 (ja) * | 2017-12-05 | 2020-06-17 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
CN108428446B (zh) * | 2018-03-06 | 2020-12-25 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
WO2020004213A1 (ja) * | 2018-06-29 | 2020-01-02 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11379016B2 (en) | 2019-05-23 | 2022-07-05 | Intel Corporation | Methods and apparatus to operate closed-lid portable computers |
US11543873B2 (en) | 2019-09-27 | 2023-01-03 | Intel Corporation | Wake-on-touch display screen devices and related methods |
US11733761B2 (en) | 2019-11-11 | 2023-08-22 | Intel Corporation | Methods and apparatus to manage power and performance of computing devices based on user presence |
US11809535B2 (en) | 2019-12-23 | 2023-11-07 | Intel Corporation | Systems and methods for multi-modal user device authentication |
US11360528B2 (en) | 2019-12-27 | 2022-06-14 | Intel Corporation | Apparatus and methods for thermal management of electronic user devices based on user activity |
US20210109585A1 (en) * | 2020-12-21 | 2021-04-15 | Intel Corporation | Methods and apparatus to improve user experience on computing devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115492A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
JP2007017736A (ja) * | 2005-07-08 | 2007-01-25 | Mitsubishi Electric Corp | 音声認識装置 |
JP2009258369A (ja) * | 2008-04-16 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識辞書生成装置及び音声認識処理装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0589292A (ja) * | 1991-09-27 | 1993-04-09 | Sharp Corp | 文字列認識装置 |
EP0634042B1 (en) | 1992-03-06 | 2001-07-11 | Dragon Systems Inc. | Speech recognition system for languages with compound words |
US5699456A (en) | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JPH0919578A (ja) | 1995-07-07 | 1997-01-21 | Matsushita Electric Works Ltd | 往復式電気かみそり |
JPH09265509A (ja) * | 1996-03-28 | 1997-10-07 | Nec Corp | 合わせ読み住所認識方式 |
JP3447521B2 (ja) * | 1997-08-25 | 2003-09-16 | Necエレクトロニクス株式会社 | 音声認識ダイアル装置 |
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP4600706B2 (ja) * | 2000-02-28 | 2010-12-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
US6877001B2 (en) | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
KR100679042B1 (ko) | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
EP1734509A1 (en) | 2005-06-17 | 2006-12-20 | Harman Becker Automotive Systems GmbH | Method and system for speech recognition |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
JP5266761B2 (ja) * | 2008-01-10 | 2013-08-21 | 日産自動車株式会社 | 情報案内システムおよびその認識辞書データベース更新方法 |
EP2081185B1 (en) | 2008-01-16 | 2014-11-26 | Nuance Communications, Inc. | Speech recognition on large lists using fragments |
JP2009258293A (ja) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識語彙辞書作成装置 |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
WO2010013369A1 (ja) * | 2008-07-30 | 2010-02-04 | 三菱電機株式会社 | 音声認識装置 |
CN101350004B (zh) * | 2008-09-11 | 2010-08-11 | 北京搜狗科技发展有限公司 | 形成个性化纠错模型的方法及个性化纠错的输入法系统 |
EP2221806B1 (en) | 2009-02-19 | 2013-07-17 | Nuance Communications, Inc. | Speech recognition of a list entry |
-
2010
- 2010-11-30 WO PCT/JP2010/006972 patent/WO2012073275A1/ja active Application Filing
- 2010-11-30 DE DE112010006037.1T patent/DE112010006037B4/de active Active
- 2010-11-30 JP JP2012546569A patent/JP5409931B2/ja active Active
- 2010-11-30 CN CN201080070373.6A patent/CN103229232B/zh active Active
- 2010-11-30 US US13/819,298 patent/US20130158999A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115492A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
JP2007017736A (ja) * | 2005-07-08 | 2007-01-25 | Mitsubishi Electric Corp | 音声認識装置 |
JP2009258369A (ja) * | 2008-04-16 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識辞書生成装置及び音声認識処理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101566254B1 (ko) * | 2014-09-22 | 2015-11-05 | 엠앤서비스 주식회사 | 경로 안내를 위한 음성인식 지원 장치 및 방법, 그리고 시스템 |
Also Published As
Publication number | Publication date |
---|---|
CN103229232A (zh) | 2013-07-31 |
DE112010006037T5 (de) | 2013-09-19 |
CN103229232B (zh) | 2015-02-18 |
DE112010006037B4 (de) | 2019-03-07 |
JPWO2012073275A1 (ja) | 2014-05-19 |
WO2012073275A1 (ja) | 2012-06-07 |
US20130158999A1 (en) | 2013-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US9940927B2 (en) | Multiple pass automatic speech recognition methods and apparatus | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US20060265222A1 (en) | Method and apparatus for indexing speech | |
WO2004034378A1 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2008532099A (ja) | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム | |
JPH08328585A (ja) | 自然言語処理装置および自然言語処理方法、並びに音声認識装置および音声認識方法 | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
CN115148211A (zh) | 音频敏感内容检测方法、计算机设备和计算机程序产品 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
JP4511274B2 (ja) | 音声データ検索装置 | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
JP3881155B2 (ja) | 音声認識方法及び装置 | |
KR102217621B1 (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5409931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |