JP6019604B2 - 音声認識装置、音声認識方法、及びプログラム - Google Patents
音声認識装置、音声認識方法、及びプログラム Download PDFInfo
- Publication number
- JP6019604B2 JP6019604B2 JP2012029207A JP2012029207A JP6019604B2 JP 6019604 B2 JP6019604 B2 JP 6019604B2 JP 2012029207 A JP2012029207 A JP 2012029207A JP 2012029207 A JP2012029207 A JP 2012029207A JP 6019604 B2 JP6019604 B2 JP 6019604B2
- Authority
- JP
- Japan
- Prior art keywords
- field
- language model
- speech recognition
- appearance frequency
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012545 processing Methods 0.000 claims description 30
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする。
(a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする。
コンピュータに、
(a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させることを特徴とする。
最初に、以下の本発明の実施の形態で用いられる主な用語について以下に説明する。まず、「言語モデル」とは、単語とその並び方の情報とを集めた統計的モデルを意味する。統計的モデルの具体例としては、Nグラムモデルが挙げられる。
(参照文献)
・特開2005−275348号公報
・特開2011−017818号公報
・李晃伸、河原達也、鹿野清宏著、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告、2003-SLP-49-48、2003-12.
以下、本発明の実施の形態における、音声認識装置、音声認識方法、及びプログラムについて、図1〜図9を参照しながら説明する。
最初に、本実施の形態における音声認識装置の概略構成について図1を用いて説明する。図1は、本発明の実施の形態における音声認識装置の概略構成を示すブロック図である。
続いて、本実施の形態における音声認識装置の構成について図2〜図5を用いて更に具体的に説明する。図2は、本発明の実施の形態における音声認識装置の具体的構成を示すブロック図である。
次に、本発明の実施の形態における音声認識装置20の動作について図6及び図7を用いて説明する。本実施の形態では、音声認識装置20は、事前準備としての判別用言語モデルの作成処理と、音声認識処理とを実行する。このため、以下においては、処理毎に説明を行なう。
最初に、図6を用いて、判別用言語モデル25の作成処理について説明する。図6は、本発明の実施の形態における音声認識装置の判別用言語モデル作成処理時の動作を示すフロー図である。また、本実施の形態では、図6に示す判別用言語モデル25の作成処理は、分野別言語モデル26において、言語モデルの追加、削除、変更等の更新があった場合に実施される。
続いて、図7を用いて、音声認識処理について説明する。図7は、本発明の実施の形態における音声認識装置の音声認識処理時の動作を示すフロー図である。また、本実施の形態では、図7に示す音声認識処理は、端末10から音声が送信されてくるたびに実施される。
本実施の形態における音声認識装置20の用途について説明する。まず、音声認識装置は、様々な話題についてお客様からの相談を受けるコールセンターでお客様側の音声を認識させる場合、複数の分野の音声ファイルを一括で認識させたい場合、及びクラウドでの利用時に入力される音声が分からない場合などにおいて利用される。
本実施の形態におけるプログラムは、コンピュータに、図6に示すステップS1〜S5、図7に示すステップT2〜T8、T10〜T12を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声認識装置20と音声認識方法とを実現することができる。
複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、判別用言語モデル作成部と、
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする、音声認識装置。
前記判別用言語モデル作成部が、
前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、出現頻度リスト作成部と、
前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、テキスト選択部と、
前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、作成処理部と、を備え、
前記分野判定部が、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、付記1に記載の音声認識装置。
特定された前記分野以外の分野について、前記判別用言語モデル作成部が選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、言語モデル再構築部を更に備え、
前記音声認識部が、前記言語モデル再構築部によって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
付記1または2に記載の音声認識装置。
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
前記音声認識部が、予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
付記1または2に記載の音声認識装置。
前記作成処理部が、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記2に記載の音声認識装置。
(a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする、音声認識方法。
前記(a)のステップが、
(a1)前記分野毎の学習テキストを用いて、前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、ステップと、
(a2)前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、ステップと、
(a3)前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、ステップと、を有し、
前記(c)のステップにおいて、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、
付記6に記載の音声認識方法。
(d)特定された前記分野以外の分野について、前記(a)のステップで選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、ステップと、
(e)前記(d)のステップによって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップと、
を更に有している、付記6または7に記載の音声認識方法。
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
(f)予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップを、
更に有している、付記6または7に記載の音声認識方法。
前記(a3)のステップにおいて、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記7に記載の音声認識方法。
コンピュータに、
(a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させる、プログラム。
前記(a)のステップが、
(a1)前記分野毎の学習テキストを用いて、前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、ステップと、
(a2)前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、ステップと、
(a3)前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、ステップと、を有し、
前記(c)のステップにおいて、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、
付記11に記載のプログラム。
(d)特定された前記分野以外の分野について、前記(a)のステップで選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、ステップと、
(e)前記(d)のステップによって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップと、
を更に前記コンピュータに実行させる、付記11または12に記載のプログラム。
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
(f)予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップを、
更に前記コンピュータに実行させる、付記11または12に記載のプログラム。
前記(a3)のステップにおいて、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記12に記載のプログラム。
11 音声検出部
12 認識結果表示部
20 音声認識装置
21 判別用言語モデル作成部
22 音声認識部
23 分野判定部
24 言語モデル再構築部
25 判別用言語モデル
26 分野別言語モデル
27 分野別学習テキスト
28 分野別出現頻度情報
29 カスタマイズ言語モデル
30 音響モデル
31 音響モデル格納部
32 判別用情報格納部
33 分野別情報格納部
34 カスタマイズ情報格納部
40 ネットワーク
50 ユーザ
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
211 出現頻度リスト作成部
212 テキスト選択部
213 作成処理部
214 出現頻度リスト
215 条件合致文リスト
Claims (7)
- 複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、判別用言語モデル作成部と、
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする、音声認識装置。 - 前記判別用言語モデル作成部が、
前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、出現頻度リスト作成部と、
前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、テキスト選択部と、
前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、作成処理部と、を備え、
前記分野判定部が、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、請求項1に記載の音声認識装置。 - 特定された前記分野以外の分野について、前記判別用言語モデル作成部が選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、言語モデル再構築部を更に備え、
前記音声認識部が、前記言語モデル再構築部によって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
請求項1または2に記載の音声認識装置。 - 前記複数の分野それぞれ毎に予め言語モデルが用意されており、
前記音声認識部が、予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
請求項1または2に記載の音声認識装置。 - 前記作成処理部が、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
請求項2に記載の音声認識装置。 - (a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする、音声認識方法。 - コンピュータに、
(a)複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
(b)前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
(c)テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させる、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029207A JP6019604B2 (ja) | 2012-02-14 | 2012-02-14 | 音声認識装置、音声認識方法、及びプログラム |
US13/766,247 US9142211B2 (en) | 2012-02-14 | 2013-02-13 | Speech recognition apparatus, speech recognition method, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029207A JP6019604B2 (ja) | 2012-02-14 | 2012-02-14 | 音声認識装置、音声認識方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013167666A JP2013167666A (ja) | 2013-08-29 |
JP6019604B2 true JP6019604B2 (ja) | 2016-11-02 |
Family
ID=48946370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012029207A Active JP6019604B2 (ja) | 2012-02-14 | 2012-02-14 | 音声認識装置、音声認識方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9142211B2 (ja) |
JP (1) | JP6019604B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5932869B2 (ja) * | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9858923B2 (en) * | 2015-09-24 | 2018-01-02 | Intel Corporation | Dynamic adaptation of language models and semantic tracking for automatic speech recognition |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
CN108062954B (zh) * | 2016-11-08 | 2020-12-08 | 科大讯飞股份有限公司 | 语音识别方法和装置 |
JP6532619B2 (ja) * | 2017-01-18 | 2019-06-19 | 三菱電機株式会社 | 音声認識装置 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109410923B (zh) * | 2018-12-26 | 2022-06-10 | 中国联合网络通信集团有限公司 | 语音识别方法、装置、系统及存储介质 |
JP7177348B2 (ja) * | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | 音声認識装置、音声認識方法およびプログラム |
CN116402478B (zh) * | 2023-06-07 | 2023-09-19 | 成都普朗克科技有限公司 | 基于语音交互的生成清单的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3547350B2 (ja) | 1999-09-28 | 2004-07-28 | Kddi株式会社 | 連続音声認識装置 |
JP4270732B2 (ja) | 2000-09-14 | 2009-06-03 | 三菱電機株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004198597A (ja) * | 2002-12-17 | 2004-07-15 | Advanced Telecommunication Research Institute International | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 |
JP3923513B2 (ja) * | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
US8719021B2 (en) * | 2006-02-23 | 2014-05-06 | Nec Corporation | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program |
JP5212910B2 (ja) * | 2006-07-07 | 2013-06-19 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識用プログラム |
JP5530729B2 (ja) | 2009-01-23 | 2014-06-25 | 本田技研工業株式会社 | 音声理解装置 |
JP5148532B2 (ja) * | 2009-02-25 | 2013-02-20 | 株式会社エヌ・ティ・ティ・ドコモ | 話題判定装置および話題判定方法 |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
-
2012
- 2012-02-14 JP JP2012029207A patent/JP6019604B2/ja active Active
-
2013
- 2013-02-13 US US13/766,247 patent/US9142211B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20130211822A1 (en) | 2013-08-15 |
JP2013167666A (ja) | 2013-08-29 |
US9142211B2 (en) | 2015-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6019604B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
US10642577B2 (en) | Search and knowledge base question answering for a voice user interface | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
RU2571608C2 (ru) | Создание заметок с использованием голосового потока | |
US9558741B2 (en) | Systems and methods for speech recognition | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
JP2019061662A (ja) | 情報を抽出する方法及び装置 | |
US10108698B2 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
JP6980411B2 (ja) | 情報処理装置、対話処理方法、及び対話処理プログラム | |
EP2988298B1 (en) | Response generation method, response generation apparatus, and response generation program | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20240073984A (ko) | 관찰된 쿼리 패턴들에 기초하는 타겟 디바이스에 대한 증류 | |
KR20190074508A (ko) | 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법 | |
US11699430B2 (en) | Using speech to text data in training text to speech models | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
JP5636309B2 (ja) | 音声対話装置および音声対話方法 | |
US20170242845A1 (en) | Conversational list management | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
CN113593523A (zh) | 基于人工智能的语音检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150108 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20150123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6019604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |