JP6080978B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP6080978B2 JP6080978B2 JP2015548915A JP2015548915A JP6080978B2 JP 6080978 B2 JP6080978 B2 JP 6080978B2 JP 2015548915 A JP2015548915 A JP 2015548915A JP 2015548915 A JP2015548915 A JP 2015548915A JP 6080978 B2 JP6080978 B2 JP 6080978B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic
- language
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 238000013500 data storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 101000760620 Homo sapiens Cell adhesion molecule 1 Proteins 0.000 description 1
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Description
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の基本概念を示すブロック図である。この音声認識装置は、音声取得部1、音響分析部2、言語ごとに用意された音響モデル3−1〜3−x(xは任意の数)、音響モデル切換部4、音声認識部5、音声データ記憶部6、音声データ加工部7、辞書生成部8、言語ごとに作成される判定用辞書9−1〜9−xを備えている。
なお、以下の説明において、原音声をデジタル信号化した音声信号を原音声信号と記載する。
なお、以下の説明において、加工された音声信号を加工音声信号と記載する。
加工方法としては、例えば、音声認識装置が使用される環境下で想定される環境騒音の重畳、音量の変更、速度の変更等、またはこれらの組み合わせが挙げられ、ユーザの発話の特徴を消さないような加工方法であればよい。一方、人の声が混入している音声の重畳、および周波数の変更は避ける。
この音響分析部2は、例えば、音声信号を一定の時間間隔で分析して、音声の特徴を表す音響特徴の時系列データ(音響特徴量ベクトル)を出力する。
例えば、英語を母国語とするユーザが発話する英語を第1言語とし、当該第1言語用に音響モデル3−1および後述する判定用辞書9−1を用意する。他方、ドイツ語を母国語とするユーザが発話する英語を第2言語とし、当該第2言語用に音響モデル3−2および後述する判定用辞書9−2を用意する。
また、ユーザに適した音響モデル決定の際、音声認識部5は、音響分析部2によって出力された音響特徴の時系列データを入力として、音響モデル3−1〜3−xと判定用辞書9−1〜9−xとを用いて音響特徴の時系列に対する音声認識処理を実行し、認識結果として認識スコアを出力する。
一方、通常の音声認識処理では、音声認識部5が、音響分析部2によって出力された音響特徴の時系列データを入力とし、音響モデル切換部4により決定された音響モデル3−1〜3−xのうちのいずれか1つの音響モデルを用いて音声認識処理を実行し認識結果を出力する。
例えば、音声認識部5が音響特徴の時系列データを第1言語の音響モデル3−1と照合して対応する音素ラベル列を出力した場合、辞書生成部8はこの音素ラベル列を第1言語の判定用辞書9−1に格納する。
なお、辞書生成部8の機能を音声認識部5に持たせて、音声認識部5に判定用辞書9−1〜9−xを生成させる構成にしてもよい。
音響モデル切換部4が音響モデルを決定する処理については、後述する。
また、音声認識装置は、例えば、プログラムを格納したメモリと、そのプログラムを実行するCPU(Central Processing Unit)とを有する構成にして、CPUがプログラムを実行することにより音声取得部1、音響分析部2、音響モデル切換部4、音声認識部5、音声データ加工部7、および辞書生成部8が持つ機能をソフトウエアによって実現するようにしてもよいし、あるいはその一部をハードウエアで置き換えてもよい。
また、音声認識装置が音素単位で音声認識処理を行う構成にしたが、音素以外の単位で音声認識処理を行う構成にしてもよい。
図2は、ユーザに適した音響モデルを決定する処理を示すフローチャートである。
まず、音声取得部1は、ユーザが自由に発話した音声をマイクを介して原音声として取得し、例えばPCMによりA/D変換して原音声信号にし(ステップST1)、音声データ記憶部6に格納する(ステップST2)。
その後、音響分析部2が原音声信号を分析して音響特徴の時系列データを生成し、音声認識部5が当該音響特徴の時系列データを音響モデル3−1〜3−xそれぞれと照合して対応する音素ラベル列を求め、辞書生成部8が当該音素ラベル列を対応する言語の判定用辞書9−1〜9−xに格納する(ステップST4)。
まず、音響分析部2は、原音声信号を分析して音響特徴の時系列データに変換する(ステップST11)。
続いて、音響モデル切換部4は、音響モデル3−1〜3−xをカウントするためのカウンタnを初期化する(ステップST12)。そして、音響モデル切換部4は、カウンタnが音響モデル数x以下の場合(ステップST13“YES”)、音声認識部5に対して第n言語の音響モデル3−nを用いて原音声信号を認識するよう指示を出力する(ステップST14)。
まず、音響分析部2は、音声データ加工部7により1個の原音声信号から生成された複数パターン(例えば、第1〜第yパターン;yは任意の数)の加工音声信号を分析して、加工音声信号それぞれを音響特徴の時系列データに変換する(ステップST21)。
音声認識部5は、その後の音声認識処理において、音響モデル切換部4が決定した音響モデルを用いる。
音響モデル切換部4は、音響モデル3−1〜3−xそれぞれについて、第1〜第yパターンの加工音声信号の認識スコアの平均値を求め、平均値が最も大きい音響モデルを決定する。
具体的には、第1〜第x言語の音響モデル3−1〜3−xを用いて加工音声信号の音声認識処理を実行した際の認識スコアが、図5に示すような場合、第1言語の音響モデル3−1に対応付けられた第1〜第3パターンの加工音声信号の認識スコア「400」、「430」、「400」の平均値は「410」になる。第2言語の音響モデル3−2に対応付けられた第1〜第3パターンの加工音声信号の認識スコアの平均値は「390」、第3言語の音響モデル3−3に対応付けられた第1〜第3パターンの加工音声信号の認識スコアの平均値は「380」になる。よって、音響モデル切換部4は、平均値が最も大きい第1言語の音響モデル3−1を、ユーザに適した音響モデルとして決定する。
具体的には、図5に示す認識スコアの場合であって、閾値を「400」とすると、第1言語の音響モデル3−1の評価値は「3」、第2言語の音響モデル3−2の評価値は「1」、第3言語の音響モデル3−3の評価値は「0」となる。よって、音響モデル切換部4は、評価値が最も大きい第1言語の音響モデル3−1を、ユーザに適した音響モデルとして決定する。
あるいは、音声データ加工部7は、1個の原音声信号から複数パターンの加工音声信号を生成し、音響モデル切換部4は、言語ごとに、複数パターンの加工音声信号に対応する複数の認識スコアと閾値とを比較し、当該閾値以上の認識スコア数が最も多い(即ち、評価値が最も大きい)言語の音響モデルを決定するようにしてもよい。
このようにすることで、よりユーザに適した音響モデルを決定することができる。
図6は、実施の形態2に係る音声認識装置の構成を示すブロック図であり、車両等の移動体に搭載されたナビゲーション装置に音声認識装置を組み込んだ例である。
実施の形態2に係る音声認識装置を適用したナビゲーション装置は、ナビゲーション動作実行部10、ナビゲーション用システム辞書11、およびボイスタグ用ユーザ辞書12を備える。ナビゲーション動作実行部10は、自車位置を検出して図示しないディスプレイの地図上に自車位置を表示したり、自車位置から目的地へ経路案内を行ったりする。ナビゲーション用システム辞書11には、ナビゲーション動作実行部10が実行する機能に対応付けられた操作コマンドの音素ラベル列が格納されている。
なお、図6において図1と同一または相当の部分については同一の符号を付し説明を省略する。
さらに、実施の形態2では、ユーザ辞書生成機能を実施する際の音声(例えば、ボイスタグ)を音響モデル決定に利用する。
例えば、自車位置から「自宅」への経路案内をナビゲーション動作実行部10に実行させる操作コマンドを、ボイスタグとして、ボイスタグ用ユーザ辞書12に登録する場合を考える。この場合、ユーザがボイスタグを登録するために「自宅」と発話すると、音声取得部1が原音声として取得し(ステップST1)、音声データ記憶部6へ格納する(ステップST2)。
Claims (6)
- 音声を取得して原音声信号として出力する音声取得部と、
前記原音声信号を加工して加工音声信号を生成する音声データ加工部と、
前記原音声信号および前記加工音声信号を分析して音響特徴の時系列データを生成する音響分析部と、
認識対象とする複数の言語に対応した複数の音響モデルと、
各言語の前記音響モデルを用いて、前記原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し各言語の判定用辞書を生成すると共に、各言語の前記音響モデルと前記判定用辞書とを用いて、前記加工音声信号の音響特徴の時系列データを認識処理し言語ごとに認識スコアを算出する音声認識部と、
前記音声認識部が算出した前記言語ごとの認識スコアに基づいて、複数の前記音響モデルの中から一の音響モデルを決定する音響モデル切換部とを備える音声認識装置。 - 前記音声データ加工部は、一の原音声信号に対して複数の加工音声信号を生成することを特徴とする請求項1記載の音声認識装置。
- 前記音声データ加工部は、原音声信号に環境騒音を重畳した加工音声信号を生成することを特徴とする請求項1記載の音声認識装置。
- 前記音声データ加工部は、原音声信号の周波数を固定して音量を変更した加工音声信号を生成することを特徴とする請求項1記載の音声認識装置。
- 前記音声取得部は、車両の乗員が発話した音声を取得し、
前記音声データ加工部は、原音声信号に前記車両の騒音を重畳した加工音声信号を生成することを特徴とする請求項1記載の音声認識装置。 - デジタル信号化された音声である原音声信号を加工して加工音声信号を生成する音声データ加工ステップと、
前記原音声信号および前記加工音声信号を分析して音響特徴の時系列データを生成する音響分析ステップと、
認識対象とする複数の言語に対応した複数の音響モデルを用いて、前記原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し、各言語の判定用辞書を生成する判定辞書生成ステップと、
各言語の前記音響モデルと前記判定用辞書とを用いて、前記加工音声信号の音響特徴の時系列データを認識処理し、言語ごとに認識スコアを算出する認識スコア算出ステップと、
前記言語ごとの認識スコアに基づいて、複数の前記音響モデルの中から一の音響モデルを決定する音響モデル決定ステップとを備える音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/081287 WO2015075789A1 (ja) | 2013-11-20 | 2013-11-20 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6080978B2 true JP6080978B2 (ja) | 2017-02-15 |
JPWO2015075789A1 JPWO2015075789A1 (ja) | 2017-03-16 |
Family
ID=53179097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015548915A Active JP6080978B2 (ja) | 2013-11-20 | 2013-11-20 | 音声認識装置および音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9711136B2 (ja) |
JP (1) | JP6080978B2 (ja) |
CN (1) | CN105793920B (ja) |
DE (1) | DE112013007617B4 (ja) |
WO (1) | WO2015075789A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6413263B2 (ja) * | 2014-03-06 | 2018-10-31 | 株式会社デンソー | 報知装置 |
JP6109451B2 (ja) * | 2014-12-24 | 2017-04-05 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
US20170011735A1 (en) * | 2015-07-10 | 2017-01-12 | Electronics And Telecommunications Research Institute | Speech recognition system and method |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
US10403268B2 (en) | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
WO2018173295A1 (ja) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | ユーザインタフェース装置及び方法、並びに音操作システム |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
CN110118563A (zh) * | 2018-02-05 | 2019-08-13 | 上海博泰悦臻电子设备制造有限公司 | 导航终端及其导航地图数据更新方法、及无人驾驶车辆 |
CN108428446B (zh) * | 2018-03-06 | 2020-12-25 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
JP2020056972A (ja) * | 2018-10-04 | 2020-04-09 | 富士通株式会社 | 言語識別プログラム、言語識別方法及び言語識別装置 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
US20220148600A1 (en) * | 2020-11-11 | 2022-05-12 | Rovi Guides, Inc. | Systems and methods for detecting a mimicked voice input signal |
JP7508409B2 (ja) | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0673800U (ja) * | 1993-03-30 | 1994-10-18 | 富士通テン株式会社 | 音声認識装置 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JP2005025024A (ja) * | 2003-07-04 | 2005-01-27 | Microjenics Inc | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4531228A (en) * | 1981-10-20 | 1985-07-23 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
JP2001282788A (ja) | 2000-03-28 | 2001-10-12 | Kyocera Corp | 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体 |
EP1217610A1 (de) * | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Verfahren und System zur multilingualen Spracherkennung |
US20030191639A1 (en) * | 2002-04-05 | 2003-10-09 | Sam Mazza | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
JP2005241833A (ja) | 2004-02-25 | 2005-09-08 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識プログラム |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US20050197837A1 (en) * | 2004-03-08 | 2005-09-08 | Janne Suontausta | Enhanced multilingual speech recognition system |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
EP1769489B1 (fr) * | 2004-07-22 | 2009-09-09 | France Telecom | Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs |
DE602005004503T2 (de) | 2005-02-21 | 2009-01-22 | Harman Becker Automotive Systems Gmbh | Multilinguale Spracherkennung |
US20070124147A1 (en) * | 2005-11-30 | 2007-05-31 | International Business Machines Corporation | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
EP2192575B1 (en) * | 2008-11-27 | 2014-04-30 | Nuance Communications, Inc. | Speech recognition based on a multilingual acoustic model |
DE112009004313B4 (de) * | 2009-01-28 | 2016-09-22 | Mitsubishi Electric Corp. | Stimmerkennungseinrichtung |
JP4942860B2 (ja) * | 2010-01-22 | 2012-05-30 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
JP5318230B2 (ja) * | 2010-02-05 | 2013-10-16 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
US9053703B2 (en) * | 2010-11-08 | 2015-06-09 | Google Inc. | Generating acoustic models |
US9129591B2 (en) | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9009049B2 (en) * | 2012-06-06 | 2015-04-14 | Spansion Llc | Recognition of speech with different accents |
EP2736042A1 (en) * | 2012-11-23 | 2014-05-28 | Samsung Electronics Co., Ltd | Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
-
2013
- 2013-11-20 US US15/021,839 patent/US9711136B2/en active Active
- 2013-11-20 JP JP2015548915A patent/JP6080978B2/ja active Active
- 2013-11-20 DE DE112013007617.9T patent/DE112013007617B4/de active Active
- 2013-11-20 WO PCT/JP2013/081287 patent/WO2015075789A1/ja active Application Filing
- 2013-11-20 CN CN201380081091.XA patent/CN105793920B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0673800U (ja) * | 1993-03-30 | 1994-10-18 | 富士通テン株式会社 | 音声認識装置 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JP2005025024A (ja) * | 2003-07-04 | 2005-01-27 | Microjenics Inc | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2011185997A (ja) * | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
DE112013007617B4 (de) | 2020-06-18 |
JPWO2015075789A1 (ja) | 2017-03-16 |
CN105793920A (zh) | 2016-07-20 |
CN105793920B (zh) | 2017-08-08 |
US20160240188A1 (en) | 2016-08-18 |
DE112013007617T5 (de) | 2016-08-04 |
WO2015075789A1 (ja) | 2015-05-28 |
US9711136B2 (en) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6080978B2 (ja) | 音声認識装置および音声認識方法 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
EP3504709B1 (en) | Determining phonetic relationships | |
US9202465B2 (en) | Speech recognition dependent on text message content | |
JP4497834B2 (ja) | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
US20200184967A1 (en) | Speech processing system | |
US20130080172A1 (en) | Objective evaluation of synthesized speech attributes | |
US8756062B2 (en) | Male acoustic model adaptation based on language-independent female speech data | |
US9911408B2 (en) | Dynamic speech system tuning | |
EP1701338A1 (en) | Speech recognition method | |
US11282495B2 (en) | Speech processing using embedding data | |
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
US20070136060A1 (en) | Recognizing entries in lexical lists | |
JP2003308090A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US8015008B2 (en) | System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants | |
US20210183362A1 (en) | Information processing device, information processing method, and computer-readable storage medium | |
JP2018013549A (ja) | 発話内容認識装置 | |
JPH05100693A (ja) | 音声認識用コンピユータ・システム | |
JPH11184495A (ja) | 音声認識装置 | |
JP2000242295A (ja) | 音声認識装置および音声対話装置 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JPH08110790A (ja) | 音声認識装置 | |
Karpagavalli et al. | Automatic Speech Recognition: Architecture, Methodologies and Challenges-A Review. | |
JP2006337963A (ja) | 音声対話装置及び訂正発話認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161118 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20161125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6080978 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |