JP6127422B2 - 音声認識装置及び方法、並びに、半導体集積回路装置 - Google Patents
音声認識装置及び方法、並びに、半導体集積回路装置 Download PDFInfo
- Publication number
- JP6127422B2 JP6127422B2 JP2012210456A JP2012210456A JP6127422B2 JP 6127422 B2 JP6127422 B2 JP 6127422B2 JP 2012210456 A JP2012210456 A JP 2012210456A JP 2012210456 A JP2012210456 A JP 2012210456A JP 6127422 B2 JP6127422 B2 JP 6127422B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- standard pattern
- speech recognition
- conversion list
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000004065 semiconductor Substances 0.000 title claims description 22
- 238000000034 method Methods 0.000 title claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 83
- 230000005236 sound signal Effects 0.000 claims description 64
- 230000004044 response Effects 0.000 claims description 57
- 238000001514 detection method Methods 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 10
- 235000013305 food Nutrition 0.000 description 34
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 12
- 240000008620 Fagopyrum esculentum Species 0.000 description 12
- 235000016496 Panda oleosa Nutrition 0.000 description 9
- 240000000220 Panda oleosa Species 0.000 description 9
- 235000021438 curry Nutrition 0.000 description 8
- 230000009118 appropriate response Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の各実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、携帯端末、ナビゲーション装置等の電子機器に搭載され、音声を認識し、その認識結果に対応する応答や処理を行うものである。
Claims (7)
- 入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
変換候補となる複数の単語又は文章を含む変換リストを格納する変換リスト格納部と、
前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
前記音声信号の先頭の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定する情報を出力する一致検出部と、
を含み、
一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
標準パターン抽出部は、先頭から2番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出し、
前記一致検出部は、前記先頭から2番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から2番目に有する単語又は文章を特定する情報を出力する半導体集積回路装置。 - 前記変換リスト格納部は、ホストCPUから前記変換リストを受信して格納し、
前記一致検出部は、一致が検出された音節を先頭に有する単語又は文章を特定する情報を認識結果として前記ホストCPUに出力する、請求項1記載の半導体集積回路装置。 - 前記標準パターン抽出部は、先頭の音素が子音の場合は、前記先頭の音素と前記先頭の音素に続く母音とを先頭の音節とし、前記標準パターンを抽出する、請求項1又は2記載の半導体集積回路装置。
- 応答データに基づいて出力音声信号を合成する音声信号合成部をさらに含み、
前記一致検出部が、前記音声信号合成部によって合成された前記出力音声信号に基づいて音声が発せられてから所定の期間内に入力された前記音声信号の先頭の音節から生成された前記特徴パターンを、前記音声認識データベースから抽出された前記標準パターンと比較する、
請求項1記載の半導体集積回路装置。 - 前記変換リストが、前記応答データに対応付けられている、請求項4記載の半導体集積回路装置。
- 請求項4記載の半導体集積回路装置と、
前記半導体集積回路装置による音声認識の結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す前記応答データを前記音声信号合成部に供給すると共に、前記選択された応答内容に対応する前記変換リストを前記変換リスト格納部に供給する制御部と、
を含む音声認識装置。 - 変換候補となる複数の単語又は文章を含む変換リストを格納するステップ(a)と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに含まれている各々の単語又は文章の、先頭の音節に対応する前記標準パターンを抽出するステップ(b)と、
入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、を有し、
前記音声信号の先頭の音節から生成された前記特徴パターンと前記抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭に有する単語又は文章を特定するステップ(d)と、
一致が検出された音節を先頭に有する複数の単語又は文章が前記変換リストに含まれている場合に、
標準パターン抽出部は、先頭から2番目の音節に対応する前記標準パターンを前記音声認識データベースから抽出するステップ(e)と、
前記一致検出部は、前記先頭から2番目の音節から生成された前記特徴パターンと前記標準パターン抽出部によって抽出された前記標準パターンとを比較することにより音節の一致を検出し、一致が検出された音節を先頭から2番目に有する単語又は文章を特定する情報を出力するステップ(e)と、
を含む音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012210456A JP6127422B2 (ja) | 2012-09-25 | 2012-09-25 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
US14/032,906 US9390709B2 (en) | 2012-09-25 | 2013-09-20 | Voice recognition device and method, and semiconductor integrated circuit device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012210456A JP6127422B2 (ja) | 2012-09-25 | 2012-09-25 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014066779A JP2014066779A (ja) | 2014-04-17 |
JP2014066779A5 JP2014066779A5 (ja) | 2015-09-24 |
JP6127422B2 true JP6127422B2 (ja) | 2017-05-17 |
Family
ID=50339721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012210456A Active JP6127422B2 (ja) | 2012-09-25 | 2012-09-25 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9390709B2 (ja) |
JP (1) | JP6127422B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134424B2 (en) * | 2015-06-25 | 2018-11-20 | VersaMe, Inc. | Wearable word counter |
US10789939B2 (en) | 2015-06-25 | 2020-09-29 | The University Of Chicago | Wearable word counter |
US10959648B2 (en) | 2015-06-25 | 2021-03-30 | The University Of Chicago | Wearable word counter |
CN109036461A (zh) * | 2017-06-12 | 2018-12-18 | 杭州海康威视数字技术股份有限公司 | 一种通知信息的输出方法、服务器及监控系统 |
US10319626B1 (en) | 2017-12-07 | 2019-06-11 | Globalfoundries Inc. | Interconnects with cuts formed by block patterning |
US10395926B1 (en) | 2018-04-17 | 2019-08-27 | Globalfoundries Inc. | Multiple patterning with mandrel cuts formed using a block mask |
CN111489743B (zh) * | 2019-01-28 | 2024-06-25 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的运营管理分析系统 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6048099A (ja) * | 1983-08-26 | 1985-03-15 | 松下電器産業株式会社 | 音声認識装置 |
US4908864A (en) * | 1986-04-05 | 1990-03-13 | Sharp Kabushiki Kaisha | Voice recognition method and apparatus by updating reference patterns |
GB8613327D0 (en) | 1986-06-02 | 1986-07-09 | British Telecomm | Speech processor |
JP3865149B2 (ja) * | 1995-08-22 | 2007-01-10 | 株式会社リコー | 音声認識装置および方法、辞書作成装置および情報記憶媒体 |
FI114247B (fi) | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
JP2000047690A (ja) * | 1998-07-29 | 2000-02-18 | Meidensha Corp | 音声認識装置における音素計算処理量削減方法 |
GB2352933A (en) * | 1999-07-31 | 2001-02-07 | Ibm | Speech encoding in a client server system |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
JP4524866B2 (ja) | 2000-06-16 | 2010-08-18 | カシオ計算機株式会社 | 音声認識装置、及び音声認識方法 |
JP2004163448A (ja) | 2002-11-08 | 2004-06-10 | Matsushita Electric Ind Co Ltd | 音声認識装置、方法、およびそのプログラム |
US7280651B2 (en) * | 2003-05-20 | 2007-10-09 | At&T Bls Intellectual Property, Inc. | Method and system for performing automated telemarketing |
JP4301896B2 (ja) | 2003-08-22 | 2009-07-22 | シャープ株式会社 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
JP4479191B2 (ja) | 2003-08-25 | 2010-06-09 | カシオ計算機株式会社 | 音声認識装置、音声認識方法及び音声認識処理プログラム |
US7966183B1 (en) * | 2006-05-04 | 2011-06-21 | Texas Instruments Incorporated | Multiplying confidence scores for utterance verification in a mobile telephone |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US8515757B2 (en) * | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
JP2011039902A (ja) | 2009-08-17 | 2011-02-24 | Mitsubishi Electric Corp | データ処理装置及びデータ処理方法及びプログラム |
-
2012
- 2012-09-25 JP JP2012210456A patent/JP6127422B2/ja active Active
-
2013
- 2013-09-20 US US14/032,906 patent/US9390709B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140088960A1 (en) | 2014-03-27 |
JP2014066779A (ja) | 2014-04-17 |
US9390709B2 (en) | 2016-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
US9190060B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2008139568A (ja) | 音声処理装置および音声処理方法、並びに、プログラム | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5029884B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP2015055653A (ja) | 音声認識装置及び方法、並びに、電子機器 | |
CN107251137B (zh) | 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质 | |
Sayem | Speech analysis for alphabets in Bangla language: automatic speech recognition | |
Hatala | Speech recognition for Indonesian language and its application to home automation | |
JP6221253B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP6221267B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP5012444B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150807 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150807 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160609 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20160621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160913 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6127422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |