JP2016177045A - 音声認識装置および音声認識プログラム - Google Patents
音声認識装置および音声認識プログラム Download PDFInfo
- Publication number
- JP2016177045A JP2016177045A JP2015055976A JP2015055976A JP2016177045A JP 2016177045 A JP2016177045 A JP 2016177045A JP 2015055976 A JP2015055976 A JP 2015055976A JP 2015055976 A JP2015055976 A JP 2015055976A JP 2016177045 A JP2016177045 A JP 2016177045A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- speech
- recognition
- feature amount
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims description 58
- 238000000605 extraction Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 32
- 238000005520 cutting process Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000011218 segmentation Effects 0.000 abstract 2
- 230000001186 cumulative effect Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】連続的に発話されたフレーズ群の音声を入力する音声入力手段(101)と、フレーズ群に含まれる事前登録単語を推定する第1の推定手段(104)と、追加登録単語の特徴量列についてのパターンデータと入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第2の推定手段(106)とを備える。第1の推定手段(104)は、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、事前登録単語候補の音声区間を切り出す切出し手段(211)と、モデルパラメータを用いた認識処理によって、切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段(212)とを含む。
【選択図】図2
Description
本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数の登録単語から、音声信号が表わす単語を推定して出力する。認識対象の登録単語としては、不特定話者対応の事前登録単語と、特定話者対応の追加登録単語との双方を含む。一般的に、事前登録単語の認識には、各単語のモデルパラメータが用いられ、追加登録単語の認識には、各単語の特徴量列(特徴量ベクトル列)についてのパターンデータが用いられる。
(ハードウェア構成)
本実施の形態に係る音声認識装置は、たとえばPC(Personal Computer)などの汎用コンピュータによって実現可能である。
図2は、本発明の実施の形態に係る音声認識装置1の機能構成を示す機能ブロック図である。図2を参照して、音声認識装置1は、その主な機能構成として、音声入力部101と、抽出部102と、設定・更新部103と、HMMフレーズ推定部(第1の推定部)104と、DTWフレーズ推定部(第2の推定部)106と、受理判定部105,107と、結果出力部108とを含む。
図7は、本発明の実施の形態における音声認識処理を示すフローチャートである。図7のフローチャートに示す処理手順は、予めプログラムとしてROM12に格納されており、CPU11が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。
本実施の形態における連続的音声認識方法に従い、「チャピット、メールソーシン(メール送信)、サトーサン(佐藤さん)」という連続的音声に対して行った実験結果について説明する。
Claims (9)
- 複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶手段と、
事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力する音声入力手段と、
前記記憶手段に記憶された前記モデルパラメータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第1の推定手段と、
前記記憶手段に記憶された前記パターンデータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第2の推定手段とを備え、
前記第1の推定手段は、
前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出す切出し手段と、
前記モデルパラメータを用いた認識処理によって、前記切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段とを含む、音声認識装置。 - 前記第1の推定手段または前記第2の推定手段により単語が推定された場合に、推定された単語を認識結果として受理するか否かの受理判定を行う受理判定手段と、
前記受理判定手段により受理された単語を出力する出力手段と、
前記受理判定手段により受理された単語の音声区間を前記認識対象区間から削除することによって、前記認識対象区間を更新する更新手段とをさらに備える、請求項1に記載の音声認識装置。 - 前記認識対象区間の音声に対し、先に、前記第1の推定手段による事前登録単語の推定処理を実行し、前記第1の推定手段の推定結果が前記受理判定手段により棄却された場合に、前記第2の推定手段による追加登録単語の推定処理を実行する、請求項2に記載の音声認識装置。
- 前記切出し手段で用いられる前記テンプレート特徴量列は、前記モデルパラメータから復元された特徴量列である、請求項1〜3のいずれかに記載の音声認識装置。
- 前記記憶手段に記憶された前記モデルパラメータから、前記複数の事前登録単語それぞれの特徴パターンを算出し、前記テンプレート特徴量列を復元する復元手段をさらに備える、請求項4に記載の音声認識装置。
- 前記切出し手段は、前記モデルパラメータに含まれるばらつき情報に基づいて重み付けを行って、事前登録単語候補を抽出する、請求項1〜5のいずれかに記載の音声認識装置。
- 前記第2の推定手段は、
前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語候補を抽出し、抽出された前記追加登録単語候補の音声区間を切り出す手段と、
切り出された前記追加登録単語候補の音声区間内の特徴量列を、前記パターンデータに応じた特徴量列に照合させることによって、追加登録単語の認識処理を行う手段とを含む、請求項1〜6のいずれかに記載の音声認識装置。 - 前記第2の推定手段は、前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語を推定する、請求項1〜6のいずれかに記載の音声認識装置。
- 複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶部を備えたコンピュータにおいて実行されるプログラムであって、
事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力するステップと、
前記記憶部に記憶された前記モデルパラメータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第1の推定ステップと、
前記記憶部に記憶された前記パターンデータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第2の推定ステップとを備え、
前記第1の推定ステップは、
前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出すステップと、
前記モデルパラメータを用いた認識処理によって、前記切り出された音声区間内の特徴量に基づき事前登録単語を推定するステップとを含む、音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015055976A JP6481939B2 (ja) | 2015-03-19 | 2015-03-19 | 音声認識装置および音声認識プログラム |
US15/071,878 US20160275944A1 (en) | 2015-03-19 | 2016-03-16 | Speech recognition device and method for recognizing speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015055976A JP6481939B2 (ja) | 2015-03-19 | 2015-03-19 | 音声認識装置および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016177045A true JP2016177045A (ja) | 2016-10-06 |
JP6481939B2 JP6481939B2 (ja) | 2019-03-13 |
Family
ID=56923910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015055976A Active JP6481939B2 (ja) | 2015-03-19 | 2015-03-19 | 音声認識装置および音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160275944A1 (ja) |
JP (1) | JP6481939B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920513A (zh) * | 2018-05-31 | 2018-11-30 | 深圳市图灵机器人有限公司 | 一种多媒体数据处理方法、装置和电子设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
CN108320750A (zh) * | 2018-01-23 | 2018-07-24 | 东南大学—无锡集成电路技术研究所 | 一种基于改进型动态时间规整语音识别算法的实现方法 |
CN112466288B (zh) * | 2020-12-18 | 2022-05-31 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN118506767B (zh) * | 2024-07-16 | 2024-10-15 | 陕西智库城市建设有限公司 | 一种用于智慧物业的语音识别方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5352003A (en) * | 1976-10-22 | 1978-05-12 | Nec Corp | Recognition equipment of continous word voice |
JPS61105599A (ja) * | 1984-10-29 | 1986-05-23 | 富士通株式会社 | 連続音声認識装置 |
JPH04233599A (ja) * | 1990-12-28 | 1992-08-21 | Canon Inc | 音声認識方法及び装置 |
JPH0685893A (ja) * | 1990-09-28 | 1994-03-25 | Texas Instr Inc <Ti> | 音声テレフォン・ダイヤリング |
JPH06266393A (ja) * | 1993-03-12 | 1994-09-22 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH11506845A (ja) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
JPH11202886A (ja) * | 1998-01-13 | 1999-07-30 | Hitachi Ltd | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
JP2001318688A (ja) * | 2000-05-12 | 2001-11-16 | Kenwood Corp | 音声認識装置 |
JP2010102163A (ja) * | 2008-10-24 | 2010-05-06 | Xanavi Informatics Corp | 車室内音声対話装置 |
WO2013027360A1 (ja) * | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4349700A (en) * | 1980-04-08 | 1982-09-14 | Bell Telephone Laboratories, Incorporated | Continuous speech recognition system |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
DK2293289T3 (da) * | 2008-06-06 | 2012-06-25 | Raytron Inc | Talegenkendelsessystem og fremgangsmåde |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
-
2015
- 2015-03-19 JP JP2015055976A patent/JP6481939B2/ja active Active
-
2016
- 2016-03-16 US US15/071,878 patent/US20160275944A1/en not_active Abandoned
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5352003A (en) * | 1976-10-22 | 1978-05-12 | Nec Corp | Recognition equipment of continous word voice |
JPS61105599A (ja) * | 1984-10-29 | 1986-05-23 | 富士通株式会社 | 連続音声認識装置 |
JPH0685893A (ja) * | 1990-09-28 | 1994-03-25 | Texas Instr Inc <Ti> | 音声テレフォン・ダイヤリング |
JPH04233599A (ja) * | 1990-12-28 | 1992-08-21 | Canon Inc | 音声認識方法及び装置 |
JPH06266393A (ja) * | 1993-03-12 | 1994-09-22 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH11506845A (ja) * | 1995-09-11 | 1999-06-15 | ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
JPH11202886A (ja) * | 1998-01-13 | 1999-07-30 | Hitachi Ltd | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
JP2001318688A (ja) * | 2000-05-12 | 2001-11-16 | Kenwood Corp | 音声認識装置 |
JP2010102163A (ja) * | 2008-10-24 | 2010-05-06 | Xanavi Informatics Corp | 車室内音声対話装置 |
WO2013027360A1 (ja) * | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920513A (zh) * | 2018-05-31 | 2018-11-30 | 深圳市图灵机器人有限公司 | 一种多媒体数据处理方法、装置和电子设备 |
CN108920513B (zh) * | 2018-05-31 | 2022-03-15 | 深圳市图灵机器人有限公司 | 一种多媒体数据处理方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20160275944A1 (en) | 2016-09-22 |
JP6481939B2 (ja) | 2019-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
US10665227B2 (en) | Voice recognition device and voice recognition method | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
JPWO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
US20110218802A1 (en) | Continuous Speech Recognition | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
Këpuska | Wake-up-word speech recognition | |
JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
KR100930587B1 (ko) | 혼동 행렬 기반 발화 검증 방법 및 장치 | |
JP3444108B2 (ja) | 音声認識装置 | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP2020008730A (ja) | 感情推定システムおよびプログラム | |
JP4297349B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6481939 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |