JP2013182150A - 発話区間検出装置及び発話区間検出のためのコンピュータプログラム - Google Patents
発話区間検出装置及び発話区間検出のためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2013182150A JP2013182150A JP2012046358A JP2012046358A JP2013182150A JP 2013182150 A JP2013182150 A JP 2013182150A JP 2012046358 A JP2012046358 A JP 2012046358A JP 2012046358 A JP2012046358 A JP 2012046358A JP 2013182150 A JP2013182150 A JP 2013182150A
- Authority
- JP
- Japan
- Prior art keywords
- state
- acoustic
- frame
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】発話区間検出装置は、特定話者の音響モデル108、不特定話者の音響モデル106、及び、無音状態の音響モデル110を記憶する音響モデル記憶装置と、音声信号のフレームごとに音響特徴量を算出して出力する特徴抽出部102と、一連の音響特徴量からなるフレームの各々が、特定話者、不特定話者、及び無音状態からの音声である尤度を音響モデル108,106及び110を用いて算出する尤度算出部124、126、及び128と、算出された尤度に基づいて特定話者の音声信号から得られた区間を推定するモデル適用部122とを含む。
【選択図】図3
Description
《構成》
図2に、本発明の第1の実施の形態に係る音声認識システム60の構成を模式的に示す。図2を参照して、この音声認識システム60は、インターネット62に接続され、各種端末に対して音声認識サービスを提供する音声認識サーバ64と、インターネット62を介して音声認識サーバ64と通信可能で、音声認識サーバ64による音声認識サービスを受けるための機能を備えた、この発明の第1の実施の形態に係る発話区間検出装置を採用した携帯電話66とを含む。
音声認識システム60は以下のように動作する。図2を参照して、携帯電話66のユーザは、最初に音声認識システム60の音声認識サービスを利用するためのアプリケーションを携帯電話66において起動する。タッチ・パネル・ディスプレイ72には、発話開始を指示するためのボタンが表示される。ユーザがこの発話開始ボタンを押すと、図3に示す制御部116がその入力を検知し、フロントエンド処理部76の各部の動作を開始させる。
上記実施の形態に開示した手法による発話区間検出の有効性を確認するため、発話区間検出実験を行なった。実験対象となる音声データベースとしては、各GMMの学習用に音素バランス文データベース(TRA−BLA)と旅行会話文データベース(TRA)を、評価用に旅行会話基本表現集(BTEC)を、それぞれ用いた。これらはいずれも株式会社国際電気通信基礎技術研究所から入手可能である。
《構成》
上記第1の実施の形態では、発話区間検出にHMMを用いていた。このHMMは、フレームごとに各モデルの出力する尤度にだけ依存して発話区間を検出する場合の検出結果を平滑化する機能を持つ。同様の平滑化は、HMM以外を用いて実現することもできる。例えばハングオーバによる手法がある。この第2の実施の形態は、HMMではなくハングオーバ方式により発話区間の検出結果を平滑化するものである。
この実施の形態に係る携帯電話280は、第1の実施の形態に係る携帯電話66と同様に動作する。異なるのは、第1の実施の形態に係る、HMMを用いた処理に代えて、図10に示すハングオーバ方式の処理により、3つの音響モデルから得られた結果を平滑化する点だけである。
上記第1の実施の形態では、図4にトポロジーを示すHMM130を用いた。しかし本発明をHMMで実施する際には、HMMのトポロジーは図4に示すようなものには限定されない。例えば、図11に示すようなHMMを使用することもできる。
上記した第1及び第2の実施の形態に係る携帯電話66及び携帯電話280を実現するための典型的なハードウェア構成について図12に示す。以下、これらを代表して携帯電話66に関するハードウェア構成を説明する。
76、290 フロントエンド処理部
106 不特定話者モデル
108 特定話者モデル
110 無音モデル
112 発話区間検出部
120 制約条件記憶部
122 モデル適用部
124、126、128 尤度計算部
300 尤度比較部
Claims (7)
- 特定話者の音声信号の発話区間を検出するための発話区間検出装置であって、
前記特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第1の統計的音響モデル、不特定話者の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第2の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第3の統計的音響モデルを記憶するための音響モデル記憶手段と、
音声信号をフレーム化し、フレームごとに前記音響特徴量を算出して出力するための音響特徴量算出手段と、
前記音響特徴量算出手段により出力される、一連の音響特徴量からなるフレームの各々が、前記第1、第2及び第3の統計的音響モデルの元となる音声信号から得られた尤度を前記第1、第2及び第3の統計的音響モデルを用いて算出するための尤度算出手段と、
前記尤度算出手段により算出された尤度に基づいて各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定するための発話区間推定手段とを含む、発話区間検出装置。 - 前記発話区間推定手段は、前記尤度算出手段により算出された尤度を用いる隠れマルコフモデルを用いた状態遷移により、各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定する隠れマルコフモデルによる状態推定手段を含み、
前記隠れマルコフモデルは、始点と終点との間に配置された第1〜第6の状態を含み、
前記第1、第4及び第6の状態の音響特徴量の出力確率は、前記第3の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第2及び第5の状態の音響特徴量の出力確率は、前記第2の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第3の状態の音響特徴量の出力確率は、前記第1の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第1〜第6の状態の各々について定義された、自己に遷移するリンクと、
前記始点から前記第1の状態及び前記第2の状態にそれぞれ遷移するリンクと、
前記第1の状態と前記第2の状態との間で相互に遷移するリンクと、
前記第1の状態と前記第2の状態とからそれぞれ前記第3の状態に遷移するリンクと、
前記第3の状態と前記第4の状態との間で相互に遷移するリンクと、
前記第3の状態から前記第5及び前記第6の状態にそれぞれ遷移するリンクと、
前記第5の状態と前記第6の状態との間で相互に遷移するリンクと、
前記第5の状態及び前記第6の状態から前記終点にそれぞれ遷移するリンクとを含む、請求項1に記載の発話区間検出装置。 - 前記隠れマルコフモデルはさらに、第7の状態を含み、当該第7の状態にの音響特徴量の出力確率は、前記第2の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第7の状態から当該第7の状態に遷移するリンクと、
前記第3の状態と前記第7の状態との間で相互に遷移するリンクとを含む、請求項2に記載の発話区間検出装置。 - 前記隠れマルコフモデルの各リンクに割当てられた遷移確率は、状態ごとに、当該状態を起点とするリンクの全てにおいて等しくなるように定められる、請求項2又は請求項3に記載の発話区間検出装置。
- 前記発話区間推定手段は、
前記尤度算出手段によりフレームごとに、前記第1、第2及び第3の統計的音響モデルの算出する尤度を比較し、最大の尤度を与える統計的音響モデルに対応する音源を、当該フレームの音源候補として推定する音源候補推定手段と、
前記音源候補推定手段によりフレームごとに推定された音源候補の時系列を平滑化するための平滑化手段と、
前記平滑化手段により平滑化された音源候補の時系列のうち、前記第1の統計的音響モデルに対応する音源からの得られたものであると推定されたフレーム列を前記特定話者の発話区間として特定するための手段とを含む、請求項1に記載の発話区間検出装置。 - 前記平滑化手段は、前記音源候補推定手段によりフレームごとに推定された音源候補の時系列を、ハングオーバ方式により平滑化するための手段を含む、請求項5に記載の発話区間検出装置。
- コンピュータを、請求項1〜請求項6のいずれかに記載の各手段として機能させる、発話区間検出のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046358A JP5988077B2 (ja) | 2012-03-02 | 2012-03-02 | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046358A JP5988077B2 (ja) | 2012-03-02 | 2012-03-02 | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182150A true JP2013182150A (ja) | 2013-09-12 |
JP5988077B2 JP5988077B2 (ja) | 2016-09-07 |
Family
ID=49272824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012046358A Expired - Fee Related JP5988077B2 (ja) | 2012-03-02 | 2012-03-02 | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5988077B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016042152A (ja) * | 2014-08-18 | 2016-03-31 | 日本放送協会 | 音声認識装置及びプログラム |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
JP2020129080A (ja) * | 2019-02-08 | 2020-08-27 | 三浦 浩之 | 音声認識システム |
JP2020187340A (ja) * | 2019-05-16 | 2020-11-19 | 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. | 音声認識方法及び装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287591A (ja) * | 1994-04-12 | 1995-10-31 | Xerox Corp | オーディオデータのセグメンテーション方法 |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2007072143A (ja) * | 2005-09-07 | 2007-03-22 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
-
2012
- 2012-03-02 JP JP2012046358A patent/JP5988077B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287591A (ja) * | 1994-04-12 | 1995-10-31 | Xerox Corp | オーディオデータのセグメンテーション方法 |
US5655058A (en) * | 1994-04-12 | 1997-08-05 | Xerox Corporation | Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications |
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2007072143A (ja) * | 2005-09-07 | 2007-03-22 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US20110251845A1 (en) * | 2008-12-17 | 2011-10-13 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016042152A (ja) * | 2014-08-18 | 2016-03-31 | 日本放送協会 | 音声認識装置及びプログラム |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
JP2020129080A (ja) * | 2019-02-08 | 2020-08-27 | 三浦 浩之 | 音声認識システム |
JP7296214B2 (ja) | 2019-02-08 | 2023-06-22 | 浩之 三浦 | 音声認識システム |
JP2020187340A (ja) * | 2019-05-16 | 2020-11-19 | 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. | 音声認識方法及び装置 |
US11393458B2 (en) | 2019-05-16 | 2022-07-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech recognition |
Also Published As
Publication number | Publication date |
---|---|
JP5988077B2 (ja) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
US9711135B2 (en) | Electronic devices and methods for compensating for environmental noise in text-to-speech applications | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
JP6171617B2 (ja) | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
CN109964270B (zh) | 用于关键短语识别的系统和方法 | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20140236600A1 (en) | Method and device for keyword detection | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
JP6585733B2 (ja) | 情報処理装置 | |
WO2014015087A1 (en) | Evaluating speech intelligibility of text-to-speech synthesis using template|constrained generalized posterior probability | |
US20100100382A1 (en) | Detecting Segments of Speech from an Audio Stream | |
JP5988077B2 (ja) | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム | |
US11948567B2 (en) | Electronic device and control method therefor | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
Mital | Speech enhancement for automatic analysis of child-centered audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5988077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |