JP6716513B2 - 音声区間検出装置、その方法、及びプログラム - Google Patents
音声区間検出装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6716513B2 JP6716513B2 JP2017163974A JP2017163974A JP6716513B2 JP 6716513 B2 JP6716513 B2 JP 6716513B2 JP 2017163974 A JP2017163974 A JP 2017163974A JP 2017163974 A JP2017163974 A JP 2017163974A JP 6716513 B2 JP6716513 B2 JP 6716513B2
- Authority
- JP
- Japan
- Prior art keywords
- voice section
- feature amount
- voice
- frame
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本実施形態の音声区間検出装置100は、音声区間そのものを検出する(音声らしいところを検出する)のではなく、音声区間の始端と終端とをそれぞれに特化した統計モデルに基づき検出することで、始端らしい箇所から終端らしい箇所までを音声区間とする。
音声区間検出装置100は、学習用観測信号を入力とし、始端モデル及び終端モデルを学習し、それぞれ始端判定部105及び主端判定部106に設定する。
始端特徴量算出部101は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の開始時刻情報とともに始端モデル学習部102に出力する。特徴量としては、音声区間の始端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「始端特徴量」ともいう。たとえば、短時間フレーム毎(たとえば20msec毎)の音声データのフィルタバンク出力値、ケプストラム、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients : MFCC)等の様々な特徴量を用いることができる。また、発話開始時に特徴的な言語的な情報を活用し、始端検出精度を高めてもよい。例えば、単語N-gramや音素系列を始端特徴量として用いてもよい。単語N-gramや音素系列は、特に音声区間の始端に表れる特徴を判別しやすい特徴量である。
始端モデル学習部102は、フレーム毎の学習用観測信号の始端特徴量と、音声信号の開始時刻情報とを入力とし、始端フレーム(音声信号の開始時刻情報に対応するフレーム)を識別するモデル(始端モデル)を学習し、学習の結果得られる始端モデルを始端判定部105に出力する。始端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。
終端特徴量算出部103は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の終了時刻情報とともに終端モデル学習部102に出力する。特徴量としては、音声区間の終端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「終端特徴量」ともいう。たとえば、始端特徴量算出部101で算出した始端特徴量と同じ特徴量(フィルタバンク出力値、ケプストラム、 MFCC等)を用いてもよい。また、例えば、終端に特徴的なイントネーションの変化を終端特徴量として用いてもよい。公知の技術を用いて、たとえば基本周波数の時間変化量などをイントネーションの変化を表す終端特徴量として算出する。基本周波数の時間変化量は、特に音声区間の終端に表れやすい特徴を判別しやすい特徴量と言える。
終端モデル学習部104は、フレーム毎の学習用観測信号の終端特徴量と、音声信号の終了時刻情報とを入力とし、終端フレーム(音声信号の終了時刻情報に対応するフレーム)を識別するモデル(終端モデル)を学習し、学習の結果得られる終端モデルを終端判定部106に出力する。終端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。なお、終端モデルの学習には、始端モデルの学習と同じ方法を用いてもよいし、異なる方法を用いてもよい。
音声区間検出装置100は、音声区間の検出対象となる観測信号を入力とし、始端モデル及び終端モデルを用いて音声区間を検出し、検出結果(音声区間情報)を出力する。
始端特徴量算出部101は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により始端特徴量をフレーム毎に算出し(S101)、始端判定部105に出力する。
始端判定部105は、音声区間検出処理に先立ち、始端モデルを受け取る。
終端特徴量算出部103は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により終端特徴量をフレーム毎に算出し(S103)、終端判定部106に出力する。
終端判定部106は、音声区間検出処理に先立ち、終端モデルを受け取る。
音声区間確定部107は、始端及び終端と識別されたフレームに関する情報(例えば各フレーム番号)を受け取り、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とし、検出結果(音声区間情報であり、音声区間を示す情報、例えば音声区間に対応するフレーム番号やフレーム番号に対応するフレーム時刻、フレームに対応し音声区間または非音声区間を示すビット列(例えば音声区間と判定されたフレームに対応するビットを1とし非音声区間と判定されたフレームに対応するビットを0とするビット列)など)を出力する。
以上の構成により、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による誤検出を低減できる。例えば、音声区間の始端と終端とをそれぞれのモデルに基づき推定するため、発話途中のポーズ等の箇所において非音声区間と判断する誤判断を低減することができる。また、発話区間そのものを検出する(音声らしいところを検出する)場合には、テレビの音声などの背景雑音を音背区間であるとして誤検出することがあるが、検出する箇所を音声区間の始端と終端に絞ることで検出の精度を上げ、誤検出を低減することができる。
本実施形態では、始端モデル、終端モデルの学習処理と、検出処理とを同じ音声区間検出装置内で行っているが、学習処理と検出処理とを異なる装置内で行ってもよい。例えば、モデル学習装置で学習した始端モデル、終端モデルを音声区間検出装置に出力し、音声区間検出装置では検出処理だけを行う。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (5)
- 音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出部と、
音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定部と、
前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出部と、
音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定部と、
音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定部とを含む、
音声区間検出装置。 - 請求項1の音声区間検出装置であって、
あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出部と前記終端判定部とにおける処理を繰り返し、それ以外のフレームに対しては前記始端特徴量算出部と前記始端判定部とにおける処理を繰り返す、
音声区間検出装置。 - 音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出ステップと、
音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定ステップと、
前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出ステップと、
音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定ステップと、
音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定ステップとを含む、
音声区間検出方法。 - 請求項3の音声区間検出方法であって、
あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出ステップと前記終端判定ステップとを繰り返し、それ以外のフレームに対しては前記始端特徴量算出ステップと前記始端判定ステップとを繰り返す、
音声区間検出方法。 - 請求項1または請求項2の音声区間検出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017163974A JP6716513B2 (ja) | 2017-08-29 | 2017-08-29 | 音声区間検出装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017163974A JP6716513B2 (ja) | 2017-08-29 | 2017-08-29 | 音声区間検出装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019040148A JP2019040148A (ja) | 2019-03-14 |
JP6716513B2 true JP6716513B2 (ja) | 2020-07-01 |
Family
ID=65725727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017163974A Active JP6716513B2 (ja) | 2017-08-29 | 2017-08-29 | 音声区間検出装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6716513B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108766418B (zh) | 2018-05-24 | 2020-01-14 | 百度在线网络技术(北京)有限公司 | 语音端点识别方法、装置及设备 |
US20220270637A1 (en) * | 2019-07-24 | 2022-08-25 | Nippon Telegraph And Telephone Corporation | Utterance section detection device, utterance section detection method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0442299A (ja) * | 1990-06-08 | 1992-02-12 | Sharp Corp | 音声区間検出装置 |
JPH04198997A (ja) * | 1990-11-29 | 1992-07-20 | Oki Electric Ind Co Ltd | 音声認識方法 |
JP3721948B2 (ja) * | 2000-05-30 | 2005-11-30 | 株式会社国際電気通信基礎技術研究所 | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 |
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
-
2017
- 2017-08-29 JP JP2017163974A patent/JP6716513B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019040148A (ja) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102654874B1 (ko) | 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
JP2019522810A (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
US20120130716A1 (en) | Speech recognition method for robot | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
JPWO2010086925A1 (ja) | 音声認識装置 | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
KR20200023893A (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP2014206642A (ja) | 音声認識装置および音声認識プログラム | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
KR20210068776A (ko) | 음성 인식 오류 보정 장치 및 방법 | |
TWI818427B (zh) | 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP5982265B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP7028311B2 (ja) | 学習用音声データ生成装置、その方法、およびプログラム | |
JP2011039434A (ja) | 音声認識装置およびその特徴量正規化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6716513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |