JP4798601B2 - 音声区間検出装置および音声区間検出プログラム - Google Patents
音声区間検出装置および音声区間検出プログラム Download PDFInfo
- Publication number
- JP4798601B2 JP4798601B2 JP2005211746A JP2005211746A JP4798601B2 JP 4798601 B2 JP4798601 B2 JP 4798601B2 JP 2005211746 A JP2005211746 A JP 2005211746A JP 2005211746 A JP2005211746 A JP 2005211746A JP 4798601 B2 JP4798601 B2 JP 4798601B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- variation
- voice
- section
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
[実施の形態1]
(本発明のシステム構成)
図1は、本発明の音声区間検出装置1000の構成の一例を示す概念図である。
[実施の形態2]
実施の形態2では、実施の形態1で説明した音声区間検出装置1000の構成を使用して、入力された音声信号の解析結果をユーザに対して表示し、一方で、ユーザは、音声区間検出装置の動作パラメータ等の設定を行なうことが可能なインタフェースを備えた、音声区間解析装置2000の構成について説明する。
図12を参照して、音声区間解析装置2000は、マイク(図示せず)からの音声入力を、入出力インタフェース(以下、「入出力I/F」)101を介して受けて、音声データをサンプリングし、デジタルデータに変換するための音声データサンプリング部102と、音声データサンプリング部102によりサンプリングされた音声データを後の処理のために一時記憶するための一時記憶部104と、一時記憶部104に格納された音声データに対して音声区間の検出のための演算処理を行う演算部106と、演算部106により音声区間についての判断結果と関連づけて音声データを格納しておくためのデータ格納部108と、ユーザからの指示を入力するための操作部120と、データ格納部108に格納された音声データを演算部106の制御に基づいて、アナログの音声信号に変換して、入出力I/F101を介して、スピーカ(図示せず)に出力するためのD/A変換器110とを備える。操作部120は、特に限定されないが、キーボードとマウスを備える。
(ラベルファイル出力機能)
以下では、フレーム処理部1062の機能について、さらに説明する。
<開始時間[msec]> <この時間区間が音声区間であることを示すラベル> <終了時間[msec]>
なお、これも特に限定されないが、演算部106の機能は、コンピュータのCPU(Central Processing Unit)がアプリケーションソフトウェアにより実行する機能により実現することが可能である。以下では、このような機能を実現するためのソフトウェアを「音声区間検出機能付き音声収録試聴アプリケーション」と呼ぶ。このようなアプリケーションソフトウェアは、音声のキャプチャおよび音声出力のためのハードウェアが実装されているのであれば、一般的な、パーソナルコンピュータ等にインストールして実行させることができる。
(音声区間検出機能付き音声収録試聴アプリケーション:基本画面)
次に、上述した「音声区間検出機能付き音声収録試聴アプリケーション」について、説明する。
(音声区間検出機能付き音声収録試聴アプリケーション:設定画面)
図14は、図13で説明した基本画面(または各変動値表示画面)の「設定ボタン」がクリックされると、呼び出される設定画面を示す図である。
(音声区間検出機能付き音声収録試聴アプリケーション:拡張画面(1))
図15は、上記設定画面において、「スムージングされた第2変動の表示」を「表示する」に設定された場合、表示装置140に表示される第1の拡張画面を示す図である。第1の拡張画面では、「スムージングされた第2変動としきい値の表示」が表示される。なお、第1の各校画面では、「スムージングされた第2変動表示窓」が表示されること以外は基本画面の動作と同様であるので、以下では、相違点を説明する。
(音声区間検出機能付き音声収録試聴アプリケーション:拡張画面(2))
図16は、設定画面において、「第1変動の表示」、「スムージングされた第1変動の表示」、「第2変動の表示」、「スムージングされた第2変動の表示」のいずれもが「表示する」に設定された場合の第2の拡張画面を示す図である。つまり、第2の拡張画面では、「全ての変動値の表示」が表示される。
[実施の形態3]
次に、実施の形態3では、実施の形態1で説明した音声区間検出装置を、この音声区間検出装置に後続して接続される後続音声処理装置において利用する形態を説明する。
まず、図17は、第1の接続方式を説明するための機能ブロック図である。実施の形態1と同一部分には、同一符号を付す。
(接続方式2)
図18は、実施の形態3の変形例1である、第2の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
(接続方式3)
図19は、実施の形態3の変形例2である、第3の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
(接続方式4)
図20は、実施の形態3の変形例3である、第4の接続方式を説明するための機能ブロック図である。ここでも、実施の形態1と同一部分には、同一符号を付す。
Claims (7)
- 音声区間検出装置であって、
指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の2乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
サンプリングされた音声データに対してフレームの切り出し処理を行うためのフレーム処理手段と、
前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第1変動として算出する第1変動算出手段と、
音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第1変動を前記離散変数として前記関数により、前記第1変動のばらつきを第2変動として算出する第2変動算出手段と、
前記第2変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うフレーム判定手段と、
前記音声および非音声に判定された結果をもとに音声区間を決定する音声区間決定手段とを備える、音声区間検出装置。 - 前記第1変動算出手段は、前記音声データのばらつきをスムージングして第1変動として算出する、請求項1記載の音声区間検出装置。
- 前記第2変動算出手段は、前記第1変動のばらつきをスムージングして第2変動として算出する、請求項1記載の音声区間検出装置。
- 前記音声区間決定手段は、前記音声および非音声に判定された前記フレームの継続長から音声区間を決定する、請求項1記載の音声区間検出装置。
- 前記音声区間決定手段は、前記音声区間と判定された前記フレームのうち、所定の継続長を満たさなかった音声区間は音声区間から除外する、請求項1記載の音声区間検出装置。
- 前記音声区間決定手段は、前記音声区間の間に挟まれていて、所定の継続長以下の非音声区間は、両端の前記音声区間と合わせて1つの音声区間とする、請求項1記載の音声区間検出装置。
- 演算処理装置と音声入力装置と記憶装置とを有するコンピュータに音声区間検出を実行させるための音声区間検出プログラムであって、
指定された区間における離散変数について、前記離散変数の前記区間における平均と各前記離散変数との差の絶対値の前記区間についての平均または前記絶対値の2乗の前記区間についての平均のいずれかを前記離散変数のばらつき量として求める関数と定義するとき、
前記音声入力装置によりサンプリングされ、前記記憶装置に格納された音声データに対してフレームの切り出し処理を行うステップと、
前記演算処理装置が、前記フレームを前記区間とし前記音声データを前記離散変数として前記関数により、前記音声データのばらつきを第1変動として算出するステップと、
前記演算処理装置が、音声区間判定の対象となるフレームの前後所定数のフレームを含む範囲を前記区間とし前記第1変動を前記離散変数として前記関数により、前記第1変動のばらつきを第2変動として算出するステップと、
前記演算処理装置が、前記第2変動と所定のしきい値を比較することで、音声または非音声の判定を前記フレーム毎に行うステップと、
前記演算処理装置が、前記音声および非音声に判定された結果をもとに音声区間を決定するステップと、をコンピュータに実行させるための、音声区間検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005211746A JP4798601B2 (ja) | 2004-12-28 | 2005-07-21 | 音声区間検出装置および音声区間検出プログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004381206 | 2004-12-28 | ||
JP2004381206 | 2004-12-28 | ||
JP2005211746A JP4798601B2 (ja) | 2004-12-28 | 2005-07-21 | 音声区間検出装置および音声区間検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006209069A JP2006209069A (ja) | 2006-08-10 |
JP4798601B2 true JP4798601B2 (ja) | 2011-10-19 |
Family
ID=36965944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005211746A Active JP4798601B2 (ja) | 2004-12-28 | 2005-07-21 | 音声区間検出装置および音声区間検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4798601B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5446874B2 (ja) | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
WO2009078093A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
WO2010070839A1 (ja) | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
US9293131B2 (en) | 2010-08-10 | 2016-03-22 | Nec Corporation | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program |
CN103730032B (zh) * | 2012-10-12 | 2016-12-28 | 李志刚 | 多媒体数据控制方法和系统 |
JP6435133B2 (ja) * | 2014-08-11 | 2018-12-05 | 日本板硝子環境アメニティ株式会社 | 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム |
JP5863928B1 (ja) * | 2014-10-29 | 2016-02-17 | シャープ株式会社 | 音声調整装置 |
CA3004281A1 (en) | 2016-10-31 | 2018-05-03 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
US11488033B2 (en) | 2017-03-23 | 2022-11-01 | ROVl GUIDES, INC. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
KR20220114094A (ko) | 2017-05-24 | 2022-08-17 | 로비 가이드스, 인크. | 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62211699A (ja) * | 1986-03-13 | 1987-09-17 | 株式会社東芝 | 音声区間検出回路 |
JPH0823756B2 (ja) * | 1988-08-09 | 1996-03-06 | 沖電気工業株式会社 | 音声区間検出方式 |
JPH10111697A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 音声反応装置と音声認識装置 |
JP3588030B2 (ja) * | 2000-03-16 | 2004-11-10 | 三菱電機株式会社 | 音声区間判定装置及び音声区間判定方法 |
JP3760787B2 (ja) * | 2000-05-12 | 2006-03-29 | 株式会社デンソー | 移動電話機 |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
-
2005
- 2005-07-21 JP JP2005211746A patent/JP4798601B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006209069A (ja) | 2006-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4798601B2 (ja) | 音声区間検出装置および音声区間検出プログラム | |
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
EP1171873B9 (en) | Apparatus and methods for detecting emotions in the human voice | |
JP4282704B2 (ja) | 音声区間検出装置およびプログラム | |
JP6171617B2 (ja) | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム | |
CN108198548A (zh) | 一种语音唤醒方法及其系统 | |
US6205420B1 (en) | Method and device for instantly changing the speed of a speech | |
JP4587160B2 (ja) | 信号処理装置および方法 | |
JP6060989B2 (ja) | 音声録音装置、音声録音方法、及びプログラム | |
WO2016103988A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US7916848B2 (en) | Methods and systems for participant sourcing indication in multi-party conferencing and for audio source discrimination | |
US20130253926A1 (en) | Speech dialogue system, terminal apparatus, and data center apparatus | |
EP1944753A2 (en) | Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device | |
JP2012027186A (ja) | 音声信号処理装置、音声信号処理方法及びプログラム | |
KR20090049300A (ko) | 음성 구간 검출 방법 및 장치 | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
CN105706167A (zh) | 有语音的话音检测方法和装置 | |
JP2004199053A (ja) | 絶対音量を使用して音声信号を処理する方法 | |
JPH0431898A (ja) | 音声雑音分離装置 | |
JP3402748B2 (ja) | 音声信号のピッチ周期抽出装置 | |
JP6565500B2 (ja) | 発話状態判定装置、発話状態判定方法、及び判定プログラム | |
US9412380B2 (en) | Method for processing data and electronic device thereof | |
JPH10326176A (ja) | 音声対話制御方法 | |
JP7017873B2 (ja) | 音質改善方法、音質改善方法を実行させるためのコンピュータプログラム、および電子機器 | |
WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110727 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4798601 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |