JP2002288177A - 音声検索装置、同方法および同手順を記録した記録媒体 - Google Patents

音声検索装置、同方法および同手順を記録した記録媒体

Info

Publication number
JP2002288177A
JP2002288177A JP2001087387A JP2001087387A JP2002288177A JP 2002288177 A JP2002288177 A JP 2002288177A JP 2001087387 A JP2001087387 A JP 2001087387A JP 2001087387 A JP2001087387 A JP 2001087387A JP 2002288177 A JP2002288177 A JP 2002288177A
Authority
JP
Japan
Prior art keywords
keyword
voice
voice data
detected
reproducing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001087387A
Other languages
English (en)
Inventor
Tetsuya Muroi
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001087387A priority Critical patent/JP2002288177A/ja
Publication of JP2002288177A publication Critical patent/JP2002288177A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワード付近の再生に際して、確認しやす
い再生部を持つ音声検索装置、同方法および同手順を記
録した記録媒体を得る。 【解決手段】 音声データを蓄積する音声データ蓄積部
6と、キーワードを入力するキーワード入力部1と、蓄
積された音声データからキーワードを音声認識して検出
するキーワード検出部2と、検出されたキーワード付近
の音声を再生するキーワード再生部3を有し、検出され
たキーワードを再生する音声検索装置が構成される。本
構成において、検出されたキーワードの範囲の音声デー
タの最大振幅が、あらかじめ定められた定数と等しくな
るように補正して再生する。よって、再生されるキーワ
ードは、全て最大振幅が正規化され、ユーザが再生音を
聞く際に、その最大振幅が揃っているため、聞きやすい
再生データが得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声検索装置、同
方法および同手順を記録した記録媒体に関し、例えば、
ビデオや音声メール、留守番電話などにおいて、蓄積さ
れた音声データの内容を検索する、音声検索装置、同方
法および同手順を記録した記録媒体に関する。
【0002】
【従来の技術】従来、音声検索装置、同方法および同手
順を記録した記録媒体は、例えば、ビデオや音声メー
ル、留守番電話などに適用される。このビデオや音声メ
ール、留守番電話などにおいて、長時間の音声データを
蓄積された場合、高速に検索するために、ワードスポッ
ティング法による音声認識によりキーワード検出を行う
方法が知られている。
【0003】本発明と技術分野の類似する先願発明例1
として、特開平10−173769号公報、特開平11
−202890号公報などがある。特に、特開平10−
173769号公報では、抽出されたキーワードの付近
を、まず再生して、キーワード付近の音声を再生させ、
ユーザの確認後に全文を再生する方法が開示されてい
る。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来技術の場合には、キーワード付近を再生する際の音量
について言及されていない。
【0005】以下に、100本のビデオデータからユー
ザが所望するキーワードを検出する場合を例に説明す
る。通常、異なる単位(この例では1本1本のビデオデ
ータ)の音声データでは、その音量が異なる。また、同
一の単位内であっても、そのキーワードの出現位置やキ
ーワードを発声した話者(この例ではビデオの登場人
物)により、音量が異なる。
【0006】このような場合に、単純にキーワード付近
の音声を再生すると、その音量にばらつきが出て、ユー
ザにとって違和感や不快感があり、検出結果を確認しに
くくなっていた。
【0007】本発明は、キーワード付近の再生に際し
て、確認しやすい再生部を持つ音声検索装置、同方法お
よび同手順を記録した記録媒体を提供することを目的と
する。
【0008】
【課題を解決するための手段】かかる目的を達成するた
め、請求項1記載の音声検索装置は、音声データを蓄積
する音声データ蓄積部と、キーワードを入力するキーワ
ード入力部と、蓄積された音声データからキーワードを
音声認識して検出するキーワード検出部と、検出された
キーワード付近の音声を再生するキーワード再生部とを
有し、検出されたキーワードを再生する音声検索装置に
おいて、検出されたキーワードの範囲の音声データの最
大振幅があらかじめ定められた定数と等しくなるように
補正して再生することを特徴とする。
【0009】請求項2記載の音声検索装置は、音声デー
タを蓄積する音声データ蓄積部と、キーワードを入力す
るキーワード入力部と、蓄積された音声データからキー
ワードを音声認識して検出するキーワード検出部と、検
出されたキーワード付近の音声を再生するキーワード再
生部とを有し、検出されたキーワードを再生する音声検
索装置において、検出されたキーワードの範囲の音声デ
ータの短時間パワーの最大値があらかじめ定められた定
数と等しくなるように補正して再生することを特徴とす
る。
【0010】請求項3記載の音声検索方法は、音声デー
タを蓄積する音声データ蓄積ステップと、キーワードを
入力するキーワード入力ステップと、蓄積された音声デ
ータからキーワードを音声認識して検出するキーワード
検出ステップと、検出されたキーワード付近の音声を再
生するキーワード再生ステップとを有し、検出されたキ
ーワードを再生する音声検索方法において、検出された
キーワードの範囲の音声データの最大振幅があらかじめ
定められた定数と等しくなるように補正して再生するこ
とを特徴とする。
【0011】請求項4記載の音声検索方法は、音声デー
タを蓄積する音声データ蓄積ステップと、キーワードを
入力するキーワード入力ステップと、蓄積された音声デ
ータからキーワードを音声認識して検出するキーワード
検出ステップと、検出されたキーワード付近の音声を再
生するキーワード再生ステップとを有し、検出されたキ
ーワードを再生する音声検索方法において、検出された
キーワードの範囲の音声データの短時間パワーがあらか
じめ定められた定数と等しくなるように補正して再生す
ることを特徴とする。
【0012】請求項5記載の音声検索手順を記録した記
録媒体は、請求項3または4記載の音声検索方法の処理
手順を記録したことを特徴とする。
【0013】
【発明の実施の形態】次に、添付図面を参照して本発明
による音声検索装置、同方法および同手順を記録した記
録媒体の実施形態を詳細に説明する。図1から図4を参
照すると、本発明の音声検索装置、同方法および同手順
を記録した記録媒体の一実施形態が示されている。
【0014】図1は、本発明による音声検索装置の実施
形態の構成例を示すブロック図である。キーワード入力
部1は、キーボードやボタンなどから構成され、ユーザ
からキーワードの文字列が入力される。なお、本実施例
では、ユーザが直接キーワード文字列を入力する例で説
明しているが、ネットワーク経由であっても、あるいは
あらかじめ保存された複数のキーワード候補から選択さ
れるような方法でも良い。
【0015】キーワード検出部2では、ワードスポッテ
ィング法など公知の音声認識方法により、キーワードの
検出を行う。ここでは、キーワード入力部1で入力され
た文字列情報にしたがって、音素モデル格納部5に格納
された音素モデルを接続したものを単語モデルとし、一
方、音声データ蓄積部6に蓄積された音声データを未知
入力音声として、音声認識を行うことになる。
【0016】音声認識の際には、バックトラック情報と
して、検出されたキーワードの信頼度の指標となりうる
累積スコア以外に、検出位置(検出されたキーワードの
始端と終端)の情報も出力する。補正部3では、検出さ
れたキーワードに対して、再生の前準備のために補正を
行う。
【0017】請求項1または3記載の発明に固有の実施
例を説明する。検出されたキーワード(通常は複数あ
る)の始端をts、終端をteとする。音声データの時
刻tにおける振幅をw(t)とする。まず、時刻tsか
らteの範囲内で最大振幅WMAXを検出する。次に、
時刻tsからteの範囲内の音声データをあらかじめ定
められた定数WTを用いて変換し、補正された音声デー
タw’(t)を下記の式(1)により得る。
【0018】 w’(t)=w(t)×WT/WMAX (ts≦t≦te) …(1) このフローチャートを図2に示す。
【0019】再生部4では、検出されたキーワードに対
する補正された音声データw’(t)を再生する。な
お、定数WTは、ユーザが再生音を聞くデバイス(スピ
ーカ、受話器、ヘッドホンなど)によっても変更の必要
があるので、調節ダイアルなどで可変にしておくことが
望ましい。
【0020】請求項2または4記載の発明に固有の実施
例を、図3および図4に基づき説明する。検出されたキ
ーワード(通常は複数ある)の始端をts、終端をte
とする。まず、音声データの短時間パワーp(i)を求
める。短時間パワーは、ある範囲の音声データ(波形)
の自己相関を求めれば良い。たとえば、音声データが8
kHzのサンプリング周波数で蓄積されている場合に
は、窓長256ポイント、シフト幅128ポイントで短
時間パワーp(i)を、下記の式(2)により求めれば
良い。 p(i)=Σw(t)×w(t) …(2) its<t<ite
【0021】短時間パワーを求める範囲をisからie
とすると、下記となる。 is=ts/128 ie=te/128
【0022】また、式(2)で自己相関を求めているi
番目のフレームにおける範囲を指定しているits、i
teは、それぞれ、下記である。
【0023】its=i×128 ite=its+256 (ただし、is≦i≦ie)
【0024】なお、補正部前段にあるキーワード検出部
2で使用する音声認識において、同様の短時間パワーが
求められている場合には、それをそのまま利用するよう
にしても良い。
【0025】ここで、まず検出されたキーワードの範囲
内(時刻tsからte=フレーム番号isからie)の
中で、最大パワーPMAXを求める。次に、あらかじめ
定められた定数PTを用いて、補正された音声データ
w’(t)を得る。 w’(t)=w(t)×√(PT/PMAX) (ts≦t≦te) …(3 )
【0026】なおPTは、ユーザが再生音を聞くデバイ
ス(スピーカ、受話器、ヘッドホンなど)によっても変
更の必要があるので、調節ダイアルなどで可変にしてお
くことが望ましい。
【0027】
【発明の効果】以上の説明より明らかなように、本発明
の音声検索装置、同方法および同手順を記録した記録媒
体は、音声データを蓄積し、キーワードを入力し音声デ
ータからキーワードを音声認識して検出し、検出された
キーワード付近の音声を再生する。また、検出されたキ
ーワードの再生において、検出されたキーワードの範囲
の音声データの最大振幅があらかじめ定められた定数と
等しくなるように補正して再生している。
【0028】請求項1または3記載の発明によれば、再
生されるキーワードは、全て最大振幅がWTに正規化さ
れており、ユーザが再生音を聞く際に、その最大振幅が
揃っているため、聞きやすい再生データが得られる。
【0029】請求項2または4記載の発明によれば、再
生されるキーワードは、全て短時間パワーの最大値がP
Tに正規化されており、ユーザが再生音を聞く際に、そ
の最大振幅が揃っているため、聞きやすい再生データが
得られる。
【図面の簡単な説明】
【図1】本発明による音声検索装置の一実施形態の構成
例を示すブロック図である。
【図2】補正された音声データを得る手順例を示したフ
ローチャートである。
【図3】音声データの再生手順例の前段部を示したフロ
ーチャートである。
【図4】音声データの再生手順例の後段部を示したフロ
ーチャートである。
【符号の説明】
1 キーワード入力部 2 キーワード検出部 3 補正部 4 再生部 5 音素モデル格納部 6 音声データ蓄積部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声データを蓄積する音声データ蓄積部
    と、 キーワードを入力するキーワード入力部と、 蓄積された前記音声データから前記キーワードを音声認
    識して検出するキーワード検出部と、 検出された前記キーワード付近の音声を再生するキーワ
    ード再生部とを有し、前記検出されたキーワードを再生
    する音声検索装置において、 前記検出されたキーワードの範囲の前記音声データの最
    大振幅があらかじめ定められた定数と等しくなるように
    補正して再生することを特徴とする音声検索装置。
  2. 【請求項2】 音声データを蓄積する音声データ蓄積部
    と、 キーワードを入力するキーワード入力部と、 蓄積された前記音声データから前記キーワードを音声認
    識して検出するキーワード検出部と、 検出された前記キーワード付近の音声を再生するキーワ
    ード再生部とを有し、前記検出されたキーワードを再生
    する音声検索装置において、 前記検出されたキーワードの範囲の前記音声データの短
    時間パワーの最大値があらかじめ定められた定数と等し
    くなるように補正して再生することを特徴とする音声検
    索装置。
  3. 【請求項3】 音声データを蓄積する音声データ蓄積ス
    テップと、 キーワードを入力するキーワード入力ステップと、 蓄積された前記音声データから前記キーワードを音声認
    識して検出するキーワード検出ステップと、 検出された前記キーワード付近の音声を再生するキーワ
    ード再生ステップとを有し、前記検出されたキーワード
    を再生する音声検索方法において、 前記検出されたキーワードの範囲の前記音声データの最
    大振幅があらかじめ定められた定数と等しくなるように
    補正して再生することを特徴とする音声検索方法。
  4. 【請求項4】 音声データを蓄積する音声データ蓄積ス
    テップと、 キーワードを入力するキーワード入力ステップと、 蓄積された前記音声データから前記キーワードを音声認
    識して検出するキーワード検出ステップと、 検出された前記キーワード付近の音声を再生するキーワ
    ード再生ステップとを有し、前記検出されたキーワード
    を再生する音声検索方法において、 前記検出されたキーワードの範囲の前記音声データの短
    時間パワーがあらかじめ定められた定数と等しくなるよ
    うに補正して再生することを特徴とする音声検索方法。
  5. 【請求項5】 請求項3または4記載の音声検索方法の
    処理手順を記録したことを特徴とする音声検索手順を記
    録した記録媒体。
JP2001087387A 2001-03-26 2001-03-26 音声検索装置、同方法および同手順を記録した記録媒体 Pending JP2002288177A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001087387A JP2002288177A (ja) 2001-03-26 2001-03-26 音声検索装置、同方法および同手順を記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001087387A JP2002288177A (ja) 2001-03-26 2001-03-26 音声検索装置、同方法および同手順を記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002288177A true JP2002288177A (ja) 2002-10-04

Family

ID=18942639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001087387A Pending JP2002288177A (ja) 2001-03-26 2001-03-26 音声検索装置、同方法および同手順を記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002288177A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053563A (ja) * 2009-09-03 2011-03-17 Neikusu:Kk 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053563A (ja) * 2009-09-03 2011-03-17 Neikusu:Kk 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム

Similar Documents

Publication Publication Date Title
US20090326949A1 (en) System and method for extraction of meta data from a digital media storage device for media selection in a vehicle
KR100339587B1 (ko) Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2002288177A (ja) 音声検索装置、同方法および同手順を記録した記録媒体
JPS58102378A (ja) 情報検索装置
Goto et al. Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations.
JP2001013976A (ja) カラオケ装置
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JPH11242496A (ja) 情報再生装置
JPH0816089A (ja) 発音比較学習装置
JP2017161840A (ja) 音量制御装置、並びに音量制御方法、プログラム及び記録媒体
JP3201327B2 (ja) 録音再生装置
JPS6346518B2 (ja)
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP5242856B1 (ja) 音楽再生プログラム及び音楽再生システム
JPH08328575A (ja) 音声合成装置
JP2000268545A (ja) 音声再生装置
JP2609874B2 (ja) 音声認識システム
JP2889573B2 (ja) 音声認識システム
JP2547611B2 (ja) 文章作成システム
JP3698050B2 (ja) 音声応答方法および音声応答システム
JP2647872B2 (ja) 文章作成システム
JP2000057752A (ja) 音声による文章情報再生装置
JP2005274790A (ja) 音楽再生装置、音楽再生方法、音楽再生プログラム、及び電子アルバム装置