JPS581198A - 音声による検索装置 - Google Patents

音声による検索装置

Info

Publication number
JPS581198A
JPS581198A JP56099512A JP9951281A JPS581198A JP S581198 A JPS581198 A JP S581198A JP 56099512 A JP56099512 A JP 56099512A JP 9951281 A JP9951281 A JP 9951281A JP S581198 A JPS581198 A JP S581198A
Authority
JP
Japan
Prior art keywords
information
voice
keyword
storage unit
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56099512A
Other languages
English (en)
Inventor
藤本 好司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP56099512A priority Critical patent/JPS581198A/ja
Publication of JPS581198A publication Critical patent/JPS581198A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、キーワードによって必要な情報を検索する情
報検索装置に関するものである。
従来の情報検索装置においては、キーワードはコード化
されたディジタル情報として記憶されているのが常であ
る。従って、情報を検索する場合には、検索用のキーワ
ードもコード化したディジタル情報に変換し、記憶され
ているキーワードとの完全一致を取ることにより、検索
を行なっている。
従来の情報検索装置においては、コード化されたキーワ
ードが用いられるため、このキーワード入力としてテー
ブルによって数字に変換してキー人力するか、またはカ
ナ表記してカナ鍵盤にて入力する必要がある。この前者
ではテーブルを引く作業が余分に必要であるし、後者で
はシフト段数の多いカナ鍵盤を打つ必要があり、素人に
とっては非常に面倒な作業である。また、両者共に数字
あるいはカナ文字の鍵盤が必ず必要であり、鍵盤を装備
していない装置に検索の機能を持たせるためには、鍵盤
を追加装備する必要がある。
本発明の目的は情報検索装置のキーワードを音声情報に
よって構成することにより、記憶装置に格納しておくキ
ーワードを音声によって容易に登録し、また音声によっ
てキーワードを発声することにより容易に検索が実行で
きるようになしたことである。
そして、その特徴とするところは、情報検索装置のキー
ワードとして設定が容易な音声情報を採用したことと、
音声情報のキーワードによって検索する場合にキーワー
ドの照合に音声情報間の類似度を用いることである。
以下本発明の一実施例として本発明をカセットテープレ
コーダの自動選曲に適用した場合について説明する。
すなわち、曲名を音声にて発声したものをキーワードと
し、そのキーワードに対応する情報として、録音された
曲を検索するものとする。したがって、聴きたい曲名を
音声にて発声すれば、自動的にその曲名の曲が選択され
、自動演奏することができる。
従来の自動選曲機構では単にカセットテープ上の無音区
間を検出し、その無音区間の数を数えることにより選曲
を行なっていた。したがって、曲名とその曲が録音され
ている順番を対応付け、その順番を指定することで間接
的に選曲を行なっていた。
本発明では第1図に示すように、曲名を表わす音声と曲
(音楽)そのものを対にして録音することにより、音声
で直接自動選曲しようとするものである。
すなわち、第1図の101〜105は従来と同様無音区
間を表わし、また106,108の区間は曲名を音声に
て発声した音声波・形がアナログ信号またはディジタル
化した信号で記録される音声情報の記録区間であり、更
に107,109の区間にはそれぞれ106および10
7の区間に録音された曲名に対応する曲(音楽)が録音
されている。
□ 第1図では曲名と曲の2つの対が録音されている所
を示しているが、一般には、もっと多数の曲名と曲の対
が録音されている。
第2図は音声による自動選曲機構を示すもので、自動選
曲の手順に沿って説明を行なう。
第1段階として、聴きたい曲名を音声にて登録するため
に、まず検索制御部208は特徴レジスタ205および
特徴抽出部206に対して曲名の登録モードを示す制御
信号を出す。操作者は聴きたい曲名を音声にて発声する
と、音声はマイクロホン207によって電気信号に変換
され、前記特徴抽出部206に送られる。
該特徴抽出部206では音声信号のパワーにより音声区
間の切り出しを行ない、その音声区間内の信号について
音声の特徴量を抽出する。
音声の特徴を効果的に表わす特徴量としては自己相関係
数、スペクトル包絡、線形予測係数などがあるが、ここ
では自己相関係数を使った場合について説明する。
音声信号はサンプ、リングを行ない、AID変換器によ
ってディジタル値に変換する。ここでサンプル時間【に
おける値をV(υとすると、時間tQにおける第1次の
自己相関X;(tO)は次式で表わされる。
前記Tは特徴量の抽出周期を表わすフレーム周期と呼ば
れるもので、サンプル周期xTは大体5〜20m5に設
定されるものである。したがって、to=nT (n=
o l ’ + 2 +”’)で表わされる。また、i
=1,2.・・、■で最大次数Iは、大体1=8位に設
定される。
第nフレームの第1次(i=1.2.・・・、■)の自
己相関係数X1(n)は次式で表わされる。
さらに特徴ベクトルをX (n)=(X+(n)、 X
2(n)+ −、Xt (n))。
で表わす。
以上示した特徴量は1フレ一ム分の音声信号を保持する
バッファメモリ、乗算器、加算器によって容易に計算す
ることができる。
上記のように、特徴抽出部206で抽出された特徴量(
自己相関係数)は曲名の音声情報に対応する特徴ヘクト
ル系列x= (X(0) 、 X(1) 、 X(2)
 、 ・=X(Nx  l))として特徴レジスタ20
5に格納され、曲名の登録が完了する。
曲名の登録が完了すると、検索制御部208は検索モー
ドに入り、記憶制御部202に対して早送り指令を出す
と同時にカセットテープレコーダの機構部201の駆動
に基づいて無音区間の検出を開始する。
無音区間が検出されると、再生指令を出して無音区間の
次に録音されている内容を次の無音区間が現われるかあ
るいは最大許容時間(曲名の音声として許されている最
大時間)まで再生し、再生信号を特徴抽出部203に供
給する。ここで最大許容時間が来ても無音区間が現われ
ない場合は、曲の録音部分と見做して早送り指令を出し
、次の無音区間の検出を行なう。特徴抽出部203に送
られて来た音声信号は登録時と同様、音声区間か検出さ
れ、その音声区間について特徴量(ここでは自己相関係
数)に変換される。
変換された特徴量は類似計算部204に供給される。こ
の類似度計算部204は特徴抽出部203から供給され
る特徴量と、特徴レジスタ205に格納されている特徴
量との整合を取り、2つの特徴量の間の類似度を計算す
る。整合は特徴量の時系列に対して行なうが、一般に発
声速度の変化により、時系列の長さが異なる。
この時系列の長さの相異を補正する方法として、再サン
プリングによる線形伸縮の方法とダイナミック・プログ
ラミングを用いた非線形伸縮の方法がある。ここでは簡
単のため、線形伸縮の方法について説明する。
特徴レジスタに登録されている音声の特徴ベクトル系列
をX−(X(0)、X(1)、・・、X(Nx−1))
とし、特徴抽出部203により供給される特徴べ”クト
ル系列をY= (Y(0) 、 Y(+)、・・・、Y
(NY−1))とすると、線形伸縮による整合は次式に
よって類似度を表わす距離d (X 、 Y)が計算さ
れる。
ここて、〔〕はガウス記号を表わす。
上記の距離は類似性が大きいと小さくなり、類似性が小
さくなると大きくなる性質を持っている。
したがって、この距離は次式によって類似度S(X、Y
)に変換される。
以上述べた類似度の計算は加減算器、乗除算機を用いた
マイクロプロセッサ−によってプログラムすることによ
り容易に実現することができる。
類似度計算部204によって計算された類似度は検索制
御部208に送られ、もし類似度がある闇値以下であれ
ば演奏モードになり、記憶制御部202に対して再生指
令を縦続し、再生された曲(音楽)の信号は増幅器20
9に供給することにより増幅され、スピーカ210によ
り音波に変換されて曲の演奏が行なわれる。
一方、類似度がある閾値より大きければ、検索制御部2
08は検索モードを継続し、記憶制御部202に対して
早送り指令を出して無音区間の検出を開始する。この検
索動作は同じ曲名か見つかるかあるいはテープの終りま
で継続される。
第2図におい゛C1特徴抽出部か203と206の2ケ
所にあるが、これは第3図に示すように1ケの特徴抽出
部304の入出力を切換えて使用することができる。す
なわち、登録モードにおいてはマイクロホン302の信
号を入力し、特徴量は特徴レジスタ307に出力する。
一方、検索モードでは記憶制御部−3−81からの音声
信号を入力とし、特徴量は類似度計算部306に出力す
る。
808は検索制御部を示す。
なお、上述の例ではテープとして示された記憶部に記憶
されている音声情報を特徴抽出部203に供給して特徴
量に変換させていたが、前記音声情報として音声の特徴
量に変換したものを記憶させておいて、検索モード時に
特徴量への変換を行うことなしに整合、類似度を計算さ
せるようにすることもできる。
また、前記記憶部に記憶された音声情報(キーワード)
に対応付けて記憶される情報として曲(行楽)などのア
ナログ情報以外に、種々ディジタル情報を記憶させてあ
らゆる用途の情報検索に適応させることができる。
更に上述の説明ではカセットテープの自動選曲機構に適
用した場合の実施例を示したが、本実施例と同様に、V
TR(ビデオテープレコーダ)の自動頭出し機構などに
も容易に適用することができる。この場合、ビデオテー
プ(記憶部)に音声情報によって構成されるキーワード
に対応付けて記憶される情報としては、音などの波形や
絵9画像ナトのパターンについてのアナログ情報、ある
いはコード化されたディジタル情報と共に音などの波形
、絵9画像などのパターンについてのアナログ情報を記
憶させることができる。
本発明によれば検索のためのキーワードとして音声情報
を用いることができるので、キーワードを音声によって
通常の言葉で容易に設定し得ること、および検索用キー
ワードを音声で与えることができるので手や目が使えな
い場合や移動している場合でも、容易に必要な情報を検
索することができることなどの使用上の効果がある。
一方、キーワードの照合は類似度によって行なっている
ため、閾値を変えることにより完全一致に近い照合から
類似照合まで融通性のあるキーワードの照合を行なうこ
とができる。また、整合の方法として、連続DP(ダイ
ナミック・プログラミング)マツチングを用いることに
より、検索用キーワードを部分的に含んでいるキーワー
ドを全て検索することも可能で、キーワードの照合の融
通性について大きな効果がある。
【図面の簡単な説明】
第1図はカセットテープ上の曲名および曲(音楽)の録
音フォーマットを示す図、第2図はカセットテープの音
声による自動選曲を行なうための機能ブロック図、第3
図は第2図の他の実施例を示す機能ブロック図である。 101〜105:無音区間、106.108:音声情報
区間、107,109:曲(音楽)区間、201:カセ
ットテープレコーダ機構部、2o2:記憶制御部、20
8及び206:特徴抽出部、204:・類似度計算部、
205:特徴レジスタ、207:マイクロホン、208
:検索制御部、209:増幅器、21O:スピーカ。

Claims (1)

  1. 【特許請求の範囲】 1、 キーワードによって情報を検索する装置において
    、 キーワードを構成する音声情報と、キーワードに対応付
    けられた情報とが複数個記憶することのできる記憶部と
    、 該記憶部からキーワードを構成する音声情報を逐次読み
    出すことのできる記憶制御部と、音声で発声された検索
    用キーワード情報を音声の特徴量に変換し保持すること
    のできる特徴量保持部と、 記憶制御部が読み出した音声情報を音声特徴量に変換し
    、その音声特徴量と特徴量保持部に保持されている音声
    特徴量との整合を取り、2つの特徴量間の類似性を計算
    する類似度計算部と、 類似度計算部によって計算された類似度がある閾値より
    大きい場合は、その音声情報によって構成されたキーワ
    ードに対応する情報を読み出すべく記憶制御部に指令を
    出し、また、類似度がある閾値より小さい場合は、次の
    音声情報によって構成されるキーワードを読み出すこと
    を記憶制御部に指令し、さらにキーワードの音声情報を
    音声の特徴量に変換し、特徴量保持部に保持されている
    特徴量との類似度を計算すべく類似度計算部に指令を出
    す検索制御部と、とから成り、音声情報により検索を可
    能とすることを特徴とする音声による検索装置。 2、上記記憶部に記憶されているキーワードの音声情報
    として、音声波形をアナログ信号またはディジタル化し
    た信号で記憶することを特徴とする特許請求範囲第1項
    記載の音声による検索装置。 3 上記記憶部に記憶されているキーワードの音声情報
    として音声の特徴量に変換して記憶し、類似度計算部で
    は特徴量への変換を行なうことなしに整合を取り、類似
    度を計算することを特徴とする特許請求範囲第1項記載
    の音声による検索装置。 44  上記記憶部に音声情報によって構成されるキー
    ワードに対応付けて記憶されている情報として、ディジ
    タル情報を記憶することを特徴とする特許請求の範囲第
    1項、第2項、第3項記載の音声による検索装置。 5、上記記憶部に音声情報によって構成されるキーワー
    ドに対応付けて記憶されている情報として、音などの波
    形や絵9画像などのパターンについてのアナログ情報を
    記憶することを特徴とする特許請求の範囲第1項、第2
    項、第3項記載の音声による検索装置。 6、上記記憶部に音声情報によって構成されるキーワー
    ドに対応付けて記憶されている情報として、コード化さ
    れたディジタル情報と、音などの波形や、絵、画像など
    のパターンについてのアナログ情報とを記憶することを
    特徴とする特許請求の範囲第1項、第2項、第3項記載
    の音声による検索装置。
JP56099512A 1981-06-25 1981-06-25 音声による検索装置 Pending JPS581198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56099512A JPS581198A (ja) 1981-06-25 1981-06-25 音声による検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56099512A JPS581198A (ja) 1981-06-25 1981-06-25 音声による検索装置

Publications (1)

Publication Number Publication Date
JPS581198A true JPS581198A (ja) 1983-01-06

Family

ID=14249301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56099512A Pending JPS581198A (ja) 1981-06-25 1981-06-25 音声による検索装置

Country Status (1)

Country Link
JP (1) JPS581198A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4998216A (ja) * 1972-12-26 1974-09-17
JPS5644175A (en) * 1979-09-14 1981-04-23 Matsushita Electric Ind Co Ltd Reproduction system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4998216A (ja) * 1972-12-26 1974-09-17
JPS5644175A (en) * 1979-09-14 1981-04-23 Matsushita Electric Ind Co Ltd Reproduction system

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US5649060A (en) Automatic indexing and aligning of audio and text using speech recognition
US5397853A (en) Apparatus and method for performing auto-playing in synchronism with reproduction of audio data and/or image data
US20060206327A1 (en) Voice-controlled data system
US7792831B2 (en) Apparatus, system and method for extracting structure of song lyrics using repeated pattern thereof
WO2007132690A1 (ja) 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JPH09185879A (ja) レコーディング・インデクシング方法
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
EP0434006A2 (en) Auto-playing apparatus
US20100017381A1 (en) Triggering of database search in direct and relational modes
JP2006311462A (ja) コンテンツ検索装置及びその方法
JPS58102378A (ja) 情報検索装置
KR20070042000A (ko) 동영상 스트림의 챕터 별 제목 설정 방법 및 장치
JPS581198A (ja) 音声による検索装置
JPH09146580A (ja) 効果音検索装置
JP4721765B2 (ja) コンテンツ検索装置及びコンテンツ検索方法
JP3548900B2 (ja) マルチメディア情報処理装置
JPS6346518B2 (ja)
JPH11242496A (ja) 情報再生装置
US20110165541A1 (en) Reviewing a word in the playback of audio data
JP2003230094A (ja) チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP4779954B2 (ja) 音声データ処理装置、方法及びプログラム
JPH0130167B2 (ja)
JP3125292B2 (ja) 映像編集装置