JPH11272712A - データベース構築支援装置 - Google Patents

データベース構築支援装置

Info

Publication number
JPH11272712A
JPH11272712A JP10096596A JP9659698A JPH11272712A JP H11272712 A JPH11272712 A JP H11272712A JP 10096596 A JP10096596 A JP 10096596A JP 9659698 A JP9659698 A JP 9659698A JP H11272712 A JPH11272712 A JP H11272712A
Authority
JP
Japan
Prior art keywords
database
text data
time code
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10096596A
Other languages
English (en)
Inventor
Toshihiro Maruyama
俊弘 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP10096596A priority Critical patent/JPH11272712A/ja
Publication of JPH11272712A publication Critical patent/JPH11272712A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

(57)【要約】 【課題】 オーディオビデオコンテンツの編集作業及び
データベースの構築作業を効率化する。 【解決手段】 ビデオソースは、再生装置12で再生さ
れる。編集者は、再生されているビデオソースを参照し
ながら、情景や解説に関連するキーワードを音声で発声
する。この音声は、音声認識部22によって認識され、
該当するキーワードに対応するテキストデータが、テキ
ストデータベース16から抽出される。同時に、音声認
識部22による認識時点のタイムコードがタイムコード
読み取り部14で読み取られる。データベースインター
フェース24では、タイムコード読み取り部14から取
得したタイムコードを、テキストデータ抽出部18から
抽出したテキストデータと合わせて、データベース26
に登録する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、オーディオビデオコン
テンツ(オーディオビデオソース)の編集作業やデータ
ベース化作業を行うためのデータベース構築支援装置に
関するものである。
【0002】
【従来技術】編集段階のオーディオビデオコンテンツに
は、タイムコードが付記されており、このタイムコード
をもとに編集作業を行うのが一般的である。図2には、
一般的な編集手段が示されている。同図において、オー
ディオビデオコンテンツは、再生装置30で再生され、
その内容が閲覧用の表示装置32に表示される。このと
き、表示装置32には、内容と同時にタイムコードも表
示される。編集者34は、コンテンツに関連する説明,
情景などのキーワードを判断し、端末36を操作して、
表示されているタイムコードと、そのタイムコードに対
応するキーワードを入力する。すると、それらタイムコ
ード及びキーワードが、別途用意したデータベース38
に保存される。
【0003】
【発明が解決しようとする課題】しかしながら、以上の
ような従来技術では、キーワードを入力する毎にビデオ
テープを止めるとともに、タイムコードを読み出し、端
末を操作してデータベースに入力するという作業を行わ
なければならず、作業が非常に煩わしいという不都合が
ある。
【0004】ところで、オーディオビデオコンテンツの
編集作業やデータベースの構築作業を効率化するために
は、以下のような観点で配慮されていると好都合であ
る。 (1)オーディオビデオコンテンツに対し、そのコンテ
ンツに関する説明や情景などをデータベースに構築する
際、キーボードからの入力に代って音声による入力とい
った操作手法を導入することにすれば、自動化のレベル
が高く、より好ましい。 (2)オーディオビデオコンテンツのタイムコード,シ
ーン情報及びキーワードが関連付けられたデータベース
があれば、オーディオビデオコンテンツを編集する際、
更に便利になる。
【0005】この発明は、以上の点に着目したもので、
オーディオビデオコンテンツの編集作業やデータベース
構築作業を効率的に行うことができるデータベース構築
支援装置を提供することを、その目的とするものであ
る。
【0006】
【課題を解決するための手段】本発明は、オーディオビ
デオコンテンツを再生する再生手段;前記オーディオビ
デオコンテンツに関するテキストデータがキーワードに
関連付けられて蓄積されたテキストデータベース;編集
者の音声を認識する音声認識手段;これによって認識さ
れた音声の内容に対応する前記キーワードに関連付けら
れた前記テキストデータを、前記テキストデータベース
から抽出するテキストデータ抽出部;前記音声認識手段
の音声認識時点における前記再生手段の再生内容のタイ
ムコードを読み出すタイムコード読み取り手段;前記テ
キストデータ抽出手段から抽出されたテキストデータ
と、前記タイムコード読み取り手段から読み取られたタ
イムコードを合わせて登録して、データベースを構築す
るデータベース構築手段;を備えたことを特徴とする。
【0007】他の発明は、前記前記テキストデータが、
前記オーディオビデオコンテンツのいずれのシーンに関
するものかを示すシーン情報が蓄積されたシーン情報デ
ータベースを備え、前記データベース構築手段は、前記
シーン情報データベースを参照し、前記テキストデータ
及びタイムコードと共に、それらに該当するシーン情報
を合わせて登録することを特徴とする。
【0008】
【発明の実施の形態】以下、本発明の実施の形態につい
て詳細に説明する。
【0009】[実施形態1]最初に、実施形態1につい
て説明する。図1には、本形態の構成が示されている。
同図において、再生装置12のオーディオビデオ出力側
はCRT・スピーカ10に接続されており、タイムコー
ド出力側はタイムコード読み取り部14に接続されてい
る。タイムコード読み取り部14の出力側は、データベ
ースインターフェース24に接続されている。このデー
タベースインターフェース24は、データベース26に
接続されている。
【0010】本形態では、他にテキストデータベース1
6が設けられており、テキストデータ抽出部18に接続
されている。マイク20の出力側は、音声認識部22に
接続されており、この音声認識部22の出力側はテキス
トデータ抽出部18に接続されている。そして、テキス
トデータ抽出部18の出力側が、データベースインター
フェース24に接続されている。
【0011】以上の各部のうち、再生装置12は、ビデ
オ再生,オーディオ再生を行うCRT・スピーカ10に
オーディオビデオコンテンツを供給するためのものであ
る。このとき、同時にタイムコードがCRT・スピーカ
10に表示される。タイムコード読み取り部14は、再
生装置12から出力されたタイムコード読み取り、テキ
ストデータに変換して出力するためのものである。
【0012】テキストデータベース16は、データベー
ス26に保存するためのテキストデータを、キーワード
と関連させて蓄えたものである。この場合のキーワード
は、テキストデータベース16に含まれるキーワードデ
ータベースに貯えられている。なお、キーワードとテキ
ストデ一夕は同じでもよいが、キーワード毎に別の単語
や文章などを割り当てるようにしてもよい。音声認識部
22は、マイク20から入力される信号から音声の内容
を認識するためのものである。テキストデータ抽出部1
8は、認識された音声の内容に対応するテキストデータ
を抽出するためのものである。
【0013】次に、音声入力によるテキストデータベー
ス16からのテキストデータ抽出の仕組みを説明する。
表1には、テキストデータベース16の内容の一例が示
されている。
【0014】
【表1】
【0015】マイク20からの音声信号は、音声認識部
22によって音声認識される。具体的には、予め認識候
補データをキーワードデータベースとして登録してお
き、音声の入力によって、候補の何番目が一番近いかを
判断し、該当する認識結果番号を出力する。例えば、入
力音声が「あおいうむ」のときは、最も近いものは「あ
おいうみ」であるので、その認識結果番号「1」が音声
認識部22から出力される。テキストデータ抽出部18
では、音声認識部22から入力された認識結果番号か
ら、テキストデータベース16にアクセスし、該当する
テキストデータ「青い海」を抽出する。
【0016】次に、本形態による編集処理について説明
する。まず、オーディオビデオソースは、再生装置12
で再生される。編集者は、予めキーワードについて候補
となる単語を覚えておく。ただし必須でない。仮に、登
録されていないキーワードを発声したとしても、キーワ
ードデータベース(表1参照)に登録されていないた
め、特に不都合が生ずることはない。しかし、データベ
ース構築の作業を効率的に行うためには、予備学習を行
うとよい。
【0017】編集者は、CRT・スピーカ10で再生さ
れている映像や音声を参照しながら、その情景や解説に
関連するキーワードを音声でマイク20に向かって発声
する。すると、音声認識部22では、編集者の発声した
音声が認識され、認識結果番号がテキストデータ抽出部
18に供給される。テキストデータ抽出部18では、テ
キストデータベース16から、その認識結果番号に相当
するキーワードに関連付けられたテキストデータが抽出
される。
【0018】一方,再生装置側では,タイムコード読み取
り部14によって、音声認識部22が認識結果が出力さ
れた時点におけるコンテンツのタイムコードがテキスト
データとして読み取られる。これらテキストデータ及び
タイムコードは,データベースインターフェース24に
供給される。
【0019】データベースインターフェース24では、
テキストデータベース16から抽出されたテキストデー
タと、タイムコード読み取り部14から供給されたタイ
ムコードデータを元に、データベース26に対するデー
タ追加命令文が生成される。
【0020】例えば,以下のような命令文を作成する。I
NSERT INTO AV_DATA(timecode,text) VALUE("00:00:1
2","BLUE SKY")この命令文は,タイムコード「00:00:1
2」のときに「青い空」というテキストデータが抽出さ
れ、「AV_DATA」というデータベースの「timecode」と
「text」というフィールドにデータが追加されることを
意味する。以上の操作が繰り返し行われ、データベース
26にタイムコードとテキストの関係が構築される。表
2には、その一例が示されている。
【0021】
【表2】
【0022】なお、データベース26の形式は特に限定
されないが、本形態のように、自動的にプログラムなど
によってデータベースの登録や更新を行うには、SQL
サーバと呼ばれるものが適している。このSQLサーバ
におけるインターフェースは、例えば以下の通りであ
る。これらの処理は、一般的なデータベースサーバのア
クセス手順として公知の手法である。 (1)データベースのオーブン (2)データベースへのデータ追加命令(SQL文)の
生成 (3)データベースへ命令発行 (4)データベースクローズ
【0023】編集者の操作終了、もしくは、オーディオ
ビデオソースの終了によりデータベースをクローズし、
データベース構築作業はが終了する。構築されたデータ
は、データベース26に蓄積されたテキストデータを元
にソートが行なわれる。そして、必要であれば、別途テ
キストデータに編集され、要求に応じてそのオーディオ
ビデオソースに関するテキストデータとして公開,提供
される。データベース26の検索や閲覧の手法に関して
は、例えば特開平4―68168号「音響キーワードに
よる映像検索方法および装置」に記載されている。
【0024】[実施形態2]次に、図3を参照しながら
実施形態2について説明する。同図に示すように、本形
態は、図1の形態1に対してシーン情報データベース4
0を追加したものである。シーン情報データベース40
には、例えば表3(A)に示すようなビデオソースに関
するシーン情報が格納されている。例えば、再生されて
いるソースの開始時間「00:00:00」から終了時間「00:0
0:50」までが番号「1」のシーンとなっている。他も同
様である。データベースインターフェース24では、デ
ータベース26にタイムコードとテキストデータを登録
する際に、シーン情報データベース40が参照され、タ
イムコードから該当するシーン番号が選択される。この
シーン番号は、タイムコード及びテキストデータととも
に、データベース26に格納される。その結果、本形態
では、登録内容は表3(B)に示すようになる。
【0025】
【表3】
【0026】このように、本形態によれば、抽出された
テキストデータがどのシーンに関するものかという情報
が付加される。一般的には、編集者が登録するキーワー
ドは、ビデオソースの一瞬の時間に対するものよりも、
あるシーンについての解説や感想であることが多いと考
えられる。このため、本形態のように、シーン情報を付
加するほうが、より実用的である。
【0027】[実施形態3]次に、図4を参照しながら
実施形態3について説明する。本形態は、図1に示した
形態1に対し、再生装置12と音声認識部16の間にエ
コーキャンセル装置50を追加したものである。同図に
おいて、再生装置12のスピーカ出力側は、エコーキャ
ンセル装置50に接続されている。マイク20の出力側
は、このエコーキャンセル装置50に接続されている。
そして、エコーキャンセル装置50の出力側が音声認識
部18に接続されている。
【0028】エコーキャンセル装置50は、再生装置1
2→スピーカ10B→マイク20に至る経路の音響特性
を適応フィルタなどで同定し、その逆特性となるフィル
タを構成したものである。エコーキャンセル装置50で
は、一方において、再生装置12からスピーカ10Bに
至る経路の信号が取り出されるとともに、他方におい
て、マイク20から拾われたスピーカ10Bの音声が取
り出される。そして、スピーカ側の信号に逆フィルタを
通すことで、マイク側の信号が打ち消される。このよう
にして、再生装置12からの音声が音声認識部18に混
入することを防いでいる。
【0029】
【発明の効果】以上説明したように、本発明によれば、
次のような効果がある。 (1)オーディオビデオコンテンツに関する説明や情景
などのデータベースを構築する際に、音声によって入力
操作を行うこととしたので、データベースの編集や構築
の作業を効率的に行うことができる。 (2)シーン情報を関連付けることとしたので、実用的
なデータベースを構築できる。 (3)エコーキャンセル手段を設けることとしたので、
再生音声の混入を防止して、音声入力作業を良好に行う
ことができる。
【図面の簡単な説明】
【図1】この発明の実施形態1の構成を示すブロック図
である。
【図2】従来のデータベース構築支援装置を示すブロッ
ク図である。
【図3】この発明の実施形態2の構成を示すブロック図
である。
【図4】この発明の実施形態3の構成を示すブロック図
である。
【符号の説明】
10…CRT・スピーカ 10A…CRT 10B…スピーカ 12…再生装置 14…タイムコード読み取り部 16…テキストデータベース 18…テキストデータ抽出部 20…マイク 22…音声認識部 24…データベースインターフェース 26…データベース 40…シーン情報データベース 50…エコーキャンセル装置
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成10年6月17日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】発明の名称
【補正方法】変更
【補正内容】
【発明の名称】 デーベース構築支援装置
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正内容】
【0012】テキストデータベース16は、データベー
ス26に保存するためのテキストデータを、キーワード
と関連させて蓄えたものである。この場合のキーワード
は、テキストデータベース16に含まれるキーワードデ
ータベースに貯えられている。なお、キーワードとテキ
ストデータは同じでもよいが、キーワード毎に別の単語
や文章などを割り当てるようにしてもよい。音声認識部
22は、マイク20から入力される信号から音声の内容
を認識するためのものである。テキストデータ抽出部1
8は、認識された音声の内容に対応するテキストデータ
を抽出するためのものである。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 オーディオビデオコンテンツを再生する
    再生手段;前記オーディオビデオコンテンツに関するテ
    キストデータがキーワードに関連付けられて蓄積された
    テキストデータベース;編集者の音声を認識する音声認
    識手段;これによって認識された音声の内容に対応する
    前記キーワードに関連付けられた前記テキストデータ
    を、前記テキストデータベースから抽出するテキストデ
    ータ抽出部;前記音声認識手段の音声認識時点における
    前記再生手段の再生内容のタイムコードを読み出すタイ
    ムコード読み取り手段;前記テキストデータ抽出手段か
    ら抽出されたテキストデータと、前記タイムコード読み
    取り手段から読み取られたタイムコードを合わせて登録
    して、データベースを構築するデータベース構築手段;
    を備えたことを特徴とするデータベース構築支援装置。
  2. 【請求項2】 請求項1記載のデータベース構築支援装
    置において、 前記テキストデータが、前記オーディオビデオコンテン
    ツのいずれのシーンに関するものかを示すシーン情報が
    蓄積されたシーン情報データベースを備え、 前記データベース構築手段は、前記シーン情報データベ
    ースを参照し、前記テキストデータ及びタイムコードと
    共に、それらに該当するシーン情報を合わせて登録する
    ことを特徴とするデータベース構築支援装置。
JP10096596A 1998-03-25 1998-03-25 データベース構築支援装置 Pending JPH11272712A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10096596A JPH11272712A (ja) 1998-03-25 1998-03-25 データベース構築支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10096596A JPH11272712A (ja) 1998-03-25 1998-03-25 データベース構築支援装置

Publications (1)

Publication Number Publication Date
JPH11272712A true JPH11272712A (ja) 1999-10-08

Family

ID=14169280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10096596A Pending JPH11272712A (ja) 1998-03-25 1998-03-25 データベース構築支援装置

Country Status (1)

Country Link
JP (1) JPH11272712A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086760A1 (fr) * 2001-04-19 2002-10-31 Matsushita Electric Industrial Co., Ltd. Appareil de creation de metadonnees et procede de creation de metadonnees
US6502022B1 (en) 2000-11-16 2002-12-31 International Business Machines Corporation Method and system for preventing unsafe communication device usage in a vehicle
US6772265B2 (en) 2000-12-11 2004-08-03 International Business Machines Corporation Docking station for a laptop computer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212328A (ja) * 1995-02-06 1996-08-20 Omron Corp データ管理装置およびデータ管理方法
JPH1013773A (ja) * 1996-06-18 1998-01-16 Canon Inc デジタル画像管理検索システム及びデジタルカメラシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212328A (ja) * 1995-02-06 1996-08-20 Omron Corp データ管理装置およびデータ管理方法
JPH1013773A (ja) * 1996-06-18 1998-01-16 Canon Inc デジタル画像管理検索システム及びデジタルカメラシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502022B1 (en) 2000-11-16 2002-12-31 International Business Machines Corporation Method and system for preventing unsafe communication device usage in a vehicle
US6772265B2 (en) 2000-12-11 2004-08-03 International Business Machines Corporation Docking station for a laptop computer
WO2002086760A1 (fr) * 2001-04-19 2002-10-31 Matsushita Electric Industrial Co., Ltd. Appareil de creation de metadonnees et procede de creation de metadonnees
CN100337234C (zh) * 2001-04-19 2007-09-12 松下电器产业株式会社 元数据创建装置和元数据创建方法

Similar Documents

Publication Publication Date Title
US7257533B2 (en) Database searching and retrieval using phoneme and word lattice
US8150687B2 (en) Recognizing speech, and processing data
US8719028B2 (en) Information processing apparatus and text-to-speech method
US7092496B1 (en) Method and apparatus for processing information signals based on content
JP2007507746A (ja) 選択自由な後処理を備えた携帯可能な装置のための音声タギング,音声アノテーション,および音声認識
CN1739309A (zh) 利用语音转文本辅助的多媒体和文本消息传送
KR20000028832A (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신판독가능 매체 및 대화형 음성 응답 시스템
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
US20220093103A1 (en) Method, system, and computer-readable recording medium for managing text transcript and memo for audio file
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP3938096B2 (ja) インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
US20080167879A1 (en) Speech delimiting processing system and method
KR100834363B1 (ko) 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체
JPH11272712A (ja) データベース構築支援装置
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
KR20210132115A (ko) 편집 지원 프로그램, 편집 지원 방법 및 편집 지원 장치
JP2007078985A (ja) データ検索装置及びその制御方法
JPH08212328A (ja) データ管理装置およびデータ管理方法
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
JP2004333737A (ja) メディア検索装置およびメディア検索プログラム
JP2835320B2 (ja) 音声文書作成装置
JP2021022895A (ja) 情報処理装置
TWI220206B (en) System and method for searching a single word in accordance with speech
JP2002351893A (ja) 情報記録・検索装置、方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706