JP2741833B2 - マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法 - Google Patents

マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法

Info

Publication number
JP2741833B2
JP2741833B2 JP5273376A JP27337693A JP2741833B2 JP 2741833 B2 JP2741833 B2 JP 2741833B2 JP 5273376 A JP5273376 A JP 5273376A JP 27337693 A JP27337693 A JP 27337693A JP 2741833 B2 JP2741833 B2 JP 2741833B2
Authority
JP
Japan
Prior art keywords
search
search pattern
block
presentation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5273376A
Other languages
English (en)
Other versions
JPH06274533A (ja
Inventor
グレッグ・ピー・フィッツパトリック
ウイリアム・ジェー・ジョンソン
マービン・エル・ウイリアムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06274533A publication Critical patent/JPH06274533A/ja
Application granted granted Critical
Publication of JP2741833B2 publication Critical patent/JP2741833B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データ処理システム中
のマルチメデイア提示(multimedia presentation)を
処理する方法及びシステムに係り、より詳細に言えば、
データ処理システム中のある1つのマルチメデイア提示
の中で選択されたセグメントのサーチを遂行する方法及
びシステムに関する。本発明を具体的に言えば、本発明
は音声的なサーチ・パターンを用いてある1つのマルチ
メデイア提示の範囲内でサーチを行なう方法及びシステ
ムに関する。
【0002】
【従来の技術】最近のデータ処理システムにおいて、情
報は、いわゆる「マルチメデイア提示」と呼ばれる提示
で、しばしばユーザに転送される。換言すれば、情報
は、音声、画像、テキスト型(text)データなどを含む
複数メデイア(媒体)を用いて転送される。このような
複数のメデイアを含むマルチメデイア提示の複雑さは、
マルチメデイア提示の中の特定の位置にマルチメデイア
提示を転送したいと望んでいるユーザに対して困難な問
題を与える。単一のマルチメデイアの範囲内でイメー
ジ、音声、画像及びテキスト型データの提示を捕えて同
期する問題は、マルチメデイアでなければ単純な上述の
タスクを達成するのを極めて困難にする。
【0003】動画及びテレビジヨン・エンジニヤ協会
(The Society of Motion Picture and Television Eng
ineers-SMPTE)は、マルチメデイア事象を計時(timin
g)するための産業標準技術を与えており、これはマル
チメデイア出力の提示とSMPTEタイム・コードとを
統合することを含んでいる。マルチメデイア堤示とタイ
ム・コードの発生とを統合し、その後、これらのタイム
・コードを用いたマルチメデイア提示を編集することに
よつて、良好に制御された態様でマルチメデイア提示を
編集し、獲得し、そして提示することが可能である。し
かしながら、ある1つのマルチメデイア提示の範囲内に
ある特定のセグメントを見つけ出す技術を利用するため
には、ユーザは、関連するタイム・コードによつてその
セグメントの正確な位置を知らなければならず、また、
その提示からその特定のタイム・コードの位置を導き出
すための機構が利用可能でなければならない。
【0004】このような技術の一例は、1991年3月
のIBMテクニカル・デイスクロージヤ・ブレテイン第
33巻第10A号に記載されている。この技術はメモリ
装置に格納され、かつ格納された後に自動検索を容易に
するために使用されるデータベースを形成するための、
ワード及びフレームの位置の転写(transcription)を
作成することにより、連続的に記録されたデータの特定
のセグメントのサーチを自動化する処理技術である。こ
のシステムを用いたマルチメデイア提示中のデータを検
索するために、ユーザは、ワードまたはフレーズ(デー
タの区画)の引数を呼び出すことによつてデータベース
をサーチし、次に、検索されたワードまたはフレーズ
は、予め設定されたデータベースを用いた提示中の特定
のフレーム位置マーカと相関される。この技術はマルチ
メデイア提示を介して特定のワード、またはフレーズを
見つけるために比較的効率の良いサーチを可能にするけ
れども、この技術は、ある1つの提示の範囲内にあるす
べてのワード及びフレーズのためのデータベースが予め
設定され、且つデータベースが提示全体に対するフレー
ム位置の表示と対応付けられていることを必要とする。
【0005】上述のサーチ方法は、マルチメデイア提示
のすべてのエレメントと関連したデイジタル・カウンタ
の校正を与えることによつてのみ達成される。従つて、
ユーザは、場面(scene)を適正なカウンタ値と関係付
けるために、カウンタの選択されたオフセツト値を知ら
なければならない。このため、数人のユーザが提示相関
装置を使用する場合には、一方のユーザにより用いられ
ているカウンタの校正を他方のユーザが妨害するので、
上述の問題は更に複雑な問題になる。
【0006】従つて、提示の事前処理を必要とせず、か
つ提示と人工的に作成されたカウンタ(若しくはデイジ
タル・ロケータ)との間の正確な関係付けとを必要とせ
ずにマルチメデイア提示の特定の部分を位置付けるため
に、マルチメデイア提示を通して効率的なサーチができ
る方法及びシステムが必要であることは明らかである。
【0007】
【発明が解決しようとする課題】本発明の目的は、デー
タ処理システム中のマルチメデイア提示を処理する方法
を提供することにある。
【0008】本発明の他の目的は、データ処理システム
においてマルチメデイア提示の範囲内で選択されるセグ
メントのサーチを行なう方法及びシステムを提供するこ
とにある。
【0009】本発明の他の目的は、音声的サーチ・パタ
ーンを用いてデータ処理システム中のマルチメデイア提
示中の選択されるセグメントのサーチを行なう方法及び
システムを提供することにある。
【0010】
【課題を解決するための手段及び作用】本発明の方法及
びシステムはマルチメデイア提示中の選択されるセグメ
ントを高速度で効率的にサーチすることを可能にする。
本発明の方法、またはシステムのユーザは、サーチ・パ
ターンとして用いられる可聴音声(audible utteranc
e)を言語の音声(verbally)によるか、またはテキス
ト型データによるかのいずれかで特定する。テキスト入
力から音声的サーチ・パターンを作成するために、テキ
スト型データから音声への変換処理が用いられる。その
後、効率的なサーチ・パターンに拡張するために、可聴
音声の種々の属性がユーザによつて変更され、または編
集することが可能である。更に、サーチ・パターンを更
に特徴付けるために、ユーザは、周波数や最大振幅のよ
うな付加的なサーチ特性を、ブール論理関係でサーチ・
パターンと組合わせて特定することができる。その後、
サーチ・パターンはマルチメデイア提示中の特定の音声
を識別し、見つけ出すために使用される。本発明に従つ
て、サーチ動作の効率を大きく向上させるために、サー
チ・パターンは、提示の順序を逆方向に変えてマルチメ
デイア提示のサーチに供することができる。
【0011】
【実施例】図1を参照すると、本発明の方法及びシステ
ムを適用することのできるデータ処理システム10の模
式図が示されている。図示されているように、データ処
理システム10は表示装置12及びプロセツサ14を含
んでいる。また、データ処理システム10はマウスのよ
うな任意の図形指示装置を用いて実行される図形ポイン
タ16を含んでいる。また、データ処理システム10は
テキスト型サーチ・パターンの入力を発生するためにユ
ーザにより使用されるキーボード18が与えられてい
る。テキスト型サーチ・パターンについては後述する。
データ処理システム10は1つ以上のデイスケツト装置
20を含むのが望ましい。データ処理システム10はマ
ルチメデイア提示を処理し、かつ表示する能力を持つい
わゆる「パーソナル・コンピユータ」を使用して実行で
きるのは当業者であれば容易に理解できるであろう。こ
のようなデータ処理システムの一例はIBM社のPS/
2パーソナル・コンピユータである。
【0012】図1に示されているように、データ処理シ
ステム10は表示装置12の表示面24の中にマルチメ
デイア提示を発生することのできる能力を持つものであ
る。加えて、本発明の方法及びシステムに従つて使用す
るための音声的サーチ・パターンを作成するために、デ
ータ処理システム10と組み合わせたマイクロフオン2
2を使用することができる。これについては後述する。
【0013】図2を参照すると、図1のデータ処理シス
テム10の表示画面24の模式的な表示が示されてい
る。図示されているように、表示画面24は好ましくは
マルチメデイア提示ビユーワ26を含んでおり、本発明
の図示の実施例において、この提示ビユーワ26は表示
画面24内の指定された領域を占めており、この領域中
でマルチメデイア提示を見ることができる。表示画面2
4の領域内のマルチメデイア提示は、現用のビデオから
捕えられたビツトマツプを用いることによるか、または
表示画面24内で通常見られるテキスト型提示及び画像
提示によるビデオ提示材料をインターリーブすることに
よつて達成することができるのは当業者であれば容易に
理解できるであろう。更に、表示画面24は、特徴デー
タ処理システム10の中で呼び出すことのできるアプリ
ケーシヨンを表示する複数個の図形表示若しくはアイコ
ンを含むことが望ましい。音声的サーチ・パターンのア
イコン28が、特に示されており、ユーザはこのアイコ
ンを選択することによつて、ビユーワ26で眺望される
ある1つのマルチメデイア提示の範囲内で選択されたセ
グメントのサーチに用いるための音声的サーチ・パター
ンを作成し、修正することができ、選択されたセグメン
トはマルチメデイア提示ビユーワ26内に表示される。
この処理については後述する。
【0014】図3を参照すると、図1のデータ処理シス
テム10の概観的なブロツク図が示されている。図示さ
れているように、表示装置12、キーボード18及びプ
ロセツサ14はパーソナル・コンピユータの技術分野の
専門家に広く知られている態様で相互に接続されてい
る。加えて、図示されているように、マイクロフオン2
2がプロセツサ14に接続されている。そして、本発明
に係る方法及びシステムによれば、当業者には周知の態
様でデイジタル・データ・サンプルに変換するためのア
ナログ/デイジタル・コンバータ30に接続可能なマイ
クロフオン22を用いて可聴音声を捕捉することによつ
て、音声的サーチ・パターンを作成することができる。
従つて、データ処理システム10のユーザはマイクロフ
オン22に向つて可聴音声で話すことができる。次い
で、本発明の方法及びシステムに従つて音声的サーチ・
パターンを作成するために、周知のアナログ信号からデ
イジタル信号への変換技術を用いて、上述の可聴音声を
デイジタル表示に変換する。他の実施例として、音声的
サーチ・パターンは、本発明の方法及びシステムに従つ
てキーボード18を打鍵してテキスト型データを入力
し、次いで、テキスト型データ信号から音声信号へ変換
するコンバータ32を用いることにより音声のデイジタ
ル表示に変換することによつて作成することができる。
上述のような態様で動作するような、テキスト型データ
の入力信号から可聴音声を作成する能力のある非常に優
れたコンバータが多数存在することは、音響合成技術の
分野の専門家であれば容易に理解できるであろう。
【0015】図4を参照すると、本発明の方法及びシス
テムに従つて作成された音声的サーチ・パターンの模式
図が示されている。図示されているように、図4は音声
サーチ・パターンのアイコン28を選択することにより
呼び出すことのできるサーチ・パターン・ウインドウ4
0を示している。このウインドウ40は図形対話入力
(graphical user interface)の分野の専門家には周知
の態様のものである。サーチ・パターン・ウインドウ4
0は、サーチ・パターン・ウインドウ40内の任意の時
点で音声的サーチ・パターンの状態を、テキスト型デー
タの態様で表示するために用いられる状態ライン42を
含むことが望ましい。同様に、経過時間インジケータ4
4が与えられており、これはサーチ・パターン・ウイン
ドウ40内で時間の進行を図形的に表示するのに用いら
れる。従つて、サーチ・パターン・ウインドウ40は、
音声フレーズを捕捉することにより作成された音声的サ
ーチ・パターンを可視的に示すために用いることができ
ることや、キーボード18を用いて特定のテキスト型フ
レーズを打鍵しコンバータ32を用いてそのテキスト型
データの入力を音声的な出力に変換することにより作成
された音声的サーチ・パターンを可視的に示すために用
いることができることは当業者であれば上述の説明から
容易に理解できるであろう。従つて、図4に示されるよ
うに、可聴音声の入力か、あるいはテキスト型データの
入力のいずれかを使用して音声的サーチ・パターン46
を作成し、またカーソル48を用いてサーチ・パターン
・ウインドウ40により表示された時間内の任意の時点
において音声的サーチ・パターン46を検査することが
できる。
【0016】本発明の方法及びシステムによつて、ユー
ザがある1つのマルチメデイア提示の範囲内で選択され
るセグメントをサーチすることができる自然で且つ直観
的な技術がもたらされることは、当業者であれば上述の
説明から容易に理解できるであろう。例えば、ユーザが
特定の場面に含まれた可聴音声を識別することにより、
ある1つのマルチメデイア提示内の特定の場面をユーザ
が特定することは、自然且つ直観的に行なわれる。例え
ば、ユーザは、フレーズ「やあ、ジヨージ君」が発声さ
れる場面の提示の繰り返しを望む場合がある。音声フレ
ーズ「やあ、ジヨージ君」を捕捉するか、またはこのフ
レーズをキーボード18により打鍵するかのいずれかに
よつて、サーチ・パターン46のような音声的サーチ・
パターンをサーチ・パターン・ウインドウ40の中に作
成することができ、そして後に詳解するような処理の下
で、マルチメデイア提示を通して選択的にサーチし、音
声的サーチ・パターンで表わされた音声的な特性に合致
する発生を当該提示の内から全て見つけ出すために、サ
ーチ・パターン・ウインドウ中のサーチ・パターンが使
用できる。
【0017】次に図5を参照すると、上述の態様の下で
作成された音声的サーチ・パターンが本発明の方法及び
システムに従つてユーザにより選択的に修正されるとい
う、本発明の重要な特徴が示されている。図5に示され
たメカニズムを提示することによつて、ユーザは、既存
のオーデイオ・エデイタにある方法と同じ方法で音声的
サーチ・パターンを操作し、または変更することができ
る。例えば、1989年2月のIBMテクニカル・デイ
スクロージヤ・ブレテイン第31巻第9号に示された記
載は、可視的で感覚的な操作に関する技術を利用して、
ユーザが、処理されるべきオーデイオ・オブジエクトを
選択し、または作成できるオーデイオ・エデイタのため
の基本的な画面フオーマツトを開示している。
【0018】属性ウインドウ60を呼び出すことによつ
て、ユーザは、図5に示された態様において、音質、周
波数、増幅率、減衰率(decay)、あるいはアタツク
(歪率)のような特定の属性を選択し、そして、サーチ
処理の間でマルチメデイア提示中の音声的テスト・パタ
ーンを包含する可変マージンを作成することができるよ
うな各属性の所望の精度を入力することができる。図5
に示されているように、ユーザにより選択された属性は
90の「増幅率」と±10%の精度が選ばれている。従
つて、音声のサーチ処理の間の特定の属性に対して許容
される変化量を特定する属性の変化幅は、参照数字62
で示されたように作られる。
【0019】加えて、本発明の他の重要な特徴に従つ
て、属性ウインドウ60の中で特定された種々の属性は
ブール論理演算によつてサーチ・パターンに組合わせる
ことができる。例えば、サーチ・パターンの周波数は、
18,000ヘルツ±1,000ヘルツと(AND論理
演算)、128±12の増幅率か、または60±10の
増幅率(OR論理演算)として特定化することができ
る。このようにして、経験の浅いユーザでも、サーチ動
作の間でサーチ・パターンの中に包括されるマルチメデ
イア提示中の変動を受け入れるために、作成される音声
的サーチ・パターンを変更することができる。
【0020】図6を参照すると、本発明の方法及びシス
テムに従つた上述の音声的サーチ・パターンの作成処理
を説明するための高レベルの流れ図が示されている。こ
の作成処理はブロツク80で開始し、その後ブロツク8
2に通む。ブロツク82において、ユーザがサーチ要求
を選択したか否かが決定される。若しユーザがサーチ要
求を選択しなければ、処理はサーチ要求が選択されるま
で単純に反復される。ブロツク82においてユーザがサ
ーチ要求を選択した場合、処理はブロツク84に進む。
ブロツク84において、そのサーチ要求が音声ベース
か、またはテキストベースかが決定される。既に述べた
ように、若しサーチ要求がテキストベースならば、処理
はブロツク86に進む。ブロツク86において、ユーザ
の入力は、サーチ・パターンを作成する音声表示に変換
するために、テキスト型データ信号から音声信号への処
理プロセツサに供給される。
【0021】ブロツク84において、ユーザが音声ベー
スのサーチ要求を選択した場合、ブロツク88におい
て、マイクロフオン22(図1参照)とアナログ/デイ
ジタル・コンバータ30とを使用して所望の音声セグメ
ントの捕捉動作が行なわれる。その後、ブロツク90に
おいて、捕捉され変換された音声セグメントか、または
変換プロセツサ32を用いて作成された音声セグメント
かのいずれかを用いて所望の音声的サーチ・パターンが
作成される。
【0022】次に、処理はブロツク92に進む。ブロツ
ク92において、ユーザは作成状態からの音声的サーチ
・パターンを変更するか否かが決定される。若しユーザ
が変更を望むならば、処理はブロツク94に進む。ブロ
ツク94において、既に述べたような態様の属性ウイン
ドウ60を用いて、ユーザにより選択されたような音声
的サーチ・パターンから、許容される変数が特定され
る。その後か、あるいは音声的サーチ・パターンの修正
を必要としないことが決定された後に、処理はブロツク
96に進む。
【0023】ブロツク96において、音声的サーチ・パ
ターンと関連して使用される付加的なブール論理パラメ
ータを特定することをユーザが要求しているか否かを決
定する。若しブール論理パラメータを特定することが要
求されていれば、処理は、音声的サーチ・パターンに使
用するための特定のブール論理パラメータを特定するブ
ロツク98に進み、その後か、または付加的なブール論
理パラメータを特定することが要求されていない場合
に、処理はブロツク100に進む。ブロツク100はサ
ーチ・パターン作成の終了を示しており、作成されたサ
ーチ・パターンは、本発明の方法及びシステムに従つ
て、その表示中の特定の場面のマルチメデイア提示内の
選択された音声セグメントをサーチするために使用され
る。
【0024】図7を参照すると、本発明の方法及びシス
テムに従つて作成された音声的サーチ・パターンを用い
てマルチメデイア提示を通したサーチを説明するための
概観的な流れ図が示されている。図示されているよう
に、このサーチ処理はブロツク110で開始し、その
後、ブロツク112に進む。ブロツク112において、
サーチ対象となる特定のマルチメデイア提示の選択が行
なわれる。次に、処理は提示全体がサーチされるか否か
を決定するブロツク114に進む。若し提示全体をサー
チするのでなければ、マルチメデイア提示の一部だけを
サーチすべく、処理は参照数字116で示した分岐処理
Aに進む。分岐処理Aについては後述する。
【0025】ブロツク114において、ユーザが提示全
体のサーチを要求した場合、処理はブロツク118に進
む。ブロツク118において、本発明の重要な特徴に従
つた逆方向サーチが要求されたか否かが決定される。マ
ルチメデイア提示を通じて逆方向の態様でサーチするた
めに、本発明の方法及びシステムに従つた「逆方向サー
チ」が用いられる。すなわち、逆方向サーチとはマルチ
メデイア提示を見る時に通常使用される順方向のサーチ
方向とは逆の方向に行なわれるサーチを意味する。逆方
向サーチの技術は、マルチメデイア提示を見た直後に、
マルチメデイア提示を巻き戻してマルチメデイア提示の
開始点からサーチを開始するのではなく、マルチメデイ
ア提示を逆方向の順序でサーチすることが望ましい時に
は、この逆方向サーチが特に効果的であることは、当業
者であれば上述の説明から容易に理解できるであろう。
【0026】ブロツク118において、逆方向サーチが
要求されない場合には処理はブロツク120に進む。ブ
ロツク120において、提示の開始点までの巻き戻し動
作が開始される。術語「巻き戻し」は、勿論、類似語で
あつて、デイジタル表示に関連してこの術語が用いられ
た時に厳密な意味で解釈されるのとは異なつており、
「巻き戻し」の概念は、マルチメデイア提示の分野での
用語であつて、マルチメデイア提示中の開始点の提示に
戻すことを意味するのは当業者には容易に理解できるこ
とであろう。次に、処理は、マルチメデイア提示を順方
向に提示することと音声的サーチ・パターンと合致する
音声セグメントを当該提示内で走査することとを示すブ
ロツク122に進む。
【0027】ブロツク118に戻つて説明を続けると、
逆方向サーチが要求された場合には、処理はブロツク1
24に進む。ブロツク124において、図4及び図5に
関して説明した方法に従つて作成されたサーチ・パター
ンと経時的に逆行する逆方向サーチが行なわれ、その
後、処理はブロツク126に進む。ブロツク126にお
いて、提示を「巻き戻す」、若しくは提示の終了点まで
提示を早送りし、その後、処理はブロツク128に進
む。ブロツク128において、図4及び図5に関して説
明した方法に従つて作成される方向とは逆方向のサーチ
・パターンと合致するセグメントに対するマルチメデイ
ア提示の逆方向の提示と、音声セグメントの逆方向の走
査とが行なわれる。
【0028】ブロツク130において、マルチメデイア
提示中の音声セグメントが、作成されたサーチ・パター
ンと合致するか、または合致しないかが決定される。本
発明の方法及びシステムに従つて作成されたサーチ・パ
ターンと合致する音声セグメントがマルチメデイア提示
の中で発見されない場合、処理はブロツク132に進
む。ブロツク132において、「フレームは発見され
ず」メツセージを通知して、処理はブロツク138で終
了する。ブロツク130に戻つて説明を続けると、本発
明の方法及びシステムに従つて作成された音声的サーチ
・パターンと合致する音声セグメントが、ブロツク13
0において発見されたならば、その音声セグメントの位
置はブロツク134に示されているように「フレームの
発見」メツセージとして表示され、処理はブロツク13
6に進む。ブロツク136において、見つけられたフレ
ームの再生順序の位置及び/又は見つけられたフレーム
の活性化をユーザに通知する。その後、処理はブロツク
138に進んで終了する。
【0029】本発明の方法及びシステムに従つて作成さ
れた音声的サーチ・パターンと合致する各音声セグメン
トを見つけるために、マルチメデイア提示は順方向の態
様、または逆方向の態様のいずれでも走査できること
は、当業者であれば図7の流れ図及び上述の説明を参照
して容易に理解することができるであろう。
【0030】最後に、図8を参照すると、本発明の方法
及びシステムに従つて作成された音声的サーチ・パター
ンを用いてマルチメデイア提示の選択される部分をサー
チする概観的な流れ図が示されている。図示されている
ように、図7のブロツク114において、マルチメデイ
ア提示全体のサーチを必要としないことが決定された後
に、このサーチ処理が開始される。次に、処理はブロツ
ク150に進み、ブロツク150において、マルチメデ
イア提示中の現在の位置から、最初の「N個」の入力を
見つけることを、ユーザが指示したか否かが決定され
る。勿論、サーチのこのパラメータは、ユーザによつて
周知の態様で任意に入力し、または変更することができ
る。
【0031】次に、処理はブロツク152に進む。ブロ
ツク152において、逆方向サーチが要求されたか否か
が決定される。既に述べたように、ユーザは本発明の方
法及びシステムの下で、マルチメデイア提示の巻き戻し
の必要がない逆方向の態様でマルチメデイア提示を通し
てサーチすることができ、そして、公知のサーチ方法を
用いた技術により順方向の態様でマルチメデイア提示を
走査することができる。ブロツク152において、若し
逆方向サーチが要求されなければ、処理はブロツク15
4に進む。ブロツク154において、マルチメデイア提
示の順方向提示と、既に述べた態様で作成された音声的
サーチ・パターンに合致した音声セグメントのマルチメ
デイア提示の走査とを行なう。再度、ブロツク152を
参照して説明を続けると、ブロツク152において、若
し逆方向サーチが要求されたならば、処理はブロツク1
56に進む。ブロツク156において、経時的順序とは
逆方向のサーチ・パターンを作成するために、サーチ・
パターンの経時的方向の逆転が行なわれ、次に、処理は
ブロツク158に進む。ブロツク158において、マル
チメデイア提示の逆方向の提示と、本発明の方法及びシ
ステムに従つて作成された経時的方向とは反対方向のサ
ーチ・パターンに合致する音声入力の走査とが行なわれ
【0032】順方向の提示、または逆方向の提示と、本
発明の方法及びシステムに従つて作成された音声的サー
チ・パターンに合致した音声セグメントの提示の走査と
が開始された後、処理はブロツク160に進む。ブロツ
ク160において、サーチ・パターンの合致が位置付け
られたか否かが決定される。若しサーチ・パターンの合
致が見つけ出されたならば、処理はブロツク162に進
む。ブロツク162において、いま発生した合致の数は
ブロツク150で示されたようなユーザによつて入力さ
れた特定の合致数よりも小さいか否かが決定される。若
し合致数が上述の特定合致数よりも小さければ、サーチ
・パターンの合致を見つけるサーチを続けるための反復
処理をするために、処理はブロツク160に戻る。若し
合致数が、ブロツク150においてユーザにより入力さ
れた特定の合致数と同じか、または、それよりも大きけ
れば、処理はブロツク168に進む。ブロツク168に
おいて、「フレーム発見」メツセージを表示する。「フ
レーム発見」メツセージは既に説明したような態様で作
成された音声的サーチ・パターンに合致した音声セグメ
ントのリストを含んでいる。そうではなく、若し音声的
サーチ・パターンの合致が発見されなければ、処理はブ
ロツク164に進む。ブロツク164において、本発明
の方法及びシステムに従つて作成された音声的サーチ・
パターンに合致する他の音声セグメントが発見されたか
否かが決定される。若し他の音声セグメントが発見され
たならば、本発明の方法及びシステムに従つて作成され
た音声的サーチ・パターンに合致する音声セグメントの
リストを含む「フレーム発見」メツセージを表示する。
【0033】ブロツク164に戻つて説明を続けると、
ブロツク164において、本発明の方法及びシステムに
従つて作成された音声的サーチ・パターンに合致する音
声セグメントが発見されなかつたならば、処理はブロツ
ク166に進む。ブロツク166において、「フレーム
は発見されず」メツセージが通知された後、処理はブロ
ツク172に進んで終了する。再度、ブロツク168に
戻つて説明を続けると、本発明の方法及びシステムに従
つて作成された音声的サーチ・パターンに合致した音声
セグメントのリストを含む「フレーム発見」メツセージ
を表示した後、処理はブロツク170に進む。ブロツク
170において、位置付けられた音声セグメントを含む
再生順序の位置付け、即ち、再生順序の活性化をユーザ
に通知する。その後の処理は、既に述べたようにブロツ
ク172に進んで終了する。
【0034】
【発明の効果】本発明によつて、順方向、あるいは逆方
向のいずれかの方向を持つマルチメデイア提示全体か、
あるいはマルチメデイア提示の一部分を構成するような
音声的サーチ・パターンが作成され、変更され、種々の
音声的属性がブール論理を用いて組み合わせ、そして、
作成された音声的サーチ・パターンに合致する音声セグ
メントを含むマルチメデイア提示の範囲内にある音声セ
グメントを見つけ出し且つ識別することができる。
【図面の簡単な説明】
【図1】本発明の方法及びシステムを実施するために使
用されるデータ処理システムの模式図である。
【図2】本発明の方法及びシステムを実施するために使
用される図1のデータ処理システムの表示画面を示す模
式図である。
【図3】図1のデータ処理システムの概観的なブロツク
図である。
【図4】本発明の方法及びシステムに従つて作成された
音声的サーチ・パターンの模式図である。
【図5】本発明の方法及びシステムに従つて作成された
音声的サーチ・パターンの模式図である。
【図6】本発明の方法及びシステムに従つた音声的サー
チ・パターンを作成する処理を説明するための流れ図で
ある。
【図7】本発明の方法及びシステムに従つて作成された
音声的サーチ・パターンを使用してマルチメデイア提示
全体をサーチする動作を説明するための流れ図である。
【図8】本発明の方法及びシステムに従つて作成された
音声的サーチ・パターンを使用してマルチメデイア提示
の選択された部分をサーチする動作を説明するための流
れ図である。
【符号の説明】
10 データ処理システム 12 表示装置 14 プロセツサ 16 マウス 18 キーボード 22 マイクロフオン 24 表示画面 26 マルチメデイア提示ビユーワ 28 音声的サーチ・パターンのアイコン 30 アナログ/デイジタル・コンバータ 32 テキスト型データ信号から音声信号へのコンバー
タ 40 サーチ・パターン・ウインドウ 42 状態ライン 60 属性ウインドウ 62 変化幅
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウイリアム・ジェー・ジョンソン アメリカ合衆国 テキサス州 フラワ ー・マウンド、セダリア・ドライブ 1445 (72)発明者 マービン・エル・ウイリアムズ アメリカ合衆国 テキサス州 ルイスビ ル、セットラーズ・ウエイ 1152 (56)参考文献 特開 平2−56069(JP,A) 特開 平3−291752(JP,A) 特開 平3−12889(JP,A) 特開 平3−53379(JP,A) 欧州特許出願公開597798(EP,A) IBM TECHINICAL DI SCLOSURE BULLETIN VOL.31,NO.9 PP.46−51, 59−65 (平成元年2月)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】マルチメデイア提示を表示するための表示
    装置を有するデータ処理システムにおいて、音声エレメ
    ントを含むマルチメデイア提示の選択される部分を効率
    的に見つけ出すための方法であってユーザからの入力に応答して音声サーチ・パターンを発
    生する ステップと、上記音声サーチ・パターンをその属性とともに上記表示
    装置に表示して、ユーザに上記属性を指定させる ステッ
    プと、ユーザにより指定された属性に従って上記音声サーチ・
    パターンを変更する ステップと、変更された音声サーチ・パターンを使用して上記マルチ
    メデイア提示をサーチすることにより、上記マルチメデ
    ィア提示において上記変更された音声サーチ・パターン
    に合致する音声エレメントを含む部分を見つける ステツ
    プと、 を具備するマルチメデイア提示の選択された部分を見つ
    け出す方法。
  2. 【請求項2】マルチメデイア提示を表示するための表示
    装置を有するデータ処理システムにおいて、音声エレメ
    ントを含むマルチメデイア提示の選択される部分を効率
    的に見つけ出すためのシステムであってユーザからの入力に応答して音声サーチ・パターンを発
    生する 手段と、上記音声サーチ・パターンをその属性とともに上記表示
    装置に表示して、ユーザに上記属性を指定させる 手段
    と、ユーザにより指定された属性に従って上記音声サーチ・
    パターンを変更する 手段と、変更された音声サーチ・パターンを使用して上記マルチ
    メデイア提示をサーチすることにより、上記マルチメデ
    ィア提示において上記変更された音声サーチ・パターン
    に合致する音声エレメントを含む部分を見つける 手段
    と、 を具備するマルチメデイア提示の選択された部分を見つ
    け出すシステム。
JP5273376A 1992-11-13 1993-11-01 マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法 Expired - Lifetime JP2741833B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US97622592A 1992-11-13 1992-11-13
US976225 1992-11-13

Publications (2)

Publication Number Publication Date
JPH06274533A JPH06274533A (ja) 1994-09-30
JP2741833B2 true JP2741833B2 (ja) 1998-04-22

Family

ID=25523889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5273376A Expired - Lifetime JP2741833B2 (ja) 1992-11-13 1993-11-01 マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法

Country Status (2)

Country Link
EP (1) EP0597798A1 (ja)
JP (1) JP2741833B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997041504A1 (en) * 1996-04-26 1997-11-06 Eloquent, Inc. A method and system for synchronizing and navigating multiple streams of isochronous and non-isochronous data
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
DE60036486T2 (de) 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US7277765B1 (en) 2000-10-12 2007-10-02 Bose Corporation Interactive sound reproducing
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1315098A1 (en) * 2001-11-27 2003-05-28 Telefonaktiebolaget L M Ericsson (Publ) Searching for voice messages

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208745A (en) * 1988-07-25 1993-05-04 Electric Power Research Institute Multimedia interface and method for computer system
JP2834148B2 (ja) * 1988-08-22 1998-12-09 株式会社日立製作所 動画検索装置及び動画処理装置
JP2959473B2 (ja) * 1989-06-09 1999-10-06 カシオ計算機株式会社 文書処理装置
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IBM TECHINICAL DISCLOSURE BULLETIN VOL.31,NO.9 PP.46−51,59−65 (平成元年2月)

Also Published As

Publication number Publication date
EP0597798A1 (en) 1994-05-18
JPH06274533A (ja) 1994-09-30

Similar Documents

Publication Publication Date Title
JP3248981B2 (ja) 計算機
US8966389B2 (en) Visual interface for identifying positions of interest within a sequentially ordered information encoding
US6084582A (en) Method and apparatus for recording a voice narration to accompany a slide show
JP3811280B2 (ja) ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法
US6181351B1 (en) Synchronizing the moveable mouths of animated characters with recorded speech
US6064961A (en) Display for proofreading text
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
US20040138894A1 (en) Speech transcription tool for efficient speech transcription
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20010047266A1 (en) Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video
US20050283363A1 (en) Interactive manual, system and method for vehicles and other complex equipment
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
JP2741833B2 (ja) マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法
US20210304799A1 (en) Transcript-based insertion of secondary video content into primary video content
JPH09185879A (ja) レコーディング・インデクシング方法
JPS6259996A (ja) 辞書操作装置
US7099828B2 (en) Method and apparatus for word pronunciation composition
JP2001511991A (ja) マルチメディア・レコードのためのラベル・インターバル・データの格納および取得の方法及び装置
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
EP1073036B1 (en) Parsing of downloaded documents for a speech synthesis enabled browser
JP2013092912A (ja) 情報処理装置、情報処理方法、並びにプログラム
JP2002344805A (ja) オープンキャプションに対する字幕表示制御方法
WO1997037344A1 (fr) Terminal possedant une fonction de synthese vocale et systeme dispensant des donnees caracteres utilisant ce terminal
JP4311710B2 (ja) 音声合成制御装置